Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • 吐司AI写真 – 吐司TusiArt平台推出的 AI 写真工具

    吐司AI写真是什么

    吐司AI写真是吐司TusiArt平台推出的AI写真工具。吐司AI写真基于AI绘画大模型对用户上传的图片进行风格化处理或重新生成,生成具有高逼真度、类似真实拍摄效果的写真照片。吐司AI写真广泛应用于社交媒体内容创作,如小红书等平台,生成效果逼真风格多样,可用于吸引粉丝或创作个性化内容。

    tusiaixiezhen

    吐司AI写真的主要功能

    • 图片风格化与美化:用户上传任意照片,基于AI技术将其转换为具有特定风格的写真,比如复古风、时尚风、网红风等,同时优化图片的色彩、光影和细节,提升整体质感。
    • 模板化创作:平台提供多种风格的写真模板,用户可以“做同款”,直接使用模板生成与热门风格一致的AI写真,降低创作门槛。
    • 个性化定制:用户根据自己的需求调整生成参数,如风格、色调、光影效果等,生成独一无二的写真。
    • 多场景应用:支持生成手部美甲、宠物写真、动漫风格等多样化内容,满足不同用户的创作需求。

    如何使用吐司AI写真

    • 访问平台:访问吐司TusiArt官网,进入吐司AI写真生成界面。
    • 上传自己的图片:点击“上传图片”按钮,选择想要生成写真的照片(包含生活照、旅游照或任何喜欢的图片)。
    • 使用模板生成:在页面下方或模板库中,浏览其他用户的作品或平台提供的模板。如喜欢某个风格,点击“做同款”,直接使用该模板生成类似的写真。
    • 调整生成参数(可选):在生成页面,调整参数选项,比如风格选择、色彩调整、细节增强等。
    • 开始生成:点击“Go”按钮,AI模型自动处理图片。
    • 下载结果:生成完成后,将生成的AI写真保存到本地。

    吐司AI写真的产品定价

    • 提供免费试用5次生成。

    吐司AI写真的应用场景

    • 社交媒体内容创作:用户生成具有特定风格(如复古风、时尚风、网红风)的写真照片,用于在小红书、Instagram、微博等平台上发布,吸引粉丝关注,提升内容的吸引力和互动性。
    • 个人形象设计与美化:用户上传自己的照片,生成高质量的写真,用在个人简历、社交媒体头像或个人网站,提升个人形象的专业感和时尚感。
    • 创意设计与广告制作:设计师和广告从业者生成具有创意的视觉素材,比如将普通照片转换为艺术风格的写真,用于海报设计、广告宣传或品牌推广。
    • 虚拟人物与角色创作:生成逼真的虚拟人物写真,用于小说插图、动漫角色设计、游戏人物创作等,为虚拟内容赋予更生动的视觉效果。
    • 个性化礼物制作:将亲朋好友的照片成具有特殊风格的写真,制作成个性化的礼物,如照片书、定制相框等,增加礼物的独特性和情感价值。
  • 豆包浏览器插件 – 字节跳动推出的 AI 浏览器智能助手

    豆包浏览器插件是什么

    豆包浏览器插件是字节跳动推出的AI智能助手工具,通过AI技术提升用户的浏览器使用体验。集成了多种实用功能,包括AI问答、内容总结、翻译、智能搜索、一键收藏等。用户可以通过划词翻译、对话框提问等方式快速获取信息,能对网页、文献、视频等内容进行智能总结和翻译,帮助节省时间提升学习与工作效率。

    豆包浏览器插件

    豆包浏览器插件的主要功能

    • AI问答与对话:用户可以在浏览器中随时提问,豆包会提供即时的回答和建议,帮助解决学习、工作或生活中的问题。
    • 内容总结与提取:能快速总结网页、文献、视频等的内容,提取关键信息,帮助用户高效获取核心要点。
    • 翻译功能:支持划词翻译和全文翻译,覆盖多种语言,提供自定义翻译配置,如显示原文、译文下划线等。
    • 智能搜索:优化搜索结果,自动整理信息,提供更精准的搜索体验。
    • 一键收藏:用户可以快速收藏网页、PDF、视频等内容,在豆包收藏夹中统一管理,方便后续查阅。
    • AI伴读:辅助阅读英文文献等资料,提供全文翻译和提问功能,帮助用户更好地理解内容。
    • 创意写作辅助:提供文章开头、段落续写、总结等写作辅助功能,激发创意,提升写作效率。
    • 文本到图像转换:将文本内容转换为图像,增加信息的表达形式。
    • 邮件撰写辅助:帮助用户快速撰写邮件,提供模板和建议,提升沟通效率。

    如何使用豆包浏览器插件

    • 安装方法
      • 下载插件:访问豆包官网,点击下载浏览器插件。
      • 打开浏览器扩展程序页面:以谷歌浏览器为例,输入 chrome://extensions 回车。
      • 开启开发者模式:在扩展程序页面右上角,开启“开发者模式”。
      • 拖拽安装:将下载好的插件文件(把名字命名为 `豆包插件 v1.x.x .crx`的文件)拖拽到扩展程序页面中,点击“添加扩展程序”。
      • 登录账号:安装完成后,登录豆包账号即可开始使用。
    • 使用方法
      • 侧边栏面板:点击浏览器上的豆包图标,打开侧边栏面板,可进行对话、翻译、总结等操作。
      • 划词翻译:选中网页中的文字,右键选择“翻译”或通过划词工具栏进行翻译。
      • 内容总结:点击“总结此网页”按钮,豆包会自动提取网页的关键信息生成摘要。
      • AI搜索:在插件中输入问题,豆包会联网搜索并提供精准答案。
      • 自定义技能:用户可以根据需求自定义划词工具栏的技能,例如一键生成小红书文案。
    • 注意事项
      • 安装时出现“无法从该网站添加应用、扩展程序、和用户脚本”等问题,应该是谷歌浏览器版本不是最新版,推荐在浏览器 – 帮助 – 关于 Google Chrome 中进行升级或者重新安装。
    • 其他浏览器支持:豆包插件在 Microsoft Edge 浏览器、Safari 浏览器,都支持安装使用。
      • Microsoft Edge 浏览器
        • 使用最新版本的 Microsoft Edge 浏览器。
        • 点击’获取’ 点击’添加扩展’到 Microsoft Edge。
        • 弹出页面显示’安装完成’,安装成功。
      • Safari 浏览器
        • 在 App Store 中,下载 Safari 浏览器豆包插件。
        • 点击打开豆包插件,根据提示打开’Safari 扩展菜单’; 在豆包旁边的框里打勾; 允许在所有网站上拥有运行的权限。
        • 看到 Safari 浏览器导航栏的豆包头像,则安装成功。

    豆包浏览器插件的应用场景

    • 学习与研究:快速翻译和总结学术文献、论文,辅助阅读和理解。
    • 日常工作:撰写邮件、创意写作、整理笔记。
    • 信息获取:快速总结网页内容、视频摘要,提升浏览效率。
  • SurveyX – 人民大学联合悉尼大学等推出自动化生成学术综述的系统

    SurveyX是什么

    SurveyX 是基于大型语言模型(LLMs)自动化生成学术综述的系统,是中国人民大学、悉尼大学和中国东北大学联合推出的。基于用户提供论文标题和关键词,快速生成高质量、特定领域的学术综述或论文。SurveyX系统基于先进的语言模型技术,结合数据处理和文献检索能力,帮助用户节省编写学术综述的时间和精力。SurveyX将综述生成过程分解为准备阶段和生成阶段,解决传统方法中上下文窗口限制、知识过时及缺乏系统性评估框架等问题。SurveyX 在内容质量、引用质量和文献相关性方面均优于现有方法,接近人类专家水平,为高效生成高质量学术综述提供了有力支持。

    SurveyX

    SurveyX的主要功能

    • 自动化生成学术综述:用户提供论文标题和相关关键词,系统自动生成高质量的学术综述或研究论文。
    • 定制化内容生成:用户根据自己的研究需求,基于关键词指定文献检索范围,生成特定领域的综述内容。
    • 高效文献检索与整合:基于关键词检索相关文献,整合文献中的信息,生成全面且结构化的综述内容。
    • 支持多种学术领域:系统适用于多种学科领域,包括但不限于人工智能、自然语言处理、计算机科学、医学、物理学等。

    SurveyX的技术原理

    • 关键词扩展与文献检索:基于关键词扩展算法,通过语义聚类和关键词提取,逐步扩展检索关键词池,确保检索的全面性。结合两步过滤方法,用嵌入模型进行粗粒度过滤,用LLMs进行细粒度过滤,确保文献与主题高度相关。
    • 文献预处理:将文献的关键信息提取构建成属性树,显著提高文献信息密度和LLMs的上下文窗口利用率。不同类型的文献(如方法论文、理论论文等)使用不同的属性树模板,确保信息提取的针对性和准确性。
    • 智能大纲生成:基于AttributeTree生成提示(hints),辅助LLMs生成二级大纲。基于“分离-重组”步骤消除冗余,优化大纲的逻辑结构,确保综述的条理性和连贯性。
    • 内容生成与优化:基于RAG技术,结合检索到的文献材料,优化生成内容的引用质量和准确性。在生成过程中,LLMs能查看其他子节的内容,确保生成内容的一致性。
    • 多模态展示与后处理:基于信息提取模板和生成模板,从文献中提取必要信息生成图表和表格,丰富综述的表现形式。用多模态LLMs检索支持内容的图表,进一步提升综述的可读性和信息传达效果。对生成的初稿进行精细化润色,提升文本流畅性、逻辑性和学术性。

    SurveyX的项目地址

    SurveyX的应用场景

    • 学术研究:快速生成高质量的文献综述,帮助研究人员掌握领域现状和研究方向。
    • 跨学科研究:整合多学科文献,促进跨学科知识融合。
    • 动态更新:实时检索最新文献,生成动态综述,助力跟踪前沿研究。
    • 教学辅助:帮助学生学习综述写作,提升学术写作能力。
    • 行业分析:生成技术综述和行业报告,为企业和机构提供决策参考。
  • TheDream.ai – AI图像生成工具,生成多种风格的个性化头像

    TheDream.ai是什么

    TheDream.ai是基于人工智能技术的图像生成工具,专注于为用户提供个性化头像和创意照片生成服务。用户只需上传照片,可通过先进的AI模型和Dreambooth技术,快速生成多种风格的图像,涵盖时尚、艺术、插画、历史等200多种风格。

    TheDream.ai

    TheDream.ai的主要功能

    • 个性化头像生成:用户可以上传自己的照片,通过AI技术生成各种风格的个性化头像,适用于社交媒体、个人品牌等场景。
    • 多样化风格选择:提供超过200种不同的风格,涵盖时尚、艺术、幻想、电影、历史、插画、美妆、视觉、雕塑、趣味和旅行等多种类别,满足不同用户的需求。
    • AI智能创作:基于先进的AI模型和Dreambooth技术,根据用户上传的照片和选择的风格,快速生成高质量、符合用户需求的图像。
    • 隐私保护:注重用户隐私,上传的照片仅用于生成图像,24小时内从服务器删除,确保用户信息安全。
    • 易用性:用户界面简洁友好,操作简单,无需专业技能即可快速上手,适合各种用户群体。
    • 创意灵感激发:除了生成头像,还可以用于生成创意照片、艺术作品或社交媒体内容,帮助用户激发创意和灵感。

    TheDream.ai的官网地址

    TheDream.ai的应用场景

    • 社交媒体头像生成:TheDream.ai 可以为用户生成高质量的社交媒体头像,适用于 Facebook、Instagram、Twitter 等平台,帮助用户提升个人形象和视觉吸引力。
    • 职业形象塑造:对于职场人士,TheDream.ai 可以生成适合 LinkedIn、公司网站等专业平台的正式照片,帮助求职者在简历上展现最佳形象。
    • 在线约会应用:用户可以为约会应用创建有吸引力且真实的个人照片,增强在交友平台上的吸引力。
    • 个人品牌建设:博客作者、影响力者和创作者可以用 TheDream.ai 生成一致的个人形象,用于个人网站、博客或社交媒体。
  • TinyR1-Preview – 奇虎360联合北大团队推出的推理模型

    TinyR1-Preview是什么

    TinyR1-Preview是北京大学计算机学院与360公司联合推出的32B参数量的推理模型。模型仅用5%的参数量,逼近Deepseek-R1-671B的性能,TinyR1-Preview在数学领域(AIME评测78.1分)逼近原版R1(79.8分),远超70B的Deepseek-R1-Distill-Llama(70.0分)。TinyR1-Preview基于“分治-融合”策略,分别训练数学、编程、科学三大垂直领域模型,借助Mergekit工具实现智能融合,突破性能上限。

    TinyR1-Preview

    TinyR1-Preview的主要功能

    • 强大的数学推理能力:在复杂数学问题(如 AIME 2024)上表现出色,快速准确地解决高难度数学题目。
    • 高效的编程辅助:支持代码生成和调试,帮助开发者快速解决问题,提升编程效率。
    • 科学问题解答:支持处理复杂的科学问题,提供准确的答案和解释。
    • 轻量级部署:仅需 32B 参数量,相比大型模型,推理成本更低,适合资源受限的场景。

    TinyR1-Preview的技术原理

    • 分治策略:基于 DeepSeek-R1 生成的海量领域数据,分别训练数学、编程、科学等垂直领域的子模型,每个子模型专注于特定领域的任务。
    • 智能融合:基于 Arcee 团队的 Mergekit 工具,将不同领域的子模型进行智能融合,突破单一模型的性能上限,实现多任务的均衡优化。
    • 蒸馏技术:基于模型蒸馏方法,将大型模型的知识迁移到较小的模型中,仅用 5% 的参数量达到原版 R1 模型 95% 以上的性能。
    • 优化训练:基于领域数据训练和智能融合,TinyR1-Preview 在推理效率和性能上显著提升,保持轻量级的特点,适合快速部署和应用。

    TinyR1-Preview的项目地址

    TinyR1-Preview的应用场景

    • 教育领域:辅助数学学习和编程教育,提供解题思路和代码生成。
    • 科研学术:帮助科研人员解答科学问题,设计实验和分析数据。
    • 软件开发:生成代码、优化算法,提升开发效率。
    • 企业应用:支持数据分析和流程优化,辅助企业决策。
    • 个人生活:作为智能助手,提供知识查询和学习支持。
  • DeepGEMM – DeepSeek 开源的 FP8 通用矩阵乘法库

    DeepGEMM是什么

    DeepGEMM是DeepSeek开源的为高效简洁的FP8矩阵乘法(GEMM)设计的库,目前仅支持NVIDIA Hopper张量核心。DeepGEMM支持普通和混合专家(MoE)分组的GEMM操作,基于即时编译(JIT)技术,无需安装时编译,支持在运行时动态优化。DeepGEMM基于细粒度缩放和CUDA核心双级累加技术,解决FP8精度不足的问题,同时用Hopper的Tensor Memory Accelerator(TMA)特性提升数据传输效率。DeepGEMM核心代码仅约300行,易于学习和优化。DeepGEMM的轻量设计,在多种矩阵形状上均达到或超过专家级优化库。

    DeepGEMM

    DeepGEMM的主要功能

    • 高效FP8矩阵乘法(GEMM):DeepGEMM是专为FP8(8位浮点)矩阵乘法设计的高效库,支持细粒度缩放,显著提升矩阵运算的性能和精度。
    • 支持普通和分组GEMM
      • 普通GEMM:适用于常规的矩阵乘法操作。
      • 分组GEMM:支持混合专家(MoE)模型中的分组矩阵乘法,包括连续布局(contiguous layout)和掩码布局(masked layout),优化多专家共享形状的场景。
    • 即时编译(JIT)设计:基于即时编译技术,所有内核在运行时动态编译,无需安装时编译。根据矩阵形状、块大小等参数进行优化,节省寄存器提升性能。
    • Hopper架构优化:专为NVIDIA Hopper架构设计,充分利用Tensor Memory Accelerator(TMA)特性,包括TMA加载、存储、多播和描述符预取,显著提升数据传输效率。
    • 细粒度缩放和双级累加:为解决FP8精度不足的问题,DeepGEMM引入细粒度缩放技术,基于CUDA核心的双级累加机制,将FP8计算结果提升到更高精度的格式(如BF16),确保计算精度。
    • 轻量级设计:核心代码简洁,仅约300行,易于理解和扩展。避免复杂模板或代数结构的依赖,降低学习和优化的难度。

    DeepGEMM的项目地址

    DeepGEMM的性能表现

    • 普通GEMM(非分组)性能
      • 最高加速比:在某些矩阵形状下,DeepGEMM能达到2.7倍的加速比,显著提升矩阵乘法的效率。
      • 计算性能:在大规模矩阵运算中,DeepGEMM能够实现超过1000 TFLOPS的计算性能,接近Hopper架构GPU的理论峰值。

    DeepGEMM

    • 分组GEMM(MoE模型)性能
      • 加速比:在分组GEMM中,DeepGEMM能实现1.1-1.2倍的加速比,显著提升MoE模型的训练和推理效率。
      • 内存带宽优化:基于TMA特性,DeepGEMM在内存带宽利用上表现出色,达到接近硬件极限的性能。
        • 连续布局(Contiguous Layout)

    DeepGEMM

        • 掩码布局(Masked Layout)

    DeepGEMM

    DeepGEMM的系统要求

    • 硬件要求
      • GPU架构:必须支持NVIDIA Hopper架构,具体要求为支持sm_90a的GPU。推荐使用H800或H100等Hopper架构的GPU,专为FP8计算和Tensor Core优化设计。
      • CUDA兼容性:需要支持CUDA 12.3或更高版本,推荐使用CUDA 12.8或更高版本获得最佳性能。
    • 软件要求
      • 操作系统推荐:使用Linux操作系统(如Ubuntu、CentOS等),因为CUDA和PyTorch在Linux上支持更好。
      • Python版本:Python 3.8或更高版本。
      • CUDA工具包:CUDA 12.3或更高版本。CUDA版本必须与GPU架构匹配,推荐使用12.8或更高版本以充分利用Hopper架构的特性。
      • PyTorch:PyTorch 2.1或更高版本。
      • CUTLASS库:CUTLASS 3.6或更高版本。
    • 其他要求
      • 常规的编译工具(如gcc、make等)。
      • torch.utils.cpp_extension模块,用于CUDA扩展。

    DeepGEMM的应用场景

    • 大规模AI模型推理:加速高维矩阵乘法,提升推理速度。
    • 混合专家(MoE)模型:优化分组矩阵乘法,提高计算效率。
    • 低精度计算:通过细粒度缩放解决FP8精度问题,保持高精度输出。
    • 高性能计算:基于Hopper架构特性,提升矩阵运算效率。
    • 深度学习框架优化:作为底层优化库,加速模型训练和推理。
  • AgentRefine – 北京邮电大学联合美团推出的智能体合成框架

    AgentRefine是什么

    AgentRefine 是北京邮电大学和美团联合提出的智能体合成框架,通过“精炼调整”(Refinement Tuning)提升基于大型语言模型(LLM)的智能体在多样化任务中的泛化能力。让智能体通过轨迹中的观察学习纠正错误,实现自我优化。研究团队受到桌面角色扮演游戏(TRPG)的启发,设计了包含脚本生成、轨迹生成和验证的数据构建流程。

    AgentRefine

    AgentRefine的主要功能

    • 错误纠正与自我优化:AgentRefine 通过轨迹中的观察让智能体学习纠正错误,实现自我优化。过程类似于人类在面对错误时的反思和调整,智能体能更好地适应新环境和任务。
    • 多样化环境与任务集成:框架整合了多种环境和任务,促使智能体在面对复杂场景时能灵活调整策略
    • 增强鲁棒性:AgentRefine 在面对环境扰动时表现出了更强的鲁棒性。例如,在任务描述或环境设置发生微小变化时,AgentRefine 能更好地适应并保持性能。
    • 推理过程多样化:AgentRefine 能在推理过程中生成多样化的思路。依赖于记忆中的固定模式,能根据环境反馈动态调整决策路径。

    AgentRefine的技术原理

    • 自我精炼能力:AgentRefine 的核心思想是让智能体通过轨迹中的观察学习纠正错误。框架通过模拟多轮交互,让模型在生成错误动作后,根据环境反馈进行自我修正。使智能体避免陷入固定错误模式,通过合理探索发现正确的行动序列。
    • 数据合成与验证:该框架通过生成多轮交互数据,并使用验证器检测生成内容中的格式或逻辑错误。错误的交互被保留,并提示模型根据观察结果进行修正,最终生成经过自我精炼的数据。
    • 鲁棒性与推理多样化:AgentRefine 在面对环境扰动时表现出更强的鲁棒性,例如在任务描述或环境设置发生微小变化时,能保持良好性能。框架能生成多样化的推理路径,进一步提升智能体的泛化能力。

    AgentRefine的项目地址

    AgentRefine的应用场景

    • 复杂任务的自动化决策:AgentRefine 可以应用于需要在复杂环境中进行多轮决策的任务,例如自动驾驶、机器人导航和智能客服等。
    • 游戏 AI 和虚拟环境:在游戏 AI 和虚拟环境中,AgentRefine 可以通过自我优化提升智能体的决策质量和多样性。
    • 代码生成与优化:在代码生成领域,AgentRefine 可以生成初始代码,通过自我反思机制识别代码中的错误和不足,进行迭代优化,最终生成高质量的代码。
    • 自然语言处理任务:AgentRefine 可以用于自然语言处理中的文本生成和对话系统。AgentRefine 可以生成初稿并通过自我反思机制优化内容,提升文章质量。
    • 科学研究和模拟环境:在需要模拟复杂环境的科学研究中,AgentRefine 可以通过自我纠正和泛化能力,更好地适应动态变化的环境。
  • Gemini Code Assist – 谷歌推出免费的 AI 编程工具

    Gemini Code Assist是什么

    Gemini Code Assist 是 Google 推出的 AI编程工具,能帮助开发者更高效地编写代码、提升代码质量。Gemini Code Assist 基于 Gemini 2.0 模型,支持所有公开领域的编程语言,提供代码补全、生成、调试和代码审查等功能。Gemini Code Assist 提供每月高达 180,000 次代码补全的免费使用额度,适合学生、自由开发者、初创企业和专业开发者。Gemini Code Assist支持在 Visual Studio Code 和 JetBrains IDE 中使用,基于 GitHub 应用提供免费的 AI 驱动代码审查服务。支持开发者基于自然语言描述需求,快速生成代码片段或优化现有代码。

    Gemini Code Assist

    Gemini Code Assist的主要功能

    • 代码生成与补全:在 IDE 中提供自动代码补全和生成功能,支持多种编程语言。
    • 智能代码审查:自动审查 GitHub 拉取请求,查找错误和风格问题,提供修复建议。
    • 自然语言交互:通过聊天界面与 AI 交互,支持代码解释、生成和转换。
    • 上下文感知:结合 IDE 中的代码和 128K tokens 的上下文窗口,提供更相关的响应。
    • 集成与扩展:支持与 Firebase、Google Cloud 等平台集成,提供更强大的开发支持.

    Gemini Code Assist的官网地址

    Gemini Code Assist的产品定价

    • 个人版:免费预览,提供基础的代码生成、补全和聊天功能。每日6,000 次代码相关请求和 240 次聊天请求。
    • 标准版:年付$19/用户/月,月付$22.80/用户/月,提供企业级的安全性和管理工具,支持代码生成、代码审查、代码补全等功能,适用于团队协作,支持多 IDE(如 VS Code、JetBrains IDEs),提供 Firebase 集成,支持应用质量分析。
    • 企业版:年付$45/用户/月,月付$54/用户/月,提供全面的 AI 驱动的开发解决方案,支持基于私有代码库的定制化代码建议,集成多种 Google Cloud 服务(如 BigQuery、Apigee 等),提供高级功能,如代码上下文感知、应用质量分析、智能命令等。

    Gemini Code Assist的应用场景

    • 代码生成与补全:快速生成代码片段,提高开发效率。
    • 代码审查:自动检测问题,提升代码质量。
    • 自然语言编程:通过文字描述生成代码,降低编程难度。
    • IDE 功能增强:在主流开发环境中提供实时代码建议和调试辅助。
    • GitHub 协作优化:在 GitHub 上辅助代码审查,优化团队协作。
  • Wan2.1 – 阿里开源的AI视频生成大模型

    Wan2.1是什么

    Wan2.1是阿里云开源的AI视频生成大模型,具备强大的视觉生成能力。Wan2.1支持文生视频和图生视频任务,包含两种尺寸的模型,14B参数的专业版擅长复杂运动生成和物理建模,性能卓越;1.3B参数的极速版能在消费级显卡上运行,显存需求低,适合二次开发和学术研究。Wan2.1模型基于因果3D VAE和视频Diffusion Transformer架构,实现高效时空压缩和长时程依赖建模。14B版本在权威评测集Vbench中,以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。Wan2.1开源采用Apache 2.0协议,支持多种主流框架,已在GitHub、HuggingFace和魔搭社区上线,方便开发者使用和部署。

    Wan2.1

    Wan2.1的主要功能

    • 文生视频:根据输入的文本描述生成对应的视频内容,支持中英文长文本指令,精准还原场景切换和角色互动。
    • 图生视频:以图像为基础生成视频,实现更可控的创作,适合从静态图像扩展为动态视频的需求。
    • 复杂运动生成:稳定展现人物或物体的复杂运动,如旋转、跳跃、转身等,支持高级运镜控制。
    • 物理规律模拟:精准还原碰撞、反弹、切割等真实物理场景,生成符合物理规律的视频内容。
    • 多风格生成:支持多种视频风格和质感,适配不同创作需求,同时支持不同长宽比的视频输出。
    • 文字特效生成:具备中文文字生成能力,支持中英文文字特效,提升视频的视觉表现力。

    Wan2.1的技术原理

    • 因果3D VAE(Variational Autoencoder)架构:万相自研专为视频生成设计的因果3D VAE架构。基于编码器将输入数据压缩为潜在空间的表示,再用解码器重建输出。在视频生成中,3D VAE能处理视频中的时空信息,同时结合因果性约束,确保视频生成的连贯性和逻辑性。
    • 视频Diffusion Transformer架构:基于主流的视频Diffusion(扩散模型)和Transformer架构。扩散模型逐步去除噪声生成数据,Transformer基于自注意力机制(Attention)捕捉长时程依赖关系。
    • 模型训练和推理优化
      • 训练阶段:用DP(数据并行)和FSDP(全Sharded数据并行)组合的分布式策略,加速文本和视频编码模块的训练。对于Diffusion模块,基于DP、FSDP、RingAttention和Ulysses混合的并行策略,进一步提升训练效率。
      • 推理阶段:用CP(通道并行)进行分布式加速,减少生成单个视频的延迟。对于大模型,基于模型切分技术,进一步优化推理效率。

    Wan2.1的性能优势

    • 卓越的生成质量:在 Vbench评测 中,14B参数的专业版本以总分86.22% 的成绩大幅超越国内外其他模型(如Sora、Luma、Pika等),稳居榜首。
    • 支持消费级GPU:1.3B参数的极速版仅需8.2GB显存就能生成480P视频,可兼容几乎所有消费级GPU,约4分钟内在RTX 4090上生成5秒的480P视频。
    • 多功能支持:支持文生视频、图生视频、视频编辑、文生图和视频生音频等多种任务,同时具备视觉特效和文字渲染能力,满足多场景创作需求。
    • 高效的数据处理与架构优化:基于自研因果3D VAE和优化的训练策略,支持任意长度视频的高效编解码,显著降低推理内存占用,提升训练和推理效率。

    Wan2.1

    Wan2.1的项目地址

    Wan2.1的效果展示

    • 复杂运动:擅长生成包含广泛肢体动作、复杂旋转、动态场景转换以及流畅镜头运动的逼真视频。

    Wan2.1

    • 物理模拟:能生成准确模拟现实世界物理规律和逼真物体交互的视频。

    Wan2.1

    • 影院级别画质:提供类似电影的视觉效果,具有丰富的纹理和多样化的风格化特效。

    Wan2.1

    • 可控编辑:具备通用编辑模型,可通过图像或视频参考进行精确编辑。

    Wan2.1

    Wan2.1的应用场景

    • 影视制作与特效:生成复杂的动作场景、特效镜头或虚拟角色动画,减少拍摄成本和时间。
    • 广告与营销:快速生成创意广告视频,根据产品特点或品牌调性生成个性化视频内容。
    • 教育与培训:生成教育视频,如科学实验演示、历史场景重现或语言学习视频,增强学习体验。
    • 游戏开发:用于生成游戏内的动画、过场视频或虚拟角色动作,提升游戏的视觉效果和沉浸感。
    • 个人创作与社交媒体:帮助创作者快速生成创意视频,用于社交媒体分享、Vlog制作或个人项目展示。
  • 京点点 – 京东推出的AIGC内容生成平台

    京点点是什么

    京点点是京东零售技术推出的AI内容生成平台,专为电商场景设计,覆盖商品图片、营销文案、等多模态内容生成。基于海量数据训练和先进技术框架,如DiT框架、Flow Matching技术、Zero-Shot可控生成等,实现高效、精准的内容生成,解决电商内容生产效率低、成本高、质量参差不齐等问题。京点点现面向京东商家、京东生态伙伴和京东内部员工全量开放。

    jingdiandian

    京点点的主要功能

    • AI商品图生成:用户上传商品普通拍摄图或白底图,平台自动抠图并结合电商数据推荐场景模板,生成高质量商品场景图,支持添加商品卖点文案和营销利益点,生成商品主图、详情图和营销图等素材。
    • AI营销文案生成:用户输入商品SKU编号或名称,系统提取商品卖点信息,按需生成不同风格的营销文案,帮助商家快速制作吸引消费者的推广内容。
    • 多模态内容生成:结合商品图像、文字描述、用户评价等多模态信息,构建商品知识库,生成更精准、更具吸引力的营销内容。
    • 多场景应用接入:平台能力已接入京东核心B端产品,如智能抠图、商品场景图生成、AI搭配购等,支持家装、时尚、促销等多种电商场景。

    如何使用京点点

    • 访问平台:访问京点点的官方网站
    • 注册/登录账号
      • 京东账号登录:京东商家或合作伙伴,用京东账号登录。
      • ERP账号登录:京东内部员工,用ERP账号登录。
      • 新用户注册:按照提示完成注册和登录。
    • AI商品图生成
      • 上传图片:在首页选择“AI图片”模块。上传商品的普通拍摄图或白底图(支持JPEG、PNG等格式)。
      • 选择模板与设置平台自动识别商品类型推荐合适的场景模板。选择不同的模板风格(如简约风、促销风等),调整布局、背景等参数。
      • 生成图片:点击“生成”按钮,平台自动抠图,结合模板生成高质量的商品场景图。
      • 下载与应用:生成的图片直接下载,用于店铺装修、商品详情页或营销推广。
    • AI营销文案生成
      • 输入商品信息:在首页选择“AI文案”模块。输入商品的SKU编号或商品名称。
      • 选择文案风格:平台会据商品信息提取卖点,提供多种文案风格选项(如正式、幽默、促销等)。根据目标受众和营销场景选择合适的风格。
      • 生成文案:点击“生成”按钮,平台将生成符合要求的营销文案。
      • 应用文案:生成的文案直接使用,或根据需要进行微调。

    京点点的应用场景

    • 京东商家:包括中小卖家、品牌商家和运营人员,快速生成商品图片、文案等运营素材。
    • 设计师:快速生成符合特定风格的设计元素或商品图,提升设计效率。
    • 营销人员:电商营销人员和内容创作者,生成吸引人的文案和视频素材。
    • 京东内部员工:用于商品页面优化和促销活动内容制作。
    • 外部合作伙伴:供应链合作伙伴和广告代理商,快速生成推广素材。