Category: AI项目和框架

  • Codestral – Mistral AI推出的代码生成模型,支持80+编程语言

    Codestral是什么

    Codestral是法国人工智能初创公司Mistral AI推出的一款代码生成AI模型,专为提高软件开发效率而设计,支持超过80种编程语言,包括但不限于Python、Java、C、C++等主流语言,以及Swift、Fortran等特定领域语言。Codestral能够理解自然语言指令,帮助开发者快速完成编程任务,如编写代码、生成测试用例和补全部分代码。作为一个220亿参数的模型,Codestral在性能和响应时间方面超越了以往的代码生成模型。

    Codestral

    Codestral的基本信息

    模型名称 Codestral-22B-v0.1
    模型参数量 220亿
    上下文窗口 32k
    模型许可 MNPL(非生产许可),即非商业用途的研究和测试目的
    支持的编程语言 80+

    Codestral的主要功能

    • 代码补全:Codestral能够理解开发者正在编写的代码,并预测接下来可能需要的代码片段进行自动补全。不仅节省了开发者敲击键盘的时间,还减少了因手动输入造成的错误。
    • 代码生成:开发者可以通过向Codestral提供一段自然语言描述,请求生成特定功能的代码。Codestral能够理解这些描述,并生成符合要求的代码段。
    • 编写测试:Codestral可以帮助开发者自动生成测试代码,这有助于确保新编写的功能按预期工作,并且没有引入新的错误。
    • 多语言兼容:Codestral支持80多种编程语言,无论开发者使用哪种语言,Codestral都能提供相应的帮助。
    • 错误检测与修复:在代码编写过程中,Codestral能够识别潜在的错误和bug,并提供修复建议或自动修复它们,从而提高代码的质量和稳定性。
    • 代码理解和解释:Codestral能够分析代码并解释其功能,这对于学习和理解他人的代码尤其有用。
    • 交互式编程辅助:Codestral的对话式界面允许开发者与模型进行自然语言交互,提出问题或请求帮助,Codestral能够提供即时的反馈和建议。
    • 文档和注释生成:Codestral还能够根据生成的代码自动创建文档和注释,帮助开发者更好地维护和理解代码。
    • 代码重构建议:Codestral可以分析现有代码并提出改进建议,帮助开发者优化代码结构,提高代码的可读性和可维护性。

    Codestral的性能表现

    1. 上下文窗口:Codestral具有32k的上下文窗口,这使得它在处理长距离依赖和复杂代码结构时,相较于其他模型(如CodeLlama 70B的4k、8k或DeepSeek Coder 33B的16k)有更出色的表现。
    2. 性能/延迟:作为一个22B参数的模型,Codestral在代码生成的性能和延迟方面设定了新的行业标准,特别是在RepoBench的评估中,它在长距离代码生成任务上优于其他模型。
    3. 编程语言评估
      • Python:在HumanEval pass@1中,Codestral达到了81.1%的通过率,显示出优秀的Python代码生成能力。
        Mistral AI的性能
      • 多语言评估:Codestral在C++、bash、Java、PHP、Typescript和C#等语言上的HumanEval pass@1评估显示,它具有跨语言的代码生成能力,平均通过率为61.5%。
        Codestral的多语言评估
    4. Fill-in-the-Middle(中间填充)性能:在Python、JavaScript和Java的HumanEvalFIM评估中,Codestral的中间填充性能与DeepSeek Coder 33B相比,显示出高准确率,其中JavaScript和Java的通过率分别为89.4%和95.1%。
      Codestral的FIM
    5. 业界评价:多位专家和开发者对Codestral的性能给予了高度评价,认为它在速度和质量上都达到了前所未有的水平,特别是在与LlamaIndex和LangChain等应用框架的集成中,Codestral显示出快速、准确的代码生成能力。

    如何使用Codestral

    1. 对话式界面

    • 访问Le Chat:通过Mistral AI提供的Le Chat聊天机器人与Codestral进行自然语言交互。
    • 自然语言命令:使用自然语言命令向Codestral发出代码生成、解释或测试等请求。

    2. 研究和测试

    • 下载模型:从HuggingFace平台下载Codestral模型(https://huggingface.co/mistralai/Codestral-22B-v0.1),用于非生产环境下的研究和测试。
    • 环境配置:根据下载的模型文件和文档,配置本地开发环境以运行Codestral。

    3. 通过专用终端

    • 获取API密钥:在Mistral AI的个人账户中生成和管理API密钥。
    • 调用API:使用codestral.mistral.ai端点,通过HTTP请求与Codestral交互,执行代码生成和编辑任务。
    • Beta测试:在Beta测试期间免费使用API端点,并加入等待列表以获得访问权限。

    4. 使用Mistral平台API

    • 创建账户:在Mistral AI的平台上注册账户。
    • 构建应用:按照指南使用Codestral构建应用程序,利用平台提供的API和工具。
    • 计费使用:根据实际使用的token数量进行计费。

    5. 集成开发环境(IDE)插件

    • 安装插件:在VSCode或JetBrains等IDE中安装Codestral支持的插件,如Continue.dev或Tabnine。
    • 配置插件:根据插件文档配置Codestral的使用,包括API密钥和偏好设置。
    • 代码生成和交互:在IDE中直接使用插件生成代码、补全代码或与Codestral进行交互。

    6. 应用框架集成

    • 集成框架:利用Codestral与LlamaIndex和LangChain等应用框架的集成,快速构建智能应用程序。
    • 使用框架工具:根据框架提供的文档和工具,结合Codestral的功能开发应用程序。

    更多信息详见Mistral AI的博客:https://mistral.ai/news/codestral/

  • Universal-1 – AssemblyAI推出的多语种语音识别和转换模型

    Universal-1是什么

    Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型,经过超过1250万小时的多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在多种环境下都能提供高准确率的语音转文字服务,包括嘈杂背景、不同口音和自然对话等,还具备快速响应时间和改进的时间戳准确性。Universal-1的设计注重于提高每一处语音识别的准确性,能够满足客户对语音数据细微差别的需求,是构建下一代AI产品和服务的强大工具。

    Universal-1

    Universal-1的主要特点

    • 多语种支持:Universal-1能够处理包括英语、西班牙语、法语和德语在内的多种语言,并且针对这些语言进行了优化,以提高语音识别的准确性。
    • 高准确率:在不同条件下,如背景噪音、口音多样性、自然对话和语言变化等,Universal-1都能保持出色的语音到文本的转换准确率。
    • 减少幻觉率:与Whisper Large-v3相比, Universal-1将语音数据的幻觉率降低了 30%,即减少了模型在没有声音输入的情况下错误生成文本的情况。
    • 快速响应:Universal-1设计了高效的并行推理能力,能够快速处理长音频文件,提供快速的响应时间。批处理能力相比Whisper Large-v3的速度提高了5倍。
    • 精确的时间戳估计:模型能够提供精确到单词级别的时间戳,这对于音频和视频编辑、会议记录等应用至关重要。Universal-1的时间戳准确性比Whisper Large-v3 提高了26%。
    • 用户偏好:在用户偏好测试中,用户71%的时间更倾向于Universal-1的输出,表明其在实际使用中更能满足用户的需求。

    Universal-1的性能对比

    • 英语语音转文字准确性Universal-1在11个数据集中的5个数据集中实现了最低的词错误率(WER),与OpenAI的Whisper Large-v3、NVIDIA的Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2、Amazon和Google Latest-long等模型相比。
      Universal-1 English WER
    • 非英语语音转文字准确性在西班牙语、法语和德语的测试中,Universal-1在15个数据集中的5个上WER更低,显示了其在这些语言上的竞争力。
      Universal-1 WER by Language
    • 时间戳准确性Universal-1在时间戳准确性方面,相比于Whisper Large-v3,将预测时间戳在100毫秒内的单词比例提高了25.5%,从67.2%提升到84.3%。
      Universal-1时间戳准确性
    • 推理效率在NVIDIA Tesla T4机器上,Universal-1在没有并行化的情况下比更快的whisper后端快3倍,且在64个并行化推理时,仅需21秒即可转录1小时的音频。
    • 幻觉减少Universal-1相比于Whisper Large-v3,在转录音频时的幻觉率降低了30%。
    • 人类偏好测试在人类偏好测试中,评估者在60%的情况下更倾向于Universal-1的输出,而Conformer-2只有24%。
      Universal-1人类偏好
    • 声纹分割聚类Universal-1在声纹分割聚类(Speaker Diarization)准确性方面,相比于Conformer-2,实现了以下改进:
      • Diarization Error Rate (DER) 相对减少了7.7%。
      • 联合测量WER和演讲者标记准确性的cpWER相对减少了13.6%。
      • 演讲者数量估计的准确性相对提高了71.3%。

    如何使用Universal-1

    目前,Universal-1已推出英语和西班牙语版本,德语和法语版本即将推出。后续,AssemblyAI还将在未来的通用模型中添加额外的语言支持。感兴趣的用户可以在Playground或通过API试用。

    1. 通过Playground试用最简单的尝试Universal-1的方式是通过AssemblyAI的Playground在Playground中,用户可以直接上传音频文件或者输入YouTube链接,然后模型会快速生成文字转录。
    2. 免费API试用:用户可以免费注册并获取一个API令牌(API token)。注册后,前往AssemblyAI的文档(Docs)或Welcome Colab,这些资源可帮助快速开始使用API。

    更多关于Universal-1的信息,详见AssemblyAI的官方技术报告:https://www.assemblyai.com/discover/research/universal-1

    Universal-1的应用场景

    • 对话智能平台:能够快速、准确地分析大量客户数据,提供关键的客户声音洞察和分析,无论口音、录音条件或说话人数如何。
    • AI记事本:生成高度准确、无幻觉的会议记录,为基于大型语言模型的摘要、行动项和其他元数据生成提供基础,包括准确的专有名词、发言者和时间信息。
    • 创作者工具:为最终用户构建AI驱动的视频编辑工作流程,利用多种语言的精确语音转文字输出,低错误率和可靠的单词时间信息。
    • 远程医疗平台:自动化临床记录输入和索赔提交流程,利用准确和忠实的语音转文字输出,包括处方名称和医学诊断等罕见词汇,在对抗性和远场录音条件下也具有高成功率。
  • CogVLM2 – 智谱AI推出的新一代多模态大模型

    CogVLM2是什么

    CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块,通过深度融合策略,优化了视觉与语言模态的交互,确保了在增强视觉理解的同时,语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语,模型大小为19亿参数,但实际推理时激活的参数量约为120亿,展现了在多模态任务中的高效性能。

    CogVLM2

    CogVLM2的改进点

    CogVLM2模型相比前代的改进点主要包括以下几个方面:

    • 性能提升:在OCRbench和TextVQA等多个关键基准测试上,CogVLM2的性能有了显著提升,例如在OCRbench上性能提升了32%,在TextVQA上性能提升了21.9%。
    • 文档图像理解:CogVLM2增强了对文档图像的理解和问答能力,特别是在DocVQA基准测试中表现出色。
    • 支持高分辨率图像:模型支持高达1344*1344像素的图像分辨率,能够处理更高清晰度的图像。
    • 支持长文本:CogVLM2支持长达8K的文本输入,这使得模型能够处理更长的文档和更复杂的语言任务。
    • 双语支持:CogVLM2提供了支持中英文双语的开源模型版本,增强了模型的多语言能力。

    CogVLM2的模型信息

    CogVLM2开源了两款以Meta-Llama-3-8B-Instruct为语言基座模型的CogVLM2,分别是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B,感兴趣的用户可以前往GitHub、Hugging Face或魔搭社区进行下载或在线体验。

    模型名称
    cogvlm2-llama3-chat-19B
    cogvlm2-llama3-chinese-chat-19B
    基座模型
    Meta-Llama-3-8B-Instruct
    Meta-Llama-3-8B-Instruct
    语言
    英文
    中文、英文
    模型大小
    19B
    19B
    任务
    图像理解,对话模型
    图像理解,对话模型
    模型链接
    体验链接
    Int4模型
    暂未推出
    暂未推出
    文本长度
    8K
    8K
    图片分辨率
    1344 * 1344
    1344 * 1344

    CogVLM2的模型架构

    CogVLM2的模型架构在继承上一代模型的基础上进行了优化和创新,具体特点如下:

    1. 视觉编码器:CogVLM2采用了一个拥有50亿参数的视觉编码器,负责对输入图像进行特征提取和编码。
    2. 视觉专家模块:在大语言模型中整合了一个70亿参数的视觉专家模块,这一模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。
    3. 深度融合策略:CogVLM2采用了深度融合策略,使得视觉模态与语言模态能够更加紧密地结合,从而增强了模型在视觉理解能力的同时,保持了在语言处理上的优势。
    4. MLP Adapter:模型中使用了MLP(多层感知器)Adapter,用于调整和适配不同模态之间的特征。
    5. 降采样模块:为了更好地处理和理解高分辨率的文档或网页图片,CogVLM2在视觉编码器后引入了一个专门的降采样模块,有效提取关键信息,减少输入到语言模型中的序列长度。
    6. Word Embedding:模型包含了Word Embedding层,用于将文本转换为模型可以理解的数值型向量。
    7. 多专家模块结构:CogVLM2设计了多专家模块结构,使得在进行推理时,实际激活的参数量仅约120亿,这种设计既保证了模型的性能,又提高了推理效率。
    8. 语言基座模型:CogVLM2使用了Meta-Llama-3-8B-Instruct作为语言基座模型,为模型提供了强大的语言理解和生成能力。

    CogVLM2的架构

    CogVLM2的模型性能

    CogVLM2的团队在一系列多模态基准上进行了定量评估,这些基准包括 TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet、MMBench等。从下表可以看出CogVLM2 的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。
    CogVLM2的基准测试得分

    模型 是否开源 模型规模 TextVQA DocVQA ChartQA OCRbench MMMU MMVet MMBench
    LLaVA-1.5 13B 61.3 337 37.0 35.4 67.7
    Mini-Gemini 34B 74.1 48.0 59.3 80.6
    LLaVA-NeXT-LLaMA3 8B 78.2 69.5 41.7 72.1
    LLaVA-NeXT-110B 110B 85.7 79.7 49.1 80.5
    InternVL-1.5 20B 80.6 90.9 83.8 720 46.8 55.4 82.3
    QwenVL-Plus 78.9 91.4 78.1 726 51.4 55.7 67.0
    Claude3-Opus 89.3 80.8 694 59.4 51.7 63.3
    Gemini Pro 1.5 73.5 86.5 81.3 58.5
    GPT-4V 78.0 88.4 78.5 656 56.8 67.7 75.0
    CogVLM1.1 (Ours) 7B 69.7 68.3 590 37.3 52.0 65.8
    CogVLM2-LLaMA3 (Ours) 8B 84.2 92.3 81.0 756 44.3 60.4 80.5
    CogVLM2-LLaMA3-Chinese (Ours) 8B 85.0 88.4 74.7 780 42.8 60.5 78.9
  • Veo – 谷歌推出的可生成1分钟1080P的视频模型

    Veo是什么

    Veo是由Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容,能够生成时长超过一分钟1080P分辨率的高质量视频。Veo拥有对自然语言的深入理解,能够准确捕捉和执行各种电影制作术语和效果,如延时摄影或航拍镜头。Veo生成的视频不仅在视觉上更加连贯一致,而且在人物、动物和物体的动作表现上也更加逼真。Veo的开发旨在使视频制作更加普及,无论是专业电影制作人、新兴创作者还是教育工作者,都能够利用这一工具来探索新的叙事和教学方式。

    Google Veo

    Veo的主要功能

    • 高分辨率视频输出:Veo 能够生成高质量的 1080p 分辨率视频,这些视频的时长可以超过一分钟,满足长视频内容的制作需求。
    • 深入的自然语言处理:Veo 对自然语言有深刻的理解,能够准确解析用户的文本提示,包括复杂的电影制作术语,如“延时摄影”、“航拍”、“特写镜头”等,从而生成与用户描述相符的视频内容。
    • 广泛的风格适应性:该模型支持多种视觉和电影风格,从现实主义到抽象风格,都能根据用户的提示进行创作。
    • 创意控制与定制:Veo 提供了前所未有的创意控制层级,用户可以通过具体的文本提示来精细调控视频的各个方面,包括场景、动作、色彩等。
    • 遮罩编辑功能:允许用户对视频的特定区域进行编辑,如添加或移除物体,实现更精准的视频内容修改。
    • 参考图像与风格应用:用户可以提供一张参考图像,Veo 会根据该图像的风格和用户的文本提示生成视频,确保生成的视频在视觉上与参考图像保持一致。
    • 视频片段的剪辑与扩展:Veo 能够接收一个或多个提示,将视频片段剪辑并流畅地扩展到更长的时长,甚至通过一系列提示讲述一个完整的故事。
    • 视频帧间的视觉连贯性:通过使用先进的潜在扩散变换器技术,Veo 能够减少视频帧之间的不一致性,确保视频中的人物、物体和场景在转换过程中保持连贯和稳定。

    Veo生成的视频

    Veo的技术原理

    Veo 的开发不是一蹴而就的,而是基于谷歌多年在视频生成领域的研究和实验,这包括了对多个先前模型和技术的深入分析和改进。

    Veo的技术

    • 先进的生成模型:Veo建立在一系列先进的生成模型之上,如 Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere 等。这些模型为 Veo 提供了生成高质量视频内容的技术基础。
    • Transformer架构:Veo采用了Transformer架构,这是一种在自然语言处理和其他序列任务中表现出色的模型架构。Transformer架构通过自注意力机制能够更好地捕捉文本提示中的细微差别。
    • Gemini模型:Veo还整合了Gemini模型的技术,该模型在理解视觉内容和生成视频方面具有先进的能力。
    • 高保真度视频表示:Veo使用高质量的压缩视频表示(latents),这种表示方式能够以较小的数据量捕捉视频的关键信息,从而提高视频生成的效率和质量。
    • 水印和内容识别:Veo生成的视频会使用 SynthID 这样的先进工具进行水印标记,以帮助识别 AI 生成的内容,并通过安全过滤器和记忆检查过程来减少隐私、版权和偏见风险。

    如何使用和体验Veo

    Veo技术仍处于实验阶段,目前仅对选定的创作者开放。普通用户若想要体验的话,需要在VideoFX的网站上注册并加入等待名单,以获得早期尝试 Veo 的机会。此外,Google 计划将 Veo 的一些功能集成到 YouTube Shorts 中,这意味着未来用户可以在制作短视频时使用 Veo 的高级视频生成技术。

    若想要了解更多关于Veo的信息请查看其官方网站介绍:https://deepmind.google/technologies/veo/

    Veo的应用场景

    • 电影制作:Veo 可以辅助电影制作人快速生成场景预览,帮助他们规划实际拍摄,或者在预算和资源有限的情况下模拟高成本的拍摄效果。
    • 广告创意:广告行业可以利用 Veo 生成吸引人的视频广告,快速迭代创意概念,以更低的成本和更高的效率测试不同的广告场景。
    • 社交媒体内容:内容创作者可以使用 Veo 生产用于社交媒体平台的引人入胜的视频内容,增加粉丝互动和提高观看率。
    • 教育和培训:在教育领域,Veo 可以用来创建教育视频,模拟复杂的概念或历史事件,使学习过程更加直观和有趣。
    • 新闻报道:新闻机构可以利用 Veo 快速生成新闻故事的视频摘要,提高报道的吸引力和观众的理解度。
    • 个性化视频:Veo 可以用于生成个性化的视频内容,如生日祝福、纪念视频等,为个人提供定制化的体验。
  • 混元DiT – 腾讯混元开源的文生图扩散模型Hunyuan-DiT

    混元DiT是什么

    混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的高质量图像。混元DiT采用了创新的网络架构,结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。在中文到图像生成领域,混元DiT达到了开源模型中的领先水平。

    混元DiT

    混元DiT的主要功能

    • 双语文本到图像生成:混元DiT能够根据中文或英文的文本提示生成图像,这使得它在跨语言的图像生成任务中具有广泛的应用潜力。
    • 细粒度中文元素理解:模型特别针对中文进行了优化,可以更好地理解和生成与中国传统文化相关的元素,如中国古诗、中国传统服饰、中国节日等。
    • 长文本处理能力:支持长达256个标记的文本输入,使得DiT能够理解和生成与复杂长文本描述相匹配的图像。
    • 多尺寸图像生成:Hunyuan-DiT能够在多种尺寸比例下生成高质量的图像,满足从社交媒体帖子到大尺寸打印等不同用途的需求。
    • 多轮对话和上下文理解:通过与用户进行多轮对话,混元DiT能够根据对话历史和上下文信息生成和迭代图像,这增强了交互性和创造性。
    • 图像与文本的高一致性:Hunyuan-DiT生成的图像在内容上与输入的文本提示高度一致,确保了图像能够准确反映文本的意图和细节。
    • 艺术性和创意性:混元DiT不仅能够生成常见的图像,还能够捕捉文本中的创意描述,生成具有艺术性和创意性的图像作品。

    混元DiT生成的图片

    混元DiT的官网入口

    混元DiT的技术架构

    混元DiT的架构

    • 双文本编码器:混元DiT结合了双语CLIP和多语言T5编码器,以增强对输入文本的理解和编码能力。CLIP模型因其强大的图像和文本之间的关联能力而被选用,而T5模型则因其在多语言和文本理解方面的能力。
    • 变分自编码器(VAE):使用预训练的VAE将图像压缩到低维潜在空间,这有助于扩散模型学习数据分布。VAE的潜在空间对生成质量有重要影响。
    • 扩散模型:基于扩散Transformer,混元DiT使用扩散模型来学习数据分布。该模型通过交叉注意力机制将文本条件与扩散模型结合。
    • 改进的生成器:扩散Transformer相比于基线DiT有若干改进,例如使用自适应层归一化(AdaNorm)来加强细粒度文本条件的执行。
    • 位置编码:混元DiT采用旋转位置嵌入(RoPE)来同时编码绝对位置和相对位置依赖性,支持多分辨率训练和推理。
    • 多模态大型语言模型(MLLM):用于图像-文本对的原始标题的重构,以提高数据质量。MLLM经过微调,能够生成包含世界知识的结构化标题。
    • 数据管道:包括数据获取、解释、分层和应用。通过一个称为“数据车队”的迭代过程来检查新数据的有效性。
    • 后训练优化:在推理阶段进行优化,以降低部署成本,包括ONNX图优化、内核优化、操作融合等。

    混元DiT与其他文生图模型的比较

    为了全面比较HunyuanDiT与其他模型的生成能力,混元团队构建了4个维度的测试集,超过50名专业评估人员进行评估,包括文本图像一致性、排除AI伪影、主题清晰度、审美。

    模型 开源 文图一致性(%) 排除 AI 伪影(%) 主题清晰度(%) 审美(%) 综合得分(%)
    SDXL 64.3 60.6 91.1 76.3 42.7
    PixArt-α 68.3 60.9 93.2 77.5 45.5
    Playground 2.5 71.9 70.8 94.9 83.3 54.3
    SD 3 77.1 69.3 94.6 82.5 56.7
    Midjourney v6 73.5 80.2 93.5 87.2 63.3
    DALL-E 3 83.9 80.3 96.5 89.4 71.0
    Hunyuan-DiT 74.2 74.3 95.4 86.6 59.0
  • AniTalker – 上海交大开源的对口型说话视频生成框架

    AniTalker是什么

    AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的AI对口型说话视频生成框架,能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。该框架通过自监督学习策略捕捉面部的复杂动态,包括微妙的表情和头部动作。AniTalker利用通用运动表示和身份解耦技术,减少了对标记数据的依赖,同时结合扩散模型和方差适配器,生成多样化和可控制的面部动画,可实现类似阿里EMO和腾讯AniPortrait的效果。

    AniTalker

    AniTalker的主要功能

    • 静态肖像动画化:AniTalker能够将任何单张人脸肖像转换成动态视频,其中人物能够进行说话和表情变化。
    • 音频同步:该框架能够将输入的音频与人物的唇动和语音节奏同步,实现自然的对话效果。
    • 面部动态捕捉:不仅仅是唇动同步,AniTalker还能模拟一系列复杂的面部表情和微妙的肌肉运动。
    • 多样化动画生成:利用扩散模型,AniTalker能够生成具有随机变化的多样化面部动画,增加了生成内容的自然性和不可预测性。
    • 实时面部动画控制:用户可以通过控制信号实时指导动画的生成,包括但不限于头部姿势、面部表情和眼睛运动。
    • 语音驱动的动画生成:框架支持直接使用语音信号来生成动画,无需额外的视频输入。
    • 长视频连续生成:AniTalker能够连续生成长时间的动画视频,适用于长时间的对话或演讲场景。

    AniTalker说话视频生成

    AniTalker的官网入口

    AniTalker的工作原理

    AniTalker的工作原理

    • 运动表示学习:AniTalker使用自监督学习方法来训练一个能够捕捉面部动态的通用运动编码器。这个过程涉及到从视频中选取源图像和目标图像,并通过重建目标图像来学习运动信息。
    • 身份与运动解耦:为了确保运动表示不包含身份特定的信息,AniTalker采用了度量学习和互信息最小化技术。度量学习帮助模型区分不同个体的身份信息,而互信息最小化确保运动编码器专注于捕捉运动而非身份特征。
    • 分层聚合层(HAL):引入HAL( Hierarchical Aggregation Layer)来增强运动编码器对不同尺度运动变化的理解能力。HAL通过平均池化层和加权和层整合来自图像编码器不同阶段的信息。
    • 运动生成:在训练好运动编码器之后,AniTalker可以基于用户控制的驱动信号生成运动表示。这包括视频驱动和语音驱动的管道。
      • 视频驱动管道:使用驱动演讲者的视频序列来为源图像生成动画,从而准确复制驱动姿势和面部表情。
      • 语音驱动管道:与视频驱动不同,语音驱动方法根据语音信号或其他控制信号来生成视频,与输入的音频同步。
    • 扩散模型和方差适配器:在语音驱动方法中,AniTalker使用扩散模型来生成运动潜在序列,并使用方差适配器引入属性操作,从而产生多样化和可控的面部动画。
    • 渲染模块:最后,使用图像渲染器根据生成的运动潜在序列逐帧渲染最终的动画视频。
    • 训练和优化:AniTalker的训练过程包括多个损失函数,如重建损失、感知损失、对抗损失、互信息损失和身份度量学习损失,以优化模型性能。
    • 控制属性特征:AniTalker允许用户控制头部姿态和相机参数,如头部位置和面部大小,以生成具有特定属性的动画。

    AniTalker的应用场景

    • 虚拟助手和客服:AniTalker可以生成逼真的虚拟面孔,用于虚拟助手或在线客服,提供更加自然和亲切的交互体验。
    • 电影和视频制作:在电影后期制作中,AniTalker可以用来生成或编辑演员的面部表情和动作,尤其是在捕捉原始表演时无法实现的场景。
    • 游戏开发:游戏开发者可以利用AniTalker为游戏角色创建逼真的面部动画,增强游戏的沉浸感和角色的表现力。
    • 视频会议:在视频会议中,AniTalker可以为参与者生成虚拟面孔,尤其是在需要保护隐私或增加趣味性的场合。
    • 社交媒体:用户可以利用AniTalker创建个性化的虚拟形象,在社交媒体上进行交流和分享。
    • 新闻播报:AniTalker可以生成虚拟新闻主播,用于自动化新闻播报,尤其是在需要多语言播报时。
    • 广告和营销:企业可以利用AniTalker生成吸引人的虚拟角色,用于广告宣传或品牌代言。
  • IC-Light – ControlNet作者开源的AI图片打光工具

    IC-Light是什么

    IC-Light是一款由ControlNet作者张吕敏开发的AI图像打光处理工具,可以对图片进行光源操纵和光影重构,实现与不同背景的完美融合。用户只需上传图片,选择光源方向并输入提示词,IC-Light便能自动抠图并生成融合了新光源和背景的新图片。该工具支持文本条件和背景条件下的图像重照明,适用于多种场景,包括日常照片编辑、电商商品海报制作等,目前已开源,可通过GitHub获取相关模型和代码。

    IC-Light

    IC-Light的主要功能

    • 图像重打光:IC-Light能够改变图片的光源效果,使得图片在视觉上与新的背景或环境融合得更加自然。
    • 文本条件重照明:用户可以通过输入描述性的文字提示,如“左侧光线”、“月光”等,来指导IC-Light生成具有特定光照效果的图像。
    • 背景条件模型:IC-Light还可以根据背景图片的提示信息,对前景物体进行不同风格的光照变化,而无需复杂的文字描述。
    • 光源方向选择:用户可以指定光源的方向,比如从左侧、右侧或上方照射,以创造出更加逼真的光照效果。
    • 自动抠图:IC-Light具备自动抠图功能,能够将上传的图片中的主体与背景分离,进而进行光照效果的调整。
    • 风格化融合:IC-Light支持将图片与不同风格的背景进行融合,如赛博朋克风格、科幻风格等,增加了图片编辑的创意空间。
    • 一致性保证:通过潜在空间的一致性,IC-Light确保在不同光源组合下,模型输出的光照效果具有高度的一致性。

    IC-Light Demo

    IC-Light的项目入口

    如何使用IC-Light

    1. 运行Gradio:下载GitHub源码本地运行或者访问Hugging Face的在线版Gradio Demo
    2. 上传图片:上传一张你想要编辑的图片。这张图片将作为前景主体,IC-Light会在此基础上进行光照效果的调整。
    3. 选择光源位置:根据你想要实现的光照效果,选择光源的方向。IC-Light允许用户指定光源是从左侧、右侧、顶部或任何其他方向照射。
    4. 输入提示词:对于文本条件重照明模型,你需要输入描述性的提示词,比如“温暖的阳光”、“昏暗的灯光”等,这些提示词将指导IC-Light生成相应的光照效果。
    5. 选择背景(可选):如果需要,你可以选择一张背景图片,IC-Light会将前景图片与所选背景进行融合,创造出新的光照和背景效果。
    6. 调整参数:根据需要,你可能需要调整一些额外的参数,如光源的大小、模糊度或颜色等,以获得最佳的视觉效果。
    7. 生成新图片:完成上述步骤后,IC-Light将自动处理图片,并生成一张新的图片,其中包含了你所指定的光照效果。

    IC-Light的应用场景

    • 个人照片编辑:用户可以上传个人照片,通过IC-Light改变光照效果,使得照片看起来更具艺术感或适应不同的背景环境。
    • 专业摄影后期:摄影师可以使用IC-Light对拍摄的照片进行光照调整,以获得更加理想的光照效果,提升作品的专业品质。
    • 电商产品展示:电商平台可以利用IC-Light将产品图片与各种背景融合,创造出更具吸引力的商品展示效果。
    • 广告和海报设计:设计师可以借助IC-Light快速实现广告或海报中的光影效果,提高设计效率和创意表现。
    • 模拟真实环境光照:在3D建模和渲染领域,IC-Light可以用来模拟真实世界的光照条件,提升模型的真实感。
  • PuLID – 字节跳动开源的个性化文本到图像生成框架

    PuLID是什么

    PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。该技术能够保持高身份(ID)保真度,同时最大限度地减少对原始图像风格和背景的干扰,支持用户通过文本提示轻松编辑图像,生成逼真且个性化的图像结果。PuLID支持个性化编辑,允许用户通过简单提示调整人物属性,且易于大规模应用,适用于艺术创作、虚拟形象定制和影视制作等多个领域。

    PuLID

    PuLID的功能特色

    • 高度逼真的面部定制:用户只需提供目标人物的面部图像,PuLID便能精准地将该面部特征应用到各种风格的图像中,生成极具真实感的定制化肖像。
    • 原始风格保留:在进行面部替换的过程中,PuLID精心设计算法以最大程度地保留原始图像的风格元素,如背景、光照和整体艺术风格,确保生成的图像与原图风格一致。
    • 灵活的个性化编辑:PuLID支持通过简单的文本提示对生成的图像进行细致的编辑,包括但不限于人物的表情、发型、配饰等,赋予用户更大的创作自由度。
    • 快速出图能力:利用先进的快速采样技术,PuLID能够在极短的时间内生成高质量的图像,大幅提升了图像生成的效率。
    • 无需精细调整:用户在使用PuLID时,无需进行繁琐的模型调整或参数优化,即可快速获得理想的图像结果,极大降低了技术门槛。
    • 兼容性与灵活性:PuLID与多种现有的基础模型和身份编码器具有良好的兼容性,使其能够轻松集成到不同的应用平台中。

    PuLID

    PuLID的官网入口

    PuLID的工作原理

    PuLID的工作原理

    • 双分支训练框架:PuLID采用一个结合了标准扩散模型和快速Lightning T2I分支的双分支训练框架。这种设计允许模型在生成图像时同时优化身份定制和原始图像风格的保持。
    • 对比对齐:通过构建具有相同文本提示和初始潜在条件的两条生成路径(一条包含ID插入,另一条不包含),PuLID使用对比对齐损失来语义上对齐这两条路径的UNet特征,指导模型如何在不干扰原始模型行为的情况下嵌入ID信息。
    • 快速采样:PuLID利用快速采样技术,从纯噪声状态快速生成高质量的图像,这为精确计算ID损失提供了条件,因为生成的图像更接近真实世界数据的分布。
    • 精确ID损失:在ID插入后,PuLID使用生成的高质量初始图像(x0)来提取面部嵌入,并与真实面部嵌入计算准确的ID损失,确保生成的图像在身份特征上的高保真度。
    • 校准损失:包括语义校准损失和布局校准损失,确保模型对文本提示的响应在两条路径中保持一致,从而保持风格、布局的一致性,并允许个性化编辑。
    • 端到端优化:PuLID的训练目标是联合优化扩散损失、对齐损失和ID损失,以训练出一个既能够生成高质量图像,又能保持高ID保真度的模型。

    PuLID的应用场景

    • 艺术创作:艺术家和设计师可以利用PuLID快速生成具有特定身份特征的人物肖像,用于绘画、插图和数字艺术作品。
    • 虚拟形象定制:在游戏和虚拟现实应用中,用户可以通过PuLID创建或修改虚拟角色的面部特征,打造个性化的虚拟形象。
    • 影视制作:电影和电视剧的后期制作可以采用PuLID技术进行角色面部替换或特效制作,提高制作效率并降低成本。
    • 广告和营销:企业可以在广告中使用PuLID技术,将模特或名人的面部特征融入不同的场景和风格中,以吸引目标客户群。
    • 社交媒体:社交媒体用户可以利用PuLID生成具有个性化特征的图像,用于个人头像或内容创作。
  • Vidu – 生数科技发布的视频大模型,可生成16秒1080P的视频

    Vidu是什么

    Vidu是中国首个长时长、高一致性、高动态性的视频大模型,由生数科技与清华大学联合开发。该AI视频生成模型采用原创的U-ViT架构,结合Diffusion与Transformer技术,能够一键生成长达16秒、1080P分辨率的高清视频。Vidu能模拟真实物理世界,具备丰富的想象力,支持多镜头生成,保持时空一致性,效果接近Sora,代表了中国在视频大模型领域的技术突破。

    Vidu

    Vidu的主要功能

    • 文本到视频生成:用户可以通过输入简单的文本提示,快速生成长达16秒的高清视频内容,大大降低了视频制作的技术门槛,使得非专业用户也能轻松制作出高质量的视频。
    • 高分辨率输出:Vidu支持生成分辨率高达1080P的视频,生成的视频具有非常清晰的画质,适合在各种高清显示设备上播放。
    • 多镜头生成能力:Vidu支持同时生成多个镜头视角的视频,能够制作出类似于电影或电视剧中常见的多镜头切换效果,增加了视频的动态感和观赏性。
    • 模拟真实世界:Vidu能够模拟真实世界的物理特性,如物体的运动、光影的变化等,使得生成的视频内容更加逼真。
    • 保持时空一致性:在生成多镜头视频时,Vidu能够保证不同镜头之间的时空关系是连贯的,避免了不同镜头之间出现时空错乱的情况。
    • 丰富的想象力:除了模拟现实世界,Vidu还具备丰富的想象力,能够创造出新颖的视频内容,满足用户在创意表达上的需求。
    • 多模态融合能力:虽然目前Vidu主要聚焦于视频内容的生成,但基于其多模态大模型的特性,未来它有望整合文本、图像等多种模态的信息,生成更加丰富和立体的视频内容。

    Vidu

    Vidu的技术架构

    • Diffusion技术:Diffusion是一种生成模型技术,它通过逐步引入噪声并学习如何逆转这个过程来生成高质量的图像或视频。Vidu利用Diffusion技术生成连贯且逼真的视频内容。
    • Transformer架构:Transformer是一种深度学习模型,最初用于自然语言处理任务,因其强大的性能和灵活性,后来被广泛应用于计算机视觉等领域。Vidu结合了Transformer架构来处理视频数据。
    • U-ViT架构:U-ViT是Vidu技术架构的核心,是一种将Diffusion与Transformer融合的创新架构。U-ViT由生数科技团队提出,是全球首个此类融合架构,它结合了Diffusion模型的生成能力和Transformer模型的感知能力。
    • 多模态扩散模型UniDiffuser:UniDiffuser是生数科技基于U-ViT架构开发的多模态扩散模型,它验证了U-ViT架构在处理大规模视觉任务时的可扩展性。
    • 长视频表示与处理技术:Vidu在U-ViT架构的基础上,进一步突破了长视频表示与处理的关键技术,这使得Vidu能够生成更长、更连贯的视频内容。
    • 贝叶斯机器学习:贝叶斯机器学习是一种统计学习方法,它通过贝叶斯定理来更新模型的概率估计。Vidu在开发过程中,团队利用了贝叶斯机器学习的技术来优化模型性能。

    如何使用Vidu

    Vidu目前仅处于发布阶段,还没有提供正式访问和使用的入口,感兴趣的公司或机构可以申请加入其合作伙伴计划https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

    Vidu的适用人群

    • 视频创作者:Vidu为视频制作人员提供了一个强大的工具,可以快速生成高质量的视频内容,适用于独立视频制作人、电影制作人、动画师等。
    • 游戏开发者:游戏开发团队可以利用Vidu生成逼真的游戏环境和动态背景,提升游戏的视觉效果和玩家体验。
    • 广告和营销专业人士:广告创意人员和营销团队可以使用Vidu来制作吸引人的视频广告,以更低的成本和更高的效率吸引目标客户。
    • 教育工作者:教师和培训师可以利用Vidu制作教育视频,如模拟实验、历史重现等,使学习过程更加直观和有趣。
    • 新闻工作者:新闻机构和记者可以使用Vidu生成新闻报道中的动态背景或模拟场景,提高报道的真实性和观赏性。
  • VideoGigaGAN – Adobe推出的AI视频分辨率提升模型

    VideoGigaGAN是什么

    VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视频放大为具有丰富细节和时间连贯性的高清视频。该模型基于大规模图像上采样器GigaGAN,通过创新的技术手段,如流引导的特征传播、抗锯齿处理和高频穿梭,解决了传统VSR方法中存在的模糊和闪烁问题,显著提升了视频上采样后的时间一致性和高频细节表现。

    VideoGigaGAN

    VideoGigaGAN的功能特色

    • 高效视频超分辨率:VideoGigaGAN能够将标准或低分辨率视频内容转换为高分辨率格式,显著提升视频的清晰度和观赏性。
    • 细节增强保持:在提升分辨率的同时,该模型注重保留视频的高频细节,如细小纹理和锐利边缘,避免传统放大方法中常见的模糊和失真现象。
    • 帧间连贯性优化:通过先进的技术手段,VideoGigaGAN确保视频中连续帧之间的过渡平滑自然,有效避免了时间闪烁和不一致性问题,提供连贯的观影体验。
    • 快速渲染能力:该模型具备快速处理能力,能够在短时间内完成视频的超分辨率处理,适合需要快速转换或实时处理的应用场景。
    • 高倍率视频放大:支持高达8倍的视频放大比例,对于需要大幅度提升视频分辨率的专业应用,如影像编辑和视觉效果制作,提供了强有力的技术支持。
    • 全面提升视频质量:不仅提升分辨率,VideoGigaGAN还改善视频的整体画质,包括色彩、对比度和细节层次,使得视频内容更加生动和真实。
    • 生成高真实感视频:利用强大的生成对抗网络架构,VideoGigaGAN能够生成接近自然拍摄效果的高分辨率视频,满足高端视频制作的需求。

    VideoGigaGAN的官网入口

    VideoGigaGAN的技术原理

    VideoGigaGAN的工作原理

    • 基础架构:VideoGigaGAN建立在GigaGAN图像上采样器的基础上,GigaGAN是一个大规模的生成对抗网络(GAN),能够对图像进行高质量的上采样。
    • 时间模块扩展:为了将GigaGAN应用于视频处理,研究者将2D图像模块扩展到3D时间模块,通过在解码器中添加时间卷积层和时间自注意力层,以处理视频序列。
    • 流引导特征传播:为了提高视频帧之间的时间一致性,VideoGigaGAN采用了流引导特征传播模块。该模块使用双向循环神经网络(RNN)和图像反变形层,基于光流信息对特征进行对齐和传播。
    • 抗锯齿处理:为了减少高频细节区域的时间闪烁,VideoGigaGAN在编码器的下采样层中使用了抗锯齿块(BlurPool),代替传统的步幅卷积,以减少别名效应。
    • 高频特征穿梭(HF Shuttle):为了补偿在上采样过程中可能丢失的高频细节,VideoGigaGAN通过跳跃连接将高频特征直接传输到解码器层。
    • 损失函数:在训练过程中,VideoGigaGAN使用了包括标准GAN损失、R1正则化、LPIPS损失和Charbonnier损失在内的多种损失函数,以优化模型性能。
    • 训练与推理:VideoGigaGAN在训练时联合优化流引导特征传播模块和扩展的GigaGAN模型。在推理时,首先使用流引导模块生成帧特征,然后将特征输入到GigaGAN块中进行上采样。
    • 数据集和评估:使用标准的VSR数据集进行训练和测试,如REDS和Vimeo-90K,并通过PSNR、SSIM、LPIPS等指标评估模型的上采样质量。

    VideoGigaGAN的应用场景

    • 视频画质增强:对于旧电影、家庭录像或任何低分辨率的视频材料,VideoGigaGAN可以提升其分辨率,改善画质,使其更适合现代播放设备。
    • 视频安全监控:在安全监控领域,VideoGigaGAN可以帮助提高视频的清晰度,从而更好地识别和分析视频中的对象或事件。
    • 视频编辑与后期制作:在视频编辑和后期制作中,VideoGigaGAN可以用来提升原始视频的分辨率,以满足高质量输出的需求。
    • 视频传输与存储:在带宽有限的情况下,通过降低视频的传输分辨率可以减少数据传输量。VideoGigaGAN可以在接收端将视频上采样到高分辨率,以改善观看体验。
    • 视频安全与认证:在需要验证视频内容真实性的场景下,VideoGigaGAN可以帮助恢复视频细节,辅助进行内容的真伪鉴定。