Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • ToonCrafter – 腾讯等开源的卡通动画视频插帧工具

    ToonCrafter是什么

    ToonCrafter是由腾讯AI实验室、香港中文大学和香港城市大学的研究人员开源的卡通动画视频中间帧生成工具,突破了传统卡通动画制作中线性运动的假设限制,采用创新的生成式插值技术,仅需两张关键帧图片,即可自动生成中间动态帧,创造出流畅的动画效果。与需要逐帧绘制的传统动画制作方法相比,ToonCrafter极大地提高了动画制作的效率,减少了动画师的工作量,缩短了制作时间,同时保持了动画的质量和创意性。

    ToonCrafter

    ToonCrafter的功能特色

    • 生成式卡通插值ToonCrafter利用深度学习模型,通过给定的两张关键帧图片,自动推算并生成中间帧,实现卡通动画的平滑过渡和动态效果。该插值方法不仅填补了帧与帧之间的空白,还能够模拟复杂的运动模式,如角色动作和场景变化。
    • 细节保持与增强ToonCrafter采用先进的双参考3D解码器技术,确保在生成新帧的过程中,图像的细节得到保留甚至增强。这种机制特别适用于卡通动画,因为它们通常包含清晰的线条和鲜明的色彩,需要在插值过程中避免细节的模糊和失真。
    • 支持草图指导动画ToonCrafter提供了一个草图编码器,允许用户通过简单的草图输入来指导动画的生成。用户可以指定动画的某些方面,如角色的运动轨迹或特定风格的强调,从而实现个性化的动画效果。
    • 遮挡区域处理ToonCrafter能够有效识别和处理动画中的遮挡情况,例如当一个角色或对象部分或完全遮挡另一个时。该工具能够合理推断遮挡区域的运动和变化,生成符合视觉逻辑的帧。
    • 多应用场景ToonCrafter的应用范围广泛,不仅可以用于生成完整的卡通动画视频,还适用于从卡通素描线稿生成动画,以及对现有动画进行上色和风格化处理,提供了动画制作的多样性。

    ToonCrafter

    ToonCrafter的官网入口

    ToonCrafter的技术原理

    ToonCrafter的工作原理

    1. 生成式插值框架:ToonCrafter采用了一种新颖的生成式插值方法,与传统的基于对应关系的插值方法不同,它不依赖于显式的帧间对应关系,而是通过学习视频数据的潜在表示来进行帧的生成。
    2. 领域适配(Toon Rectification Learning)通过领域适配策略,ToonCrafter能够将真实视频的运动先验适配到卡通视频领域,解决了领域差异问题,避免了非卡通内容的意外合成。
    3. 双参考3D解码器利用双参考3D解码器,ToonCrafter能够补偿由于潜在空间压缩导致的细节丢失。这种解码器通过混合注意力残差学习机制(HAR),将输入图像的细节信息注入到生成帧的潜在表示中。
    4. 混合注意力残差学习机制(HAR)在解码过程中,HAR通过交叉注意力机制将输入图像的特征注入到解码器的浅层,同时在深层使用残差学习来增强细节的恢复。
    5. 伪3D卷积(Pseudo-3D Convolution)为了增强时间上的连贯性,ToonCrafter在解码器中引入了伪3D卷积,这有助于改善时间序列帧之间的一致性。
    6. 草图编码器(Sketch Encoder)提供了一个独立的草图编码器,允许用户通过输入草图来控制生成动画的运动和风格,增加了生成过程的交互性和可控性。
    7. 扩散模型(Diffusion Models)ToonCrafter基于扩散模型,这是一种从数据中逐步添加噪声,然后学习逆过程以去除噪声并恢复数据的生成模型。在视频生成中,这允许从随机噪声中生成连续的视频帧。
    8. 迭代去噪过程在生成每一帧时,ToonCrafter通过迭代去噪过程逐步精细化生成的图像,从噪声中恢复出清晰的帧。
    9. 端到端的训练和优化ToonCrafter的各个组件通过端到端的方式进行训练和优化,确保整个插值过程的协同工作和最终生成视频的质量。
    10. 多模态输入支持除了起始和结束帧,ToonCrafter还支持如草图、参考图像等多模态输入,以增强生成动画的表现力和控制性。

    如何使用和体验ToonCrafter

    方法一、在线版Demo体验

    1. 访问Hugging Face版的在线Demo,https://huggingface.co/spaces/Doubiiu/tooncrafter
    2. 在Input Image添加输入图像
    3. 输入提示词并调节Seed值、步长、FPS等
    4. 最后点击Generate按钮进行生成视频

    方法二、本地代码部署

    开发人员可以选择本地部署和运行ToonCrafter,具体步骤如下:

    1. 获取代码访问ToonCrafter的项目页面,或使用Git命令克隆或下载代码到本地。git clone https://github.com/ToonCrafter/ToonCrafter.git
    2. 环境准备:通过Anaconda安装所需的Python环境和依赖库
      conda create -n tooncrafter python=3.8.5
      conda activate tooncrafter
      pip install -r requirements.txt
    3. 下载预训练模型:下载预先训练好的ToonCrafter_512模型并将其model.ckpt放入checkpoints/tooncrafter_512_interp_v1/model.ckpt
    4. 命令行运行 sh scripts/run.sh
    5. 运行本地Gradio版界面:你也可以选择运行本地Gradio UI,运行指令 python gradio_app.py
    6. 然后按照上方在线版的操作步骤输入图片并设置参数进行生成即可
  • Follow-Your-Emoji – 腾讯等推出的基于扩散模型的人像动画框架

    Follow-Your-Emoji是什么

    Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架,利用扩散模型为参考肖像添加目标表情序列,实现动态动画效果。该技术通过表情感知标志点精确对齐表情与肖像,避免身份信息泄露,同时使用面部精细损失函数强化模型对微妙表情变化的捕捉能力。Follow-Your-Emoji支持多种风格的人像动画,包括真人、卡通、雕塑甚至动物,展现出高度的控制性和表现力。

    Follow-Your-Emoji

    Follow-Your-Emoji的功能特色

    • 动态表情同步:利用扩散模型技术,Follow-Your-Emoji能够将预定义或实时捕获的表情序列精确同步到静态参考肖像上,实现如眨眼、微笑、皱眉等复杂表情的动态变化。
    • 身份特征保持:在动画化过程中,框架特别设计了机制来确保参考肖像的关键身份特征得以保留,即使在表情变化剧烈时也能防止身份信息的失真或泄露。
    • 夸张表情表现:通过表情感知标志点技术,框架能够捕捉并再现夸张的表情动作,例如在卡通或漫画风格中常见的大幅度瞳孔扩张或收缩,增强动画的表现力。
    • 多风格适应:Follow-Your-Emoji框架不仅限于现实风格的肖像,还能够适应并动画化卡通、雕塑、动物等不同艺术风格和表现形式的肖像,显示出其广泛的适用性。
    • 时间连贯性:通过面部精细损失函数,框架在生成每一帧动画时都考虑到了与前后帧的连贯性,确保整个动画序列在时间上的自然过渡和流畅表现。
    • 长期动画生成:采用渐进式生成策略,Follow-Your-Emoji能够生成不仅在短期内连贯,而且在长期播放中也能保持稳定性和高质量的动画效果。
    • 高度控制性:用户可以细致地控制表情序列,从而对动画输出进行精确调整,允许用户根据特定需求定制动画效果,实现个性化创作。

    Follow-Your-Emoji的官网入口

    Follow-Your-Emoji的技术原理

    Follow-Your-Emoji的工作原理

    1. 基于扩散模型的框架:使用扩散模型(Stable Diffusion)作为基础,这是一种先进的深度学习模型,能够生成高质量的图像和视频内容。
    2. 表情感知标志点(Expression-Aware Landmark):利用MediaPipe等工具从动态视频中提取3D关键点,然后将其投影到2D平面,形成用于指导动画过程的表情感知标志点。这些标志点特别关注于表情变化的关键区域,如眼睛(瞳孔点)和嘴巴,以实现更精确的表情同步。
    3. 面部精细损失(Facial Fine-Grained Loss Function):引入一种新的损失函数,通过面部遮罩和表情遮罩来指导模型在训练过程中更加关注面部表情的细节。该损失函数通过计算预测结果与真实结果在遮罩区域内的差异,帮助模型学习如何更好地捕捉微妙的表情变化。
    4. 多风格适应性:框架设计为能够适应不同风格的肖像,无论是真人、卡通、雕塑还是动物,都能够实现自然的动画效果。
    5. 渐进式生成策略:为了生成长期动画,采用从粗糙到精细的渐进式生成策略,首先生成关键帧,然后通过插值生成中间帧,以保持动画的连贯性和稳定性。
    6. 时间注意力机制:在UNet网络中加入时间注意力层,以保持动画帧之间的时间一致性和动态连贯性。
    7. 预训练与微调:使用大量的表达训练数据集对模型进行预训练,然后针对特定的动画任务进行微调,以提高模型的表现力和准确性。
    8. 数据集和基准建设:团队构建了EmojiBench基准,包含多种风格和表情的肖像视频,用于评估和验证模型的性能。
    9. 推理与动画生成:在推理阶段,模型结合表情感知标志点和时间注意力机制,生成动态的肖像动画,同时保持参考肖像的身份特征。
    10. 用户控制与定制:用户可以通过提供不同的输入表情序列来控制动画的输出,实现高度定制化的动画效果。

    Follow-Your-Emoji的基准

  • Qwen2 – 阿里云开源的新一代通义千问大模型

    Qwen2是什么

    Qwen2是由阿里云通义千问团队开源的新一代大语言模型,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提升了模型的自然语言理解、代码编写、数学解题和多语言处理能力。Qwen2支持最长达128K tokens的上下文长度,优化了模型的泛化性和应用潜力。该系列模型在多个评测基准上表现优异,赶超Meta的Llama-3-70B,目前已在Hugging Face和ModelScope平台开源。

    Qwen2

    Qwen2的模型信息

    模型名称 参数量 (B) 非Embedding参数量 (B) 是否使用GQA 是否Tie Embedding 上下文长度 (tokens)
    Qwen2-0.5B 0.49 0.35 32K
    Qwen2-1.5B 1.54 1.31 32K
    Qwen2-7B 7.07 5.98 128K
    Qwen2-57B-A14B 57.41 56.32 64K
    Qwen2-72B-Instruct 72.71 70.21 128K
    • 参数量:模型总的参数数量,以B(十亿)为单位。
    • 非Embedding参数量:除去词嵌入(Embedding)部分的参数数量。
    • 是否使用GQA:模型是否采用了GQA(Generalized Query Answering)技术。
    • 是否Tie Embedding:模型是否使用了输入和输出层共享参数的技术。
    • 上下文长度:模型能够处理的最大上下文长度,以tokens为单位。

    Qwen2的官网入口

    Qwen2的模型评测

    • Qwen2系列在多个评测基准上表现出色,特别是在Qwen2-72B模型上,实现了大幅度的效果提升。
    • 在自然语言理解、知识、代码、数学和多语言等多项能力上,Qwen2-72B显著超越了当前领先的模型,如Llama-3-70B和Qwen1.5的110B模型。
    • 在16个基准测试中,Qwen2-72B-Instruct展现了在基础能力和对齐人类价值观方面的平衡,超越了Qwen1.5的72B模型,并与Llama-3-70B-Instruct相匹敌。

    Qwen2的性能

    Qwen2的模型亮点

    • 代码 & 数学:Qwen2在代码和数学方面的能力显著提升,成功融合了CodeQwen1.5的经验,并在多种编程语言上实现效果提升。数学能力通过大规模高质量数据支持,实现了解题能力的飞跃。
      Qwen2的代码数学能力
    • 长文本处理:Qwen2系列的Instruct模型在32k上下文长度上训练,并通过技术如YARN扩展至更长上下文,Qwen2-72B-Instruct能完美处理128k上下文长度的信息抽取任务。
    • 安全性:在多语言不安全查询类别中,Qwen2-72B-Instruct在安全性方面与GPT-4相当,且显著优于Mistral-8x22B模型,减少了生成有害响应的比例。
    • 多语言能力:Qwen2在多语言评测中表现优异,增强了27种语言的处理能力,并优化了语言转换问题,降低了模型发生语言转换的概率。
  • Seed-TTS – 字节跳动推出的高质量文本到语音生成模型

    Seed-TTS是什么

    Seed-TTS是由字节跳动开发的高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。Seed-TTS支持对情感、语调、说话风格等语音属性的精细控制,适用于有声读物、视频配音等多种场景。此外,该模型还具备零样本学习能力,即使在没有训练数据的情况下也能生成高质量语音,并且支持内容编辑和多语种翻译功能。

    Seed-TTS

    Seed-TTS的主要功能

    • 高质量语音生成: Seed-TTS采用了先进的自回归模型和声学声码器技术,能够生成接近人类自然语音的高质量语音。模型在大量数据上进行训练,学习到丰富的语音特征和语言模式,从而能够合成清晰、流畅、自然的语音输出。
    • 上下文学习: 该模型具备出色的上下文学习能力,可以在理解给定文本的上下文基础上,生成与上下文风格和语义相匹配的语音。无论是连续的对话还是单独的句子,Seed-TTS都能够保持语音的连贯性和一致性。
    • 情感控制: Seed-TTS能够根据文本内容或额外的情感标签,控制生成语音的情感色彩。用户可以指定语音中应表达的情感,如愤怒、快乐、悲伤或惊讶等,模型会相应地调整语音的音调、强度和节奏,以匹配所选情感。
    • 语音属性可控: 除了情感,Seed-TTS还允许用户控制其他语音属性,包括语调、节奏和说话风格。用户可以根据应用场景的需求,调整语音使其更正式或非正式,或者更具戏剧化效果。
    • 零样本学习能力(Zero-shot Learning): 即使没有特定说话者的训练数据,Seed-TTS也能够利用其在大量数据上训练得到的泛化能力,生成高质量的语音。此能力使得Seed-TTS能够快速适应新的说话者或语言,而无需额外的训练过程。
    • 语音编辑: Seed-TTS支持对生成的语音进行编辑,包括内容编辑和说话速度编辑。用户可以根据需要修改语音中的特定部分,或调整语速以适应不同的听众或应用场景。
    • 多语种支持: 模型设计支持多种语言的文本输入,能够生成相应语言的语音,使得Seed-TTS可以服务于全球化的应用,满足不同语言用户的需求。
    • 语音分解: Seed-TTS通过自我蒸馏方法实现了语音的属性分解,例如可以将语音的音色与其他属性(如内容和情感)分离,为语音合成提供了更高的灵活性和控制力,允许用户独立地修改和重组语音的不同组成部分。

    Seed-TTS的官网入口

    Seed-TTS的工作原理

    Seed-TTS的系统架构

    1. 语音分词(Speech Tokenization): 首先,Seed-TTS使用一个语音分词器将输入的语音信号转换成一系列离散的语音标记(tokens)。这些标记是语音合成的基础,类似于文本中的字符或单词。
    2. 条件文本和语音处理: 接下来,Seed-TTS的自回归语言模型根据输入的文本和语音标记生成目标语音的标记序列。这个过程依赖于模型对语言结构和语音特性的理解,确保生成的语音标记序列在语义和语法上与输入文本相匹配。
    3. 语音表示生成: 生成的语音标记序列随后被送入一个扩散变换器(diffusion transformer)模型。这个模型负责将离散的语音标记转换成连续的语音表示,这个过程是逐步细化的,从粗糙到精细,以生成平滑且自然的语音波形。
    4. 声学声码器(Acoustic Vocoder): 最后,连续的语音表示被送入声学声码器,该组件负责将这些表示转换成可听的高质量语音。声码器通常使用深度学习技术来模拟人类声道产生语音的过程。
    5. 训练和微调: Seed-TTS模型在大量数据上进行预训练,以学习语言和语音的基本规律。之后,可以通过微调来适应特定的说话者或语音风格,进一步提升语音的自然度和表现力。
    6. 自我蒸馏和强化学习: Seed-TTS还采用了自我蒸馏方法来实现语音属性的分解,如音色分离,以及使用强化学习技术来增强模型的鲁棒性、说话者相似性和可控性。
    7. 端到端处理: 对于非自回归的变体Seed-TTSDiT,它采用完全基于扩散的架构,直接从文本到语音的端到端处理,不依赖预先估计的音素持续时间。

    如何使用Seed-TTS

    Seed-TTS目前只提供了技术论文和官方Demo,暂未开放使用地址,感兴趣的用户可以前往官网查看官方演示。

    Seed-TTS的应用场景

    • 虚拟助手:Seed-TTS可以为虚拟助手提供自然、流畅的语音交互能力,提升用户体验。
    • 有声读物和音频书籍:利用Seed-TTS生成高质量语音,可以将电子书籍转换成有声读物,供用户聆听。
    • 视频配音:Seed-TTS可以用于视频内容的配音,特别是在需要特定情感表达或语调的场景下。
    • 客户服务自动化:在客户服务领域,Seed-TTS可以提供自动语音回复功能,处理常规咨询和信息查询。
    • 电影和游戏配音:在电影制作和视频游戏开发中,Seed-TTS可以用于角色配音,提供多样化的声音选择。
    • 新闻和播客制作:Seed-TTS可以自动将文本新闻或播客稿件转换成语音,快速制作音频内容。
    • 辅助残障人士:Seed-TTS可以为有语言障碍的人士提供语音合成服务,帮助他们更好地进行沟通。
  • ChatTTS – 开源的用于对话的生成式语音合成模型

    ChatTTS是什么

    ChatTTS是一款专为对话场景设计的支持中英文的文本转语音(TTS)模型,基于约10万小时的中英文数据进行训练,能够生成高质量、自然流畅的对话语音。ChatTTS针对对话式任务进行了优化,实现了更自然、流畅的语音合成,同时支持多说话人,还具备细粒度控制能力,能够预测和控制韵律特征,如笑声、停顿等,超越了大部分开源TTS模型。

    ChatTTS

    ChatTTS的功能特色

    • 文本转语音:ChatTTS能够将用户输入的文本信息实时转换成自然流畅的语音输出,适用于多种语言环境。
    • 多语言支持:除了支持中文,ChatTTS还能够处理英文文本,使其能够服务于更广泛的用户群体。
    • 情感和韵律调整:ChatTTS不仅能够转换文本,还能够根据文本内容调整语音的情感色彩和韵律特征,如语速、语调、停顿等,使得语音更加贴近真实人类说话的自然节奏。
    • 语音角色选择:用户可以根据应用场景的需要,从多个预设的语音角色中选择最合适的声音,增加语音的个性化和表现力。
    • 交互式Web界面:通过直观的Web界面,用户可以直接在浏览器中输入文本并获取语音输出,无需编写代码。
    • 实时语音交互:ChatTTS支持实时语音合成,非常适合需要即时反馈的对话系统和交互式应用。
    • 语音文件导出:用户可以将合成的语音导出为常见的音频文件格式,方便进行后续的编辑、分享或作为多媒体内容的一部分。
    • 集成与兼容性:ChatTTS支持集成到各种平台和应用中,可以无缝集成到Web应用、移动应用、桌面软件等多种环境中。
    • 情感标记系统:ChatTTS支持在文本中嵌入情感标记,允许用户精细控制语音输出的情感表达,如在文本中插入[laugh]标记来模拟笑声。

    ChatTTS WebUI

    ChatTTS的官网入口

    如何运行ChatTTS

    方法一、在线体验Demo

    普通用户可以在ModelScope和Hugging Face上运行社区提供的在线ChatTTS WebUI版的Demo直接体验

    方法二、本地部署运行

    1. 安装环境:确保你的计算机上安装了Python和Git。
    2. SDK下载:安装ModelScope和SDK模型下载
      #安装ModelScope
      pip install modelscope
      #SDK模型下载
      from modelscope import snapshot_download
      model_dir = snapshot_download('pzc163/chatTTS')
    3. 获取源码:通过Git版本控制系统,从ModelScope的代码仓库克隆ChatTTS的源码到本地。
      #Git模型下载
      git clone https://www.modelscope.cn/pzc163/chatTTS.git
    4. 安装依赖:进入到项目目录,使用pip命令安装所需的Python依赖包。
      pip install -r requirement.txt
      pip install Ipython
      pip install soundfile
      
    5. 模型推理:可使用魔搭社区免费算力,完成模型推理
      from ChatTTS import Chat
      from IPython.display import Audio
      #下载模型
      from modelscope import snapshot_download
      
      model_dir = snapshot_download('pzc163/chatTTS')
      
      chat = Chat()
      chat.load_models(source='local', local_path=model_dir)
      
      texts = ["你好,我是ChatTTS,很高兴认识大家",]
      
      wavs = chat.infer(texts, use_decoder=True)
      Audio(wavs[0], rate=24_000, autoplay=True)
      
      # save audio
      import soundfile as sf
      audio_data = wavs[0]
      if len(audio_data.shape) > 1:  
          audio_data = audio_data.flatten()
      
      output_file = './output_audio2.wav'
      sf.write(output_file, audio_data, 24000)
      print(f"Audio saved to {output_file}")
    6. 搭建WebUI并运行
      git clone https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo.git
      cd ChatTTS
      pip install -r requirements.txt
      python app.py

    ChatTTS的应用场景

    • 虚拟助手和客服机器人:ChatTTS可以为虚拟助手和在线客服机器人提供自然、流畅的语音输出,提升用户体验。
    • 有声读物和电子书:将文本内容转换为语音,为有声书和电子书提供语音朗读功能,方便用户在通勤或做家务时收听。
    • 社交媒体和内容创作:在社交媒体平台或内容创作中,ChatTTS可以生成吸引人的语音内容,增加互动性和趣味性。
    • 新闻和播客:自动将新闻稿或博客文章转换成语音,用于播客或新闻广播。
    • 无障碍辅助:为视障人士或有阅读困难的用户提供语音辅助,使他们能够通过听来获取信息。
  • Codestral – Mistral AI推出的代码生成模型,支持80+编程语言

    Codestral是什么

    Codestral是法国人工智能初创公司Mistral AI推出的一款代码生成AI模型,专为提高软件开发效率而设计,支持超过80种编程语言,包括但不限于Python、Java、C、C++等主流语言,以及Swift、Fortran等特定领域语言。Codestral能够理解自然语言指令,帮助开发者快速完成编程任务,如编写代码、生成测试用例和补全部分代码。作为一个220亿参数的模型,Codestral在性能和响应时间方面超越了以往的代码生成模型。

    Codestral

    Codestral的基本信息

    模型名称 Codestral-22B-v0.1
    模型参数量 220亿
    上下文窗口 32k
    模型许可 MNPL(非生产许可),即非商业用途的研究和测试目的
    支持的编程语言 80+

    Codestral的主要功能

    • 代码补全:Codestral能够理解开发者正在编写的代码,并预测接下来可能需要的代码片段进行自动补全。不仅节省了开发者敲击键盘的时间,还减少了因手动输入造成的错误。
    • 代码生成:开发者可以通过向Codestral提供一段自然语言描述,请求生成特定功能的代码。Codestral能够理解这些描述,并生成符合要求的代码段。
    • 编写测试:Codestral可以帮助开发者自动生成测试代码,这有助于确保新编写的功能按预期工作,并且没有引入新的错误。
    • 多语言兼容:Codestral支持80多种编程语言,无论开发者使用哪种语言,Codestral都能提供相应的帮助。
    • 错误检测与修复:在代码编写过程中,Codestral能够识别潜在的错误和bug,并提供修复建议或自动修复它们,从而提高代码的质量和稳定性。
    • 代码理解和解释:Codestral能够分析代码并解释其功能,这对于学习和理解他人的代码尤其有用。
    • 交互式编程辅助:Codestral的对话式界面允许开发者与模型进行自然语言交互,提出问题或请求帮助,Codestral能够提供即时的反馈和建议。
    • 文档和注释生成:Codestral还能够根据生成的代码自动创建文档和注释,帮助开发者更好地维护和理解代码。
    • 代码重构建议:Codestral可以分析现有代码并提出改进建议,帮助开发者优化代码结构,提高代码的可读性和可维护性。

    Codestral的性能表现

    1. 上下文窗口:Codestral具有32k的上下文窗口,这使得它在处理长距离依赖和复杂代码结构时,相较于其他模型(如CodeLlama 70B的4k、8k或DeepSeek Coder 33B的16k)有更出色的表现。
    2. 性能/延迟:作为一个22B参数的模型,Codestral在代码生成的性能和延迟方面设定了新的行业标准,特别是在RepoBench的评估中,它在长距离代码生成任务上优于其他模型。
    3. 编程语言评估
      • Python:在HumanEval pass@1中,Codestral达到了81.1%的通过率,显示出优秀的Python代码生成能力。
        Mistral AI的性能
      • 多语言评估:Codestral在C++、bash、Java、PHP、Typescript和C#等语言上的HumanEval pass@1评估显示,它具有跨语言的代码生成能力,平均通过率为61.5%。
        Codestral的多语言评估
    4. Fill-in-the-Middle(中间填充)性能:在Python、JavaScript和Java的HumanEvalFIM评估中,Codestral的中间填充性能与DeepSeek Coder 33B相比,显示出高准确率,其中JavaScript和Java的通过率分别为89.4%和95.1%。
      Codestral的FIM
    5. 业界评价:多位专家和开发者对Codestral的性能给予了高度评价,认为它在速度和质量上都达到了前所未有的水平,特别是在与LlamaIndex和LangChain等应用框架的集成中,Codestral显示出快速、准确的代码生成能力。

    如何使用Codestral

    1. 对话式界面

    • 访问Le Chat:通过Mistral AI提供的Le Chat聊天机器人与Codestral进行自然语言交互。
    • 自然语言命令:使用自然语言命令向Codestral发出代码生成、解释或测试等请求。

    2. 研究和测试

    • 下载模型:从HuggingFace平台下载Codestral模型(https://huggingface.co/mistralai/Codestral-22B-v0.1),用于非生产环境下的研究和测试。
    • 环境配置:根据下载的模型文件和文档,配置本地开发环境以运行Codestral。

    3. 通过专用终端

    • 获取API密钥:在Mistral AI的个人账户中生成和管理API密钥。
    • 调用API:使用codestral.mistral.ai端点,通过HTTP请求与Codestral交互,执行代码生成和编辑任务。
    • Beta测试:在Beta测试期间免费使用API端点,并加入等待列表以获得访问权限。

    4. 使用Mistral平台API

    • 创建账户:在Mistral AI的平台上注册账户。
    • 构建应用:按照指南使用Codestral构建应用程序,利用平台提供的API和工具。
    • 计费使用:根据实际使用的token数量进行计费。

    5. 集成开发环境(IDE)插件

    • 安装插件:在VSCode或JetBrains等IDE中安装Codestral支持的插件,如Continue.dev或Tabnine。
    • 配置插件:根据插件文档配置Codestral的使用,包括API密钥和偏好设置。
    • 代码生成和交互:在IDE中直接使用插件生成代码、补全代码或与Codestral进行交互。

    6. 应用框架集成

    • 集成框架:利用Codestral与LlamaIndex和LangChain等应用框架的集成,快速构建智能应用程序。
    • 使用框架工具:根据框架提供的文档和工具,结合Codestral的功能开发应用程序。

    更多信息详见Mistral AI的博客:https://mistral.ai/news/codestral/

  • Universal-1 – AssemblyAI推出的多语种语音识别和转换模型

    Universal-1是什么

    Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型,经过超过1250万小时的多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在多种环境下都能提供高准确率的语音转文字服务,包括嘈杂背景、不同口音和自然对话等,还具备快速响应时间和改进的时间戳准确性。Universal-1的设计注重于提高每一处语音识别的准确性,能够满足客户对语音数据细微差别的需求,是构建下一代AI产品和服务的强大工具。

    Universal-1

    Universal-1的主要特点

    • 多语种支持:Universal-1能够处理包括英语、西班牙语、法语和德语在内的多种语言,并且针对这些语言进行了优化,以提高语音识别的准确性。
    • 高准确率:在不同条件下,如背景噪音、口音多样性、自然对话和语言变化等,Universal-1都能保持出色的语音到文本的转换准确率。
    • 减少幻觉率:与Whisper Large-v3相比, Universal-1将语音数据的幻觉率降低了 30%,即减少了模型在没有声音输入的情况下错误生成文本的情况。
    • 快速响应:Universal-1设计了高效的并行推理能力,能够快速处理长音频文件,提供快速的响应时间。批处理能力相比Whisper Large-v3的速度提高了5倍。
    • 精确的时间戳估计:模型能够提供精确到单词级别的时间戳,这对于音频和视频编辑、会议记录等应用至关重要。Universal-1的时间戳准确性比Whisper Large-v3 提高了26%。
    • 用户偏好:在用户偏好测试中,用户71%的时间更倾向于Universal-1的输出,表明其在实际使用中更能满足用户的需求。

    Universal-1的性能对比

    • 英语语音转文字准确性Universal-1在11个数据集中的5个数据集中实现了最低的词错误率(WER),与OpenAI的Whisper Large-v3、NVIDIA的Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2、Amazon和Google Latest-long等模型相比。
      Universal-1 English WER
    • 非英语语音转文字准确性在西班牙语、法语和德语的测试中,Universal-1在15个数据集中的5个上WER更低,显示了其在这些语言上的竞争力。
      Universal-1 WER by Language
    • 时间戳准确性Universal-1在时间戳准确性方面,相比于Whisper Large-v3,将预测时间戳在100毫秒内的单词比例提高了25.5%,从67.2%提升到84.3%。
      Universal-1时间戳准确性
    • 推理效率在NVIDIA Tesla T4机器上,Universal-1在没有并行化的情况下比更快的whisper后端快3倍,且在64个并行化推理时,仅需21秒即可转录1小时的音频。
    • 幻觉减少Universal-1相比于Whisper Large-v3,在转录音频时的幻觉率降低了30%。
    • 人类偏好测试在人类偏好测试中,评估者在60%的情况下更倾向于Universal-1的输出,而Conformer-2只有24%。
      Universal-1人类偏好
    • 声纹分割聚类Universal-1在声纹分割聚类(Speaker Diarization)准确性方面,相比于Conformer-2,实现了以下改进:
      • Diarization Error Rate (DER) 相对减少了7.7%。
      • 联合测量WER和演讲者标记准确性的cpWER相对减少了13.6%。
      • 演讲者数量估计的准确性相对提高了71.3%。

    如何使用Universal-1

    目前,Universal-1已推出英语和西班牙语版本,德语和法语版本即将推出。后续,AssemblyAI还将在未来的通用模型中添加额外的语言支持。感兴趣的用户可以在Playground或通过API试用。

    1. 通过Playground试用最简单的尝试Universal-1的方式是通过AssemblyAI的Playground在Playground中,用户可以直接上传音频文件或者输入YouTube链接,然后模型会快速生成文字转录。
    2. 免费API试用:用户可以免费注册并获取一个API令牌(API token)。注册后,前往AssemblyAI的文档(Docs)或Welcome Colab,这些资源可帮助快速开始使用API。

    更多关于Universal-1的信息,详见AssemblyAI的官方技术报告:https://www.assemblyai.com/discover/research/universal-1

    Universal-1的应用场景

    • 对话智能平台:能够快速、准确地分析大量客户数据,提供关键的客户声音洞察和分析,无论口音、录音条件或说话人数如何。
    • AI记事本:生成高度准确、无幻觉的会议记录,为基于大型语言模型的摘要、行动项和其他元数据生成提供基础,包括准确的专有名词、发言者和时间信息。
    • 创作者工具:为最终用户构建AI驱动的视频编辑工作流程,利用多种语言的精确语音转文字输出,低错误率和可靠的单词时间信息。
    • 远程医疗平台:自动化临床记录输入和索赔提交流程,利用准确和忠实的语音转文字输出,包括处方名称和医学诊断等罕见词汇,在对抗性和远场录音条件下也具有高成功率。
  • CogVLM2 – 智谱AI推出的新一代多模态大模型

    CogVLM2是什么

    CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块,通过深度融合策略,优化了视觉与语言模态的交互,确保了在增强视觉理解的同时,语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语,模型大小为19亿参数,但实际推理时激活的参数量约为120亿,展现了在多模态任务中的高效性能。

    CogVLM2

    CogVLM2的改进点

    CogVLM2模型相比前代的改进点主要包括以下几个方面:

    • 性能提升:在OCRbench和TextVQA等多个关键基准测试上,CogVLM2的性能有了显著提升,例如在OCRbench上性能提升了32%,在TextVQA上性能提升了21.9%。
    • 文档图像理解:CogVLM2增强了对文档图像的理解和问答能力,特别是在DocVQA基准测试中表现出色。
    • 支持高分辨率图像:模型支持高达1344*1344像素的图像分辨率,能够处理更高清晰度的图像。
    • 支持长文本:CogVLM2支持长达8K的文本输入,这使得模型能够处理更长的文档和更复杂的语言任务。
    • 双语支持:CogVLM2提供了支持中英文双语的开源模型版本,增强了模型的多语言能力。

    CogVLM2的模型信息

    CogVLM2开源了两款以Meta-Llama-3-8B-Instruct为语言基座模型的CogVLM2,分别是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B,感兴趣的用户可以前往GitHub、Hugging Face或魔搭社区进行下载或在线体验。

    模型名称
    cogvlm2-llama3-chat-19B
    cogvlm2-llama3-chinese-chat-19B
    基座模型
    Meta-Llama-3-8B-Instruct
    Meta-Llama-3-8B-Instruct
    语言
    英文
    中文、英文
    模型大小
    19B
    19B
    任务
    图像理解,对话模型
    图像理解,对话模型
    模型链接
    体验链接
    Int4模型
    暂未推出
    暂未推出
    文本长度
    8K
    8K
    图片分辨率
    1344 * 1344
    1344 * 1344

    CogVLM2的模型架构

    CogVLM2的模型架构在继承上一代模型的基础上进行了优化和创新,具体特点如下:

    1. 视觉编码器:CogVLM2采用了一个拥有50亿参数的视觉编码器,负责对输入图像进行特征提取和编码。
    2. 视觉专家模块:在大语言模型中整合了一个70亿参数的视觉专家模块,这一模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。
    3. 深度融合策略:CogVLM2采用了深度融合策略,使得视觉模态与语言模态能够更加紧密地结合,从而增强了模型在视觉理解能力的同时,保持了在语言处理上的优势。
    4. MLP Adapter:模型中使用了MLP(多层感知器)Adapter,用于调整和适配不同模态之间的特征。
    5. 降采样模块:为了更好地处理和理解高分辨率的文档或网页图片,CogVLM2在视觉编码器后引入了一个专门的降采样模块,有效提取关键信息,减少输入到语言模型中的序列长度。
    6. Word Embedding:模型包含了Word Embedding层,用于将文本转换为模型可以理解的数值型向量。
    7. 多专家模块结构:CogVLM2设计了多专家模块结构,使得在进行推理时,实际激活的参数量仅约120亿,这种设计既保证了模型的性能,又提高了推理效率。
    8. 语言基座模型:CogVLM2使用了Meta-Llama-3-8B-Instruct作为语言基座模型,为模型提供了强大的语言理解和生成能力。

    CogVLM2的架构

    CogVLM2的模型性能

    CogVLM2的团队在一系列多模态基准上进行了定量评估,这些基准包括 TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet、MMBench等。从下表可以看出CogVLM2 的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。
    CogVLM2的基准测试得分

    模型 是否开源 模型规模 TextVQA DocVQA ChartQA OCRbench MMMU MMVet MMBench
    LLaVA-1.5 13B 61.3 337 37.0 35.4 67.7
    Mini-Gemini 34B 74.1 48.0 59.3 80.6
    LLaVA-NeXT-LLaMA3 8B 78.2 69.5 41.7 72.1
    LLaVA-NeXT-110B 110B 85.7 79.7 49.1 80.5
    InternVL-1.5 20B 80.6 90.9 83.8 720 46.8 55.4 82.3
    QwenVL-Plus 78.9 91.4 78.1 726 51.4 55.7 67.0
    Claude3-Opus 89.3 80.8 694 59.4 51.7 63.3
    Gemini Pro 1.5 73.5 86.5 81.3 58.5
    GPT-4V 78.0 88.4 78.5 656 56.8 67.7 75.0
    CogVLM1.1 (Ours) 7B 69.7 68.3 590 37.3 52.0 65.8
    CogVLM2-LLaMA3 (Ours) 8B 84.2 92.3 81.0 756 44.3 60.4 80.5
    CogVLM2-LLaMA3-Chinese (Ours) 8B 85.0 88.4 74.7 780 42.8 60.5 78.9
  • Veo – 谷歌推出的可生成1分钟1080P的视频模型

    Veo是什么

    Veo是由Google DeepMind开发的一款视频生成模型,用户可以通过文本、图像或视频提示来指导其生成所需的视频内容,能够生成时长超过一分钟1080P分辨率的高质量视频。Veo拥有对自然语言的深入理解,能够准确捕捉和执行各种电影制作术语和效果,如延时摄影或航拍镜头。Veo生成的视频不仅在视觉上更加连贯一致,而且在人物、动物和物体的动作表现上也更加逼真。Veo的开发旨在使视频制作更加普及,无论是专业电影制作人、新兴创作者还是教育工作者,都能够利用这一工具来探索新的叙事和教学方式。

    Google Veo

    Veo的主要功能

    • 高分辨率视频输出:Veo 能够生成高质量的 1080p 分辨率视频,这些视频的时长可以超过一分钟,满足长视频内容的制作需求。
    • 深入的自然语言处理:Veo 对自然语言有深刻的理解,能够准确解析用户的文本提示,包括复杂的电影制作术语,如“延时摄影”、“航拍”、“特写镜头”等,从而生成与用户描述相符的视频内容。
    • 广泛的风格适应性:该模型支持多种视觉和电影风格,从现实主义到抽象风格,都能根据用户的提示进行创作。
    • 创意控制与定制:Veo 提供了前所未有的创意控制层级,用户可以通过具体的文本提示来精细调控视频的各个方面,包括场景、动作、色彩等。
    • 遮罩编辑功能:允许用户对视频的特定区域进行编辑,如添加或移除物体,实现更精准的视频内容修改。
    • 参考图像与风格应用:用户可以提供一张参考图像,Veo 会根据该图像的风格和用户的文本提示生成视频,确保生成的视频在视觉上与参考图像保持一致。
    • 视频片段的剪辑与扩展:Veo 能够接收一个或多个提示,将视频片段剪辑并流畅地扩展到更长的时长,甚至通过一系列提示讲述一个完整的故事。
    • 视频帧间的视觉连贯性:通过使用先进的潜在扩散变换器技术,Veo 能够减少视频帧之间的不一致性,确保视频中的人物、物体和场景在转换过程中保持连贯和稳定。

    Veo生成的视频

    Veo的技术原理

    Veo 的开发不是一蹴而就的,而是基于谷歌多年在视频生成领域的研究和实验,这包括了对多个先前模型和技术的深入分析和改进。

    Veo的技术

    • 先进的生成模型:Veo建立在一系列先进的生成模型之上,如 Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere 等。这些模型为 Veo 提供了生成高质量视频内容的技术基础。
    • Transformer架构:Veo采用了Transformer架构,这是一种在自然语言处理和其他序列任务中表现出色的模型架构。Transformer架构通过自注意力机制能够更好地捕捉文本提示中的细微差别。
    • Gemini模型:Veo还整合了Gemini模型的技术,该模型在理解视觉内容和生成视频方面具有先进的能力。
    • 高保真度视频表示:Veo使用高质量的压缩视频表示(latents),这种表示方式能够以较小的数据量捕捉视频的关键信息,从而提高视频生成的效率和质量。
    • 水印和内容识别:Veo生成的视频会使用 SynthID 这样的先进工具进行水印标记,以帮助识别 AI 生成的内容,并通过安全过滤器和记忆检查过程来减少隐私、版权和偏见风险。

    如何使用和体验Veo

    Veo技术仍处于实验阶段,目前仅对选定的创作者开放。普通用户若想要体验的话,需要在VideoFX的网站上注册并加入等待名单,以获得早期尝试 Veo 的机会。此外,Google 计划将 Veo 的一些功能集成到 YouTube Shorts 中,这意味着未来用户可以在制作短视频时使用 Veo 的高级视频生成技术。

    若想要了解更多关于Veo的信息请查看其官方网站介绍:https://deepmind.google/technologies/veo/

    Veo的应用场景

    • 电影制作:Veo 可以辅助电影制作人快速生成场景预览,帮助他们规划实际拍摄,或者在预算和资源有限的情况下模拟高成本的拍摄效果。
    • 广告创意:广告行业可以利用 Veo 生成吸引人的视频广告,快速迭代创意概念,以更低的成本和更高的效率测试不同的广告场景。
    • 社交媒体内容:内容创作者可以使用 Veo 生产用于社交媒体平台的引人入胜的视频内容,增加粉丝互动和提高观看率。
    • 教育和培训:在教育领域,Veo 可以用来创建教育视频,模拟复杂的概念或历史事件,使学习过程更加直观和有趣。
    • 新闻报道:新闻机构可以利用 Veo 快速生成新闻故事的视频摘要,提高报道的吸引力和观众的理解度。
    • 个性化视频:Veo 可以用于生成个性化的视频内容,如生日祝福、纪念视频等,为个人提供定制化的体验。
  • 混元DiT – 腾讯混元开源的文生图扩散模型Hunyuan-DiT

    混元DiT是什么

    混元DiT(Hunyuan-DiT)是由腾讯混元团队开源的一款高性能的文本到图像的扩散Transformer模型,具备细粒度的中英文理解能力,能够根据文本提示生成多分辨率的高质量图像。混元DiT采用了创新的网络架构,结合了双语CLIP和多语言T5编码器,通过精心设计的数据管道进行训练和优化,支持多轮对话,能够根据上下文生成并完善图像。在中文到图像生成领域,混元DiT达到了开源模型中的领先水平。

    混元DiT

    混元DiT的主要功能

    • 双语文本到图像生成:混元DiT能够根据中文或英文的文本提示生成图像,这使得它在跨语言的图像生成任务中具有广泛的应用潜力。
    • 细粒度中文元素理解:模型特别针对中文进行了优化,可以更好地理解和生成与中国传统文化相关的元素,如中国古诗、中国传统服饰、中国节日等。
    • 长文本处理能力:支持长达256个标记的文本输入,使得DiT能够理解和生成与复杂长文本描述相匹配的图像。
    • 多尺寸图像生成:Hunyuan-DiT能够在多种尺寸比例下生成高质量的图像,满足从社交媒体帖子到大尺寸打印等不同用途的需求。
    • 多轮对话和上下文理解:通过与用户进行多轮对话,混元DiT能够根据对话历史和上下文信息生成和迭代图像,这增强了交互性和创造性。
    • 图像与文本的高一致性:Hunyuan-DiT生成的图像在内容上与输入的文本提示高度一致,确保了图像能够准确反映文本的意图和细节。
    • 艺术性和创意性:混元DiT不仅能够生成常见的图像,还能够捕捉文本中的创意描述,生成具有艺术性和创意性的图像作品。

    混元DiT生成的图片

    混元DiT的官网入口

    混元DiT的技术架构

    混元DiT的架构

    • 双文本编码器:混元DiT结合了双语CLIP和多语言T5编码器,以增强对输入文本的理解和编码能力。CLIP模型因其强大的图像和文本之间的关联能力而被选用,而T5模型则因其在多语言和文本理解方面的能力。
    • 变分自编码器(VAE):使用预训练的VAE将图像压缩到低维潜在空间,这有助于扩散模型学习数据分布。VAE的潜在空间对生成质量有重要影响。
    • 扩散模型:基于扩散Transformer,混元DiT使用扩散模型来学习数据分布。该模型通过交叉注意力机制将文本条件与扩散模型结合。
    • 改进的生成器:扩散Transformer相比于基线DiT有若干改进,例如使用自适应层归一化(AdaNorm)来加强细粒度文本条件的执行。
    • 位置编码:混元DiT采用旋转位置嵌入(RoPE)来同时编码绝对位置和相对位置依赖性,支持多分辨率训练和推理。
    • 多模态大型语言模型(MLLM):用于图像-文本对的原始标题的重构,以提高数据质量。MLLM经过微调,能够生成包含世界知识的结构化标题。
    • 数据管道:包括数据获取、解释、分层和应用。通过一个称为“数据车队”的迭代过程来检查新数据的有效性。
    • 后训练优化:在推理阶段进行优化,以降低部署成本,包括ONNX图优化、内核优化、操作融合等。

    混元DiT与其他文生图模型的比较

    为了全面比较HunyuanDiT与其他模型的生成能力,混元团队构建了4个维度的测试集,超过50名专业评估人员进行评估,包括文本图像一致性、排除AI伪影、主题清晰度、审美。

    模型 开源 文图一致性(%) 排除 AI 伪影(%) 主题清晰度(%) 审美(%) 综合得分(%)
    SDXL 64.3 60.6 91.1 76.3 42.7
    PixArt-α 68.3 60.9 93.2 77.5 45.5
    Playground 2.5 71.9 70.8 94.9 83.3 54.3
    SD 3 77.1 69.3 94.6 82.5 56.7
    Midjourney v6 73.5 80.2 93.5 87.2 63.3
    DALL-E 3 83.9 80.3 96.5 89.4 71.0
    Hunyuan-DiT 74.2 74.3 95.4 86.6 59.0