Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • ToonCrafter – 腾讯等开源的卡通动画视频插帧工具

    ToonCrafter是什么

    ToonCrafter是由腾讯AI实验室、香港中文大学和香港城市大学的研究人员开源的卡通动画视频中间帧生成工具,突破了传统卡通动画制作中线性运动的假设限制,采用创新的生成式插值技术,仅需两张关键帧图片,即可自动生成中间动态帧,创造出流畅的动画效果。与需要逐帧绘制的传统动画制作方法相比,ToonCrafter极大地提高了动画制作的效率,减少了动画师的工作量,缩短了制作时间,同时保持了动画的质量和创意性。

    ToonCrafter

    ToonCrafter的功能特色

    • 生成式卡通插值ToonCrafter利用深度学习模型,通过给定的两张关键帧图片,自动推算并生成中间帧,实现卡通动画的平滑过渡和动态效果。该插值方法不仅填补了帧与帧之间的空白,还能够模拟复杂的运动模式,如角色动作和场景变化。
    • 细节保持与增强ToonCrafter采用先进的双参考3D解码器技术,确保在生成新帧的过程中,图像的细节得到保留甚至增强。这种机制特别适用于卡通动画,因为它们通常包含清晰的线条和鲜明的色彩,需要在插值过程中避免细节的模糊和失真。
    • 支持草图指导动画ToonCrafter提供了一个草图编码器,允许用户通过简单的草图输入来指导动画的生成。用户可以指定动画的某些方面,如角色的运动轨迹或特定风格的强调,从而实现个性化的动画效果。
    • 遮挡区域处理ToonCrafter能够有效识别和处理动画中的遮挡情况,例如当一个角色或对象部分或完全遮挡另一个时。该工具能够合理推断遮挡区域的运动和变化,生成符合视觉逻辑的帧。
    • 多应用场景ToonCrafter的应用范围广泛,不仅可以用于生成完整的卡通动画视频,还适用于从卡通素描线稿生成动画,以及对现有动画进行上色和风格化处理,提供了动画制作的多样性。

    ToonCrafter

    ToonCrafter的官网入口

    ToonCrafter的技术原理

    ToonCrafter的工作原理

    1. 生成式插值框架:ToonCrafter采用了一种新颖的生成式插值方法,与传统的基于对应关系的插值方法不同,它不依赖于显式的帧间对应关系,而是通过学习视频数据的潜在表示来进行帧的生成。
    2. 领域适配(Toon Rectification Learning)通过领域适配策略,ToonCrafter能够将真实视频的运动先验适配到卡通视频领域,解决了领域差异问题,避免了非卡通内容的意外合成。
    3. 双参考3D解码器利用双参考3D解码器,ToonCrafter能够补偿由于潜在空间压缩导致的细节丢失。这种解码器通过混合注意力残差学习机制(HAR),将输入图像的细节信息注入到生成帧的潜在表示中。
    4. 混合注意力残差学习机制(HAR)在解码过程中,HAR通过交叉注意力机制将输入图像的特征注入到解码器的浅层,同时在深层使用残差学习来增强细节的恢复。
    5. 伪3D卷积(Pseudo-3D Convolution)为了增强时间上的连贯性,ToonCrafter在解码器中引入了伪3D卷积,这有助于改善时间序列帧之间的一致性。
    6. 草图编码器(Sketch Encoder)提供了一个独立的草图编码器,允许用户通过输入草图来控制生成动画的运动和风格,增加了生成过程的交互性和可控性。
    7. 扩散模型(Diffusion Models)ToonCrafter基于扩散模型,这是一种从数据中逐步添加噪声,然后学习逆过程以去除噪声并恢复数据的生成模型。在视频生成中,这允许从随机噪声中生成连续的视频帧。
    8. 迭代去噪过程在生成每一帧时,ToonCrafter通过迭代去噪过程逐步精细化生成的图像,从噪声中恢复出清晰的帧。
    9. 端到端的训练和优化ToonCrafter的各个组件通过端到端的方式进行训练和优化,确保整个插值过程的协同工作和最终生成视频的质量。
    10. 多模态输入支持除了起始和结束帧,ToonCrafter还支持如草图、参考图像等多模态输入,以增强生成动画的表现力和控制性。

    如何使用和体验ToonCrafter

    方法一、在线版Demo体验

    1. 访问Hugging Face版的在线Demo,https://huggingface.co/spaces/Doubiiu/tooncrafter
    2. 在Input Image添加输入图像
    3. 输入提示词并调节Seed值、步长、FPS等
    4. 最后点击Generate按钮进行生成视频

    方法二、本地代码部署

    开发人员可以选择本地部署和运行ToonCrafter,具体步骤如下:

    1. 获取代码访问ToonCrafter的项目页面,或使用Git命令克隆或下载代码到本地。git clone https://github.com/ToonCrafter/ToonCrafter.git
    2. 环境准备:通过Anaconda安装所需的Python环境和依赖库
      conda create -n tooncrafter python=3.8.5
      conda activate tooncrafter
      pip install -r requirements.txt
    3. 下载预训练模型:下载预先训练好的ToonCrafter_512模型并将其model.ckpt放入checkpoints/tooncrafter_512_interp_v1/model.ckpt
    4. 命令行运行 sh scripts/run.sh
    5. 运行本地Gradio版界面:你也可以选择运行本地Gradio UI,运行指令 python gradio_app.py
    6. 然后按照上方在线版的操作步骤输入图片并设置参数进行生成即可
  • Follow-Your-Emoji – 腾讯等推出的基于扩散模型的人像动画框架

    Follow-Your-Emoji是什么

    Follow-Your-Emoji是由香港科技大学、腾讯混元和清华大学的研究人员推出的一个基于扩散模型的人像动画框架,利用扩散模型为参考肖像添加目标表情序列,实现动态动画效果。该技术通过表情感知标志点精确对齐表情与肖像,避免身份信息泄露,同时使用面部精细损失函数强化模型对微妙表情变化的捕捉能力。Follow-Your-Emoji支持多种风格的人像动画,包括真人、卡通、雕塑甚至动物,展现出高度的控制性和表现力。

    Follow-Your-Emoji

    Follow-Your-Emoji的功能特色

    • 动态表情同步:利用扩散模型技术,Follow-Your-Emoji能够将预定义或实时捕获的表情序列精确同步到静态参考肖像上,实现如眨眼、微笑、皱眉等复杂表情的动态变化。
    • 身份特征保持:在动画化过程中,框架特别设计了机制来确保参考肖像的关键身份特征得以保留,即使在表情变化剧烈时也能防止身份信息的失真或泄露。
    • 夸张表情表现:通过表情感知标志点技术,框架能够捕捉并再现夸张的表情动作,例如在卡通或漫画风格中常见的大幅度瞳孔扩张或收缩,增强动画的表现力。
    • 多风格适应:Follow-Your-Emoji框架不仅限于现实风格的肖像,还能够适应并动画化卡通、雕塑、动物等不同艺术风格和表现形式的肖像,显示出其广泛的适用性。
    • 时间连贯性:通过面部精细损失函数,框架在生成每一帧动画时都考虑到了与前后帧的连贯性,确保整个动画序列在时间上的自然过渡和流畅表现。
    • 长期动画生成:采用渐进式生成策略,Follow-Your-Emoji能够生成不仅在短期内连贯,而且在长期播放中也能保持稳定性和高质量的动画效果。
    • 高度控制性:用户可以细致地控制表情序列,从而对动画输出进行精确调整,允许用户根据特定需求定制动画效果,实现个性化创作。

    Follow-Your-Emoji的官网入口

    Follow-Your-Emoji的技术原理

    Follow-Your-Emoji的工作原理

    1. 基于扩散模型的框架:使用扩散模型(Stable Diffusion)作为基础,这是一种先进的深度学习模型,能够生成高质量的图像和视频内容。
    2. 表情感知标志点(Expression-Aware Landmark):利用MediaPipe等工具从动态视频中提取3D关键点,然后将其投影到2D平面,形成用于指导动画过程的表情感知标志点。这些标志点特别关注于表情变化的关键区域,如眼睛(瞳孔点)和嘴巴,以实现更精确的表情同步。
    3. 面部精细损失(Facial Fine-Grained Loss Function):引入一种新的损失函数,通过面部遮罩和表情遮罩来指导模型在训练过程中更加关注面部表情的细节。该损失函数通过计算预测结果与真实结果在遮罩区域内的差异,帮助模型学习如何更好地捕捉微妙的表情变化。
    4. 多风格适应性:框架设计为能够适应不同风格的肖像,无论是真人、卡通、雕塑还是动物,都能够实现自然的动画效果。
    5. 渐进式生成策略:为了生成长期动画,采用从粗糙到精细的渐进式生成策略,首先生成关键帧,然后通过插值生成中间帧,以保持动画的连贯性和稳定性。
    6. 时间注意力机制:在UNet网络中加入时间注意力层,以保持动画帧之间的时间一致性和动态连贯性。
    7. 预训练与微调:使用大量的表达训练数据集对模型进行预训练,然后针对特定的动画任务进行微调,以提高模型的表现力和准确性。
    8. 数据集和基准建设:团队构建了EmojiBench基准,包含多种风格和表情的肖像视频,用于评估和验证模型的性能。
    9. 推理与动画生成:在推理阶段,模型结合表情感知标志点和时间注意力机制,生成动态的肖像动画,同时保持参考肖像的身份特征。
    10. 用户控制与定制:用户可以通过提供不同的输入表情序列来控制动画的输出,实现高度定制化的动画效果。

    Follow-Your-Emoji的基准

  • Qwen2 – 阿里云开源的新一代通义千问大模型

    Qwen2是什么

    Qwen2是由阿里云通义千问团队开源的新一代大语言模型,该系列涵盖了从0.5B到72B不等的五个规模模型,在中文和英文基础上增加了27种语言的高质量数据,大幅提升了模型的自然语言理解、代码编写、数学解题和多语言处理能力。Qwen2支持最长达128K tokens的上下文长度,优化了模型的泛化性和应用潜力。该系列模型在多个评测基准上表现优异,赶超Meta的Llama-3-70B,目前已在Hugging Face和ModelScope平台开源。

    Qwen2

    Qwen2的模型信息

    模型名称 参数量 (B) 非Embedding参数量 (B) 是否使用GQA 是否Tie Embedding 上下文长度 (tokens)
    Qwen2-0.5B 0.49 0.35 32K
    Qwen2-1.5B 1.54 1.31 32K
    Qwen2-7B 7.07 5.98 128K
    Qwen2-57B-A14B 57.41 56.32 64K
    Qwen2-72B-Instruct 72.71 70.21 128K
    • 参数量:模型总的参数数量,以B(十亿)为单位。
    • 非Embedding参数量:除去词嵌入(Embedding)部分的参数数量。
    • 是否使用GQA:模型是否采用了GQA(Generalized Query Answering)技术。
    • 是否Tie Embedding:模型是否使用了输入和输出层共享参数的技术。
    • 上下文长度:模型能够处理的最大上下文长度,以tokens为单位。

    Qwen2的官网入口

    Qwen2的模型评测

    • Qwen2系列在多个评测基准上表现出色,特别是在Qwen2-72B模型上,实现了大幅度的效果提升。
    • 在自然语言理解、知识、代码、数学和多语言等多项能力上,Qwen2-72B显著超越了当前领先的模型,如Llama-3-70B和Qwen1.5的110B模型。
    • 在16个基准测试中,Qwen2-72B-Instruct展现了在基础能力和对齐人类价值观方面的平衡,超越了Qwen1.5的72B模型,并与Llama-3-70B-Instruct相匹敌。

    Qwen2的性能

    Qwen2的模型亮点

    • 代码 & 数学:Qwen2在代码和数学方面的能力显著提升,成功融合了CodeQwen1.5的经验,并在多种编程语言上实现效果提升。数学能力通过大规模高质量数据支持,实现了解题能力的飞跃。
      Qwen2的代码数学能力
    • 长文本处理:Qwen2系列的Instruct模型在32k上下文长度上训练,并通过技术如YARN扩展至更长上下文,Qwen2-72B-Instruct能完美处理128k上下文长度的信息抽取任务。
    • 安全性:在多语言不安全查询类别中,Qwen2-72B-Instruct在安全性方面与GPT-4相当,且显著优于Mistral-8x22B模型,减少了生成有害响应的比例。
    • 多语言能力:Qwen2在多语言评测中表现优异,增强了27种语言的处理能力,并优化了语言转换问题,降低了模型发生语言转换的概率。
  • Seed-TTS – 字节跳动推出的高质量文本到语音生成模型

    Seed-TTS是什么

    Seed-TTS是由字节跳动开发的高级文本到语音(Text to Speech,TTS)模型,能够生成与人类语音极为相似的高质量语音,具备出色的上下文学习能力和自然度。Seed-TTS支持对情感、语调、说话风格等语音属性的精细控制,适用于有声读物、视频配音等多种场景。此外,该模型还具备零样本学习能力,即使在没有训练数据的情况下也能生成高质量语音,并且支持内容编辑和多语种翻译功能。

    Seed-TTS

    Seed-TTS的主要功能

    • 高质量语音生成: Seed-TTS采用了先进的自回归模型和声学声码器技术,能够生成接近人类自然语音的高质量语音。模型在大量数据上进行训练,学习到丰富的语音特征和语言模式,从而能够合成清晰、流畅、自然的语音输出。
    • 上下文学习: 该模型具备出色的上下文学习能力,可以在理解给定文本的上下文基础上,生成与上下文风格和语义相匹配的语音。无论是连续的对话还是单独的句子,Seed-TTS都能够保持语音的连贯性和一致性。
    • 情感控制: Seed-TTS能够根据文本内容或额外的情感标签,控制生成语音的情感色彩。用户可以指定语音中应表达的情感,如愤怒、快乐、悲伤或惊讶等,模型会相应地调整语音的音调、强度和节奏,以匹配所选情感。
    • 语音属性可控: 除了情感,Seed-TTS还允许用户控制其他语音属性,包括语调、节奏和说话风格。用户可以根据应用场景的需求,调整语音使其更正式或非正式,或者更具戏剧化效果。
    • 零样本学习能力(Zero-shot Learning): 即使没有特定说话者的训练数据,Seed-TTS也能够利用其在大量数据上训练得到的泛化能力,生成高质量的语音。此能力使得Seed-TTS能够快速适应新的说话者或语言,而无需额外的训练过程。
    • 语音编辑: Seed-TTS支持对生成的语音进行编辑,包括内容编辑和说话速度编辑。用户可以根据需要修改语音中的特定部分,或调整语速以适应不同的听众或应用场景。
    • 多语种支持: 模型设计支持多种语言的文本输入,能够生成相应语言的语音,使得Seed-TTS可以服务于全球化的应用,满足不同语言用户的需求。
    • 语音分解: Seed-TTS通过自我蒸馏方法实现了语音的属性分解,例如可以将语音的音色与其他属性(如内容和情感)分离,为语音合成提供了更高的灵活性和控制力,允许用户独立地修改和重组语音的不同组成部分。

    Seed-TTS的官网入口

    Seed-TTS的工作原理

    Seed-TTS的系统架构

    1. 语音分词(Speech Tokenization): 首先,Seed-TTS使用一个语音分词器将输入的语音信号转换成一系列离散的语音标记(tokens)。这些标记是语音合成的基础,类似于文本中的字符或单词。
    2. 条件文本和语音处理: 接下来,Seed-TTS的自回归语言模型根据输入的文本和语音标记生成目标语音的标记序列。这个过程依赖于模型对语言结构和语音特性的理解,确保生成的语音标记序列在语义和语法上与输入文本相匹配。
    3. 语音表示生成: 生成的语音标记序列随后被送入一个扩散变换器(diffusion transformer)模型。这个模型负责将离散的语音标记转换成连续的语音表示,这个过程是逐步细化的,从粗糙到精细,以生成平滑且自然的语音波形。
    4. 声学声码器(Acoustic Vocoder): 最后,连续的语音表示被送入声学声码器,该组件负责将这些表示转换成可听的高质量语音。声码器通常使用深度学习技术来模拟人类声道产生语音的过程。
    5. 训练和微调: Seed-TTS模型在大量数据上进行预训练,以学习语言和语音的基本规律。之后,可以通过微调来适应特定的说话者或语音风格,进一步提升语音的自然度和表现力。
    6. 自我蒸馏和强化学习: Seed-TTS还采用了自我蒸馏方法来实现语音属性的分解,如音色分离,以及使用强化学习技术来增强模型的鲁棒性、说话者相似性和可控性。
    7. 端到端处理: 对于非自回归的变体Seed-TTSDiT,它采用完全基于扩散的架构,直接从文本到语音的端到端处理,不依赖预先估计的音素持续时间。

    如何使用Seed-TTS

    Seed-TTS目前只提供了技术论文和官方Demo,暂未开放使用地址,感兴趣的用户可以前往官网查看官方演示。

    Seed-TTS的应用场景

    • 虚拟助手:Seed-TTS可以为虚拟助手提供自然、流畅的语音交互能力,提升用户体验。
    • 有声读物和音频书籍:利用Seed-TTS生成高质量语音,可以将电子书籍转换成有声读物,供用户聆听。
    • 视频配音:Seed-TTS可以用于视频内容的配音,特别是在需要特定情感表达或语调的场景下。
    • 客户服务自动化:在客户服务领域,Seed-TTS可以提供自动语音回复功能,处理常规咨询和信息查询。
    • 电影和游戏配音:在电影制作和视频游戏开发中,Seed-TTS可以用于角色配音,提供多样化的声音选择。
    • 新闻和播客制作:Seed-TTS可以自动将文本新闻或播客稿件转换成语音,快速制作音频内容。
    • 辅助残障人士:Seed-TTS可以为有语言障碍的人士提供语音合成服务,帮助他们更好地进行沟通。
  • ChatTTS – 开源的用于对话的生成式语音合成模型

    ChatTTS是什么

    ChatTTS是一款专为对话场景设计的支持中英文的文本转语音(TTS)模型,基于约10万小时的中英文数据进行训练,能够生成高质量、自然流畅的对话语音。ChatTTS针对对话式任务进行了优化,实现了更自然、流畅的语音合成,同时支持多说话人,还具备细粒度控制能力,能够预测和控制韵律特征,如笑声、停顿等,超越了大部分开源TTS模型。

    ChatTTS

    ChatTTS的功能特色

    • 文本转语音:ChatTTS能够将用户输入的文本信息实时转换成自然流畅的语音输出,适用于多种语言环境。
    • 多语言支持:除了支持中文,ChatTTS还能够处理英文文本,使其能够服务于更广泛的用户群体。
    • 情感和韵律调整:ChatTTS不仅能够转换文本,还能够根据文本内容调整语音的情感色彩和韵律特征,如语速、语调、停顿等,使得语音更加贴近真实人类说话的自然节奏。
    • 语音角色选择:用户可以根据应用场景的需要,从多个预设的语音角色中选择最合适的声音,增加语音的个性化和表现力。
    • 交互式Web界面:通过直观的Web界面,用户可以直接在浏览器中输入文本并获取语音输出,无需编写代码。
    • 实时语音交互:ChatTTS支持实时语音合成,非常适合需要即时反馈的对话系统和交互式应用。
    • 语音文件导出:用户可以将合成的语音导出为常见的音频文件格式,方便进行后续的编辑、分享或作为多媒体内容的一部分。
    • 集成与兼容性:ChatTTS支持集成到各种平台和应用中,可以无缝集成到Web应用、移动应用、桌面软件等多种环境中。
    • 情感标记系统:ChatTTS支持在文本中嵌入情感标记,允许用户精细控制语音输出的情感表达,如在文本中插入[laugh]标记来模拟笑声。

    ChatTTS WebUI

    ChatTTS的官网入口

    如何运行ChatTTS

    方法一、在线体验Demo

    普通用户可以在ModelScope和Hugging Face上运行社区提供的在线ChatTTS WebUI版的Demo直接体验

    方法二、本地部署运行

    1. 安装环境:确保你的计算机上安装了Python和Git。
    2. SDK下载:安装ModelScope和SDK模型下载
      #安装ModelScope
      pip install modelscope
      #SDK模型下载
      from modelscope import snapshot_download
      model_dir = snapshot_download('pzc163/chatTTS')
    3. 获取源码:通过Git版本控制系统,从ModelScope的代码仓库克隆ChatTTS的源码到本地。
      #Git模型下载
      git clone https://www.modelscope.cn/pzc163/chatTTS.git
    4. 安装依赖:进入到项目目录,使用pip命令安装所需的Python依赖包。
      pip install -r requirement.txt
      pip install Ipython
      pip install soundfile
      
    5. 模型推理:可使用魔搭社区免费算力,完成模型推理
      from ChatTTS import Chat
      from IPython.display import Audio
      #下载模型
      from modelscope import snapshot_download
      
      model_dir = snapshot_download('pzc163/chatTTS')
      
      chat = Chat()
      chat.load_models(source='local', local_path=model_dir)
      
      texts = ["你好,我是ChatTTS,很高兴认识大家",]
      
      wavs = chat.infer(texts, use_decoder=True)
      Audio(wavs[0], rate=24_000, autoplay=True)
      
      # save audio
      import soundfile as sf
      audio_data = wavs[0]
      if len(audio_data.shape) > 1:  
          audio_data = audio_data.flatten()
      
      output_file = './output_audio2.wav'
      sf.write(output_file, audio_data, 24000)
      print(f"Audio saved to {output_file}")
    6. 搭建WebUI并运行
      git clone https://www.modelscope.cn/studios/AI-ModelScope/ChatTTS-demo.git
      cd ChatTTS
      pip install -r requirements.txt
      python app.py

    ChatTTS的应用场景

    • 虚拟助手和客服机器人:ChatTTS可以为虚拟助手和在线客服机器人提供自然、流畅的语音输出,提升用户体验。
    • 有声读物和电子书:将文本内容转换为语音,为有声书和电子书提供语音朗读功能,方便用户在通勤或做家务时收听。
    • 社交媒体和内容创作:在社交媒体平台或内容创作中,ChatTTS可以生成吸引人的语音内容,增加互动性和趣味性。
    • 新闻和播客:自动将新闻稿或博客文章转换成语音,用于播客或新闻广播。
    • 无障碍辅助:为视障人士或有阅读困难的用户提供语音辅助,使他们能够通过听来获取信息。
  • Codestral – Mistral AI推出的代码生成模型,支持80+编程语言

    Codestral是什么

    Codestral是法国人工智能初创公司Mistral AI推出的一款代码生成AI模型,专为提高软件开发效率而设计,支持超过80种编程语言,包括但不限于Python、Java、C、C++等主流语言,以及Swift、Fortran等特定领域语言。Codestral能够理解自然语言指令,帮助开发者快速完成编程任务,如编写代码、生成测试用例和补全部分代码。作为一个220亿参数的模型,Codestral在性能和响应时间方面超越了以往的代码生成模型。

    Codestral

    Codestral的基本信息

    模型名称 Codestral-22B-v0.1
    模型参数量 220亿
    上下文窗口 32k
    模型许可 MNPL(非生产许可),即非商业用途的研究和测试目的
    支持的编程语言 80+

    Codestral的主要功能

    • 代码补全:Codestral能够理解开发者正在编写的代码,并预测接下来可能需要的代码片段进行自动补全。不仅节省了开发者敲击键盘的时间,还减少了因手动输入造成的错误。
    • 代码生成:开发者可以通过向Codestral提供一段自然语言描述,请求生成特定功能的代码。Codestral能够理解这些描述,并生成符合要求的代码段。
    • 编写测试:Codestral可以帮助开发者自动生成测试代码,这有助于确保新编写的功能按预期工作,并且没有引入新的错误。
    • 多语言兼容:Codestral支持80多种编程语言,无论开发者使用哪种语言,Codestral都能提供相应的帮助。
    • 错误检测与修复:在代码编写过程中,Codestral能够识别潜在的错误和bug,并提供修复建议或自动修复它们,从而提高代码的质量和稳定性。
    • 代码理解和解释:Codestral能够分析代码并解释其功能,这对于学习和理解他人的代码尤其有用。
    • 交互式编程辅助:Codestral的对话式界面允许开发者与模型进行自然语言交互,提出问题或请求帮助,Codestral能够提供即时的反馈和建议。
    • 文档和注释生成:Codestral还能够根据生成的代码自动创建文档和注释,帮助开发者更好地维护和理解代码。
    • 代码重构建议:Codestral可以分析现有代码并提出改进建议,帮助开发者优化代码结构,提高代码的可读性和可维护性。

    Codestral的性能表现

    1. 上下文窗口:Codestral具有32k的上下文窗口,这使得它在处理长距离依赖和复杂代码结构时,相较于其他模型(如CodeLlama 70B的4k、8k或DeepSeek Coder 33B的16k)有更出色的表现。
    2. 性能/延迟:作为一个22B参数的模型,Codestral在代码生成的性能和延迟方面设定了新的行业标准,特别是在RepoBench的评估中,它在长距离代码生成任务上优于其他模型。
    3. 编程语言评估
      • Python:在HumanEval pass@1中,Codestral达到了81.1%的通过率,显示出优秀的Python代码生成能力。
        Mistral AI的性能
      • 多语言评估:Codestral在C++、bash、Java、PHP、Typescript和C#等语言上的HumanEval pass@1评估显示,它具有跨语言的代码生成能力,平均通过率为61.5%。
        Codestral的多语言评估
    4. Fill-in-the-Middle(中间填充)性能:在Python、JavaScript和Java的HumanEvalFIM评估中,Codestral的中间填充性能与DeepSeek Coder 33B相比,显示出高准确率,其中JavaScript和Java的通过率分别为89.4%和95.1%。
      Codestral的FIM
    5. 业界评价:多位专家和开发者对Codestral的性能给予了高度评价,认为它在速度和质量上都达到了前所未有的水平,特别是在与LlamaIndex和LangChain等应用框架的集成中,Codestral显示出快速、准确的代码生成能力。

    如何使用Codestral

    1. 对话式界面

    • 访问Le Chat:通过Mistral AI提供的Le Chat聊天机器人与Codestral进行自然语言交互。
    • 自然语言命令:使用自然语言命令向Codestral发出代码生成、解释或测试等请求。

    2. 研究和测试

    • 下载模型:从HuggingFace平台下载Codestral模型(https://huggingface.co/mistralai/Codestral-22B-v0.1),用于非生产环境下的研究和测试。
    • 环境配置:根据下载的模型文件和文档,配置本地开发环境以运行Codestral。

    3. 通过专用终端

    • 获取API密钥:在Mistral AI的个人账户中生成和管理API密钥。
    • 调用API:使用codestral.mistral.ai端点,通过HTTP请求与Codestral交互,执行代码生成和编辑任务。
    • Beta测试:在Beta测试期间免费使用API端点,并加入等待列表以获得访问权限。

    4. 使用Mistral平台API

    • 创建账户:在Mistral AI的平台上注册账户。
    • 构建应用:按照指南使用Codestral构建应用程序,利用平台提供的API和工具。
    • 计费使用:根据实际使用的token数量进行计费。

    5. 集成开发环境(IDE)插件

    • 安装插件:在VSCode或JetBrains等IDE中安装Codestral支持的插件,如Continue.dev或Tabnine。
    • 配置插件:根据插件文档配置Codestral的使用,包括API密钥和偏好设置。
    • 代码生成和交互:在IDE中直接使用插件生成代码、补全代码或与Codestral进行交互。

    6. 应用框架集成

    • 集成框架:利用Codestral与LlamaIndex和LangChain等应用框架的集成,快速构建智能应用程序。
    • 使用框架工具:根据框架提供的文档和工具,结合Codestral的功能开发应用程序。

    更多信息详见Mistral AI的博客:https://mistral.ai/news/codestral/

  • Stable Assistant – Stability AI推出的AI聊天机器人

    Stable Assistant是什么

    Stable Assistant是由Stability AI开发的一款聊天机器人,集成了最新的文本和图像生成技术(Stable Diffusion 3和Stable LM 2 12B )。该AI对话工具能够理解对话提示,生成高质量的图像,提供知识丰富的回答,帮助用户编写项目,并能通过匹配的图像增强内容,支持各种风格的图像生成,同时提供一系列图像编辑服务。Stable Assistant还具备视频生成能力,可以将文本或图像转化为视频内容。

    Stable Assistant

    Stable Assistant的主要功能

    • 文本到图像生成:Stable Assistant利用Stable Diffusion 3模型,能够将用户的文本描述转化为具体的图像,生成多种风格的图像。
    • 多主题提示处理:Stable Assistant能够理解和处理包含多个主题的复杂文本提示,生成包含这些元素的图像。
    • 知识性回答:Stable Assistant配备了Stable LM 2 12B语言模型,能够提供详尽且准确的知识性回答,帮助用户获取所需信息。
    • 写作项目辅助:Stable Assistant可以帮助用户在写作项目中生成创意内容,提供写作上的指导和建议。
    • 内容视觉增强:通过生成与文本内容相匹配的图像,Stable Assistant能够增强文章、博客或其他文档的视觉效果。
    • 图像编辑服务:Stable Assistant提供了一系列图像编辑服务,包括对象搜索和替换、背景删除、创意无损放大、控制图像结构、竖版图变横版图以及从草图生成高质量图片等。
    • 视频内容生成:除了图像,Stable Assistant基于SVD模型还能够将文本或图像转化为视频,为用户提供更丰富的多媒体内容创作工具。

    官网地址:https://stability.ai/stable-assistant

    Stable Assistant的产品价格

    Stable Assistant提供免费3天的试用,免费试用结束后,订阅计划将自动计费。用户可以随时取消或更改选择的计划。具体定价如下:

    • Standard版:9美元每月(90美元一年),每月提供900积分,支持聊天历史保留
    • Pro版:19美元每月(190美元一年),每月提供1900积分,支持聊天历史保留
    • Plus版:49美元每月(490美元一年),每月提供5500积分,支持聊天历史保留
    • Premium版:99美元每月(990美元一年),每月提供12000积分,支持聊天历史保留

    Stable Assistant的价格

    Stable Assistant的适用人群

    • 内容创作者:包括博客作者、自媒体运营者、社交媒体内容创作者等,他们可以利用Stable Assistant生成高质量的图像来丰富自己的内容。
    • 设计师:设计师可以使用Stable Assistant快速生成设计概念图、插画等,提高设计效率。
    • 教育工作者:教师和教育工作者可以利用Stable Assistant生成教学材料中的图像,使教学内容更加生动有趣。
    • 初创公司:初创公司可以利用Stable Assistant快速生成营销材料、产品宣传图等,节省时间和成本。
    • 自由职业者:自由职业者可以利用Stable Assistant的多种功能,如图像生成、视频制作等,为客户提供多样化的服务。
    • 普通用户:对于对AI技术感兴趣的普通用户,Stable Assistant提供了一个有趣且易于使用的平台,让他们可以探索和体验AI技术的魅力。
  • Universal-1 – AssemblyAI推出的多语种语音识别和转换模型

    Universal-1是什么

    Universal-1是AI语音初创公司AssemblyAI推出的一款多语言语音识别和转录模型,经过超过1250万小时的多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在多种环境下都能提供高准确率的语音转文字服务,包括嘈杂背景、不同口音和自然对话等,还具备快速响应时间和改进的时间戳准确性。Universal-1的设计注重于提高每一处语音识别的准确性,能够满足客户对语音数据细微差别的需求,是构建下一代AI产品和服务的强大工具。

    Universal-1

    Universal-1的主要特点

    • 多语种支持:Universal-1能够处理包括英语、西班牙语、法语和德语在内的多种语言,并且针对这些语言进行了优化,以提高语音识别的准确性。
    • 高准确率:在不同条件下,如背景噪音、口音多样性、自然对话和语言变化等,Universal-1都能保持出色的语音到文本的转换准确率。
    • 减少幻觉率:与Whisper Large-v3相比, Universal-1将语音数据的幻觉率降低了 30%,即减少了模型在没有声音输入的情况下错误生成文本的情况。
    • 快速响应:Universal-1设计了高效的并行推理能力,能够快速处理长音频文件,提供快速的响应时间。批处理能力相比Whisper Large-v3的速度提高了5倍。
    • 精确的时间戳估计:模型能够提供精确到单词级别的时间戳,这对于音频和视频编辑、会议记录等应用至关重要。Universal-1的时间戳准确性比Whisper Large-v3 提高了26%。
    • 用户偏好:在用户偏好测试中,用户71%的时间更倾向于Universal-1的输出,表明其在实际使用中更能满足用户的需求。

    Universal-1的性能对比

    • 英语语音转文字准确性Universal-1在11个数据集中的5个数据集中实现了最低的词错误率(WER),与OpenAI的Whisper Large-v3、NVIDIA的Canary-1B、Microsoft Azure Batch v3.1、Deepgram Nova-2、Amazon和Google Latest-long等模型相比。
      Universal-1 English WER
    • 非英语语音转文字准确性在西班牙语、法语和德语的测试中,Universal-1在15个数据集中的5个上WER更低,显示了其在这些语言上的竞争力。
      Universal-1 WER by Language
    • 时间戳准确性Universal-1在时间戳准确性方面,相比于Whisper Large-v3,将预测时间戳在100毫秒内的单词比例提高了25.5%,从67.2%提升到84.3%。
      Universal-1时间戳准确性
    • 推理效率在NVIDIA Tesla T4机器上,Universal-1在没有并行化的情况下比更快的whisper后端快3倍,且在64个并行化推理时,仅需21秒即可转录1小时的音频。
    • 幻觉减少Universal-1相比于Whisper Large-v3,在转录音频时的幻觉率降低了30%。
    • 人类偏好测试在人类偏好测试中,评估者在60%的情况下更倾向于Universal-1的输出,而Conformer-2只有24%。
      Universal-1人类偏好
    • 声纹分割聚类Universal-1在声纹分割聚类(Speaker Diarization)准确性方面,相比于Conformer-2,实现了以下改进:
      • Diarization Error Rate (DER) 相对减少了7.7%。
      • 联合测量WER和演讲者标记准确性的cpWER相对减少了13.6%。
      • 演讲者数量估计的准确性相对提高了71.3%。

    如何使用Universal-1

    目前,Universal-1已推出英语和西班牙语版本,德语和法语版本即将推出。后续,AssemblyAI还将在未来的通用模型中添加额外的语言支持。感兴趣的用户可以在Playground或通过API试用。

    1. 通过Playground试用最简单的尝试Universal-1的方式是通过AssemblyAI的Playground在Playground中,用户可以直接上传音频文件或者输入YouTube链接,然后模型会快速生成文字转录。
    2. 免费API试用:用户可以免费注册并获取一个API令牌(API token)。注册后,前往AssemblyAI的文档(Docs)或Welcome Colab,这些资源可帮助快速开始使用API。

    更多关于Universal-1的信息,详见AssemblyAI的官方技术报告:https://www.assemblyai.com/discover/research/universal-1

    Universal-1的应用场景

    • 对话智能平台:能够快速、准确地分析大量客户数据,提供关键的客户声音洞察和分析,无论口音、录音条件或说话人数如何。
    • AI记事本:生成高度准确、无幻觉的会议记录,为基于大型语言模型的摘要、行动项和其他元数据生成提供基础,包括准确的专有名词、发言者和时间信息。
    • 创作者工具:为最终用户构建AI驱动的视频编辑工作流程,利用多种语言的精确语音转文字输出,低错误率和可靠的单词时间信息。
    • 远程医疗平台:自动化临床记录输入和索赔提交流程,利用准确和忠实的语音转文字输出,包括处方名称和医学诊断等罕见词汇,在对抗性和远场录音条件下也具有高成功率。
  • CogVLM2 – 智谱AI推出的新一代多模态大模型

    CogVLM2是什么

    CogVLM2是由智谱AI推出的新一代多模态大模型,在视觉和语言理解方面实现了显著的性能提升,支持高达8K的文本长度和1344*1344分辨率的图像输入,具备强大的文档图像理解能力。该模型采用50亿参数的视觉编码器与70亿参数的视觉专家模块,通过深度融合策略,优化了视觉与语言模态的交互,确保了在增强视觉理解的同时,语言处理能力也得到保持。CogVLM2的开源版本支持中英文双语,模型大小为19亿参数,但实际推理时激活的参数量约为120亿,展现了在多模态任务中的高效性能。

    CogVLM2

    CogVLM2的改进点

    CogVLM2模型相比前代的改进点主要包括以下几个方面:

    • 性能提升:在OCRbench和TextVQA等多个关键基准测试上,CogVLM2的性能有了显著提升,例如在OCRbench上性能提升了32%,在TextVQA上性能提升了21.9%。
    • 文档图像理解:CogVLM2增强了对文档图像的理解和问答能力,特别是在DocVQA基准测试中表现出色。
    • 支持高分辨率图像:模型支持高达1344*1344像素的图像分辨率,能够处理更高清晰度的图像。
    • 支持长文本:CogVLM2支持长达8K的文本输入,这使得模型能够处理更长的文档和更复杂的语言任务。
    • 双语支持:CogVLM2提供了支持中英文双语的开源模型版本,增强了模型的多语言能力。

    CogVLM2的模型信息

    CogVLM2开源了两款以Meta-Llama-3-8B-Instruct为语言基座模型的CogVLM2,分别是cogvlm2-llama3-chat-19B和cogvlm2-llama3-chinese-chat-19B,感兴趣的用户可以前往GitHub、Hugging Face或魔搭社区进行下载或在线体验。

    模型名称
    cogvlm2-llama3-chat-19B
    cogvlm2-llama3-chinese-chat-19B
    基座模型
    Meta-Llama-3-8B-Instruct
    Meta-Llama-3-8B-Instruct
    语言
    英文
    中文、英文
    模型大小
    19B
    19B
    任务
    图像理解,对话模型
    图像理解,对话模型
    模型链接
    体验链接
    Int4模型
    暂未推出
    暂未推出
    文本长度
    8K
    8K
    图片分辨率
    1344 * 1344
    1344 * 1344

    CogVLM2的模型架构

    CogVLM2的模型架构在继承上一代模型的基础上进行了优化和创新,具体特点如下:

    1. 视觉编码器:CogVLM2采用了一个拥有50亿参数的视觉编码器,负责对输入图像进行特征提取和编码。
    2. 视觉专家模块:在大语言模型中整合了一个70亿参数的视觉专家模块,这一模块通过独特的参数设置,精细地建模了视觉与语言序列的交互。
    3. 深度融合策略:CogVLM2采用了深度融合策略,使得视觉模态与语言模态能够更加紧密地结合,从而增强了模型在视觉理解能力的同时,保持了在语言处理上的优势。
    4. MLP Adapter:模型中使用了MLP(多层感知器)Adapter,用于调整和适配不同模态之间的特征。
    5. 降采样模块:为了更好地处理和理解高分辨率的文档或网页图片,CogVLM2在视觉编码器后引入了一个专门的降采样模块,有效提取关键信息,减少输入到语言模型中的序列长度。
    6. Word Embedding:模型包含了Word Embedding层,用于将文本转换为模型可以理解的数值型向量。
    7. 多专家模块结构:CogVLM2设计了多专家模块结构,使得在进行推理时,实际激活的参数量仅约120亿,这种设计既保证了模型的性能,又提高了推理效率。
    8. 语言基座模型:CogVLM2使用了Meta-Llama-3-8B-Instruct作为语言基座模型,为模型提供了强大的语言理解和生成能力。

    CogVLM2的架构

    CogVLM2的模型性能

    CogVLM2的团队在一系列多模态基准上进行了定量评估,这些基准包括 TextVQA、DocVQA、ChartQA、OCRbench、MMMU、MMVet、MMBench等。从下表可以看出CogVLM2 的两个模型,尽管具有较小的模型尺寸,但在多个基准中取得 SOTA性能;而在其他性能上,也能达到与闭源模型(例如GPT-4V、Gemini Pro等)接近的水平。
    CogVLM2的基准测试得分

    模型 是否开源 模型规模 TextVQA DocVQA ChartQA OCRbench MMMU MMVet MMBench
    LLaVA-1.5 13B 61.3 337 37.0 35.4 67.7
    Mini-Gemini 34B 74.1 48.0 59.3 80.6
    LLaVA-NeXT-LLaMA3 8B 78.2 69.5 41.7 72.1
    LLaVA-NeXT-110B 110B 85.7 79.7 49.1 80.5
    InternVL-1.5 20B 80.6 90.9 83.8 720 46.8 55.4 82.3
    QwenVL-Plus 78.9 91.4 78.1 726 51.4 55.7 67.0
    Claude3-Opus 89.3 80.8 694 59.4 51.7 63.3
    Gemini Pro 1.5 73.5 86.5 81.3 58.5
    GPT-4V 78.0 88.4 78.5 656 56.8 67.7 75.0
    CogVLM1.1 (Ours) 7B 69.7 68.3 590 37.3 52.0 65.8
    CogVLM2-LLaMA3 (Ours) 8B 84.2 92.3 81.0 756 44.3 60.4 80.5
    CogVLM2-LLaMA3-Chinese (Ours) 8B 85.0 88.4 74.7 780 42.8 60.5 78.9
  • 腾讯元器 – 腾讯推出的智能体创作开发平台

    腾讯元器是什么

    腾讯元器是腾讯公司在腾讯云生成式AI产业应用峰会上推出的一款基于腾讯混元大模型的AI智能体创作与分发平台,可帮助用户轻松创建和部署智能体,无需编写代码,即可实现聊天对话、内容创作、图像生成等功能的开发和接入。腾讯元器通过提供丰富的预集成插件和知识库资源,大幅降低了智能体的开发门槛,使得企业和开发者能够快速构建并使用智能体。此外,腾讯元器还支持一键分发到腾讯的全域渠道,如QQ、微信客服等,为用户提供了便捷的智能体应用体验。目前,腾讯元器已开启免费内测,感兴趣的用户可以前往申请。

    腾讯元器

    腾讯元器的功能特色

    • 智能体商店:用户可以在智能体商店中浏览和选择适合自己需求的智能体,这些智能体覆盖了多种业务场景和功能。
    • 低代码开发:腾讯元器支持低代码或无代码的智能体开发方式,使得即使没有专业的编程技能,用户也能轻松创建和定制智能体。
    • 工作流模式:工作流模式提供了一个直观的流程图式的界面,用户只需通过图形化界面拖放组件来设计工作流程,即可实现智能体的逻辑编排。
    • 腾讯生态集成:平台与腾讯的生态系统紧密集成,提供了丰富的插件和工具,方便用户利用腾讯的资源和服务。
    • 全域分发支持:智能体可以一键分发到腾讯的多个平台和渠道,包括QQ、微信客服等,扩大了智能体的应用范围和影响力。
    • 应用场景广泛:腾讯元器适用于多种业务场景,如客服、教育、娱乐、医疗等,能够根据不同行业的特点提供定制化的智能体解决方案。
    • 工具链支持:腾讯提供了与大模型配套的工具链,包括知识引擎、图像创作引擎、视频创作引擎等,这些工具链进一步扩展了智能体的应用能力和使用场景。
    • 开放性和可扩展性:腾讯元器的设计考虑了开放性和可扩展性,允许开发者和企业根据自身需求进行定制和扩展,构建更加个性化的智能体。

    腾讯元器

    如何使用腾讯元器

    目前,腾讯元器在免费内测中,感兴趣的用户可以前往申请使用:

    1. 访问腾讯混元的官网(hunyuan.tencent.com),点击顶部菜单栏的腾讯元器
    2. 或者你也可以直接访问腾讯元器的官网(yuanqi.tencent.com
    3. 然后进行登录/注册,填写内测申请表,申请会在24小时内进行审核开通
    4. 申请通过后,点击左上角的创建智能体
    5. 填写智能体的名字、简介、头像
    6. 然后填写详细设定,以及其他例如用户引导问题、回复建议、开场白等内容
    7. 勾选需要的外部插件、工作流,以及给智能体配置知识库
    8. 最后点击发布即可,支持发布到QQ智能体和微信客服

    腾讯元器的应用场景

    • 客服与售后:在客户服务领域,腾讯元器可以作为智能客服助手,提供24/7的自动化服务,处理常见问题解答、售后咨询等。
    • 内容创作与编辑:对于内容产业,如新闻、出版或自媒体,腾讯元器能够辅助进行文章创作、内容摘要、风格模仿等。
    • 教育与培训:在教育领域,可以作为教学辅助工具,提供个性化学习建议,进行语言教学或模拟考试等。
    • 金融咨询:在金融行业,智能体可以提供投资咨询、风险评估、财务规划等服务。
    • 法律服务:法律行业可以利用腾讯元器提供法律咨询、案例分析、文书撰写等辅助服务。
    • 营销与广告:营销领域可以利用智能体进行广告创意生成、市场趋势分析、用户行为预测等。
    • 企业内部管理:在企业管理中,腾讯元器可以辅助进行会议记录总结、日程安排、内部沟通等工作。
    • 娱乐与游戏:在娱乐行业,智能体可以用于游戏角色对话设计、虚拟偶像互动、剧本创作等。