Category: AI项目和框架

  • CodeGemma – 谷歌开源推出的代码生成大模型

    CodeGemma是什么

    CodeGemma是由Google发布的专注于代码生成和理解的大型语言模型,该系列包含三种不同规模的模型,分别是2B预训练模型、7B预训练模型和7B指令微调模型,旨在提供智能代码补全、生成和自然语言理解等功能。基于谷歌此前发布的Gemma模型,CodeGemma经过大量英语编程、数学数据的训练,以增强逻辑和数学推理能力,支持多种编程语言,并能够集成到开发环境中,简化代码编写流程,提高开发效率。

    Google CodeGemma

    CodeGemma的官网入口

    Google CodeGemma

    CodeGemma的功能特性

    • 代码补全:CodeGemma能够自动补全代码片段,包括函数、方法以及整个代码块,帮助开发者提高编码效率。
    • 代码生成:基于给定的上下文和指令,CodeGemma可以生成新的代码,这对于快速原型设计和解决编程问题非常有用。
    • 自然语言理解:CodeGemma结合了自然语言处理能力,可以理解和解释自然语言指令,使得与模型的交互更加直观和自然。
    • 多语言支持:支持多种编程语言,包括但不限于Python、JavaScript、Java等,使其能够服务于更广泛的开发者群体。
    • 高准确性:CodeGemma 模型基于 Web 文档、数学和代码中的 5000 亿个词元(主要是英语)数据训练而成,生成的代码不仅语法正确,而且语义上也更有意义,从而减少错误并缩短调试时间。
    • 集成开发环境:CodeGemma可以集成到各种开发环境中,减少编写样板代码的工作量,让开发者能够更专注于创新和核心代码的编写。

    CodeGemma的模型系列

    • CodeGemma 2B基础模型:20亿参数的模型专门针对代码填充进行了训练,旨在提供快速的代码补全和生成功能,尤其适用于对延迟和隐私要求较高的环境。
    • CodeGemma 7B基础模型:70亿参数模型的训练数据包含80%的代码填充数据以及20%的自然语言数据,使其不仅能够进行代码补全,还能理解和生成代码及语言。
    • CodeGemma 7B Instruct模型:在CodeGemma 7B的基础上,CodeGemma 7B Instruct模型经过了进一步的微调,以优化指令遵循能力,适合用于对话场景,特别是在讨论代码、编程或数学推理等主题时。

    CodeGemma模型系列

    CodeGemma的性能评估

    除了DeepSeek-Coder-7B,CodeGemma-7B在HumanEval基准测试中的表现超越了多数同类的7B模型,该基准测试广泛用于评估Python代码模型的性能。此外,在评估Java、JavaScript和C++等其他编程语言时,CodeGemma-7B也显示出卓越的性能,这些评估是基于MultiPL-E完成的,MultiPL-E是HumanEval基准测试的一个多语言扩展版本。根据技术报告,CodeGemma-7B在GSM8K测试中表现最为出色,位列所有7B模型之首。这些性能评估结果凸显了CodeGemma-7B在代码理解和生成方面的先进能力。

    CodeGemma性能对比

  • DesignEdit – 微软等开源的AI图像分层处理编辑框架

    DesignEdit是什么

    DesignEdit是由来自微软亚洲研究院和北京大学的研究人员共同开发的一个AI图像编辑框架,引入了设计领域的图层概念,采用多层潜在分解和融合的技术,实现了无需额外训练即可进行精确的空间感知图像编辑和处理。通过关键掩码自注意力机制和伪影抑制方案,DesignEdit能够灵活处理图像中的各个对象,并执行诸如移动、调整大小、移除等复杂操作。

    DesignEdit

    DesignEdit的官网入口

    DesignEdit的主要功能

    • 对象移除:DesignEdit可以从图像中精确移除指定的对象,无论是单个还是多个对象。通过多层潜在分解,框架能够独立处理每个对象,并在移除后自然地修复背景。
    • 对象移动:框架允许用户将图像中的一个或多个对象移动到新的位置。通过指令引导的潜在融合,对象可以在画布上重新定位,同时保持与周围环境的和谐。
    • 对象调整大小和翻转:DesignEdit能够对图像中的对象进行缩放和翻转操作,用户可以改变对象的尺寸或方向,而不会影响图像的其他部分。
    • 相机平移和缩放:模拟相机视角的变化,DesignEdit可以在图像中实现平移和缩放效果,允许用户调整图像的构图,就像通过相机镜头观察时移动或调整焦距一样。
    • 跨图像组合:DesignEdit支持将来自不同图像的元素组合在一起,创建全新的图像。这项功能特别适合于创意工作,可以结合多个图像的元素来创作新的视觉内容。
    • 设计图像编辑:特别针对设计图像/海报,DesignEdit能够处理文本、装饰和其他设计元素的编辑任务。它能够理解设计图像的特殊需求,如排版和样式的调整,提供更加精细的编辑控制。

    DesignEdit的工作原理

    DesignEdit的工作原理基于两个核心子任务的结合:多层潜在分解(Multi-Layered Latent Decomposition)和多层潜在融合(Multi-Layered Latent Fusion)。

    DesignEdit的工作原理

    1. 多层潜在分解
      • 概念:DesignEdit将源图像的潜在表示(latent representation)分割成多个层次,每个层次代表图像中的不同对象或背景部分。
      • 关键掩码自注意力:为了在不破坏图像其他区域的情况下编辑特定区域,DesignEdit采用了一种特殊的自注意力机制,称为关键掩码(key-masking)自注意力。这种机制允许模型在处理图像时忽略或修改掩码区域内的像素,同时保留周围区域的上下文信息。
      • 背景修复:在移除对象后,DesignEdit利用自注意力机制中的内在修复能力来填补背景中的空白区域,确保图像的连贯性和自然过渡。
    2. 多层潜在融合
      • 指令引导的融合:在分解步骤之后,DesignEdit根据用户的编辑指令,将编辑后的多个潜在表示层融合到一个新的画布上。这个过程是按照特定的图层顺序和用户指定的布局安排进行的。
      • 伪影抑制:为了提高编辑质量,DesignEdit在潜在空间中引入了伪影抑制方案。这个方案有助于减少编辑过程中可能出现的视觉瑕疵,使图像看起来更加自然和真实。
      • 和谐化处理:在融合过程中,DesignEdit通过额外的去噪步骤来协调融合后的多层潜在表示,进一步优化图像边缘的整合和界面的平滑过渡。

    整个编辑过程是免训练的,意味着不需要针对特定任务进行额外的训练或微调。DesignEdit利用先进的深度学习模型,如GPT-4V,来辅助生成精确的编辑指令和布局安排,从而实现高效、准确的图像编辑。

  • InstantStyle – 开源的个性化文本到图像生成框架,保留风格一致性

    InstantStyle是什么

    InstantStyle是小红书的InstantX团队(该团队也是InstantID框架背后的开发团队)开源的保留风格一致性的个性化文本到图像生成框架,旨在解决文本到图像生成中的一个关键问题:如何在保持风格一致性的同时生成图像。InstantStyle通过两个核心策略实现风格与内容的有效解耦:一是在特征空间内分离参考图像的风格和内容;二是将风格特征注入特定的风格块,避免风格泄露,以实现更好的风格迁移。

    InstantStyle

    InstantStyle有效地解决了文本到图像生成中的风格一致性问题,通过其独特的特征空间解耦和风格特定块注入策略,能够在不牺牲内容完整性的前提下,精确地迁移和应用各种复杂的艺术风格,同时避免了传统图像生成方法中常见的风格退化和内容泄露问题,极大地简化了风格迁移的过程,并提高了生成图像的视觉质量和创作灵活性。

    InstantStyle的官网入口

    InstantStyle生成的图像

    InstantStyle的功能特性

    • 图像风格迁移:InstantStyle允许用户将一种特定的艺术风格应用到任意目标图像上,从而创造出全新的视觉作品。
    • 多风格支持:InstantStyle能够处理和迁移多种不同的艺术风格,包括传统绘画风格(如印象派、表现主义)、现代艺术风格(如抽象、超现实主义)以及流行文化中的视觉风格(如漫画、动画)。
    • 内容保持:在应用新风格的同时,InstantStyle能够保持目标图像的原始内容不变。这意味着即使风格发生了变化,图像中的对象、场景和细节仍然与原图保持一致。
    • 风格强度调整:创作者可以根据需要调整风格迁移的强度,用户可以选择从微妙的风格变化到完全的风格转换,以适应不同的创作需求。
    • 文本描述控制:通过文本提示,用户可以指导InstantStyle生成符合特定描述的图像,为操作提供了额外的控制层,使得风格迁移更加精确和个性化。
    • 高效性能:InstantStyle的设计优化了计算效率,使得风格迁移过程快速且资源消耗较低,用户可以在较短的时间内获得结果。
    • 易于使用:InstantStyle的用户界面简洁直观,使得即使是没有深度技术背景的用户也能够轻松地进行风格迁移实验和创作。
    • 无需繁琐调整:与其他风格迁移方法相比,InstantStyle无需复杂的权重调整或参数设置,大大简化了风格迁移的过程。
    • 模型兼容性:InstantStyle可以与多种现有的文本到图像生成模型兼容,使其能够灵活地应用于不同的生成场景和任务中。

    InstantStyle的工作机制

    InstantStyle的工作原理基于两个核心策略,旨在解决文本到图像生成中的一致性风格问题。以下是这两个策略的详细介绍:

    1. 风格与内容的解耦
      • 特征空间中的操作:InstantStyle使用CLIP模型的图像编码器来提取参考图像的风格特征,同时,也使用CLIP的文本编码器来提取与内容相关的文本特征。CLIP是一个多模态模型,能够将图像和文本映射到一个共享的特征空间中。
        InstantStyle IP-Adapter
      • 减法操作:通过从参考图像的特征中减去内容文本的特征,InstantStyle能够分离出纯粹的风格特征。这种方法假设特征空间中的元素可以相互加减,从而有效地提取出风格信息,同时减少内容特征的干扰。
    2. 风格特定块的注入
      • 识别风格相关层:在扩散模型中,InstantStyle识别出负责风格信息的特定层(例如,上层注意力块负责捕捉风格,下层注意力块负责空间布局)。
      • 有选择性的特征注入:确定风格相关层后,InstantStyle将风格特征仅注入到这些层中。这样做可以确保风格特征被有效地应用到生成过程中,同时避免内容特征的泄露,从而保持生成图像的内容与文本描述的一致性。

    通过这两个策略,InstantStyle实现了风格和内容的有效分离,并在生成图像时保持了风格的一致性。这种方法的优势在于它的简单性和高效性,无需复杂的权重调整或额外的模块,就能够实现高质量的风格迁移。

    InstantStyle的应用场景

    • 艺术风格迁移:将特定的艺术风格应用到任意图像上,例如将梵高的画风应用到一张普通的风景照片上,生成具有类似笔触和色彩风格的艺术作品。
    • 图像内容定制:根据用户的文本描述生成图像,同时保持图像的特定风格,如将描述的场景以卡通、写实、未来主义等风格呈现。
    • 设计元素应用:在产品设计、广告创意、社交媒体图像等方面,根据设计指南或风格要求生成具有一致视觉元素的图像。
    • 个性化图像创作:为个人或品牌创建独特的视觉内容,如定制头像、社交媒体封面、个性化表情包等。
  • AniPortrait – 腾讯开源的照片对口型视频生成框架

    AniPortrait是什么

    AniPortrait是腾讯开源的照片对口型AI视频生成框架,类似于此前阿里推出的EMO,能够通过音频和一张参考肖像图片生成高质量的动画。AniPortrait的工作原理分为两个阶段:首先从音频中提取3D面部特征,并将其转换为2D面部标记点;然后,利用扩散模型和运动模块,将这些标记点转换成连贯且逼真的动画。该框架的优势在于其生成的动画具有高度的自然性和多样性,同时提供了编辑和再现面部动作的灵活性。

    AniPortrait

    AniPortrait的官网入口

    AniPortrait的功能特性

    • 音频驱动的动画生成AniPortrait能够根据输入的音频文件自动生成与语音同步的面部动画,包括嘴唇的运动、面部表情和头部姿势。
    • 高质量的视觉效果通过使用扩散模型和运动模块,AniPortrait能够产生高分辨率、视觉上逼真的肖像动画,提供出色的视觉体验。
    • 时间一致性该框架确保动画在时间上的连贯性,使得动画中的角色动作流畅自然,没有突兀的跳跃或不一致。
    • 灵活性和可控性利用3D面部表示作为中间特征,AniPortrait提供了对动画编辑的灵活性,允许用户对生成的动画进行进一步的定制和调整。
    • 面部表情和嘴唇动作的精确捕捉通过改进的PoseGuider模块和多尺度策略,AniPortrait能够精确捕捉和再现嘴唇的微妙动作和复杂的面部表情。
    • 与参考图像的一致性框架通过整合参考图像的外观信息,确保生成的动画在视觉上与原始肖像保持一致,避免了身份不匹配的问题。

    AniPortrait的工作机制

    AniPortrait主要由两个模块组成:Audio2Lmk和Lmk2Video。

    AniPortrait的工作机制

    1. Audio2Lmk模块(音频到2D面部标记点)

    Audio2Lmk模块的目标是从音频输入中提取一系列面部表情和嘴唇动作的3D面部网格和头部姿势信息。首先,使用预训练的wav2vec模型来提取音频特征,这个模型能够准确识别音频中的发音和语调,对于生成逼真的面部动画至关重要。然后,利用这些音频特征,通过两个全连接层转换成3D面部网格。对于头部姿势的预测,也使用wav2vec网络作为骨干,但不共享权重,因为姿势与音频中的节奏和语调更为相关。此外,使用变压器解码器来解码姿势序列,并通过交叉注意力机制将音频特征整合到解码器中。最终,通过透视投影将3D网格和姿势信息转换为2D面部标记点序列。

    2. Lmk2Video模块(2D面部标记点到视频)

    Lmk2Video模块负责根据参考肖像图像和一系列面部标记点生成时间上一致的高质量肖像视频,参考了AnimateAnyone的网络架构作为灵感来源,采用Stable Diffusion 1.5作为骨干,结合时间运动模块,将多帧噪声输入转换为一系列视频帧。此外,引入了一个与SD1.5结构相同的ReferenceNet,用于从参考图像中提取外观信息,并将其整合到骨干网络中,确保视频中的面部身份保持一致。为了提高对嘴唇动作的捕捉精度,增强了PoseGuider模块的设计,采用了ControlNet的多尺度策略,并将参考图像的标记点作为额外输入,通过交叉注意力模块促进参考标记点与每一帧目标标记点之间的交互,帮助网络更好地理解面部标记点与外观之间的关系。

  • DreaMoving – 阿里开源的基于扩散模型的人类视频生成框架

    DreaMoving是什么

    DreaMoving是一个基于扩散模型的人类视频生成框架,由阿里巴巴集团的研究团队开发。DreaMoving通过视频控制网络和内容引导器实现对人物动作和外观的精确控制,使得用户可以通过简单的文本描述或图像提示来生成个性化的视频内容。该框架的目标是生成高质量的定制化人类视频,特别是能够根据给定的目标身份和姿势序列生成目标身份移动或跳舞的视频内容。

    DreaMoving

    DreaMoving的官网入口

    DreaMoving的功能特性

    • 定制化视频生成:DreaMoving能够根据用户提供的目标身份和姿势序列,生成相应的人物移动或跳舞的视频,满足个性化视频内容的制作需求。
    • 高度可控性:通过视频控制网络(Video ControlNet),DreaMoving可以精确控制视频中人物的动作细节,确保生成的视频具有高度的时间一致性和运动真实性。
    • 身份保持:利用内容引导器(Content Guider),框架能够保持视频中人物的身份特征,如面部和服装,确保生成的视频与目标身份高度吻合。
    • 多样化的输入方式:用户可以通过文本提示、图像提示或二者结合的方式来指导视频的生成,提供了灵活的创作方式。
    • 易于使用和适配:DreaMoving设计简洁,易于操作,并且可以适配多种风格化的扩散模型,以生成风格多样的视频结果。

    DreaMoving的技术架构

    DreaMoving的架构建立在Stable Diffusion模型的基础上,主要由三个核心部分组成,每个部分承担着不同的功能和任务,共同实现高质量的人类视频生成。

    DreaMoving的架构

    1. 去噪U-Net:作为DreaMoving的基础网络,负责视频的生成过程。去噪U-Net通过迭代去噪的方式,逐步从噪声中恢复出清晰的视频帧。在每个U-Net块之后,插入了运动块(Motion Block),以增强视频的时间一致性和运动真实性。
    2. 视频控制网络(Video ControlNet):该网络专门负责控制视频中人物的运动。它作为一个插件模块,与去噪U-Net结合使用,通过处理姿势或深度序列来控制人物的动作。Video ControlNet使得生成的视频能够根据输入的控制序列展现出精确的运动模式。
    3. 内容引导器(Content Guider):内容引导器的目的是保持视频中人物的身份特征,如面部和服装。它使用图像编码器来精确地引导人物的外观,同时结合文本提示来生成背景内容。内容引导器通过交叉注意力机制,将输入的文本提示和图像特征结合起来,生成具有特定身份特征的视频内容。

    这三个网络协同工作,使得DreaMoving能够生成既具有个性化身份特征又具有精确运动控制的高质量人类视频。此外,DreaMoving的架构设计使其易于使用和适配,能够与多种风格化的扩散模型结合,以产生多样化的视频生成结果。

    DreaMoving的应用场景

    • 电影和电视制作:在影视制作中,DreaMoving可以用来创建复杂的动作场景,特别是当需要特定人物表演或舞蹈动作时。它可以帮助制作团队在预算和时间有限的情况下,快速生成高质量的视频内容。
    • 游戏开发:游戏设计师可以利用DreaMoving生成逼真的角色动画,为玩家提供更加丰富和真实的游戏体验。这在角色扮演游戏或动作游戏中尤为重要,可以增强游戏的沉浸感。
    • 个性化视频创作:内容创作者可以使用DreaMoving制作个性化视频,例如社交媒体上的舞蹈挑战、模仿秀或其他创意视频。用户可以通过简单的文本或图像输入,快速生成具有个人特色的视频内容。
    • 广告和营销:营销人员可以使用DreaMoving制作吸引人的广告视频,通过定制化的人物动作和场景来吸引目标受众,提高广告的传播效果和品牌认知度。
  • SWE-agent – 普林斯顿开源的AI程序员智能体

    SWE-agent是什么

    SWE-agent是一个由普林斯顿大学NLP组研究人员开发的开源AI程序员和软件工程师系统,利用大型语言模型(如GPT-4)的能力,可以自动解决GitHub存储库中的问题。SWE-agent通过智能体-计算机接口(ACI)与代码库交互,能够执行代码的浏览、编辑、测试和执行等任务。该系统在SWE-bench测试集上展现出与闭源AI程序员Devin相似的准确度,平均93秒解决一个问题,实现了SOTA 性能。

    在25%的SWE-bench测试集上,SWE-agent 实现了与 Devin 相似的准确度—— 解决了12.29%的问题。SWE-agent目前已在GitHub上开源,研究论文将于4月10日发布。

    SWE-agent

    SWE-agent的官网入口

    SWE-agent的主要功能

    • Pull Request问题解决:SWE-agent能够理解GitHub存储库中的问题,并尝试通过创建拉取请求(pull request)来修复这些问题。
    • 代码编辑与修复:SWE-agent能够浏览和编辑代码库中的文件,自动修复代码中的错误和漏洞。
    • 自动语法检查:在代码编辑过程中,SWE-agent可以运行linter(代码检查工具),确保代码符合语法规范。
    • 文件查看器:提供了一个专门构建的文件查看器,能够在每轮显示100行代码,支持上下滚动和搜索功能,以便更有效地查看和编辑代码。
    • 全目录字符串搜索:SWE-agent具备全目录字符串搜索功能,能够简洁地列出所有匹配搜索条件的文件和代码片段。
    • 命令与反馈:通过智能体-计算机接口(ACI),SWE-agent能够接收和执行以自然语言形式给出的命令,并提供相应的反馈。
    • 测试编写与执行:SWE-agent能够编写并执行测试代码,验证修复的有效性。

    SWE-agent Demo

    SWE-agent的工作流程

    • 理解问题:首先,SWE-agent通过自然语言处理(NLP)技术理解GitHub存储库中的问题描述。这一步骤依赖于其内部集成的大型语言模型(如GPT-4),该模型能够解析和理解人类编写的问题报告。
    • 智能体-计算机接口(ACI):SWE-agent使用ACI与代码库进行交互。ACI是一套设计用来简化大模型与计算机系统交互的命令和反馈格式。通过ACI,SWE-agent可以浏览代码库、搜索文件、查看和编辑代码,甚至执行代码。
    • 代码分析与修复:在理解了问题之后,SWE-agent会分析相关的代码,定位可能的错误或漏洞,并生成修复方案。这可能包括修改现有代码、添加缺失的代码或者重构代码结构。
    • 自动化测试:为了确保修复有效,SWE-agent能够自动编写和执行测试用例。这些测试用例旨在验证代码更改是否解决了原始问题,并且没有引入新的错误。
    • 性能反馈:SWE-agent执行的每一步操作都会产生反馈,这些反馈用于评估其工作的效果。特别是在SWE-bench基准测试中,SWE-agent会评估其生成的拉取请求是否真正解决了问题。
    • 迭代与优化:SWE-agent的设计允许不断的迭代和优化。研究团队通过收集使用中的反馈和性能数据,不断改进ACI设计,提高SWE-agent的问题解决能力和代码修复的准确性。
  • Voice Engine – OpenAI公布的AI语音合成和声音克隆模型

    Voice Engine是什么

    Voice Engine是OpenAI最新公布的一项AI语音合成和声音克隆技术,能够利用简短的15秒音频样本和文本输入,生成接近原声的自然听起来的语音。该项技术自2022年底开发以来,已经被应用于OpenAI的文本到语音API和ChatGPT的语音功能中。Voice Engine的应用前景广泛,包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流者、帮助恢复患者的声音等。同时,为确保技术的安全使用,OpenAI制定了严格的使用政策,防止声音冒充,并采取了包括水印追踪在内的多项安全措施。

    OpenAI Voice Engine

    官方博客介绍:https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

    Voice Engine的应用场景和案例

    • 教育与阅读辅助:Voice Engine可以为儿童和非读者提供自然听起来的语音,帮助他们更好地接触和理解书面内容。例如,教育技术公司Age of Learning利用这一技术生成预设脚本的语音内容,并与GPT-4结合,创造实时、个性化的互动响应,以提高学生的学习体验。
    • 内容翻译与全球化:通过Voice Engine,视频和播客等内容可以被翻译成听众的母语,同时保留原始说话者的口音,使得创作者和企业能够以更加地道和亲切的方式触及全球听众。例如,AI视觉叙事平台HeyGen使用Voice Engine进行视频翻译,使其内容能够跨越语言障碍,触及更广泛的受众。
    • 改善偏远地区的服务提供:Voice Engine能够通过提供本地语言的服务,改善偏远社区的基本服务,如健康咨询等。Dimagi公司正在开发工具,使用Voice Engine和GPT-4为社区卫生工作者提供互动反馈,帮助他们提高技能。
    • 支持言语残障人士:对于有交流障碍的个体,Voice Engine可以提供独特且非机械性的声音,使他们能够通过增强和替代通讯(AAC)设备进行交流。Livox公司就是利用这一技术,为其用户提供多种语言的自然听起来的声音,让他们能够更好地表达自己。
    • 恢复患者的声音:对于那些因疾病或神经问题而失去语言能力的患者,Voice Engine可以帮助他们恢复或重建自己的声音。例如,Norman Prince Neurosciences Institute正在探索如何使用Voice Engine帮助因肿瘤或神经原因导致语言障碍的个体。

    Voice Engine的音频示例

    1. 音频翻译

    参考英文音频
    生成的中文音频

    2. 患者声音恢复

    患者原声
    参考音频
    生成音频

    如何使用Voice Engine

    Voice Engine目前还处于小规模预览阶段,并没有广泛发布。OpenAI正在通过与一小部分可信赖的合作伙伴进行私下测试,以更好地理解这项技术的可能用途,并且根据这些小规模测试的结果和收到的反馈,来决定如何以及是否在未来更广泛地部署这项技术。

    因此,目前Voice Engine并没有对公众开放在线使用。OpenAI采取了谨慎的态度,以确保在推广这项技术的同时,能够充分考虑到其潜在的滥用风险,并制定相应的安全措施和使用政策。未来,OpenAI可能会根据测试结果和社会发展的需要,决定是否将Voice Engine提供给更广泛的用户群体。

  • Jamba – AI21开源的首个基于Mamba架构的大模型

    Jamba是什么

    Jamba是由AI21 Labs推出的首个基于Mamba架构的生产级别的大语言模型,目前大部分的大模型(如GPT、Gemini 和 Llama)都是基于 Transformer 结构。而 Jamba 结合了 Mamba 结构化状态空间模型(SSM)和 传统Transformer 架构,兼具了高质量输出、高吞吐量和低内存占用的优点。该混合结构的模型提供了256K的上下文窗口,显著提升了处理长文本时的吞吐量和效率。

    Jamba 以开放权重的形式发布,遵循Apache 2.0开源许可,鼓励社区进行进一步的研究和优化。目前,Jamba 目前作为研究模型发布,没有必要的商业用途保障。AI21 Labs 计划在未来几周内发布一个经过微调、更安全的版本。

    AI21 Jamba

    Jamba的官网入口

    Jamba的主要特性

    • SSM-Transformer混合架构:Jamba是首个采用Mamba SSM(结构化状态空间模型)与Transformer架构相结合的生产级模型,这种创新的混合架构旨在提升模型的性能和效率。
    • 大容量上下文窗口:Jamba提供了256K的上下文窗口,这使得模型能够处理更长的文本序列,适用于更复杂的自然语言处理任务。
    • 高吞吐量:相比于同等规模的Mixtral 8x7B模型,Jamba在处理长上下文时实现了3倍的吞吐量提升,可以更高效地处理大量数据。
    • 单GPU大容量处理:Jamba能够在单个GPU上处理高达140K的上下文,显著提高了模型的可访问性和部署的灵活性。
    • 开放权重许可:Jamba的权重以Apache 2.0许可发布,为研究者和开发者提供了自由使用、修改和优化模型的权限,促进了技术的共享和创新。
    • NVIDIA API集成:Jamba将作为NVIDIA NIM推理微服务在NVIDIA API目录中提供,使得企业开发者可以利用NVIDIA AI Enterprise软件平台轻松部署Jamba模型。
    • 优化的MoE层:Jamba利用混合结构中的MoE(混合专家)层,在推理时只激活部分参数,提高了模型的运行效率和性能。

    Jamba的技术架构

    Jamba 架构采用块和层方法,使 Jamba 能够成功集成 Mamba SSM 和 Transformer两种架构。每个 Jamba 块包含一个注意力层或一个 Mamba 层,后跟一个多层感知器 (MLP),从而产生每八层中一个 Transformer 层的总体比例。

    Jamba的架构

    此外,Jamba 利用 MoE 来增加模型参数的总数,同时简化推理中使用的活动参数的数量,从而在计算需求没有相应增加的情况下获得更高的模型容量。为了最大限度地提高单个 80GB GPU 上的模型质量和吞吐量,AI21 Labs 优化了所使用的 MoE 层和专家的数量,为常见推理工作负载留下了足够的可用内存。

    Jamba的性能对比

    根据 AI21 Labs 的报告,Jamba 模型在各种基准测试(如HellaSwag、ArcChallenge、MLLU等)中展示了优秀的结果,在广泛的任务测试(如语言理解、科学推理、常识推理等)中与同尺寸类别中最先进的模型相当甚至超越(如Llama2 13B、Llama2 70B、Gemma 7B、Mixtral 8×7B)。

    Jamba的性能基准测试对比

  • Champ – 基于3D的人物图片转视频动画模型

    Champ是什么

    Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型,该方法结合了3D参数化模型(特别是SMPL模型)和潜在扩散模型,能够精确地捕捉和再现人体的3D形状和动态,同时保持动画的时间一致性和视觉真实性,以生成高质量的人类动画视频。

    Champ

    Champ的官网入口

    Champ的功能特性

    • 人物图片转视频动画:Champ可以将静态人物图片转换为动态视频动画,通过精确捕捉和再现人体的形状和动作,创造出既真实又可控的动态视觉内容。
    • 3D形状和姿势表示:Champ能够精确地表示和控制人体的形状和姿势,可从源视频中提取的人体几何和运动特征更加准确。
    • 跨身份动画生成:Champ能够将来自一个视频的运动序列应用到另一个不同身份的参考图像上,实现跨身份的动画生成。
    • 高质量的视频生成:Champ在生成视频时保持了角色和背景之间的一致性,同时通过时间对齐模块确保帧之间的流畅过渡,从而产生高质量的视频输出。
    • 与T2I文生图模型结合:结合根据文本描述生成图像的T2I文生图模型,用户可以通过文本描述指定动画中的角色外观和动作,然后Champ根据这些描述再生成动画视频。

    Champ的工作原理

    Champ的工作原理

    1. 3D人体参数化模型(SMPL)
      • 使用SMPL模型来表示人体的形状和姿势。SMPL模型是一个基于参数的3D人体模型,能够捕捉人体的形状变化和姿势变化。
      • 通过将SMPL模型拟合到参考图像上,可以获取人体的形状参数和姿势参数。
    2. 从源视频中提取运动
      • 利用现有的框架(如4D-Humans)从源视频中提取人体的运动序列。这些运动序列包括连续的SMPL模型参数,用于描述视频中人物的动作。
    3. 生成深度、法线和语义图
      • 将SMPL模型渲染成深度图、法线图和语义图,这些图像包含了3D结构、表面方向和人体部位的详细信息。
    4. 运动对齐和指导
      • 使用提取的SMPL模型参数来对齐参考图像中的人物形状和姿势,确保动画中的人物与源视频中的人物动作一致。
      • 引入基于骨架的运动指导,以增强对复杂运动(如面部表情和手指动作)的表示。
    5. 多层运动融合
      • 通过自注意力机制,将深度、法线、语义和骨架信息的特征图进行融合,以生成一个综合的运动指导信号。
    6. 潜在扩散模型
      • 利用潜在扩散模型(如Latent Diffusion Model)作为生成框架,将上述运动指导信号和参考图像编码后的特征结合起来,生成动画帧。
      • 在潜在空间中应用去噪过程,逐步从带有噪声的表示中恢复出清晰的动画帧。
    7. 训练和推理
      • 在训练阶段,模型学习如何根据给定的参考图像和运动指导生成连贯的动画序列。
      • 在推理阶段,模型根据新的参考图像和运动序列生成动画,展示出其泛化能力。
    8. 视频生成
      • 将生成的帧序列组合成视频,同时确保视频中的人物与参考图像在视觉上保持一致,且动作流畅自然。
  • VoiceCraft – 开源的语音编辑和文本转语音模型

    VoiceCraft是什么

    VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能,生成的语音自然甚至难以与原声区分。

    VoiceCraft

    VoiceCraft的官网入口

    VoiceCraft的功能特性

    • 语音编辑:VoiceCraft能够在不需要针对性训练的情况下,对现有的语音录音进行编辑,如插入、删除或替换其中的词语,而编辑后的语音听起来自然,与原录音难以区分。
    • 文本到语音转换:该模型能够仅根据文本和简短的声音样本,生成与目标声音相似的语音,无需在训练过程中接触过目标声音。
    • 高质量语音合成:VoiceCraft在合成语音时,能够保持语音的自然度和清晰度,使得合成语音在听觉上与真实人声相近。
    • 多样化数据适应性:模型在多种口音、说话风格、录音条件以及背景噪音和音乐的挑战性数据集上进行了评估,显示出良好的适应性和一致的性能。

    VoiceCraft的工作原理

    1. 神经编解码器架构:VoiceCraft采用了Transformer架构,一种依赖于自注意力机制的深度学习模型,能够处理序列数据并捕捉序列中的长距离依赖关系。Transformer架构在自然语言处理(NLP)领域已经证明了其高效性,VoiceCraft将其应用于语音信号的处理。
    2. Token重排过程:VoiceCraft引入了一种特殊的token重排过程,该过程包括两个主要步骤——因果掩蔽和延迟叠加。这个过程允许模型在生成语音时考虑到前后文信息,从而生成更加自然和连贯的语音序列。
      VoiceCraft的Token重排过程

      • 因果掩蔽:这一步骤涉及将输入语音信号量化为一系列编码器token,并将这些token按照因果关系(即不影响未来输出)进行掩蔽。这意味着模型在预测被掩蔽的token时,只能依赖于未被掩蔽的token。
      • 延迟叠加:在因果掩蔽的基础上,延迟叠加步骤进一步调整了编码器token的时间维度,以确保模型在预测当前时间步的编码器token时,能够有效地利用之前时间步的信息。
    3. 自回归序列预测:VoiceCraft在训练和推理过程中使用自回归序列预测方法。这意味着模型会一次生成一个token,并在每个时间步使用之前生成的所有token作为上下文信息来预测下一个token。
    4. 多码本建模:为了提高效率和生成质量,VoiceCraft使用了残差向量量化(RVQ)技术,将语音信号编码为多个码本的序列。这些码本捕捉了语音的不同特征,使得模型能够更精细地建模语音信号。
    5. 推理和生成:在推理阶段,VoiceCraft根据输入的文本和音频信息(对于零样本TTS任务,还包括目标声音的简短参考录音),自回归地生成对应的语音序列。对于语音编辑任务,模型会根据原始音频和编辑后的文本目标,生成与目标文本匹配的语音,同时保持未编辑部分的原始特征。

    VoiceCraft的应用场景

    • 有声读物制作:VoiceCraft可以用来创建高质量的有声读物,通过生成自然流畅的语音来讲述故事或书籍内容,为听众提供沉浸式的听觉体验。
    • 视频内容创作:在互联网视频制作中,VoiceCraft可以用于快速生成旁白或角色对话,特别是在动画、教育视频或广告中,可以节省配音成本并提高制作效率。
    • 播客音频编辑:对于播客制作者,VoiceCraft提供了强大的音频编辑工具,可以轻松修正错误或更改内容,而无需重新录制整个播客,从而加快内容发布流程。
    • 多语言内容生产:VoiceCraft的跨语言能力使其能够为不同语言的听众生成内容,有助于跨越语言障碍,实现全球化的内容分发。