Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • AniTalker – 上海交大开源的对口型说话视频生成框架

    AniTalker是什么

    AniTalker是由来自上海交大X-LANCE实验室和思必驰AISpeech的研究人员推出的AI对口型说话视频生成框架,能够将单张静态人像和输入的音频转换成栩栩如生的动画对话视频。该框架通过自监督学习策略捕捉面部的复杂动态,包括微妙的表情和头部动作。AniTalker利用通用运动表示和身份解耦技术,减少了对标记数据的依赖,同时结合扩散模型和方差适配器,生成多样化和可控制的面部动画,可实现类似阿里EMO和腾讯AniPortrait的效果。

    AniTalker

    AniTalker的主要功能

    • 静态肖像动画化:AniTalker能够将任何单张人脸肖像转换成动态视频,其中人物能够进行说话和表情变化。
    • 音频同步:该框架能够将输入的音频与人物的唇动和语音节奏同步,实现自然的对话效果。
    • 面部动态捕捉:不仅仅是唇动同步,AniTalker还能模拟一系列复杂的面部表情和微妙的肌肉运动。
    • 多样化动画生成:利用扩散模型,AniTalker能够生成具有随机变化的多样化面部动画,增加了生成内容的自然性和不可预测性。
    • 实时面部动画控制:用户可以通过控制信号实时指导动画的生成,包括但不限于头部姿势、面部表情和眼睛运动。
    • 语音驱动的动画生成:框架支持直接使用语音信号来生成动画,无需额外的视频输入。
    • 长视频连续生成:AniTalker能够连续生成长时间的动画视频,适用于长时间的对话或演讲场景。

    AniTalker说话视频生成

    AniTalker的官网入口

    AniTalker的工作原理

    AniTalker的工作原理

    • 运动表示学习:AniTalker使用自监督学习方法来训练一个能够捕捉面部动态的通用运动编码器。这个过程涉及到从视频中选取源图像和目标图像,并通过重建目标图像来学习运动信息。
    • 身份与运动解耦:为了确保运动表示不包含身份特定的信息,AniTalker采用了度量学习和互信息最小化技术。度量学习帮助模型区分不同个体的身份信息,而互信息最小化确保运动编码器专注于捕捉运动而非身份特征。
    • 分层聚合层(HAL):引入HAL( Hierarchical Aggregation Layer)来增强运动编码器对不同尺度运动变化的理解能力。HAL通过平均池化层和加权和层整合来自图像编码器不同阶段的信息。
    • 运动生成:在训练好运动编码器之后,AniTalker可以基于用户控制的驱动信号生成运动表示。这包括视频驱动和语音驱动的管道。
      • 视频驱动管道:使用驱动演讲者的视频序列来为源图像生成动画,从而准确复制驱动姿势和面部表情。
      • 语音驱动管道:与视频驱动不同,语音驱动方法根据语音信号或其他控制信号来生成视频,与输入的音频同步。
    • 扩散模型和方差适配器:在语音驱动方法中,AniTalker使用扩散模型来生成运动潜在序列,并使用方差适配器引入属性操作,从而产生多样化和可控的面部动画。
    • 渲染模块:最后,使用图像渲染器根据生成的运动潜在序列逐帧渲染最终的动画视频。
    • 训练和优化:AniTalker的训练过程包括多个损失函数,如重建损失、感知损失、对抗损失、互信息损失和身份度量学习损失,以优化模型性能。
    • 控制属性特征:AniTalker允许用户控制头部姿态和相机参数,如头部位置和面部大小,以生成具有特定属性的动画。

    AniTalker的应用场景

    • 虚拟助手和客服:AniTalker可以生成逼真的虚拟面孔,用于虚拟助手或在线客服,提供更加自然和亲切的交互体验。
    • 电影和视频制作:在电影后期制作中,AniTalker可以用来生成或编辑演员的面部表情和动作,尤其是在捕捉原始表演时无法实现的场景。
    • 游戏开发:游戏开发者可以利用AniTalker为游戏角色创建逼真的面部动画,增强游戏的沉浸感和角色的表现力。
    • 视频会议:在视频会议中,AniTalker可以为参与者生成虚拟面孔,尤其是在需要保护隐私或增加趣味性的场合。
    • 社交媒体:用户可以利用AniTalker创建个性化的虚拟形象,在社交媒体上进行交流和分享。
    • 新闻播报:AniTalker可以生成虚拟新闻主播,用于自动化新闻播报,尤其是在需要多语言播报时。
    • 广告和营销:企业可以利用AniTalker生成吸引人的虚拟角色,用于广告宣传或品牌代言。
  • IC-Light – ControlNet作者开源的AI图片打光工具

    IC-Light是什么

    IC-Light是一款由ControlNet作者张吕敏开发的AI图像打光处理工具,可以对图片进行光源操纵和光影重构,实现与不同背景的完美融合。用户只需上传图片,选择光源方向并输入提示词,IC-Light便能自动抠图并生成融合了新光源和背景的新图片。该工具支持文本条件和背景条件下的图像重照明,适用于多种场景,包括日常照片编辑、电商商品海报制作等,目前已开源,可通过GitHub获取相关模型和代码。

    IC-Light

    IC-Light的主要功能

    • 图像重打光:IC-Light能够改变图片的光源效果,使得图片在视觉上与新的背景或环境融合得更加自然。
    • 文本条件重照明:用户可以通过输入描述性的文字提示,如“左侧光线”、“月光”等,来指导IC-Light生成具有特定光照效果的图像。
    • 背景条件模型:IC-Light还可以根据背景图片的提示信息,对前景物体进行不同风格的光照变化,而无需复杂的文字描述。
    • 光源方向选择:用户可以指定光源的方向,比如从左侧、右侧或上方照射,以创造出更加逼真的光照效果。
    • 自动抠图:IC-Light具备自动抠图功能,能够将上传的图片中的主体与背景分离,进而进行光照效果的调整。
    • 风格化融合:IC-Light支持将图片与不同风格的背景进行融合,如赛博朋克风格、科幻风格等,增加了图片编辑的创意空间。
    • 一致性保证:通过潜在空间的一致性,IC-Light确保在不同光源组合下,模型输出的光照效果具有高度的一致性。

    IC-Light Demo

    IC-Light的项目入口

    如何使用IC-Light

    1. 运行Gradio:下载GitHub源码本地运行或者访问Hugging Face的在线版Gradio Demo
    2. 上传图片:上传一张你想要编辑的图片。这张图片将作为前景主体,IC-Light会在此基础上进行光照效果的调整。
    3. 选择光源位置:根据你想要实现的光照效果,选择光源的方向。IC-Light允许用户指定光源是从左侧、右侧、顶部或任何其他方向照射。
    4. 输入提示词:对于文本条件重照明模型,你需要输入描述性的提示词,比如“温暖的阳光”、“昏暗的灯光”等,这些提示词将指导IC-Light生成相应的光照效果。
    5. 选择背景(可选):如果需要,你可以选择一张背景图片,IC-Light会将前景图片与所选背景进行融合,创造出新的光照和背景效果。
    6. 调整参数:根据需要,你可能需要调整一些额外的参数,如光源的大小、模糊度或颜色等,以获得最佳的视觉效果。
    7. 生成新图片:完成上述步骤后,IC-Light将自动处理图片,并生成一张新的图片,其中包含了你所指定的光照效果。

    IC-Light的应用场景

    • 个人照片编辑:用户可以上传个人照片,通过IC-Light改变光照效果,使得照片看起来更具艺术感或适应不同的背景环境。
    • 专业摄影后期:摄影师可以使用IC-Light对拍摄的照片进行光照调整,以获得更加理想的光照效果,提升作品的专业品质。
    • 电商产品展示:电商平台可以利用IC-Light将产品图片与各种背景融合,创造出更具吸引力的商品展示效果。
    • 广告和海报设计:设计师可以借助IC-Light快速实现广告或海报中的光影效果,提高设计效率和创意表现。
    • 模拟真实环境光照:在3D建模和渲染领域,IC-Light可以用来模拟真实世界的光照条件,提升模型的真实感。
  • PuLID – 字节跳动开源的个性化文本到图像生成框架

    PuLID是什么

    PuLID是由字节跳动的团队开源的一种个性化文本到图像生成技术,通过对比对齐和快速采样方法,实现了无需调整模型的高效ID定制,轻松实现图像换脸效果。该技术能够保持高身份(ID)保真度,同时最大限度地减少对原始图像风格和背景的干扰,支持用户通过文本提示轻松编辑图像,生成逼真且个性化的图像结果。PuLID支持个性化编辑,允许用户通过简单提示调整人物属性,且易于大规模应用,适用于艺术创作、虚拟形象定制和影视制作等多个领域。

    PuLID

    PuLID的功能特色

    • 高度逼真的面部定制:用户只需提供目标人物的面部图像,PuLID便能精准地将该面部特征应用到各种风格的图像中,生成极具真实感的定制化肖像。
    • 原始风格保留:在进行面部替换的过程中,PuLID精心设计算法以最大程度地保留原始图像的风格元素,如背景、光照和整体艺术风格,确保生成的图像与原图风格一致。
    • 灵活的个性化编辑:PuLID支持通过简单的文本提示对生成的图像进行细致的编辑,包括但不限于人物的表情、发型、配饰等,赋予用户更大的创作自由度。
    • 快速出图能力:利用先进的快速采样技术,PuLID能够在极短的时间内生成高质量的图像,大幅提升了图像生成的效率。
    • 无需精细调整:用户在使用PuLID时,无需进行繁琐的模型调整或参数优化,即可快速获得理想的图像结果,极大降低了技术门槛。
    • 兼容性与灵活性:PuLID与多种现有的基础模型和身份编码器具有良好的兼容性,使其能够轻松集成到不同的应用平台中。

    PuLID

    PuLID的官网入口

    PuLID的工作原理

    PuLID的工作原理

    • 双分支训练框架:PuLID采用一个结合了标准扩散模型和快速Lightning T2I分支的双分支训练框架。这种设计允许模型在生成图像时同时优化身份定制和原始图像风格的保持。
    • 对比对齐:通过构建具有相同文本提示和初始潜在条件的两条生成路径(一条包含ID插入,另一条不包含),PuLID使用对比对齐损失来语义上对齐这两条路径的UNet特征,指导模型如何在不干扰原始模型行为的情况下嵌入ID信息。
    • 快速采样:PuLID利用快速采样技术,从纯噪声状态快速生成高质量的图像,这为精确计算ID损失提供了条件,因为生成的图像更接近真实世界数据的分布。
    • 精确ID损失:在ID插入后,PuLID使用生成的高质量初始图像(x0)来提取面部嵌入,并与真实面部嵌入计算准确的ID损失,确保生成的图像在身份特征上的高保真度。
    • 校准损失:包括语义校准损失和布局校准损失,确保模型对文本提示的响应在两条路径中保持一致,从而保持风格、布局的一致性,并允许个性化编辑。
    • 端到端优化:PuLID的训练目标是联合优化扩散损失、对齐损失和ID损失,以训练出一个既能够生成高质量图像,又能保持高ID保真度的模型。

    PuLID的应用场景

    • 艺术创作:艺术家和设计师可以利用PuLID快速生成具有特定身份特征的人物肖像,用于绘画、插图和数字艺术作品。
    • 虚拟形象定制:在游戏和虚拟现实应用中,用户可以通过PuLID创建或修改虚拟角色的面部特征,打造个性化的虚拟形象。
    • 影视制作:电影和电视剧的后期制作可以采用PuLID技术进行角色面部替换或特效制作,提高制作效率并降低成本。
    • 广告和营销:企业可以在广告中使用PuLID技术,将模特或名人的面部特征融入不同的场景和风格中,以吸引目标客户群。
    • 社交媒体:社交媒体用户可以利用PuLID生成具有个性化特征的图像,用于个人头像或内容创作。
  • Vidu – 生数科技发布的视频大模型,可生成16秒1080P的视频

    Vidu是什么

    Vidu是中国首个长时长、高一致性、高动态性的视频大模型,由生数科技与清华大学联合开发。该AI视频生成模型采用原创的U-ViT架构,结合Diffusion与Transformer技术,能够一键生成长达16秒、1080P分辨率的高清视频。Vidu能模拟真实物理世界,具备丰富的想象力,支持多镜头生成,保持时空一致性,效果接近Sora,代表了中国在视频大模型领域的技术突破。

    Vidu

    Vidu的主要功能

    • 文本到视频生成:用户可以通过输入简单的文本提示,快速生成长达16秒的高清视频内容,大大降低了视频制作的技术门槛,使得非专业用户也能轻松制作出高质量的视频。
    • 高分辨率输出:Vidu支持生成分辨率高达1080P的视频,生成的视频具有非常清晰的画质,适合在各种高清显示设备上播放。
    • 多镜头生成能力:Vidu支持同时生成多个镜头视角的视频,能够制作出类似于电影或电视剧中常见的多镜头切换效果,增加了视频的动态感和观赏性。
    • 模拟真实世界:Vidu能够模拟真实世界的物理特性,如物体的运动、光影的变化等,使得生成的视频内容更加逼真。
    • 保持时空一致性:在生成多镜头视频时,Vidu能够保证不同镜头之间的时空关系是连贯的,避免了不同镜头之间出现时空错乱的情况。
    • 丰富的想象力:除了模拟现实世界,Vidu还具备丰富的想象力,能够创造出新颖的视频内容,满足用户在创意表达上的需求。
    • 多模态融合能力:虽然目前Vidu主要聚焦于视频内容的生成,但基于其多模态大模型的特性,未来它有望整合文本、图像等多种模态的信息,生成更加丰富和立体的视频内容。

    Vidu

    Vidu的技术架构

    • Diffusion技术:Diffusion是一种生成模型技术,它通过逐步引入噪声并学习如何逆转这个过程来生成高质量的图像或视频。Vidu利用Diffusion技术生成连贯且逼真的视频内容。
    • Transformer架构:Transformer是一种深度学习模型,最初用于自然语言处理任务,因其强大的性能和灵活性,后来被广泛应用于计算机视觉等领域。Vidu结合了Transformer架构来处理视频数据。
    • U-ViT架构:U-ViT是Vidu技术架构的核心,是一种将Diffusion与Transformer融合的创新架构。U-ViT由生数科技团队提出,是全球首个此类融合架构,它结合了Diffusion模型的生成能力和Transformer模型的感知能力。
    • 多模态扩散模型UniDiffuser:UniDiffuser是生数科技基于U-ViT架构开发的多模态扩散模型,它验证了U-ViT架构在处理大规模视觉任务时的可扩展性。
    • 长视频表示与处理技术:Vidu在U-ViT架构的基础上,进一步突破了长视频表示与处理的关键技术,这使得Vidu能够生成更长、更连贯的视频内容。
    • 贝叶斯机器学习:贝叶斯机器学习是一种统计学习方法,它通过贝叶斯定理来更新模型的概率估计。Vidu在开发过程中,团队利用了贝叶斯机器学习的技术来优化模型性能。

    如何使用Vidu

    Vidu目前仅处于发布阶段,还没有提供正式访问和使用的入口,感兴趣的公司或机构可以申请加入其合作伙伴计划https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

    Vidu的适用人群

    • 视频创作者:Vidu为视频制作人员提供了一个强大的工具,可以快速生成高质量的视频内容,适用于独立视频制作人、电影制作人、动画师等。
    • 游戏开发者:游戏开发团队可以利用Vidu生成逼真的游戏环境和动态背景,提升游戏的视觉效果和玩家体验。
    • 广告和营销专业人士:广告创意人员和营销团队可以使用Vidu来制作吸引人的视频广告,以更低的成本和更高的效率吸引目标客户。
    • 教育工作者:教师和培训师可以利用Vidu制作教育视频,如模拟实验、历史重现等,使学习过程更加直观和有趣。
    • 新闻工作者:新闻机构和记者可以使用Vidu生成新闻报道中的动态背景或模拟场景,提高报道的真实性和观赏性。
  • VideoGigaGAN – Adobe推出的AI视频分辨率提升模型

    VideoGigaGAN是什么

    VideoGigaGAN是由Adobe和马里兰大学的研究人员提出的一种新型的生成式视频超分辨率(VSR)模型,最高可将视频分辨率提升8倍,将模糊的视频放大为具有丰富细节和时间连贯性的高清视频。该模型基于大规模图像上采样器GigaGAN,通过创新的技术手段,如流引导的特征传播、抗锯齿处理和高频穿梭,解决了传统VSR方法中存在的模糊和闪烁问题,显著提升了视频上采样后的时间一致性和高频细节表现。

    VideoGigaGAN

    VideoGigaGAN的功能特色

    • 高效视频超分辨率:VideoGigaGAN能够将标准或低分辨率视频内容转换为高分辨率格式,显著提升视频的清晰度和观赏性。
    • 细节增强保持:在提升分辨率的同时,该模型注重保留视频的高频细节,如细小纹理和锐利边缘,避免传统放大方法中常见的模糊和失真现象。
    • 帧间连贯性优化:通过先进的技术手段,VideoGigaGAN确保视频中连续帧之间的过渡平滑自然,有效避免了时间闪烁和不一致性问题,提供连贯的观影体验。
    • 快速渲染能力:该模型具备快速处理能力,能够在短时间内完成视频的超分辨率处理,适合需要快速转换或实时处理的应用场景。
    • 高倍率视频放大:支持高达8倍的视频放大比例,对于需要大幅度提升视频分辨率的专业应用,如影像编辑和视觉效果制作,提供了强有力的技术支持。
    • 全面提升视频质量:不仅提升分辨率,VideoGigaGAN还改善视频的整体画质,包括色彩、对比度和细节层次,使得视频内容更加生动和真实。
    • 生成高真实感视频:利用强大的生成对抗网络架构,VideoGigaGAN能够生成接近自然拍摄效果的高分辨率视频,满足高端视频制作的需求。

    VideoGigaGAN的官网入口

    VideoGigaGAN的技术原理

    VideoGigaGAN的工作原理

    • 基础架构:VideoGigaGAN建立在GigaGAN图像上采样器的基础上,GigaGAN是一个大规模的生成对抗网络(GAN),能够对图像进行高质量的上采样。
    • 时间模块扩展:为了将GigaGAN应用于视频处理,研究者将2D图像模块扩展到3D时间模块,通过在解码器中添加时间卷积层和时间自注意力层,以处理视频序列。
    • 流引导特征传播:为了提高视频帧之间的时间一致性,VideoGigaGAN采用了流引导特征传播模块。该模块使用双向循环神经网络(RNN)和图像反变形层,基于光流信息对特征进行对齐和传播。
    • 抗锯齿处理:为了减少高频细节区域的时间闪烁,VideoGigaGAN在编码器的下采样层中使用了抗锯齿块(BlurPool),代替传统的步幅卷积,以减少别名效应。
    • 高频特征穿梭(HF Shuttle):为了补偿在上采样过程中可能丢失的高频细节,VideoGigaGAN通过跳跃连接将高频特征直接传输到解码器层。
    • 损失函数:在训练过程中,VideoGigaGAN使用了包括标准GAN损失、R1正则化、LPIPS损失和Charbonnier损失在内的多种损失函数,以优化模型性能。
    • 训练与推理:VideoGigaGAN在训练时联合优化流引导特征传播模块和扩展的GigaGAN模型。在推理时,首先使用流引导模块生成帧特征,然后将特征输入到GigaGAN块中进行上采样。
    • 数据集和评估:使用标准的VSR数据集进行训练和测试,如REDS和Vimeo-90K,并通过PSNR、SSIM、LPIPS等指标评估模型的上采样质量。

    VideoGigaGAN的应用场景

    • 视频画质增强:对于旧电影、家庭录像或任何低分辨率的视频材料,VideoGigaGAN可以提升其分辨率,改善画质,使其更适合现代播放设备。
    • 视频安全监控:在安全监控领域,VideoGigaGAN可以帮助提高视频的清晰度,从而更好地识别和分析视频中的对象或事件。
    • 视频编辑与后期制作:在视频编辑和后期制作中,VideoGigaGAN可以用来提升原始视频的分辨率,以满足高质量输出的需求。
    • 视频传输与存储:在带宽有限的情况下,通过降低视频的传输分辨率可以减少数据传输量。VideoGigaGAN可以在接收端将视频上采样到高分辨率,以改善观看体验。
    • 视频安全与认证:在需要验证视频内容真实性的场景下,VideoGigaGAN可以帮助恢复视频细节,辅助进行内容的真伪鉴定。
  • IDM-VTON – 逼真的开源AI虚拟试穿框架

    IDM-VTON是什么

    IDM-VTON(Improved Diffusion Models for Virtual Try-ON)是由韩国科学技术院和OMNIOUS.AI的研究人员提出的一种先进的AI虚拟试穿技术,通过改进扩散模型来生成逼真的人物穿戴图像,实现更真实的虚拟试穿效果。该技术包含两个关键组件:一是视觉编码器,用于提取服装图像的高级语义信息;二是GarmentNet,一个并行UNet网络,用于捕捉服装的低级细节特征。IDM-VTON还引入了详细的文本提示,以增强模型对服装特征的理解,从而提升生成图像的真实度。

    IDM-VTON

    IDM-VTON的功能特色

    • 虚拟试穿图像生成:根据用户和服装的图像,生成用户穿戴特定服装的虚拟图像。
    • 服装细节保留:通过GarmentNet提取服装的低级特征,确保服装的图案、纹理等细节在生成的图像中得到准确反映。
    • 支持文本提示理解:利用视觉编码器和文本提示,使模型能够理解服装的高级语义信息,如款式、类型等。
    • 个性化定制:允许用户通过提供自己的图像和服装图像,定制化生成更符合个人特征的试穿效果。
    • 逼真的试穿效果:IDM-VTON能够生成视觉上逼真的试穿图像,不仅在视觉上与服装图像保持一致,而且能够自然地适应人物的姿态和体型。

    IDM-VTON

    IDM-VTON的官网入口

    IDM-VTON的工作原理

    IDM-VTON

    1. 图像编码:首先,将人物(xp)和服装(xg)的图像编码成模型可以处理的潜在空间表示。
    2. 高级语义提取:使用图像提示适配器(IP-Adapter),这是一个利用图像编码器(如CLIP模型)来提取服装图像的高级语义信息的组件。
    3. 低级特征提取:通过GarmentNet,一个专门设计的UNet网络,来提取服装图像的低级细节特征,如纹理、图案等。
    4. 注意力机制
      • 交叉注意力:将高级语义信息与文本条件结合,通过交叉注意力层进行融合。
      • 自注意力:将低级特征与来自TryonNet的特征结合,并通过自注意力层进行处理。
    5. 详细文本提示:为了增强模型对服装细节的理解,提供详细的文本提示,描述服装的具体特征,如“短袖圆领T恤”。
    6. 定制化:通过微调TryonNet的解码器层,可以使用特定的人物-服装图像对来定制化模型,以适应不同的人物和服装特征。
    7. 生成过程:利用扩散模型的逆过程,从加入噪声的潜在表示开始,逐步去噪生成最终的虚拟试穿图像。
    8. 评估与优化:在不同的数据集上评估模型的性能,使用定量指标(如LPIPS、SSIM、CLIP图像相似性得分和FID得分)和定性分析来优化模型。
    9. 泛化测试:在In-the-Wild数据集上测试模型的泛化能力,该数据集包含真实世界的场景,以验证模型在未见过的服装和人物姿态上的表现。

    IDM-VTON的应用场景

    • 电子商务:在线上购物平台中,IDM-VTON可以让用户在不实际穿上衣物的情况下,预览服装穿在自己身上的效果,从而提高购物体验和满意度。
    • 时尚零售:时尚品牌可以利用IDM-VTON来增强顾客的个性化体验,通过虚拟试穿展示最新款式,吸引顾客并促进销售。
    • 个性化推荐:结合用户的身材和偏好数据,IDM-VTON可以用于个性化推荐系统,为用户推荐适合其身材和风格的服装。
    • 社交媒体:用户可以在社交媒体上使用IDM-VTON来尝试不同的服装风格,分享试穿效果,增加互动和娱乐性。
    • 时尚设计和展示:设计师可以使用IDM-VTON来展示他们的设计作品,通过虚拟模特展示服装,而无需制作实体样衣。
  • ID-Animator – 腾讯等推出的个性化人物视频生成框架

    ID-Animator是什么

    ID-Animator是由来自腾讯光子工作室、中科大和中科院合肥物质科学研究院的研究人员推出的一种零样本(zero-shot)人类视频生成技术,能够根据单张参考面部图像生成个性化视频,同时保留图像中的人物身份特征,并能够根据文本提示调整视频内容。该框架通过结合预训练的文本到视频扩散模型和轻量级面部适配器,实现了高效的视频生成,且无需针对特定身份进行额外的训练。ID-Animator通过构建专门的数据集和采用随机面部参考训练方法,提高了视频的身份保真度和生成质量。

    ID-Animator

    ID-Animator的主要功能

    • 修改视频角色(Recontextualization): ID-Animator能够根据提供的参考图像和文本,改变视频中角色的上下文信息。例如,可以通过文本提示调整角色的发型、服装、背景,甚至执行特定动作,从而创造出全新的角色背景故事。
    • 年龄和性别修改(Age and Gender Alteration): 该模型能够根据需要对视频中角色的年龄和性别进行调整,以适应不同的视频内容和风格需求。如生成年轻人像变老、男生变女生的视频。
    • 身份混合(Identity Mixing): ID-Animator能够混合两个不同身份的特征,按照不同的比例生成具有综合特征的视频,这在创造新的角色或混合现实中的人物特征时非常有用。
    • 与ControlNet的结合: ID-Animator可与ControlNet等现有精细条件模块兼容,通过提供单帧或多帧控制图像,可以生成与控制图像紧密结合的视频序列,这在生成特定动作或场景的视频时非常有用。
    • 社区模型集成: ID-Animator还能够与社区模型(如Civitai上的模型)集成,即使没有在这些模型上进行过训练,也能有效地工作,保持了面部特征和动态生成的稳定性。

    ID-Animator

    ID-Animator的官网入口

    ID-Animator的工作原理

    ID-Animator的工作原理

    1. 预训练的文本到视频扩散模型:ID-Animator使用一个预训练的文本到视频(Text-to-Video, T2V)扩散模型作为基础,该模型能够根据文本提示生成视频内容。
    2. 面部适配器(Face Adapter):为了生成与特定身份一致的视频,ID-Animator引入了一个轻量级的面部适配器。这个适配器通过学习面部潜在查询来编码与身份相关的嵌入信息。
    3. 身份导向的数据集构建:研究者构建了一个面向身份的数据集,这包括解耦的人类属性和动作字幕技术,以及从构建的面部图像池中提取的面部特征。
    4. 随机面部参考训练方法:ID-Animator采用随机采样的面部图像进行训练,这种方法有助于将与身份无关的图像内容与与身份相关的面部特征分离,从而使适配器能够专注于学习与身份相关的特征。
    5. 文本和面部特征的融合:ID-Animator将文本特征和面部特征结合在一起,通过注意力机制(Attention Mechanism)进行融合,以生成既符合文本描述又保留身份特征的视频。
    6. 生成过程:在生成视频时,ID-Animator首先接收一个参考面部图像和相应的文本提示。面部适配器将参考图像的特征编码为嵌入,然后将这些嵌入与文本特征一起输入到扩散模型中,最终生成视频。
    7. 优化和训练:为了提高模型的性能,ID-Animator的训练过程包括使用随机面部图像作为参考,以减少参考图像中与身份无关特征的影响,并通过分类器自由引导(Classifier-Free Guidance)等技术优化视频生成质量。
    8. 兼容性和扩展性:ID-Animator设计为与多种预训练的T2V模型兼容,如AnimateDiff,这使得它可以轻松地集成到现有的系统中,并在不同的应用中进行扩展。
  • OpenELM – 苹果开源的高效语言模型系列

    OpenELM是什么

    OpenELM是Apple苹果公司最新推出的系列高效开源的语言模型,包括OpenELM-270M、OpenELM-450M、OpenELM-1_1B和OpenELM-3B不同参数规模的版本(分为预训练版和指令微调版)。该大模型利用层间缩放策略在Transformer模型的每一层中进行参数的非均匀分配,以此提高模型的准确度和效率。该模型在公共数据集上进行了预训练,并且在多个自然语言处理任务上展现出了优异的性能。OpenELM的代码、预训练模型权重以及训练和评估流程全部开放,旨在促进开放研究和社区的进一步发展。

    苹果OpenELM

    OpenELM的基本信息

    • 参数规模:OpenELM总共有八个模型,其中四个是预训练的,四个是指令微调的,涵盖了 2.7 亿到 30 亿个参数之间的不同参数规模(270M、450M、1.1B和3B)。
    • 技术架构:OpenELM采用了基于Transformer的架构,使用了层间缩放(layer-wise scaling)策略,通过调整注意力头数和前馈网络(FFN)的乘数来实现参数的非均匀分配。该模型采用了分组查询注意力(Grouped Query Attention, GQA)代替多头注意力(Multi-Head Attention, MHA),使用SwiGLU激活函数代替传统的ReLU,以及RMSNorm作为归一化层。
    • 预训练数据:OpenELM使用了多个公共数据集进行预训练,包括RefinedWeb、deduplicated PILE、RedPajama的子集和Dolma v1.6的子集,总计约1.8万亿个token。
    • 开源许可:OpenELM的代码、预训练模型权重和训练指南都是在开放源代码许可证下发布的。此外,苹果还发布了将模型转换为 MLX 库的代码,从而在苹果设备上进行推理和微调。

    OpenELM的官网入口

    OpenELM模型

    OpenELM的技术架构

    • Transformer架构:OpenELM采用了仅解码器(decoder-only)的Transformer模型架构,这是一种在自然语言处理中广泛使用的架构,特别适用于处理序列数据。
    • 层间缩放(Layer-wise Scaling):OpenELM通过层间缩放技术有效地在模型的每一层分配参数。这意味着模型的早期层(接近输入端)使用较小的注意力维度和前馈网络维度,而接近输出端的层则逐渐增加这些维度的大小。
    • 分组查询注意力(Grouped Query Attention, GQA):OpenELM使用了GQA代替传统的多头注意力(Multi-Head Attention, MHA)。GQA是一种注意力机制的变体,旨在提高模型处理长距离依赖的能力。
    • RMSNorm归一化:OpenELM使用了RMSNorm作为其归一化层,一种有助于稳定训练过程的技术。
    • SwiGLU激活函数:在前馈网络(Feed Forward Network, FFN)中,OpenELM使用了SwiGLU激活函数,一种门控激活函数,有助于模型捕捉复杂的模式。
    • RoPE位置编码:为了编码位置信息,OpenELM使用了旋转位置编码(Rotary Positional Embedding, RoPE),一种可以处理序列中元素顺序的编码方式。
    • Flash注意力:在计算缩放点积注意力(scaled dot-product attention)时,OpenELM使用了Flash注意力,这是一种快速且内存高效的注意力计算方法。

    OpenELM的性能表现

    研究人员将OpenELM与PyThia、Cerebras-GPT、TinyLlama、OpenLM、MobiLlama和OLMo等模型进行了比较。在相似的模型大小下,OpenELM在ARC、BoolQ、HellaSwag、PIQA、SciQ和WinoGrande等主流的任务测试中的多数任务上展现出了更高的准确度。尤其是,与OLMo模型相比,OpenELM在参数数量和预训练数据更少的情况下,准确率依然更高。

    OpenELM基准测试得分

  • Arctic – Snowflake开源的企业级AI大模型

    Arctic是什么

    Arctic是由云计算巨头Snowflake的AI研究团队开发的一款高效、开源的企业级大型语言模型,该大模型是一个拥有480亿(480B)的参数规模,由128个细粒度的专家构成的混合专家模型(MoE)模型。在成本效益、训练效率和推理效率方面具有显著优势,特别适合执行企业任务,如SQL生成、编程和指令遵循。Arctic采用Apache 2.0许可,提供对模型权重和代码的开放访问,并开源了数据集和研究洞察。

    Snowflake Arctic

    Arctic的主要特点

    • 参数规模:Arctic拥有480亿参数,但在推理时仅激活170亿参数,以提高效率。
    • 技术架构:采用混合架构,结合了密集变换器(Dense Transformer)和128个专家的MoE模型,每个专家有3.66亿参数。
    • 上下文窗口:模型训练时使用4K的注意力上下文窗口,并计划扩展至32K,以支持更长序列的处理。
    • 训练成本:Arctic的训练计算预算大约在200万美元以下(即少于3000个GPU周)即可达到顶级大模型的能力
    • 模型许可:Arctic在开放的Apache 2.0许可下发布,允许自由使用和修改。
    • 主要用途:专为企业设计,擅长执行SQL生成、编程和指令遵循等任务,适合创建定制企业模型。

    Arctic的训练效率

    Arctic的模型架构

    • 架构组成:Arctic采用了Dense-MoE Hybrid Transformer架构,这种架构结合了密集变换器(Dense Transformer)和混合专家模型(MoE)的特点。
    • 密集变换器规模:模型包含一个具有10B(10 billion,即10亿)参数的密集变换器模型。
    • MoE架构规模:在MoE部分,Arctic设计了128个细粒度的专家,每个专家拥有3.66B(3.66 billion,即36.6亿)参数。因此,MoE部分的总参数量为128×3.66B,即约470B(470 billion,即4700亿)参数。
    • 总参数量:结合密集变换器和MoE部分,Arctic的总参数量达到了480B(480 billion,即4.8万亿)参数。
    • 活跃参数选择:在推理过程中,Arctic使用top-2门控机制从128个专家中选择两个最合适的专家,这意味着在任何给定时间,大约有17B(17 billion,即170亿)的参数是活跃的。
    • 通信与计算重叠:为了提高训练效率,Arctic的架构设计允许在训练过程中将专家间的通信开销与计算任务重叠,从而隐藏了通信开销。
    • 推理效率:在小批量(如批量大小为1)的交互式推理中,Arctic模型的内存读取次数比Code-Llama 70B少4倍,比Mixtral 8x22B少2.5倍,这有助于提高推理性能。
    • 系统优化:Arctic与NVIDIA合作,利用TensorRT-LLM和vLLM团队的技术,为Arctic提供了初步的推理实现,并通过FP8量化技术,使得Arctic可以在单个GPU节点上运行。
    • 注意力上下文窗口:Arctic训练时使用的注意力上下文窗口为4K,团队正在开发基于attention-sinks的滑动窗口实现,以支持无限序列生成能力,未来计划扩展到32K注意力窗口。

    Arctic的性能表现

    Snowflake将Arctic与DBRX、Llama、Mixtral等模型在企业指标和学术指标方面的基准测试进行了对比,Arctic在企业智能指标上表现更好,在如MMLU等通用知识基准上的性能可能略低于一些最新模型,但它在这些基准上仍然保持了竞争力。

    Snowflake基准测试得分

    企业指标:与所有其他开源模型相比,Arctic 都表现出顶级性能,这些任务包括:

    • 编码(Coding):通过HumanEval+ 和 MBPP+ 基准测试编码能力。
    • SQL生成(SQL Generation):使用Spider基准测试SQL查询生成能力。
    • 指令遵循(Instruction Following):IFEval基准测试遵循复杂指令的能力。

    如何使用Arctic

    Snowflake Arctic 现已可从 Hugging Face、Replicate 等平台使用,后续将在包括 Snowflake Cortex、Amazon Web Services (AWS)、Microsoft Azure、NVIDIA API Catalog、Lamini、Perplexity 和 Together 等在内的平台陆续上线。

  • Hyper-SD – 字节跳动推出的高效的图像合成框架

    Hyper-SD是什么

    Hyper-SD是由字节跳动的研究人员推出的一个高效的图像合成框架,旨在解决现有扩散模型在多步推理过程中计算成本高昂的问题。Hyper-SD通过轨迹分割一致性蒸馏(TSCD)技术,在不同时间段内保持数据的一致性,从而有效保留了原始的ODE(常微分方程)轨迹。此外,它还融入了人类反馈学习,优化了在低步数推理情况下的模型性能,并利用分数蒸馏进一步提升了单步推理的图像质量。该框架能够在保持高图像质量的同时,大幅减少必要的推理步骤,实现快速生成高分辨率图像,进一步推动了生成AI领域的发展。

    Hyper-SD

    Hyper-SD的官网入口

    Hyper-SD的工作原理

    • 轨迹分割一致性蒸馏(TSCD)将训练时间步长范围[0, T]划分为k个均匀的时间段。在每个时间段内部执行一致性蒸馏,使用原始模型作为教师,学生模型逐步学习教师模型的行为。通过逐步减少时间段的数量(如8 → 4 → 2 → 1),训练学生模型以逼近教师模型的全局行为。
    • 人类反馈学习(ReFL)利用人类对图像的偏好反馈来优化模型。训练奖励模型,使其能够识别并奖励更符合人类审美的图像。通过迭代去噪和直接预测,结合奖励模型的反馈,微调学生模型。
    • 分数蒸馏使用真实分布和假分布的得分函数来指导单步推理过程。通过最小化两个分布之间的KL散度,优化学生的单步生成性能。
    • 低秩适应(LoRA)使用LoRA技术来适配和训练学生模型,使其成为一个轻量级的插件,可以快速部署和使用。
    • 训练和损失函数优化定义损失函数,结合一致性损失、人类反馈损失和分数蒸馏损失。使用梯度下降等优化算法来训练学生模型,同时更新LoRA插件。
    • 推理和图像生成在训练完成后,使用学生模型进行图像生成的推理过程。根据应用场景的需求,选择适当的推理步骤数量,以平衡生成质量和效率。
    • 性能评估使用定量指标(如CLIP分数、美学分数)和定性指标(如用户研究)来评估生成图像的质量。根据评估结果,进一步调整和优化模型参数。