Blog

  • AnimateDiff-Lightning – 字节推出的快速生成高质量视频的模型

    AnimateDiff-Lightning是什么

    AnimateDiff-Lightning是由字节跳动的研究人员最新推出的一个高质量视频生成模型,利用了渐进式对抗性扩散蒸馏技术来实现快速的视频生成。该模型旨在解决现有视频生成模型在速度和计算成本上的主要挑战,同时保持生成视频的高质量,相较于原始的 AnimateDiff,生成视频的速度快十倍以上!

    AnimateDiff-Lightning

    AnimateDiff-Lightning的官网入口

    AnimateDiff-Lightning的功能特性

    • 快速视频生成:AnimateDiff-Lightning能够通过少步骤推断(few-step inference)快速生成视频,显著减少了视频生成所需的时间,使其适用于需要即时或快速内容生成的场景。
    • 高质量输出:尽管生成速度快,AnimateDiff-Lightning仍然能够保持视频内容的高质量,确保生成的视频在视觉上具有较高的清晰度和细节表现。
    • 风格兼容性:通过跨模型蒸馏技术,AnimateDiff-Lightning能够适应多种不同的基础模型,这意味着它可以生成具有不同艺术风格(如现实主义、动漫、卡通等)的视频内容。
    • 不同宽高比的视频生成:AnimateDiff-Lightning能够在不同的宽高比下生成视频,支持多种视频格式和布局要求。
    • 视频到视频的转换:AnimateDiff-Lightning不仅支持从文本到视频的生成,还能够进行视频到视频的风格转换,为用户提供高度的创作自由度。
    • 与控制模块的兼容性:AnimateDiff-Lightning可以与图像控制模块(如ControlNet)和相机运动模块(如Motion LoRA)结合使用,进一步增强视频内容的控制能力。

    AnimateDiff-Lightning的工作原理

    AnimateDiff-Lightning的方法是基于AnimateDiff模型的改进,并通过跨模型扩散蒸馏技术来提高视频生成的速度和质量。以下是AnimateDiff-Lightning方法的关键步骤和组成部分:

    1. 模型和数据准备

    • 选择基础模型:AnimateDiff-Lightning选择了多个流行的基础模型,包括现实风格和动漫风格的模型,如Stable Diffusion v1.5、RealisticVision v5.1、epiCRealism、ToonYou Beta 6、IMP v1.0和Counterfeit v3.0。
    • 数据生成:使用AnimateDiff模型和选定的基础模型生成大量的视频剪辑数据,以支持蒸馏过程。这些数据包括从WebVid-10M数据集生成的现实风格视频和使用文本提示生成的动漫风格视频。

    2. 跨模型蒸馏

    • 共享运动模块:AnimateDiff模型由冻结的图像基础模型和共享的运动模块组成。在蒸馏过程中,只更新运动模块的权重,而保持图像基础模型的权重不变。
    • 多GPU训练:在不同的GPU上加载不同的图像基础模型,并初始化相同的运动模块。这样可以同时在多个基础模型上进行蒸馏,提高了训练效率。

    3. 流条件视频判别器

    • 扩展判别器:为了处理多个基础模型的不同流动,判别器被扩展为流条件的,即它可以根据基础模型的索引来学习并评估不同的流动轨迹。
    • 训练判别器:判别器与扩散模型和蒸馏模型一起训练,以确保生成的视频在风格和质量上与原始模型相匹配。

    4. 蒸馏过程

    • 渐进式蒸馏:AnimateDiff-Lightning按照128 → 32 → 8 → 4 → 2的步骤顺序进行蒸馏,使用均方误差(MSE)和分类器自由引导(CFG)进行初步蒸馏,然后使用对抗性损失进行后续步骤。
    • 梯度累积:由于GPU内存限制,每个GPU只能处理一个批次,因此使用梯度累积技术来实现较大的有效批次大小。

    5. 评估和测试

    • 定性评估:通过与原始AnimateDiff和AnimateLCM模型的比较,展示AnimateDiff-Lightning在不同推断步骤下生成视频的质量。
    • 定量评估:使用FVD(Fréchet Video Distance)指标对不同基础模型上生成的视频进行定量比较,以证明AnimateDiff-Lightning在保持原始质量方面的优势。
  • AI投标管理软件公司Altura获300万欧元种子轮融资

    Altura

    总部位于荷兰乌得勒支的AI投标管理软件初创公司 Altura 3 月 19 日宣布在种子轮融资中筹集了 300 万欧元的资金,由 Curiosity VC 领投,Fortino Capital 参投。

    Altura 将利用这笔资金增强其软件并扩大其顶尖技术人才团队。该公司的目标是推出更多产品并增强支持服务,以简化流程并提高整体质量。

    Altura 由 Jordi van der Hek 和 Matthijs Huiskamp 于 2019 年创立,两年前推出了其软件的第一个版本。 Altura 的人工智能投标软件简化了提案创建和管理,旨在改变政府组织、公司和 B2B 协作之间的互动。Altura 的出价管理软件集成了大型语言模型 (LLM)、检索增强生成 (RAG) 和自定义提示,以及向量和图数据库技术。

    (消息来源:Silicon Canals

  • AI驱动的数据治理平台Euno获625万美元种子轮融资

    Euno.ai

    以色列数据初创公司 Euno 周二宣布,已筹集 625 万美元的种子资金,并将为大型和规模化组织的数据团队推出动态治理解决方案。本轮融资由 10D 领投,INT3 参投,其他著名天使投资人包括 Barr Moses(Monte Carlo 联合创始人兼首席执行官)、Lior Gavish(Monte Carlo 联合创始人兼首席技术官)和 Yoni Broyde(前首席执行官兼首席执行官) Alooma 联合创始人)。

    该公司由 Eyal Firstenberg 和 Sarah Levy 于 2023 年创立,Eyal 之前创立了网络安全初创公司 LightCyber ​​,后来被 Palo Alto Net Works 以1.05 亿美元收购;Sarah 则是 Sight Diagnostics 的前首席技术官。Euno 的平台可帮助业务分析师利用他们在结构化查询语言 (SQL) 和商业智能 (BI) 工具方面的专业知识来快速交付数据产品,同时还优化集中建模治理以推动整个组织的一致性。

    (消息来源:VentureBeat

  • AI商店运营助理平台Visio.ai获250万美元种子轮融资

    Visio.ai

    巴西的人工智能商店运营助理平台 Visio.ai,利用计算机视觉和人工智能帮助实体店降低成本并节省工人时间,在 DGF Investments 领投的种子轮融资中筹集了 250 万美元,Alexia Ventures 和 Scale-Up Ventures 参投。

    该公司计划利用筹集的资金用于扩大其业务并扩大其在巴西食品特许经营店和零售店的业务。

    Visio.ai 由 Matheus Flores(首席执行官)、Gustavo Tamanaka(首席技术官)、David Stanquini(CPO)和 Gabriel Flores(首席财务官)创立,在巴西拥有 150 多个客户,其中包括该国两家最大的食品特许经营店 Subway 和 Bob’s 。

    (消息来源:LatamList

  • AI生成3D内容初创公司graswald.ai获330万美元融资

    graswald.ai

    总部位于德国汉诺威的AI生成3D内容的初创公司 graswald.ai 宣布筹集了 330 万美元的融资,本轮融资由 Lakestar 和 Supernode Global 共同领投。

    graswald.ai 由 Julius Harling 于 2021 年创立,借助 AI 技术,可自动快速创建和管理精美、逼真的 3D 模型。截至目前,graswald.ai 已被全球超过 17万 名创意用户使用,其中包括 NVIDIA、Autodesk、Amazon Games、Axis Studios 等公司。

    (消息来源:Tech.eu

  • AI增强的数据安全平台BigID获6000万美元E轮融资

    BigID融资

    总部位于美国纽约的人工智能增强数据安全、合规和隐私领域的独角兽公司 BigID 宣布完成了 6000 万美元的 E 轮融资,估值超过10 亿美元。本轮融资由 Riverwood Capital 领投,Silver Lake Waterman 和 Advent参投。

    通过新一轮融资,BigID 旨在通过战略收购加速其进一步增长,筹集的资金将用于推动 BigID 在人工智能数据安全和合规领域的扩张。

    BigID 成立于 2016 年,该公司的平台使用先进的机器学习、数据科学和身份智能来帮助企业更好地保护客户和员工数据,满足数据隐私和 CCPA、GDPR 等保护法规。BigID 使组织能够了解其企业数据并采取行动以实现以数据为中心的安全、隐私、合规性、人工智能创新和治理。客户可部署 BigID 来主动发现、管理、保护整个数据环境中的受监管、敏感和个人数据并从中获取更多价值。

    (消息来源:PR Newswire

  • AI基础设施初创公司Lumino获280万美元Pre-seed轮融资

    Lumino Pre-seed融资

    总部位于美国加利福尼亚州旧金山的人工智能训练云平台和基础设施初创公司 Lumino 宣布在Pre-seed轮融资中筹集了280万美元。投资者包括 Longhash Ventures、Inception Ventures、Protocol Labs、TRGC、L2IV、Zero Knowledge Ventures、Fenbushi Capital、Quaker Capital Investments、OrangeDAO 和 Escape Velocity。

    该公司计划将筹集的资金用于扩大运营和开发力度。

    Lumino 由 Eshan Chordia 和 Yogesh Darji 于 2023 年 7 月创立,正在为人工智能工作负载构建一个集成的硬件和软件计算协议,该协议利用经济激励将计算资源整合在一起,利用区块链确保模型得到正确的训练,并为开发人员提供 SDK立即开始。客户可以使用 Lumino SDK 在几分钟内开始训练他们的 AI 模型。

    (消息来源:PR Newswire

  • 神经拟态处理器初创公司Innatera获1500万欧元A轮融资

    Innatera融资

    位于荷兰赖斯韦克的超低功耗神经拟态处理器提供商 Innatera 宣布在 A 轮融资中筹集了 1500 万欧元,投资者包括 Invest-NL Deep Tech Fund、EIC Fund、MIG Capital、Matterwave Ventures 和 Delft Enterprises。

    该公司计划利用这笔资金加速大规模生产、扩大应用产品范围和客户参与度。

    Innatera 由首席执行官 Sumeet Kumar 领导,利用专有的模拟混合信号计算架构提供模仿大脑处理机制的微处理器。该公司最近推出了脉冲神经网络处理器 T1,在亚毫瓦功率范围内实现信号处理和模式识别。

    (消息来源:Sifted

  • Stable Video 3D (SV3D) – 多视角合成和3D生成模型,由Stability AI推出

    Stable Video 3D是什么

    Stable Video 3D(简称SV3D)是由Stability AI公司开发的一个多视角合成和3D生成模型,能够从单张图片生成一致的多视角图像,并进一步优化生成高质量的3D网格模型。该模型在之前发布的Stable Video Diffusion模型的基础上进行了改进,提供了更好的质量和多视角体验。相较于其他的3D生成模型,SV3D的主要优势在于其使用视频扩散模型而不是图像扩散模型,这在生成输出的泛化性和视角一致性方面提供了显著的好处。

    Stable Video 3D (SV3D)

    Stable Video 3D的功能特性

    • 多视角视频生成:SV3D能够从单张图片输入生成多个视角的视频内容。用户可以从不同的方向和角度查看对象,每个视角都是高质量的,并且保持了视角之间的一致性。
    • 3D网格创建:通过使用生成的多视角视频和Stable Video 3D模型,用户可以创建对象的3D网格。这些3D网格是从二维图像中推断出来的,可以用于各种3D应用,如游戏开发、虚拟现实、增强现实等。
    • 轨道视频生成:Stable Video 3D提供了生成围绕对象的轨道视频的能力,允许用户创建围绕对象旋转或移动的视频,提供了一种动态的视角体验。
    • 相机路径控制:SV3D支持沿着指定的相机路径创建3D视频,用户可以精确控制视频的视角和相机运动,为创作提供了更高的自由度。
    • 新视角合成(NVS):SV3D在新视角合成方面取得了显著进展,能够从任何给定的角度生成一致且逼真的视图,提高了3D生成的真实感和准确性。

    Stable Video 3D的官网入口

    Stable Video 3D的工作原理

    SV3D的架构

    1. 新视角合成(NVS):
      • 输入图像:用户提供的单张2D图像作为输入,该图像包含一个或多个对象。
      • 相机姿态控制:定义一个相机轨迹,包括一系列的角度(仰角和方位角),用于控制生成图像的视角。
      • 潜在视频扩散模型:使用一个训练有素的潜在视频扩散模型(如Stable Video Diffusion – SVD),该模型能够根据输入图像和相机姿态生成一系列新的视角图像。这些图像模拟了围绕3D对象的轨道视频。
    2. 3D表示优化:
      • 粗略3D重建:使用生成的多视角图像作为目标,通过训练一个NeRF(Neural Radiance Fields)模型来重建3D对象的粗略表示。这个步骤在较低分辨率下进行,以捕捉对象的大致形状和纹理。
      • 网格提取:从训练好的NeRF模型中提取一个初步的3D网格,通常使用Marching Cubes算法。
      • 精细优化:采用DMTet(Deep Marching Tetrahedra)表示来进一步细化3D网格,这个步骤在高分辨率下进行,以提高细节的准确性和网格的质量。
    3. 改进的3D优化技术:
      • 掩蔽分数蒸馏采样(SDS)损失:为了提高不可见区域的3D质量,SV3D引入了一种掩蔽分数蒸馏采样损失。这种损失函数专注于在训练过程中填充和优化那些在参考视角中不可见的区域。
      • 解耦照明模型:SV3D还提出了一种解耦照明模型,该模型独立于3D形状和纹理进行优化,以减少由于固定照明条件导致的渲染问题。
    4. 训练和评估:
      • 数据集:SV3D在包含多样化3D对象的数据集上进行训练,如Objaverse数据集。
      • 评估:通过与真实世界的3D数据和其他NVS方法的比较,评估SV3D生成的多视角图像和3D网格的质量。
  • VLOGGER – 谷歌推出的图像到合成人物动态视频的模型

    VLOGGER是什么

    VLOGGER AI是谷歌的研究团队开发的一个多模态扩散模型,专门用于从单一输入图像和音频样本生成逼真的、连贯的人像动态视频。该模型的主要功能在于使用人工智能模型,将一张静态图片转换成一个动态的视频角色,同时保持照片中人物的逼真外观。此外,VLOGGER还能够根据音频来控制人物动作,不仅仅是面部动作和嘴唇同步,还包括头部运动、目光、眨眼以及上身和手部手势,从而将音频驱动的视频合成推向了一个新的高度。

    Google VLOGGER AI

    VLOGGER的官网入口

    VLOGGER的功能特性

    • 图像和音频驱动的视频生成: VLOGGER能够根据单张人物图像和相应的音频输入生成说话人类的视频。用户只需提供一张图片和一段音频,VLOGGER将生成一个视频中的人物,其面部表情、嘴唇动作和身体语言与音频同步。
    • 多样性和真实性: VLOGGER生成的视频具有高度的多样性,能够展示原始主体的不同动作和表情,同时保持背景的一致性和视频的真实性。
    • 视频编辑: VLOGGER可以用于编辑现有视频,例如改变视频中人物的表情,使其与原始视频的未改变像素保持一致。
    • 生成移动和说话的人物: VLOGGER可以从单张输入图像和驱动音频生成说话面部的视频,即使没有视频中人物的原始视频资料。
    • 视频翻译: VLOGGER能够将一种语言的视频转换为另一种语言的视频,通过编辑唇部和面部区域以匹配新的音频,实现跨语言的视频内容适配。

    VLOGGER的工作原理

    VLOGGER的工作原理主要基于一个两阶段的流程,结合了音频驱动的运动生成和时间连贯的视频生成。

    VLOGGER AI的工作原理

    第一阶段:音频驱动的运动生成

    1. 音频处理:VLOGGER首先接收一段音频输入,这可以是语音或音乐。如果输入是文本,它也会通过文本到语音(TTS)模型转换为音频波形。
    2. 3D运动预测:接着,系统使用一个基于变换器(Transformer)架构的网络来处理音频输入。这个网络被训练来预测与音频同步的3D面部表情和身体姿势。网络使用多步注意力层来捕捉音频的时间特征,并生成一系列的3D姿势参数。
    3. 生成控制表示:网络输出的是一系列预测的面部表情(θe i)和身体姿势的残差(∆θb i)。这些参数随后用于生成控制视频生成过程的2D表示。

    第二阶段:时间连贯的视频生成

    1. 视频生成模型:VLOGGER的第二个阶段是一个时间扩散模型,它接收第一阶段生成的3D运动控制和一张参考图像(即输入的单一人物图像)。
    2. 条件化视频生成:视频生成模型是一个基于扩散的图像到图像翻译模型,它利用预测的2D控制来生成一系列帧,这些帧按照输入的音频和3D运动参数进行动画处理。
    3. 超分辨率:为了提高视频质量,VLOGGER还包括一个超分辨率扩散模型,它将基础视频的分辨率从128×128提升到更高的分辨率,如256×256或512×512。
    4. 时间外延:VLOGGER使用时间外延(temporal outpainting)的技术来生成任意长度的视频。它首先生成一定数量的帧,然后基于前一帧的信息迭代地生成新的帧,从而扩展视频的长度。

    数据集和训练

    • VLOGGER在名为MENTOR的大规模数据集(2200个小时和800000个身份)上进行训练,这是一个包含大量身份和动态手势的大规模数据集。训练过程中,模型学习如何根据3D姿势参数和输入图像生成连贯的、高质量的视频序列。