Blog

  • Champ – 基于3D的人物图片转视频动画模型

    Champ是什么

    Champ是由阿里巴巴、复旦大学和南京大学的研究人员共同提出的一种基于3D的将人物图片转换为视频动画的模型,该方法结合了3D参数化模型(特别是SMPL模型)和潜在扩散模型,能够精确地捕捉和再现人体的3D形状和动态,同时保持动画的时间一致性和视觉真实性,以生成高质量的人类动画视频。

    Champ

    Champ的官网入口

    Champ的功能特性

    • 人物图片转视频动画:Champ可以将静态人物图片转换为动态视频动画,通过精确捕捉和再现人体的形状和动作,创造出既真实又可控的动态视觉内容。
    • 3D形状和姿势表示:Champ能够精确地表示和控制人体的形状和姿势,可从源视频中提取的人体几何和运动特征更加准确。
    • 跨身份动画生成:Champ能够将来自一个视频的运动序列应用到另一个不同身份的参考图像上,实现跨身份的动画生成。
    • 高质量的视频生成:Champ在生成视频时保持了角色和背景之间的一致性,同时通过时间对齐模块确保帧之间的流畅过渡,从而产生高质量的视频输出。
    • 与T2I文生图模型结合:结合根据文本描述生成图像的T2I文生图模型,用户可以通过文本描述指定动画中的角色外观和动作,然后Champ根据这些描述再生成动画视频。

    Champ的工作原理

    Champ的工作原理

    1. 3D人体参数化模型(SMPL)
      • 使用SMPL模型来表示人体的形状和姿势。SMPL模型是一个基于参数的3D人体模型,能够捕捉人体的形状变化和姿势变化。
      • 通过将SMPL模型拟合到参考图像上,可以获取人体的形状参数和姿势参数。
    2. 从源视频中提取运动
      • 利用现有的框架(如4D-Humans)从源视频中提取人体的运动序列。这些运动序列包括连续的SMPL模型参数,用于描述视频中人物的动作。
    3. 生成深度、法线和语义图
      • 将SMPL模型渲染成深度图、法线图和语义图,这些图像包含了3D结构、表面方向和人体部位的详细信息。
    4. 运动对齐和指导
      • 使用提取的SMPL模型参数来对齐参考图像中的人物形状和姿势,确保动画中的人物与源视频中的人物动作一致。
      • 引入基于骨架的运动指导,以增强对复杂运动(如面部表情和手指动作)的表示。
    5. 多层运动融合
      • 通过自注意力机制,将深度、法线、语义和骨架信息的特征图进行融合,以生成一个综合的运动指导信号。
    6. 潜在扩散模型
      • 利用潜在扩散模型(如Latent Diffusion Model)作为生成框架,将上述运动指导信号和参考图像编码后的特征结合起来,生成动画帧。
      • 在潜在空间中应用去噪过程,逐步从带有噪声的表示中恢复出清晰的动画帧。
    7. 训练和推理
      • 在训练阶段,模型学习如何根据给定的参考图像和运动指导生成连贯的动画序列。
      • 在推理阶段,模型根据新的参考图像和运动序列生成动画,展示出其泛化能力。
    8. 视频生成
      • 将生成的帧序列组合成视频,同时确保视频中的人物与参考图像在视觉上保持一致,且动作流畅自然。
  • AI芯片初创公司Eliyan获6000万美元B轮融资

    Eliyan官网

    北京时间2024年3月26日,总部位于美国圣克拉拉的芯片互连技术初创公司 Eliyan 宣布筹集了6000 万美元的 B 轮融资,由 Samsung Catalyst Fund 和 Tiger Global 领投,现有投资者 Intel Capital、SK Hynix、Cleveland Avenue、Mesh Ventures 也参与了本轮融资。

    Eliyan 成立于 2021 年,提供 chiplet 互连技术可加速 AI 芯片的处理速度。该公司表示,Eliyan 的 chiplet 互连技术的性能最高可达其他解决方案的四倍,功耗仅为其他解决方案的一半。除了基于 chiplet 设计中的芯片间互连之外,该公司还通过其创新的通用内存接口 (UMI) 解决了 AI 芯片中内存容量和带宽日益增长的挑战。

    (消息来源:VentureBeat

  • Buddywise获350万欧元种子轮融资,利用AI检测工作场所安全

    Buddywise

    2024年3月25日消息,总部位于瑞典斯德哥尔摩的利用AI检测工作场所安全的初创公司 Buddywise 筹集了350万欧元的种子资金,本轮融资由 J12 和 Kvanted 共同领投,现有投资者 Aligned 和 Antler 跟投,Soundcloud创始人 Eric Quidenus-Wahlforss 也参与其中。

    该公司计划将筹集的资金用于将加速招募顶尖商业和技术人才,并进一步扩大其现有的国际工业企业客户群,以启动公司在欧洲的商业扩张。

    Buddywise 成立于 2020 年,使用机器学习和计算机视觉来检测工作场所的安全风险,然后整理这些风险数据以防止进一步发生事故。工业客户将其现有的摄像头基础设施连接到 Buddywise 平台,该平台使用对镜头的算法分析来标记潜在风险。

    (消息来源:EU-Startups

  • AI数据管理平台Foundational获800万美元种子轮融资

    Foundational

    2024年3月25日消息,总部位于美国加利福尼亚州旧金山的 AI 数据管理初创公司 Foundational 宣布已筹集 800 万美元种子资金,由 Viola Ventures 和 Gradient Ventures(谷歌专注于人工智能的投资基金)领投,Asymmetry Capital Partners 以及来自 Datadog、Intuit、Meta、Wiz 等公司的创始人和高管参投。

    该公司计划将筹集的资金用于推动进一步的产品开发和市场扩张。

    Foundational 由 Alon Nafta(首席执行官)、Barak Gargoun(首席技术官)、Omri Ildis(研发副总裁)于 2022 年联合创立,该公司的数据管理平台可自动映射和分析数据团队的代码,以识别潜在问题、提出修复建议并帮助为人工智能应用程序准备数据。

    (消息来源:BusinessWire

  • AI投资会计平台FundGuard获1亿美元C轮融资

    FundGuard

    2024年3月25日消息,以色列 AI 投资会计初创公司 FundGuard 宣布完成了 1 亿美元的 C 轮融资,该公司开发了云原生、人工智能驱动的多资产类别投资会计平台。本轮融资由 Key1 Capital 领投,新投资者包括 Euclidean Capital 和 Hamilton Lane 管理的基金。现有投资者以及该公司最早的财务投资者:Blumberg Capital 和 Team8 也参与了本轮融资。

    该公司计划将本轮筹集的资金用于加速新产品能力并进一步扩大公司的市场覆盖范围。

    FundGuard 由 Lior Yogev(首席执行官)、Yaniv Zecharya(首席技术官)和 Uri Katz(研发副总裁)于 2018 年创立。该公司利用云原生技术和人工智能功能来实现投资运营的转型,以实现投资会计运营和工作流程的现代化和简化。FundGuard 帮助资产管理者及其服务提供商管理共同基金、ETF、对冲基金、保险产品和养老基金,支持数字化转型、运营自动化、基于人工智能的见解和迁移到云。

    (消息来源:CTech

  • VoiceCraft – 开源的语音编辑和文本转语音模型

    VoiceCraft是什么

    VoiceCraft是一个由德克萨斯大学奥斯汀分校研究团队开源的神经编解码器语言模型,专注于零样本语音编辑和文本到语音(TTS)任务。该模型采用Transformer架构,通过创新的token重排过程,结合因果掩蔽和延迟叠加技术,可零样本实现在现有音频序列内的高效生成。VoiceCraft在多种口音、风格和噪声条件下的语音编辑和TTS任务上展现出卓越性能,生成的语音自然甚至难以与原声区分。

    VoiceCraft

    VoiceCraft的官网入口

    VoiceCraft的功能特性

    • 语音编辑:VoiceCraft能够在不需要针对性训练的情况下,对现有的语音录音进行编辑,如插入、删除或替换其中的词语,而编辑后的语音听起来自然,与原录音难以区分。
    • 文本到语音转换:该模型能够仅根据文本和简短的声音样本,生成与目标声音相似的语音,无需在训练过程中接触过目标声音。
    • 高质量语音合成:VoiceCraft在合成语音时,能够保持语音的自然度和清晰度,使得合成语音在听觉上与真实人声相近。
    • 多样化数据适应性:模型在多种口音、说话风格、录音条件以及背景噪音和音乐的挑战性数据集上进行了评估,显示出良好的适应性和一致的性能。

    VoiceCraft的工作原理

    1. 神经编解码器架构:VoiceCraft采用了Transformer架构,一种依赖于自注意力机制的深度学习模型,能够处理序列数据并捕捉序列中的长距离依赖关系。Transformer架构在自然语言处理(NLP)领域已经证明了其高效性,VoiceCraft将其应用于语音信号的处理。
    2. Token重排过程:VoiceCraft引入了一种特殊的token重排过程,该过程包括两个主要步骤——因果掩蔽和延迟叠加。这个过程允许模型在生成语音时考虑到前后文信息,从而生成更加自然和连贯的语音序列。
      VoiceCraft的Token重排过程

      • 因果掩蔽:这一步骤涉及将输入语音信号量化为一系列编码器token,并将这些token按照因果关系(即不影响未来输出)进行掩蔽。这意味着模型在预测被掩蔽的token时,只能依赖于未被掩蔽的token。
      • 延迟叠加:在因果掩蔽的基础上,延迟叠加步骤进一步调整了编码器token的时间维度,以确保模型在预测当前时间步的编码器token时,能够有效地利用之前时间步的信息。
    3. 自回归序列预测:VoiceCraft在训练和推理过程中使用自回归序列预测方法。这意味着模型会一次生成一个token,并在每个时间步使用之前生成的所有token作为上下文信息来预测下一个token。
    4. 多码本建模:为了提高效率和生成质量,VoiceCraft使用了残差向量量化(RVQ)技术,将语音信号编码为多个码本的序列。这些码本捕捉了语音的不同特征,使得模型能够更精细地建模语音信号。
    5. 推理和生成:在推理阶段,VoiceCraft根据输入的文本和音频信息(对于零样本TTS任务,还包括目标声音的简短参考录音),自回归地生成对应的语音序列。对于语音编辑任务,模型会根据原始音频和编辑后的文本目标,生成与目标文本匹配的语音,同时保持未编辑部分的原始特征。

    VoiceCraft的应用场景

    • 有声读物制作:VoiceCraft可以用来创建高质量的有声读物,通过生成自然流畅的语音来讲述故事或书籍内容,为听众提供沉浸式的听觉体验。
    • 视频内容创作:在互联网视频制作中,VoiceCraft可以用于快速生成旁白或角色对话,特别是在动画、教育视频或广告中,可以节省配音成本并提高制作效率。
    • 播客音频编辑:对于播客制作者,VoiceCraft提供了强大的音频编辑工具,可以轻松修正错误或更改内容,而无需重新录制整个播客,从而加快内容发布流程。
    • 多语言内容生产:VoiceCraft的跨语言能力使其能够为不同语言的听众生成内容,有助于跨越语言障碍,实现全球化的内容分发。
  • StreamingT2V – PicsArt推出的可生成长达2分钟视频的模型

    StreamingT2V是什么

    StreamingT2V是由PicsArt AI研究团队推出的一个文本到视频的生成模型,旨在解决现有模型仅能生成16帧或24帧的高质量短视频,而当在生成长视频时则会遇到如视频质量下降、场景转换不一致和视频停滞等问题的挑战。StreamingT2V通过引入条件注意模块(CAM)和外观保持模块(APM)以及随机混合方法,实现了长视频(最长达1200帧、时长2分钟)的流畅生成,确保了时间上的连贯性和与文本描述的紧密对齐。该方法不仅提高了视频的质量,还使得视频内容更加丰富和动态,从而在长视频生成领域取得了显著进步。

    StreamingT2V

    StreamingT2V的官网入口

    StreamingT2V的功能特性

    • 长视频生成:StreamingT2V能够根据文本描述生成长视频(80, 240, 600, 1200帧或更多),远超传统模型通常生成的短视频长度。
    • 时间连贯性:生成的视频帧之间具有平滑的过渡和一致性,避免了生成长视频时常见的硬切换或不连贯现象。
    • 高质量图像帧:该模型注重帧级别的图像质量,保证即使在视频较长的情况下,每一帧的图像也能保持清晰和细腻。
    • 文本对齐:StreamingT2V生成的视频紧密对齐于输入的文本提示描述,确保视频内容与用户的文本指导保持一致。
    • 视频增强:利用随机混合方法,StreamingT2V可以在不引入块间不一致性的情况下,对生成的视频进行质量增强,提高视频的分辨率和视觉效果。

    StreamingT2V的工作流程

    StreamingT2V的工作流程可以分为以下几个主要阶段:

    StreamingT2V的工作流程

    1. 初始化阶段(Initialization Stage)
      • 在这一阶段,首先使用预训练的文本到视频模型(例如Modelscope)来合成一个初始的视频块,通常是一个短的16帧的视频序列。
    2. 流式生成阶段(Streaming T2V Stage)
      • 接下来,模型进入自回归的长视频生成过程。在这个阶段,StreamingT2V使用条件注意模块(CAM)和外观保持模块(APM)来生成长视频的后续帧。
      • CAM利用短期记忆,通过注意力机制关注前一个视频块的特征,从而实现块之间的平滑过渡。
      • APM则利用长期记忆,从初始视频块中提取关键的视觉特征,确保在整个视频生成过程中保持场景和对象的一致性。
    3. 流式细化阶段(Streaming Refinement Stage)
      • 在生成了足够长的视频(例如80, 240, 600, 1200帧或更多)后,模型进入细化阶段。
      • 在这一阶段,使用高分辨率的文本到视频模型(例如MS-Vid2Vid-XL)对生成的视频进行自回归增强。
      • 通过随机混合方法,对连续的24帧视频块进行增强,同时保持块之间的平滑过渡,从而提高视频的整体质量和分辨率。
  • SUPIR – 高保真的AI图像修复和画质增强模型

    SUPIR是什么

    SUPIR(Scaling-UP Image Restoration)是一个突破性的图像修复和画质增强方法,利用了大规模的生成模型StableDiffusion-XL(SDXL)和模型扩展技术,通过深度学习和多模态方法,实现了对低质量图像的高质量恢复。该方法支持通过文本提示进行图像恢复的精细控制,能够根据用户的输入调整恢复的各个方面,如物体的纹理和场景的语义内容。SUPIR由来自中国科学院深圳先进技术研究院、上海AI实验室、悉尼大学、香港理工大学、腾讯ARC实验室和香港中文大学的研究人员共同推出。

    SUPIR图像修复

    SUPIR的官网入口

    SUPIR的主要功能

    • 高质量图像修复:SUPIR能够将低质量的图像恢复到接近原始状态的高质量版本,可以处理由于各种原因(如压缩、噪点、模糊等)导致的图像退化。
    • 修复多种类型的图像:SUPIR能够有效修复多种类型的退化图像,包括风景、人脸、动物、游戏画面、老电影和老照片,可增强图像细节,恢复清晰度和真实感,让图像焕发新生。
    • 文本提示引导修复:SUPIR允许用户通过文本提示来指导图像恢复的过程,可以指定恢复的特定方面,例如修复图像中的某个模糊物体、改变物体的材质纹理,或者根据高级语义调整图像的恢复效果。
    • 负质量提示:SUPIR使用负质量提示来提高图像的感知质量,通过告诉模型哪些图像特征是不期望的(例如“油画效果、卡通化、模糊、脏乱、低质量”等),模型可以在恢复过程中避免这些特征,从而提升图像的整体质量。

    SUPIR的工作原理

    1. 生成性先验:SUPIR使用StableDiffusion-XL(SDXL)作为其生成性先验(Generative Prior),一个包含26亿参数大型的预训练图像生成模型。生成性先验是模型学习到的图像数据分布的知识,用于指导图像的生成和恢复过程。
    2. 数据集和文本注释:为了训练SUPIR,研究者收集了一个包含2000万张高分辨率、高质量的图像的数据集,每张图像都有详细的描述性文本注释。这些注释提供了图像内容的额外信息,使得模型能够更好地理解和恢复图像。
    3. 适配器:为了有效地应用SDXL模型,研究者设计并训练了一个适配器,该适配器具有超过6亿参数。适配器的作用是识别低质量图像中的内容,并在像素级别上精细控制生成过程。
      SUPIR的工作流程
    4. 文本提示控制:SUPIR能够根据用户提供的文本提示来指导图像的恢复,提示词可以是关于图像内容的具体描述,也可以是关于期望图像质量的高级语义描述。
    5. 负质量提示和训练样本:为了提高图像的感知质量,SUPIR引入了负质量提示,帮助模型理解不希望出现的图像特征。研究者通过使用SDXL生成对应于负质量提示的图像,并将这些图像纳入训练数据中,以确保模型能够学习到这些负质量概念。
    6. 恢复引导采样:为了防止生成过程中的图像失真,SUPIR采用了一种新颖的恢复引导采样方法,在扩散过程中有选择性地引导预测结果接近低质量图像,以保持恢复的一致性。
    7. 模型训练和采样设置:SUPIR在训练过程中使用了合成退化模型,并在64个Nvidia A6000 GPU上进行了为期10天的训练。测试时,模型能够处理1024×1024像素大小的图像。

    SUPIR的应用场景

    • 老照片修复SUPIR可以用于修复老化、损坏或褪色的老照片,恢复其原始的色彩和细节,使珍贵的记忆得以保存和传承。
    • 模糊图像增强对于因手抖、对焦错误或运动模糊导致的照片,SUPIR能够通过先进的算法提高图像的清晰度,使得原本模糊的图像变得更加锐利。
    • 噪点去除在高ISO或低光照条件下拍摄的照片往往会有噪点。SUPIR能够有效地识别并去除这些噪点,同时保留图像的重要细节。
    • 色彩校正和增强SUPIR能够识别和修正色彩失真问题,如过度饱和或色彩偏差,使图像的色彩更加真实和生动。
  • BrushNet – 腾讯推出的高质量图像照片修复模型

    BrushNet是什么

    BrushNet是由腾讯PCG部门的ARC实验室与香港大学的研究人员推出的一个基于扩散模型的即插即用的图像照片修复(Inpainting)模型,通过分解的双分支架构来有效处理图像中的遮罩区域。该模型的一个分支专注于提取遮罩图像的像素级特征,而另一个分支则负责图像的生成。这种设计使得BrushNet能够将关键的遮罩信息以分层的方式精细地融入到修复过程中,从而在保持原有图像内容连贯性的同时,生成高质量的修复结果。

    BrushNet

    与以前的图像修复方法相比(如Blended Latent Diffusion、Stable Diffusion Inpainting、HD-Painter、PowerPaint等),BrushNet的图像还原修复能力无论是在风格、内容,还是颜色和提示对齐等方面都表现出了优越的连贯性。

    BrushNet的官网入口

    BrushNet的功能特性

    • 修复不同类型的图像:BrushNet可修复不同场景的图像,如人类、动物、室内和室外场景,还可以修复不同风格的图像,如自然图像、铅笔画、动漫、插图、水彩等。
    • 像素级修复:BrushNet能够识别和处理图像中的遮罩区域,对每个像素进行精确的修复,确保修复区域与原始图像在视觉上的无缝对接。
    • 保留未遮罩区域:通过分层控制和特定的模糊融合策略,BrushNet能够在修复过程中保留未被遮罩的区域,避免对原始图像内容的不必要改动。
    • 与预训练模型的兼容性:作为一个即插即用的模型,BrushNet可以与各种预训练的扩散模型(如DreamShaper、epiCRealism、MeinaMix等)结合,利用这些模型的强大生成能力来完成修复任务。
    • 灵活性和控制性:用户可以通过调整模型的参数来控制修复的规模和细节,包括修复区域的大小和修复内容的详细程度。

    BrushNet比较

    BrushNet的工作原理

    BrushNet 基于扩散模型通过一个创新的双分支架构来执行图像修复任务。

    BrushNet的工作原理

    以下是BrushNet工作原理的简要概述:

    1. 双分支架构:BrushNet的核心是一个分解的双分支架构,其中一个分支专注于处理遮罩图像的特征,而另一个分支负责生成图像的其余部分。
    2. 遮罩图像特征提取:在遮罩分支中,模型使用变分自编码器(VAE)对遮罩图像进行编码,以提取其潜在特征。这些特征随后被用来指导图像的修复过程。
    3. 预训练扩散模型:在生成分支中,模型利用预训练的扩散模型来生成图像内容。这个模型已经学会了如何从噪声中恢复出清晰的图像。
    4. 特征融合:提取的遮罩图像特征被逐步融合到预训练的扩散模型中,这样可以通过层级的方式细致地控制修复过程。
    5. 去噪和生成:在反向扩散过程中,模型通过迭代去噪步骤,逐步从噪声中恢复出清晰的图像。每一步都会考虑遮罩图像的特征,以确保修复区域与原始图像的其余部分在视觉上保持一致。
    6. 模糊融合策略:为了更好地保留未遮罩区域的细节,BrushNet采用了模糊融合策略。这意味着在融合遮罩区域和生成区域时,会使用模糊的遮罩来减少硬边缘和不自然的过渡。
    7. 输出修复图像:最终,模型输出一个修复后的图像,其中遮罩区域被自然而连贯地填充,同时未遮罩区域的原始内容得到保留。
  • AI个人财务跟踪应用Copilot Money获600万美元A轮融资

    Copilot Money

    2024年3月22日,总部位于美国纽约的个人财务跟踪应用初创公司 Copilot Money 获 600 万美元的 A 轮融资,由 Adjacent 领投。

    该公司计划将筹集的资金用于将 Copilot 引入所有平台并加速人工智能和产品的开发工作。

    Copilot Money 由 Andres Ugarte 于 2019 年创立,2020 年推出同名的个人财务跟踪应用,该应用设计精美,提供 Mac、iPhone、iPad 版,曾多次获苹果App Store编辑推荐以及上榜2023年度最佳App。该应用利用人工智能和机器学习,可帮助用户更好地管理个人财务,如跟踪支出、预算、投资和净资产。Copilot 目前已经采用机器学习来个性化支出分类,通过将需要手动重新分类的交易次数减少一半,从而节省用户的时间。

    (消息来源:TechCrunch