Category: AI项目和框架

  • Nemotron-CC – 英伟达推出的大型预训练数据集

    Nemotron-CC是什么

    Nemotron-CC是NVIDIA团队推出的大型预训练数据集,能将Common Crawl数据转化为适用于长序列预训练的高质量语料。Nemotron-CC数据集结合分类器集成、合成数据重述和减少启发式过滤器依赖等方法,实现数据量和质量的更好平衡。Nemotron-CC包含6.3万亿个tokens,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。Nemotron-CC在短期(1T tokens)和长期(15T tokens)训练中均展现出优越性,特别是在MMLU等任务上,相比DCLM和Llama 3.1模型,Nemotron-CC显著提高了模型的准确性。Nemotron-CC数据集的开发为大型语言模型的训练提供了更丰富、更多样的数据资源。

    Nemotron-CC

    Nemotron-CC的主要功能

    • 提供高质量的预训练数据集:Nemotron-CC为大型语言模型(LLMs)提供高质量、大规模的预训练数据集,特别适用于长序列训练,如15T tokens的训练需求。
    • 平衡数据量和质量:在不显著牺牲数据质量的前提下,大幅增加数据集的规模,包含更多的独特真实tokens,提高模型在长序列训练中的性能。
    • 支持模型性能提升:实验表明,Nemotron-CC训练的模型在多个基准测试任务中表现出色,特别是在MMLU等任务上,相比其他现有数据集,能显著提高模型的准确性。

    Nemotron-CC的技术原理

    • 优化文本提取:选用Justext作为HTML-to-text提取器,因其在提取高质量tokens方面表现更佳,有效提升数据集的初始质量。
    • 基于模型的质量标记
      • 分类器集成:构建三个不同的质量分类器,每个分类器有不同的高质量偏好。基于集成三个分类器,为所有文档打分,根据质量得分将爬取的语料库划分为不同的质量级别。
      • 质量标签分配:进一步将细粒度的质量得分聚类为5个下游任务质量类别,基于连续预训练和任务性能评估,为每个类别分配更符合实际性能的质量标签。
    • 合成数据生成
      • 低质量数据重述:对于低质量文档,基于重述减少噪声和错误,同时保留有用信息。用Wikipedia风格的提示(prompt)重述低质量文档,有效减少错误和冗余,提高格式化水平。
      • 高质量数据扩展:对于高质量文档,基于生成多样化的问答对、提炼、提取知识和知识列表等方式,获取更多独特的tokens,丰富数据集的内容和多样性。
    • 数据集整合
      • 大规模数据合成:用Mistral NeMo 12B模型生成超过1.8万亿个合成tokens,其中包括从低质量文档生成的3363亿tokens和从高质量文档生成的1.5万亿tokens。
      • 数据集构建:将上述技术和方法应用于Common Crawl的99个快照(CC-MAIN-2013-20至CC-MAIN-2024-30),构建6.3万亿tokens的数据集,其中4.4万亿为全球去重的原始tokens,1.9万亿为合成生成的tokens。

    Nemotron-CC的项目地址

    Nemotron-CC的应用场景

    • 预训练大型语言模型:适用于长序列训练,如15T tokens,提升模型在复杂任务中的性能。
    • 微调和特定任务适应:便于模型在多任务学习和特定领域任务中快速适应,提高任务表现。
    • 文本生成任务:用于生成高质量文本,如新闻、故事,及提升对话系统的自然度。
    • 研究与开发:助力探索模型架构和训练方法的改进,提供基准测试资源。
    • 教育与培训:生成教育资源,辅助语言学习,提升教育内容的丰富性。
  • ViTPose – 基于 Transformer 架构的人体姿态估计模型

    ViTPose是什么

    ViTPose 是基于 Transformer 架构的人体姿态估计模型。以普通视觉 Transformer 作为骨干网络,通过将输入图像切块并送入 Transformer block 来提取特征,再经解码器将特征解码为热图,实现对人体关键点的精准定位。ViTPose 系列模型具有多种规模版本,如 ViTPose-B、ViTPose-L、ViTPose-H 等,可根据不同需求选择。在 MS COCO 等数据集上表现出色,展现了简单视觉 Transformer 在姿态估计任务上的强大潜力。此外,ViTPose+ 作为改进版本,拓展到多种身体姿态估计任务,涵盖动物、人体等不同类型关键点,进一步提升了性能和适用范围。

    ViTPose的主要功能

    • 人体关键点定位:能识别图像中人体的关键点,如关节、手、脚等,广泛应用于运动分析、虚拟现实、人机交互等领域。
    • 模型架构简单:采用普通的视觉 Transformer 作为骨干网络进行特征提取,再通过简单的解码器将特征解码为热图,实现关键点的精准定位。其模型结构简单,易于实现和扩展。
    • 可扩展性强:可以通过调整 Transformer 的层数、头数等超参数,将模型从 100M 扩展到 1B 参数,适应不同规模的任务需求,同时保持高性能。
    • 灵活性高:在训练范式上具有灵活性,支持不同的预训练和微调策略,以及多种输入分辨率和注意力类型,能处理多种姿态估计任务。
    • 知识可迁移:大模型的知识可以通过简单的知识令牌轻松迁移到小模型,进一步提升了模型的实用性和灵活性。

    ViTPose的技术原理

    • 视觉 Transformer:ViTPose 使用标准的、非分层的视觉 Transformer 作为骨干网络进行特征提取。输入图像首先被切分成多个小块(patches),每个小块被嵌入到一个高维空间中,形成 tokens。这些 tokens 然后通过多个 Transformer 层进行处理,每一层包含多头自注意力(Multi-head Self-Attention, MHSA)和前馈网络(Feed-Forward Network, FFN)。
    • 特征提取:经过 Transformer 层的处理,最终输出的特征图具有丰富的语义信息,能够捕捉到图像中人体的关键点特征。
    • 热图预测:ViTPose 的解码器将编码器输出的特征图解码为热图。热图中的每个像素值表示该位置是某个关键点的概率。解码器有两种选择:
      • 标准解码器:使用转置卷积(transposed convolution)进行上采样,然后通过预测层生成热图。
      • 简单解码器:直接使用双线性插值进行上采样,生成热图。
    • 模型迁移:ViTPose 的知识可以通过简单的知识令牌(knowledge token)轻松迁移到小模型,进一步提升了模型的实用性和灵活性。
    • SOTA 性能:ViTPose 在多个姿态估计数据集上达到了新的 SOTA(State of the Art)和帕累托前沿。

    ViTPose的项目地址

    ViTPose的应用场景

    • 人体姿态估计:主要用于识别图像中人体的关键点,如关节、手、脚等,广泛应用于运动分析、虚拟现实、人机交互等领域。
    • 动物姿态估计:ViTPose+ 拓展到动物姿态估计任务,可以用于野生动物行为研究、宠物行为分析等。
  • NeuralSVG – 文本驱动矢量图形生成技术,转化为有层次结构的矢量图形

    NeuralSVG是什么

    NeuralSVG是创新的文本驱动矢量图形生成技术。通过一个小型的多层感知器网络,将文本提示转化为具有层次结构的矢量图形。该网络以形状索引为输入,输出形状参数,再经可微渲染器生成像素输出。基于分数蒸馏采样优化网络权重,形成图形的隐式神经表示。还采用基于随机丢弃的正则化技术,使生成图形语义清晰、有序可编辑。NeuralSVG支持推理时控制,可动态调整图形属性,如背景色等。在生成结构化矢量图形方面表现优异,为图形生成带来新思路。

    NeuralSVG的主要功能

    • 文本生成矢量图形:能根据文本提示生成具有有序和可编辑形状的矢量图形,解决了传统方法生成的矢量图形结构复杂、难以二次编辑的问题。
    • 支持动态条件:支持用户在生成过程中根据需要动态调整生成的SVG,如背景颜色、宽高比等,实现多颜色方案的快速切换和适应不同设计布局需求。
    • 生成草图:可以生成具有不同笔画数量的草图,且无需对框架进行任何修改。
    • 层次结构生成:通过引入基于dropout的正则化技术,鼓励生成的SVG具有分层结构,使每个形状在整体场景中具有独立的意义,便于后期编辑。

    NeuralSVG的技术原理

    • 隐式神经表示:NeuralSVG采用隐式神经表示,将整个矢量图形场景编码到一个小的多层感知器(MLP)网络的权重中。这种表示方式类似于神经辐射场(NeRFs),通过网络输出单个形状,再聚合形成完整的SVG。
    • 分数蒸馏采样优化:使用分数蒸馏采样(Score Distillation Sampling,SDS)方法对网络权重进行优化。SDS能保证生成SVG文件的高质量,同时促进图形层次结构的形成,使每个形状在整体图像中都具有独特的意义和作用。
    • 基于dropout的正则化技术:引入一种基于随机丢弃(dropout)的正则化技术,鼓励每个学习到的形状在整体构图中具有有意义且有序的角色。使生成的图形更具结构性,便于后期编辑修改。
    • 推理时控制能力:基于神经表示的优势,NeuralSVG支持推理时控制,用户可以根据提供的输入动态调整生成的SVG,例如背景颜色、宽高比等。

    NeuralSVG的项目地址

    NeuralSVG的应用场景

    • 艺术创作:艺术家可以用NeuralSVG根据创意文本生成具有层次感和可编辑性的矢量图形,便于进一步创作和修改。
    • 设计领域:设计师能快速生成符合需求的矢量图形,用于网页设计、UI设计等,可根据不同场景动态调整图形的颜色、背景等元素。
    • 教育与学术:在教育领域,可用于生成教学所需的矢量图形示例;在学术研究中,有助于研究人员探索文本与矢量图形生成之间的关系。
  • TimesFM 2.0 – 谷歌研究团队开源的时间序列预测模型

    TimesFM 2.0是什么

    TimesFM 2.0是谷歌研究团队推出的开源时间序列预测模型。具备强大的预测能力,可处理长达2048个时间点的单变量时间序列,支持任意预测时间跨度。模型采用仅解码器架构,结合输入修补和修补掩码技术,实现高效训练与推理,支持零样本预测。预训练数据集丰富,涵盖多个领域,使模型具有良好的泛化能力。TimesFM 2.0可用于零售销量预测、金融市场走势分析等常见场景,能在网站流量预测、环境监测、智能交通等众多领域发挥重要作用,为各行业提供有力的决策支持。

    TimesFM 2.0的主要功能

    • 强大的预测能力:能处理高达2048个时间点的单变量时间序列预测,支持任意预测时间跨度。
    • 灵活的预测频率选择:用户可以根据不同的时间序列特征,自由选择预测频率,增强了预测的灵活性。
    • 实验性分位头预测:模型主要进行点预测,同时实验性地提供了10个分位头,用于生成预测的不确定性估计,但这些在预训练后尚未经过校准。
    • 丰富的数据预训练:整合了多个数据集,包括TimesFM 1.0的预训练集和来自LOTSA的附加数据集,涵盖了住宅用电负荷、太阳能发电、交通流量等多个领域,为模型训练提供了广泛的基础。
    • 零样本学习能力:尽管模型的最大训练上下文长度为2048,但在实际应用中可以处理更长的上下文,展现出优秀的零样本学习能力。

    TimesFM 2.0的技术原理

    • 纯解码器架构:TimesFM 2.0 采用纯解码器架构,在处理时间序列数据时具有更高的计算效率,能更有效地捕捉长距离的时间依赖关系,更自然地进行单向预测。
    • 时间序列分块和位置编码:模型对时间序列进行分块处理,注入位置编码,通过堆叠的Transformer层提炼出数据中的时间顺序信息和不同时间点的关系。
    • 输入修补和修补掩码:通过输入修补和修补掩码技术,模型实现了高效训练和推理过程,还支持零样本预测,提升了模型的训练效率和泛化能力。
    • 预训练过程:TimesFM 2.0 在包含1000亿个真实世界时间点的大规模时间序列语料库上进行预训练,涵盖了多个领域和不同时间粒度的数据。预训练过程采用自监督学习方法,预测序列中的下一个时间点。
    • 灵活的输入处理:支持处理不同长度和频率的时间序列输入,适应各种实际应用场景。尽管预训练时最大上下文长度为2048,但在实际应用中,模型可以扩展处理更长的时间序列。
    • 分位点预测的实验性支持:模型引入了10个分位头,支持用户在单点预测的基础上获取不同分位数的预测值,为不确定性分析提供了新的可能性。

    TimesFM 2.0的项目地址

    TimesFM 2.0的应用场景

    • 零售业:可用于预测销量,帮助商家更好地进行库存管理和销售策略制定。
    • 金融市场:能预测股票走势等,为投资者提供决策参考。
    • 网站运营:可预测网站流量,助力网站优化和资源分配。
    • 环境监测:基于历史数据预测环境变化趋势,如空气质量、气候变化等,为环境保护和应对措施提供依据。
    • 智能交通:基于交通流量历史数据预测未来的路况,为城市规划和交通信号优化提供参考,有助于高峰时段管理和减少交通拥堵。
  • SVFR – 腾讯优图联合厦门大学推出的通用视频人脸修复统一框架

    SVFR是什么

    SVFR(Stable Video Face Restoration)是腾讯优图实验室和厦门大学联合推出的用于广义视频人脸修复的统一框架,整合了视频人脸修复(BFR)、着色和修复任务,基于Stable Video Diffusion(SVD)的生成和运动先验,通过统一的人脸修复框架整合特定于任务的信息。SVFR引入了可学习的任务嵌入以增强任务识别,同时采用了一种新颖的统一潜在正则化(ULR)来鼓励不同子任务之间的共享特征表示学习。为了进一步提高恢复质量和时间稳定性,还引入了面部先验学习和自参考细化作为用于训练和推理的辅助策略。

    SVFR的主要功能

    • 视频人脸修复(BFR):提升视频中人脸的细节和清晰度,使模糊或损坏的人脸画面变得更加清晰和自然。
    • 人脸着色:为黑白或色彩失真的视频人脸添加生动的色彩,增强视觉效果。
    • 人脸修复(Inpainting):修复视频中人脸的缺失部分,如遮挡或损坏的区域,恢复完整的人脸细节。

    SVFR的技术原理

    • 任务整合:SVFR整合了视频人脸修复(BFR)、着色和修复任务,通过一个统一的框架来处理这些任务,实现协同增益。这种整合方法可以利用不同任务之间的互补信息,提升整体的修复效果。
    • 生成和运动先验:SVFR基于Stable Video Diffusion(SVD)的生成和运动先验,增强修复效果。SVD提供了强大的生成能力和运动信息,帮助模型更好地理解和处理视频中的人脸运动,确保时间连贯性。
    • 任务嵌入:引入可学习的任务嵌入,增强模型对特定任务的识别能力。使模型能更好地理解输入数据所属的任务类型,更准确地进行修复。
    • 统一潜在正则化(ULR):采用ULR方法,鼓励不同子任务之间的特征共享。通过将不同任务的中间特征整合到一个共享的潜在空间中,ULR有助于模型学习更通用的特征表示,提升修复质量。
    • 面部先验学习:为了进一步提高修复质量,SVFR引入了面部先验学习。通过使用面部地标等结构先验,模型可以更自然地嵌入面部结构信息,避免面部结构异常和纹理失真。
    • 自引用细化:在推理阶段,SVFR采用自引用细化策略,通过参考之前生成的帧来优化当前帧的修复结果,增强时间稳定性。这种策略确保了视频中人脸的平滑过渡和一致性。

    SVFR的项目地址

    SVFR的应用场景

    • 影视后期制作:对老旧电影中模糊、损坏的人脸画面进行修复,恢复清晰、自然的人脸细节,提升观影体验。
    • 网络视频内容创作:对拍摄条件不佳导致人脸质量差的视频片段进行修复,改善视频整体质量,增强观众吸引力。
    • 数字档案修复:对存储时间较长、质量退化的视频档案中的人脸部分进行修复,保留珍贵的历史影像资料。
  • FaceLift – Adobe 联合加州大学推出的单张图像到 3D 头部模型生成技术

    FaceLift是什么

    FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表示。FaceLift能精确保持个体的身份特征,生成具有精细几何和纹理细节的3D头部模型。FaceLift支持视频输入,实现4D新视图合成,能与2D面部重动画技术无缝集成,实现3D面部动画。

    FaceLift的主要功能

    • 单图像3D头部重建:从单张人脸图像中快速、高质量地重建出360度的3D头部模型,包括面部和头发的精细细节。
    • 多视图一致性:生成的3D模型在不同视角下保持一致,确保从任何角度查看都具有高质量的视觉效果。
    • 身份保持:在重建过程中,准确保持个体的身份特征,即使在生成不可见视图时也能保持高度的身份一致性。
    • 4D新视图合成:支持视频输入,实现4D新视图合成,在时间序列上生成一致的3D模型,适用于动态场景。
    • 与2D重动画技术集成:与2D面部重动画技术无缝集成,实现3D面部动画,为数字娱乐和虚拟现实应用提供支持。

    FaceLift的技术原理

    • 多视图扩散模型
      • 输入处理:基于图像条件扩散模型,用单张正面人脸图像为输入,生成多个视角的图像,包括侧面和背面视图。
      • 扩散模型核心:用Stable Diffusion V2-1-unCLIP模型,基于CLIP图像编码器生成的嵌入作为条件信号,确保生成图像的身份一致性和多视图一致性。
      • 多视图注意力机制:基于多视图注意力机制,模型在不同视图之间共享信息,生成多视角一致的RGB图像。
    • GS-LRM重建器
      • 输入融合:将生成的多视图图像及其对应的相机姿态输入到GS-LRM模型中,生成详细的3D高斯表示。
      • 3D高斯表示:用3D高斯作为底层表示,特别适合捕捉人类头部的复杂细节,如头发。每个2D像素对应一个3D高斯,参数包括RGB颜色、尺度、旋转四元数、不透明度和射线距离等。
      • 变换器架构:GS-LRM采用变换器架构,从一组姿态图像中回归像素对齐的3D高斯,生成详细的3D模型。
    • 优化与评估
      • 损失函数:在训练过程中,用MSE和感知损失的组合优化模型,确保生成的3D模型在视觉上与真实图像高度一致。
      • 评估指标:用PSNR、SSIM、LPIPS和DreamSim等标准指标评估重建质量,基于ArcFace进行身份保持的评估。

    FaceLift的项目地址

    FaceLift的应用场景

    • 虚拟现实(VR)和增强现实(AR):创建逼真的3D虚拟角色,提供沉浸式体验,支持实时交互。
    • 数字娱乐:生成高质量3D角色模型,用于电影、电视剧、游戏开发和动画制作,提高制作效率和质量。
    • 远程存在系统:在视频会议和远程协作中,用3D形式呈现用户,增强交流的自然感和沉浸感。
    • 社交媒体和内容创作:生成个性化3D头像,为内容创作者提供工具,丰富创作内容。
    • 医疗和教育:生成逼真的3D人体模型,用于医学教育、虚拟手术模拟,及文化遗产保护和虚拟博物馆展示。
  • Sky-T1 – NovaSky 开源的推理 AI 模型,可从零开始复现该模型

    Sky-T1是什么

    Sky-T1是加州大学伯克利分校Sky Computing实验室的研究团队NovaSky发布的开源推理AI模型,名为Sky-T1-32B-Preview。是首个开源推理模型,训练数据集和代码均已公开,用户可以从零开始复现该模型。模型的训练成本不到450美元。Sky-T1的训练数据由阿里巴巴的QwQ-32B-Preview推理模型生成,经过精心筛选和重构,基于OpenAI的GPT-4o-mini进行处理,更易于模型训练。在性能方面,Sky-T1在MATH500(一组“竞赛级”数学挑战)上的表现优于OpenAI早期版本o1的预览版本,同时在LiveCodeBench的编程评估中也表现更佳。

    Sky-T1的主要特点

    • 开源性:Sky-T1的训练数据集和代码均已公开,用户可以从零开始复现该模型。
    • 低成本训练:模型的训练成本不到450美元,显著低于以往同等性能模型的数百万美元训练成本。
    • 推理能力:Sky-T1能有效进行自我事实核查,避免一些常见陷阱,在得出解决方案时可能需要更长时间,从几秒到几分钟不等。其在物理、科学和数学等领域的可靠性更高。
    • 训练数据与硬件:Sky-T1的训练数据由阿里巴巴的QwQ-32B-Preview推理模型生成,经过精心筛选,基于OpenAI的GPT-4o-mini对数据进行重构,更易于处理。训练这款拥有320亿参数的模型仅耗时约19小时,使用了8台Nvidia H100 GPU。
    • 性能表现:在MATH500(一组“竞赛级”数学挑战)上的表现优于OpenAI的o1早期预览版本,还在一组来自LiveCodeBench(一种编码评估)的难题上击败了o1的预览版本。

    Sky-T1的项目地址

    Sky-T1的应用场景

    • 数学问题解决:Sky-T1在MATH500(一组“竞赛级”数学挑战)上的表现优于OpenAI早期版本o1的预览版本,在解决复杂的数学问题时具有显著优势,适用于教育、科研和竞赛等领域。
    • 编程评估:在LiveCodeBench的编程评估中,Sky-T1也表现出色,能有效帮助开发者进行代码生成、优化和错误检测,适用于软件开发、编程教育和自动化测试等场景。
    • 科学研究:尽管在GPQA-Diamond测试中(包含物理学、生物学和化学领域的研究生水平问题)Sky-T1略逊于o1预览版,但在物理、科学和数学等领域的可靠性更高,适合用于科学研究和学术研究中的复杂问题解决。
  • Motion Dreamer – 香港科技大学推出的运动合理视频生成框架

    Motion Dreamer是什么

    Motion Dreamer是香港科技大学(广州)研究者提出的视频生成框架,生成运动合理视频。基于两阶段生成方式,先基于输入图像和运动条件生成中间运动表示,再利用该表示生成高细节视频。其引入实例流这一新运动模态,可实现从稀疏到密集的运动控制,用户通过提供稀疏运动提示,模型能生成时间连贯视频。训练时采用随机掩码实例流策略,提升模型推理能力和泛化能力。在Physion数据集及自动驾驶数据集上的实验表明,Motion Dreamer在运动连贯性和物理合理性方面显著优于其他模型,同时生成高质量视频。

    Motion Dreamer的主要功能

    • 生成物理连贯的视频:作为一个两阶段视频生成框架,Motion Dreamer能生成符合物理规律的视频。在第一阶段,模型基于输入图像和运动条件生成中间运动表示,如分割图或深度图,专注于运动本身;在第二阶段,采用中间运动表示生成高细节的视频。
    • 实现稀疏到密集的运动控制:引入了实例流这一新的运动模态,用户可以提供稀疏的运动提示,如表示平均光流的方向箭头,模型能生成像素对齐的密集运动表示,实现时间连贯的视频生成。
    • 增强模型推理能力:采用随机掩码实例流的训练策略,训练时随机掩码部分实例流,要求模型重建完整的密集运动表示,促使模型推断缺失的运动提示,提高了模型的泛化能力和基于推理的运动生成效果。

    Motion Dreamer的技术原理

    • 两阶段生成框架
      • 第一阶段:运动推理:基于输入图像和运动条件,生成中间运动表示,如分割图或深度图,专注于运动本身。这一阶段采用基于扩散的视频生成模型,强调低频运动表示,以提高时间连贯性。具体来说,模型会预测光流、实例分割图和深度图等中间运动表示,这些表示共同构成了对场景动态的全面描述。
      • 第二阶段:高保真视频合成:利用第一阶段生成的中间运动表示作为条件,生成高细节的视频。通过将运动推理与视频合成解耦,使得模型能够更准确地生成符合物理规律的运动,同时保持视频的高质量细节。
    • 实例流:实例流是一种新的稀疏到密集的运动模态,用于连接人类输入与密集运动表示。为了将实例流有效地整合到模型中,会准备多尺度版本的实例流,匹配网络中不同尺度的特征图。然后通过Softmax Splatting函数,根据流场将特征图进行变形,将特征分布到新的位置,无缝地整合运动信息,同时保持可微性以支持端到端训练。
    • 随机掩码实例流训练策略:在训练过程中,随机掩码部分实例流,要求模型重建完整的密集运动表示。促使模型推断缺失的运动提示,增强模型的泛化能力和基于推理的运动生成效果。通过训练模型处理不完整的运动信息,能更好地理解和预测对象之间的交互以及合理的运动轨迹,即使在输入稀疏的情况下也能生成合理的运动。

    Motion Dreamer的项目地址

    Motion Dreamer的应用场景

    • 视频内容创作:在电影、电视剧、广告等视频内容制作中,Motion Dreamer可以生成高质量且物理连贯的视频片段,为创作者提供更多的创意空间和素材选择。
    • 动画制作:对于动画电影和游戏动画的制作,Motion Dreamer能生成逼真的角色动画,减少手动动画制作的时间和成本,提高动画制作的效率。
    • 沉浸式体验:在VR和AR应用中,Motion Dreamer可以生成逼真的虚拟场景和动态效果,为用户提供更加沉浸式的体验。
    • 交互式应用:通过用户输入稀疏的运动提示,Motion Dreamer能生成与用户交互的动态内容,实现更加自然和流畅的交互体验。
    • 驾驶场景模拟:Motion Dreamer可以在自动驾驶领域用于生成各种复杂的驾驶场景,帮助测试和优化自动驾驶算法。
    • 交通流量分析:用Motion Dreamer生成的大量驾驶场景数据,可以进行交通流量分析和预测,为城市交通规划和管理提供参考依据。
  • Perception-as-Control – 阿里通义实验室推出的图像动画框架

    Perception-as-Control是什么

    Perception-as-Control是阿里巴巴通义实验室推出的图像动画框架,能根据用户意图实现细粒度的运动控制。Perception-as-Control基于构建3D感知运动表示,将相机和物体运动转化为直观、一致的视觉变化,用感知结果作为运动控制信号,支持多种与运动相关的视频合成任务。Perception-as-Control框架基于U-Net架构的扩散模型,结合参考图像的外观信息和运动控制信号的运动信息,生成可控的图像动画。Perception-as-Control推出三阶段训练策略,平衡相机和物体运动控制,促进细粒度运动控制,在多种应用场景中展现出优越的性能。

    Perception-as-Control

    Perception-as-Control的主要功能

    • 细粒度协同运动控制:实现相机和物体运动的协同控制,支持用户用细粒度的方式控制动画中的各个元素。让用户精确地调整场景中物体的运动及相机的视角变化。
    • 多种运动相关视频合成任务:支持多种与运动相关的视频合成任务,包括基于图像的运动生成、基于视频的运动克隆、运动转移和运动编辑。
      • 运动生成:根据用户输入的参考图像和2D轨迹生成动画。
      • 运动克隆:模仿源视频中的相机和物体运动。
      • 运动转移:将源视频中的局部运动转移到参考图像中的不同位置和尺度的对象上。
      • 运动编辑:用户提供分割掩码,编辑分割掩码内的运动。
    • 3D感知运动表示:基于构建3D感知运动表示,将复杂的3D场景简化为关键对象部分(用单位球表示)和世界包络,实现直观且一致的视觉变化。

    Perception-as-Control的技术原理

    • 3D感知运动表示:将3D场景简化为关键对象部分(用单位球表示)和世界包络,基于3D点跟踪和视觉里程计技术捕捉局部物体运动和全局相机运动。
    • 网络架构:基于去噪U-Net架构,用两个轻量级编码器分别编码相机和物体控制信号,避免RGB级别的干扰,融合模块合并编码信号。
    • 参考图像注入:ReferenceNet将参考图像的外观信息注入到生成过程中,确保生成的视频保持参考图像的特定外观。
    • 三阶段训练策略
      • 第一阶段:仅训练相机编码器,处理仅含相机运动的视频剪辑。
      • 第二阶段:加入物体编码器和融合模块,处理包含相机和物体运动的视频剪辑。
      • 第三阶段:基于稀疏单位球实现细粒度物体运动控制,自适应确定每个渲染点的控制范围。
    • 扩散模型:用图像扩散概率模型的基本原理,使用去噪U-Net架构生成视频,优化目标是最小化预测噪声与实际噪声之间的差异,条件输入包括参考图像和运动控制信号。

    Perception-as-Control的项目地址

    Perception-as-Control的应用场景

    • 电影和视频特效:生成具有特定运动的动画场景,模仿现有视频中的复杂运动,或将一个角色的运动转移到另一个角色上。
    • 游戏开发:为游戏角色和物体生成自然且可控的动画,提升游戏的沉浸感和动态效果。
    • 虚拟现实(VR)和增强现实(AR):在VR环境中生成实时动画反馈,增强用户互动体验;在AR应用中将虚拟物体动画与现实场景融合。
    • 广告和营销:生成吸引人的动态广告和品牌推广动画,提升品牌形象和记忆点。
    • 教育和培训:生成科学实验动画和技能培训模拟动画,帮助学生和学员更好地理解和掌握知识和技能。
  • HoloDrive – 商汤联合上海AI Lab等机构推出的2D-3D多模态街道场景生成框架

    HoloDrive是什么

    HoloDrive 是商汤和上海人工智能实验室等机构提出的用于自动驾驶的整体2D-3D多模态街道场景生成框架。框架联合生成相机图像和激光雷达点云,填补自动驾驶中2D-3D多模态联合生成的空白。HoloDrive 在异构生成模型之间采用BEV-to-Camera和Camera-to-BEV转换模块,在2D生成模型中引入深度预测分支,消除从图像空间到BEV空间的投影歧义。

    HoloDrive的主要功能

    • 联合生成相机图像和激光雷达点云:HoloDrive 能同时生成多视图摄像头图像和激光雷达点云,填补了自动驾驶中2D-3D多模态联合生成的空白。
    • 跨模态结构:通过BEV-to-Camera和Camera-to-BEV转换模块,以及2D生成模型中的深度预测分支,HoloDrive 实现了2D和3D空间的有效对齐和信息交换,使整个模型能够端到端地训练。
    • 时间结构与渐进训练:HoloDrive 通过加入时间结构和精心设计的渐进训练,扩展了该方法以预测未来,适用于单帧生成和视频生成任务。
    • 高性能生成:在NuScenes数据集上的实验结果表明,HoloDrive 在生成多视图摄像头图像和激光雷达点云的单帧和序列数据方面达到了最优性能,显著优于现有最先进的方法(SOTA)。

    HoloDrive的技术原理

    • BEV-to-Camera 和 Camera-to-BEV 转换模块:在异构生成模型之间采用 BEV-to-Camera 和 Camera-to-BEV 转换模块,以对齐3D和2D空间。
    • 深度预测分支:在2D生成模型中引入深度预测分支,自然监督来源于3D激光雷达,消除从图像空间到BEV空间的投影歧义。
    • 时间结构:通过加入时间结构,HoloDrive 能够扩展该方法以预测未来,适用于单帧生成和视频生成任务。
    • 渐进训练:基于渐进式训练策略,结合视频领域的额外多任务学习,实现训练阶段的平滑过渡。

    HoloDrive的项目地址

    HoloDrive的应用场景

    • 生成逼真的街道场景:HoloDrive 能联合生成多视图摄像头图像和激光雷达点云,生成逼真的街道场景,减少对现实世界昂贵手动建模的需求。
    • 2D-3D 联合生成:HoloDrive 通过 BEV-to-Camera 和 Camera-to-BEV 转换模块,以及2D生成模型中的深度预测分支,实现了2D和3D空间的有效对齐和信息交换。
    • 时间结构和渐进训练:HoloDrive 通过加入时间结构和精心设计的渐进训练,扩展了该方法以预测未来。