Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • SeedFoley – 字节推出的端到端视频音效生成模型

    SeedFoley是什么

    SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型,为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型,实现音效与视频的高度同步。模型采用快慢特征组合的视频编码器,提取视频的时空特征,同时基于原始波形作为输入的音频表征模型,保留高频信息,提升音效细腻程度。扩散模型通过优化概率路径上的连续映射关系,减少推理步数,降低推理成本。 SeedFoley 能精准提取视频帧级视觉信息,智能区分动作音效和环境音效,支持多种视频长度,在音效准确性、同步性和匹配度上表现优异。

    SeedFoley

    SeedFoley的主要功能

    • 智能生成音效:SeedFoley 能精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景,比如节奏感强烈的音乐瞬间,电影中的紧张情节,能精准卡点,营造出身临其境的逼真体验。
    • 区分音效类型:SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。
    • 支持多种视频长度:SeedFoley 能支持可变长度的视频输入,在音效准确性、音效同步性和音效匹配度等指标上都取得了领先水平。

    SeedFoley的技术原理

    • 视频编码器:SeedFoley 的视频编码器采用快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过这种方式,模型能在低计算资源下实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后基于 Transformer 结构融合快慢特征,实现视频的时空特征提取。
    • 音频表征模型:与传统的基于梅尔频谱的 VAE 模型不同,SeedFoley 采用原始波形作为输入,经过编码后得到 1D 的表征。音频采用 32k 的采样率,确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,有效提升音频在时序上的分辨率,提升音效的细腻程度。
    • 扩散模型:SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量,通过通道维度拼接将二者与时间编码及噪声信号进行混合,形成联合条件输入。提升了音效和视频画面在时序上的一致性。

    如何使用SeedFoley

    • 访问即梦平台:访问即梦的官方网站或使用即梦 App,注册并登录。
    • 生成视频:在即梦上选择视频生成功能,根据您的需求生成视频内容。
    • 选择「AI 音效」功能:在生成视频后,选择「AI 音效」功能。系统会自动为您的视频生成 3 个专业级音效方案。
    • 预览和选择音效方案:预览生成的音效方案,选择最适合您视频内容的音效方案。
    • 应用音效:将选择的音效方案应用到您的视频中。
    • 注意事项
      • 视频长度:SeedFoley 支持可变长度的视频输入,但建议视频长度不要过长,确保生成效果。
      • 音效类型:SeedFoley 可智能区分动作音效和环境音效,提升视频的叙事张力和情感传递效率。
      • 预览效果:在选择音效方案时,建议仔细预览每个方案的效果,选择最适合您视频内容的音效。

    SeedFoley的应用场景

    • 生活 Vlog:为个人 Vlog 添加逼真的环境音效,如街头的嘈杂声、咖啡馆的背景音乐等。
    • 短片制作:为短片添加与情节匹配的动作音效和环境音效,增强观众的沉浸感。
    • 游戏制作:为游戏视频添加逼真的音效,如战斗音效、环境音效等,提升游戏的体验感。
    • 视频后期制作:在视频后期制作中,SeedFoley 可以快速生成与视频内容高度匹配的音效,节省后期制作的时间和成本。
    • 广告视频:为广告视频添加吸引人的音效,提升广告的吸引力和传播效果。
    • 教育视频:为教育视频添加合适的音效,增强观众的学习兴趣和注意力。
  • START – 阿里联合中科大推出的自学推理模型

    START是什么

    START(Self-Taught Reasoner with Tools)是阿里巴巴集团和中国科学技术大学推出的新型工具增强型推理模型,结合外部工具(如Python代码执行器)提升大型语言模型(LLMs)的推理能力。START基于“Hint-infer”技术在推理过程中插入提示,激发模型使用外部工具,基于“Hint-RFT”框架进行自学习和微调。START在长链推理(Long CoT)的基础上,引入工具调用,显著提高在复杂数学问题、科学问答和编程挑战中的准确性和效率。START在多个基准测试中表现出色,超越现有模型,成为首个开源的长链推理与工具集成相结合的模型。

    START

    START的主要功能

    • 复杂计算与验证:调用Python代码执行器,进行复杂的数学计算、逻辑验证和模拟。
    • 自我调试与优化:START用工具执行代码并验证输出,自动检测错误并进行调试,提高答案的准确性。
    • 多策略探索:基于提示(Hints)引导模型尝试多种推理路径和方法,增强模型在面对复杂问题时的灵活性和适应性。
    • 提升推理效率:基于工具调用和自我验证,减少模型在复杂任务中的幻觉(hallucination)现象,提高推理效率和可靠性。

    START的技术原理

    • 长链推理:继承长链推理的优势,分解问题为多个中间推理步骤,模拟人类的深度思考过程,提高模型在复杂任务中的推理能力。
    • 工具集成:START基于调用外部工具(如Python代码执行器)弥补传统长链推理的不足。模型在推理过程中生成代码,用工具执行验证结果。
    • Hint-infer:在推理过程中插入人工设计的提示(Hints),激发模型调用外部工具的能力。引导模型在特定节点调用工具,无需额外的演示数据。
    • Hint-RFT:结合Hint-infer和拒绝采样微调(RFT),对模型生成的推理轨迹进行评分、过滤和修改,进一步优化模型的工具使用能力。
    • 自学习框架:基于主动学习方法,从模型生成的推理轨迹中筛选出有价值的数据,用于微调,让模型自我学习如何更有效地使用工具。
    • 测试时扩展:在推理结束时插入提示,增加模型的思考时间和工具调用次数,提高推理的准确性和成功率。

    START的项目地址

    START的应用场景

    • 数学问题求解:解决复杂的数学题目,如数学竞赛和高等数学问题,用代码验证提高准确性。
    • 科学研究辅助:帮助处理物理、化学和生物等领域的复杂计算和科学问题。
    • 编程与调试:生成代码并自动调试,解决编程难题,提升开发效率。
    • 跨学科问题解决:综合运用多学科知识,解决工程设计、数据分析等复杂任务。
    • 教育与学习:作为智能辅导工具,辅助学生学习数学和科学,提供详细的解题过程和反馈。
  • LanPaint – 零训练 AI 图像修复工具

    LanPaint是什么

    LanPaint 是用在Stable Diffusion 模型的高质量图像修复工具,无需额外训练实现精准的图像修复和替换。LanPaint基于多轮迭代推理优化修复效果,支持无缝且准确的修复结果。LanPaint 提供简单易用的集成方式,与 ComfyUI 的工作流程一致,用户替换默认的采样器节点即可使用。LanPaint提供多种参数调整,适应不同复杂度的修复任务,例如调整推理步骤、内容对齐强度等。LanPaint 适用于从简单替换到复杂损坏修复的多种场景,是提升图像生成质量的有力工具。

    LanPaint

    LanPaint的主要功能

    • 零训练图像修复:无需额外训练,与任何Stable Diffusion模型(包括用户自定义模型)无缝配合,实现高质量的图像修复。
    • 简单集成:与ComfyUI的KSampler工作流程完全兼容,用户能轻松替换默认采样器节点,快速上手。
    • 高质量修复:基于多轮迭代推理,优化修复区域与原始图像的衔接,实现无缝且自然的修复效果。
    • 参数灵活调整:提供多种高级参数(如推理步骤、内容对齐强度、噪声掩码等),用户根据任务复杂度进行精细调整。

    LanPaint的技术原理

    • 迭代推理:在每次去噪步骤之前,进行多次迭代推理(由LanPaint_NumSteps参数控制),模拟模型的“思考”过程,逐步优化修复区域的生成内容。
    • 内容对齐与约束:基于LanPaint_Lambda参数控制修复区域与未修复区域的内容对齐强度,确保修复后的图像在视觉上自然过渡,避免出现明显的拼接痕迹。
    • 动态调整噪声掩码:在迭代过程中,动态调整噪声掩码的强度(由LanPaint_StepSize控制),更好地引导模型生成修复区域的内容,避免过度生成导致的失真。
    • 高级参数优化:调整LanPaint_cfg_BIG(修复区域的CFG规模)和LanPaint_Friction(摩擦系数)等参数,优化修复效果,平衡修复质量和生成速度。
    • 二值掩码处理:要求输入掩码为二值掩码(值为0或1),避免因透明度或渐变导致的生成问题,确保修复区域的边界清晰且明确。

    LanPaint的项目地址

    LanPaint的应用场景

    • 图像修复与损坏恢复:用在修复老旧照片、损坏的图像或去除图像中的划痕、污渍等缺陷,恢复图像的完整性和清晰度。
    • 内容替换与编辑:快速替换图像中的特定元素,如改变人物的服装颜色、替换场景中的物品等,实现创意图像编辑或视觉效果优化。
    • 艺术创作与设计:在艺术创作中,修改或完善绘画作品中的局部细节,或根据创意需求调整图像内容,帮助艺术家和设计师快速实现想法。
    • 广告与商业图像处理:在广告设计中,快速调整产品展示图中的背景、道具或人物元素,满足不同的营销需求,提升视觉效果的吸引力。
    • 视频帧修复与编辑:用在修复视频中的关键帧,实现视频内容的优化或修复,例如去除视频中的干扰元素或修复损坏的视频帧。
  • TrajectoryCrafter – 腾讯和港中文推出的单目视频自由运镜技术

    TrajectoryCrafter是什么

    TrajectoryCrafter 是腾讯PCG ARC Lab和香港中文大学推出的,用在单目视频的相机轨迹重定向方法,支持在后期自由调整视频的相机位置和角度,轻松改变视频中的运镜方式。TrajectoryCrafter基于解耦视图变换和内容生成,用双流条件视频扩散模型,将点云渲染和源视频作为条件,实现对用户指定相机轨迹的精确控制和高质量的 4D 内容生成。TrajectoryCrafte用创新的双重重投影策略和混合数据集(结合动态单目视频与静态多视角数据)训练模型,显著提升在多样化场景中的泛化能力。TrajectoryCrafter 在多视角和大规模单目视频数据集上表现出色,能生成高保真、与源视频一致的新型轨迹视频,为沉浸式视频体验提供新的可能性。

    TrajectoryCrafter

    TrajectoryCrafter的主要功能

    • 精确轨迹控制:用户指定任意相机轨迹(如平移、旋转、缩放等),生成与之匹配的视频内容。
    • 高保真视频生成:生成的视频在视觉上与原始视频保持一致,具备高质量的细节和纹理。
    • 4D一致性:生成的视频在空间上与目标轨迹一致,在时间上与原始视频保持连贯性,避免内容漂移或闪烁。
    • 多样化场景泛化:模型能适应各种场景,包括室内、室外、动态场景等,具有良好的泛化能力。

    TrajectoryCrafter的技术原理

    • 双流条件视频扩散模型
      • 解耦视图变换与内容生成:将相机轨迹的确定性变换与内容生成的随机性分开处理。基于点云渲染实现精确的视图变换,用视频扩散模型生成高质量的内容。
      • 双流条件机制:模型包含两个条件输入:点云渲染(用在精确控制视图变换)和源视频(用在提供细节和纹理)。用独特的Ref-DiT模块(参考条件扩散变换器),将源视频的细节信息通过交叉注意力机制注入到生成过程中,提升生成视频的保真度。
    • 动态点云渲染:深度估计将单目视频转换为动态点云,根据用户指定的相机轨迹渲染新视图。点云渲染准确捕捉几何关系和视图变换,提供几何指导。
    • 混合数据集与训练策略:用混合数据集策略,结合网络规模的单目视频和静态多视角数据集进行训练。对于单目视频,用双重重投影策略生成大规模的训练样本。具体方法是将视频通过深度估计提升为点云,渲染新视图后再重新投影回原始视角,模拟点云渲染的效果。模型用两阶段训练策略,第一阶段专注于视图变换的准确性和缺失区域的合成;第二阶段用多视角数据集训练,提升生成视频与源视频的一致性。

    TrajectoryCrafter的项目地址

    TrajectoryCrafter的应用场景

    • 沉浸式娱乐:用在VR/AR,让用户自由切换视角,增强沉浸感。
    • 创意视频制作:帮助影视、短视频创作者添加新视角效果,提升内容吸引力。
    • 智能视频会议:动态调整会议视角,聚焦特定区域或人员,提升交互性。
    • 自动驾驶与机器人:生成多视角驾驶或导航场景,用在训练和测试算法。
    • 教育与培训:创建多视角教学视频,帮助学生更好地理解和学习。
  • VideoPainter – 港中文联合腾讯等机构推出的视频修复和编辑框架

    VideoPainter是什么

    VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架,专门用在处理任意长度的视频内容。VideoPainter基于双分支架构,结合轻量级上下文编码器和预训练的扩散模型,实现高效的背景保留和前景生成。框架支持插件式操作,用户根据需求灵活调整修复效果。VideoPainter 引入 ID 重采样技术,能在长视频中保持对象一致性。VideoPainter构建了 VPData 和 VPBench,目前最大的视频修复数据集,包含超过 39 万段视频剪辑,为大规模训练和评估提供支持。VideoPainter 在视频质量、掩码区域保留和文本对齐等多个指标上展现卓越了性能,为视频修复和编辑领域带来新的突破。

    VideoPainter

    VideoPainter的主要功能

    • 任意长度的视频修复:处理从短片段到长视频的各种内容,修复被遮挡或损坏的部分。
    • 背景保留与前景生成:基于双分支架构,实现背景的精确保留和前景的高质量生成。
    • 文本指导的视频编辑:支持用文本指令进行视频编辑,如添加、删除、替换或修改视频中的对象。
    • 对象一致性维持:在长视频中保持对象的身份一致性,避免出现对象漂移或突变。
    • 插件式控制:支持与不同的扩散模型或LoRA(低秩适配)模型结合,实现多样化的视频生成和编辑需求。

    VideoPainter的技术原理

    • 双分支架构
      • 背景分支:基于轻量级上下文编码器提取背景特征,注入到预训练的扩散模型中,确保背景的连贯性。
      • 前景分支:基于扩散模型的生成能力,根据文本提示生成前景内容,与背景特征结合,实现高质量的修复。
    • 轻量级上下文编码器:仅包含两层,占用主模型参数的6%,提取背景特征并以分组方式注入到扩散模型中。基于选择性特征融合,将背景特征注入到模型中,避免前景和背景信息混淆。
    • ID重采样技术:在训练时,增强目标区域的ID信息,提升模型对修复区域的感知能力。在推理时,将前一视频片段的修复区域特征与当前片段结合,确保长视频中对象的一致性。
    • 插件式控制:支持与不同的扩散模型或LoRA模型结合,用户根据需求选择合适的模型进行视频修复或编辑。兼容文本到视频(T2V)和图像到视频(I2V)扩散模型,进一步扩展应用范围。
    • 大规模数据集构建:用先进的视觉模型(如SAM2、Grounding DINO等),自动生成精确的分割掩码和密集的文本描述。构建VPData和VPBench,包含超过39万段视频剪辑,为大规模训练和评估提供支持。

    VideoPainter的项目地址

    VideoPainter的应用场景

    • 影视修复与制作:修复老电影、电视剧中的损坏画面,或添加特效、修改场景。
    • 广告与营销:快速生成高质量视频内容,添加或替换背景、道具,实现个性化定制。
    • 视频创作与直播:实时修复视频中的错误或干扰,添加虚拟道具,提升视觉效果。
    • VR与AR应用:生成沉浸式视频内容,修复或修改虚拟场景,增强现实感。
    • 教育与培训:制作教学视频,修复古籍影像,添加虚拟设备或标注,增强教学效果。
  • COMET – 字节开源的通信优化系统

    COMET是什么

    COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,能解决分布式训练中通信开销过大的问题。基于细粒度的计算-通信重叠技术,COMET将通信与计算操作深度融合,消除传统方法中因粒度不匹配导致的资源浪费和延迟。COMET引入共享张量依赖解析和自适应负载分配两大机制,动态调整资源分配,实现高效的通信隐藏和计算优化。在大规模生产环境中,COMET显著提升了MoE模型的训练效率,单层加速可达1.96倍,端到端加速1.71倍,已累计节省数百万GPU小时。COMET的核心代码已开源,支持主流大模型和多种并行策略,能无缝集成到现有训练框架中。

    COMET

    COMET的主要功能

    • 细粒度计算-通信重叠:分解共享张量和重新调度计算顺序,实现计算与通信的细粒度对齐。
    • 自适应负载分配:动态调整GPU线程块资源,根据输入规模和并行策略平衡通信与计算负载,消除流水线气泡,提升整体效率。
    • 高效资源管理:将通信和计算任务封装在独立线程块中,避免远程I/O阻塞计算核心,提升资源利用率。
    • 强鲁棒性和泛化能力:在专家负载不均衡或不同硬件环境下,保持低延迟,支持多种并行策略和大规模集群部署。
    • 易于集成:作为插件直接接入现有的MoE训练框架,无需侵入性改动,支持主流编译生态(如Triton)。

    COMET的技术原理

    • 共享张量依赖解析
      • 张量分解:将MoE层间传递的共享张量沿Token维度(M)或隐层维度(N)进行切割,让通信与计算的最小单元对齐。例如,在MoE第一层(Layer 0)沿M维度分解,在第二层(Layer 1)沿N维度分解,实现高效重叠。
      • 计算重调度:动态调整数据块的计算顺序,优先计算本地数据块,异步拉取远程Token,消除因等待远程数据导致的计算延迟。
    • 自适应负载分配
      • 线程块隔离:将通信与计算任务分别封装在独立线程块中,避免远程I/O阻塞计算核心。计算线程块专用在执行异步TMA指令的GEMM运算,通信线程块基于NVSHMEM实现单Token级数据传输。
      • 动态负载平衡:根据输入规模(如Token长度)和并行策略(EP/TP比例),实时调整线程块分配比例,基于预编译多个版本的计算-通信融合算子,实现运行时的“零开销”动态切换。

    COMET的性能表现

    • 单层加速:在大规模 MoE 模型中,实现单层加速 1.96 倍。
    • 端到端加速:在完整的 MoE 模型中,端到端平均实现加速 1.71 倍。
    • 不同模型和输入规模下的稳定性
      • 在多个大规模 MoE 模型(如 Mixtral-8x7B、Qwen2-MoE 等)中,COMET 的前向时延相比其他基线系统降低 31.8%-44.4%。
      • 在不同输入 Token 长度下,COMET 的执行时间显著短于基线方案,平均速度提升 1.28 倍到 2.37 倍。
    • 鲁棒性:在专家负载不均衡的场景下,COMET 能保持低于其他基线系统的延迟,表现出良好的鲁棒性。
    • 泛化能力:COMET 在 NVLink 和 PCIe 等不同网络环境下均能提供稳定的加速比,支持多种并行策略(如 EP、TP、EP+TP),适用于大规模训练框架。

    COMET的项目地址

    COMET的应用场景

    • 大规模 MoE 模型训练加速:优化 Mixtral-8x7B 等大模型的分布式训练,节省 GPU 小时,提升训练效率。
    • 异构硬件环境适配:支持 H800、L20 等不同 GPU 和网络环境(如 NVLink、PCIe),确保稳定加速。
    • 多并行策略支持:兼容 EP、TP 和混合并行策略,适应不同模型和硬件配置。
    • 动态负载均衡:在专家负载不均衡时,动态调整资源分配,保持低延迟运行。
    • 无缝集成现有框架:作为插件直接接入 MoE 训练框架(如 Megatron-LM),无需侵入性改动,便于快速部署。
  • FoxBrain – 鸿海研究院推出的推理大语言模型

    FoxBrain是什么

    FoxBrain 是鸿海研究院推出的繁体中文大型语言模型(LLM),具有强大的推理能力。基于 Meta Llama 3.1 架构,拥有 70B 参数,专注于数学和逻辑推理领域。FoxBrain 基于高效训练策略,用四周时间完成训练,使用 120 张 NVIDIA H100 GPU,展现了高效率和低成本的特点。FoxBrain基于自主技术生成高质量中文预训练数据,用 Adaptive Reasoning Reflection 技术提升推理能力。FoxBrain 推动 AI 在制造业、供应链管理和智慧决策等领域的应用,为台湾 AI 技术发展树立了新的标杆。

    FoxBrain

    FoxBrain的主要功能

    • 数据分析与决策辅助:处理复杂的数据信息,为用户提供决策支持。
    • 文书协作:帮助用户生成、编辑和优化文本内容,提高工作效率。
    • 数学与推理解题:在数学和逻辑推理方面表现出色,解决复杂的数学问题和逻辑难题。
    • 代码生成:辅助用户生成编程代码,提升开发效率。
    • 语言风格优化:针对台湾繁体中文的语言风格进行优化,更贴合本地用户需求。

    FoxBrain的技术原理

    • 基础架构:基于Meta Llama 3.1架构,拥有70B参数,具备强大的语言生成和理解能力。
    • 高效训练策略:用120张NVIDIA H100 GPU进行训练,基于多节点并行训练架构,确保高效能与稳定性。基于自主技术生成98B tokens的高质量中文预训练数据,涵盖24类主题。用Adaptive Reasoning Reflection技术,训练模型自主推理能力,提升在数学和逻辑推理领域的表现。
    • 上下文处理能力:支持128K token的上下文处理长度,处理更长的文本输入和输出。
    • 优化与评估:基于Continual Pre-Training、Supervised Fine-tuning、RLAIF等技术,不断优化模型性能,在TMMLU+测试数据集中表现出色。

    FoxBrain的项目地址

    FoxBrain的应用场景

    • 智能制造与供应链管理:优化生产流程,提供数据分析和决策支持,提升供应链效率和智能化水平。
    • 智慧教育与学习辅助:帮助学生解答数学和逻辑问题,提供学习辅导,生成学习材料,提升学习效率。
    • 智能办公与文书协作:自动生成和优化文本内容,辅助撰写报告、邮件等,提高办公效率和文档质量。
    • 软件开发与代码生成:辅助程序员生成代码片段,提供编程建议,提升软件开发效率和质量。
    • 智慧城市与数据分析:支持城市数据的分析和处理,提供智能决策支持,助力城市管理和公共服务的智能化升级。
  • LanDiff – 浙大联合月之暗面推出的文本到视频生成混合框架

    LanDiff是什么

    LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分,超越了包括13B的Hunyuan Video在内的多个开源和商业模型。

    LanDiff

    LanDiff的主要功能

    • 高效语义压缩:通过语义标记器将3D视觉特征压缩为1D离散表示,压缩比高达14,000倍,保留丰富语义信息。
    • 高质量视频生成:基于流式扩散模型,将语义标记细化为高保真视频,支持长视频生成,降低计算成本。
    • 语义一致性和因果建模:依靠语言模型的自回归生成,确保视频与文本高度一致且时间连贯,避免传统扩散模型的时间不连贯问题。
    • 灵活控制与定制:支持帧数、运动分数等控制条件,可生成特定长度和动态特性的视频,平衡高质量视觉效果与语义准确性。
    • 高效计算与优化:采用视频帧分组技术减少时间冗余,使用高效的Transformer结构和注意力机制,降低计算资源消耗。

    LanDiff的技术原理

    • 粗到细的生成范式:LanDiff采用两阶段生成过程:
      • 第一阶段(粗粒度生成):基于语言模型(LLM)生成语义标记,这些标记代表视频的高级语义结构,为后续的视频生成提供蓝图。
      • 第二阶段(细粒度生成):通过扩散模型将这些语义标记细化为高保真视频,逐步添加细节,最终生成高质量的视频。
    • 语义标记器:将3D视觉特征压缩为紧凑的1D离散表示,压缩比高达14,000倍。受MP4视频编码算法启发,将视频帧分为关键帧(IFrame)和非关键帧(PFrame),关键帧进行完整编码,非关键帧仅捕获时间变化,显著减少时间冗余。
    • 语言模型:使用预训练的T5-XXL模型提取文本特征,并将视频转换为1D离散标记序列。引入额外的控制条件(如帧数和运动分数),增强生成结果的可控性。通过自回归方式生成语义标记,确保生成内容的语义一致性和时间连贯性。
    • 流式扩散模型:采用与MMDiT类似的架构,通过视频标记器解码器将语义标记解码为语义特征,然后作为条件指导扩散模型生成视频。

    LanDiff的项目地址

    LanDiff的应用场景

    • 视频制作:LanDiff可以快速生成高质量的视频内容,帮助视频创作者、广告公司和媒体机构高效地制作视频广告、短片、动画等。
    • 虚拟现实(VR)和增强现实(AR):生成虚拟场景和角色动画,丰富VR和AR应用的内容生态。
    • 教育视频:根据教学大纲或知识点描述,生成教育视频,帮助学生更直观地理解复杂概念。
    • 社交媒体内容:为社交媒体平台生成个性化、吸引人的视频内容,提升品牌影响力和用户参与度。
  • Heygem – 硅基智能推出的开源数字人模型

    Heygem是什么

    Heygem 是硅基智能推出的开源数字人模型,专为 Windows 系统设计。基于先进的AI技术,仅需 1 秒视频或 1 张照片,能在 30 秒内完成数字人形象和声音克隆,在 60 秒内合成 4K 超高清视频。Heygem支持多语言输出、多表情动作,具备 100% 口型匹配能力,在复杂光影或遮挡场景下能保持高度逼真的效果。Heygem 基于全离线运行模式,保护用户隐私,支持低配置硬件部署,极大地降低使用门槛,为内容创作、直播、教育等场景提供高效、低成本的数字人解决方案。

    Heygem

    Heygem的主要功能

    • 秒级克隆:仅需1秒视频或1张照片,完成数字人形象和声音的克隆,30秒内完成克隆,60秒内合成4K超高清数字人视频。
    • 高效推理:推理速度达到1:0.5,视频渲染合成速度达到1:2。
    • 高质量输出:支持4K超高清、32帧/秒的视频输出,超越好莱坞电影24帧的标准。
    • 多语言支持:克隆后的数字人支持8种语言输出,满足全球市场需求。
    • 无限量克隆:支持无限量克隆数字人形象和声音,无限量合成视频。
    • 100%口型匹配:在复杂光影、遮挡或侧面角度下,实现高度逼真的口型匹配。
    • 低配可跑:支持Docker一键部署,最低只需NVIDIA 1080Ti显卡即可运行。

    Heygem的技术原理

    • 声音克隆技术:基于AI等先进技术,根据给定的声音样本生成与之相似或相同声音的技术,涵盖语音中的语境、语调、语速等。
    • 自动语音识别:将人类语音中的词汇内容转换为计算机可读输入,让计算机 “听懂” 人们说的话。
    • 计算机视觉技术:用在视频合成中的视觉处理,包括面部识别、口型分析等,确保虚拟形象的口型与声音和文字内容相匹配。

    Heygem的项目地址

    如何使用Heygem

    • 安装要求
      • 系统要求:支持Windows 10 19042.1526或更高版本。
      • 硬件推荐
        • CPU:第13代英特尔酷睿i5-13400F。
        • 内存:32GB。
        • 显卡:RTX 4070。
      • 存储空间
        • D盘:用在存储数字人和项目数据,需要30GB以上空间。
        • C盘:用在存储服务镜像文件,需要100GB以上空间。
      • 依赖项
        • Node.js 18
        • Docker 镜像
          • docker pull guiji2025/fun-asr:1.0.2。
          • docker pull guiji2025/fish-speech-ziming:1.0.39。
          • docker pull guiji2025/heygem.ai:0.0.7_sdk_slim。
    • 安装步骤
      • 安装Docker:检查是否安装WSL(Windows Subsystem for Linux),如果未安装,运行wsl –install。更新WSL。下载安装Docker for Windows。
      • 安装服务器:用Docker和docker-compose安装服务器。在/deploy目录下运行docker-compose up -d。
      • 安装客户端:运行npm run build:win生成安装程序HeyGem-1.0.0-setup.exe。双击安装程序进行安装。

    Heygem的应用场景

    • 内容创作:快速生成动画、教育视频等,降低制作成本。
    • 在线教育:创建虚拟教师,支持多语言教学,提升趣味性。
    • 直播营销:用在虚拟直播、产品推广,降低人力成本。
    • 影视特效:生成虚拟角色或特效镜头,简化制作流程。
    • 智能客服:创建虚拟客服,提供自然的人机交互体验。
  • IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架

    IMAGPose是什么

    IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态的目标图像、从多视角源图像生成目标图像受限,以及使用冻结的图像编码器导致人物图像细节信息丢失等问题。

    IMAGPose

    IMAGPose的主要功能

    • 多场景适应:IMAGPose支持多种用户场景,包括从单张源图像生成目标图像、从多视角源图像生成目标图像,同时生成多个具有不同姿态的目标图像。
    • 细节与语义融合:通过特征级条件模块(FLC),将低级纹理特征与高级语义特征相结合,解决了因缺乏专用人物图像特征提取器而导致的细节信息丢失问题。
    • 灵活的图像与姿态对齐:图像级条件模块(ILC)通过注入可变数量的源图像条件并引入掩码策略,实现图像和姿态的对齐,适应灵活多样的用户场景。
    • 全局与局部一致性:跨视图注意力模块(CVA)引入全局和局部分解的跨注意力机制,确保在多源图像提示时人物图像的局部保真度和全局一致性。

    IMAGPose的技术原理

    • 特征级条件模块(FLC):FLC 模块通过结合变分自编码器(VAE)编码器提取的低级纹理特征和图像编码器提取的高级语义特征,解决了因缺乏专用人物图像特征提取器而导致的细节信息丢失问题。
    • 图像级条件模块(ILC):ILC 模块通过注入可变数量的源图像条件并引入掩码策略,实现图像和姿态的对齐,适应灵活多样的用户场景。
    • 跨视图注意力模块(CVA):CVA 模块引入了全局和局部分解的跨注意力机制,确保在多源图像提示时人物图像的局部保真度和全局一致性。

    IMAGPose的项目地址

    IMAGPose的应用场景

    • 虚拟现实(VR)与增强现实(AR):IMAGPose 可以生成具有特定姿态的人物图像,可以在虚拟环境中以不同的姿态呈现自己,或者生成虚拟角色的多种姿态,增强沉浸感。
    • 电影制作与特效:在电影制作中,IMAGPose 可以用于生成角色的多种姿态,帮助特效团队快速生成不同场景中的人物图像,减少手动建模和动画的时间和成本。
    • 电子商务与时尚:IMAGPose 可以用于生成不同姿态的服装展示图像。商家可以生成模特在不同姿态下穿着服装的效果图,为消费者提供更全面的视觉体验。
    • 行人重识别(Re-ID):IMAGPose 生成的图像可以用于提高行人重识别任务的性能。通过生成不同姿态的人物图像,可以增加数据集的多样性,提高模型的鲁棒性和准确性。
    • 虚拟摄影与艺术创作:艺术家和摄影师可以用 IMAGPose 生成具有创意的人物姿态图像,用于虚拟摄影或艺术创作,探索更多视觉可能性。