Category: AI项目和框架

  • Lobe Vidol – AI数字人交互平台,可与虚拟人和 3D 模型聊天互动

    Lobe Vidol是什么

    Lobe Vidol是开源的数字人创作平台,让每个人都能轻松创建和互动自己的虚拟偶像。Lobe Vidol提供流畅的对话体验、背景设置、动作姿势库、优雅的用户界面、角色编辑、MMD舞蹈支持、PMX舞台加载、触摸响应功能及角色和舞蹈市场。Lobe Vidol支持文本到语音和语音到文本技术,支持用户与虚拟角色进行自然的语音交流。

    Lobe Vidol

    Lobe Vidol的主要功能

    • 流畅的对话体验:基于流式响应和对话上下文设置,提供沉浸式的交流体验。
    • 背景上下文设置:支持用户为对话设置背景图像,增强对话的情境感。
    • 丰富的动作与姿势库:内置Mixamo动作和姿势库,让角色能在对话中展现多样动作。
    • 优雅的UI设计:界面设计简洁优雅,支持亮暗主题,并适配移动端。
    • 角色编辑体验:用户能创建自己的虚拟偶像,设置触摸响应,并上传VRM模型。
    • MMD舞蹈支持:支持MMD舞蹈文件,让用户与虚拟偶像共舞。
    • TTS & STT语音对话:支持文本到语音和语音到文本技术,提供多种声音选项。

    Lobe Vidol的技术原理

    • 前端技术:用现代前端技术栈构建用户界面,包括HTML, CSS, JavaScript以及框架如React或Vue。
    • 3D模型和动画:用VRM和PMX格式加载和显示3D角色模型,及Mixamo提供的动画。
    • 交互式对话系统:结合自然语言处理技术,实现角色与用户的交互式对话。
    • 语音合成技术:集成TTS技术,将文本信息转换为语音输出,让用户能听到角色的“声音”。
    • 语音识别技术:集成STT技术,将用户的语音输入转换为文本,供系统处理。

    Lobe Vidol的项目地址

    Lobe Vidol的应用场景

    • 娱乐互动:用户与虚拟偶像进行互动,享受娱乐体验,比如聊天、共舞等。
    • 在线教育:虚拟偶像作为教师或助教,提供语言学习、知识教育等服务。
    • 客户服务:在客户服务领域,虚拟偶像作为客服代表,提供咨询和问题解答。
    • 品牌营销:企业创建品牌虚拟代言人,基于虚拟偶像与消费者建立更紧密的联系。
    • 社交媒体:虚拟偶像在社交媒体上作为影响者,发布内容并与粉丝互动。
  • HunyuanVideo – 腾讯推出的开源视频生成模型,参数高达130亿

    HunyuanVideo是什么

    HunyuanVideo是腾讯开源的视频生成模型,拥有130亿参数,是目前参数量最大的开源视频模型之一。HunyuanVideo具备物理模拟、高文本语义还原度、动作一致性和电影级画质等特性,能生成带有背景音乐的视频。模型基于时空压缩的潜在空间训练,结合Causal 3D VAE技术和Transformer架构,实现图像和视频的统一生成。HunyuanVideo的开源推动了视频生成技术的发展和应用。

    HunyuanVideo

    HunyuanVideo的主要功能

    • 视频生成:HunyuanVideo能根据文本提示生成视频内容
    • 物理模拟:模型能模拟现实世界的物理规律,生成符合物理特性的视频。
    • 文本语义还原:模型能准确理解并还原文本提示中的语义信息。
    • 动作一致性:生成的视频动作流畅且一致,保持运动的连贯性。
    • 色彩和对比度:生成的视频具有高色彩分明和对比度,提供电影级的画质体验。
    • 背景音乐生成:为视频自动生成同步的声音效果和背景音乐。

    HunyuanVideo的技术原理

    • 时空压缩的潜在空间:HunyuanVideo在时空压缩的潜在空间上进行训练,基于Causal 3D VAE技术将视频数据压缩成潜在表示,用解码器重构回原始数据。
    • Causal 3D VAE:Causal 3D VAE是特殊的变分自编码器,能学习数据的分布并理解数据之间的因果关系。基于编码器将输入数据压缩成一个潜在表示,用解码器将这个潜在表示重构回原始数据。
    • Transformer架构:HunyuanVideo引入Transformer架构,用Full Attention机制统一图像和视频生成。
    • 双流到单流混合模型设计:视频和文本数据被分别送入不同的Transformer块进行处理(双流阶段),合并形成多模态输入,一起输入到后续的Transformer块中(单流阶段)。
    • MLLM文本编码器:用具有解码器结构的预训练多模态大型语言模型(MLLM)作为文本编码器,实现更好的图像-文本对齐和图像细节描述。
    • 提示重写:为适应模型首选的提示,对用户提供的提示进行语言风格和长度的调整,增强视频生成模型对用户意图的理解。

    HunyuanVideo的项目地址

    HunyuanVideo的应用场景

    • 电影和视频制作:用HunyuanVideo生成特效场景,减少绿幕拍摄和后期特效制作的成本和时间。
    • 音乐视频制作:自动创建与音乐节奏和情感相匹配的视频内容,为音乐视频提供创新的视觉元素。
    • 游戏开发:为游戏中的剧情和过场动画生成动态背景,提升游戏的沉浸感和故事性。
    • 广告与营销:快速生成与产品特性和品牌信息相匹配的动态广告,提高广告的吸引力和转化率。
    • 教育与培训:模拟复杂的手术过程或紧急情况,为医学生和专业人员提供无风险的培训环境。
  • Amazon Nova – 亚马逊推出的全新大模型系列,覆盖文本、图像、视频生成领域

    Amazon Nova是什么

    Amazon Nova 是亚马逊云服务(AWS)推出的新一代AI基础模型系列,提供行业领先的性能和成本效益。系列包括专门处理文本的Amazon Nova Micro、多模态的Amazon Nova Lite 和Amazon Nova Pro,还有即将推出的Amazon Nova Premier。图像生成模型Amazon Nova Canvas 和视频生成模型Amazon Nova Reel。这些模型能理解并生成文本、图像和视频内容,支持200多种语言,覆盖客户服务、内容创作、语言翻译等多种应用场景。Amazon Nova基于 Amazon Bedrock 提供,支持定制微调和模型提炼,适应特定业务需求,提升任务的性能和效率。

    Amazon Nova

    Amazon Nova的系列模型和主要功能

    Amazon Nova Micro:纯文本模型,128k上下文窗口,延迟最低,响应速度最快。

    • 文本处理:专注于处理文本输入并生成文本输出。
    • 低延迟响应:提供快速的响应时间。
    • 低成本:以滴成本提供高性能的语言理解、翻译、推理、代码补全、头脑风暴和数学问题解决。
    • 高速生成:生成速度超过每秒200个标记。
    • 多语言支持:支持200多种语言。
    • 微调支持:支持使用文本输入进行微调。

    Amazon Nova Lite:低成本多模态模型,300k上下文窗口,能快速处理图像、视频和文本输入。

    • 多模态处理:快速处理图像、视频和文本输入。
    • 广泛的任务适应性:适合广泛的交互式和高容量应用,尤其是在成本是关键考量因素的场景。
    • 多语言支持:支持200多种语言。
    • 微调支持:支持文本、图像和视频输入的微调。

    Amazon Nova Pro:多模态模型,300k上下文窗口,兼顾准确度、速度和成本,能进行视频理解、生成创意素材。

    • 多模态模型:提供准确度、速度和成本的最佳组合。
    • 任务广泛性:适合视频摘要、问答、数学推理、软件开发以及执行多步骤工作流的AI代理等多种任务。
    • 行业领先速度和成本效率:在文本和视觉智能基准测试中表现出色。
    • 多语言支持:支持200多种语言。
    • 微调支持:支持文本、图像和视频输入的微调。

    Amazon Nova Premier(将于2025年第一季度推出):多模态模型,执行复杂的推理任务。

    • 目前关于 Nova Premier 的具体功能细节尚未公布,预计将是亚马逊多模态模型中能力最强的,用于复杂推理任务和作为定制模型的“教师模型”。

    Amazon Nova Canvas:图像生成模型,支持生成和编辑图像,提供配色方案和布局控件,内置安全控件,用于可追溯性的水印和用于限制有害内容生成的内容审核。

    • 图像生成:从文本或图像提示中创建专业级图像。
    • 编辑功能:提供易于使用的功能,使用文本输入编辑图像,调整色彩方案和布局。
    • 安全和负责任的AI使用:内置支持安全和负责任的AI使用。

    Amazon Nova Reel:视频生成模型,可根据关键词或可选的参考图像生成6秒视频,支持用户调整摄像机运动以生成具有平移、360度旋转和缩放的视频。

    • 视频生成:从文本和图像创建高质量视频。
    • 自然语言提示:支持用自然语言提示控制视觉风格和节奏,包括摄像机运动控制。
    • 安全和负责任的AI使用:内置支持安全和负责任的AI使用。

    Amazon Nova的技术原理

    • 深度学习和神经网络:基于深度学习架构,特别是变换器(Transformers)模型,一种深度学习模型,擅长处理序列数据,广泛应用于语言翻译、文本摘要和问答系统等任务。
    • 多模态学习:多模态模型如Amazon Nova Lite 和Amazon Nova Pro 能处理和理解多种类型的数据输入,包括文本、图像和视频。求模型能学习和整合不同模态之间的关联信息。
    • 预训练和微调:模型首先在大规模数据集上进行预训练,学习语言、视觉等基础任务。基于微调进一步优化模型,适应特定的应用场景或客户数据。
    • 检索增强生成(Retrieval Augmented Generation, RAG):用 RAG 技术,结合检索和生成方法,提供更准确的信息和响应。
    • 自然语言理解(NLU):用 NLU 技术来解析和理解自然语言输入,包括意图识别、情感分析和实体识别等。

    Amazon Nova的项目地址

    Amazon Nova的应用场景

    • 客户服务与支持:Amazon Nova Pro 或 Amazon Nova Lite 处理客户查询,提供自动化的客户支持和响应。
    • 内容创作与编辑:Amazon Nova Canvas 和Amazon Nova Reel 生成或编辑图像和视频内容,适用于广告、社交媒体和数字营销。
    • 语言翻译与本地化:Amazon Nova Micro 或Amazon Nova Lite 进行语言翻译,帮助企业实现内容的本地化。
    • 数据分析与洞察:Amazon Nova Pro 分析视频、图表和文档,提取关键信息和洞察,支持决策制定。
    • 软件开发与代码生成:Amazon Nova Micro 辅助软件开发,包括代码补全和调试。
  • EfficientTAM – Meta AI推出的视频对象分割和跟踪模型

    EfficientTAM是什么

    EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,能解决SAM 2模型在移动设备上部署时的高计算复杂度问题。基于用简单的非层次化Vision Transformer(ViT)作为图像编码器,引入高效的记忆模块降低计算复杂度,实现在保持分割质量的同时减少延迟和模型大小。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。

    EfficientTAM

    EfficientTAM的主要功能

    • 视频对象分割:EfficientTAM能从视频帧中分割出感兴趣的对象。
    • 跟踪任何物体:模型能跟踪视频中的多个对象。
    • 轻量化设计:特别优化模型大小和计算效率,使其在资源受限的设备上,如智能手机,进行实时视频处理。
    • 高质量结果:模型轻量化,仍然能产生高质量的分割结果,满足高精度应用的需求。
    • 低延迟处理:能在保持低延迟的同时进行复杂的视频分析任务。

    EfficientTAM的技术原理

    • 非层次化Vision Transformer (ViT):用简单的、非层次化的ViT作为图像编码器,与传统的多阶段图像编码器相比,ViT提供了更高效的特征提取。
    • 高效记忆模块:引入高效的记忆模块,存储和利用过去帧的信息辅助当前帧的分割任务,同时减少内存和计算复杂度。
    • 记忆交叉注意力机制:EfficientTAM提出一种基于记忆空间嵌入的局部性的高效交叉注意力机制,有助于减少在交叉注意力计算中的参数数量和计算量。
    • 利用局部性:基于记忆空间嵌入的强局部性,通过平均池化创建记忆空间嵌入的粗略表示,减少计算量而不失准确性。
    • 模型训练和优化:EfficientTAM在SA-1B和SA-V数据集上进行训练,针对视频对象分割和跟踪任务进行优化,并在多个视频分割基准上进行评估,确保模型的泛化能力和实用性。

    EfficientTAM的项目地址

    EfficientTAM的应用场景

    • 移动视频编辑:在智能手机等移动设备上,用于实时视频编辑,如分割特定对象、更换背景或进行特效处理。
    • 视频监控:EfficientTAM能对监控视频中的对象进行实时跟踪和分割,有助于安全监控、人流统计和异常行为检测。
    • 增强现实(AR):在AR应用中,用于实时识别和分割现实世界中的对象,为用户叠加虚拟信息或图像。
    • 自动驾驶:在自动驾驶车辆中实时分析道路情况,识别和跟踪行人、车辆和其他障碍物。
    • 医疗影像分析:辅助医疗影像分析,基于分割医疗影像中的关键结构,帮助医生进行诊断和治疗规划。
  • MagicDriveDiT – 华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法

    MagicDriveDiT是什么

    MagicDriveDiT是香港中文大学、香港科技大学、华为云和华为诺亚方舟实验室共同推出基于DiT架构的新型视频生成方法,专为自动驾驶应用设计,实现高分辨率和长视频的生成。基于流匹配增强模型的可扩展性,用渐进式训练策略处理复杂场景。MagicDriveDiT基于时空条件编码实现对时空潜在变量的精确控制,显著提升视频生成质量和控制能力,扩展在自动驾驶领域的应用。

    MagicDriveDiT

    MagicDriveDiT的主要功能

    • 高分辨率长视频生成:MagicDriveDiT能生成高分辨率的长视频,对于自动驾驶技术中的数据模拟和算法测试至关重要。
    • 自适应控制:MagicDriveDiT提供对视频内容的精确控制,包括对象位置、道路语义和相机轨迹等,让生成的视频能满足特定的模拟需求。
    • 多视角视频合成:支持从多个相机视角生成视频,对于模拟复杂的交通场景和提高自动驾驶系统的可靠性非常有用。
    • 细粒度几何控制:对视频中的单个对象进行类别、大小和轨迹的精确控制。
    • 时空条件编码:基于时空编码技术,MagicDriveDiT能处理和整合与时间和空间相关的条件信息,生成符合特定场景需求的视频。
    • 混合数据配置训练:在训练过程中用不同分辨率和时长的视频数据,增强模型的泛化能力。

    MagicDriveDiT的技术原理

    • DiT架构:基于DiT(Denoising Iterative Transform)架构的高效性和可扩展性处理高分辨率和长视频数据。
    • 流匹配:基于流匹配技术,模型更有效地处理大规模数据,提高生成视频的质量和一致性。
    • 渐进式训练策略:从低分辨率图像到高分辨率长视频的渐进式训练方法,让模型逐步学习并掌握复杂的视频生成任务。
    • 时空条件编码:引入时空条件编码,让模型精确控制视频中的时空潜在变量,实现对视频内容的精确控制。
    • 3D VAE(变分自编码器):用3D VAE压缩视频数据,基于时空降采样减少序列长度和内存消耗,同时保持视频内容的质量。

    MagicDriveDiT的项目地址

    MagicDriveDiT的应用场景

    • 自动驾驶系统测试与验证:基于生成的视频模拟各种交通场景,用于测试和验证自动驾驶系统的感知、决策和控制算法。
    • 感知模型训练:提供高分辨率和长视频数据,用在训练和优化自动驾驶车辆的感知模型,如物体检测、语义分割和深度估计。
    • 场景重建与模拟:根据实际道路数据生成详细的街景视频,用在构建虚拟环境,进行自动驾驶系统的模拟训练和评估。
    • 数据增强:扩充和丰富真实世界数据集,基于生成各种条件下的交通场景视频,增加数据多样性,提高模型的泛化能力。
    • 安全性分析:模拟极端或危险驾驶场景,用在分析自动驾驶系统的安全性和鲁棒性。
  • GeneMAN – 上海AI Lab联合北大等高校推出的3D人体模型创建框架

    GeneMAN是什么

    GeneMAN是上海AI实验室、北京大学、南洋理工大学、上海交通大学联合推出的3D人形创建框架,能从单张图片中创建出高保真度的3D人体模型。框架不依赖于参数化人体模型,是用多源高质量人类数据集,包括3D扫描、多视角视频、单张照片和合成数据训练人类特定的2D和3D先验模型。GeneMAN基于几何初始化、雕刻流程和多空间纹理细化技术,实现从自然环境数据图像中提取高质量3D人体模型的目标,不论图像中的人体比例、姿势或服装如何变化。

    GeneMAN

    GeneMAN的主要功能

    • 处理多样化的人体比例:无论图片中的人物是全身、半身还是特写,GeneMAN都能重建出相应的3D模型。
    • 适应不同的服装和姿势:GeneMAN能处理各种服装和人体姿势,包括自然姿势和常见物品。
    • 处理野外图像:GeneMAN特别擅长处理自然环境下的图像,即所谓的“野外数据”,这些图像可能包含多种复杂背景和光照条件。
    • 生成高质量的纹理:基于多空间纹理细化流程,GeneMAN能生成细节丰富、与输入图像一致的3D人体纹理。

    GeneMAN的技术原理

    • 2D和3D人类先验模型训练
      • 文本到图像扩散模型:训练一个人类特定的文本到图像扩散模型,用在生成2D人类先验。
      • 视图条件扩散模型:训练一个视图条件扩散模型,用在生成3D人类先验。
    • 几何初始化与雕刻流程
      • 无模板几何初始化:用NeRF(神经辐射场)技术初始化一个无模板的3D几何形状。
      • 结合先验与损失:结合GeneMAN的2D和3D先验及结构化差异损失(SDS损失)引导几何初始化。
      • 参考损失:用参考损失确保与输入图像的对齐。
      • 高分辨率细化:将NeRF转换为DMTet(深度多面体网格)进行高分辨率的几何细化,由预训练的人类特定的法线和深度适应扩散模型引导。
    • 多空间纹理细化流程
      • 粗纹理生成:用多视图纹理技术生成粗略的纹理。
      • 潜在空间细化:在潜在空间中迭代细化纹理。
      • 像素空间细化:基于优化UV图在像素空间中获得详细纹理,用基于2D先验的ControlNet进行优化。

    GeneMAN的项目地址

    GeneMAN的应用场景

    • 虚拟试衣:用户上传自己的全身照片,生成3D模型,用于在线试穿服装,提供更真实的试衣体验。
    • 游戏和娱乐:在游戏和电影制作中,创建或修改角色模型,提供更个性化和逼真的角色设计。
    • 增强现实(AR)和虚拟现实(VR):在AR和VR应用中,生成用户的3D化身,提高沉浸感和交互性。
    • 时尚设计:设计师快速将设计草图转换成3D模型,加速设计流程。
    • 健身和健康管理:基于分析用户的3D模型,提供个性化的健身指导和健康建议。
  • 360Zhinao2-7B – 360 推出自研360智脑大模型的升级版

    360Zhinao2-7B是什么

    360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。360Zhinao2-7B模型是继360Zhinao1-7B之后的重要更新,基于采用全新的多阶段训练方式和更优质的数据处理策略,提升中英文通用能力,增强模型的数学逻辑推理能力。在国内外同尺寸开源模型中,360Zhinao2-7B在中文能力、IFEval指令遵循7B和复杂数学推理能力方面均排名第一。模型的长文本微调能力在各个长文本benchmark上也位列第一梯队。

    360Zhinao2-7B

    360Zhinao2-7B的主要功能

    • 语言理解与生成:能理解和生成中文和英文文本,适用于多种语言处理任务。
    • 聊天能力:提供强大的聊天功能,支持生成流畅、相关且准确的对话回复。
    • 多上下文长度支持:具有不同上下文长度的聊天模型,能处理从4K到360K不同长度的对话历史。
    • 数学逻辑推理:在数学问题解答和逻辑推理方面表现出色,能处理复杂的数学问题。
    • 多语言支持:除中文,模型也支持英文,能在不同语言的数据集上进行训练和推理。
    • 商业应用:支持免费商用,适用于教育、医疗、智能客服等多个商业场景。

    360Zhinao2-7B的技术原理

    • 大规模预训练
      • 两阶段训练方法:首先进行大规模的无差别数据训练,然后增加高质量数据的比例,进行第二阶段训练。
      • 大量数据训练:模型训练涉及10T(万亿)个token的第一阶段训练和100B(百亿)个token的第二阶段训练。
    • Transformer架构:基于Transformer架构,一种深度学习模型,广泛应用于自然语言处理任务。
    • 自注意力机制:模型使用自注意力机制处理输入序列中的每个元素,让模型能理解单词或短语之间的复杂关系。
    • 上下文建模:聊天模型支持不同长度的上下文,能根据对话历史生成回复,要求模型具备良好的上下文建模能力。
    • 优化策略
      • 学习率调度:用余弦退火等学习率调度策略,优化训练过程。
      • 混合精度训练:采用BF16(Brain Floating Point 16)等混合精度训练技术,提高训练效率和减少内存使用。

    360Zhinao2-7B的项目地址

    360Zhinao2-7B的应用场景

    • 智能客服:提供自动化的客户咨询服务,解答用户问题,提高客户服务效率。
    • 教育辅助:作为教学辅助工具,提供语言学习支持,帮助学生理解复杂概念。
    • 内容创作:辅助写作和内容生成,如撰写文章、生成创意文案等。
    • 语言翻译:作为机器翻译工具,实现不同语言之间的自动翻译。
    • 信息检索:改进搜索引擎,提供更准确的搜索结果和信息推荐。
  • MVGenMaster – 复旦联合阿里等实验室推出的多视图扩散模型

    MVGenMaster是什么

    MVGenMaster是复旦大学、阿里巴巴达摩院和湖潘实验室共同推出的多视图扩散模型,基于增强3D先验处理多样化的新视角合成(NVS)任务。模型基于度量深度和相机姿态扭曲的3D先验,提升NVS的泛化和3D一致性。MVGenMaster能从单一图像出发,用单次前向传播生成多达100个新视图。研究团队推出了一个包含160万场景的大型多视图图像数据集MvD-1M,多项训练和模型优化技术,增强模型在大规模数据集上的表现。

    MVGenMaster

    MVGenMaster的主要功能

    • 多视图生成:从单一图像或多个参考图像生成多达100个新视图,适用于不同的NVS任务,如单视图NVS、两视图插值和任意参考视图与目标视图的灵活NVS。
    • 3D先验整合:用度量深度和相机姿态扭曲的3D先验,模型在2D扩散模型中保持了一致的3D结构。
    • 灵活性和泛化:模型设计灵活,能适应不同的视角和场景,展现出在多种场景下的泛化能力。
    • 高效前向过程:在单次前向过程中完成多视图的生成,无需复杂的迭代推理或数据集更新。
    • 大规模数据集支持:结合MvD-1M数据集,包含160万场景和对齐良好的度量深度。

    MVGenMaster的技术原理

    • 3D先验:MVGenMaster用度量深度和相机姿态创建3D先验,3D先验在模型中被用来指导新视图的生成,确保3D结构的一致性。
    • 几何扭曲:基于几何扭曲函数,模型将参考视图的像素和规范坐标映射(CCM)从源视图扭曲到目标视图。
    • 多视图扩散模型(LDM):MVGenMaster基于潜在扩散模型(LDM),学习如何从参考图像和3D先验中合成目标视图的图像。
    • 注意力机制:模型用全注意力机制,跨越所有参考和目标视图,捕获密集的相机姿态表示。
    • Plücker射线:用Plücker射线表示相机姿态,为模型提供精确的相机位置和方向信息。
    • 关键重缩放技术:为处理极长序列的目标视图,MVGenMaster引入关键重缩放技术,增强参考视图的指导,平衡注意力稀释问题。

    MVGenMaster的项目地址

    MVGenMaster的应用场景

    • 视频游戏:在视频游戏中,用在生成高质量的3D内容,提升游戏画面的真实感和沉浸感。
    • 电影和视觉特效:在电影制作和视觉特效中,创建复杂的3D场景和特效,减少实际拍摄和后期制作的成本。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,生成逼真的3D环境,为用户提供更加丰富和互动的体验。
    • 3D建模和设计:设计师从2D图像创建3D模型,加速产品设计和原型制作的过程。
    • 建筑可视化:在建筑和城市规划中,帮助建筑师和规划师从不同角度展示建筑设计,进行更好的方案评估。
  • HiFiVFS – 腾讯联合VIVO推出的高保真视频换脸框架

    HiFiVFS是什么

    HiFiVFS(High Fidelity Video Face Swapping)是腾讯和VIVO公司推出的高保真视频换脸框架,HiFiVFS基于Stable Video Diffusion(SVD)框架,用多帧输入和时间注意力机制确保视频生成的稳定性。框架在训练阶段引入细粒度属性学习(FAL)和详细身份学习(DIL),增强属性控制和身份相似性。FAL基于身份去敏感化和对抗学习实现属性解耦,DIL用更适合换脸的身份特征提升相似度。HiFiVFS在潜在空间进行训练和测试,为展示效果,所有过程都在原始图像空间中可视化。

    HiFiVFS

    HiFiVFS的主要功能

    • 高保真视频换脸:将源图像中的人脸身份特征替换到目标视频中,同时保留目标视频的属性,如姿势、表情、照明和背景。
    • 时序稳定性:在多帧视频上应用时间注意力机制,确保视频帧之间的连续性和稳定性,避免传统方法中可能出现的时序抖动问题。
    • 细粒度属性控制:基于细粒度属性学习(FAL),提取和控制视频中的细粒度属性,如照明和化妆,这些在以往的换脸技术中往往难以保持。
    • 身份相似性增强:基于详细身份学习(DIL),用更详细的面部识别特征提高换脸后人脸与源图像身份的相似度。

    HiFiVFS的技术原理

    • 基于SVD框架:建立在Stable Video Diffusion(SVD)框架之上,SVD框架专为高分辨率文本到视频和图像到视频合成而设计。
    • 多帧输入:与仅处理单帧图像的方法不同,HiFiVFS处理多帧视频输入,有助于保持视频的时序稳定性。
    • 时间注意力机制:基于时间注意力机制加强视频帧之间的关联性,进一步提升视频稳定性。
    • 细粒度属性学习(FAL)
      • 属性解耦:基于身份去敏感化和对抗学习,FAL能提取与身份解耦的细粒度属性特征。
      • 增强属性控制:FAL基于对抗学习增强对属性的控制,让换脸后的视频能更好地保留目标视频的属性。
    • 详细身份学习(DIL)
      • 身份特征提取:DIL用面部识别模型的更深层次特征,获取更详细的面部身份信息。
      • 身份相似性提升:DIL基于将这些详细的身份特征注入到换脸过程中,提高换脸结果与源身份的相似度。

    HiFiVFS的项目地址

    HiFiVFS的应用场景

    • 电影和视频制作:在电影和视频制作中,替换或改变演员的面部表情和身份,用在适应特定的剧情需要,或用于特效制作。
    • 游戏开发:在游戏开发中,用在创建逼真的角色面部动画,提供更加丰富和真实的交互体验。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,用在生成或修改用户虚拟形象的面部特征,提供个性化的沉浸式体验。
    • 社交媒体:在社交媒体平台上,用户能进行娱乐性质的面部替换,如换脸滤镜或表情变化,增加互动乐趣。
    • 广告和营销:广告商将名人或模特的面部特征应用到广告中,提高广告的吸引力和个性化。
  • MyTimeMachine – AI个性化面部年龄转换技术,实现20至40年的时间跨度

    MyTimeMachine是什么

    MyTimeMachine(MyTM)是先进的个性化面部年龄转换技术,基于大约50张个人照片,跨越20至40年的时间跨度,训练一个适配器网络个性化预训练的全局老化模型。MyTimeMachine能实现高质量的年龄回退和年龄进展效果,同时保持个体身份特征。MyTimeMachine能扩展到视频领域,生成具有高身份保持度和时间一致性的老化效果,优于现有的技术水平。

    MyTimeMachine

    MyTimeMachine的主要功能

    • 个性化年龄转换:根据个人照片集合对人物面部进行年龄转换,包括年龄回退(de-aging)和年龄进展(aging)。
    • 身份保持:在进行年龄转换的同时,保持人物的面部身份特征,确保转换后的图像与原始人物的面部特征相匹配。
    • 高质量图像生成:基于先进的深度学习技术,生成高分辨率、逼真的面部图像。
    • 视频扩展:除处理静态图像外,扩展到视频,实现视频中人物年龄的动态变化,保持时间上的一致性。
    • 适应性:适应不同的年龄范围,在训练数据覆盖的年龄范围内表现良好,对外推到未见年龄的表现进行优化。

    MyTimeMachine的技术原理

    • 适配器网络(Adapter Network):引入一个适配器网络,能结合个性化的老化特征和全局老化特征,基于StyleGAN2生成老化后的图像。
    • 损失函数:为个性化适配器网络,引入三种损失函数:
      • 个性化老化损失:确保老化后的图像在身份特征上与个人照片集合中相似年龄的参考图像相似。
      • 外推正则化:控制超出训练年龄范围的老化效果,用全局先验。
      • 自适应w-norm正则化:解决StyleGAN的反转-编辑性权衡问题,确保在保持身份的同时进行形状和纹理的老化变化。
    • 全局老化先验:基于预训练的全局老化模型,模型学习一般人群的老化规律。
    • 个人照片集合:用户需要提供大约50张个人照片,照片跨越一定的年龄范围,用在训练适配器网络学习个性化的老化特征。
    • 扩展到视频:基于面部交换技术将个性化的老化效果应用到视频中,生成时间上一致的老化视频。

    MyTimeMachine的项目地址

    MyTimeMachine的应用场景

    • 电影和电视制作:在电影和电视剧中,创建角色的年龄变化效果,如将演员年轻化或老化,适应剧情需要。
    • 广告和娱乐:在广告中展示产品随时间的效果,例如护肤品或健康产品。
    • 法医学和刑侦:帮助执法机构通过老化图像来识别和追踪多年未见的嫌疑人或失踪人员。
    • 历史重现:重现历史人物在不同年龄阶段的形象,用在教育或历史纪录片。
    • 个人娱乐:用户体验自己在未来某个年龄的样子,用在娱乐或特殊纪念。