Category: AI项目和框架

  • MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目

    MMAudio是什么

    MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精确匹配,实现高度同步。MMAudio适用于多种应用场景,包括影视制作和游戏开发,根据视频内容或文本描述生成相应的音频,提升用户体验。

    MMAudio

    MMAudio的主要功能

    • 视频到音频合成:根据视频内容生成相应的音频,让视频和音频同步。
    • 文本到音频合成:根据文本描述生成匹配的音频,对于不需要视频素材的场景非常有用。
    • 多模态联合训练:支持在包含音频、视频和文本的数据集上进行训练,提高模型对不同模态数据的理解和生成能力。
    • 同步模块:MMAudio包含同步模块,确保生成的音频与视频帧或文本描述精确对齐。

    MMAudio的技术原理

    • 深度学习:基于深度学习技术,特别是神经网络,理解和生成音频数据。
    • 多模态输入处理:模型能处理视频和文本输入,基于深度学习网络提取特征,进行音频合成。
    • 联合训练:模型在训练时考虑音频、视频和文本数据,让生成的音频能与视频和文本内容相匹配。
    • 同步机制:基于同步模块,模型能确保音频输出与视频帧或文本描述的时间轴完全对应,实现同步。
    • 数据集适配:MMAudio能在多种数据集上进行训练,包括音频-视频和音频-文本数据集,增强模型的泛化能力。

    MMAudio的项目地址

    MMAudio的应用场景

    • 影视制作:在电影、电视剧和短片制作中,生成或增强背景音效、对话和环境音,提高制作效率和最终作品的质量。
    • 游戏开发:在电子游戏中,根据游戏画面实时生成音效,例如脚步声、武器声等,增强游戏的沉浸感和互动性。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,生成与虚拟环境同步的音频,提升用户的沉浸体验。
    • 动画制作:对于动画电影或视频,根据动画画面生成匹配的音效和背景音乐,简化音频制作流程。
    • 新闻和纪录片:在新闻报道或纪录片中,为视频内容生成或增强旁白和解说,提高信息传递的效率。
  • ChatTTSPlus – 开源文本转语音工具,ChatTTS扩展版支持语音克隆

    ChatTTSPlus是什么

    ChatTTSPlus是ChatTTS的扩展版本,增加了TensorRT加速、语音克隆和移动模型部署等功能,提升语音合成的性能和灵活性。在Windows平台上,实现了超过3倍的加速,从28 tokens/s提升到110 tokens/s,极大地提高处理速度。ChatTTSPlus提供Windows整合包,方便用户一键提取和使用。基于LoRA等技术,ChatTTSPlus实现语音克隆,通过剪枝和知识蒸馏等技术进行模型压缩和加速,创造个性化语音的能力。

    ChatTTSPlus

    ChatTTSPlus的主要功能

    • TensorRT加速:基于TensorRT技术,ChatTTSPlus在Windows平台上实现超过3倍的加速,提高语音合成的效率。
    • 语音克隆:用LoRA等技术,ChatTTSPlus能实现语音克隆,支持用户复制特定人的声音。
    • 移动模型部署:项目用模型压缩和加速,让语音合成模型能在移动设备上运行。
    • 一键提取和使用:提供Windows整合包,用户能一键提取、使用,简化安装和配置过程。
    • 模型压缩:用剪枝和知识蒸馏技术,减少模型大小,提高运行效率,适应资源受限的环境。
    • Web UI演示:提供基于TensorRT和PyTorch的Web用户界面,方便用户快速体验和测试语音合成功能。

    ChatTTSPlus的技术原理

    • 深度学习优化:基于深度学习技术优化语音合成过程,提高合成语音的自然度和流畅性。
    • 高性能计算:TensorRT的集成让在GPU上运行的语音合成任务更加高效,尤其是在NVIDIA的硬件上。
    • 跨平台部署:项目支持移动端的部署,让语音合成技术能应用于更广泛的设备和场景。

    ChatTTSPlus的项目地址

    ChatTTSPlus的应用场景

    • 有声读物和播客:将电子书或文章转换成有声内容,为视力受限人士或喜欢听书的用户提供优质体验。
    • 语言学习:辅助语言学习者模仿和听力练习提高发音和听力技能,尤其是用语音克隆技术模仿母语者的发音。
    • 辅助技术:为视障人士或阅读困难者提供文本内容的语音输出,帮助他们更好地获取信息。
    • 客户服务:在自动客服系统中使用,提供听起来自然的语音回复,提升客户体验。
    • 娱乐和游戏:在视频游戏或虚拟现实应用中为角色配音,增强沉浸感。
  • 书生·万象InternVL 2.5 – 上海 AI Lab 开源的多模态大语言模型系列

    书生·万象InternVL 2.5是什么

    书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型(MLLM)系列。该系列模型在InternVL 2.0的基础上进行显著增强,特别是在训练和测试策略及数据质量方面。InternVL 2.5包括从1B到78B不同规模的模型,适应不同的使用场景和硬件需求。InternVL2_5-78B是首个在多模态理解基准(MMMU)上得分超过70的开源模型,超越ChatGPT-4o和Claude-3.5-Sonnet等商业模型。InternVL 2.5基于链式思考(CoT)推理技术实现性能提升,在多学科推理、文档理解、多图像/视频理解等多个基准测试中展现强大的多模态能力。

    InternVL 2.5

    书生·万象InternVL 2.5的主要功能

    • 多模态理解:处理和理解来自不同模态(文本、图像、视频)的信息。
    • 多学科推理:在多个学科领域内进行复杂推理和问题解决。
    • 现实世界理解:对现实世界场景和事件进行理解和分析。
    • 多模态幻觉检测:识别和区分真实和虚构的视觉信息。
    • 视觉地面化:将文本描述与图像中的实际对象相匹配。
    • 多语言处理:支持多种语言的理解和生成能力。
    • 纯语言处理:执行文本分析、生成和理解等语言任务。

    书生·万象InternVL 2.5的技术原理

    • ViT-MLP-LLM架构:结合视觉Transformer(ViT)和大型语言模型(LLM)基于MLP投影器。
    • 动态高分辨率训练:适应不同分辨率的输入,优化多图像和视频数据的处理。
    • 像素逆置操作:减少视觉tokens数量,提高模型效率。
    • 渐进式扩展策略:从小规模LLM开始训练,逐步扩展到更大规模的模型。
    • 随机JPEG压缩:模拟互联网图像退化,增强模型对噪声图像的鲁棒性。
    • 损失重加权:平衡不同长度响应的NTP损失,优化模型训练。

    书生·万象InternVL 2.5的项目地址

    书生·万象InternVL 2.5的应用场景

    • 图像和视频分析:用在图像和视频内容的自动标注、分类和理解,适用于安防监控、内容审核、媒体娱乐等领域。
    • 视觉问答(VQA):在教育、电子商务和客户服务等领域,回答与图像或视频内容相关的问题,提供更丰富的用户体验。
    • 文档理解和信息检索:对于法律、医疗和学术研究等领域的大量文档,提取关键信息,支持复杂的查询和研究工作。
    • 多语言翻译和理解:InternVL 2.5支持多语言处理,在跨语言交流、国际商务和全球化内容创作中发挥作用。
    • 辅助设计和创意工作:在设计和创意产业中,I帮助理解和实现复杂的视觉创意,如建筑设计、广告创意等。
  • Gemini 2.0 – 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

    Gemini 2.0是什么

    Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比 1.5 Pro快两倍,关键性能指标超过 1.5 Pro。模型支持原生工具调用和实时音视频流输入,提供文本、音频和图像的集成响应,具备多语言音频输出能力。Gemini 2.0致力于构建自主理解、规划和执行任务的智能助手,谷歌基于Gemini 2.0推出了Jules、Colab数据科学代理等原型,展现在编程、数据分析等领域的应用潜力。Gemini 2.0 Flash 及API目前免费提供,基于 Google AI Studio 和 Vertex AI 中的 Gemini API 使用,每分钟最多15个提问,每天最多1500个提问,计划于明年开放更多模型尺寸和功能。

    Gemini 2.0

    Gemini 2.0的主要功能

    • 原生多模态输入输出:支持图像、视频、音频等多种数据类型的输入与输出。
    • 增强的性能:在关键基准测试中,Gemini 2.0 Flash的性能超越前代产品Gemini 1.5 Pro,速度达到Gemini 1.5 Pro的两倍。
    • 全新的输出模态:支持文本、音频和图像的集成响应,包括多语言原生音频输出和原生图像输出。
    • 原生工具使用:直接调用Google搜索、代码执行等工具,能基于函数调用使用自定义的第三方函数。
    • 多模态实时API:支持实时音视频流输入,进行语音活动检测,能集成多个工具完成复杂任务。
    • AI“代理”应用:基于Gemini 2.0 ,谷歌正在探索AI“代理”的应用,打造能自主理解、规划和执行任务的智能助手,如Jules(编程助手)、Project Astra(多模态助手)等。

    Gemini 2.0的技术原理

    • 机器学习和深度学习算法:Gemini 2.0基于最新的机器学习和深度学习算法,提升神经网络的结构和效率。
    • 自然语言处理(NLP):在自然语言处理领域表现出色,让Gemini 2.0能更好地理解和生成自然语言。
    • 定制硬件支持:基于谷歌定制的硬件第六代TPU Trillium构建,为Gemini 2.0的培训和推理提供100%算力支持。
    • 全栈式AI创新研究:得益于谷歌长达10年的全栈式AI创新研究的投入,Gemini 2.0在技术前沿领域展现出卓越的性能。

    基于Gemini 2.0的AI代理

    • Project Astra
      • 多模态智能体,能进行多语言和混合语言对话,理解不同口音和生僻单词。
      • 基于Gemini 2.0,Project Astra能使用Google Search、Google Lens和Google Maps。
      • 增强记忆能力,能记住长达10分钟的会话内容,提供个性化服务。
      • 改进语音回复的延迟,能用接近人类对话的速度理解语言。
    • Project Mariner
      • 早期研究原型,探索人机交互的未来,从浏览器开始。
      • 能理解和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网页元素。
      • 基于Chrome扩展程序使用为用户完成任务。
    • Jules:AI驱动的编码智能体,直接集成到GitHub工作流中。用户用自然语言描述问题,Jules能生成可直接合并到项目中的代码。
    • 游戏智能体
      • 基于Gemini 2.0构建的智能体,根据屏幕上的实时画面分析游戏情况,为用户提供行动建议。
      • 正在与游戏开发商如Supercell合作,在《部落冲突》和《海岛奇兵》等游戏中测试这些智能体。

    Gemini 2.0的项目地址

    Gemini 2.0的应用场景

    • 网页交互和自动化任务:Gemini 2.0能读取、总结甚至使用网站,基于生成式AI系统完成用户与网站的交互,例如在超市网站创建购物车。
    • 编程辅助:Jules作为AI编程伙伴,直接嵌入GitHub,用自然语言描述问题后生成代码,一键合并至用户原有代码中。
    • 数据分析和研究:基于Deep Research功能,作为研究助理,探索复杂主题并撰写报告。
    • 游戏辅助:Gemini 2.0能理解游戏屏幕内容,实时提供游戏策略和建议。
    • 多语言对话和助手服务:用Gemini 2.0改进对话能力,使用Google搜索、Lens和地图等工具,增强记忆力和降低延迟,提供个性化服务。
  • FineWeb 2 – Hugging Face推出的多语言预训练数据集

    FineWeb 2是什么

    FineWeb 2是Hugging Face推出的多语言预训练数据集,覆盖超过1000种语言。FineWeb 2基于定制化的数据管道处理,包括语言识别、去重、内容过滤和PII匿名化,适应不同语言的特点。FineWeb 2数据集支持广泛的NLP任务,如机器翻译、文本分类等,帮助提升多语言模型的性能和泛化能力。FineWeb 2为开发者和研究人员提供检验新算法和技术的平台,提高多语言处理的普遍性和性能。

    FineWeb 2

    FineWeb 2的主要功能

    • 多语言数据集构建:为超过1000种语言提供高质量的预训练数据,支持全球多种语言的NLP任务。
    • 定制化数据处理:针对不同语言的特性,调整数据处理流程,包括语言特定的过滤器和停用词。
    • 语言识别:用GlotLID技术,识别文档中的语言和使用的脚本。
    • 去重:按语言全球去重,保留文档的多样性,记录重复文档的大小,便于“重新水化”数据集。
    • 数据过滤:保留原始FineWeb的过滤集,根据多语言环境调整,适应不同语言。
    • PII匿名化:对个人身份信息进行匿名化处理,保护隐私。
    • 编码修复:用FTFY工具修复编码问题。
    • 评估与训练:提供评估和训练代码,方便研究人员和开发者测试和训练模型。

    FineWeb 2的技术原理

    • 数据预处理
      • 语言识别:基于GlotLID技术对文档进行语言识别,确定文档的语言和使用的脚本。
      • 去重:对每种语言的数据进行全局去重,保留一个文档,记录重复文档的簇大小。
      • 过滤:根据语言特性调整过滤器,去除不符合要求的数据。
    • PII匿名化:对文档中的个人身份信息进行匿名化处理,包括电子邮件和IP地址。
    • 数据“重新水化”:根据重复文档的簇大小,对文档进行上采样,提高某些语言的数据量和质量。
    • 评估与训练
      • 用FineTasks评估套件对每个处理步骤后的模型进行评估。
      • 提供训练代码,基于nanotron框架训练1.46B模型。
    • 代码和工具版本管理:提供数据处理、评估和训练过程中使用的工具版本信息。

    FineWeb 2的项目地址

    FineWeb 2的应用场景

    • 机器翻译:训练机器翻译模型,帮助模型理解和转换不同语言之间的文本。
    • 文本分类:训练文本分类模型,对不同语言的文本进行分类,如情感分析、主题分类等。
    • 语言模型预训练:作为预训练语言模型的数据源,帮助模型学习多种语言的语法和语义特征。
    • 问答系统:构建多语言问答系统,让系统理解和回答不同语言的问题。
    • 语音识别和合成:辅助语音识别和合成技术的开发,特别是在处理多语言语音数据时。
    • 信息检索:改进搜索引擎和信息检索系统,更有效地处理和检索多语言内容。
  • DrivingDojo – 中科院联合美团推出的交互式驾驶世界模型数据集

    DrivingDojo是什么

    DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18,000个视频片段,覆盖完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识,为开发下一代自动驾驶模型提供了坚实的基础。DrivingDojo定义了动作指令跟随(AIF)基准,用在评估世界模型在执行动作控制的未来预测方面的能力。

    DrivingDojo

    DrivingDojo的主要功能

    • 交互式世界模型训练:DrivingDojo提供一个平台,用在训练理解和模拟复杂驾驶动态的交互式世界模型。
    • 动作指令跟随(AIF):数据集定义AIF基准,评估世界模型在遵循动作指令生成未来预测的能力。
    • 多样化驾驶操作:基于DrivingDojo-Action子集,模型学习加速、减速、紧急制动和车道变换等多样化的驾驶操作。
    • 多智能体交互:用DrivingDojo-Interplay子集,模型能理解和预测车辆与其他道路使用者之间的复杂交互。
    • 开放世界知识:用DrivingDojo-Open子集,模型学习处理开放世界中的罕见事件和长尾场景。
    • 视频生成与预测:模型基于初始帧和动作指令生成未来的视频,模拟和预测驾驶场景。

    DrivingDojo的技术原理

    • 数据收集:用美团无人车团队的自动驾驶车辆平台收集视频数据,。
    • 数据策划:从大量收集的数据中精选出包含丰富驾驶操作、多智能体交互和开放世界知识的视频片段。
    • 动作编码:将驾驶动作(如加速、制动、转向)编码为模型能理解的格式,方便在视频生成中使用。
    • 视频生成模型:基于如Stable Video Diffusion等技术,开发从初始帧和动作指令生成视频的模型。
    • 动作指令跟随(AIF):比较生成视频与输入动作指令的一致性,评估模型的预测准确性。
    • 评估指标:用FID(Frechet Inception Distance)和FVD(Frechet Video Distance)等指标评估生成视频的视觉质量,用AIF错误评估动作指令的跟随能力。

    DrivingDojo的项目地址

    DrivingDojo的应用场景

    • 自动驾驶算法开发:研究人员开发和测试自动驾驶车辆的感知、预测和决策算法。
    • 世界模型训练:数据集用在训练模拟真实世界驾驶环境的交互式世界模型,模型能预测未来的状态和可能的事件。
    • 多智能体交互模拟:模拟车辆与其他道路使用者(如行人、自行车、其他车辆)之间的交互,优化自动驾驶车辆的交互策略。
    • 罕见事件和长尾场景处理:训练模型识别和响应罕见事件,如动物突然横穿道路或道路上的障碍物,提高自动驾驶系统的安全性。
    • 虚拟测试和验证:在虚拟环境中测试自动驾驶系统,减少实车测试的成本和风险,加速开发流程。
  • EXAONE 3.5 – LG 推出的开源AI模型,擅长长文本处理降低模型幻觉问题

    EXAONE 3.5是什么

    EXAONE 3.5是LG AI研究院推出的开源AI模型,包含24亿、78亿和320亿参数的三个版本。EXAONE 3.5擅长长文本处理,在基准测试中表现优异,特别是在实际应用、长文本处理和数学方面。模型采用检索增强生成技术和多步推理能力,有效降低错误信息,提高准确性。LG计划进一步扩展其AI能力,并推出企业级AI智能体服务ChatEXAONE,具备复杂的查询分析和用户自定义搜索功能,配备加密和隐私保护技术,确保在公司内部安全使用。

    EXAONE 3.5

    EXAONE 3.5的主要功能

    • 多版本模型支持:提供三种不同参数规模的模型,适应不同的应用场景和计算资源限制。
    • 指令遵循能力:在实际场景中具有卓越的指令遵循能力,在多个基准测试中取得最高分。
    • 长上下文理解:在长文本处理方面表现出色,有效理解和处理长达32K tokens的上下文。
    • 双语能力:优秀的韩语和英语双语能力,特别是在韩国和英语的基准测试中表现突出。
    • 检索增强生成技术:用检索增强生成技术,基于参考文档或网络搜索结果生成答案。
    • 多步推理能力:具备多步推理能力,有效降低“幻觉”现象,提高答案的准确性。

    EXAONE 3.5的技术原理

    • Transformer架构:基于最新的仅解码器(decoder-only)Transformer架构,一种深度学习模型,用在处理序列数据。
    • 长上下文处理:采用长上下文微调技术,将最大上下文长度从EXAONE 3.0的4,096 tokens扩展到32,768 tokens。
    • 预训练和后训练
      • 预训练:第一阶段用大型训练语料库进行预训练,第二阶段针对需要加强的领域进行数据收集和预训练,特别是增强长上下文理解能力。
      • 后训练:包括监督式微调(SFT)和偏好优化,加强模型的指令遵循能力和与人类偏好的一致性。
    • 数据合规性:在数据收集、模型训练和信息提供过程中进行AI合规性审查,最小化法律风险。
    • 检索增强生成(RAG)技术:结合检索和生成,让模型能处理更长的上下文,在复杂场景中应用。

    EXAONE 3.5的项目地址

    EXAONE 3.5的应用场景

    • 聊天机器人和客户服务:作为聊天机器人的核心,处理客户的查询和请求,提供24*7的即时服务。
    • 语言翻译和跨语言理解:基于双语能力,辅助翻译工作,帮助不同语言背景的用户进行有效沟通。
    • 内容创作和编辑:模型能生成创意文案,帮助编辑和作家扩展想法,提高内容创作的效率和质量。
    • 教育和研究:在教育领域,作为辅助工具,帮助学生学习语言和解答学术问题。
    • 信息检索和知识管理:在企业中,帮助员工快速找到所需信息,提高工作效率和决策质量。
  • DeepSeek-V2.5-1210 – DeepSeek V2.5 的最终版微调模型,支持联网搜索

    DeepSeek-V2.5-1210是什么

    DeepSeek-V2.5-1210是 DeepSeek 推出的 DeepSeek V2 系列收官AI模型,DeepSeek V2.5 的最终版微调模型。模型基于Post-Training迭代,在数学、编程、写作和角色扮演等方面实现能力提升(DeepSeek-V2.5-1210 在数学任务的完成率提升至82.8%,在实时编码得分提高至34.38%)。DeepSeek-V2.5-1210支持联网搜索功能(目前 API 不支持搜索功能),能在网页端提供全面、准确、个性化的答案,自动提取关键词并行搜索,快速给出多样化结果。模型权重已开源在Huggingface,供开发者和研究者使用。

    DeepSeek-V2.5-1210

    DeepSeek-V2.5-1210的主要功能

    • 能力提升:基于Post-Training迭代,模型在数学问题解决、编程、写作和角色扮演等各个领域的表现得到全面提升。
    • 联网搜索:支持联网搜索功能,在网页端为用户提供全面、准确、个性化的答案。。
    • 文件上传优化:对文件上传功能进行优化,提高用户体验。
    • 自动关键词提取:在联网搜索模式下,模型能自动提取用户问题的多个关键词,提供更准确的搜索结果。
    • 快速结果提供:在短时间内提供更加多样和全面的结果,提高了问题解决的效率。

    DeepSeek-V2.5-1210的技术原理

    • 预训练和微调(Pre-training and Fine-tuning):模型首先在大规模数据集上进行预训练,学习语言的基本结构和模式。基于微调(Fine-tuning),模型在特定任务或领域上进一步训练,提高在任务上的表现。
    • Post-Training迭代:在预训练之后,DeepSeek-V2.5-1210基于Post-Training迭代进一步优化,提升模型在特定领域的性能。
    • 自注意力机制(Self-attention Mechanism):自注意力机制让模型在处理一个单词或短语时考虑到整个输入序列,有助于捕捉更远距离的依赖关系。

    DeepSeek-V2.5-1210的项目地址

    DeepSeek-V2.5-1210的应用场景

    • 客户服务与支持:作为聊天机器人,提供24*7的在线客户支持,解答用户问题,处理常见查询。
    • 教育与学习:辅助教学,提供个性化的学习建议和答疑,帮助学生理解复杂概念。
    • 编程与开发:辅助软件开发,提供代码生成、调试支持和最佳实践建议。
    • 内容创作与写作:协助撰写文章、报告和创意写作,提供语言校对和风格改进。
    • 数据分析与研究:帮助研究人员分析大量数据,提取关键信息,支持决策制定。
  • Director – 构建视频智能体AI框架,用自然语言执行搜索、总结等复杂视频任务

    Director是什么

    Director是构建视频智能体的框架,用户能用自然语言命令执行复杂的视频任务,如视频搜索、编辑、合成和生成,能即时流式传输结果。基于VideoDB的“视频即数据”基础设施,Director集成多个预构建的视频代理和AI API,提供基于聊天的用户界面,与视频内容的交互变得直观便捷。Director支持高度定制化,让开发者和创作者轻松添加新的代理和工具,无论是本地还是云端部署,都能适应不同的工作流程需求。

    Director

    Director的主要功能

    • 视频总结:在几秒内对视频内容进行总结。
    • 视频搜索:能搜索视频中的特定时刻或内容。
    • 即时剪辑创建:快速创建视频剪辑。
    • 集成AI项目和API:集成顶级生成式AI项目和API,快速创建和编辑内容。
    • 覆盖图和缩略图生成:添加视频覆盖图和生成缩略图。
    • 预构建视频代理:提供20多个可定制的视频代理,用在视频总结、剧本转电影、媒体库搜索和索引等。

    Director的技术原理

    • 后端推理引擎:Director的核心是强大的后端推理引擎,负责处理工作流程和决策,相当于代理的“大脑”。
    • 基于聊天的用户界面:提供聊天的用户界面,用户用自然语言与媒体库进行对话式交互。
    • 视频播放器:集成高级播放和交互工具,增强视频内容的操作体验。
    • 代理架构:Director用代理架构,每个代理负责特定的视频处理任务,能独立处理命令、与数据交互,提供输出。

    Director的项目地址

    Director的应用场景

    • 视频内容管理:企业或媒体公司管理大量的视频资料,快速检索和编辑视频内容。
    • 视频编辑和后期制作:视频编辑者剪辑和合成视频,提高后期制作的效率。
    • 视频内容创作:内容创作者从剧本生成视频,或快速制作视频总结,加速内容创作过程。
    • 视频搜索和发现:在线视频平台集成Director,提供更智能的视频搜索功能,帮助用户快速找到感兴趣的视频片段。
    • 教育和培训:教育机构创建教育视频的剪辑,或自动生成教学视频的总结和摘要。
  • ClotheDreamer – 上海大学联合腾讯等高校推出的3D服装生成技术

    ClotheDreamer是什么

    ClotheDreamer是上海大学、上海交通大学、复旦大学和腾讯优图实验室共同推出的3D服装生成技术,能根据文本描述生成高保真、可穿戴的3D服装资产。ClotheDreamer用3D高斯为基础,基于Disentangled Clothe Gaussian Splatting (DCGS) 实现服装与人体分离优化,用双向Score Distillation Sampling (SDS) 提升服装渲染质量。ClotheDreamer支持自定义服装模板,让生成的服装能适配不同体型,适用于虚拟试穿和物理精确动画。

    ClotheDreamer

    ClotheDreamer的主要功能

    • 文本驱动的3D服装生成:根据文本描述自动生成相应的3D服装模型。
    • 高保真渲染:生成的3D服装具有高度的细节和真实感。
    • 可穿戴性:生成的服装模型是可穿戴的,能用在虚拟试穿。
    • 物理精确动画:支持生成的服装进行物理精确的动画效果。
    • 自定义模板输入:支持用户上传自定义的服装模板,生成个性化的3D服装。
    • 适应不同体型:生成的服装能适配不同体型的虚拟人物。

    ClotheDreamer的技术原理

    • Disentangled Clothe Gaussian Splatting (DCGS):新颖的表示方法,将服装和人体分别表示为高斯模型,支持独立的优化和渲染。
    • 双向Score Distillation Sampling (SDS):用预训练的2D扩散模型优化3D服装和人体渲染,分别对服装和人体RGBD渲染进行指导,提高生成质量。
    • 文本描述解析:用语言模型(如ChatGPT)解析文本描述,确定服装的类型和特征,为服装模型的初始化提供依据。
    • 零样本学习:在没有看到特定类型的服装的情况下,生成相应的3D服装模型。
    • 新的修剪策略:针对宽松服装提出的修剪策略,避免在优化过程中错误地移除有用的高斯点,保持服装的完整性。
    • 模板引导的服装生成:用自定义的服装模板网格引导3D服装的生成,提高生成过程的个性化和实用性。

    ClotheDreamer的项目地址

    ClotheDreamer的应用场景

    • 时尚设计:设计师快速生成和迭代3D服装模型,加速设计过程,在虚拟环境中预览设计效果。
    • 虚拟试穿:在电子商务中,顾客在虚拟环境中试穿服装,提高购物体验,减少退货率。
    • 游戏和娱乐:游戏开发者为游戏角色设计多样化的服装,提供更加丰富和个性化的角色定制选项。
    • 电影和动画制作:在电影和动画产业中,快速生成和动画化3D服装,提高制作效率,降低成本。
    • 虚拟现实(VR)和增强现实(AR):在VR和AR应用中,为用户提供沉浸式的服装试穿和设计体验。