Blog

  • 混元3D Studio – 腾讯推出的一站式3D创作平台

    混元3D Studio是什么

    混元3D Studio(Hunyuan3D Studio)是腾讯推出的一站式3D创作平台,基于AI技术加速3D内容创作全流程。平台支持从概念设计到动画制作的各个环节,包括高效的概念设计、几何生成、低模拓扑、UV展开、纹理和材质编辑及自动绑骨蒙皮等功能。平台适用于游戏开发、动画制作和工业设计等场景,能显著缩短创作周期,提升创作效率。混元3D Studio通过腾讯混元3D创作引擎提供体验入口,现已面向用户开放申请。

    混元3D Studio

    混元3D Studio的主要功能

    • 高效概念设计与几何生成:支持文生图和图生多视图,内置多种风格,快速生成高质量的3D概念设计,原生3D分割与生成算法自动拆分模型部件,方便二次创作。
    • 低模拓扑功能升级:支持多档面数控制,自动优化低模拓扑,提升模型的精细度和效率。
    • AI驱动的UV展开:快速生成符合美术标准的UV图,减少手动操作时间,提升创作效率。
    • 纹理和材质编辑:支持文本或图片输入,生成高质量的PBR质感纹理和材质,满足不同创作需求。
    • 自动绑骨蒙皮:支持人形及非人形角色的动画制作,简化动画流程,提升动画制作效率。

    如何使用混元3D Studio

    • 访问平台:访问混元3D Studio官网,找到混元3D Studio入口,点击进入填写表格申请试用。
    • 选择功能模块:获取试用权限后,根据需求选择概念设计、几何生成、低模拓扑、UV展开、纹理和材质编辑或自动绑骨蒙皮等功能。
    • 调整与优化:使用平台工具对生成的模型、纹理和动画进行调整和优化,确保符合创作需求。
    • 导出与应用:将生成的3D内容导出为所需格式,如FBX、OBJ等,用于游戏开发、动画制作或其他3D项目。

    混元3D Studio项目地址

    • 项目官网:https://3d.hunyuan.tencent.com/studio
    • arXiv技术论文:https://arxiv.org/pdf/2509.12815

    混元3D Studio的应用场景

    • 游戏开发:快速生成高质量的3D角色、道具和场景模型,缩短开发周期,提升游戏视觉效果。
    • 动画制作:加速动画角色和场景的建模、纹理制作和动画绑定,提高制作效率。
    • 工业设计:在工业设计中快速迭代产品原型,优化设计流程,提升设计质量。
    • 影视特效:用在影视特效中的3D建模和动画制作,提升视觉效果,降低制作成本。
    • 教育与培训:作为教学工具,帮助学生和新手快速掌握3D建模和动画制作技能。
  • Wan2.2-Animate – 阿里通义开源的动作生成模型

    Wan2.2-Animate是什么

    Wan2.2-Animate是阿里通义团队推出的动作生成模型,模型同时支持动作模仿和角色扮演两种模式,能基于表演者的视频,精确复制面部表情和动作,生成高度逼真的角色动画视频。模型能将动画角色无缝替换进原视频,完美匹配场景的光照和色调。模型基于Wan模型构建,通过空间对齐的骨骼信号控制肢体动作,用从源图像中提取的隐式面部特征重现表情,实现高度可控和富有表现力的角色视频生成。现在可通义万相官网直接在线体验Wan2.2-Animate模型。

    Wan-Animate

    Wan2.2-Animate的主要功能

    • 动作模仿 :输入一张角色图片和一段参考视频,模型将参考视频中角色的动作和表情迁移到输入的图片角色中,使静态图片角色具有动态表现力。
    • 角色替换 :在保留原始视频的动作、表情及环境的基础上,将视频中的角色替换为输入的图片中的角色,实现无缝融合。

    Wan2.2-Animate的技术原理

    • 输入范式:修改Wan模型的输入范式,将参考图像输入、时间帧引导和环境信息统一到一个共同的符号表示中,适应角色动画任务的需求。
    • 肢体动作控制:用空间对齐的骨骼信号复制身体动作。骨骼信号能精确地描述角色的肢体运动,通过将信号与角色图像相结合,实现角色肢体动作的精确控制。
    • 面部表情控制:用从源图像中提取的隐式面部特征作为驱动信号重现表情。隐式特征能捕捉到角色面部的细微表情变化,实现高度逼真的表情再现。
    • 环境融合:为增强角色替换时与新环境的融合,开发了一个辅助的Relighting LoRA模块。模块能在保持角色外观一致性的同时,将角色与新环境的光照和色调相匹配,实现无缝的环境融合。

    如何使用Wan2.2-Animate

    • 访问通义万相官网:访问通义万相官网,登录平台。
    • 上传图片和视频:上传一张角色图片和一段参考视频。
    • 选择模式:选择动作模仿或角色替换模式。
    • 生成动画:点击生成按钮,模型自动处理输出结果。

    Wan2.2-Animate的项目地址

    • 项目官网:https://humanaigc.github.io/wan-animate/
    • HuggingFace模型库:https://huggingface.co/Wan-AI/Wan2.2-Animate-14B
    • arXiv技术论文:https://arxiv.org/pdf/2509.14055

    Wan2.2-Animate的应用场景

    • 视频编辑:在视频编辑中,将视频中的人物角色替换为动画角色,且能完美地融入原视频的环境,实现无缝的视觉效果。
    • 游戏开发:在游戏开发中,根据玩家的动作捕捉数据实时生成角色动画,使游戏角色的动作更加自然流畅,增强游戏的沉浸感和交互性。
    • 虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,创建逼真的虚拟角色,实现与用户的自然交互,为用户提供更加真实和沉浸式的体验。
    • 教育与培训:在教育领域建动画角色作为教学助手,通过角色的表情和动作吸引学生的注意力,提高教学的趣味性和互动性。
  • Lucy Edit Dev – Decart AI开源基于文本指令的视频编辑模型

    Lucy Edit Dev是什么

    Lucy Edit Dev 是 Decart AI 团队开源的基于文本指令的视频编辑模型。能根据简单的文本提示对视频进行多种编辑操作,如更改服装、替换角色、插入对象和转换场景等,同时完美保留视频的运动和构图。模型基于 Wan2.2 5B 架构,继承了高压缩 VAE + DiT 堆栈,方便用户将现有的脚本和工作流进行适配。

    Lucy Edit Dev

    Lucy Edit Dev的主要功能

    • 基于文本指令的视频编辑:用户可以通过纯文本指令来指导视频编辑,无需进行微调或使用遮罩等操作,简单易用。
    • 多种编辑类型支持:支持服装和配饰更改、角色替换、对象插入、场景替换等多种视频编辑操作,满足不同用户需求。
    • 运动和构图保留:在编辑过程中,能够精确地保留视频中人物的动作和构图,保持视频的自然流畅性。
    • 高精度编辑:能精确地保留视频中人物的身份和动作,确保编辑后的视频与原始视频在运动和构图上的一致性。
    • 开源架构:基于 Wan2.2 5B 架构,继承了高压缩 VAE + DiT 堆栈,方便用户将现有的脚本和工作流进行适配。

    Lucy Edit Dev的技术原理

    • 基于文本的指令驱动:Lucy Edit Dev 使用文本指令来指导视频编辑,通过自然语言处理技术解析用户输入的文本,理解编辑意图。
    • 深度学习架构:模型基于深度学习架构,特别是 Wan2.2 5B 架构,利用高压缩 VAE(变分自编码器)和 DiT(扩散模型)堆栈来实现高效的视频编辑。
    • 视频帧处理:将视频分解为单个帧,对每一帧进行独立的编辑处理,同时保持帧与帧之间的连贯性和一致性。
    • 运动和构图保留:通过先进的运动估计和构图分析技术,确保在编辑过程中人物的动作和视频的整体构图得以保留。
    • 文本到视频的映射:将文本指令映射到视频内容,通过生成模型将文本描述的编辑意图转化为具体的视频编辑操作。
    • 非微调编辑:无需对模型进行微调或使用遮罩等复杂操作,用户可以直接通过文本指令进行编辑,简化了操作流程。

    Lucy Edit Dev的项目地址

    • 在线体验地址:https://platform.decart.ai/
    • Github仓库:https://github.com/DecartAI/lucy-edit-comfyui
    • HuggingFace模型库:https://huggingface.co/decart-ai/Lucy-Edit-Dev

    Lucy Edit Dev的应用场景

    • 视频内容创作:创作者可以快速修改视频中的元素,如更换服装、添加特效等,提升创作效率。
    • 广告制作:广告团队能根据不同的市场策略,快速调整广告视频中的产品展示、场景等,以适应不同受众。
    • 影视后期:影视制作人员可以用工具进行角色替换、场景转换等操作,减少后期制作成本和时间。
    • 动画制作:动画师可以通过文本指令快速修改动画角色的外观或场景,加速动画制作流程。
    • 教育视频制作:教育工作者可以轻松修改教学视频中的元素,更符合教学需求,提高教学资源的灵活性。
    • 社交媒体内容优化:用户可以根据社交媒体平台的特点和受众喜好,快速调整视频内容,提升互动率。
  • Xiaomi-MiMo-Audio – 小米开源的端到端语音大模型

    Xiaomi-MiMo-Audio是什么

    Xiaomi-MiMo-Audio是小米开源的首个原生端到端语音大模型。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,打破了语音领域依赖大规模标注数据的瓶颈。Xiaomi-MiMo-Audio 在多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能。在音频理解基准 MMAU 的标准测试集上超过了 Google 的 Gemini-2.5-Flash,在音频复杂推理基准 Big Bench Audio S2T 任务中超越了 OpenAI 的 GPT-4o-Audio-Preview。

    小米开源了预训练模型 MiMo-Audio-7B-Base 和指令微调模型 MiMo-Audio-7B-Instruct,以及1.2B参数量的 Tokenizer 模型,支持音频重建和音频转文本任务。

    Xiaomi-MiMo-Audio

    Xiaomi-MiMo-Audio的主要功能

    • 少样本泛化能力:首次在语音领域实现基于 In-Context Learning(ICL)的少样本泛化,可快速适应新任务,见证语音领域的“GPT-3时刻”。
    • 跨模态对齐能力:后训练激发了智商、情商、表现力与安全性等跨模态对齐能力,语音对话在自然度、情感表达和交互适配上呈现极高的拟人化水准。
    • 语音理解和生成:在通用语音理解及对话等多项标准评测基准中大幅超越同参数量的开源模型,取得7B最佳性能,还超过了一些闭源语音模型。
    • 音频复杂推理:在面向音频复杂推理的基准 Big Bench Audio S2T 任务中表现出色,展现了强大的音频复杂推理能力。
    • 语音续写能力:预训练模型 MiMo-Audio-7B-Base 是目前开源领域第一个有语音续写能力的语音模型。
    • 支持混合思考:是首个把 Thinking 同时引入语音理解和语音生成过程中的开源模型,支持混合思考。
    • 音频转文本任务:Tokenizer 模型支持音频转文本(A2T)任务,覆盖超过千万小时语音数据。

    Xiaomi-MiMo-Audio的技术原理

    • 创新预训练架构:采用创新的预训练架构,基于上亿小时的训练数据进行训练,使模型能更好地处理语音数据。
    • 少样本泛化能力:首次在语音领域实现了基于 In-Context Learning(ICL)的少样本泛化能力,通过少量样本即可快速适应新任务。
    • 跨模态对齐能力:后训练进一步激发了模型的智商、情商、表现力与安全性等跨模态对齐能力,使语音对话在自然度、情感表达和交互适配上达到极高的拟人化水准。
    • 无损压缩预训练:通过语音无损压缩预训练,实现了跨任务的泛化性,证明了语音领域的“涌现”行为。
    • Tokenizer 模型:采用1.2B参数量的 Transformer 架构 Tokenizer 模型,从头开始训练,覆盖超过千万小时语音数据,支持音频重建任务和音频转文本(A2T)任务。
    • 轻量后训练:通过轻量级的后训练(SFT),进一步优化模型性能,使其在语音理解和生成方面表现出色。
    • 混合思考机制:将 Thinking 机制同时引入语音理解和语音生成过程中,支持混合思考,提升了模型的复杂推理能力。

    Xiaomi-MiMo-Audio的项目地址

    • 项目官网:https://xiaomimimo.github.io/MiMo-Audio-Demo/
    • Github仓库:https://github.com/XiaomiMiMo/MiMo-Audio
    • HuggingFace模型库
      • MiMo-Audio-7B-Base:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Base
      • MiMo-Audio-7B-Instruct:https://huggingface.co/XiaomiMiMo/MiMo-Audio-7B-Instruct
      • Tokenizer:https://huggingface.co/XiaomiMiMo/MiMo-Audio-Tokenizer
    • 技术论文:https://github.com/XiaomiMiMo/MiMo-Audio/blob/main/MiMo-Audio-Technical-Report.pdf

    Xiaomi-MiMo-Audio的应用场景

    • 语音交互:可用于智能语音助手,提供更自然、更智能的语音交互体验,支持多种语言和方言的对话。
    • 语音生成:能生成高质量的语音内容,适用于有声读物、语音播报、语音导航等场景。
    • 语音转文本:支持语音转文本(A2T)任务,可应用于会议记录、语音输入、语音搜索等场景。
    • 音频内容创作:帮助内容创作者生成音频脚本或语音内容,提升创作效率。
    • 情感表达:在语音对话中展现丰富的情感表达,适用于情感陪伴机器人、客服系统等需要情感交互的场景。
    • 语音识别与理解:在音频理解基准测试中表现出色,可用于语音识别、语音指令控制等场景。
  • 谷歌推出“Learn Your Way”,用AI重新定义教科书

    AI 为每个人定制教育的时代,来了。

    昨天,谷歌推出最新教育工具 Learn Your Way ,用 AI 将教科书变为多模态内容并在学习的每个环节加入互动和测验,让每个人都能拥有更适合自己的学习进程。

    受制作成本限制,普通教科书很难提供多样化、定制化的内容,无论你有没有基础,都是按同样的节奏往下读。

    而 Learn Your Way 是用 AI 的能力,结合学生的兴趣和学习进度,真正做到了因材施教。

    效果也很明显,在谷歌的有效性研究中,使用 Learn Your Way 学习的学生,在长期记忆测试中的得分,比使用standard digital reader(普通电子书/PDF教材)的学生高11%。

     

    01. 用生成式 AI 重塑教科书

     

    Q1:什么是 Learn Your Way?

    一句话说,Learn Your Way 是谷歌用生成式 AI 打造的个性化学习工具,把统一的教科书内容,变成贴合每个人情况的个性化学习资料。即:

    让“千人读一书”变成“一人有一书”,还能暴露知识缺口。

    (为不同的学生个性化描述牛顿定律)

    Learn Your Way 会把教科书内容拆解并重构成以下几种形式:

    • 沉浸式文本:把内容分成易懂的小块,配上生成的图片和嵌入式问题。把被动的文字阅读,变成符合学习科学的主动多模态体验。
    • 分段测验:支持互动式自测,推动主动学习,还能暴露知识缺口。
    • PPT 和旁白:提供类似课堂讲解的 PPT,覆盖全部原始材料,包含填空题等互动,还带旁白。
    • 音频课程:AI 师生模拟对话,配合视觉辅助,还原真实学习互动。比如学生表达误解,老师会及时澄清。
    • 思维导图:以层级结构整理知识,学生可缩放切换整体概览与细节。

    (多模态表现形式)

    这样一来,不同的学生可以自由选择自己喜欢的方式学习。

    这些内容还会根据学生的年级和兴趣进行个性化调整,通过测验提供实时反馈,引导学生重温薄弱部分。

    Q2:Learn Your Way 是如何运行的?

    谷歌的 Learn Your Way 项目利用生成式 AI 技术,基于 LearnLM 模型,从两个方面为学习体验加分:

    • 内容的多模态呈现形式;
    • 个性化的基础落地。

    传统的教材学习形式单一,Learn Your Way 用 Gemini 2.5 Pro 模型生成内容,结合专门的微调模型生成插图,以及多步骤 AI 工作流,学习过程中“看”、“听”、“互动”一起发生,会增强理解和记忆。

    从PDF教科书开始,Learn Your Way 先调整内容到适合学生的年级,再用兴趣相关的例子替换通用内容:

    比如,一个喜欢音乐的学生学振动,AI 可以换成“吉他琴弦如何发出声音”;喜欢汽车的学生,看到的可能是“引擎工作时产生的抖动”。

    Q3:Learn Your Way 真的有效吗?

    Learn You Way 保留了原始知识结构,只在例子和表现形式上做了个性化的调整,教材的准确性得以保证。

    为了评估 Learn You Way 的教学表现,谷歌 Learn Your Way 团队将十种不同来源的教科书材料转换为三种不同的个性化设置。内容涵盖了从历史到物理等各个学科。

    (指导谷歌开发新学习能力和体验评估的顶级教学原则)

    三位教学学科专家根据教学标准(如准确性、覆盖范围以及 LearnLM 学习科学原则)对转换后的材料进行了评估。

    (专家评分)

    结果显示,基于各项教学标准,内容经过专家评估,平均评分在0.85以上(满分1.0)。

    谷歌还做了一场随机对照实验,让阅读水平相似的60名学生随机分成两组。一组用 Learn Your Way 学习,另一组用普通数字教材,学习时长为40分钟内。

    在学习结束后和3到5天之后分别进行了测试,结果显示:

    (即时评估中的平均得分)

    用 Learn Your Way 的学生学习效果更好,在学习结束后的即时测验中的正确率高 9%;

    用 Learn Your Way 的学生有更好的长期记忆效果,3-5天后的记忆评估中,Learn Your Way 的正确率高 11%;

    不仅分数更好,Learn Your Way 组的学生们普遍反馈这个 AI 工具让学习更有趣、更易懂,并且愿意继续使用

    Q4:如何使用 Learn Your Way?

    目前,Learn Your Way 已经在 Google Labs 上线。

    友友们可以在这里查看官方示例和申请内测体验。

    地址:https://learnyourway.withgoogle.com/

     

    02. 学习场景实例

    用 Learn Your Way 量身定制教材

     

    比如我们将角色分别设置为初中生和本科生,同时学习一份解剖学导论及其研究领域的内容。

    Learn Your Way 会将学习内容调整到我们选择的年级水平,结合个人兴趣,以多种形式呈现,包含文本、思维导图、音频课程、互动测验等,从而提供实时反馈和内容个性化。

    对美食感兴趣的7年级初中生和对游戏感兴趣的本科生,Learn Your Way 给出的定制化教学内容分别是这样的:

    初中生教学案例地址:

    https://learnyourway.withgoogle.com/scopes/rJ13oFrj

    本科生教学案例地址:

    https://learnyourway.withgoogle.com/scopes/L1yh30cO

    可以看出来,虽然内容是大致相同的,但是本科生的学习内容会更丰富更深度一些。

    (初中生看到的案例)

    (本科生看到的案例)

    解读的案例也会结合各自的兴趣点,比如,Learn Your Way 推荐对美食感兴趣的初中生通过观察使用刀具、打蛋器等厨房用具,了解手的基本结构。

    给本科生解释解剖学和生理学的关系,Learn Your Way 会例举游戏玩家的手部骨骼排列以及打游戏的场景。

     

    03. 一些分享

     

    我觉得 Learn Your Way 是一个很棒的项目,也很期待在学习新事物的过程中,有这样一位领路“AI”,用各种形式帮助我理解、学习,还会时不时考考我,检查我的学习质量。

    Learn Your Way 价值在于帮助不同的人找到各自的节奏,毕竟好的教育,从来不是让所有人走同一条路,而是帮每个人找到最顺的那条路

    对于谷歌而言,Learn Your Way 只是起点,未来它想做的不仅是互动,而是持续根据每个人的进步去调整内容,真正做到动态学习。背后依然会以教学原则为基础,去验证 AI 到底能多大程度提高学习效率。

    对教育行业来说,这可能是几十年来最彻底的一次变革。

    不仅学生的学习方式会因此改变,老师的角色也会随之改变,不再只是单纯的讲解知识,而是帮助学生选择合适的学习路径、监督学生的学习质量;

    当然路还长,成本、文化差异、教材标准都是现实问题。但至少有一点可以确定——学习方式正在被重写。厚重的教科书或许还会存在很久,但它们已经不再是唯一的答案。

    原文链接:谷歌推出“Learn Your Way”,用AI重新定义教科书

  • FastMTP – 腾讯开源的大语言模型推理加速技术

    FastMTP是什么

    FastMTP 是腾讯自研的大语言模型(LLM)推理加速技术,通过优化多标记预测(MTP)技术,用共享权重的单 MTP 头替代传统多独立模块,结合语言感知词汇压缩和自蒸馏训练,显著提升 LLM 的推理速度,平均提速可达 2.03 倍,且输出质量无损。FastMTP 不改变主模型结构,易于集成到现有框架中,适用数学推理、代码生成等结构化任务,为 LLM 的高效部署提供实用方案。

    FastMTP

    FastMTP的主要功能

    • 显著加速LLM推理:通过优化多标记预测(MTP)技术,FastMTP能在不损失输出质量的前提下,将大语言模型(LLM)的推理速度平均提升2.03倍,大幅缩短模型生成内容的时间,提高应用响应速度。
    • 保持输出质量无损:在加速推理的同时,FastMTP确保模型输出结果的质量与传统自回归生成方式完全一致,不会因加速降低生成内容的准确性或逻辑性。
    • 易于集成与部署:FastMTP无需改变主模型结构,只需微调一个小模块,能与现有的LLM推理框架(如SGLang)无缝集成,大大降低部署成本和难度,便于快速应用到实际场景中。
    • 降低硬件资源消耗:基于共享权重的单MTP头替代多独立模块,显著减少内存占用,同时通过语言感知词汇压缩,进一步降低计算量,使LLM能在消费级GPU上更高效地运行,降低对硬件资源的要求。

    FastMTP的技术原理

    • 投机解码(Speculative Decoding):借鉴“草稿+验证”的策略,由一个快速的草稿模型生成多个候选标记,用主模型进行批量验证,实现并行处理,提高推理效率。
    • 共享权重的单MTP头:摒弃传统MTP的多独立模块设计,改用共享权重的MTP头递归生成多个标记,减少内存占用,迫使模型学习更长距离的依赖关系,提高草稿质量。
    • 自蒸馏训练:使用主模型生成的数据对MTP头进行训练,通过指数衰减的加权交叉熵损失函数,让MTP头优先学习生成与主模型风格和逻辑一致的草稿,提高草稿的接受率。
    • 语言感知词汇压缩:在草稿生成阶段,根据输入语境判断语言,仅计算高频词汇的logits,减少计算量,验证阶段用全量词汇,确保输出质量不受影响。

    FastMTP的项目地址

    • GitHub仓库:https://github.com/Tencent-BAC/FastMTP
    • HuggingFace模型库:https://huggingface.co/TencentBAC/FastMTP
    • 技术论文:https://github.com/Tencent-BAC/FastMTP/blob/main/FastMTP_technical_report.pdf

    FastMTP的应用场景

    • 数学推理:在数学解题场景中,快速生成解题步骤,显著缩短从问题输入到答案输出的时间,提升数学辅助工具的响应速度。
    • 代码生成:对于编程辅助应用,FastMTP 能迅速生成代码片段,帮助开发者更快地完成代码编写,提高开发效率。
    • 长文本摘要:在处理新闻、文章等长文本摘要任务时,快速提炼关键信息,生成高质量的摘要内容,节省用户阅读时间。
    • 多轮对话:在智能客服或聊天机器人中,加快对话生成速度,实现秒级响应,提升用户体验和交互流畅性。
  • CapCut AI Suite – 字节推出的一站式AI创意编辑工具

    CapCut AI Suite是什么

    CapCut AI Suite 是字节推出的 AI 驱动的创意编辑工具,能将任何主题快速转化为完整视频,提供 AI 图像视频音乐生成等功能,支持自动剪辑、转录、翻译等操作,能一键抠像、自动增强画面。工具操作简单,功能集成度高,适合独立创作者和营销团队,能大幅提升创作效率,降低专业剪辑门槛,实现创意到成品的快速转化,是创意工作者的得力助手。

    CapCut AI Suite

    CapCut AI Suite的主要功能

    • AI图像/视频生成:通过简单的文本描述,快速生成高质量的图像或视频片段,满足创作者对素材的多样化需求。
    • AI音乐生成:根据视频的风格和节奏,生成与之匹配的背景音乐,为视频增添氛围和情感表达。
    • 自动剪辑:支持对更长视频进行智能剪辑,自动识别并提取精彩片段,提高剪辑效率。
    • AI片段剪辑器:对视频片段进行深度分析,智能提取关键镜头,帮助创作者快速定位和剪辑出最具价值的内容。
    • 转录工具:自动转录视频中的对话内容,优化镜头,去除不必要的填充词,自动生成字幕,提升视频的可读性和专业性。
    • AI视频翻译器:将视频中的对话翻译成多种语言,支持字幕同步,方便创作者制作多语言版本的视频。
    • AI头像:创建逼真的虚拟头像,添加个性化的动作和表情,为视频增添独特的视觉效果。
    • AI移除:智能识别、移除视频中的多余元素,如背景、物体等,让视频画面更加干净整洁,提升视觉效果。
    • 自动风格:自动调整视频中人物的面部特征,添加化妆效果,提升人物颜值,使视频更具吸引力。
    • 自动增强:提亮视频颜色,锐化细节,提升视频的整体视觉效果,让视频更加生动和专业。
    • 一键抠像:快速抠出视频中的人物或物体,替换背景。
    • AI语音生成:根据用户输入的文本内容,生成自然流畅的语音旁白,为视频增添声音元素,丰富视频的表现力。
    • 智能字幕:自动添加字幕,支持多种语言和风格选择,让视频在不同语言环境下能清晰传达信息。
    • 一键上字幕:快速将文本内容转录为字幕,支持多种格式,提升视频的可读性和用户体验。

    CapCut AI Suite的官网地址

    • 官网地址:https://www.capcut.com/resource/ai-editing-the-capcut-way

    CapCut AI Suite的应用场景

    • 自媒体创作:自媒体创作者快速生成创意视频,提升内容质量和多样性,满足不同平台的发布需求。
    • 品牌营销:品牌方能制作多语言视频广告,快速生成吸引人的视频内容,提升品牌影响力和市场覆盖。
    • 教育内容制作:教育工作者快速生成教学视频,添加字幕和翻译,支持多语言教学,提升教学效果。
    • 个人生活记录:用户可以快速剪辑旅行或生活视频,添加特效和音乐,轻松记录和分享美好瞬间。
    • 影视后期制作:影视制作团队用智能剪辑和特效添加功能,提升影视后期制作的效率和质量。
  • Viking 长期记忆 – 火山引擎推出的长期记忆标准工具

    Viking 长期记忆是什么

    Viking长期记忆是火山引擎推出的端到端长期记忆标准产品,基于自研VikingDB向量数据库,具备百亿级数据毫秒级检索能力,能精准抽取事件与用户画像,支持语义与关键词混合检索及时序处理,整体性能优于行业平均水平。产品提供记忆模板+自定义双模式抽取策略,满足多样化业务需求,广泛应用在社交陪聊、客服、教育陪练等场景,为AI应用构建持久记忆体,提升交互体验。

    Viking长期记忆

    Viking 长期记忆的主要功能

    • 记忆抽取与检索:精准抽取事件和用户画像,支持语义与关键词混合检索,实现毫秒级响应,确保记忆的准确性和高效性。
    • 记忆生命周期管理:稳定记录与检索对话历史,具备时序处理能力,实现跨会话记忆延续和角色隔离,让记忆随时间沉淀高价值洞察。
    • 个性化交互支持:基于用户画像与行为历史,提供个性化交互支持,满足不同用户和场景下的记忆需求,提升用户体验。
    • 高性能与高并发支持:支持百亿级数据毫秒级检索,索引更新秒级完成,满足高并发、低延迟业务场景。
    • 灵活适配与自定义能力:提供“记忆模板 + 自定义”双模式记忆抽取策略,支持自定义画像能力,灵活适配不同业务需求。
    • 智能关联:自动发现信息关联,构建动态记忆网络,通过多模态融合和知识图谱技术,实现信息的智能关联。
    • 持续学习:根据使用习惯优化记忆结构,通过用户行为分析和自适应学习,让系统越用越懂用户。

    如何使用Viking 长期记忆

    • 开通记忆库:访问Viking长期记忆官网 https://console.volcengine.com/vikingdb/memory/region:vdb-memory+cn-beijing/first-use,登录火山引擎账号开通记忆库。
    • 创建记忆库:在记忆库控制台,或直接调用 collection/create 接口,创建一个记忆库。
    • 写入原始数据:调用 session/add 接口,向已创建的记忆库写入 session 数据。系统将根据记忆库的配置(事件类型、实体类型、抽取配置)对消息进行处理和存储,形成结构化的记忆事件。注意
      • 调用 add_session 接口时,若使用相同的 session_id,会覆盖该会话下已有的用户画像和事件。建议使用 UUID 动态生成 session_id,确保每次会话独立;只有在确实需要覆盖时才重复使用。
      • 只有在 messages 中同时传入 userassistant 的消息时,画像和事件才会正确归属用户。接口不会仅依赖 metadata 中的 ID 进行关联;如果只传 user 消息,事件不会关联到 metadata 中的 assistant
    • 查看记忆:在控制台查看刚刚写入的数据抽取出的记忆,包括用户列表、画像记忆和事件记忆。
    • 检索记忆:完成原始数据写入后,在控制台上先进行记忆检索的测试。为减少不必要的费用,记忆库默认在有数据写入时才开始创建索引,索引构建大约需要 3 – 5 分钟,建议在写入数据后,等待一段时间再进行检索。
    • 生产环境集成: 调用 memory/search 接口进行检索。
    • 检索事件user_idassistant_id 至少填写一个,也可以同时填写。建议每轮对话都进行检索。
    • 检索画像:只能填写 user_idassistant_id,且二者不能同时填写。检索只在会话开始时检索一次。

    Viking 长期记忆的应用场景

    • 客服场景:通过跨会话记忆,客服系统能记住用户之前的问题和解决方案,避免用户重复描述问题,提升客服效率和用户体验。
    • 教育场景:记录学生的学习进度、知识点掌握情况和学习习惯,实现“因材施教”,提供个性化的学习建议和辅导内容。
    • 智能硬件场景:智能硬件设备根据用户的使用习惯和偏好,提供个性化的功能和服务,不断学习用户的行为模式,优化自身功能。
    • 社交陪聊场景:陪聊应用能记住之前的对话内容,保持对话的连贯性和一致性,通过分析用户的情感和兴趣点,提供更贴心的陪伴和建议。
  • Capalyze – AI数据分析工具,对话式数据编辑

    Capalyze是什么

    Capalyze 是强大的 AI 驱动数据分析工具,通过自然语言交互,帮助用户快速从多个平台(如亚马逊、Airbnb、YouTube 等)收集和分析数据。无需用户掌握复杂的技术知识,可实现数据采集、情感分析、交互式报告生成等功能。Capalyze 的情感分析功能能从评论和文本中提取情感信息,帮助用户洞察市场趋势和客户情绪。支持多源数据集成,包括 Excel 文件、CSV 上传、数据库连接等,满足不同用户的需求。

    Capalyze

    Capalyze的主要功能

    • 自然语言交互分析:用户可以用自然语言描述分析需求,Capalyze 能理解并执行,无需复杂查询语言。
    • 多平台数据抓取:自动从亚马逊、Airbnb、YouTube 等多个主流平台收集和分析数据。
    • 情感分析:从评论、文本等数据中提取情感信息,帮助用户了解客户情绪和市场趋势。
    • 交互式报告与仪表盘:生成可定制、可共享的报告,提供多种图表选项和协作功能。
    • 对话式电子表格编辑:在聊天对话中直接编辑和操作数据,实现无缝工作流程。
    • 多源数据集成:支持 Excel 文件、CSV 上传、数据库连接、云存储和 API 集成。
    • 智能模型选择:内置机器学习算法,根据用户目标自动选择最优分析模型。

    Capalyze的官网地址

    • 官网地址:https://capalyze.ai/

    Capalyze的应用场景

    • 电商运营:分析亚马逊畅销产品价格、销量和评论数据,发现产品表现背后的规律。
    • 房地产销售:评估 Airbnb 列表,了解预订驱动因素、定价策略和突出特点。
    • 自媒体运营:跟踪热门 YouTube 视频和互动信号,为内容创作提供智能趋势。
    • 本地生活商家:分析本地生活服务的用户反馈和市场趋势。
    • 业务运营:进行销售预测、用户行为分析和财务成本分解。
  • Ling-V2 – 蚂蚁百灵推出的大型语言模型系列

    Ling-V2是什么

    Ling-V2 是蚂蚁百灵团队推出的基于 MoE 架构的大型语言模型家族,首个版本 Ling-mini-2.0 拥有 160 亿总参数,每个输入标记仅激活 14 亿参数。模型在 20 万亿高质量数据标记上训练,经多阶段监督微调和强化学习增强,在复杂推理和指令遵循方面表现出色。Ling-mini-2.0 用 1/32 激活比率的 MoE 架构,实现 7 倍等效密集性能杠杆,生成速度快,训练和推理效率高,开源了 FP8 高效训练解决方案,提供多种预训练检查点,支持持续训练,是 MoE 研究的理想起点。

    Ling-V2

    Ling-V2的主要功能

    • 强大的推理能力:在编码、数学以及跨领域知识密集型推理任务中表现出色,与10亿以下的密集模型和更大规模的MoE模型相比,展现出卓越的推理能力。
    • 高效率:采用1/32激活比率的MoE架构,实现7倍等效密集性能杠杆,激活14亿参数能提供相当于7-8亿密集模型的性能,在简单问答场景中生成速度可达300+ token/s,处理128K上下文长度时相对速度提升可达7倍以上。
    • 高效的训练解决方案:整个训练过程中用FP8混合精度训练,开源了FP8训练解决方案,基于tile/blockwise FP8缩放,进一步引入FP8优化器等,实现极致的内存优化,在8/16/32个80G GPU上,与LLaMA 3.1 8BQwen3 8B相比,训练吞吐量显著提升。
    • 开放的开源策略:除发布经过训练的版本外,开源了五个预训练检查点,支持更深入的研究和更广泛的应用。

    Ling-V2的技术原理

    • MoE架构:基于混合专家(MoE)架构,通过将模型分解为多个专家网络,在每个输入标记上仅激活部分专家,实现模型的稀疏性,在保持高性能的同时提高计算效率。
    • 优化设计:在专家粒度、共享专家比率、注意力比率、无辅助损失+sigmoid路由策略、MTP损失、QK-Norm、半RoPE等方面进行经验优化设计,进一步提升模型的性能和效率。
    • FP8混合精度训练:在训练过程中用FP8混合精度,与BF16相比,在超过1万亿训练标记的实验中,损失曲线和下游基准性能几乎相同,同时开源FP8训练解决方案,支持社区在有限的计算资源下进行高效的持续预训练和微调。
    • 多阶段训练:模型在超过20万亿高质量数据标记上进行训练,通过多阶段的监督微调和强化学习进行增强,在复杂推理和指令遵循方面取得显著的改进。

    Ling-V2的项目地址

    • GitHub仓库:https://github.com/inclusionAI/Ling-V2
    • HuggingFace模型库:https://huggingface.co/collections/inclusionAI/ling-v2-68bf1dd2fc34c306c1fa6f86

    Ling-V2的应用场景

    • 自然语言处理(NLP)任务:高效处理各种自然语言处理任务,如文本分类、情感分析、机器翻译等,提供准确且高效的解决方案。
    • 智能客服:作为智能客服的核心引擎,快速响应用户问题,提供精准的解答,提升用户体验和客服效率。
    • 内容创作:辅助内容创作,生成高质量的文本内容,如新闻报道、创意写作、广告文案等,帮助创作者提高创作效率和质量。
    •  教育领域:用于教育领域,如智能辅导、自动批改作业、个性化学习计划等,为学生和教师提供个性化的教育支持。
    • 医疗健康:Ling-V2能处理医疗文本数据,辅助医生进行病例分析、医疗文献检索等,提高医疗决策的准确性和效率。