Blog

HunyuanWorld-Voyager – 腾讯推出的超长漫游世界模型
HunyuanWorld-Voyager是什么

HunyuanWorld-Voyager（简称混元Voyager）是腾讯推出的业界首个支持原生3D重建的超长漫游世界模型。是新颖的视频扩散框架，能从单张图片生成用户定义相机路径的3D点云序列，支持沿着自定义相机轨迹进行世界探索的3D一致场景视频生成，可生成对齐的深度和RGB视频，用于高效直接的3D重建。模型包含两个关键组件：世界一致视频扩散和长距离世界探索，通过高效的点剔除和自回归推理实现迭代场景扩展。提出了可扩展的数据引擎，用于生成RGB-D视频训练的可扩展数据。在WorldScore基准测试中，Voyager在多个指标上均取得了优异的成绩，展现了其强大的性能。

HunyuanWorld-Voyager的主要功能
- 从单张图片生成3D点云序列：能根据用户定义的相机路径，从单张图片生成3D一致的点云序列，支持长距离的世界探索。
- 生成3D一致的场景视频：可以沿着用户自定义的相机轨迹生成3D一致的场景视频，为用户提供沉浸式的3D场景漫游体验。
- 支持实时3D重建：生成的RGB和深度视频可直接用于高效的3D重建，无需额外的重建工具，实现从视频到3D模型的快速转换。
- 多种应用场景支持：适用于视频重建、图像到3D生成、视频深度估计等多种3D理解和生成任务，具有广泛的应用前景。
- 强大的性能表现：在斯坦福大学发布的WorldScore基准测试中，HunyuanWorld-Voyager在多个关键指标上均取得了优异的成绩，展现了其在3D场景生成和视频扩散方面的强大能力。
HunyuanWorld-Voyager的技术原理
- 世界一致视频扩散：模型采用统一的架构，联合生成对齐的RGB和深度视频序列，通过条件于现有的世界观察来确保全局一致性。
- 长距离世界探索：利用高效的点剔除技术和自回归推理，结合平滑的视频采样，实现迭代场景扩展，同时保持上下文感知的一致性。
- 可扩展的数据引擎：提出了一个视频重建管道，自动化地进行相机姿态估计和度量深度预测，能够为任意视频生成大规模、多样化的训练数据，无需手动3D注释。
- 自回归推理与世界缓存机制：通过高效的点剔除和自回归推理，结合世界缓存机制，实现迭代场景扩展，维持几何一致性，支持任意相机轨迹。
- 高效的3D重建：生成的RGB和深度视频可直接用于高效的3D重建，无需额外的重建工具，实现从视频到3D模型的快速转换。
HunyuanWorld-Voyager的项目地址
- 项目官网：https://3d-models.hunyuan.tencent.com/world/
- Github仓库：https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager
- Hugging Face模型库：https://huggingface.co/tencent/HunyuanWorld-Voyager
- 技术报告：https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf
HunyuanWorld-Voyager的应用场景
- 视频重建：通过生成对齐的RGB和深度视频，实现高效且直接的3D重建，无需额外的重建工具。
- 图像到3D生成：从单张图片生成3D一致的点云序列，支持从2D图像到3D场景的转换，可用于虚拟场景的快速构建。
- 视频深度估计：生成与RGB视频对齐的深度信息，可用于视频分析和3D理解任务。
- 虚拟现实（VR）和增强现实（AR）：生成的3D场景和视频可用于创建沉浸式的VR体验或增强现实应用。
- 游戏开发：生成的3D场景资产可无缝接入主流游戏引擎，为游戏开发提供丰富的创意和内容支持。
- 3D建模和动画：生成的3D点云和视频可作为3D建模和动画制作的输入，提高创作效率。
September 2, 2025
VisionY – AI分镜生成平台，自动识别场景、角色和对话
VisionY是什么

VisionY 是基于 AI 技术将剧本转化为专业分镜的平台。通过智能剧本分析，自动识别场景、角色、动作和对话，为分镜生成奠定基础。基于剧本描述，AI 智能生成与上下文相关的分镜图像，将创意具象化。平台会自动为每个分镜标注镜头类型、拍摄角度、运动和时长建议，符合专业标准。用户可以轻松调整 AI 生成的图像描述和镜头参数，以多种常见格式导出，无缝融入工作流程。

VisionY的主要功能
- 智能剧本分析：上传剧本后，AI 自动识别场景、角色、动作和对话，为分镜生成奠定基础。
- AI 分镜图像生成：基于剧本描述，AI 智能生成与上下文相关的分镜图像，将创意具象化。
- 专业镜头属性标注：自动为每个分镜标注镜头类型、拍摄角度、运动和时长建议，符合专业标准。
- 灵活调整与导出：可轻松调整 AI 生成的图像描述和镜头参数，并以多种常见格式导出，无缝融入工作流程。
- 沉浸式视觉体验：全新的视觉模式提供前所未有的分镜浏览和编辑体验，用户可以在所见即所得的界面中，清晰查看 AI 生成的分镜画面，实时调整图像描述、角色动作和情感，轻松修改专业参数，快速导航和管理分镜列表。
VisionY的官网地址
- 官网地址：https://www.visiony.ai/
VisionY的应用场景
- 影视制作：帮助编剧和导演将剧本快速转化为视觉化的分镜，提前规划拍摄场景和镜头，提高创作效率。
- 广告创意：为广告制作团队提供快速的视觉化方案，方便在前期策划阶段展示创意，优化广告内容。
- 动画制作：辅助动画师快速生成动画分镜，减少手绘工作量，加快动画制作流程。
- 游戏开发：助力游戏设计师将游戏剧情脚本转化为分镜，为游戏关卡设计和动画制作提供参考。
- 教育与培训：用于影视、动画等相关专业的教学，帮助学生更好地理解分镜概念和制作流程。
September 2, 2025
AgentScope 1.0 – 阿里通义开源的多Agent开发框架
AgentScope 1.0是什么

AgentScope 1.0 是阿里通义开源的多智能体开发框架，通过三层技术架构，AgentScope核心框架、AgentScope Runtime 和 AgentScope Studio，提供从开发到部署的全生命周期支持。AgentScope核心框架用模块化设计，包含消息、模型、记忆和工具四大组件，支持高效构建基于大语言模型的智能体应用。AgentScope Runtime 提供安全可靠的运行和部署环境，AgentScope Studio提供可视化的开发与监控工具。AgentScope 1.0 的关键特性包括实时介入控制、智能上下文管理和高效工具调用，能让智能体应用的开发更简单、运行更安全、监控更透明。

AgentScope 1.0的主要功能
- 实时介入控制：支持安全中断、实时打断和灵活定制中断处理逻辑，确保任务执行的可控性和灵活性。
- 智能上下文管理：通过短期记忆优化和跨会话长期记忆管理，有效解决智能体的“失忆”和“归零重启”问题。
- 高效工具调用：提供工具的注册、管理和执行功能，支持并行调用和动态控制，提升运行效率。
- 安全可靠的运行环境：基于容器技术构建安全工具沙箱，确保智能体在隔离环境中运行，同时提供灵活的部署和监控支持。
- 可视化开发与监控：基于状态管理和可视化追踪，提供实时监控和智能体评测功能，帮助开发者快速优化智能体性能。
AgentScope 1.0的技术原理
- 核心框架：由消息、模型、记忆和工具四大组件构成，实现高度解耦与灵活扩展。结合推理与行动，支持智能体在接收用户查询后，通过迭代的推理和行动循环生成响应。基于异步设计，实现灵活且鲁棒的实时介入控制，支持并行工具调用和动态工具配置。
- 运行时环境：基于容器技术，构建系统级的安全隔离工具执行环境，支持多种功能场景。提供完整的部署解决方案，支持多协议、灵活部署和框架无关性，确保应用稳定可靠。
- 开发与监控工具：AgentScope Studio提供实时监控与智能体评测功能，支持多粒度和多维度分析运行轨迹和评估结果。
AgentScope 1.0的项目地址
- 项目官网：https://doc.agentscope.io/index.html
- GitHub仓库：https://github.com/agentscope-ai/agentscope
- arXiv技术论文：https://arxiv.org/pdf/2508.16279
AgentScope 1.0的应用场景
- 用户助手对话：构建智能助手，帮助用户解答问题、执行任务，如查询信息、安排日程等。
- 多智能体协作：实现多个智能体之间的协作，完成复杂任务，如团队项目管理、多角色对话等。
- 深度研究与报告生成：自动收集和分析多源信息，生成详细的分析报告，适用学术研究、市场分析等。
- 浏览器自动化：通过智能体操作浏览器，完成网页浏览、信息提取、表单提交等任务。
- 复杂任务规划与执行：将复杂任务分解为多个子任务，动态调度多个智能体协同完成，如项目规划、数据分析等。
September 2, 2025
Teable – AI数据库工具，支持多视图展示
Teable是什么

Teable 是创新的 AI 数据库工具，将简单的提示转化为实时的数据库、应用程序和自动化流程。通过 AI 技术，帮助用户高效地管理和自动化业务流程，提升工作效率。Teable 提供多种预设模板，包括 Bug 跟踪器、销售 CRM、任务管理、人力资源管理、项目管理、自动化营销内容生成器和运营支持等，覆盖了从软件开发到市场营销等多个领域的常见需求。帮助用户快速上手，无需从零开始构建复杂的数据库和应用程序。

Teable的主要功能
- AI驱动的自动化：通过简单提示即可生成实时数据库、应用程序和自动化流程，无需复杂编程。
- 丰富的模板库：提供多种预设模板，如Bug跟踪器、销售CRM、任务管理、人力资源管理、项目管理、自动化营销内容生成器和运营支持等，覆盖多种业务场景。
- 多视图支持：支持多种数据可视化视图，满足不同用户的数据展示和分析需求。
- 强大的数据操作功能：提供撤销/重做、批量编辑、数据转换、复制/粘贴、历史记录、评论、搜索、数据验证、分组、排序、筛选、聚合、链接和查找以及公式等操作，方便用户灵活管理数据。
- 实时协作与权限管理：支持团队实时协作，具备精细的权限管理系统，确保数据安全。
- 私有部署与数据安全：支持私有部署，满足企业对数据隐私和安全的高要求。
Teable的官网地址
- 官网地址：https://teable.ai/
Teable的应用场景
- 项目管理：帮助团队实现项目进度、资源分配和任务分配的透明化与高效管理。
- 销售管理：销售团队可以用 Teable 追踪客户信息、分析销售业绩和潜在客户。
- 营销团队：用于客户数据管理、市场调研和活动效果分析。
- 人力资源管理：从员工入职到离职的全生命周期数据管理。
- 仓储管理：构建智能仓储管理系统，包括库存看板、全流程追溯系统、智能预警中心、供应商协作平台和移动巡检系统。
September 2, 2025
如何用AI生成小程序/APP/网站，码上飞一句话自动开发上线
有的时候时候想卖一点二手的东西，但是看遍各种平台，不是要手续费就是要各种入驻费，主流平台对虚拟商品也有限制。

我决定自力更生，教大家做一个卖货平台，可以省一笔平台手续费，卖个人的知识与服务也更方便。

虽然我是个小白，不会敲代码，也不懂前后端架构设计，不过我发现了一个特别适合我的开发工具——码上飞。

我只需要像聊天一样说出需求，码上飞就能自动生成完整的应用、小程序或H5页面，做出来的效果真的超乎我的想象。

01. 用手机开发小程序

打开码上飞平台（手机端和电脑端都能用），每天有免费开发次数。

我们在对话框中直接输入我想要的功能。比如：

做一个个人商店，用户可以通过商店，购买我上架的商品。包含实物：水果；虚拟货物：我提供的个人服务，比如30分钟咨询；一对一教学；资源资料。

码上飞会立马化身产品经理，给我整理出需求文档。设计风格、功能、交互逻辑都理得清清楚楚。

我觉得内容非常符合我的需求，而且特别全面，就可以确认让码上飞开始开发。

码上飞会提供一整个项目组，从产品经理、测试经理到架构师都有，他们会帮我从各个方面完善应用。

只需要几分钟，码上飞就完成了架构设计、开发、测试的一系列工作。

我们点击立即体验，看看实际效果。

首页做了热门推荐，商店内产品有水果和服务两个分类，可以加车或者下单。

我想要的功能基本都实现了，但是排版和商品的细节需要再完善一下。

我们可以通过对话让它优化功能和排版。

比如首页的热门推荐和为您推荐内容重合了，我们可以直接让他去掉热门推荐。

码上飞会先理解我的需求，然后整理成清晰的修改方案，让我确认。再次生成后，页面就从左边变成右边的样子。整体改变很符合我的要求。

02. 提供运营管理后台

码上飞不止会给我们生成前端，同时也会给我们生成运营后台。

在后台我们可以看到在线商品、订单等信息，编辑商品信息、修改库存之类的都很方便。

应用做完之后，我们点击右上角的发布，就可以一键发布为小程序、应用或者手机网页。

可以通过二维码分享，让更多人为你的应用提出建议，从而优化的更好。

运营后台和发布需要在电脑网页端操作~

(扫一扫，即可体验)

03. 一些分享

传统开发需要学习复杂的编程语言、配置繁琐的开发环境等等，码上飞的出现，普通人都能用手机开发APP，直接打破这层技术壁垒，开发APP也像手机P图一样，人人可用了。

未来开发的核心竞争将从“能否实现”转变为“创意是否足够好”。想法有多妙，做出来的东西就有多妙。

每个人都能是开发者：
- 老师可以为自己班级快速开发一个背单词的小程序；
- 咖啡店店主可以为自己店铺做会员积分APP；
- 设计师可以为自己做一个展示作品集的H5网页；
就像以往只有出版社才能出书，而现在每个人都能用手机发文章。这并不意味着专业作家会消失，但整个出版业、传媒业和我们信息获取方式都彻底改变了。

APP开发的未来，也正是如此。

原文链接：用手机开发APP ？我用码上飞做了一个“K姐小卖部”
September 2, 2025
Hunyuan-MT-7B – 腾讯混元开源的翻译模型
Hunyuan-MT-7B是什么

Hunyuan-MT-7B 是腾讯混元团队发布的轻量级翻译模型，参数量仅 70 亿，支持 33 个语种及 5 种民汉语言/方言互译。在国际计算语言学协会（ACL）WMT2025 比赛中拿下 31 个语种比赛中的 30 个第 1 名，表现卓越。模型能精准理解网络用语、古诗、社交对话等，结合语境进行意译，提出了覆盖预训练到集成强化全链条的训练范式。推理速度快，经过腾讯自研 AngelSlim 压缩工具处理后，性能进一步提升 30%。可在多样化硬件环境中部署，成本低。

Hunyuan-MT-7B的主要功能
- 多语言翻译：支持33个语种及5种民汉语言/方言互译，涵盖粤语、维吾尔语、藏语、哈萨克语、蒙古语等，能满足不同语言环境下的翻译需求。
- 精准语境理解：能精准理解网络用语、游戏用语、古诗等特殊语境下的语言表达，结合上下文进行准确的意译，提供更符合语境的翻译结果。
- 高效翻译能力：在国际计算语言学协会（ACL）WMT2025比赛中拿下31个语种比赛中的30个第1名，展现出卓越的翻译性能，能快速准确地完成翻译任务。
- 轻量级与高效推理：参数量仅70亿，推理速度快，经过腾讯自研AngelSlim大模型压缩工具进行FP8量化压缩后，推理性能进一步提升30%，在相同硬件条件下能够处理更多的翻译请求。
- 广泛部署与应用：能在从高端服务器到边缘设备的多样化硬件环境中良好运行，部署成本、运行成本和维护成本相对更低，已接入腾讯会议、企业微信、QQ浏览器等多个业务，助力产品体验提升。
Hunyuan-MT-7B的技术原理
- 完整训练范式：Hunyuan-MT-7B提出了覆盖预训练、CPT调优、监督微调、翻译强化和集成强化等全链条的训练范式，通过多阶段的训练优化，使模型在翻译效果上达到业界最优。
- 数据清洗与筛选：采用语言识别、文档去重、困惑度过滤和平行句清洗等工具，从大量数据中挑选出“干净的”平行句对，确保训练数据的质量，从而提升模型的翻译准确性和稳定性。
- 模型压缩技术：基于腾讯自研的AngelSlim大模型压缩工具，对Hunyuan-MT-7B进行FP8量化压缩，推理性能进一步提升30%，在保证翻译质量的同时，提高了模型的计算效率和部署友好性。
Hunyuan-MT-7B的项目地址
- 官网地址：腾讯混元
- Github：https://github.com/Tencent-Hunyuan/Hunyuan-MT/
- HuggingFace：https://huggingface.co/collections/tencent/hunyuan-mt-68b42f76d473f82798882597
Hunyuan-MT-7B的应用场景
- 教育领域：助力学生和教育工作者跨越语言障碍，获取全球教育资源，提升国际学术交流与学习效率。
- 外贸商务：促进国际贸易，帮助商家与全球客户进行有效沟通，打破语言壁垒，拓展国际市场。
- 文化旅游：方便游客在不同语言环境下的旅行体验，提供实时翻译支持，增强文化交流与互动。
- 科研合作：帮助科研人员快速获取和分享国际前沿研究成果，促进跨国科研合作与学术交流。
- 在线社交：为社交平台用户提供跨语言交流的便利，增进不同语言背景用户之间的沟通与理解。
- 企业服务：支持企业内部跨语言沟通，提升跨国企业内部协作效率，助力全球化业务发展。
September 2, 2025
LavieAI – AI模特换装平台，提供潮流趋势分析
LavieAI是什么

LavieAI是专注于AI模特智能换装技术的平台。提供一系列创新的AI驱动服务，为时尚和服装行业提供高效、低成本的解决方案。LavieAI的AI模特技术拥有海量的虚拟模特资源，结合行业领先的模型算法，能实现高质量的商品展示效果，LavieAI提供智能营销服务，能根据不同的风格和场景生成个性化的促销海报，帮助品牌提升营销效果。包括对时尚潮流趋势的分析，帮助用户把握最新的时尚动态。

LavieAI的主要功能
- AI模特：提供海量的AI模特资源，搭配行业领先的模型算法，能实现高质量的商品展示效果。
- AI图生视频：上传试穿图，一键生成视频。
- 智能营销：赋能全平台营销，提供多种营销素材和方案，例如生成男装、女装促销海报，以及具有视觉冲击力、科幻大片感和简约高级感的海报等。
- 潮流趋势：提供时尚趋势的分析和预测，帮助用户把握最新的时尚动态。
LavieAI的官网地址
- 官网地址：https://lavieai.com/
LavieAI的应用场景
- 电商服装展示：LavieAI的AI模特技术可用于电商平台的商品展示，通过文字描述或结合参考图片的方式，快速生成模特试穿服装的效果图，无需真人模特拍摄，节省成本和时间，提升商品展示效率。
- 智能营销服务：在营销领域，LavieAI能根据客户画像和行为，自动生成个性化营销内容，如促销海报、社交媒体帖子等，提高营销内容的吸引力和转化率。可通过智能算法实现精准的客户洞察与画像，帮助广告主进行精准投放。
- 潮流趋势分析：LavieAI可以实时追踪最新数据，捕捉流行信息，为服装品牌、设计师等提供潮流趋势分析，助力其把握市场动态，提前布局产品设计和营销策略。
September 1, 2025
Open-Fiesta – 开源的AI聊天平台，能同时运行多种模型对比
Open-Fiesta是什么

Open-Fiesta 是开源的多模型 AI 聊天平台，基于 Next.js 14 构建。平台支持多种 AI 提供商（如 Gemini、OpenRouter 等）和多种模型，用户能同时选择 5 种模型进行对比。Open-Fiesta具备网页搜索、图片附件（仅 Gemini 支持）等功能，为用户提供简洁的用户界面和流畅的交互体验。基于配置环境变量（如 API 密钥），用户能轻松部署和使用。Open-Fiesta 适合开发者和 AI 爱好者探索和实验不同的 AI 模型。

Open-Fiesta的主要功能
- 多模型支持：支持多个 AI 提供商（如 Gemini、OpenRouter 等），用户能选择多达 5 种模型进行对比。
- 网页搜索功能：每条消息都支持选择是否启用网页搜索，增强回答的准确性和信息量。
- 图片附件支持：支持图片附件（仅 Gemini 模型支持），用户能上传图片并获取相关回答。
- 简洁的用户界面：提供简洁、流畅的交互体验，支持键盘提交和流式 API。
- 模型对比功能：用户能同时运行多个模型，对比不同模型的输出结果。
Open-Fiesta的技术原理
- 前端技术栈：基于 Next.js 14 构建，用 App Router 和 TypeScript 提供高效的开发体验和良好的性能。Tailwind CSS用在快速构建简洁、响应式的用户界面。
- 后端技术栈：基于 Next.js 的 API 路由与不同的 AI 提供商进行通信。在 lib/ 文件夹中管理模型目录和客户端辅助工具，方便用户选择和切换不同的模型。
- 数据处理：对不同提供商的模型响应进行标准化处理，例如去除 DeepSeek R1 的推理标签，将 Markdown 转换为纯文本，提高输出的可读性。基于环境变量管理 API 密钥，确保安全性和灵活性。
Open-Fiesta的项目地址
- GitHub仓库：https://github.com/NiladriHazra/Open-Fiesta
Open-Fiesta的应用场景
- 个人学习与研究：学生和研究人员对比不同 AI 模型输出，深入理解模型特性，辅助知识学习与研究探索。
- 开发与测试：开发者测试和优化 AI 模型，快速迭代改进，企业用在集成测试，确保模型实际应用表现。
- 教育教学：教师作为教学工具，展示 AI 模型输出助力学生理解。
- 内容创作：内容创作者生成创意文本激发灵感，作家和编辑获取写作建议和内容扩展，提升创作效率。
- 企业应用：企业构建智能客服，对比模型回答选最优方案服务客户，或用在数据分析和报告生成，提高工作效率。
September 1, 2025
AudioStory – 腾讯ARC推出的音频生成模型
AudioStory是什么

AudioStory 是腾讯 ARC 实验室发布的音频生成技术，能根据自然语言描述生成高质量的长篇叙事音频。采用分而治之策略，将复杂叙事请求拆解为有序子任务，通过解耦桥接机制，精准协调语义与音效细节。端到端训练方式，提升了模型协同作用，生成的音频具有时序逻辑与情绪层次。

AudioStory的主要功能
- 视频自动配音：用户上传无声视频并描述音效风格，AudioStory可自动分析视频内容，生成与之同步且风格统一的背景音轨。
- 音频智能续写：给定一段音频，AudioStory能智能推断后续场景，自动补充合理的音频续集，如根据篮球训练的教练声音补充球员脚步声、篮球拍打声等。
- 有声书创作：为有声书提供高质量的音频内容，根据文本描述生成具有时序逻辑与情绪层次的音频，让听众更好地沉浸在故事中。
- 游戏音效制作：为游戏生成沉浸式的音效，根据游戏场景描述生成匹配的音频，增强玩家的游戏体验。
- 智能播客：帮助播客创作者快速生成音频内容，根据话题描述生成相应的音频片段，提高创作效率。
AudioStory的技术原理
- 分而治之策略：将复杂的叙事请求拆解为有顺序的子任务，分别生成对应的音频片段，再按时间轴精准编排，确保整体音频的连贯性和逻辑性。
- 解耦桥接机制：将大语言模型与音频生成器的合作分解为桥梁查询和残差查询两个组件，分别用于事件内语义对齐和跨事件一致性保存，提升生成效果。
- 端到端训练：采用统一的训练方式，同时优化指令理解和音频生成两个环节，增强模型各部分之间的协同作用，提高整体性能。
- 语义令牌与残差令牌双通道机制：通过双通道分别处理宏观叙事和微观音效细节，精准协调两者关系，使生成的音频既符合整体叙事逻辑，又具备丰富的细节表现。
- 三阶段渐进训练：从单音生成到音频协同，再到长篇叙事，逐步提升模型的性能和适应能力，使其能够更好地应对复杂的长篇叙事音频生成任务。
AudioStory的项目地址
- Github仓库：https://github.com/TencentARC/AudioStory。
- 论文地址：https://arxiv.org/pdf/2508.20088。
AudioStory的应用场景
- 视频配音：根据用户提供的无声视频和音效风格描述，自动分析视频内容并生成匹配的背景音轨。
- 音频续写：基于给定音频片段，推断后续场景并补充合理的音频续集，如为篮球训练音频添加球员脚步声等。
- 有声书创作：依据文本描述生成具有时序逻辑和情绪层次的音频，提升有声书的听觉体验。
- 游戏音效生成：根据游戏场景描述生成沉浸式音效，增强玩家的游戏体验。
September 1, 2025
Step-Audio 2 mini – 阶跃星辰开源的端到端语音大模型
Step-Audio 2 mini是什么

Step-Audio 2 mini 是阶跃星辰发布的开源端到端语音大模型。突破传统语音模型结构，采用真端到端多模态架构，直接将原始音频输入转化为语音响应输出，时延更低，能理解副语言信息与非人声信号。模型引入链式思维推理与强化学习联合优化，对情绪、语调等进行精细理解与回应，支持 web 检索等外部工具，有效解决幻觉问题，提升多场景扩展能力。

在性能上，Step-Audio 2 mini 在多个国际基准测试集上取得 SOTA 成绩。例如，在通用多模态音频理解测试集 MMAU 上，以 73.2 的得分位列开源端到端语音模型榜首；在衡量口语对话能力的 URO Bench 上，基础与专业赛道均拿下开源端到端语音模型最高分；在中英互译任务上，大幅领先 GPT-4o Audio 和其他开源语音模型；在语音识别任务上，取得多语言和多方言第一，领先其他开源模型 15% 以上。

Step-Audio 2 mini的主要功能
- 音频理解：能精准理解各种音频内容，包括自然声音、音乐、语音等，还能捕捉情绪、语调等副语言信息，实现对“弦外之音”的感知。
- 语音识别：在多语言和多方言的语音识别上表现出色，准确率高，能快速将语音转化为文字，适用于多种语言环境。
- 语音翻译：支持语音到语音的翻译，可实现中英等多语言互译，帮助用户跨越语言障碍进行交流。
- 情感与副语言解析：能分析语音中的情感和副语言特征，如愤怒、快乐、悲伤等情绪，以及笑声、叹息等非语言信号，使交互更自然。
- 语音对话：具备优秀的对话能力，能进行流畅的语音交流，理解复杂问题并给出恰当回答，可用于智能客服、语音助手等场景。
- 工具调用：支持联网搜索等操作，可实时获取最新信息，为用户提供更全面、准确的回答。
- 内容创作：可辅助生成音频内容，如播客、有声读物等，为创作者提供灵感和素材。
Step-Audio 2 mini的技术原理
- 真端到端多模态架构：突破传统语音模型的三级结构，直接将原始音频输入转化为语音响应输出，简化架构，降低时延，能有效理解副语言信息与非人声信号。
- CoT 推理结合强化学习：首次在端到端语音模型中引入链式思维推理与强化学习联合优化，对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应。
- 音频知识增强：支持 web 检索等外部工具，帮助模型解决幻觉问题，提升在多场景下的扩展能力，使模型能获取最新信息并进行准确回答。
Step-Audio 2 mini的项目地址
- GitHub仓库：https://github.com/stepfun-ai/Step-Audio2
- Hugging Face模型库：https://huggingface.co/stepfun-ai/Step-Audio-2-mini
- 体验地址：https://realtime-console.stepfun.com
Step-Audio 2 mini的应用场景
- 智能语音助手：为用户提供便捷的语音交互服务，如智能家居控制、智能办公助手等，通过语音指令完成各种操作。
- 智能客服：在客服领域应用，快速准确地理解用户问题并提供解决方案，提升服务效率和用户体验。
- 语音翻译：实现语音到语音的实时翻译，帮助用户跨越语言障碍，适用于国际交流、商务会议等场景。
- 音频内容创作：辅助创作者生成音频内容，如播客、有声读物等，提供创意灵感和内容生成支持。
- 教育领域：用于语言学习、在线教育等，通过语音交互提供个性化的学习体验，帮助学生提高语言能力。
- 医疗健康：在医疗咨询、康复治疗等领域应用，通过语音对话为患者提供健康建议和心理支持。
September 1, 2025