Blog

混元3D-Part – 腾讯推出的组件式3D生成模型
混元3D-Part是什么

混元3D-Part是腾讯推出的3D生成模型，由P3 – SAM和X – Part组成，首次实现高精度、可控的组件式3D生成，支持50 + 组件自动生成。用户可先用混元3D 2.5或3.0生成整体Mesh，再由P3 – SAM进行自动、精确的组件分割，X – Part将其分解为独立部件，输出高保真、结构一致的部件几何体，同时保持灵活可控性。在游戏建模、3D打印等领域有广泛应用，如将汽车模型拆分车身和轮子，便于游戏绑定滚动逻辑或3D打印分步制作。混元3D – Part生成的模型精度高、可编辑、结构合理，让模型更易编辑、生产和应用。可通过腾讯混元3D创作引擎免费使用。

混元3D-Part的主要功能
- 组件式3D生成：支持50+组件自动生成，可将复杂3D模型分解为独立部件，实现高精度、可控的组件式生成。
- 自动组件分割：通过P3-SAM模型，自动、精确地对3D模型进行语义分割，获取组件的语义特征和边界框。
- 高保真部件输出：X-Part模型将整体Mesh分解为独立部件，输出高保真、结构一致的部件几何体，保持灵活可控性。
- 多领域应用支持：适用于游戏建模、3D打印等领域，如游戏中的组件绑定逻辑优化和3D打印的分步制作。
混元3D-Part的技术原理
- 整体Mesh生成：利用混元3D 2.5或3.0模型，根据用户输入生成整体的3D模型Mesh。
- 组件分割：通过P3 – SAM模型，对生成的整体Mesh进行语义分割，自动识别并提取出各个组件的语义特征和边界框，实现组件的精确分割。
- 部件几何体生成：X – Part模型基于分割结果，将整体Mesh分解为独立的部件几何体，输出高保真、结构一致的部件，同时保持模型的灵活可控性。
混元3D-Part的项目地址
- 官网免费使用：腾讯混元3D
- Github仓库：https://github.com/Tencent-Hunyuan/Hunyuan3D-Part
- HuggingFace模型库：https://huggingface.co/tencent/Hunyuan3D-Part
- 在线体验Demo：https://huggingface.co/spaces/tencent/Hunyuan3D-Part
混元3D-Part的应用场景
- 游戏建模：将复杂模型如汽车拆分成车身和独立轮子，便于绑定滚动逻辑，提升游戏性能。
- 3D打印：像搭积木一样逐个组件打印，避免大件变形风险，提高打印成功率。
- 工业设计：可对机械零部件进行精确建模和拆分，便于设计优化和装配模拟。
- 影视特效：用于创建复杂的3D场景和道具，支持快速拆分和修改，提升制作效率。
- 虚拟现实（VR）和增强现实（AR）：生成高精度的3D模型组件，增强沉浸感和交互性。
September 27, 2025
混元3D-Omni – 腾讯混元推出的3D资产生成框架
混元3D-Omni是什么

混元3D-Omni（Hunyuan3D-Omni）是腾讯混元3D团队提出的3D资产生成框架，通过多种控制信号实现精准的3D模型生成。基于Hunyuan3D 2.1架构，引入了统一的控制编码器，可处理点云、骨骼姿态、边界框等多种控制信号，避免信号混淆。框架采用渐进式、难度感知的采样策略进行训练，优先采样难度较高的信号，提升模型对缺失输入的鲁棒性。Hunyuan3D-Omni支持边界框、骨骼姿态、点云、体素等多种控制方式，可生成具有特定姿态的人物模型、符合边界框约束的模型等，有效解决了传统3D生成中的扭曲、细节缺失等问题。

混元3D-Omni的主要功能
- 多模态控制信号输入：支持点云、骨骼姿态、边界框、体素等多种控制信号输入，通过统一的控制编码器将这些信号转化为模型生成的引导条件，实现精准的3D模型生成。
- 高精度3D模型生成：能够生成高精度的3D模型，有效解决传统3D生成中的扭曲、平面化、细节缺失和比例失调等问题，提升生成模型的质量。
- 几何感知变换：具备几何感知能力，可以对3D模型进行符合几何逻辑的变换，使模型在形状和结构上更加合理和自然。
- 增强生产流程鲁棒性：通过渐进式、难度感知的采样策略训练，增强了模型在面对不同输入条件时的鲁棒性，即使在部分控制信号缺失的情况下也能稳定生成高质量的3D模型。
- 标准化和风格化输出：有助于标准化角色姿态，同时为生成的3D模型提供风格化选项，满足不同场景和需求下的多样化风格要求。
混元3D-Omni的技术原理
- 统一控制编码器：构建统一的控制编码器，将点云、骨骼姿态、边界框、体素等多种控制信号统一表示为点云形式，通过轻量化编码器提取特征，避免控制目标混淆，实现多模态信号的有效融合。
- 渐进式训练策略：采用渐进式、难度感知的采样策略进行训练，为每个样本选取一种控制模态，优先采样难度较高的信号，降低对较易信号的权重，促进稳健的多模态融合，提升模型对缺失输入的鲁棒性。
- 几何感知生成：模型在生成过程中具备几何感知能力，能够理解输入信号的几何特性，从而生成符合几何逻辑的3D模型，避免生成扭曲、平面化或比例失调的模型，提升生成精度。
- 基于扩散模型的生成机制：利用扩散模型的原理，通过逐步去除噪声来生成3D模型。在生成过程中，控制信号作为条件引导模型生成符合要求的3D资产，实现可控的3D生成。
- 模型架构扩展：继承并扩展了Hunyuan3D 2.1的架构，在保留原有优势的基础上，增加了对多种控制信号的处理能力，提升了模型的整体性能和生成质量。
混元3D-Omni的项目地址
- GitHub仓库：https://github.com/Tencent-Hunyuan/Hunyuan3D-Omni
- HuggingFace 模型库：https://huggingface.co/tencent/Hunyuan3D-Omni
- arXiv技术论文：https://arxiv.org/pdf/2509.21245
混元3D-Omni的应用场景
- 游戏开发：快速生成高质量的3D角色、道具和场景，提升开发效率，降低制作成本。
- 影视制作：用于创建逼真的3D特效和动画，加速制作流程，提高视觉效果质量。
- 建筑设计：生成建筑模型和室内设计的3D资产，辅助设计和可视化。
- 虚拟现实（VR）和增强现实（AR）：创建沉浸式的3D环境和交互对象，提升用户体验。
- 工业设计：生成产品原型和零部件的3D模型，用于设计验证和展示。
- 教育与培训：创建3D教学资源，如虚拟实验室、历史场景重现等，增强学习效果。
September 26, 2025
Shipable – AI Agent构建平台，零代码创建自动化工作流
Shipable是什么

Shipable 是无代码人工智能代理平台，帮助用户快速构建、定制和部署智能AI代理。通过可视化构建器，用户无需编程即可创建多语言的自动化工作流，结合系统提示和应用程序集成，实现复杂任务的自动化。Shipable支持快速部署到各种平台，如Slack、Shopify等，提供强大的工具集成能力，自动连接工作流程。支持28种以上语言，包括阿拉伯语，能部署真正理解方言的语音代理。平台提供智能回复和执行功能，帮助用户提升工作效率。

Shipable的主要功能
- 无代码构建：通过可视化构建器，用户可以轻松创建复杂的多语言工作流，结合系统提示、应用程序集成等，实现自动化任务。
- 快速部署：支持将AI代理快速部署到任何地方，如自己的域名、Slack、Shopify等，从想法到实现仅需几分钟。
- 强大集成：与Slack、Notion、CRM等1000多个工具无缝集成，自动连接工作流程，无需手动设置。
- 多语言支持：支持28种以上语言，包括阿拉伯语，能够部署真正理解方言的语音代理。
- 智能回复与执行：AI代理不仅能智能回复，还能执行实际操作，如预订、更新等，提升工作效率。
- 数据分析：提供全面的分析功能，帮助用户优化AI代理的性能，提升客户体验。
Shipable的官网地址
- 官网地址：https://www.shipable.ai/
Shipable的应用场景
- 客户支持自动化：通过智能AI代理，自动处理客户咨询和常见问题，提升响应速度和客户满意度。
- 营销与销售：创建智能聊天机器人，用于引导潜在客户、提供产品信息、安排会议等，提高营销效率和销售转化率。
- 内部工作流程优化：自动化内部任务，如数据录入、文件处理、日程安排等，提高团队工作效率。
- 内容创作与互动：为创作者提供与受众互动的工具，如自动回复评论、生成内容创意等，增强用户参与度。
- 企业级应用：为大型企业提供定制化的AI解决方案，支持多语言和复杂工作流程，提升企业运营效率。
September 26, 2025
Rocket.new – AI编程平台，构建全功能Web和移动应用
Rocket.new是什么

Rocket.new是AI编程平台，专注于快速构建和部署全功能的 Web 和移动应用。用户通过简单的提示描述需求，Rocket.new 能自动生成完整的应用，包括后端集成、数据库架构、API 端点和高质量代码。平台能进行市场研究，优化用户体验，提供高质量的模板，帮助用户快速启动项目。Rocket.new 用户多来自美国、欧洲和印度，构建的产品涵盖电商平台、金融科技应用、B2B 工具和心理健康应用。Rocket.new 的产品完善度高，用户体验友好，适合非技术人员。

Rocket.new的主要功能
- 全功能应用生成：用户只需描述一次愿景，能获得完整的功能性应用，包括后端、集成和生产就绪代码。
- 深度市场研究：自动进行市场研究，决定最适合的功能集，设计最优的用户体验和界面（UI/UX）。
- 自动后端配置：应用已预先配置好与后端的集成，包括数据库架构、认证和安全配置等。
- 即时部署：Rocket 实现从想法到上线应用的快速部署，优化代码并配置服务器，支持多平台部署。
- 高质量模板：提供由专家策划的高质量模板，可减少高达 80% 的令牌消耗。
Rocket.new的官网地址
- 官网地址：https://www.rocket.new/
Rocket.new的产品定价
- Starter：免费，提供 1M tokens，适用刚开始使用的用户，包括公共项目、用于训练模型的数据、模板。
- Personal：$25/月，提供 5M tokens，适合轻度、探索性和个人用户，包括私人项目、无限自定义域名、代码下载、去除 Rocket 品牌标识、选择退出数据训练、模板。
- Rocket：$50/月，提供 10.5M tokens（含 5% 额外 bonus tokens），适合专业和频繁使用的用户，包括私人项目、无限自定义域名、代码下载、去除 Rocket 品牌标识、选择退出数据训练、模板。
- Booster：$100/月，提供 22M tokens（含 10% 额外 bonus tokens），为高级用户提供日常使用的核心工具，包括私人项目、无限自定义域名、代码下载、去除 Rocket 品牌标识、选择退出数据训练、模板。
Rocket.new的应用场景
- 初创企业：帮助初创企业快速开发和部署 MVP（最小可行产品），加速产品上市时间。
- 个人开发者：个人开发者构建个人项目或业余爱好，无需深入了解复杂的后端开发。
- 中小企业：中小企业快速搭建内部工具或客户应用，提高运营效率和客户满意度。
- 教育和培训：教育机构创建在线课程和培训平台，简化教学资源的数字化过程。
- 电子商务：用在快速搭建电商平台，让商家能迅速上线、开始在线销售。
September 26, 2025
GDPVAL – OpenAI开源的AI模型经济价值评估框架
GDPVAL是什么

GDPval 是 OpenAI 推出的全新评估框架，用在衡量 AI 模型在真实经济价值任务上的表现。GDPval 从美国 GDP 贡献最大的 9 个行业中选取 44 种职业，设计 1320 个真实任务（开源版本包含 220 个），涵盖软件开发、法律文书、机械工程、护理计划等多个领域。任务由平均有 14 年经验的专业人士设计，经过多轮审核，确保贴近实际工作场景。GDPval 的目标是通过真实任务评估 AI 的经济价值，帮助人们更好地理解 AI 在现实世界中的应用潜力。

GDPVAL的主要功能
- 评估 AI 的经济价值：通过真实任务衡量 AI 模型在经济上有价值的工作中的表现，帮助理解 AI 在现实世界中的应用潜力。
- 覆盖多样化职业：选取 44 种职业（如软件开发、法律、护理等），涵盖 9 个对美国 GDP 贡献最大的行业，确保评估的广泛性和代表性。
- 贴近实际工作场景：任务设计基于真实工作产品（如法律简报、工程蓝图等），包含参考文件和上下文，交付物包括文档、幻灯片、图表等。
- 专家审核与评分：任务由平均 14 年经验的专业人士设计，经过多轮审核。评分由同行业专家完成，确保评估的准确性和可靠性。
- 助力 AI 进步：通过真实任务评估，为 AI 模型的改进提供方向，推动 AI 技术的发展。
GDPVAL的技术原理
- 任务设计：基于美国 GDP 贡献最大的 9 个行业（如金融、医疗、制造等）。从每个行业中选取工资总额贡献最大的 5 个职业，且职业必须以知识工作为主（至少 60% 的任务不涉及体力劳动）。由平均 14 年经验的专业人士设计任务，每个任务经过多轮审核，确保代表性和可行性。
- 评估过程：由同行业专家对 AI 生成的输出与人类专家的工作进行盲评，评分标准包括“更好”“相当”“更差”。开发一个“自动评分器”（AI 系统），用在预测人类专家的评分，作为实验性研究工具。
- 数据收集与分析：任务数据来自真实工作场景，包含多种交付物（如文档、幻灯片、图表等）。通过对比不同 AI 模型的输出，分析在不同任务中的表现，评估模型的进步趋势。
GDPVAL的项目地址
- 项目官网：https://openai.com/index/gdpval/
- HuggingFace模型库：https://huggingface.co/datasets/openai/gdpval
- 技术论文：https://cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
GDPVAL的应用场景
- AI 模型性能评估：用在评估 AI 模型在真实经济任务中的表现，帮助开发者和研究人员了解模型在实际工作场景中的能力。
- 行业专家与 AI 的协同工作：提供一个框架，帮助行业专家评估 AI 在职业任务中的应用潜力，更好地实现人机协作。
- 职业培训与发展：评估结果为职业培训提供参考，帮助从业者了解 AI 的能力范围，更好地规划职业发展路径。
- 企业决策支持：企业决定是否采用 AI 模型来优化业务流程，特别是在成本和效率方面。
September 26, 2025
Vibecode – AI应用构建平台，零门槛构建移动应用
Vibecode是什么

Vibecode是AI驱动的移动应用构建平台，专为AI编程开发者设计。用户用简单的英语描述应用概念，平台能自动生成完整的React Native应用程序。平台提供集成开发环境，支持多种AI工具，无需API密钥即可使用。用户能在本地即时预览和测试应用，通过App Clip快速验证想法，在验证成功后能轻松发布到应用商店。Vibecode让应用开发变得简单快捷，适合初学者和非技术用户快速实现创意。

Vibecode的主要功能
- 自然语言应用生成：用户通过简单的描述应用概念，Vibecode自动生成完整的React Native应用框架，包括屏幕、组件和状态连接。
- 即时预览与测试：用户能在本地即时运行和测试应用，通过App Clip快速分享给他人进行反馈，验证应用的可行性和用户体验。
- 应用构建与优化：用户能随时修改界面元素、颜色、布局或功能，设备上即时反映更新，支持快速迭代和优化。
- 无代码开发环境：Vibecode提供一个集成的开发环境，无需复杂的设置，用户无需任何编程经验快速构建应用。
- 应用发布支持：用户在验证应用后，升级到Pro版能发布到App Store和Google Play Store。
- AI驱动的反馈与建议：根据用户描述的应用概念提供反馈和改进建议，帮助用户完善应用设计。
Vibecode的官网地址
- 官网地址：https://www.vibecodeapp.com/
Vibecode的产品定价
- Free Plan: 每月$0，包含$1的积分，提供通过App Clips分享应用的功能，适合基础功能入门。
- Plus Plan: 每月$20，提供价值$60的积分，包含原型制作所需的核心功能。
- Pro Plan: 每月$50，提供价值$150的积分，应用商店提交的最常见计划，是最受欢迎的选择。
- Max Plan: 每月$200，提供价值$750的积分，适合需要复杂应用和创新功能的开发者。
Vibecode的应用场景
- 快速原型开发：快速将创意转化为可交互的移动应用原型，无需复杂编程，适合创业者和产品团队快速验证想法。
- 个人项目开发：个人开发者能轻松创建、测试自己的应用想法，无需深入学习复杂的开发框架。
- 团队协作开发：支持多人协作，团队成员能共同编辑和开发应用，提高开发效率。
- 教育与学习：为学生和初学者提供一个无代码的学习平台，帮助他们快速上手应用开发。
September 26, 2025
Spark Chemistry-X1-13B – 科大讯飞开源的化学模型
Spark Chemistry-X1-13B是什么

Spark Chemistry-X1-13B 是科大讯飞开源的化学专业大型语言模型。模型基于讯飞星火X1-0420大模型，经过多种化学任务数据集的微调，具备卓越的复杂化学问题解决能力，同时保持强大的通用性。模型基于新的注意力掩码机制，结合长思维链和快思考，有效防止不同推理模式之间的干扰。模型在高等知识问答、化学名称转换和分子性质预测等任务上表现出色，能助力化学科研工作的高效推进，激发跨领域创新，推动化学技术研究的深远探索。

Spark Chemistry-X1-13B的主要功能
- 化学问题解答：高效解答复杂的化学问题，涵盖从基础化学知识到高级研究领域的各类问题。
- 分子性质预测：准确预测分子的物理、化学性质，如分子量、极性、反应活性等，助力化学研究和药物设计。
- 化学名称转换：快速实现化学物质名称与化学式、结构式的相互转换，方便科研人员进行文献检索和实验设计。
- 化学知识检索：提供化学领域的知识检索服务，帮助用户快速获取相关化学概念、理论和实验方法。
- 跨领域应用：支持计算机科学、生物学等多学科与化学的交叉应用，激发创新研究方向。
Spark Chemistry-X1-13B的技术原理
- 基于大语言模型微调：模型基于讯飞星火X1-0420大模型，通过在多种化学任务数据集上进行微调，具备专业的化学知识和推理能力。
- 长思维链与快思考结合：模型结合长思维链（深度推理）和快思考（快速响应），能处理复杂问题的同时保持高效性。
- 注意力掩码机制：基于新的注意力掩码机制，将不同推理模式的训练阶段解耦，有效防止混合模式数据分布之间的干扰，提升模型的稳定性和准确性。
- 多阶段优化：针对高等知识问答、化学名称转换和分子性质预测等专门任务进行多阶段优化，进一步提升模型在关键任务上的表现。
Spark Chemistry-X1-13B的项目地址
- 魔搭社区：https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B
Spark Chemistry-X1-13B的应用场景
- 化学研究与实验设计：帮助研究人员快速预测分子性质，优化实验方案，加速化学研究进程。
- 药物研发：辅助药物设计，预测化合物的活性和药理性质，提高研发效率。
- 化学教育：为学生和教师提供化学知识解答和概念解释，增强教学互动性。
- 材料科学：预测材料的化学性质，助力新材料的研发和应用。
- 跨学科研究：结合生物学、物理学等学科，推动多领域交叉研究的创新。
September 26, 2025
ChatGPT Pulse – OpenAI推出的主动推送功能
ChatGPT Pulse是什么

ChatGPT Pulse 是 OpenAI 推出的新功能，支持为用户提供更主动、个性化的服务。ChatGPT Pulse通过分析用户的聊天记录、反馈及连接的应用（如日历）等信息，每晚进行研究，在次日清晨为用户推送一组定制化的更新内容。内容以主题可视化卡片形式呈现，涵盖用户感兴趣的话题、生活建议或目标推进等。用户用点赞、踩赞或直接反馈优化推送内容，使内容更贴合个人需求。ChatGPT Pulse 是 ChatGPT 从被动回答向主动服务转变的重要一步，目标是帮助用户更高效地实现目标，节省时间、提升生活质量。ChatGPT Pulse 目前处于预览阶段，对 ChatGPT 的 Pro 订阅用户开放，仅支持移动设备。

ChatGPT Pulse的主要功能
- 主动个性化更新：每晚根据用户的聊天记录、反馈及连接的应用（如日历）等信息进行研究，次日清晨为用户推送一组定制化的更新内容。
- 内容定制与反馈：用户通过“精选”功能告诉 ChatGPT 想要了解的内容，或通过点赞或踩赞的方式对推送内容进行反馈，帮助优化后续推送。
- 应用集成：支持连接 Gmail 和 Google 日历，提供更多上下文信息，提供更精准的建议，例如会议议程提醒、旅行建议等。
- 安全检查：所有推送内容都经过安全检查，确保不包含违反政策的有害信息。
- 每日更新：每天清晨为用户提供一组新的、有针对性的更新内容，帮助用户快速获取重要信息并开始新的一天。
ChatGPT Pulse的核心优势
- 主动推送：主动为用户提供信息，无需用户主动询问，节省时间和精力。
- 高度个性化：通过分析用户的聊天记录、反馈和连接的应用，提供高度定制化的内容，确保信息符合用户需求。
- 高效信息管理：每天清晨推送一组新的、有针对性的更新内容，帮助用户快速获取重要信息。
- 安全与隐私保护：所有推送内容经过安全检查，确保不包含有害信息，用户能随时开启或关闭应用集成，保护隐私和数据安全。
ChatGPT Pulse的官网地址
- 官网地址：ChatGPT
ChatGPT Pulse的应用场景
- 旅行规划：根据目的地和日程安排，提供旅行建议、景点推荐和当地活动信息。
- 学习提升：结合学习目标和进度，推送相关的学习资源、课程建议和复习计划。
- 健康生活：根据用户健康目标和生活习惯，提供饮食建议、锻炼计划和健康小贴士。
- 工作管理：根据用户日程和任务，推送会议议程、工作提醒和项目管理建议。
- 兴趣爱好：根据用户兴趣，推送相关的活动、新闻和创意灵感，帮助发现新事物。
September 26, 2025
FLM-Audio – 智源研究院开源的全双工音频对话模型
FLM-Audio是什么

FLM-Audio 是北京智源人工智能研究院联合 Spin Matrix 与新加坡南洋理工大学共同发布的原生全双工音频对话大模型，支持中文和英文。采用原生全双工架构，可在每个时间步合并听觉、说话和独白通道，避免传统时分复用方案的高延迟问题。其独特的自然独白与双重训练范式，使模型在对话中更接近人类的自然交流方式，有效解决了异步对齐问题。FLM-Audio 仅用 100 万小时数据训练，数据量大幅减少，但回复质量高且响应敏捷自然，对噪声和用户打断也有较强鲁棒性。

FLM-Audio的主要功能
全双工语音交互：实现“边听边说”，用户可随时打断模型，模型能即时暂停输出并理解新问题后回应，交互自然流畅，延迟低。

支持多语言：模型支持中文和英文两种语言，能够满足不同语言用户的对话需求。

自然语音建模：采用“自然独白”方式模拟人类说话节奏，通过“双重训练”强化语言与声学语义对齐，兼顾低延迟与语言建模性能。

低数据高效训练：仅用约100万小时音频数据训练出70亿参数模型，在嘈杂环境、频繁打断场景下仍保持高鲁棒性和自然度。

强鲁棒性：对噪声和用户打断具有较强的鲁棒性，能迅速停顿当前输出、准确理解新问题并即时作答，保证对话的流畅性和准确性。

完全开源支持：论文、模型权重与代码均公开，支持本地部署与二次开发，方便研究与应用拓展。
FLM-Audio的技术原理
- 原生全双工架构：模型设计支持同时进行语音输入和输出，能实时处理语音流，实现边听边说的交互模式。
- 自然独白训练：采用连续句段与停顿组成的“自然独白”代替逐词对齐，更接近人类真实说话方式，提升语音交互的自然度。
- 双重训练策略：通过将独白交替放在音频首尾进行训练，强化语言与声学语义的对齐，提高模型对语音内容的理解和生成能力。
- 小数据高效训练：利用少量音频数据（约100万小时）训练出高参数量模型，通过优化训练方法和架构，实现低延迟和高鲁棒性。
FLM-Audio的项目地址
- GitHub仓库：https://github.com/cofe-ai/flm-audio
- HuggingFace模型库：https://huggingface.co/CofeAI/FLM-Audio
- arXiv技术论文：https://arxiv.org/pdf/2509.02521
FLM-Audio的应用场景
在线教育：AI 助教可实时回答学生问题，提供更自然、高效的互动体验。

游戏与虚拟现实（VR）：NPC 可实现不间断、可打断的自然语音互动，增强游戏的沉浸感。

智能客服：低延迟对话减少用户等待，提升客服效率和用户体验。

智能陪伴：为用户提供更接近真人的语音互动，增强陪伴感。

语音助手：在智能家居、智能办公等场景中，提供更自然的语音交互体验。

会议辅助：在多人会议中，实时翻译、记录和互动，提高会议效率。
September 26, 2025
OK Computer – Kimi推出的全新Agent模式
OK Computer是什么

OK Computer是Kimi推出的全新Agent模式，通过端到端训练Kimi K2模型，进一步提升智能体及工具调用能力，提升用户与AI的互动体验。OK Computer通过多轮推理和工具调用，能够实现复杂任务的自动化完成。用户只需用自然语言描述需求，Kimi 能完成从需求调研到产品交付的全过程，包括网站开发、数据分析与可视化、高品质演示文稿制作等。OK Computer掌握了多种工具的使用，能应对更多任务场景。OK Computer目前处于灰度测试中，曾经给予 Kimi 打赏鼓励的用户可优先获得体验。

OK Computer的主要功能
- 多页面网站开发：根据用户需求生成网站原型，支持多轮对话调整，能完成从设计到部署的全过程。
- 数据分析与可视化：分析海量数据，生成交互式可视化报告，支持实时数据搜索和风险/回报分析。
- 高品质演示文稿制作：自动查找配图，生成结构化、统一风格的 PPT，支持在线编辑和下载。
- 多工具集成：掌握文件系统、代码编写、图片生成等多种工具，自主完成复杂任务。
- 写提案：自动生成结构化和专业的商业提案，帮助用户清晰表达项目目标和计划。
- 计划定价：提供定价策略建议，帮助用户根据市场和成本因素制定合理的价格。
- 创建用户界面：设计直观、易用的用户界面，提升产品的用户体验和吸引力。
- 处理数据：能一次性处理高达一百万行的数据，提高数据分析的效率和准确性。
- 生成图表：根据分析数据自动生成图表，帮助用户更直观地理解和展示数据。
- 仪表板：提供功能丰富的仪表板，实时监控和分析内容性能和用户参与度。
如何使用OK Computer
- 访问平台：访问网页版Kimi官网。
- 启动OK Computer：在对话框左下角找到，点击“OK Computer”按钮进入。
- 描述任务：在输入框中详细描述需要OK Computer帮助完成的任务。
- 选择功能：根据任务需求，选择相应的功能标签，如“推荐”、“网页应用”、“移动应用”、“数据分析”或“灵感”。
- 执行任务：OK Computer分析任务需求、开始执行。
- 监控进度：在执行过程中，在对话框和执行页面中监控任务的进度和状态。
- 获取结果：任务完成后，在对话框中查看或下载。
- 反馈与调整：如果需要，提供反馈，OK Computer根据反馈进行调整优化结果。
- 导出或应用结果：根据任务的不同，将结果导出为本地文件或直接在应用中使用。
OK Computer的应用场景
- 商业提案：自动撰写包含关键要素的商业提案，帮助企业清晰地展示项目的优势和预期成果。
- 产品定价：通过分析市场竞争和成本结构，协助企业制定合理的产品定价策略，吸引客户、保持盈利。
- 用户界面设计：提供用户界面设计建议，创建既美观又实用的界面，提升用户满意度和产品的市场竞争力。
- 网站开发：支持从规划到编码的全过程，帮助企业构建满足特定业务需求的多页面网站。
- 数据分析：OK Computer能处理和分析大量数据，为企业提供深入的洞察，支持基于数据的决策制定。
September 25, 2025