Skip to main content

Author: Chimy

Kimi“新PPT助手” ,Kimi全新自研的免费AI生成PPT助手

前段时间给大家分享了一期用智能体做PPT的对比测评,很多友友都表示:那 Kimi 呢?

今天偶然发现 Kimi+ 新增了一个叫“新PPT助手”的功能,立马上手体验了一下,还挺香。

先看看最终效果:

这排版、这质感,还是我认识的那个 Kimi 吗?

依旧是免费不限量,生成的速度还快了不少。

本期我们就一起从日常办公、信息整理等等多角度看看 Kimi 的表现~

 

01. 一句话生成PPT

 

我们在 Kimi 首页点击 Kimi+。

在官方推荐里选择新 PPT 助手

在聊天框输入我们的需求:

提示词:介绍一下 Kimi 新 PPT 助手的功能和特点。

在介绍时,请遵循以下指南:

1.内容要丰富、全面,涵盖信息中提到的所有功能和特点。

2.语言表达清晰、易懂,避免使用过于专业或生僻的词汇。

3. 按照一定的逻辑顺序进行介绍,例如先介绍主要功能,再介绍特色特点。

不到1分钟,Kimi 就完成了大纲。

比以前提效不少!

并且在最顶部的位置,我们可以直接查看它搜集到的所有信息源。

新功能移除了之前的大纲修改这一步…还是挺了解我的哈哈,我是真的不会花时间给AI改大纲。

我们点击底部的一键生成 PPT。

选择模板。

模板的分类更详细,可以按照使用场景和风格来选择,感觉美感比之前提升不少。

我放个对比图给大家直观感受一下…

我不用说,你肯定也猜到了,上面是老版的 PPT 助手,下面是新 PPT 助手。

是不是感觉新版明显更有设计感?

我们随便选择一个模板,点击一键生成 PPT。

这次就更快了,感觉比我打开某个新网页加载图片还快,谁懂?!

平时做 PPT 找个免费模板都要半小时起步,Kimi 唰唰两下给我做好了,这…

生成好之后,我们可以直接在页面上即时修改,自动保存。

最上方整合了一些便携编辑的功能,可以插入形状、线条、文字或图片。

对比旧版 PPT,少了素材、表格和图表的选项。

编辑好之后,可以在右上角点击下载。

新功能支持直接导出为 PPT 或者图片,非常方便。

一起看看最终效果吧~

 

02. 文档资料转PPT

 

日常生活中,PPT 的使用场景有很多。

Kimi 可以读取我们给的链接和各种文档资料,这个就非常实用了。

比如今天又有分享给我的这条播客:Lovart 创始人陈冕复盘应用创业这两年:这一刻就是好爽啊!!哈哈哈哈哈

同样作为创业者,我真的很想听听优秀的创业大佬的分享,特别是像 Lovart 这么优秀的项目,但是整篇内容足足105分钟,我是没有时间听完了…

于是我直接把它发给了 Kimi:

提示词:将这份播客内容整理为 PPT

https://www.xiaoyuzhoufm.com/episode/68455e0a6dbe9284e75c6fbf?s=eyJ1IjogIjYwMzA4ODg4ZTBmNWU3MjNiYmEyYzE3OCJ9

很快,我们就了解了这篇播客的要点内容。

如果对某一部分感兴趣,再直接去听对应部分的内容就好~就很高效。

除了播客链接,我们平时看到不错的公众号文章、各种网页链接,都可以发给它总结~

还支持同时上传 pdf、doc、xlsx、ppt、txt、图片等各种文件。

像最近高考成绩快出来了,很多友友都在提前为志愿填报做功课。
我也找了一些资料,比如清华大学的这份《AI赋能教育:高考志愿填报工具使用指南》,内容也是非常详细非常多。
我们也可以直接发给 Kimi 总结看看:

提示词:根据我提供的资料,生成一份《高考志愿填报AI工具指南》的PPT。

测试体验下来,感觉 Kimi 的 PPT 功能更快、更强了。

这是从内容搜集、信息整理到排版、导出,做了一个整体的升级呀。

5分钟不到就能生成一个完整的 PPT,而且免费不限量使用,有点香。

 

03. 一些分享

 

2025这半年以来,受到 DeepSeek 等外部环境影响,Kimi 迅速调整了过往极为激进的市场投放策略,重新聚焦技术研发,陆续发布了 MoBA 注意力机制、基于 Muon 优化器的 Moonlight 开源模型、数学定理证明模型 Kimina-Prover 、开源视觉语言模型 Kimi-VL 、通用的开源音频基础 Kimi-Audio 、开源的真实场景编程模型 Kimi-Dev 等。

在产品上,也小步快跑,动作频频。

  • 4月,与财新网合作补齐了财经信息;
  • 5月被爆布局“AI+医疗”,Kimi+悄悄上线了医疗搜索;
  • 6月,从小米那里接收了多个“Kimi”商标;
  • 同期,又悄悄迭代了学术搜索,还统一了C端产品域名:Kimi.com;
  • 近日,在与AiPPT合作的PPT助手之外,又主推自研的全新技术方案“新PPT助手”;
  • 昨晚,开启第一个 Agent 模型 Kimi-Researcher 的小范围灰度测试。

早在2月底,在全球动态基准测试平台 LiveCodeBench,K1.6超过了 GPT o3mini、o1 等模型,在代码生成测试中实现登顶。

不过,K1.6 和坊间传闻的 K2 至今没有发布。

从这一系列动作来看,“新PPT助手”绝非简单的功能更新,是更扎实的技术储备和产品重塑。

如今的Kimi有了更加沉稳的姿态,且每一步走得果断而坚定。正如毛主席所说:“打拳是直接将拳头打出去有力,还是先将拳头收回来再打出去有力?”

原文链接:Kimi,悄咪咪做了个“新PPT助手”

Solar – AI应用开发平台,支持全栈应用开发

Solar是什么

Solar 是基于人工智能的应用开发平台,帮助企业快速构建全栈应用程序、自动化工作流和智能体。用户可以通过自然语言描述需求,Solar 会自动生成完整的应用程序,包括 Python 后端、Postgres 数据库和 React 前端。支持数据可视化、机器学习和计算机视觉等强大功能,提供基于角色的访问控制(RBAC)和自带云部署(BYOC)等安全与灵活性选项。提供团队协作功能和无限画布界面,方便用户直观地理解 AI 的工作过程。

Solar

Solar的主要功能

  • 全栈应用开发
    • 后端开发:支持 Python 编程语言,结合 Postgres 数据库,能够快速构建强大的后端逻辑。
    • 前端开发:使用 React 框架,生成美观且功能强大的用户界面。
    • 集成与扩展:支持与多种工具和系统无缝集成,满足不同业务需求。
  • 自然语言指令:用户可以通过自然语言描述需求,Solar 的 AI 智能体能理解并生成相应的代码和应用。
  • 任务自动化:能自动化执行复杂的任务,如数据处理、文件解析、网络爬虫等,显著提高工作效率。
  • 智能体功能:AI 智能体可以浏览文档、运行测试脚本、检查日志,甚至像全栈工程师一样完成多种开发任务。
  • 无限画布界面:提供可视化开发环境,用户可以在画布上直观地构建和管理应用。
  • 团队协作:支持多人协作,方便团队成员共同开发和维护项目。
  • 代码与可视化的结合:保留了代码的灵活性,提供可视化的易用性,用户可以快速理解和修改应用逻辑。

Solar的官网地址

  • 官网地址:https://try.solar/

Solar的产品定价

  • Starter(免费版):适合尝试 Solar 的用户。提供 500 个免费信用点,每月自动补充。
  • Pro(专业版):每用户每月 30 美元。提供 3000 个信用点,额外信用点按每个 0.01 美元计费。适合需要自动化一个工程师工作量的用户。
  • Enterprise(企业版):定制方案,适合需要自动化整个工程团队的企业。提供自带云部署、现场支持和白手套服务。

Solar的应用场景

  • 智能问答系统:通过微调 Solar AI 模型,可以构建智能问答系统,快速响应学生的问题,提升学习体验。
  • 自动化客服机器人:用 Solar AI 构建智能客服机器人,能处理常见客户咨询问题,显著缩短响应时间。
  • 销售助手:自动化网络抓取、潜在客户研究和客户关系管理更新,例如会议销售助手。
  • 辅助诊断:分析患者的电子健康记录(EHR),自动生成诊断建议,辅助医生进行决策,提高诊断准确率。

PageAI – AI网站生成器,自动完成从规划、设计到编码全流程

PageAI是什么

PageAI 是专为专业人士设计的 AI 网站生成器,能将简单的文字描述快速转化为功能完备、设计精美的网站。用户无需编写代码,只需输入需求描述,PageAI 可通过强大的 AI 模型,自动完成从规划、设计到编码的全过程,生成响应式、SEO 优化的网站代码,支持一键部署。提供丰富的定制选项,如主题、字体和布局调整,内置了博客系统、网站地图、RSS 订阅、暗色模式等多种实用功能,满足不同用户的需求。PageAI 采用现代技术栈,如 Next.js、Tailwind CSS 和 TypeScript,确保网站的高性能和可扩展性,帮助用户节省大量开发时间和精力,快速搭建出专业且个性化的网站。

PageAI

PageAI的主要功能

  • AI 多阶段生成流程
    • 规划与研究:分析用户需求,适应业务和受众,使用最佳实践进行规划。
    • 设计阶段:AI 生成主题、文案和线框图,确保设计符合业务需求。
    • 编码阶段:生成响应式、高性能且 SEO 优化的代码,支持现代技术栈(如 Next.js、Tailwind CSS、TypeScript 等)。
    • 定制阶段:用户可以实时编辑主题、字体和布局,满足个性化需求。
    • 部署阶段:一键获取完整代码库并部署到平台(如 Vercel)。
  • SEO 优化与功能丰富
    • 自动生成元标签、JSON-LD、网站地图等,确保网站在搜索引擎中的表现。
    • 提供功能齐全的 MDX 博客系统,支持标签、搜索、多种布局、作者和自定义组件。
    • 自动生成网站图标、RSS 订阅、动态社交图片等。

PageAI的官网地址

  • 官网地址:https://pageai.pro/

PageAI的应用场景

  • 个人主页与作品展示:快速搭建个人网站,展示个人项目、作品集或简历。
  • 营销落地页:生成用于推广活动的落地页,支持 SEO 优化,提升转化率。
  • 个人博客:创建内容丰富、SEO 优化的个人博客,支持多种布局和自定义功能。
  • 设计师:无需编写代码,快速生成设计作品集网站。生成设计提案的演示页面,方便与客户沟通。

Bubble – 无代码AI应用开发平台,通过拖拽元素设计应用

Bubble是什么

Bubble 是领先的无代码应用开发平台,通过可视化编程的方式,让用户无需编写代码即可构建和发布功能齐全的 Web 应用程序。用户可以通过拖拽元素(如文本、按钮、表格等)来设计应用界面,构建数据库以及建立响应用户操作的工作流。Bubble 提供强大的数据库功能、实时预览、丰富的插件生态系统以及 AI 集成等特色功能,支持多种设备,能快速实现创意并发布应用。

Bubble

Bubble的主要功能

  • 可视化界面设计:用户可以通过拖拽组件(如按钮、文本框、图片等)快速构建应用界面。提供丰富的预设模板和组件库,方便用户快速搭建界面。支持响应式设计,确保应用在不同设备上显示。
  • 数据库管理:用户可以创建和管理数据库,定义数据结构和字段。支持数据的增删改查操作,能通过界面操作完成复杂的数据处理逻辑。提供数据导入和导出功能,方便数据迁移和备份。
  • 工作流自动化:用户可以创建工作流,定义应用的行为逻辑,例如用户注册后自动发送欢迎邮件。支持条件判断、循环等逻辑操作,能实现复杂的业务流程。
  • 插件生态系统:提供丰富的插件库,用户可以通过安装插件扩展应用功能,例如集成支付系统、地图服务等。插件由社区开发者和官方提供,覆盖多种应用场景。
  • AI 集成:支持与 AI 工具集成,例如通过自然语言处理实现智能客服、机器学习实现数据分析等功能。提供 AI 模型的调用接口,方便用户在应用中嵌入智能功能。
  • 实时预览与测试:用户在开发过程中可以实时预览应用效果,快速调整和优化界面。提供测试功能,帮助用户发现和修复问题。
  • 云托管与部署:Bubble 提供云托管服务,用户无需关心服务器配置和运维。支持一键部署,快速将应用上线。
  • 团队协作功能:支持多人协作开发,团队成员可以共同参与项目设计和开发。提供版本控制和权限管理功能,方便团队管理。

Bubble的官网地址

  • 官网地址:https://bubble.io/

Bubble的应用场景

  • 初创公司快速构建 MVP:Bubble 是初创公司快速搭建最小可行产品(MVP)的理想选择。拖拽式界面和可视化编辑器让创业者无需深厚技术背景,可将创意转化为功能原型,快速推向市场以验证概念。
  • 企业内部工具开发:企业可以用 Bubble 快速开发定制化的内部管理工具,优化业务流程。
  • 电商网站搭建:Bubble 支持构建复杂的电商网站,包括商品展示、购物车、支付流程等功能。
  • 社交平台开发:Bubble 能构建社交网络平台,支持用户注册、好友互动、内容发布等功能。

Knowunity – AI学习辅导应用,覆盖小学到高中所有学科

Knowunity是什么

Knowunity是AI学习辅导应用,能帮助学生更高效地学习和备考。提供无限的练习测验和抽认卡,覆盖从小学到高中的所有学科,包括AP和SAT等考试。基于拍照功能,学生获得问题的详细步骤解释。Knowunity提供互动测验和个性化考试建议,帮助学生更好地掌握学习内容。用户能免费访问超过1700万学生的学习笔记,支持上传自己的学习材料,参与社区互动,帮助他人,同时提升自己的学习体验。

Knowunity

Knowunity的主要功能

  • 无限练习测验和抽认卡:涵盖所有学科,包括120万AP问题。
  • 拍照获取详细解释:用户基于拍照获取问题的详细步骤解释。
  • 互动测验和关键词:支持用户在学习和巩固材料的同时进行互动。
  • 个性化测试准备和考试建议:根据用户的学习情况提供个性化的测试和考试建议。
  • 免费学习笔记:提供数千名顶尖学生的学习笔记,帮助用户备考。

Knowunity的官网地址

  • 官网地址:https://knowunity.co.uk/

Knowunity的应用场景

  • 学习与备考:学生用抽认卡、测验巩固知识,备考时用专项练习和模拟测验提升应试能力,支持拓展学习课外知识。
  • 社区互动与互助:学生加入学习小组交流心得,上传学习资料分享互助,遇难题在社区求助获取解答。
  • 个性化学习:应用依学生学习进度推荐合适内容,助力学生按目标和时间制定个性化学习计划。
  • 课堂辅助:学生课前用应用预习新知识,课后复习巩固课堂所学,提升学习效果。
  • 知识管理与整理:学生整理上传个人学习资料方便复习,借助应用资源完善知识体系。

MindOmni – 腾讯联合清华等机构推出的多模态大语言模型

MindOmni是什么

MindOmni 是腾讯 ARC Lab 联合清华大学深圳国际研究生院、香港中文大学和香港大学等推出的多模态大型语言模型,基于强化学习算法(RGPO)显著提升视觉语言模型的推理生成能力。模型用三阶段训练策略,首先构建统一视觉语言模型,基于链式思考(CoT)数据进行监督微调,用 RGPO 算法优化推理生成。MindOmni 在多模态理解与生成任务中表现卓越,在数学推理等复杂场景下展现出强大的推理生成能力,为多模态 AI 的发展开辟新路径。

MindOmni

MindOmni的主要功能

  • 视觉理解:支持理解和解释图像内容,回答与图像相关的问题。
  • 文本到图像生成:根据文本描述生成高质量的图像。
  • 推理生成:能进行复杂的逻辑推理,生成包含推理过程的图像。
  • 视觉编辑:对现有图像进行编辑,如添加、删除或修改图像中的元素。
  • 多模态输入处理:支持同时处理文本和图像输入,生成相应的输出。

MindOmni的技术原理

  • 模型架构
    • 视觉语言模型(VLM):基于预训练的 ViT(Vision Transformer)提取图像特征,用文本编码器将文本输入转换为离散的文本标记。
    • 轻量级连接器:用在连接 VLM 和扩散解码器,确保特征在不同模块之间的有效传递。
    • 文本头:处理文本输入和生成文本输出。
    • 解码器扩散模块:负责生成图像,基于去噪过程将潜在噪声转换为实际图像。
  • 三阶段训练策略
    • 第一阶段:预训练,让使模型具备基本的文本到图像生成和编辑能力。将图像文本对和 X2I 数据对训练连接器,确保扩散解码器能无缝处理 VLM 的语义表示。基于扩散损失和 KL 散度损失作为优化目标函数。
    • 第二阶段:基于链式思考(CoT)指令数据进一步优化模型,生成逻辑推理过程。构建一系列粗到细的 CoT 指令数据,用指令数据对模型进行监督微调。
    • 第三阶段:基于强化学习进一步提升模型的推理生成能力,确保生成内容的质量和准确性。推出推理生成策略优化(RGPO)算法,用多模态反馈信号(包括图像和文本特征)指导策略更新。引入格式奖励函数和一致性奖励函数,评估视觉语言对齐情况。基于 KL 散度正则化器稳定训练过程,防止知识遗忘。

MindOmni的项目地址

  • 项目官网:https://mindomni.github.io/
  • GitHub仓库:https://github.com/TencentARC/MindOmni
  • arXiv技术论文:https://arxiv.org/pdf/2505.13031
  • 在线体验Demo:https://huggingface.co/spaces/stevengrove/MindOmni

MindOmni的应用场景

  • 内容创作:根据文本描述生成高质量图像,用在广告、游戏、影视等行业的视觉内容创作,加速创意设计流程。
  • 教育领域:生成与教学内容相关的图像和解释,辅助教学,帮助学生更好地理解和记忆复杂概念,提升学习效果。
  • 娱乐产业:在游戏开发中生成角色、场景和道具,加速开发流程;为影视制作提供故事板和概念图,丰富创意表达。
  • 广告行业:生成吸引人的广告图像和视频,提高广告效果。
  • 智能助手:结合语音、文本和图像输入,提供更自然、更智能的交互体验,满足用户多样化的需求。

Stream-Omni – 中科院联合国科大推出的语言视觉语音模型

Stream-Omni是什么

Stream-Omni是中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室及中国科学院大学联合推出的类似GPT-4o的大型语言视觉语音模型,能同时支持多种模态组合的交互。模型支持大型语言模型为骨干,基于序列维度拼接实现视觉文本对齐,基于CTC的层维度映射实现语音文本对齐,高效地将文本能力迁移到语音模态。Stream-Omni在视觉理解、语音交互及视觉引导的语音交互任务上表现出色,基于少量的全模态数据(如23000小时语音数据)训练。模型能在语音交互过程中同时提供中间文本输出,如自动语音识别(ASR)转录和模型响应,为用户提供更丰富的多模态交互体验。

Stream-Omni

Stream-Omni的主要功能

  • 多模态输入与输出:支持文本、视觉(图像)和语音等多种模态的输入,能同时生成文本和语音响应。
  • 无缝“边听边看”体验:在语音交互过程中,能实时输出中间文本结果(如自动语音识别ASR转录和模型响应),为用户提供更丰富的交互体验。
  • 高效训练:仅需少量全模态数据(如23000小时语音数据)训练,对数据需求量小,训练效率高。
  • 灵活的交互模式:支持多种模态组合的交互,包括文本+视觉→文本、文本+视觉→语音、语音+视觉→文本、语音+视觉→语音等,满足不同场景下的交互需求。
  • 视觉理解与语音交互:在视觉理解任务和语音交互任务上表现出色,能准确理解和生成与视觉内容相关的文本和语音信息。

Stream-Omni的技术原理

  • 基于LLM的骨干架构:基于大型语言模型(LLM)为核心,用其强大的语言理解和生成能力,为多模态交互提供基础支持。
  • 视觉文本对齐:基于序列维度拼接的方式,将视觉编码器提取的视觉特征与文本输入进行拼接,再共同输入到LLM中,实现视觉和文本模态的对齐。
  • 语音文本对齐:引入基于CTC(Connectionist Temporal Classification)的层维度映射,在LLM的底部和顶部添加语音层,实现语音到文本的映射和文本到语音的生成,将语音模态与文本模态对齐。
  • 多任务学习:基于多任务学习策略,同时训练视觉文本、语音文本及全模态(视觉+文本+语音)的任务,让模型更好地理解和生成多模态内容。
  • 实时语音生成:基于特殊的语音层设计和层维度映射,Stream-Omni在生成文本的同时,实时生成对应的语音输出,实现流畅的语音交互。
  • 数据驱动与监督学习结合:模型依赖少量多模态数据进行训练,基于精心设计的对齐机制和多任务学习,能在有限的数据上实现高效的模态对齐和交互能力。

Stream-Omni的项目地址

  • GitHub仓库:https://github.com/ictnlp/Stream-Omni
  • HuggingFace模型库:https://huggingface.co/ICTNLP/stream-omni-8b
  • arXiv技术论文:https://arxiv.org/pdf/2506.13642

Stream-Omni的应用场景

  • 智能车载系统:司机基于语音指令查询路线、获取路况,系统结合视觉信息(如导航地图、路况摄像头图像)实时显示文本提示和语音反馈,提升驾驶安全性和交互效率。
  • 教育辅助工具:在教育场景中,学生用语音提问,系统依据教材视觉内容(如图表、图片)给出详细文本解释和语音回答,帮助学生更好地理解和学习知识。
  • 智能家居控制:作为智能家居助手,用户基于语音指令控制家电设备,系统结合视觉输入(如摄像头捕捉的环境信息)提供文本或语音反馈,实现更智能、便捷的家居控制。
  • 医疗辅助诊断:医生在查看患者病历时,基于语音指令查询关键信息,系统结合视觉报告(如X光片、CT图像)提供详细的文本分析和语音解释,辅助医生更准确地做出诊断。
  • 智能客服服务:在客服领域,客服人员用语音与客户交流,系统实时显示相关文本信息和视觉提示(如产品图片、操作流程图),帮助客服人员快速理解客户需求并提供准确解答,提升服务质量和效率。

深度访谈Head AI创始人Kay,不睡觉的AI增长负责人

马车从来不是汽车的对手。

最近,Head AI 发布获得了很多关注,它称自己为「Worlds’s First AI Marketer」。Head AI 在获得锦秋和金沙江投资后,朱啸虎在多个场合提及和安利 Head AI,对这个团队和产品的喜爱之情溢于言表。

今天,「十字路口」与 Head AI 的 00 后创始人 Kay Feng 进行了一场深度访谈,从「你的 ARR 是怎么算的」到「你的壁垒是什么」,她回应了我们提出的所有问题。

👦🏻 Koji

用一句话给大家安利 Head AI 的话,你会怎么介绍它?

👧🏻 Kay

只需告诉 Head 你的预算和网站,它就能自动搞定达人营销、联盟营销和 Cold Email ——像个不睡觉的 AI 增长负责人,一人干掉整个市场部。

Head

👦🏻 Koji

Head AI 的目标用户是谁?Head AI 帮他们解决了哪些问题?

👧🏻 Kay

Head 的目标用户分三类:

第一类是创业团队,或者早期品牌创始人。

他们很清楚自己要起量,但手里没人、也没太多试错成本。

我们给这类人提供的是一个“可以替你交付结果”的 AI。你把网址和预算一填,剩下的不用你操心——资源怎么找、内容怎么写、怎么谈达人、怎么投放,Head 全自动搞定。以前团队可能要招几个人做的事情,现在偶尔有一个人看一下就可以了。

第二类是大品牌、有团队的公司。

他们的问题不是资源不够,而是人太多、流程太重,执行跑不起来。

冷启一个新产品,光走审批流程就一周过去了,等人协调完,流量已经被别家拿走了。

我们让他们用 Head,直接把「内容生产」「达人谈判」「冷启动分发」全部接入自动化链路,一套 campaign 并发跑多个版本,最后再自动收敛出最有效的策略扩大投放1。

这类客户用了之后的反馈很直接:“Head 不是提效,是直接替我做掉了一个部门或者agency。”

第三类是 agency,包括以前靠人力交付的服务型公司。

他们过去要靠团队手动帮客户谈达人、发 campaign、收数据、做报告,重、杂、不赚钱。

现在他们把这一整段交给 Head 跑,只专注做好「客户服务」和「人工价值比较重的那一段」

等于是把交付外包给了 AI,自己留住了人能做的价值密度最高的一公里。

过去他们靠人力在交付,今天他们靠 Head 在交付。

从外包变成了 AI 驱动的智能服务商,效率、利润都成倍提升。

这三类用户,看上去不一样,但本质是一样的:

都在从“靠人”向“靠系统”过渡,想要增长这件事变得更轻、更快、更确定。

而我们做的事情就是把这套AI增长系统跑通,让任何一个品牌、一个服务商、一个团队,都能从零开始拥有一套自动执行、自动优化、自动 scale 的 AI 增长引擎。

👦🏻 Koji

Head AI 拿到了锦秋的投资,也是朱啸虎投资并常挂嘴边很关注的公司。你当初是如何 pitch 他们投资你的?

👧🏻 Kay

与其说我们怎么 pitch 的,不如说他们是真的看懂了我们在做的事。

这个项目不是靠“共识”能投的,理解它是有门槛的。营销这个行业,坑确实很多——如果看得不深、不透,很容易踩雷。很多机构踩过之后就不敢再碰了。但就像朱啸虎说的:中国投资人从来不是靠共识赚钱的。

我们特别喜欢我们的投资人,很同频,对我们帮助也非常大。

锦秋的杨洁、天宇和智媛,他们整个团队对达人和商业化的理解都非常深。我们第一次聊,不到 30 分钟杨洁就拍板给了 TS,也是过去在上一家公司的积累让他们能一眼看出背后的机会。

朱啸虎老师就更狠,他太懂社交媒体和营销了,经常是他第一时间把行业热帖转给我,高强度冲浪,永远活跃在一线。Daisy 也是一样,判断准、动作快,真的和创业者站在一起。

👦🏻 Koji

融资过程中,你遇到最 impressive 或 surprise 的问题是什么?

👧🏻 Kay

融资过程中让我最惊讶的两个问题是:

“你没上大学,会不会影响工作?”

“你这么年轻,团队会不会不服你?”

说实话,这两个问题在现实中没带来过困扰。

如果“年轻”和“没上大学”真是门槛,那这个世界的门槛也太低了。

这两件事恰恰是我最骄傲的选择——我始终靠自己的判断走路。

真正难的,不是写出一份标准履历,

而是在极短时间内做出结果,还要保证这个方向5年、10年后依然成立。

前阵子有人问我:

《如何发现一个20岁就值得投的人》里那个把自己当联创在干、几年后独立创业的00后,是不是你?

是我。我知道很多人当时没看懂我。但我也从没指望一开始就被看懂。

对真正的创业者来说,表面上的“劣势”从来不是问题,

有时候,它反而是你在这个赛道的天赋。

我们习惯在逆境里杀出一条路,做那些别人觉得不可能的事。

我想把这段话留给还在路上的年轻人:

很多人早就老了。他们不懂你,不是你的问题。你不需要一开始就被理解,你只要一直跑,总有人会追上来听懂你。

王宁也好,我们也好,所有曾经被低估的人也好,

只要你真的做对了事,最后一定是你赢。

这个世界上大众的评价体系是——

不红就是原罪,红了什么都对。

最后想把余华老师的一段话送给还在路上的人:

十八岁出门远行,终究要和这个世界交手,哪怕摔得鼻青脸肿。夜深人静时,把心从胸口逃出来,自己缝缝补补,再睡一觉,第二天又是信心百倍。没人问也没关系,不如人也别怕。试着安静下来,心可以睡,手不能停。该干的事,继续干。真正的成长,不是没有崩溃,而是在崩溃中继续前行。

忙起来之前,我常去攀岩、跑斯巴达赛。

不是为了赢谁,只是为了逼自己一遍遍确认,我不是个轻易认命的人。

手脚常带伤,但每次越疼,我反而越清醒。

我上瘾的不是胜利,而是那种快撑不住了,却还是往上爬的感觉。

👦🏻 Koji

红杉美国的最新趋势讨论里说到的 AI 时代的 toB 产品按结果付费,Head AI 也采用了这种方式。你们是出于什么考虑?

👧🏻 Kay

Head 从第一天就坚持「按结果付费」(Pay for Outcome),这是我们主动选择的战略路径,也源自我过去作为市场负责人的核心诉求。

Head AI 定价模式

因为我太清楚传统 SaaS 工具的痛点了:你付了钱,却得自己组团队、拉数据、找资源、搞投放,最后效果还不一定好。

而市场负责人最关心的,其实只有一件事——“能不能帮我拿结果。”

所以当我们做 Head 的时候,就定下一个标准:

客户不是来租一套软件的,而是来雇一个能跑增长的 AI。

我们做的是自动化执行,而不是辅助操作。如果我们真的能跑通链路,就应该对结果负责。

如果不能,那也不该收这笔钱。

这背后的底层是信心 ——

我们知道自己做的是能完成任务的 AI 营销系统。

它真的可以自动找到达人、生成内容、压价谈判、跑完 campaign。我们有这个能力,所以敢用结果做定价锚点。

而从商业角度看,这种模式也让我们和客户绑定得更紧:

客户转化得越好,我们赚得越多;客户跑不出结果,我们就拿不到钱。

这才是我们真正想建立的关系 —— 不是“服务商与采购方”,而是“共同承担结果的增长搭档”。

👦🏻 Koji

对于按结果付费的模式,客户们更多是支持、还是反对?

👧🏻 Kay

绝大多数客户是支持的,甚至可以说,这正是他们选择 Head 的原因之一。

传统 SaaS 模式的核心问题是:你付费了,结果还要自己做。

而在 Head,「按结果付费」反而让客户感到放心,因为它意味着:

  • 你们会对结果负责,无效100%退款
  • 我不需要预支信任,可以看到结果再付钱
  • 你们有信心跑出结果,才敢用这个模式

特别是那些有过传统投放经验的品牌,更能理解这点。他们经历过买平台、招团队、找 KOL 却投不出效果的痛,所以反而更愿意尝试 Head 这样的方式:我出预算,你跑效果,跑出来我们再继续加钱。

👦🏻 Koji

你在 Head 的定价模型中,强调”按结果付费 + 公开价格”是一个革命性的突破。我看到你们把具体的行动,比如”成功触发一次自动化任务”、”产出一个合格线索”都明码标价,这确实对产品驱动型创业者很有吸引力。

但我也好奇—— Sierra 选择不公开定价是为了适配企业级客户、复杂的目标定义和高价值交易流程。相比之下,Head 能做到标准化,是因为产品本身更智能,还是因为主动避开了那些复杂但高价值的 use case?

👧🏻 Kay

Sierra 不公开定价,是因为他们只做大客户,走的是高客单、低频、强服务的路线。而 Head 的客户结构完全不同——我们服务的是从 SMB 到上市公司,来自全球 200+ 个国家和地区,增长速度非常快。

在这样的体量和节奏下,如果不标准化,就根本跑不动。

所以我们必须在产品层面把复杂问题拆解掉,真正把“抽象”做深。这不是因为我们回避复杂的 use case,而是我们主动把复杂的事情变成了产品能力。

今天你无论是几个人的小团队,像 Lovart 这种快速增长的公司,还是像霸王茶姬这样的上市品牌,都能在 Head 上获得满意的结果。小客户可以自助启动,KA 客户有 VIP 通道,我们在流程和服务上有分层,但定价体系是一体的,都是公开透明、按结果付费。

我们确实很讨厌那种靠人情、靠关系、靠模糊空间赚钱的营销方式,不符合我们的价值观。我希望营销这件事水更浅一点,手更干净一点。作为一家平台型的公司,这是我们基本的担当和承诺。

所以我们选择了这种定价方式。这不只是策略,是我们对这个行业的基本判断和价值观。

当然,这也意味着我们会被更多人提意见。但我们敢公开定价,也敢挨骂,敢被质疑,更敢持续优化。

👦🏻 Koji

你认为 Head 这种公开定价的模式能否扩展到像 Sierra 那样的 Enterprise use case?或者说,你们认为未来的 agent 本就不该走定制化路线?

👧🏻 Kay

我们认为 Enterprise 并不等于“定制化”,而是“复杂的需求要通过系统能力来满足”。今天也已经做到了初步验证,有很多上市公司客户长期选择了我们,我们非常重视KA客户。

Head 不是不能做 Sierra 那种 Enterprise use case,而是我们选择用不同的方法来做:不是只靠人力服务堆上去,而是靠更强的产品抽象和 AI agent 的自主能力。

未来的 agent,不应该是每个客户都要重新训练、重新配置的“定制化工具”,而应该是能理解目标、自动拆解任务、在通用框架内灵活执行的“策略体”。

所以哪怕是最复杂的 Enterprise 客户,在 Head 也可以用标准化的入口和定价启动,然后通过 API、VIP 通道和策略规则扩展出他们的专属路径,但底层逻辑是统一的。这是我们能规模化跑得快、全球服务 200+ 国家用户的前提。

我们相信未来的智能 agent,终将像云计算一样——起步门槛低,可用性强,复杂性由平台内部消化,而不是转嫁给客户。

👦🏻 Koji

我看到 Head AI 14 天内 ARR 破 250 万美金,恭喜你们!但最近大家对于 ARR 的计算有不少争议的声音,可以展开讲讲 Head AI 是怎么算的吗?

👧🏻 Kay

谢谢!确实有很多朋友关心这个数字怎么算的。

我们的 ARR 算法其实很保守——我们过去几周的周收入稳定在 5 万美金以上,我们就按这个数 x52 周,往低估算了个 250 万美金的ARR。并没有特意放大,而是用户真实消费的收入。

我们选择公布 ARR,是因为它比日活、注册用户这些指标更能代表产品的真实价值——有没有人愿意花钱,愿意持续使用,是更底层的判断。

当然,Head 还在非常早期,也还在快速迭代。我们相信只要产品能持续帮客户跑出结果,增长是自然而然的。

👦🏻 Koji

你认为 Head AI 的竞争对手是谁?

👧🏻 Kay

Head AI 没有“竞品”,我们在干掉一个旧的行为方式。

我们不是在跟某个工具竞争,至少今天我们没有看到跟我们愿景一样的公司。

我们是来让市场部这整个组织,发生演化的。

你可以说我们跟 Jasper、Icon 等知名市场工具是同行,和达人 SaaS 和 Cold Email SaaS是邻居。

但本质上,我们走的不是同一条路。

他们还在帮人类“提高效率”,我们已经在让 AI 直接“接管职责”。

我们的对手,是现在还靠成千上万个人一个个去拉资源、写话术、盯投放的整个增长体系。

不是工具对工具,而是物种对物种。

就像马车从来不是汽车的对手。汽车的对手是:你还在以为自己需要马车。

所以我们不是在打 SaaS 的仗,

我们在挑战一种认知,一种组织方式,一种落后的思维默认值。

👦🏻 Koji

我上周遇到一位创业者,他提到使用了 Head AI 的产品后,接单的 KOL options 中让他满意的不多。目前你们推荐给客户的接单 KOL,被客户采纳的比例有多高?

👧🏻 Kay

其实我挺希望知道是哪位客户提到的,我们会回查优化。

Head 是一家成立不到一年的公司,产品上线才 15 天,就已经有了几万名用户,增长非常快,也很 viral。

作为一个通用型 AI 营销产品,要跨越行业、认知、语言,第一天就让所有人满意,是不现实的。

先说结论:我们确实还有很多不完美的地方。

增长太快,带来了不均衡。今天并不是所有客户都满意,

但我作为创始人,最关注的,也是这个问题。

我现在仍然花时间看每一条用户反馈,问题我都知道,也非常重视。

我们作为 ToB 公司的立身之本,不是高大上的技术,而是客户到底有没有跑出结果。

为了收集反馈、让更多人骂我们,我的邮箱会发给所有客户,每个人都能直接约我开会。我们真的在用尽一切方式去听:用户怎么想、怎么骂、怎么改。

客户骂我们,我特别能理解,因为增长和营销对公司来说太重要了。不重要的事,大家根本不会骂你。所以我们更该把这件重要的事做到最好。

我们搞砸过很多事,尤其在最早的 100 个客户身上,可能有 80 个都不满意。

但正是那些“不满意”,帮我们踩清了坑、找准了方向,让今天这个产品可以跑通。今天也许还有 30 个客户不满意,但我们在进步。我们每周都在快速迭代,每周都在解决问题。

我们特别感谢这最早的100个客户,没有他们就没有我们的今天。包括公开场合的负面声音,我也感谢。

我始终相信:

最好的回应,不是发言,而是把事做对。

我们甚至有一些客户,在一年里给了我们三次、四次机会继续试、继续优化。

带着这些真正理解创新的信任。我只希望我们能跑得再快一点,不辜负那些始终愿意给我们时间的人。

比如你提到的达人推荐命中率,目前客户采纳率平均在 30%-50%,确实也会有 bad case,每一个我们都会回查并快速优化。

不同国家、行业、预算阶段、使用者的偏好的差异非常大,我们在持续调优模型、机制和响应流程。

我们做的不是“搜索达人”,而是让 AI 真正跑通一个完整的 campaign。

这件事过去没人真正做成过,我们初步做出来了,但它还远不完美。

目前未经优化的复购率是 60%。

对一个刚上线 15 天的 ToB 产品来说这不算低,

但我们不满足,我们想做的是一个长期可复用、可复利的系统能力。

更重要的是,我们有很多用户本身就是 CEO、市场负责人、增长专家、business owner。

他们不断给我们反馈、挑战、建议,有些功能的灵感、有些判断的纠偏,都是他们一起帮我们做出来的。

我们从不觉得自己在“服务”客户,更多时候,我们是在和一群真正理解创新的人并肩作战。

这也是为什么我们愿意持续做下去——因为这件事虽然难,但它值得。

我们公司墙上,挂着一张 SpaceX 猛禽发动机的照片。那次点火失败,引擎没全亮,最终爆炸。我们一直留着这张照片。

不是纪念失败,而是提醒自己:耻辱的从来不是爆炸,是从不敢点火。Head 就是这样开始的。

不是万无一失,而是点燃一切,直面失控。

因为所有真正的推进,都始于失控。

👦🏻 Koji

Head AI 的壁垒是什么?这个壁垒和 AI 有哪些方面的关系?

👧🏻 Kay

1. 双边网络结构(品牌 + KOL)

我们不是一个工具公司,而是一个 AI + 网络结构双向驱动的平台。

一端是品牌客户的持续投放与复购,另一端是覆盖全球的数千万达人和创作者资源。

中间由 AI 扮演撮合、出价、博弈和交付的角色,持续优化匹配质量、压低获客成本、提升 campaign ROI。

这让我们拥有平台型护城河:

  • 品牌越多 → 训练越多 → 投放越准
  • 达人越多 → 博弈越强 → 价格越低

我们既是决策引擎,也是流量入口,更是博弈调度器。

2. 决策闭环能力(AI 能从目标走到结果)

大部分 AI 工具做的,是内容生成或策略辅助,最后还是靠人来执行。

Head 的 AI 从「你给预算和产品链接」,能一路决策到「找达人、写话术、定价格、发 campaign」,真正形成一个闭环执行体。

这背后的壁垒在于:

  • 我们打通了人货场信息结构
  • 建立了适配 campaign 执行逻辑的决策模型
  • 引入博弈与 ROI 优化机制

3. 数据飞轮 & 自我进化系统

每一次 campaign 的执行,都会带来真实的行为反馈数据,例如:

达人是否接受、话术是否通过、最终转化如何……

这些数据不是被动记录,而是直接进入我们的模型训练和匹配优化系统,形成决策引擎的内循环。

这意味着:

  • 模型越跑越准(推荐与报价更贴合场景)
  • 系统越跑越快(重复劳动越少,转化率越高)

而这一切,只有能完成“从决策到交付”的 AI 系统,才有资格采集与学习。

👦🏻 Koji

你选择高中辍学创业。如果可以重来一次,你还会做一样的选择吗?

👧🏻 Kay

我会。

我觉得提早进入现实世界对我来讲只有好处没有坏处。

别人还在背课本,我已经在一线做增长、赚到第一桶金。

很多人以为不上学就不学习,但真正的学习,从来不需要教室和监督。

我学得比谁都快,因为我希望做出真正的结果。

学习不是义务,而是个人兴趣。

所以我从不觉得自己放弃了什么,我只是选择了一条更高强度的成长路径。

如果可以重来的话我会选一样的路,

只是这次,我会跑得更快,赌得更大。

👦🏻 Koji

你的微信签名是「士亦视有益于世否耳」,我理解这是在表达一种“以天下为己任”的责任感。我想知道这样的 vision 是在何时、因何事而生的?

👧🏻 Kay

其实它不是某一刻突然冒出来的想法。

而是在我创业的过程中,一点点沉淀下来的。

我一直觉得自己是个很幸运的人。虽然这条路上压力极大,永远在高速奔跑、在做突破,但我确实亲眼见到了时代的风,撞上了属于自己的红利,也真的从中受益了。

但我从来不觉得这是理所当然的运气。

所以越是幸运,越觉得应该付出更多。

既然得到了,就应该去做一些有价值的事,把这份回报还给世界。

从我创业的第一年开始,我就经常跟身边人说:“我希望我做的事情,是有意义的。”

当时其实挺多人不理解,觉得我讲得太虚了,太早了。

直到有一天,我刷到一个up主,讲清朝首席军机大臣刘统勋的一句话:“士亦视有益于世否耳。”

那一瞬间我真的很震撼。

像是穿越几百年,有人把我这些年一直说不清楚的执念,用一句话讲清了。

“这个世界,会不会因为我,变好了一点点?”

如果答案是“会”,那这一切辛苦、选择,哪怕是孤独,都变得值得。

👦🏻 Koji

Head AI 的团队有多少人?是什么配置?

👧🏻 Kay

我们团队不到 20 人

除了我和 co-founder,我们有 11 位工程师(覆盖 AI、后端、前端、基础架构),3 位产品与设计师,以及 2 位负责增长、运营和支持的成员。

整个团队非常精干,每个人都能独立做一个完整模块,从需求到交付。

我们公司的淘汰率非常高,不是为了制造压力,而是因为我们对一个人“到底能不能打仗”有非常严谨的标准。

我们看两件事:

有没有创业心态,能不能把事做成。

不看履历、不看 title,只看你能不能解决问题。

前段时间,我们坐在办公室,看 Head 自己开发布会。

我坐在角落拍了一张照片。那一刻有点不真实——

像是在看一个你亲手创造的生命,第一次独自站上舞台。

那不是代码,是人类意志的延续。

看着一群二十出头的年轻人坐在一起,兴奋、专注、闪闪发光,

站在这个世界变化迅速的十字路口,

我只觉得:有这样一群人一起走,真好。

👦🏻 Koji

你认为你们是 AI Native 的一个公司/组织吗?为什么?

👧🏻 Kay

我们就是一家为 AI 而生的公司。

从第一天起,Head 就不是“让 AI 辅助人类工作”,而是反过来,

我们在让人类辅助 AI 把事情跑通。

AI 决定投放策略,AI 主导选人谈价,AI 执行 campaign,人类只做一件事:设定目标和预算。

我们不把 AI 当工具,而是当作一个新的决策主体,一个新物种。

我们在海外发了一支宣传片叫 《Think Beyond》,核心就是这个观点:

AI 不是工具,它是一个新物种。与其让它听人类指挥,不如交出权力,看看它能做到什么程度。

这是我们和市面上“AI 增强工具”的本质区别:

他们在保留旧组织,我们在构建新物种的工作方式。

这才是真正的 AI Native,不只是用了 AI,而是从底层承认它的独立智能。

👦🏻 Koji

20 岁就做创始人和 CEO,我猜你应该是团队中最年轻的吧?你如何管理比你年龄大的同事们呢?

👧🏻 Kay

在 Head,没有人是靠年龄和资历赢得尊重的。我们只有一个标准:谁能把事情做成。

我从不觉得“比我年长”是管理的难点,反而一直觉得这是一种互相选择的关系。

愿意加入一个 20 岁 CEO 的人,本身就不是来找上级的,而是来找方向和战场的。

他们不是在等安排,而是主动冲锋,一起打仗、一起赢的人。

我不会去“装成熟”,也不会模仿什么管理套路。

我的角色不是站在上面指挥的人,而是那个在混乱中做判断、扛结果的人。

其实我从来没在“管人”,我只吸引那些不需要被管、只认结果的人。

至于不适配的,我也从不犹豫。

我 18 岁在上家公司时就扛着带着团队往前走的压力,那时候没有 CEO 的 title,

但我一样得推动所有事、带动所有人。当你没有权力,还能影响别人,那才是真正的影响力。

所以今天这张写着“CEO”的名片,只不过是把我早就承担的责任,盖了个章而已。

别人靠履历赢信任,我更喜欢靠结果。

我觉得我对“做成”有病态的渴望。

它逼着我全力以赴,也逼着别人相信我。

👦🏻 Koji

在 AI 领域,你认为 2025 年一定会发生的事情是什么?

3 年内呢?

5 年内呢?

👧🏻 Kay

2025年一定会发生的事:

AI 不再只是建议工具,而是直接操盘营销。

写文案、谈达人、跑 Cold Email、投广告,AI 已能闭环执行。不是“辅助人类”,而是“替代动作”。营销部门内已经能替代多个岗位。老板会算账:一个 AI agent,跑的是过去一个团队干一周的量,而且没有请假、跳槽、低效会议。对中小公司来说,这不是科技浪潮,是生存刚需。

3 年内(到 2027):

没有 AI 原生结构的公司,会被拉开生死差距。

就像错过社交媒体时代的品牌逐步掉队,未来没有 AI-native 增长栈(自动决策 + 自动执行)的公司,将陷入“人效低 + 预算贵 + 决策慢”的困境。AI 不再是提效工具,而是拉开增长上限的“结构性红利”。这不是选不选择的问题,而是早晚被迫重构的问题。

5 年内(2030 前):

组织结构会围绕 AI 被彻底重构。

未来的公司不是“一岗一人”,而是“AI + 少数人类作为优化器的角色”。一个 Head AI 可以替代市场部的大量重复动作,公司将只保留最关键的角色:策略判断、品控审核、模型调整。AI 是执行主力,人类是辅助角色。组织会越来越扁平,越来越快,越来越自动。

原文链接:「一人干掉整个市场部」| 对谈 Head AI 创始人 Kay

盘古大模型 5.5 – 华为推出的新一代AI大模型

盘古大模型 5.5是什么

盘古大模型5.5是华为在开发者大会(HDC 2025)上发布的最新一代人工智能大模型。模型强调“不作诗,只做事”,专注于解决实际产业问题,推动千行百业的智能化升级。盘古大模型5.5包含五大基础模型,分别面向自然语言处理(NLP)、多模态、预测、科学计算和计算机视觉(CV)领域。

盘古Ultra MoE是一个7180亿参数的深度思考模型,基于昇腾全栈软硬件协同打造,具备高效长序列处理、低幻觉、深度研究等核心能力。盘古Pro MoE是一个72B A16B的模型,在智能体任务上表现优异,比肩6710亿参数的DeepSeek-R1。盘古大模型5.5引入了自适应快慢思考合一技术,提升了推理效率,通过多模态世界模型为智能驾驶和具身智能机器人训练提供支持。

盘古大模型 5.5

盘古大模型 5.5的主要功能

  • 自然语言处理(NLP)
    • 高效长序列处理:通过Adaptive SWA和ESA技术,能够轻松应对100万token长度的上下文。
    • 低幻觉:采用知识边界判定和结构化思考验证等创新方案,提升模型推理的准确度。
    • 快慢思考融合:自适应快慢思考合一技术,根据问题难易程度自动切换思考模式,简单问题快速回复,复杂问题深度思考,推理效率提升8倍。
    • 深度研究能力:盘古DeepDiver通过长链难题合成和渐进式奖励机制,在网页搜索、常识性问答等应用中表现出色,可在5分钟内完成超过10跳的复杂问答,并生成万字以上专业调研报告。
  • 多模态
    • 世界模型:为智能驾驶、具身智能机器人训练构建数字物理空间,实现持续优化迭代。例如在智能驾驶领域,可生成大量训练数据,无需依赖高成本路采。
  • 预测
    • triplet transformer架构:将不同行业的数据进行统一的三元组编码和预训练,提升预测精度和跨行业、跨场景的泛化性。
  • 科学计算
    • AI集合预报:例如深圳气象局基于盘古大模型升级的“智霁”大模型,首次实现AI集合预报,能更直观地反映天气系统的演变可能性。
  • 计算机视觉(CV)
    • 300亿参数视觉大模型:支持多维度泛视觉感知、分析和决策,构建工业场景稀缺的泛视觉故障样本库,提升业务场景的可识别种类与精度。

盘古大模型 5.5的模型介绍

  • 盘古 Ultra MoE
    • 超大规模与稀疏激活:拥有 7180 亿参数,采用 256 个路由专家,每个 token 激活 8 个专家,激活量为 39 亿,具备超大规模和高稀疏比的特性。
    • 先进架构设计:引入 MLA(Multi-head Latent Attention)注意力机制,有效压缩 KV Cache 空间,缓解推理阶段的内存带宽瓶颈。同时采用 MTP(Multi-Token Parallelism)多头扩展,通过单头 MTP 训练后扩展至多头结构,实现多 Token 投机推理,加速整体推理过程。
    • 稳定训练技术:提出 Depth-Scaled Sandwich-Norm(DSSN)稳定架构和 TinyInit 小初始化方法,解决了超大规模 MoE 模型训练过程中的稳定性难题,实现了超过 18TB 数据的长期稳定训练。
    • 高效负载优化:采用 EP group loss 负载优化方法,保证各个专家之间保持较好的负载均衡,同时提升专家的领域特化能力。
    • 训练策略优化:使用 Dropless 训练策略,避免 Drop&Pad 训推不一致问题,提升训练的数据效率。此外,采用迭代难例挖掘与多能力项均衡的奖励函数,参考 GRPO 算法,提升模型的训练效率与最终推理性能。
  • 盘古 Pro MoE
    • 分组混合专家架构:创新性地提出分组混合专家模型(MoGE),在专家选择阶段对专家进行分组,并约束 token 在每个组内激活等量专家,实现专家负载均衡,显著提升模型在昇腾平台的部署效率。
    • 高效推理性能:在昇腾 300I Duo 平台上,单卡吞吐量可达 201 tokens/s,通过引入 MTP 解码和多 token 优化可进一步提升至 321 tokens/s。在昇腾 800I A2 平台上,低并发场景下可实现毫秒级响应,高并发条件下单卡吞吐量可达 1148 tokens/s,结合优化后可提升至 1528 tokens/s,性能大幅领先于同等规模的稠密模型。
    • 卓越推理能力:在跨语言多领域基准测试中展现出色性能,涵盖英语通用推理、阅读理解、常识推理,逻辑推理中的代码生成和中英双语数学问题,以及中文的知识问答和阅读理解等,全面验证了模型在复杂认知任务上的通用性与领域适应性。
    • 硬件亲和优化:针对昇腾 300I Duo 和 800I A2 平台进行系统优化,深度融合昇腾硬件加速架构的并行计算特性与算子级编译优化技术,实现从算法设计到系统落地的全栈创新。
  • 盘古 Embedding
    • 快慢思考融合:采用双系统认知架构,集成“快思考”与“慢思考”双推理模式。通过两阶段训练框架,第一阶段通过迭代蒸馏和多源动态奖励系统(MARS)构建基础推理器;第二阶段赋予模型快慢思考能力,可根据任务难度自动切换模式,实现推理效率与深度的动态平衡。
    • 高效训练策略:提出基于模型感知型迭代蒸馏(Model-aware Iterative Distillation)的 SFT 方案,动态选择与模型当前能力相匹配的数据样本进行训练,并通过训练过程中的模型合并策略保留早期知识,持续提升性能。
    • 行业垂域能力拓展:通过引入特定领域的长思考数据继续训练,可显著提升模型在专业任务上的能力水平。例如在法律领域,经过法律语料训练后,在 LawBench 基准测试中的平均准确率达到 54.59%。
    • 自适应模式切换:模型能够根据任务的复杂程度自动调整推理深度。在简单问题上快速输出答案,在复杂问题上进行深入分析,确保输出的准确性。
  • 盘古 DeepDiver
    • 复杂任务处理:针对深度研究场景,如科学助手、个性化教育以及复杂的行业报告调研等,能够完成超过 10 跳的复杂问答,并生成万字以上的专业调研报告。
    • 高效信息获取:通过构建大量的合成交互数据,并采用渐进式奖励策略进行强化学习训练,在开放域信息获取中表现出色,可在 5 分钟内完成复杂的任务,生成高质量的调研报告。
    • 高阶能力增强:显著提升了盘古大模型的自主规划、探索、反思等高阶能力,使其在复杂任务处理中表现更加出色。
  • 盘古预测大模型:采用业界首创的 triplet transformer 统一预训练架构,将不同行业的数据进行统一的三元组编码,并、在同一框架内高效处理和预训练,提升预测大模型的精度,跨行业、跨场景的泛化性。
  • 盘古科学计算大模型:华为云持续拓展盘古科学计算大模型与更多科学应用领域的结合。比如深圳气象局基于盘古进一步升级「智霁」大模型,首次实现 AI 集合预报,能更直观地反映天气系统的演变可能性,减少单一预报模型的误差。
  • 盘古计算机视觉 CV 大模型:华为云发布全新 MoE 架构的 300 亿参数视觉大模型,是目前业界最大的视觉模型,全面支持图像、红外、激光点云、光谱、雷达等多维度、泛视觉的感知、分析与决策。通过跨维度生成模型,构建油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库,提升了业务场景的可识别种类与精度。
  • 盘古多模态大模型:全新发布基于盘古多模态大模型的世界模型,可以为智能驾驶、具身智能机器人的训练,构建所需要的数字物理空间,实现持续优化迭代。

盘古大模型 5.5的项目地址

  • 盘古 Ultra MoE 技术论文:https://arxiv.org/pdf/2505.04519
    盘古 Pro MoE 项目地址:https://gitcode.com/ascend-tribe/pangu-pro-moe
    盘古 Embedding 技术论文:https://arxiv.org/pdf/2505.22375
    盘古 DeepDiver 技术论文:https://arxiv.org/pdf/2505.24332

盘古大模型 5.5的应用场景

  • 智能驾驶:盘古多模态大模型可以为智能驾驶生成大量的训练数据,无需依赖高成本的路采。
  • 具身智能机器人:盘古世界模型可以为具身智能机器人的训练构建所需的数字物理空间,实现持续优化迭代。
  • 气象预报:深圳气象局基于盘古科学计算大模型升级的“智霁”大模型,首次实现AI集合预报,能更直观地反映天气系统的演变可能性,减少单一预报模型的误差。
  • 工业场景:盘古CV大模型通过跨维度生成模型,构建油气、交通、煤矿等工业场景稀缺的泛视觉故障样本库,极大地提升了业务场景的可识别种类与精度。

Kimi-Researcher – Kimi推出的深度研究Agent模型

Kimi-Researcher是什么

Kimi-Researcher 是月之暗面旗下的 Kimi 推出的基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代 Agent 模型,专为深度研究任务而设计。能自主规划任务执行流程,通过澄清问题、深入推理、主动搜索和调用工具等步骤,最终交付高质量的研究成果。

Kimi-Researcher 的核心能力包括:主动反问以构建清晰问题空间、平均 23 步推理以深入思考、通过 74 个关键词和 206 个网址筛选出高质量信息,调用工具处理原始数据并生成分析结论。能输出万字以上的深度研究报告,引用约 26 个高质量信源,生成可交互的动态可视化报告,方便用户快速把握核心结论。

Kimi-Researcher

Kimi-Researcher的主要功能

  • 澄清问题:通过主动反问,帮助用户构建更清晰的问题空间。
  • 深入推理:每个任务平均进行 23 步推理,自主梳理并解决需求。
  • 主动搜索:平均规划 74 个关键词,筛选出信息质量最高的前 3.2% 内容。
  • 调用工具:自主调用浏览器、代码等工具,处理原始数据并生成分析结论。
  • 生成深度研究报告:输出万字以上、引用约 26 个高质量信源的报告,所有引用可溯源。
  • 动态可视化报告:提供结构化排版和思维导图,便于快速把握核心结论。
  • 异步执行:采用异步方式,确保输出质量和信息覆盖度。

Kimi-Researcher的技术原理

  • 端到端自主强化学习:Kimi-Researcher 采用端到端的强化学习方法,模型在训练过程中自主试错,将整个任务视为一个整体进行学习。模型能应对复杂的推理、工具切换和环境变化,无需依赖预设的流程或人类设计的提示词。
  • 零结构设计:Kimi-Researcher 是零结构 Agent,没有复杂的提示词或预设流程。模型在训练中自行形成推理模式,所有策略、路径和判断都是通过反复试错自然形成的。
  • 结果驱动的强化学习算法:模型的唯一驱动力是任务是否被真正解决。只有在任务完成并得到正确结果时,模型才会获得奖励。确保了模型在面对复杂任务时能自主优化其行为。
  • 轻量化长时记忆机制:Kimi-Researcher 没有固定的记忆模块,是自主决定哪些信息值得记住以及如何在推理中调用这些信息。使模型能高效地处理长序列任务。
  • 面向 Agent 的训练基础设施:Kimi-Researcher 的训练基础设施支持异步执行和灵活接口,通过“分步回滚”等机制优化长序列任务的学习效率。
  • 多模态能力与长思维链推理:Kimi-Researcher 的技术框架还涉及多模态能力的提升,通过联合文本和视觉数据的训练,增强模型在多模态任务中的表现。通过长思维链推理训练,模型能处理复杂的逻辑推理任务。

Kimi-Researcher的项目地址

  • 技术论文:https://moonshotai.github.io/Kimi-Researcher/

如何使用Kimi-Researcher

  • 访问入口:访问 Kimi 官方网站,或者在微信小程序中搜索“Kimi 智能助手”。
  • 申请内测:或点击申请内测权限,提供需要让 Kimi-Researcher 帮你研究的问题。
  • 使用功能
    • 深度研究:Kimi-Researcher 会自主规划任务执行流程,包括澄清问题、深入推理、主动搜索和调用工具,最终生成深度研究报告。(每月 20 次额度,同时支持 1 条任务并发)
    • 动态可视化报告:生成结构化排版的可视化报告,方便快速把握核心结论。
    • 联网搜索:Kimi-Researcher 可以联网搜索最新信息,整合并总结相关内容。
  • 输入问题或指令:在对话框中输入你的问题或具体需求,Kimi-Researcher 会根据你的指令进行深度研究。
  • 上传文件:支持上传多种格式的文件(如 PDF、Word、Excel、PPT、TXT 等),最多可上传 50 个文件,每个文件不超过 100M。
  • 指定任务:明确告诉 Kimi-Researcher 你需要的操作,比如提取关键内容、总结、翻译等。
  • 使用技巧
    • “继续”功能:在处理长篇内容时,点击“继续”按钮,确保模型保持思路连贯。
    • 常用语功能:设置常用语或快捷指令,快速触发特定任务。
    • 角色扮演:让 Kimi-Researcher 扮演特定角色(如面试官、专家等),帮助完成特定任务。
  • 验证与校验:对于 Kimi-Researcher 提供的分析或结论,建议结合自身专业知识进行判断和核实,确保结果的准确性。

Kimi-Researcher的基准测试

  • “人类最后一次考试”(Humanity’s Last Exam, HLE)
    • Pass@1 准确率:26.9%
    • Pass@4 准确率:40.17%
    • 这一表现超过了 Claude 4 Opus(10.7%)、Gemini 2.5 Pro(21.6%),略高于 OpenAI Deep Research(26.6%),与 Gemini-Pro 的 Deep Research Agent(26.9%)打平。
  • 红杉中国 xbench 基准测试在 DeepSearch 任务中,Kimi-Researcher 的平均通过率达到了 69%,领先于该榜单中的其他模型。

Kimi-Researcher的应用场景

  • 实时研究支持:用户可以询问最新的研究进展,Kimi会搜索并提供相关论文、数据和分析报告。
  • 市场趋势分析:分析市场趋势、消费者行为和竞争对手策略,提供详尽的市场分析报告。
  • 教案编写:教师可以用 Kimi-Researcher 编写教案,生成完整的教学结构。
  • 法律政务场景:自动识别风险条款并生成修订建议。证据链自动梳理与法律条文匹配,生成带法律依据的案情摘要报告。