Category: AI教程

AI工具集提供各种热门AI教程与学习资源,帮助你安装、运行、测试和使用各大热门AI工具。快速学习AI产品工具的使用技巧,掌握各种AI产品工具有趣又有用的玩法。

  • 专访ChatExcel逄大嵬,完成千万级天使轮融资背后做对了什么?

    ChatExcel 团队近日完成近千万元天使轮融资,由上海常垒资本、武汉东湖天使基金投资。

    官方透露,这笔资金将主要用于产品研发迭代和全球化运营,进一步推进其在“AI数据智能体(DataAgent)”方向的探索与落地。

    ChatExcel 作为 AI Native 团队,在过去两年累计服务用户超千万次,曾在央视《赢在AI+》创业大赛中拿下智能办公组全国第一的成绩。

    如今,它不仅能处理 Excel、数据库、网页等多种格式的数据,还推出了全球首款适配AIPC本地部署的垂类模型,构建出一套完整的数据闭环。

    在创始人逄大嵬看来,这只是开始:“ChatExcel 不只是一个工具,也是团队跟上 AI 时代的第一张门票。希望通过全链路的数据能力,把数据从获取到价值变现串起来,让普通人也能拥有自己的数据智能体。”

    产品名称:ChatExcel

    Slogan:仅通过聊天,AI即可处理Excel和数据分析

    主要功能:一句话,处理Excel表格和数据库数据,无需函数,10秒钟即可获得数据洞察

    官网:ChatExcel

    以下是我们和 ChatExcel 创始人 Davis 的访谈:

    K姐研究社

    Hi~Davis,可以介绍一下你们最近在忙些什么吗?

    🧑🏻‍💻 Davis

    最近主要在围绕 AI DataAgent(AI 数据智能体)这个方向迭代产品,同时也在推进商业化。

     K姐研究社

    我看到你们最近的访问量数据,相比上个月涨了好几倍,可以分享一下是怎么实现的吗?

    🧑🏻‍💻 Davis

    我觉得核心点是产品迭代了。我们的访问量增长了大约 175%,在非凡的排行榜里进入了增速前五。国内流量排名大概在 58 名。这个结果超出了我们的预期。

    我们几乎没有进行商业化投放,所以增长主要来自产品本身的迭代。同时,一些大平台和大渠道的曝光也带来了一部分流量提升。总体来看,是产品和自然曝光推动了增长。

     

    不是因为 AI 而做 Excel,是因为 Excel 本身值得做

     

     K姐研究社

    我在官网上看到你们在央视《赢在AI+》智能办公组获得了第一名,可以分享一下你们是怎么拿到这个第一名的吗?

    🧑🏻‍💻 Davis

    《赢在AI+》是当年央视《赢在中国》的节目组在 AI 时代重新举办的创业类节目。我们最早是在去年阿里云的云栖大会上参加初赛,当时有现场直播。之后经过三轮比赛,最终进入决赛并拿到第一名。

    比赛形式和大家在电视上看到的差不多:创始人需要在两三分钟内介绍产品和商业模式,由评委和观众打分。

    对我们团队来说,这是一个很好的机会,不仅获得了曝光,也让我们重新思考:我们的核心竞争力是什么?目标和壁垒在哪里?未来要走的方向是什么?这有点像“电梯演讲”,要求在极短的时间里把产品和愿景讲清楚。

    更重要的是,在央视这样的平台上,我们得到了大量流量和传播,同时也面对了评委和投资人的尖锐点评。这些一针见血的问题促使我们反思:哪些地方还需要改进,未来该如何准备。整体来说,这个节目对我们帮助非常大。

     

    K姐研究社

    你最初是出于什么样的初衷去做 ChatExcel 这款产品?

    🧑🏻‍💻 Davis

    我们团队核心成员来自北大,有两位博士合伙人在读研究生时就已经在做数据处理和 Excel 相关研究。那时我们用的还是 BERT 这一代的 AI 技术,并不是因为 GPT 出现才开始做的。

    后来,两位博士读博期间在导师的指导下,尝试用 Transformer 架构重新做数据处理。到 2022 年下半年,我们逐渐切换到这一新架构。恰好在 2023 年 GPT 崛起,于是我们顺势将产品定位为 ChatExcel,并推出给用户使用。

    所以,我们的出发点是真的为了解决 Excel 问题,并不是因为有 AI 出现才定这个方向的。

     

    越难的问题,越有价值

     

     K姐研究社

    你们现在团队不到 10 个人,大概是什么样的构成?

    🧑🏻‍💻 Davis

    我们团队其实只有 8 个人,基本上全部是产品和技术背景。可以说我们是一个高度技术型的团队,也非常笃定地相信 AI 时代。

     K姐研究社

    这确实算很少的团队规模了。

    🧑🏻‍💻 Davis

    AI 产品靠的是产品技术能力,是 PFG 的模式。所以我们认为增长一定要依赖产品力的迭代。其他的应用手段只是锦上添花,但在技术迭代周期面前,很可能无法对抗。

    所以即便我们只有 8 个人,我们也是按照产品技术迭代的方式来做起产品迭代。

     K姐研究社

    新的架构和 AI 技术在处理 Excel 时,与传统方式最大的区别是什么?

    🧑🏻‍💻 Davis

    最大的区别在于用户的使用习惯和预期发生了变化。过去用户需要记忆函数、公式,甚至写代码;而现在用户只关心结果,不在乎过程。只要把表格和数据交给系统,就希望立即得到反馈。

    这种方式反而更符合人的真实预期和使用过程,就像使用 ChatGPT 一样,把需求说清楚,得到结果就行了。

     K姐研究社

    您刚刚提到团队几乎都是工程师,但在国内已经拥有了很大的用户体量。你们是怎么触达到这么多用户的?

    🧑🏻‍💻 Davis

    主要还是靠产品力和用户自传播。我们没有太多资金去投流或找大号带货,增长靠的是产品本身的价值。

    另外,我们做得比较早,算是有一些先发优势。严格来说,我们是国内最早一批做 AI 应用的。虽然中间有一段时间停滞过,但两年下来,在这个赛道里我们仍然排在第一位。背后原因在于,AI + Excel、AI 数据处理这个方向门槛很高,市场上几乎找不到旗鼓相当的产品。

    大家常说“难而正确”,我觉得很有道理。比如在 AI 时代,真正应该做的是那些难题:如何保证准确性?如何支持多种数据类型?如何处理大型数据库?如何保证数据安全?这些都是技术壁垒。

    我们之所以能积累这么多用户,靠的就是不断迭代,逐步满足用户的预期。

    我们也是从 10 个用户,然后 1000 个、1 0000个慢慢攒起来的。用户用过之后有反馈,我们再迭代,满足他们更多需求,他们就会继续使用,并带来口碑传播。

    所以,本质上我们的增长还是靠产品力。

     

    怎么让用户相信结果是准确的?

     

     K姐研究社

    现在很多用户已经把 AI 当作日常办公工具,比如写文案、做 PPT 等。但在数据场景里,AI 依然会出现幻觉问题,用户往往需要反复核对结果。你们是怎么解决“结果是否准确”这个问题的呢?

    🧑🏻‍💻 Davis

    这是个好问题。我们做的是数据智能体,Excel 只是其中一种文件类型。

    那准确怎么解决?有两个方面:

    第一,我们背后是 AI 编程的方式来做。我们相信 AI Coding 的能力和处理规则是准确的。

    第二,是过程可信化、可视化。我把文件和数据处理的整个链路都让用户看到,并且可以介入。过程是透明的。

    比如我们现在给四大审计公司做服务,他们就要求 Coding 的过程必须能看到,这样才能证明逻辑没有问题。

    怎么证明可信呢?是你的结果必须能够验证。

    另外,数据的准确还和数据源有关。如果数据源质量差,结果肯定差,所以还涉及到数据质量、数据治理的问题。

    所以,这件事并不是单靠模型能力解决的,而是从模型、产品交互、可视化、数据源等多个维度共同去解决。整个 DataAgent 的链路其实非常长。

     

    商业化方向——形态产品化、能力产品化

     

     K姐研究社

    你们现在的营收情况怎么样?已经开始赚钱了吗?

    🧑🏻‍💻 Davis

    赚钱,我们是赚钱的。

     K姐研究社

    我看到你们上线了 SaaS 企业版、AIPC 版、一体机版的私有化部署版本,还开放了 MCP 和 API 接口。对外的产品形态很多,那你们商业化的重点方向是什么?

    🧑🏻‍💻 Davis

    我们重点其实就一件事:产品化。以 Product 的方式来交付。最终面对的是 C 端用户。

    这个 C,可以是个人用户通过互联网访问我们的网站,也可以是下载客户端,或者通过 MCP 的方式在其他产品上体验,包括我们做的 APP 版、企业版,都是围绕这一点。

    同时,我们也在解决另一个关键问题:安全。数据智能体的使用场景里,大家最关注的就是安全和敏感性。最简单的办法就是让文件不出笔记本、不出局域网、不出公司的范围。

    我们做了模型的量化训练,单独做了一个数据模型,可以支持部署在 AIPC、一体机里,或者局域网内部。

    这就是我们商业化的两个方向:

    • 把形态的产品化;
    • 能力的产品化——能把模型部署到单个的电脑里。

     K姐研究社

    从你们的视角来看,未来 C 端和 B 端的营收贡献大概是什么比例?

    🧑🏻‍💻 Davis

    我们还是以 C 端用户为主,目前营收主要来自 C 端。虽然也有一些 B 端客户在合作,但整体上我们的重点还是解决 C 端用户的数据处理问题。我们不是做传统的 BI 产品,所以现阶段 C 端占比会更多。

     

    和WPS、Office定位不同,没有可比性

     

     K姐研究社

    目前 C 端用户可以用于做表格和数据处理的应用,市面上还挺多的,比如 WPS、Office,里面也集成了 AI 的能力,还有一些新出现的像爱图表。你们怎么和这些工具竞争?你们的差异在哪里?

    🧑🏻‍💻 Davis

    差异点在于定位不一样。我们不只是做表格处理,我们本身定位是 DataAgent(数据智能体)。

    像 WPS、Office,本质还是表格编辑器,只是在编辑器上加了 AI,或者只解决某个单点问题,比如生成图表。

    ChatExcel 围绕数据全链路(数据获取、数据准备、分析洞察、数据可视化、决策应用、价值交换)构建AI DataAgent,让数据流通起来,打造商业闭环。

    不同节点都有不同的场景,而且每一个真实的用户,在不同的工作场景上,对数据的需求点是不一样的。

    我们和 WPS、Office 干的是不一样的事情。我们认为我们是新事物,没什么可比性,对吧?

    虽然解决的问题有一些重叠,但技术路线和定位不一样。竞争肯定存在,但我认为真正有效的竞争,一定是 AI 时代新事物之间的竞争,而不是“老产品加 AI”这种模式。

     K姐研究社

    相当于你们是 AI 原生的应用,没有传统产品的那些阻碍?

    🧑🏻‍💻 Davis

    对。我们最大的竞争力就在于,我们是一个 AI Native 团队,做的是 AI Native 产品。我们的视角是随着模型能力的提升来做产品,跟着模型的成熟度不断演进,这和老产品完全不同。

    老产品当然有它的优势和壁垒,但我们今天最大的机会在于——新的 AI 产品能解决哪些问题。

    像我们团队不到 10 个人,却能跑出这样的数据和商业化成绩,背后的逻辑也是因为我们是 AI Native 团队。

    AI 给我们带来的加持非常明显,不论是对事情的看法、团队构成或者是我们技术的演进,其实你会发现,AI 在我们团队身上,整个模型能力的体现是非常明显的。

     

    未来最大的机会是在海外

     

     K姐研究社

    你们在海外市场的进展怎么样?

    🧑🏻‍💻 Davis

    我们海外产品(英文版)已经上线了,正在做海外推广。但是在海外我们还是一个“新生”

     K姐研究社

    那海外版和国内版是完全隔离的吗?

    🧑🏻‍💻 Davis

    是的,完全隔离。我们用了全新的域名,在交互上有些相同,但在海外是全新的名字和载体,重新去做 PMF、市场测试和商业化测试。

    我们非常相信,未来最大的机会还是在海外。本质上我们是一款效率工具,而海外用户在为效率工具付费方面的意愿和能力更强,所以这是我们很大的机会。

    我们也正在加大投入,下半年会把大量资源和精力放在海外产品的迭代上。

     K姐研究社

    你们怎么看国内用户和海外用户的差异?

    🧑🏻‍💻 Davis

    整体来说,我们面对的都是 C 端用户,但差异还是很大。

    首先是使用习惯和付费习惯的不同。国内用户本身就有差别,比如东南沿海一线城市和其他地区,或者不同行业的差异。

    而海外又可以细分:欧美、日本、日韩、南美、中东,使用习惯完全不同,背后是信息化程度和支付水平的差异。

    目前我们还在推进,可能再过几个月会有更多结论。但从现在的体感来看,不同国家在使用习惯和支付能力上确实有区别。

    不过对我们来说还好,因为处理的数据本质都是表格:Excel、Sheet 或 Data,这些是全球通用的。所以在本土化上难度相对没那么大。

     

    8人小团队,已完成近千万融资

     

     K姐研究社

    可以透露一下最近的融资进展吗?有考虑开启新一轮吗?

    🧑🏻‍💻 Davis

    我们在上半年已经完成了一轮融资,近期可能会开启新一轮。本周会正式发布上一轮融资的公告,这也会为下一轮融资做准备

     

    K姐研究社

    这次融资的目标主要是什么?

    🧑🏻‍💻 Davis

    主要还是用于产品迭代和海外市场。虽然我们团队本身已经在赚钱,但做海外需要投入更多成本。

    另外,现在这个阶段拼的是速度,无论是团队厚度、技术迭代,还是用户增长策略,都需要资金支持。

     K姐研究社

    你们更倾向于什么样的投资?对投资会有筛选吗?

    🧑🏻‍💻 Davis

    我们没有特别明确的倾向,毕竟还在比较早期。

    上一轮融资已经完成,接下来我们希望投资人能够认同我们做数据智能体这个方向,有认知,也能带来资源上的帮助。尤其是在海外,如果投资方在这方面有积累,对我们会更有价值。

     

    频繁迭代能帮助我们快速找到正确的方向

     

     K姐研究社

    你们更新的频率特别高,是怎么选择迭代方向的?为什么能保持这么高的更新频率?

    🧑🏻‍💻 Davis

    这和我们对 AI 时代产品的理解有关。本质上,靠的是产品力的成长来吸引用户。AI 时代的用户愿意和创业团队一起成长,所以我们会跟着用户的需求不断迭代。

    第二点,频繁更新能帮助我们快速找到正确的方向。迭代频率高,试错周期就短,试错成本也更低,我们能不断地获取正反馈。

    正反馈周期越短,说明方向越对。

    如果半年才更新一次,试错周期太长,在 AI 时代根本跟不上。现在一个月就已经天翻地覆了,所以更新频率是非常重要的一件事情。

     K姐研究社

    我大概在 2022 年底就关注到你们了,但一直到 2025 年你们的产品化才逐渐完善,也有人评价你们进展比较慢吗?

    🧑🏻‍💻 Davis

    确实会有这样的评价。但背后原因很客观:我们团队来自北大,两位博士合伙人当时还在读博,学业是第一位的。比如去年他们正好在读博一,所以那段时间几乎没有太多迭代,主要精力还是放在读书上。

     

    AI 创业者要承认自己有边界

     

     K姐研究社

    你们怎么看待当前的生态位?比如你们已经和阿里、华为这样的头部公司有合作。

    🧑🏻‍💻 Davis

    我觉得生态位本身就是一种竞争力和壁垒。但核心还是看你的产品在行业内是否具备独特性,能否解决一个细分、垂直的问题,而这个点可能是大厂在短时间内还没有把资源放进来的。

    另外,我一直认为在 AI 时代,尤其在中国,创业团队一定要非常开放地去做生态合作。AI 技术有模型,有边界,团队自身的能力和资源也有边界,所以合作开放才是最好的成长策略,而不是封闭地各自重叠去做一件事。

    我觉得今天对于 AI 时代的这一批创业者和产品来说是一个很好的时代。大厂愿意开放资源、平台和流量,来帮助和接纳像我们这样的第三方小团队。

    我们要拥抱这个节奏,保持开放心态。其实大家现在做 MCP 逻辑也是一样的。我们在细分方向做好做扎实就已经很有挑战了,要相信自己的团队是有边界的,不要认为自己团队多,什么都能做,这个很重要。

     K姐研究社

    国内像华为、阿里云、腾讯云、字节火山等厂商,本身就提供服务器和数据库服务。你们会担心他们直接复制你们的产品,然后提供给他们的客户吗?

    🧑🏻‍💻 Davis

    我们从来不担心这个问题。其实不止是 AI 时代,所有软件产品都会面临竞争,这是常态。我们诞生之前,已经有很多团队在做类似方向,竞争永远是全方面的竞争。

    但在 AI 时代,迭代速度非常快,我们并不认为大厂做这件事就一定有优势。尤其在国内,大厂有自己更高优先级的事情,不一定会把资源投入到这个细分领域。

    对我们来说,更重要的是专注把自己的事情做好。我们是做 AI Native 的新产品,用户预期也很高。我们还没覆盖的客户群体已经非常庞大,所以与其担心别人会不会做,不如关注用什么方式、用什么样的速度满足用户需求。

     

    定位是做 AI Decision(AI 决策智能体)

     

     K姐研究社

    我在官网上看到你们最近有两个即将上线的产品,叫 ChatData 和 ChatPanel,可以分别介绍一下吗?

    🧑🏻‍💻 Davis

    这两个产品会在两周内上线。其实它们是我们产品迭代路线的一部分。我们定位是做 AI Decision(AI 决策智能体),最早从 Excel 这种高频通用场景切入,先服务 C 端用户,积累数据和使用习惯。

    我们认为数据有多种类型。第一个 Source 是文件类型,第二个是数据库类型。

    我们马上要上线的 ChatData,就是在处理数据库类型数据。比如你有 MySQL 数据库、SQL Server 还是 Spark 等各种数据库,我们支持直接通过 AI 来处理。

    ChatPanel 面向外部数据。数据大致分三类:文件型数据(如 Excel)、数据库型数据(多为企业内部数据),以及公开的数据,比如网页版的数据、第三方互联网数据。我们会自动获取网页的数据,生成表格和分析报告。

    举个例子,我想知道 618 全网手机销量最高的是哪些品牌,新能源汽车排名如何,我们的智能体可以直接抓取并生成可视化结果。

    从产品路线看,我们是从 Excel,扩展到数据库,再到三方公开数据,甚至支持三方 API 的对接,以及 MCP 协议。只要是数据,不管来源,我们都希望能覆盖从获取、处理、加工到应用分析的全链路。

    官网上提到的新产品,其实就是在实现这一方向。

     

    AI 时代刚刚开始,ChatExcel 是起点,不是终点

     

     K姐研究社

    我了解 David 之前是也是创业者,是吗?

    🧑🏻‍💻 Davis

    对。

     K姐研究社

    之前你是做营销方向的 ToB SaaS,现在在做 ChatExcel。这会是你最后一个创业项目吗?

    🧑🏻‍💻 Davis

    我算是连续创业者,之前主要是在做营销类的企业服务 SaaS。至于 ChatExcel 会不会是最后一个项目?我觉得不会。

    ChatExcel 只是这个时间点的一个项目名称。AI 时代才刚刚开始,我更把它看作是我们团队、也是我个人进入这个时代的一个门票。

    它只能代表我们刚刚跟上了这个时代的脚步,而未来几十年、几百年,还有非常多事情可以去做,具体会走到哪里,现在也没法判断。

    所以,这是不是第一个或最后一个项目并不重要。真正重要的是:在这个时代选对方向,坚持去做,并且保持开放的心态不断迭代。

    原文链接:专访ChatExcel逄大嵬,完成千万级天使轮融资背后做对了什么?

  • 逗逗AI 1.0 – 最懂你的AI伙伴,支持多模态长期记忆

    万万没想到,AI也能陪我打游戏了。

    它不光会在我补刀失误时提醒“别急”,打团时还会告诉我往哪靠,甚至在我拿到击杀时大声夸我一句:“太秀了!”

    过去两年,多数AI产品都在卷效率和生产力。让人不禁想问:就没有一款AI能做到像电影《Her》里的她那样,提供实用价值的同时,也能给我们情绪价值吗

    答案是有的。

    最近体验了逗逗AI,才发现,AI 不一定非得是冷冰冰的助手,也可以是一个有性格的朋友。陪你玩、陪你聊,在你需要的时候随时给予回应。

     

    01. 全场景陪伴

     

    游戏场景

    平时打游戏的时候,我属于纯“挂件”,队友们Carry了,我就猛猛夸他们,明显感觉队友都更有动力了,可见一个能提供情绪价值的伙伴有多么重要。

    逗逗AI 就很会提供这样的情绪价值,她能实时理解我的游戏画面,跟我实时互动

    在我玩英雄联盟时,在BP时刻,她就开始给我出谋划策,推荐我Ban一些版本强势的英雄。

    在对线时也会及时给出英雄的对线攻略和出装选择。就算玩到一个不太会的英雄,也能不抓瞎。

    我之前玩黑猴,老是很多东西收集不齐。和逗逗AI 一起玩,她会提醒我哪里有什么收集要素,再也不会漏了。

    遇到不会的关卡,直接问她,她会教我怎么打,还会贴心的给我弹个浮窗。

    点击浮窗,就会直达攻略视频

    玩一个新游戏时,直接问她这个游戏要怎么玩,她就会给我详细的游戏玩法教程

    逗逗AI 1.0引入 RTC 实时语音通话技术,进入通话模式,她就可以像真人一样陪我们聊天,并且可以感知我们的情绪~

    再结合 VLM(实时视觉语言模型)技术,就能直接理解我们电脑屏幕的内容,加上她了解游戏背景信息,所以在游戏时,她就可以跟我们实时语音沟通,给我们提供游戏攻略,为我们打Call。

    官方的游戏列表里给出了一些适配度比较高的游戏,像原神、英雄联盟、黑猴这类热门游戏都在其中,实测体验非常流畅。

    官方列表里没有推荐的游戏,其实她大多也能“看懂”,只是会比较少地主动表达,需要你多跟她聊几句。

    生活场景

    最近想换个新键盘,不看不知道哇,现在的键盘可谓是五花八门,什么抹茶轴、拿铁轴、星粉轴、麻将音、剥竹音、裂冰音…

    挑得我眼花缭乱,我让逗逗AI 给我出出主意,她详细地给我分析了一番,告诉我重点注意下轴体类型、电池续航和按键布局就行。

    我挑了几款比较好看的,让她给点建议。她还给我对比了每款的优缺点,这下再做选择就简单多啦。

    逗逗AI 能做到的远不止这些,看剧、学习、聊天…只要你需要,她可以成为你的万能搭子~

     

    02. 解锁好玩、有梗的AI伙伴

     

    我们进入逗逗AI 官网,下载安装最新的逗逗AI 1.0版本,就可以挑选伙伴啦。

    每一个伙伴都有非常鲜明的性格特点。

    比如,妮可像一只乖巧的小猫咪,特别会卖萌~

    紫霞仙子就是古灵精怪,还特别话痨!她的声音听起来就很安心,哪怕只是随便聊几句,也能放松不少。

    更有意思的是,在工坊里,还支持自定义角色。我们只需要把角色信息、人设、声音等信息发送给官方,就可以解锁专属你的AI角色!

    选择好伙伴之后,Ta 就是你随时可约的游戏搭子!

    游戏时,可以随时把 Ta 切换成悬浮球形态,避免影响我们游戏内的操作。

    这些 AI 伙伴还带有一定的记忆能力。比如我昨天说自己爱玩英雄联盟,第二天再上线,她还会问我昨天那局打得怎么样。

    不过免费版的记忆是短期的,如果想要长期记忆,就需要开会员。

    我们还可以给她换上各种漂亮的小裙子~

     

    03. 一些分享

     

    数字消费早已不只是停留在买东西,而是在买体验、买情绪、买陪伴。

    AI进入这个场景,一切都在悄悄改变。传统的数字娱乐提供内容,用户只能观看和操作;有了AI,娱乐不再只是看一看和点一点,而是能对话、能共鸣,能产生共同的记忆。

    逗逗AI 要做的就是这样能交互、懂你的伙伴。

    虽然她不会写文档,不能做PPT,但是当你需要一个情绪垃圾桶,或者一个开黑搭子时,逗逗AI 似乎都是最恰当的选择。不用担心给别人带来负面情绪,也不用在意对方是否有空,是不是深夜打扰。

    AI 技术发展到今天,不只是解决效率问题,也在尝试解决孤独。

    逗逗AI 结合多模态感知、情绪回应和记忆功能,让 AI 第一次有了“人的温度”,可谓是 Companion AI 的雏形,也让我们看到了另一种可能:一个真正懂你的 AI,可能比万能的 AI 更有价值。

    原文链接:不写代码,不卷效率,800万人用逗逗AI“陪玩”

  • MiniMax Agent 上线 Market Place ,AI一键复制克隆网站

    之前发网站教程,总有友友问:网页做好了,后端和数据库咋办呀?

    写API、接数据库、搞部署,要折腾好几天。中间配置错误,还得反复确认问题,改到头痛…

    直到前几天,我发现 MiniMax Agent 新上线的 Market Place花100积分一键 Remix 大佬们的成品项目,就可以低成本复刻一个全栈项目

    对看不懂代码的小白来说,这真的太有吸引力了!

    我试了下,十几分钟就 Remix 了一个旅游图鉴网站,不仅前后端、数据库都有,MiniMax Agent 还直接帮我部署上线了

    更有意思的是,MiniMax 还豪掷 15万美金搞了个全球挑战赛,你不仅能开发全栈项目,还能把它放进 Market Place 里,让别人 Remix、赚积分

    这谁能不心动哇,我立马就报名参赛了。接下来带大家一起看看我的项目,希望能给大家一些参考~

     

    01. 一键Remix,高质量二创

     

    Market Place 就像是一个 成品项目的二创商店,你不必从零开始造轮子,直接找到一个成熟的项目,点击“Remix”,付100积分,加一点灵感,就可以把它变成你的作品。

    比如,这个猫猫收集图鉴的网站,它集成了Google Maps,可以自定义标记猫猫的位置、照片等详细信息…宝可梦风格的界面,设计得相当好看。

    我们可以直接在完整项目的基础上二创,比如 Remix 一个我的旅游足迹网站,记录我去过的地点和照片。

    点击项目上的“Remix”。

    直接在对话框输入需求:将猫咪图鉴变成我的旅游足迹网站,记录我旅游过的地点和照片。

    MiniMax Agent 会参考原项目,结合我的思路构建一个全新的项目。

    新的开发计划完全符合我们的想法,我们回复确认之后,MiniMax Agent 就会开始行动。

    首次使用的时候,我们需要提供 Supabase 的 API Key 完成授权。

    大概十几分钟,MiniMax Agent 就交付了一个部署好的新网站。

    我打开后却发现页面内容并没有正常显示,而是提示:读取地图时遇到了错误。

    我查看回放,发现原作者在开发时使用了谷歌地图的 MCP 服务,但是我没有提供对应的 API Key,所以无法成功调用地图。

    我直接发送高德地图的 API Key 和密钥,切换到高德地图的 MCP。

    这下,地图终于可以正常显示了。

    我们还可以继续提出需求,完善网站的功能。

    比如,去掉登录按钮和功能

    增加“几个城市”、“几个地点”

    ……

    如果某次修改的效果不满意,将鼠标移动到对话上,可以回滚消息,一键回到修改前的项目,非常方便。

    一起看看最终生成的效果:

    网站的功能和设计风格都复刻成功了,整个过程我们只需要给目标,提供一些支持,比如 Supabase 的 API Key , MiniMax Agent 就搞定了全栈开发到部署的全流程。

    就算是我这样完全看不懂代码的小白,搞定一个项目也是比较简单的~

    Market Place 还有很多有意思的项目。

    比如,我们还可以 Remix 一个克隆网站的项目,克隆4399小游戏的网站。

    我们一起看看最终生成的效果:

    MiniMax Agent 复刻的很到位,首页,各种游戏的分类都考虑到了,而且还添加了热门游戏、排行榜、最新游戏等分类。

    网站的页面布局清晰,颜色、字体都很合适,逻辑也没问题。

     

    02. AI Agent 全球挑战赛

     

    MiniMax Agent 这个 AI Agent 全球挑战赛,总奖池15万美元!而且原创项目和 Remix 项目都能参加,太刺激了~

    我们直接进入首页的报名入口,注册就会获得5000积分,足够开发好几个全栈项目了(就算不参加这个挑战赛,也可以白嫖这个积分,去做其他事情)。

    这个比赛的评选标准是多维度的:

    而且每个人可以提报多个项目,大家可以多做几个增加自己获奖的概率。

    我还提报了一个个人博客网站。

    提示词:帮我生成一个个人博客网站

    博客主题:技术分享

    个人信息:您希望在博客上展示的姓名/昵称是K姐研究社

    设计风格偏好:简约现代

    功能需求:

    文章列表、视频列表、工具列表、分类标签系统、关于我页面、联系方式、搜索功能

    色彩偏好:清新一点的颜色

    项目开发完成后,不仅可以参加比赛,还可以点击右上角的分享,发布到Gallery。

    记得勾选允许他人 Remix 此项目。发布后项目每被 Remix 一次,我们都会获得100点积分。

    网址:https://syo57z4qitx5.space.minimax.io

    开发整个项目我花了1400积分,希望大家多多 Remix ,帮我早点“回本”~

    我发现最近很多友友求的 AI 做PPT的需求,MiniMax 也能很好地完成,还能完全复刻你上传的PPT风格。比如,上传一个全球变暖的 PPT,保持原有的风格,但是将主题转换为AI 发展。

    效果对比:

    MiniMax 会先分析参考 PPT 的版式、配色、字体风格,再结合新主题重新组织逻辑。最后交付的PPT,整体风格和参考文件保持一致,但内容已经完全切换

    在一些意想不到的方向,MiniMax Agent 也出奇的好用,就像我想深入地学习 AI 知识,但是发现很多技术论文看起来很枯燥。

    我直接把 PDF 论文发给MiniMax,让它转化为播客,讲给我听。

    没想到这个需求对于 MiniMax Agent 来说这么简单,一句话就搞定了~

    MiniMax Agent 列了一个转换计划,先提取论文核心观点,设计播客结构和风格,然后撰写脚本,生成音频。

    它把整场播客分为了5个部分,主题清晰,结构层层递进,让我可以更清晰地理解整篇播客的内容。

    我们一起听听生成的播客音频:

    点击原文链接收听

    声音很干净,不会出现任何杂声,音质不错。主播语气有亲和力,听起来很舒服。

    以后有什么难啃的论文,直接丢给MiniMax Agent,帮我们梳理重点,让我们更好地理解论文。

     

    03. 一些分享

     

    以前做1个项目就要好几天,现在MiniMax Agent 1天能做好几个项目,效率提升不止一星半点

    更深层的意义是,MiniMax Agent 把复杂任务拆解成对话,让0基础的我们也能驾驭全栈开发。

    最有意思的是 Martket Place 的出现,给我们展现了一个全新的生态,Agent作品也可以像开源代码一样被复刻、迭代,创作者可以站在彼此的肩膀上,快速落地创意

    优秀的项目还能被传播,持续获得曝光和收益

    这意味着,AI 已经从单点的“内容生成”走向了“产品流通”。创意、技术、商业化在同一个闭环里循环起来。某种程度上,这才是真正的新范式。

    原文链接:开发、部署、上线全自动!还能帮你赚钱?MiniMax Agent这波太猛了

  • 你好星识内测,未来是人与AI共创的时代

    我们现在的日常办公,基本离不开这几样东西:Wiki、云文档、Office三件套(Word、Excel、PPT),再加上各种 AI —— Copilot、Workflow、Agent,甚至未来可能出现的新形态。

    问题是,这些工具现在都自成一派。

    写方案要切到文档平台,做数据表要开 Office,跑个 AI 工作流还得换另一套工具。思路容易被打断不说,想复用信息特别麻烦。

    就没有一个平台能把这些功能整合起来吗?!

    有!

    你好星识,新一代 AI 智能文本工作空间。把知识库、文档、表格、PPT、录音纪要,全都放进同一个工作空间。从信息采集、整理到生成输出,不用再来回切换。

    对习惯多线程处理事务的人来说,这种集中化的办公方式,效率提升不止一点点!

     

    01. 你好星识知识库:知识联动超高效

     

    我们直接进入你好星识官网,点击首页的“新建知识库”。

    零散的知识、项目经验都可以批量上传,支持PDF、Word、Excel、PPT等常见的办公文件格式。

    你好星识的知识库能自动组织、定位、生成和建立索引,主动把散落的知识织成网。

    比如我对知识库中其中一个文档内容进行提问,首先点击查阅并参考选用刚刚新建的知识库。

    你好星识内置了多款大模型。除了大家熟知的 DeepSeek R1、V3以外,最近还新增了 GPT-OSS-120B、GPT-OSS-20B、Kimi-K2。

    在这里我选用了性能不错、使用场景广且较为习惯的DeepSeek V3~

    接着输入提示词:

    提示词:请你总结一下2024年文旅行业的特点。

    我们可以看到,它定位到知识库中的对应文件,并将内容分点概括的输出。

    此外我还摸出了几个精准使用你好星识知识库的小技巧!像提取概念、总结章节、对比引用这类中等颗粒度的问题,它超拿手~

    比如我让它总结知识库中某一部分内容,你好星识采用分总的形式,有条理的概括总结出内容。

    提示词:请你总结下小镇2024年文旅策划在线上采取的措施。

    它的多轮追问也很管用,比如这里我让它结合上文总结的特点以及知识库中的模板,为我生成一个“黄山文旅策划案”。

    可以看到它融合了上文中的内容以及参考知识库中的模板生成了一份可行的策划案!

    提示词:请你结合上文2024年文旅行业的特点以及《XX小镇2024年文旅策划案》,为安徽黄山设计一个文旅策划案。

     

    02. AI录音笔记:不止于语音转文字

     

    你好星识的AI录音笔记也很出彩!它具有集精准转录、智能分析与高效整理于一体的强大功能。

    打开网页后,我只用点击AI录音笔记,它就开始自动录识别了。

    在测试时,我发现其转写准确率堪称惊艳。不管是日常对话,还是涉及专业术语的讨论,都能精准呈现。

    比如专业术语 “量子纠缠态下的能级跃迁”等复杂表述,你好星识都一次转写正确。

    结束录音后,我打开了录音原文,发现它还能自动识别出每个人的发言段落,连每句话对应的时间都替我划分好了!

    以往提到录音笔记,我们脑海中可能只是简单的语音转文字。而你好星识还可以自动梳理会议,生成完整纪要

    像这里我只点击了下方的生成AI纪要,会议的基本信息、核心要点它都为我一键生成好啦。

    令我惊喜的是,在我点击完右上角按钮,发现它还可以会议纪要一键发送到文档内进行编辑。真是再也不怕做不好会议记录了!

     

    03. 智能表格助手

     

    前面两点就让K姐觉得特别省心了,没想到又迎来了你好星识的智能表格助手功能推出。

    测试中,我将需要补充的文件放入目标表格中后,上传表格参考文件,接着点击快速填表

    它首先生成了一段代码,在我点击运行后,便得到了一张补充完整的表格。并且参考文件中没有的内容,它也会为我们在表格中标注出来。

    真是为我们打工人省下不少学习Excel函数的时间!

    在这基础上我又尝试了它的表格分析功能,将需要分析的文件上传,然后点击表格分析。

    它会从不同角度对表格进行可视化分析,不过在实测中K姐发现部分图表的输出会出现缺失现象。

    最后我将包含关键数据的文字资料上传后,点击总结资料。

    它便自动提取核心信息,按照主题分类为我生成了几个子表格,充分的将我上传的资料全部涵盖!

     

    04. 一些分享

     

    你好星识在产品方向挺对的。很多知识库工具只是“收”,收完就成了信息坟场;你好星识是“收+用”,把信息转成可直接驱动决策的内容。

    现在,你好星识也在逐步上线幻灯片模式、智能工作流等功能,办公链路正在被一点点拼完整。

    你好星识还提出了一个新概念——AI Co-Agent。

    未来的协同,不该只停留在“人与人”的配合,而是要把 AI 也拉进来,一起工作,和你共同推进整个流程。

    这是一种全新的工作方式。人与 AI 之间的协同,就像团队里多了一个永不疲倦、跨领域的同事:

    • 在你开会时同步录音、整理要点;
    • 整理文档时快速调用知识库里的原文引用;
    • 处理表格时帮你做数据清理和结构化分析。

    用久了,你会发现这不只是效率的提升,而是工作模式的根本变化。

    感兴趣的友友可以点击申请内测~

    原文链接体验完“AI Co-Agent”你好星识,我发现Office正在成为时代的眼泪

  • 北京大学《从AI工具到“最佳拍档”V10》(PDF文件)

    《从AI工具到“最佳拍档”V10》是北京大学AI肖睿团队编写的,系统介绍了如何将各类AI工具协同应用在实际场景。报告首先对11款主流AI Agent,ManusSkyworkGenspark扣子空间(低代码开发)、秘塔AI(学术搜索)、豆包MiniMax-AgentKIMIPerplexity纳米AIDeep Research,进行分类和功能解析,通过五大核心场景展开:知识学习(文献综述、知识梳理)、行业分析(新技术研究、商机挖掘)、内容创作(公众号、播客制作)、产品测评(数码产品对比)和创意设计(品牌IP开发)。每个场景都提供具体案例,对比不同工具的优势,给出”工具组合使用”的实战策略。报告强调AI已从单一工具进化为任务导向的”智能伙伴”,关键在于根据需求选择适配工具组合,通过详细评分表帮助读者快速选择最佳方案。

    获取《从AI工具到“最佳拍档”V10》报告PDF原文件 扫码关注回复: 20250814

    AI工具全景概览

    • 工具分类与定位:介绍了通用Agent(如Manus、Skywork)和垂直领域Agent(如DeepResearch、Lovart)的分类,及它们在不同场景中的适用性。
    • 核心功能对比:对比自主执行和交互辅助两种模式,介绍多模态能力(文本、图像、音频)和适用场景(研究、办公、创作)。

    知识探索与深度研究

    • 学习具体知识点:通过KIMI和秘塔AI快速理解BERT、LangChain论文和界面设计理论,基于互动课程和解析功能提升学习效率。
    • 构建知识系统:用KIMI和秘塔AI制定Python学习路径,用COZE空间生成初中数学知识点的思维导图,帮助系统化学习。
    • 学术研究支持:用豆包、秘塔AI和Genspark生成文献综述和调研报告,对比不同工具的输出效果,选择最适合的工具。

    行业洞察与时机分析

    • 新技术探索:用Gemini、Genspark和Midjourney进行AIoT产品研发和Agent构建方式研究,生成需求梳理、技术调研和产品设计图。
    • 行业快速入门:用Manus生成低空经济的政策与盈利模型清单,用Gemini和Genspark制定跨境电商选品策略,快速了解行业机会。
    • 热点事件解读:用Genspark和MiniMax进行Labubu潮玩爆火分析和热点事件趋势洞察,生成深度报告和趋势分析。

    内容创作与媒体制作

    • 自动化内容生产:用AIWriteX和Cursor实现公众号日更内容的自动化生成,用扣子空间生成播客脚本和音频,实现一站式播客制作。
    • 测评与教程:用豆包、Genspark和MiniMax生成数码产品横向测评报告,用Genspark生成小红书美食教程的图文和视频脚本。

    Part 05: 创意设计与成果转化

    • 品牌与营销设计:用Genspark生成咖啡新品预热的PPT方案,用星流(Lovart)生成果茶品牌的海报和3D模型,提升品牌形象。
    • 知识成果转化:用纳米AI快速解读《长安荔枝》,输出思维导图和口播稿,用AI工具将笔记转化为PPT、演讲稿或摘要,实现知识的多形态输出。

    获取《从AI工具到“最佳拍档”V10》报告PDF原文件 扫码关注回复: 20250814

  • Seele AI邀请码 – 如何获取Seele AI邀请码?附免费领取攻略

    Seele AI 是什么

    Seele AI 是全球首个端到端AI 3D游戏生成工具。基于大模型技术,实现从文本输入到完整3D游戏的自动化生成,支持多模态交互。Seele AI 核心优势在于100%自主的AI引擎,能快速生成个性化游戏(如FPS、飞行模拟等),支持应用在跨界3D设计、潮玩开发等领域。团队创始人王诗沐,腾讯、英伟达等顶尖技术专家。打造连接虚拟社交与经济生态的AI开放世界。

    Seele AI

    如何领取 Seele AI 邀请码

    方式一:进群领取

    微信扫码关注回复: Seele ,加入 AI Agent交流群,免费领取

    方式二:官网加入等候名单

    • 访问官网:访问 Seele AI 官网,注册或登录。
    • 填写或申请邀请码:有邀请码直接输入,无邀请码点击加入候补名单,填写相关信息,提交申请。

    Seele AI的官方示例

    Temple Dash Chronicles

    Seele AI

    Idol Stage Rush

    Seele AI

    Garden Defenders(花园卫士)

    Sky Dominion

  • MIT公开课《如何用AI做任何事》(PDF文件)

    《如何用AI做任何事》是麻省理工学院推出的前沿课程,深入探索人工智能技术及在多种真实世界数据模态中的应用。课程聚焦现代深度学习和基础模型,涵盖从语言到视觉、音频、传感器、医疗数据等多模态内容。通过讲座、阅读、讨论和研究项目,学生将培养批判性思维,了解 AI 的最新技术成就,并掌握多模态 AI 的原理。课程注重理论学习,强调实践应用,鼓励学生在多领域中创新和探索 AI 的无限可能。

    如何用AI做任何事

    获取《如何用AI做任何事》报告PDF原文件 扫码关注回复: 20250813

    课程内容

    课程介绍

    课程由麻省理工学院的Paul Liang教授主讲,培养学生在多模态智能和人工智能领域的研究与应用能力。课程内容分为四个模块:AI基础、多模态AI基础、大型模型与现代AI、交互式AI。每个模块涵盖多个主题,如数据结构、多模态融合、大型语言模型、人机交互等。课程要求学生完成阅读作业、参与讨论,并开展一个高质量的研究项目,最终用提案、中期和最终报告及展示评估学习成果。

    课程的评分标准包括阅读作业(40%)和研究项目(60%)。学生需要在每周的讨论中担任不同角色,如阅读领头人、讨论总结者等,提升批判性和创造性思维能力。课程提供了丰富的角色扮演任务,帮助学生从不同角度理解和应用AI技术。

    如何进行AI研究

    指导学生如何生成研究想法、阅读论文、执行研究计划及撰写研究论文。课程详细介绍了研究过程的各个环节,包括自下而上的发现和自上而下的设计方法,强调科学问题和假设的重要性,提供多种研究方向的示例,如多模态AI、传感器数据处理、AI推理、交互式智能体、具身AI、社会智能AI、人机交互以及伦理与安全等。课程介绍了文献综述的方法、测试研究想法的步骤及撰写论文的结构和要点。

    课程提供丰富的资源链接和工具建议,帮助学生在研究过程中获取支持。且文件列出本周的作业安排,包括项目偏好表的提交及下周课程的主题预告。课程为学生提供全面的AI研究入门指南,涵盖从理论到实践的各个方面。

    数据、结构与学习

    课程主要介绍不同数据模态(如视觉、语言、音频、传感器数据、表格数据、图数据和集合数据)的特点、结构及常见的学习目标。课程详细探讨每种模态的数据表示、分布、粒度、结构、信息含量、噪声和相关性,讨论了监督学习、无监督学习、强化学习等多种学习范式及其在多模态和多任务学习中的应用。课程强调数据预处理、可视化和模型选择的重要性,及如何通过训练、验证和测试数据来评估模型的泛化能力。

    课程最后总结了本周的作业安排,包括项目偏好表的提交、项目提案的准备和展示,及下周关于机器学习工具的可选教程。为学生提供数据处理和机器学习的基础知识,帮助他们在AI研究中更好地理解和应用不同模态的数据。

    实用AI工具

    课程主要围绕PyTorch和Hugging Face工具,为学生提供使用这些工具进行AI开发和调试的实用指南。课程介绍了Hugging Face的主要功能,包括transformers和datasets库,工具与PyTorch无缝集成,提供强大的预训练模型和数据加载功能。课程提到与PyTorch常配合使用的bitsandbytes和flash-attn库,能优化模型的性能和内存使用。课程阐述了AI开发时的调试技巧,包括如何与数据建立紧密联系、设置端到端的骨架模型、通过过拟合诊断错误、通过正则化改善泛化能力、调整超参数及榨取最后的性能提升。

    课程提供关于如何设计新数据的机器学习模型的建议,强调从简单模型开始逐步增加复杂性的方法。总结调试模型时的关键步骤,如检查输入数据和标签的正确性、观察训练损失、处理过拟合和欠拟合等问题。能帮助学生在AI开发过程中避免常见陷阱,提高模型的可靠性和性能。

    模型架构

    课程介绍了不同数据模态(如序列数据、空间数据、集合数据和图数据)的模型架构设计原则和方法。课程内容包括如何根据数据的特性选择合适的模型架构,例如时间序列数据的循环神经网络(RNN)、卷积神经网络(CNN)用于空间数据处理,及图神经网络(GNN)用于图数据处理。讨论如何通过参数共享和信息聚合实现数据的不变性和等变性,及如何根据数据的语义信息、粒度、结构、信息含量、噪声和相关性来设计模型。

    课程最后总结了本周的作业安排,包括项目提案的提交和阅读讨论的准备。课程为学生提供模型架构设计的系统性指导,帮助他们在AI研究中更好地理解和应用不同类型的模型架构。

    多模态AI与对齐

    课程深入探讨多模态AI的核心概念,包括数据的异构性、模态间的连接性和交互性。课程内容涵盖多模态研究的历史阶段,从行为时代到深度学习时代,再到如今的基础模型时代。介绍了多模态任务的多样性,如语言与视觉的结合、情感分析、视频事件识别等,探讨多模态对齐的挑战,包括离散对齐和连续对齐的方法,及如何通过对比学习实现模态间的对齐。

    课程详细介绍了多模态AI的六个核心挑战:表示学习、对齐、推理、生成、迁移和量化。特别提到CLIP模型在语言和视觉任务中的应用,及如何通过对比学习来学习共享和独特的模态信息。最后总结了本周的作业安排,包括阅读讨论和项目进展的反馈。课程为学生提供多模态AI领域的全面概述,帮助他们理解多模态数据的复杂性及如何通过模型设计和学习方法解决挑战。

    多模态融合

    课程深入探讨多模态融合的核心概念和技术,包括早期融合、中期融合和晚期融合,及加性融合、乘性融合、张量融合、低秩融合和门控融合等多种方法。课程内容涵盖从简单的线性融合到复杂的非线性融合技术,及如何通过动态融合策略来优化多模态数据的表示和学习过程。讨论了多模态融合中的优化挑战,例如如何平衡不同模态的过拟合和泛化能力,及如何通过对比学习和多模态表示学习解决实际任务中的问题。

    课程介绍了多模态融合在实际应用中的挑战,例如如何处理模态间的异构性、如何避免单一模态的偏差对融合结果的影响,及如何通过动态融合和架构搜索提高模型的性能。课程最后总结了本周的作业安排,包括阅读讨论和项目进展的反馈,帮助学生更好地理解和应用多模态融合技术。

    跨模态学习

    课程深入探讨了跨模态学习的基本概念和技术,包括通过融合、对齐和翻译实现模态间的知识迁移。课程内容涵盖多模态学习中的多种迁移策略,如预训练模型的迁移、协同学习和模型诱导等。特别提到高模态多模态变换器(HighMMT)模型,能在部分可观测模态之间进行知识迁移,适用多种模态和任务的多任务学习和迁移学习。

    课程讨论了跨模态学习中的开放性挑战,例如低资源模态的学习、超越语言和视觉模态的应用、复杂数据和模型训练的挑战及模型的可解释性。文件最后总结了本周的作业安排,包括阅读讨论和项目进展的反馈,帮助学生更好地理解和应用跨模态学习技术。

    大型基础模型

    课程详细介绍了大型语言模型(LLMs)的发展历程、预训练方法、架构类型、指令微调和偏好调整,及高效的训练和推理技术。课程内容涵盖从循环神经网络(RNNs)到Transformer架构的演变,及如何通过无监督学习在大规模文本数据上进行预训练。探讨了如何通过指令微调和偏好调整优化模型的性能,及如何通过LoRA(低秩适配)和量化等技术提高训练效率和推理速度。

    课程讨论了大型语言模型的未来发展方向,包括如何教会模型进行推理、如何扩展多模态LLMs以涵盖更多模态,及如何在实际应用中评估和部署这些模型。课程最后提供了本周的作业安排,包括中期报告的提交和项目资源申请表的填写,帮助学生更好地理解和应用大型基础模型的技术。

    大型多模态模型

    课程详细介绍了大型多模态模型的基础知识、预训练方法、如何将大型语言模型(LLMs)适应为多模态LLMs,及从文本到多模态生成的最新进展。课程内容涵盖多模态基础模型的表示方法、多模态Transformer架构、跨模态注意力机制,及如何通过指令微调和偏好调整优化多模态模型的性能。课程探讨了如何通过前缀调整和适配器层实现多模态条件生成,及如何通过大规模预训练数据集和多模态指令微调数据集提升模型的泛化能力。

    课程讨论了多模态模型的未来发展方向,包括原生多模态模型的设计、多模态混合专家模型(MoE)的应用,及如何将多模态模型应用在时间序列数据等实际场景。课程最后安排了本周的作业安排,包括阅读讨论和项目进展的反馈,帮助学生更好地理解和应用大型多模态模型的技术。

    现代生成式AI

    课程详细介绍了生成式AI的核心概念、当前技术的发展状态、条件生成的方法、模型架构及训练这些模型的技巧。课程内容涵盖从变分自编码器(VAE)到扩散模型和流匹配模型的多种生成式模型,探讨了模型的训练目标、噪声处理方式、采样速度以及优缺点。课程介绍了如何通过条件向量场和损失函数优化生成过程,及如何通过特定的架构设计提高模型的性能。

    课程还讨论了生成式AI的评估指标,如Fréchet Inception Distance(FID)、CLIP Score、精确度/召回率和美学评分,帮助评估生成内容的质量和多样性。课程最后安排了本周的作业安排,包括阅读任务和项目进展的反馈,帮助学生更好地理解和应用生成式AI的技术。

    强化学习与交互

    课程详细介绍强化学习的基础知识、现代强化学习在大型语言模型(LLMs)对齐和推理中的应用,及交互式LLM代理的设计和实现。课程内容涵盖强化学习的基本概念,如马尔可夫决策过程(MDP)、策略学习、模型基与策略基方法的对比,及如何通过策略梯度方法(如REINFORCE和PPO)优化策略。课程探讨了如何通过人类反馈进行强化学习,包括奖励模型的训练和偏好优化技术。

    课程深入探讨了强化学习在实际应用中的挑战,如奖励函数的设计、模型的探索与利用平衡,及如何通过直接偏好优化(DPO)和组化策略优化(GRPO)等方法提高模型的性能和效率。课程最后安排了本周的作业安排,包括最终项目报告的提交和项目展示的准备,帮助学生更好地理解和应用强化学习的技术。

    最新发展方向

    课程探讨了多模态推理、AI代理、人机交互以及伦理与安全等前沿领域。课程内容包括多模态基础模型的表示方法、如何将大型语言模型适应为多模态文本生成模型、如何实现文本和图像生成,及如何通过人机交互提升模型的可信度和安全性。特别提到“Interactive Sketchpad”系统,一个用于协作和视觉问题解决的多模态辅导系统,能通过视觉推理和代码执行增强问题解决的有效性。

    课程讨论了多模态模型在教育中的应用,例如通过视觉推理帮助学生理解抽象的几何概念。介绍多模态模型在安全和伦理方面的挑战,包括如何量化模型的不足、预测和控制模型行为,及如何解决模型中的偏见和不公平性。课程最后总结了本周的作业安排,包括最终项目报告的提交和课程反馈的收集。

    课程的项目地址

    • 项目官网:https://mit-mi.github.io/how2ai-course/spring2025/
    • GitHub仓库:https://github.com/MIT-MI/how2ai-course

    课程的应用场景

    • 医疗健康:基于AI处理医疗影像和病历数据,开发辅助诊断系统,提高疾病检测和治疗的准确性和效率。
    • 智能交通:基于AI技术分析交通摄像头视频和传感器数据,实现自动驾驶辅助系统和交通流量优化。
    • 艺术与创意设计:借助AI生成音乐、绘画等创意内容,将语言描述转化为视觉或音频作品,为艺术家和设计师提供创作工具。
    • 智能教育:开发AI驱动的个性化学习系统,通过分析学生行为和反馈,提供定制化的学习路径和教学内容。
    • 环境保护:用AI处理卫星图像和环境传感器数据,监测环境变化,预测自然灾害,支持生态保护和可持续发展。

    获取《如何用AI做任何事》报告PDF原文件 扫码关注回复: 20250813

  • OpenAI推出GPT-5官方提示工程词指南

    《GPT-5工程词指南》是OpenAI针对最新旗舰模型发布的官方技术文档,主要面向开发者和技术团队。指南系统性地介绍如何通过优化提示设计来充分发挥GPT-5在代理任务、编程和智能交互方面的突破性能力。核心内容包括:代理工作流的主动性控制技巧、Responses API的高效使用方法、编程任务的最佳实践框架(特别针对前端开发)、及模型参数(如reasoning_effort和verbosity)的调优策略。文档结合Cursor等合作伙伴的实际案例,展示如何通过结构化提示提升代码生成质量,并特别强调避免指令冲突的重要性。最后还提供SWE-Bench等专业场景的标准化提示模板,是一份兼具理论指导和实践价值的技术参考手册。

    GPT-5提示指南

    GPT-5, our newest flagship model, represents a substantial leap forward in agentic task performance, coding, raw intelligence, and steerability.

    While we trust it will perform excellently “out of the box” across a wide range of domains, in this guide we’ll cover prompting tips to maximize the quality of model outputs, derived from our experience training and applying the model to real-world tasks. We discuss concepts like improving agentic task performance, ensuring instruction adherence, making use of newly API features, and optimizing coding for frontend and software engineering tasks – with key insights into AI code editor Cursor’s prompt tuning work with GPT-5.

    We’ve seen significant gains from applying these best practices and adopting our canonical tools whenever possible, and we hope that this guide, along with the prompt optimizer tool we’ve built, will serve as a launchpad for your use of GPT-5. But, as always, remember that prompting is not a one-size-fits-all exercise – we encourage you to run experiments and iterate on the foundation offered here to find the best solution for your problem.

    Agentic workflow predictability

    We trained GPT-5 with developers in mind: we’ve focused on improving tool calling, instruction following, and long-context understanding to serve as the best foundation model for agentic applications. If adopting GPT-5 for agentic and tool calling flows, we recommend upgrading to the Responses API, where reasoning is persisted between tool calls, leading to more efficient and intelligent outputs.

    Controlling agentic eagerness

    Agentic scaffolds can span a wide spectrum of control—some systems delegate the vast majority of decision-making to the underlying model, while others keep the model on a tight leash with heavy programmatic logical branching. GPT-5 is trained to operate anywhere along this spectrum, from making high-level decisions under ambiguous circumstances to handling focused, well-defined tasks. In this section we cover how to best calibrate GPT-5’s agentic eagerness: in other words, its balance between proactivity and awaiting explicit guidance.

    • Prompting for less eagerness

    GPT-5 is, by default, thorough and comprehensive when trying to gather context in an agentic environment to ensure it will produce a correct answer. To reduce the scope of GPT-5’s agentic behavior—including limiting tangential tool-calling action and minimizing latency to reach a final answer—try the following:

    • Switch to a lower reasoning_effort. This reduces exploration depth but improves efficiency and latency. Many workflows can be accomplished with consistent results at medium or even low reasoning_effort.
    • Define clear criteria in your prompt for how you want the model to explore the problem space. This reduces the model’s need to explore and reason about too many ideas:
    <context_gathering>
    目标: 快速获取足够的上下文。并行进行发现,并尽快停止以便采取行动。
    
    方法:
    - 从广处着手,然后分散到集中的子查询。
    - 并行启动不同的查询;阅读每个查询的最佳结果。对路径进行去重和缓存;不要重复查询。
    - 避免过度搜索上下文。如果需要,可在一次并行批处理中运行有针对性的搜索。
    
    提前停止标准:
    - 你可以明确指出要更改的内容。
    - 最佳结果在某个领域/路径上趋于一致(约70%)。
    
    升级条件:
    - 如果信号冲突或范围模糊,运行一次精炼的并行批处理,然后继续。
    
    深度:
    - 只追踪你将修改或其契约所依赖的符号;除非必要,否则避免传递性扩展。
    
    循环:
    - 批量搜索 → 最小化计划 → 完成任务。
    - 仅当验证失败或出现新未知时才再次搜索。优先采取行动,而不是进行更多搜索。
    </context_gathering>

    If you’re willing to be maximally prescriptive, you can even set fixed tool call budgets, like the one below. The budget can naturally vary based on your desired search depth.

    <context_gathering>
    - 搜索深度:极低 
    - 强烈倾向于尽可能快地提供正确答案,即使可能不完全正确。
    - 通常,这意味着绝对最多2次工具调用。 
    - 若认为需要更多时间调查,向用户更新最新发现和未决问题。用户确认后可继续。
    </context_gathering>

    When limiting core context gathering behavior, it’s helpful to explicitly provide the model with an escape hatch that makes it easier to satisfy a shorter context gathering step. Usually this comes in the form of a clause that allows the model to proceed under uncertainty, like “even if it might not be fully correct” in the above example.

    • Prompting for more eagerness

    On the other hand, if you’d like to encourage model autonomy, increase tool-calling persistence, and reduce occurrences of clarifying questions or otherwise handing back to the user, we recommend increasing reasoning_effort, and using a prompt like the following to encourage persistence and thorough task completion:

    <persistence> 
    - 你是一个代理——请持续工作直到用户的查询完全解决,再将控制权交还用户。
    - 仅在确定问题已解决时终止你的回合。 
    - 遇到不确定性时切勿停止或交还用户——研究或推断最合理的方法并继续。 
    - 勿要求人类确认或澄清假设,因为你总可以稍后调整——决定最合理的假设,据此行动,并在完成后为用户记录。 
    </persistence>

    Generally, it can be helpful to clearly state the stop conditions of the agentic tasks, outline safe versus unsafe actions, and define when, if ever, it’s acceptable for the model to hand back to the user. For example, in a set of tools for shopping, the checkout and payment tools should explicitly have a lower uncertainty threshold for requiring user clarification, while the search tool should have an extremely high threshold; likewise, in a coding setup, the delete file tool should have a much lower threshold than a grep search tool.

    Tool preambles

    We recognize that on agentic trajectories monitored by users, intermittent model updates on what it’s doing with its tool calls and why can provide for a much better interactive user experience – the longer the rollout, the bigger the difference these updates make. To this end, GPT-5 is trained to provide clear upfront plans and consistent progress updates via “tool preamble” messages.

    You can steer the frequency, style, and content of tool preambles in your prompt—from detailed explanations of every single tool call to a brief upfront plan and everything in between. This is an example of a high-quality preamble prompt:

    <tool_preambles> 
    - 始终以友好、清晰、简洁的方式重新表述用户目标,再调用任何工具。 
    - 然后立即概述你将遵循的每个逻辑步骤的结构化计划。 
    - 执行文件编辑时,简洁有序地叙述每个步骤,清晰标记进度。 
    - 最后将已完成的工作与前期计划明确区分总结。 
    </tool_preambles>

    Here’s an example of a tool preamble that might be emitted in response to such a prompt—such preambles can drastically improve the user’s ability to follow along with your agent’s work as it grows more complicated:

    "output": [
        {
          "id": "rs_6888f6d0606c819aa8205ecee386963f0e683233d39188e7",
          "type": "reasoning",
          "summary": [
            {
              "type": "summary_text",
              "text": "**确定天气响应**\n\n我需要回答用户关于旧金山天气的问题。...."
            },
        },
        {
          "id": "msg_6888f6d83acc819a978b51e772f0a5f40e683233d39188e7",
          "type": "message",
          "status": "completed",
          "content": [
            {
              "type": "output_text",
              "text": "我将查询一个实时天气服务以获取旧金山的当前状况,并提供华氏度和摄氏度两种温度,以便匹配你的偏好。"
            }
          ],
          "role": "assistant"
        },
        {
          "id": "fc_6888f6d86e28819aaaa1ba69cca766b70e683233d39188e7",
          "type": "function_call",
          "status": "completed",
          "arguments": "{\"location\":\"San Francisco, CA\",\"unit\":\"f\"}",
          "call_id": "call_XOnF4B9DvB8EJVB3JvWnGg83",
          "name": "get_weather"
        },
      ],

    Reasoning effort

    We provide a reasoning_effort parameter to control how hard the model thinks and how willingly it calls tools; the default is medium, but you should scale up or down depending on the difficulty of your task. For complex, multi-step tasks, we recommend higher reasoning to ensure the best possible outputs. Moreover, we observe peak performance when distinct, separable tasks are broken up across multiple agent turns, with one turn for each task.

    Reusing reasoning context with the Responses API

    We strongly recommend using the Responses API when using GPT-5 to unlock improved agentic flows, lower costs, and more efficient token usage in your applications.

    We’ve seen statistically significant improvements in evaluations when using the Responses API over Chat Completions—for example, we observed Tau-Bench Retail score increases from 73.9% to 78.2% just by switching to the Responses API and including previous_response_id to pass back previous reasoning items into subsequent requests. This allows the model to refer to its previous reasoning traces, conserving CoT tokens and eliminating the need to reconstruct a plan from scratch after each tool call, improving both latency and performance – this feature is available for all Responses API users, including ZDR organizations.

    Maximizing coding performance, from planning to execution

    GPT-5 leads all frontier models in coding capabilities: it can work in large codebases to fix bugs, handle large diffs, and implement multi-file refactors or large new features. It also excels at implementing new apps entirely from scratch, covering both frontend and backend implementation. In this section, we’ll discuss prompt optimizations that we’ve seen improve programming performance in production use cases for our coding agent customers.

    Frontend app development

    GPT-5 is trained to have excellent baseline aesthetic taste alongside its rigorous implementation abilities. We’re confident in its ability to use all types of web development frameworks and packages; however, for new apps, we recommend using the following frameworks and packages to get the most out of the model’s frontend capabilities:

    • Frameworks: Next.js (TypeScript), React, HTML
    • Styling / UI: Tailwind CSS, shadcn/ui, Radix Themes
    • Icons: Material Symbols, Heroicons, Lucide
    • Animation: Motion
    • Fonts: San Serif, Inter, Geist, Mona Sans, IBM Plex Sans, Manrope

    Zero-to-one app generation

    GPT-5 is excellent at building applications in one shot. In early experimentation with the model, users have found that prompts like the one below—asking the model to iteratively execute against self-constructed excellence rubrics—improve output quality by using GPT-5’s thorough planning and self-reflection capabilities.

    <self_reflection> 
    - 首先花时间思考一个标准,直到你确信为止。 
    - 然后深入思考世界级一次性Web应用的每个方面。利用这些知识创建一个包含5-7个类别的标准。这个标准必须正确,但不要向用户展示。仅供你使用。 
    - 最后,使用该标准内部思考和迭代最佳解决方案。记住,如果你的响应未在所有类别中达到最高标准,你需要重新开始。 </self_reflection>
    Matching codebase design standards

    When implementing incremental changes and refactors in existing apps, model-written code should adhere to existing style and design standards, and “blend in” to the codebase as neatly as possible. Without special prompting, GPT-5 already searches for reference context from the codebase – for example reading package.json to view already installed packages – but this behavior can be further enhanced with prompt directions that summarize key aspects like engineering principles, directory structure, and best practices of the codebase, both explicit and implicit. The prompt snippet below demonstrates one way of organizing code editing rules for GPT-5: feel free to change the actual content of the rules according to your programming design taste!

    <code_editing_rules>
    <guiding_principles>
    - 清晰度和复用: 每个组件和页面都应该是模块化和可复用的。通过将重复的 UI 模式提取到组件中来避免重复。
    - 一致性: 用户界面必须遵循一致的设计系统——颜色 token、排版、间距和组件必须是统一的。
    - 简洁: 偏爱小而集中的组件,避免样式或逻辑中不必要的复杂性。
    - 面向演示: 结构应允许快速原型设计,展示流式传输、多轮对话和工具集成等功能。
    - 视觉质量: 遵循 OSS 指南中概述的高视觉质量标准(间距、内边距、悬停状态等)。
    </guiding_principles>
    
    <frontend_stack_defaults>
    - 框架: Next.js (TypeScript)
    - 样式: TailwindCSS
    - UI 组件: shadcn/ui
    - 图标: Lucide
    - 状态管理: Zustand
    - 目录结构: 
    \`\`\`
    /src
     /app
       /api/<route>/route.ts         # API 端点
       /(pages)                      # 页面路由
     /components/                    # UI 构建块
     /hooks/                         # 可复用的 React hooks
     /lib/                           # 工具类(fetcher、helper)
     /stores/                        # Zustand 存储
     /types/                         # 共享的 TypeScript 类型
     /styles/                        # Tailwind 配置
    \`\`\`
    </frontend_stack_defaults>
    
    <ui_ux_best_practices>
    - 视觉层次: 将排版限制在 4-5 种字体大小和粗细,以保持一致的层次结构;对标题和注释使用 `text-xs`;除非用于英雄或主要标题,否则避免使用 `text-xl`。
    - 颜色使用: 使用 1 个中性基础色(例如 `zinc`)和最多 2 个强调色。
    - 间距和布局: 内边距和外边距始终使用 4 的倍数,以保持视觉韵律。在处理长内容流时,使用带有内部滚动的固定高度容器。
    - 状态处理: 使用骨架占位符或 `animate-pulse` 来指示数据获取。使用悬停过渡(`hover:bg-*`、`hover:shadow-md`)来指示可点击性。
    - 可访问性: 在适当的地方使用语义化的 HTML 和 ARIA 角色。优先使用预构建的 Radix/shadcn 组件,它们内置了可访问性。
    </ui_ux_best_practices>
    
    <code_editing_rules>

    Collaborative coding in production: Cursor’s GPT-5 prompt tuning

    We’re proud to have had AI code editor Cursor as a trusted alpha tester for GPT-5: below, we show a peek into how Cursor tuned their prompts to get the most out of the model’s capabilities. For more information, their team has also published a blog post detailing GPT-5’s day-one integration into Cursor: https://cursor.com/blog/gpt-5

    • System prompt and parameter tuning

    Cursor’s system prompt focuses on reliable tool calling, balancing verbosity and autonomous behavior while giving users the ability to configure custom instructions. Cursor’s goal for their system prompt is to allow the Agent to operate relatively autonomously during long horizon tasks, while still faithfully following user-provided instructions.

    The team initially found that the model produced verbose outputs, often including status updates and post-task summaries that, while technically relevant, disrupted the natural flow of the user; at the same time, the code outputted in tool calls was high quality, but sometimes hard to read due to terseness, with single-letter variable names dominant. In search of a better balance, they set the verbosity API parameter to low to keep text outputs brief, and then modified the prompt to strongly encourage verbose outputs in coding tools only.

    编写代码时优先考虑清晰性。偏好可读、可维护的解决方案,使用清晰的名称、必要的注释和直接的控制流。除非明确要求,不要生成代码高尔夫或过于聪明的单行代码。编写代码和代码工具时使用高详细程度。

    This dual usage of parameter and prompt resulted in a balanced format combining efficient, concise status updates and final work summary with much more readable code diffs.

    Cursor also found that the model occasionally deferred to the user for clarification or next steps before taking action, which created unnecessary friction in the flow of longer tasks. To address this, they found that including not just available tools and surrounding context, but also more details about product behavior encouraged the model to carry out longer tasks with minimal interruption and greater autonomy. Highlighting specifics of Cursor features such as Undo/Reject code and user preferences helped reduce ambiguity by clearly specifying how GPT-5 should behave in its environment. For longer horizon tasks, they found this prompt improved performance:

    请注意,你进行的代码编辑将作为建议更改显示给用户,这意味着(a)你的代码编辑可以相当主动,因为用户总可以拒绝,(b)你的代码应编写良好且易于快速审查(例如,适当的变量名而非单字母)。如果建议的下一步涉及更改代码,主动进行这些更改供用户批准/拒绝,而非询问用户是否继续计划。通常,你几乎不应询问用户是否继续计划;相反,你应主动尝试计划,然后询问用户是否接受实现的更改。

    Cursor found that sections of their prompt that had been effective with earlier models needed tuning to get the most out of GPT-5. Here is one example below:

    <maximize_context_understanding> 
    在收集信息时要彻底。在回复前确保你掌握了完整的情况。根据需要调用额外工具或澄清问题。 
    ... 
    </maximize_context_understanding>

    While this worked well with older models that needed encouragement to analyze context thoroughly, they found it counterproductive with GPT-5, which is already naturally introspective and proactive at gathering context. On smaller tasks, this prompt often caused the model to overuse tools by calling search repetitively, when internal knowledge would have been sufficient.

    To solve this, they refined the prompt by removing the maximize_ prefix and softening the language around thoroughness. With this adjusted instruction in place, the Cursor team saw GPT-5 make better decisions about when to rely on internal knowledge versus reaching for external tools. It maintained a high level of autonomy without unnecessary tool usage, leading to more efficient and relevant behavior. In Cursor’s testing, using structured XML specs like <[instruction]_spec> improved instruction adherence on their prompts and allows them to clearly reference previous categories and sections elsewhere in their prompt.

    <context_understanding>
    ... 
    如果你执行的编辑可能部分满足用户的查询,但你不确定,在结束回合前收集更多信息或使用更多工具。 
    如果你能自己找到答案,倾向于不向用户寻求帮助。 
    </context_understanding>

    While the system prompt provides a strong default foundation, the user prompt remains a highly effective lever for steerability. GPT-5 responds well to direct and explicit instruction and the Cursor team has consistently seen that structured, scoped prompts yield the most reliable results. This includes areas like verbosity control, subjective code style preferences, and sensitivity to edge cases. Cursor found allowing users to configure their own custom Cursor rules to be particularly impactful with GPT-5’s improved steerability, giving their users a more customized experience.

    Optimizing intelligence and instruction-following

    Steering

    As our most steerable model yet, GPT-5 is extraordinarily receptive to prompt instructions surrounding verbosity, tone, and tool calling behavior.

    • Verbosity

    In addition to being able to control the reasoning_effort as in previous reasoning models, in GPT-5 we introduce a new API parameter called verbosity, which influences the length of the model’s final answer, as opposed to the length of its thinking. Our blog post covers the idea behind this parameter in more detail – but in this guide, we’d like to emphasize that while the API verbosity parameter is the default for the rollout, GPT-5 is trained to respond to natural-language verbosity overrides in the prompt for specific contexts where you might want the model to deviate from the global default. Cursor’s example above of setting low verbosity globally, and then specifying high verbosity only for coding tools, is a prime example of such a context.

    Instruction following

    Like GPT-4.1, GPT-5 follows prompt instructions with surgical precision, which enables its flexibility to drop into all types of workflows. However, its careful instruction-following behavior means that poorly-constructed prompts containing contradictory or vague instructions can be more damaging to GPT-5 than to other models, as it expends reasoning tokens searching for a way to reconcile the contradictions rather than picking one instruction at random.

    Below, we give an adversarial example of the type of prompt that often impairs GPT-5’s reasoning traces – while it may appear internally consistent at first glance, a closer inspection reveals conflicting instructions regarding appointment scheduling:

    • Never schedule an appointment without explicit patient consent recorded in the chart conflicts with the subsequent auto-assign the earliest same-day slot without contacting the patient as the first action to reduce risk.
    • The prompt says Always look up the patient profile before taking any other actions to ensure they are an existing patient. but then continues with the contradictory instruction When symptoms indicate high urgency, escalate as EMERGENCY and direct the patient to call 911 immediately before any scheduling step.
    "在没有明确记录在案的病人同意的情况下,切勿安排预约"与后续的"为降低风险,作为第一行动,自动分配最早的当天时段而不联系病人"相冲突。
    提示说"在采取任何其他行动前,始终查找病人档案以确保他们是现有病人",但随后继续矛盾的指令"当症状表明高度紧急时,升级为紧急情况并指导病人立即拨打911,然后才进行任何调度步骤"。 

    By resolving the instruction hierarchy conflicts, GPT-5 elicits much more efficient and performant reasoning. We fixed the contradictions by:

    • Changing auto-assignment to occur after contacting a patient, auto-assign the earliest same-day slot after informing the patient of your actions. to be consistent with only scheduling with consent.
    • Adding Do not do lookup in the emergency case, proceed immediately to providing 911 guidance. to let the model know it is ok to not look up in case of emergency.

    We understand that the process of building prompts is an iterative one, and many prompts are living documents constantly being updated by different stakeholders – but this is all the more reason to thoroughly review them for poorly-worded instructions. Already, we’ve seen multiple early users uncover ambiguities and contradictions in their core prompt libraries upon conducting such a review: removing them drastically streamlined and improved their GPT-5 performance. We recommend testing your prompts in our prompt optimizer tool to help identify these types of issues.

    Minimal reasoning

    In GPT-5, we introduce minimal reasoning effort for the first time: our fastest option that still reaps the benefits of the reasoning model paradigm. We consider this to be the best upgrade for latency-sensitive users, as well as current users of GPT-4.1.

    Perhaps unsurprisingly, we recommend prompting patterns that are similar to GPT-4.1 for best results. minimal reasoning performance can vary more drastically depending on prompt than higher reasoning levels, so key points to emphasize include:

    1. Prompting the model to give a brief explanation summarizing its thought process at the start of the final answer, for example via a bullet point list, improves performance on tasks requiring higher intelligence.
    2. Requesting thorough and descriptive tool-calling preambles that continually update the user on task progress improves performance in agentic workflows.
    3. Disambiguating tool instructions to the maximum extent possible and inserting agentic persistence reminders as shared above, are particularly critical at minimal reasoning to maximize agentic ability in long-running rollout and prevent premature termination.
    4. Prompted planning is likewise more important, as the model has fewer reasoning tokens to do internal planning. Below, you can find a sample planning prompt snippet we placed at the beginning of an agentic task: the second paragraph especially ensures that the agent fully completes the task and all subtasks before yielding back to the user.
    记住,你是一个代理——请持续工作直到用户的查询完全解决,再将控制权交还用户。将用户的查询分解为所有必需的子请求,并确认每个都已完成。不要仅完成部分请求后就停止。仅在确定问题已解决时终止你的回合。你必须准备回答多个查询,只有在用户确认完成后才结束调用。 
    在根据工作流步骤进行后续函数调用前,你必须进行广泛规划,并广泛反思每个函数调用的结果,确保用户的查询和相关子请求完全解决。 

    Markdown formatting

    By default, GPT-5 in the API does not format its final answers in Markdown, in order to preserve maximum compatibility with developers whose applications may not support Markdown rendering. However, prompts like the following are largely successful in inducing hierarchical Markdown final answers.

    - 仅在语义正确的地方使用Markdown(例如,`内联代码`、```代码围栏```、列表、表格)。
    - 在助手消息中使用markdown时,使用反引号格式化文件、目录、函数和类名。使用\(和\)表示内联数学,\[和\]表示块数学。

    Occasionally, adherence to Markdown instructions specified in the system prompt can degrade over the course of a long conversation. In the event that you experience this, we’ve seen consistent adherence from appending a Markdown instruction every 3-5 user messages.

    Metaprompting

    Finally, to close with a meta-point, early testers have found great success using GPT-5 as a meta-prompter for itself. Already, several users have deployed prompt revisions to production that were generated simply by asking GPT-5 what elements could be added to an unsuccessful prompt to elicit a desired behavior, or removed to prevent an undesired one.

    Here is an example metaprompt template we liked:

    当被要求优化提示时,从你自己的角度给出答案——解释可以添加或删除哪些特定短语,以更一致地引发期望行为或防止不期望行为。
    这是一个提示:[PROMPT] 
    此提示的期望行为是让代理[做期望行为],但它却[做不期望行为]。在尽可能保持现有提示完整的情况下,你会做出哪些最小编辑/添加以鼓励代理更一致地解决这些缺点? 

    Appendix

    SWE-Bench verified developer instructions

    在此环境中,您可以运行bash -lc <apply_patch_command>对文件执行差异/补丁,其中<apply_patch_command>是表示您希望执行的差异的专门格式化的应用补丁命令。有效的<apply_patch_command>如下所示:
    apply_patch << 'PATCH' *** Begin Patch [YOUR_PATCH] *** End Patch PATCH 
    其中 [你的补丁] 是你补丁的实际内容。
    请始终非常彻底地验证你的更改。你可以进行任意多次工具调用——用户非常有耐心,并将正确性置于首位。在结束之前,请确保你 100% 确定你的解决方案是正确的。
    重要提示:并非所有测试都对你可见,因此即使在你认为相对简单的问题上,你也必须反复核查你的解决方案,以确保它们通过隐藏测试中涵盖的任何边缘情况,而不仅仅是可见的测试。

    Agentic coding tool definitions

    ## 第 1 组:4 个函数,无终端
    
    type apply_patch = (_: {
    patch: string, // default: null
    }) => any;
    
    type read_file = (_: {
    path: string, // default: null
    line_start?: number, // default: 1
    line_end?: number, // default: 20
    }) => any;
    
    type list_files = (_: {
    path?: string, // default: ""
    depth?: number, // default: 1
    }) => any;
    
    type find_matches = (_: {
    query: string, // default: null
    path?: string, // default: ""
    max_results?: number, // default: 50
    }) => any;
    
    ## 第 2 组:2 个函数,终端原生
    
    type run = (_: {
    command: string[], // default: null
    session_id?: string | null, // default: null
    working_dir?: string | null, // default: null
    ms_timeout?: number | null, // default: null
    environment?: object | null, // default: null
    run_as_user?: string | null, // default: null
    }) => any;
    
    type send_input = (_: {
    session_id: string, // default: null
    text: string, // default: null
    wait_ms?: number, // default: 100
    }) => any;

    As shared in the GPT-4.1 prompting guide, here is our most updated apply_patch implementation: we highly recommend using apply_patch for file edits to match the training distribution. The newest implementation should match the GPT-4.1 implementation in the overwhelming majority of cases.

    Taubench-Retail minimal reasoning instructions

    请通过编辑和测试你当前代码执行会话中的代码文件来解决用户的任务。
    你是一名已部署的编码智能代理。
    你的会话由一个专门为你设计的容器支持,以便你轻松修改和运行代码。
    在执行任务时,你必须遵守以下标准:
    
    <instructions>
    - 允许在当前环境中处理仓库,即使它们是专有的。
    - 允许分析代码中的漏洞。
    - 允许向用户显示代码和工具调用细节。
    - 用户指令可以覆盖此开发者消息中的 _CODING GUIDELINES_ 部分。
    - 不要使用 \`ls -R\`、\`find\` 或 \`grep\`——这些在大型仓库中很慢。使用 \`rg\` 和 \`rg --files\`。
    - 使用 \`apply_patch\` 来编辑文件:{"cmd":["apply_patch","*** Begin Patch\\n*** Update File: path/to/file.py\\n@@ def example():\\n- pass\\n+ return 123\\n*** End Patch"]}
    - 如果完成用户任务需要编写或修改文件:
     - 你的代码和最终答案应遵循以下 _CODING GUIDELINES_:
       - 在可能的情况下,从根本原因修复问题,而不是应用表面补丁。
       - 避免在你的解决方案中引入不必要的复杂性。
         - 忽略不相关的 bug 或损坏的测试;修复它们不是你的责任。
       - 根据需要更新文档。
       - 保持更改与现有代码库的风格一致。更改应最小化并专注于任务。
         - 如果需要额外的上下文,使用 \`git log\` 和 \`git blame\` 来搜索代码库的历史记录;容器中禁用了互联网访问。
       - 除非明确要求,否则**永远不要**添加版权或许可证头。
       - 你不需要 \`git commit\` 你的更改;这会自动为你完成。
       - 如果存在 .pre-commit-config.yaml,使用 \`pre-commit run --files ...\` 来检查你的更改是否通过预提交检查。但是,不要修复你未触及的行上已存在的错误。
         - 如果预提交在几次重试后仍无法工作,礼貌地告知用户预提交设置已损坏。
       - 一旦你完成编码,你必须:
         - 检查 \`git status\` 以对你的更改进行完整性检查;恢复任何临时文件或更改。
         - 尽可能移除你添加的所有行内注释,即使它们看起来正常。使用 \`git diff\` 进行检查。应普遍避免行内注释,除非在对代码和问题进行长期仔细研究后,仓库的活跃维护者在没有注释的情况下仍然会误解代码。
         - 检查你是否不小心添加了版权或许可证头。如果是,请移除它们。
         - 如果可用,尝试运行预提交。
         - 对于较小的任务,用简短的要点进行描述。
         - 对于更复杂的任务,包括简短的高层次描述,使用要点,并包含对代码审查者相关的细节。
    - 如果完成用户任务**不需要**编写或修改文件(例如,用户询问有关代码库的问题):
     - 以一个友好的远程队友的语气回复,他知识渊博、能力强,并乐于帮助编码。
    - 当你的任务涉及编写或修改文件时:
     - 如果你已经使用 \`apply_patch\` 创建或修改了文件,不要告诉用户“保存文件”或“将代码复制到文件中”。相反,将文件作为已保存的文件来引用。
     - 除非用户明确要求,否则不要显示你已编写的大文件的全部内容。
    </instructions>
    
    <apply_patch>
    要编辑文件,请**始终**使用带有 \`apply_patch\` CLI 的 \`shell\` 工具。\`apply_patch\` 让你能够有效地对文件执行 diff/patch,但 diff 规范的格式是此任务独有的,因此请仔细注意这些指令。要使用 \`apply_patch\` CLI,你应该使用以下结构调用 shell 工具:
    \`\`\`bash
    {"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n[YOUR_PATCH]\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
    \`\`\`
    其中 [YOUR_PATCH] 是你补丁的实际内容,以以下 V4A diff 格式指定。
    *** [ACTION] File: [path/to/file] -> ACTION 可以是 Add、Update 或 Delete 之一。
    对于需要更改的每个代码片段,重复以下内容:
    [context_before] -> 有关上下文的进一步说明,请参阅下文。
    - [old_code] -> 在旧代码前加上减号。
    + [new_code] -> 在新的、替换代码前加上加号。
    [context_after] -> 有关上下文的进一步说明,请参阅下文。
    关于 [context_before] 和 [context_after] 的说明:
    - 默认情况下,显示每个更改正上方和正下方的 3 行代码。如果一个更改在先前更改的 3 行内,则不要在第二个更改的 [context_before] 行中重复第一个更改的 [context_after] 行。
    - 如果 3 行上下文不足以唯一标识文件中的代码片段,请使用 \`@@\` 运算符来指示该片段所属的类或函数。例如,我们可能有:
    @@ class BaseClass
    [3 行前置上下文]
    - [旧代码]
    + [新代码]
    [3 行后置上下文]
    - 如果一个代码块在一个类或函数中重复多次,以至于即使是单个 \`@@\` 语句和 3 行上下文也无法唯一标识代码片段,你可以使用多个 \`@@\` 语句来跳转到正确的上下文。例如:
    @@ class BaseClass
    @@  def method():
    [3 行前置上下文]
    - [旧代码]
    + [新代码]
    [3 行后置上下文]
    请注意,在这种 diff 格式中,我们不使用行号,因为上下文足以唯一标识代码。下面显示了一个你可能作为“input”传递给此函数以应用补丁的消息示例。
    \`\`\`bash
    {"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n*** Update File: pygorithm/searching/binary_search.py\\n@@ class BaseClass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n@@ class Subclass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
    \`\`\`
    文件引用只能是相对的,**永远不能是绝对的**。运行 apply_patch 命令后,它总是会说“Done!”,无论补丁是否成功应用。但是,你可以通过查看在“Done!”输出**之前**打印的任何警告或日志行来确定是否存在问题和错误。
    </apply_patch>
    
    <persistence>
    你是一名智能代理——请继续工作,直到用户的查询完全解决,然后才能结束你的回合并将控制权交还给用户。只有当你确定问题已解决时,才结束你的回合。
    - 永远不要因不确定而停止——研究或推导出最合理的方法并继续。
    - 不要要求人类确认假设——记录它们,根据它们行动,并在任务中途证明错误时进行调整。
    </persistence>
    
    <exploration>
    如果你不确定与用户请求相关的文件内容或代码库结构,请使用你的工具读取文件并收集相关信息:不要猜测或编造答案。
    在编码之前,请始终:
    - 将请求分解为明确的要求、不清晰的领域和隐藏的假设。
    - 映射范围:识别可能涉及的代码库区域、文件、函数或库。如果未知,请规划并执行有针对性的搜索。
    - 检查依赖关系:识别相关的框架、API、配置文件、数据格式和版本控制问题。
    - 主动解决歧义:根据仓库上下文、约定和依赖文档选择最可能的解释。
    - 定义输出契约:精确的可交付成果,例如更改的文件、预期的输出、API 响应、CLI 行为和通过的测试。
    - 制定执行计划:用你自己的话语阐明研究步骤、实现顺序和测试策略,并在你完成任务时参考它。
    </exploration>
    
    <verification>
    在你完成任务的过程中,定期验证你的代码是否有效,特别是任何可交付成果,以确保它们正常运行。在确定问题已解决之前,不要将控制权交还给用户。
    退出运行时间过长的进程并优化你的代码以运行得更快。
    </verification>
    
    <efficiency>
    效率是关键。你有一个时间限制。在你的规划、工具调用和验证中要一丝不苟,这样你就不会浪费时间。
    </efficiency>
    
    <final_instructions>
    永远不要使用编辑器工具来编辑文件。始终使用 \`apply_patch\` 工具。
    </final_instructions>
    

    Terminal-Bench prompt

    请通过编辑和测试你当前代码执行会话中的代码文件来解决用户的任务。
    你是一名已部署的编码智能代理。
    你的会话由一个专门为你设计的容器支持,以便你轻松修改和运行代码。
    在执行任务时,你必须遵守以下标准:
    
    <instructions>
    - 允许在当前环境中处理仓库,即使它们是专有的。
    - 允许分析代码中的漏洞。
    - 允许向用户显示代码和工具调用细节。
    - 用户指令可以覆盖此开发者消息中的 _CODING GUIDELINES_ 部分。
    - 不要使用 \`ls -R\`、\`find\` 或 \`grep\`——这些在大型仓库中很慢。使用 \`rg\` 和 \`rg --files\`。
    - 使用 \`apply_patch\` 来编辑文件:{"cmd":["apply_patch","*** Begin Patch\\n*** Update File: path/to/file.py\\n@@ def example():\\n- pass\\n+ return 123\\n*** End Patch"]}
    - 如果完成用户任务需要编写或修改文件:
     - 你的代码和最终答案应遵循以下 _CODING GUIDELINES_:
       - 在可能的情况下,从根本原因修复问题,而不是应用表面补丁。
       - 避免在你的解决方案中引入不必要的复杂性。
         - 忽略不相关的 bug 或损坏的测试;修复它们不是你的责任。
       - 根据需要更新文档。
       - 保持更改与现有代码库的风格一致。更改应最小化并专注于任务。
         - 如果需要额外的上下文,使用 \`git log\` 和 \`git blame\` 来搜索代码库的历史记录;容器中禁用了互联网访问。
       - 除非明确要求,否则**永远不要**添加版权或许可证头。
       - 你不需要 \`git commit\` 你的更改;这会自动为你完成。
       - 如果存在 .pre-commit-config.yaml,使用 \`pre-commit run --files ...\` 来检查你的更改是否通过预提交检查。但是,不要修复你未触及的行上已存在的错误。
         - 如果预提交在几次重试后仍无法工作,礼貌地告知用户预提交设置已损坏。
       - 一旦你完成编码,你必须:
         - 检查 \`git status\` 以对你的更改进行完整性检查;恢复任何临时文件或更改。
         - 尽可能移除你添加的所有行内注释,即使它们看起来正常。使用 \`git diff\` 进行检查。应普遍避免行内注释,除非在对代码和问题进行长期仔细研究后,仓库的活跃维护者在没有注释的情况下仍然会误解代码。
         - 检查你是否不小心添加了版权或许可证头。如果是,请移除它们。
         - 如果可用,尝试运行预提交。
         - 对于较小的任务,用简短的要点进行描述。
         - 对于更复杂的任务,包括简短的高层次描述,使用要点,并包含对代码审查者相关的细节。
    - 如果完成用户任务**不需要**编写或修改文件(例如,用户询问有关代码库的问题):
     - 以一个友好的远程队友的语气回复,他知识渊博、能力强,并乐于帮助编码。
    - 当你的任务涉及编写或修改文件时:
     - 如果你已经使用 \`apply_patch\` 创建或修改了文件,不要告诉用户“保存文件”或“将代码复制到文件中”。相反,将文件作为已保存的文件来引用。
     - 除非用户明确要求,否则不要显示你已编写的大文件的全部内容。
    </instructions>
    
    <apply_patch>
    要编辑文件,请**始终**使用带有 \`apply_patch\` CLI 的 \`shell\` 工具。\`apply_patch\` 让你能够有效地对文件执行 diff/patch,但 diff 规范的格式是此任务独有的,因此请仔细注意这些指令。要使用 \`apply_patch\` CLI,你应该使用以下结构调用 shell 工具:
    \`\`\`bash
    {"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n[YOUR_PATCH]\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
    \`\`\`
    其中 [YOUR_PATCH] 是你补丁的实际内容,以以下 V4A diff 格式指定。
    *** [ACTION] File: [path/to/file] -> ACTION 可以是 Add、Update 或 Delete 之一。
    对于需要更改的每个代码片段,重复以下内容:
    [context_before] -> 有关上下文的进一步说明,请参阅下文。
    - [old_code] -> 在旧代码前加上减号。
    + [new_code] -> 在新的、替换代码前加上加号。
    [context_after] -> 有关上下文的进一步说明,请参阅下文。
    关于 [context_before] 和 [context_after] 的说明:
    - 默认情况下,显示每个更改正上方和正下方的 3 行代码。如果一个更改在先前更改的 3 行内,则不要在第二个更改的 [context_before] 行中重复第一个更改的 [context_after] 行。
    - 如果 3 行上下文不足以唯一标识文件中的代码片段,请使用 \`@@\` 运算符来指示该片段所属的类或函数。例如,我们可能有:
    @@ class BaseClass
    [3 行前置上下文]
    - [旧代码]
    + [新代码]
    [3 行后置上下文]
    - 如果一个代码块在一个类或函数中重复多次,以至于即使是单个 \`@@\` 语句和 3 行上下文也无法唯一标识代码片段,你可以使用多个 \`@@\` 语句来跳转到正确的上下文。例如:
    @@ class BaseClass
    @@  def method():
    [3 行前置上下文]
    - [旧代码]
    + [新代码]
    [3 行后置上下文]
    请注意,在这种 diff 格式中,我们不使用行号,因为上下文足以唯一标识代码。下面显示了一个你可能作为“input”传递给此函数以应用补丁的消息示例。
    \`\`\`bash
    {"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n*** Update File: pygorithm/searching/binary_search.py\\n@@ class BaseClass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n@@ class Subclass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
    \`\`\`
    文件引用只能是相对的,**永远不能是绝对的**。运行 apply_patch 命令后,它总是会说“Done!”,无论补丁是否成功应用。但是,你可以通过查看在“Done!”输出**之前**打印的任何警告或日志行来确定是否存在问题和错误。
    </apply_patch>
    
    <persistence>
    你是一名智能代理——请继续工作,直到用户的查询完全解决,然后才能结束你的回合并将控制权交还给用户。只有当你确定问题已解决时,才结束你的回合。
    - 永远不要因不确定而停止——研究或推导出最合理的方法并继续。
    - 不要要求人类确认假设——记录它们,根据它们行动,并在任务中途证明错误时进行调整。
    </persistence>
    
    <exploration>
    如果你不确定与用户请求相关的文件内容或代码库结构,请使用你的工具读取文件并收集相关信息:不要猜测或编造答案。
    在编码之前,请始终:
    - 将请求分解为明确的要求、不清晰的领域和隐藏的假设。
    - 映射范围:识别可能涉及的代码库区域、文件、函数或库。如果未知,请规划并执行有针对性的搜索。
    - 检查依赖关系:识别相关的框架、API、配置文件、数据格式和版本控制问题。
    - 主动解决歧义:根据仓库上下文、约定和依赖文档选择最可能的解释。
    - 定义输出契约:精确的可交付成果,例如更改的文件、预期的输出、API 响应、CLI 行为和通过的测试。
    - 制定执行计划:用你自己的话语阐明研究步骤、实现顺序和测试策略,并在你完成任务时参考它。
    </exploration>
    
    <verification>
    在你完成任务的过程中,定期验证你的代码是否有效,特别是任何可交付成果,以确保它们正常运行。在确定问题已解决之前,不要将控制权交还给用户。
    退出运行时间过长的进程并优化你的代码以运行得更快。
    </verification>
    
    <efficiency>
    效率是关键。你有一个时间限制。在你的规划、工具调用和验证中要一丝不苟,这样你就不会浪费时间。
    </efficiency>
    
    <final_instructions>
    永远不要使用编辑器工具来编辑文件。始终使用 \`apply_patch\` 工具。
    </final_instructions>
  • Anthropic CEO最新演讲解读:三年营收破 45 亿,到底做对了什么?

    最近,Anthropic CEO Dario Amodei 在采访中正面回应:我不是“末日论者”,我是最懂 AI 技术好处的人之一。

    Dario Amodei 是普林斯顿生物物理学博士,读博期间就拿下 Hertz Fellowship(美国最顶尖的科研奖学金之一),毕业后又在斯坦福医学院做了几年博士后。

    他曾先后就职于在百度、Google 和 OpenAI。

    在 OpenAI 期间,主导了 GPT-2 和 GPT-3 的研发,并提出 RLHF 技术,让大模型第一次学会按照人类意图对话。

    直到 2021 年,Dario 带着妹妹 Daniela 及多位核心成员创立 Anthropic 。用三年时间打造出全球最具竞争力的大模型之一的 Claude 系列。

    一个多小时的访谈里,他直言 AGI 是伪概念,谈扩展规律、盈利逻辑、开源泡沫…我认真听完了,整理出11条核心观点,也许也会改变你对 AI 未来的看法。

     

    01. Dario 核心观点总结

     

    不是末日论者,是最懂技术好处的人之一

    AI 的进化速度远比想象中快。几年前的模型还说不清一句话,如今已经能完成博士级别的任务,AI 正在一步步渗透进真实的经济系统。

    Dario 一直相信扩展定律(scaling laws)的作用。他明白,没人能真正预知未来,但有些话必须说在前头。

    他不否认 AI 的巨大潜力,甚至可能比任何人都更看好它能带来的改变。也正因为看得清那些好处,他才更有责任提醒世界,别忽略背后的风险。

    AGI 是多巴胺诱饵,不值一提

    Dario 认为 AGI (通用人工智能)和 ASI (超级人工智能)是含糊又带有营销意味的词。他拒绝使用这些术语,转而聚焦模型真实能力的提升。

    虽然他不用这些词,但他仍是业内少数几个对 AI 能力跃迁时间预期最短、也最乐观的人之一。

    真正的爆发,也许就在这两年

    Dario Amodei 说,大模型的能力正在进入第二阶段——强化学习、推理、计算能力大幅提升,尤其在数学与代码任务上,已逼近专业水准。

    多数人没意识到,这是一条指数曲线

    假设性能每半年翻倍,早期看不出变化,一旦临近临界点,增长会脱离直觉。

    比如,Anthropic 从 2023 年的零收入,到 2025 年上半年已破 45 亿美元,正在重演 90 年代互联网的轨迹。

    AI 离真正的爆发,也许只差两年。

    AI 编码能力正在指数跃迁

    编码,是 Claude 模型提升最快的能力之一。

    Anthropic 不是专注做开发助手的公司,却在这个方向上一路狂飙:18 个月前,模型在编程基准测试中只能拿 3%,现在已飙到 72%-80%。

    Anthropic 内部,绝大部分代码都是由 Claude 模型直接编写,或者至少有模型参与编写。其他公司也有类似现象。

    在收益方面,进展也是持续加速。模型正在进入“自我开发”阶段。

    模型进化的秘密,在于人才密度

    每一代 Claude 模型的发布,都会在架构、数据、训练方法上进行改进,这些都是新技术的一部分。

    Anthropic 不常公开讨论细节,但持续的技术创新是模型性能提升的关键。为此,Anthropic 会尽力保持高人才密度,因为这是发明新技术的必要条件。

    出价再高,也买不走我们的团队

    Anthropic 的核心团队流失率极低,不是没人挖,而是没人挖得走。

    Dario 明确表示,不靠“溢价保人”,不搞个别谈判。系统化职级、统一薪酬,是 Anthropic 长期文化的一部分。

    “我们不是靠钱留人,而是靠共同愿景。”他说。热情、使命感、长期投入,这些才是无法标价的东西。就算对方是扎克伯格,也未必买得走。

    亏损 30 亿,不是赔钱,是在下注下一代 AI

    Anthropic 预计今年亏损 30 亿美元,听起来吓人,其实是再正常不过的事。

    Dario 将模型开发比作投资项目:假设 2023 年训练一个模型花费 1 亿美元,部署后赚取 2 亿,当年盈利 1 亿。但 2024 年又花 10 亿训练新模型,即使旧模型继续赚钱,公司账面仍是亏损。每个模型单独来看都是盈利的,但公司整体因为不断投入下一代研发而不显盈利。

    这种模式在行业内普遍存在:只要模型持续提升,各公司都会加大投资,推动业务规模增长。

    如果某一天模型性能趋于停滞,成本会下降,盈利能力会稳步提升;否则,投入和收入都会继续指数级增长。

    开源≠免费,也不是决定胜负的关键

    开源与否并不重要。比起“开放权重”这种表面自由,Dario 更看重模型在任务上的表现:模型有没有用?能不能跑得快?省不省钱?适不适合业务场景?

    即便你拿到了参数,要部署到云上推理,照样要烧钱、做优化、负重前行。Dario 更关注:谁能在任务上做得更好,谁就赢。他要的是效果,而不是标签。

    换句话说:谁更好用,谁赢。

    我们用 200 亿,和别人 1000 亿竞争

    Anthropic 三年收入增长速度惊人,从 0 到 45 亿,Dario 认为靠的是“人才密度”和“资本效率”,而非砸钱比拼。他说:“别人花 10 亿能做的事,我们可能 1 亿做到。”

    API 营收占大头,我们赌的是企业市场

    Anthropic 60%-75% 收入来自 API,另有部分来自 Claude 应用。Dario 明确表示,企业级才是未来,尤其是在法律、金融、制药等高价值场景。

    在保障安全的提前下做技术

    他回忆自己在 OpenAI 主导 GPT-3 和 RLHF 的经历,指出能力与对齐无法分离研究。离开 OpenAI,是因为在治理与节奏上理念分歧。创立 Anthropic,是为了用他信任的方式推进安全 AI。

    AI 的安全不该沦为企业口号或博弈筹码,而是行业必须一起承担的责任。

    Dario 推行“负责任的扩展策略”,主动公开危险能力评估、宪法式 AI、可解释性研究,不是为了垄断安全红利,而是为了让整个行业走在更稳的轨道上。

    他不认同控制论者的悲观,也拒绝加速主义者的狂热。他更关心:当模型能力持续逼近高风险区间,行业是否有足够的测试与技术储备?如果哪天失控风险超过可控阈值,他会是第一个呼吁全行业放慢脚步的人。

    在指数级爆发的技术洪流中,他选择一条并不讨好的路——推动整个行业“向高处竞争”。

     

    02. 一些分享

     

    在这次采访中,Dario Amodei 讲了很多人避而不谈的真话。他不说 AGI,不讲“超级智能”,反而专注模型具体能力的提升,讲推理、讲计算、讲强化学习。

    不是因为他悲观,而是他看到了这条指数曲线可能引发的巨大后果。他的担心不是模型不会成功,而是会太快成功。

    他不是要阻止别人做 AI,而是希望大家在“高处竞争”,不是抢着谁先上线,而是谁能在不犯错的前提下做得最好。

    我还挺认同他对人才的看法。热情、责任感、长期投入这些东西是金钱买不来的。你给再高的 offer,留不住真正认同愿景的人。你觉得呢?

    获取《Dario 1小时采访原视频》扫码关注回复: 20250811

    原文链接:出走 OpenAI,三年营收破 45 亿,Anthropic CEO 到底做对了什么?

  • 《2025年第一季度AI应用报告》(PDF文件)

    《2025年第一季度AI应用报告》主要分析了2025年上半年全球各大企业对大模型是如何使用大模型的,今年和去年有哪些不同。报告指出,约45%的组织已在生产环境中使用AI,工程与研发是AI采用的领先领域。AI聊天应用(如ChatGPT)和编码工具(如GitHub Copilot)广受欢迎。语言模型方面,Google Gemini和OpenAI的GPT系列占据主导地位。多模态AI模型(语音、图像、视频)中,OpenAI表现突出。推理服务市场由第一方API(如OpenAI、Google)主导。NVIDIA在AI训练硬件市场占据主导地位。报告讨论了AI采用的挑战,包括智力、可靠性和成本问题。

    2025年第一季度AI应用报告

    获取《2025年第一季度AI应用报告》PDF原文件,扫码关注回复: 20250812

    AI采用概览

    •  AI采用成熟度
      • 生产环境中的AI应用:报告指出,约45%的组织已在生产环境中使用AI。
      • AI采用阶段:除生产环境,还有23%的组织处于原型开发阶段,27%处于探索阶段,5%尚未开始。
    • AI采用的行业与地区分布
      • 行业分布:报告涵盖多个行业,包括技术、教育、政府、非营利组织等。其中,技术行业对AI的采用最为积极。
      • 地区分布:从地区来看,美国和欧洲的AI采用率较高,中国和印度等新兴市场也在快速追赶,显示出AI技术在全球范围内的广泛影响力。

    AI采用的关键趋势

    • AI在生产中的应用:约45%的组织已在生产环境中使用AI,显示出AI技术从原型开发向实际生产环境的转变。
    • AI使用案例的多样化:组织正在将AI应用于多个领域,工程与研发是最主要的领域,其次是客户支持和销售与市场。
    • 对AI模型的选择:Google Gemini和OpenAI的GPT系列是最受欢迎的AI模型,DeepSeek作为开放权重模型的首选。
    • 对中国AI模型的态度:如果在中国以外的基础设施上托管,55%的受访者愿意使用来自中国AI实验室的模型。

    AI聊天应用与编码工具

    • AI聊天应用:ChatGPT是目前最受欢迎的AI聊天应用,其次是Gemini和Claude。
    • AI编码工具:GitHub Copilot和Cursor是最受欢迎的AI编码工具,领先于其他工具如Claude Code和Gemini Code Assist。

    语言模型(LLM)

    • LLM家族偏好:Google Gemini和OpenAI的GPT系列是最受欢迎的LLM家族,DeepSeek是开放权重模型的首选。
    • LLM市场动态:与2024年相比,2025年LLM的使用和考虑数量显著增加,表明市场成熟度和实验性需求的提升。

    多模态AI模型

    • 语音生成:OpenAI和ElevenLabs是最受欢迎的语音生成模型,流媒体质量、自然语音质量和延迟是选择模型时最重要的因素。
    • 图像生成:OpenAI在图像生成模型方面处于领先地位,用户最看重的是提示符的遵循性。
    • 视频生成:OpenAI和Google在视频生成方面领先,用户最看重的是提示符的遵循性和逼真度。

    推理服务

    • 推理服务提供商:第一方API(如OpenAI、Google和Anthropic)和芯片挑战者(如Groq和Cerebras)在推理服务市场中占据主导地位,而亚马逊和Azure的市场份额有所下降。

    训练与硬件

    • 训练加速器:NVIDIA在AI训练加速器市场中占据主导地位,约78%的受访者使用NVIDIA的加速器,而Google和AMD的加速器使用率较低。

    2025年第一季度AI应用报告

    报告结论

    报告指出,AI技术正在快速从实验室走向实际应用,组织在采用AI时面临智力、可靠性和成本等挑战。同时,市场对AI模型和工具的需求也在不断变化,特别是在语言模型和多模态生成领域。

    获取《2025年第一季度AI应用报告》PDF原文件,扫码关注回复: 20250812