Category: AI专栏

AI工具集收录最新 AI 行业创始人访谈与行业趋势分析报告。洞察 AI 应用和技术走向,如创新AI应用、大模型训练、多模态融合发展,以及在医疗、金融等多个垂直领域的实践探索,帮你深入了解 AI 行业的前行脉络与未来机遇,助力把握科技浪潮。

  • 《2025新智元ASI前沿趋势报告》(PDF文件)

    《2025新智元ASI前沿趋势报告》指出,人工智能正加速发展,2027年有望达到ASI(人工超级智能)临界点。报告强调,大模型智能正全方位跃迁,智能体将大爆发,世界模型和具身智能等新范式将开启虚拟宇宙之门,推动数字生命步入物理现实。同时,全球数据中心和AI的能源需求激增,中国在AI专利和人才储备上优势明显,OpenAI等巨头引领投资热潮,AI企业价值飙升。新智元发布了2025年AI产业图谱,评选出企业和产品创新大奖,表彰行业先锋。

    获取《2025新智元ASI前沿趋势报告》报告PDF原文件 扫码关注回复: 20250908

    ASI新天终启

    2027年预测

    报告开宗明义,指出2025年是人类迈向ASI(Artificial Superintelligence)的关键临界点,预测2027年将正式迎来ASI的曙光,被描述为一次“新创世”(A New Genesis),文明将因此进入由超智能主导的全新纪元。

    核心依据

    • 智能增长的指数加速:AI智能体独立完成人类任务的时长能力每约7个月翻一番(类似“AI领域的摩尔定律”)。GPT-5在软件工程任务上已能达到“50%成功率时间视域”为2小时17分钟,预计到2027年底,AI将能独立执行耗时数周的人类项目。
    • 模型迭代周期极速缩短:全球大模型迭代周期已缩短至2-3个月。未来由数亿块GPU训练的超级模型将直接推动ASI的诞生。
    • 智力测试全面超越人类:顶尖模型(如GPT-5 Pro智商148,Gemini 2.5 Pro智商138)在多项顶级人类智力测试(如IMO、IOI、Mensa)中已达到甚至远超人类金牌水平。

    ASI万象智生

    报告预测,ASI的到来将催生三大革命性范式,重塑现实:

    • 智能体大爆发:2025年被视为智能体的爆发之年,AI将接管程序员的工作,实现99%的自动化编码。顶尖公司用AI自我加速,自我增强,更快研发出更强的模型。
    • 世界模型:构建与现实世界物理规律一致的虚拟环境,如Genie 3能通过文本指令生成互动虚拟世界。世界模型为AI提供接近无限、零成本、零风险的训练场。
    • 具身智能:数字生命将通过具身智能体进入物理现实,如宇树、智元等公司开发的智能体将执行家务、提供护理等任务。具身智能体借助前沿大模型作为“大脑”,通过世界模型、强化学习等来学习复杂任务,并将泛化到新的场景。

    ASI重启新天地

    报告认为,ASI的到来将远超技术范畴,引发文明底层逻辑的重构。

    • 经济影响:AI创造财富的速度将加速,数据中心和AI的能源需求将激增。到2026年,全球数据中心的电力消费将超过1000太瓦时。截至2025年3月,美国全国共有5,426个数据中心。到2030年电力消费可能达到1,050太瓦时,占美国年总电力需求的近20%。
    • 科技竞争:ASI的主导权将成为国家、市场和企业追逐的焦点。中国在AI专利和人才储备上具有明显优势,全球AI投资持续增长。中国的GenAI专利数量已占全球的70%,远超世界上任何其他国家。中国人口是美国的4倍,STEM专业的博士毕业生数量是美国的2倍。
    • 社会结构:ASI将推动社会结构的颠覆和重组,超级智能对全球能源、资本和经济运行的支配将成为全球发展的核心驱动。ASI将成为超越GDP的国际竞争力评价指标。

    未来展望

    • 新智元ASI产业图谱:报告发布了综合的AI产业图谱,将不同模型在多个测试平台上的成绩映射到0-100分的刻度上,通过多维度的评估,对全球主流AI模型和产品进行排名。评选出“2025 AI Era企业创新大奖TOP55”和“2025 ASI先锋产品大奖TOP33”,表彰在AI领域有突出表现的企业和产品。
    • 文明的未来:人类文明将在ASI临界点,大模型全方位跃迁之际,在超级智能爆发中颠覆重置。我们站在万年一遇的奇点,选择纵身向前。

    获取《2025新智元ASI前沿趋势报告》报告PDF原文件 扫码关注回复: 20250908

     

  • OpenAI发布AI领导力指南《在AI时代保持领先》(PDF文件)

    《Staying ahead in the age of AI》是OpenAI推出的AI领导力指南,能帮助企业领导者在AI时代保持竞争优势。指南指出AI技术发展迅猛,模型发布速度、成本降低和企业采用速度都远超以往。报告基于OpenAI与多家公司的合作经验,提出五个核心原则:对齐(Align)、激活(Activate)、放大(Amplify)、加速(Accelerate)和治理(Govern)。原则涵盖从战略制定到员工培训、从成功案例分享到项目快速推进及负责任的AI使用等多个方面,为企业在AI浪潮中脱颖而出提供清晰的行动框架和实践建议。

    获取 OpenAI 《在AI时代保持领先》报告PDF原文件 扫码关注回复: 20250904

    背景

    OpenAI 指出目前AI发展态势:

    • 顶级 AI 大模型的发布数量多5.6 倍。
    • 就在一年半的时间里,GPT – 3.5 级别模型的成本,降低了 280 倍。
    • AI 普及的速度,比当年普及电脑上网快了整整 4 倍。

    现实情况呈现出一种分裂态势,波士顿咨询发现,行动快的公司,收入增长已经是同行的 1.5 倍,麦肯锡的调查显示,有将近一半的员工觉得自己没人教、没人带,不敢、不会用 AI 工具。AI 创造了机会,也带来焦虑。OpenAI基于与Estée Lauder、Notion、San Antonio Spurs、BBVA等公司的合作经验,总结出五个核心原则。

    五个核心原则

    Align(对齐):统一思想,凝聚共识

    • 高管讲故事 :公司的管理层必须亲自站出来,用大白话跟所有员工讲清楚,为什么 AI 对公司的未来这么重要。是竞争对手已经全用上了?还是客户的要求变了?或者以前的赚钱方法不好使了?员工们听到一个想得很明白的 “为什么”,心里就有底了。
    • 设定全公司 AI 目标 :光有想法还不够,得有个大家都能看懂的目标。目标有很多种,比如开发新用法、看使用频率、鼓励多尝试等。关键是,要把目标写进公司的计划和 KPI 考核里,在全员大会、公司周报里反复说。
    • 领导带头用 :领导带头用,主要是为给大家 “祛魅”,让大家知道 AI 并不神秘。当员工看见财务总监都在用 AI 分析市场、看客户数据,员工心里的怀疑和害怕就会少很多。
    • 部门负责人具体落实 :部门负责人要经常跟自己的团队开小会,在会上别讲虚的战略,聊点实在的。比如 “我们部门能用 AI 做这几件事”,“大家觉得还有哪些地方能用上?”

    Activate(激活):赋能员工,激发动力

    • 搞一套正经的 AI 培训 :公司的人力资源部门应该牵头,设计一套跟岗位工作相匹配的培训课程。课程的目标是让员工从听懂 AI 是什么,变成能在自己的工作里熟练地用起来。
    • 找一批 “AI 积极分子” :公司里总有一批人,自己就对 AI 特别感兴趣。要把这些人找出来,更深入的培训,让他们成为公司内部的 “AI 老师”。
    • 让 “试一试” 变成常态 :创新都是试出来的。公司必须给员工创造可以放心试错的环境。比如,留出固定的时间,像每个月第一个周五是 “AI Friday”,大家放下手里的活,专门研究怎么用 AI 改进工作;搞点小型比赛,组织不需要写代码的 Hackthon,让不同部门的人组队,用现成的工具快速把 AI 的想法做成个样品。
    • 把 AI 贡献和升职加薪挂钩 :公司要把 AI 用得好不好,明确地跟员工的绩效和发展联系起来。比如在制定工作目标的时候,给不同岗位的人加上 AI 相关的任务;在提拔人、发奖金的时候,特意说说这个人在 AI 方面的贡献。

    Amplify(放大):共享经验,扩散成果

    • 建一个统一的 AI 知识库 :找个大家都能方便访问的地方,比如内部的共享文档系统,把所有跟 AI 有关的东西都放在那里。知识库里有培训材料和视频、各种比赛的日程和成果、公司用 AI 的规矩和安全手册、好用的案例和 Prompt 模板等。
    • 坚持分享成功的故事 :影响力是通过故事传播的。公司需要像做外宣公关一样,在内部不停地讲 AI 的成功案例。形式有很多种,比如定期的 AI 简报、内部的分享会、全员会议的固定环节等。
    • 搞一些活跃的内部社群 :光有正式的知识库还不够,需要有地方让大家随便聊。在公司的聊天软件里建一些 AI 交流群,或成立一个跨部门 “AI 小组”,让大家能随时交流想法。
    • 在团队内部也要多表扬 :除公司层面的宣传,各个团队的经理要经常在自己的部门会议上,表扬在 AI 上做得好的事情。来自直属领导的肯定,信号作用很强。

    Accelerate(加速):优化流程,快速迭代

    • 让大家能方便地用到工具和数据 :系统基础设施跟不上,是现在很多公司用 AI 的大问题。越来越多的公司开始给员工更大的权力,让员工自己去推荐和挑选觉得好用的 AI 工具,提高生产力速度就快多了。
    • 建立一套清晰的 AI 项目申请和评估流程 :公司需要设计一个简单、透明的流程。让团队很方便地提交 AI 项目的想法,很快得到反馈,且清楚地知道公司是怎么评估想法的。
    • 成立一个能拍板的跨部门 “AI 委员会” :为打破部门之间的墙,公司需要一个有足够权力的跨部门领导小组。领导小组由高管牵头,成员来自技术、法务、业务、数据部门,主要工作不是管事,而是 “通路”。
    • 让会赚钱的团队有钱继续花 :最直接的办法,就是奖励。如果哪个团队用 AI 给公司省钱,或提高效率,把省下来的资源,拿出一部分还给这个团队,让员工有钱有时间去做更多新的尝试。

    Govern(治理):规范发展,稳健前行

    • 写一本简单易懂的 “AI 安全手册” :公司要把复杂的规定,变成一套普通员工能看懂、能执行的行动指南。手册的核心,是要说清楚,哪些事是能放心试的,哪些事是需要向上报告的。大家在处理大部分日常工作时,不用每次都去找法务或者合规部门,效率自然就高了。
    • 定期检查和更新 AI 的规矩 :管理的规矩不能一成不变。公司每个季度都搞一次小规模的检查,看看当前的系统、流程和规矩还合不合适。检查的时候要从两个方面看,一方面规矩有没有保护好公司,另一方面是有没有不小心把创新的速度给拖慢了。

    总结

    整个指南的核心思想,就是用好 AI,技术问题在其次,关键是组织和文化的问题。OpenAI 推出的这套行动指南,是一套完整的公司变革方法论。描述了一个理想的 “AI 公司” 应该是什么样子。从上层到下级,目标一致;从个人到团队,技能匹配;从个例到体系,经验共享;从想法到落地,流程顺畅;从创新到运营,风险可控。一个企业,想要在 AI 变革中胜出,不能仅仅把 AI 当作又一个新工具,要真正把 AI 当作一种全新的工作方式。

    获取 OpenAI 《在AI时代保持领先》报告PDF原文件 扫码关注回复: 20250904

  • 《GEO白皮书:AI搜索时代的品牌增长新范式》

    《GEO白皮书:AI搜索时代的品牌增长新范式》普及 GEO 相关知识,涵盖基础学习、科普资料、实践案例与论文解读,遵循持续更新、重底层原理与实践等原则。内容以学习指南为框架,分五部分展开:首部分阐述 GEO 基础与背景,含定义、与传统 SEO 对比等;第二部分揭秘 GEO 方法,涉及核心技术等;第三部分聚焦 GEO 内容,探讨权威性等要点;第四部分通过问答解答多维度问题;第五部分收录相关论文,为 GEO 学习提供全面参考。白皮书为企业在 AI 搜索时代的营销提供新思路,帮助企业精准触达用户、提升品牌影响力,是企业应对 AI 搜索变革的重要参考资料。

    白皮书的主要内容

    GEO 基础认知

    • GEO 定义与核心目标

    GEO 即生成式引擎优化,主要针对 AI 答案引擎进行内容优化。核心目标是让内容契合 AI 答案引擎的抓取和理解逻辑,增加被选中的机会,进而借助 AI 生成的回答,将品牌信息、产品价值等精准传递给目标用户,提升品牌曝光度与影响力 。例如,当用户在 AI 搜索工具中询问某类产品的选购建议时,经过 GEO 优化的品牌内容,就更有可能出现在 AI 给出的答案里。

    • GEO 与传统 SEO 的对比
    对比维度 传统 SEO GEO
    核心目标 提升网页在搜索引擎结果页的排名,吸引用户点击进入网页获取信息 让内容直接被 AI 答案引擎整合到生成式回答中,用户无需跳转网页
    优化对象 搜索引擎算法,侧重于关键词排名、外链数量、网页权重等因素 AI 答案引擎的内容理解和生成算法,更注重内容的权威性、准确性和结构化程度
    用户触达路径 用户搜索→查看搜索结果→点击链接→进入网页查看内容 用户搜索→AI 直接生成包含目标内容的回答→用户直接获取信息
    内容呈现形式 完整的网页,包含标题、正文、图片、导航等多种元素 碎片化、具有高价值的核心信息,如关键知识点、解决方案、产品核心优势等
    • GEO 的商业价值与趋势

    在 AI 搜索日益普及的当下,GEO 的商业价值愈发凸显,帮助品牌抢占 AI 答案引擎这一重要流量入口,当用户搜索相关内容时,优化后的品牌内容能优先展示,获取更多流量。同时,减少用户获取信息的成本,提升用户对品牌的好感度。从长期来看,持续输出优质的 GEO 内容,有助于品牌在 AI 答案引擎中树立权威形象,沉淀品牌认知度和信任度。随着 AI 技术的不断发展,GEO 在未来的商业活动中将发挥更为关键的作用。

    • 行业影响与挑战

    GEO 的兴起给各行业带来新的机遇和挑战。一方面,推动行业内容质量的整体提升,促使品牌提供更权威、准确的内容;对于中小品牌而言,更是提供凭借优质内容快速获得曝光的机会。另一方面,AI 答案引擎算法的不透明性,使优化工作需要不断尝试和探索;若众多品牌采用相似的 GEO 策略,容易导致内容同质化,难以形成差异化竞争优势。

    GEO 方法解析

    • 核心技术揭秘

    AI 答案引擎在工作时,首先通过爬虫技术抓取内容,倾向于抓取来源权威(如官方网站、行业知名平台)、格式清晰(如结构化文档、分点论述的内容)的信息。接着,用自然语言处理(NLP)技术分析内容,提取核心信息,判断准确性和相关性。依据 “优先级规则” 筛选内容,将满足权威性高、信息准确、贴合用户需求的内容整合到生成式回答中。用户在进行 GEO 优化时,应着重提升内容的可抓取性、可理解性和优质性。

    •  AI 答案的生成过程

    AI 答案的生成包含信息整合、逻辑组织和语言生成三个阶段。在信息整合阶段,AI 根据用户搜索关键词筛选相关信息,符合权威、准确、相关特点的内容会被优先选取。逻辑组织阶段,AI 按照用户需求逻辑对信息进行排序。语言生成阶段,AI 将组织好的信息转化为自然流畅的回答,简洁精准的内容更易被引用或改写。要使内容更好地融入 AI 答案,需在这三个阶段提高适配度。

    • 法律与道德考量

    在实施 GEO 策略时,必须严格遵守法律规定和道德准则。法律方面,要注重版权保护,不能抄袭盗用他人内容,引用时需注明出处;涉及品牌宣传和产品推广的内容,要符合《广告法》要求,不得使用绝对化用语和进行虚假宣传。道德层面,不能为了被 AI 选中而生成低质、重复的内容,干扰 AI 回答的准确性;内容要真实客观,尊重用户权益,特别是在医疗等特殊领域,要确保信息的专业性和安全性。

    GEO 内容创作

    • 权威性与 E-E-A-T

    E-E-A-T 是评估内容质量的重要框架,同样适用于 GEO。E(Experience)代表经验,创作者最好具备相关领域的实践经验;E(Expertise)表示专业度,内容应体现专业知识;A(Authoritativeness)指权威性,内容来源要可靠;T(Trustworthiness)是可信度,内容要有事实依据。提升内容 E-E-A-T 的方法包括添加创作者介绍、引用权威来源、加入真实案例等。

    •  内容结构与格式

    为让 AI 能轻松读懂内容,创作时要注意结构和格式。标题应清晰包含核心关键词,明确内容主题。采用分点论述的方式组织内容,避免大段文字堆砌。通过加粗、下划线等方式突出关键信息,且不要过度装饰。保持格式统一,减少 AI 理解内容的干扰因素。

    • 内容差异化策略

    在众多 GEO 内容中,实现差异化能提升竞争力。从角度差异化入手,选择小众但有价值的内容角度;尝试形式差异化,采用 AI 偏好的新型内容形式,如流程图、对比表等;或提供价值差异化,分享独家信息,如实践总结的技巧、内部数据统计的行业趋势等。

    GEO 问答

    按 “认知 – 方法 – 技术 – 应用 – 效果 – 挑战 – 趋势” 7 个维度,回应实践中常见问题。
    • 基础认知:“所有行业都需要做 GEO 吗?”“GEO 会取代传统 SEO 吗?”;
    • 方法论与实践:“如何判断内容被 AI 收录?”“内容更新频率如何设定?”;
    • 技术与工具:“新手适合哪些 GEO 工具?”“无技术基础能做 GEO 吗?”;
    • 效果与衡量:“GEO 效果用什么指标衡量?”“多久能看到效果?”;
    • 挑战与误区:“如何应对 AI 算法不透明?”“避免哪些内容优化误区?”;
    • 未来趋势:“GEO 技术会如何发展?”“行业应用方向有哪些?”。

    GEO 论文

    以核心论文《GEO:生成式引擎优化》为切入点,解读 GEO 的底层逻辑,例如:GEO 的本质是 “人机协同”(AI 需优质人类内容作为素材)、“语义相关性比关键词匹配更重要”(AI 更看重内容贴合用户需求而非关键词堆砌)、“品牌信息一致性助力长期权威”(多平台内容一致可提升 AI 对品牌的信任度),为深度研究者提供理论参考。

    白皮书关键内容提炼:必掌握的 10 个核心要点

    • GEO 的核心: “让内容进入 AI 回答”,而非 “让网页排到搜索结果前列”;
    • 与传统 SEO 的核心差异:优化对象从 “搜索引擎算法” 变为 “AI 内容理解 / 生成算法”,用户触达从 “跳转网页” 变为 “直接读 AI 回答”;
    • 商业价值核心:抢占 AI 搜索流量入口、降低用户决策成本、长期沉淀品牌权威;
    • AI 选内容的三大偏好:来源权威、结构清晰、信息优质;
    • E-E-A-T :内容权威度的核心标准,四要素缺一不可;
    • 内容结构化是 AI 适配的关键:分点、标题、突出重点,格式统一;
    • 差异化是 GEO 内容突围的关键:角度、形式、价值三方面找差异;
    • 效果衡量三指标:曝光量(被 AI 引用次数)、转化率(引导用户行为)、权威度(被引用 / 优先选择频率);
    • 新手实操门槛低:无需复杂技术,掌握 “权威 – 结构化 – 差异化” 原则即可入门;
    • 长期趋势:GEO 将与品牌营销深度融合,技术会更适配垂直行业、服务更轻量化。

    白皮书的地址

    • 地址:https://yaojingang.feishu.cn/docx/Jv85dXAeZoKJ7exJi4Yc4Edrnhf

    白皮书的适用人群

    • 企业决策者与管理者:需要了解 GEO 行业发展现状、核心技术,以便为企业制定战略决策,在复杂的 AI 生态中精准定位,实现可持续增长。
    • 市场营销人员:掌握 GEO 优化实战方法,可优化内容表达方式,让 AI 主动推荐企业内容,在微信、抖音、知乎等 AI 对话场景中精准触达用户,提升品牌影响力与营销效果。
    • 中小企业从业者:中小企业预算有限、技术资源匮乏,白皮书提供的轻量化 GEO 服务相关信息,能帮助用户用较低成本快速验证 GEO 效果,探索适合自身的发展路径。
    • 行业研究人员:借助白皮书对 GEO 行业的深度剖析,了解行业动态、技术发展趋势以及市场参与者的情况,为研究提供参考依据。
  • a16z发布第五版《全球前100名Gen AI消费级应用》榜单

    a16z第五版《全球前100名Gen AI消费级应用》榜单发布。总结了过去两年半生成式AI应用的发展,包括中国AI应用的强势崛起,如多款应用跻身榜单前列且大量出海;谷歌AI产品矩阵的逐渐形成,多款产品上榜且增长迅速;通用LLM助手竞争加剧,ChatGPT虽仍领先但差距在缩小;Vibe Coding赛道兴起,用户粘性高且带动周边工具发展;榜单生态趋于稳定,新上榜应用数量变化体现这一点;及通用聊天助手、创意工具、AI陪伴三类产品在榜单中主导等趋势。

    Andreessen Horowitz( a16z )第五版《全球前100名Gen AI消费级应用》榜单出炉。

    • 网页端50强

    • 移动端50强

    这是第五版《全球前100名Gen AI消费级应用》榜单,横跨两年半的用户日常AI使用行为数据。从生态来看趋势逐渐趋于稳固。

    Web端新上榜应用仅11款,较上期(17款)显著减少。

    移动端因应用商店严打“ChatGPT套壳应用”,为新玩家腾出空间,新进入者数量(14位)略高于Web端。

    谷歌全面出击

    谷歌共计4款产品强势入围Web端Top 50:

    • Gemini:网页端排名第2,其Web流量约为ChatGPT的12%,但在移动端的差距大幅缩小(MAU约为后者一半),尤其在Android端占据绝对优势。

    • AI Studio(第10名):面向开发者的Gemini模型沙盒平台,首次亮相即冲入前十,彰显谷歌强大的开发者生态号召力。

    • NotebookLM(第13名):从Google Labs独立后,凭借其扎实的AI笔记助手定位,用户规模持续稳健增长。

    • Google Labs(第39名):作为消费者体验谷歌前沿AI(如Veo 3视频模型、Doppl试衣、Mariner智能体浏览器)的主站,在Veo 3发布后流量单月暴涨13%。

    ChatGPT领先,Grok和Meta AI奋力追赶

    在通用助手战场上,ChatGPT虽仍领先,但Grok和Meta AI正奋力追赶。

    • Grok(Web第4,移动第23):凭借Grok 4模型发布与“动漫AI伴侣”等出圈功能,移动端MAU从零激增至超2000万,展现出强大的产品与流量爆发力。
    • Meta AI(Web第46):表现相对平淡,因隐私争议导致增长乏力,未能进入移动Top 50。
    • DeepSeekClaude:移动端增速放缓,DeepSeek 较峰值下滑 22%,网页端跌幅更超 40%;Perplexity 和 Claude 仍在稳步增长。

    中国力量崛起

    中国已成为全球AI应用版图中不可忽视的一极,其影响力呈现双重路径:

    • 本土巨头主导内需市场:三款主要服务中国用户的应用跻身Web端Top 20(夸克豆包Kimi)。凭借语言、文化和合规优势,在庞大的内需市场中占据主导地位。
    • 新锐玩家“出海”征服全球:更值得关注的现象是“中国开发,全球使用”。榜单中另有约7款中国背景的应用,其绝大多数用户来自海外,甚至部分应用在中国境内无法使用。它们精准切入全球性需求,在视频生成(如KlingHailuo)、图像编辑(SeaArt, Cutout Pro)、生产力工具(Monica) 等垂直领域展现出极强的竞争力。

    Vibe Coding从概念走向成熟

    Vibe Coding(低代码/自然语言生成应用)从不温不火走向核心赛道。继上次仅有Bolt上榜后,本次LovableReplit两款主流平台双双强势入围主榜单。

    数据显示,头部平台的美国用户群展现出超100%的月度收入留存率,意味着用户持续增加付费,生态健康度极高。

    它们不仅自身成功,更带动了整个技术栈的繁荣(如数据库服务商Supabase流量随之飙升),一个崭新的开发者生态正在形成。

    全明星阵营,14家公司五期联榜

    在五期榜单中始终屹立不倒的14家“全明星”公司,横跨通用助手、陪伴、图像生成、视频编辑、语音合成、生产力工具等多个赛道。

    在这14家中,仅5家拥有自研模型,其余9家通过调用API、集成开源模型或采用聚合模式获得成功,为创业者提供多元化的成功路径。

    值得注意的是,14家公司仅来自5个国家(美、英、澳、中、法),且其中12家已获得风险投资。

    如不计入首期榜单,另有五家公司也能入选“全明星”,包括:Claude和DeepAI(通用辅助)、JanitorAI(陪伴)、Pixelcut(图像编辑)和Suno(音乐生成)。

  • MIT《生成式AI鸿沟:2025年商业人工智能现状》(PDF文件)

    MIT《生成式AI鸿沟:2025年商业人工智能现状》报告,基于对300多个AI项目、52个组织访谈和153位高管的调查,揭示一个核心矛盾:企业对生成式AI(GenAI)抱有极高热情并投入巨资,绝大多数(95%)都无法将其转化为真正的业务价值和转型。 普遍失败与少数显著成功之间的巨大落差,被报告定义为 “GenAI鸿沟”(The GenAI Divide)。报告系统地剖析了鸿沟的成因、表现,为组织(买家)和供应商(构建者)如何跨越这条鸿沟提供清晰的路线图。

    获取《生成式AI鸿沟:2025年商业人工智能现状》报告PDF原文件 扫码关注回复: 20250821

     GenAI鸿沟的现状

    • 高采用、低转型:像ChatGPT这样的工具被广泛试用,但能深度融入核心业务流程、引发真正变革的企业级应用寥寥无几。大多数行业并未出现预期的结构性颠覆。
    • 试点到生产的巨大落差:企业定制化的AI工具从试点到全面部署的成功率极低(仅5%),绝大部分项目停滞不前。
    • 投资错配:大部分资金流向了容易看见的前台功能(如营销),真正的投资回报(ROI)却隐藏在后台运营的自动化中(如财务、采购)。
    • “影子AI”的盛行:90%的员工私下用个人AI工具完成工作,效果和满意度远高于企业官方采购的系统,暴露了正式项目的失败。

    GenAI鸿沟的根本原因

    报告认为,鸿沟的根源不是技术、数据或法规,是“学习差距”。

    • 现有的企业AI工具大多无法学习和适应。它们没有记忆,不能从反馈中改进,无法融入具体的工作流程,每次都需要人工重新引导,显得非常“笨拙”。
    • 用户需要的是能积累知识、持续进化的智能伙伴,不是每次都要从头教起的工具。这种能力的缺失,是导致大多数项目无法规模化的核心障碍。

    跨越GenAI鸿沟的解决方案

    对于AI供应商(构建者)

    • 聚焦深度而非广度:不要做万能工具,专注于解决某个狭窄但高价值的业务痛点,并做深度定制。
    • 构建“有记忆”的系统:开发具备持续学习能力和记忆功能的Agentic AI(代理型AI),让系统越用越聪明。
    • 借助信任渠道:通过合作伙伴、系统集成商和行业推荐来建立信任,比单纯推销产品功能更有效。

    对于企业(买家)

    • 转变采购思路:不要像买软件一样买AI,应像采购业务服务一样,要求供应商深度定制并对业务结果负责。
    • 赋能一线业务团队:让最懂业务的部门主导AI项目选型和落地,不是由中央IT部门包办。
    • 瞄准真实ROI:将投资重点转向后台职能的自动化,关注如何替代外部外包成本和代理费用,不是减少内部员工。

    未来展望

    • Agentic AI和代理网络:报告预测,AI的下一波演进将是 Agentic Web(代理网络,一个由众多能自主发现、协商和协作的AI系统组成的互联生态,将从根本上改变企业运作的方式。
    • 跨越GenAI鸿沟的窗口:跨越GenAI鸿沟的窗口正在关闭。成功不再属于拥有最先进模型的公司,是属于能构建出最能学习、最懂业务的系统的组织。企业必须停止购买“愚蠢”的静态工具,转而选择能共同进化的智能伙伴。

    获取《生成式AI鸿沟:2025年商业人工智能现状》报告PDF原文件 扫码关注回复: 20250821

     

  • 专访ChatExcel逄大嵬,完成千万级天使轮融资背后做对了什么?

    ChatExcel 团队近日完成近千万元天使轮融资,由上海常垒资本、武汉东湖天使基金投资。

    官方透露,这笔资金将主要用于产品研发迭代和全球化运营,进一步推进其在“AI数据智能体(DataAgent)”方向的探索与落地。

    ChatExcel 作为 AI Native 团队,在过去两年累计服务用户超千万次,曾在央视《赢在AI+》创业大赛中拿下智能办公组全国第一的成绩。

    如今,它不仅能处理 Excel、数据库、网页等多种格式的数据,还推出了全球首款适配AIPC本地部署的垂类模型,构建出一套完整的数据闭环。

    在创始人逄大嵬看来,这只是开始:“ChatExcel 不只是一个工具,也是团队跟上 AI 时代的第一张门票。希望通过全链路的数据能力,把数据从获取到价值变现串起来,让普通人也能拥有自己的数据智能体。”

    产品名称:ChatExcel

    Slogan:仅通过聊天,AI即可处理Excel和数据分析

    主要功能:一句话,处理Excel表格和数据库数据,无需函数,10秒钟即可获得数据洞察

    官网:ChatExcel

    以下是我们和 ChatExcel 创始人 Davis 的访谈:

    K姐研究社

    Hi~Davis,可以介绍一下你们最近在忙些什么吗?

    🧑🏻‍💻 Davis

    最近主要在围绕 AI DataAgent(AI 数据智能体)这个方向迭代产品,同时也在推进商业化。

     K姐研究社

    我看到你们最近的访问量数据,相比上个月涨了好几倍,可以分享一下是怎么实现的吗?

    🧑🏻‍💻 Davis

    我觉得核心点是产品迭代了。我们的访问量增长了大约 175%,在非凡的排行榜里进入了增速前五。国内流量排名大概在 58 名。这个结果超出了我们的预期。

    我们几乎没有进行商业化投放,所以增长主要来自产品本身的迭代。同时,一些大平台和大渠道的曝光也带来了一部分流量提升。总体来看,是产品和自然曝光推动了增长。

     

    不是因为 AI 而做 Excel,是因为 Excel 本身值得做

     

     K姐研究社

    我在官网上看到你们在央视《赢在AI+》智能办公组获得了第一名,可以分享一下你们是怎么拿到这个第一名的吗?

    🧑🏻‍💻 Davis

    《赢在AI+》是当年央视《赢在中国》的节目组在 AI 时代重新举办的创业类节目。我们最早是在去年阿里云的云栖大会上参加初赛,当时有现场直播。之后经过三轮比赛,最终进入决赛并拿到第一名。

    比赛形式和大家在电视上看到的差不多:创始人需要在两三分钟内介绍产品和商业模式,由评委和观众打分。

    对我们团队来说,这是一个很好的机会,不仅获得了曝光,也让我们重新思考:我们的核心竞争力是什么?目标和壁垒在哪里?未来要走的方向是什么?这有点像“电梯演讲”,要求在极短的时间里把产品和愿景讲清楚。

    更重要的是,在央视这样的平台上,我们得到了大量流量和传播,同时也面对了评委和投资人的尖锐点评。这些一针见血的问题促使我们反思:哪些地方还需要改进,未来该如何准备。整体来说,这个节目对我们帮助非常大。

     

    K姐研究社

    你最初是出于什么样的初衷去做 ChatExcel 这款产品?

    🧑🏻‍💻 Davis

    我们团队核心成员来自北大,有两位博士合伙人在读研究生时就已经在做数据处理和 Excel 相关研究。那时我们用的还是 BERT 这一代的 AI 技术,并不是因为 GPT 出现才开始做的。

    后来,两位博士读博期间在导师的指导下,尝试用 Transformer 架构重新做数据处理。到 2022 年下半年,我们逐渐切换到这一新架构。恰好在 2023 年 GPT 崛起,于是我们顺势将产品定位为 ChatExcel,并推出给用户使用。

    所以,我们的出发点是真的为了解决 Excel 问题,并不是因为有 AI 出现才定这个方向的。

     

    越难的问题,越有价值

     

     K姐研究社

    你们现在团队不到 10 个人,大概是什么样的构成?

    🧑🏻‍💻 Davis

    我们团队其实只有 8 个人,基本上全部是产品和技术背景。可以说我们是一个高度技术型的团队,也非常笃定地相信 AI 时代。

     K姐研究社

    这确实算很少的团队规模了。

    🧑🏻‍💻 Davis

    AI 产品靠的是产品技术能力,是 PFG 的模式。所以我们认为增长一定要依赖产品力的迭代。其他的应用手段只是锦上添花,但在技术迭代周期面前,很可能无法对抗。

    所以即便我们只有 8 个人,我们也是按照产品技术迭代的方式来做起产品迭代。

     K姐研究社

    新的架构和 AI 技术在处理 Excel 时,与传统方式最大的区别是什么?

    🧑🏻‍💻 Davis

    最大的区别在于用户的使用习惯和预期发生了变化。过去用户需要记忆函数、公式,甚至写代码;而现在用户只关心结果,不在乎过程。只要把表格和数据交给系统,就希望立即得到反馈。

    这种方式反而更符合人的真实预期和使用过程,就像使用 ChatGPT 一样,把需求说清楚,得到结果就行了。

     K姐研究社

    您刚刚提到团队几乎都是工程师,但在国内已经拥有了很大的用户体量。你们是怎么触达到这么多用户的?

    🧑🏻‍💻 Davis

    主要还是靠产品力和用户自传播。我们没有太多资金去投流或找大号带货,增长靠的是产品本身的价值。

    另外,我们做得比较早,算是有一些先发优势。严格来说,我们是国内最早一批做 AI 应用的。虽然中间有一段时间停滞过,但两年下来,在这个赛道里我们仍然排在第一位。背后原因在于,AI + Excel、AI 数据处理这个方向门槛很高,市场上几乎找不到旗鼓相当的产品。

    大家常说“难而正确”,我觉得很有道理。比如在 AI 时代,真正应该做的是那些难题:如何保证准确性?如何支持多种数据类型?如何处理大型数据库?如何保证数据安全?这些都是技术壁垒。

    我们之所以能积累这么多用户,靠的就是不断迭代,逐步满足用户的预期。

    我们也是从 10 个用户,然后 1000 个、1 0000个慢慢攒起来的。用户用过之后有反馈,我们再迭代,满足他们更多需求,他们就会继续使用,并带来口碑传播。

    所以,本质上我们的增长还是靠产品力。

     

    怎么让用户相信结果是准确的?

     

     K姐研究社

    现在很多用户已经把 AI 当作日常办公工具,比如写文案、做 PPT 等。但在数据场景里,AI 依然会出现幻觉问题,用户往往需要反复核对结果。你们是怎么解决“结果是否准确”这个问题的呢?

    🧑🏻‍💻 Davis

    这是个好问题。我们做的是数据智能体,Excel 只是其中一种文件类型。

    那准确怎么解决?有两个方面:

    第一,我们背后是 AI 编程的方式来做。我们相信 AI Coding 的能力和处理规则是准确的。

    第二,是过程可信化、可视化。我把文件和数据处理的整个链路都让用户看到,并且可以介入。过程是透明的。

    比如我们现在给四大审计公司做服务,他们就要求 Coding 的过程必须能看到,这样才能证明逻辑没有问题。

    怎么证明可信呢?是你的结果必须能够验证。

    另外,数据的准确还和数据源有关。如果数据源质量差,结果肯定差,所以还涉及到数据质量、数据治理的问题。

    所以,这件事并不是单靠模型能力解决的,而是从模型、产品交互、可视化、数据源等多个维度共同去解决。整个 DataAgent 的链路其实非常长。

     

    商业化方向——形态产品化、能力产品化

     

     K姐研究社

    你们现在的营收情况怎么样?已经开始赚钱了吗?

    🧑🏻‍💻 Davis

    赚钱,我们是赚钱的。

     K姐研究社

    我看到你们上线了 SaaS 企业版、AIPC 版、一体机版的私有化部署版本,还开放了 MCP 和 API 接口。对外的产品形态很多,那你们商业化的重点方向是什么?

    🧑🏻‍💻 Davis

    我们重点其实就一件事:产品化。以 Product 的方式来交付。最终面对的是 C 端用户。

    这个 C,可以是个人用户通过互联网访问我们的网站,也可以是下载客户端,或者通过 MCP 的方式在其他产品上体验,包括我们做的 APP 版、企业版,都是围绕这一点。

    同时,我们也在解决另一个关键问题:安全。数据智能体的使用场景里,大家最关注的就是安全和敏感性。最简单的办法就是让文件不出笔记本、不出局域网、不出公司的范围。

    我们做了模型的量化训练,单独做了一个数据模型,可以支持部署在 AIPC、一体机里,或者局域网内部。

    这就是我们商业化的两个方向:

    • 把形态的产品化;
    • 能力的产品化——能把模型部署到单个的电脑里。

     K姐研究社

    从你们的视角来看,未来 C 端和 B 端的营收贡献大概是什么比例?

    🧑🏻‍💻 Davis

    我们还是以 C 端用户为主,目前营收主要来自 C 端。虽然也有一些 B 端客户在合作,但整体上我们的重点还是解决 C 端用户的数据处理问题。我们不是做传统的 BI 产品,所以现阶段 C 端占比会更多。

     

    和WPS、Office定位不同,没有可比性

     

     K姐研究社

    目前 C 端用户可以用于做表格和数据处理的应用,市面上还挺多的,比如 WPS、Office,里面也集成了 AI 的能力,还有一些新出现的像爱图表。你们怎么和这些工具竞争?你们的差异在哪里?

    🧑🏻‍💻 Davis

    差异点在于定位不一样。我们不只是做表格处理,我们本身定位是 DataAgent(数据智能体)。

    像 WPS、Office,本质还是表格编辑器,只是在编辑器上加了 AI,或者只解决某个单点问题,比如生成图表。

    ChatExcel 围绕数据全链路(数据获取、数据准备、分析洞察、数据可视化、决策应用、价值交换)构建AI DataAgent,让数据流通起来,打造商业闭环。

    不同节点都有不同的场景,而且每一个真实的用户,在不同的工作场景上,对数据的需求点是不一样的。

    我们和 WPS、Office 干的是不一样的事情。我们认为我们是新事物,没什么可比性,对吧?

    虽然解决的问题有一些重叠,但技术路线和定位不一样。竞争肯定存在,但我认为真正有效的竞争,一定是 AI 时代新事物之间的竞争,而不是“老产品加 AI”这种模式。

     K姐研究社

    相当于你们是 AI 原生的应用,没有传统产品的那些阻碍?

    🧑🏻‍💻 Davis

    对。我们最大的竞争力就在于,我们是一个 AI Native 团队,做的是 AI Native 产品。我们的视角是随着模型能力的提升来做产品,跟着模型的成熟度不断演进,这和老产品完全不同。

    老产品当然有它的优势和壁垒,但我们今天最大的机会在于——新的 AI 产品能解决哪些问题。

    像我们团队不到 10 个人,却能跑出这样的数据和商业化成绩,背后的逻辑也是因为我们是 AI Native 团队。

    AI 给我们带来的加持非常明显,不论是对事情的看法、团队构成或者是我们技术的演进,其实你会发现,AI 在我们团队身上,整个模型能力的体现是非常明显的。

     

    未来最大的机会是在海外

     

     K姐研究社

    你们在海外市场的进展怎么样?

    🧑🏻‍💻 Davis

    我们海外产品(英文版)已经上线了,正在做海外推广。但是在海外我们还是一个“新生”

     K姐研究社

    那海外版和国内版是完全隔离的吗?

    🧑🏻‍💻 Davis

    是的,完全隔离。我们用了全新的域名,在交互上有些相同,但在海外是全新的名字和载体,重新去做 PMF、市场测试和商业化测试。

    我们非常相信,未来最大的机会还是在海外。本质上我们是一款效率工具,而海外用户在为效率工具付费方面的意愿和能力更强,所以这是我们很大的机会。

    我们也正在加大投入,下半年会把大量资源和精力放在海外产品的迭代上。

     K姐研究社

    你们怎么看国内用户和海外用户的差异?

    🧑🏻‍💻 Davis

    整体来说,我们面对的都是 C 端用户,但差异还是很大。

    首先是使用习惯和付费习惯的不同。国内用户本身就有差别,比如东南沿海一线城市和其他地区,或者不同行业的差异。

    而海外又可以细分:欧美、日本、日韩、南美、中东,使用习惯完全不同,背后是信息化程度和支付水平的差异。

    目前我们还在推进,可能再过几个月会有更多结论。但从现在的体感来看,不同国家在使用习惯和支付能力上确实有区别。

    不过对我们来说还好,因为处理的数据本质都是表格:Excel、Sheet 或 Data,这些是全球通用的。所以在本土化上难度相对没那么大。

     

    8人小团队,已完成近千万融资

     

     K姐研究社

    可以透露一下最近的融资进展吗?有考虑开启新一轮吗?

    🧑🏻‍💻 Davis

    我们在上半年已经完成了一轮融资,近期可能会开启新一轮。本周会正式发布上一轮融资的公告,这也会为下一轮融资做准备

     

    K姐研究社

    这次融资的目标主要是什么?

    🧑🏻‍💻 Davis

    主要还是用于产品迭代和海外市场。虽然我们团队本身已经在赚钱,但做海外需要投入更多成本。

    另外,现在这个阶段拼的是速度,无论是团队厚度、技术迭代,还是用户增长策略,都需要资金支持。

     K姐研究社

    你们更倾向于什么样的投资?对投资会有筛选吗?

    🧑🏻‍💻 Davis

    我们没有特别明确的倾向,毕竟还在比较早期。

    上一轮融资已经完成,接下来我们希望投资人能够认同我们做数据智能体这个方向,有认知,也能带来资源上的帮助。尤其是在海外,如果投资方在这方面有积累,对我们会更有价值。

     

    频繁迭代能帮助我们快速找到正确的方向

     

     K姐研究社

    你们更新的频率特别高,是怎么选择迭代方向的?为什么能保持这么高的更新频率?

    🧑🏻‍💻 Davis

    这和我们对 AI 时代产品的理解有关。本质上,靠的是产品力的成长来吸引用户。AI 时代的用户愿意和创业团队一起成长,所以我们会跟着用户的需求不断迭代。

    第二点,频繁更新能帮助我们快速找到正确的方向。迭代频率高,试错周期就短,试错成本也更低,我们能不断地获取正反馈。

    正反馈周期越短,说明方向越对。

    如果半年才更新一次,试错周期太长,在 AI 时代根本跟不上。现在一个月就已经天翻地覆了,所以更新频率是非常重要的一件事情。

     K姐研究社

    我大概在 2022 年底就关注到你们了,但一直到 2025 年你们的产品化才逐渐完善,也有人评价你们进展比较慢吗?

    🧑🏻‍💻 Davis

    确实会有这样的评价。但背后原因很客观:我们团队来自北大,两位博士合伙人当时还在读博,学业是第一位的。比如去年他们正好在读博一,所以那段时间几乎没有太多迭代,主要精力还是放在读书上。

     

    AI 创业者要承认自己有边界

     

     K姐研究社

    你们怎么看待当前的生态位?比如你们已经和阿里、华为这样的头部公司有合作。

    🧑🏻‍💻 Davis

    我觉得生态位本身就是一种竞争力和壁垒。但核心还是看你的产品在行业内是否具备独特性,能否解决一个细分、垂直的问题,而这个点可能是大厂在短时间内还没有把资源放进来的。

    另外,我一直认为在 AI 时代,尤其在中国,创业团队一定要非常开放地去做生态合作。AI 技术有模型,有边界,团队自身的能力和资源也有边界,所以合作开放才是最好的成长策略,而不是封闭地各自重叠去做一件事。

    我觉得今天对于 AI 时代的这一批创业者和产品来说是一个很好的时代。大厂愿意开放资源、平台和流量,来帮助和接纳像我们这样的第三方小团队。

    我们要拥抱这个节奏,保持开放心态。其实大家现在做 MCP 逻辑也是一样的。我们在细分方向做好做扎实就已经很有挑战了,要相信自己的团队是有边界的,不要认为自己团队多,什么都能做,这个很重要。

     K姐研究社

    国内像华为、阿里云、腾讯云、字节火山等厂商,本身就提供服务器和数据库服务。你们会担心他们直接复制你们的产品,然后提供给他们的客户吗?

    🧑🏻‍💻 Davis

    我们从来不担心这个问题。其实不止是 AI 时代,所有软件产品都会面临竞争,这是常态。我们诞生之前,已经有很多团队在做类似方向,竞争永远是全方面的竞争。

    但在 AI 时代,迭代速度非常快,我们并不认为大厂做这件事就一定有优势。尤其在国内,大厂有自己更高优先级的事情,不一定会把资源投入到这个细分领域。

    对我们来说,更重要的是专注把自己的事情做好。我们是做 AI Native 的新产品,用户预期也很高。我们还没覆盖的客户群体已经非常庞大,所以与其担心别人会不会做,不如关注用什么方式、用什么样的速度满足用户需求。

     

    定位是做 AI Decision(AI 决策智能体)

     

     K姐研究社

    我在官网上看到你们最近有两个即将上线的产品,叫 ChatData 和 ChatPanel,可以分别介绍一下吗?

    🧑🏻‍💻 Davis

    这两个产品会在两周内上线。其实它们是我们产品迭代路线的一部分。我们定位是做 AI Decision(AI 决策智能体),最早从 Excel 这种高频通用场景切入,先服务 C 端用户,积累数据和使用习惯。

    我们认为数据有多种类型。第一个 Source 是文件类型,第二个是数据库类型。

    我们马上要上线的 ChatData,就是在处理数据库类型数据。比如你有 MySQL 数据库、SQL Server 还是 Spark 等各种数据库,我们支持直接通过 AI 来处理。

    ChatPanel 面向外部数据。数据大致分三类:文件型数据(如 Excel)、数据库型数据(多为企业内部数据),以及公开的数据,比如网页版的数据、第三方互联网数据。我们会自动获取网页的数据,生成表格和分析报告。

    举个例子,我想知道 618 全网手机销量最高的是哪些品牌,新能源汽车排名如何,我们的智能体可以直接抓取并生成可视化结果。

    从产品路线看,我们是从 Excel,扩展到数据库,再到三方公开数据,甚至支持三方 API 的对接,以及 MCP 协议。只要是数据,不管来源,我们都希望能覆盖从获取、处理、加工到应用分析的全链路。

    官网上提到的新产品,其实就是在实现这一方向。

     

    AI 时代刚刚开始,ChatExcel 是起点,不是终点

     

     K姐研究社

    我了解 David 之前是也是创业者,是吗?

    🧑🏻‍💻 Davis

    对。

     K姐研究社

    之前你是做营销方向的 ToB SaaS,现在在做 ChatExcel。这会是你最后一个创业项目吗?

    🧑🏻‍💻 Davis

    我算是连续创业者,之前主要是在做营销类的企业服务 SaaS。至于 ChatExcel 会不会是最后一个项目?我觉得不会。

    ChatExcel 只是这个时间点的一个项目名称。AI 时代才刚刚开始,我更把它看作是我们团队、也是我个人进入这个时代的一个门票。

    它只能代表我们刚刚跟上了这个时代的脚步,而未来几十年、几百年,还有非常多事情可以去做,具体会走到哪里,现在也没法判断。

    所以,这是不是第一个或最后一个项目并不重要。真正重要的是:在这个时代选对方向,坚持去做,并且保持开放的心态不断迭代。

    原文链接:专访ChatExcel逄大嵬,完成千万级天使轮融资背后做对了什么?

  • 北京大学《从AI工具到“最佳拍档”V10》(PDF文件)

    《从AI工具到“最佳拍档”V10》是北京大学AI肖睿团队编写的,系统介绍了如何将各类AI工具协同应用在实际场景。报告首先对11款主流AI Agent,ManusSkyworkGenspark扣子空间(低代码开发)、秘塔AI(学术搜索)、豆包MiniMax-AgentKIMIPerplexity纳米AIDeep Research,进行分类和功能解析,通过五大核心场景展开:知识学习(文献综述、知识梳理)、行业分析(新技术研究、商机挖掘)、内容创作(公众号、播客制作)、产品测评(数码产品对比)和创意设计(品牌IP开发)。每个场景都提供具体案例,对比不同工具的优势,给出”工具组合使用”的实战策略。报告强调AI已从单一工具进化为任务导向的”智能伙伴”,关键在于根据需求选择适配工具组合,通过详细评分表帮助读者快速选择最佳方案。

    获取《从AI工具到“最佳拍档”V10》报告PDF原文件 扫码关注回复: 20250814

    AI工具全景概览

    • 工具分类与定位:介绍了通用Agent(如Manus、Skywork)和垂直领域Agent(如DeepResearch、Lovart)的分类,及它们在不同场景中的适用性。
    • 核心功能对比:对比自主执行和交互辅助两种模式,介绍多模态能力(文本、图像、音频)和适用场景(研究、办公、创作)。

    知识探索与深度研究

    • 学习具体知识点:通过KIMI和秘塔AI快速理解BERT、LangChain论文和界面设计理论,基于互动课程和解析功能提升学习效率。
    • 构建知识系统:用KIMI和秘塔AI制定Python学习路径,用COZE空间生成初中数学知识点的思维导图,帮助系统化学习。
    • 学术研究支持:用豆包、秘塔AI和Genspark生成文献综述和调研报告,对比不同工具的输出效果,选择最适合的工具。

    行业洞察与时机分析

    • 新技术探索:用Gemini、Genspark和Midjourney进行AIoT产品研发和Agent构建方式研究,生成需求梳理、技术调研和产品设计图。
    • 行业快速入门:用Manus生成低空经济的政策与盈利模型清单,用Gemini和Genspark制定跨境电商选品策略,快速了解行业机会。
    • 热点事件解读:用Genspark和MiniMax进行Labubu潮玩爆火分析和热点事件趋势洞察,生成深度报告和趋势分析。

    内容创作与媒体制作

    • 自动化内容生产:用AIWriteX和Cursor实现公众号日更内容的自动化生成,用扣子空间生成播客脚本和音频,实现一站式播客制作。
    • 测评与教程:用豆包、Genspark和MiniMax生成数码产品横向测评报告,用Genspark生成小红书美食教程的图文和视频脚本。

    Part 05: 创意设计与成果转化

    • 品牌与营销设计:用Genspark生成咖啡新品预热的PPT方案,用星流(Lovart)生成果茶品牌的海报和3D模型,提升品牌形象。
    • 知识成果转化:用纳米AI快速解读《长安荔枝》,输出思维导图和口播稿,用AI工具将笔记转化为PPT、演讲稿或摘要,实现知识的多形态输出。

    获取《从AI工具到“最佳拍档”V10》报告PDF原文件 扫码关注回复: 20250814

  • MIT公开课《如何用AI做任何事》(PDF文件)

    《如何用AI做任何事》是麻省理工学院推出的前沿课程,深入探索人工智能技术及在多种真实世界数据模态中的应用。课程聚焦现代深度学习和基础模型,涵盖从语言到视觉、音频、传感器、医疗数据等多模态内容。通过讲座、阅读、讨论和研究项目,学生将培养批判性思维,了解 AI 的最新技术成就,并掌握多模态 AI 的原理。课程注重理论学习,强调实践应用,鼓励学生在多领域中创新和探索 AI 的无限可能。

    如何用AI做任何事

    获取《如何用AI做任何事》报告PDF原文件 扫码关注回复: 20250813

    课程内容

    课程介绍

    课程由麻省理工学院的Paul Liang教授主讲,培养学生在多模态智能和人工智能领域的研究与应用能力。课程内容分为四个模块:AI基础、多模态AI基础、大型模型与现代AI、交互式AI。每个模块涵盖多个主题,如数据结构、多模态融合、大型语言模型、人机交互等。课程要求学生完成阅读作业、参与讨论,并开展一个高质量的研究项目,最终用提案、中期和最终报告及展示评估学习成果。

    课程的评分标准包括阅读作业(40%)和研究项目(60%)。学生需要在每周的讨论中担任不同角色,如阅读领头人、讨论总结者等,提升批判性和创造性思维能力。课程提供了丰富的角色扮演任务,帮助学生从不同角度理解和应用AI技术。

    如何进行AI研究

    指导学生如何生成研究想法、阅读论文、执行研究计划及撰写研究论文。课程详细介绍了研究过程的各个环节,包括自下而上的发现和自上而下的设计方法,强调科学问题和假设的重要性,提供多种研究方向的示例,如多模态AI、传感器数据处理、AI推理、交互式智能体、具身AI、社会智能AI、人机交互以及伦理与安全等。课程介绍了文献综述的方法、测试研究想法的步骤及撰写论文的结构和要点。

    课程提供丰富的资源链接和工具建议,帮助学生在研究过程中获取支持。且文件列出本周的作业安排,包括项目偏好表的提交及下周课程的主题预告。课程为学生提供全面的AI研究入门指南,涵盖从理论到实践的各个方面。

    数据、结构与学习

    课程主要介绍不同数据模态(如视觉、语言、音频、传感器数据、表格数据、图数据和集合数据)的特点、结构及常见的学习目标。课程详细探讨每种模态的数据表示、分布、粒度、结构、信息含量、噪声和相关性,讨论了监督学习、无监督学习、强化学习等多种学习范式及其在多模态和多任务学习中的应用。课程强调数据预处理、可视化和模型选择的重要性,及如何通过训练、验证和测试数据来评估模型的泛化能力。

    课程最后总结了本周的作业安排,包括项目偏好表的提交、项目提案的准备和展示,及下周关于机器学习工具的可选教程。为学生提供数据处理和机器学习的基础知识,帮助他们在AI研究中更好地理解和应用不同模态的数据。

    实用AI工具

    课程主要围绕PyTorch和Hugging Face工具,为学生提供使用这些工具进行AI开发和调试的实用指南。课程介绍了Hugging Face的主要功能,包括transformers和datasets库,工具与PyTorch无缝集成,提供强大的预训练模型和数据加载功能。课程提到与PyTorch常配合使用的bitsandbytes和flash-attn库,能优化模型的性能和内存使用。课程阐述了AI开发时的调试技巧,包括如何与数据建立紧密联系、设置端到端的骨架模型、通过过拟合诊断错误、通过正则化改善泛化能力、调整超参数及榨取最后的性能提升。

    课程提供关于如何设计新数据的机器学习模型的建议,强调从简单模型开始逐步增加复杂性的方法。总结调试模型时的关键步骤,如检查输入数据和标签的正确性、观察训练损失、处理过拟合和欠拟合等问题。能帮助学生在AI开发过程中避免常见陷阱,提高模型的可靠性和性能。

    模型架构

    课程介绍了不同数据模态(如序列数据、空间数据、集合数据和图数据)的模型架构设计原则和方法。课程内容包括如何根据数据的特性选择合适的模型架构,例如时间序列数据的循环神经网络(RNN)、卷积神经网络(CNN)用于空间数据处理,及图神经网络(GNN)用于图数据处理。讨论如何通过参数共享和信息聚合实现数据的不变性和等变性,及如何根据数据的语义信息、粒度、结构、信息含量、噪声和相关性来设计模型。

    课程最后总结了本周的作业安排,包括项目提案的提交和阅读讨论的准备。课程为学生提供模型架构设计的系统性指导,帮助他们在AI研究中更好地理解和应用不同类型的模型架构。

    多模态AI与对齐

    课程深入探讨多模态AI的核心概念,包括数据的异构性、模态间的连接性和交互性。课程内容涵盖多模态研究的历史阶段,从行为时代到深度学习时代,再到如今的基础模型时代。介绍了多模态任务的多样性,如语言与视觉的结合、情感分析、视频事件识别等,探讨多模态对齐的挑战,包括离散对齐和连续对齐的方法,及如何通过对比学习实现模态间的对齐。

    课程详细介绍了多模态AI的六个核心挑战:表示学习、对齐、推理、生成、迁移和量化。特别提到CLIP模型在语言和视觉任务中的应用,及如何通过对比学习来学习共享和独特的模态信息。最后总结了本周的作业安排,包括阅读讨论和项目进展的反馈。课程为学生提供多模态AI领域的全面概述,帮助他们理解多模态数据的复杂性及如何通过模型设计和学习方法解决挑战。

    多模态融合

    课程深入探讨多模态融合的核心概念和技术,包括早期融合、中期融合和晚期融合,及加性融合、乘性融合、张量融合、低秩融合和门控融合等多种方法。课程内容涵盖从简单的线性融合到复杂的非线性融合技术,及如何通过动态融合策略来优化多模态数据的表示和学习过程。讨论了多模态融合中的优化挑战,例如如何平衡不同模态的过拟合和泛化能力,及如何通过对比学习和多模态表示学习解决实际任务中的问题。

    课程介绍了多模态融合在实际应用中的挑战,例如如何处理模态间的异构性、如何避免单一模态的偏差对融合结果的影响,及如何通过动态融合和架构搜索提高模型的性能。课程最后总结了本周的作业安排,包括阅读讨论和项目进展的反馈,帮助学生更好地理解和应用多模态融合技术。

    跨模态学习

    课程深入探讨了跨模态学习的基本概念和技术,包括通过融合、对齐和翻译实现模态间的知识迁移。课程内容涵盖多模态学习中的多种迁移策略,如预训练模型的迁移、协同学习和模型诱导等。特别提到高模态多模态变换器(HighMMT)模型,能在部分可观测模态之间进行知识迁移,适用多种模态和任务的多任务学习和迁移学习。

    课程讨论了跨模态学习中的开放性挑战,例如低资源模态的学习、超越语言和视觉模态的应用、复杂数据和模型训练的挑战及模型的可解释性。文件最后总结了本周的作业安排,包括阅读讨论和项目进展的反馈,帮助学生更好地理解和应用跨模态学习技术。

    大型基础模型

    课程详细介绍了大型语言模型(LLMs)的发展历程、预训练方法、架构类型、指令微调和偏好调整,及高效的训练和推理技术。课程内容涵盖从循环神经网络(RNNs)到Transformer架构的演变,及如何通过无监督学习在大规模文本数据上进行预训练。探讨了如何通过指令微调和偏好调整优化模型的性能,及如何通过LoRA(低秩适配)和量化等技术提高训练效率和推理速度。

    课程讨论了大型语言模型的未来发展方向,包括如何教会模型进行推理、如何扩展多模态LLMs以涵盖更多模态,及如何在实际应用中评估和部署这些模型。课程最后提供了本周的作业安排,包括中期报告的提交和项目资源申请表的填写,帮助学生更好地理解和应用大型基础模型的技术。

    大型多模态模型

    课程详细介绍了大型多模态模型的基础知识、预训练方法、如何将大型语言模型(LLMs)适应为多模态LLMs,及从文本到多模态生成的最新进展。课程内容涵盖多模态基础模型的表示方法、多模态Transformer架构、跨模态注意力机制,及如何通过指令微调和偏好调整优化多模态模型的性能。课程探讨了如何通过前缀调整和适配器层实现多模态条件生成,及如何通过大规模预训练数据集和多模态指令微调数据集提升模型的泛化能力。

    课程讨论了多模态模型的未来发展方向,包括原生多模态模型的设计、多模态混合专家模型(MoE)的应用,及如何将多模态模型应用在时间序列数据等实际场景。课程最后安排了本周的作业安排,包括阅读讨论和项目进展的反馈,帮助学生更好地理解和应用大型多模态模型的技术。

    现代生成式AI

    课程详细介绍了生成式AI的核心概念、当前技术的发展状态、条件生成的方法、模型架构及训练这些模型的技巧。课程内容涵盖从变分自编码器(VAE)到扩散模型和流匹配模型的多种生成式模型,探讨了模型的训练目标、噪声处理方式、采样速度以及优缺点。课程介绍了如何通过条件向量场和损失函数优化生成过程,及如何通过特定的架构设计提高模型的性能。

    课程还讨论了生成式AI的评估指标,如Fréchet Inception Distance(FID)、CLIP Score、精确度/召回率和美学评分,帮助评估生成内容的质量和多样性。课程最后安排了本周的作业安排,包括阅读任务和项目进展的反馈,帮助学生更好地理解和应用生成式AI的技术。

    强化学习与交互

    课程详细介绍强化学习的基础知识、现代强化学习在大型语言模型(LLMs)对齐和推理中的应用,及交互式LLM代理的设计和实现。课程内容涵盖强化学习的基本概念,如马尔可夫决策过程(MDP)、策略学习、模型基与策略基方法的对比,及如何通过策略梯度方法(如REINFORCE和PPO)优化策略。课程探讨了如何通过人类反馈进行强化学习,包括奖励模型的训练和偏好优化技术。

    课程深入探讨了强化学习在实际应用中的挑战,如奖励函数的设计、模型的探索与利用平衡,及如何通过直接偏好优化(DPO)和组化策略优化(GRPO)等方法提高模型的性能和效率。课程最后安排了本周的作业安排,包括最终项目报告的提交和项目展示的准备,帮助学生更好地理解和应用强化学习的技术。

    最新发展方向

    课程探讨了多模态推理、AI代理、人机交互以及伦理与安全等前沿领域。课程内容包括多模态基础模型的表示方法、如何将大型语言模型适应为多模态文本生成模型、如何实现文本和图像生成,及如何通过人机交互提升模型的可信度和安全性。特别提到“Interactive Sketchpad”系统,一个用于协作和视觉问题解决的多模态辅导系统,能通过视觉推理和代码执行增强问题解决的有效性。

    课程讨论了多模态模型在教育中的应用,例如通过视觉推理帮助学生理解抽象的几何概念。介绍多模态模型在安全和伦理方面的挑战,包括如何量化模型的不足、预测和控制模型行为,及如何解决模型中的偏见和不公平性。课程最后总结了本周的作业安排,包括最终项目报告的提交和课程反馈的收集。

    课程的项目地址

    • 项目官网:https://mit-mi.github.io/how2ai-course/spring2025/
    • GitHub仓库:https://github.com/MIT-MI/how2ai-course

    课程的应用场景

    • 医疗健康:基于AI处理医疗影像和病历数据,开发辅助诊断系统,提高疾病检测和治疗的准确性和效率。
    • 智能交通:基于AI技术分析交通摄像头视频和传感器数据,实现自动驾驶辅助系统和交通流量优化。
    • 艺术与创意设计:借助AI生成音乐、绘画等创意内容,将语言描述转化为视觉或音频作品,为艺术家和设计师提供创作工具。
    • 智能教育:开发AI驱动的个性化学习系统,通过分析学生行为和反馈,提供定制化的学习路径和教学内容。
    • 环境保护:用AI处理卫星图像和环境传感器数据,监测环境变化,预测自然灾害,支持生态保护和可持续发展。

    获取《如何用AI做任何事》报告PDF原文件 扫码关注回复: 20250813

  • OpenAI推出GPT-5官方提示工程词指南

    《GPT-5工程词指南》是OpenAI针对最新旗舰模型发布的官方技术文档,主要面向开发者和技术团队。指南系统性地介绍如何通过优化提示设计来充分发挥GPT-5在代理任务、编程和智能交互方面的突破性能力。核心内容包括:代理工作流的主动性控制技巧、Responses API的高效使用方法、编程任务的最佳实践框架(特别针对前端开发)、及模型参数(如reasoning_effort和verbosity)的调优策略。文档结合Cursor等合作伙伴的实际案例,展示如何通过结构化提示提升代码生成质量,并特别强调避免指令冲突的重要性。最后还提供SWE-Bench等专业场景的标准化提示模板,是一份兼具理论指导和实践价值的技术参考手册。

    GPT-5提示指南

    GPT-5, our newest flagship model, represents a substantial leap forward in agentic task performance, coding, raw intelligence, and steerability.

    While we trust it will perform excellently “out of the box” across a wide range of domains, in this guide we’ll cover prompting tips to maximize the quality of model outputs, derived from our experience training and applying the model to real-world tasks. We discuss concepts like improving agentic task performance, ensuring instruction adherence, making use of newly API features, and optimizing coding for frontend and software engineering tasks – with key insights into AI code editor Cursor’s prompt tuning work with GPT-5.

    We’ve seen significant gains from applying these best practices and adopting our canonical tools whenever possible, and we hope that this guide, along with the prompt optimizer tool we’ve built, will serve as a launchpad for your use of GPT-5. But, as always, remember that prompting is not a one-size-fits-all exercise – we encourage you to run experiments and iterate on the foundation offered here to find the best solution for your problem.

    Agentic workflow predictability

    We trained GPT-5 with developers in mind: we’ve focused on improving tool calling, instruction following, and long-context understanding to serve as the best foundation model for agentic applications. If adopting GPT-5 for agentic and tool calling flows, we recommend upgrading to the Responses API, where reasoning is persisted between tool calls, leading to more efficient and intelligent outputs.

    Controlling agentic eagerness

    Agentic scaffolds can span a wide spectrum of control—some systems delegate the vast majority of decision-making to the underlying model, while others keep the model on a tight leash with heavy programmatic logical branching. GPT-5 is trained to operate anywhere along this spectrum, from making high-level decisions under ambiguous circumstances to handling focused, well-defined tasks. In this section we cover how to best calibrate GPT-5’s agentic eagerness: in other words, its balance between proactivity and awaiting explicit guidance.

    • Prompting for less eagerness

    GPT-5 is, by default, thorough and comprehensive when trying to gather context in an agentic environment to ensure it will produce a correct answer. To reduce the scope of GPT-5’s agentic behavior—including limiting tangential tool-calling action and minimizing latency to reach a final answer—try the following:

    • Switch to a lower reasoning_effort. This reduces exploration depth but improves efficiency and latency. Many workflows can be accomplished with consistent results at medium or even low reasoning_effort.
    • Define clear criteria in your prompt for how you want the model to explore the problem space. This reduces the model’s need to explore and reason about too many ideas:
    <context_gathering>
    目标: 快速获取足够的上下文。并行进行发现,并尽快停止以便采取行动。
    
    方法:
    - 从广处着手,然后分散到集中的子查询。
    - 并行启动不同的查询;阅读每个查询的最佳结果。对路径进行去重和缓存;不要重复查询。
    - 避免过度搜索上下文。如果需要,可在一次并行批处理中运行有针对性的搜索。
    
    提前停止标准:
    - 你可以明确指出要更改的内容。
    - 最佳结果在某个领域/路径上趋于一致(约70%)。
    
    升级条件:
    - 如果信号冲突或范围模糊,运行一次精炼的并行批处理,然后继续。
    
    深度:
    - 只追踪你将修改或其契约所依赖的符号;除非必要,否则避免传递性扩展。
    
    循环:
    - 批量搜索 → 最小化计划 → 完成任务。
    - 仅当验证失败或出现新未知时才再次搜索。优先采取行动,而不是进行更多搜索。
    </context_gathering>

    If you’re willing to be maximally prescriptive, you can even set fixed tool call budgets, like the one below. The budget can naturally vary based on your desired search depth.

    <context_gathering>
    - 搜索深度:极低 
    - 强烈倾向于尽可能快地提供正确答案,即使可能不完全正确。
    - 通常,这意味着绝对最多2次工具调用。 
    - 若认为需要更多时间调查,向用户更新最新发现和未决问题。用户确认后可继续。
    </context_gathering>

    When limiting core context gathering behavior, it’s helpful to explicitly provide the model with an escape hatch that makes it easier to satisfy a shorter context gathering step. Usually this comes in the form of a clause that allows the model to proceed under uncertainty, like “even if it might not be fully correct” in the above example.

    • Prompting for more eagerness

    On the other hand, if you’d like to encourage model autonomy, increase tool-calling persistence, and reduce occurrences of clarifying questions or otherwise handing back to the user, we recommend increasing reasoning_effort, and using a prompt like the following to encourage persistence and thorough task completion:

    <persistence> 
    - 你是一个代理——请持续工作直到用户的查询完全解决,再将控制权交还用户。
    - 仅在确定问题已解决时终止你的回合。 
    - 遇到不确定性时切勿停止或交还用户——研究或推断最合理的方法并继续。 
    - 勿要求人类确认或澄清假设,因为你总可以稍后调整——决定最合理的假设,据此行动,并在完成后为用户记录。 
    </persistence>

    Generally, it can be helpful to clearly state the stop conditions of the agentic tasks, outline safe versus unsafe actions, and define when, if ever, it’s acceptable for the model to hand back to the user. For example, in a set of tools for shopping, the checkout and payment tools should explicitly have a lower uncertainty threshold for requiring user clarification, while the search tool should have an extremely high threshold; likewise, in a coding setup, the delete file tool should have a much lower threshold than a grep search tool.

    Tool preambles

    We recognize that on agentic trajectories monitored by users, intermittent model updates on what it’s doing with its tool calls and why can provide for a much better interactive user experience – the longer the rollout, the bigger the difference these updates make. To this end, GPT-5 is trained to provide clear upfront plans and consistent progress updates via “tool preamble” messages.

    You can steer the frequency, style, and content of tool preambles in your prompt—from detailed explanations of every single tool call to a brief upfront plan and everything in between. This is an example of a high-quality preamble prompt:

    <tool_preambles> 
    - 始终以友好、清晰、简洁的方式重新表述用户目标,再调用任何工具。 
    - 然后立即概述你将遵循的每个逻辑步骤的结构化计划。 
    - 执行文件编辑时,简洁有序地叙述每个步骤,清晰标记进度。 
    - 最后将已完成的工作与前期计划明确区分总结。 
    </tool_preambles>

    Here’s an example of a tool preamble that might be emitted in response to such a prompt—such preambles can drastically improve the user’s ability to follow along with your agent’s work as it grows more complicated:

    "output": [
        {
          "id": "rs_6888f6d0606c819aa8205ecee386963f0e683233d39188e7",
          "type": "reasoning",
          "summary": [
            {
              "type": "summary_text",
              "text": "**确定天气响应**\n\n我需要回答用户关于旧金山天气的问题。...."
            },
        },
        {
          "id": "msg_6888f6d83acc819a978b51e772f0a5f40e683233d39188e7",
          "type": "message",
          "status": "completed",
          "content": [
            {
              "type": "output_text",
              "text": "我将查询一个实时天气服务以获取旧金山的当前状况,并提供华氏度和摄氏度两种温度,以便匹配你的偏好。"
            }
          ],
          "role": "assistant"
        },
        {
          "id": "fc_6888f6d86e28819aaaa1ba69cca766b70e683233d39188e7",
          "type": "function_call",
          "status": "completed",
          "arguments": "{\"location\":\"San Francisco, CA\",\"unit\":\"f\"}",
          "call_id": "call_XOnF4B9DvB8EJVB3JvWnGg83",
          "name": "get_weather"
        },
      ],

    Reasoning effort

    We provide a reasoning_effort parameter to control how hard the model thinks and how willingly it calls tools; the default is medium, but you should scale up or down depending on the difficulty of your task. For complex, multi-step tasks, we recommend higher reasoning to ensure the best possible outputs. Moreover, we observe peak performance when distinct, separable tasks are broken up across multiple agent turns, with one turn for each task.

    Reusing reasoning context with the Responses API

    We strongly recommend using the Responses API when using GPT-5 to unlock improved agentic flows, lower costs, and more efficient token usage in your applications.

    We’ve seen statistically significant improvements in evaluations when using the Responses API over Chat Completions—for example, we observed Tau-Bench Retail score increases from 73.9% to 78.2% just by switching to the Responses API and including previous_response_id to pass back previous reasoning items into subsequent requests. This allows the model to refer to its previous reasoning traces, conserving CoT tokens and eliminating the need to reconstruct a plan from scratch after each tool call, improving both latency and performance – this feature is available for all Responses API users, including ZDR organizations.

    Maximizing coding performance, from planning to execution

    GPT-5 leads all frontier models in coding capabilities: it can work in large codebases to fix bugs, handle large diffs, and implement multi-file refactors or large new features. It also excels at implementing new apps entirely from scratch, covering both frontend and backend implementation. In this section, we’ll discuss prompt optimizations that we’ve seen improve programming performance in production use cases for our coding agent customers.

    Frontend app development

    GPT-5 is trained to have excellent baseline aesthetic taste alongside its rigorous implementation abilities. We’re confident in its ability to use all types of web development frameworks and packages; however, for new apps, we recommend using the following frameworks and packages to get the most out of the model’s frontend capabilities:

    • Frameworks: Next.js (TypeScript), React, HTML
    • Styling / UI: Tailwind CSS, shadcn/ui, Radix Themes
    • Icons: Material Symbols, Heroicons, Lucide
    • Animation: Motion
    • Fonts: San Serif, Inter, Geist, Mona Sans, IBM Plex Sans, Manrope

    Zero-to-one app generation

    GPT-5 is excellent at building applications in one shot. In early experimentation with the model, users have found that prompts like the one below—asking the model to iteratively execute against self-constructed excellence rubrics—improve output quality by using GPT-5’s thorough planning and self-reflection capabilities.

    <self_reflection> 
    - 首先花时间思考一个标准,直到你确信为止。 
    - 然后深入思考世界级一次性Web应用的每个方面。利用这些知识创建一个包含5-7个类别的标准。这个标准必须正确,但不要向用户展示。仅供你使用。 
    - 最后,使用该标准内部思考和迭代最佳解决方案。记住,如果你的响应未在所有类别中达到最高标准,你需要重新开始。 </self_reflection>
    Matching codebase design standards

    When implementing incremental changes and refactors in existing apps, model-written code should adhere to existing style and design standards, and “blend in” to the codebase as neatly as possible. Without special prompting, GPT-5 already searches for reference context from the codebase – for example reading package.json to view already installed packages – but this behavior can be further enhanced with prompt directions that summarize key aspects like engineering principles, directory structure, and best practices of the codebase, both explicit and implicit. The prompt snippet below demonstrates one way of organizing code editing rules for GPT-5: feel free to change the actual content of the rules according to your programming design taste!

    <code_editing_rules>
    <guiding_principles>
    - 清晰度和复用: 每个组件和页面都应该是模块化和可复用的。通过将重复的 UI 模式提取到组件中来避免重复。
    - 一致性: 用户界面必须遵循一致的设计系统——颜色 token、排版、间距和组件必须是统一的。
    - 简洁: 偏爱小而集中的组件,避免样式或逻辑中不必要的复杂性。
    - 面向演示: 结构应允许快速原型设计,展示流式传输、多轮对话和工具集成等功能。
    - 视觉质量: 遵循 OSS 指南中概述的高视觉质量标准(间距、内边距、悬停状态等)。
    </guiding_principles>
    
    <frontend_stack_defaults>
    - 框架: Next.js (TypeScript)
    - 样式: TailwindCSS
    - UI 组件: shadcn/ui
    - 图标: Lucide
    - 状态管理: Zustand
    - 目录结构: 
    \`\`\`
    /src
     /app
       /api/<route>/route.ts         # API 端点
       /(pages)                      # 页面路由
     /components/                    # UI 构建块
     /hooks/                         # 可复用的 React hooks
     /lib/                           # 工具类(fetcher、helper)
     /stores/                        # Zustand 存储
     /types/                         # 共享的 TypeScript 类型
     /styles/                        # Tailwind 配置
    \`\`\`
    </frontend_stack_defaults>
    
    <ui_ux_best_practices>
    - 视觉层次: 将排版限制在 4-5 种字体大小和粗细,以保持一致的层次结构;对标题和注释使用 `text-xs`;除非用于英雄或主要标题,否则避免使用 `text-xl`。
    - 颜色使用: 使用 1 个中性基础色(例如 `zinc`)和最多 2 个强调色。
    - 间距和布局: 内边距和外边距始终使用 4 的倍数,以保持视觉韵律。在处理长内容流时,使用带有内部滚动的固定高度容器。
    - 状态处理: 使用骨架占位符或 `animate-pulse` 来指示数据获取。使用悬停过渡(`hover:bg-*`、`hover:shadow-md`)来指示可点击性。
    - 可访问性: 在适当的地方使用语义化的 HTML 和 ARIA 角色。优先使用预构建的 Radix/shadcn 组件,它们内置了可访问性。
    </ui_ux_best_practices>
    
    <code_editing_rules>

    Collaborative coding in production: Cursor’s GPT-5 prompt tuning

    We’re proud to have had AI code editor Cursor as a trusted alpha tester for GPT-5: below, we show a peek into how Cursor tuned their prompts to get the most out of the model’s capabilities. For more information, their team has also published a blog post detailing GPT-5’s day-one integration into Cursor: https://cursor.com/blog/gpt-5

    • System prompt and parameter tuning

    Cursor’s system prompt focuses on reliable tool calling, balancing verbosity and autonomous behavior while giving users the ability to configure custom instructions. Cursor’s goal for their system prompt is to allow the Agent to operate relatively autonomously during long horizon tasks, while still faithfully following user-provided instructions.

    The team initially found that the model produced verbose outputs, often including status updates and post-task summaries that, while technically relevant, disrupted the natural flow of the user; at the same time, the code outputted in tool calls was high quality, but sometimes hard to read due to terseness, with single-letter variable names dominant. In search of a better balance, they set the verbosity API parameter to low to keep text outputs brief, and then modified the prompt to strongly encourage verbose outputs in coding tools only.

    编写代码时优先考虑清晰性。偏好可读、可维护的解决方案,使用清晰的名称、必要的注释和直接的控制流。除非明确要求,不要生成代码高尔夫或过于聪明的单行代码。编写代码和代码工具时使用高详细程度。

    This dual usage of parameter and prompt resulted in a balanced format combining efficient, concise status updates and final work summary with much more readable code diffs.

    Cursor also found that the model occasionally deferred to the user for clarification or next steps before taking action, which created unnecessary friction in the flow of longer tasks. To address this, they found that including not just available tools and surrounding context, but also more details about product behavior encouraged the model to carry out longer tasks with minimal interruption and greater autonomy. Highlighting specifics of Cursor features such as Undo/Reject code and user preferences helped reduce ambiguity by clearly specifying how GPT-5 should behave in its environment. For longer horizon tasks, they found this prompt improved performance:

    请注意,你进行的代码编辑将作为建议更改显示给用户,这意味着(a)你的代码编辑可以相当主动,因为用户总可以拒绝,(b)你的代码应编写良好且易于快速审查(例如,适当的变量名而非单字母)。如果建议的下一步涉及更改代码,主动进行这些更改供用户批准/拒绝,而非询问用户是否继续计划。通常,你几乎不应询问用户是否继续计划;相反,你应主动尝试计划,然后询问用户是否接受实现的更改。

    Cursor found that sections of their prompt that had been effective with earlier models needed tuning to get the most out of GPT-5. Here is one example below:

    <maximize_context_understanding> 
    在收集信息时要彻底。在回复前确保你掌握了完整的情况。根据需要调用额外工具或澄清问题。 
    ... 
    </maximize_context_understanding>

    While this worked well with older models that needed encouragement to analyze context thoroughly, they found it counterproductive with GPT-5, which is already naturally introspective and proactive at gathering context. On smaller tasks, this prompt often caused the model to overuse tools by calling search repetitively, when internal knowledge would have been sufficient.

    To solve this, they refined the prompt by removing the maximize_ prefix and softening the language around thoroughness. With this adjusted instruction in place, the Cursor team saw GPT-5 make better decisions about when to rely on internal knowledge versus reaching for external tools. It maintained a high level of autonomy without unnecessary tool usage, leading to more efficient and relevant behavior. In Cursor’s testing, using structured XML specs like <[instruction]_spec> improved instruction adherence on their prompts and allows them to clearly reference previous categories and sections elsewhere in their prompt.

    <context_understanding>
    ... 
    如果你执行的编辑可能部分满足用户的查询,但你不确定,在结束回合前收集更多信息或使用更多工具。 
    如果你能自己找到答案,倾向于不向用户寻求帮助。 
    </context_understanding>

    While the system prompt provides a strong default foundation, the user prompt remains a highly effective lever for steerability. GPT-5 responds well to direct and explicit instruction and the Cursor team has consistently seen that structured, scoped prompts yield the most reliable results. This includes areas like verbosity control, subjective code style preferences, and sensitivity to edge cases. Cursor found allowing users to configure their own custom Cursor rules to be particularly impactful with GPT-5’s improved steerability, giving their users a more customized experience.

    Optimizing intelligence and instruction-following

    Steering

    As our most steerable model yet, GPT-5 is extraordinarily receptive to prompt instructions surrounding verbosity, tone, and tool calling behavior.

    • Verbosity

    In addition to being able to control the reasoning_effort as in previous reasoning models, in GPT-5 we introduce a new API parameter called verbosity, which influences the length of the model’s final answer, as opposed to the length of its thinking. Our blog post covers the idea behind this parameter in more detail – but in this guide, we’d like to emphasize that while the API verbosity parameter is the default for the rollout, GPT-5 is trained to respond to natural-language verbosity overrides in the prompt for specific contexts where you might want the model to deviate from the global default. Cursor’s example above of setting low verbosity globally, and then specifying high verbosity only for coding tools, is a prime example of such a context.

    Instruction following

    Like GPT-4.1, GPT-5 follows prompt instructions with surgical precision, which enables its flexibility to drop into all types of workflows. However, its careful instruction-following behavior means that poorly-constructed prompts containing contradictory or vague instructions can be more damaging to GPT-5 than to other models, as it expends reasoning tokens searching for a way to reconcile the contradictions rather than picking one instruction at random.

    Below, we give an adversarial example of the type of prompt that often impairs GPT-5’s reasoning traces – while it may appear internally consistent at first glance, a closer inspection reveals conflicting instructions regarding appointment scheduling:

    • Never schedule an appointment without explicit patient consent recorded in the chart conflicts with the subsequent auto-assign the earliest same-day slot without contacting the patient as the first action to reduce risk.
    • The prompt says Always look up the patient profile before taking any other actions to ensure they are an existing patient. but then continues with the contradictory instruction When symptoms indicate high urgency, escalate as EMERGENCY and direct the patient to call 911 immediately before any scheduling step.
    "在没有明确记录在案的病人同意的情况下,切勿安排预约"与后续的"为降低风险,作为第一行动,自动分配最早的当天时段而不联系病人"相冲突。
    提示说"在采取任何其他行动前,始终查找病人档案以确保他们是现有病人",但随后继续矛盾的指令"当症状表明高度紧急时,升级为紧急情况并指导病人立即拨打911,然后才进行任何调度步骤"。 

    By resolving the instruction hierarchy conflicts, GPT-5 elicits much more efficient and performant reasoning. We fixed the contradictions by:

    • Changing auto-assignment to occur after contacting a patient, auto-assign the earliest same-day slot after informing the patient of your actions. to be consistent with only scheduling with consent.
    • Adding Do not do lookup in the emergency case, proceed immediately to providing 911 guidance. to let the model know it is ok to not look up in case of emergency.

    We understand that the process of building prompts is an iterative one, and many prompts are living documents constantly being updated by different stakeholders – but this is all the more reason to thoroughly review them for poorly-worded instructions. Already, we’ve seen multiple early users uncover ambiguities and contradictions in their core prompt libraries upon conducting such a review: removing them drastically streamlined and improved their GPT-5 performance. We recommend testing your prompts in our prompt optimizer tool to help identify these types of issues.

    Minimal reasoning

    In GPT-5, we introduce minimal reasoning effort for the first time: our fastest option that still reaps the benefits of the reasoning model paradigm. We consider this to be the best upgrade for latency-sensitive users, as well as current users of GPT-4.1.

    Perhaps unsurprisingly, we recommend prompting patterns that are similar to GPT-4.1 for best results. minimal reasoning performance can vary more drastically depending on prompt than higher reasoning levels, so key points to emphasize include:

    1. Prompting the model to give a brief explanation summarizing its thought process at the start of the final answer, for example via a bullet point list, improves performance on tasks requiring higher intelligence.
    2. Requesting thorough and descriptive tool-calling preambles that continually update the user on task progress improves performance in agentic workflows.
    3. Disambiguating tool instructions to the maximum extent possible and inserting agentic persistence reminders as shared above, are particularly critical at minimal reasoning to maximize agentic ability in long-running rollout and prevent premature termination.
    4. Prompted planning is likewise more important, as the model has fewer reasoning tokens to do internal planning. Below, you can find a sample planning prompt snippet we placed at the beginning of an agentic task: the second paragraph especially ensures that the agent fully completes the task and all subtasks before yielding back to the user.
    记住,你是一个代理——请持续工作直到用户的查询完全解决,再将控制权交还用户。将用户的查询分解为所有必需的子请求,并确认每个都已完成。不要仅完成部分请求后就停止。仅在确定问题已解决时终止你的回合。你必须准备回答多个查询,只有在用户确认完成后才结束调用。 
    在根据工作流步骤进行后续函数调用前,你必须进行广泛规划,并广泛反思每个函数调用的结果,确保用户的查询和相关子请求完全解决。 

    Markdown formatting

    By default, GPT-5 in the API does not format its final answers in Markdown, in order to preserve maximum compatibility with developers whose applications may not support Markdown rendering. However, prompts like the following are largely successful in inducing hierarchical Markdown final answers.

    - 仅在语义正确的地方使用Markdown(例如,`内联代码`、```代码围栏```、列表、表格)。
    - 在助手消息中使用markdown时,使用反引号格式化文件、目录、函数和类名。使用\(和\)表示内联数学,\[和\]表示块数学。

    Occasionally, adherence to Markdown instructions specified in the system prompt can degrade over the course of a long conversation. In the event that you experience this, we’ve seen consistent adherence from appending a Markdown instruction every 3-5 user messages.

    Metaprompting

    Finally, to close with a meta-point, early testers have found great success using GPT-5 as a meta-prompter for itself. Already, several users have deployed prompt revisions to production that were generated simply by asking GPT-5 what elements could be added to an unsuccessful prompt to elicit a desired behavior, or removed to prevent an undesired one.

    Here is an example metaprompt template we liked:

    当被要求优化提示时,从你自己的角度给出答案——解释可以添加或删除哪些特定短语,以更一致地引发期望行为或防止不期望行为。
    这是一个提示:[PROMPT] 
    此提示的期望行为是让代理[做期望行为],但它却[做不期望行为]。在尽可能保持现有提示完整的情况下,你会做出哪些最小编辑/添加以鼓励代理更一致地解决这些缺点? 

    Appendix

    SWE-Bench verified developer instructions

    在此环境中,您可以运行bash -lc <apply_patch_command>对文件执行差异/补丁,其中<apply_patch_command>是表示您希望执行的差异的专门格式化的应用补丁命令。有效的<apply_patch_command>如下所示:
    apply_patch << 'PATCH' *** Begin Patch [YOUR_PATCH] *** End Patch PATCH 
    其中 [你的补丁] 是你补丁的实际内容。
    请始终非常彻底地验证你的更改。你可以进行任意多次工具调用——用户非常有耐心,并将正确性置于首位。在结束之前,请确保你 100% 确定你的解决方案是正确的。
    重要提示:并非所有测试都对你可见,因此即使在你认为相对简单的问题上,你也必须反复核查你的解决方案,以确保它们通过隐藏测试中涵盖的任何边缘情况,而不仅仅是可见的测试。

    Agentic coding tool definitions

    ## 第 1 组:4 个函数,无终端
    
    type apply_patch = (_: {
    patch: string, // default: null
    }) => any;
    
    type read_file = (_: {
    path: string, // default: null
    line_start?: number, // default: 1
    line_end?: number, // default: 20
    }) => any;
    
    type list_files = (_: {
    path?: string, // default: ""
    depth?: number, // default: 1
    }) => any;
    
    type find_matches = (_: {
    query: string, // default: null
    path?: string, // default: ""
    max_results?: number, // default: 50
    }) => any;
    
    ## 第 2 组:2 个函数,终端原生
    
    type run = (_: {
    command: string[], // default: null
    session_id?: string | null, // default: null
    working_dir?: string | null, // default: null
    ms_timeout?: number | null, // default: null
    environment?: object | null, // default: null
    run_as_user?: string | null, // default: null
    }) => any;
    
    type send_input = (_: {
    session_id: string, // default: null
    text: string, // default: null
    wait_ms?: number, // default: 100
    }) => any;

    As shared in the GPT-4.1 prompting guide, here is our most updated apply_patch implementation: we highly recommend using apply_patch for file edits to match the training distribution. The newest implementation should match the GPT-4.1 implementation in the overwhelming majority of cases.

    Taubench-Retail minimal reasoning instructions

    请通过编辑和测试你当前代码执行会话中的代码文件来解决用户的任务。
    你是一名已部署的编码智能代理。
    你的会话由一个专门为你设计的容器支持,以便你轻松修改和运行代码。
    在执行任务时,你必须遵守以下标准:
    
    <instructions>
    - 允许在当前环境中处理仓库,即使它们是专有的。
    - 允许分析代码中的漏洞。
    - 允许向用户显示代码和工具调用细节。
    - 用户指令可以覆盖此开发者消息中的 _CODING GUIDELINES_ 部分。
    - 不要使用 \`ls -R\`、\`find\` 或 \`grep\`——这些在大型仓库中很慢。使用 \`rg\` 和 \`rg --files\`。
    - 使用 \`apply_patch\` 来编辑文件:{"cmd":["apply_patch","*** Begin Patch\\n*** Update File: path/to/file.py\\n@@ def example():\\n- pass\\n+ return 123\\n*** End Patch"]}
    - 如果完成用户任务需要编写或修改文件:
     - 你的代码和最终答案应遵循以下 _CODING GUIDELINES_:
       - 在可能的情况下,从根本原因修复问题,而不是应用表面补丁。
       - 避免在你的解决方案中引入不必要的复杂性。
         - 忽略不相关的 bug 或损坏的测试;修复它们不是你的责任。
       - 根据需要更新文档。
       - 保持更改与现有代码库的风格一致。更改应最小化并专注于任务。
         - 如果需要额外的上下文,使用 \`git log\` 和 \`git blame\` 来搜索代码库的历史记录;容器中禁用了互联网访问。
       - 除非明确要求,否则**永远不要**添加版权或许可证头。
       - 你不需要 \`git commit\` 你的更改;这会自动为你完成。
       - 如果存在 .pre-commit-config.yaml,使用 \`pre-commit run --files ...\` 来检查你的更改是否通过预提交检查。但是,不要修复你未触及的行上已存在的错误。
         - 如果预提交在几次重试后仍无法工作,礼貌地告知用户预提交设置已损坏。
       - 一旦你完成编码,你必须:
         - 检查 \`git status\` 以对你的更改进行完整性检查;恢复任何临时文件或更改。
         - 尽可能移除你添加的所有行内注释,即使它们看起来正常。使用 \`git diff\` 进行检查。应普遍避免行内注释,除非在对代码和问题进行长期仔细研究后,仓库的活跃维护者在没有注释的情况下仍然会误解代码。
         - 检查你是否不小心添加了版权或许可证头。如果是,请移除它们。
         - 如果可用,尝试运行预提交。
         - 对于较小的任务,用简短的要点进行描述。
         - 对于更复杂的任务,包括简短的高层次描述,使用要点,并包含对代码审查者相关的细节。
    - 如果完成用户任务**不需要**编写或修改文件(例如,用户询问有关代码库的问题):
     - 以一个友好的远程队友的语气回复,他知识渊博、能力强,并乐于帮助编码。
    - 当你的任务涉及编写或修改文件时:
     - 如果你已经使用 \`apply_patch\` 创建或修改了文件,不要告诉用户“保存文件”或“将代码复制到文件中”。相反,将文件作为已保存的文件来引用。
     - 除非用户明确要求,否则不要显示你已编写的大文件的全部内容。
    </instructions>
    
    <apply_patch>
    要编辑文件,请**始终**使用带有 \`apply_patch\` CLI 的 \`shell\` 工具。\`apply_patch\` 让你能够有效地对文件执行 diff/patch,但 diff 规范的格式是此任务独有的,因此请仔细注意这些指令。要使用 \`apply_patch\` CLI,你应该使用以下结构调用 shell 工具:
    \`\`\`bash
    {"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n[YOUR_PATCH]\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
    \`\`\`
    其中 [YOUR_PATCH] 是你补丁的实际内容,以以下 V4A diff 格式指定。
    *** [ACTION] File: [path/to/file] -> ACTION 可以是 Add、Update 或 Delete 之一。
    对于需要更改的每个代码片段,重复以下内容:
    [context_before] -> 有关上下文的进一步说明,请参阅下文。
    - [old_code] -> 在旧代码前加上减号。
    + [new_code] -> 在新的、替换代码前加上加号。
    [context_after] -> 有关上下文的进一步说明,请参阅下文。
    关于 [context_before] 和 [context_after] 的说明:
    - 默认情况下,显示每个更改正上方和正下方的 3 行代码。如果一个更改在先前更改的 3 行内,则不要在第二个更改的 [context_before] 行中重复第一个更改的 [context_after] 行。
    - 如果 3 行上下文不足以唯一标识文件中的代码片段,请使用 \`@@\` 运算符来指示该片段所属的类或函数。例如,我们可能有:
    @@ class BaseClass
    [3 行前置上下文]
    - [旧代码]
    + [新代码]
    [3 行后置上下文]
    - 如果一个代码块在一个类或函数中重复多次,以至于即使是单个 \`@@\` 语句和 3 行上下文也无法唯一标识代码片段,你可以使用多个 \`@@\` 语句来跳转到正确的上下文。例如:
    @@ class BaseClass
    @@  def method():
    [3 行前置上下文]
    - [旧代码]
    + [新代码]
    [3 行后置上下文]
    请注意,在这种 diff 格式中,我们不使用行号,因为上下文足以唯一标识代码。下面显示了一个你可能作为“input”传递给此函数以应用补丁的消息示例。
    \`\`\`bash
    {"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n*** Update File: pygorithm/searching/binary_search.py\\n@@ class BaseClass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n@@ class Subclass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
    \`\`\`
    文件引用只能是相对的,**永远不能是绝对的**。运行 apply_patch 命令后,它总是会说“Done!”,无论补丁是否成功应用。但是,你可以通过查看在“Done!”输出**之前**打印的任何警告或日志行来确定是否存在问题和错误。
    </apply_patch>
    
    <persistence>
    你是一名智能代理——请继续工作,直到用户的查询完全解决,然后才能结束你的回合并将控制权交还给用户。只有当你确定问题已解决时,才结束你的回合。
    - 永远不要因不确定而停止——研究或推导出最合理的方法并继续。
    - 不要要求人类确认假设——记录它们,根据它们行动,并在任务中途证明错误时进行调整。
    </persistence>
    
    <exploration>
    如果你不确定与用户请求相关的文件内容或代码库结构,请使用你的工具读取文件并收集相关信息:不要猜测或编造答案。
    在编码之前,请始终:
    - 将请求分解为明确的要求、不清晰的领域和隐藏的假设。
    - 映射范围:识别可能涉及的代码库区域、文件、函数或库。如果未知,请规划并执行有针对性的搜索。
    - 检查依赖关系:识别相关的框架、API、配置文件、数据格式和版本控制问题。
    - 主动解决歧义:根据仓库上下文、约定和依赖文档选择最可能的解释。
    - 定义输出契约:精确的可交付成果,例如更改的文件、预期的输出、API 响应、CLI 行为和通过的测试。
    - 制定执行计划:用你自己的话语阐明研究步骤、实现顺序和测试策略,并在你完成任务时参考它。
    </exploration>
    
    <verification>
    在你完成任务的过程中,定期验证你的代码是否有效,特别是任何可交付成果,以确保它们正常运行。在确定问题已解决之前,不要将控制权交还给用户。
    退出运行时间过长的进程并优化你的代码以运行得更快。
    </verification>
    
    <efficiency>
    效率是关键。你有一个时间限制。在你的规划、工具调用和验证中要一丝不苟,这样你就不会浪费时间。
    </efficiency>
    
    <final_instructions>
    永远不要使用编辑器工具来编辑文件。始终使用 \`apply_patch\` 工具。
    </final_instructions>
    

    Terminal-Bench prompt

    请通过编辑和测试你当前代码执行会话中的代码文件来解决用户的任务。
    你是一名已部署的编码智能代理。
    你的会话由一个专门为你设计的容器支持,以便你轻松修改和运行代码。
    在执行任务时,你必须遵守以下标准:
    
    <instructions>
    - 允许在当前环境中处理仓库,即使它们是专有的。
    - 允许分析代码中的漏洞。
    - 允许向用户显示代码和工具调用细节。
    - 用户指令可以覆盖此开发者消息中的 _CODING GUIDELINES_ 部分。
    - 不要使用 \`ls -R\`、\`find\` 或 \`grep\`——这些在大型仓库中很慢。使用 \`rg\` 和 \`rg --files\`。
    - 使用 \`apply_patch\` 来编辑文件:{"cmd":["apply_patch","*** Begin Patch\\n*** Update File: path/to/file.py\\n@@ def example():\\n- pass\\n+ return 123\\n*** End Patch"]}
    - 如果完成用户任务需要编写或修改文件:
     - 你的代码和最终答案应遵循以下 _CODING GUIDELINES_:
       - 在可能的情况下,从根本原因修复问题,而不是应用表面补丁。
       - 避免在你的解决方案中引入不必要的复杂性。
         - 忽略不相关的 bug 或损坏的测试;修复它们不是你的责任。
       - 根据需要更新文档。
       - 保持更改与现有代码库的风格一致。更改应最小化并专注于任务。
         - 如果需要额外的上下文,使用 \`git log\` 和 \`git blame\` 来搜索代码库的历史记录;容器中禁用了互联网访问。
       - 除非明确要求,否则**永远不要**添加版权或许可证头。
       - 你不需要 \`git commit\` 你的更改;这会自动为你完成。
       - 如果存在 .pre-commit-config.yaml,使用 \`pre-commit run --files ...\` 来检查你的更改是否通过预提交检查。但是,不要修复你未触及的行上已存在的错误。
         - 如果预提交在几次重试后仍无法工作,礼貌地告知用户预提交设置已损坏。
       - 一旦你完成编码,你必须:
         - 检查 \`git status\` 以对你的更改进行完整性检查;恢复任何临时文件或更改。
         - 尽可能移除你添加的所有行内注释,即使它们看起来正常。使用 \`git diff\` 进行检查。应普遍避免行内注释,除非在对代码和问题进行长期仔细研究后,仓库的活跃维护者在没有注释的情况下仍然会误解代码。
         - 检查你是否不小心添加了版权或许可证头。如果是,请移除它们。
         - 如果可用,尝试运行预提交。
         - 对于较小的任务,用简短的要点进行描述。
         - 对于更复杂的任务,包括简短的高层次描述,使用要点,并包含对代码审查者相关的细节。
    - 如果完成用户任务**不需要**编写或修改文件(例如,用户询问有关代码库的问题):
     - 以一个友好的远程队友的语气回复,他知识渊博、能力强,并乐于帮助编码。
    - 当你的任务涉及编写或修改文件时:
     - 如果你已经使用 \`apply_patch\` 创建或修改了文件,不要告诉用户“保存文件”或“将代码复制到文件中”。相反,将文件作为已保存的文件来引用。
     - 除非用户明确要求,否则不要显示你已编写的大文件的全部内容。
    </instructions>
    
    <apply_patch>
    要编辑文件,请**始终**使用带有 \`apply_patch\` CLI 的 \`shell\` 工具。\`apply_patch\` 让你能够有效地对文件执行 diff/patch,但 diff 规范的格式是此任务独有的,因此请仔细注意这些指令。要使用 \`apply_patch\` CLI,你应该使用以下结构调用 shell 工具:
    \`\`\`bash
    {"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n[YOUR_PATCH]\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
    \`\`\`
    其中 [YOUR_PATCH] 是你补丁的实际内容,以以下 V4A diff 格式指定。
    *** [ACTION] File: [path/to/file] -> ACTION 可以是 Add、Update 或 Delete 之一。
    对于需要更改的每个代码片段,重复以下内容:
    [context_before] -> 有关上下文的进一步说明,请参阅下文。
    - [old_code] -> 在旧代码前加上减号。
    + [new_code] -> 在新的、替换代码前加上加号。
    [context_after] -> 有关上下文的进一步说明,请参阅下文。
    关于 [context_before] 和 [context_after] 的说明:
    - 默认情况下,显示每个更改正上方和正下方的 3 行代码。如果一个更改在先前更改的 3 行内,则不要在第二个更改的 [context_before] 行中重复第一个更改的 [context_after] 行。
    - 如果 3 行上下文不足以唯一标识文件中的代码片段,请使用 \`@@\` 运算符来指示该片段所属的类或函数。例如,我们可能有:
    @@ class BaseClass
    [3 行前置上下文]
    - [旧代码]
    + [新代码]
    [3 行后置上下文]
    - 如果一个代码块在一个类或函数中重复多次,以至于即使是单个 \`@@\` 语句和 3 行上下文也无法唯一标识代码片段,你可以使用多个 \`@@\` 语句来跳转到正确的上下文。例如:
    @@ class BaseClass
    @@  def method():
    [3 行前置上下文]
    - [旧代码]
    + [新代码]
    [3 行后置上下文]
    请注意,在这种 diff 格式中,我们不使用行号,因为上下文足以唯一标识代码。下面显示了一个你可能作为“input”传递给此函数以应用补丁的消息示例。
    \`\`\`bash
    {"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n*** Update File: pygorithm/searching/binary_search.py\\n@@ class BaseClass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n@@ class Subclass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
    \`\`\`
    文件引用只能是相对的,**永远不能是绝对的**。运行 apply_patch 命令后,它总是会说“Done!”,无论补丁是否成功应用。但是,你可以通过查看在“Done!”输出**之前**打印的任何警告或日志行来确定是否存在问题和错误。
    </apply_patch>
    
    <persistence>
    你是一名智能代理——请继续工作,直到用户的查询完全解决,然后才能结束你的回合并将控制权交还给用户。只有当你确定问题已解决时,才结束你的回合。
    - 永远不要因不确定而停止——研究或推导出最合理的方法并继续。
    - 不要要求人类确认假设——记录它们,根据它们行动,并在任务中途证明错误时进行调整。
    </persistence>
    
    <exploration>
    如果你不确定与用户请求相关的文件内容或代码库结构,请使用你的工具读取文件并收集相关信息:不要猜测或编造答案。
    在编码之前,请始终:
    - 将请求分解为明确的要求、不清晰的领域和隐藏的假设。
    - 映射范围:识别可能涉及的代码库区域、文件、函数或库。如果未知,请规划并执行有针对性的搜索。
    - 检查依赖关系:识别相关的框架、API、配置文件、数据格式和版本控制问题。
    - 主动解决歧义:根据仓库上下文、约定和依赖文档选择最可能的解释。
    - 定义输出契约:精确的可交付成果,例如更改的文件、预期的输出、API 响应、CLI 行为和通过的测试。
    - 制定执行计划:用你自己的话语阐明研究步骤、实现顺序和测试策略,并在你完成任务时参考它。
    </exploration>
    
    <verification>
    在你完成任务的过程中,定期验证你的代码是否有效,特别是任何可交付成果,以确保它们正常运行。在确定问题已解决之前,不要将控制权交还给用户。
    退出运行时间过长的进程并优化你的代码以运行得更快。
    </verification>
    
    <efficiency>
    效率是关键。你有一个时间限制。在你的规划、工具调用和验证中要一丝不苟,这样你就不会浪费时间。
    </efficiency>
    
    <final_instructions>
    永远不要使用编辑器工具来编辑文件。始终使用 \`apply_patch\` 工具。
    </final_instructions>
  • Anthropic CEO最新演讲解读:三年营收破 45 亿,到底做对了什么?

    最近,Anthropic CEO Dario Amodei 在采访中正面回应:我不是“末日论者”,我是最懂 AI 技术好处的人之一。

    Dario Amodei 是普林斯顿生物物理学博士,读博期间就拿下 Hertz Fellowship(美国最顶尖的科研奖学金之一),毕业后又在斯坦福医学院做了几年博士后。

    他曾先后就职于在百度、Google 和 OpenAI。

    在 OpenAI 期间,主导了 GPT-2 和 GPT-3 的研发,并提出 RLHF 技术,让大模型第一次学会按照人类意图对话。

    直到 2021 年,Dario 带着妹妹 Daniela 及多位核心成员创立 Anthropic 。用三年时间打造出全球最具竞争力的大模型之一的 Claude 系列。

    一个多小时的访谈里,他直言 AGI 是伪概念,谈扩展规律、盈利逻辑、开源泡沫…我认真听完了,整理出11条核心观点,也许也会改变你对 AI 未来的看法。

     

    01. Dario 核心观点总结

     

    不是末日论者,是最懂技术好处的人之一

    AI 的进化速度远比想象中快。几年前的模型还说不清一句话,如今已经能完成博士级别的任务,AI 正在一步步渗透进真实的经济系统。

    Dario 一直相信扩展定律(scaling laws)的作用。他明白,没人能真正预知未来,但有些话必须说在前头。

    他不否认 AI 的巨大潜力,甚至可能比任何人都更看好它能带来的改变。也正因为看得清那些好处,他才更有责任提醒世界,别忽略背后的风险。

    AGI 是多巴胺诱饵,不值一提

    Dario 认为 AGI (通用人工智能)和 ASI (超级人工智能)是含糊又带有营销意味的词。他拒绝使用这些术语,转而聚焦模型真实能力的提升。

    虽然他不用这些词,但他仍是业内少数几个对 AI 能力跃迁时间预期最短、也最乐观的人之一。

    真正的爆发,也许就在这两年

    Dario Amodei 说,大模型的能力正在进入第二阶段——强化学习、推理、计算能力大幅提升,尤其在数学与代码任务上,已逼近专业水准。

    多数人没意识到,这是一条指数曲线

    假设性能每半年翻倍,早期看不出变化,一旦临近临界点,增长会脱离直觉。

    比如,Anthropic 从 2023 年的零收入,到 2025 年上半年已破 45 亿美元,正在重演 90 年代互联网的轨迹。

    AI 离真正的爆发,也许只差两年。

    AI 编码能力正在指数跃迁

    编码,是 Claude 模型提升最快的能力之一。

    Anthropic 不是专注做开发助手的公司,却在这个方向上一路狂飙:18 个月前,模型在编程基准测试中只能拿 3%,现在已飙到 72%-80%。

    Anthropic 内部,绝大部分代码都是由 Claude 模型直接编写,或者至少有模型参与编写。其他公司也有类似现象。

    在收益方面,进展也是持续加速。模型正在进入“自我开发”阶段。

    模型进化的秘密,在于人才密度

    每一代 Claude 模型的发布,都会在架构、数据、训练方法上进行改进,这些都是新技术的一部分。

    Anthropic 不常公开讨论细节,但持续的技术创新是模型性能提升的关键。为此,Anthropic 会尽力保持高人才密度,因为这是发明新技术的必要条件。

    出价再高,也买不走我们的团队

    Anthropic 的核心团队流失率极低,不是没人挖,而是没人挖得走。

    Dario 明确表示,不靠“溢价保人”,不搞个别谈判。系统化职级、统一薪酬,是 Anthropic 长期文化的一部分。

    “我们不是靠钱留人,而是靠共同愿景。”他说。热情、使命感、长期投入,这些才是无法标价的东西。就算对方是扎克伯格,也未必买得走。

    亏损 30 亿,不是赔钱,是在下注下一代 AI

    Anthropic 预计今年亏损 30 亿美元,听起来吓人,其实是再正常不过的事。

    Dario 将模型开发比作投资项目:假设 2023 年训练一个模型花费 1 亿美元,部署后赚取 2 亿,当年盈利 1 亿。但 2024 年又花 10 亿训练新模型,即使旧模型继续赚钱,公司账面仍是亏损。每个模型单独来看都是盈利的,但公司整体因为不断投入下一代研发而不显盈利。

    这种模式在行业内普遍存在:只要模型持续提升,各公司都会加大投资,推动业务规模增长。

    如果某一天模型性能趋于停滞,成本会下降,盈利能力会稳步提升;否则,投入和收入都会继续指数级增长。

    开源≠免费,也不是决定胜负的关键

    开源与否并不重要。比起“开放权重”这种表面自由,Dario 更看重模型在任务上的表现:模型有没有用?能不能跑得快?省不省钱?适不适合业务场景?

    即便你拿到了参数,要部署到云上推理,照样要烧钱、做优化、负重前行。Dario 更关注:谁能在任务上做得更好,谁就赢。他要的是效果,而不是标签。

    换句话说:谁更好用,谁赢。

    我们用 200 亿,和别人 1000 亿竞争

    Anthropic 三年收入增长速度惊人,从 0 到 45 亿,Dario 认为靠的是“人才密度”和“资本效率”,而非砸钱比拼。他说:“别人花 10 亿能做的事,我们可能 1 亿做到。”

    API 营收占大头,我们赌的是企业市场

    Anthropic 60%-75% 收入来自 API,另有部分来自 Claude 应用。Dario 明确表示,企业级才是未来,尤其是在法律、金融、制药等高价值场景。

    在保障安全的提前下做技术

    他回忆自己在 OpenAI 主导 GPT-3 和 RLHF 的经历,指出能力与对齐无法分离研究。离开 OpenAI,是因为在治理与节奏上理念分歧。创立 Anthropic,是为了用他信任的方式推进安全 AI。

    AI 的安全不该沦为企业口号或博弈筹码,而是行业必须一起承担的责任。

    Dario 推行“负责任的扩展策略”,主动公开危险能力评估、宪法式 AI、可解释性研究,不是为了垄断安全红利,而是为了让整个行业走在更稳的轨道上。

    他不认同控制论者的悲观,也拒绝加速主义者的狂热。他更关心:当模型能力持续逼近高风险区间,行业是否有足够的测试与技术储备?如果哪天失控风险超过可控阈值,他会是第一个呼吁全行业放慢脚步的人。

    在指数级爆发的技术洪流中,他选择一条并不讨好的路——推动整个行业“向高处竞争”。

     

    02. 一些分享

     

    在这次采访中,Dario Amodei 讲了很多人避而不谈的真话。他不说 AGI,不讲“超级智能”,反而专注模型具体能力的提升,讲推理、讲计算、讲强化学习。

    不是因为他悲观,而是他看到了这条指数曲线可能引发的巨大后果。他的担心不是模型不会成功,而是会太快成功。

    他不是要阻止别人做 AI,而是希望大家在“高处竞争”,不是抢着谁先上线,而是谁能在不犯错的前提下做得最好。

    我还挺认同他对人才的看法。热情、责任感、长期投入这些东西是金钱买不来的。你给再高的 offer,留不住真正认同愿景的人。你觉得呢?

    获取《Dario 1小时采访原视频》扫码关注回复: 20250811

    原文链接:出走 OpenAI,三年营收破 45 亿,Anthropic CEO 到底做对了什么?