Category: AI专栏

AI工具集收录最新 AI 行业创始人访谈与行业趋势分析报告。洞察 AI 应用和技术走向,如创新AI应用、大模型训练、多模态融合发展,以及在医疗、金融等多个垂直领域的实践探索,帮你深入了解 AI 行业的前行脉络与未来机遇,助力把握科技浪潮。

  • 腾讯推出《企业级智能体产业落地研究报告》(PDF文件)

    《企业级智能体产业落地研究报告》是腾讯云、腾讯研究院联合国际权威研究机构Gartner共同推出的,报告深入探讨企业级智能体的产业落地情况。介绍了智能体从“辅助工具”到“自主生产力”的转变,详细阐述智能体的定义、形态及能力层级。报告通过“智能体场景罗盘”和“百大场景”梳理智能体在各行业的应用现状。分析了智能体落地的技术挑战,如训推成本、模型性能、安全防护等,且提出相应的解决方案。报告展示了多个行业的先锋实践案例,对未来智能体的发展趋势进行展望,强调智能体在推动企业智能化转型中的重要作用。

    获取《企业级智能体产业落地研究报告》报告PDF原文件 扫码关注回复: 20250929

    引言

    报告指出,人工智能正迎来重要的转折点,从“辅助工具”向“自主生产力”转变。智能体(AI Agent)作为变革的核心,能自主理解目标、规划路径、调用工具、与物理或数字世界交互。未来的企业运营人员能通过自然语言表达战略目标,由智能体组成的“虚拟团队”自主协作完成任务,如市场分析、广告投放和数据分析等。变革将重塑人机协作的边界,推动生产力的革命。

    智能体概念

    • 定义与形态
      • 狭义智能体:强调自主学习与优化,具备原生工具调用与任务闭环执行能力。核心特征包括自主规划与反馈调节,能在无需持续人工干预的情况下完成任务。
      • 广义智能体系统:更包容,依赖预设规则,通过工作流和工具协同实现任务。核心特征是执行预定义任务,依赖提示(Prompt)进行决策。
    • 能力界定与分类
      • 核心要求:智能体需要“能干活、能落地、能实战”,能力界定和分类必须依托可验证的评测体系。
      • 评测体系:分为模型基础能力测试、通用任务测试和特定领域的端到端任务测试。评测方式包括最终输出评测、中间过程评测和相对评测。
      • 能力层级:从L1(基础响应与流程执行)到L5(组织与领导)。每个层级对应不同的任务执行方式和技术要点,例如L1主要依赖知识库问答和工作流,L3开始具备自主规划和优化能力。

    智能体场景盘点

    • 智能体场景罗盘:报告提出“智能体场景罗盘”,通过横纵两个坐标轴(任务复杂度和自主规划依赖度)划分四个象限:高效助手、执行专家、决策专家和全能专家。每个象限代表不同类型的智能体应用场景,成熟度从概念验证到稳定可用不等。
    • 智能体百大场景:报告梳理了金融、零售、文旅、教育、医疗等14个行业的上百个智能体应用场景,为企业提供直观的参考。场景覆盖从简单任务自动化到复杂项目管理的广泛应用。

    智能体技术/产品方案解析

    • 技术挑战
      • 训推成本:大模型的训练和推理对资源需求极高,导致成本居高不下。业务负载的“潮汐效应”使传统的静态算力部署模式难以适应,进一步加剧资源浪费和成本问题。
      • 模型性能:通用大模型在处理特定领域的专业知识时存在局限性,容易产生“幻觉”问题,在需要自主执行任务的场景中可能导致错误决策和危险行为。
      • 安全防护:智能体应用引入了新的安全风险,如提示词注入、敏感信息泄露和不当的API调用。智能体处理和存储的海量敏感数据面临数据滥用、隐私泄露和法规不合规的风险。
      • 数据治理:企业内部数据普遍存在质量参差不齐、格式不统一、信息缺失和逻辑冲突等问题,形成了以打破的“数据孤岛”。导致智能体在整合不同部门数据时出现矛盾,影响其策的准确性。
      • 业务流程耦合:智能体需要与企业现有的复杂系统深度集成,但旧系统之间的技术耦合和人机协作的流程耦合存在诸多障碍。
    • 解决方案
      • 腾讯云智能体战略全景图:腾讯云智能体战略全景图整合智能体应用、开发平台和基础设施,提供全链条解决方案,助力企业高效构建和优化智能体系统,推动智能化转型。
      • 腾讯云产品方案:具体技术优化聚焦通信、调度、模型、安全、数据治理和知识解析等关键领域,通过先进技术手段提升智能体性能与可靠性,为企业应用落地提供支撑。

    智能体先锋实践

    报告列举多个行业的先锋实践案例,展示了智能体在实际业务中的应用效果:

    • 文旅:华住集团打造7×24小时“全能酒店管家”,提升客户服务体验。
    • 医疗:迈瑞×腾讯云“启元”大模型重塑重症诊疗范式,提高医疗效率。
    • 出行:一汽丰田用大模型打造专家级汽车服务智能客服,优化用户体验。
    • 零售:伊利集团用智能体打造智能导购新体验,激活全域营销新动能。
    • 金融:东吴人寿智能体技术助力保险全周期服务体系智能化升级。
    • 互联网:同程DeepTrip智能助手用AI重新定义旅行体验。
    • 教育:考试宝以AI大模型解锁精准学习新范式。

    • 政务:邯郸公积金全国首创“边聊边办”数字柜台,重塑公积金服务新体验。
    • 制造:运达能源科技集团以智能体技术提升风电装备制造和交付效能。
    • 能源:五环集团用AI重塑工程管理赋能新质生产力。
    • 地产:碧桂园服务打造“一问”AI客服机器人赋能员工效率跃升。
    • 物流:DHL用智能体重构跨境智能客服实现效率与合规双提升。
    • 游戏:巨人网络《太空杀》游戏引入AI智能体,创新游戏玩法。
    • 心理健康:腾讯云助力心言集团打造AI情感陪伴服务。
    • 法律:得理科技打造AI法务助手重塑企业法务服务新范式。

    智能体发展展望

    报告预测智能体将从单一、静态的应用走向动态、泛在化和具身化的新形态,推动社会和商业的范式变革:

    • 智能协同:从单兵作战到群体智能,实现多智能体协同和跨组织智能体协同。
    • 感知与推理:通过多模态模型和世界模型,实现更高级的推理和对世界的内在理解。
    • 执行与应用:智能体的泛在化与具身化,将能力延伸到物理世界,融入各类硬件终端。

    结语

    智能体正从“辅助工具”演变为“自主生产力”,将深刻影响企业运营、组织形态乃至社会结构。腾讯云通过构建从技术底座到行业应用的全栈能力,助力企业分阶段、可持续地推进智能体建设,实现从“试点验证”到“生态融合”的智能化转型。

    获取《企业级智能体产业落地研究报告》报告PDF原文件 扫码关注回复: 20250929

  • 阿里吴泳铭:AGI只是起点,超级人工智能ASI才是终极目标

    9月24日,在杭州召开的云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭发表主旨演讲,他认为实现通用人工智能AGI已是确定性事件,但这只是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能ASI。

    吴泳铭首次系统阐述了通往ASI的三阶段演进路线

    • 第一阶段:“智能涌现”,AI通过学习海量人类知识具备泛化智能。
    • 第二阶段:“自主行动”,AI掌握工具使用和编程能力以“辅助人”,这是行业当前所处的阶段。
    • 第三阶段:“自我迭代”,AI通过连接物理世界并实现自学习,最终实现“超越人”。

    为实现这一目标,吴泳铭明确了阿里云的战略路径。阿里云作为“全栈人工智能服务商”,将通过两大核心路径实施AI战略:第一,通义千问坚定开源开放路线,致力于打造“AI时代的Android”;其二,构建作为“下一代计算机”的超级AI云,为全球提供智能算力网络。

    为支撑这一宏大愿景,吴泳铭表示,阿里巴巴正在积极推进三年3800亿的AI基础设施建设计划,并将会持续追加更大的投入。根据远期规划,为了迎接ASI时代的到来,对比2022年这个GenAI的元年,2032年阿里云全球数据中心的能耗规模将提升10倍。

    以下为演讲全文——

    开始演讲之前,我想特别感谢一下支持整个中国乃至全球科技行业的开发者朋友。今天是云栖大会的10周年,云栖大会起源于阿里云的开发者大会,是广大开发者推动了中国乃至全球的云计算、AI和科技行业的发展。所以,在演讲之前,我想特别向开发者们致以最高的谢意。

    当前的世界,一场由人工智能驱动的智能化革命刚刚开始。过去几百年,工业革命通过机械化放大了人类的体能,信息革命通过数字化放大了人类的信息处理能力。而这一次,智能化革命将远超我们的想象。通用人工智能AGI不仅会放大人类智力,还将解放人类的潜能,为超级人工智能ASI的到来铺平道路。

    最近的三年,我们已经清晰地感受到它的速度。几年时间,AI的智力从一个高中生迅速提升到博士生的水平,还能拿到国际IMO的金牌。AI Chatbot是人类有史以来用户渗透率最快的功能。AI 的行业渗透速度超过历史上所有技术。Tokens 的消耗速度两三个月就翻一番。最近一年,全球AI行业的投资总额已经超过4000亿美元,未来5年全球AI的累计投入将超过4万亿美元,这是历史上最大的算力和研发投入,必然将会加速催生更强大的模型,加速AI应用的渗透。

    实现AGI——一个具备人类通用认知能力的智能系统,现在看来已成为确定性事件。然而,AGI并非AI发展的终点,而是全新的起点。AI不会止步于AGI,它将迈向超越人类智能、能够自我迭代进化的超级人工智能(ASI)。

    AGI的目标是将人类从80%的日常工作中解放出来,让我们专注于创造与探索。而ASI作为全面超越人类智能的系统,将可能创造出一批“超级科学家”和”全栈超级工程师”。ASI将以难以想象的速度,解决现在未被解决的科学和工程问题,比如攻克医学难题、发明新材料、解决可持续能源和气候问题,甚至星际旅行等等。ASI将以指数级的速度推动科技的飞跃,引领我们进入一个前所未有的智能时代。

    我们认为,通往ASI之路将经历三个阶段:

    第一阶段是“智能涌现”,特征是“学习人”。

    过去几十年的互联网发展,为智能涌现提供了基础。互联网将人类历史上几乎所有的知识都数字化了。这些语言文字承载的信息,代表了人类知识的全集。基于此,大模型首先通过理解全世界的知识集合,具备了泛化的智能能力,涌现出通用对话能力,可以理解人类的意图,解答人类的问题,并逐渐发展出思考多步问题的推理能力。现在,我们看到AI已经逼近人类各学科测试的顶级水平,比如国际数学奥赛的金牌水平。AI逐渐具备了进入真实世界、解决真实问题、创造真实价值的可能性。这是过去几年的主线。

    第二个阶段是“自主行动”,特征是“辅助人”。

    这个阶段,AI不再局限于语言交流,而是具备了在真实世界中行动的能力。AI可以在人类的目标设定下,拆解复杂任务,使用和制作工具,自主完成与数字世界和物理世界的交互,对真实世界产生巨大影响。这正是我们当下所处的阶段。

    实现这一跨越的关键,首先是大模型具备了Tool Use能力,有能力连接所有数字化工具,完成真实世界任务。人类加速进化的起点是开始创造和使用工具,现在大模型也具备了使用工具的能力。通过Tool Use,AI可以像人一样调用外部软件、接口和物理设备,执行复杂的真实世界任务。这个阶段,由于AI能够辅助人类极大提高生产力,它将快速的渗透到物流、制造、软件、商业、生物医疗、金融、科研等几乎所有行业领域。

    其次,大模型Coding能力的提升,可以帮助人类解决更复杂的问题,并将更多场景数字化。现在的Agent还比较早期,解决的主要是标准化和短周期的任务。要想让Agent能解决更复杂、更长周期任务,最关键的是大模型的Coding能力。因为Agent可以自主Coding,理论上就能解决无限复杂的问题,像工程师团队一样理解复杂需求并自主完成编码、测试。发展大模型Coding能力是通往AGI的必经之路。

    未来,自然语言就是AI时代的源代码,任何人用自然语言就能创造自己的Agent。你只需要输入母语,告诉AI你的需求,AI就能自己编写逻辑、调用工具、搭建系统,完成数字世界的几乎所有工作,并通过数字化接口来操作所有物理设备。 未来,也许会有超过全球人口数量的Agent和机器人与人类一起工作,对真实世界产生巨大影响。在这个过程中,AI就能连接真实世界的绝大部分场景和数据,为未来的进化创造条件。

    随后AI将进入第三个阶段——“自我迭代”,特征是“超越人”。这个阶段有两个关键要素:

    一、AI连接了真实世界的全量原始数据

    目前AI的进步最快的领域是内容创作、数学和Coding领域。我们看到这三个领域有明显的特征。这些领域的知识100%是人类定义和创造的,都在文字里,AI可以100%理解原始数据。但是对于其他领域和更广泛的物理世界,今天的AI接触到的更多是人类归纳之后的知识,缺乏广泛的、与物理世界交互的原始数据。这些信息是有局限的。AI要实现超越人类的突破,就需要直接从物理世界获取更全面、更原始的数据。

    举一个简单的例子,比如一家汽车公司的CEO要迭代明年的产品,大概率会通过无数次的用户调研或者内部的讨论来决定下一款汽车将要具备什么样的功能,与竞对相比要实现哪些方面的长板,保留什么方面的能力。现在AI要去做还是很难的,核心点在于它所获得的数据和信息,全都是调研来的二手数据。如果有一天AI有机会,能够连接这款汽车的所有的资料和数据,它创造出来的下一款汽车会远远超过通过无数次头脑风暴所创作出来的。这只是人类世界当中的一个例子,更何况更复杂的物理世界,远远不是通过人类知识归纳就能够让AI理解的。

    所以AI要进入到一个更高的阶段,就需要直接从物理世界获取更全面、更原始的数据,就像在自动驾驶的早期阶段,只靠人类的总结,Rule-based的方法去实现自动驾驶,无法实现很好的效果。新一代的自动驾驶,大部分采用端到端的训练方法,直接从原始的车载摄像头数据中学习,实现了更高水平的自动驾驶能力。即便我们现在看起来相对简单的自动驾驶问题,仅依靠人类归纳的知识和规则,也无法解决,更何况整个复杂的物理世界。只是让AI学习人类归纳的规律,是远远不够的。只有让AI与真实世界持续互动,获取更全面、更真实、更实时的数据,才能更好的理解和模拟世界,发现超越人类认知的深层规律,从而创造出比人更强大的智能能力。

    二、Self-learning自主学习

    随着AI渗透更多的物理世界场景,理解更多物理世界的数据,AI 模型和agent能力也会越来越强,有机会为自己模型的升级迭代搭建训练infra、优化数据流程和升级模型架构,从而实现 Self learning。这会是AI发展的关键时刻。

    随着能力的持续提升,未来的模型将通过与真实世界的持续交互,获取新的数据并接收实时反馈,借助强化学习与持续学习机制,自主优化、修正偏差、实现自我迭代与智能升级。每一次交互都是一次微调,每一次反馈都是一次参数优化。当经过无数次场景执行和结果反馈的循环,AI将自我迭代出超越人类的智能能力,一个早期的超级人工智能(ASI)便会成型。

    一旦跨过某个奇点,人类社会就像按下了加速键,科技进步的速度将超越我们的想象,新的生产力爆发将推动人类社会进入崭新的阶段。这条通往超级人工智能的道路,在我们的眼前正在日益清晰。随着AI技术的演进和各行各业需求爆发,AI也将催生IT产业的巨大变革。

    我们的第一个判断是:大模型是下一代的操作系统。我们认为大模型代表的技术平台将会替代现在OS的地位,成为下一代的操作系统。未来,几乎所有链接真实世界的工具接口都将与大模型进行链接,所有用户需求和行业应用将会通过大模型相关工具执行任务,LLM将会是承载用户、软件 与 AI计算资源交互调度的中间层,成为AI时代的OS。来做一些简单的类比:自然语言是AI时代的编程语言,Agent就是新的软件,Context是新的Memory,大模型通过MCP这样的接口,连接各类Tools和Agent类似PC时代的总线接口,Agent之间又通过A2A这样的协议完成多Agent协作类似软件之间的API接口。

    大模型将会吞噬软件。大模型作为下一代的操作系统,将允许任何人用自然语言,创造无限多的应用。未来几乎所有与计算世界打交道的软件可能都是由大模型产生的Agent,而不是现在的商业软件。潜在的开发者将从几千万变成数亿规模。以前由于软件开发的成本问题,只有少量高价值场景才会被工程师开发出来变成商业化的软件系统。未来所有终端用户都可以通过大模型这样的工具来满足自己的需求。

    模型部署方式也会多样化,它将运行在所有设备上。现在主流的调用模型API的方式,来使用模型只是初级阶段,其实看起来非常原始。类似大型主机时代的分时复用阶段,每个人只有一个终端连接上大型主机分时复用。这种方式无法解决数据持久化,缺乏长期记忆,实时性不够,隐私无法解决,可塑性也不够。未来模型将运行在所有计算设备中,并具备可持久记忆,端云联动的运行状态,甚至可以随时更新参数,自我迭代,类似我们今天的OS运行在各种环境之中。

    正是基于这个判断,我们做了一个战略选择:通义千问选择开放路线,打造AI时代的Android。我们认为在LLM时代,开源模型创造的价值和能渗透的场景,会远远大于闭源模型。我们坚定选择开源,就是为了全力支持开发者生态,与全球所有开发者一起探索AI应用的无限可能。

    我们的第二个判断:超级AI 云是下一代的计算机。

    大模型是运行于 AI Cloud之上新的OS。这个OS可以满足任何人的需求。每个人都将拥有几十甚至上百个Agent,这些Agent 24小时不间断地工作和协同,需要海量的计算资源。

    数据中心内的计算范式也在发生革命性改变,从CPU为核心的传统计算,正在加速转变为以 GPU为核心的 AI 计算。新的AI计算范式需要更稠密的算力、更高效的网络、更大的集群规模。

    这一切都需要充足的能源、全栈的技术、数百万计的GPU和CPU,协同网络、芯片、存储、数据库高效运作,并且24 小时处理全世界各地的需求。这需要超大规模的基础设施和全栈的技术积累,只有超级AI云才能够承载这样的海量需求。未来,全世界可能只会有5-6个超级云计算平台。

    在这个新时代,AI将会替代能源的地位,成为最重要的商品,驱动千行百业每天的工作。绝大部分AI能力将以Token的形式在云计算网络上产生和输送。Token就是未来的电。在这个崭新的时代,阿里云的定位是全栈人工智能服务商,提供世界领先的智能能力和遍布全球的AI云计算网络,向全球各地提供开发者生态友好的AI服务。

    首先,我们有全球领先的大模型——通义千问。通义千问开源了300多款模型,覆盖了全模态、全尺寸,是最受全球开发者欢迎的开源模型。截至目前,通义千问全球下载量超6亿次,衍生模型超17万个,是全球第一的开源模型矩阵,可以说是渗透计算设备最广泛的大模型。

    同时,阿里云提供一站式模型服务平台百炼,支持模型定制化以及Agent快速开发,同时提供AgentBay这样的Agent运行环境、灵码/Qoder等一系列开发者套件,让开发者可以方便地使用模型能力和创建使用Agent。

    其次,阿里云运营着中国第一、全球领先的AI基础设施和云计算网络,是全球少数能做到软硬件垂直整合的超级AI云计算平台之一。在硬件和网络层面,阿里云自研的核心存储系统、网络架构、计算芯片,构成了阿里云大型计算集群最坚实的底座。

    阿里云正在全力打造一台全新的AI超级计算机,它同时拥有最领先的AI基础设施和最领先的模型,可以在基础架构设计和模型架构上协同创新,从而确保在阿里云上调用和训练大模型时,能达到最高效率,成为开发者最好用的AI云。

    AI行业发展的速度远超我们的预期,行业对AI基础设施的需求也远超我们的预期。我们正在积极推进三年3800亿的AI基础设施建设计划,并将会持续追加更大的投入。从现在我们看到的AI行业远期发展以及客户需求角度来看,为了迎接ASI时代的到来,对比2022年这个GenAI的元年,2032年阿里云全球数据中心的能耗规模将提升10倍。这是我们的一个远期规划,我们相信通过这样的饱和式投入,能够推动AI行业的发展,迎接ASI时代的到来。

    超级人工智能到来之后,人类和AI会是怎么样的协作关系?

    未来的AI越来越强,甚至超越人类智能能力的ASI诞生,那我们人类和AI将如何相处?我们对未来充满乐观,超级人工智能到来之后,人类和AI是一个崭新的协同方式。程序员可能已经感受到了,我们可以下一个指令,通过Coding这样的工具,让它晚上12个小时就能够创造出一个我们需要的系统,从这里我们看到了未来人和AI怎么样去共同协同的一种早期的雏形。所以我们觉得,从Vibe Coding到Vibe Working。未来,每个家庭、工厂、公司,都会有众多的Agent和机器人24小时为我们服务。也许,未来每个人都需要使用100张GPU芯片为我们工作。

    正如电曾经放大了人类物理力量的杠杆,ASI将指数级放大人类的智力杠杆。过去我们消耗10个小时的时间,获得10小时的结果。未来,AI可以让我们10小时的产出乘以十倍、百倍的杠杆。回顾历史,每次技术革命解锁更多生产力之后,都会创造出更多的新需求。人会变得比历史上任何时候都强大。

    最后,我想强调,一切才刚刚开始。AI 将重构整个基础设施、软件和应用体系,成为真实世界的核心驱动力,掀起新一轮智能化革命。阿里巴巴将持续投入,与合作伙伴和客户一起,让AI 深入产业、共创未来。祝大家度过一个充实愉快的云栖大会,谢谢大家!

  • 阿里推出的《企业 AI 应用构建指南》(PDF文件)

    《企业AI应用构建指南》全面阐述企业级AI应用的构建方法与技术体系。内容涵盖AI应用架构演进(从对话、RAG到工作流和Agent模式),深入解析交付流程、MaaS、记忆管理、MCP协议、AI网关、沙箱隔离等核心基础设施,重点讨论提示词注入、工具安全、身份鉴权等新型风险及其防护策略。指南结合阿里巴巴内部实践,为开发者提供从研发到运维的全链路指导,助力高效、安全地实现AI应用落地与创新。

    获取《企业 AI 应用构建指南》报告PDF原文件 扫码关注回复: 20250922

    简介

    本文基于阿里巴巴内部 AI 应用研发经验,结合业务研究与开源进展,深入分析 AI 应用研发的架构模式、交付差异、基础设施支持及安全挑战。从复杂度最高的 Agent 模式架构入手,探讨 AI 应用与传统应用在研发交付阶段的差异,包括模型切换升级及能力评测等问题。重点介绍支持 AI 应用研发的基础设施,如 MaaS、MCP 工具、Sandbox 技术及研发运维生命周期的观测和评测。分析 AI 引入应用程序带来的安全新挑战,如提示词注入、工具使用安全、Sandbox 隔离及身份和授权体系等,为读者提供 AI 应用研发的实践经验和深入见解。

    AI 应用架构

    • 发展历程:从简单的对话模式,到加入向量检索召回能力的 RAG 模式,再到开发者编排工作流、在关键节点用模型驱动的 AI 工作流模式,发展到用模型自身规划流程的 Agent 模式。
    • Agent 模式架构
      • 用户交互模块:接收用户请求,收集上下文数据、转换成模型请求。
      • 核心 LLM 模块:负责任务规划及短期记忆保存,生成任务计划并执行。
      • 环境模块:作为任务执行场所,通常是隔离的 sandbox 环境,执行任务、收集环境信息。
      • 规划、任务执行、感知和反思循环:根据执行结果调整规划,循环多次实现目标。
      • 记忆模块:在任务复杂、上下文过长时,引入长期记忆模块,精细压缩记忆以保留关键信息。

    AI 应用交付

    • 特点:与传统应用 CI/CD 相比,AI 应用 CI/CD 面临多维度的供应链管理,需用概率性测试策略,采用复杂循环流程,需对模型性能变化等 AI 特有问题进行多层次监控。
    • 模型和框架选择:根据质量、成本、费用、合规等多维度选择基础模型和框架,如通用对话场景可选择 GPT-4,代码生成可选择 Qwen-Coder,企业考虑合规可选择开源模型私有化部署。在应用更新迭代过程中,需进行模型切换及相应工作。
    • 核心流程:AI 应用依赖关系复杂,需统筹代码、模型、数据协同交付。建议用环境隔离方式,分为开发、集成、生产三阶段,每个环境有不同权限控制和稳定性要求。

    AI 应用研发基础设施

    • MaaS(模型即服务):将具备不同任务处理能力的 AI 模型以服务形式提供给用户,用户通过 SDK/API 快速应用模型推理能力,降低 AI 应用构建复杂度。
    • 记忆(Memory):使 AI 应用能对先前交互内容进行记忆,保持长期交互的一致性和连贯性。
    • MCP(模型上下文协议):让大型语言模型以标准化方式连接外部数据源和工具,使模型能发挥更大价值,如引入网络搜索、数据集和 API 等外部工具。
    • AI 网关:基于模型访问 + API 供应两个场景核心,通过抽象协议、统一治理等设计原理,把“任何模型”和“任何业务 API”纳入统一控制平面,解决 MxN 重复建设问题,实现快速迭代与企业级稳态共存。
    • Sandbox:为 Agent 规划和执行任务提供可靠安全的环境,支持代码生成和运行、browser-use 及本地 MCP Tool 等。
    • AI 可观测:通过获取用户上报的 OpenTelemetry 数据,清晰展示从用户输入到最终输出的全过程,记录关键节点元数据,为开发者提供调试依据,是评测、分析和优化的数据基础。
    • AI 评测:传统软件测试方法在 AI 应用面前力不从心,需建立全新 AI 应用评测体系,确保 AI 应用可信赖、高质量、可持续进化,将不确定性转化为确定性商业价值。

    AI 应用安全

    • 应用安全风险及防护:Agent 应用面临提示词注入、逻辑错误、用户有害请求等新型安全挑战,安全问题从单点漏洞演变为系统性风险,需多层次纵深防御和专门安全治理体系。
    • Tools 使用安全:高危 Tool 必须在与宿主逻辑彻底隔离、可精细审计的受控环境中运行,限定影响范围。
    • 身份与授权:AI 场景下的认证和授权与传统存在差异,需更灵活可靠的安全协议,防止权限泄露、访问越权、数据安全等风险。
    • 大模型供应链安全防护:防范训练数据集、模型权重、依赖组件、交付渠道等环节被恶意篡改或植入“后门”,导致模型“带病上线”威胁业务安全。

    总结

    随着大模型的兴起,阿里巴巴的 AI 研发生态蓬勃发展,Python 活跃开发者数量在过去一年增长 33%,主要用于数据处理、模型训练和 AI 应用研发等工作。在 2025 年 AI 应用发展的元年,资本的大量投入推动了 AI 应用的快速发展,相关的研发模式和应用架构也在不断成熟,新的 AI 应用中间件逐渐出现,让开发者更专注于创新。基于 AI 模型能力的不断提升和上下文工程成为行业共识的趋势,本文推出指南文章,能帮助广大开发者快速构建 AI 应用,实现创新梦想。

    获取《企业 AI 应用构建指南》报告PDF原文件 扫码关注回复: 20250922

  • YC推出Vibe Coding经验《如何从Vibe编程中获得最大收益 》

    YC的 Vibe Coding 经验是基于 YC 的视频《How To Get The Most Out Of Vibe Coding | Startup School》整理而来,由YC合伙人Tom Blomfield分享,是基于人工智能(AI)工具如Claude CodeWindsurf和Aqua进行软件开发的新方式。通过这种方法,AI能编写全栈应用程序,通过粘贴错误信息调试代码,成为开发过程中的真正合作伙伴。Tom提供了完整的指南,帮助开发者通过vibe coding提高开发速度和效率。

    核心内容

    规划过程

    • 创建全面计划:首先与AI合作编写详细的实施计划,保存在Markdown文件中。
    • 审查和完善:删除不必要的项目,标记过于复杂的功能,以便后续处理。
    • 保持范围控制:为后续的想法保留单独的部分,以便保持当前项目的专注度。
    • 增量实施:分部分逐步实施计划,不是一次性构建所有内容。
    • 跟踪进度:让AI在成功实施后标记部分为完成。
    • 定期提交:确保每个工作部分都提交到Git,以便在移动到下一个部分之前能进行版本控制。

    版本控制策略

    • 严格使用Git:不要完全依赖AI工具的回滚功能,始终从干净的Git状态开始每个新功能。
    • 从干净开始:每个新功能都从干净的Git状态开始,以便在AI偏离轨道时可以回滚。
    • 遇到问题时重置:如果AI在某个任务上陷入困境,使用git reset --hard HEAD来重置。
    • 避免累积问题:多次失败的尝试会积累坏代码,因此需要避免。
    • 清洁实施:当你最终找到解决方案时,重置且纯净代码中实施它。

    测试框架

    • 优先考虑高级测试:关注端到端集成测试,不是单元测试。
    • 模拟用户行为:通过模拟用户点击来测试功能,确保它们按预期工作。
    • 捕捉回归:LLM可能会对不相关的逻辑进行不必要的更改,需要测试捕捉这些回归。
    • 测试前进行:在移动到下一个功能之前确保测试通过。
    • 使用测试作为护栏:从测试用例开始提供清晰的边界,确保功能的正确性。

    有效修复bug

    • 利用错误消息:直接将错误消息复制粘贴到LLM,通常足以识别和修复问题。
    • 分析前编码:让AI考虑多种可能的原因,再编写代码。
    • 失败后重置:每次失败尝试后从干净状态开始,避免积累坏代码。
    • 实施日志记录:添加策略性日志能更好地理解发生的事情。
    • 切换模型:尝试不同的AI模型,看看哪个更适合当前任务。
    • 清洁实施:在干净的基础上修复精确的错误,避免积累不必要的代码。

    AI工具优化

    • 创建指令文件:为AI编写详细的指令,使它更好地理解你的意图。
    • 本地文档:下载API文档到项目文件夹,LLM能更准确地访问和使用。
    • 使用多个工具:同时运行多个AI工具,如Cursor和Windsurf,以提高效率。
    • 工具专业化:根据工具的强项选择使用,例如Cursor适合前端工作,Windsurf适合更长时间的思考。
    • 比较输出:生成多个解决方案并选择最佳,以确保代码质量。

    复杂功能开发

    • 创建独立原型:在干净的代码库中构建复杂功能,以便更好地控制和测试。
    • 使用参考实现:指向AI的工作示例,以便它有明确的实现方向。
    • 清晰的边界:保持外部API一致,允许内部更改,保持代码的灵活性。
    • 模块化架构:服务基础架构具有清晰的边界,更适合大型项目。

    技术栈考虑

    • 成熟的框架:如Ruby on Rails因其一致的约定而表现良好,适合AI开发。
    • 训练数据重要:新语言可能训练数据较少,要选择有大量训练数据的语言可能更有利。
    • 模块化是关键:小文件和模块化文件易于工作,有助于保持代码的清晰和可维护性。
    • 避免大文件:避免数千行代码的文件,提高代码的可读性和可维护性。

    超越编码

    • DevOps自动化:使用AI配置服务器、DNS和托管,提高部署效率。
    • 设计协助:生成设计元素,如favicons和其他设计组件。
    • 内容创建:起草文档和营销材料,以支持项目的推广。
    • 教育工具:逐行解释实现,帮助团队成员更好地理解代码。
    • 使用截图:分享UI错误或设计灵感,以便更好地沟通和协作。
    • 语音输入:使用工具如Aqua进行语音输入,提高输入效率。

    持续改进

    • 定期重构:测试到位后,频繁重构代码,保持代码的清晰和可维护性。
    • 识别机会:让AI找到重构候选,提高代码质量。
    • 保持最新:尝试每个新模型发布,以利用最新的技术。
    • 识别优势:不同模型在不同任务上表现出色,需要识别、利用这些优势。

    视频地址

    • 官方视频地址:https://www.youtube.com/watch?v=BJjsfNO5JTo
  • Anthropic最新报告《人类经济指数:追踪AI在美国及全球经济中的作用》

    《人类经济指数:追踪AI在美国及全球经济中的作用》主要研究AI(特别是Claude)在全球和美国各州的使用情况。报告发现,美国的Claude使用量远超其他国家,印度、巴西、日本和韩国紧随其后。在国家层面,Claude的使用与人均GDP呈正相关,高收入国家更倾向于使用Claude进行知识工作而非单纯的编程。在美国,各州的AI使用因经济结构不同而异,例如华盛顿特区更常用于文档编辑,加州更偏重编程任务。报告发现,随着时间推移,Claude的自动化任务比例从27%上升到39%,表明用户对AI的信任度在增加。

    夏威夷的旅行规划、马萨诸塞州的科学研究、印度的网页应用开发——表面上看,三者似乎毫无关联。事实上,Claude在这些地方的用途最为广泛

    这并不意味着这些是Claude最热门的用途:软件工程仍在全球几乎所有州和国家占据绝对主导地位。所谓“最为广泛”指的是:马萨诸塞州用户寻求科研帮助的概率远高于其他地区,巴西用户对语言类任务格外热衷——他们用Claude进行翻译和语言学习的频率是全球平均水平的六倍。

    这些发现来自我们第三期《Anthropic经济指数》报告。本期报告中,我们进一步追踪AI技术如何重塑工作与经济格局的早期趋势,重点分析Claude在不同维度的应用差异:

    • 美国各州对比:首次详细评估AI使用率的州际差异。发现各州经济结构直接影响人均Claude使用量,且最高使用率的州并非以编程任务为主。
    • 跨国对比:新分析显示国家收入水平与Claude使用强度高度相关,低收入国家用户更倾向于用AI自动化工作任务。
    • 时间演变:对比2024年12月-2025年1月2025年2月-3月数据发现,“指令型自动化”任务占比从27%激增至39%,表明AI承担的责任(及用户信任度)快速提升。
    • 企业用户:新增Anthropic第一方API客户匿名数据(覆盖Claude.ai之外的用户),首次揭示企业使用模式:API用户自动化任务倾向显著高于消费者,预示劳动力市场或将迎来重大变革。

    以下是报告核心摘要。我们同步推出了交互式网站,可自主查询全美各州及所有追踪职业的Claude.ai使用趋势,观察所在地或相关行业的AI应用情况。若需深度研究,我们完全公开本期及往期经济指数数据集。

    地域分析

    本次指数新增地理维度数据,揭示Claude在全球各国及美国各州的应用特征。

    跨国模式

    美国Claude使用量遥遥领先,印度位居第二,巴西、日本、韩国使用份额相近。

    考虑到各国人口规模差异,我们采用“AnthropicAI使用指数(AUI)”校正分析:AUI>1代表该国人均使用量高于其劳动年龄人口预期水平。

    数据显示,技术先进的小型经济体(如以色列、新加坡)在 Claude 采用率方面相对于劳动年龄人口处于领先地位。收入可能是关键因素:人均GDP与AUI指数呈现强相关性(人均GDP每增1%,AUI增0.7%)。这符合逻辑——Claude高使用国通常具备完善互联网基础设施及知识型经济主导的产业特征。也引发经济分化担忧:历史表明,电气化、内燃机等通用技术推动经济增长,也加剧了全球生活水平差距。若AI效益集中于高收入国家,可能重现类似的经济分化效应。

    美国州际模式

    人均GDP与Claude使用量的正相关性在美国州级层面同样成立,且相关性更强(人均GDP每增1%,人均使用量增1.8%)。但收入解释力低于跨国数据,表明存在其他影响因素。

    我们推测各州经济结构是主要因素。美国最高的 AUI 是哥伦比亚特区(3.82),其中 Claude 最频繁的使用是编辑文档和搜索信息,及与华盛顿特区知识工作相关的其他任务。同样,与编码相关的任务在加利福尼亚州(AUI 总体排名第三的州)。

    即使夏威夷等低使用率州,旅游相关任务使用频率也达全美平均值的两倍,更多数据可通过交互式网站探索。

    Claude 的使用趋势

    自 2024 年 12 月以来,我们一直在追踪人们如何使用 Claude。我们用一种保护隐私的分类方法,将匿名对话记录按 O*NET(美国政府数据库,用于对工作及相关任务进行分类)定义的任务组进行分类。通过这种方式,我们能分析自去年以来人们分配给 Claude 的任务发生了怎样的变化,及人们选择合作的方式(他们选择对 Claude 的工作进行多少监督和投入)也发生了怎样的变化。

    任务类型

    自 2024 年 12 月以来,Claude 的计算机和数学用途在我们的类别中占据主导地位,约占对话的 37-40%。

    但情况已发生很大变化。在过去的九个月里,我们看到“知识密集型”领域持续增长。例如,教育指导任务增加40%以上(占所有对话的比例从9%上升到13%),与物理和社会科学相关的任务比例增加三分之一(从6%上升到8%)。与此同时,传统商业任务的相对频率有所下降:与管理相关的任务占所有对话的比例从5%下降到3%,与商业和金融运营相关的任务比例减少一半,从6%降至3%。(当然,从绝对值来看,每个类别的对话数量仍然显著增加。)

    整体趋势显示,随国家人均GDP提高,Claude应用从计算机/数学任务向教育、艺术设计、行政支持、科学研究等多元化场景迁移。软件开发仍是所有国家的最高频应用,美国各州亦呈现类似规律,尽管我们的样本量限制更详细地探究任务组合如何随采用率的变化而变化的能力。

    交互模式

    正如我们之前所提到的,我们将AI应用分为自动化(AI最小化人工干预直接产出)与增强(人机协作),我们进一步将自动化细分为指令性对话和反馈循环交互,其中指令性对话涉及极少的人机交互,而在反馈循环任务中,人类将现实世界的结果反馈给模型。我们还将增强细分为学习(请求信息或解释)、任务迭代(与 Claude 协作)和验证(请求反馈)。

    2024年12月以来,指令型对话占比从27%骤增至39%,其他模式(尤其学习、任务迭代、反馈循环)小幅下降,推动自动化总量(49.1%)首次超越增强(47%)。表明AI正快速获得用户信任,承担更复杂工作的自主权提升。

    模型能力升级可能是主因(2024 年 12 月,我们首次收集经济指数数据时,Claude 的最新版本是 Sonnet 3.6)。随着模型越来越善于预测用户需求、生成高质量的结果,用户可能会更愿意在第一次尝试时就信任模型的输出。

    反常现象是:高使用率国家倾向增强模式,低使用率国家更偏好自动化,在控制相关任务组合的情况下,人均使用量每增1%,自动化率降低约3%。原因尚不明确,可能与各国早期使用者文化差异或经济因素相关。

    企业应用

    使用与Claude.ai对话相同的隐私保护方法,我们从 Anthropic 的第一方 API 客户子集中抽样交互,这是一项开创性的分析。 API 客户往往是企业和开发人员,他们使用 Claude 的方式与通过Claude.ai访问 Claude 的人非常不同:他们按令牌付费,不是按固定的月度订阅,且能通过自己的程序发出请求。

    这些客户对 Claude 的使用尤其集中在编码和管理任务上:我们示例中 44% 的 API 流量映射到计算机或数学任务,而Claude.ai上这一比例为 36%。(实际上,大约 5% 的 API 流量专门用于开发和评估人工智能系统。)与教育职业相关的对话比例(API 中为 4%,Claude.ai上为 12%)及艺术和娱乐相关的对话比例(API 中为 5%,Claude.ai上为 8%)相对较小,抵消了差异。

    最后,考虑到 API 使用的付费方式,探究任务成本差异(由消耗的代币数量差异引起)是否会影响企业选择“购买”哪些任务。发现任务成本与使用频率呈正相关:成本较高的任务类别往往使用频率更高,如下图所示。表明,模型的基本功能及产生的经济价值对企业而言比完成任务本身的成本更为重要。

    结论

    经济指数旨在实证评估AI对就业与经济的影响初期表现,我们发现,AI应用呈现显著不均衡性:高收入国家用户更倾向使用Claude,更追求协作而非自动化,应用场景超越编程范畴。在美国州级使用量与当地主导产业紧密关联(从科技到旅游业),且企业比消费者更愿赋予Claude自主权。

    尤其值得注意的是,过去九个月Claude.ai指令型自动化对话占比急剧上升。用户仍在探索与AI的协作边界——我们仍在集体界定对AI工具的信任阈值与责任分配。但目前趋势表明,人类正越来越适应AI代理工作。我们将持续追踪这一演变,观察随模型能力提升用户行为是否趋于稳定。

    欢迎访问Anthropic经济指数专题网站探索交互式数据可视化(涵盖国家、州、职业维度),我们将持续更新数据供公众追踪AI对经济与就业的影响路径。

    开放数据

    与以往的报告一样,本期同步发布完整数据集,其中包括地理数据、任务级使用模式、按任务划分的自动化/增强功能细分以及 API 使用情况概览。数据可在经济指数网站下载。

    报告官方网站

    • 报告官网:https://www.anthropic.com/research/economic-index-geography
    • 交互式网站:https://www.anthropic.com/economic-index
  • 蚂蚁发布《大模型开源开发全景与趋势》报告

    《大模型开源开发全景与趋势》是蚂蚁集团开源技术委员会推出的报告,基于社区数据洞察大模型开源开发生态的现状和未来趋势。报告通过全景图展示大模型开源项目的分布,从1.0版本到2.0版本,项目数量和领域划分更加精细,反映生态的快速发展。报告分析了技术关键词、活跃项目、许可证变化等,揭示AI Coding、Model Serving等领域的增长态势。报告探讨了项目更替与生态动态,及全球开发者在大模型开发生态中的分布情况,为开发者和企业提供参考,帮助他们把握大模型开源开发的脉络和趋势。

    大模型开源开发生态全景

    • 全景图迭代更新
      • 1.0版本于2025年上半年发布,收录19个技术领域的135个项目,采用种子项目多跳搜索方式绘制,具有一定随机性。
      • 2.0版本于2025年8月发布,采用OpenRank算法直接筛选GitHub项目,收录114个顶尖项目,分布在22个技术领域,标准提高至OpenRank 50。
    • 项目更替与生态动态
      • 2.0版本新增39个项目,占35%,多为近期创建且关注度高;移除60个项目,多因活跃度不足或不符合新标准。
      • 这些项目吸引全球366,521位开发者,其中美国占24%,中国占18%,显示中美在大模型生态中的主导地位。
    • 全景图的构成与意义:全景图分为AI Infra和AI Agent两大方向,基于OpenRank算法衡量项目影响力,提供科学依据。

    从生态全景到技术趋势

    • 大模型开发生态关键词:通过对项目描述和标签的文本分析,提炼出AI、LLM、Agent、Data等高频关键词,得到一张词云图,反映大模型生态的核心技术方向。
    • 活跃项目分析
      • OpenRank前10的项目覆盖模型生态完整链路,Python主导基础设施,TypeScript统治应用层。
      • 部分项目采用非传统开源许可证,保护商业利益,导致“开源”定义愈发模糊
    • 技术领域发展趋势:AI Coding、Model Serving和LLMOps增长明显,Agent Framework和AI Data领域则呈现下降趋势。
    • 边缘地带的项目:文章关注一些未进入全景图但有潜力的开源项目。

    大模型生态下全球开发者分布画像

    在全球大模型开发生态中,开发者分布显示美国和中国占据主导地位,分别占比24%和18%,表明两国在大模型技术领域具有显著的影响力和活跃度。欧洲国家如德国、印度等有较高参与度,与中美相比仍有差距,整体呈现出以中美为主、多国参与的全球开发者分布格局。

    从1.0到2.0,100天中的变与不变

    • 整体生态结构和领域的调整:从1.0到2.0,生态结构和领域划分更加精细,新增“AI Infra”、“AI Agent”和“AI Data”等具体分类。
    • 出局的项目:一些曾经热门的项目如Manus、NextChat等因维护不足或被替代逐渐退出视野。
    • 昔日巨星TensorFlow的十年消亡之路:TensorFlow自2015年开源后,因缺乏向后兼容性和复杂迁移工具,逐渐被PyTorch超越,走向衰落。
    • 新进的项目:新领域如AI Coding和具身智能相关项目涌现,Infra领域整合为LLMOps,覆盖模型全生命周期运维。
    • 新进项目中的最活跃开源项目Top 10:新进项目中,Gemini CLI和Cherry Studio等表现出色,位列活跃项目前10。
    • 全景图上的“Up and Down”:从2月到8月,TensorRT-LLM、Dynamo等项目OpenRank增长明显,LangChain、Codex等项目下降明显。

    专题洞察

    • Model Serving(模型服务):模型服务连接AI基础设施与应用层,vLLM、SGLang等项目提升推理性能,Ollama等推动本地部署,NVIDIA Dynamo扩展集群推理。
    • AI Coding(AI编程):AI Coding从单一代码补全发展到多模态支持,Gemini CLI、OpenCode等工具提升开发效率,商业化潜力巨大。
    • AI Agent(AI代理):2025年AI应用落地,LangChain等框架后继乏力,Mem0、Dify等新项目聚焦不同环节,推动Agent系统发展。

    番外篇:大模型生态全景

    梳理2025年1月至今国内外主流厂商的大模型发布时间线,详细标注每个模型的参数、模态等关键信息,直观展现当下大模型领域的竞争态势。通过分析,文章指出中国开源大模型呈现百花齐放的局面,国外顶尖模型厂商多走闭源路线,强调模型参数规模化、强化学习提升推理能力、多模态模型走向主流等技术趋势。

  • Anthropic发布《为智能体编写工具》官方教程

    Anthropic《为智能体编写工具》主要探讨如何为智能体编写有效的工具(tools)。文章指出,工具是连接确定性系统(如API)和非确定性AI代理的桥梁。详细介绍编写工具的三个关键步骤:构建原型、运行评估及与智能体合作优化工具。文章总结了编写有效工具的几个重要原则,需遵循精准性、命名空间、丰富上下文、令牌效率和清晰描述五大原则。通过这些方法,能提高工具的性能,使智能体在解决现实世界任务时更加高效。

    《为智能体编写工具》的核心内容

    智能体的效能完全取决于我们为其提供的工具。我们将分享如何编写高质量工具和评估方法,及如何通过使用Claude自我优化工具提升性能。

    模型上下文协议(MCP)能为LLM智能体配备数百种工具解决现实世界任务。如何使工具达到最大效能?

    本文将介绍在各类智能AI系统中提升性能的最有效技术。

    首先涵盖如何:

    • 构建和测试工具原型
    • 创建并运行智能体工具的全面评估
    • Claude Code等智能体协作,自动提升工具性能
    • 最后总结在此过程中发现的高质量工具编写关键原则:

    选择正确的工具进行实施(及不应实施的工具):

    • 通过命名空间界定明确的功能边界
    • 从工具返回有意义的上下文给智能体
    • 优化工具响应以提高令牌效率
    • 通过提示工程优化工具描述和规格

    什么是工具?

    在计算领域,确定性系统在给定相同输入时每次会产生相同输出,而非确定性系统,如智能体即使在相同起始条件下也能产生不同的响应。

    当我们传统地编写软件时,是在建立确定性系统之间的契约。例如,像getWeather(“NYC”)这样的函数调用,每次被调用时都用完全相同的方式获取纽约市的天气信息。

    工具是新型软件,反映了确定性系统与非确定性智能体之间的契约。当用户询问”我今天应该带伞吗?”时,智能体会调用天气工具,根据一般知识回答,甚至首先提出关于位置的澄清问题。智能体可能出现幻觉,无法掌握如何使用工具。

    在为智能体编写软件时,我们需要从根本上重新思考我们的方法:我们需要为智能体设计工具和MCP服务器,不是像为其他开发人员或系统编写函数和API那样编写它们。

    我们的目标是通过使用工具追求各种成功策略,增加智能体能有效解决广泛任务的范围。

    如何编写工具

    在本节中,我们将提供如何与智能体协作编写和改进提供给它们的工具。首先快速搭建工具原型、在本地进行测试。运行全面评估衡量后续更改。与智能体协同工作,能重复评估和改进工具的过程,直到智能体在现实任务中实现强劲性能。

    构建原型

    若不亲自实践,很难预测智能体觉得哪些工具符合人体工程学,哪些不会。快速搭建工具原型。如果使用Claude Code编写工具(可能一次性完成),最好为工具将依赖的任何软件库、API或SDK(包括MCP SDK)提供文档说明。在官方文档网站上能找到适合LLM的扁平化llms.txt文件(这是我们的API文档)。

    将工具包装在本地MCP服务器桌面扩展(DXT)中,将能在Claude Code或Claude桌面应用中连接和测试工具。

    要将本地MCP服务器连接到Claude Code,请运行 claude mcp add <名称> <命令> [参数…]。

    要将本地MCP服务器或DXT连接到Claude桌面应用,请分别导航至设置 > 开发者或设置 > 扩展。

    工具能直接传入Anthropic API调用中进行程序化测试。

    亲自测试工具识别不足之处。收集用户反馈,围绕期望工具能支持的用例和提示建立直观理解。

    运行评估

    接下来,需要通过运行评估衡量Claude使用工具的效果。基于实际使用场景生成大量评估任务。建议与智能体协作帮助分析结果、确定如何改进工具。请在我们的工具评估指南中查看此端到端过程。

    1.生成评估任务

    使用早期原型,Claude Code能快速探索工具、创建数十个提示和响应对。提示应受到实际使用场景的启发,基于真实的数据源和服务(例如,内部知识库和微服务)。我们建议避免使用过于简单或肤浅的”沙盒”环境,这些环境无法用足够的复杂性对工具进行压力测试。强大的评估任务需要多次工具调用——可能达到数十次。

    以下是一些强大任务的示例:

    • 与Jane安排下周会议讨论我们最新的Acme Corp项目。附上我们上次项目规划会议的记录、预订会议室。
    • 客户ID 9182报告称他们在一次购买尝试中被收取了三次费用。查找所有相关日志条目并确定是否有其他客户受到同一问题影响。
    • 客户Sarah Chen刚刚提交了取消请求。准备保留优惠。确定:(1)他们离开的原因,(2)哪种保留优惠最具吸引力,以及(3)在提供优惠前我们应该注意的任何风险因素。

    以下是一些较弱任务的示例:

    • 与jane@acme.corp安排下周会议。
    • 在支付日志中搜索purchase_complete和customer_id=9182。
    • 查找客户ID 45892的取消请求。

    每个评估提示都应配有一个可验证的响应或结果。验证器能简单到对真实答案和抽样响应进行精确字符串比较,或复杂到请Claude判断响应。避免使用过于严格的验证器,验证器会因格式、标点或有效的替代表述等虚假差异拒绝正确响应。

    对于每个提示-响应对,选择指定期望智能体在解决任务时调用的工具,衡量智能体在评估期间是否成功掌握每个工具的用途。由于可能存在多个正确解决任务的有效路径,请尽量避免过度指定或过度拟合策略。

    2.运行评估

    我们建议通过直接的LLM API调用以编程方式运行评估。使用简单的智能体循环(包装交替的LLM API和工具调用的while循环):每个评估任务一个循环。每个评估智能体被赋予单个任务提示和工具。

    在评估智能体的系统提示中,建议指示智能体输出结构化响应块(用于验证),还要输出推理和反馈块。指示智能体在工具调用和响应块之前输出这些内容,通过触发思维链(CoT)行为提高LLM的有效智能。

    如果使用Claude运行评估,开启交错思考获得类似的”开箱即用”功能。将帮助探究智能体为何调用或不调用某些工具,突出显示工具描述和规范中需要改进的具体领域。

    除顶级准确性外,建议收集其他指标,如单个工具调用和任务的总运行时间、工具调用总数、总令牌消耗量以及工具错误。跟踪工具调用能帮助揭示智能体追求的常见工作流程,为工具整合提供机会。

    3.分析结果

    智能体是发现问题和提供反馈的有用伙伴,涵盖从相互矛盾的工具描述到低效的工具实现和令人困惑的工具模式等各个方面。智能体在反馈和响应中省略的内容通常比包含的内容更重要。LLM不总是准确表达出它们的真实含义。

    观察智能体在哪些地方卡主或困惑。通读评估智能体的推理和反馈(或思维链)识别不足之处。审查原始记录(包括工具调用和工具响应)捕捉智能体思维链中未明确描述的任何行为。读懂字里行间的含义;记住评估智能体不一定知道正确答案和策略。

    分析工具调用指标。大量冗余的工具调用可能表明需要适当调整分页或令牌限制参数;大量无效参数的工具错误可能表明工具需要使用更清晰的描述或更好的示例。当我们推出Claude的网络搜索工具时,我们发现Claude不必要地在工具查询参数后附加2025,这偏斜了搜索结果、降低了性能(我们通过改进工具描述将Claude引导到正确方向)。

    4.与智能体协作

    您甚至可以让智能体分析结果、改进工具。只需将评估智能体的记录连接起来,粘贴到Claude Code中。Claude是分析记录和一次性重构大量工具的专家——例如,确保在进行新更改时工具实现和描述保持自一致。

    事实上,本文中的大部分建议都来自于使用Claude Code反复优化我们的内部工具实现。我们的评估建立在内部工作空间之上,反映我们内部工作流程的复杂性,包括真实项目、文档和消息。

    我们依赖保留的测试集确保不会过度拟合我们的”训练”评估。测试集表明,即使超越”专家”工具实现的性能,我们能提取额外的性能改进——无论工具是由我们的研究人员手动编写还是由Claude自身生成。

    在下一节中,我们将分享从这一过程中学到的一些经验。

    编写高效工具的原则

    在本节中,我们将所学知识提炼为一些编写高效工具的指导原则。

    为智能体选择合适的工具

    更多工具不总能带来更好的结果。我们观察到的一个常见错误是工具只包装了现有的软件功能或API端点——无论工具是否适合智能体。这是因为智能体与传统软件具有不同的”功能可见性”——他们感知并使用工具的方式与传统软件截然不同。

    LLM智能体具有有限的”上下文”(即它们一次能处理的信息量有限),计算机内存廉价且充足。以在地址簿中搜索联系人的任务为例。传统软件程序可以高效地逐个存储和处理联系人列表,在继续之前检查每个联系人。

    如果LLM智能体使用返回所有联系人的工具,必须逐个令牌地阅读每个联系人,它就在无关信息上浪费有限的上下文空间(想象一下通过从上到下阅读每一页来在地址簿中搜索联系人——即通过暴力搜索)。更好更自然的方法(对智能体和人类 alike)是首先跳到相关页面(也许按字母顺序找到它)。

    我们建议先构建少量经过深思熟虑的工具,针对高价值的工作流,这些工具与评估任务相匹配,在此基础上进行扩展。在地址簿案例中,选择实现search_contacts或message_contact工具,而不是简单的提供list_contacts工具。

    工具有整合能力,能在底层处理多个离散操作(或API调用)。例如,工具用相关元数据丰富工具响应,或在单个工具调用中处理经常链接的多步任务。

    以下是一些示例:

    • 与其实现 list_users、list_events 和 create_event 工具,不如考虑实现一个 schedule_event 工具,该工具可查找可用性、安排事件。
    • 与其实现 read_logs 工具,不如考虑实现一个 search_logs 工具,该工具仅返回相关日志行及一些周围上下文。
    • 与其实现 get_customer_by_id、list_transactions 和 list_notes 工具,不如实现一个 get_customer_context 工具,一次性编译客户所有近期相关信息。

    确保您构建的每个工具都具有明确独特的目的。工具应使智能体能以人类在获得相同底层资源时会采用的类似方式细分和解决任务,同时减少原本会被中间输出消耗的上下文。

    过多工具或功能重叠的工具也可能分散智能体追求高效策略的注意力。对构建(或不构建)哪些工具进行谨慎选择性规划确实能带来回报。

    为工具设置命名空间

    AI智能体可能会获得数十个MCP服务器和数百种不同工具的访问权限——包括其他开发人员提供的工具。当工具功能重叠或用途模糊时,智能体可能会困惑该使用哪些工具。

    命名空间(将相关工具分组在通用前缀下)有助于划分大量工具之间的界限;MCP客户端有时会默认执行此操作。例如,按服务(如 asana_search、jira_search)和按资源(如 asana_projects_search、asana_users_search)进行命名空间划分,帮助智能体在正确时间选择正确的工具。

    我们发现基于前缀和后缀的命名空间选择对我们的工具使用评估具有重要影响。效果因LLM而异,我们建议根据自己的评估选择命名方案。

    智能体可能调用错误工具、以错误参数调用正确工具、调用过少工具或错误处理工具响应。通过选择性实现名称反映任务自然细分的工具,能同时减少加载到智能体上下文中的工具和工具描述数量,将智能体计算从上下文卸载回工具调用本身。降低智能体犯错的整体风险。

    从工具返回有意义的上下文

    同样地,工具实现应注意仅向智能体返回高价值信息。应优先考虑上下文相关性而非灵活性,避开低级技术标识符(例如:uuid、256px_image_url、mime_type)。像name、image_url和file_type这样的字段更有可能直接指导智能体的下游行动和响应。

    智能体处理自然语言名称、术语或标识符的成功率显著高于处理晦涩标识符。我们发现,仅仅将任意字母数字UUID解析为更具语义意义和可解释性的语言(甚至是0索引ID方案),就能通过减少幻觉显著提高Claude在检索任务中的精确度。

    在某些情况下,智能体可能需要灵活地同时处理自然语言和技术标识符输出,哪怕只是为触发下游工具调用(例如,search_user(name=’jane’) → send_message(id=12345))。您可以通过在工具中暴露一个简单的response_format枚举参数来实现两者,让智能体控制工具返回”简洁”还是”详细”响应(下图)。

    您能添加更多格式以获得更大灵活性,类似于GraphQL,选择确切想要接收的信息片段。以下是一个控制工具响应详细程度的ResponseFormat枚举示例:

    enum ResponseFormat {
       DETAILED = "detailed",
       CONCISE = "concise"
    }

    以下是详细工具响应的示例(206 个 token):

    以下是简洁工具响应的示例(72 个 token):

    工具响应结构——例如XML、JSON或Markdown——也会对评估性能产生影响:不存在一刀切的解决方案。这是因为LLM是通过下一个令牌预测进行训练的,往往在与其训练数据匹配的格式上表现更好。最优响应结构会因任务和智能体的不同有很大差异。我们建议根据自己的评估选择最佳响应结构。

    优化工具响应的令牌效率

    优化上下文质量很重要。但优化工具响应中返回给智能体的上下文数量同样重要。

    我们建议为任何可能消耗大量上下文的工具响应实施分页、范围选择、过滤和/或截断的某种组合,设置合理的默认参数值。对于Claude Code,我们默认将工具响应限制为25,000个令牌。我们预计智能体的有效上下文长度会随时间增长,但对上下文高效工具的需求会始终存在。

    如果您选择截断响应,请务必通过有用的指令引导智能体。您可以直接鼓励智能体追求更节省令牌的策略,例如进行多次小型针对性搜索,不是为知识检索任务执行单次广泛搜索。如果工具调用引发错误(例如在输入验证期间),您可以通过提示工程设计错误响应,以清晰传达具体且可操作的改进建议,而不是提供晦涩难懂的错误代码或追溯信息。

    以下是一个截断工具响应的示例:

    以下是一个无用的错误响应示例:

    以下是一个有用的错误响应示例:

    现在我们来讨论改进工具的最有效方法之一:对工具描述和规格进行提示工程。由于这些内容会被加载到智能体的上下文中,它们可以共同引导智能体采取有效的工具调用行为。

    在编写工具描述和规格时,请设想如何向团队新成员描述您的工具。考虑可能隐式引入的上下文 —— 专用查询格式、专业术语的定义、底层资源之间的关系 —— 并将其明确化。通过清晰描述(通过严格数据模型强制执行)预期输入和输出来避免歧义。特别需要注意的是,输入参数的命名应明确无误:不要使用名为user的参数,尝试使用名为user_id的参数。

    通过评估,您可以更有信心地衡量提示工程的影响。即使对工具描述进行微小改进也能带来显著提升。在我们对工具描述进行精确改进后,Claude Sonnet 3.5在SWE-bench Verified评估中实现最先进的性能,显著降低错误率、提高任务完成度。

    在我们的开发者指南中能找到工具定义的其他最佳实践。如果您正在为Claude构建工具,我们建议阅读有关工具如何动态加载到Claude系统提示中的说明。如果您正在为MCP服务器编写工具,工具注释有助于披露哪些工具需要开放世界访问或进行破坏性更改。

    展望未来

    为构建有效的智能体工具,我们需要将软件开发实践从可预测的确定性模式重新定位到非确定性模式。

    通过本文描述的迭代式、评估驱动的过程,我们发现工具成功的一致模式:有效的工具具有清晰明确的定义,能合理地利用智能体上下文,能在多样化工作流中组合使用,使智能体能直观地解决现实世界任务。

    展望未来,预测智能体与世界交互的具体机制将不断发展——从MCP协议的更新到底层LLM本身的升级。通过采用系统化、评估驱动的方法改进智能体工具,能确保随着智能体能力不断增强,它们使用的工具也将同步发展。

    《为智能体编写工具》的官网地址

    • 官网地址:https://www.anthropic.com/engineering/writing-tools-for-agents

    《为智能体编写工具》的适用人群

    • 人工智能工程师和开发者:提供构建、测试和优化工具的具体方法,帮助提升智能体的性能和效率。
    • 数据科学家和机器学习专家:文章中的评估和优化技巧有助将模型与工具结合,提高系统整体性能。
    • 软件架构师:文章的高级指导帮助用户设计更高效、灵活的系统架构,将智能体和工具集成到现有系统中。
    • 产品经理:文章帮助用户理解工具开发的关键点,更好地规划产品功能和评估技术方案。
    • 研究人员:文章中的最佳实践和案例分析为用户的研究提供参考,助力探索新的研究方向。
  • 浙江大学《大模型基础》大模型基础教材(PDF文件)

    《大模型基础》全面介绍大语言模型(LLMs)的基础知识、架构设计、训练优化及应用实践。从语言模型的基础理论出发,深入探讨基于统计、RNN和Transformer的模型架构,重点分析大语言模型的架构类型(如Encoder-only、Encoder-Decoder、Decoder-only)及其代表模型(如BERT、T5、GPT系列)。书中详细讲解Prompt工程、参数高效微调、模型编辑和检索增强生成等关键技术,结合实际案例展示这些技术在不同场景中的应用。通过系统的学习和实践指导,帮助读者深入理解、有效应用大语言模型技术。

    获取《大模型基础》报告PDF原文件 扫码关注回复: 20250915

    语言模型基础

    • 基于统计方法的语言模型:介绍 n-gram 模型及其统计学原理(马尔可夫假设、极大似然估计)。
    • 基于RNN的语言模型:讲解循环神经网络(RNN)的结构、训练问题(梯度消失/爆炸)及其在语言建模中的应用。
    • 基于Transformer的语言模型:详细解析 Transformer 的架构(自注意力、FFN、层归一化、残差连接)及其在语言模型中的应用。
    • 语言模型的采样方法:包括贪心搜索、波束搜索、Top-K 采样、Top-P 采样、Temperature 机制等解码策略。
    • 语言模型的评测:介绍内在评测(如困惑度)和外在评测(如 BLEU、ROUGE、BERTScore、G-EVAL)。

    大语言模型架构

    • 大数据 + 大模型 → 新智能:分析模型规模与数据规模对模型能力的影响,介绍 Scaling Laws(Kaplan-McCandlish、Chinchilla)。
    • 大语言模型架构概览:对比 Encoder-only、Encoder-Decoder、Decoder-only 三种主流架构的注意力机制与适用任务。
    • Encoder-only 架构:以 BERT 为代表,介绍其结构、预训练任务(MLM、NSP)及衍生模型(RoBERTa、ALBERT、ELECTRA)。
    • Encoder-Decoder 架构:以 T5 和 BART 为例,介绍其统一文本生成框架和多样化的预训练任务。
    • Decoder-only 架构:详细介绍 GPT 系列(GPT-1 到 GPT-4)和 LLaMA 系列(LLaMA1/2/3)的发展与特点。
    • 非Transformer架构:介绍状态空间模型(SSM)如 RWKV、Mamba,以及测试时训练(TTT)范式。

    Prompt 工程

    • Prompt 工程简介:定义 Prompt 和 Prompt 工程,介绍分词与向量化过程(Tokenization、Embedding)。
    • 上下文学习(In-Context Learning, ICL):介绍零样本、单样本、少样本学习,示例选择策略(相似性、多样性)。
    • 思维链(Chain-of-Thought, CoT):讲解 CoT 的三种模式:按部就班(CoT、Zero-Shot CoT、Auto-CoT)、三思后行(ToT、GoT)、集思广益(Self-Consistency)。
    • Prompt 技巧:介绍包括规范 Prompt 编写、合理归纳提问、适时使用 CoT、善用心理暗示(角色扮演、情景代入)。
    • 相关应用:介绍涵盖基于大模型的智能体(Agent)、数据合成、Text-to-SQL、GPTS 等。

    参数高效微调

    • 参数高效微调简介:介绍下游任务适配的两种主流方法——上下文学习和指令微调,引出参数高效微调(PEFT)技术,阐述在降低成本和提高效率方面的优势。
    • 参数附加方法:详细介绍通过在模型结构中附加新的、较小的可训练模块来实现高效微调的方法,包括加在输入(如Prompt-tuning)、加在模型(如Prefix-tuning和Adapter-tuning)和加在输出(如Proxy-tuning)的实现和优势。
    • 参数选择方法:介绍仅选择模型的一部分参数进行微调的方法,分为基于规则的方法(如BitFit)和基于学习的方法(如Child-tuning),通过选择性更新参数减少计算负担、提升模型性能。
    • 低秩适配方法:详细介绍通过低秩矩阵近似原始权重更新矩阵实现高效微调的方法,重点介绍LoRA及变体(如ReLoRA、AdaLoRA和DoRA),讨论LoRA的参数效率和任务泛化能力。
    • 实践与应用:介绍HF-PEFT框架的使用方法和相关技巧,展示PEFT技术在表格数据查询和表格数据分析中的应用案例,证明PEFT在提升大模型特定任务性能方面的有效性。

    模型编辑

    • 模型编辑简介:介绍模型编辑的思想、定义和性质,阐述模型编辑在纠正大语言模型中的偏见、毒性和知识错误等方面的重要性。
    • 模型编辑经典方法:将模型编辑方法分为外部拓展法(如知识缓存法和附加参数法)和内部修改法(如元学习法和定位编辑法),介绍每类方法的代表性工作。
    • 附加参数法:T-Patcher:详细介绍T-Patcher方法,通过在模型中附加特定参数来实现对模型输出的精确控制,适用需要快速、精准修正模型特定知识点的场景。
    • 定位编辑法:ROME:详细介绍ROME方法,通过定位和修改模型内部特定层或神经元实现对模型输出的精确控制,适用需要深度修改模型内部知识结构的场景。
    • 模型编辑应用:介绍模型编辑在精准模型更新、保护被遗忘权和提升模型安全等方面的实际应用,展示模型编辑技术在不同场景中的应用潜能。

    检索增强生成

    • 检索增强生成简介:介绍检索增强生成的背景和组成,阐述在自然语言处理任务中通过结合检索和生成来提升模型性能的重要性和应用场景。
    • 检索增强生成架构:介绍RAG架构分类、黑盒增强架构和白盒增强架构,对比分析不同架构的特点和适用场景。
    • 知识检索:介绍知识库构建、查询增强、检索器和检索效率增强的方法,及如何通过检索结果重排提升检索效果。
    • 生成增强:介绍何时增强、何处增强、多次增强和降本增效的方法,讨论生成增强在不同任务中的应用策略。
    • 实践与应用:介绍搭建简单RAG系统的步骤,展示RAG在典型应用中的案例,帮助读者理解和应用检索增强生成技术。

    获取《大模型基础》报告PDF原文件 扫码关注回复: 20250915

  • 《AI Agents图解指南》全景技术报告(PDF文件)

    《AI Agents图解指南》是Avi Chawla和Akshay Pachaar编写的,能帮助读者理解和构建AI Agents。详细介绍AI Agents的定义、与LLM和RAG的区别,及构建AI Agents的六个基本要素(角色扮演、专注任务、工具使用、合作、护栏和记忆)。探讨了AI Agents的五个设计模式和五个层次,提供多个实际项目案例,如Agentic RAG、语音RAG Agent、多Agent航班搜索等,涵盖技术栈、工作流程和代码示例。本指南是AI领域从业者的实用手册,适合希望深入了解和应用AI Agents的读者。

    获取《AI Agents图解指南》报告PDF原文件 扫码关注回复: 20250914

    AI Agents简介

    • 定义:AI Agents是能自主推理、思考、规划、从相关来源提取信息、采取行动,在必要时自我纠正的自主系统。
    • 与LLM(大型语言模型)和RAG(检索增强型生成)的区别
      • LLM:像GPT-4这样的模型,基于大量文本数据训练,能够推理、生成和总结,但仅限于其训练数据。
      • RAG:通过检索外部文档(如向量数据库、搜索引擎等),将它们作为上下文输入到LLM中,增强LLM的能力。
      • AI Agents:在LLM的基础上增加自主性,决定采取哪些步骤,例如调用工具、搜索网络、总结或存储信息。

    构建AI Agents的六个基本要素

    • 角色扮演(Role-playing):为AI Agents分配清晰、具体的角色,提高其性能。例如,将AI定义为“高级合同律师”使其回答更具法律精确性。
    • 专注/任务(Focus/Tasks):专注于特定任务可以减少幻觉(hallucinations)提高性能。使用多个专门的Agent,避免让一个AI Agent做太多事情,。
    • 工具(Tools):AI Agents通过使用工具变得更智能。工具支持Agent搜索网络、从API和数据库中检索结构化信息、执行代码等。
    • 合作(Cooperation):多Agent系统通过合作和交换反馈效果最好。例如,在金融分析系统中,一个Agent收集数据,另一个评估风险,第三个制定策略,第四个撰写报告。
    • 护栏(Guardrails):限制Agent的行为,确保保持在正确的轨道上。例如,限制工具使用、设置验证检查点、建立回退机制等。
    • 记忆(Memory):记忆是AI Agents的关键组成部分,支持Agent记住过去的互动,随着时间的推移改进,创建更连贯的对话。

    AI Agents的五个设计模式

    • 反思模式(Reflection Pattern):AI审查自己的工作,发现错误并迭代,直到产生最终响应。
    • 工具使用模式(Tool Use Pattern):AI通过查询向量数据库、执行Python脚本、调用API等方式获取更多信息。
    • ReAct(Reason and Act)模式:Agent在生成输出后进行反思,并使用工具与世界互动。它在思考、行动和观察之间循环,直到找到解决方案。
    • 规划模式(Planning Pattern):AI创建路线图,细分任务并概述目标,更有效地解决问题。
    • 多Agent模式(Multi-Agent Pattern):多个Agent协同工作,每个Agent都有特定的角色和任务,共同完成最终结果。

    五级智能体系统

    • 基本响应者(Basic Responder):人类指导整个流程,LLM只是接收输入并产生输出的通用响应者。
    • 路由器模式(Router Pattern):人类定义流程中存在的路径/函数,LLM决定能采取哪条路径。
    • 工具调用(Tool Calling):人类定义LLM可以访问的工具集,LLM决定何时使用它们及使用哪些参数。
    • 多Agent模式(Multi-Agent Pattern):管理Agent协调多个子Agent,决定下一步行动。
    • 自主模式(Autonomous Pattern):LLM独立生成和执行新代码,有效地作为一个独立的AI开发者。

    12个AI Agents项目案例

    • Agentic RAG:构建具有动态从不同来源获取上下文能力的RAG管道。
    • 语音RAG Agent:构建一个实时语音交互的AI应用。
    • 多Agent航班搜索:解析自然语言查询并从Kayak获取实时结果的航班搜索管道。
    • 金融分析师:从Cursor或Claude获取、分析并生成股票市场趋势洞察的AI Agent。
    • 品牌监控系统:抓取网络提及并产生关于公司的洞察的多Agent品牌监控应用。
    • 多Agent酒店查找器:解析旅行查询,从Kayak获取实时航班和酒店数据,并总结最佳选项。
    • 多Agent深度研究者:构建一个100%本地化的ChatGPT深度研究功能替代品。
    • 具有人类记忆的AI Agent:构建具有人类记忆的AI Agent,以解决生产中的问题。
    • 多Agent书籍撰写者:构建一个从3-5个单词的书籍主题生成20,000字书籍的Agentic工作流。
    • 多Agent内容创作系统:构建一个将任何URL转换为社交媒体帖子并通过Typefully自动安排的Agentic工作流。
    • 文档撰写流程:构建一个从GitHub仓库URL生成完整项目文档的Agentic工作流。
    • 新闻生成器:构建一个将用户查询转换为精心撰写的新闻文章的AI新闻生成器。

    获取《AI Agents图解指南》报告PDF原文件 扫码关注回复: 20250914

  • 谷歌推出AI产品设计指南《The People + Al Guidebook》

    《The People + Al Guidebook》是Google推出的,帮助设计师和开发者创建以人为本的AI产品开发。指南系统化地提供从用户需求定义、心智模型管理到信任建立、错误处理等六大核心维度的方法论,配备具体的设计模式、工作坊方案和实战案例。《The People + Al Guidebook》能帮助团队平衡技术能力与用户体验,提供经过Google产品验证的实践工具,助力开发者构建可靠、透明且易于协作的AI系统,是AI产品设计领域的权威参考框架。

    核心内容

    《The People + Al Guidebook》的基石是哲学转变:AI 产品的目标不是追求更高的准确率或更快的速度,是增强人的能力,服务于人的需求。指南强调,AI 系统是“与人共舞”的伙伴。设计的重心在于如何让协作关系变得自然、可信和高效。

    六大核心维度

    • 用户需求与成功定义:强调深入理解用户真实需求的重要性,不只关注技术实现。提供将用户目标转化为可衡量指标的方法,帮助团队建立兼顾技术效能与用户体验的双重成功标准。通过明确的成功定义,确保产品开发始终以用户价值为导向。
    • 心智模型与期望:探讨用户如何理解AI系统的工作原理,及如何通过设计引导形成准确预期。提供管理用户期望的具体策略,确保系统能力与用户认知之间保持协调一致,能有助于减少用户困惑,提升产品可用性。
    • 信任与解释:重点阐述如何通过透明化和可解释性设计来建立用户信任。提供多层次解释框架,让用户理解系统决策,保持对技术的信心,设计原则对于构建可信赖的AI系统至关重要。
    • 错误与优雅的降级:探讨AI系统出错的必然性及如何将错误转化为积极体验。提供从错误预防到恢复的完整策略,确保系统优雅地处理失败情况。通过精心设计的容错机制,维护用户体验的连贯性。
    • 数据收集:讨论高质量数据收集的重要性和方法,涵盖从数据获取到质量评估的全过程。强调数据伦理和隐私保护,确保负责任的数据实践,帮助团队构建可靠的数据基础。
    • 反馈与控制:探讨如何设计有效的用户反馈机制,让用户能影响和改进系统表现。提供在自动化与用户控制之间寻找最佳平衡点的实用方案,赋予用户适当的控制权,增强产品互动性。

    核心亮点与特色

    • 极强的实践性:指南提供具体的设计模式(Patterns),例如如何展示置信度、如何设计反馈按钮等,设计师能直接借鉴。
    • 丰富的辅助资源:包含术语表(统一团队语言)、工作坊指南(帮助团队协作落地)、案例研究(展示Google产品如何应用这些原则),形成一个立体的学习生态系统。
    • 前瞻性与权威性:指南源于Google内部多年的一线实践和研究成果,集中体现行业领先者对于“负责任AI”和“人本AI”的思考,具有很高的参考价值。

    《The People + Al Guidebook》官网地址

    https://pair.withgoogle.com/guidebook/

    总结

    《The People + Al Guidebook》为AI产品开发提供完整的方法论体系,帮助团队打造技术先进且人性化的智能产品。这份指南是连接技术创新与用户体验的重要桥梁,值得所有AI产品开发者深入学习和应用。通过实践其中的原则和方法,团队能构建出更负责任、更可信赖的AI系统。