Blog

  • ERNIE-4.5-21B-A3B-Thinking – 百度推出的思考模型

    ERNIE-4.5-21B-A3B-Thinking是什么

    ERNIE-4.5-21B-A3B-Thinking 是百度推出的专注于推理任务的大型语言模型。采用混合专家(MoE)架构,总参数量达210亿,每个token激活30亿参数,支持128K的长上下文窗口,适用于复杂推理任务。模型通过文本预训练构建语言核心骨干,在推理增强后训练阶段,利用监督式微调(SFT)和渐进式强化学习(PRL)等技术,显著提升了逻辑推理、数学计算、科学问题解答等能力。支持高效的工具调用,可与vLLM、Transformers 4.54+和FastDeploy等集成,适用于程序合成、符号推理及多智能体工作流等场景。

    ERNIE-4.5-21B-A3B-Thinking

    ERNIE-4.5-21B-A3B-Thinking的主要功能

    • 强大的推理能力:ERNIE-4.5-21B-A3B-Thinking在逻辑推理、数学计算、科学问题解答等需要推理能力的领域表现出色,能处理复杂的推理任务,为用户提供准确的答案。
    • 高效的工具调用:模型支持结构化的工具和函数调用,能与vLLM、Transformers 4.54+和FastDeploy等进行集成,实现更高效的任务执行和功能扩展。
    • 长上下文理解:具备128K的上下文窗口,能理解和处理长文本信息,适用于需要长上下文的复杂推理任务,如长篇文档分析和多步骤推理。
    • 多领域应用:广泛应用于程序合成、符号推理以及多智能体工作流等场景,为不同领域的复杂任务提供解决方案,满足多样化的业务需求。
    • 开源与易用:在Apache-2.0许可下开源,可在Hugging Face等平台上使用,方便开发者进行研究和商业部署,降低了使用门槛。

    ERNIE-4.5-21B-A3B-Thinking的技术原理

    • 混合专家架构:ERNIE-4.5-21B-A3B-Thinking采用混合专家(MoE)架构,将模型参数分为多个专家模块,每个输入token只激活部分专家模块,在保持模型性能的同时,显著提高了计算效率。
    • 长上下文窗口:模型支持128K的上下文窗口,能处理长文本输入,这对于需要长上下文理解的任务(如复杂推理和长篇文档分析)至关重要。
    • 推理增强训练:通过监督式微调(SFT)和渐进式强化学习(PRL)等技术,对模型进行专门的推理能力训练,使其在逻辑推理、数学计算和科学问题解答等任务上表现出色。
    • 激活机制:模型设计了高效的激活机制,每个token激活3B参数,确保在大规模参数下仍能高效运行,同时保持了模型的灵活性和适应性。

    ERNIE-4.5-21B-A3B-Thinking的项目地址

    • HuggingFace模型库:https://huggingface.co/baidu/ERNIE-4.5-21B-A3B-Thinking

    ERNIE-4.5-21B-A3B-Thinking的应用场景

    • 复杂推理任务:适用于逻辑推理、数学计算、科学问题解答等需要深度思考和推理的场景,提供准确的分析和解决方案。
    • 代码生成与优化:能生成和优化代码,帮助开发者提高编程效率,适用于程序合成、符号推理等任务。
    • 多智能体工作流:支持多智能体协作,可用于构建复杂的自动化工作流,提高任务执行效率。
    • 长文本分析:凭借长上下文窗口,能处理长篇文档分析、复杂文本推理等任务,适用于学术研究、商业报告分析等场景。
    • 工具调用与集成:支持结构化的工具和函数调用,可与多种平台和工具集成,拓展应用场景,满足多样化的业务需求。
  • 蚂蚁发布《大模型开源开发全景与趋势》报告

    《大模型开源开发全景与趋势》是蚂蚁集团开源技术委员会推出的报告,基于社区数据洞察大模型开源开发生态的现状和未来趋势。报告通过全景图展示大模型开源项目的分布,从1.0版本到2.0版本,项目数量和领域划分更加精细,反映生态的快速发展。报告分析了技术关键词、活跃项目、许可证变化等,揭示AI Coding、Model Serving等领域的增长态势。报告探讨了项目更替与生态动态,及全球开发者在大模型开发生态中的分布情况,为开发者和企业提供参考,帮助他们把握大模型开源开发的脉络和趋势。

    大模型开源开发生态全景

    • 全景图迭代更新
      • 1.0版本于2025年上半年发布,收录19个技术领域的135个项目,采用种子项目多跳搜索方式绘制,具有一定随机性。
      • 2.0版本于2025年8月发布,采用OpenRank算法直接筛选GitHub项目,收录114个顶尖项目,分布在22个技术领域,标准提高至OpenRank 50。
    • 项目更替与生态动态
      • 2.0版本新增39个项目,占35%,多为近期创建且关注度高;移除60个项目,多因活跃度不足或不符合新标准。
      • 这些项目吸引全球366,521位开发者,其中美国占24%,中国占18%,显示中美在大模型生态中的主导地位。
    • 全景图的构成与意义:全景图分为AI Infra和AI Agent两大方向,基于OpenRank算法衡量项目影响力,提供科学依据。

    从生态全景到技术趋势

    • 大模型开发生态关键词:通过对项目描述和标签的文本分析,提炼出AI、LLM、Agent、Data等高频关键词,得到一张词云图,反映大模型生态的核心技术方向。
    • 活跃项目分析
      • OpenRank前10的项目覆盖模型生态完整链路,Python主导基础设施,TypeScript统治应用层。
      • 部分项目采用非传统开源许可证,保护商业利益,导致“开源”定义愈发模糊
    • 技术领域发展趋势:AI Coding、Model Serving和LLMOps增长明显,Agent Framework和AI Data领域则呈现下降趋势。
    • 边缘地带的项目:文章关注一些未进入全景图但有潜力的开源项目。

    大模型生态下全球开发者分布画像

    在全球大模型开发生态中,开发者分布显示美国和中国占据主导地位,分别占比24%和18%,表明两国在大模型技术领域具有显著的影响力和活跃度。欧洲国家如德国、印度等有较高参与度,与中美相比仍有差距,整体呈现出以中美为主、多国参与的全球开发者分布格局。

    从1.0到2.0,100天中的变与不变

    • 整体生态结构和领域的调整:从1.0到2.0,生态结构和领域划分更加精细,新增“AI Infra”、“AI Agent”和“AI Data”等具体分类。
    • 出局的项目:一些曾经热门的项目如Manus、NextChat等因维护不足或被替代逐渐退出视野。
    • 昔日巨星TensorFlow的十年消亡之路:TensorFlow自2015年开源后,因缺乏向后兼容性和复杂迁移工具,逐渐被PyTorch超越,走向衰落。
    • 新进的项目:新领域如AI Coding和具身智能相关项目涌现,Infra领域整合为LLMOps,覆盖模型全生命周期运维。
    • 新进项目中的最活跃开源项目Top 10:新进项目中,Gemini CLI和Cherry Studio等表现出色,位列活跃项目前10。
    • 全景图上的“Up and Down”:从2月到8月,TensorRT-LLM、Dynamo等项目OpenRank增长明显,LangChain、Codex等项目下降明显。

    专题洞察

    • Model Serving(模型服务):模型服务连接AI基础设施与应用层,vLLM、SGLang等项目提升推理性能,Ollama等推动本地部署,NVIDIA Dynamo扩展集群推理。
    • AI Coding(AI编程):AI Coding从单一代码补全发展到多模态支持,Gemini CLI、OpenCode等工具提升开发效率,商业化潜力巨大。
    • AI Agent(AI代理):2025年AI应用落地,LangChain等框架后继乏力,Mem0、Dify等新项目聚焦不同环节,推动Agent系统发展。

    番外篇:大模型生态全景

    梳理2025年1月至今国内外主流厂商的大模型发布时间线,详细标注每个模型的参数、模态等关键信息,直观展现当下大模型领域的竞争态势。通过分析,文章指出中国开源大模型呈现百花齐放的局面,国外顶尖模型厂商多走闭源路线,强调模型参数规模化、强化学习提升推理能力、多模态模型走向主流等技术趋势。

  • Solid – AI全栈Web应用开发工具,构建真正生产级应用

    Solid是什么

    Solid 是基于人工智能的开发工具,帮助用户快速构建生产级的全栈 Web 应用程序。通过 AI 技术,让用户无需编写代码,实现从想法到可部署应用的快速转变。Solid 生成的代码是基于 Node.js、React、TypeScript 和 Docker 等现代技术栈的,使应用程序具有高质量,可扩展和可维护。Solid 构建的是真正的生产级应用,用户可以部署到任何云平台或本地服务器。支持将其他工具(如 Lovable Base44)生成的原型迁移到 Solid,实现从玩具项目到专业项目的升级。

    Solid

    Solid的主要功能

    • 全栈应用构建:能快速构建包含前端、后端、数据库和Docker容器化的全栈Web应用程序。
    • 无需编码:用户无需编写代码,通过AI驱动的界面即可完成应用开发。
    • 生产级代码生成:生成的代码是可扩展、可维护的生产级代码,基于Node.js、React、TypeScript等现代技术栈。
    • 无缝迁移与扩展:支持将应用部署到任何云平台或本地服务器,方便用户根据需求进行迁移和扩展。
    • 原型升级:可将其他工具(如Lovable或Base44)生成的原型迁移到Solid,实现从玩具项目到专业项目的升级。
    • 自由修改与扩展:生成的代码完全开放,用户可以自由修改和扩展,不受供应商锁定限制。

    Solid的官网地址

    • 官网地址:https://trysolid.com/

    Solid的适用人群

    • 快速构建者:适合那些希望快速构建真实工具的开发者。
    • 初创团队:适合正在推出产品、最小可行产品(MVP)或内部工具的创业团队。
    • 中型市场和企业团队:适合构建持久工具的中型市场和企业团队。
  • Uxia – AI用户流程测试平台,模拟真实用户行为

    Uxia是什么

    Uxia是基于人工智能的用户测试平台,帮助设计和产品团队快速、可靠且经济实惠地验证用户体验(UX)和用户界面(UI)设计。通过AI技术模拟真实用户行为,快速提供准确的用户反馈,无需依赖传统的、成本高昂且耗时的用户测试方法。Uxia的核心优势包括快速反馈、高性价比以及无偏见的测试结果。用户可以在几分钟内完成测试设置并获得总结性的反馈。Uxia支持多种设计工具的原型测试,如Figma、Adobe XD和Sketch等,提供A/B测试功能,帮助团队验证不同的设计和用户体验。

    Uxia

    Uxia的主要功能

    • AI驱动的用户流程测试:利用AI模拟真实用户行为,快速验证用户在产品中的操作路径是否顺畅,能发现潜在的易用性问题。
    • 秒级反馈洞察:在极短的时间内(几秒钟)能提供测试结果和用户反馈,极大地缩短了产品迭代周期。
    • 高性价比的解决方案:相比传统的用户测试方法,Uxia利用AI技术降低了成本,使规模不大的设计和产品团队也能负担得起。
    • 可靠的测试数据:通过AI合成用户,提供一致且可复现的测试结果,帮助团队做出更准确的产品决策。
    • 无监督可用性测试:允许用户对各种原型进行无监督可用性测试,包括来自Figma、Adobe XD和Sketch的原型。
    • A/B测试功能:用户可以对设计、文案和用户体验进行A/B测试,以验证新的用户流程或最小可行产品(MVP)。
    • 测试结果总结:结果以易于分析的格式提供,消除了筛选原始数据或冗长视频录制的需要。

    Uxia的官网地址

    • 官网地址:https://www.uxia.app/

    Uxia的应用场景

    • 金融科技公司:可用来节省成本并提高测试速度和质量,快速验证金融产品的用户流程是否顺畅,如用户注册、资金交易等环节。
    • 创业公司、中小型企业及大型企业:不同规模的企业能从 Uxia 获得用户见解,帮助快速、经济地改进产品设计和可用性,提升产品竞争力。
    • 产品设计团队:能有效规避 UX 设计中的常见错误,提高整体设计水平,确保设计出的产品更符合用户需求和使用习惯。
  • Anthropic发布《为智能体编写工具》官方教程

    Anthropic《为智能体编写工具》主要探讨如何为智能体编写有效的工具(tools)。文章指出,工具是连接确定性系统(如API)和非确定性AI代理的桥梁。详细介绍编写工具的三个关键步骤:构建原型、运行评估及与智能体合作优化工具。文章总结了编写有效工具的几个重要原则,需遵循精准性、命名空间、丰富上下文、令牌效率和清晰描述五大原则。通过这些方法,能提高工具的性能,使智能体在解决现实世界任务时更加高效。

    《为智能体编写工具》的核心内容

    智能体的效能完全取决于我们为其提供的工具。我们将分享如何编写高质量工具和评估方法,及如何通过使用Claude自我优化工具提升性能。

    模型上下文协议(MCP)能为LLM智能体配备数百种工具解决现实世界任务。如何使工具达到最大效能?

    本文将介绍在各类智能AI系统中提升性能的最有效技术。

    首先涵盖如何:

    • 构建和测试工具原型
    • 创建并运行智能体工具的全面评估
    • Claude Code等智能体协作,自动提升工具性能
    • 最后总结在此过程中发现的高质量工具编写关键原则:

    选择正确的工具进行实施(及不应实施的工具):

    • 通过命名空间界定明确的功能边界
    • 从工具返回有意义的上下文给智能体
    • 优化工具响应以提高令牌效率
    • 通过提示工程优化工具描述和规格

    什么是工具?

    在计算领域,确定性系统在给定相同输入时每次会产生相同输出,而非确定性系统,如智能体即使在相同起始条件下也能产生不同的响应。

    当我们传统地编写软件时,是在建立确定性系统之间的契约。例如,像getWeather(“NYC”)这样的函数调用,每次被调用时都用完全相同的方式获取纽约市的天气信息。

    工具是新型软件,反映了确定性系统与非确定性智能体之间的契约。当用户询问”我今天应该带伞吗?”时,智能体会调用天气工具,根据一般知识回答,甚至首先提出关于位置的澄清问题。智能体可能出现幻觉,无法掌握如何使用工具。

    在为智能体编写软件时,我们需要从根本上重新思考我们的方法:我们需要为智能体设计工具和MCP服务器,不是像为其他开发人员或系统编写函数和API那样编写它们。

    我们的目标是通过使用工具追求各种成功策略,增加智能体能有效解决广泛任务的范围。

    如何编写工具

    在本节中,我们将提供如何与智能体协作编写和改进提供给它们的工具。首先快速搭建工具原型、在本地进行测试。运行全面评估衡量后续更改。与智能体协同工作,能重复评估和改进工具的过程,直到智能体在现实任务中实现强劲性能。

    构建原型

    若不亲自实践,很难预测智能体觉得哪些工具符合人体工程学,哪些不会。快速搭建工具原型。如果使用Claude Code编写工具(可能一次性完成),最好为工具将依赖的任何软件库、API或SDK(包括MCP SDK)提供文档说明。在官方文档网站上能找到适合LLM的扁平化llms.txt文件(这是我们的API文档)。

    将工具包装在本地MCP服务器桌面扩展(DXT)中,将能在Claude Code或Claude桌面应用中连接和测试工具。

    要将本地MCP服务器连接到Claude Code,请运行 claude mcp add <名称> <命令> [参数…]。

    要将本地MCP服务器或DXT连接到Claude桌面应用,请分别导航至设置 > 开发者或设置 > 扩展。

    工具能直接传入Anthropic API调用中进行程序化测试。

    亲自测试工具识别不足之处。收集用户反馈,围绕期望工具能支持的用例和提示建立直观理解。

    运行评估

    接下来,需要通过运行评估衡量Claude使用工具的效果。基于实际使用场景生成大量评估任务。建议与智能体协作帮助分析结果、确定如何改进工具。请在我们的工具评估指南中查看此端到端过程。

    1.生成评估任务

    使用早期原型,Claude Code能快速探索工具、创建数十个提示和响应对。提示应受到实际使用场景的启发,基于真实的数据源和服务(例如,内部知识库和微服务)。我们建议避免使用过于简单或肤浅的”沙盒”环境,这些环境无法用足够的复杂性对工具进行压力测试。强大的评估任务需要多次工具调用——可能达到数十次。

    以下是一些强大任务的示例:

    • 与Jane安排下周会议讨论我们最新的Acme Corp项目。附上我们上次项目规划会议的记录、预订会议室。
    • 客户ID 9182报告称他们在一次购买尝试中被收取了三次费用。查找所有相关日志条目并确定是否有其他客户受到同一问题影响。
    • 客户Sarah Chen刚刚提交了取消请求。准备保留优惠。确定:(1)他们离开的原因,(2)哪种保留优惠最具吸引力,以及(3)在提供优惠前我们应该注意的任何风险因素。

    以下是一些较弱任务的示例:

    • 与jane@acme.corp安排下周会议。
    • 在支付日志中搜索purchase_complete和customer_id=9182。
    • 查找客户ID 45892的取消请求。

    每个评估提示都应配有一个可验证的响应或结果。验证器能简单到对真实答案和抽样响应进行精确字符串比较,或复杂到请Claude判断响应。避免使用过于严格的验证器,验证器会因格式、标点或有效的替代表述等虚假差异拒绝正确响应。

    对于每个提示-响应对,选择指定期望智能体在解决任务时调用的工具,衡量智能体在评估期间是否成功掌握每个工具的用途。由于可能存在多个正确解决任务的有效路径,请尽量避免过度指定或过度拟合策略。

    2.运行评估

    我们建议通过直接的LLM API调用以编程方式运行评估。使用简单的智能体循环(包装交替的LLM API和工具调用的while循环):每个评估任务一个循环。每个评估智能体被赋予单个任务提示和工具。

    在评估智能体的系统提示中,建议指示智能体输出结构化响应块(用于验证),还要输出推理和反馈块。指示智能体在工具调用和响应块之前输出这些内容,通过触发思维链(CoT)行为提高LLM的有效智能。

    如果使用Claude运行评估,开启交错思考获得类似的”开箱即用”功能。将帮助探究智能体为何调用或不调用某些工具,突出显示工具描述和规范中需要改进的具体领域。

    除顶级准确性外,建议收集其他指标,如单个工具调用和任务的总运行时间、工具调用总数、总令牌消耗量以及工具错误。跟踪工具调用能帮助揭示智能体追求的常见工作流程,为工具整合提供机会。

    3.分析结果

    智能体是发现问题和提供反馈的有用伙伴,涵盖从相互矛盾的工具描述到低效的工具实现和令人困惑的工具模式等各个方面。智能体在反馈和响应中省略的内容通常比包含的内容更重要。LLM不总是准确表达出它们的真实含义。

    观察智能体在哪些地方卡主或困惑。通读评估智能体的推理和反馈(或思维链)识别不足之处。审查原始记录(包括工具调用和工具响应)捕捉智能体思维链中未明确描述的任何行为。读懂字里行间的含义;记住评估智能体不一定知道正确答案和策略。

    分析工具调用指标。大量冗余的工具调用可能表明需要适当调整分页或令牌限制参数;大量无效参数的工具错误可能表明工具需要使用更清晰的描述或更好的示例。当我们推出Claude的网络搜索工具时,我们发现Claude不必要地在工具查询参数后附加2025,这偏斜了搜索结果、降低了性能(我们通过改进工具描述将Claude引导到正确方向)。

    4.与智能体协作

    您甚至可以让智能体分析结果、改进工具。只需将评估智能体的记录连接起来,粘贴到Claude Code中。Claude是分析记录和一次性重构大量工具的专家——例如,确保在进行新更改时工具实现和描述保持自一致。

    事实上,本文中的大部分建议都来自于使用Claude Code反复优化我们的内部工具实现。我们的评估建立在内部工作空间之上,反映我们内部工作流程的复杂性,包括真实项目、文档和消息。

    我们依赖保留的测试集确保不会过度拟合我们的”训练”评估。测试集表明,即使超越”专家”工具实现的性能,我们能提取额外的性能改进——无论工具是由我们的研究人员手动编写还是由Claude自身生成。

    在下一节中,我们将分享从这一过程中学到的一些经验。

    编写高效工具的原则

    在本节中,我们将所学知识提炼为一些编写高效工具的指导原则。

    为智能体选择合适的工具

    更多工具不总能带来更好的结果。我们观察到的一个常见错误是工具只包装了现有的软件功能或API端点——无论工具是否适合智能体。这是因为智能体与传统软件具有不同的”功能可见性”——他们感知并使用工具的方式与传统软件截然不同。

    LLM智能体具有有限的”上下文”(即它们一次能处理的信息量有限),计算机内存廉价且充足。以在地址簿中搜索联系人的任务为例。传统软件程序可以高效地逐个存储和处理联系人列表,在继续之前检查每个联系人。

    如果LLM智能体使用返回所有联系人的工具,必须逐个令牌地阅读每个联系人,它就在无关信息上浪费有限的上下文空间(想象一下通过从上到下阅读每一页来在地址簿中搜索联系人——即通过暴力搜索)。更好更自然的方法(对智能体和人类 alike)是首先跳到相关页面(也许按字母顺序找到它)。

    我们建议先构建少量经过深思熟虑的工具,针对高价值的工作流,这些工具与评估任务相匹配,在此基础上进行扩展。在地址簿案例中,选择实现search_contacts或message_contact工具,而不是简单的提供list_contacts工具。

    工具有整合能力,能在底层处理多个离散操作(或API调用)。例如,工具用相关元数据丰富工具响应,或在单个工具调用中处理经常链接的多步任务。

    以下是一些示例:

    • 与其实现 list_users、list_events 和 create_event 工具,不如考虑实现一个 schedule_event 工具,该工具可查找可用性、安排事件。
    • 与其实现 read_logs 工具,不如考虑实现一个 search_logs 工具,该工具仅返回相关日志行及一些周围上下文。
    • 与其实现 get_customer_by_id、list_transactions 和 list_notes 工具,不如实现一个 get_customer_context 工具,一次性编译客户所有近期相关信息。

    确保您构建的每个工具都具有明确独特的目的。工具应使智能体能以人类在获得相同底层资源时会采用的类似方式细分和解决任务,同时减少原本会被中间输出消耗的上下文。

    过多工具或功能重叠的工具也可能分散智能体追求高效策略的注意力。对构建(或不构建)哪些工具进行谨慎选择性规划确实能带来回报。

    为工具设置命名空间

    AI智能体可能会获得数十个MCP服务器和数百种不同工具的访问权限——包括其他开发人员提供的工具。当工具功能重叠或用途模糊时,智能体可能会困惑该使用哪些工具。

    命名空间(将相关工具分组在通用前缀下)有助于划分大量工具之间的界限;MCP客户端有时会默认执行此操作。例如,按服务(如 asana_search、jira_search)和按资源(如 asana_projects_search、asana_users_search)进行命名空间划分,帮助智能体在正确时间选择正确的工具。

    我们发现基于前缀和后缀的命名空间选择对我们的工具使用评估具有重要影响。效果因LLM而异,我们建议根据自己的评估选择命名方案。

    智能体可能调用错误工具、以错误参数调用正确工具、调用过少工具或错误处理工具响应。通过选择性实现名称反映任务自然细分的工具,能同时减少加载到智能体上下文中的工具和工具描述数量,将智能体计算从上下文卸载回工具调用本身。降低智能体犯错的整体风险。

    从工具返回有意义的上下文

    同样地,工具实现应注意仅向智能体返回高价值信息。应优先考虑上下文相关性而非灵活性,避开低级技术标识符(例如:uuid、256px_image_url、mime_type)。像name、image_url和file_type这样的字段更有可能直接指导智能体的下游行动和响应。

    智能体处理自然语言名称、术语或标识符的成功率显著高于处理晦涩标识符。我们发现,仅仅将任意字母数字UUID解析为更具语义意义和可解释性的语言(甚至是0索引ID方案),就能通过减少幻觉显著提高Claude在检索任务中的精确度。

    在某些情况下,智能体可能需要灵活地同时处理自然语言和技术标识符输出,哪怕只是为触发下游工具调用(例如,search_user(name=’jane’) → send_message(id=12345))。您可以通过在工具中暴露一个简单的response_format枚举参数来实现两者,让智能体控制工具返回”简洁”还是”详细”响应(下图)。

    您能添加更多格式以获得更大灵活性,类似于GraphQL,选择确切想要接收的信息片段。以下是一个控制工具响应详细程度的ResponseFormat枚举示例:

    enum ResponseFormat {
       DETAILED = "detailed",
       CONCISE = "concise"
    }

    以下是详细工具响应的示例(206 个 token):

    以下是简洁工具响应的示例(72 个 token):

    工具响应结构——例如XML、JSON或Markdown——也会对评估性能产生影响:不存在一刀切的解决方案。这是因为LLM是通过下一个令牌预测进行训练的,往往在与其训练数据匹配的格式上表现更好。最优响应结构会因任务和智能体的不同有很大差异。我们建议根据自己的评估选择最佳响应结构。

    优化工具响应的令牌效率

    优化上下文质量很重要。但优化工具响应中返回给智能体的上下文数量同样重要。

    我们建议为任何可能消耗大量上下文的工具响应实施分页、范围选择、过滤和/或截断的某种组合,设置合理的默认参数值。对于Claude Code,我们默认将工具响应限制为25,000个令牌。我们预计智能体的有效上下文长度会随时间增长,但对上下文高效工具的需求会始终存在。

    如果您选择截断响应,请务必通过有用的指令引导智能体。您可以直接鼓励智能体追求更节省令牌的策略,例如进行多次小型针对性搜索,不是为知识检索任务执行单次广泛搜索。如果工具调用引发错误(例如在输入验证期间),您可以通过提示工程设计错误响应,以清晰传达具体且可操作的改进建议,而不是提供晦涩难懂的错误代码或追溯信息。

    以下是一个截断工具响应的示例:

    以下是一个无用的错误响应示例:

    以下是一个有用的错误响应示例:

    现在我们来讨论改进工具的最有效方法之一:对工具描述和规格进行提示工程。由于这些内容会被加载到智能体的上下文中,它们可以共同引导智能体采取有效的工具调用行为。

    在编写工具描述和规格时,请设想如何向团队新成员描述您的工具。考虑可能隐式引入的上下文 —— 专用查询格式、专业术语的定义、底层资源之间的关系 —— 并将其明确化。通过清晰描述(通过严格数据模型强制执行)预期输入和输出来避免歧义。特别需要注意的是,输入参数的命名应明确无误:不要使用名为user的参数,尝试使用名为user_id的参数。

    通过评估,您可以更有信心地衡量提示工程的影响。即使对工具描述进行微小改进也能带来显著提升。在我们对工具描述进行精确改进后,Claude Sonnet 3.5在SWE-bench Verified评估中实现最先进的性能,显著降低错误率、提高任务完成度。

    在我们的开发者指南中能找到工具定义的其他最佳实践。如果您正在为Claude构建工具,我们建议阅读有关工具如何动态加载到Claude系统提示中的说明。如果您正在为MCP服务器编写工具,工具注释有助于披露哪些工具需要开放世界访问或进行破坏性更改。

    展望未来

    为构建有效的智能体工具,我们需要将软件开发实践从可预测的确定性模式重新定位到非确定性模式。

    通过本文描述的迭代式、评估驱动的过程,我们发现工具成功的一致模式:有效的工具具有清晰明确的定义,能合理地利用智能体上下文,能在多样化工作流中组合使用,使智能体能直观地解决现实世界任务。

    展望未来,预测智能体与世界交互的具体机制将不断发展——从MCP协议的更新到底层LLM本身的升级。通过采用系统化、评估驱动的方法改进智能体工具,能确保随着智能体能力不断增强,它们使用的工具也将同步发展。

    《为智能体编写工具》的官网地址

    • 官网地址:https://www.anthropic.com/engineering/writing-tools-for-agents

    《为智能体编写工具》的适用人群

    • 人工智能工程师和开发者:提供构建、测试和优化工具的具体方法,帮助提升智能体的性能和效率。
    • 数据科学家和机器学习专家:文章中的评估和优化技巧有助将模型与工具结合,提高系统整体性能。
    • 软件架构师:文章的高级指导帮助用户设计更高效、灵活的系统架构,将智能体和工具集成到现有系统中。
    • 产品经理:文章帮助用户理解工具开发的关键点,更好地规划产品功能和评估技术方案。
    • 研究人员:文章中的最佳实践和案例分析为用户的研究提供参考,助力探索新的研究方向。
  • YouStory – AI故事书生成平台,个性化故事创作

    YouStory是什么

    YouStory是智能AI故事书平台,基于人工智能技术为家庭创造独特的成长故事。用户可以通过上传孩子的照片、宠物、绘画、涂鸦或喜欢的玩具来让它们成为故事的主角。平台结合了优质的、非通用的艺术风格和一个可以通过对话引导的协作代理,使结果感觉更像是一个真正的互动绘本。YouStory的主要功能包括个性化故事创作、语言和学习支持以及教育应用。可以作为睡前助手,帮助孩子平静入睡,可以教授生活课程,如善良、分享和毅力等价值观。

    YouStory

    YouStory的主要功能

    • 个性化故事创作:用户可上传孩子相关元素,成为故事主角,创作出独一无二的故事。
    • 语言和学习支持:提供互动叙述,支持阅读练习和听力技能提升,还能创建双语版本。
    • 庆祝成长里程碑:为孩子的生日、入学第一天等重要时刻创作纪念故事,记录成长。
    • 激发创造力:将孩子的涂鸦、想法等转化为完整插图故事,培养创造力和想象力。
    • 教育应用:YouStory Education通过与历史人物互动聊天,让历史学习生动有趣。

    YouStory的官网地址

    • 官网地址:https://youstory.io/

    YouStory的应用场景

    • 家庭娱乐:为孩子创造个性化故事,增加亲子互动乐趣。
    • 孩子成长记录:记录孩子重要时刻,如生日、入学等,留下珍贵记忆。
    • 教育学习:通过互动故事和双语创作,辅助孩子学习语言和知识。
    • 创意激发:将孩子的涂鸦、想法等转化为故事,培养创造力。
  • Youtu-GraphRAG – 腾讯优图开源的图检索增强生成框架

    Youtu-GraphRAG是什么

    Youtu-GraphRAG是腾讯优图实验室开源的图检索增强生成框架,通过将知识组织成图谱,结合大语言模型进行检索和推理,帮助模型更精准地回答复杂问题,减少“胡言乱语”。框架具有多跳推理、知识密集型任务处理和领域可扩展性等特点,通过创新的图模式构建、社区检测和代理检索等技术,大幅降低token成本,提高准确性。Youtu-GraphRAG支持无缝领域迁移,适用多种应用场景,是大语言模型应用的重要补充。

    Youtu-GraphRAG

    Youtu-GraphRAG的主要功能

    • 复杂推理与多跳问答:通过分解复杂问题为多个子问题,在知识图谱中逐步检索和推理,生成准确答案。
    • 知识密集型任务:支持处理依赖大量结构化或私有领域知识的任务,通过图谱组织知识,提升模型对专业知识的理解。
    • 领域可扩展性:支持无缝领域迁移,通过简单图模式调整,快速适应不同领域知识库。
    • 高效检索与推理:优化检索策略和迭代推理机制,显著降低token成本,适用成本敏感场景。
    • 可视化与解释能力:提供图形化界面,直观展示知识图谱构建和推理路径,增强模型可解释性。

    Youtu-GraphRAG的技术原理

    • 图模式引导的知识树构建:通过定义种子图模式,引入目标实体类型、关系和属性类型,自动构建层次化的知识树。知识树分为四个层次:属性层、关系层、关键词层和社区层,支持从上到下的过滤和从下到上的推理。
    • 双重感知社区检测:采用新颖的社区检测算法,结合结构拓扑和子图语义,对知识图谱进行层次化社区划分。每个社区生成一个社区摘要,进一步提升知识的抽象层次。
    • 代理检索与迭代推理:通过代理检索模块,将复杂问题分解为多个子问题,在知识图谱中并行检索。检索结果通过迭代推理链(IRCoT)进行多轮迭代,逐步构建最终答案。
    • 统一配置管理:提供集中的配置管理系统,所有组件的参数都通过一个YAML文件进行配置,支持运行时参数覆盖。使框架能无缝迁移至不同领域,减少手动干预。
    • 优化的检索策略:通过优化的提示(prompting)、索引和检索策略,显著降低token成本,提高检索效率。同时,框架支持并行子问题处理,进一步提升推理速度。
    • 公平匿名数据集“AnonyRAG”:提供多语言(中英文)的匿名数据集,用在测试GraphRAG的真实检索性能,防止知识泄露。

    Youtu-GraphRAG的项目地址

    • GitHub仓库:https://github.com/TencentCloudADP/youtu-graphrag
    • arXiv技术论文:https://arxiv.org/pdf/2508.19855

    Youtu-GraphRAG的应用场景

    • 复杂问答系统:用在处理需要多步推理的复杂问题,如学术研究、技术咨询等,通过图谱检索和推理提供精准答案。
    • 企业知识管理:帮助企业整合内部知识库,快速响应员工或客户的复杂查询需求,提升知识共享效率。
    • 智能客服:在客服场景中,通过高效检索和推理,为用户提供准确的解决方案,提高服务满意度。
    • 医疗健康咨询:在医疗领域,辅助医生或患者查询复杂的医疗信息,提供基于专业知识的推理和建议。
    • 法律咨询:为法律专业人士或用户提供法律知识检索和案例推理,辅助解决复杂的法律问题。
  • Ada – AI数据分析师工具,自动获取、清理和更新数据

    Ada是什么

    Ada是AI数据分析师工具,可将任何数据集一键生成专业报告。只需设置一次,Ada自动获取、清理和更新数据,无需手动操作。提供精美图表和布局,能深入分析,揭示趋势、关联性和可操作的洞察。可混合网络获取的数据与用户自己的数据,解锁更深入的分析。Ada解决用户在数据处理和报告生成中的痛点,如手动复制粘贴、数据获取、清理和报告设计等耗时任务,将这些任务从小时缩短到分钟。
    Ada

    Ada的主要功能

    • 自动数据分析:Ada能自动从海量数据中找出关键信息,例如趋势、异常值、关联性等,省去人工寻找的麻烦。
    • 一键报告生成:将复杂的分析结果转化为专业、易懂的图文报告,省去排版和制图的时间。
    • 无代码操作:无需任何编程或统计学知识,只要会上网就能使用,让数据分析民主化。
    • 多数据源支持:能处理各种格式的数据,无论是Excel表格、CSV文件还是其他数据库,都能轻松对接。
    • 定制化分析:可以根据具体需求提出问题,Ada会针对性地进行分析并生成报告。
    • 自然语言查询:用户可以通过普通语言向Ada提问,从概述到详细查询,Ada能理解问题的上下文并提供准确回答。
    • 深入的数据探索:利用Drilldown和Heatmap可视化功能,用户可以更深入地探索数据,找出关键变化驱动因素和优化战略途径。
    • 自动化工作流:设定一次即可自动抓取、清理、更新数据,无需手动操作。
    • 分析智能和视觉智能:结合分析智能和视觉智能,提供深入的趋势、相关性及可执行建议。
    • 多源数据融合:支持多源数据融合,挖掘隐藏关联。

    Ada的官网地址

    • 官网地址:https://ada.im/

    Ada的应用场景

    • 市场营销分析:市场营销人员可以用Ada分析广告投放数据,快速了解不同广告系列的ROI(投资回报率),优化广告策略,提高营销效果。
    • 电商运营分析:电商运营人员可以上传用户的购买记录,让Ada分析出哪些用户群体最倾向于复购,帮助商家更好地定位高价值用户,提升用户忠诚度。
    • 初创公司业务增长分析:初创公司的创始人可以将公司的用户增长数据导入Ada,生成用户增长趋势和主要驱动因素的分析报告,为向投资人展示公司增长情况提供有力支持。
    • 项目管理分析:项目经理可以将项目数据导入Ada,生成项目完成度概览和潜在风险预警的报告,帮助及时调整项目计划,确保项目顺利进行。
    • 数据探索与分析:Ada能自动执行数据预处理和特征工程,选择合适的算法和模型架构,进行超参数调优,生成模型评估报告,帮助用户快速完成复杂的多步骤分析。
    • 时间序列预测:Ada可以基于历史数据构建未来事件数量的预测模型,例如预测网站流量或库存需求,为企业的决策提供数据支持。
  • 浙江大学《大模型基础》大模型基础教材(PDF文件)

    《大模型基础》全面介绍大语言模型(LLMs)的基础知识、架构设计、训练优化及应用实践。从语言模型的基础理论出发,深入探讨基于统计、RNN和Transformer的模型架构,重点分析大语言模型的架构类型(如Encoder-only、Encoder-Decoder、Decoder-only)及其代表模型(如BERT、T5、GPT系列)。书中详细讲解Prompt工程、参数高效微调、模型编辑和检索增强生成等关键技术,结合实际案例展示这些技术在不同场景中的应用。通过系统的学习和实践指导,帮助读者深入理解、有效应用大语言模型技术。

    获取《大模型基础》报告PDF原文件 扫码关注回复: 20250915

    语言模型基础

    • 基于统计方法的语言模型:介绍 n-gram 模型及其统计学原理(马尔可夫假设、极大似然估计)。
    • 基于RNN的语言模型:讲解循环神经网络(RNN)的结构、训练问题(梯度消失/爆炸)及其在语言建模中的应用。
    • 基于Transformer的语言模型:详细解析 Transformer 的架构(自注意力、FFN、层归一化、残差连接)及其在语言模型中的应用。
    • 语言模型的采样方法:包括贪心搜索、波束搜索、Top-K 采样、Top-P 采样、Temperature 机制等解码策略。
    • 语言模型的评测:介绍内在评测(如困惑度)和外在评测(如 BLEU、ROUGE、BERTScore、G-EVAL)。

    大语言模型架构

    • 大数据 + 大模型 → 新智能:分析模型规模与数据规模对模型能力的影响,介绍 Scaling Laws(Kaplan-McCandlish、Chinchilla)。
    • 大语言模型架构概览:对比 Encoder-only、Encoder-Decoder、Decoder-only 三种主流架构的注意力机制与适用任务。
    • Encoder-only 架构:以 BERT 为代表,介绍其结构、预训练任务(MLM、NSP)及衍生模型(RoBERTa、ALBERT、ELECTRA)。
    • Encoder-Decoder 架构:以 T5 和 BART 为例,介绍其统一文本生成框架和多样化的预训练任务。
    • Decoder-only 架构:详细介绍 GPT 系列(GPT-1 到 GPT-4)和 LLaMA 系列(LLaMA1/2/3)的发展与特点。
    • 非Transformer架构:介绍状态空间模型(SSM)如 RWKV、Mamba,以及测试时训练(TTT)范式。

    Prompt 工程

    • Prompt 工程简介:定义 Prompt 和 Prompt 工程,介绍分词与向量化过程(Tokenization、Embedding)。
    • 上下文学习(In-Context Learning, ICL):介绍零样本、单样本、少样本学习,示例选择策略(相似性、多样性)。
    • 思维链(Chain-of-Thought, CoT):讲解 CoT 的三种模式:按部就班(CoT、Zero-Shot CoT、Auto-CoT)、三思后行(ToT、GoT)、集思广益(Self-Consistency)。
    • Prompt 技巧:介绍包括规范 Prompt 编写、合理归纳提问、适时使用 CoT、善用心理暗示(角色扮演、情景代入)。
    • 相关应用:介绍涵盖基于大模型的智能体(Agent)、数据合成、Text-to-SQL、GPTS 等。

    参数高效微调

    • 参数高效微调简介:介绍下游任务适配的两种主流方法——上下文学习和指令微调,引出参数高效微调(PEFT)技术,阐述在降低成本和提高效率方面的优势。
    • 参数附加方法:详细介绍通过在模型结构中附加新的、较小的可训练模块来实现高效微调的方法,包括加在输入(如Prompt-tuning)、加在模型(如Prefix-tuning和Adapter-tuning)和加在输出(如Proxy-tuning)的实现和优势。
    • 参数选择方法:介绍仅选择模型的一部分参数进行微调的方法,分为基于规则的方法(如BitFit)和基于学习的方法(如Child-tuning),通过选择性更新参数减少计算负担、提升模型性能。
    • 低秩适配方法:详细介绍通过低秩矩阵近似原始权重更新矩阵实现高效微调的方法,重点介绍LoRA及变体(如ReLoRA、AdaLoRA和DoRA),讨论LoRA的参数效率和任务泛化能力。
    • 实践与应用:介绍HF-PEFT框架的使用方法和相关技巧,展示PEFT技术在表格数据查询和表格数据分析中的应用案例,证明PEFT在提升大模型特定任务性能方面的有效性。

    模型编辑

    • 模型编辑简介:介绍模型编辑的思想、定义和性质,阐述模型编辑在纠正大语言模型中的偏见、毒性和知识错误等方面的重要性。
    • 模型编辑经典方法:将模型编辑方法分为外部拓展法(如知识缓存法和附加参数法)和内部修改法(如元学习法和定位编辑法),介绍每类方法的代表性工作。
    • 附加参数法:T-Patcher:详细介绍T-Patcher方法,通过在模型中附加特定参数来实现对模型输出的精确控制,适用需要快速、精准修正模型特定知识点的场景。
    • 定位编辑法:ROME:详细介绍ROME方法,通过定位和修改模型内部特定层或神经元实现对模型输出的精确控制,适用需要深度修改模型内部知识结构的场景。
    • 模型编辑应用:介绍模型编辑在精准模型更新、保护被遗忘权和提升模型安全等方面的实际应用,展示模型编辑技术在不同场景中的应用潜能。

    检索增强生成

    • 检索增强生成简介:介绍检索增强生成的背景和组成,阐述在自然语言处理任务中通过结合检索和生成来提升模型性能的重要性和应用场景。
    • 检索增强生成架构:介绍RAG架构分类、黑盒增强架构和白盒增强架构,对比分析不同架构的特点和适用场景。
    • 知识检索:介绍知识库构建、查询增强、检索器和检索效率增强的方法,及如何通过检索结果重排提升检索效果。
    • 生成增强:介绍何时增强、何处增强、多次增强和降本增效的方法,讨论生成增强在不同任务中的应用策略。
    • 实践与应用:介绍搭建简单RAG系统的步骤,展示RAG在典型应用中的案例,帮助读者理解和应用检索增强生成技术。

    获取《大模型基础》报告PDF原文件 扫码关注回复: 20250915

  • Live Interpreter API – 微软推出的实时多语言翻译服务

    Live Interpreter API是什么

    Live Interpreter API 是 Azure 语音翻译的新功能,能实现实时的多语言语音翻译。无需用户手动设置输入语言, Live Interpreter API 能自动连续识别正在使用的语言,能用自然的声音进行低延迟的语音到语音翻译,同时保留说话者的风格和语调。Live Interpreter API支持 76 种输入语言和 143 个地区,适用各种场景,如国际会议、客户支持、在线教育等,极大地促进跨语言交流的便利性和效率,为全球用户提供更流畅的沟通体验。

    Live Interpreter API

    Live Interpreter API的主要功能

    • 自动且连续的语言识别:无需用户手动设置输入语言,系统能自动检测翻译,说话者在对话中切换语言,能无缝识别和转换。
    • 全面的语言支持:覆盖76种输入语言和143个地区,满足不同地区和场景下的多语言需求。
    • 低延迟的语音到语音翻译:提供实时翻译服务,显著降低延迟,翻译效果接近人类译员的自然对话水平,保证交流的流畅性。
    • 个性化语音输出:翻译后的语音保留说话者的风格和语调,包括语速、语调等,让翻译结果更自然、更贴近原始说话者,同时具备企业级的隐私和同意控制功能。

    如何使用Live Interpreter API

    • 注册并获取访问权限:访问Azure官网 https://azure.microsoft.com/注册账户,创建资源获取API密钥和端点。
    • 阅读官方文档:仔细阅读Azure Cognitive Services的官方文档,了解Live Interpreter API的详细参数、请求和响应格式,及使用限制和要求。
    • 准备开发环境:选择合适的编程语言,安装必要的库或SDK,为调用API做好开发环境的准备。
    • 编写代码调用API:根据文档编写代码,使用API密钥和端点进行API调用,实现语音识别、翻译和合成的功能。
    • 测试和优化:在开发环境中测试API调用,确保功能正常,根据测试结果优化代码和参数,提升性能和用户体验。
    • 部署和监控:将应用部署到生产环境,通过Azure门户监控API的使用情况,确保在配额范围内并根据需要调整资源。

    Live Interpreter API的项目官网

    • 项目官网:https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/announcing-live-interpreter-api—now-in-public-preview/4453649

    Live Interpreter API的应用场景

    • 国际会议和活动:在国际会议、研讨会或全球活动上,实时将演讲者的语音翻译成与会者选择的语言,使所有人能无障碍地理解和参与讨论。
    • 在线教育:在多语言的在线课堂中,学生能听到用母语讲授的课程内容,同时保留教师的语调和节奏,提高学习效果和参与度。
    • 客户支持中心:多语言的客户支持中心实现实时语音翻译,客服人员无需切换语言设置,与不同语言的客户进行流畅沟通,提升客户满意度。
    • 社交商务直播:在面向全球观众的直播带货或社交商务活动中,主播的语音被实时翻译成不同语言,保持品牌个性和风格,吸引更广泛的国际观众。