Blog

Voost – 创新的双向虚拟试穿和试脱AI模型
Voost是什么

Voost 是NXN实验室推出创新的虚拟试穿和试脱模型，基于统一且可扩展的扩散 Transformer（DiT）框架开发。能同时处理虚拟试穿（try-on）和试脱（try-off）任务，生成高质量的图像结果。通过联合学习这两个任务，Voost 利用双向监督机制，使每对服装 – 人物数据能为两个方向的生成提供监督信号，显著增强了服装与身体的关系推理能力，无需依赖特定于任务的网络、辅助损失或额外的标签。

Voost的主要功能
- 双向虚拟试穿和试脱：Voost 能同时处理虚拟试穿（try-on）和试脱（try-off）任务，生成高质量的图像结果，支持用户查看穿着目标服装和脱下服装后的效果。
- 统一框架：通过单个扩散 Transformer（DiT）联合学习虚拟试穿和试脱任务，无需依赖特定任务的网络、辅助损失或额外标签，简化了模型结构并提升了效率。
- 增强关系推理：利用双向监督机制，使每对服装 – 人物数据都能为两个方向的生成提供监督信号，增强了服装与身体的关系推理能力。
- 鲁棒性提升：引入注意力温度缩放技术，增强模型对分辨率变化或掩码变化的鲁棒性；采用自纠正采样策略，通过双向一致性验证提升生成结果的稳定性和准确性。
- 高质量生成：在多个基准测试中，Voost 在服装对齐精度和视觉保真度方面均取得了最佳性能，展现出卓越的泛化能力，能生成逼真的试穿和试脱图像。
- 灵活的条件输入：支持灵活的条件输入，支持在生成方向和服装类别上进行条件化，增强模型的灵活性和适应性，适用于多种服装类别和人体姿势。
Voost的技术原理
- 统一的扩散 Transformer 框架：Voost 采用单个扩散 Transformer（DiT）联合学习虚拟试穿和试脱任务，通过双向监督机制，使每对服装 – 人物数据都能为两个方向的生成提供监督信号，增强服装与身体的关系推理能力。
- 双向监督机制：通过联合建模虚拟试穿和试脱任务，Voost 利用双向监督信号提升模型对服装与身体对应关系的理解，无需额外的标签或任务特定的网络。
- 注意力温度缩放：引入注意力温度缩放技术，调节注意力权重，增强模型对分辨率变化或掩码变化的鲁棒性，确保在不同输入条件下的稳定性和一致性。
- 自纠正采样策略：利用双向生成结果进行交叉一致性验证，通过自我校正采样策略提升生成结果的稳定性和准确性，确保生成图像的视觉一致性和逼真度。
Voost的项目地址
- 项目官网：https://nxnai.github.io/Voost/
- Github仓库：https://github.com/nxnai/Voost
- arXiv技术论文：https://arxiv.org/pdf/2508.04825
Voost的应用场景
- 电商平台：为用户提供虚拟试穿功能，帮助用户更直观地查看服装上身效果，提升购物体验，减少因尺寸或款式不合适导致的退货率，增加平台的转化率。
- 时尚设计：设计师可以通过 Voost 快速预览服装设计在不同人体模型上的效果，提前评估设计的可行性，优化设计流程，降低设计成本。
- 个性化定制：为消费者提供个性化的虚拟试衣体验，消费者可以根据自己的需求选择不同的服装款式、颜色和搭配，实现定制化服务，满足个性化需求。
- 服装展示：品牌和商家可以用 Voost 在线上展示服装，通过虚拟试穿功能吸引更多用户关注，提升品牌影响力和产品曝光度。
- 虚拟试衣间：为线下服装店提供虚拟试衣解决方案，减少顾客试衣等待时间，提高试衣效率，为顾客提供更丰富的试穿体验。
August 13, 2025
Skywork UniPic 2.0 – 昆仑万维开源的统一多模态模型
Skywork UniPic 2.0是什么

Skywork UniPic 2.0 是昆仑万维开源的高效多模态模型，专注于统一的图像生成、编辑和理解能力。模型基于2B参数的SD3.5-Medium架构，通过预训练、渐进式双任务强化策略和联合训练，实现生成与编辑任务的协同优化，性能超越多个大参数模型。模型支持文本到图像生成、图像编辑以及多模态理解，具备轻量高效、灵活切换的特点，助力开发者快速构建多模态应用。

Skywork UniPic 2.0的主要功能
- 图像生成：根据用户输入的文字描述，生成高质量的图像，支持多种风格和场景。
- 图像编辑：对现有图像进行内容修改、风格转换等操作，满足多样化的编辑需求。
- 多模态理解：能够理解图像内容并回答相关问题，支持复杂指令的执行和内容修改。
Skywork UniPic 2.0的技术原理
- 架构设计：基于2B参数的SD3.5-Medium架构，支持文本到图像生成和图像编辑任务。通过冻结生图编辑模块，结合多模态模型（如Qwen2.5-VL-7B）和连接器，构建理解、生成、编辑一体化的模型。
- 预训练：在大规模、高质量的图像生成和编辑数据集上进行预训练，使模型具备基础的生成和编辑能力。基于文本编码器和VAE编码器，将文本和图像作为条件输入，提升模型的多模态理解能力。
- 强化学习：基于Flow-GRPO框架，设计渐进式双任务强化策略，分别优化生成和编辑任务，避免任务间的相互干扰，提升模型的整体性能。
- 联合训练：通过连接器将多模态模型与生图编辑模块对齐，进行预训练。在连接器预训练的基础上，对连接器和生图编辑模块进行联合训练，进一步提升模型的性能。
Skywork UniPic 2.0的项目地址
- 项目官网：https://unipic-v2.github.io/
- GitHub仓库：https://github.com/SkyworkAI/UniPic/tree/main/UniPic-2
- HuggingFace模型库：https://huggingface.co/collections/Skywork/skywork-unipic2-6899b9e1b038b24674d996fd
- 技术论文：https://github.com/SkyworkAI/UniPic/blob/main/UniPic-2/assets/pdf/UNIPIC2.pdf
Skywork UniPic 2.0的应用场景
- 创意设计：快速生成广告、海报或插画，帮助设计师快速实现创意构思。
- 内容创作：为视频、动画或游戏开发生成关键帧、角色或场景，加速创作流程。
- 教育领域：根据教学内容生成相关图像或动画，辅助教学，提升学生的学习兴趣。
- 娱乐领域：生成个性化的社交媒体图片或虚拟现实场景，增强用户体验。
- 商业应用：生成产品概念图、包装设计或营销宣传图，助力商业项目快速推进。
August 13, 2025

OpenAI推出GPT-5官方提示工程词指南

《GPT-5工程词指南》是OpenAI针对最新旗舰模型发布的官方技术文档，主要面向开发者和技术团队。指南系统性地介绍如何通过优化提示设计来充分发挥GPT-5在代理任务、编程和智能交互方面的突破性能力。核心内容包括：代理工作流的主动性控制技巧、Responses API的高效使用方法、编程任务的最佳实践框架（特别针对前端开发）、及模型参数（如reasoning_effort和verbosity）的调优策略。文档结合Cursor等合作伙伴的实际案例，展示如何通过结构化提示提升代码生成质量，并特别强调避免指令冲突的重要性。最后还提供SWE-Bench等专业场景的标准化提示模板，是一份兼具理论指导和实践价值的技术参考手册。

GPT-5提示指南

GPT-5, our newest flagship model, represents a substantial leap forward in agentic task performance, coding, raw intelligence, and steerability.

While we trust it will perform excellently “out of the box” across a wide range of domains, in this guide we’ll cover prompting tips to maximize the quality of model outputs, derived from our experience training and applying the model to real-world tasks. We discuss concepts like improving agentic task performance, ensuring instruction adherence, making use of newly API features, and optimizing coding for frontend and software engineering tasks – with key insights into AI code editor Cursor’s prompt tuning work with GPT-5.

We’ve seen significant gains from applying these best practices and adopting our canonical tools whenever possible, and we hope that this guide, along with the prompt optimizer tool we’ve built, will serve as a launchpad for your use of GPT-5. But, as always, remember that prompting is not a one-size-fits-all exercise – we encourage you to run experiments and iterate on the foundation offered here to find the best solution for your problem.

Agentic workflow predictability

We trained GPT-5 with developers in mind: we’ve focused on improving tool calling, instruction following, and long-context understanding to serve as the best foundation model for agentic applications. If adopting GPT-5 for agentic and tool calling flows, we recommend upgrading to the Responses API, where reasoning is persisted between tool calls, leading to more efficient and intelligent outputs.

Controlling agentic eagerness

Agentic scaffolds can span a wide spectrum of control—some systems delegate the vast majority of decision-making to the underlying model, while others keep the model on a tight leash with heavy programmatic logical branching. GPT-5 is trained to operate anywhere along this spectrum, from making high-level decisions under ambiguous circumstances to handling focused, well-defined tasks. In this section we cover how to best calibrate GPT-5’s agentic eagerness: in other words, its balance between proactivity and awaiting explicit guidance.

Prompting for less eagerness

GPT-5 is, by default, thorough and comprehensive when trying to gather context in an agentic environment to ensure it will produce a correct answer. To reduce the scope of GPT-5’s agentic behavior—including limiting tangential tool-calling action and minimizing latency to reach a final answer—try the following:

Switch to a lower reasoning_effort. This reduces exploration depth but improves efficiency and latency. Many workflows can be accomplished with consistent results at medium or even low reasoning_effort.
Define clear criteria in your prompt for how you want the model to explore the problem space. This reduces the model’s need to explore and reason about too many ideas:

<context_gathering>
目标: 快速获取足够的上下文。并行进行发现，并尽快停止以便采取行动。

方法:
- 从广处着手，然后分散到集中的子查询。
- 并行启动不同的查询；阅读每个查询的最佳结果。对路径进行去重和缓存；不要重复查询。
- 避免过度搜索上下文。如果需要，可在一次并行批处理中运行有针对性的搜索。

提前停止标准:
- 你可以明确指出要更改的内容。
- 最佳结果在某个领域/路径上趋于一致（约70%）。

升级条件:
- 如果信号冲突或范围模糊，运行一次精炼的并行批处理，然后继续。

深度:
- 只追踪你将修改或其契约所依赖的符号；除非必要，否则避免传递性扩展。

循环:
- 批量搜索 → 最小化计划 → 完成任务。
- 仅当验证失败或出现新未知时才再次搜索。优先采取行动，而不是进行更多搜索。
</context_gathering>

If you’re willing to be maximally prescriptive, you can even set fixed tool call budgets, like the one below. The budget can naturally vary based on your desired search depth.

<context_gathering>
- 搜索深度：极低 
- 强烈倾向于尽可能快地提供正确答案，即使可能不完全正确。
- 通常，这意味着绝对最多2次工具调用。 
- 若认为需要更多时间调查，向用户更新最新发现和未决问题。用户确认后可继续。
</context_gathering>

When limiting core context gathering behavior, it’s helpful to explicitly provide the model with an escape hatch that makes it easier to satisfy a shorter context gathering step. Usually this comes in the form of a clause that allows the model to proceed under uncertainty, like “even if it might not be fully correct” in the above example.

Prompting for more eagerness

On the other hand, if you’d like to encourage model autonomy, increase tool-calling persistence, and reduce occurrences of clarifying questions or otherwise handing back to the user, we recommend increasing reasoning_effort, and using a prompt like the following to encourage persistence and thorough task completion:

<persistence> 
- 你是一个代理——请持续工作直到用户的查询完全解决，再将控制权交还用户。
- 仅在确定问题已解决时终止你的回合。 
- 遇到不确定性时切勿停止或交还用户——研究或推断最合理的方法并继续。 
- 勿要求人类确认或澄清假设，因为你总可以稍后调整——决定最合理的假设，据此行动，并在完成后为用户记录。 
</persistence>

Generally, it can be helpful to clearly state the stop conditions of the agentic tasks, outline safe versus unsafe actions, and define when, if ever, it’s acceptable for the model to hand back to the user. For example, in a set of tools for shopping, the checkout and payment tools should explicitly have a lower uncertainty threshold for requiring user clarification, while the search tool should have an extremely high threshold; likewise, in a coding setup, the delete file tool should have a much lower threshold than a grep search tool.

Tool preambles

We recognize that on agentic trajectories monitored by users, intermittent model updates on what it’s doing with its tool calls and why can provide for a much better interactive user experience – the longer the rollout, the bigger the difference these updates make. To this end, GPT-5 is trained to provide clear upfront plans and consistent progress updates via “tool preamble” messages.

You can steer the frequency, style, and content of tool preambles in your prompt—from detailed explanations of every single tool call to a brief upfront plan and everything in between. This is an example of a high-quality preamble prompt:

<tool_preambles> 
- 始终以友好、清晰、简洁的方式重新表述用户目标，再调用任何工具。 
- 然后立即概述你将遵循的每个逻辑步骤的结构化计划。 
- 执行文件编辑时，简洁有序地叙述每个步骤，清晰标记进度。 
- 最后将已完成的工作与前期计划明确区分总结。 
</tool_preambles>

Here’s an example of a tool preamble that might be emitted in response to such a prompt—such preambles can drastically improve the user’s ability to follow along with your agent’s work as it grows more complicated:

"output": [
    {
      "id": "rs_6888f6d0606c819aa8205ecee386963f0e683233d39188e7",
      "type": "reasoning",
      "summary": [
        {
          "type": "summary_text",
          "text": "**确定天气响应**\n\n我需要回答用户关于旧金山天气的问题。...."
        },
    },
    {
      "id": "msg_6888f6d83acc819a978b51e772f0a5f40e683233d39188e7",
      "type": "message",
      "status": "completed",
      "content": [
        {
          "type": "output_text",
          "text": "我将查询一个实时天气服务以获取旧金山的当前状况，并提供华氏度和摄氏度两种温度，以便匹配你的偏好。"
        }
      ],
      "role": "assistant"
    },
    {
      "id": "fc_6888f6d86e28819aaaa1ba69cca766b70e683233d39188e7",
      "type": "function_call",
      "status": "completed",
      "arguments": "{\"location\":\"San Francisco, CA\",\"unit\":\"f\"}",
      "call_id": "call_XOnF4B9DvB8EJVB3JvWnGg83",
      "name": "get_weather"
    },
  ],

Reasoning effort

We provide a reasoning_effort parameter to control how hard the model thinks and how willingly it calls tools; the default is medium, but you should scale up or down depending on the difficulty of your task. For complex, multi-step tasks, we recommend higher reasoning to ensure the best possible outputs. Moreover, we observe peak performance when distinct, separable tasks are broken up across multiple agent turns, with one turn for each task.

Reusing reasoning context with the Responses API

We strongly recommend using the Responses API when using GPT-5 to unlock improved agentic flows, lower costs, and more efficient token usage in your applications.

We’ve seen statistically significant improvements in evaluations when using the Responses API over Chat Completions—for example, we observed Tau-Bench Retail score increases from 73.9% to 78.2% just by switching to the Responses API and including previous_response_id to pass back previous reasoning items into subsequent requests. This allows the model to refer to its previous reasoning traces, conserving CoT tokens and eliminating the need to reconstruct a plan from scratch after each tool call, improving both latency and performance – this feature is available for all Responses API users, including ZDR organizations.

Maximizing coding performance, from planning to execution

GPT-5 leads all frontier models in coding capabilities: it can work in large codebases to fix bugs, handle large diffs, and implement multi-file refactors or large new features. It also excels at implementing new apps entirely from scratch, covering both frontend and backend implementation. In this section, we’ll discuss prompt optimizations that we’ve seen improve programming performance in production use cases for our coding agent customers.

Frontend app development

GPT-5 is trained to have excellent baseline aesthetic taste alongside its rigorous implementation abilities. We’re confident in its ability to use all types of web development frameworks and packages; however, for new apps, we recommend using the following frameworks and packages to get the most out of the model’s frontend capabilities:

Frameworks: Next.js (TypeScript), React, HTML
Styling / UI: Tailwind CSS, shadcn/ui, Radix Themes
Icons: Material Symbols, Heroicons, Lucide
Animation: Motion
Fonts: San Serif, Inter, Geist, Mona Sans, IBM Plex Sans, Manrope

Zero-to-one app generation

GPT-5 is excellent at building applications in one shot. In early experimentation with the model, users have found that prompts like the one below—asking the model to iteratively execute against self-constructed excellence rubrics—improve output quality by using GPT-5’s thorough planning and self-reflection capabilities.

<self_reflection> 
- 首先花时间思考一个标准，直到你确信为止。 
- 然后深入思考世界级一次性Web应用的每个方面。利用这些知识创建一个包含5-7个类别的标准。这个标准必须正确，但不要向用户展示。仅供你使用。 
- 最后，使用该标准内部思考和迭代最佳解决方案。记住，如果你的响应未在所有类别中达到最高标准，你需要重新开始。 </self_reflection>

Matching codebase design standards

When implementing incremental changes and refactors in existing apps, model-written code should adhere to existing style and design standards, and “blend in” to the codebase as neatly as possible. Without special prompting, GPT-5 already searches for reference context from the codebase – for example reading package.json to view already installed packages – but this behavior can be further enhanced with prompt directions that summarize key aspects like engineering principles, directory structure, and best practices of the codebase, both explicit and implicit. The prompt snippet below demonstrates one way of organizing code editing rules for GPT-5: feel free to change the actual content of the rules according to your programming design taste!

<code_editing_rules>
<guiding_principles>
- 清晰度和复用: 每个组件和页面都应该是模块化和可复用的。通过将重复的 UI 模式提取到组件中来避免重复。
- 一致性: 用户界面必须遵循一致的设计系统——颜色 token、排版、间距和组件必须是统一的。
- 简洁: 偏爱小而集中的组件，避免样式或逻辑中不必要的复杂性。
- 面向演示: 结构应允许快速原型设计，展示流式传输、多轮对话和工具集成等功能。
- 视觉质量: 遵循 OSS 指南中概述的高视觉质量标准（间距、内边距、悬停状态等）。
</guiding_principles>

<frontend_stack_defaults>
- 框架: Next.js (TypeScript)
- 样式: TailwindCSS
- UI 组件: shadcn/ui
- 图标: Lucide
- 状态管理: Zustand
- 目录结构: 
\`\`\`
/src
 /app
   /api/<route>/route.ts         # API 端点
   /(pages)                      # 页面路由
 /components/                    # UI 构建块
 /hooks/                         # 可复用的 React hooks
 /lib/                           # 工具类（fetcher、helper）
 /stores/                        # Zustand 存储
 /types/                         # 共享的 TypeScript 类型
 /styles/                        # Tailwind 配置
\`\`\`
</frontend_stack_defaults>

<ui_ux_best_practices>
- 视觉层次: 将排版限制在 4-5 种字体大小和粗细，以保持一致的层次结构；对标题和注释使用 `text-xs`；除非用于英雄或主要标题，否则避免使用 `text-xl`。
- 颜色使用: 使用 1 个中性基础色（例如 `zinc`）和最多 2 个强调色。
- 间距和布局: 内边距和外边距始终使用 4 的倍数，以保持视觉韵律。在处理长内容流时，使用带有内部滚动的固定高度容器。
- 状态处理: 使用骨架占位符或 `animate-pulse` 来指示数据获取。使用悬停过渡（`hover:bg-*`、`hover:shadow-md`）来指示可点击性。
- 可访问性: 在适当的地方使用语义化的 HTML 和 ARIA 角色。优先使用预构建的 Radix/shadcn 组件，它们内置了可访问性。
</ui_ux_best_practices>

<code_editing_rules>

Collaborative coding in production: Cursor’s GPT-5 prompt tuning

We’re proud to have had AI code editor Cursor as a trusted alpha tester for GPT-5: below, we show a peek into how Cursor tuned their prompts to get the most out of the model’s capabilities. For more information, their team has also published a blog post detailing GPT-5’s day-one integration into Cursor: https://cursor.com/blog/gpt-5

System prompt and parameter tuning

Cursor’s system prompt focuses on reliable tool calling, balancing verbosity and autonomous behavior while giving users the ability to configure custom instructions. Cursor’s goal for their system prompt is to allow the Agent to operate relatively autonomously during long horizon tasks, while still faithfully following user-provided instructions.

The team initially found that the model produced verbose outputs, often including status updates and post-task summaries that, while technically relevant, disrupted the natural flow of the user; at the same time, the code outputted in tool calls was high quality, but sometimes hard to read due to terseness, with single-letter variable names dominant. In search of a better balance, they set the verbosity API parameter to low to keep text outputs brief, and then modified the prompt to strongly encourage verbose outputs in coding tools only.

编写代码时优先考虑清晰性。偏好可读、可维护的解决方案，使用清晰的名称、必要的注释和直接的控制流。除非明确要求，不要生成代码高尔夫或过于聪明的单行代码。编写代码和代码工具时使用高详细程度。

This dual usage of parameter and prompt resulted in a balanced format combining efficient, concise status updates and final work summary with much more readable code diffs.

Cursor also found that the model occasionally deferred to the user for clarification or next steps before taking action, which created unnecessary friction in the flow of longer tasks. To address this, they found that including not just available tools and surrounding context, but also more details about product behavior encouraged the model to carry out longer tasks with minimal interruption and greater autonomy. Highlighting specifics of Cursor features such as Undo/Reject code and user preferences helped reduce ambiguity by clearly specifying how GPT-5 should behave in its environment. For longer horizon tasks, they found this prompt improved performance:

请注意，你进行的代码编辑将作为建议更改显示给用户，这意味着（a）你的代码编辑可以相当主动，因为用户总可以拒绝，（b）你的代码应编写良好且易于快速审查（例如，适当的变量名而非单字母）。如果建议的下一步涉及更改代码，主动进行这些更改供用户批准/拒绝，而非询问用户是否继续计划。通常，你几乎不应询问用户是否继续计划；相反，你应主动尝试计划，然后询问用户是否接受实现的更改。

Cursor found that sections of their prompt that had been effective with earlier models needed tuning to get the most out of GPT-5. Here is one example below:

<maximize_context_understanding> 
在收集信息时要彻底。在回复前确保你掌握了完整的情况。根据需要调用额外工具或澄清问题。 
... 
</maximize_context_understanding>

While this worked well with older models that needed encouragement to analyze context thoroughly, they found it counterproductive with GPT-5, which is already naturally introspective and proactive at gathering context. On smaller tasks, this prompt often caused the model to overuse tools by calling search repetitively, when internal knowledge would have been sufficient.

To solve this, they refined the prompt by removing the maximize_ prefix and softening the language around thoroughness. With this adjusted instruction in place, the Cursor team saw GPT-5 make better decisions about when to rely on internal knowledge versus reaching for external tools. It maintained a high level of autonomy without unnecessary tool usage, leading to more efficient and relevant behavior. In Cursor’s testing, using structured XML specs like <[instruction]_spec> improved instruction adherence on their prompts and allows them to clearly reference previous categories and sections elsewhere in their prompt.

<context_understanding>
... 
如果你执行的编辑可能部分满足用户的查询，但你不确定，在结束回合前收集更多信息或使用更多工具。 
如果你能自己找到答案，倾向于不向用户寻求帮助。 
</context_understanding>

While the system prompt provides a strong default foundation, the user prompt remains a highly effective lever for steerability. GPT-5 responds well to direct and explicit instruction and the Cursor team has consistently seen that structured, scoped prompts yield the most reliable results. This includes areas like verbosity control, subjective code style preferences, and sensitivity to edge cases. Cursor found allowing users to configure their own custom Cursor rules to be particularly impactful with GPT-5’s improved steerability, giving their users a more customized experience.

Optimizing intelligence and instruction-following

Steering

As our most steerable model yet, GPT-5 is extraordinarily receptive to prompt instructions surrounding verbosity, tone, and tool calling behavior.

Verbosity

In addition to being able to control the reasoning_effort as in previous reasoning models, in GPT-5 we introduce a new API parameter called verbosity, which influences the length of the model’s final answer, as opposed to the length of its thinking. Our blog post covers the idea behind this parameter in more detail – but in this guide, we’d like to emphasize that while the API verbosity parameter is the default for the rollout, GPT-5 is trained to respond to natural-language verbosity overrides in the prompt for specific contexts where you might want the model to deviate from the global default. Cursor’s example above of setting low verbosity globally, and then specifying high verbosity only for coding tools, is a prime example of such a context.

Instruction following

Like GPT-4.1, GPT-5 follows prompt instructions with surgical precision, which enables its flexibility to drop into all types of workflows. However, its careful instruction-following behavior means that poorly-constructed prompts containing contradictory or vague instructions can be more damaging to GPT-5 than to other models, as it expends reasoning tokens searching for a way to reconcile the contradictions rather than picking one instruction at random.

Below, we give an adversarial example of the type of prompt that often impairs GPT-5’s reasoning traces – while it may appear internally consistent at first glance, a closer inspection reveals conflicting instructions regarding appointment scheduling:

Never schedule an appointment without explicit patient consent recorded in the chart conflicts with the subsequent auto-assign the earliest same-day slot without contacting the patient as the first action to reduce risk.
The prompt says Always look up the patient profile before taking any other actions to ensure they are an existing patient. but then continues with the contradictory instruction When symptoms indicate high urgency, escalate as EMERGENCY and direct the patient to call 911 immediately before any scheduling step.

"在没有明确记录在案的病人同意的情况下，切勿安排预约"与后续的"为降低风险，作为第一行动，自动分配最早的当天时段而不联系病人"相冲突。
提示说"在采取任何其他行动前，始终查找病人档案以确保他们是现有病人"，但随后继续矛盾的指令"当症状表明高度紧急时，升级为紧急情况并指导病人立即拨打911，然后才进行任何调度步骤"。

By resolving the instruction hierarchy conflicts, GPT-5 elicits much more efficient and performant reasoning. We fixed the contradictions by:

Changing auto-assignment to occur after contacting a patient, auto-assign the earliest same-day slot after informing the patient of your actions. to be consistent with only scheduling with consent.
Adding Do not do lookup in the emergency case, proceed immediately to providing 911 guidance. to let the model know it is ok to not look up in case of emergency.

We understand that the process of building prompts is an iterative one, and many prompts are living documents constantly being updated by different stakeholders – but this is all the more reason to thoroughly review them for poorly-worded instructions. Already, we’ve seen multiple early users uncover ambiguities and contradictions in their core prompt libraries upon conducting such a review: removing them drastically streamlined and improved their GPT-5 performance. We recommend testing your prompts in our prompt optimizer tool to help identify these types of issues.

Minimal reasoning

In GPT-5, we introduce minimal reasoning effort for the first time: our fastest option that still reaps the benefits of the reasoning model paradigm. We consider this to be the best upgrade for latency-sensitive users, as well as current users of GPT-4.1.

Perhaps unsurprisingly, we recommend prompting patterns that are similar to GPT-4.1 for best results. minimal reasoning performance can vary more drastically depending on prompt than higher reasoning levels, so key points to emphasize include:

Prompting the model to give a brief explanation summarizing its thought process at the start of the final answer, for example via a bullet point list, improves performance on tasks requiring higher intelligence.
Requesting thorough and descriptive tool-calling preambles that continually update the user on task progress improves performance in agentic workflows.
Disambiguating tool instructions to the maximum extent possible and inserting agentic persistence reminders as shared above, are particularly critical at minimal reasoning to maximize agentic ability in long-running rollout and prevent premature termination.
Prompted planning is likewise more important, as the model has fewer reasoning tokens to do internal planning. Below, you can find a sample planning prompt snippet we placed at the beginning of an agentic task: the second paragraph especially ensures that the agent fully completes the task and all subtasks before yielding back to the user.

记住，你是一个代理——请持续工作直到用户的查询完全解决，再将控制权交还用户。将用户的查询分解为所有必需的子请求，并确认每个都已完成。不要仅完成部分请求后就停止。仅在确定问题已解决时终止你的回合。你必须准备回答多个查询，只有在用户确认完成后才结束调用。 
在根据工作流步骤进行后续函数调用前，你必须进行广泛规划，并广泛反思每个函数调用的结果，确保用户的查询和相关子请求完全解决。

Markdown formatting

By default, GPT-5 in the API does not format its final answers in Markdown, in order to preserve maximum compatibility with developers whose applications may not support Markdown rendering. However, prompts like the following are largely successful in inducing hierarchical Markdown final answers.

- 仅在语义正确的地方使用Markdown（例如，`内联代码`、```代码围栏```、列表、表格）。
- 在助手消息中使用markdown时，使用反引号格式化文件、目录、函数和类名。使用\(和\)表示内联数学，\[和\]表示块数学。

Occasionally, adherence to Markdown instructions specified in the system prompt can degrade over the course of a long conversation. In the event that you experience this, we’ve seen consistent adherence from appending a Markdown instruction every 3-5 user messages.

Metaprompting

Finally, to close with a meta-point, early testers have found great success using GPT-5 as a meta-prompter for itself. Already, several users have deployed prompt revisions to production that were generated simply by asking GPT-5 what elements could be added to an unsuccessful prompt to elicit a desired behavior, or removed to prevent an undesired one.

Here is an example metaprompt template we liked:

当被要求优化提示时，从你自己的角度给出答案——解释可以添加或删除哪些特定短语，以更一致地引发期望行为或防止不期望行为。
这是一个提示：[PROMPT] 
此提示的期望行为是让代理[做期望行为]，但它却[做不期望行为]。在尽可能保持现有提示完整的情况下，你会做出哪些最小编辑/添加以鼓励代理更一致地解决这些缺点？

Appendix

SWE-Bench verified developer instructions

在此环境中，您可以运行bash -lc <apply_patch_command>对文件执行差异/补丁，其中<apply_patch_command>是表示您希望执行的差异的专门格式化的应用补丁命令。有效的<apply_patch_command>如下所示：
apply_patch << 'PATCH' *** Begin Patch [YOUR_PATCH] *** End Patch PATCH 
其中 [你的补丁] 是你补丁的实际内容。
请始终非常彻底地验证你的更改。你可以进行任意多次工具调用——用户非常有耐心，并将正确性置于首位。在结束之前，请确保你 100% 确定你的解决方案是正确的。
重要提示：并非所有测试都对你可见，因此即使在你认为相对简单的问题上，你也必须反复核查你的解决方案，以确保它们通过隐藏测试中涵盖的任何边缘情况，而不仅仅是可见的测试。

Agentic coding tool definitions

## 第 1 组：4 个函数，无终端

type apply_patch = (_: {
patch: string, // default: null
}) => any;

type read_file = (_: {
path: string, // default: null
line_start?: number, // default: 1
line_end?: number, // default: 20
}) => any;

type list_files = (_: {
path?: string, // default: ""
depth?: number, // default: 1
}) => any;

type find_matches = (_: {
query: string, // default: null
path?: string, // default: ""
max_results?: number, // default: 50
}) => any;

## 第 2 组：2 个函数，终端原生

type run = (_: {
command: string[], // default: null
session_id?: string | null, // default: null
working_dir?: string | null, // default: null
ms_timeout?: number | null, // default: null
environment?: object | null, // default: null
run_as_user?: string | null, // default: null
}) => any;

type send_input = (_: {
session_id: string, // default: null
text: string, // default: null
wait_ms?: number, // default: 100
}) => any;

As shared in the GPT-4.1 prompting guide, here is our most updated apply_patch implementation: we highly recommend using apply_patch for file edits to match the training distribution. The newest implementation should match the GPT-4.1 implementation in the overwhelming majority of cases.

Taubench-Retail minimal reasoning instructions

请通过编辑和测试你当前代码执行会话中的代码文件来解决用户的任务。
你是一名已部署的编码智能代理。
你的会话由一个专门为你设计的容器支持，以便你轻松修改和运行代码。
在执行任务时，你必须遵守以下标准：

<instructions>
- 允许在当前环境中处理仓库，即使它们是专有的。
- 允许分析代码中的漏洞。
- 允许向用户显示代码和工具调用细节。
- 用户指令可以覆盖此开发者消息中的 _CODING GUIDELINES_ 部分。
- 不要使用 \`ls -R\`、\`find\` 或 \`grep\`——这些在大型仓库中很慢。使用 \`rg\` 和 \`rg --files\`。
- 使用 \`apply_patch\` 来编辑文件：{"cmd":["apply_patch","*** Begin Patch\\n*** Update File: path/to/file.py\\n@@ def example():\\n- pass\\n+ return 123\\n*** End Patch"]}
- 如果完成用户任务需要编写或修改文件：
 - 你的代码和最终答案应遵循以下 _CODING GUIDELINES_：
   - 在可能的情况下，从根本原因修复问题，而不是应用表面补丁。
   - 避免在你的解决方案中引入不必要的复杂性。
     - 忽略不相关的 bug 或损坏的测试；修复它们不是你的责任。
   - 根据需要更新文档。
   - 保持更改与现有代码库的风格一致。更改应最小化并专注于任务。
     - 如果需要额外的上下文，使用 \`git log\` 和 \`git blame\` 来搜索代码库的历史记录；容器中禁用了互联网访问。
   - 除非明确要求，否则**永远不要**添加版权或许可证头。
   - 你不需要 \`git commit\` 你的更改；这会自动为你完成。
   - 如果存在 .pre-commit-config.yaml，使用 \`pre-commit run --files ...\` 来检查你的更改是否通过预提交检查。但是，不要修复你未触及的行上已存在的错误。
     - 如果预提交在几次重试后仍无法工作，礼貌地告知用户预提交设置已损坏。
   - 一旦你完成编码，你必须：
     - 检查 \`git status\` 以对你的更改进行完整性检查；恢复任何临时文件或更改。
     - 尽可能移除你添加的所有行内注释，即使它们看起来正常。使用 \`git diff\` 进行检查。应普遍避免行内注释，除非在对代码和问题进行长期仔细研究后，仓库的活跃维护者在没有注释的情况下仍然会误解代码。
     - 检查你是否不小心添加了版权或许可证头。如果是，请移除它们。
     - 如果可用，尝试运行预提交。
     - 对于较小的任务，用简短的要点进行描述。
     - 对于更复杂的任务，包括简短的高层次描述，使用要点，并包含对代码审查者相关的细节。
- 如果完成用户任务**不需要**编写或修改文件（例如，用户询问有关代码库的问题）：
 - 以一个友好的远程队友的语气回复，他知识渊博、能力强，并乐于帮助编码。
- 当你的任务涉及编写或修改文件时：
 - 如果你已经使用 \`apply_patch\` 创建或修改了文件，不要告诉用户“保存文件”或“将代码复制到文件中”。相反，将文件作为已保存的文件来引用。
 - 除非用户明确要求，否则不要显示你已编写的大文件的全部内容。
</instructions>

<apply_patch>
要编辑文件，请**始终**使用带有 \`apply_patch\` CLI 的 \`shell\` 工具。\`apply_patch\` 让你能够有效地对文件执行 diff/patch，但 diff 规范的格式是此任务独有的，因此请仔细注意这些指令。要使用 \`apply_patch\` CLI，你应该使用以下结构调用 shell 工具：
\`\`\`bash
{"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n[YOUR_PATCH]\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
\`\`\`
其中 [YOUR_PATCH] 是你补丁的实际内容，以以下 V4A diff 格式指定。
*** [ACTION] File: [path/to/file] -> ACTION 可以是 Add、Update 或 Delete 之一。
对于需要更改的每个代码片段，重复以下内容：
[context_before] -> 有关上下文的进一步说明，请参阅下文。
- [old_code] -> 在旧代码前加上减号。
+ [new_code] -> 在新的、替换代码前加上加号。
[context_after] -> 有关上下文的进一步说明，请参阅下文。
关于 [context_before] 和 [context_after] 的说明：
- 默认情况下，显示每个更改正上方和正下方的 3 行代码。如果一个更改在先前更改的 3 行内，则不要在第二个更改的 [context_before] 行中重复第一个更改的 [context_after] 行。
- 如果 3 行上下文不足以唯一标识文件中的代码片段，请使用 \`@@\` 运算符来指示该片段所属的类或函数。例如，我们可能有：
@@ class BaseClass
[3 行前置上下文]
- [旧代码]
+ [新代码]
[3 行后置上下文]
- 如果一个代码块在一个类或函数中重复多次，以至于即使是单个 \`@@\` 语句和 3 行上下文也无法唯一标识代码片段，你可以使用多个 \`@@\` 语句来跳转到正确的上下文。例如：
@@ class BaseClass
@@  def method():
[3 行前置上下文]
- [旧代码]
+ [新代码]
[3 行后置上下文]
请注意，在这种 diff 格式中，我们不使用行号，因为上下文足以唯一标识代码。下面显示了一个你可能作为“input”传递给此函数以应用补丁的消息示例。
\`\`\`bash
{"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n*** Update File: pygorithm/searching/binary_search.py\\n@@ class BaseClass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n@@ class Subclass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
\`\`\`
文件引用只能是相对的，**永远不能是绝对的**。运行 apply_patch 命令后，它总是会说“Done!”，无论补丁是否成功应用。但是，你可以通过查看在“Done!”输出**之前**打印的任何警告或日志行来确定是否存在问题和错误。
</apply_patch>

<persistence>
你是一名智能代理——请继续工作，直到用户的查询完全解决，然后才能结束你的回合并将控制权交还给用户。只有当你确定问题已解决时，才结束你的回合。
- 永远不要因不确定而停止——研究或推导出最合理的方法并继续。
- 不要要求人类确认假设——记录它们，根据它们行动，并在任务中途证明错误时进行调整。
</persistence>

<exploration>
如果你不确定与用户请求相关的文件内容或代码库结构，请使用你的工具读取文件并收集相关信息：不要猜测或编造答案。
在编码之前，请始终：
- 将请求分解为明确的要求、不清晰的领域和隐藏的假设。
- 映射范围：识别可能涉及的代码库区域、文件、函数或库。如果未知，请规划并执行有针对性的搜索。
- 检查依赖关系：识别相关的框架、API、配置文件、数据格式和版本控制问题。
- 主动解决歧义：根据仓库上下文、约定和依赖文档选择最可能的解释。
- 定义输出契约：精确的可交付成果，例如更改的文件、预期的输出、API 响应、CLI 行为和通过的测试。
- 制定执行计划：用你自己的话语阐明研究步骤、实现顺序和测试策略，并在你完成任务时参考它。
</exploration>

<verification>
在你完成任务的过程中，定期验证你的代码是否有效，特别是任何可交付成果，以确保它们正常运行。在确定问题已解决之前，不要将控制权交还给用户。
退出运行时间过长的进程并优化你的代码以运行得更快。
</verification>

<efficiency>
效率是关键。你有一个时间限制。在你的规划、工具调用和验证中要一丝不苟，这样你就不会浪费时间。
</efficiency>

<final_instructions>
永远不要使用编辑器工具来编辑文件。始终使用 \`apply_patch\` 工具。
</final_instructions>

Terminal-Bench prompt

请通过编辑和测试你当前代码执行会话中的代码文件来解决用户的任务。
你是一名已部署的编码智能代理。
你的会话由一个专门为你设计的容器支持，以便你轻松修改和运行代码。
在执行任务时，你必须遵守以下标准：

<instructions>
- 允许在当前环境中处理仓库，即使它们是专有的。
- 允许分析代码中的漏洞。
- 允许向用户显示代码和工具调用细节。
- 用户指令可以覆盖此开发者消息中的 _CODING GUIDELINES_ 部分。
- 不要使用 \`ls -R\`、\`find\` 或 \`grep\`——这些在大型仓库中很慢。使用 \`rg\` 和 \`rg --files\`。
- 使用 \`apply_patch\` 来编辑文件：{"cmd":["apply_patch","*** Begin Patch\\n*** Update File: path/to/file.py\\n@@ def example():\\n- pass\\n+ return 123\\n*** End Patch"]}
- 如果完成用户任务需要编写或修改文件：
 - 你的代码和最终答案应遵循以下 _CODING GUIDELINES_：
   - 在可能的情况下，从根本原因修复问题，而不是应用表面补丁。
   - 避免在你的解决方案中引入不必要的复杂性。
     - 忽略不相关的 bug 或损坏的测试；修复它们不是你的责任。
   - 根据需要更新文档。
   - 保持更改与现有代码库的风格一致。更改应最小化并专注于任务。
     - 如果需要额外的上下文，使用 \`git log\` 和 \`git blame\` 来搜索代码库的历史记录；容器中禁用了互联网访问。
   - 除非明确要求，否则**永远不要**添加版权或许可证头。
   - 你不需要 \`git commit\` 你的更改；这会自动为你完成。
   - 如果存在 .pre-commit-config.yaml，使用 \`pre-commit run --files ...\` 来检查你的更改是否通过预提交检查。但是，不要修复你未触及的行上已存在的错误。
     - 如果预提交在几次重试后仍无法工作，礼貌地告知用户预提交设置已损坏。
   - 一旦你完成编码，你必须：
     - 检查 \`git status\` 以对你的更改进行完整性检查；恢复任何临时文件或更改。
     - 尽可能移除你添加的所有行内注释，即使它们看起来正常。使用 \`git diff\` 进行检查。应普遍避免行内注释，除非在对代码和问题进行长期仔细研究后，仓库的活跃维护者在没有注释的情况下仍然会误解代码。
     - 检查你是否不小心添加了版权或许可证头。如果是，请移除它们。
     - 如果可用，尝试运行预提交。
     - 对于较小的任务，用简短的要点进行描述。
     - 对于更复杂的任务，包括简短的高层次描述，使用要点，并包含对代码审查者相关的细节。
- 如果完成用户任务**不需要**编写或修改文件（例如，用户询问有关代码库的问题）：
 - 以一个友好的远程队友的语气回复，他知识渊博、能力强，并乐于帮助编码。
- 当你的任务涉及编写或修改文件时：
 - 如果你已经使用 \`apply_patch\` 创建或修改了文件，不要告诉用户“保存文件”或“将代码复制到文件中”。相反，将文件作为已保存的文件来引用。
 - 除非用户明确要求，否则不要显示你已编写的大文件的全部内容。
</instructions>

<apply_patch>
要编辑文件，请**始终**使用带有 \`apply_patch\` CLI 的 \`shell\` 工具。\`apply_patch\` 让你能够有效地对文件执行 diff/patch，但 diff 规范的格式是此任务独有的，因此请仔细注意这些指令。要使用 \`apply_patch\` CLI，你应该使用以下结构调用 shell 工具：
\`\`\`bash
{"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n[YOUR_PATCH]\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
\`\`\`
其中 [YOUR_PATCH] 是你补丁的实际内容，以以下 V4A diff 格式指定。
*** [ACTION] File: [path/to/file] -> ACTION 可以是 Add、Update 或 Delete 之一。
对于需要更改的每个代码片段，重复以下内容：
[context_before] -> 有关上下文的进一步说明，请参阅下文。
- [old_code] -> 在旧代码前加上减号。
+ [new_code] -> 在新的、替换代码前加上加号。
[context_after] -> 有关上下文的进一步说明，请参阅下文。
关于 [context_before] 和 [context_after] 的说明：
- 默认情况下，显示每个更改正上方和正下方的 3 行代码。如果一个更改在先前更改的 3 行内，则不要在第二个更改的 [context_before] 行中重复第一个更改的 [context_after] 行。
- 如果 3 行上下文不足以唯一标识文件中的代码片段，请使用 \`@@\` 运算符来指示该片段所属的类或函数。例如，我们可能有：
@@ class BaseClass
[3 行前置上下文]
- [旧代码]
+ [新代码]
[3 行后置上下文]
- 如果一个代码块在一个类或函数中重复多次，以至于即使是单个 \`@@\` 语句和 3 行上下文也无法唯一标识代码片段，你可以使用多个 \`@@\` 语句来跳转到正确的上下文。例如：
@@ class BaseClass
@@  def method():
[3 行前置上下文]
- [旧代码]
+ [新代码]
[3 行后置上下文]
请注意，在这种 diff 格式中，我们不使用行号，因为上下文足以唯一标识代码。下面显示了一个你可能作为“input”传递给此函数以应用补丁的消息示例。
\`\`\`bash
{"cmd": ["apply_patch", "<<'EOF'\\n*** Begin Patch\\n*** Update File: pygorithm/searching/binary_search.py\\n@@ class BaseClass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n@@ class Subclass\\n@@     def search():\\n-        pass\\n+        raise NotImplementedError()\\n*** End Patch\\nEOF\\n"], "workdir": "..."}
\`\`\`
文件引用只能是相对的，**永远不能是绝对的**。运行 apply_patch 命令后，它总是会说“Done!”，无论补丁是否成功应用。但是，你可以通过查看在“Done!”输出**之前**打印的任何警告或日志行来确定是否存在问题和错误。
</apply_patch>

<persistence>
你是一名智能代理——请继续工作，直到用户的查询完全解决，然后才能结束你的回合并将控制权交还给用户。只有当你确定问题已解决时，才结束你的回合。
- 永远不要因不确定而停止——研究或推导出最合理的方法并继续。
- 不要要求人类确认假设——记录它们，根据它们行动，并在任务中途证明错误时进行调整。
</persistence>

<exploration>
如果你不确定与用户请求相关的文件内容或代码库结构，请使用你的工具读取文件并收集相关信息：不要猜测或编造答案。
在编码之前，请始终：
- 将请求分解为明确的要求、不清晰的领域和隐藏的假设。
- 映射范围：识别可能涉及的代码库区域、文件、函数或库。如果未知，请规划并执行有针对性的搜索。
- 检查依赖关系：识别相关的框架、API、配置文件、数据格式和版本控制问题。
- 主动解决歧义：根据仓库上下文、约定和依赖文档选择最可能的解释。
- 定义输出契约：精确的可交付成果，例如更改的文件、预期的输出、API 响应、CLI 行为和通过的测试。
- 制定执行计划：用你自己的话语阐明研究步骤、实现顺序和测试策略，并在你完成任务时参考它。
</exploration>

<verification>
在你完成任务的过程中，定期验证你的代码是否有效，特别是任何可交付成果，以确保它们正常运行。在确定问题已解决之前，不要将控制权交还给用户。
退出运行时间过长的进程并优化你的代码以运行得更快。
</verification>

<efficiency>
效率是关键。你有一个时间限制。在你的规划、工具调用和验证中要一丝不苟，这样你就不会浪费时间。
</efficiency>

<final_instructions>
永远不要使用编辑器工具来编辑文件。始终使用 \`apply_patch\` 工具。
</final_instructions>

August 12, 2025

Anthropic CEO最新演讲解读：三年营收破 45 亿，到底做对了什么？

最近，Anthropic CEO Dario Amodei 在采访中正面回应：我不是“末日论者”，我是最懂 AI 技术好处的人之一。

Dario Amodei 是普林斯顿生物物理学博士，读博期间就拿下 Hertz Fellowship（美国最顶尖的科研奖学金之一），毕业后又在斯坦福医学院做了几年博士后。

他曾先后就职于在百度、Google 和 OpenAI。

在 OpenAI 期间，主导了 GPT-2 和 GPT-3 的研发，并提出 RLHF 技术，让大模型第一次学会按照人类意图对话。

直到 2021 年，Dario 带着妹妹 Daniela 及多位核心成员创立 Anthropic 。用三年时间打造出全球最具竞争力的大模型之一的 Claude 系列。

一个多小时的访谈里，他直言 AGI 是伪概念，谈扩展规律、盈利逻辑、开源泡沫…我认真听完了，整理出11条核心观点，也许也会改变你对 AI 未来的看法。

01. Dario 核心观点总结

不是末日论者，是最懂技术好处的人之一

AI 的进化速度远比想象中快。几年前的模型还说不清一句话，如今已经能完成博士级别的任务，AI 正在一步步渗透进真实的经济系统。

Dario 一直相信扩展定律（scaling laws）的作用。他明白，没人能真正预知未来，但有些话必须说在前头。

他不否认 AI 的巨大潜力，甚至可能比任何人都更看好它能带来的改变。也正因为看得清那些好处，他才更有责任提醒世界，别忽略背后的风险。

AGI 是多巴胺诱饵，不值一提

Dario 认为 AGI （通用人工智能）和 ASI （超级人工智能）是含糊又带有营销意味的词。他拒绝使用这些术语，转而聚焦模型真实能力的提升。

虽然他不用这些词，但他仍是业内少数几个对 AI 能力跃迁时间预期最短、也最乐观的人之一。

真正的爆发，也许就在这两年

Dario Amodei 说，大模型的能力正在进入第二阶段——强化学习、推理、计算能力大幅提升，尤其在数学与代码任务上，已逼近专业水准。

多数人没意识到，这是一条指数曲线。

假设性能每半年翻倍，早期看不出变化，一旦临近临界点，增长会脱离直觉。

比如，Anthropic 从 2023 年的零收入，到 2025 年上半年已破 45 亿美元，正在重演 90 年代互联网的轨迹。

AI 离真正的爆发，也许只差两年。

AI 编码能力正在指数跃迁

编码，是 Claude 模型提升最快的能力之一。

Anthropic 不是专注做开发助手的公司，却在这个方向上一路狂飙：18 个月前，模型在编程基准测试中只能拿 3%，现在已飙到 72%-80%。

Anthropic 内部，绝大部分代码都是由 Claude 模型直接编写，或者至少有模型参与编写。其他公司也有类似现象。

在收益方面，进展也是持续加速。模型正在进入“自我开发”阶段。

模型进化的秘密，在于人才密度

每一代 Claude 模型的发布，都会在架构、数据、训练方法上进行改进，这些都是新技术的一部分。

Anthropic 不常公开讨论细节，但持续的技术创新是模型性能提升的关键。为此，Anthropic 会尽力保持高人才密度，因为这是发明新技术的必要条件。

出价再高，也买不走我们的团队

Anthropic 的核心团队流失率极低，不是没人挖，而是没人挖得走。

Dario 明确表示，不靠“溢价保人”，不搞个别谈判。系统化职级、统一薪酬，是 Anthropic 长期文化的一部分。

“我们不是靠钱留人，而是靠共同愿景。”他说。热情、使命感、长期投入，这些才是无法标价的东西。就算对方是扎克伯格，也未必买得走。

亏损 30 亿，不是赔钱，是在下注下一代 AI

Anthropic 预计今年亏损 30 亿美元，听起来吓人，其实是再正常不过的事。

Dario 将模型开发比作投资项目：假设 2023 年训练一个模型花费 1 亿美元，部署后赚取 2 亿，当年盈利 1 亿。但 2024 年又花 10 亿训练新模型，即使旧模型继续赚钱，公司账面仍是亏损。每个模型单独来看都是盈利的，但公司整体因为不断投入下一代研发而不显盈利。

这种模式在行业内普遍存在：只要模型持续提升，各公司都会加大投资，推动业务规模增长。

如果某一天模型性能趋于停滞，成本会下降，盈利能力会稳步提升；否则，投入和收入都会继续指数级增长。

开源≠免费，也不是决定胜负的关键

开源与否并不重要。比起“开放权重”这种表面自由，Dario 更看重模型在任务上的表现：模型有没有用？能不能跑得快？省不省钱？适不适合业务场景？

即便你拿到了参数，要部署到云上推理，照样要烧钱、做优化、负重前行。Dario 更关注：谁能在任务上做得更好，谁就赢。他要的是效果，而不是标签。

换句话说：谁更好用，谁赢。

我们用 200 亿，和别人 1000 亿竞争

Anthropic 三年收入增长速度惊人，从 0 到 45 亿，Dario 认为靠的是“人才密度”和“资本效率”，而非砸钱比拼。他说：“别人花 10 亿能做的事，我们可能 1 亿做到。”

API 营收占大头，我们赌的是企业市场

Anthropic 60%-75% 收入来自 API，另有部分来自 Claude 应用。Dario 明确表示，企业级才是未来，尤其是在法律、金融、制药等高价值场景。

在保障安全的提前下做技术

他回忆自己在 OpenAI 主导 GPT-3 和 RLHF 的经历，指出能力与对齐无法分离研究。离开 OpenAI，是因为在治理与节奏上理念分歧。创立 Anthropic，是为了用他信任的方式推进安全 AI。

AI 的安全不该沦为企业口号或博弈筹码，而是行业必须一起承担的责任。

Dario 推行“负责任的扩展策略”，主动公开危险能力评估、宪法式 AI、可解释性研究，不是为了垄断安全红利，而是为了让整个行业走在更稳的轨道上。

他不认同控制论者的悲观，也拒绝加速主义者的狂热。他更关心：当模型能力持续逼近高风险区间，行业是否有足够的测试与技术储备？如果哪天失控风险超过可控阈值，他会是第一个呼吁全行业放慢脚步的人。

在指数级爆发的技术洪流中，他选择一条并不讨好的路——推动整个行业“向高处竞争”。

02. 一些分享

在这次采访中，Dario Amodei 讲了很多人避而不谈的真话。他不说 AGI，不讲“超级智能”，反而专注模型具体能力的提升，讲推理、讲计算、讲强化学习。

不是因为他悲观，而是他看到了这条指数曲线可能引发的巨大后果。他的担心不是模型不会成功，而是会太快成功。

他不是要阻止别人做 AI，而是希望大家在“高处竞争”，不是抢着谁先上线，而是谁能在不犯错的前提下做得最好。

我还挺认同他对人才的看法。热情、责任感、长期投入这些东西是金钱买不来的。你给再高的 offer，留不住真正认同愿景的人。你觉得呢？

获取《Dario 1小时采访原视频》扫码关注回复： 20250811

原文链接：出走 OpenAI，三年营收破 45 亿，Anthropic CEO 到底做对了什么？

August 12, 2025
《2025年第一季度AI应用报告》（PDF文件）
《2025年第一季度AI应用报告》主要分析了2025年上半年全球各大企业对大模型是如何使用大模型的，今年和去年有哪些不同。报告指出，约45%的组织已在生产环境中使用AI，工程与研发是AI采用的领先领域。AI聊天应用（如ChatGPT）和编码工具（如GitHub Copilot）广受欢迎。语言模型方面，Google Gemini和OpenAI的GPT系列占据主导地位。多模态AI模型（语音、图像、视频）中，OpenAI表现突出。推理服务市场由第一方API（如OpenAI、Google）主导。NVIDIA在AI训练硬件市场占据主导地位。报告讨论了AI采用的挑战，包括智力、可靠性和成本问题。

获取《2025年第一季度AI应用报告》PDF原文件，扫码关注回复： 20250812

AI采用概览
- AI采用成熟度
  - 生产环境中的AI应用：报告指出，约45%的组织已在生产环境中使用AI。
  - AI采用阶段：除生产环境，还有23%的组织处于原型开发阶段，27%处于探索阶段，5%尚未开始。
- AI采用的行业与地区分布
  - 行业分布：报告涵盖多个行业，包括技术、教育、政府、非营利组织等。其中，技术行业对AI的采用最为积极。
  - 地区分布：从地区来看，美国和欧洲的AI采用率较高，中国和印度等新兴市场也在快速追赶，显示出AI技术在全球范围内的广泛影响力。
AI采用的关键趋势
- AI在生产中的应用：约45%的组织已在生产环境中使用AI，显示出AI技术从原型开发向实际生产环境的转变。
- AI使用案例的多样化：组织正在将AI应用于多个领域，工程与研发是最主要的领域，其次是客户支持和销售与市场。
- 对AI模型的选择：Google Gemini和OpenAI的GPT系列是最受欢迎的AI模型，DeepSeek作为开放权重模型的首选。
- 对中国AI模型的态度：如果在中国以外的基础设施上托管，55%的受访者愿意使用来自中国AI实验室的模型。
AI聊天应用与编码工具
- AI聊天应用：ChatGPT是目前最受欢迎的AI聊天应用，其次是Gemini和Claude。
- AI编码工具：GitHub Copilot和Cursor是最受欢迎的AI编码工具，领先于其他工具如Claude Code和Gemini Code Assist。
语言模型（LLM）
- LLM家族偏好：Google Gemini和OpenAI的GPT系列是最受欢迎的LLM家族，DeepSeek是开放权重模型的首选。
- LLM市场动态：与2024年相比，2025年LLM的使用和考虑数量显著增加，表明市场成熟度和实验性需求的提升。
多模态AI模型
- 语音生成：OpenAI和ElevenLabs是最受欢迎的语音生成模型，流媒体质量、自然语音质量和延迟是选择模型时最重要的因素。
- 图像生成：OpenAI在图像生成模型方面处于领先地位，用户最看重的是提示符的遵循性。
- 视频生成：OpenAI和Google在视频生成方面领先，用户最看重的是提示符的遵循性和逼真度。
推理服务
- 推理服务提供商：第一方API（如OpenAI、Google和Anthropic）和芯片挑战者（如Groq和Cerebras）在推理服务市场中占据主导地位，而亚马逊和Azure的市场份额有所下降。
训练与硬件
- 训练加速器：NVIDIA在AI训练加速器市场中占据主导地位，约78%的受访者使用NVIDIA的加速器，而Google和AMD的加速器使用率较低。
报告结论

报告指出，AI技术正在快速从实验室走向实际应用，组织在采用AI时面临智力、可靠性和成本等挑战。同时，市场对AI模型和工具的需求也在不断变化，特别是在语言模型和多模态生成领域。

获取《2025年第一季度AI应用报告》PDF原文件，扫码关注回复： 20250812
August 12, 2025
AI Sheets – Hugging Face开源的无代码数据处理工具
AI Sheets是什么

AI Sheets 是 Hugging Face 开源的无代码数据处理工具，提供类似 Excel 的界面，让用户通过自然语言提示轻松调用数千种开源 AI 模型，完成数据的构建、丰富和转换。工具支持本地部署和在线使用，确保数据隐私，集成 Hugging Face Hub 的强大模型生态，涵盖文本生成、图像处理等任务。AI Sheets 支持批量数据处理、实时协作和网络搜索集成，极大简化数据处理流程，适合技术用户和非技术用户。

AI Sheets的主要功能
- 无代码操作：提供类似 Excel 的界面，用户无需编写代码，基于自然语言提示（prompt）定义任务。
- 海量模型支持：集成 Hugging Face Hub 的数千种开源模型，涵盖文本生成、图像处理等任务。
- 灵活部署：支持本地运行和在线使用，数据支持保留在本地，确保隐私。
- 批量数据处理：能高效处理大规模数据，支持批量标注和增强。
- 实时协作：支持多用户实时编辑数据集，加速团队协作。
- 网络搜索集成：自动搜索网络信息填充数据集，提升数据丰富度。
AI Sheets的项目地址
- 项目官网：https://huggingface.co/blog/aisheets
- GitHub仓库：https://github.com/huggingface/aisheets
- 在线体验Demo：https://huggingface.co/spaces/aisheets/sheets
如何使用AI Sheets
- 在线体验：直接访问AI Sheets在线Demo体验地址，在浏览器中试用 AI Sheets，无需安装或配置，。
- Docker 部署：
  - 获取 Hugging Face Token：访问 Hugging Face 设置页面。运行以下命令：
export HF_TOKEN=your_token_here docker run -p 3000:3000 \ -e HF_TOKEN=$HF_TOKEN \ huggingface/aisheets
- - 在浏览器中访问 http://localhost:3000。
- 本地部署：
  - 安装 Node.js 和 pnpm。克隆项目：
git clone https://github.com/huggingface/sheets.git cd sheets
- - 设置环境变量并安装依赖：
export HF_TOKEN=your_token_here pnpm install
- - 启动开发服务器：
pnpm dev
- - 在浏览器中访问 http://localhost:5173。
- 生产环境部署：
  - 构建生产应用：
pnpm build
- - 启动生产服务器：
export HF_TOKEN=your_token_here pnpm serve
- - 在浏览器中访问 http://localhost:3000。
AI Sheets的应用场景
- 内容创作：生成带有描述和图像的产品目录，快速创建内容丰富的故事数据集，为电影、产品或服务构建评论集合。
- 数据分析和研究：从网络来源编译研究数据集，将非结构化内容转换为结构化数据，生成用在测试和开发的合成数据集。
- 商业应用：构建带有 AI 生成档案的客户数据集，创建用在营销的文本和图像内容，为机器学习模型生成训练数据。
- 教育和培训：生成用于教学的文本、图像和视频内容，帮助学生快速生成项目所需的数据集。
- 个人项目：生成博客文章的草稿和配图，创建个人兴趣项目的数据集，如旅行计划或收藏品目录。
August 12, 2025
Matrix-3D – 昆仑万维开源的3D世界模型
Matrix-3D是什么

Matrix-3D 是昆仑万维 Skywork AI 团队推出的用在生成可探索全景3D世界的框架。框架结合全景视频生成与3D重建，从单图像或文本提示出发，生成高质量、全向可探索的3D场景。基于轨迹引导的全景视频扩散模型和两种3D重建方法（快速前馈网络与高质量优化方法），Matrix-3D 实现大范围、高一致性的3D场景生成，支持文本和图像输入，具备高效性和强泛化能力。框架配套的 Matrix-Pano 数据集为研究提供有力支持。

Matrix-3D的主要功能
- 全景视频生成：从单张图像或文本提示生成高质量全景视频，支持用户自定义相机轨迹。
- 3D场景重建：提供快速前馈网络和高质量优化方法两种3D重建方式，满足不同需求。
- 多种输入支持：支持文本和图像输入，用户根据需求选择，生成对应的3D场景。
- 大范围场景生成：生成的3D场景范围大，支持360°自由探索，探索范围优于其他方法。
- 高度可控性：用户能自定义生成轨迹，能在已生成场景基础上无限续写扩展。
Matrix-3D的技术原理
- 轨迹引导的全景视频生成：用场景网格（Mesh）渲染图作为条件输入，训练一个视频扩散模型。模型根据用户定义的相机轨迹生成全景视频，确保生成内容的空间一致性和几何准确性。
- 全景视频到3D场景的转换：基于 Transformer 架构，直接从生成的全景视频的 latent 特征中预测3D几何属性。实现快速3D场景重建，适合实时应用。
- 优化方法（Optimization-based）：对生成的全景视频进行超分辨率处理和3D Gaussian Splatting 优化。生成高质量、细节丰富的3D场景，适合对视觉质量要求较高的场景。
- Matrix-Pano 数据集：为解决现有3D场景数据稀缺的问题，Matrix-3D 提供一个大规模合成数据集。包含116,759个高质量静态全景视频序列，每个序列都带有相机轨迹和注释。数据集的多样性和高质量为模型训练提供了有力支持。
- 全景表示：用全景图作为中间表示，覆盖360°水平视角和180°垂直视角。基于多个位置的全景图拼接生成全景视频，包含3D世界生成所需的所有信息。
Matrix-3D的项目地址
- 项目官网：https://matrix-3d.github.io/
- GitHub仓库：https://github.com/SkyworkAI/Matrix-3D
- HuggingFace模型库：https://huggingface.co/Skywork/Matrix-3D
- 技术论文：https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf
Matrix-3D的应用场景
- 游戏开发：快速生成高质量3D游戏场景，缩短开发周期，提升玩家个性化体验。
- 影视制作：生成逼真虚拟场景和特效，降低拍摄成本，助力故事板设计与场景预览。
- 虚拟现实（VR）和增强现实（AR）：Matrix-3D生成的全景3D场景支持360°自由探索，可用在虚拟旅游和AR应用，提升沉浸感。
- 机器人导航与自动驾驶：生成复杂3D环境，用在机器人导航和自动驾驶系统的训练与测试，提升决策安全性。
- 教育与培训：生成虚拟实验室和逼真训练场景，用在教育和技能培训，提高效果。
August 12, 2025
RynnEC – 阿里达摩院推出的世界理解模型
RynnEC是什么

RynnEC是阿里巴巴达摩院推出的世界理解模型（MLLM），专门用在具身认知任务。模型能从位置、功能、数量等11个维度全面解析场景中的物体，支持物体理解、空间理解以及视频目标分割等功能。RynnEC仅靠视频序列能建立连续的空间感知，无需3D模型，支持灵活交互。RynnEC为具身智能提供强大的语义理解能力，助力机器人更好地理解物理世界。

RynnEC的主要功能
- 物体理解：RynnEC能从多个维度（如位置、功能、数量等）解析场景中的物体，支持对物体的详细描述和分类。
- 空间理解：基于视频序列建立连续的空间感知，支持3D感知，理解物体之间的空间关系。
- 视频目标分割：根据文本指令实现视频中的目标分割，支持对特定区域或物体的精确标注。
- 灵活交互：支持基于自然语言的交互，用户通过指令与模型进行实时沟通，获取反馈。
RynnEC的技术原理
- 多模态融合：将视频数据（包括图像和视频序列）与自然语言文本相结合，通过多模态融合技术，让模型能同时处理视觉和语言信息。用视频编码器（如 SigLIP-NaViT）提取视频特征，再用语言模型进行语义理解。
- 空间感知：模型基于视频序列建立连续的空间感知，无需额外的3D模型。用时间序列信息和空间关系建模技术，让模型理解物体在空间中的位置和运动。
- 目标分割：基于文本指令引导的视频目标分割技术，模型能根据用户的指令识别和分割视频中的特定目标。用掩码（mask）和区域标注技术，实现对视频帧中特定区域的精确分割。
- 训练与优化：RynnEC 用大规模的标注数据进行训练，包括图像问答、视频问答和视频目标问答等多种格式。采用分阶段训练策略，逐步优化模型的多模态理解和生成能力。支持 LORA（Low-Rank Adaptation）技术，基于合并权重进一步优化模型性能。
RynnEC的项目地址
- GitHub仓库：https://github.com/alibaba-damo-academy/RynnEC/
RynnEC的应用场景
- 家庭服务机器人：助力家庭机器人理解指令，精准定位并操作家庭环境中的物品，如“拿遥控器”，提升家居自动化水平。
- 工业自动化：在工业场景中，帮助机器人识别和操作生产线上的物体，完成复杂任务，如“将红色零件放在蓝色托盘上”，提高生产效率。
- 智能安防：通过视频监控实时跟踪目标，如“监控红色车辆”，增强安防系统的智能化和响应能力。
- 医疗辅助：使医疗机器人能理解指令并执行任务，如“送药品到病房302”，提升医疗服务的精准性和效率。
- 教育培训：通过视频分割技术辅助教学，如“显示细胞结构”，增强学生对复杂概念的理解和学习体验。
August 12, 2025
RynnRCP – 阿里达摩院开源的机器人上下文协议
RynnRCP是什么

RynnRCP 是阿里达摩院开源的机器人上下文协议（Robotics Context Protocol），能打通具身智能开发全流程。RynnRCP 包含 RCP 框架和 RobotMotion 两大模块，前者提供机器人本体与传感器的标准化能力接口；后者作为云推理与机器人控制的桥梁，将低频推理命令转换为高频控制信号。RynnRCP 通过标准化协议和工具，降低开发门槛，助力具身智能从数据采集到动作执行的高效适配与实现。

RynnRCP的主要功能
- RCP 框架：
  - 能力抽象：提供机器人本体和传感器的能力抽象，将复杂的硬件接口封装为标准化的服务接口，方便开发者调用。
  - 多协议支持：支持多种通信协议（如 MQTT、WebSocket、LCM 等），实现机器人与云平台、边缘设备之间的高效通信。
  - 模块化设计：开发者根据需求扩展和定制服务节点，例如实现设备占用控制、资源调度和多客户端协作等功能。
  - 安全通信：配置文件仅存储设备认证元数据，运行时通过 HTTPS 安全通道生成时间敏感的访问令牌，确保通信安全。
- RobotMotion：
  - 低频到高频转换：将离散的低频推理命令实时转换为高频连续控制信号，确保机器人运动的平滑性和连贯性。
  - 仿真与调试工具：提供基于 MuJoCo 的物理仿真工具，支持仿真环境中的运动规划和验证，降低策略迁移难度。
  - 数据采集与回放：支持数据采集和回放功能，方便开发者对机器人运动轨迹进行可视化分析。
  - 真机调试：提供真机调试功能，支持在实际机器人上快速验证和优化控制策略。
- Camera Node：
  - 实时图像采集：用 OpenCV 实现多摄像头的实时图像采集，支持动态调整分辨率和帧率。
  - 无损压缩：基于 Gzip 对原始图像进行无损压缩，减少网络传输带宽消耗。
  - 异步处理：用 Python 的多线程能力，分离图像采集和消息响应，确保系统响应性和资源利用效率。
RynnRCP的技术原理
- 机器人上下文协议（RCP）：RCP 是一种标准化的通信协议，用在定义机器人本体、传感器和云平台之间的交互方式。基于抽象层将硬件接口封装为通用的服务接口，使不同硬件和模型之间能无缝对接。RCP 支持多种通信协议（如 MQTT、WebSocket、LCM 等），基于适配层实现协议之间的转换和兼容，确保数据传输的高效性和稳定性。用标准化的数据格式（如 Protobuf、LCM 消息类型）定义数据传输的内容和结构，便于开发者理解和使用。
- 模块化设计：RCP 框架用模块化设计，将机器人服务分为多个独立的模块（如 ActionServer、SensorServer、DeviceMonitorServer 等），每个模块负责特定的功能，开发者根据需求进行扩展和定制。提供统一的开发范式和基础模块，方便开发者快速上手，减少开发成本。
- 低频到高频转换：RobotMotion 模块通过实时控制算法，将离散的低频推理命令转换为高频连续控制信号，确保机器人运动的平滑性和连贯性。结合物理仿真工具（如 MuJoCo），对机器人运动进行规划和优化，确保运动轨迹符合物理约束。
RynnRCP的项目地址
- GitHub仓库：https://github.com/alibaba-damo-academy/RynnRCP
RynnRCP的应用场景
- 工业自动化：通过标准化协议和实时控制技术，实现工业生产线上机械臂的精确控制与任务执行，提升生产效率和产品质量。
- 物流仓储：在物流仓库中，控制AGV和机器人完成货物搬运与分拣任务，同时实时监控库存状态，优化物流流程。
- 服务机器人：支持家庭、酒店、餐厅等场景中的服务机器人，完成清洁、送餐、咨询等任务，提升服务效率和用户体验。
- 医疗康复：用在控制康复机器人，根据患者康复进度调整训练强度，同时支持手术辅助机器人提供高精度的手术支持。
- 农业与环境监测：控制农业机器人完成播种、灌溉、收割等任务，同时用在环境监测机器人实时采集和上传监测数据，助力农业生产和环境保护。
August 12, 2025
会PPT – AI PPT生成工具，自动校验数据准确性
会PPT是什么

会PPT（huiPPT）是智能AI办公工具，能一键生成PPT。用户只需输入主题或关键词，系统能快速生成逻辑清晰、设计精美的演示文稿。工具混合模型架构，结合本地和云端数据，自动匹配视觉资产，支持动态大纲、智能模板和实时风格迁移。适合职场人士、教师学生，能通过会PPT高效完成报告、课件或方案制作，节省时间和精力，重新定义高效办公。

会PPT的主要功能
- 一键生成PPT：用户输入主题或关键词，系统快速生成完整的PPT演示文稿。
- 智能内容创作：通过混合模型架构，结合本地和云端数据，生成逻辑清晰、内容丰富的PPT。
- 智能模板匹配：内置1200+种智能模板，支持实时风格迁移，满足不同场景需求。
- 动态大纲生成：采用动态大纲树算法，确保PPT内容逻辑自洽。
- 数据校验与美学评分：自动校验数据准确性，进行美学评分，提升PPT质量。
- 多种创作模式：
  - 主题生成模式：输入关键词，获取完整故事线。
  - 链接解析模式：抓取网页内容，自动提炼核心观点。
  - 文档转换模式：将Word/PDF文档快速转换为可视化演示文稿。
如何使用会PPT
- 访问官网：访问会PPT的官方网站：https://huippt.com/，选择在线使用或下载客户端。
- 注册账号：点击页面上的“注册”按钮，填写相关信息（如邮箱、密码等），完成账号注册。
- 登录平台：注册完成后，使用注册的账号和密码登录会PPT平台。
- 开始创作：登录后进入创作面板，输入主题或关键词，例如“人工智能伦理的思辨报告”或“新能源汽车行业分析”。
- 选择生成模式：根据需求选择生成模式。
- 调整和编辑：生成的PPT自动匹配智能模板，用户根据需求调整内容、样式和风格。会PPT支持全图层编辑，能自由修改文字、图片、颜色等。
- 保存和导出：完成编辑后，点击“保存”按钮保存PPT，或点击“导出”按钮将PPT导出为PPTX格式，方便在其他设备上使用。
会PPT的应用场景
- 企业办公：快速生成市场分析、项目汇报、培训材料和销售演示PPT，提升企业办公效率。
- 教育领域：教师快速制作教学课件，学生高效完成课堂报告和学术汇报PPT。
- 创意设计：设计师快速生成创意构思、设计提案和视觉设计PPT，提升设计效率。
- 个人使用：快速制作个人简历、旅行计划和生活记录PPT，方便个人展示和分享。
- 政府与非营利组织：快速生成政策解读、项目申报和公益宣传PPT，助力政策推广和项目执行。
August 12, 2025