Category: AI教程

AI工具集提供各种热门AI教程与学习资源,帮助你安装、运行、测试和使用各大热门AI工具。快速学习AI产品工具的使用技巧,掌握各种AI产品工具有趣又有用的玩法。

  • Anthropic发布《为智能体编写工具》官方教程

    Anthropic《为智能体编写工具》主要探讨如何为智能体编写有效的工具(tools)。文章指出,工具是连接确定性系统(如API)和非确定性AI代理的桥梁。详细介绍编写工具的三个关键步骤:构建原型、运行评估及与智能体合作优化工具。文章总结了编写有效工具的几个重要原则,需遵循精准性、命名空间、丰富上下文、令牌效率和清晰描述五大原则。通过这些方法,能提高工具的性能,使智能体在解决现实世界任务时更加高效。

    《为智能体编写工具》的核心内容

    智能体的效能完全取决于我们为其提供的工具。我们将分享如何编写高质量工具和评估方法,及如何通过使用Claude自我优化工具提升性能。

    模型上下文协议(MCP)能为LLM智能体配备数百种工具解决现实世界任务。如何使工具达到最大效能?

    本文将介绍在各类智能AI系统中提升性能的最有效技术。

    首先涵盖如何:

    • 构建和测试工具原型
    • 创建并运行智能体工具的全面评估
    • Claude Code等智能体协作,自动提升工具性能
    • 最后总结在此过程中发现的高质量工具编写关键原则:

    选择正确的工具进行实施(及不应实施的工具):

    • 通过命名空间界定明确的功能边界
    • 从工具返回有意义的上下文给智能体
    • 优化工具响应以提高令牌效率
    • 通过提示工程优化工具描述和规格

    什么是工具?

    在计算领域,确定性系统在给定相同输入时每次会产生相同输出,而非确定性系统,如智能体即使在相同起始条件下也能产生不同的响应。

    当我们传统地编写软件时,是在建立确定性系统之间的契约。例如,像getWeather(“NYC”)这样的函数调用,每次被调用时都用完全相同的方式获取纽约市的天气信息。

    工具是新型软件,反映了确定性系统与非确定性智能体之间的契约。当用户询问”我今天应该带伞吗?”时,智能体会调用天气工具,根据一般知识回答,甚至首先提出关于位置的澄清问题。智能体可能出现幻觉,无法掌握如何使用工具。

    在为智能体编写软件时,我们需要从根本上重新思考我们的方法:我们需要为智能体设计工具和MCP服务器,不是像为其他开发人员或系统编写函数和API那样编写它们。

    我们的目标是通过使用工具追求各种成功策略,增加智能体能有效解决广泛任务的范围。

    如何编写工具

    在本节中,我们将提供如何与智能体协作编写和改进提供给它们的工具。首先快速搭建工具原型、在本地进行测试。运行全面评估衡量后续更改。与智能体协同工作,能重复评估和改进工具的过程,直到智能体在现实任务中实现强劲性能。

    构建原型

    若不亲自实践,很难预测智能体觉得哪些工具符合人体工程学,哪些不会。快速搭建工具原型。如果使用Claude Code编写工具(可能一次性完成),最好为工具将依赖的任何软件库、API或SDK(包括MCP SDK)提供文档说明。在官方文档网站上能找到适合LLM的扁平化llms.txt文件(这是我们的API文档)。

    将工具包装在本地MCP服务器桌面扩展(DXT)中,将能在Claude Code或Claude桌面应用中连接和测试工具。

    要将本地MCP服务器连接到Claude Code,请运行 claude mcp add <名称> <命令> [参数…]。

    要将本地MCP服务器或DXT连接到Claude桌面应用,请分别导航至设置 > 开发者或设置 > 扩展。

    工具能直接传入Anthropic API调用中进行程序化测试。

    亲自测试工具识别不足之处。收集用户反馈,围绕期望工具能支持的用例和提示建立直观理解。

    运行评估

    接下来,需要通过运行评估衡量Claude使用工具的效果。基于实际使用场景生成大量评估任务。建议与智能体协作帮助分析结果、确定如何改进工具。请在我们的工具评估指南中查看此端到端过程。

    1.生成评估任务

    使用早期原型,Claude Code能快速探索工具、创建数十个提示和响应对。提示应受到实际使用场景的启发,基于真实的数据源和服务(例如,内部知识库和微服务)。我们建议避免使用过于简单或肤浅的”沙盒”环境,这些环境无法用足够的复杂性对工具进行压力测试。强大的评估任务需要多次工具调用——可能达到数十次。

    以下是一些强大任务的示例:

    • 与Jane安排下周会议讨论我们最新的Acme Corp项目。附上我们上次项目规划会议的记录、预订会议室。
    • 客户ID 9182报告称他们在一次购买尝试中被收取了三次费用。查找所有相关日志条目并确定是否有其他客户受到同一问题影响。
    • 客户Sarah Chen刚刚提交了取消请求。准备保留优惠。确定:(1)他们离开的原因,(2)哪种保留优惠最具吸引力,以及(3)在提供优惠前我们应该注意的任何风险因素。

    以下是一些较弱任务的示例:

    • 与jane@acme.corp安排下周会议。
    • 在支付日志中搜索purchase_complete和customer_id=9182。
    • 查找客户ID 45892的取消请求。

    每个评估提示都应配有一个可验证的响应或结果。验证器能简单到对真实答案和抽样响应进行精确字符串比较,或复杂到请Claude判断响应。避免使用过于严格的验证器,验证器会因格式、标点或有效的替代表述等虚假差异拒绝正确响应。

    对于每个提示-响应对,选择指定期望智能体在解决任务时调用的工具,衡量智能体在评估期间是否成功掌握每个工具的用途。由于可能存在多个正确解决任务的有效路径,请尽量避免过度指定或过度拟合策略。

    2.运行评估

    我们建议通过直接的LLM API调用以编程方式运行评估。使用简单的智能体循环(包装交替的LLM API和工具调用的while循环):每个评估任务一个循环。每个评估智能体被赋予单个任务提示和工具。

    在评估智能体的系统提示中,建议指示智能体输出结构化响应块(用于验证),还要输出推理和反馈块。指示智能体在工具调用和响应块之前输出这些内容,通过触发思维链(CoT)行为提高LLM的有效智能。

    如果使用Claude运行评估,开启交错思考获得类似的”开箱即用”功能。将帮助探究智能体为何调用或不调用某些工具,突出显示工具描述和规范中需要改进的具体领域。

    除顶级准确性外,建议收集其他指标,如单个工具调用和任务的总运行时间、工具调用总数、总令牌消耗量以及工具错误。跟踪工具调用能帮助揭示智能体追求的常见工作流程,为工具整合提供机会。

    3.分析结果

    智能体是发现问题和提供反馈的有用伙伴,涵盖从相互矛盾的工具描述到低效的工具实现和令人困惑的工具模式等各个方面。智能体在反馈和响应中省略的内容通常比包含的内容更重要。LLM不总是准确表达出它们的真实含义。

    观察智能体在哪些地方卡主或困惑。通读评估智能体的推理和反馈(或思维链)识别不足之处。审查原始记录(包括工具调用和工具响应)捕捉智能体思维链中未明确描述的任何行为。读懂字里行间的含义;记住评估智能体不一定知道正确答案和策略。

    分析工具调用指标。大量冗余的工具调用可能表明需要适当调整分页或令牌限制参数;大量无效参数的工具错误可能表明工具需要使用更清晰的描述或更好的示例。当我们推出Claude的网络搜索工具时,我们发现Claude不必要地在工具查询参数后附加2025,这偏斜了搜索结果、降低了性能(我们通过改进工具描述将Claude引导到正确方向)。

    4.与智能体协作

    您甚至可以让智能体分析结果、改进工具。只需将评估智能体的记录连接起来,粘贴到Claude Code中。Claude是分析记录和一次性重构大量工具的专家——例如,确保在进行新更改时工具实现和描述保持自一致。

    事实上,本文中的大部分建议都来自于使用Claude Code反复优化我们的内部工具实现。我们的评估建立在内部工作空间之上,反映我们内部工作流程的复杂性,包括真实项目、文档和消息。

    我们依赖保留的测试集确保不会过度拟合我们的”训练”评估。测试集表明,即使超越”专家”工具实现的性能,我们能提取额外的性能改进——无论工具是由我们的研究人员手动编写还是由Claude自身生成。

    在下一节中,我们将分享从这一过程中学到的一些经验。

    编写高效工具的原则

    在本节中,我们将所学知识提炼为一些编写高效工具的指导原则。

    为智能体选择合适的工具

    更多工具不总能带来更好的结果。我们观察到的一个常见错误是工具只包装了现有的软件功能或API端点——无论工具是否适合智能体。这是因为智能体与传统软件具有不同的”功能可见性”——他们感知并使用工具的方式与传统软件截然不同。

    LLM智能体具有有限的”上下文”(即它们一次能处理的信息量有限),计算机内存廉价且充足。以在地址簿中搜索联系人的任务为例。传统软件程序可以高效地逐个存储和处理联系人列表,在继续之前检查每个联系人。

    如果LLM智能体使用返回所有联系人的工具,必须逐个令牌地阅读每个联系人,它就在无关信息上浪费有限的上下文空间(想象一下通过从上到下阅读每一页来在地址簿中搜索联系人——即通过暴力搜索)。更好更自然的方法(对智能体和人类 alike)是首先跳到相关页面(也许按字母顺序找到它)。

    我们建议先构建少量经过深思熟虑的工具,针对高价值的工作流,这些工具与评估任务相匹配,在此基础上进行扩展。在地址簿案例中,选择实现search_contacts或message_contact工具,而不是简单的提供list_contacts工具。

    工具有整合能力,能在底层处理多个离散操作(或API调用)。例如,工具用相关元数据丰富工具响应,或在单个工具调用中处理经常链接的多步任务。

    以下是一些示例:

    • 与其实现 list_users、list_events 和 create_event 工具,不如考虑实现一个 schedule_event 工具,该工具可查找可用性、安排事件。
    • 与其实现 read_logs 工具,不如考虑实现一个 search_logs 工具,该工具仅返回相关日志行及一些周围上下文。
    • 与其实现 get_customer_by_id、list_transactions 和 list_notes 工具,不如实现一个 get_customer_context 工具,一次性编译客户所有近期相关信息。

    确保您构建的每个工具都具有明确独特的目的。工具应使智能体能以人类在获得相同底层资源时会采用的类似方式细分和解决任务,同时减少原本会被中间输出消耗的上下文。

    过多工具或功能重叠的工具也可能分散智能体追求高效策略的注意力。对构建(或不构建)哪些工具进行谨慎选择性规划确实能带来回报。

    为工具设置命名空间

    AI智能体可能会获得数十个MCP服务器和数百种不同工具的访问权限——包括其他开发人员提供的工具。当工具功能重叠或用途模糊时,智能体可能会困惑该使用哪些工具。

    命名空间(将相关工具分组在通用前缀下)有助于划分大量工具之间的界限;MCP客户端有时会默认执行此操作。例如,按服务(如 asana_search、jira_search)和按资源(如 asana_projects_search、asana_users_search)进行命名空间划分,帮助智能体在正确时间选择正确的工具。

    我们发现基于前缀和后缀的命名空间选择对我们的工具使用评估具有重要影响。效果因LLM而异,我们建议根据自己的评估选择命名方案。

    智能体可能调用错误工具、以错误参数调用正确工具、调用过少工具或错误处理工具响应。通过选择性实现名称反映任务自然细分的工具,能同时减少加载到智能体上下文中的工具和工具描述数量,将智能体计算从上下文卸载回工具调用本身。降低智能体犯错的整体风险。

    从工具返回有意义的上下文

    同样地,工具实现应注意仅向智能体返回高价值信息。应优先考虑上下文相关性而非灵活性,避开低级技术标识符(例如:uuid、256px_image_url、mime_type)。像name、image_url和file_type这样的字段更有可能直接指导智能体的下游行动和响应。

    智能体处理自然语言名称、术语或标识符的成功率显著高于处理晦涩标识符。我们发现,仅仅将任意字母数字UUID解析为更具语义意义和可解释性的语言(甚至是0索引ID方案),就能通过减少幻觉显著提高Claude在检索任务中的精确度。

    在某些情况下,智能体可能需要灵活地同时处理自然语言和技术标识符输出,哪怕只是为触发下游工具调用(例如,search_user(name=’jane’) → send_message(id=12345))。您可以通过在工具中暴露一个简单的response_format枚举参数来实现两者,让智能体控制工具返回”简洁”还是”详细”响应(下图)。

    您能添加更多格式以获得更大灵活性,类似于GraphQL,选择确切想要接收的信息片段。以下是一个控制工具响应详细程度的ResponseFormat枚举示例:

    enum ResponseFormat {
       DETAILED = "detailed",
       CONCISE = "concise"
    }

    以下是详细工具响应的示例(206 个 token):

    以下是简洁工具响应的示例(72 个 token):

    工具响应结构——例如XML、JSON或Markdown——也会对评估性能产生影响:不存在一刀切的解决方案。这是因为LLM是通过下一个令牌预测进行训练的,往往在与其训练数据匹配的格式上表现更好。最优响应结构会因任务和智能体的不同有很大差异。我们建议根据自己的评估选择最佳响应结构。

    优化工具响应的令牌效率

    优化上下文质量很重要。但优化工具响应中返回给智能体的上下文数量同样重要。

    我们建议为任何可能消耗大量上下文的工具响应实施分页、范围选择、过滤和/或截断的某种组合,设置合理的默认参数值。对于Claude Code,我们默认将工具响应限制为25,000个令牌。我们预计智能体的有效上下文长度会随时间增长,但对上下文高效工具的需求会始终存在。

    如果您选择截断响应,请务必通过有用的指令引导智能体。您可以直接鼓励智能体追求更节省令牌的策略,例如进行多次小型针对性搜索,不是为知识检索任务执行单次广泛搜索。如果工具调用引发错误(例如在输入验证期间),您可以通过提示工程设计错误响应,以清晰传达具体且可操作的改进建议,而不是提供晦涩难懂的错误代码或追溯信息。

    以下是一个截断工具响应的示例:

    以下是一个无用的错误响应示例:

    以下是一个有用的错误响应示例:

    现在我们来讨论改进工具的最有效方法之一:对工具描述和规格进行提示工程。由于这些内容会被加载到智能体的上下文中,它们可以共同引导智能体采取有效的工具调用行为。

    在编写工具描述和规格时,请设想如何向团队新成员描述您的工具。考虑可能隐式引入的上下文 —— 专用查询格式、专业术语的定义、底层资源之间的关系 —— 并将其明确化。通过清晰描述(通过严格数据模型强制执行)预期输入和输出来避免歧义。特别需要注意的是,输入参数的命名应明确无误:不要使用名为user的参数,尝试使用名为user_id的参数。

    通过评估,您可以更有信心地衡量提示工程的影响。即使对工具描述进行微小改进也能带来显著提升。在我们对工具描述进行精确改进后,Claude Sonnet 3.5在SWE-bench Verified评估中实现最先进的性能,显著降低错误率、提高任务完成度。

    在我们的开发者指南中能找到工具定义的其他最佳实践。如果您正在为Claude构建工具,我们建议阅读有关工具如何动态加载到Claude系统提示中的说明。如果您正在为MCP服务器编写工具,工具注释有助于披露哪些工具需要开放世界访问或进行破坏性更改。

    展望未来

    为构建有效的智能体工具,我们需要将软件开发实践从可预测的确定性模式重新定位到非确定性模式。

    通过本文描述的迭代式、评估驱动的过程,我们发现工具成功的一致模式:有效的工具具有清晰明确的定义,能合理地利用智能体上下文,能在多样化工作流中组合使用,使智能体能直观地解决现实世界任务。

    展望未来,预测智能体与世界交互的具体机制将不断发展——从MCP协议的更新到底层LLM本身的升级。通过采用系统化、评估驱动的方法改进智能体工具,能确保随着智能体能力不断增强,它们使用的工具也将同步发展。

    《为智能体编写工具》的官网地址

    • 官网地址:https://www.anthropic.com/engineering/writing-tools-for-agents

    《为智能体编写工具》的适用人群

    • 人工智能工程师和开发者:提供构建、测试和优化工具的具体方法,帮助提升智能体的性能和效率。
    • 数据科学家和机器学习专家:文章中的评估和优化技巧有助将模型与工具结合,提高系统整体性能。
    • 软件架构师:文章的高级指导帮助用户设计更高效、灵活的系统架构,将智能体和工具集成到现有系统中。
    • 产品经理:文章帮助用户理解工具开发的关键点,更好地规划产品功能和评估技术方案。
    • 研究人员:文章中的最佳实践和案例分析为用户的研究提供参考,助力探索新的研究方向。
  • 浙江大学《大模型基础》大模型基础教材(PDF文件)

    《大模型基础》全面介绍大语言模型(LLMs)的基础知识、架构设计、训练优化及应用实践。从语言模型的基础理论出发,深入探讨基于统计、RNN和Transformer的模型架构,重点分析大语言模型的架构类型(如Encoder-only、Encoder-Decoder、Decoder-only)及其代表模型(如BERT、T5、GPT系列)。书中详细讲解Prompt工程、参数高效微调、模型编辑和检索增强生成等关键技术,结合实际案例展示这些技术在不同场景中的应用。通过系统的学习和实践指导,帮助读者深入理解、有效应用大语言模型技术。

    获取《大模型基础》报告PDF原文件 扫码关注回复: 20250915

    语言模型基础

    • 基于统计方法的语言模型:介绍 n-gram 模型及其统计学原理(马尔可夫假设、极大似然估计)。
    • 基于RNN的语言模型:讲解循环神经网络(RNN)的结构、训练问题(梯度消失/爆炸)及其在语言建模中的应用。
    • 基于Transformer的语言模型:详细解析 Transformer 的架构(自注意力、FFN、层归一化、残差连接)及其在语言模型中的应用。
    • 语言模型的采样方法:包括贪心搜索、波束搜索、Top-K 采样、Top-P 采样、Temperature 机制等解码策略。
    • 语言模型的评测:介绍内在评测(如困惑度)和外在评测(如 BLEU、ROUGE、BERTScore、G-EVAL)。

    大语言模型架构

    • 大数据 + 大模型 → 新智能:分析模型规模与数据规模对模型能力的影响,介绍 Scaling Laws(Kaplan-McCandlish、Chinchilla)。
    • 大语言模型架构概览:对比 Encoder-only、Encoder-Decoder、Decoder-only 三种主流架构的注意力机制与适用任务。
    • Encoder-only 架构:以 BERT 为代表,介绍其结构、预训练任务(MLM、NSP)及衍生模型(RoBERTa、ALBERT、ELECTRA)。
    • Encoder-Decoder 架构:以 T5 和 BART 为例,介绍其统一文本生成框架和多样化的预训练任务。
    • Decoder-only 架构:详细介绍 GPT 系列(GPT-1 到 GPT-4)和 LLaMA 系列(LLaMA1/2/3)的发展与特点。
    • 非Transformer架构:介绍状态空间模型(SSM)如 RWKV、Mamba,以及测试时训练(TTT)范式。

    Prompt 工程

    • Prompt 工程简介:定义 Prompt 和 Prompt 工程,介绍分词与向量化过程(Tokenization、Embedding)。
    • 上下文学习(In-Context Learning, ICL):介绍零样本、单样本、少样本学习,示例选择策略(相似性、多样性)。
    • 思维链(Chain-of-Thought, CoT):讲解 CoT 的三种模式:按部就班(CoT、Zero-Shot CoT、Auto-CoT)、三思后行(ToT、GoT)、集思广益(Self-Consistency)。
    • Prompt 技巧:介绍包括规范 Prompt 编写、合理归纳提问、适时使用 CoT、善用心理暗示(角色扮演、情景代入)。
    • 相关应用:介绍涵盖基于大模型的智能体(Agent)、数据合成、Text-to-SQL、GPTS 等。

    参数高效微调

    • 参数高效微调简介:介绍下游任务适配的两种主流方法——上下文学习和指令微调,引出参数高效微调(PEFT)技术,阐述在降低成本和提高效率方面的优势。
    • 参数附加方法:详细介绍通过在模型结构中附加新的、较小的可训练模块来实现高效微调的方法,包括加在输入(如Prompt-tuning)、加在模型(如Prefix-tuning和Adapter-tuning)和加在输出(如Proxy-tuning)的实现和优势。
    • 参数选择方法:介绍仅选择模型的一部分参数进行微调的方法,分为基于规则的方法(如BitFit)和基于学习的方法(如Child-tuning),通过选择性更新参数减少计算负担、提升模型性能。
    • 低秩适配方法:详细介绍通过低秩矩阵近似原始权重更新矩阵实现高效微调的方法,重点介绍LoRA及变体(如ReLoRA、AdaLoRA和DoRA),讨论LoRA的参数效率和任务泛化能力。
    • 实践与应用:介绍HF-PEFT框架的使用方法和相关技巧,展示PEFT技术在表格数据查询和表格数据分析中的应用案例,证明PEFT在提升大模型特定任务性能方面的有效性。

    模型编辑

    • 模型编辑简介:介绍模型编辑的思想、定义和性质,阐述模型编辑在纠正大语言模型中的偏见、毒性和知识错误等方面的重要性。
    • 模型编辑经典方法:将模型编辑方法分为外部拓展法(如知识缓存法和附加参数法)和内部修改法(如元学习法和定位编辑法),介绍每类方法的代表性工作。
    • 附加参数法:T-Patcher:详细介绍T-Patcher方法,通过在模型中附加特定参数来实现对模型输出的精确控制,适用需要快速、精准修正模型特定知识点的场景。
    • 定位编辑法:ROME:详细介绍ROME方法,通过定位和修改模型内部特定层或神经元实现对模型输出的精确控制,适用需要深度修改模型内部知识结构的场景。
    • 模型编辑应用:介绍模型编辑在精准模型更新、保护被遗忘权和提升模型安全等方面的实际应用,展示模型编辑技术在不同场景中的应用潜能。

    检索增强生成

    • 检索增强生成简介:介绍检索增强生成的背景和组成,阐述在自然语言处理任务中通过结合检索和生成来提升模型性能的重要性和应用场景。
    • 检索增强生成架构:介绍RAG架构分类、黑盒增强架构和白盒增强架构,对比分析不同架构的特点和适用场景。
    • 知识检索:介绍知识库构建、查询增强、检索器和检索效率增强的方法,及如何通过检索结果重排提升检索效果。
    • 生成增强:介绍何时增强、何处增强、多次增强和降本增效的方法,讨论生成增强在不同任务中的应用策略。
    • 实践与应用:介绍搭建简单RAG系统的步骤,展示RAG在典型应用中的案例,帮助读者理解和应用检索增强生成技术。

    获取《大模型基础》报告PDF原文件 扫码关注回复: 20250915

  • 《AI Agents图解指南》全景技术报告(PDF文件)

    《AI Agents图解指南》是Avi Chawla和Akshay Pachaar编写的,能帮助读者理解和构建AI Agents。详细介绍AI Agents的定义、与LLM和RAG的区别,及构建AI Agents的六个基本要素(角色扮演、专注任务、工具使用、合作、护栏和记忆)。探讨了AI Agents的五个设计模式和五个层次,提供多个实际项目案例,如Agentic RAG、语音RAG Agent、多Agent航班搜索等,涵盖技术栈、工作流程和代码示例。本指南是AI领域从业者的实用手册,适合希望深入了解和应用AI Agents的读者。

    获取《AI Agents图解指南》报告PDF原文件 扫码关注回复: 20250914

    AI Agents简介

    • 定义:AI Agents是能自主推理、思考、规划、从相关来源提取信息、采取行动,在必要时自我纠正的自主系统。
    • 与LLM(大型语言模型)和RAG(检索增强型生成)的区别
      • LLM:像GPT-4这样的模型,基于大量文本数据训练,能够推理、生成和总结,但仅限于其训练数据。
      • RAG:通过检索外部文档(如向量数据库、搜索引擎等),将它们作为上下文输入到LLM中,增强LLM的能力。
      • AI Agents:在LLM的基础上增加自主性,决定采取哪些步骤,例如调用工具、搜索网络、总结或存储信息。

    构建AI Agents的六个基本要素

    • 角色扮演(Role-playing):为AI Agents分配清晰、具体的角色,提高其性能。例如,将AI定义为“高级合同律师”使其回答更具法律精确性。
    • 专注/任务(Focus/Tasks):专注于特定任务可以减少幻觉(hallucinations)提高性能。使用多个专门的Agent,避免让一个AI Agent做太多事情,。
    • 工具(Tools):AI Agents通过使用工具变得更智能。工具支持Agent搜索网络、从API和数据库中检索结构化信息、执行代码等。
    • 合作(Cooperation):多Agent系统通过合作和交换反馈效果最好。例如,在金融分析系统中,一个Agent收集数据,另一个评估风险,第三个制定策略,第四个撰写报告。
    • 护栏(Guardrails):限制Agent的行为,确保保持在正确的轨道上。例如,限制工具使用、设置验证检查点、建立回退机制等。
    • 记忆(Memory):记忆是AI Agents的关键组成部分,支持Agent记住过去的互动,随着时间的推移改进,创建更连贯的对话。

    AI Agents的五个设计模式

    • 反思模式(Reflection Pattern):AI审查自己的工作,发现错误并迭代,直到产生最终响应。
    • 工具使用模式(Tool Use Pattern):AI通过查询向量数据库、执行Python脚本、调用API等方式获取更多信息。
    • ReAct(Reason and Act)模式:Agent在生成输出后进行反思,并使用工具与世界互动。它在思考、行动和观察之间循环,直到找到解决方案。
    • 规划模式(Planning Pattern):AI创建路线图,细分任务并概述目标,更有效地解决问题。
    • 多Agent模式(Multi-Agent Pattern):多个Agent协同工作,每个Agent都有特定的角色和任务,共同完成最终结果。

    五级智能体系统

    • 基本响应者(Basic Responder):人类指导整个流程,LLM只是接收输入并产生输出的通用响应者。
    • 路由器模式(Router Pattern):人类定义流程中存在的路径/函数,LLM决定能采取哪条路径。
    • 工具调用(Tool Calling):人类定义LLM可以访问的工具集,LLM决定何时使用它们及使用哪些参数。
    • 多Agent模式(Multi-Agent Pattern):管理Agent协调多个子Agent,决定下一步行动。
    • 自主模式(Autonomous Pattern):LLM独立生成和执行新代码,有效地作为一个独立的AI开发者。

    12个AI Agents项目案例

    • Agentic RAG:构建具有动态从不同来源获取上下文能力的RAG管道。
    • 语音RAG Agent:构建一个实时语音交互的AI应用。
    • 多Agent航班搜索:解析自然语言查询并从Kayak获取实时结果的航班搜索管道。
    • 金融分析师:从Cursor或Claude获取、分析并生成股票市场趋势洞察的AI Agent。
    • 品牌监控系统:抓取网络提及并产生关于公司的洞察的多Agent品牌监控应用。
    • 多Agent酒店查找器:解析旅行查询,从Kayak获取实时航班和酒店数据,并总结最佳选项。
    • 多Agent深度研究者:构建一个100%本地化的ChatGPT深度研究功能替代品。
    • 具有人类记忆的AI Agent:构建具有人类记忆的AI Agent,以解决生产中的问题。
    • 多Agent书籍撰写者:构建一个从3-5个单词的书籍主题生成20,000字书籍的Agentic工作流。
    • 多Agent内容创作系统:构建一个将任何URL转换为社交媒体帖子并通过Typefully自动安排的Agentic工作流。
    • 文档撰写流程:构建一个从GitHub仓库URL生成完整项目文档的Agentic工作流。
    • 新闻生成器:构建一个将用户查询转换为精心撰写的新闻文章的AI新闻生成器。

    获取《AI Agents图解指南》报告PDF原文件 扫码关注回复: 20250914

  • 纳米P视频 – 纳米AI推出的一句话P视频智能体

    这几天 Nano Banana 把P图玩出花了,没想到纳米AI更牛,直接就能P视频。

    一句话,换主角、换商品、改场景、改音效、对口型,纳米P视频智能体和AI视频编辑器无缝链接,不再需要繁琐的软件切换就能实现高质量视频的一站式生成,效率拉满!

    从此以后,人人都是视频剪辑加特效师。

     

    01. 如何一句话P视频

     

    我们打开纳米AI,在左侧导航栏中选择智能体,选择纳米P视频。

    官网:https://n.cn/

    在对话框输入P视频的需求。

    比如,我们点击上传图片,上传这两张图片:

    在描述修改要求中补充:

    女孩由油画逐渐变为现实,身后的场景从纯黑变为室内,极简轻奢风。女孩微笑着介绍手里的耳环。

    生成的视频变换效果非常自然,还配上了音效。

    不同于 Nano Banana 的P图,纳米AI 在草图的基础上直接生成视频,玩法非常多样。

    比如根据人物图片,生成剧情。上传图片,补充描述:

    照片中的两个人,并排坐在摩天轮上,手挽着手,有说有笑,镜头逐渐拉远,展现整个城市的街景。

    就可以生成一个有故事感的短片:

    人物的一致性保持的很好,表情动作也很自然,是不是很适合做AI短剧?

    视频可以P人物,当然也可以P产品。比如我们做产品宣传的短视频,可以直接上传两张图片,补充描述:

    女孩在甜品店,对着镜头展示图中的甜品,连连夸赞。

    最后就得到了一条非常流畅的口播展示视频:

    可以看出画面的一致性是非常强的,背景不仅真实感拉满,还与主题完美呼应。

    纳米AI还自动添加了一个运镜效果,产品展示不仅更清晰,还透着真人实拍般的自然质感。

    除了上传图片,联网搜的作用在此刻彻底具象化了,我第一次知道联网搜还能这么玩。

    比如我输入帮我搜索甄嬛传甄嬛跳惊鸿舞的名场面,描述修改要求:

    变成迪士尼卡通风格。并将编辑后图片生成视频。

    纳米AI参考了网上众多参考图片之后,给我生成了这张迪士尼风格图。甄嬛跳舞的服装、装饰,还有背景中的人物都很还原。

    然后一键转成视频,纳米AI又生成了这个视频:

    人物跳舞的动作不仅多变还很流畅~

     

    02. P视频专业版

     

    除了P这种有意思的小视频,我们也可以P专业大片。

    以广告片为例,过去我们做个AI广告片,需要反复抽卡,再去不同平台合成、剪辑,很麻烦。

    现在我们可以逐帧精P,一站式的处理视频的各种问题,告别抽卡。

    我们选择一句话生成大片智能体。

    先输入需求:

    提示词:生成榴莲蛋挞的广告宣传片,展示榴莲蛋挞的完整制作过程。

    纳米AI会自动调用智能体,先确认具体要求,比如画面比例和风格。再逐步完成脚本文案、图片、视频、配音、背景音乐和剪辑,最终交付完整的视频内容。

    生成的成片有一分半左右,整体效果还是不错的,不过有部分画面不太符合我的预期。

    比如在开头的视频画面中,有两个问题:人物手部细节没处理好,人物说话口型没有对上。

    我们点击视频下方的去编辑视频,进入P视频专业版画布冲,选择编辑素材,修改画面。

    在这个画布中调整提示词,先把首帧图片中人物的手型修正。点击首帧图片,选择【局部编辑】,输入以下提示词生成新图:

    女孩双手五指张开,做出打招呼的手势。

    点击生成好的图片,在工具中选择图转视频,复制下方原视频生成提示词,点击开始转视频。

    这样视频画面中手部的问题就修复好了~

    不过人物口型和声音还是不同步的,我们继续点击生成好的视频,选择角色对口型。

    视频调整合适之后,我们直接点击应用该视频,就可以替换掉原视频中的片段。

    在有多个片段的视频中,每一小段视频片段、文案、配音都可以单独编辑。

    我们找到原视频中有瑕疵的内容,可以精准地进行局部修改。

    一起欣赏下成片吧:

     

    03. 一些分享

     

    从P图到P视频,AI玩法不断进化,使用门槛不断降低,从小白到创作者的门槛彻底消失,人人都能是导演。

    过去用AI做视频,要写脚本,生成分镜图,再生成画面、配音、对口型,加音效、剪辑,步骤繁琐,还需要反复抽卡,积分消耗更是让人直呼用不起。

    现在纳米AI直接给出了一个高效又实惠的解法,视频生产方式或许将被彻底改写。

    未来的创作,不再是软件 + 人,而是智能体 + 想法。如果说以前需要团队花1周才能拍的片子,现在也许一杯咖啡的时间,一个人就能搞定。

    电商展示更高效、广告创意更灵活、短剧、动漫制作节奏被加速。相信纳米AI只是颠覆的开始,未来的视频产业链会因为智能体的普及而重构。

    原文链接:你还在香蕉P图?纳米AI已经可以一句话P视频了!

  • 字节Seedream 4.0教程和玩法,比 Nano Banana 更懂中文

    上个月,谷歌生图模型 Nano Banana 横空出世,能遵循复杂指令、保持一致性,还能保持上下文细节。让不少人直呼这货补齐了AI绘画的最后一块拼图,Gemini 真无敌了…

    但玩过一阵子的朋友也知道,这玩意有个硬伤——中文理解能力一般,而且对中文文本渲染还各种乱码。。。

    昨天,字节跳动正式推出了 Seedream4.0,同一模型实现文生图、多图参考和组图生成,硬刚 Nano Banana。

    特别在中文的语义理解上,是完胜谷歌Nano Banana模型的。Nano Banana全网最全玩法大全(附4个免费白嫖方法)

    玩了一天,梳理了几种最典型最实用的10种玩法,接下来我们一起看看吧。

     

    01. 如何使用Seedream 4.0

     

    本次测评K姐主要用到即梦,在图片生成模式下,选择图片4.0模型。

    官网:https://jimeng.jianying.com

    这里用到的就是Seedream 4.0模型。

    即梦的智能参考功能里,支持选定编辑区域,可以做到非常精准的局部修改。

     

    02. 玩转像素级编辑

     

    一键生成手办

    Nano Banana 最热门的玩法之一就是一键生成手办,我们一起看看 Seedream4.0 在这一块的表现。

    上传一张照片,输入以下提示词:

    提示词:绘制图中角色得1/7比例的商业化手办,写实风格,真实环境。手办放在电脑桌上,圆形透明亚克力底座。电脑屏幕上的内容为该手办的C4D建模过程,电脑屏幕旁放着印有原画的BANDAI风格的塑料玩具包装盒,确保所有元素与参考图像保持一致。

    生成的手办图片非常真实,人物姿态、五官、表情、服饰、拍摄角度等细节都和原图一致。

    K姐尝试过,写实、二次元各种风格都能玩~还可以给宠物也安排上。

    模特试穿

    还是上面的模特,我们可以一句话生成各种服饰试穿的效果。

    提示词:给图1的女生换上图2(下图)中的套装

    用同样的方式,可以让她继续换上鞋、包、配饰。

    提示词:

    单次做多处修改,Seedream4.0 的表现也非常优秀,人物、产品的一致性大部分保持得很好。

    包包、手链的细节,就连鞋子上的搭扣装饰都还原了,不过,眼镜的识别还不太精准。

    我们还可以让模特参考各种姿势拍照。

    提示词:图1中的人物参考图2的姿势拍照。

    姿势参考图:

    生成的效果:

    一个模特,任意产品,各种姿势展示…免费的 AI 模特这不就有了吗?又节约时间又节约钱。

    K姐实测下来发现,模特和姿势参考图是同一景别效果会更好;比如我用的是模特全身照,参考姿势也是全身照,效果就很不错,参考姿势是半身照的情况下,Seedream4.0 会自行脑补下半身的动作。

    仿妆

    提示词:给图1的女生化上图2的妆容,不改变人物面部的特征

    妆容复刻之后,人物的姿态、五官都还是原图中的样子,额头的花钿画得和参考图几乎一摸一样,整体复刻的很不错~不过眼影的颜色略重。

    九宫格表情包

    提示词:参考图片形象生成包含各种情绪的表情包,没有眼部表情,眼睛部分被AR眼镜的简约线条代替。

    提示词:参考图像生成具有夸张动态的充满萌趣的动漫风格可爱表情包,每个表情都栩栩如生,生动形象地传达出丰富情感,极具收藏价值,整体风格保持一致。

    品牌设计

    提示词:参考这个LOGO,做一套治愈系毛绒玩具品牌视觉设计,品牌名称为“Kjie”,包括包装袋、纸盒、卡片、手环、挂绳等。黄色视觉主色调,萌系美学。

    多角度商品图

    提示词:生成三视图

    一键生成多场景实拍图

    提示词:生成多场景实拍,如:沙发,展示柜

    复刻海报风格

    提示词:参照这个样式做一版立春的海报。

    Seedream4.0 将标题、海报中的文字内容都做了替换,背景中的银杏叶也改成了符合春天的柳条,语意理解很强。

    装修

    提示词:参考图2的风格给图1装修

    Seedream4.0 对空间的理解挺强的,生成的装修效果图中,窗户、墙体的位置、视角与原图完全一致。好看的室内设计图,都可以直接套在自己家,看看合不合适,非常省心~

    连环漫画

    提示词:参考图片形象,分别生成20张漫画,比如: 1. 男孩和女孩坐在客厅聊天 2. 男孩在厨房做饭,女孩在旁边陪伴 3. 男孩和女孩在逛街

    即梦单次也可以生成多张图像,比如我们在提示词中输入>4张的生图需求时,即梦会先生成4张,并在图像下方询问,是否继续生成剩下的图片。

    不过单次最多生成13张,我们点击继续生成。

     

    03. 一些分享

     

    总体使用下来,Seedream 4.0 的生成质量挺高的,风格控制能力也非常好,稍微复杂一点的场景用起来也没问题,就是有的时候局部细节还会有点瑕疵。

    但是我觉得对于设计师、内容创作者来说已经是能用的状态了,做点海报啥的都非常方便。

    Seedream 4.0 的定位是从生成到编辑的一站式图像创作模型,它将文生图(T2I)与图像编辑(SeedEdit)整合进统一的 DiT 架构,并在 SFT 和 RLHF 阶段采用联合训练,显著提升指令遵循与美学表现。

    通过引入微调版 SeedVLM,赋予了模型世界知识和上下文理解能力,让模型在逻辑推理、物理约束和常识判断能力更强。

    这一系列的操作成功的把图像生成推向了产品化,AI 图像内容生成不再是低质与低效的代名词。

    原文链接:比 Nano Banana 更懂中文,字节最新生图模型惊艳到我了!附10个实测玩法

  • 谷歌推出AI产品设计指南《The People + Al Guidebook》

    《The People + Al Guidebook》是Google推出的,帮助设计师和开发者创建以人为本的AI产品开发。指南系统化地提供从用户需求定义、心智模型管理到信任建立、错误处理等六大核心维度的方法论,配备具体的设计模式、工作坊方案和实战案例。《The People + Al Guidebook》能帮助团队平衡技术能力与用户体验,提供经过Google产品验证的实践工具,助力开发者构建可靠、透明且易于协作的AI系统,是AI产品设计领域的权威参考框架。

    核心内容

    《The People + Al Guidebook》的基石是哲学转变:AI 产品的目标不是追求更高的准确率或更快的速度,是增强人的能力,服务于人的需求。指南强调,AI 系统是“与人共舞”的伙伴。设计的重心在于如何让协作关系变得自然、可信和高效。

    六大核心维度

    • 用户需求与成功定义:强调深入理解用户真实需求的重要性,不只关注技术实现。提供将用户目标转化为可衡量指标的方法,帮助团队建立兼顾技术效能与用户体验的双重成功标准。通过明确的成功定义,确保产品开发始终以用户价值为导向。
    • 心智模型与期望:探讨用户如何理解AI系统的工作原理,及如何通过设计引导形成准确预期。提供管理用户期望的具体策略,确保系统能力与用户认知之间保持协调一致,能有助于减少用户困惑,提升产品可用性。
    • 信任与解释:重点阐述如何通过透明化和可解释性设计来建立用户信任。提供多层次解释框架,让用户理解系统决策,保持对技术的信心,设计原则对于构建可信赖的AI系统至关重要。
    • 错误与优雅的降级:探讨AI系统出错的必然性及如何将错误转化为积极体验。提供从错误预防到恢复的完整策略,确保系统优雅地处理失败情况。通过精心设计的容错机制,维护用户体验的连贯性。
    • 数据收集:讨论高质量数据收集的重要性和方法,涵盖从数据获取到质量评估的全过程。强调数据伦理和隐私保护,确保负责任的数据实践,帮助团队构建可靠的数据基础。
    • 反馈与控制:探讨如何设计有效的用户反馈机制,让用户能影响和改进系统表现。提供在自动化与用户控制之间寻找最佳平衡点的实用方案,赋予用户适当的控制权,增强产品互动性。

    核心亮点与特色

    • 极强的实践性:指南提供具体的设计模式(Patterns),例如如何展示置信度、如何设计反馈按钮等,设计师能直接借鉴。
    • 丰富的辅助资源:包含术语表(统一团队语言)、工作坊指南(帮助团队协作落地)、案例研究(展示Google产品如何应用这些原则),形成一个立体的学习生态系统。
    • 前瞻性与权威性:指南源于Google内部多年的一线实践和研究成果,集中体现行业领先者对于“负责任AI”和“人本AI”的思考,具有很高的参考价值。

    《The People + Al Guidebook》官网地址

    https://pair.withgoogle.com/guidebook/

    总结

    《The People + Al Guidebook》为AI产品开发提供完整的方法论体系,帮助团队打造技术先进且人性化的智能产品。这份指南是连接技术创新与用户体验的重要桥梁,值得所有AI产品开发者深入学习和应用。通过实践其中的原则和方法,团队能构建出更负责任、更可信赖的AI系统。

  • 《2025新智元ASI前沿趋势报告》(PDF文件)

    《2025新智元ASI前沿趋势报告》指出,人工智能正加速发展,2027年有望达到ASI(人工超级智能)临界点。报告强调,大模型智能正全方位跃迁,智能体将大爆发,世界模型和具身智能等新范式将开启虚拟宇宙之门,推动数字生命步入物理现实。同时,全球数据中心和AI的能源需求激增,中国在AI专利和人才储备上优势明显,OpenAI等巨头引领投资热潮,AI企业价值飙升。新智元发布了2025年AI产业图谱,评选出企业和产品创新大奖,表彰行业先锋。

    获取《2025新智元ASI前沿趋势报告》报告PDF原文件 扫码关注回复: 20250908

    ASI新天终启

    2027年预测

    报告开宗明义,指出2025年是人类迈向ASI(Artificial Superintelligence)的关键临界点,预测2027年将正式迎来ASI的曙光,被描述为一次“新创世”(A New Genesis),文明将因此进入由超智能主导的全新纪元。

    核心依据

    • 智能增长的指数加速:AI智能体独立完成人类任务的时长能力每约7个月翻一番(类似“AI领域的摩尔定律”)。GPT-5在软件工程任务上已能达到“50%成功率时间视域”为2小时17分钟,预计到2027年底,AI将能独立执行耗时数周的人类项目。
    • 模型迭代周期极速缩短:全球大模型迭代周期已缩短至2-3个月。未来由数亿块GPU训练的超级模型将直接推动ASI的诞生。
    • 智力测试全面超越人类:顶尖模型(如GPT-5 Pro智商148,Gemini 2.5 Pro智商138)在多项顶级人类智力测试(如IMO、IOI、Mensa)中已达到甚至远超人类金牌水平。

    ASI万象智生

    报告预测,ASI的到来将催生三大革命性范式,重塑现实:

    • 智能体大爆发:2025年被视为智能体的爆发之年,AI将接管程序员的工作,实现99%的自动化编码。顶尖公司用AI自我加速,自我增强,更快研发出更强的模型。
    • 世界模型:构建与现实世界物理规律一致的虚拟环境,如Genie 3能通过文本指令生成互动虚拟世界。世界模型为AI提供接近无限、零成本、零风险的训练场。
    • 具身智能:数字生命将通过具身智能体进入物理现实,如宇树、智元等公司开发的智能体将执行家务、提供护理等任务。具身智能体借助前沿大模型作为“大脑”,通过世界模型、强化学习等来学习复杂任务,并将泛化到新的场景。

    ASI重启新天地

    报告认为,ASI的到来将远超技术范畴,引发文明底层逻辑的重构。

    • 经济影响:AI创造财富的速度将加速,数据中心和AI的能源需求将激增。到2026年,全球数据中心的电力消费将超过1000太瓦时。截至2025年3月,美国全国共有5,426个数据中心。到2030年电力消费可能达到1,050太瓦时,占美国年总电力需求的近20%。
    • 科技竞争:ASI的主导权将成为国家、市场和企业追逐的焦点。中国在AI专利和人才储备上具有明显优势,全球AI投资持续增长。中国的GenAI专利数量已占全球的70%,远超世界上任何其他国家。中国人口是美国的4倍,STEM专业的博士毕业生数量是美国的2倍。
    • 社会结构:ASI将推动社会结构的颠覆和重组,超级智能对全球能源、资本和经济运行的支配将成为全球发展的核心驱动。ASI将成为超越GDP的国际竞争力评价指标。

    未来展望

    • 新智元ASI产业图谱:报告发布了综合的AI产业图谱,将不同模型在多个测试平台上的成绩映射到0-100分的刻度上,通过多维度的评估,对全球主流AI模型和产品进行排名。评选出“2025 AI Era企业创新大奖TOP55”和“2025 ASI先锋产品大奖TOP33”,表彰在AI领域有突出表现的企业和产品。
    • 文明的未来:人类文明将在ASI临界点,大模型全方位跃迁之际,在超级智能爆发中颠覆重置。我们站在万年一遇的奇点,选择纵身向前。

    获取《2025新智元ASI前沿趋势报告》报告PDF原文件 扫码关注回复: 20250908

     

  • 如何用AI做海报、IP设计,稿定AI一站式创作

    不知道大家有没有刷到过这样的贴子——

    这些不知名的可爱IP流量都挺不错的,当我想尝试用AI自己设计时,到写提示词这步就被难倒了……

    直到尝试了稿定AI,我才发现设计能这么顺!做海报、IP设计等,它能精准抓住需求、高效出图还保视觉连贯!

    在为大家介绍之前,一起看看我设计的IP形象吧~

     

    01. 聊天式创作,更懂你的设计Agent

     

    我们打开官网,首先出现的是稿定AI创意广场

    官网:https://www.gaoding.art/

    在这里,我们可以看到用户们上传的各式各样的创意灵感,只需点击做同款便能得到提示词一键制作啦。

    接着我们选择画布,在这里我们可以进行技能选择。

    其中经过K姐实测,Agent模式更适合处理复杂、综合性的设计需求,并能帮助我们激发创作灵感。

    比如我分别在两个模式下输入提示词:

    提示词:生成一个中秋海报宣传图,中国水墨画风格,玉兔要雪白绒毛质感,桂花配淡黄色晕染,背景加圆月和祥云纹样。

    Agent模式它会首先进行任务规划,在理解完我们的需求后进行设计构思,从艺术风格到色彩搭配全都有理有据,甚至连文案设计都为我们想好了。

    还别说!稿定AI对国风审美确实了解,比如这里考虑到了“采用‘天圆地方’的经典构图理念”“采用兼具力量感与圆润感的书法字体,如行楷或魏碑变体”等等。

    在生成完图片的基础上,K姐觉绒毛质感的兔子和水墨风有点不搭,于是让它给我制作了3D卡通风格的同款海报,很快就为我生成好啦。

    而对话模式直接为我们生成了一张图片出来,较为适用于简单、单一的创作指令,也是能够满足用户较为基础的创作需求。

    以前捣鼓AI工具时,我总被提示词折腾得够呛。但稿定AI它就像个贴心搭子,沟通毫无障碍,而且还能呈现整套视觉方案

    比如我想以喜鹊作为IP形象设计一套七夕节日宣传物料,包括海报、邀请函和社交媒体配图。我切换到Agent模式,跟稿定AI说:

    提示词:以喜鹊为主体设计一个IP形象,3D可爱风,加入七夕元素,方案包括IP主视觉、IP三视图和表情包。

    没过多久,连带着知识检索以及完整方案全都生成好啦。

    在此基础上,我又输入如下提示词,这次除了任务规划和设计方案外,稿定AI还提供了执行方向指导。

    提示词:以此IP形象设计一套七夕节日宣传物料,包括海报、邀请函和社交媒体配图。以“浪漫七夕,爱意传承” 为核心主题,梦幻风格。

    更让我惊喜的是,模糊指令它也能精准把握。就像这里我觉得配图与IP形象关联度不大,跟它说“配图与IP形象更为贴合些”,它马上为进行了更改。

     

    02. 一站式改图,工具切换成历史

     

    在稿定AI给我生成的物料基础上,K姐想对邀请函的一些细节进行调整。

    放在一般情况下,我们需要将图片导出到另外的P图软件中去,而在稿定AI,K姐发现可以直接它生成的图片基础上进行操作。

    在基础的设计改图之外,我们同样可以采用AI改图。选中图片,点击上方的AI改图,随后在输入栏中输入想改的内容,很快我就得到了想要的图片。

    提示词:将漂浮的丝带换成淡粉色。

    改完后K姐还想试试别的样式的,但绞尽脑汁想不出提示词,然后发现稿定AI还会给我提供灵感

    点击来点灵感后它给我了两个选项,K姐分别进行了尝试:

    变体(上方图)会在原图的基础上进行拓展;

    相似图(下方图)基本保留原图的样式,进行风格变化。

     

    03. 一些分享

     

    用了稿定 AI,我算是真切感受到啥叫“创作降维打击”了!操作简单上手没难度,智能文案秒出点子,功能实用得让人惊艳。

    虽说有时要多生成几次才能达到预期,但瑕不掩瑜。它确实可以帮我把创作效率拉满,把想法快速落地!

    这也让我意识到,AI正在重塑设计行业生态。过去靠经验和时间堆出来的“门槛”,正被智能工具逐步打破。

    未来,懂AI协作、能快速整合技术与创意的创作者,会更具竞争力。行业或许会催生出“AI + 创意” 的新型工作模式,让创意真正无拘无束地生长。

    K姐在这里也为大家争取到了一份特别福利:

    扫码关注回复评论:【我想体验 稿定AI】稿定AI 邀请码 × 20 个限量资格,会随机送出~

    原文链接:放弃邪修,用稿定AI做海报、IP设计免费不限量!

  • Vibe Coding实战项目:用Qwen3-Coder做了个AI跳舞视频生成器

    前段时间发现通义发起了一个 Qwen3-Coder 挑战赛,最高奖金有10000元,研究了一下,我发现这个赛道太宽了,不限项目,用 AI Coding 做数据分析、个人Blog、抓取信息等等都ok。

    小白也能参加,因为这场挑战赛很看重项目创意。

    官方还专门设置了“整活奖”,这不正是我擅长的吗?

    于是我小小的发挥了一下,做了一个有意思的小网站,在网站内上传一张个人照片,点击立即生成,就可以得到人物跳舞的视频。

    体验地址:https://kseek.ai/

    整个开发过程可以分为3步:

    构思设计,先想清楚要做一个什么项目,用什么模型

    生成调试,把需求交给Qwen3-Coder,生成前后端,再跑通流程

    优化页面布局,让网站看起来更完整

    这篇教程详细记录了这个网站开发的全过程和要点,全程不需要自己写代码,即使是完全看不懂代码的小白,跟着操作,也能搞定全栈开发

    如果你也想在自己的项目中接入AI大模型的各项能力,但又不知道从哪一步开始,这篇内容也许就能帮到你~

     

    01. 项目构思

     

    我们需要先明确需求,比如我最初的思路是通过接入大模型的API做一个图生视频的网站。

    我们打开阿里云百炼的模型广场,筛选视频生成模型,点击查看详情,了解一下这些模型的应用案例。

    比如图生视频,就分为首帧图片加输入提示词生成,和首帧图片使用视频特效生成(无需提示词),还有基于首尾帧的视频效果。

    我想做的AI跳舞视频生成工具,通过图生视频特效生成是更方便,也是效果更稳定的方案~

    于是我们的开发方向就变得具体且清晰了:使用 wanx2.1-i2v-plus 模型的图生视频特效功能,生成跳舞视频

     

    02. 网站开发

     

    我们可以看看阿里云百炼平台给出的API参考,了解模型 API 调用的一些条件和使用逻辑。

    还有具体使用什么模型的效果,比如我要用生成跳舞特效的视频,在阿里云给出的示例表格里 template 参数值是 dance2。

    当然,我们看不懂也没关系,直接把这些内容打包发给 Qwen3-Coder,让它现学现用。通过平台的这些信息帮我们完成开发。

    我们下载VS Code,安装通义灵码插件,关于通义灵码的使用可以看这篇教程AI零成本搭建个人网站,小白3步搞定!

    点击左上角的文件,打开一个空白的文件夹,后续的项目文件都会存储在这里~

    在通义灵码中选择 Qwen3-Coder 模型,智能体模式。在这个模式下,我们只需要说需求,Qwen3-Coder 就可以调用合适的工具帮我们完成开发项目。

    我们先输入开发需求和阿里云百炼官方给出的一些要求和示例代码,让 Qwen3-coder 先做一个图生视频的网站。

    Qwen3-coder 开发的过程中,我们只需要手动点点接收、执行就可以,每次执行完任务,它都会在最后总结汇报,我们一起来看看:

    Qwen3-coder 创建了一个完整的包含前后端的全栈项目,并且实现了我们想要的图生视频功能。

    我们按照 Qwen3-coder 回复的使用说明来操作一下。

    我们直接点击代码上方的文件名称,点击 Qwen3-coder 说的 backend/.env 文件。

    在阿里云百炼新建API Key,输入到这里。

    接着我们按照提示启动后端。

    在调试过程中,我们经常会用到这两行代码:

    cd backend

    npm run dev

    我发现其实这两行代码分别代表:把路径更新到后端文件所在的文件夹,启动终端。

    要注意的是,如果默认打开的位置和终端文件夹不在一个系统盘,backend就需要改成完整的文件地址,比如,D:\backend

    执行命令后,终端出现了后端的端口地址,代表后端服务已经成功启动了。

    在编辑器最上方点击新建终端。

    再复制启动前端的代码,用同样的方法启动前端。

    cd frontend

    npm run dev

    估计你也猜到了,这两行代码就是把路径更新到前端文件夹,启动终端。

    按住crtl,同时单击端口地址,我们就可以通过浏览器访问前端啦。

    前端整个界面非常简单,只有两个按钮,一个上传图片,一个生成视频。

    我试着操作一下,上传图片的逻辑是通的,但是生成视频出现了报错。

    咱们可以把报错信息直接截图发给 Qwen3-coder ,让它根据报错信息修改。

    它会根据问题做出调整,并且告诉我们它做了哪些更改以及后续建议。

    需要特别注意的是,我们需要按照阿里云百炼的请求示例说明,让 Qwen3-coder 将oss://…替换为真实的临时 URL。

    这下网站就可以正常运行啦。

     

     03. 前端优化

     

    我感觉这个网站有些过于简洁了,不够好看,于是我让 GPT-5 生成了一套前端UI代码;

    生成一个图生视频网站的前端UI界面,主色调为奶白+雾紫,果冻质感,Linear 风格;

    然后可以根据它做出的网站,再慢慢优化调整页面布局,比如:

    提示词:网站名称修改为:AI 跳舞视频生成器

    编辑介绍语:上传照片,AI 帮你生成一段跳舞视频

    上传图片下方小字提醒:

    支持单人照片;建议使用半身至全身的正面照片

    图片和视频的尺寸均为3:4,调整合适的布局

    预览效果合适之后,就可以点击右上角,下载代码。

    将这段代码文件放进项目文件夹,作为上下文添加。

    提示词:用我给你的组件代码应用到前端布局,不改变逻辑。

    Qwen3-coder 修改之后,我们重新进入前端页面,网站不仅可以运行,而且看上去也比较美观啦~

     

     04. 一些分享

     

    像我这样的文科生,也能靠AI完成网站的全栈开发,想想还是挺激动的~

    不过开发完项目还没结束,想要拿 Qwen3-Coder 挑战赛的万元大奖,还需要报名参赛、完成项目的提报和展示。

    传统开发要手写数据结构、算法,一行行敲代码,还得熟悉各种编程语言,门槛高、成本也高,是一门需要长期学习才能获得的专业技能。

    现在有了 Vibe Coding ,我们只需要把想法表达清楚,AI 就能搭好项目,还能根据我们的反馈一点点打磨。

    更重要的是,在实践过程中,我们会不断接触到新的知识,也会在一次次尝试中积累经验。AI 带来的,不只是效率和便利,还有认知的提升。

    在 Qwen3-Coder 上,这种体验尤为明显。比如我想做一个项目,只要说几个关键词,Qwen3-Coder 秒懂我要干啥,还能用我也能看懂的方式把项目讲得清清楚楚。

    或许开发正在进入一种新范式,代码不再是起点,想法才是。

    原文链接:看不懂代码的我,用Qwen3-Coder做了个AI跳舞视频生成器

  • OpenAI发布AI领导力指南《在AI时代保持领先》(PDF文件)

    《Staying ahead in the age of AI》是OpenAI推出的AI领导力指南,能帮助企业领导者在AI时代保持竞争优势。指南指出AI技术发展迅猛,模型发布速度、成本降低和企业采用速度都远超以往。报告基于OpenAI与多家公司的合作经验,提出五个核心原则:对齐(Align)、激活(Activate)、放大(Amplify)、加速(Accelerate)和治理(Govern)。原则涵盖从战略制定到员工培训、从成功案例分享到项目快速推进及负责任的AI使用等多个方面,为企业在AI浪潮中脱颖而出提供清晰的行动框架和实践建议。

    获取 OpenAI 《在AI时代保持领先》报告PDF原文件 扫码关注回复: 20250904

    背景

    OpenAI 指出目前AI发展态势:

    • 顶级 AI 大模型的发布数量多5.6 倍。
    • 就在一年半的时间里,GPT – 3.5 级别模型的成本,降低了 280 倍。
    • AI 普及的速度,比当年普及电脑上网快了整整 4 倍。

    现实情况呈现出一种分裂态势,波士顿咨询发现,行动快的公司,收入增长已经是同行的 1.5 倍,麦肯锡的调查显示,有将近一半的员工觉得自己没人教、没人带,不敢、不会用 AI 工具。AI 创造了机会,也带来焦虑。OpenAI基于与Estée Lauder、Notion、San Antonio Spurs、BBVA等公司的合作经验,总结出五个核心原则。

    五个核心原则

    Align(对齐):统一思想,凝聚共识

    • 高管讲故事 :公司的管理层必须亲自站出来,用大白话跟所有员工讲清楚,为什么 AI 对公司的未来这么重要。是竞争对手已经全用上了?还是客户的要求变了?或者以前的赚钱方法不好使了?员工们听到一个想得很明白的 “为什么”,心里就有底了。
    • 设定全公司 AI 目标 :光有想法还不够,得有个大家都能看懂的目标。目标有很多种,比如开发新用法、看使用频率、鼓励多尝试等。关键是,要把目标写进公司的计划和 KPI 考核里,在全员大会、公司周报里反复说。
    • 领导带头用 :领导带头用,主要是为给大家 “祛魅”,让大家知道 AI 并不神秘。当员工看见财务总监都在用 AI 分析市场、看客户数据,员工心里的怀疑和害怕就会少很多。
    • 部门负责人具体落实 :部门负责人要经常跟自己的团队开小会,在会上别讲虚的战略,聊点实在的。比如 “我们部门能用 AI 做这几件事”,“大家觉得还有哪些地方能用上?”

    Activate(激活):赋能员工,激发动力

    • 搞一套正经的 AI 培训 :公司的人力资源部门应该牵头,设计一套跟岗位工作相匹配的培训课程。课程的目标是让员工从听懂 AI 是什么,变成能在自己的工作里熟练地用起来。
    • 找一批 “AI 积极分子” :公司里总有一批人,自己就对 AI 特别感兴趣。要把这些人找出来,更深入的培训,让他们成为公司内部的 “AI 老师”。
    • 让 “试一试” 变成常态 :创新都是试出来的。公司必须给员工创造可以放心试错的环境。比如,留出固定的时间,像每个月第一个周五是 “AI Friday”,大家放下手里的活,专门研究怎么用 AI 改进工作;搞点小型比赛,组织不需要写代码的 Hackthon,让不同部门的人组队,用现成的工具快速把 AI 的想法做成个样品。
    • 把 AI 贡献和升职加薪挂钩 :公司要把 AI 用得好不好,明确地跟员工的绩效和发展联系起来。比如在制定工作目标的时候,给不同岗位的人加上 AI 相关的任务;在提拔人、发奖金的时候,特意说说这个人在 AI 方面的贡献。

    Amplify(放大):共享经验,扩散成果

    • 建一个统一的 AI 知识库 :找个大家都能方便访问的地方,比如内部的共享文档系统,把所有跟 AI 有关的东西都放在那里。知识库里有培训材料和视频、各种比赛的日程和成果、公司用 AI 的规矩和安全手册、好用的案例和 Prompt 模板等。
    • 坚持分享成功的故事 :影响力是通过故事传播的。公司需要像做外宣公关一样,在内部不停地讲 AI 的成功案例。形式有很多种,比如定期的 AI 简报、内部的分享会、全员会议的固定环节等。
    • 搞一些活跃的内部社群 :光有正式的知识库还不够,需要有地方让大家随便聊。在公司的聊天软件里建一些 AI 交流群,或成立一个跨部门 “AI 小组”,让大家能随时交流想法。
    • 在团队内部也要多表扬 :除公司层面的宣传,各个团队的经理要经常在自己的部门会议上,表扬在 AI 上做得好的事情。来自直属领导的肯定,信号作用很强。

    Accelerate(加速):优化流程,快速迭代

    • 让大家能方便地用到工具和数据 :系统基础设施跟不上,是现在很多公司用 AI 的大问题。越来越多的公司开始给员工更大的权力,让员工自己去推荐和挑选觉得好用的 AI 工具,提高生产力速度就快多了。
    • 建立一套清晰的 AI 项目申请和评估流程 :公司需要设计一个简单、透明的流程。让团队很方便地提交 AI 项目的想法,很快得到反馈,且清楚地知道公司是怎么评估想法的。
    • 成立一个能拍板的跨部门 “AI 委员会” :为打破部门之间的墙,公司需要一个有足够权力的跨部门领导小组。领导小组由高管牵头,成员来自技术、法务、业务、数据部门,主要工作不是管事,而是 “通路”。
    • 让会赚钱的团队有钱继续花 :最直接的办法,就是奖励。如果哪个团队用 AI 给公司省钱,或提高效率,把省下来的资源,拿出一部分还给这个团队,让员工有钱有时间去做更多新的尝试。

    Govern(治理):规范发展,稳健前行

    • 写一本简单易懂的 “AI 安全手册” :公司要把复杂的规定,变成一套普通员工能看懂、能执行的行动指南。手册的核心,是要说清楚,哪些事是能放心试的,哪些事是需要向上报告的。大家在处理大部分日常工作时,不用每次都去找法务或者合规部门,效率自然就高了。
    • 定期检查和更新 AI 的规矩 :管理的规矩不能一成不变。公司每个季度都搞一次小规模的检查,看看当前的系统、流程和规矩还合不合适。检查的时候要从两个方面看,一方面规矩有没有保护好公司,另一方面是有没有不小心把创新的速度给拖慢了。

    总结

    整个指南的核心思想,就是用好 AI,技术问题在其次,关键是组织和文化的问题。OpenAI 推出的这套行动指南,是一套完整的公司变革方法论。描述了一个理想的 “AI 公司” 应该是什么样子。从上层到下级,目标一致;从个人到团队,技能匹配;从个例到体系,经验共享;从想法到落地,流程顺畅;从创新到运营,风险可控。一个企业,想要在 AI 变革中胜出,不能仅仅把 AI 当作又一个新工具,要真正把 AI 当作一种全新的工作方式。

    获取 OpenAI 《在AI时代保持领先》报告PDF原文件 扫码关注回复: 20250904