Category: AI教程

AI工具集提供各种热门AI教程与学习资源,帮助你安装、运行、测试和使用各大热门AI工具。快速学习AI产品工具的使用技巧,掌握各种AI产品工具有趣又有用的玩法。

  • DeepSeek教程指南大全,含具体步骤、实战演练、避坑建议

    本文主要内容是DeepSeek AI工具的使用指南手册,内容涵盖了从入门到精通的详细教程,分为六个章节,每个章节都提供了具体的步骤、操作指南、实战演练以及避坑建议。

    站长推荐DeepSeek服务器繁忙怎么解决?16个免费R1满血版平替

    DeepSeek教程指南大全

    获取《DeepSeek教程指南大全》PDF原文件,扫码关注回复: 20250208

    第一章:准备篇(30分钟上手)

    1.1 三分钟创建你的AI伙伴

    步骤详解:

    • 访问官网:访问 DeepSeek 官方网站。
    • 注册账号:点击右上角「笑脸图标」→选择「邮箱/手机注册」(建议使用常用邮箱)
    • 验证身份:查看收件箱找到验证邮件→点击蓝色确认按钮(找不到?检查垃圾箱)
    • 首次登录:输入密码时建议使用「大小写字母+数字」组合(例如:Deep2024@seek)

    避坑指南:

    • 如果遇到验证码不显示,尝试刷新页面或切换浏览器
    • 注册后建议立即绑定手机号,方便找回账号

    1.2 认识你的AI控制台

    核心界面全解析:

    • 对话输入框:像发微信一样打字,但记得按「Enter」发送
    • 历史记录栏:左侧列表显示所有对话,可右键「重命名对话」方便查找
    • 功能工具栏
      • 格式按钮:插入代码块、表格、公式的快捷键
      • 记忆库:点击星标保存重要信息(相当于AI的记事本)
      • 设置:调整响应速度/创意程度(新手建议保持默认)

    演练:

    • 输入「你好,请做自我介绍」观察响应
    • 尝试点击「代码块」图标,输入「请用Python打印爱心图案」
    • 将当前对话重命名为「测试练习」

    第二章:基础对话篇(像交朋友一样学交流)

    2.1 有效提问的五个黄金法则

    • 法则一:明确需求
      • ❌ 错误示例:「帮我写点东西」
      • ✅ 正确姿势:「我需要一封求职邮件,应聘新媒体运营岗位,强调3年公众号运营经验」
    • 法则二:提供背景
      • ❌ 错误示例:「分析这个数据」
      • ✅ 正确姿势:「这是一家奶茶店过去三个月的销售数据,请分析周末和工作日的销量差异(附CSV数据)」
    • 法则三:指定格式
      • ❌ 错误示例:「给几个营销方案」
      • ✅ 正确姿势:「请用表格形式列出三种情人节咖啡店促销方案,包含成本预估和预期效果」
    • 法则四:控制长度
      • ❌ 错误示例:「详细说明」
      • ✅ 正确姿势:「请用200字以内解释区块链技术,让完全不懂技术的老人能听懂」
    • 法则五:及时纠正
      • 当回答不满意时,可以:
        • 「这个方案成本太高,请提供预算控制在500元以内的版本」
        • 「请用更正式的语气重写第二段」

    2.2 新手必学的10个魔法指令

    基础指令集:

    • /续写:当回答中断时自动继续生成
    • /简化:将复杂内容转换成大白话
    • /示例:要求展示实际案例(特别是写代码时)
    • /步骤:让AI分步骤指导操作流程
    • /检查:帮你发现文档中的错误

    演练:

    • 输入「/步骤 如何用手机拍摄美食照片」,观察分步指导
    • 输入「请解释量子计算,然后/简化」,对比前后差异

    第三章:效率飞跃篇(文件处理与复杂任务)

    3.1 五分钟学会文档分析

    操作流程:

    • 点击「回形针」图标上传文件(支持PDF/Word/TXT)
    • 输入具体指令:
      • 「总结这份年报的三个核心要点」
      • 「提取合同中的责任条款制成表格」

    进阶技巧:

    • 对比分析:「对比文档A和文档B的市场策略差异」
    • 数据提取:「从实验报告中整理所有温度数据」

    避坑指南:

    • 超过50页的文档建议先拆分处理
    • 扫描版PDF需确保文字可复制

    3.2 让AI帮你写代码

    万能模板:

    • 语言:Python
    • 功能:自动下载网页图片
    • 要求:处理SSL证书错误;显示下载进度条;保存到指定文件夹

    执行策略:

    • 先让AI生成代码
    • 要求添加注释说明
    • 请求逐行解释关键代码段
    • 遇到报错直接粘贴错误信息

    第四章:场景实战篇 —— 解决真实世界问题

    4.1 学术论文全流程辅助(从开题到答辩)

    阶段一:开题攻坚

    • 找研究方向输入:「我是机械工程专业本科生,请推荐5个适合毕设的智能机器人相关课题,要求:
      • 具有创新性但不过于前沿
      • 需要仿真实验而非实物制作
      • 附相关参考文献查找关键词」
    • 优化题目示例对话
      • 你:「基于深度学习的机械臂抓取系统研究」
      • AI:「建议改为”基于改进YOLOv5的未知物体自适应抓取系统研究”,创新点更明确」
    • 文献速览:上传10篇PDF文献后输入:「请用表格对比各文献的研究方法,按”创新点/局限/可借鉴处”三列整理」

    阶段二:正文写作

    • 方法描述:输入「请将这段实验步骤改写成学术被动语态:『我们先用CAD画了模型,然后导入ANSYS做力学分析』」
    • 数据可视化:提供Excel数据后输入「请建议三种适合展示温度变化曲线的图表类型,并说明选择理由」
    • 降重技巧:对指定段落使用指令「/学术化改写 保持原意但调整句式结构」

    阶段三:格式调整

    • 实战示例
      • 请检查我的论文格式是否符合以下要求:
        • 三级标题用1.1.1格式
        • 参考文献[1]需要补充DOI号
        • 所有图片添加居中的「图1-」编号
        • 行距调整为1.5倍

    阶段四:仅做文本辅助

    • 查重降重一体化
      • 查重预检
        • 指令:分析以下段落:[粘贴文本]
          • 预测查重率及高危片段(标红显示)
          • 识别潜在引用缺失(推荐3篇相关文献)
          • 给出改写建议(同义替换/结构调整)
      • 示例输出
        • 原句:”机器学习需要大量数据支持”
        • 改写方案:”当代AI模型的训练过程,往往依赖于海量样本的持续输入(Wang et al., 2022)”
    • 期刊匹配引擎
      • 匹配指令:基于我的研究:
        • 领域:人工智能辅助教育
        • 创新点:动态知识点图谱构建
        • 数据量:10万+用户样本
      • 推荐:
        • 3个冲刺期刊(IF 3-5)
        • 2个保底期刊(录用率>40%)
        • 1个新兴开源期刊(APC免费)
      • 要求:
        • 附最新影响因子和审稿周期
        • 标注格式要求差异(参考文献/图表规范)
    • 辅助必备
      • 实时监控指令:
      • “追踪[研究关键词]的最新预印本,每周一生成简报”
      • “发现与我方法论相似的已发表论文,对比优劣势”
    • 避坑指南
      • 警惕「该领域最新研究显示」等模糊表述,学术内容引用要明确,内容要严谨。
      • 涉及敏感数据应使用「假设我们有某型号机床的振动频率数据」代替真实信息
      • 答辩PPT生成后务必人工检查动画逻辑

    4.2 自媒体运营从0到1

    爆款内容生产线

    • 标题生成术
      •  基础版:请生成10个关于『时间管理』的小红书标题
      •  要求:
        • 使用emoji符号
        • 包含数字量化
        • 突出痛点解决」
      • 进阶版:将『Python入门教程』改写成吸引大学生的抖音文案标题
      • 要求:
        • 使用悬念结构
        • 不超过15字
        • 带热门话题标签
    • 内容创作模板
      • 【类型】科普类短视频脚本
      • 【主题】量子计算机原理
      • 【要求】
        • 用「冰箱整理食物」做类比解释量子比特
        • 每30秒设置一个悬念转折
        • 结尾引导点赞话术
    • 排版优化技巧
      •  输入「将这段文字改造成适合微信公众号的排版:
        • 每段不超过3行
        • 关键句加🔑emoji
        • 添加间隔符号如「—-」
        • 重要数据用绿色字体标注」

    数据分析实战

    • 上传后台数据截图后输入:「分析粉丝活跃时间段,建议下周最佳发稿时刻表,用24小时制展示高峰时段」

    4.3 智能学习规划系统

    定制专属学习方案
    • 步骤演示
      • 输入背景:「我需要三个月内雅思达到7分,当前水平5.5,每天可学习3小时」
      • 生成计划:「请按周制定备考方案,包含:
        • 每日各科时间分配
        • 必备资料清单
        • 阶段自测时间点」
      • 动态调整:「本周听力正确率仅60%,请重新调整下周听力训练计划」

    知识点攻克策略

    • 概念理解:输入「用三句话解释蒙特卡洛模拟,第一句类比生活场景,第二句技术定义,第三句应用案例」
    • 错题分析:上传错题照片后输入「请解析错误根源,并推荐3道同类强化练习题」
    • 记忆强化:「将这些医学名词生成记忆口诀,每句7个字押韵」

    学习监督系统

    • 【监督模式开启】
      • 每周日晚8点提醒我提交学习总结
      • 每次刷手机超过30分钟发送警示语
      • 完成阶段目标后生成奖励方案

    避坑指南

    • 论文场景:慎用「帮我写文献综述」等宽泛指令,应改为「请对比A学者和B学者在XX理论上的分歧」
    • 自媒体场景:避免直接发布AI生成的时事评论,需人工核实事实
    • 学习场景:当AI建议「每天背200个单词」时,应追问「如何科学分配复习周期」

    第五章:高手进化篇 —— 解锁专业级生产力

    5.1 构建你的私人知识库

    Step 1:数据准备黄金法则

    • 适用场景
      • 法律从业者整理判例库
      • 医生建立疾病诊疗手册
      • 电商运营积累产品知识
    • 操作流程
      • 创建结构化文档模板示例:
        • 【知识单元】糖尿病饮食管理
        • 【核心要点】
          • 每日碳水化合物摄入量 ≤ 130g
          • 推荐食材:荞麦、西蓝花、鳕鱼
        • 【禁忌清单】
          • ✖ 高GI水果:荔枝/龙眼/香蕉
          • ✖ 加工食品:蜜饯/罐头/火腿肠
        • 【常见问题】
          • Q:可以喝无糖可乐吗?
          • A:建议每周不超过2罐,注意…
      • 文件格式转换:
        • 纸质资料 → 手机扫描王APP → 导出为可编辑PDF
        • 微信聊天记录 → 使用「腾讯文档」导出为TXT
      • 数据清洗技巧:输入指令:「请删除文档中的重复段落,并按”概念定义-操作步骤-注意事项”结构重组内容」

    Step 2:知识库训练实战

    • 网页端操作
      • 进入「知识库」面板 → 点击「新建知识库」
      • 拖拽上传文件(支持PDF/Word/Markdown)
      • 设置调用关键词:「当问题包含”治疗方案”或”用药指南”时优先调用该库」
    • API开发者模式
      from deepseek import KnowledgeBase
      kb = KnowledgeBase(api_key="your_key")
      kb.create(
          name="心血管疾病库",
          documents=["heart_disease.pdf", "treatment_guide.docx"],
          description="三甲医院内部诊疗标准",
          access_level="private"
      )

    Step 3:调用与优化

    • 对话中激活
      @我的知识库[心血管疾病]
      患者男性58岁,血压160/95,有吸烟史,请推荐干预方案
    • 持续优化策略
      • 每月使用「知识体检」指令:「找出知识库中过时的药品名称,对比2024版国家药典」
      • 添加纠错机制:「当用户指出知识库错误时自动生成修订工单」

    5.2 自动化工作流搭建(解放双手的终极方案)

    场景一:日报自动生成系统

    • 配置步骤
      • 数据源接入
        • 钉钉/企业微信 → 导出当日工作日志
        • 销售系统 → 获取CRM数据
      • AI处理链
        复制
        /创建自动化流程
        名称:销售日报生成
        触发条件:每天18:00
        执行动作:
        1. 读取CRM今日订单数据
        2. 对比昨日数据计算增长率
        3. 生成三段式日报:
           - 关键指标
           - 异常预警
           - 明日建议
        4. 发送邮件至manager@company.com
      • 异常处理机制
        • 设置关键词监控:当日报中出现「下降」「异常」时,自动抄送技术总监

    场景二:智能客服中台

    • Zapier联动示例
      1. 当官网表单收到新咨询 → 触发DeepSeek API
      2. AI分析客户需求 → 分类为「售后/报价/技术」
      3. 根据类别:
        • 简单问题 → 直接回复解决方案
        • 复杂问题 → 生成工单派发对应部门
    • 关键指令
      复制
      /设置自动回复模板
      当问题包含["怎么退货","运费谁付"]时,回复:
      感谢咨询!我们的退换货政策是:
      1. 7天内无理由退货(标签未撕)
      2. 质量问题免运费(附照片证明)
      需要人工帮助请回复「转接客服」

    5.3 跨语言自由切换实战(商务谈判/文献翻译)

    模式一:精准翻译模式

    • 商务场景
      /开启专业翻译模式
      【源语言】中文
      【目标语言】商务英语
      【特殊要求】
      - 保留敬语格式(Dear/Honored)
      - 金额保留两位小数
      - 使用ICC国际商会术语
      • 输入:「关于FOB上海条款,我方建议分批装运以降低风险」
      • 输出:「Regarding the FOB Shanghai terms, we propose partial shipments to mitigate risks as per Incoterms 2020 rules.」

    模式二:学术润色模式

    • 论文翻译技巧
      • 上传参考文献:「请模仿这篇Nature论文的用词风格翻译我的摘要」
      • 术语一致性检查:「确保”纳米材料”统一译为”nanomaterials”」
      • 格式保留:「图表标题翻译后保持Figure 1-格式」

    模式三:文化适配模式

    • 本地化案例
      • 输入:「向印度客户解释”质量第一”的企业文化」
      • AI建议:
        • 替换案例:用「塔塔集团质量标准」代替「华为经验」
        • 调整表达:将「追求完美」改为「持续改进的承诺」
        • 宗教注意:避免使用牛相关比喻
    • 避坑指南
      • 知识库陷阱:避免直接上传机密合同,应使用「某品牌采购协议」替代真实名称
      • 自动化风险:涉及财务审批的流程必须保留人工确认环节

    第六章:如何利用我提高自我学习能力

    场景1:学习加速器

    1.1 论文精读秘籍

    • 三阶速读法
      • 预判提问(5分钟)
        • 输入指令:「请用200字概括《[论文标题]》的核心创新点,用”已知…但…因此…”结构表述,并列出3个值得深挖的疑问」
      • 图表解析(关键突破)
        • 带图提问:「解释Figure 3的实验设计逻辑,用箭头图标示变量关系,并标注作者可能省略的控制变量」
      • 批判思考(防被带节奏)
        • 进阶指令:「找出该研究方法的3个潜在局限,并提供2篇2023年后发表的反向证据论文DOI」
      • 贴士:遇到公式按Alt+鼠标拖动选择,直接问「请用小学数学知识解释这个公式的含义」

    1.2 错题攻克流水线

    • 四步提分法
      • 错因诊断
        • 拍照/输入题目后问:「分析我在这道几何题中的思维误区,用认知心理学中的【确认偏差】概念解释」
      • 变式训练
        • 生成指令:「基于该题知识点生成3道难度递增的变式题,附加解题路线图提示(不直接给答案)」
      • 记忆强化
        • 记忆卡片指令:「把解题关键步骤转化为顺口溜,要求押韵且包含”辅助线””相似比”等术语」
      • 监控报告
        • 进度查询:「统计我过去一周在三角函数板块的错题类型分布,用饼状图呈现并标注突破优先级」
      • 避坑:避免直接问答案,改用「给我提示而不是答案」触发引导模式

    1.3 会议纪要革命

    • 30秒整理术
      • 录音转重点(需上传录音文件)
        • 指令:「提取关键决策:用【决议事项】【责任人】【时间节点】三栏表格呈现,红色标注有争议的内容」
      • 行动清单
        • 追问:「把会议内容转化为SMART原则任务清单,标注需要跨部门协作的事项」
      • 可视化呈现
        • 高阶指令:「将项目时间线转化为甘特图代码(Mermaid语法格式),用❗标注关键依赖节点」
      • 贴士:输入「开启时间戳模式」可自动标注每个议题讨论时长

    1.4 创建个人知识库

    • 三步构建法
      • 信息抓取
        • 指令:「实时监控AI对话,自动提取以下内容到知识库:
          • 我重复使用3次以上的指令
          • 被标记「重要」的解决方案
          • 修改超过2次的输出内容」
      • 智能标签
        • 分类指令:「为知识库添加多维度标签:#常用指令 #合同模板 #技术难题 #已验证方案」
      • 主动推送
        • 触发机制:「当我讨论「用户增长」时,自动显示知识库中相关案例和过往成功方案」
      • 效果:新员工1周内即可调用团队沉淀的300+优质指令

    场景2:学会自我校正与复盘

    模块1:输出校准三板斧

    • 问题:答案太官方不够接地气
    • 修正流程
      • 输入「开启小白模式」 → 禁用专业术语
      • 追加「举个菜市场大妈能懂的例子」
      • 最后用「检查是否有超过20字的句子」精简
    • 案例修正
      • 原句:「采用深度学习算法优化特征提取」
      • 修正后:「就像用智能筛子快速挑出黄豆里的黑豆」

    模块2:敏感内容过滤器

    • 防封号指南
      • 医疗建议 「检查当前内容是否符合《互联网诊疗管理办法》」 添加「以上建议不能替代专业医生诊断」
      • 投资理财 「用红色标注涉及收益承诺的表述」 替换为历史数据展示
      • 政治相关 「开启中立模式重写以下内容」 添加多方观点平衡

    场景3:零基础代码入门

    模块1:代码调试 —— 5分钟精准排错

    • 三步终结BUG法
      • 步骤1:错误信息翻译
        • 指令模板:
          【错误诊断模式】
          我遇到[编程语言]报错:"粘贴错误信息"
          请:
          1. 用小白能懂的话解释问题本质
          2. 标注可能引发该错误的3个常见场景
          3. 给出最可能的修复方案(标★)和其他备选方案
        • 案例

          报错:Python的IndexError: list index out of range → 人话解释:「就像试图从只有5个座位的电影院票根上找第6排的座位」 → 高频场景:循环条件错误/动态删减列表/索引计算失误 → 修复方案:在访问前添加if len(your_list) > index:条件判断

      • 步骤2:上下文分析
        • 进阶指令:
          结合上下文代码片段:
          [粘贴相关代码]
          请:
          1. 用箭头图画出变量值变化轨迹
          2. 在可疑行号旁标注🛑并说明原因
          3. 输出修改后的代码差异对比(用绿色+/红色-标注)
      • 步骤3:防御性编程
        • 防复发指令:
          针对这个错误类型:
          1. 设计3个单元测试用例(含边界条件)
          2. 生成代码片段:自动检测同类错误的防护性代码
          3. 推荐2个相关调试工具(VS Code插件/Python库)
        • 贴士:遇到复杂错误时,追加指令「用厨房做饭的比喻解释这个问题」快速理解本质

    模块2:自动化脚本 —— 从需求到代码

    • 无痛开发四阶法
      • 案例需求:「自动备份指定文件夹到百度网盘,每周一凌晨执行,保留最近3个版本」
      • 阶段1:需求结构化
        • 指令:
          将需求拆解为技术要素:
          1. 文件操作模块(增量备份/版本控制)
          2. 网盘API对接
          3. 定时任务配置
          4. 异常处理(网络中断/存储不足)
          输出技术选型建议表(含优缺点对比)
      • 阶段2:代码生成
        • 分步指令:
          用Python实现以下功能:
          1. 遍历指定文件夹,生成MD5校验文件
          2. 调用百度网盘API上传(需处理OAuth2.认证)
          3. 添加日志记录(时间/操作/结果)
          4. 用APScheduler设置每周定时任务
          要求:
          - 每段代码添加中文注释
          - 分离配置文件和核心逻辑
          - 输出.env文件模板
      • 阶段3:测试优化
        • 验证指令:
          为上述代码设计测试方案:
          1. 模拟断网环境下的重试机制
          2. 测试不同版本保留策略
          3. 内存泄漏检测方法
          生成测试用例的伪代码
      • 阶段4:交付文档
        • 指令模板:
          生成用户手册:
          1. 安装依赖的pip命令清单
          2. 配置文件修改图示(红框标注必填项)
          3. 常见问题排障流程图
          4. 服务监控方案(Prometheus指标设计)
      • 避坑指南
        • 遇到API调用问题,使用指令「生成带错误处理的API调用代码模板」
        • 需要跨平台兼容时追加「确保代码在Windows/MacOS/Linux均可运行」

    模块3:技术面试 —— 精准打击考点

    • 备战体系构建
      • 考点预测
        • 指令:
          根据[目标公司]近3年面经和我的技术栈:[Java/Python/Go...]
          输出:
          1. 高频考点TOP10(按出现频率排序)
          2. 对应LeetCode题号(标注原题/变式题)
          3. 系统设计重点领域(附学习路线图)
        • 输出示例
          阿里巴巴Java岗高频考点:
          1. 并发编程(80%出现)
            - 必刷题:LeetCode 1114/1188
            - 重点:线程池参数优化实战
          2. JVM调优(65%)
            - 实战案例:GC日志分析图谱
          ...
      • 白板编程模拟
        • 实战流程
          • 生成题目
            • 给我一道中等难度的二叉树题目,要求:
              • 包含递归和非递归两种解法
              • 设置2个易错测试用例
              • 附带时间复杂度分析要点
          • 模拟面试
            • 现在开始面试模拟:
              • 请用伪代码描述思路(计时10分钟)
              • 我会指出3个潜在bug,请现场修复
              • 最后给出优化建议(空间换时间策略)
          • 智能反馈
            • 根据我的代码:[粘贴代码]
            • 请:
              • 按大厂评分标准给出ABC等级
              • 标注代码亮点(如优雅的边界处理)
              • 指出可能扣分的坏味道(如魔法数字)
        • 加分神器
          • 生成10个高频追问问题:
          • 「如果数据量扩大1000倍,如何优化?」
          • 「这个算法在分布式环境怎么适配?」

    场景4:网文小说辅助入门

    模块1:小说创作 —— 人物关系管理

    • 三维角色建模法
      • 步骤1:角色档案生成
        • 指令模板:
          生成小说角色模板:
          姓名:
          核心欲望:
          关键秘密:
          关系网络:
          - 盟友(表面/真实)
          - 对手(直接/潜在)
          - 情感羁绊(爱/恨/亏欠)
          示例填充:[悬疑小说配角]
        • 输出示例
          药店老板王德发
          核心欲望:掩盖儿子肇事逃逸真相
          关键秘密:私藏受害者日记本
          关系网络:
          - 表面盟友:办案警员(定期提供假线索)
          - 真实对手:记者女儿(暗中调查案件)
      • 步骤2:关系可视化
        • 指令:
          基于以下人物列表:[粘贴角色信息]
          1. 用Mermaid语法生成关系图(区分实线/虚线/不同颜色箭头)
          2. 标注3个潜在冲突爆发点
          3. 生成时间轴:关键事件对关系的影响
        • 导出工具
          • 复制代码到Markdown编辑器实时渲染
          • 使用Draw.io导入生成专业图表
      • 步骤3:剧情冲突检测
        • 指令:
          分析当前章节:[粘贴文本]
          1. 找出人物行为的矛盾点(与其档案不符)
          2. 建议3个增强戏剧性的改写方向
          3. 生成2个让读者惊呼的伏笔埋设方案
        • 避坑指南
          • 避免角色脸谱化:追加指令「给反派添加3个合理化动机」
          • 防止剧情漏洞:使用「时间线冲突检测」指令

    模块2:视频脚本 —— 情绪流量密码

    • 爆款公式拆解
      • 黄金结构模板
        [0-15s] 反常识开头: "你知道吗?90%的人刷牙方式都是错的!"
        [16-30s] 权威背书: "北大口腔博士验证的3个标准动作"
        [31-45s] 视觉演示: 错误/正确对比(2倍速快剪+音效)
        [46-60s] 行动召唤: "点击左下角领取刷牙自查表"
      • 情绪曲线优化
        • 指令流程
          • 原始脚本分析
            • 分析以下文案的情绪波动:
            • 「粘贴文案」
            • 输出:
              • 情绪值曲线图(紧张/有趣/感动)
              • 高潮点间隔时间统计
              • 建议优化的3个节奏卡点
          • 峰值设计
            • 在以下时间点插入情绪钩子:
            • 00:18 加入「震惊」事件(数据反差)
            • 00:42 添加「共情」故事(用户证言)
            • 01:05 设置「悬念」问题(互动提问)
          • 分镜强化
            • 将「产品优势」段落转化为分镜表:
              | 时长 | 画面 | 台词 | 音效 |
              |------|------|------|------|
              | 3s | 手机摔落慢镜头 | "每天承受100次..." | 玻璃碎裂声 |

    获取《DeepSeek教程指南大全》PDF原文件,扫码关注回复: 20250208

  • 如何用 DeepSeek 进行AI写作,6个提示词技巧

    在过年期间 DeepSeek 也算是火起来了,一会儿是什么拳打ChatGPT性能,一会又是什么脚踢英伟达股票。不过这些离我们大家的生活工作都太远了。

    但是如果聊,如何像一个搜索引擎一样使用DeepSeek又太没有技术含量了。

    今天我就来说说与生活、工作息息相关,又稍微需要一点使用技巧的功能,如何用DeepSeek来写作

    站长推荐DeepSeek服务器繁忙怎么解决?16个免费R1满血版平替

    有人可能就要说了,怎么用DeepSeek写作还用你教吗,我打字叫它帮我写不就行了吗。

    唉,这就是我要教的,打字谁都会打,但是打什么字却大有学问,你输入的文字很大程度上影响它输出的内容质量。

    01

    技巧一

    直白说出要求,别让它猜

    比如要写一篇成都的旅游攻略,你不要说:帮我写一篇成都旅游攻略。

    你应该说:帮我写一篇没有到过成都都能看懂的旅游攻略,讲一讲交通方式和路线、门票购买、景点内部观看顺序、历史文化这几个方面。文章语气轻松流畅,像是和人聊天一样。

    这样AI就知道你的具体需求,不会天马行空的自由发挥。

    02

    技巧二

    给AI设定一下背景信息

    比如要写一篇恐怖小说,你不要直接说:给我写一篇恐怖小说。

    你应该说:帮我写一篇中式恐怖小说,地点设定在小山村,时间设定在民国,第三人称视角,故事要多重反转,字数限制在1000字左右。

    给定AI背景,让它以你的思路来前进,这样后续修改也很方便。

    03

    技巧三

    给AI一个模版

    比如要更新一篇产品使用说明,不要直接说:给我写一篇XX产品的使用说明。

    你应该把旧版的产品说明书上传上去,然后说:按照这个旧版的使用说明写一个新版使用说明,新版增加了什么什么功能,剔除了什么没必要的功能。排版及行文规范与旧版相同。

    AI的学习能力是很强的,有参考的模版能让它输出的内容更符合你的心意

    04

    技巧四

    记一些描述词,改动起来更省心

    生成好的文章还是需要经过多次的改动才能更符合自己的心意和大众的审美,这个时候可以适当记住一些描述词,直接发给DeepSeek

    比如你要深化背景设定,你可以说:通过精细描绘历史背景,让读者仿佛置身与那个XX时代,增强故事的沉浸感和可信度。

    你要增强情感波动,你可以说:设计故事的高潮和低谷,让读者在跟随主题或人物的旅程中体验更多的情感波动。

    还有更多的描述词,大家可以扫码关注公众号,在公众号后台输入口令:20250207 领取

    总得来说,这几个技巧的使用就是要让AI更了解你的需求,这样才能输出更称心如意的内容。

    这个时候又有人会问:我心里一点主意都没有,我自己都不知道想要什么,这个时候该怎么办呢?

    那接下来的技巧就很适合你。

    05

    技巧五

    广撒网,以量取质

    比如你要写一篇XX化妆品的种草文,你可以说:帮我写五篇XX的种草文,每篇都要有不同的着重点,如实测效果,成分含量检测报告等。

    这样多篇对比下来,你就可以选择自己最心仪的一篇。

    06

    技巧六

    先学习再写作

    比如你需要写一篇新闻稿,但是你从来没有写过,你可以先问:新闻稿如何撰写,什么样的新闻稿才是一篇好的新闻稿,给我展示一些非常优质的新闻稿。

    这样通过学习,了解自己的需求,然后再把自己的需求反馈给DeepSeek,就能生成一篇符合心意的文章了。

    通过这6个技巧,不管你是有自己的想法还是没有自己的想法,你都能顺利的写出一些想要的文章。不需要抠破脑袋,也不需要冥思苦想,只需要动动手指,10万+的爆文即可出炉。大家学会了就快去试试吧!

    本文涉及的所有工具:

    DeepSeekhttps://ai-bot.cn/sites/6130.html

    原文链接:DeepSeek 6个AI写作提示词技巧,变身10万+爆文生成器

  • DeepSeek喂饭级提示词指令,实用操作指南

    本篇文章介绍了DeepSeek在不同领域和场景具体且实用的指令模板,帮助用户快速生成或优化内容、提升运营效率、优化产品策略、提高开发质量以及提升个人生活效率。适用于内容创作者、电商从业者、知识付费运营者、数据分析师、开发者以及希望提升生活效率的个人。

    站长推荐DeepSeek服务器繁忙怎么解决?16个免费R1满血版平替

    deepseek-prompt

    一、内容创作类(5个)

    爆款标题生成

    • 指令:生成10个吸引眼球的[主题]标题,要求包含数字、情绪词和悬念
    • 示例:输入“生成10个关于减肥的爆款标题”

    小红书种草文

    • 指令:以[身份]的口吻,写一篇[产品]的种草笔记,突出3个使用场景和2个痛点解决方案

    短视频脚本

    • 指令:生成一个[时长]的短视频脚本,包含开场悬念 + 中间反转 + 结尾行动号召

    公众号长文

    • 指令:以[风格]写一篇关于[主题]的深度文章,包含3个分论点,每个论点配1个案例

    SEO优化文章

    • 指令:围绕关键词[XXX]写一篇1000字文章,密度3%,包含H2/H3标签

    二、电商运营类(5个)

    产品描述优化

    • 指令:为[产品]写一段吸引人的描述,突出3个卖点,包含1个使用场景

    亚马逊评论分析

    • 指令:分析以下评论数据,总结出3个用户痛点和2个改进建议

    客服话术生成

    • 指令:针对[问题],生成5条专业且友好的客服回复话术

    促销邮件撰写

    • 指令:写一封[节日]促销邮件,包含限时优惠、紧迫感和行动号召

    竞品分析报告

    • 指令:对比[产品A]和[产品B],列出3个优势、2个劣势和1个差异化建议

    三、知识付费类(5个)

    课程大纲设计

    • 指令:设计一门[主题]的21天入门课程大纲,包含每天的学习目标和作业

    电子书章节生成

    • 指令:以[风格]写一篇关于[主题]的电子书章节,包含3个案例和1个行动指南

    直播脚本撰写

    • 指令:生成一场[时长]的直播脚本,包含开场互动、干货分享和促销环节

    社群运营话术

    • 指令:为[主题]社群设计7天激活话术,包含欢迎语、每日话题和互动游戏

    知识星球内容

    • 指令:生成一篇[主题]的星球日更内容,包含1个干货点 + 1个互动问题

    四、数据分析类(5个)

    销售数据洞察

    • 指令:分析以下销售数据,找出3个增长机会和2个潜在风险

    用户画像生成

    • 指令:根据以下行为数据,生成[产品]的目标用户画像,包含3个特征

    市场趋势预测

    • 指令:基于[行业]最新数据,预测未来6个月的3个趋势

    财务报表解读

    • 指令:用通俗语言解读以下财务报表,指出2个关键问题和1个改进建议

    竞品定价策略

    • 指令:分析[竞品]的定价策略,给出3个优化建议

    五、编程开发类(5个)

    代码注释生成

    • 指令:为以下代码添加详细注释,解释每段功能

    Bug修复建议

    • 指令:分析以下代码错误,给出3个修复方案

    API文档生成

    • 指令:为以下函数生成标准的API文档,包含参数说明和示例

    算法优化建议

    • 指令:优化以下算法,使其时间复杂度降低到O(n)

    自动化脚本编写

    • 指令:写一个Python脚本,实现[功能]自动化

    六、生活效率类(5个)

    旅行计划生成

    • 指令:设计一份[地点]的7天旅行计划,包含景点、美食和交通建议

    健身计划定制

    • 指令:为我制定一份21天减脂计划,包含饮食和运动安排

    时间管理方案

    • 指令:根据我的日程表,优化时间分配,提升工作效率

    理财规划建议

    • 指令:基于我的收入和支出,制定一份年度理财计划

    学习路径设计

    • 指令:为我设计一份[技能]的3个月学习路径,包含每周目标
  • 如何使用 DeepSeek V3 搭建个人AI知识库,小白快速上手

    文章提供了快速搭建个人AI知识库的方案,通过结合 AnythingLLM 和 DeepSeek V3,用户可以高效地管理自己的知识库,通过AI进行智能检索和问答。文章详细介绍了安装、配置、上传文档和知识检索的具体步骤,适合新手快速上手。

    站长推荐DeepSeek服务器繁忙怎么解决?16个免费R1满血版平替

    为什么需要私人AI知识库?

    传统的大型语言模型(LLM)在回答问题时可能会出现答非所问、套话连篇等问题,导致信息检索效率低下。私有知识库在AI时代,私有知识库结合优秀的LLM,可以显著提升知识检索和归纳的效率。可以用于企业内部知识管理,适用于个人知识库的搭建。

    个人AI知识库的搭建方案

    使用 AnythingLLM + DeepSeekV3 是简单且知识检索效果不错的方案
    • AnythingLLM:开源免费的知识库管理前端工具,支持上传知识、向量化数据、检索增强(RAG)等服务。
    • DeepSeekV3:(简称DS)幻方量化推出的大模型,性能与Claude 3.5相当,Token价格较低,本次方案使用DS作为推理模型。

    1. 安装AnythingLLM

    • 下载与安装
      • 下载地址:访问AnythingLLM的官方网站,支持Windows、macOS和Linux系统。
      • 打开软件后,需要先设置LLM(语言模型)。
    • 设置LLM
      • 选择 DeepSeek 作为LLM提供商。
      • 模型选择 chat(即DeepSeek V3模型)。
      • 获取API Key:需要在DeepSeek官网注册账号并充值少量费用。

    DeepSeekV3搭建个人知识库

    • 基础配置
      • 在左下角的设置按钮中可以进行基础配置,如LLM、嵌入模型、向量数据库等。
      • 新手建议保持默认设置。
      • 嵌入模型(Embedding):建议使用 bge-m3,它对多语言和长文本支持较好,但需要本地运行Ollama加载。新手可以跳过这一步。

    2. 上传文档

    • 上传方式
      • 点击工作空间的上传按钮,支持上传PDF、CSV、音频文件,或者抓取网页内容。
      • 上传后,右键点击文件并选择“加入工作空间”即可。

    DeepSeekV3搭建个人知识库

    • 扩展功能
      • DataConnector 中,可以获取YouTube视频(需要有字幕)、Confluence文档库等平台的数据。

    DeepSeekV3搭建个人知识库

    3. 知识检索问答

    • 开启对话
      • 在工作区点击 New Thread 开启新的对话。
      • 提问后,AI会根据知识库中的内容进行回答。

    DeepSeekV3搭建个人知识库

    • 查看引用来源
      • 如果想确认AI回答的知识来源,可以在回答底部点击 Show Citations 查看引用的知识。

    DeepSeekV3搭建个人知识库

    • 实时搜索功能
      • AnythingLLM的新版本支持Agent模式,可以接入Google、Bing等搜索引擎,实现实时搜索,增加知识检索的时效性。
  • DeepSeek 提示词技巧,10种具体技巧

    文章介绍了DeepSeek提示词技巧,通过优化指令输入的方式,提升模型生成内容的质量和适用性。文章提出了10种具体的技巧,每种技巧基于特定的认知原理和技术原理,通过实际案例展示了如何应用这些技巧,以及它们带来的效果提升。可以帮助用户更精准地表达需求,减少模型生成中的误差和幻觉,提升方案的适用性和执行性。

    站长推荐DeepSeek服务器繁忙怎么解决?16个免费R1满血版平替

    DeepSeek提示词技巧

    角色锚定法

    • 认知原理:工作记忆容量限制理论(Miller’s Law)。
    • 技术原理:通过角色声明激活特定领域知识图谱节点,聚焦模型注意力机制。
    • 方法:前置身份标签 + 专业场景定义。
    • 案例
      • 低效指令:“如何提高工作效率”。
      • 优化指令:“作为GTD认证时间管理教练,请为经常跨时区会议的跨国团队设计每日3小时深度工作保护方案”。
      • 效果:方案适用性提升40%(角色标签缩小决策空间)。

    三维约束法

    • 认知原理:决策疲劳规避机制。
    • 技术原理:通过资源/精力/环境约束构建决策边界,实现帕累托最优解搜索。
    • 方法:同步声明时间/精力/工具限制。
    • 案例
      • 基础指令:“制定学习计划”。
      • 进阶指令:“在每日可用2小时(19:00-21:00)、脑力峰值下降30%的晚间时段,设计Python机器学习进阶计划(需兼容Anki记忆曲线)”。
      • 效果:计划可持续性提升55%。

    结构化退问

    • 认知原理:组块化记忆理论。
    • 技术原理:通过指令分片降低transformer架构的认知负荷。
    • 方法:强制分步执行路径。
    • 案例
      • 模糊需求:“优化我的晨间流程”。
      • 结构化:“请按:①30分钟运动与认知激活的生化平衡→②信息摄入优先级矩阵构建→③跨平台日程自动同步方案分步优化”。
      • 效果:执行链路清晰度提升63%。

    反幻觉验证

    • 认知原理:元认知监控理论。
    • 技术原理:建立可验证的时间日志数据锚点,对抗概率生成端差。
    • 方法:要求标注时间记录方法论。
    • 案例
      • 普通指令:“分析我的时间使用情况”。
      • 防幻觉:“基于RescueTime连续两周屏幕使用数据,按《深度工作》四象限法分类,并说明统计显著性验证方法”。
      • 效果:诊断准确度提升58%。

    模式嵌套法

    • 认知原理:双加工理论系统激活。
    • 技术原理:组合认知框架形成多维特征空间。
    • 方法:混合经典时间管理模型。
    • 案例
      • 单模型:“用艾森豪威尔矩阵规划任务”。
      • 嵌套:“在四象限法基础上,叠加《番茄工作法》的注意力周期律动,整合《搞定》的每周回顾机制”。
      • 效果:系统适配性提升47%。

    可视化驱动

    • 认知原理:图优效应(Picture Superiority Effect)。
    • 技术原理:激活视党皮层关联的神经网络通路。
    • 方法:指定时间地理学表达范式。
    • 案例
      • 文字需求:“展示我的时间分配”。
      • 可视化:“用时区热力图呈现跨洲协作周日程,X轴为UTC时间,Y轴为协作方,色阶表示认知负荷强度(附颜色映射公式)”。
      • 效果:模式识别效率提升61%。

    增量修正协议

    • 认知原理:动态一致性理论。
    • 技术原理:通过梯度下降实现方案选代优化。
    • 方法:建立“约束变更→方案调整”映射。
    • 案例
      • 初始方案:“每周40小时工作计划”。
      • 修正:“若新增3小时通动时间但必须保证7小时睡眠,如何重新分配学习/工作/运动模块?需提供调整后的益夜节律匹配度评估”。
      • 效果:方案弹性提升44%。

    技术雷达锚定

    • 认知原理:认知脚手架理论。
    • 技术原理:锁定特定方法论版本防止概念漂移。
    • 方法:绑定经典理论版本号。
    • 案例
      • 通用指令:“推荐任务管理工具”。
      • 锚定:“依据《Getting Things Done》2015修订版第7章,设计OmniFocus与Todoist的跨设备同步实施方案”。
      • 效果:方法保真度提升66%。

    多模态验证

    • 认知原理:多重缩码理论。
    • 技术原理:跨模态表征增强记忆提取。
    • 方法:三维时间立方体构建。
    • 案例
      • 单模态:“说明时间阻塞法”。
      • 多模态:“阐述时间立方体方法论,给出每日能量波动计算公式,并绘制三维时间块分配图(附Blender建模参数)”。
      • 效果:方法掌握度提升52%。

    效能监测绑定

    • 认知原理:霍桑效应强化机制。
    • 技术原理:建立量化反馈回路。
    • 方法:嵌入PDCA循环监测点。
    • 案例
      • 普通需求:“制定阅读计划”。
      • 监测绑定:“设计6周主题阅读计划,需包含:①每周认知负荷评估公式②Readwise同步规则③Notion仪表盘关键指标(完成率/理解度/输出转化率)”。
    • 效果:目标达成率提升57%。
  • 北京邮电大学AI入门课《AI在大前》 – AI课程资料

    写在前面的话

    亲爱的同学们,你们好!在进入大学之前,这个课程将让你对人工智能有全新的认知和理解。你将学习到人工智能的核心概念,学习数学和物理学的相关基础知识,了解人工智能的各种应用场景和发展趋势。我们设计这个课程的目标,就是希望培养你的人工智能思维,为你后续的专业学习打下坚实的基础。相信通过这门课程,你一定会对人工智能有全新的认知和热情,为未来的学习和发展奠定良好的基础。 让我们一起开启这段精彩的人工智能探索之旅吧!

    AI在大前

    前言 为什么需要这本书

    这门大前 AI 网课旨在让学生在进入大学之前对人工智能有一个立体化的感性认知,理解这一领域的核心概念,预习人工智能大学课程所需的数学和物理学基础知识,了解人工智能应用场景和发展趋势,培养人工智能思维,为后续专业学习打下坚实基础。课程内容的广度和深度,既照顾学生的认知水平,又与后续专业课程有机衔接,以形成完整的学习体系。

    《AI在大前》预告片

    课程模块

    第一章:无处不在的AI

    谈及人工智能(Artificial Intelligence,简称 AI),不少人的印象仍停留在与机器人等同、高度专业化、以及与我们日常生活相距甚远等刻板观念上。然而,事实上,AI 如今已全方位、无死角地渗透到我们生活的方方面面。接下来,就让我们一同盘点一下那些悄然融入我们日常的 AI 应用吧。视频地址  讲义地址

    第二章:神奇的AIGC

    AI技术的飞速进步,正以前所未有的方式重塑着内容创作的边界。想象一下,在短短几十秒之内,一台机器就能构思并生成一首旋律优美、情感丰富的乐曲,其水准足以媲美那些经过数年乃至数十年音乐创作磨砺的作曲家,这无疑是对传统艺术创作模式的一次深刻挑战与革新。

    而这样的能力,仅仅是AIGC(AI Generated Content,人工智能生成内容)冰山一角。如今,AI已经跨越了单一的艺术形式,展现出在多个领域内容创作上的无限潜力。从文学创作的文本生成,到视觉艺术的图像绘制,再到音频与视频制作的全面覆盖,AIGC正以其独特的魅力,成为社交媒体上的热门话题,频繁刷爆朋友圈,引领着内容创作的新风尚。视频地址  讲义地址

    第三章:大模型

    大家好,欢迎来到人工智能的神奇世界!今天,我要给大家介绍一位非常特别的”魔法师”——大模型。它虽然没有魔杖,但却能听懂我们的话,回答各种问题,甚至能写诗作对、编程序、预测天气……简直无所不能!

    那么,这位神通广大的大模型到底是何方神圣呢?让我们一起走进大模型的魔法世界,揭开它的神秘面纱吧。视频地址  讲义地址

    第四章:AI的功能是函数

    AI似乎已经无处不再,AI似乎无所不能。人工智能技术能够实现形形色色、多种多样的应用。它们有的像人、有的像狗,有的可以送快递、做苦力,有的滔滔不绝、对答如流,还有琴棋诗画,超凡脱俗。那么在粉丝心目中神秘玄幻的AI是怎么成为研究者心目中严谨现实的科学呢?接下来我们揭开人工智能的数学本质,介绍人工智能知识体系的数学核心,也就是智能函数。视频地址  讲义地址

    第五章:AI中的数据表示

    在第一个模块AI大世界中,我们看到了AI在各行各业发挥的重要作用。上一节中我们又学习了智能函数,这一AI领域重要的工具。那么,同学们有没有想过,我们日常生活的点点滴滴,是怎么通过智能函数与AI联系起来的呢?

    在我们平时看到的很多小视频中,我们看和听到了词语、图像、视频和声音。你是否好奇过,计算机是如何理解我们说的每一个词、看到的每一幅画、播放的每一段视频和聆听的每一段声音的?通过学习本节内容,你将了解如何将复杂的信息转化为计算机可以处理的数据形式,并探索这些技术在人工智能领域的广泛应用。视频地址  讲义地址

    第六章:概率出奇迹

    概率,作为衡量不确定性的数学工具,它在人工智能领域扮演着至关重要的角色。今天这讲让我们一起见证那些由概率编织的奇迹。

    在前面的课程中,我们提到过“大语言模型”,社会对这项技术充满了无限期待。它正在帮助我们以前所未有的方式进行创作和理解,无论是在文学创作、数据分析,还是在教育和研究中,都展现出了巨大的潜力。在这股热潮背后,是什么让这些模型能够如此神奇呢?这里又有哪些数学问题呢?在本小节,我们将要聚焦人工智能背后的一个神秘力量——概率。去看一看是哪些概率知识的应用使得语言模型如此神奇。视频地址  讲义地址

    第七章:数字人中的物理学

    各位亲爱的同学们,大家好!非常荣幸能够邀请大家踏入这场精彩纷呈的科普盛宴,一同开启探索未知世界的奇妙之旅。想象一下,在这个日新月异的时代,人工智能与计算机技术如同魔法般,让我们的生活舞台跃动着前所未有的活力与色彩。从电视荧幕到电脑屏幕,再到掌心的智能手机,各式各样的数字人正以最生动的姿态,走进我们的视野——无论是引领美妆潮流的虚拟偶像“柳叶熙”,还是才华横溢、能奏出天籁之音的虚拟大学生华智冰,乃至北邮自主研发的耐心陪伴小朋友学习普通话的红雁国音数字人教师言小腾。这些数字人不仅成为了我们生活中的亮点,更是科技进步的璀璨见证。视频地址  讲义地址

    第八章:机器人运动与触觉中的物理学

    在现代科幻电影中,智能机器人被赋予多种功能,在不同的环境和场景下均表现出了强大的适应能力。在电影《太空旅客》中,男主角在星舰“阿瓦隆号”上孤独地醒来,遇到了一位名叫亚瑟的仿生机器人。亚瑟在陪伴男主角的同时,展现了其出色的操作能力,例如精准地擦拭易碎的酒杯。这种机器人智能化行为背后的技术复杂性,令人们对未来的仿生机器人充满了期待和好奇。如果我们来设计亚瑟这样的机器人,如何让他在擦杯子的时候既能擦的干净,又不会因为用力过大而把酒杯弄碎呢?视频地址  讲义地址

    第九章:AI的具身

    感知、思考、行动的智能机器 电影《人工智能》中的机器人男孩 David,不仅能听懂人类的语言,还能理解人类的情感,甚至会流泪。这样一个拥有感知、思考和情感的机器人,让人不禁感叹科技的神奇。事实上,当今人工智能领域正朝着这个方向不断进发,而其中最令人兴奋的一个分支,就是”具身智能”(Embodied Intelligence)。视频地址  讲义地址

    第十章:AI for Science

    在人工智能不断突破自我极限的今天,我们不仅仅是见证者,更是受益者。AI的未来将远超我们的想象,从诗词创作到科学突破,人工智能正在深刻地改变着我们的世界。接下来,我们一起探索人工智能如何重塑科学研究的方式,助力科学家解决复杂问题,推动科学发现和创新。视频地址  讲义地址

    讲义核心内容下载

    课程官网

    讲义核心内容下载

    课程教师

    AI在大前-课程讲师

  • 如何用AI定制红包封面,1分钟免费做

    今晚就是除夕啦,如何让自己的新年祝福更有特色?

    独特又富有意义的红包封面,用AI工具几秒钟就能画一张~可以加入个性化的元素,还完全免费!

    花一分钟看完这篇教程,以后不用再找人定制花冤枉钱。

    01

    红包封面定制要求

    定制个性化的红包封面,需要是申请公众号或者视频号的账户,并进行了企业认证;

    如果是个人用户,公众号或者视频号粉丝数达到100个就可以定制啦。

    红包封面可以是静态的图片、视频或者PNG序列帧。需要符合以下要求:

    02

    静态红包封面

    图片制作

    静态红包封面其实就跟我们平时用AI画图一样的,加入一些新年、生肖的元素,就是好看的新年特色封面啦。

    我们打开即梦的图片生成功能。

    生图模型选择2.1,可以生成带有祝福语的图片。

    点击解绑图片比例,可以自由输入图片尺寸。

    这里输入静态红包要求的尺寸:957×1278。

    输入提示词,点击生成,就可以获得封面图片啦~这里给大家准备了一些不同风格的提示词作为参考。

    提示词:恭贺新春,中国传统春节元素,灯笼、烟花,背景中轴移动拍摄,灯笼出现“福”字,纪实,32K

    提示词:可爱3D卡通,一只小橘猫,毛茸茸的,抱着一个大金元宝,戴着一个财神帽,穿着一个红色的礼服,给大家拜年

    提示词:两个拟人化的羊毛毡风格的蛇宝宝,每个人手里举着一个红包,左边“暴”,右边“富”,画面最上面写着:2025,得偿所愿

    使用咱们之前分享过的的无水印下载图片和视频的方法下载下来。

    下载下来的图片可以使用TinyPNG,免费压缩图片,因为红包封面上传图片大小不能超过500K。

    如何免费下载即梦高清AI图片/视频

    直接把图片拖进框内上传。

    点击常用工具,选择压缩图片文件,调整文件大小调整合适的压缩比例即可~

    03

    动态红包封面

    视频制作

    鼠标移动到我们生成的图片上,点击生成视频。

    选择视频模型:视频S2.0 Pro。

    提示词:镜头慢慢推近,烟花在空中绽放

    下载视频,导入剪映添加一些喜庆的音乐,把视频时长调整为1-3秒。

    导出时,选择码率为自定义,设置为3000Kbps,帧率24fps,其它保持默认即可。

    这样我们就获得了带有音效的封面视频。

    04

    定制封面

    打开微信红包封面开放平台,按照提示注册登录。

    上传做好的封面图。

    提交证明材料。

    证明材料就是我们的红包封面图/视频的制作过程,大家在制作时截几张图做一个Word文件,可以参考下面我的做法:

    在我的红包封面,查看审核状态。

    显示审核通过之后进入详情,点击购买。

    输入红包个数,直接下单。

    这样就可以分享你的专属红包封面啦~

    给大家发一下我的红包封面,限量100个,希望大家喜欢。

    祝大家新年快乐!

    学会的友友们快去试试吧~

    本文涉及的所有工具:

    即梦https://ai-bot.cn/sites/17772.html

    TinyPNGhttps://tinypng.com

    剪映https://ai-bot.cn/ai-video-editing-tools

    原文链接:1分钟教会你用AI定制红包封面,人人都可免费做!点击领取红包封面。

  • 清影2.0重磅更新,AI图生视频效果实测惊艳!

    清影2.0今天更新了。作为国内最早全线上线C端的产品,智谱清言的硬实力有目共睹。

    整体看了一下清影2.0的效果,模型质量上太惊艳了,AI视频似乎又迎来了新的巅峰。

    01

    清影2.0与1.0对比

    画质、色彩、动作均大幅提升

    跟上版本一样,只需要你有好的创意,打上几行字,加一点点耐心,就能生成4K的高质量视频。

    在同一图片、提示词前提下,我们一起来看一下清影1.0与2.0的生成效果对比:

    清影1(左)和清影2(右)

    最基础的图生视频,清影2.0的整体画质更高,色彩也更鲜艳,就连生成的动作幅度也更大更自然,好一个多边形战士!

    提示词:跳伞打开到最大,镜头上升,直到看到降落伞的顶

    清影1(左)和清影2(右)

    清影2.0能够更好地理解并执行我给出的指令,引入的新内容与原图风格高度一致。

    02

    清影2.0实测视频

    综合能力跻身T1梯队

    当我需要制作一个有丰富的运镜和细腻的表演的视频时,它的画面稳定性和动作连贯性,我只能说一句牛逼。

    提示词:镜头跟随男人站起,整理衣服,特写镜头

    更厉害的是,视频中伴随着男子起身的外语交谈的声音,是清影通过理解视频画面,自动生成的!

    以后做AI视频,不用到处找音效,相关的人声和配音都能一键自动生成,这效果,太让人惊喜了!

    2.0的主体一致性也上了一个台阶

    比如这个Case,小精灵在林中飞舞,整体画面非常灵动。

    提示词:小精灵震动翅膀,在林中飞舞

    而且不止在做写实风格的视频时如此,在制作二维动画和三维动画时,清影2.0的表现力也相当好。

    艺术风格和画面美感直接拉满。

    提示词:小猫拿着糖葫芦走近,将糖葫芦举到镜头前

    不过,这些都不是我觉得清影最牛的地方。

    速度,还有价格,这才是很多人没关注到的重点。

    清影2.0非会员生成一条视频也只用排队几分钟,还是免费无限次生成!

    便宜、速度、质量三者兼顾!此刻,清影2.0就是最牛逼的AI视频模型,没有之一。

    03

    更多案例展示

    一、运动

    提示词:让画面动起来

    当我没有指定具体的主体时,它也能自动识别主体,并且做出符合物理规律的运动。

    适合初学者使用,非常容易上手!

    二、科幻特效

    提示词:飞船飞过太空基地

    生成的视频整体风格很统一,运动丝滑,没有变形,几乎不需要多次抽卡。

    三、艺术风格

    提示词:让画面动起来

    模型对图像、色彩空间的理解很透彻,用来做一些抽象的艺术视频也相当不错。

    四、写实

    提示词:火锅煮沸了,水在翻腾,一阵阵水蒸气升起

    AI对现实场景的复刻更是史诗级的加强。

    视频中水烧开的画面和水汽都很符合物理规则。

    五、多人场景

    提示词:画面中的女人全部站起身来跳舞

    多人场景下,很多视频模型都容易崩,清影2.0的表现依旧很稳!每个人的动作看起来都很协调。

    04

    总结

    清影AI视频能力全面升级,进入2.0时代。

    1. 基础模型更强大:模型结构、训练方法和数据工程的全面优化,让清影2.0生成的视频更流畅,细节也更丰富。

    2. 效果更稳定:生成的视频可控度更高,即使画面主体运动幅度大,画面也依旧稳定。降低了抽卡的时间成本。

    3. 艺术美感提升:能够驾驭各种艺术风格,画面美感大幅提升。

    最重要是,清影2.0完全免费,能不限次数生成!

    智谱作为AI大模型全能型选手,在兼顾toB和toC业务的同时,还能将“清影”快速推进到T1梯队,甚至在不久的将来可能会完全开源,无疑是真正的国产之光!

    这波年前的更新,清影还隐藏了一个小彩蛋。在视频生成页,选择金币特效,可以让你的新年财气满满。

    最后提前祝大家新年快乐,蛇年发大财~

    本文涉及的所有工具:

    智谱清影:https://ai-bot.cn/sites/59040.html

    原文链接:清影2.0全量上线,国产AI视频又上新的巅峰!

  • 如何用AI制作爆款武打视频,3分钟学会

    我发现短视频平台,越来越多的人在用AI搞抽象了。比如这种武 打对决,简直是流量密码。

    虽然画质粗糙,但是搞笑、新奇,这种反差感,真的太对大家的胃口了。随随便便就能收获几万点赞。

    这几天我测试了好几种AI工具,发现用海螺AI做这种武打视频是最简单的,关键是免费,无需魔法,打斗效果特别带劲。

    一起来看看我做的成品:

    画面中两人极速出招,配合拳击的音效,是不是有武打戏那味了。接下来我们一步一步还原一下这个视频的制作过程。

    01

    实操教程

    爆款视频拆解

    第一步,我们先用即梦画出第一帧的画面。

    打开即梦,选择图片生成。

    输入提示词(一般包含人物+场景+画风即可)。

    参考提示词:写实,摄影,中国风,远景,全身,一名老婆婆和一个老爷爷,在菜摊前交谈,背景是人来人往的菜市场

    武打的照片最好选择全身照,不然生成的视频可能会缺失腿部的动作,我们优先选择竖图,这里我把图片比例调整为3:4。

    点击生成,挑选合适的图片,用我之前分享的免费下载无水印图片的方法下载下来。

    第二步,打开海螺AI,选择海螺视频

    点击生成。

    在海螺AI图生视频界面,上传刚才生成的图片。

    参考描述:两人突然使用中国功夫,迅猛直拳,飞踢连击,快速闪避,贴身擒拿,回旋肘击,弹腿快攻,激烈紧张,武术高手般的暴力打斗场面,打出幻影。

    选择I2V-01基础模型。新模型I2V-01-live画面更稳定,但是生成视频流畅的同时,动作也柔缓了很多,做出的武打视频视觉冲击感没有I2V-01强烈。

    点击生成,大概需要等待半小时到一小时左右。现在用的人很多,建议尽量选择白天制作,晚上可能要等好几个小时。

    预览效果满意之后,用我之前分享的免费下载无水印视频的方法下载下来。

    第三步,打开剪映,导入刚才的武打视频。

    在音频-音效素材里面搜索武打、打斗、拳击、武术等等,选择合适的音效添加。

    注意打斗的音效与开始打斗的时间要对齐,音画同步视频的观感会更好。

    可以使用多种音效叠加,营造激烈的打斗效果。

    这样直接导出就可以啦。

    02

    爆款视频案例

    更精彩的是,武打视频出圈之后,网友们都开始整活,人均化身武术大师。各种整活让人笑得停不下来。

    比如说,婚礼现场高手过招。

    甚至,已经不局限于人。

    徒手斗巨龙。

    就连年猪也学会了中国功夫…

    太抽象了,这想象力简直突破天际。

    这类视频爆火也让我们看到,在这个数字化时代,创意没有边界,只要我们敢于尝试,就能打破常规,创造出令人惊喜的作品。

    你学会了吗?

    本文涉及的所有工具:

    即梦https://ai-bot.cn/sites/17772.html

    海螺https://ai-bot.cn/sites/8835.html

    剪映Apphttps://ai-bot.cn/app/10296.html

    原文链接:用这个AI工具!3分钟做出,100w+播放的爆款武打视频

  • 谷歌《智能体Agent》白皮书(中文版)

    致谢

    审稿人和投稿人

    Evan Huang

    Emily Xue

    Olcan Sercinoglu

    Sebastian Riedel

    Satinder Baveja

    Antonio Gulli

    Anant Nawalgaria

    策展人和编辑

    安东尼奥-古利

    Anant Nawalgaria

    Grace Mollison

    技术撰稿人

    乔伊-海莫克

    设计师

    迈克尔-朗宁

    获取《谷歌智能体Agent白皮书》PDF原文件,扫码关注回复: 20250108

     

    推理、逻辑和外部信息的获取都与生成式人工智能模型相关联,这种组合引用了代理的概念。

    导言

    人类擅长处理杂乱无章的模式识别任务。然而,他们往往依赖工具 – 在得出结论之前,人工智能模型可以使用书籍、谷歌搜索或计算器等工具来补充其已有知识。就像人类一样,生成式人工智能模型也可以训练使用工具来获取实时信息或建议现实世界中的行动。例如,模型可以利用数据库检索工具访问特定信息,如客户的购买历史,从而生成量身定制的购物建议。或者,根据用户的查询,模型可以进行各种 API 调用,向同事发送电子邮件回复或代表您完成金融交易。要做到这一点,模型不仅必须能够访问一系列外部工具,还需要有能力以自我指导的方式计划和执行任何任务。这种推理、逻辑和外部信息访问的组合都与生成式人工智能模型相关联,这就产生了代理的概念,或者说是一种超越了生成式人工智能模型独立能力的程序。本白皮书将对所有这些方面及相关方面进行更详细的介绍。

    什么是Agent

    就其最基本的形式而言,生成式人工智能代理可定义为一种应用程序,它试图通过观察世界并利用掌握的工具采取行动来实现目标。代理是自主的,可以在没有人类干预的情况下独立行动,尤其是在有适当的目标或目的的情况下。代理还可以积极主动地实现目标。即使没有来自人类的明确指令集,代理也能推理出下一步应该做什么,以实现其最终目标。虽然人工智能中的代理概念非常普遍且功能强大,但本白皮书在发布时主要关注的是生成式人工智能模型能够构建的特定类型的代理。

    为了了解代理的内部运作,我们首先来介绍一下驱动代理行为、行动和决策的基础组件。这些组件的组合可以被描述为认知架构,而通过这些组件的混合和匹配,可以实现许多这样的架构。重点关注核心功能,如图 1 所示,代理的认知架构有三个基本组件。

    图 1.一般代理架构和组件

    模型

    在代理范围内,模型指的是语言模型(LM),它将被用作代理流程的集中决策制定器。代理使用的模型可以是一个或多个 LM,大小不限(小/大),能够遵循基于指令的推理和逻辑框架,如 ReAct、Chain-of-Thought 或 Tree-of-Thoughts。模型可以是通用的、多模态的,也可以根据具体代理架构的需要进行微调。为了获得最佳的生产效果,您应该使用最适合您所需的最终应用的模型,而且最好是在与您计划在认知架构中使用的工具相关联的数据特征上经过训练的模型。值得注意的是,模型通常不会根据代理的具体配置设置(如工具选择、协调/推理设置)进行训练。不过,可以通过提供展示代理能力的示例,包括代理在不同情境下使用特定工具或推理步骤的实例,进一步完善代理任务的模型。

    工具

    基础模型尽管能生成令人印象深刻的文本和图像,但仍然受到无法与外部世界交互的限制。工具弥补了这一缺陷,使代理能够与外部数据和服务进行交互,同时释放出底层模型之外的更多行动。工具的形式多种多样,其功能也各不相同。复杂程度不一,但通常与 GET、POST、PATCH 和 DELETE 等常见网络 API 方法一致。例如,工具可以更新数据库中的客户信息或获取天气数据,以影响代理向用户提供的旅行建议。通过工具,代理可以访问和处理真实世界的信息。这使他们能够支持更专业的系统,如检索增强生成(RAG),从而大大扩展了代理的能力,使其超越了基础模型本身所能实现的范围。下面我们将详细讨论工具,但最重要的是我们需要理解的是,工具是沟通代理的内部能力和外部世界的桥梁,它能开启更广泛的可能性。

    协调层

    协调层描述了一个循环过程,该过程控制着代理如何接收信息、执行一些内部推理,并利用这些推理为下一步行动或决策提供信息。一般来说,这个循环将一直持续到代理达到目标或停止点为止。协调层的复杂程度会因代理及其执行的任务不同而有很大差异。有些循环可以是带有决策规则的简单计算,而有些循环则可能包含连锁逻辑,涉及额外的机器学习算法,或实施其他概率推理技术。我们将在认知架构部分详细讨论代理协调层的实现。

    代理与模型

    为了更清楚地理解代理人与模型之间的区别,请看下面的 Chafi:

    机型 代理
    他们的知识仅限于训练数据中的内容。 通过工具与外部系统连接,知识得以扩展
    基于用户查询的单一推理/预测。除非为模型明确实施,否则不会对会话进行管理。历史或连续上下文。(即聊天记录) 管理会话历史(即聊天历史),以便根据协调层中的用户查询和决策进行多轮推理/预测。在这种情况下,一个“回合”被定义为交互系统与代理之间的一次交互。(即1个传入事件/查询和1个代理响应)
    没有本地工具实施。 工具是在代理架构中实现的。
    无本地逻辑层。用户可以以简单问题的形式发出提示,也可以使用推理框架(CoT、ReAct等)发出复杂的提示,以指导模型进行预测。 使用CoT、ReAct等推理框架或LangChain等其他预建代理框架的本地认知架构。

     

    认知架构:代理如何运作

    想象一下厨师在忙碌的厨房里的情景。他们的目标是为餐厅顾客制作美味佳肴,这就涉及到计划、执行和调整的循环。

    • 他们收集信息,如顾客的订单以及储藏室和冰箱里的配料。
    • 他们会根据刚刚收集到的信息进行一些内部推理,以确定可以制作哪些菜肴和口味。
    • 他们动手制作菜肴:切菜、调料、烤肉。

    在这一过程的每个阶段,厨师都会根据需要做出调整,在食材耗尽或收到顾客反馈时完善他们的计划,并利用之前的一系列结果来决定下一步的行动计划。这种信息摄取、计划、执行和调整的循环描述了厨师为实现目标而采用的独特认知结构。 就像厨师一样,代理可以使用认知架构,通过迭代处理信息、做出明智的决策,并根据先前的产出完善下一步行动,从而实现其最终目标。代理认知架构的核心是协调层,负责维护记忆、状态、推理和规划。它利用快速发展的提示工程领域和相关框架来指导推理和规划,使代理能够更有效地与环境互动并完成任务。针对语言模型的提示工程框架和任务规划领域的研究正在迅速发展,并产生了各种有前途的方法。虽然这并不是一个详尽的清单,但在本报告发表时,这些都是一些最流行的框架和推理技术:

    • ReAct 是一个提示工程框架,它为语言模型提供了一种思维过程策略,以便在有或没有上下文示例的情况下,对用户查询进行推理并采取行动。事实证明,ReAct 提示的效果优于几种 SOTA 基线,并提高了 LLM 的人类互操作性和可信度。
    • 思维链(CoT)是一种通过中间步骤实现推理能力的提示工程框架。CoT 有多种子技术,包括自洽、主动提示和多模式 CoT,根据具体应用的不同,各有优缺点。
    • 思维树(ToT)是一个提示工程框架,非常适合探索或战略性前瞻任务。它对思维链提示进行了概括,允许模型探索各种思维链,作为使用语言模型解决一般问题的中间步骤。

    代理可以利用上述推理技术之一或许多其他技术,为给定的用户请求选择下一个最佳操作。例如,让我们来考虑一个被编程为使用 ReAct 框架来为用户查询选择正确操作和工具的代理。事件的顺序可能是这样的

    • 用户向代理发送查询
    • 代理开始 ReAct 序列
    • 代理向模型发出提示,要求它生成下一个 ReAct 步骤及其相应的输出:
      • a. 问题问题: 用户查询的输入问题,提供提示
      • b. 思考:模型对下一步行动的思考
      • c. 行动:模型决定下一步采取什么行动
        • i. 这就是选择工具的地方
        • ii. 例如,一个操作可以是[飞行、搜索、代码、无]中的一个,其中前三个代表模型可以选择的已知工具,最后一个代表 “无工具选择”。
      • d. 行动输入:模型决定向工具提供哪些输入(如果有的话)
      • e. 观察结果:行动/行动输入序列的结果
        • i. 这种思考/行动/行动输入/观察可以根据需要重复 N 次
      • f. 最终答案:模型为原始用户查询提供的最终答案
    • ReAct 循环结束,并向用户提供最终答案

    图 2.在协调层中使用 ReAct 推理的代理示例

    如图 2 所示,模型、工具和代理配置协同工作,根据用户的原始查询,向用户提供有根有据、简明扼要的回复。虽然模型可以根据自己的先验知识猜测答案(幻觉),但它却使用了一种工具(飞行)来搜索实时外部信息。这种额外的向模型提供信息,使其能够根据实际数据做出更明智的决定,并将这些信息汇总反馈给用户。

    总之,代理响应的质量可以直接与模型对这些不同任务的推理和行动能力联系起来,包括选择正确工具的能力,以及工具定义的完善程度。就像厨师使用新鲜食材烹制菜肴并关注客户反馈一样,代理依靠合理的推理和可靠的信息来提供最佳结果。在下一节中,我们将深入探讨座席人员与新鲜数据连接的各种方式。

    工具:我们通往外部世界的钥匙

    虽然语言模型擅长处理信息,但它们缺乏直接感知和影响现实世界的能力。这就限制了它们在需要与外部系统或数据交互的情况下的作用。这意味着,从某种意义上说,语言模型的好坏取决于它从训练数据中学到了什么。但无论我们向模型抛出多少数据,它们仍然缺乏与外部世界交互的基本能力。那么,如何才能使我们的模型与外部系统进行实时、上下文感知的交互呢?函数、扩展、数据存储和插件都是为模型提供这种关键能力的方法。

    工具有很多名称,但它们是我们的基础模型与外部世界之间的纽带。这种与外部系统和数据的连接使我们的代理能够执行更多种类的任务,并且更加准确可靠。例如,工具可以让代理调整 smafi 主页设置、更新日历、从数据库获取用户信息,或根据特定指令发送电子邮件。

    截至本出版物发布之日,Google 模型可以与三种主要工具类型进行交互:扩展、函数和数据存储。通过为代理配备工具,我们为他们释放了巨大的潜力,使他们不仅能理解世界,还能根据世界采取行动,为无数新应用和新可能性打开大门。

    扩展

    理解扩展的最简单方法是将其视为以标准化方式在应用程序接口和代理之间架起的桥梁,使代理能够无缝执行应用程序接口,无论其底层实现如何。比方说,你创建了一个以帮助用户预订航班为目标的代理。你知道要使用 Google Flights API 来检索航班信息,但不确定如何让代理调用该 API 端点。

    图 3.代理如何与外部 API 交互?

    一种方法是执行自定义代码,接收传入的用户查询,解析查询的相关信息,然后进行 API 调用。例如,在航班预订使用案例中,用户可能会说 “我想预订从奥斯汀到苏黎世的航班”。在这种情况下,我们的自定义代码解决方案需要从用户查询中提取 “奥斯汀 “和 “苏黎世 “作为相关实体,然后再尝试进行 API 调用。但是,如果用户说 “我想预订飞往苏黎世的航班”,却没有提供目的地城市,会发生什么情况呢?如果没有所需的数据,API 调用就会失败,而且还需要执行更多代码才能捕捉到类似边缘和角落情况。这种方法不具备可扩展性,而且在任何超出自定义代码实现范围的情况下都很容易出错。

    更有弹性的方法是使用扩展。扩展通过以下方式在代理和应用程序接口之间架起了桥梁:

    1. 使用示例教代理如何使用 API 端点。
    2. 告诉代理成功调用 API 端点需要哪些参数。

    图 4.扩展将代理与外部应用程序接口连接起来

    扩展可以独立于代理而设计,但应作为代理配置的一部分提供。代理在运行时使用模型和示例来决定哪个扩展(如果有的话)适合解决用户的查询。这就凸显了扩展的一个关键优势,即其内建的示例类型允许代理为任务动态选择最合适的扩展。

    图 5.代理、扩展与应用程序接口之间的1对多关系

    就像软件开发人员在解决用户问题时决定使用哪个 API 端点一样。如果用户想预订机票,开发人员可能会使用 Google Flights API。如果用户想知道离自己最近的咖啡店在哪里,开发人员可能会使用谷歌地图 API。同样,代理/模型堆栈会使用一组已知的扩展来决定哪一个最适合用户的查询。如果您想了解扩展的运行情况,可以在 Gemini 应用程序中进入 “设置”>”扩展”,然后启用任何您想测试的扩展。例如,您可以启用 Google Flights 扩展,然后询问双子座 “向我显示下周五从奥斯汀飞往苏黎世的航班”。

    扩展样本

    为了简化扩展的使用,Google 提供了一些开箱即用的扩展,只需进行最少的配置就能快速将其植入项目并使用。,Snippet 1 中的代码解释器扩展允许你根据自然语言描述生成并运行 Python 代码。

     

    Python 
    导入 vertexai 导入 
    
    pprint 
    
    
    project_id= "your_project_id" 
    REGION = "us-central1" 
    
    vertexai.init(project=PROJECT_ID, location=REGION) 
    
    from vertexai.preview.extensions import Extension 
    
    extension_code_interpreter= Extension.from_hub("code_interpreter") 
    CODE_QUERY= """Write a python method to invert a binary tree in O(n) time.""" 
    
    response= extension_code_interpreter.execute( 
    operation_id = "generate_and_execute", 
    operation_params = {"query":CODE_QUERY} ) 
    
    print("Generated Code:") 
    pprint.pprint({response['generated_code']})
    
    #上述代码段将生成以下代码。 
    
    生成代码:
    类 TreeNode:
    def init(self,val=0,left=None,right=None):
    self.val = val self.left = left self.right= right
    
    def invert_binary_tree(root):
    """
    反转二叉树参数
    根:二叉树的根
    返回:
    倒置二叉树的根。
    """
    如果不是 root:
    返回 None
    # 递归交换左右子代 root.left、root.right =
    invert_binary_tree(root.right), invert_binary_tree(root.left)
    返回根
    # 示例用法:
    # 构建二叉树样本 root = TreeNode(4)
    root.left = TreeNode(2) root.right = TreeNode(7) root.left.left = TreeNode(1) root.left.right = TreeNode(3) root.right.left = TreeNode(6) root.right.right= TreeNode(9)
    # 反转二叉树
    inverted_root= invert_binary_tree(root)
     ```

    代码片段 1.代码解释器扩展可生成和运行 Python 代码

    总之,扩展为代理提供了一种感知、交互和影响外部世界的方式。这些扩展功能的选择和调用都是在实例的指导下进行的,所有实例都被定义为扩展配置的 pafi。

    功能

    在软件工程领域,函数被定义为独立的代码模块,可完成特定任务,并可根据需要重复使用。软件开发人员在编写程序时,通常会创建许多函数来完成各种任务。他们还将定义何时调用 function_a 与 function_b 的逻辑,以及预期的输入和输出。

    函数在代理世界中的工作原理非常相似,但我们可以用模型来代替软件开发人员。模型可以接受一组已知函数,并根据其规范决定何时使用每个函数以及函数需要哪些参数。函数与扩展有一些不同之处,其中最明显的是

    1. 模型会输出一个函数及其参数,但不会调用实时 API。

    2. 功能在客户端执行,而扩展在代理端执行。

    再以 Google Flights 为例,简单的功能设置可能与图 7 中的示例相似。

    图 7.函数如何与外部 API 交互?

    请注意,这里的主要区别在于,功能和代理都不直接与 Google Flights API 交互。那么,API 调用究竟是如何发生的呢?

    如下图 8 和图 9 所示,使用函数后,调用实际应用程序接口端点的逻辑和执行将从代理卸载到客户端应用程序。这样,开发人员就能对应用程序中的数据流进行更精细的控制。开发人员选择使用函数而不是扩展功能的原因有很多,但常见的使用案例有以下几种:

    • 应用程序接口调用需要在直接代理架构流程之外的应用堆栈的另一层进行(如中间件系统、前端框架等)。
    • 阻止代理直接调用应用程序接口的安全或身份验证限制(例如,应用程序接口未暴露于互联网,或代理基础设施无法访问)
    • 妨碍代理实时调用 API 的时间或操作顺序限制。(即批量操作、人工在环审查等)。
    • 需要对 API 响应应用代理无法执行的附加数据转换逻辑。例如,考虑到 API 端点不提供用于限制返回结果数量的过滤机制。在客户端使用函数为开发人员提供了进行这些转换的额外机会。
    • 开发人员希望迭代代理开发,而无需为应用程序接口端点部署额外的基础设施(例如,函数调用就像应用程序接口的 “存根”)。

    如图 8 所示,这两种方法在内部架构上的差异很微妙,但额外的控制和对外部基础架构的脱钩依赖使得功能调用对开发人员来说是一个很有吸引力的选择。

    图 8.扩展与函数调用的客户端与代理端控制划分

    使用案例

    可以使用模型来调用函数,以便为最终用户处理复杂的客户端执行流,在这种情况下,代理开发人员可能不希望语言模型来管理 API 的执行(扩展程序就是这种情况)。让我们来看看下面的示例:一个代理正被训练成一名旅游礼宾,与想要预订度假行程的用户进行交互。我们的目标是让代理生成一个城市列表,以便我们在中间件应用程序中使用,为用户的旅行计划下载图片、数据等。用户可能会说

    我想和家人一起去滑雪,但不知道去哪里。 在对模型的典型提示中,输出结果可能如下:当然,这里有一份您可以考虑全家滑雪旅行的城市列表:

    • 美国科罗拉多州克雷斯特布特
    • 加拿大不列颠哥伦比亚省惠斯勒
    • 瑞士采尔马特

    虽然上述输出包含我们需要的数据(城市名称),但其格式并不适合解析。通过函数调用,我们可以教模型将输出格式化为结构化的样式(如 JSON),这样更便于其他系统进行解析。在用户输入相同提示的情况下,函数的 JSON 输出示例可能如下所示

    代码段 5.显示城市和用户偏好列表的函数调用有效载荷示例

    这个 JSON 有效负载由模型生成,然后发送到我们的客户端服务器,以完成我们想做的任何事情。在这个具体案例中,我们将调用 Google Places API 来获取模型提供的城市并查找图片,然后将其作为格式化的丰富内容反馈给我们的用户。图 9 中的序列图详细展示了上述交互过程。

    图 9.显示函数调用生命周期的序列图

    图 9 示例的结果是,模型被用来 “填空 “客户端用户界面调用 Google Places API 所需的参数。客户端用户界面使用模型在返回的 Function 中提供的参数来管理实际的 API 调用。这只是函数调用的一个使用案例,但还有许多其他场景值得考虑,例如

    • 您希望语言模型建议您在代码中使用的函数,但又不想在代码中包含凭证。因为函数调用并不运行函数,所以您不需要在代码中包含证书和函数信息。
    • 您正在运行异步操作,耗时可能超过几秒钟。由于函数调用是一种异步操作,因此很好地处理这些情况。
    • 您希望在不同于产生函数调用及其参数的系统的设备上运行函数。

    关于函数,需要记住的一个关键点是,它们不仅能为开发人员提供更多对 API 调用执行的控制,还能控制整个应用程序中的整个数据流。在图 9 的示例中,开发人员选择不将 API 信息返回给代理,因为这些信息对代理未来可能采取的行动并不重要。不过,根据应用程序的架构,将外部 API 调用数据返回给代理以影响未来的推理、逻辑和操作选择可能是有意义的。最终,应用程序开发人员还是要根据具体的应用程序来选择合适的方法。

    功能示例代码

    为了在滑雪度假场景中实现上述输出,让我们利用 gemini-1.5-flash-001 模型构建出实现这一目标的各个组件。

    首先,我们将 display_cities 函数定义为一个简单的 Python 方法。

    代码段 6.显示城市列表函数的 python 方法示例。

    接下来,我们将实例化模型,构建工具,然后将用户的查询和工具传入模型。执行下面的代码将产生代码片段底部的输出结果。

    代码段 7.创建工具,向模型发送用户查询并允许函数调用

    总之,函数提供了一个简单明了的框架,使应用程序开发人员能够对数据流和系统执行进行细粒度控制,同时有效利用代理/模型生成关键输入。开发人员可以根据具体的应用架构要求,有选择性地选择是否通过返回外部数据让代理 “参与循环”,或者省略代理。

    数据存储

    把语言模型想象成一个藏书丰富的图书馆,里面有它的训练数据。但与不断获取新书的图书馆不同的是,这个模型始终保持静态,只保存最初训练时的知识。这就提出了一个挑战,因为现实世界的知识是不断演变。数据存储通过提供更多动态和最新的信息来解决这一局限性,并确保模型的响应始终以事实和相关性为基础。 考虑一种常见的情况,开发人员可能需要向模型提供少量额外数据,可能是电子表格或 PDF 格式的数据。

    图 10.代理如何与结构化和非结构化数据交互?

    数据存储允许开发人员以原始格式向代理提供额外数据,从而省去了耗时的数据转换、模型再训练或微调。数据存储将传入的文档转换成一组矢量数据库嵌入,代理可利用这些嵌入提取所需的信息,以补充其下一步行动或对用户的响应。

    图 11.数据存储将代理与各种类型的新实时数据源连接起来。

    实施与应用

    在生成式人工智能代理的背景下,数据存储通常以矢量数据库的形式实现,开发者希望代理在运行时能够访问该数据库。虽然我们不会在此深入介绍矢量数据库,但需要了解的关键一点是,它们以矢量嵌入的形式存储数据,而矢量嵌入是一种高维矢量或数学嵌入。

    所提供数据的表示。近来,数据存储与语言模型结合使用的最多的例子之一是检索增强语言模型(Retrieval Augmented)的实施。

    生成(RAG)为基础的应用。这些应用旨在通过让模型访问各种格式的数据,从而扩展模型知识的广度和深度,使其超越基础训练数据:

    • 网站内容
    • 结构化数据格式,如 PDF、Word 文档、CSV、电子表格等。
    • HTML、PDF、TXT 等格式的非结构化数据。

    图 12.代理与数据存储之间的 1 对多关系,可代表各种类型的预索引数据

    每个用户请求和代理响应循环的基本流程建模一般如图 13 所示。

    1. 用户查询被发送到嵌入模型,以生成查询的嵌入信息
    2. 然后,使用 SCaNN 等匹配算法将查询嵌入与矢量数据库的内容进行匹配。
    3. 匹配的内容以文本格式从矢量数据库中检索出来,并发送回代理
    4. 代理接收用户查询和检索到的内容,然后制定响应或行动
    5. 向用户发送最终回复

    图 13.基于 RAG 的应用程序中用户请求和代理响应的生命周期

    最终的应用结果是让代理通过矢量搜索将用户的查询与已知的数据存储相匹配,检索原始内容,并将其提供给协调层和模型进行进一步处理。下一步操作可能是向用户提供最终答案,或执行额外的矢量搜索以进一步完善结果。

    图 14 展示了一个与使用 ReAct 推理/规划功能实施 RAG 的代理进行交互的示例。

    工具回顾

    总而言之,扩展、函数和数据存储构成了几种不同的工具类型,供代理在运行时使用。每种工具都有自己的用途,它们可以一起使用,也可以独立使用,由代理开发人员自行决定。

    通过有针对性的学习提高模型性能

    有效使用模型的一个重要方面是模型在生成输出时选择正确工具的能力,尤其是在生产中大规模使用工具时。虽然一般培训有助于模型开发这一技能,但真实世界的场景往往需要培训数据以外的知识。把这想象成基本烹饪技能和掌握烹饪技巧之间的区别一种特定的菜肴。两者都需要基础烹饪知识,但后者需要有针对性的学习,以获得更细致入微的效果。

    为了帮助模型获取这类特定知识,几种方法:

    • 情境学习:这种方法在推理时为通用模型提供提示、工具和少量示例,使其能够 “即时 “学习如何以及何时在特定任务中使用这些工具。ReAct 框架就是这种方法在自然语言中的应用实例。
    • 基于检索的上下文学习:这种技术通过从外部存储器中检索最相关的信息、工具和相关示例,动态填充模型提示。例如,Vefiex 人工智能扩展中的 “示例存储 “或前面提到的基于 RAG 架构的数据存储。
    • 基于微调的学习:这种方法包括在推理之前使用特定示例的较大数据集来训练模型。这有助于模型在接收任何用户查询之前,了解何时以及如何应用 cefiain 工具。

    为了进一步了解每种有针对性的学习方法,让我们重温一下烹饪的比喻。

    • 试想一下,厨师从顾客那里得到一份特定的食谱(提示)、一些关键配料(相关工具)和一些菜肴示例(少量示例)。根据这些有限的信息和厨师的烹饪常识,他们需要想出如何 ” “烹制出最符合食谱和顾客喜好的菜肴。这就是情境学习。
    • 现在,让我们想象一下厨师在厨房里的情景,厨房里有一个储藏丰富的储藏室(外部数据存储),里面装满了各种配料和烹饪书(示例和工具)。现在,厨师可以从储藏室中动态地选择配料和烹饪书,并更好地调整根据客户的食谱和喜好。这样,厨师就能利用现有的和新的知识,制作出更明智、更精致的菜肴。这是基于检索的情境学习。
    • 最后,让我们设想一下,我们把厨师送回学校去学习一种或一组新的菜肴(在更大的特定示例数据集上进行预培训)。这样,厨师就能以更深入的理解来处理未来未见过的客户菜谱。如果我们希望厨师在特定菜肴(知识领域)中表现出色,那么这种方法就再好不过了。这就是基于微调的学习。

    这些方法在速度、成本和延迟方面各有利弊。不过,通过将这些技术结合到一个代理框架中,我们可以充分利用它们的各种优势,最大限度地减少它们的劣势,从而获得更强大、适应性更强的解决方案。

    使用 LangChain 的代理快速 stafi

    为了提供真实世界中可执行的代理操作示例,我们将使用 LangChain 和 LangGraph 库构建一个快速原型。这些流行的开源库允许用户通过将逻辑、推理和工具调用的序列 “链”在一起来构建客户代理,从而回答用户的询问。我们将使用 gemini-1.5-flash-001 模型和一些简单的工具来回答用户的多阶段查询,如片段 8 所示。

    我们使用的工具是 SerpAPI(用于谷歌搜索)和 Google Places API。执行完代码段 8 中的程序后,您可以看到代码段 9 中的示例输出。

    代码段 8.基于 LangChain 和 LangGraph 的代理示例与工具

    代码段 9.图示 8 中程序的输出结果

    虽然这是一个相当简单的代理示例,但它展示了模型、协调和工具等基础组件共同实现特定目标的过程。在最后一节,我们将探讨这些组件是如何在 Google 规模的托管产品(如 Vefiex 人工智能代理和生成式游戏本)中结合在一起的。

    使用 Vefiex 人工智能代理的生产应用

    本白皮书探讨了代理的核心组件,但要构建生产级应用,还需要将代理与用户界面、评估框架和持续改进机制等其他工具集成。谷歌的 Vekex 人工智能平台提供了一个完全可管理的环境,包含了前面提到的所有基本要素,从而简化了这一过程。通过使用自然语言界面,开发人员可以快速用户可以定义其代理的关键要素–目标、任务指令、工具、任务委托子代理和示例–从而轻松构建所需的系统行为。此外,该平台还配备了一套开发工具,可用于测试、评估、测量代理性能、调试和提高所开发代理的整体质量。这样,开发人员就可以专注于构建和完善他们的代理,而复杂的基础架构、部署和维护工作则由平台本身来管理。

    在图 15 中,我们提供了一个在 Vefiex 人工智能平台上构建的代理架构示例,该代理使用了 Vefiex Agent Builder、Vefiex Extensions、Vefiex AI Agent Builder 等多种功能。例如,函数调用和 Vefiex 示例存储。该架构包括许多生产就绪应用程序所需的各种组件。

    图 15.基于 Vefiex 人工智能平台构建的端到端代理架构示例

    您可以从我们的官方文档中试用这种预构建代理架构的示例。

    摘要

    在本白皮书中,我们讨论了生成式人工智能代理的基础构件、它们的组成以及以认知架构的形式实现它们的有效方法。本白皮书的一些主要内容包括

    1. 代理可以利用一个或多个语言模型来决定何时以及如何进行状态转换,并使用外部工具来完成任何数量的复杂任务,而这些任务对模型来说是很难或不可能独立完成的。
    2. 代理运行的核心是协调层,这是一种认知架构,用于构建推理、规划和决策,并指导代理的行动。各种推理技术,如 ReAct、Chain-of-Thought 和 Tree-of-Thoughts 等,为协调层提供了一个接收信息、执行内部推理和生成明智决策或响应的框架。
    3. 扩展、函数和数据存储等工具是代理通向外部世界的钥匙,使他们能够与外部系统交互,并获取训练数据以外的知识。扩展在代理和外部应用程序接口之间架起了一座桥梁,使应用程序接口调用的执行和实时信息的检索成为可能。生成可在客户端执行的功能参数。数据存储可让代理访问结构化或非结构化数据,从而实现数据驱动型应用。

    未来的代理技术将取得令人兴奋的进步,而我们才刚刚开始了解其可能性的表面。随着工具越来越先进,推理能力越来越强,代理将有能力解决越来越复杂的问题。此外,”代理链 “的战略方法将继续得到。通过将专业代理(每个代理都擅长某一特定领域或任务)结合起来,我们就能创造出一种 “混合代理经验 “的方法,能够在各个行业和问题领域取得卓越的成果。

    重要的是要记住,建立复杂的代理架构需要一种迭代方法。实验和改进是为特定业务案例和组织需求找到解决方案的关键。由于支撑代理架构的基础模型具有生成性,因此没有两个代理是相同的。但是,通过利用每个基础组件的优势,我们可以创建有影响力的应用程序,从而扩展语言模型的功能并推动现实世界的价值。

    尾注

    1. Shafran, I., Cao, Y. et al., 2022, ‘ReAct:语言模型中推理与行动的协同”。Available at:hflps://arxiv.org/abs/2210.03629
    2. Wei,J.,Wang,X.等,2023,《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》。见 hflps://arxiv.org/pdf/2201.11903.pdf
    3. Wang, X. et al., 2022, ‘Self-Consistency Improves Chain of Thought Reasoning in Language Models’.见 hflps://arxiv.org/abs/2203.11171
    4. Diao, S. et al., 2023, “Active Prompting with Chain-of-Thought for Large Language Models”。见 hflps://arxiv.org/pdf/2302.12246.pdf.
    5. Zhang, H. et al., 2023, ‘Multimodal Chain-of-Thought Reasoning in Language Models’。见 hflps://arxiv.org/abs/2302.00923.
    6. Yao, S. et al., 2023, “Tree of Thoughts:用大型语言模型慎重解决问题》。Available at:hflps://arxiv.org/abs/2305.10601.
    7. Long, X., 2023, “Large Language Model Guided Tree-of-Thought”.见 hflps://arxiv.org/abs/2305.08291.
    8. 谷歌。谷歌双子座应用程序”。网址:hflp://gemini.google.com
    9. Swagger。OpenAPI 规范”。网址:hflps://swagger.io/specification/
    10. Xie, M., 2022, 《情境学习是如何运作的?理解与传统监督学习差异的框架》。见 hflps://ai.stanford.edu/blog/understanding-incontext/
    11. 谷歌研究。ScaNN (Scalable Nearest Neighbors)’.请访问 hflps://github.com/google-research/google-research/tree/master/scann.
    12. LangChain.LangChain。可查阅:hflps://python.langchain.com/v0.2/docs/introduction/

    获取《谷歌智能体Agent白皮书》PDF原文件,扫码关注回复: 20250108

    原文链接:https://www.kaggle.com/whitepaper-agents