Blog

  • Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架

    Hallo3是什么

    Hallo3是复旦大学和百度公司联合推出的,基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能生成高度动态和逼真的视频。Hallo3基于预训练的变换器视频生成模型,有效解决现有方法在处理非正面视角、动态对象渲染和生成沉浸式背景方面的挑战。Hallo3基于新的视频骨干网络,设计身份参考网络确保视频序列中面部身份的一致性,研究了语音音频条件和运动帧机制,实现由语音音频驱动的连续视频生成。实验表明,Hallo3在生成具有多种方向的逼真肖像方面表现出色,能适应复杂姿势和动态场景,产生逼真且平滑的动画效果。

    Hallo3

    Hallo3的主要功能

    • 多视角动画生成:从不同的视角(如正面、侧面、 overhead 或低角度)生成动画肖像,突破传统方法主要依赖正面视角的限制。
    • 动态对象渲染:处理肖像周围动态对象的动画,如人物手持智能手机、麦克风或佩戴紧密贴合的物品,生成对象在视频序列中的真实运动。
    • 沉浸式背景生成:生成具有动态效果的背景,如前景中的篝火或背景中的拥挤街道场景,增强视频的真实感和沉浸感。
    • 身份一致性保持:在整个视频序列中保持肖像的身份一致性,在长时间的动画中也能准确地识别和保持人物的面部特征。
    • 语音驱动的动画:基于语音音频驱动肖像的面部表情和嘴唇动作,实现高度同步的语音和面部动画,让动画更加自然和逼真。

    Hallo3的技术原理

    • 预训练的变换器视频生成模型
      • 基础架构:CogVideoX模型作为基础架构,用3D变分自编码器(VAE)对视频数据进行压缩。模型将潜在变量与文本嵌入相结合,基于专家变换器网络进行处理。
      • 条件机制:引入三种条件机制:文本提示(ctext)、语音音频条件(caudio)和身份外观条件(cid)。主要用交叉注意力(cross-attention)和自适应层归一化(adaLN)整合这些条件信息。
    • 身份参考网络
      • 3D VAE和变换器层:用因果3D VAE结合42层变换器层的身份参考网络,从参考图像中提取身份特征,嵌入到去噪潜在代码中,基于自注意力机制增强模型对身份信息的表示和长期保持。
      • 特征融合:将参考网络生成的视觉特征与去噪网络的特征进行融合,确保生成的面部动画在长时间序列中保持一致性和连贯性。
    • 语音音频条件
      • 音频嵌入:wav2vec框架提取音频特征,生成帧特定的音频嵌入,基于线性变换层将音频嵌入转换为适合模型的表示。
      • 交叉注意力机制:在去噪网络中,交叉注意力机制将音频嵌入与潜在编码进行交互,增强生成输出的相干性和相关性,确保模型有效地捕捉驱动角色生成的音频信号。
    • 视频外推:引入运动帧作为条件信息。将生成视频的最后几帧作为后续片段生成的输入,用3D VAE处理运动帧,生成新的潜在代码,实现时间一致的长视频推理。
    • 训练和推理
      • 训练过程:分为两个阶段。第一阶段训练模型生成具有身份一致性的视频;第二阶段扩展到音频驱动的视频生成,整合音频注意力模块。
      • 推理过程:模型接收参考图像、驱动音频、文本提示和运动帧作为输入,生成具有身份一致性和嘴唇同步的视频。

    Hallo3的项目地址

    Hallo3的应用场景

    • 游戏开发:为游戏中的角色生成动态的肖像动画,使角色在游戏中的表现更加自然和逼真,提升玩家的游戏体验。
    • 电影制作:生成逼真的角色动画,提升电影和动画的视觉效果和沉浸感。
    • 社交媒体:为社交媒体用户生成动态头像,使用户的个人资料更加生动有趣,提升用户在社交媒体上的个性化体验。
    • 在线教育:生成虚拟讲师的动画,让在线课程更加生动和有趣,提高学生的学习兴趣和参与度。
    • 虚拟现实和增强现实:在VR和AR应用中生成虚拟角色,提供更加逼真的交互体验,增强用户的沉浸感和参与感。
  • PaperFine – AI原创论文写作平台,一键生成5万字文章

    PaperFine是什么

    PaperFine是AI原创论文写作平台,为用户提供全面的论文写作支持。用户只需输入论文标题,即可一键生成长达5万字的文章。提供丰富的功能,包括中英文摘要、正文、国内外研究现状、参考文献和致谢等内容的自动生成或辅助编辑。PaperFine还支持多种类型的论文,如软件工程类、问卷调查类和英文类等。平台还提供在线改稿服务,能根据导师的指导意见进行智能解析和文本优化。其他辅助功能包括选题、大纲构思、文献检索、开题报告、调查问卷、数据分析和可视化图表等。

    PaperFine的主要功能

    • 选题与构思大纲:用户可以根据输入的关键词,智能生成相关的论文题目和详细的大纲,帮助快速确定研究方向和论文结构。
    • 生成初稿:能在短时间内生成长达3万字的论文初稿,节省了用户的时间和精力。
    • 开题报告与任务书:智能生成开题报告和任务书,帮助用户顺利通过开题答辩和明确研究任务。
    • 文献综述:提供40篇真实中英文知网参考文献,帮助用户进行全面的文献综述。
    • 调查问卷与数据分析:生成调查问卷,并提供数据分析和可视化图表,支持实证研究。
    • AI在线改稿:基于上传的文档,PaperFine可以重新生成内容或根据修改意见在线修改,支持生成表格、流程图、时序图、代码、公式等。
    • 其他辅助功能:包括实习报告、工作报告、演讲稿等多种文本的生成,以及创意设计类的辅助工具。

    PaperFine的官网地址

    PaperFine的应用场景

    • 开题报告:根据论题智能生成对应的开题报告,帮助学生顺利通过开题答辩。
    • 任务书:根据论题智能生成对应的任务书,明确研究任务和目标。
    • 本科生、硕士生和博士生:PaperFine可以帮助这些学生从选题到生成初稿,再到修改完善,一站式解决论文写作的各个环节。
    • 文献综述:提供40篇真实中英文知网参考文献,帮助用户进行全面的文献综述。
    • 内容修改:基于上传的文档,PaperFine可以重新生成内容或根据修改意见在线修改,支持生成表格、流程图、时序图、代码、公式等内容,满足论文中各种格式和排版需求。
  • 逐笔AI – 专为体制内人员设计的 AI 内容创作平台

    逐笔AI是什么

    逐笔AI是专为体制内人员设计的智能AI创作平台,解决各类公文写作难题。基于先进的AI技术,能自动化生成高质量的公文材料,缩短撰写时间。逐笔AI提供了多种写作场景模板,包括总结汇报、思想感悟、宣传演讲、计划方案、讲话发言等,满足不同写作需求。平台还内置了丰富的范文库和AI金句生成功能,帮助用户提升文章的法定性、事务性和规范性。逐笔AI还提供体制公文库,每日更新热点主题词及公文,紧跟时事。

    逐笔AI

    逐笔AI的主要功能

    • 体制内多场景写作:提供总结汇报、思想感悟、宣传演讲、计划方案、讲话发言等多种写作场景模板,满足不同写作需求,轻松应对各种写作任务 。
    • 一键生成专业公文:基于公文写作专用大模型,智能生成真正专业可用的公文材料。操作简单易上手,用户只需输入要求,点击生成,即可产出 。
    • AI金句生成:根据主题和文章段落生成凝结提炼的内容,并可选择参考样式,如排比拟人、用典双关等,丰富公文的表达 。
    • 体制公文库:提供海量的公文内容,每日更新热点主题词及公文,紧跟时事。用户可搜索心仪内容,进行查看、下载或一键仿写。

    逐笔AI的官网地址

    逐笔AI的应用场景

    • 政策制定与发布:帮助政府机关快速起草政策文件、公告通知等,确保政策内容准确、规范,并及时对外发布。
    • 会议记录与纪要:在各类政府会议中,逐笔AI可以辅助记录会议内容,生成会议纪要,详细记录会议讨论的议题、决策结果及下一步分工。
    • 工作报告与汇报:政府部门需要定期向上级汇报工作进展和成果,逐笔AI能协助撰写工作总结、情况汇报等,突出工作亮点和成绩。
    • 内部通知与文件:企业日常运营中需要发布各类通知,如人事变动、业务调整等,逐笔AI能快速生成规范的内部文件,确保信息传达准确。
    • 商务报告与分析:在商务活动中,企业需要撰写市场分析报告、财务报告等,逐笔AI可以结合数据和业务需求,生成专业的商务报告。
    • 学术论文与报告:学生和研究人员在撰写学术论文、研究报告时,逐笔AI能提供写作思路和语言表达上的帮助,提高论文质量。
  • Tailor Brands – AI Logo设计平台,支持设计名片、信纸、社交媒体封面等服务

    Tailor Brands是什么

    Tailor Brands 是在线AI Logo设计平台,主要面向中小企业和创业者。Tailor Brands 基于技术,根据用户提供的品牌信息和设计偏好,快速生成多种风格的 Logo 设计供选择和调整。除 Logo 设计,Tailor Brands 还提供品牌工具包,包括名片、信纸、社交媒体封面等全套设计元素,及网站构建和社交媒体设计功能。Tailor Brands提供品牌市场分析和定位建议,帮助用户更好地理解市场和竞争对手。

    Tailor Brands

    Tailor Brands的主要功能

    • Logo设计:根据用户输入的品牌名称、行业类型和设计偏好等信息,AI自动生成多种风格的Logo设计供用户选择和调整。
    • 品牌工具包:提供包括名片、信纸、社交媒体封面等在内的全套品牌设计元素,帮助用户统一品牌形象。
    • 网站构建:提供简单易用的网站构建工具,用户能快速创建专业的网站,提升品牌在线展示效果.
    • 社交媒体设计:根据品牌视觉风格,生成适用于各种社交媒体平台的图形和广告素材,增强品牌在社交媒体上的影响力。

    Tailor Brands的官网地址

    Tailor Brands的应用场景

    • 初创企业:对于刚刚起步的中小企业和创业者,快速建立品牌形象,包括设计Logo、名片、网站等,节省时间和成本。
    • 品牌重塑:企业需要重新定位或更新品牌形象时,Tailor Brands提供新的设计方案,帮助品牌焕然一新。
    • 市场营销:在进行市场营销活动时,生成适用于不同平台的广告素材和社交媒体内容,提升品牌宣传效果。
    • 产品包装设计:为设计产品包装的企业,提供包装设计的灵感和方案,增强产品的吸引力。
    • 个人品牌建设:对于个人品牌建设者,如自由职业者、博主等,帮助他们设计个人品牌Logo、社交媒体页面等,提升个人形象和知名度。
  • UnblurImage – AI图像增强工具,多种选项调整图片的清晰度和细节

    UnblurImage是什么

    UnblurImage 是基于AI技术的在线工具,用于去除图片中的模糊并增强图像质量。UnblurImage 基于先进的 AI 技术分析和处理图像,能有效恢复因运动模糊或对焦不佳而受影响的图片清晰度。工具支持多种图片格式,如 PNG、JPG 和 HEIC,支持用户选择不同的增强选项调整图片的清晰度和细节。UnblurImage 完全免费且无需注册,用户只需上传图片、选择增强选项即可快速获得去模糊后的高质量图像。

    UnblurImage

    UnblurImage的主要功能

    • AI 驱动的去模糊:自动识别并修复图像中的模糊区域,恢复照片的清晰度和细节。
    • 图像细节增强:在去模糊的同时,增强图像的细节表现,让线条更清晰、颜色更鲜艳、纹理更明显,提升整体视觉效果。
    • 分辨率提升:支持将图片放大到更高分辨率,如 2x、4x 等,同时保持或进一步提升图像的清晰度。
    • 支持多种图片格式:兼容多种常见的图片格式,如 PNG、JPG、JPEG、WEBP 和 HEIC,方便用户从不同设备上传和处理图片。

    UnblurImage的官网地址

    UnblurImage的应用场景

    • 电子商务:在线卖家去模糊产品照片,确保客户能够清晰地看到产品的细节、颜色和纹理,提高产品的吸引力和购买意愿。
    • 社交媒体:社交媒体内容创作者提升图片的清晰度和质量,让发布的内容更具吸引力,提高用户的点赞、评论和分享率。
    • 照片打印:对于想要打印或展示家庭照片的用户,UnblurImage 能帮助恢复旧照片或因拍摄条件不佳而模糊的照片的清晰度。
    • 创意项目:数字艺术家处理创作过程中使用的图片素材,让细节更加清晰,为艺术创作提供高质量的视觉基础。
    • 个人用途:在旅行中拍摄的照片可能因手抖或其他原因而模糊,UnblurImage 帮助用户恢复旅行照片的清晰度,留住美好的回忆。
  • Project AVA – 雷蛇推出的 AI 游戏伴侣

    Project AVA是什么

    Project AVA 是雷蛇(Razer)推出的 AI 驱动的游戏伴侣,通过实时指导和赛后复盘帮助玩家提升游戏技能。汲取了顶尖电竞职业玩家和教练的游戏理解,能在 MOBA 和 FPS 类型的游戏中提供实时的游戏建议。Project AVA 能在 ARPG 游戏中通过数百万次的游戏模拟,即时提供专业的游戏攻略。具备硬件性能调优功能,能一键提升帧数、缩短加载时间并优化画面效果。Project AVA 的交互方式多样,包括游戏内嵌窗口、语音聊天和文字聊天框,用户能更方便地与 AI 进行交流。

    Project AVA的主要功能

    • 实时游戏指导:Project AVA 可以在 MOBA 和 FPS 类型的游戏中提供实时指导,帮助玩家提升操作和战术水平。
    • 赛后复盘分析:赛后,Project AVA 会提供个性化的总结分析,指出操作的高光和需要改进的地方,帮助玩家更好地提升自己的游戏技能。
    • 游戏模拟与攻略:在 ARPG 游戏中,Project AVA 可在数秒内完成数百万次游戏模拟,即时提供专业的游戏攻略,帮助玩家躲避 BOSS 攻击、完成复杂的解谜闯关。
    • 硬件性能优化:Project AVA 可以分析电脑的硬件配置和所需的游戏设置,一键提升帧数、缩短加载时间并优化画面效果。还会检查硬件、软件和固件的最新版本,提醒用户及时更新。

    Project AVA的官网地址

    Project AVA的应用场景

    • 性能调优:Project AVA 可以分析电脑的硬件配置和所需的游戏设置,一键提升帧数、缩短加载时间并优化画面效果。这确保玩家在游戏过程中获得最佳的性能体验。
    • 更新提醒: AI 助手还会检查硬件、软件和固件的最新版本,提醒用户及时更新,确保设备始终处于最佳状态。
    • 游戏开发支持:Project AVA 也可以作为游戏开发者的工具,用于游戏的入门教程、指导手册等。
  • 星火纪要 – 科大讯飞推出的会议交流总结和分析平台

    星火纪要是什么

    星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容,提升工作学习效率;辅助企业从众多会议中洞察趋势与共性问题,进行更准确的组织决策。上传1小时音频文件,5分钟转录完毕,提炼仅需1分钟,角色分离准确率超95%;提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。

    星火纪要

    星火纪要的主要功能

    • 转录:能将会议、访谈等音视频内容快速转录成文字。上传1小时的音频文件,仅需5分钟即可完成转录。
    • 总结:在转录的基础上,星火纪要能够自动提炼出会议或访谈的重点内容和待办事项,生成精简的纪要。例如,提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。
    • 翻译:支持将转录的内容进行翻译,方便跨语言的沟通和记录。
    • 分析:能够对会议内容进行深入分析,帮助企业从众多会议中洞察趋势与共性问题,从而进行更准确的组织决策。
    • 角色分离:能够区分会议中的不同讲话人,将不同讲话人的发言分开整理,方便后续查阅和分析,角色分离准确率超95%。
    • 智能整理:包括语篇规整功能,可以自动过滤重复词、叹词及语气词,让会议记录相对清晰、专业。
    • 一键成稿:上传音频文件后,根据用户的指令,可以一键生成所需的文档,如策划案、新闻稿件等。

    星火纪要的官网地址

    星火纪要的应用场景

    • 会议记录:能够将会议中的语音内容实时转录成文字,帮助参会人员准确记录会议内容。例如,上传1小时的音频文件,仅需5分钟即可完成转录。
    • 会议纪要生成:在转录的基础上,自动提炼出会议的重点内容和待办事项,生成精简的会议纪要。如2小时的会议内容,通过星火纪要可以实现“5分钟掌握”。
    • 角色区分:能够区分会议中的不同讲话人,将不同讲话人的发言分开整理,方便后续查阅和分析。
    • 访谈记录:将访谈过程中的对话内容转录成文字,方便后续整理和分析。
    • 客户沟通记录:记录与客户的沟通内容,便于后续跟进和分析客户的需求和反馈。
  • 谷歌《智能体Agent》白皮书(中文版)

    致谢

    审稿人和投稿人

    Evan Huang

    Emily Xue

    Olcan Sercinoglu

    Sebastian Riedel

    Satinder Baveja

    Antonio Gulli

    Anant Nawalgaria

    策展人和编辑

    安东尼奥-古利

    Anant Nawalgaria

    Grace Mollison

    技术撰稿人

    乔伊-海莫克

    设计师

    迈克尔-朗宁

    获取《谷歌智能体Agent白皮书》PDF原文件,扫码关注回复: 20250108

     

    推理、逻辑和外部信息的获取都与生成式人工智能模型相关联,这种组合引用了代理的概念。

    导言

    人类擅长处理杂乱无章的模式识别任务。然而,他们往往依赖工具 – 在得出结论之前,人工智能模型可以使用书籍、谷歌搜索或计算器等工具来补充其已有知识。就像人类一样,生成式人工智能模型也可以训练使用工具来获取实时信息或建议现实世界中的行动。例如,模型可以利用数据库检索工具访问特定信息,如客户的购买历史,从而生成量身定制的购物建议。或者,根据用户的查询,模型可以进行各种 API 调用,向同事发送电子邮件回复或代表您完成金融交易。要做到这一点,模型不仅必须能够访问一系列外部工具,还需要有能力以自我指导的方式计划和执行任何任务。这种推理、逻辑和外部信息访问的组合都与生成式人工智能模型相关联,这就产生了代理的概念,或者说是一种超越了生成式人工智能模型独立能力的程序。本白皮书将对所有这些方面及相关方面进行更详细的介绍。

    什么是Agent

    就其最基本的形式而言,生成式人工智能代理可定义为一种应用程序,它试图通过观察世界并利用掌握的工具采取行动来实现目标。代理是自主的,可以在没有人类干预的情况下独立行动,尤其是在有适当的目标或目的的情况下。代理还可以积极主动地实现目标。即使没有来自人类的明确指令集,代理也能推理出下一步应该做什么,以实现其最终目标。虽然人工智能中的代理概念非常普遍且功能强大,但本白皮书在发布时主要关注的是生成式人工智能模型能够构建的特定类型的代理。

    为了了解代理的内部运作,我们首先来介绍一下驱动代理行为、行动和决策的基础组件。这些组件的组合可以被描述为认知架构,而通过这些组件的混合和匹配,可以实现许多这样的架构。重点关注核心功能,如图 1 所示,代理的认知架构有三个基本组件。

    图 1.一般代理架构和组件

    模型

    在代理范围内,模型指的是语言模型(LM),它将被用作代理流程的集中决策制定器。代理使用的模型可以是一个或多个 LM,大小不限(小/大),能够遵循基于指令的推理和逻辑框架,如 ReAct、Chain-of-Thought 或 Tree-of-Thoughts。模型可以是通用的、多模态的,也可以根据具体代理架构的需要进行微调。为了获得最佳的生产效果,您应该使用最适合您所需的最终应用的模型,而且最好是在与您计划在认知架构中使用的工具相关联的数据特征上经过训练的模型。值得注意的是,模型通常不会根据代理的具体配置设置(如工具选择、协调/推理设置)进行训练。不过,可以通过提供展示代理能力的示例,包括代理在不同情境下使用特定工具或推理步骤的实例,进一步完善代理任务的模型。

    工具

    基础模型尽管能生成令人印象深刻的文本和图像,但仍然受到无法与外部世界交互的限制。工具弥补了这一缺陷,使代理能够与外部数据和服务进行交互,同时释放出底层模型之外的更多行动。工具的形式多种多样,其功能也各不相同。复杂程度不一,但通常与 GET、POST、PATCH 和 DELETE 等常见网络 API 方法一致。例如,工具可以更新数据库中的客户信息或获取天气数据,以影响代理向用户提供的旅行建议。通过工具,代理可以访问和处理真实世界的信息。这使他们能够支持更专业的系统,如检索增强生成(RAG),从而大大扩展了代理的能力,使其超越了基础模型本身所能实现的范围。下面我们将详细讨论工具,但最重要的是我们需要理解的是,工具是沟通代理的内部能力和外部世界的桥梁,它能开启更广泛的可能性。

    协调层

    协调层描述了一个循环过程,该过程控制着代理如何接收信息、执行一些内部推理,并利用这些推理为下一步行动或决策提供信息。一般来说,这个循环将一直持续到代理达到目标或停止点为止。协调层的复杂程度会因代理及其执行的任务不同而有很大差异。有些循环可以是带有决策规则的简单计算,而有些循环则可能包含连锁逻辑,涉及额外的机器学习算法,或实施其他概率推理技术。我们将在认知架构部分详细讨论代理协调层的实现。

    代理与模型

    为了更清楚地理解代理人与模型之间的区别,请看下面的 Chafi:

    机型 代理
    他们的知识仅限于训练数据中的内容。 通过工具与外部系统连接,知识得以扩展
    基于用户查询的单一推理/预测。除非为模型明确实施,否则不会对会话进行管理。历史或连续上下文。(即聊天记录) 管理会话历史(即聊天历史),以便根据协调层中的用户查询和决策进行多轮推理/预测。在这种情况下,一个“回合”被定义为交互系统与代理之间的一次交互。(即1个传入事件/查询和1个代理响应)
    没有本地工具实施。 工具是在代理架构中实现的。
    无本地逻辑层。用户可以以简单问题的形式发出提示,也可以使用推理框架(CoT、ReAct等)发出复杂的提示,以指导模型进行预测。 使用CoT、ReAct等推理框架或LangChain等其他预建代理框架的本地认知架构。

     

    认知架构:代理如何运作

    想象一下厨师在忙碌的厨房里的情景。他们的目标是为餐厅顾客制作美味佳肴,这就涉及到计划、执行和调整的循环。

    • 他们收集信息,如顾客的订单以及储藏室和冰箱里的配料。
    • 他们会根据刚刚收集到的信息进行一些内部推理,以确定可以制作哪些菜肴和口味。
    • 他们动手制作菜肴:切菜、调料、烤肉。

    在这一过程的每个阶段,厨师都会根据需要做出调整,在食材耗尽或收到顾客反馈时完善他们的计划,并利用之前的一系列结果来决定下一步的行动计划。这种信息摄取、计划、执行和调整的循环描述了厨师为实现目标而采用的独特认知结构。 就像厨师一样,代理可以使用认知架构,通过迭代处理信息、做出明智的决策,并根据先前的产出完善下一步行动,从而实现其最终目标。代理认知架构的核心是协调层,负责维护记忆、状态、推理和规划。它利用快速发展的提示工程领域和相关框架来指导推理和规划,使代理能够更有效地与环境互动并完成任务。针对语言模型的提示工程框架和任务规划领域的研究正在迅速发展,并产生了各种有前途的方法。虽然这并不是一个详尽的清单,但在本报告发表时,这些都是一些最流行的框架和推理技术:

    • ReAct 是一个提示工程框架,它为语言模型提供了一种思维过程策略,以便在有或没有上下文示例的情况下,对用户查询进行推理并采取行动。事实证明,ReAct 提示的效果优于几种 SOTA 基线,并提高了 LLM 的人类互操作性和可信度。
    • 思维链(CoT)是一种通过中间步骤实现推理能力的提示工程框架。CoT 有多种子技术,包括自洽、主动提示和多模式 CoT,根据具体应用的不同,各有优缺点。
    • 思维树(ToT)是一个提示工程框架,非常适合探索或战略性前瞻任务。它对思维链提示进行了概括,允许模型探索各种思维链,作为使用语言模型解决一般问题的中间步骤。

    代理可以利用上述推理技术之一或许多其他技术,为给定的用户请求选择下一个最佳操作。例如,让我们来考虑一个被编程为使用 ReAct 框架来为用户查询选择正确操作和工具的代理。事件的顺序可能是这样的

    • 用户向代理发送查询
    • 代理开始 ReAct 序列
    • 代理向模型发出提示,要求它生成下一个 ReAct 步骤及其相应的输出:
      • a. 问题问题: 用户查询的输入问题,提供提示
      • b. 思考:模型对下一步行动的思考
      • c. 行动:模型决定下一步采取什么行动
        • i. 这就是选择工具的地方
        • ii. 例如,一个操作可以是[飞行、搜索、代码、无]中的一个,其中前三个代表模型可以选择的已知工具,最后一个代表 “无工具选择”。
      • d. 行动输入:模型决定向工具提供哪些输入(如果有的话)
      • e. 观察结果:行动/行动输入序列的结果
        • i. 这种思考/行动/行动输入/观察可以根据需要重复 N 次
      • f. 最终答案:模型为原始用户查询提供的最终答案
    • ReAct 循环结束,并向用户提供最终答案

    图 2.在协调层中使用 ReAct 推理的代理示例

    如图 2 所示,模型、工具和代理配置协同工作,根据用户的原始查询,向用户提供有根有据、简明扼要的回复。虽然模型可以根据自己的先验知识猜测答案(幻觉),但它却使用了一种工具(飞行)来搜索实时外部信息。这种额外的向模型提供信息,使其能够根据实际数据做出更明智的决定,并将这些信息汇总反馈给用户。

    总之,代理响应的质量可以直接与模型对这些不同任务的推理和行动能力联系起来,包括选择正确工具的能力,以及工具定义的完善程度。就像厨师使用新鲜食材烹制菜肴并关注客户反馈一样,代理依靠合理的推理和可靠的信息来提供最佳结果。在下一节中,我们将深入探讨座席人员与新鲜数据连接的各种方式。

    工具:我们通往外部世界的钥匙

    虽然语言模型擅长处理信息,但它们缺乏直接感知和影响现实世界的能力。这就限制了它们在需要与外部系统或数据交互的情况下的作用。这意味着,从某种意义上说,语言模型的好坏取决于它从训练数据中学到了什么。但无论我们向模型抛出多少数据,它们仍然缺乏与外部世界交互的基本能力。那么,如何才能使我们的模型与外部系统进行实时、上下文感知的交互呢?函数、扩展、数据存储和插件都是为模型提供这种关键能力的方法。

    工具有很多名称,但它们是我们的基础模型与外部世界之间的纽带。这种与外部系统和数据的连接使我们的代理能够执行更多种类的任务,并且更加准确可靠。例如,工具可以让代理调整 smafi 主页设置、更新日历、从数据库获取用户信息,或根据特定指令发送电子邮件。

    截至本出版物发布之日,Google 模型可以与三种主要工具类型进行交互:扩展、函数和数据存储。通过为代理配备工具,我们为他们释放了巨大的潜力,使他们不仅能理解世界,还能根据世界采取行动,为无数新应用和新可能性打开大门。

    扩展

    理解扩展的最简单方法是将其视为以标准化方式在应用程序接口和代理之间架起的桥梁,使代理能够无缝执行应用程序接口,无论其底层实现如何。比方说,你创建了一个以帮助用户预订航班为目标的代理。你知道要使用 Google Flights API 来检索航班信息,但不确定如何让代理调用该 API 端点。

    图 3.代理如何与外部 API 交互?

    一种方法是执行自定义代码,接收传入的用户查询,解析查询的相关信息,然后进行 API 调用。例如,在航班预订使用案例中,用户可能会说 “我想预订从奥斯汀到苏黎世的航班”。在这种情况下,我们的自定义代码解决方案需要从用户查询中提取 “奥斯汀 “和 “苏黎世 “作为相关实体,然后再尝试进行 API 调用。但是,如果用户说 “我想预订飞往苏黎世的航班”,却没有提供目的地城市,会发生什么情况呢?如果没有所需的数据,API 调用就会失败,而且还需要执行更多代码才能捕捉到类似边缘和角落情况。这种方法不具备可扩展性,而且在任何超出自定义代码实现范围的情况下都很容易出错。

    更有弹性的方法是使用扩展。扩展通过以下方式在代理和应用程序接口之间架起了桥梁:

    1. 使用示例教代理如何使用 API 端点。
    2. 告诉代理成功调用 API 端点需要哪些参数。

    图 4.扩展将代理与外部应用程序接口连接起来

    扩展可以独立于代理而设计,但应作为代理配置的一部分提供。代理在运行时使用模型和示例来决定哪个扩展(如果有的话)适合解决用户的查询。这就凸显了扩展的一个关键优势,即其内建的示例类型允许代理为任务动态选择最合适的扩展。

    图 5.代理、扩展与应用程序接口之间的1对多关系

    就像软件开发人员在解决用户问题时决定使用哪个 API 端点一样。如果用户想预订机票,开发人员可能会使用 Google Flights API。如果用户想知道离自己最近的咖啡店在哪里,开发人员可能会使用谷歌地图 API。同样,代理/模型堆栈会使用一组已知的扩展来决定哪一个最适合用户的查询。如果您想了解扩展的运行情况,可以在 Gemini 应用程序中进入 “设置”>”扩展”,然后启用任何您想测试的扩展。例如,您可以启用 Google Flights 扩展,然后询问双子座 “向我显示下周五从奥斯汀飞往苏黎世的航班”。

    扩展样本

    为了简化扩展的使用,Google 提供了一些开箱即用的扩展,只需进行最少的配置就能快速将其植入项目并使用。,Snippet 1 中的代码解释器扩展允许你根据自然语言描述生成并运行 Python 代码。

     

    Python 
    导入 vertexai 导入 
    
    pprint 
    
    
    project_id= "your_project_id" 
    REGION = "us-central1" 
    
    vertexai.init(project=PROJECT_ID, location=REGION) 
    
    from vertexai.preview.extensions import Extension 
    
    extension_code_interpreter= Extension.from_hub("code_interpreter") 
    CODE_QUERY= """Write a python method to invert a binary tree in O(n) time.""" 
    
    response= extension_code_interpreter.execute( 
    operation_id = "generate_and_execute", 
    operation_params = {"query":CODE_QUERY} ) 
    
    print("Generated Code:") 
    pprint.pprint({response['generated_code']})
    
    #上述代码段将生成以下代码。 
    
    生成代码:
    类 TreeNode:
    def init(self,val=0,left=None,right=None):
    self.val = val self.left = left self.right= right
    
    def invert_binary_tree(root):
    """
    反转二叉树参数
    根:二叉树的根
    返回:
    倒置二叉树的根。
    """
    如果不是 root:
    返回 None
    # 递归交换左右子代 root.left、root.right =
    invert_binary_tree(root.right), invert_binary_tree(root.left)
    返回根
    # 示例用法:
    # 构建二叉树样本 root = TreeNode(4)
    root.left = TreeNode(2) root.right = TreeNode(7) root.left.left = TreeNode(1) root.left.right = TreeNode(3) root.right.left = TreeNode(6) root.right.right= TreeNode(9)
    # 反转二叉树
    inverted_root= invert_binary_tree(root)
     ```

    代码片段 1.代码解释器扩展可生成和运行 Python 代码

    总之,扩展为代理提供了一种感知、交互和影响外部世界的方式。这些扩展功能的选择和调用都是在实例的指导下进行的,所有实例都被定义为扩展配置的 pafi。

    功能

    在软件工程领域,函数被定义为独立的代码模块,可完成特定任务,并可根据需要重复使用。软件开发人员在编写程序时,通常会创建许多函数来完成各种任务。他们还将定义何时调用 function_a 与 function_b 的逻辑,以及预期的输入和输出。

    函数在代理世界中的工作原理非常相似,但我们可以用模型来代替软件开发人员。模型可以接受一组已知函数,并根据其规范决定何时使用每个函数以及函数需要哪些参数。函数与扩展有一些不同之处,其中最明显的是

    1. 模型会输出一个函数及其参数,但不会调用实时 API。

    2. 功能在客户端执行,而扩展在代理端执行。

    再以 Google Flights 为例,简单的功能设置可能与图 7 中的示例相似。

    图 7.函数如何与外部 API 交互?

    请注意,这里的主要区别在于,功能和代理都不直接与 Google Flights API 交互。那么,API 调用究竟是如何发生的呢?

    如下图 8 和图 9 所示,使用函数后,调用实际应用程序接口端点的逻辑和执行将从代理卸载到客户端应用程序。这样,开发人员就能对应用程序中的数据流进行更精细的控制。开发人员选择使用函数而不是扩展功能的原因有很多,但常见的使用案例有以下几种:

    • 应用程序接口调用需要在直接代理架构流程之外的应用堆栈的另一层进行(如中间件系统、前端框架等)。
    • 阻止代理直接调用应用程序接口的安全或身份验证限制(例如,应用程序接口未暴露于互联网,或代理基础设施无法访问)
    • 妨碍代理实时调用 API 的时间或操作顺序限制。(即批量操作、人工在环审查等)。
    • 需要对 API 响应应用代理无法执行的附加数据转换逻辑。例如,考虑到 API 端点不提供用于限制返回结果数量的过滤机制。在客户端使用函数为开发人员提供了进行这些转换的额外机会。
    • 开发人员希望迭代代理开发,而无需为应用程序接口端点部署额外的基础设施(例如,函数调用就像应用程序接口的 “存根”)。

    如图 8 所示,这两种方法在内部架构上的差异很微妙,但额外的控制和对外部基础架构的脱钩依赖使得功能调用对开发人员来说是一个很有吸引力的选择。

    图 8.扩展与函数调用的客户端与代理端控制划分

    使用案例

    可以使用模型来调用函数,以便为最终用户处理复杂的客户端执行流,在这种情况下,代理开发人员可能不希望语言模型来管理 API 的执行(扩展程序就是这种情况)。让我们来看看下面的示例:一个代理正被训练成一名旅游礼宾,与想要预订度假行程的用户进行交互。我们的目标是让代理生成一个城市列表,以便我们在中间件应用程序中使用,为用户的旅行计划下载图片、数据等。用户可能会说

    我想和家人一起去滑雪,但不知道去哪里。 在对模型的典型提示中,输出结果可能如下:当然,这里有一份您可以考虑全家滑雪旅行的城市列表:

    • 美国科罗拉多州克雷斯特布特
    • 加拿大不列颠哥伦比亚省惠斯勒
    • 瑞士采尔马特

    虽然上述输出包含我们需要的数据(城市名称),但其格式并不适合解析。通过函数调用,我们可以教模型将输出格式化为结构化的样式(如 JSON),这样更便于其他系统进行解析。在用户输入相同提示的情况下,函数的 JSON 输出示例可能如下所示

    代码段 5.显示城市和用户偏好列表的函数调用有效载荷示例

    这个 JSON 有效负载由模型生成,然后发送到我们的客户端服务器,以完成我们想做的任何事情。在这个具体案例中,我们将调用 Google Places API 来获取模型提供的城市并查找图片,然后将其作为格式化的丰富内容反馈给我们的用户。图 9 中的序列图详细展示了上述交互过程。

    图 9.显示函数调用生命周期的序列图

    图 9 示例的结果是,模型被用来 “填空 “客户端用户界面调用 Google Places API 所需的参数。客户端用户界面使用模型在返回的 Function 中提供的参数来管理实际的 API 调用。这只是函数调用的一个使用案例,但还有许多其他场景值得考虑,例如

    • 您希望语言模型建议您在代码中使用的函数,但又不想在代码中包含凭证。因为函数调用并不运行函数,所以您不需要在代码中包含证书和函数信息。
    • 您正在运行异步操作,耗时可能超过几秒钟。由于函数调用是一种异步操作,因此很好地处理这些情况。
    • 您希望在不同于产生函数调用及其参数的系统的设备上运行函数。

    关于函数,需要记住的一个关键点是,它们不仅能为开发人员提供更多对 API 调用执行的控制,还能控制整个应用程序中的整个数据流。在图 9 的示例中,开发人员选择不将 API 信息返回给代理,因为这些信息对代理未来可能采取的行动并不重要。不过,根据应用程序的架构,将外部 API 调用数据返回给代理以影响未来的推理、逻辑和操作选择可能是有意义的。最终,应用程序开发人员还是要根据具体的应用程序来选择合适的方法。

    功能示例代码

    为了在滑雪度假场景中实现上述输出,让我们利用 gemini-1.5-flash-001 模型构建出实现这一目标的各个组件。

    首先,我们将 display_cities 函数定义为一个简单的 Python 方法。

    代码段 6.显示城市列表函数的 python 方法示例。

    接下来,我们将实例化模型,构建工具,然后将用户的查询和工具传入模型。执行下面的代码将产生代码片段底部的输出结果。

    代码段 7.创建工具,向模型发送用户查询并允许函数调用

    总之,函数提供了一个简单明了的框架,使应用程序开发人员能够对数据流和系统执行进行细粒度控制,同时有效利用代理/模型生成关键输入。开发人员可以根据具体的应用架构要求,有选择性地选择是否通过返回外部数据让代理 “参与循环”,或者省略代理。

    数据存储

    把语言模型想象成一个藏书丰富的图书馆,里面有它的训练数据。但与不断获取新书的图书馆不同的是,这个模型始终保持静态,只保存最初训练时的知识。这就提出了一个挑战,因为现实世界的知识是不断演变。数据存储通过提供更多动态和最新的信息来解决这一局限性,并确保模型的响应始终以事实和相关性为基础。 考虑一种常见的情况,开发人员可能需要向模型提供少量额外数据,可能是电子表格或 PDF 格式的数据。

    图 10.代理如何与结构化和非结构化数据交互?

    数据存储允许开发人员以原始格式向代理提供额外数据,从而省去了耗时的数据转换、模型再训练或微调。数据存储将传入的文档转换成一组矢量数据库嵌入,代理可利用这些嵌入提取所需的信息,以补充其下一步行动或对用户的响应。

    图 11.数据存储将代理与各种类型的新实时数据源连接起来。

    实施与应用

    在生成式人工智能代理的背景下,数据存储通常以矢量数据库的形式实现,开发者希望代理在运行时能够访问该数据库。虽然我们不会在此深入介绍矢量数据库,但需要了解的关键一点是,它们以矢量嵌入的形式存储数据,而矢量嵌入是一种高维矢量或数学嵌入。

    所提供数据的表示。近来,数据存储与语言模型结合使用的最多的例子之一是检索增强语言模型(Retrieval Augmented)的实施。

    生成(RAG)为基础的应用。这些应用旨在通过让模型访问各种格式的数据,从而扩展模型知识的广度和深度,使其超越基础训练数据:

    • 网站内容
    • 结构化数据格式,如 PDF、Word 文档、CSV、电子表格等。
    • HTML、PDF、TXT 等格式的非结构化数据。

    图 12.代理与数据存储之间的 1 对多关系,可代表各种类型的预索引数据

    每个用户请求和代理响应循环的基本流程建模一般如图 13 所示。

    1. 用户查询被发送到嵌入模型,以生成查询的嵌入信息
    2. 然后,使用 SCaNN 等匹配算法将查询嵌入与矢量数据库的内容进行匹配。
    3. 匹配的内容以文本格式从矢量数据库中检索出来,并发送回代理
    4. 代理接收用户查询和检索到的内容,然后制定响应或行动
    5. 向用户发送最终回复

    图 13.基于 RAG 的应用程序中用户请求和代理响应的生命周期

    最终的应用结果是让代理通过矢量搜索将用户的查询与已知的数据存储相匹配,检索原始内容,并将其提供给协调层和模型进行进一步处理。下一步操作可能是向用户提供最终答案,或执行额外的矢量搜索以进一步完善结果。

    图 14 展示了一个与使用 ReAct 推理/规划功能实施 RAG 的代理进行交互的示例。

    工具回顾

    总而言之,扩展、函数和数据存储构成了几种不同的工具类型,供代理在运行时使用。每种工具都有自己的用途,它们可以一起使用,也可以独立使用,由代理开发人员自行决定。

    通过有针对性的学习提高模型性能

    有效使用模型的一个重要方面是模型在生成输出时选择正确工具的能力,尤其是在生产中大规模使用工具时。虽然一般培训有助于模型开发这一技能,但真实世界的场景往往需要培训数据以外的知识。把这想象成基本烹饪技能和掌握烹饪技巧之间的区别一种特定的菜肴。两者都需要基础烹饪知识,但后者需要有针对性的学习,以获得更细致入微的效果。

    为了帮助模型获取这类特定知识,几种方法:

    • 情境学习:这种方法在推理时为通用模型提供提示、工具和少量示例,使其能够 “即时 “学习如何以及何时在特定任务中使用这些工具。ReAct 框架就是这种方法在自然语言中的应用实例。
    • 基于检索的上下文学习:这种技术通过从外部存储器中检索最相关的信息、工具和相关示例,动态填充模型提示。例如,Vefiex 人工智能扩展中的 “示例存储 “或前面提到的基于 RAG 架构的数据存储。
    • 基于微调的学习:这种方法包括在推理之前使用特定示例的较大数据集来训练模型。这有助于模型在接收任何用户查询之前,了解何时以及如何应用 cefiain 工具。

    为了进一步了解每种有针对性的学习方法,让我们重温一下烹饪的比喻。

    • 试想一下,厨师从顾客那里得到一份特定的食谱(提示)、一些关键配料(相关工具)和一些菜肴示例(少量示例)。根据这些有限的信息和厨师的烹饪常识,他们需要想出如何 ” “烹制出最符合食谱和顾客喜好的菜肴。这就是情境学习。
    • 现在,让我们想象一下厨师在厨房里的情景,厨房里有一个储藏丰富的储藏室(外部数据存储),里面装满了各种配料和烹饪书(示例和工具)。现在,厨师可以从储藏室中动态地选择配料和烹饪书,并更好地调整根据客户的食谱和喜好。这样,厨师就能利用现有的和新的知识,制作出更明智、更精致的菜肴。这是基于检索的情境学习。
    • 最后,让我们设想一下,我们把厨师送回学校去学习一种或一组新的菜肴(在更大的特定示例数据集上进行预培训)。这样,厨师就能以更深入的理解来处理未来未见过的客户菜谱。如果我们希望厨师在特定菜肴(知识领域)中表现出色,那么这种方法就再好不过了。这就是基于微调的学习。

    这些方法在速度、成本和延迟方面各有利弊。不过,通过将这些技术结合到一个代理框架中,我们可以充分利用它们的各种优势,最大限度地减少它们的劣势,从而获得更强大、适应性更强的解决方案。

    使用 LangChain 的代理快速 stafi

    为了提供真实世界中可执行的代理操作示例,我们将使用 LangChain 和 LangGraph 库构建一个快速原型。这些流行的开源库允许用户通过将逻辑、推理和工具调用的序列 “链”在一起来构建客户代理,从而回答用户的询问。我们将使用 gemini-1.5-flash-001 模型和一些简单的工具来回答用户的多阶段查询,如片段 8 所示。

    我们使用的工具是 SerpAPI(用于谷歌搜索)和 Google Places API。执行完代码段 8 中的程序后,您可以看到代码段 9 中的示例输出。

    代码段 8.基于 LangChain 和 LangGraph 的代理示例与工具

    代码段 9.图示 8 中程序的输出结果

    虽然这是一个相当简单的代理示例,但它展示了模型、协调和工具等基础组件共同实现特定目标的过程。在最后一节,我们将探讨这些组件是如何在 Google 规模的托管产品(如 Vefiex 人工智能代理和生成式游戏本)中结合在一起的。

    使用 Vefiex 人工智能代理的生产应用

    本白皮书探讨了代理的核心组件,但要构建生产级应用,还需要将代理与用户界面、评估框架和持续改进机制等其他工具集成。谷歌的 Vekex 人工智能平台提供了一个完全可管理的环境,包含了前面提到的所有基本要素,从而简化了这一过程。通过使用自然语言界面,开发人员可以快速用户可以定义其代理的关键要素–目标、任务指令、工具、任务委托子代理和示例–从而轻松构建所需的系统行为。此外,该平台还配备了一套开发工具,可用于测试、评估、测量代理性能、调试和提高所开发代理的整体质量。这样,开发人员就可以专注于构建和完善他们的代理,而复杂的基础架构、部署和维护工作则由平台本身来管理。

    在图 15 中,我们提供了一个在 Vefiex 人工智能平台上构建的代理架构示例,该代理使用了 Vefiex Agent Builder、Vefiex Extensions、Vefiex AI Agent Builder 等多种功能。例如,函数调用和 Vefiex 示例存储。该架构包括许多生产就绪应用程序所需的各种组件。

    图 15.基于 Vefiex 人工智能平台构建的端到端代理架构示例

    您可以从我们的官方文档中试用这种预构建代理架构的示例。

    摘要

    在本白皮书中,我们讨论了生成式人工智能代理的基础构件、它们的组成以及以认知架构的形式实现它们的有效方法。本白皮书的一些主要内容包括

    1. 代理可以利用一个或多个语言模型来决定何时以及如何进行状态转换,并使用外部工具来完成任何数量的复杂任务,而这些任务对模型来说是很难或不可能独立完成的。
    2. 代理运行的核心是协调层,这是一种认知架构,用于构建推理、规划和决策,并指导代理的行动。各种推理技术,如 ReAct、Chain-of-Thought 和 Tree-of-Thoughts 等,为协调层提供了一个接收信息、执行内部推理和生成明智决策或响应的框架。
    3. 扩展、函数和数据存储等工具是代理通向外部世界的钥匙,使他们能够与外部系统交互,并获取训练数据以外的知识。扩展在代理和外部应用程序接口之间架起了一座桥梁,使应用程序接口调用的执行和实时信息的检索成为可能。生成可在客户端执行的功能参数。数据存储可让代理访问结构化或非结构化数据,从而实现数据驱动型应用。

    未来的代理技术将取得令人兴奋的进步,而我们才刚刚开始了解其可能性的表面。随着工具越来越先进,推理能力越来越强,代理将有能力解决越来越复杂的问题。此外,”代理链 “的战略方法将继续得到。通过将专业代理(每个代理都擅长某一特定领域或任务)结合起来,我们就能创造出一种 “混合代理经验 “的方法,能够在各个行业和问题领域取得卓越的成果。

    重要的是要记住,建立复杂的代理架构需要一种迭代方法。实验和改进是为特定业务案例和组织需求找到解决方案的关键。由于支撑代理架构的基础模型具有生成性,因此没有两个代理是相同的。但是,通过利用每个基础组件的优势,我们可以创建有影响力的应用程序,从而扩展语言模型的功能并推动现实世界的价值。

    尾注

    1. Shafran, I., Cao, Y. et al., 2022, ‘ReAct:语言模型中推理与行动的协同”。Available at:hflps://arxiv.org/abs/2210.03629
    2. Wei,J.,Wang,X.等,2023,《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》。见 hflps://arxiv.org/pdf/2201.11903.pdf
    3. Wang, X. et al., 2022, ‘Self-Consistency Improves Chain of Thought Reasoning in Language Models’.见 hflps://arxiv.org/abs/2203.11171
    4. Diao, S. et al., 2023, “Active Prompting with Chain-of-Thought for Large Language Models”。见 hflps://arxiv.org/pdf/2302.12246.pdf.
    5. Zhang, H. et al., 2023, ‘Multimodal Chain-of-Thought Reasoning in Language Models’。见 hflps://arxiv.org/abs/2302.00923.
    6. Yao, S. et al., 2023, “Tree of Thoughts:用大型语言模型慎重解决问题》。Available at:hflps://arxiv.org/abs/2305.10601.
    7. Long, X., 2023, “Large Language Model Guided Tree-of-Thought”.见 hflps://arxiv.org/abs/2305.08291.
    8. 谷歌。谷歌双子座应用程序”。网址:hflp://gemini.google.com
    9. Swagger。OpenAPI 规范”。网址:hflps://swagger.io/specification/
    10. Xie, M., 2022, 《情境学习是如何运作的?理解与传统监督学习差异的框架》。见 hflps://ai.stanford.edu/blog/understanding-incontext/
    11. 谷歌研究。ScaNN (Scalable Nearest Neighbors)’.请访问 hflps://github.com/google-research/google-research/tree/master/scann.
    12. LangChain.LangChain。可查阅:hflps://python.langchain.com/v0.2/docs/introduction/

    获取《谷歌智能体Agent白皮书》PDF原文件,扫码关注回复: 20250108

    原文链接:https://www.kaggle.com/whitepaper-agents

  • 万相2.1 – 通义万相最新推出的视频生成模型

    万相2.1是什么

    万相2.1是阿里推出的通义万相升级版本。基于自研的高效VAE和DiT架构,增强时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现中文文字视频生成功能。升级后的通义万相在VBench榜单上荣登第一。万相2.1能稳定展现复杂人物运动,逼真还原现实物理规律,一键生成中英文视频特效,具备强大的影视质感与艺术风格转换能力。万相2.1支持文生组图,采用IC-LoRA图像生成训练方法,增强文本到图像的上下文能力,轻松实现关联图像间的组合生成。

    wangxiang2.1

    万相2.1的主要功能

    • 视频生成
      • 复杂动作展现:稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等,及镜头的移动,让视频内容更加生动和真实。
      • 物理规律还原:逼真还原真实世界的物理规律,如碰撞、反弹、切割、挤压等。比如生成雨滴落在伞上溅起水花的场景,让视频更具真实感。
      • 中英文视频特效生成:提供多种视频特效选项,如过渡、粒子效果、模拟等,能一键生成中英文视频特效,增强视频的视觉表现力。
      • 艺术风格转换:具备强大的艺术风格表现力,能一键转换视频的影视质感与艺术风格,如电影色调、印象笔触、抽象表现等,生成各种风格的视频。
    • 图生成
      • 分镜效果还原:还原电影级的分镜效果,确保角色、相貌、动作、环境、灯光等元素连贯,将故事情节、视觉效果和氛围营造完美结合。
      • 四格漫画创作:根据用户描述的漫画剧情与风格,生成四格漫画,快速讲述一个小故事。
      • 创意头像定制:根据用户的喜好、风格、特点,定制专属的情侣头像、个人头像等。提供卡通风格、写实风格、创意风格等多种风格选择,满足用户的不同需求。

    万相2.1的技术原理

    • VAE架构:变分自编码器(VAE)是生成模型,用编码器将输入数据映射到一个潜在空间,再用解码器将潜在空间的表示映射回数据空间,实现数据的生成和重建。
    • DiT架构:DiT(Diffusion in Time)架构是基于扩散模型的生成模型,在时间维度上逐步引入噪声,逐步去除噪声生成数据。DiT能有效地捕捉视频的时空结构,支持高效编解码和生成高质量的视频。
    • IC-LoRA:IC-LoRA是一种图像生成训练方法,基于结合图像内容和文本描述,增强文本到图像的上下文能力,让生成的图像更加符合用户的文本描述和期望。
    • 上下文建模:基于增强时空上下文建模能力,更好地理解和生成具有连贯性和一致性的视频内容,让视频中的动作、场景和风格等元素更加自然和协调。

    万相2.1的项目地址

    万相2.1视频案例

    文字特效

    • 提示词1:以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。

    • 提示词2:远景拍摄,塞纳河畔,绚烂的烟花在空中绽放,烟花形成了粉色数字“2025”时镜头拉近特写,然后逐渐消散。

    运动

    • 提示词1:一辆汽车在被雪覆盖的公路上高速飞驰。镜头从空中俯拍,展现了公路两旁的树木和远处的山脉。汽车在笔直的道路上行驶,周围的雪地和树木形成了鲜明的对比。整个场景在自然光下显得格外清晰,具有纪录片风格的写实感。

    • 提示词2:超大海水浪尖,冲浪者在浪尖起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

    特效

    • 提示词1:一条巨龙在一座燃烧的城市上空盘旋,火焰的余光映照在它的鳞片上,摄像机从下方仰视,捕捉到龙的身影在火焰和烟雾中若隐若现,它的翅膀在空中拍打,掀起狂风,将火焰吹向四面八方。

    写实

    • 提示词1:特写镜头聚焦于一双布满老茧的手,正细致地在木头上雕刻。手握刻刀,刀锋在飞舞的木屑中闪烁,木纹清晰,指尖轻盈游走在刀刃间,勾勒出精致的花纹与图案。背景虚化,仅见工作台与散落的木工工具,强调手部精妙动作与匠艺之精髓。

    • 提示词2:45度俯视固定镜头,中景,浅景深,晨光穿过梧桐斑驳洒落。画面中央的橘猫穿着围裙,稳稳举刀切黄瓜,尾巴随着切菜节奏轻晃。背景灶台炊烟缭绕上升,阳光斜射在木案与老铁锅上泛起温暖光晕。

    人物特写

    • 提示词1:一位女性特写镜头:起初她在笑,随后变得悲伤,接着开始哭泣,最后用双手捂住脸。

    多人场景/大场面/多镜头

    • 提示词1:黎明时分,中世纪风格,两支大军正在混战。

    万相2.1的应用场景

    • 影视制作:为古装剧生成古代战争特效,如千军万马冲锋、箭雨纷飞等,增强视觉效果。
    • 广告视频制作:为运动饮料制作广告,生成年轻人运动后畅饮的场景,突出产品功能。
    • 教学辅助:教室在历史课上生成赤壁之战视频,帮助学生理解历史事件。
    • 文化创作:制作书法艺术纪录片,生成书法家创作过程视频,展示书法技巧。
    • 新闻报道:报道交通事故,生成事故现场模拟视频,清晰展示事故经过。
  • 星火人设 – 科大讯飞推出的专为情感交互设计的独立模型

    星火人设是什么

    星火人设是科大讯飞推出的专为情感交互而设计的独立模型(角色模拟API),具备人物设定、剧情演绎与语言风格等控制选项,支持模型精调。在规模C端用户的双盲体验测试中,星火人设的效果已处于行业领先。通过调用星火人设,智能体可以实现“智商情商”双在线,在与用户的交互中提供更加人性化和富有情感的体验。

    星火人设

    星火人设的主要功能

    • 人物设定
      • 定制虚拟角色特征:用户可以定制虚拟角色的世界观、社会身份、背景经历、性格特征和兴趣爱好等,打造个性鲜明的虚拟人格。越是丰富详尽的人设定义,就能呈现越立体饱满的互动体验。
      • 形成个性化AI人设:根据性格模拟、情绪理解、表达风格形成初始人设,再结合特定知识学习、对话记忆学习,形成更个性化的AI人设。
    • 剧情演绎
      • 主动发起对话:角色不仅能被动响应用户的发言,还能模拟主动发起对话。开发者只需设计主动对话的触发时机,即可让用户感受超出意料的互动惊喜。
      • 贴合场景回应:精准理解用户语义,生成高度贴合设定场景和角色设定的自然回应,使对话更加真实、自然。
    • 语言风格控制
      • 多样语言风格:支持多种语言风格的控制选项,如正式、幽默、亲切等,以适应不同场景和用户需求,使交互更加符合用户的期望和偏好。
      • 语音可控表达:在语音交互方面,能够实现语音的可控表达,让语音的语调、语速、音色等更符合角色设定和情感表达。
    • 模型精调:支持模型精调,用户可以根据具体的应用场景和需求,对星火人设模型进行进一步的优化和调整,以提升其在特定领域的表现和适应性。
    • 记忆与推理能力
      • 保持会话记忆:记录角色与用户的对话历史,支持保持多段会话的情景记忆,确保互动的一致性和连贯性。即使用户暂时中断,再次访问时,角色也能无缝拾起之前的记忆,让体验更加沉浸和流畅。
      • 具备推理能力:融合了强大的推理能力,能够基于用户意图执行指令,并在处理文本、图像和语音等多类型数据、实现交互等过程中更自然。

    如何使用星火人设

    • 注册与登录:进入科大讯飞的官网,点击申请注册登录。绑定手机号后,进入体验申请表格,填写相关信息并提交申请。审核通过后即可使用。
    • 创建应用:登录讯飞开放平台,点击进入控制台-我的应用,创建应用。
    • 开通服务:应用创建完成后,点击应用名称,再点击左侧导航切换到“星火认知大模型”-“角色模拟 API”,点击“立即购买”,领取试用包配额。
    • 获取身份凭证:角色模拟 API 通过 AK/SK 进行认证鉴权。您可以在控制台“星火认知大模型”-“角色模拟 API”获得应用的 API key 和 API secret。
    • 定制人设
      • 定义角色特征:根据需要为虚拟角色设定世界观、社会身份、背景经历、性格特征和兴趣爱好等。
      • 形成个性化人设:基于性格模拟、情绪理解、表达风格形成初始人设,再结合特定知识学习、对话记忆学习,形成更个性化的AI人设。
    • 调用 API
      • 将角色模拟集成到第三方系统后,通过调用 API 与星火人设进行交互。
      • 用户输入自己的发言,星火人设服务会即时生成贴合场景和角色设定的回应。
    • 查看服务使用信息:在控制台“星火认知大模型”-“角色模拟 API”查看消耗字数,以及剩余可用配额。

    星火人设的应用场景

    • 医疗咨询:星火人设可以模拟医生的角色,为用户提供一些基本的医疗咨询和建议,帮助用户了解自身的健康状况。
    • 健康管理:在健康管理方面,星火人设可以提醒用户按时服药、定期体检,并根据用户的健康数据提供个性化的健康管理建议。
    • 虚拟角色互动:用户可以创建或选择不同的虚拟角色,与星火人设进行互动,享受沉浸式的娱乐体验。
    • 社交聊天:星火人设可以作为虚拟的社交伙伴,与用户进行聊天和交流,提供陪伴和社交互动的乐趣。
    • 客户服务:在企业客户服务中,星火人设可以模拟客服人员的角色,为用户提供专业的咨询服务,解答用户的疑问和问题。
    • 产品介绍:星火人设可以用于产品介绍和推广,通过模拟销售人员的角色,向用户详细介绍产品的功能和特点。