Skip to main content

Author: Chimy

OAgents – OPPO开源的基础Agent框架

OAgents是什么

OAgents 是OPPO PersonalAI Lab推出的开源基础Agent框架。框架基于标准化的评估协议和模块化设计,推动Agent框架的研究。OAgents基于系统实证研究,分析关键Agent组件(如规划、工具使用、记忆等)的不同设计选择对性能的影响,推出一个更稳健的评估协议。框架在GAIA基准测试中取得最高的平均分数73.93%,在不同任务级别上均表现出色,证明设计的有效性和鲁棒性。OAgents支持多种Agent组件的集成,为未来的研究提供坚实的基础。

OAgents

OAgents的主要功能

  • 多模态工具集成:OAgents整合处理文本、语音、图像和视频的多模态工具,直接与多模态输入进行交互,增强对复杂现实场景中事实信息的获取和解读能力。
  • 优化的搜索Agent:基于优化多源检索、查询优化和极简浏览架构,OAgents能有效地进行网络搜索,扩展知识边界,为复杂任务提供更准确的信息支持。
  • 动态规划与任务分解:用动态规划机制,将复杂任务分解为可执行的子任务,根据实时观察结果动态调整计划,提高复杂任务的管理能力和推理效率。
  • 记忆增强知识系统:OAgents构建层次化的记忆模块,包括当前记忆、记忆总结、向量化检索和长期记忆,增强Agent的认知能力,帮助Agent在复杂环境中更有效地进行感知、推理和决策。
  • 测试时扩展策略:OAgents在测试阶段用扩展策略,如多样性增强、优化和奖励建模,基于动态调整决策过程,提高代理的适应性和探索能力,提升整体性能。

OAgents的技术原理

  • 多模态工具原理:OAgents的多模态工具将非文本内容转换为文本描述,同步进行跨模态语义解析,实现对多模态输入的直接交互和理解,公式表示为:Response = A(xtext,Timage(I),Tvideo(V )),A是Agent函数,xtext是文本输入,Timage和Tvideo分别是图像和视频的工具函数。
  • 搜索Agent原理:OAgents的搜索Agent框架整合商业API和档案系统,实现多源检索;基于语义校准和形态扩展的闭环优化查询;简化为三个原子函数,搜索、访问和阅读,降低复杂性。
  • 动态规划原理:OAgents的动态规划模块生成高级计划,将任务分解为可执行步骤,在执行过程中根据新观察结果定期修订计划,适应动态环境。OAgents采用层次化任务分解,构建依赖图,动态调度可执行子任务。
  • 记忆增强原理:OAgents的记忆模块基于当前记忆存储短期信息,用记忆总结提取高价值知识,基于向量化检索快速检索相关历史记忆,用长期记忆整合历史洞察,优化任务执行。
  • 测试时扩展原理:OAgents的测试时扩展模块混合采样策略增强多样性,基于过程的奖励函数优化决策路径,用实时反思机制进行自适应问题解决。

OAgents的项目地址

  • GitHub仓库:https://github.com/OPPO-PersonalAI/OAgents
  • arXiv技术论文:https://arxiv.org/pdf/2506.15741

OAgents的应用场景

  • 智能客服:快速准确地回答客户问题,提供个性化的解决方案,处理复杂的客户咨询,提高客户满意度。
  • 教育辅导:为学生提供个性化的学习计划,根据学习进度和反馈动态调整教学内容,处理多种学习材料,提供丰富的学习体验。
  • 医疗咨询:协助医生进行病历分析、诊断建议和治疗方案制定,获取最新的医学研究和临床指南,提供数据驱动的决策支持。
  • 智能办公助手:协助用户安排日程、撰写报告、整理会议记录,记住用户的偏好和习惯,提供个性化的办公支持。
  • 智能家居控制:集成多种智能家居设备,基于语音或文本指令控制设备,实现自动化场景,提供自然的交互体验。

袋鼠参谋 – 美团推出的商家AI智能决策应用

袋鼠参谋是什么

袋鼠参谋是美团推出的面向商家的AI智能决策应用,帮助商家解决开店、运营中的难题。基于美团海量的餐饮数据和10多年线上运营经验,通过对话式交互,为商家提供赛道选择、开店选址、菜品研发、门店运营等场景的精准分析和建议。例如,商家可以询问“在某地开一家特色餐厅如何”,袋鼠参谋会结合美团数据库,提供需求规模、竞争格局、消费者洞察等关键数据。是通用AI的升级版,更是美团将本地生活数据库转化为“可供问答”的决策服务工具,帮助商家在信息不对称的条件下做出更理性的判断。目前袋鼠参谋处于公测阶段。

袋鼠参谋

袋鼠参谋的主要功能

  • 菜品创新:通过AI分析用户评价和消费趋势,自动生成改良方案,缩短新品研发周期40%,提升爆款成功率27%。能提供热门菜品挖掘、菜品搭配优化以及成本效益评估等服务。
  • 选址评估:整合第三方数据,生成商圈人流、竞品分布报告,推荐最优铺位,客流量预测误差≤8%,降低选址失误率。商家可以通过客流热力图查看不同区域的人流密集程度,精准定位店铺位置。
  • 人力配置:基于订单数据智能排班,动态调配人员,将人力浪费率控制在5%以内,帮助商家降低18%人力成本。
  • 运营优化:实时监测36项核心指标,以雷达图呈现经营状况,发现问题后提供多套解决方案及落地步骤。提供智能经营诊断、动态定价系统、AI策划大师等功能。
  • 营销策略:根据餐厅的定位、目标客群以及市场竞争态势,为商家量身定制营销策略,帮助商家更好地进行市场推广。
  • 顾客反馈分析:整合美团平台上的顾客评价数据,运用自然语言处理技术分析顾客的反馈意见,帮助商家及时发现并解决问题。

如何使用袋鼠参谋

  • 注册:访问袋鼠参谋的应用商店,下载安装,点击同意相关条款后,输入手机号并获取验证码登录,新手机号会自动注册账号。
  • 登录:已注册用户可直接输入手机号和验证码登录,也支持密码登录。
  • 功能使用
    • 菜品创新:登录后,在APP首页找到“菜品创新”板块并点击进入。选择餐厅所在地区,设置查询时间段,点击“搜索”按钮。APP会基于美团平台消费数据,展示该地区、时段内热门菜品,商家可据此考虑菜单研发计划。
    • 选址评估:在“选址评估”页面,选择“客流热力图”选项。在地图上缩放和平移,查看不同区域的人流密集程度,颜色越深的区域人流量越大。可帮助商家精准定位人流量大的店铺位置,提高店铺曝光度和进店率。
    • 运营优化:在APP首页点击“运营优化”,进入“营销策略制定”板块。选择餐厅定位、输入目标客群特征以及所在商圈竞争态势。点击“制定策略”,APP会根据输入信息,为商家量身定制营销策略。
    • 查看历史会话:打开袋鼠参谋应用并登录账户。在应用主界面,点击底部导航栏中的“我的”选项。查找并点击“历史会话”或类似入口,查看按时间顺序排列的对话记录。点击任意一条历史会话,查看详细内容,也可通过搜索框输入关键词快速定位。

袋鼠参谋的适用人群

  • 中小餐饮商家:商家缺乏专业的市场调研和数据分析能力,袋鼠参谋可以帮助他们在选址、菜品研发、运营优化等方面做出更科学的决策,降低经营风险。
  • 餐饮创业者:对于有开餐厅、咖啡店、奶茶店等想法的创业者来说,袋鼠参谋能提供赛道选择、开店选址等关键环节的建议,帮助他们更好地了解市场和消费者需求。
  • 成熟餐饮品牌管理者:已经有一定规模和知名度的餐饮品牌,也需要不断优化运营策略以保持竞争力。袋鼠参谋可以为他们提供菜品创新、营销策略制定、门店运营优化等方面的个性化建议。
  • 餐饮顾问:袋鼠参谋提供的精准数据和分析报告可以作为餐饮顾问为客户提供专业建议的参考依据,帮助他们更高效地完成咨询工作。
  • 市场调研人员:工具能快速提供餐饮市场的宏观趋势、消费人群结构及消费能力分布等数据,为市场调研人员节省时间和精力。

AI抖音 – 抖音推出的深度思考与搜索应用

AI抖音是什么

AI抖音是抖音推出的智能深度思考与搜索应用,为用户提供更高效、更智能的内容获取体验。结合了抖音的强大内容生态和AI技术,能通过联网搜索和推理能力,为用户提供更全面、更详细的答案。用户可以通过文字、语音或图片输入问题,AI会结合全网信息,快速生成答案,以视频和图文的双列形式展示,方便用户快速获取所需内容。AI抖音支持边刷边搜功能,用户在浏览视频时可以直接发起搜索,无需切换页面,搜索结果会无缝嵌入当前页面。为创作者提供了灵感推荐、作品分析和对话式创作问题答疑等功能,帮助创作者更高效地进行内容创作。

AI抖音

AI抖音的主要功能

  • 文案与脚本生成:AI抖音APP能帮助创作者快速生成文案、脚本等创意内容,提供灵感支持。
  • 数字分身:用户可以创建自己的AI分身,通过授权抖音号并配置分身的人设与回复逻辑,实现个性化的虚拟分身互动。
  • 视频特效与风格迁移:APP提供了多种AI特效,用户可以通过上传照片或实时拍摄,一键生成数字分身或风格化视频。
  • 视频剪辑优化:AI能分析视频素材的节奏、情绪和画面内容,自动推荐剪辑方案和特效,提升视频质量。
  • 智能搜索与推荐:结合全网信息,提供详细的文字答案和双列展示的图文视频内容,帮助用户快速获取所需信息。根据用户的兴趣和行为,提供个性化的视频推荐。
  • AI绘画与图片生成:用户可以通过输入文本描述生成不同风格的图像,支持多种风格如动漫、写实等。
  • AI对话:支持多轮问答,用户可以通过文字或语音与AI进行互动,获取生活、学习、工作等方面的知识。
  • 社交互动:用户可以在“消息”模块中与AI分身或其他用户进行互动,提升社交体验。

如何使用AI抖音

  • 注册与登录:访载AI抖音的官方应用商店,根据手机型号选择对应应用下载,下载后注册或账号登录。
  • 聊天功能:点击右上方的纸飞机图标进入消息列表。找到想要聊天的好友,点击进入聊天界面,即可在输入框发送消息。
  • 发布作品:点击右上角的个人头像,选择【发布新作品】按钮。开启相机和录音权限后,选择视频拍摄或上传已有视频。拍摄完成后点击【下一步】,编辑封面、添加描述,最后点击【发布】按钮。
  • 搜索与深度思考功能:在首页的搜索框中输入问题。点击“深度思考”功能,AI会结合全网信息提供高质量的详细回答。
  • AI创作辅助:在创作页面,可以使用AI生成文案、脚本或视频特效。例如,输入文字描述即可生成不同风格的AI绘画。

AI抖音的应用场景

  • AI特效生成:用户可以通过简单的操作,使用AI生成各种特效视频,如数字分身、风格化视频等。
  • 群聊互动:在群聊中,AI分身可以智能抓取关键词,回复用户问题,增强群聊的活跃度。
  • 语言学习:AI抖音APP推出了“英文口语测试”特效,用户可以通过朗读英语短文,获得AI的发音分析和口音判断。
  • AI互动游戏:在游戏领域,AI分身可以为玩家提供游戏推荐、攻略分享等服务,提升玩家的游戏体验。

Vibemotion – AI视频生成平台,文本提示加少量素材生成动态视频

Vibemotion是什么

Vibemotion是AI视频生成平台。平台基于先进的生成式AI技术,让用户仅需输入文本提示并上传少量素材,快速生成专业水平的动态视频。平台无需用户具备复杂的视频编辑技能,真正实现“零门槛”创作,适用广告、社交媒体内容和教育视频等多种场景。平台依托自然语言处理和计算机视觉技术,能准确理解用户意图,自动生成动态图形、动画效果和视觉过渡,大大提高创作效率。目前Vibemotion处于早期访问阶段,用户申请加入等待列表能获得提前体验。

Vibemotion

Vibemotion的主要功能

  • 视频创作:基于输入文本、上传素材或PDF文件,快速生成动态视频。
  • 视频编辑:自动生成动画效果和视觉过渡,智能调整视频比例,满足不同平台需求。
  • 视频优化:优化视频内容和质量,提升视觉和听觉效果。

Vibemotion的官网地址

  • 官网地址:https://vibemotion.ai/

Vibemotion的应用场景

  • 社交媒体内容创作:快速生成适合抖音、快手、B站等平台的短视频,吸引观众关注。
  • 教育领域应用:将学术知识、教学内容转化为生动视频,助力在线教育和企业培训。
  • 广告与营销制作:制作产品宣传、品牌故事、活动推广等视频,提升品牌影响力和营销效果。
  • 娱乐与创意表达:制作音乐视频、创意短片、特效视频等,满足个性化娱乐和创意需求。
  • 企业与商业展示:制作企业介绍、项目展示、会议演示等视频,助力企业发展和商务沟通。

Rosebud – AI日记应用,分析日志提供心理健康支持

Rosebud是什么

Rosebud是AI驱动的在线心理健康日记应用,基于互动式日记、习惯养成和情感支持等功能,帮助用户快速改善心理健康。用户能记录日常情绪、设定目标并获得实时反馈。Rosebud的AI技术能识别长期行为模式,为用户提供深度报告和个性化建议。Rosebud提供隐私保护,确保用户数据安全。Rosebud是日记应用,更是心理健康工具,适合希望用低成本改善心理健康的用户。

Rosebud

Rosebud的主要功能

  • 互动式日记:晨间意向与晚间反思,记录日常情绪与感受,获实时反馈。
  • 情感支持:AI对话提供情感支持,鼓励与肯定,帮助保持积极心态。
  • 习惯养成:设定个人目标,制定行动计划,追踪进度,连续打卡。
  • 深度分析与报告:识别长期行为模式,提供每周详细报告,助力自我反思与成长。
  • 个性化体验:多种个性化日记模式,如感恩日记、梦境日记等,满足不同需求。

Rosebud的官网地址

  • 官网地址:https://www.rosebud.app/

Rosebud的应用场景

  • 个人情绪管理:用户随时记录情绪,基于AI互动对话缓解压力与焦虑,借助深度分析功能了解情绪模式,更好地管理情绪。
  • 习惯养成与目标实现:用户设定个人目标并追踪进度,Rosebud识别长期行为模式,发现阻碍目标实现的习惯并提建议。
  • 心理健康支持:正在接受咨询的用户,可作为辅助工具记录分析情绪行为。
  • 生活与工作平衡:基于规划生活目标,平衡工作与生活,提升生活质量。
  • 自我成长:长期记录情绪行为,用户深入了解自己,发现优缺点,实现自我成长。

MCP Server Chart – 蚂蚁AntV开源的可视化图表MCP

MCP Server Chart是什么

MCP Server Chart 是蚂蚁AntV团队推出的可视化图表生成工具。工具基于Model Context Protocol(MCP)协议,支持超过25种可视化图表,包括常见的统计图表(如折线图、柱状图、饼图)和关系类图表(如组织架构图、思维导图、网络图等),支持标注地图和路径地图。用户只需简单文本输入,能快速生成图表,无需复杂操作。工具支持多种客户端接入,如Cherry Studio、Claude Desktop等,提供SSE和Streamable传输协议,方便集成到不同平台。

MCP Server Chart

MCP Server Chart的主要功能

  • 丰富的图表类型:支持超过25种可视化图表,涵盖常见的统计图表(折线图、柱状图、饼图等)、关系类图表(组织架构图、思维导图、网络图等)及标注地图和路径地图。
  • 简单易用:用户基于简单的文本输入,能快速生成所需的图表,无需复杂的操作和配置,极大地降低数据可视化的门槛。
  • 多种客户端接入:支持多种客户端接入,如Cherry Studio、Claude Desktop、VSCode等,方便用户在不同的开发环境中使用。
  • 灵活的部署方式:提供公有服务的同时,支持私有部署,用户能基于VIS_REQUEST_SERVER环境变量自定义图表生成服务,满足不同用户的需求。
  • 生成记录查看:提供生成记录查看服务,支持用户基于支付宝小程序生成个人服务标识符并查看生成的图表记录,方便管理和追溯。

MCP Server Chart的技术原理

  • 基于MCP协议:MCP Server Chart遵循Model Context Protocol(MCP)协议,协议明确工具(Tools)的定义,让模型能直接识别、解析工具中的参数,实现高效的数据交互和图表生成。
  • GPT-Vis可视化组件库:基于面向AI消费的GPT-Vis可视化组件库,提供25+可供AI消费的图表。组件库结合AntV的可视化解决方案,能快速生成各种类型的图表。
  • 服务器端渲染(SSR):基于GPT-Vis的设计及G2、G6的服务器端渲染能力(SSR),实现图表的SSR渲染出静态图片。相比前端UI组件,静态图片具有更好的跨端和传输特性,更适合在不同的设备和平台上展示。
  • 静态图表生成工具:将GPT-Vis SSR封装成静态图表生成工具,提供静态出图服务。在蚂蚁内部用NodeJS搭建,对外提供可访问的服务,用户基于简单的配置和调用生成所需的图表。
  • 多种传输协议支持:支持多种传输协议(如stdio、SSE、streamable),用户根据不同的使用场景选择合适的传输方式,提高系统的灵活性和可扩展性。

MCP Server Chart的项目地址

  • GitHub仓库:https://github.com/antvis/mcp-server-chart

MCP Server Chart的应用场景

  • 数据分析与报告:用在企业数据分析,快速生成销售趋势、市场份额等统计图表,助力管理层决策。
  • 教育与培训:辅助教学,生成历史事件时间线、科学实验数据图表,帮助学生理解知识。
  • 项目管理:生成项目进度图、任务分配图,便于项目人员了解进度、协调工作。
  • 地理信息系统(GIS):生成标注地图、路径地图,用于城市地标展示、旅游路线规划等。
  • 个人与创意:个人用在博客、网站生成个性化图表,如阅读记录、健身进度图等。

Qwen VLo – 通义千问推出的多模态统一理解与生成模型

Qwen VLo是什么

Qwen VLo 是通义千问团队推出的多模态统一理解与生成模型。在多模态大模型的基础上进行了全面升级,能“看懂”世界,能基于理解进行高质量的再创造,实现了从感知到生成的跨越。能精准理解图像内容,在此基础上进行一致性和高质量的生成。用户可以通过自然语言指令要求模型对图像进行风格转换、场景重构或细节修饰,模型能灵活响应并生成符合预期的结果。Qwen VLo 支持多语言指令,打破语言壁垒,为全球用户提供便捷的交互体验。具备动态分辨率训练与生成的能力,支持任意分辨率和长宽比的图像生成,适用于多种场景。

Qwen-VLo

Qwen VLo的主要功能

  • 精准内容理解与再创造:Qwen VLo 能精准理解图像内容,在生成过程中保持高度的语义一致性。例如,用户可以上传一张汽车照片并要求“更换颜色”,模型能准确识别车型,能保留原图的结构特征,完成色彩风格的自然转换。
  • 开放指令编辑与修改:用户可以通过自然语言提出各种创意性指令,如“将这张画风改为梵高风格”或“给这张图片添加一个晴朗的天空”。模型能灵活响应这些指令,完成艺术风格迁移、场景重构、细节修饰等任务,可以一次性完成包含多个操作的复杂指令。
  • 多语言指令支持:Qwen VLo 支持中文、英文等多种语言指令,打破了语言壁垒,为全球用户提供了便捷的交互体验。
  • 动态分辨率生成:模型采用动态分辨率训练,支持任意分辨率和长宽比的图像生成,适用于海报、插图、网页 Banner 等多种场景。
  • 渐进式生成机制:Qwen VLo 以一种从左到右、从上到下逐步清晰的方式生成图像,可以实时观察生成过程并进行调整,获得更灵活、更可控的创作体验。
  • 图像检测与标注:Qwen VLo 可以完成对已有信息的标注任务,如检测、分割、边缘检测等。
  • 文本到图像生成:Qwen VLo 支持根据文本描述直接生成图像,包括通用图像和中英文海报等。

Qwen VLo的技术原理

  • 模型架构:Qwen VLo 的架构主要由以下几个关键模块组成:
    • 视觉编码器(Visual Encoder):采用 Vision Transformer(ViT)架构,将输入图像分割成多个固定大小的 Patch,并将其转换为序列化的特征向量。为了支持动态分辨率,Qwen VLo 修改了 ViT,去除了原始的绝对位置嵌入,并引入了 2D-RoPE(Rotary Position Embedding)来捕获图像的二维位置信息。
    • 输入投影层(Input Projector):通过一个单层的交叉注意力模块(Cross-Attention),将视觉特征序列压缩到固定长度(例如 256),以提高处理效率。同时,该模块会整合二维绝对位置编码,以保留位置信息。
    • 大型语言模型(LLM):以 Qwen-7B 为基础,使用预训练权重进行初始化,负责处理语言模态的输入。
    • 输出投影层(Output Projector):将 LLM 生成的特征映射到模态生成器可理解的特征空间,通常是一个简单的 Transformer 层或 MLP 层。
    • 模态生成器(Modality Generator):基于 LDM(Latent Diffusion Models)的衍生模型,负责生成最终的图像输出。
  • 动态分辨率机制:Qwen VLo 引入了动态分辨率机制,能处理任意分辨率的图像输入:
    • 动态视觉标记转换:模型根据输入图像的分辨率动态生成可变数量的视觉标记(tokens),避免了将高分辨率图像缩放到低分辨率而导致的信息丢失。
    • 智能 Resize:在推理阶段,图像会被调整为 28 的整数倍尺寸,尽可能保持宽高比,避免失真。
    • Token 压缩:通过一个简单的 MLP 层,将相邻的 2×2 tokens 压缩为单个 token,以减少视觉输入的序列长度。
  • 训练方法:Qwen VLo 的训练分为三个阶段:
    • 第一阶段:单任务大规模预训练:使用大量图文对数据进行预训练,训练数据的图片统一处理为 224×224 的尺寸。此阶段主要训练模型的视觉模态对齐语言模型的能力。
    • 第二阶段:多任务预训练:使用更高分辨率(448×448)的数据,引入多个视觉和文本生成任务,提升模型的多模态任务处理能力。
    • 第三阶段:指令微调(SFT):通过人工标注、模型生成等方式构造多模态多轮会话数据,提升模型的指令遵循能力和对话能力。
  • 渐进式生成机制:Qwen VLo 采用从左到右、从上到下的渐进式生成方式,逐步构建图像内容。在生成过程中,模型会不断调整和优化预测内容,确保最终结果的和谐一致。适用于需要精细控制的长段落文字生成任务,用户可以实时观察生成过程并进行调整。
  • 多模态融合:Qwen VLo 通过将视觉特征和语言特征融合,实现了多模态数据的统一处理。模型能根据用户输入的文本指令对图像进行编辑、风格迁移、生成等操作,支持多语言指令。

如何使用Qwen VLo

  • 访问 Qwen Chat:访问 Qwen Chat 的官网。
  • 上传图像或输入文本:将图像上传到平台,或者输入文本指令。
  • 输入指令:根据需求输入自然语言指令,例如“将这张画风改为梵高风格”或“给这张图片添加一个晴朗的天空”。
  • 查看生成结果:模型会根据指令生成图像或进行编辑,显示结果。

Qwen VLo的应用场景

  • 图像编辑与生成:Qwen VLo 可以将图像的风格从一种转换为另一种,例如将卡通风格转换为写实风格。
  • 视觉问答(VQA):Qwen VLo 能回答与图像内容相关的问题,例如描述图像中的场景、识别图像中的物体等。
  • 文档解析:Qwen VLo 可以解析图像类文档(如扫描件或图片PDF),识别其中的文本、图像和表格等元素的位置信息。
  • 文字识别与信息抽取:支持从图像中识别文字、公式,或抽取票据、证件、表单中的信息。
  • 视频理解:Qwen VLo 能分析视频内容,例如对视频中的事件进行定位并获取时间戳,或生成关键时间段的摘要。
  • 设计与创意:Qwen VLo 可以为设计师、营销人员、教育工作者等提供强大的工具支持,快速实现创意,例如生成海报、插图等。

MultiAgentPPT – 开源多智能体AI演示文稿生成系统

MultiAgentPPT是什么

MultiAgentPPT 是多智能体演示文稿生成系统,基于 A2A(Ask-to-Answer)、MCP(Multi-agent Control Protocol)和 ADK(Agent Development Kit)架构。MultiAgentPPT 基于多Agent协作和流式并发机制,从用户输入的主题自动生成高质量的 PPT 内容。系统包括大纲生成、主题拆分、并行调研和内容汇总等步骤,具备多 Agent 协作、实时流式返回、高质量内容生成和良好的可扩展性等优点。用户只需输入主题,系统能快速生成完整大纲和 PPT 内容,大大提高演示文稿制作的效率。

MultiAgentPPT

 

MultiAgentPPT的主要功能

  • 自动化大纲生成:根据用户输入的主题,自动生成初步的内容大纲。
  • 主题拆分:将生成的大纲进一步细分为多个具体主题。
  • 并行调研:多个智能体(Research Agent)并行工作,对每个主题进行深入调研。
  • 内容汇总与PPT生成:将调研结果汇总,并生成完整的PPT内容。
  • 实时流式返回:支持流式返回生成的PPT内容,用户可以实时查看生成进度。
  • 高质量内容生成:结合外部检索和Agent协作,生成高质量的内容大纲和演示文稿。
  • 可扩展性:系统设计灵活,易于扩展新的智能体和功能模块。

MultiAgentPPT的技术原理

  • 多智能体协作:基于多个智能体分工协作,实现从主题输入到PPT生成的自动化流程。包括大纲生成、主题拆分、并行调研和内容汇总等步骤。
  • 流式并发机制:基于流式并发机制,多个智能体并行工作,提高内容生成的效率。系统能实时将生成进度用流的形式返回给用户,增强交互体验。
  • 外部检索与数据整合:Research Agent基于外部数据源获取最新、相关的数据和信息,确保生成的PPT内容具有深度和广度,保持时效性。
  • 模块化设计:系统基于模块化设计,包括后端的简单大纲生成服务、简单PPT生成服务、带外部检索的大纲生成服务和并发式多Agent PPT生成主服务,及前端的用户输入和实时反馈界面。
  • 实时反馈:系统支持实时流式返回,用户能实时查看生成的大纲和PPT内容,及时了解生成进度进行调整。

MultiAgentPPT的项目地址

  • GitHub仓库:https://github.com/johnson7788/MultiAgentPPT

MultiAgentPPT的应用场景

  • 教育领域:教师和研究人员快速生成教学课件和学术报告PPT,节省备课和准备报告的时间,提高教学和研究效率。
  • 企业培训:企业培训师快速生成内部培训材料和新员工入职培训PPT,确保培训内容的准确性和时效性,提升培训效果。
  • 市场营销:市场人员快速生成产品介绍和市场调研报告PPT,用在产品发布会或客户演示,提升市场推广的专业性和吸引力。
  • 项目管理:项目经理快速生成项目进度汇报和项目提案PPT,方便向管理层或客户展示项目进展和计划,提高项目管理效率。
  • 个人演讲:演讲者和学者快速生成演讲和学术演讲PPT,确保内容的深度和广度,提升演讲的专业性和吸引力。

FilMaster – 港大联合快手、微软、清华推出的AI电影制作系统

FilMaster是什么

FilMaster 是香港大学、快手科技、微软研究院和清华大学联合推出的AI电影制作系统,将电影制作原则与生成式人工智能相结合,实现从剧本到最终影片的全自动制作流程。系统内置的电影专业知识,如镜头语言设计和电影节奏控制,能生成高质量的影片,包括丰富的动态音频景观。FilMaster 的核心优势在于自动化整个电影制作流程,从剧本分析到最终渲染,且生成的项目文件与专业编辑软件兼容,极大地提高电影制作的效率和质量。

FilMaster

FilMaster的主要功能

  • 自动化电影制作流程:从剧本分析到最终渲染,FilMaster能自动化整个电影制作流程,大大提高制作效率。
  • 镜头语言设计:FilMaster根据剧本内容生成专业的镜头语言,包括镜头类型、镜头运动、角度和氛围等,让影片具有丰富的视觉表现力。
  • 电影节奏控制:系统模拟专业后期制作流程,对影片的节奏进行精细控制,包括视频剪辑和声音设计,增强观众的沉浸感和情感共鸣。
  • 生成高质量音频:FilMaster能生成丰富的音频内容,如背景音乐、音效、旁白等,与视频内容进行精准同步,提升影片的整体质量。
  • 生成可编辑的项目文件:生成的影片用多轨时间线格式输出,与行业标准的编辑软件兼容,方便专业人员进行进一步的编辑和调整。

FilMaster的技术原理

  • 多镜头协同检索增强生成(RAG)镜头语言设计模块:模块检索大量真实电影片段学习专业的镜头语言,应用在视频生成。根据场景的文本上下文检索相关的电影片段,用片段的描述作为参考,重新规划镜头,确保镜头语言的连贯性和表达力。
  • 以观众为中心的电影节奏控制模块:模块模拟专业后期制作流程,模拟观众反馈优化影片的节奏。首先生成一个粗剪版本,根据模拟观众的反馈进行精剪,调整视频的结构和时长,及进行声音设计,实现引人入胜的内容和情感冲击力。整个过程由生成式AI模型驱动,如多模态大型语言模型(M)LLMs和视频生成模型。

FilMaster的项目地址

  • 项目官网:https://filmaster-ai.github.io/
  • arXiv技术论文:https://arxiv.org/pdf/2506.18899

FilMaster的应用场景

  • 电影制作:在大型电影项目中,作为创意探索工具,帮助团队快速生成多种镜头方案,优化叙事节奏。
  • 广告制作:快速生成创意片段,直观呈现广告概念,提前评估效果进行优化,节省时间和成本。
  • 教育领域:作为电影教育的教学工具,帮助学生理解镜头语言、叙事节奏等电影制作技巧,提升教学效果。
  • 游戏开发:FilMaster用在生成游戏过场动画和预告片,增强游戏的叙事性和沉浸感,吸引玩家关注。
  • 个人创作:个人创作者轻松创作出具有专业水准的视频作品,满足社交媒体分享等需求。

智声云配 – AI配音工具,提供语音合成、音色克隆等功能

智声云配是什么

智声云配(DubbingX) 是 AI 智能配音工具,提供语音合成(TTS)、音色迁移、歌声转换等多种功能。工具支持中文、英文、日文、粤语等多语言,拥有近2500种情绪语态,支持高度定制,满足游戏、影视、动漫、有声书等多场景需求。工具音色版权合规,支持商用,能显著降低配音成本。智声云配结合专业高校和全球配音演员资源,致力于为用户提供高质量、多样化的音频解决方案。

dubbingx

智声云配的主要功能

  • 语音合成(TTS):将文本转换为自然流畅的语音,支持多种语言和方言。
  • 音色克隆:能克隆特定音色,生成与原音色高度相似的语音。
  • 音色迁移转换:将一种音色转换为另一种音色,实现音色的灵活变换。
  • 歌声迁移与合成:支持歌声的迁移和合成,支持将歌声转换为不同的音色或风格。
  • 多情绪表达:提供近2500种细分情绪语态,能表达丰富的情感和语态。
  • 全可控操作:支持用户对生成的语音进行精细控制和编辑,满足多样化需求。

如何使用智声云配

  • 注册与登录:访问官网智声云配官网:https://dubbingx.com/。按提示填写相关信息(如邮箱、密码等)完成注册和登录。
  • 选择功能模块:根据需要选择不同的功能模块。
  • 配置参数:根据选择的功能模块,配置相应的参数。
    • 语音合成:输入想要转换的文本,选择语言、音色、情绪等参数。
    • 音色克隆:上传参考音频,设置克隆的参数,如音色相似度、情感表达等。
    • 音色迁移:选择源音频和目标音色,调整迁移的强度和细节。
  • 生成音频:配置好参数后,点击生成按钮,平台将开始处理请求。
  • 下载与使用:任务完成后,在平台上找到生成的音频文件,下载到本地。将下载的音频文件应用到游戏、影视、有声书等项目中。

智声云配的应用场景

  • 游戏开发:为游戏角色和旁白生成自然流畅的语音,支持多种情绪和语态,增强游戏的沉浸感和叙事效果。
  • 动漫制作:为动漫角色和旁白生成个性化语音,支持音色克隆,让角色更加生动,提升故事的吸引力。
  • 有声书制作:生成有声书的旁白,支持多种情绪和语态,提升听众的阅读体验,方便有声书的国际化推广。
  • 虚拟人制作:为虚拟人生成自然流畅的语音,支持音色克隆和多语言,提升虚拟人的交互体验和国际化应用。
  • 广告与营销:生成广告中的旁白和解说,支持多种情绪和语态,提升广告的吸引力,方便广告的国际化推广。