Skip to main content

Author: Chimy

ListenHub – AI播客生成工具,可将任何内容快速生成播客

ListenHub是什么

ListenHub是 AI 播客生成工具,支持中文和英语,可将任何内容快速生成播客,提供超真实的人声体验,让播客听起来像自然对话。能根据用户的兴趣推荐新鲜热门话题。用户界面简洁,操作简单,只需输入感兴趣的内容,可生成专属播客,方便随时随地收听。

ListenHub

ListenHub的主要功能

  • 输入多样化:用户可以通过输入文字、网页链接、上传文档(如 PDF、电子书) YouTube 视频链接,快速生成播客内容。
  • 主题与脚本生成:能根据输入内容自动生成播客的主题、简介和详细脚本,支持多种内容形式,包括知识分享、故事讲述、访谈等。
  • 超真实人声:采用最新 AI 语音技术,生成的播客人声效果逼真,能为听众带来自然的对话体验。
  • 多语言支持:支持中文和英语,满足不同语言用户的播客生成需求。
  • 角色定制:用户可以为播客设置最多 3 名角色,自定义角色的名字、头衔、性别和音色,可试听不同音色,确保语音效果符合预期。
  • 新鲜热门话题:根据用户的兴趣,为其推荐最新和热点的话题,帮助用户获取有价值的信息。
  • 音频编辑功能:提供强大的音频编辑功能,用户可以对生成的音频进行剪辑、拼接、添加背景音乐、调整音量等操作,打造个性化的播客节目。
  • 降噪处理:支持对音频的降噪处理,确保音质清晰。
  • 多平台发布:用户可以将制作好的播客节目一键发布到各大音频平台,如喜马拉雅、蜻蜓 FM、Spotify 等,方便内容传播和推广。

ListenHub的官网地址

  • 官网地址:https://listenhub.ai/

ListenHub的应用场景

  • 个人创作:创作者可以用 ListenHub快速生成播客内容,节省时间和精力,专注于创意和内容策划。
  • 知识分享:专业人士可以将自己的专业知识和见解通过播客的形式分享给更多人,扩大影响力。
  • 娱乐休闲:用户可以根据自己的兴趣生成各种主题的播客,随时随地畅听,丰富休闲时光。

鸿蒙智能体框架(HMAF)是什么?一文看懂 – AI百科知识

鸿蒙智能体框架 HMAF(Harmony Agent Framework)是华为推出的核心人工智能框架,构建一个具备自主决策和群体协作能力的 AI 生态系统,全面赋能鸿蒙应用的智能化升级。HMAF 通过将 AI 能力深度融入操作系统底层,推动人机交互从传统的图形界面向更自然的语言交互演进,为开发者提供强大的工具与平台支持,加速智能体应用的创新与落地。

鸿蒙智能体框架

什么是鸿蒙智能体框架

定义

鸿蒙智能体框架(Harmony Agent Framework,简称 HMAF)是华为公司为其自主研发的鸿蒙操作系统(HarmonyOS)打造的一款核心人工智能框架 。在于构建一个具备自主决策和群体协作能力的 AI 生态系统,全面赋能应用的智能化升级,推动鸿蒙生态向更高级的智能化阶段发展。

核心目标

构建一个“以人为中心”的操作系统新范式,打造一个“开放共赢”的生态体系。这一理念体现在其设计哲学中,即通过智能体来理解和满足用户的潜在需求,而不仅是响应用户的显式指令。HMAF 推动人机交互从传统的图形用户界面(GUI)向语言用户界面(LUI)全面演进,通过鸿蒙系统入口和小艺(华为的智能助手)进行分发,使服务更高效、更连续 。HMAF 支持应用具备智能体自主能力,能实现多智能体协同完成复杂任务,将 AI 的便捷性和实用性提升到新的高度 。通过系统级智能体小艺和应用Agent的深度融合,实现无缝协作,让用户的需求和意图可以通过智能体间的协作流畅实现。

在鸿蒙生态中的战略意义

鸿蒙智能体框架(HMAF)在整个鸿蒙生态乃至整个 AI 产业中具有深远的战略意义。HMAF 是鸿蒙系统向“AI 原生操作系统”演进的关键举措,也是鸿蒙生态构建差异化竞争优势的核心驱动力 。通过将 AI 能力深度植入鸿蒙系统内核,HMAF 使鸿蒙系统将具备更强的场景感知、意图理解和自主决策能力,能为用户提供更加主动、智能和个性化的服务 。从“人适应机器”到“机器适应人”的转变,极大地提升用户体验,增强用户粘性,推动鸿蒙应用从传统的功能执行向主动服务的智能伙伴转变 。

HMAF 构建具备自主决策和群体协作能力的 AI 生态系统,极大地丰富鸿蒙生态的应用场景和服务能力 。通过支持多智能体协同工作,HMAF 能打破应用之间的壁垒,实现跨应用、跨设备的无缝服务流转和任务协同 。这种能力的实现,将吸引更多开发者和合作伙伴加入鸿蒙生态,共同开发基于 HMAF 的创新应用和服务,加速鸿蒙生态的繁荣和发展。华为通过推出小艺智能体开放平台,全方位赋能开发者,驱动智能体开发的蓬勃开展,有助于鸿蒙生态快速弥补应用数量上的短板,形成差异化的竞争优势 。

HMAF 的推出是鸿蒙生态应对未来 AI 时代竞争的关键举措,是华为在 AI 产业布局中的重要一步。随着 AI 技术的飞速发展,智能体正成为移动应用变革的新范式 。HMAF 通过提供统一的智能体开发框架和标准,降低了开发门槛,使更多开发者能参与到智能体应用的创新中来 。HMAF 强调的端云协同和安全可信等特性,也为鸿蒙生态在 AI 时代的可持续发展奠定了坚实基础 。通过构建以 HMAF 为核心的智能体价值网络,鸿蒙生态有望在未来的 AI 产业竞争中占据有利地位,实现从“万物互联”到“万物智联”的跨越。

鸿蒙智能体框架的核心特性

智能体全新交互范式

通过系统级入口(如小艺语音对话、导航条、小艺建议、小艺搜索等)和应用内入口,实现了智能体与用户的自然交互 。不再局限于传统的图形用户界面(GUI),而是向语言用户界面(LUI)全面演进,用户可以通过自然语言与智能体进行多轮对话,表达复杂意图 。HMAF 支持多种交互形式,包括智能体操控(通过自然语言高效访问和控制应用功能)、智能体伴随(智能体在后台持续提供支持,如会议助手)以及智能体 GUI 任务(结合 GUI 和 LUI,提供更丰富的交互体验)。使服务触达更加高效便捷,用户随时随地唤醒小艺,即可一句话直达所需智能体服务,大幅缩短操作路径 。

智能体协议升级

提出了鸿蒙 Agent 通信协议,打通鸿蒙系统内应用与智能体、以及智能体与智能体之间的协作壁垒,实现深度协同 。协议支持端云复杂任务和全场景跨设备互通,使系统智能体能与应用智能体高效协同,共同完成用户请求 。HMAF 对意图框架进行了全面升级,支持自定义意图开发,兼容 MCP(Message Channel Protocol)协议,进一步丰富了智能体的工具生态 。这种协议层面的升级,为构建具备自主决策和群体协作能力的 AI 生态系统奠定了坚实基础。

智能体高效开发

通过小艺智能体开放平台和鸿蒙 Agent Kit,HMAF 为开发者提供了覆盖智能体全生命周期的解决方案,包括设计、开发、调试到部署的全链路支持 。平台支持多种开发模式,如 LLM(大语言模型)模式、工作流模式、A2A(Agent-to-Agent)模式以及多 Agent 模式,适应不同业务逻辑的需求 。HMAF 提供了丰富的系统级插件和第三方工具,支持端云插件的灵活编排,通过智能体市场实现智能体的高效上架和分发,构建开发者与用户的良性循环 。华为推出了“DevEco Code Genie”代码工具,通过 AI 辅助开发来提升开发效率,降低开发成本 。

智能体安全可信

构建了全栈安全防护体系,保护用户数据和隐私 。体系基于可信基础设施,构建了包括智能体数据安全、端云执行环境安全、统一身份认证等多道防线 。HMAF 特别强调对用户敏感数据、设备访问权限、用户身份凭证等关键资产的保护,确保智能体在提供便捷服务的同时,不会损害用户的隐私和安全利益 。对安全可信的重视,是 HMAF 能获得用户信任并广泛推广的重要前提。

鸿蒙智能体框架的主要优势

对于用户而言

HMAF 带来的最直接优势是更自然、更强大、更高效、更协同的交互体验 。通过自然语言理解和多模态交互,用户可以用更接近人类交流的方式与设备进行沟通,智能体能理解用户的复杂意图,主动预测用户需求并提供服务 。例如,用户可以通过语音指令要求喜马拉雅智能体筛选播客,或者通过小艺助手直接操作 Excel 表格 。HMAF 支持多智能体协同工作,能处理跨应用、跨设备的复杂任务,例如,当用户在手机上布置日程提醒时,智能体可以自动同步到平板、手表甚至车机,实现全场景的无缝流转 。系统级入口(如小艺)实现了连续服务闭环,能理解用户的高阶意图,处理更复杂的任务,大幅缩短了用户获取服务的路径。

对于开发者而言

HMAF 提供了强大的开发赋能和效率提升。小艺智能体开放平台提供了一站式的高效开发环境,开发者可以利用预置的 AI 能力、标准化的 API 接口和丰富的开发工具,快速构建和部署鸿蒙智能体 。HMAF 支持多种开发模式,包括 LLM、工作流、A2A 等,降低了 AI 应用开发的门槛,开发者无需深入了解复杂的 AI 算法即可上手 。华为推出的 DevEco Code Genie 代码工具,能通过 AI 辅助进行代码续写、问题定位和 UI 生成,据称可将开发效率提升 30% 以上 。HMAF 提供了超过 50 个预构建的 AI 智能体和系统插件,开发者可以直接调用或进行二次开发,进一步加速应用智能化进程。

对于鸿蒙生态系统而言

HMAF 的引入增强了其核心竞争力并推动了生态繁荣。HMAF 作为鸿蒙系统在 AI 时代的核心框架,是其区别于其他操作系统的重要特征之一 。推动了鸿蒙应用从传统的功能执行向主动服务的智能伙伴转变,提升了整个生态的智能化水平 。通过吸引更多开发者基于 HMAF 进行创新,鸿蒙生态能提供更多具有差异化优势的智能应用和服务,吸引更多用户,形成良性循环。HMAF 的开放性和标准化也有助于整合更多第三方服务和应用,构建一个更加丰富和多元的智能体网络,最终提升鸿蒙生态的整体价值和吸引力 。首批已有超过 50 个先锋鸿蒙智能体正在开发中,覆盖购物、社交、生活服务等多个领域,预示着鸿蒙生态将迎来新一轮的智能化升级。

鸿蒙智能体框架的技术原理

基本工作原理

鸿蒙智能体框架(HMAF)的基本工作原理围绕着理解用户意图、规划任务、决策执行以及多智能体协同展开,构建一个能主动服务、高效协同的 AI 生态系统。将 AI 能力深度融入鸿蒙操作系统,使智能体能像“中控大脑”一样,协调和调度各种系统资源与应用服务,为用户提供更加流畅、自然和高效的交互体验 。

  • 用户意图的识别:用户可以通过多种方式与智能体交互,例如语音指令、文本输入、或是基于屏幕内容的分析(如小艺的实时屏幕扫描能力)。HMAF 基于强大的自然语言理解(NLU)能力,对用户的输入进行实时上下文分析,理解用户的显式需求以及潜在的隐性需求 。涉及到多轮对话,澄清用户意图或获取更多必要信息。HMAF 背靠海量训练数据能更准确地把握用户意图的细微差别。
  • 任务规划与决策阶段:系统级的智能体(如小艺)在此扮演关键角色,能将复杂的用户请求分解为一系列可执行的子任务 。然后,小艺会根据任务类型、当前上下文以及可用智能体的能力,将这些子任务分发给最合适的鸿蒙应用智能体或系统服务进行处理 。HMAF 通过鸿蒙 Agent 通信协议,实现了系统、应用与智能体之间的高效通信和协同 。这种协议升级打通了应用与智能体、智能体与智能体之间的协作壁垒,使它们能像一个有机整体一样协同工作。在执行阶段,被选中的智能体会调用其特定的功能或服务来完成分配到的任务。这些智能体可以是华为自有的(如天气、音乐等已融入智能体形态),也可以是第三方开发者基于小艺智能体开放平台构建的 。HMAF 支持本地处理和云端协同,对于隐私敏感型任务,可以在设备本地进行处理,保障用户数据安全;对于需要强大计算能力的任务,可以借助云端 AI 能力 。任务执行过程中,智能体之间可以进行信息交换和协作,共同推进任务的完成。

例如,一个餐饮推荐智能体可能需要协同日历智能体获取用户的空闲时间,再结合用户的饮食偏好进行推荐 。

  • 任务完成后,结果会通过系统级智能体小艺整合并反馈给用户。HMAF 强调服务的无缝流转和连续体验,用户可以通过统一的入口(如小艺)查看任务状态和获取结果,实现“一次交互,多端响应” 。整个过程中,HMAF 会持续学习和适应用户的行为模式,不断优化其理解和决策能力,提供更加个性化和精准的服务。

架构设计

从宏观层面看,HMAF 的架构可以被理解为由应用和智能体层、协议层以及平台层构成 。

  • 应用和智能体层:是直接面向用户和开发者的层面,包含了各种鸿蒙应用、元服务以及运行在其上的智能体。这些智能体可以是系统内置的,也可以是第三方开发者通过小艺智能体开放平台创建和发布的。
  • 协议层:是 HMAF 实现高效协同的关键,核心是鸿蒙 Agent 通信协议 。协议定义了智能体之间、智能体与操作系统之间、以及智能体与用户之间的交互规则和数据格式,确保了不同组件之间能够顺畅通信和协同工作。协议层还包含升级后的意图框架,负责解析用户输入,识别用户意图,将意图分发给相应的智能体进行处理 。
  • 平台层:提供了 HMAF 运行所需的基础设施和核心服务,包括小艺智能体开放平台、AI 模型库、开发工具链(如鸿蒙 Agent Kit、DevEco Code Genie)以及安全可信的执行环境 。

鸿蒙智能体框架的应用场景

个人生活与娱乐

HMAF 可以扮演智能管家的角色。例如,用户可以通过自然语言指令,让小艺智能体帮忙规划行程、预订机票酒店(如深航飞飞智能体)、管理日程、播放定制化的音乐或播客内容(如喜马拉雅的小雅助手智能体)、控制智能家居设备等 。智能体可以根据用户的偏好、历史行为以及当前上下文,提供个性化的建议和服务。例如,在用户下班回家前,智能体可以主动询问是否要打开空调和灯光;或者根据用户的听歌历史,推荐新的歌单。

工作效率与办公

HMAF 能显著提升生产力。例如,用户可以通过语音指令让小艺智能体处理邮件、安排会议、创建和编辑文档(如 ChatExcel 智能体可以直接通过聊天指示处理 Excel 数据分析)、进行实时翻译等 。智能体还可以协助进行信息检索和内容整合,例如,用户可以让智能体搜索特定主题的资料,将其整理成报告。在多设备协同方面,HMAF 可以实现跨设备的无缝内容流转和任务接续,例如,在手机上未看完的文档,可以在 PC 上继续编辑,或者将手机上的图片快速插入到 PC 的演示文稿中 。

出行与交通

HMAF 可以提供更加智能和便捷的服务。例如,结合高德地图等应用,智能体可以提供实时的路况信息、智能导航、停车场推荐及自动支付、加油站快速支付等 。在车载场景下,智能体可以与车机系统深度融合,实现语音控制车辆功能、提供娱乐资讯、以及与其他设备的联动。

HMAF 的应用延伸至教育、金融、社交、购物等多个领域 。例如,在教育领域,智能体可以提供个性化的学习辅导;在金融领域,智能体可以提供智能投顾、风险控制等服务;在社交领域,如微博的智能体可以进行社交内容分析和推荐;在购物领域,如京东的智能体可以提供智能导购和个性化推荐 。HMAF 通过其强大的意图理解、任务规划和多智能体协同能力,正在将智能化服务渗透到各个角落,为用户带来更加丰富、便捷和高效的 AI 智慧体验。

鸿蒙智能体框架的应用案例

深圳航空的“深航飞飞智能体”

这款智能体被设计成一个懂问答、会办事的航空出行 AI 助手。用户只需长按小艺导航条唤醒小艺,说出订票需求,例如“帮我用深圳航空订一张 6 月 20 日去深圳的机票”,小艺便会主动分发服务,调用深航飞飞智能体。能智能识别用户所在城市,完成机票的查询和选购流程。在航班发生变动时,深航飞飞会结合航司的历史数据以及气象大模型,第一时间向旅客推送官方的航班变动信息,协助旅客完成退改签操作,提供相应的出行建议。用户可以通过语音指令进行值机,让深航飞飞帮忙推荐观景座位等,展示了 HMAF 在理解复杂用户意图、调用多服务能力以及提供个性化、场景化服务方面的优势。

娱乐和生活服务领域,多个主流应用已经或即将上线鸿蒙智能体版本。例如,

微博的鸿蒙智能体可以提供社交内容分析和推荐功能 ;

喜马拉雅的智能体可以根据用户的语音指令推荐和播放音频内容,实现更便捷的“听”体验 ;

大众点评的智能体则可以化身找店帮手,能根据用户需求推荐餐厅,帮助搭配菜品 。

大麦娱乐和淘票票通过对接鸿蒙意图框架,实现了演出和电影票务查询的“一步直达”。用户只需对小艺说“帮我查询周杰伦的演唱会”,意图框架便会自动拉起大麦App,查询演出时间、可选场次等信息,未来还将支持自然语言对话购票和查询已购订单等更复杂的意图场景 。

ChatExcel智能体能听懂用户的自然语言指令来处理表格数据,用户可以通过对话的方式完成数据筛选、排序、计算等操作,无需手动编写公式或进行复杂的菜单操作 。

鸿蒙智能体框架的发展前景

鸿蒙智能体框架(HMAF)的发展将紧密围绕提升智能化水平、拓展应用边界以及构建更完善的生态体系展开。在智能化水平方面,HMAF 将持续集成更先进的 AI 大模型技术,不断提升其在自然语言理解、多模态感知、复杂决策等方面的能力 。随着华为盘古等大模型的不断迭代和优化,HMAF 有望实现更深层次的用户意图理解、更精准的个性化推荐以及更强大的自主任务执行能力。端侧 AI 与云端大模型的协同将更加紧密和智能,实现算力的优化分配和能力的互补。HMAF 将更加注重用户隐私保护和数据安全,通过更强大的端侧处理能力和更完善的隐私保护机制,赢得用户的信任。

在应用边界拓展方面,HMAF 将推动智能体向更多行业和场景渗透。目前,HMAF 已经在政务、医疗、工业、出行等领域展现出应用潜力 。随着技术的成熟和生态的完善,HMAF 有望在教育、金融、零售、娱乐等更多行业催生出创新的智能应用。智能体的形态也将更加多样化,从简单的任务执行者向具备更强认知能力和协作能力的智能伙伴演进。HMAF 会支持更复杂的多智能体协作机制,使多个智能体能够像人类团队一样协同工作,共同完成高度复杂的任务。HMAF 与物联网(IoT)、云计算、大数据等技术的融合将更加深入,构建起更加泛在、智能的数字基础设施。

在生态体系构建方面,华为将继续加大对 HMAF 生态的投入,吸引更多开发者和合作伙伴加入 。通过提供更完善的开发工具、更丰富的 API 接口、更优质的培训资源以及更有效的激励机制,华为致力于将 HMAF 打造成一个开放、繁荣、可持续发展的 AI 应用创新平台。开源项目 OpenHarmony 将继续作为 HMAF 生态的重要基石,推动技术的标准化和普及 。随着鸿蒙原生应用和元服务数量的持续增长,以及注册开发者数量的不断攀升,HMAF 的生态规模将不断扩大,形成强大的网络效应 。未来,HMAF 有望成为连接亿万设备、赋能千行百业、服务全球用户的智能核心,为构建万物智联的智能世界贡献关键力量。

Poify – 快手推出的AI电商营销工具,一键AI模特虚拟试衣

Poify是什么

Poify是快手推出的AI电商营销工具,帮助商家和创意工作者快速生成高质量的图片内容。包括 AI 模特试衣、换背景影棚风格、局部重绘等,能满足商家在商品展示图制作上的多样化需求。用户可以上传衣服原图并设置图片尺寸,快速生成 AI 模特试衣图。支持文生图和图生图,用户可以通过文字描述或上传图片进行创作。或生成圣诞主题的创意图片。降低了商家获取高质量商品展示图的成本,提升了商品在电商平台上的视觉吸引力,提高商品的点击率和转化率。

Poify

Poify的主要功能

  • AI 模特试衣:用户上传衣服原图并设置图片尺寸,可快速生成 AI 模特试衣图,满足商家在商品展示图制作上的需求。
  • 换背景影棚风格:能快速更换商品图片背景,适配不同场景,提升商品图片的视觉吸引力。
  • 局部重绘:对商品图片的局部进行修改和优化,帮助商家更好地展示商品细节。
  • 文生图和图生图:支持通过文字描述生成图片,对已有图片进行再创作,为创意工作者和设计师提供了便捷的创作工具。
  • 奇幻场景生成:上传照片后,AI 可将其转化为与北极熊共舞的奇幻场景,或生成圣诞主题的创意图片,如成为圣诞老人、与爱宠共度圣诞等。
  • 个性化创作:用户可以根据自己的创意需求,选择不同的主题和风格,上传照片后,AI 会将照片融入所选主题中,生成独特的创意作品。

如何使用Poify

  • 访问官网:访问 Poify 的官方网站
  • 选择主题:在网站上选择一个主题,如“Cosmic Voyage”(宇宙之旅)或“Fantasy”(奇幻)等。
  • 上传照片:将你想要处理的照片上传到网站。
  • AI 处理:等待 AI 对照片进行处理,将其融入所选主题中。
  • 电商作图:商家可以用电商作图功能,如 AI 模特试衣、换背景影棚风格、局部重绘等,快速生成高质量的商品展示图。
  • 查看结果:查看 AI 生成的结果图片,并进行必要的编辑调整。
  • 下载或分享:将生成的创意作品下载到本地,或直接分享到社交媒体等平台。

Poify的应用场景

  • 商品展示图制作:Poify 的电商作图功能可以快速生成高质量的商品展示图,包括 AI 模特试衣、换背景影棚风格、局部重绘等。
  • 促销活动海报设计:Poify 可以快速生成促销活动海报,帮助企业提高营销效果。
  • 店铺装修:用 Poify商家可以自动生成店铺装修图片,提升店铺整体视觉效果。
  • 社交媒体内容制作:Poify 生成的创意图片可以用于社交媒体的内容制作,吸引更多的关注和互动。
  • 个人创意分享:用户可以将生成的创意作品下载或分享到社交媒体平台,与朋友和粉丝分享独特的创意。

Scenethesis – 英伟达推出的交互式3D场景生成框架

Scenethesis是什么

Scenethesis 是 NVIDIA 推出的创新框架,用在从文本生成交互式 3D 场景。框架结合大型语言模型(LLM)和视觉感知技术,基于多阶段流程实现高效生成,用 LLM 进行粗略布局规划,基于视觉模块细化布局生成图像指导,用优化模块调整物体姿态确保物理合理性,基于判断模块验证场景的空间连贯性。Scenethesis 能生成多样化的室内外场景,具有高度的真实感和物理合理性,广泛应用在虚拟内容创作、仿真环境和具身智能研究等领域。

Scenethesis

Scenethesis的主要功能

  • 文本生成3D场景:用户输入文本描述,AI自动生成对应的3D场景。
  • 物理合理性:生成的场景物体不会相互穿透,能稳定放置,符合物理规则。
  • 用户交互:用户能调整物体位置、大小等,场景实时更新。
  • 多样化场景与物体库:支持多种室内外场景,包含丰富3D模型供选择。
  • 场景验证:自动检查场景质量,必要时重新生成优化,确保高质量输出。

Scenethesis的技术原理

  • 粗略布局规划(LLM模块):用户输入文本描述后,LLM对文本进行解析,理解场景的主题和关键元素。LLM从预定义的3D模型库中选择与场景描述相关的物体,生成一个粗略的布局计划。LLM生成详细的提示,描述场景中物体的初步位置和关系,为后续的视觉细化提供基础。
  • 视觉细化(视觉模块):根据LLM生成的提示,视觉模块(如基于扩散模型的图像生成器)生成详细的图像,作为场景布局的视觉指导。基于预训练的视觉基础模型(如Grounded-SAM和DepthPro)对生成的图像进行分割和深度估计,提取场景图,包括物体的3D边界框和空间关系。根据场景图和提示,从3D模型库中检索与场景描述匹配的3D物体模型。
  • 物理优化(物理优化模块):基于语义对应匹配技术(如RoMa)对3D模型和图像指导中的物体进行姿态对齐,确保物体的位置、尺寸和方向与图像指导一致。用有符号距离场(SDF)技术检测物体之间的碰撞,调整物体的位置和尺寸,避免碰撞。
  • 场景验证(场景验证模块):基于预训练的语言模型评估生成场景的空间连贯性,确保物体的位置和关系符合常识。如果评估结果不满足要求,系统将触发重新规划和优化过程,直到生成的场景达到高质量标准。

Scenethesis的项目地址

Scenethesis的应用场景

  • 虚拟现实(VR)/增强现实(AR):创建沉浸式虚拟环境,如虚拟旅游或展厅。
  • 游戏开发:快速生成游戏关卡和虚拟世界,提高开发效率。
  • 具身智能:为AI训练提供逼真的虚拟场景,如家庭环境。
  • 虚拟内容创作:生成电影、动画或广告的场景原型,加速创作流程。
  • 教育和培训:模拟实验室或培训场景,用于教学和技能练习。

Mogao – 字节跳动Seed团队推出的多模态理解与生成统一架构

Mogao是什么

Mogao是字节跳动Seed团队推出的交错多模态生成全基础模型。在架构上采用了双视觉编码器,结合变分自编码器(VAE)和视觉变换器(ViT),能更好地进行视觉理解并改善图像生成的上下文对齐。Mogao引入了交错旋转位置嵌入(IL-RoPE),用于捕捉图像的二维空间位置信息和多模态数据的时间位置关系,通过多模态无分类器引导技术进一步提升生成质量和一致性。

Mogao

Mogao的主要功能

  • 多模态理解和生成:Mogao 能处理文本和图像的交错序列,实现高质量的多模态理解和生成。可以在给定文本描述的情况下生成高质量图像,能在给定图像的情况下生成相关的文本内容。在多模态理解任务中,文本标记会关注历史序列中的视觉变换器(ViT)标记和文本标记,更好地理解图像内容。
  • 零样本图像编辑与组合生成:Mogao 展现出强大的零样本图像编辑能力,能在没有额外训练的情况下对图像进行编辑和修改。具备组合生成能力,可以将不同的元素组合在一起生成新的图像,具有很强的一致性和连贯性。
  • 高质量图像生成:Mogao 在图像生成方面表现出色,在真实感、图形设计、动漫、插图等多个风格分类上表现优异。支持最高 2K 分辨率的图像生成,能生成具有高细节和高质量的图像。
  • 文本渲染能力:Mogao 在文本渲染方面有显著提升,文本可用率高达 94%,有效解决以往图像生成中中文字渲染难题。

Mogao的技术原理

  • 双视觉编码器:Mogao 使用变分自编码器(VAE)和视觉变换器(ViT)作为视觉编码器。当图像作为条件输入时,同时提取 VAE 和 ViT 的视觉特征,将它们附加到历史序列中。对于多模态理解任务,文本标记仅关注 ViT 标记和文本标记;对于多模态生成任务,噪声 VAE 标记会关注历史序列中的所有标记。
  • 深度融合架构:基于预训练的大语言模型(LLM),Mogao 使用统一的自注意力层同时处理视觉和文本序列,在前馈网络(FFN)中使用不同的多层感知机(MLP)来分别处理视觉和文本模态。
  • 交错旋转位置嵌入(IL-RoPE):用于捕捉图像的二维空间位置信息和多模态数据的时间位置关系,模型能更好地处理交错的文本和图像序列。
  • 混合分辨率训练:在不同宽高比和分辨率的图像上进行预训练和微调,从低分辨率(如 256²)到高分辨率(如 2048²),引入尺寸嵌入使模型能够感知目标分辨率。
  • 跨模态 RoPE:将文本 token 视为二维 token,应用二维 RoPE,进一步增强视觉和文本 token 的对齐效果。
  • 后训练阶段:包括持续训练(CT)、监督微调(SFT)、人工反馈对齐(RLHF)和提示工程(PE),提升模型的性能和可控性。
  • 缺陷感知型训练范式:引入缺陷检测器,精确定位缺陷区域,通过掩码隐含空间优化,有效扩展训练数据集。
  • Hyper-SD 和 RayFlow:优化生成路径,引导每个数据点至特定实例的目标分布,减少路径碰撞,提高生成稳定性和样本多样性。
  • 重要性采样机制:学习在训练过程中关注最关键的时间步,支持高效的少步数采样,不影响生成质量。

Mogao的项目地址

Mogao的应用场景

  • 内容创作:Mogao 能根据文本描述生成高质量的图像,也可以根据图像生成相关的文本描述。
  • 智能助手:Mogao 可以结合语音、图像和文本等多种模态,实现更自然、更智能的人机交互。
  • 图像和文本的相互检索:用户可以通过输入文本描述来查找相关的图像,或者通过上传图像来获取相关的文本描述。
  • 虚拟现实与增强现实:Mogao 可以用于生成虚拟环境和互动元素,提升虚拟现实和增强现实的用户体验。
  • 医疗影像分析:Mogao 可以将不同模态的医疗影像(如 MRI、CT、超声波等)与文本描述相结合,提高疾病诊断的准确性和早期发现能力。

MCP是什么?一文看懂 – AI百科知识

Model Context Protocol(MCP) 是人工智能公司 Anthropic 于 2024 年 11 月 推出的一个开放协议,标准化大型语言模型(LLM)与外部数据源和工具之间的通信。MCP 被比喻为 AI 应用的 USB-C 接口,通过提供统一的接口,使 LLM 能灵活地访问和交互各种数据和服务,促进了 AI 的广泛应用和生态发展。协议推出,解决了传统集成方式的复杂性和安全隐患,提升了开发效率和数据安全性,已被 Microsoft、OpenAI、Google 等公司采用。MCP 的出现标志着 AI 模型与外部世界交互方式的一个重要进步,为构建更强大、更智能的 AI 应用提供了坚实的基础,有望推动整个 AI 行业的标准化进程。通过简化集成流程,MCP 降低了开发门槛,使更多的开发者能利用 LLM 的强大能力,创造出更多有价值的应用。

MCP

MCP是什么

Model Context Protocol(MCP) 是 Anthropic 推出的开放协议,标准化大型语言模型(LLM)与外部数据源和工具之间的通信。通过提供统一的接口,使 LLM 能灵活地访问和交互各种数据和服务。

背景

随着大型语言模型(LLM)在人工智能领域取得突破性进展,在各种复杂任务中展现出强大的能力,例如自然语言理解、文本生成、代码编写和复杂问题解答等。然而,LLM 的知识主要来源于其训练数据,数据是静态的,并且截止于某个特定时间点。意味着 LLM 本身缺乏对实时发生事件的认知,也无法直接访问和操作外部的私有数据源或工具。为了克服这些局限性,使 LLM 能更好地服务于实际应用场景,开发者需要将 LLM 与各种外部数据源(如数据库、API、文件系统)和工具(如计算器、代码执行环境、专业软件)进行集成。传统的集成方式需要针对每一个特定的数据源或工具进行定制化的接口开发,这个过程不仅繁琐、耗时,而且成本高昂。

例如,如果一个应用需要 LLM 同时访问数据库、调用一个外部 API 并读取本地文件,开发者可能需要编写三套不同的接口代码,处理不同的认证授权机制、数据格式和通信协议。这种“点对点”的集成模式导致了所谓的“M×N问题”,即 M 个模型需要与 N 个工具集成,理论上需要 M×N 个连接器,使系统变得复杂且难以维护。

这种定制化的集成方式也带来了安全隐患,例如数据泄露、未授权访问和恶意代码执行等风险,因为每一次新的集成都可能引入新的攻击面。因此,行业迫切需要一种标准化的、统一的协议来简化 LLM 与外部世界的连接,降低集成的复杂度和成本,并提升系统的安全性和可维护性。

起源

Anthropic 将 MCP 设计为一个开放标准,积极推动其成为行业规范,鼓励社区参与和贡献,而非将其局限于单一厂商的技术栈。从最初发布开始,MCP 提供了详细的规范文档、软件开发工具包(SDK)以及一系列参考实现,帮助开发者快速上手并参与到 MCP 生态的建设中。Anthropic 的这一举措得到了业界的积极响应,包括 Block(前身为 Square)和 Apollo 在内的公司在其发布初期就将其集成到自身的系统中,而 Zed、Replit、Codeium 和 Sourcegraph 等开发者工具提供商也开始与 MCP 合作,增强其平台的功能。MCP 的推出,标志着 LLM 应用开发进入了一个新的阶段,通过提供一种通用的“语言”和“接口”,极大地简化了 AI 模型与外部环境的交互,为构建更强大、更智能、更易于集成的 AI 应用奠定了坚实的基础。

MCP的核心目标

降低集成复杂性

通过统一的协议规范,减少开发者需要编写的定制化代码量,简化集成流程。

提升开发效率

开发者可以复用已有的 MCP 服务器实现,或者基于标准快速开发新的 MCP 服务器,加快 AI 应用的开发周期。

增强安全性,MCP 规范中包含了安全相关的考虑,如基于 OAuth 2.1 的授权机制,有助于构建更安全的 AI 应用。

促进生态发展

通过开放标准和社区协作,鼓励更多的开发者和组织参与到 MCP 生态的建设中,开发出更多功能丰富、用途各异的 MCP 服务器,丰富 AI 模型的能力边界,推动 AI 技术的广泛应用和创新。

MCP的比喻——“AI 应用的 USB-C 接口”

Model Context Protocol (MCP) 被其创造者 Anthropic 以及业界广泛比喻为 “AI 应用的 USB-C 接口”。非常形象地揭示了 MCP 在 AI 生态系统中的核心作用和价值。正如 USB-C 接口通过其标准化、可逆、多功能的特性,极大地简化了各种电子设备(如笔记本电脑、智能手机、平板电脑、外围设备等)之间的连接和数据传输,取代了以往多种不同且互不兼容的接口(如 USB-A、Micro-USB、HDMI、VGA 等)

在 MCP 出现之前,AI 模型(尤其是大型语言模型)与外部世界的连接往往是零散的、定制化的,每个新的集成都需要开发特定的适配器和接口,就像在 USB-C 普及之前,用户需要为不同的设备准备不同的线缆和转换器一样不便。

MCP 的出现,如同为 AI 世界引入了 USB-C 标准,允许 AI 模型通过一种通用的协议去“即插即用”地访问各种 MCP 服务器(这些服务器封装了对特定数据或工具的访问能力)。正如 USB-C 接口能支持数据传输、视频输出、电力输送等多种功能,MCP 也支持资源访问、工具调用、提示管理、启发式交互等多种核心功能,能适应多样化的 AI 应用场景。深刻地说明了 MCP 在推动 AI 技术普及和应用创新方面所具有的潜力,有望成为连接 AI 模型与现实世界的关键桥梁。

MCP的核心组件

Host(宿主)

Host 是用户与 AI 模型进行交互的界面或应用程序。负责接收用户的输入(例如问题、指令),将这些输入传递给 AI 模型进行处理。Host 也负责展示 AI 模型生成的回复或执行操作的结果给用户。在 MCP 的交互流程中,Host 扮演着协调者的角色,理解用户意图,决定何时以及如何调用 MCP Client 来获取外部数据或执行工具操作。

一个典型的 Host 例子是 Claude Desktop 应用程序,用户可以在其中直接与 Claude 模型对话,通过 MCP 访问本地文件系统或网络资源。Host 需要能管理 MCP Client 的生命周期,处理与用户交互相关的逻辑,例如权限请求、错误提示等。

Client(客户端)

MCP Client 是 Host 与 MCP Server 之间的桥梁。负责与一个或多个 MCP Server 建立连接,将 AI 模型的请求(例如,获取特定资源、调用某个工具)封装成符合 MCP 规范的请求消息发送给相应的 Server。Client 也负责接收来自 Server 的响应消息,将结果返回给 Host 或直接传递给 AI 模型。MCP Client 需要实现 MCP 协议规范,包括消息的编码解码、传输协议(如 HTTP、WebSockets、gRPC 或 stdio)的处理、以及必要的安全机制(如 OAuth 2.1 认证)。在某些实现中,MCP Client 可能内置于 Host 应用程序中,或者作为一个独立的库被 Host 调用。

Server(服务器)

MCP Server 是实际提供数据或执行工具操作的组件。每个 MCP Server 封装了对特定数据源(如数据库、文件系统、API)或工具(如代码解释器、计算器、专业软件)的访问能力。当 MCP Server 收到来自 Client 的请求后,会根据请求的类型和参数,执行相应的操作(例如,查询数据库、读取文件、调用外部 API),将结果封装成符合 MCP 规范的响应消息返回给 Client。MCP Server 也需要实现 MCP 协议规范,对外暴露其支持的能力(Capabilities),例如提供了哪些资源、哪些工具、以及哪些提示模板。开发者可以根据 MCP 规范开发自定义的 MCP Server,以扩展 AI 模型的能力。

这种三组件架构清晰地将用户交互、协议通信和具体功能实现分离开来,使 MCP 系统具有很好的模块化和可扩展性。Host 专注于用户界面和体验,Client 处理协议层面的通信,Server 提供具体的业务逻辑和数据访问能力。

MCP的交互流程示例

为了更好地理解 MCP 架构中 Host、Client 和 Server 三个组件是如何协同工作的,我们可以通过一个具体的交互示例来说明。

假设用户在 Claude Desktop(Host)中提出了一个问题:“我桌面上有哪些文档?”。以下是处理这个请求的典型 MCP 交互流程:

  • 用户输入 (User Input):用户在 Claude Desktop 的界面中输入问题“我桌面上有哪些文档?”并发送。Host(Claude Desktop)接收到这个用户请求。
  • Host 处理 (Host Processing):Host 将用户的原始问题传递给其内部的 AI 模型(例如 Claude 模型)进行分析和理解。AI 模型需要判断这个问题是否需要访问外部资源或工具来获取答案。
  • 模型分析 (Model Analysis):AI 模型分析问题后,识别出用户意图是获取本地文件系统信息。模型决定需要调用一个能访问文件系统的外部工具。在 MCP 框架下,意味着模型会生成一个请求,指示需要调用一个特定的 MCP Tool(例如,一个封装了文件系统浏览能力的 MCP Server 提供的工具)。
  • Client 请求 (Client Request):Host 内部的 MCP Client 接收到 AI 模型发出的调用外部工具的指令。MCP Client 会根据指令,查找预先配置好的、能提供文件系统访问服务的 MCP Server。然后,Client 会按照 MCP 协议规范,将模型的请求(例如,请求列出用户桌面上的文件)封装成一个标准的 MCP 请求消息,通过指定的传输方式(例如 HTTP、WebSockets 或 stdio)发送给目标 MCP Server。
  • Server 执行 (Server Execution):目标 MCP Server(例如,一个专门的文件系统 MCP Server)接收到来自 Client 的请求。Server 解析请求,验证权限(如果需要),然后执行相应的操作——在这个例子中,就是扫描用户指定的桌面目录,获取文件列表。执行完毕后,MCP Server 将获取到的文档列表(例如,一个包含文件名、路径等信息的 JSON 对象)封装成一个标准的 MCP 响应消息,通过相同的传输方式返回给 MCP Client。
  • 模型响应 (Model Response):MCP Client 接收到来自 MCP Server 的响应,将其中的结果数据(即桌面文档列表)提取出来,传递给 AI 模型。AI 模型接收到这些上下文信息后,结合原始问题,生成一个自然语言的回复,例如“您桌面上有以下文档:report.docx, budget.xlsx, image.png”。
  • Host 展示 (Host Display):Host(Claude Desktop)接收到 AI 模型生成的最终回复,将其在用户界面上展示给用户。

MCP的核心功能

Resource(资源)

Resource 功能允许 MCP Server 向 AI 模型提供只读的上下文信息或数据。这些资源可以是静态数据,也可以是动态生成的数据。例如,一个 MCP Server 可以提供对公司内部知识库的访问,或者提供实时股票行情数据。AI 模型可以通过 MCP Client 请求这些资源,获取完成任务所需的信息。

Resource 的设计强调只读性,确保了数据源的安全性,防止 AI 模型意外修改原始数据。MCP 规范定义了资源发现、订阅和通知等机制,使模型能有效地获取和利用这些外部信息。

Prompt(提示)

Prompt 功能允许 MCP Server 提供预置的提示模板。模板可以帮助 AI 模型生成特定格式或内容的输出,或者引导模型以特定的方式执行任务。例如,一个 MCP Server 可以提供用于生成特定类型邮件的提示模板,或者用于代码生成的模板。

通过使用标准化的提示模板,可以提高模型输出的质量和一致性,减少在应用程序中硬编码提示的需求。MCP 允许服务器声明其提供的提示模板,客户端可以查询并使用这些模板。

Tool(工具)

Tool 功能是 MCP 的核心特性之一,允许 AI 模型调用外部的 API 或工具来执行具体的操作。工具可以执行各种任务,例如执行计算、查询数据库、发送邮件、控制外部设备等。MCP Server 可以声明提供的工具,包括工具的名称、描述、参数列表和预期的输出格式。AI 模型在分析用户请求后,如果判断需要调用某个工具,可以通过 MCP Client 向相应的 Server 发送工具调用请求。Server 执行工具并返回结果,模型再根据结果生成回复。Tool 功能极大地扩展了 AI 模型的能力边界,不再局限于文本生成,能与现实世界进行更深入的交互。

Elicitation(启发)

Elicitation 允许 MCP Server 在交互过程中主动向用户请求更多信息或澄清模糊的输入。在传统的交互模式中,如果模型或工具需要额外的信息才能继续执行任务,只能返回一个错误或提示用户重新提问。

Elicitation 提供了一种更结构化的方式来处理这种情况。当 Server 端(通过 LLM 分析)发现当前请求缺少必要参数或意图不明确时,可以返回一个 elicitationRequest,其中包含需要用户提供的信息的描述或表单。Host 接收到这个请求后,可以向用户展示相应的界面(例如,一个包含输入框的表单),收集用户输入,然后通过 continueElicitation 请求将信息发送回 Server。使交互更加灵活和智能,能处理更复杂的、需要多轮对话才能完成的任务,例如交互式表单填写、用户意图澄清等。

Structured Output(结构化输出)

Structured Output 功能要求 MCP Server 以结构化的格式(例如 JSON)返回工具调用的结果。与返回非结构化的文本相比,结构化的输出更易于 AI 模型解析和理解。MCP 规范支持为工具的输出定义 JSON Schema,使模型可以预期返回数据的结构和类型,更准确地进行后续处理。

例如,一个查询天气的工具可能会返回一个包含温度、湿度、风速等字段的 JSON 对象,而不是一段描述天气的自然语言文本。

这种结构化的输出提高了模型处理结果的效率,增强了系统的可靠性和可维护性。

最新的 MCP 规范(如 2025-06-18 版本)进一步强化了对结构化内容和输出模式的支持,引入了类型化、经过验证的结果以及灵活的 Schema 哲学和 MIME 类型清晰度。

MCP的特点

灵活性

MCP 支持多种传输协议和通信方式。虽然 MCP 规范本身是独立于传输层的,明确支持包括 Streamable HTTPWebSocketsgRPC 以及 stdio(标准输入输出,常用于本地进程间通信)在内的多种通信机制。多样性使得 MCP 可以适应不同的部署环境和性能要求。

例如,对于需要低延迟、双向实时通信的场景,WebSockets 或 gRPC 可能是更好的选择;对于简单的本地工具调用,stdio 更为轻量级和便捷。Streamable HTTP 允许以流式方式传输数据,适用于处理大量数据或需要逐步展示结果的场景。

扩展性

协议本身定义了一套核心的消息类型和交互模式,但同时也允许通过扩展(Extensions)来引入新的功能或特性。MCP 使用基于能力协商(Capability Negotiation)的机制,客户端和服务器在初始化连接时会声明各自支持的功能(Capabilities)。如果双方都支持某个扩展功能,那么就可以在会话中使用该功能。机制确保了协议的向前兼容性和向后兼容性,新的功能可以在不破坏现有实现的基础上逐步引入。

模块化设计

MCP Server 是轻量级的程序,每个 Server 只负责暴露特定的功能或数据源。使开发者可以按需开发和部署 MCP Server,构建一个分布式的、可组合的 AI 能力网络。

例如,一个公司可以开发一个专门访问内部 CRM 系统的 MCP Server,另一个团队可以开发一个连接特定数据库的 MCP Server。

AI 应用(Host)可以通过 MCP Client 动态发现和使用这些 Server 提供的功能,像搭积木一样组合出复杂的应用。

开放性和社区驱动

作为一个开放协议,MCP 鼓励社区参与和贡献,意味着会有更多的开发者为其开发新的 MCP Server、Client 库、工具和文档。能更快地响应市场需求,催生出更多创新的应用场景。

MCP的安全机制

基于 OAuth 2.1 的安全机制

Model Context Protocol (MCP) 在安全方面采取基于 OAuth 2.1 授权框架。OAuth 2.1 是 OAuth 2.0 的演进版本,整合了 OAuth 2.0 最佳实践和安全建议,提供更强大、更易用的授权解决方案。在 MCP 的交互流程中,当 MCP Client 需要访问受保护的 MCP Server(即提供敏感数据或执行敏感操作的 Server)时,需要进行 OAuth 2.1 认证和授权。意味着 Client 需要先从授权服务器(Authorization Server)获取一个访问令牌(Access Token),然后在向 MCP Server 发起请求时携带该令牌。MCP Server 会验证令牌的有效性(例如,通过 introspection endpoint 或 JWKS endpoint 验证签名和有效期),检查令牌是否包含执行所请求操作所需的权限(scopes)。

MCP 规范特别强调了 OAuth 2.1 中的一些关键安全特性,如 PKCE (Proof Key for Code Exchange) 用于防止授权码拦截攻击,以及 令牌受众绑定 (Token Audience Binding – RFC 8707) 用于确保访问令牌仅能被预期的 MCP Server 使用。有效地防止了令牌的跨服务器滥用,提升了整体系统的安全性。

安全最佳实践

Model Context Protocol (MCP) 的生态系统强调了一系列安全最佳实践,确保在日益复杂的 AI 应用场景中维护数据安全、隐私和系统完整性。

  • MCP 服务器安全加固与部署实践:部署 MCP 服务器时,应遵循最小权限原则,仅开放必要的服务和端口。操作系统应进行加固,并考虑使用安全增强工具。所有传入的输入(如用户提示、工具参数)必须进行严格的验证和净化,以防止常见的 Web 攻击,如提示注入 (prompt injection) 和参数污染。对于本地运行的 MCP 服务器,建议将其运行在容器(如 Docker,以非 root 用户运行)或虚拟机中,以实现与主机系统的隔离。网络访问控制也应严格配置,避免将 MCP 服务器直接暴露在公共互联网,优先使用 localhost 或私有子网进行绑定。
  • MCP 客户端与工具交互安全:MCP 客户端应基于 MCP 对 OAuth 2.1 的支持,使用短期、范围受限的令牌进行认证。所有交互都应进行身份验证。在工具设计方面,应为每个 Tool 提供清晰的元数据,包括其功能描述、输入参数、预期输出以及可能产生的副作用。对于可能修改数据或产生重大影响的工具,应使用如 readOnlyHintdestructiveHint 这样的注解进行明确标记,帮助运行时环境采取适当的安全措施。
  • 凭证和密钥管理:是基本要求,绝对避免在配置文件中硬编码凭证或 API 密钥。应使用环境变量或专门的密钥管理服务来存储和访问敏感信息,定期轮换密钥。
  • 启用详细日志记录与监控:对于事后审计、异常行为检测和安全事件调查至关重要。应配置 MCP 服务器和客户端记录所有操作日志,包括请求、响应、错误以及用户交互。特别地,记录所有发送给 AI 模型的提示 (prompts) 有助于检测和防范提示注入攻击。
  • 建立 MCP Server 的治理流程:组织应建立一个正式的审批流程,用于将新的 MCP Server 添加到环境中,包括安全审查和源代码验证。维护一个已批准的 MCP Server 清单,考虑建立一个内部审查过的 MCP Server 仓库,降低引入恶意或存在漏洞的 Server 的风险。

MCP的行业采用情况

Model Context Protocol (MCP) 自推出以来,迅速获得了业界的广泛关注和积极采用。Anthropic 作为 MCP 的发起者,在其产品线中率先集成和支持 MCP,例如在其 Claude Desktop 应用和 Claude 模型中。

OpenAI 在 2025 年初宣布在其 Agents SDK、ChatGPT 桌面应用和 Responses API 中支持 MCP,

微软 (Microsoft) 积极参与 MCP 生态,推出了 Playwright-MCP 服务器,使 AI 代理能像人类一样浏览网页并与网站交互。

Google 在产品中采用 MCP。

Docker 推出了 MCP Toolkit,通过提供一键部署、包含超过 100 个安全 MCP 服务器的目录等功能,简化了 MCP 服务器的部署和管理。

MCP的应用案例

金融科技领域应用

在金融科技(FinTech)领域,帮助金融机构和科技公司构建更智能、更高效的解决方案。例如,可以用 MCP 将 LLM 连接到实时的市场数据源、客户数据库、风险评估模型以及交易执行系统。
  • 智能投顾:MCP 可以使 AI 投顾系统实时获取最新的股票价格、财经新闻、公司财报等信息(通过 Resource 功能),分析客户的风险偏好和投资目标(可能通过 Elicitation 功能与用户交互),然后调用交易执行工具(Tool 功能)为客户提供个性化的投资建议并执行交易。
  • 反欺诈分析:通过连接各种数据源(如交易记录、用户行为日志、黑名单数据库),LLM 可以辅助识别可疑交易模式。
  • 客户服务:MCP 可以使聊天机器人能回答常见问题,能查询用户的账户信息(在获得授权后)、处理简单的业务请求(如转账、账单查询),提供个性化的理财建议。通过 MCP 的标准化接口,金融机构可以更安全、更便捷地利用 LLM 的强大能力,确保数据的安全性和合规性。

医疗健康领域应用

在医疗健康领域,MCP 有潜力革新患者护理、医学研究和医疗管理。LLM 可以通过 MCP 连接到电子健康记录 (EHR) 系统、医学文献数据库、医学影像分析工具以及患者监测设备。
  • 临床决策支持:医生可以向 AI 助手描述患者的症状和病史,AI 助手通过 MCP 查询相关的医学知识库(Resource)、最新的临床指南(Resource),调用诊断辅助工具(Tool),为医生提供诊断建议和治疗方案参考。MCP 的 Elicitation 功能可以用于在诊断过程中向医生询问更多细节,或确认关键信息。
  • 个性化医疗:MCP 可以帮助整合患者的基因组数据、生活习惯数据等,为患者提供定制化的健康管理建议和疾病预防方案。
  • 医学研究:MCP 可以加速文献综述过程,帮助研究人员快速从海量文献中提取关键信息,或者辅助分析临床试验数据。
  • 患者监护系统:通过连接可穿戴设备和传感器数据,实时分析患者的健康状况,在出现异常时及时预警。MCP 的安全机制,特别是基于 OAuth 2.1 的授权,对于处理敏感的医疗数据至关重要,可以确保只有经过授权的用户和应用才能访问患者信息。

科技行业应用

在科技行业,MCP 的应用几乎可以渗透到软件开发生命周期的各个环节以及各种技术驱动的产品和服务中。
  • 软件开发:集成开发环境 (IDE) 可以用 MCP 将 LLM 的强大编码能力与本地开发环境、版本控制系统(如 Git MCP Server)、调试工具、API 文档等无缝集成。开发者可以通过自然语言指令让 AI 助手编写代码、解释代码、生成测试用例、查找并修复 bug,部署应用。例如,开发者可以问:“在我的当前分支上运行测试,并总结失败的原因”,AI 助手可以通过 MCP 调用 Git 工具获取代码,调用测试工具执行测试,然后分析日志并生成报告。
  • IT 运维与支持:AI 运维助手可以连接到监控系统、日志服务器、配置管理数据库 (CMDB) 等,通过自然语言交互帮助运维人员诊断问题、执行维护任务、自动化故障排除流程。例如,AI 助手可以根据警报信息,自动查询相关服务器的日志(通过 MCP Server 提供的日志查询工具),分析错误原因,建议修复方案。
  • 技术文档助手:帮助用户快速找到所需的技术信息,或者根据用户需求生成代码片段和配置示例。科技公司可以用 MCP 将其内部的知识库、API 服务等封装成 MCP Server,供内部员工或外部开发者通过 LLM 方便地访问和使用,提高工作效率和创新能力。

MCP的最新协议更新日志

  • 移除 JSON-RPC 批处理支持:为了简化规范并避免歧义,特别是在实现 Streamable HTTP 传输时,未发现批处理的实际需求,且 JSON-RPC 的通知/响应模型难以满足实时性和并发调用需求,因此移除此功能。
  • 增强工具调用结果,新增结构化输出功能:引入了 outputSchemastructuredContent 字段。这一改进旨在不破坏现有 content 结构的前提下,为简单的 JSON 输出场景提供一个轻量级、可验证的格式化通道。对于提升与不受信任服务器交互时的数据安全性与可靠性尤为重要,使客户端可以更精确地解析和验证来自工具的响应。例如,一个网络设备状态检索工具可以定义一个包含设备 ID、状态、运行时间等字段的输出模式,确保返回数据的结构化和可验证性。
  • 将 MCP 服务器归类为 OAuth 资源服务器:并添加受保护资源元数据(遵循 RFC 9728)以便发现对应的授权服务器。有助于客户端自动发现授权服务器,避免滥用访问令牌,提升整体安全性与部署一致性。
  • 强制要求 MCP 客户端实现遵循 RFC 8707 的 Resource Indicators:以防止恶意服务器获取访问令牌。通过在授权请求和令牌请求中包含 resource 参数,客户端可以明确指定令牌所针对的目标 MCP 服务器,增强了 OAuth 2.0 授权的安全性。
  • 支持 “Elicitation” 功能:允许服务器在交互过程中向用户动态请求额外信息。MCP 此前缺乏标准化的方式来支持这种运行时交互,开发者往往需要依赖多步骤工具调用或自定义协议。Elicitation 机制的引入,为工作流中的确认、澄清、登录跳转等场景提供了结构化的输入机制,完善了模型、用户与服务器三者之间的双向交互闭环。例如,在执行一个删除操作前,服务器可以通过 elicitation 请求用户确认;或者在需要用户特定信息(如时区、组织名称)时,动态向客户端发起请求。
  • 工具调用结果中新增资源链接(Resource Links)类型:为了支持工具返回对外部或大型资源的引用,不是直接嵌入其内容,引入了新的 ResourceLink 类型。解决了在交互流中直接嵌入内容不可行或效率低下的场景需求,例如延迟加载、处理大文件或临时资源。
  • 澄清安全注意事项及最佳实践:在授权规范中增加了相关说明,新增了“安全最佳实践”页面,指导开发者构建更安全的 MCP 应用。

MCP的发展前景

Model Context Protocol (MCP) 作为标准化 AI 模型与外部系统和数据源交互的开放协议,未来发展将聚焦于推动更广泛的行业标准化、持续增强核心功能与安全性,以及不断扩展其生态系统和提升互操作性。随着人工智能技术的飞速发展和应用场景的不断深化,MCP 致力于解决当前 AI 集成面临的碎片化、复杂性和安全隐患等挑战,为构建更强大、更可靠、更易于集成的 AI 应用提供坚实的基础。社区和开发者正积极推动 MCP 的演进,适应日益增长的需求和不断变化的技术格局。

FlowGram – 字节跳动开源的可视化工作流搭建引擎

FlowGram是什么

FlowGram是字节跳动开源的基于节点编辑的可视化工作流搭建引擎,帮助开发者快速构建固定布局或自由连线布局的工作流。支持两种布局模式:固定布局适合顺序工作流和决策树,提供层次化结构和灵活的分支、复合节点;自由布局支持节点自由定位和手动连线,适合网络图和思维导图,支持对齐、自动布局等功能。FlowGram提供丰富的交互功能,如动画过渡、手势缩放、撤销重做等,可将工作流导出为图片或代码。

FlowGram.AI

FlowGram的主要功能

  • 双布局模式
    • 固定布局:节点被约束在预设网格中,适合流程标准化、有清晰层级的场景,如企业审批、订单处理等,还能自动生成代码骨架。
    • 自由布局:节点位置更随意,连接线自由,适合思维导图、算法原型等场景,可实现流程图和代码之间的实时双向同步。
  • 交互功能
    • 提供 Motion 动画,让节点变化有过渡过程。
    • 支持模块化,可进行分组及分支折叠。
    • 提供批量操作,如框选拖拽、批量复制粘贴。
    • 支持布局切换,包括水平/垂直模式切换。
    • 辅助排版功能,如参考线、吸附对齐、自动整理、缩略图等。
  • AI 赋能
    • 具备智能建议功能,例如在做数据清洗节点时,能推荐下一步可能的操作。
    • 能进行风险预测,可在流程测试阶段拦截高达 83% 的类型错误和 64% 的潜在无限循环风险。
    • 搭建好的流程可自动生成文档。
  • 扩展性
    • 提供画布引擎、节点引擎、变量引擎等核心组件,开发者可以在此基础上构建自己的业务逻辑和自定义节点。
    • 通过将画布的交互分层及 IOC 依赖注入实现扩展,开发者可通过依赖注入监听自己想要的节点数据。
    • 变量引擎具有作用域约束功能,且内部大量功能都以插件化形式开放。
  • 导出功能:工作流可以导出为图片或代码。

FlowGram的技术原理

  • 画布引擎(Canvas Engine):负责文档管理、节点渲染和用户交互,如拖拽、缩放等,为固定布局和自由布局提供基础。
  • 节点引擎(Node Engine):管理节点数据,支持表单渲染、校验和动态表单渲染,实现复杂节点配置。
  • 变量引擎(Variable Engine):管理节点间数据流,通过作用域和类型管理,使用抽象语法树(AST)表示变量及其关系。
  • 插件系统(Plugin System):通过模块化架构扩展编辑器功能,不同布局类型可注册不同插件。
  • 基于 Canvas 的自研渲染引擎:针对流程图优化,支持大量节点(200+节点保持60FPS),采用类似 ECS 的数据分割和 MobX 的响应式机制,确保高效渲染。
  • Web Worker 并行化:将耗时计算移至后台线程,避免阻塞主线程,保持界面响应。
  • 智能缓存:提升加载速度40%,使大型项目快速打开。
  • ECS 架构:采用实体组件系统(ECS)架构,将数据(组件)与实体解耦,提高性能和可扩展性。
  • 依赖注入(IOC):使用 Inversify 实现依赖注入,支持动态服务注册,便于插件架构和组件解耦。

FlowGram的项目地址

FlowGram的应用场景

  • 项目管理:适用于标准化的业务流程,如企业审批流程、订单处理流程等。通过固定布局,可以清晰地展示任务的步骤和分工,确保流程的规范性和一致性。
  • 软件开发:适合算法原型设计、代码流程图绘制等场景。节点可以任意放置,连线自由绘制,支持实时流程图与代码双向同步。
  • 教学演示:教师可以使用节点式工作流来讲解复杂的概念,如算法逻辑、数据处理流程等,将流程图导出分享给学生,帮助学生更好地理解和学习。
  • 企业流程自动化:在企业中,固定布局可以用于构建决策树、自动化任务等,降低人工操作的错误率,提高处理速度。
  • AI 和机器学习:适合构建复杂的 AI Bot 对话逻辑、工具调用流程等。自由布局的灵活性使其能够适应多模型组合的复杂调用。

SuperEdit – 字节跳动等机构推出的图像编辑方法

SuperEdit是什么

SuperEdit是字节跳动智能创作团队和佛罗里达中央大学计算机视觉研究中心联合推出的指令引导图像编辑方法,基于优化监督信号提高图像编辑的精度和效果。SuperEdit基于纠正编辑指令,与原始图像和编辑图像对更准确地对齐,引入对比监督信号,进一步优化模型训练。SuperEdit不需要额外的视觉语言模型(VLM)或预训练任务,仅依赖高质量的监督信号,在多个基准测试中实现显著的性能提升。

SuperEdit

SuperEdit的主要功能

  • 高精度图像编辑:根据自然语言指令对图像进行精确编辑,支持全局、局部、风格等多种类型的编辑任务。
  • 高效训练:在少量训练数据和较小模型规模下实现高性能,降低训练成本。
  • 保留原始图像质量:在执行编辑任务时,最大限度地保留原始图像的结构和细节,避免不必要的修改。

SuperEdit的技术原理

  • 扩散模型的生成属性:基于扩散模型在不同推理阶段的生成属性来指导编辑指令的纠正。扩散模型在早期阶段关注全局布局,在中期阶段关注局部对象属性,在后期阶段关注图像细节,风格变化贯穿整个采样过程。
  • 编辑指令纠正:基于输入原始图像和编辑图像对到视觉语言模型(VLM),生成描述两者差异的编辑指令。定义统一的纠正指南,确保生成的编辑指令更准确地反映原始图像和编辑图像之间的实际变化。
  • 对比监督信号:引入对比监督信号。通过生成错误的编辑指令,创建正负样本对,用三元组损失函数训练模型,更好地区分正确的编辑指令和错误的指令。
  • 高效训练策略:SuperEdit在训练过程中用少量高质量的编辑数据,避免大规模数据集带来的计算负担。基于优化监督信号,在少量数据和较小模型规模下实现与复杂架构相当甚至更好的性能。
  • 模型架构:基于InstructPix2Pix框架,用预训练的扩散模型(如Stable Diffusion)作为基础模型,基于纠正编辑指令和对比监督信号进行微调。

SuperEdit的项目地址

SuperEdit的应用场景

  • 内容创作与设计:用在广告设计、社交媒体图像创作等,快速生成符合特定风格或主题的图像,提升内容吸引力。
  • 影视与娱乐:在影视特效制作、角色设计中,快速调整场景和角色外观,加速影视制作流程。
  • 游戏开发:快速编辑游戏角色和场景,生成概念艺术,提高游戏开发效率。
  • 教育与培训:制作教学材料、虚拟实验室图像,辅助教学和研究,增强学习效果。
  • 医疗与健康:处理医学图像、制作健康宣传材料,支持医疗教学和健康推广。

OpenEvidence – AI医学知识助手,解答临床问题、分析症状

OpenEvidence是什么

OpenEvidence 是 AI 医学知识助手平台,基于小型专业化模型和多模型集成架构,提供免费的 AI chatbot 诊断助手和精准的临床问题解答、症状分析、治疗建议及医学知识更新等功能。平台基于同行评审的医学文献和权威机构信息为数据来源,确保信息的准确性和可靠性。OpenEvidence 目标是帮助医生快速获取最新医学证据,提升诊疗效率和质量。OpenEvidence已被超过 40% 的美国医生采用,成为医生临床决策的重要工具。

OpenEvidence

OpenEvidence的主要功能

  • 临床问题解答:快速提供护理指南、药物剂量和临床证据查询,帮助医生在查房时迅速确认关键信息。
  • 症状分析与治疗建议:解析模糊症状,推荐检查路径和治疗方案,适用复杂和罕见病例。
  • 行政与工作流程辅助:自动生成医疗文书,如保险信函和患者出院说明,提供临床计算器,简化复杂计算流程。
  • 医学知识跟踪学习:每日精选新论文,提供知识更新总结,确保医生及时了解最新研究成果。
  • 实时指南访问:快速调取临床指南和标准,支持医生在临床决策中快速参考权威建议。
  • 信息溯源与验证:提供参考文献,确保信息可溯源,增强医生对平台信息的信任度。
  • 辅助诊断与管理计划:分析患者病史,提供诊断和管理建议,支持医生制定个性化治疗方案。
  • 精准广告推送:在临床场景中推送相关药品或器械广告,提高广告转化效率,为平台带来收入。

OpenEvidence的官网地址

  • 官网地址:https://www.openevidence.com/

OpenEvidence的应用场景

  • 临床诊断支持:帮助医生快速分析症状、提供潜在病因和检查建议,辅助罕见病和复杂病例的诊断。
  • 治疗方案制定:基于最新医学研究,推荐治疗方案,对比药物疗效和安全性,优化治疗决策。
  • 医学知识学习:为医学生和医生提供最新临床指南、论文摘要和知识总结,辅助医学教育和继续学习。
  • 医疗文书撰写:自动生成患者出院指导、预先授权信等文书,提高工作效率。
  • 精准广告推送:在医生查看相关医学文献或输入病例时,推送药品或医疗器械广告,提供资源支持。

FunGPT – 开源AI情感调节项目,基于InternLM2.5系列模型

FunGPT是什么

FunGPT 是基于 InternLM2.5 系列大模型开发的开源项目,专为情感调节设计。具备两大核心功能:甜言蜜语模式和犀利怼语模式。甜言蜜语模式能用温暖的话语和独特的夸奖提升用户心情,犀利怼语模式以幽默风趣的方式帮助用户释放压力。FunGPT 采用 1.8B 系列轻量化模型,结合 AWQ 量化技术,既节省 GPU 内存又提升推理速度。

FunGPT

FunGPT的主要功能

  • 甜言蜜语模式:当用户情绪低落时,模式能瞬间提升用户的心情,赞师傅会用最合适且独特的方式夸奖用户,让用户的自信心爆棚。
  • 犀利怼语模式:当用户感到压力山大时,模式能让用户在怼人的同时找到释放的出口。怼师傅的言语不仅犀利,而且幽默风趣,能让用户在怼人的过程中体会到脑洞大开的怼人方式。
  • 轻量化模型:发布了1.8B系列轻量化模型,体积较小,性能出色。采用AWQ量化技术,在节省GPU内存的同时提升推理速度。

FunGPT的技术原理

  • 模型架构:FunGPT 采用 InternLM2.5 系列模型作为基础架构。模型基于 Transformer 架构,具备强大的语言生成和理解能力。Transformer 架构的核心优势在于其多头注意力机制,能从不同角度审视文本,捕捉长距离依赖关系和上下文信息。
  • 微调技术:为了满足个性化用户需求,FunGPT 使用 Xtuner 进行指令和全量微调。通过这种方式,模型能更好地适应特定的任务场景,如甜言蜜语模式和犀利怼语模式。
  • 量化技术:FunGPT 采用了 AWQ(Adaptive Weight Quantization)量化技术。通过减少模型参数的存储空间,降低了模型的使用门槛,提升了推理速度,使模型在资源受限的设备上也能高效运行。

FunGPT的项目地址

FunGPT的应用场景

  • 创意灵感激发:在需要新的创意灵感时,FunGPT 可以帮助用户生成一些有趣的想法,比如在写作、绘画或设计等方面提供灵感。
  • 娱乐与消遣:当用户感到无聊时,FunGPT 可以推荐电影、音乐、书籍等娱乐内容,或者与用户进行有趣的对话,让用户的闲暇时光更加丰富。