Category: AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

  • UNO – 字节跳动推出的创新AI图像生成框架

    UNO是什么

    UNO是字节跳动推出创新的AI图像生成框架,突破传统模型在多主体生成中的局限。通过“少到多”的泛化方法,能高质量地生成单主体和多主体图像,解决了多主体场景下的一致性难题。UNO基于扩散变换器生成高一致性的多主体数据,采用渐进式跨模态对齐技术,分阶段训练模型,逐步提升生成效果。引入了通用旋转位置嵌入(UnoPE),支持多种分辨率和长宽比的图像生成。

    UNO

    UNO的主要功能

    • 单主体定制生成:UNO能根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像。
    • 多主体组合生成:UNO可以接收多个参考图像作为输入,生成包含所有参考主体的新图像。
    • 虚拟试穿与产品展示:UNO支持虚拟试穿功能,可以将特定的产品(如服装、饰品等)放置在不同的人物模型上,展示其效果。可以将产品放置在各种场景中,保持产品的原始特征。
    • 风格化生成:UNO能对参考主体进行风格转换,生成不同风格的图像。
    • 强大的泛化能力:UNO在多个任务中展现了强大的泛化能力,能适应多种应用场景,如单主体和多主体驱动的图像生成,能泛化到id、tryon、style等场景。

    UNO的技术原理

    • 高一致性数据合成管道:UNO 利用扩散变换器(Diffusion Transformers)的内在上下文生成能力,生成高一致性的多主体配对数据。能自动创建大规模、高质量的训练数据,解决了数据获取的难题。
    • 渐进式跨模态对齐:UNO 采用渐进式跨模态对齐策略,将训练过程分为两个阶段:
      • 第一阶段:使用单主体上下文生成的数据对预训练的文本到图像(T2I)模型进行微调,使其具备处理单主体驱动生成任务的能力。
      • 第二阶段:引入多主体数据继续训练,增强模型处理复杂场景的能力。通过这种逐步对齐的方式,模型能更好地适应从单主体到多主体的生成任务。
    • 通用旋转位置嵌入(UnoPE):UNO 引入了通用旋转位置嵌入(UnoPE),有效解决了在扩展视觉主体控制时的属性混淆问题。UnoPE 通过为文本和图像标记分配特定的位置索引,调控多模态标记之间的交互,使模型专注于从文本特征中获取布局信息,在保持良好文本可控性的同时,提高主体相似性。
    • 模型架构:UNO 以开源模型 FLUX.1 dev 为基础,继承了其文生图基础能力和多模态注意力机制,采用了通用定制化模型框架。使模型能从文本到图像模型迭代训练而来,通过其独特的渐进式跨模态对齐和通用旋转位置嵌入等机制,实现了在单主体和多主体驱动生成中既能保持高一致性又能确保可控性。
    • 数据管理与模型进化:UNO 采用“模型-数据共同进化”的新范式,核心思想是用较弱的模型生成训练数据,训练更强的模型。让模型在训练过程中逐渐适应多样化场景,能有效应对实际应用中可能遇到的复杂情况。

    UNO的项目地址

    UNO的应用场景

    • 虚拟试穿:UNO 可以将不同的服装、饰品等产品放置在虚拟人物模型上,生成不同场景下的试穿效果。
    • 产品设计:在产品设计中,UNO 可以将产品放置在各种背景和场景中,保持产品的原始特征,为设计师提供更灵活的设计思路。
    • 创意设计:UNO 能接收多个参考图像作为输入,生成包含所有参考主体的新图像。
    • 个性化内容生成:UNO 可以根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像。
    • 角色和场景设计:UNO 可以为游戏开发提供强大的图像生成支持,帮助开发者快速生成角色和场景,激发创意。
  • FlexIP – 腾讯推出的个性化图像生成编辑框架

    FlexIP是什么

    FlexIP 是腾讯提出的面向图像合成的灵活主体属性编辑框架,平衡图像生成中的身份保持和个性化编辑。框架采用双适配器架构,将身份保持与个性化编辑解耦,通过高层语义概念与低层空间细节确保身份完整性。动态权重门控机制支持用户在身份保留和风格个性化之间进行灵活的参数化控制,将传统的二元权衡转变为连续的控制曲面。FlexIP 结合了多模态数据训练策略,基于图像和视频数据分别优化适配器的身份锁定与变形能力,进一步提升生成鲁棒性。

    FlexIP

    FlexIP的主要功能

    • 双适配器解耦设计:首次将身份保持(Preservation Adapter)和个性化编辑(Personalization Adapter)显式分离。身份保持适配器结合了高级语义概念与低层空间细节以确保身份完整性;个性化适配器则与文本和视觉 CLS 令牌进行交互,吸收有意义的视觉线索,将文本修改置于连贯的视觉上下文中,避免特征竞争,实现更精准的控制。
    • 动态权重门控机制:通过连续可调参数动态平衡身份保持与编辑强度,将传统的二元权衡转化为连续的参数控制曲面,支持从细微调整到大幅变形的灵活控制,用户可根据需要灵活调节生成效果。
    • 模态感知训练策略:根据数据特性(静态图像/视频帧)自适应调整适配器权重,图像数据强化身份锁定,视频数据优化时序变形,提升生成鲁棒性。
    • 跨注意力机制:保持适配器通过跨注意力捕获多粒度视觉特征(如人脸细节),增强身份鲁棒性。
    • 动态插值:权重门控机制支持用户实时调整适配器贡献,形成连续的“控制曲面”。
    • 多模态数据训练:结合图像和视频数据,分别优化适配器的身份锁定与变形能力。

    FlexIP的性能比较

    • 定量比较
      • 综合排名:在综合排名(mRank)指标上,FlexIP 的得分优于所有其他方法,表明其在多个关键指标上的综合表现最为出色。
      • 个性化能力:在个性化评估中,FlexIP 在 CLIP-T 上得分为 0.284,略低于 λ-Eclipse,但 λ-Eclipse 是以牺牲主体保留能力为代价实现的。FlexIP 在保持主体特征的同时,能实现较高的个性化水平。
      • 身份保持能力:在身份保持方面,FlexIP 在 CLIP-I 和 DINO-I 上分别取得了 0.873 和 0.739 的高分,显著优于其他方法,证明了其在保持图像细节和语义一致性方面的强大优势。
      • 图像质量:在图像质量评估中,FlexIP 在 CLIP-IQA 上得分为 0.598,在美学上得分为 6.039,表明其生成的图像不仅质量高,而且具有更好的美感。
      • 用户研究:在实际应用中的用户满意度评估中,FlexIP 在灵活性(Flex)和身份保留(ID-Pres)两个指标上均表现出色,60 名评估者一致认为 FlexIP 生成的图像最符合文本语义且能最好地保留主体特征。
    • 定性比较
      • 保真度:FlexIP 生成的图像在保真度方面表现出色,能够高度还原参考图像的主体特征和细节,即使在进行个性化编辑时,也能保持图像的高质量和真实感。
      • 可编辑性:FlexIP 在可编辑性方面具有显著优势,能够根据不同的文本指令生成多样化的编辑结果,满足用户在不同场景下的个性化需求。
      • 身份一致性:在身份一致性方面,FlexIP 能够在不同参考图像之间稳定地保持主体特征,即使在进行大幅变形或风格化编辑时,也能确保主体的身份一致性,避免了传统方法中常见的身份突变问题。
      • 与现有方法的对比:与五种最先进的方法进行定性比较时,FlexIP 生成的图像在保真度、可编辑性和身份一致性方面均有显著提升,能够更好地满足用户对高保真图像个性化生成的需求。

    FlexIP的项目地址

    FlexIP的应用场景

    • 艺术创作:FlexIP 能根据艺术家的需求,灵活地对图像进行个性化编辑,同时保持主体的身份特征。
    • 广告设计:在广告设计领域,FlexIP 可以帮助设计师快速生成符合品牌需求的图像内容。通过动态权重门控机制,设计师可以在保持品牌形象的同时,灵活调整广告图像的风格、场景和细节。
    • 影视制作:FlexIP 可以用于影视制作中的视觉特效和角色设计。能对角色的外观进行灵活调整,同时保持角色的身份一致性。
    • 游戏开发:在游戏开发中,FlexIP 可以用于角色和场景的生成与编辑。开发者可以通过该框架快速生成多样化的角色形象,同时保持角色的核心特征。
  • 心影大模型 – 心影随形推出的AI模型,深度融合游戏攻略与角色陪伴

    心影大模型是什么

    心影大模型是心影随形顶尖AI团队研发的AI大模型,正式通过国家生成式人工智能服务备案。模型专注于游戏领域,深度融合游戏攻略与角色陪伴场景,全面应用于“逗逗游戏伙伴”APP。 基于超百万条游戏攻略、剧情解析及玩家实战数据训练,覆盖多款主流游戏,能秒级响应玩家的攻略查询需求,提供精准答案,准确率超95%。

    心影大模型

    心影大模型的主要功能

    • 精准攻略查询:基于超百万条游戏攻略、剧情解析及玩家实战数据训练,覆盖《原神》《艾尔登法环》《王者荣耀》等主流游戏。能秒级响应玩家的攻略查询需求,提供权威、精准的攻略答案,准确率超95%。对隐藏任务触发条件、BOSS弱点解析,或装备搭配推荐,能快速给出解答。
    • 情感化角色互动:基于强大的角色扮演能力,角色能解答游戏难题,能感知玩家情绪,提供个性化关怀。在玩家连续失败时,AI会主动鼓励;深夜登录时,角色会温馨提醒;日常闲聊中,AI能分享游戏圈热点、趣味冷知识,甚至模拟角色口吻“吐槽”游戏设定,拉近与玩家的情感距离。
    • 快速响应:深度优化模型推理,端到端响应速度低于1.3秒,攻略查询与对话交互无缝衔接。
    • 多模态融合:支持文字、语音双输入,角色回复可一键生成详尽攻略或语音解说。
    • 智能攻略库:7×24小时实时更新,涵盖版本更新解析、活动速报、隐藏成就攻略。
    • 剧情沉浸模式:一键切换“角色扮演”状态,AI以特定剧情口吻互动,丰富玩家对话体验。
    • 玩家社区智库:开放攻略贡献与评价功能,AI自动整合优质UGC内容,打造玩家共创生态。

    心影大模型的技术原理

    • 大规模数据训练:心影大模型基于超百万条游戏攻略、剧情解析及玩家实战数据进行训练。这些数据涵盖了多款主流游戏,如《原神》《艾尔登法环》《王者荣耀》等。通过海量数据的训练,模型能学习到各种游戏场景下的最优解决方案,为玩家提供精准的攻略建议。
    • 深度优化的模型推理:心影大模型在技术上进行了深度优化,确保了高效的推理能力。端到端的响应速度低于1.3秒,能实现攻略查询与对话交互的无缝衔接。通过优化模型架构和推理算法实现的,确保玩家在使用过程中获得流畅的体验。

    心影大模型的项目地址

    • 下载并安装“逗逗游戏伙伴”APP:在逗逗游戏伙伴的官方应用商店下载“逗逗游戏伙伴”APP。安装完成后,打开APP并完成注册或登录。
    • 进入游戏攻略查询界面:在APP的主界面中,找到“攻略查询”或类似功能的入口。选择你正在玩的游戏(如《原神》《艾尔登法环》《王者荣耀》等),输入具体问题(如“隐藏任务触发条件”“BOSS弱点解析”“装备搭配推荐”等)。点击查询,心影大模型会在秒级响应,为你提供权威、精准的攻略答案。
    • 体验情感化角色互动:在APP中,找到“角色互动”或“聊天”功能。与虚拟角色进行对话,表达你的情绪或分享你的游戏体验。
    • 使用多模态交互功能:在攻略查询或角色互动界面,你可以选择文字输入或语音输入。心影大模型会根据你的输入生成详尽的文字攻略或语音解说,你可以根据自己的偏好选择查看或收听。
    • 切换剧情沉浸模式:在角色互动界面,找到“剧情沉浸模式”或类似功能的按钮。点击切换到“角色扮演”状态,AI将以特定剧情口吻与你互动,让你更深入地体验游戏剧情。

    心影大模型的应用场景

    • 学习辅导:心影大模型可以为学生提供类似游戏攻略的学习辅导,帮助他们解决学习中的难题。
    • 情感支持:在学习过程中,学生可能会遇到挫折或压力,心影大模型可以像在游戏中一样,提供情感支持和鼓励,帮助学生保持积极的学习态度。
    • 情绪疏导:心影大模型可以作为情绪疏导工具,帮助用户表达和处理情绪。当用户感到焦虑、沮丧或孤独时,模型可以提供温馨的提醒和鼓励,帮助他们缓解情绪。
    • 心理陪伴:在日常生活中,用户可以通过与模型的互动获得心理陪伴,减少孤独感。模型可以分享有趣的故事、励志的话语或简单的日常对话,增强用户的情感体验。
    • 内容推荐:心影大模型可以根据用户的兴趣和情绪状态,推荐适合的娱乐内容,如电影、音乐、书籍等。
    • 社交互动:在社交场合中,模型可以提供话题建议或社交技巧,帮助用户更好地与他人交流。
  • AgentPrune – 同济联合港中文等机构推出的多智能体通信优化框架

    AgentPrune是什么

    AgentPrune 是同济大学、香港中文大学等机构联合提出的针对大型语言模型(LLM)驱动的多智能体系统通信优化框架,通过“剪枝”技术,剔除冗余或有害的通信内容,降低通信成本提升系统性能。AgentPrune 将多智能体系统建模为时空图,基于低秩稀疏图掩码优化通信连接,通过一次性剪枝生成高效的通信拓扑。AgentPrune 在多个基准测试中表现出色,仅需传统方法 5.6% 的成本能达到相当的性能。能无缝集成到现有的多智能体框架中,如 AutoGen 和 GPTSwarm,实现 28.1% 到 72.8% 的 token 减少。

    AgentPrune

    AgentPrune的主要功能

    • 通信冗余识别与剪枝:AgentPrune首次识别定义了LLM多智能体系统中通信冗余的问题,通过一次性剪枝技术,剔除冗余有害的通信内容。
    • 时空图建模与优化:将多智能体系统建模为时空图,包含空间边(同一轮对话中的通信)和时间边(跨轮对话中的通信),通过参数化图掩码进行优化。
    • 低秩稀疏图掩码应用:基于低秩稀疏图掩码,促使通信结构更加稀疏,减少冗余、噪声以及恶意消息,同时增强对网络攻击的鲁棒性。
    • 成本与性能优化:在多个基准测试中,AgentPrune以更低的成本(仅$5.6相比于其他系统的$43.7)达到与现有最先进的拓扑相当的效果,能无缝集成到现有的多智能体框架中,实现28.1%到72.8%的token减少。
    • 对抗攻击防御:AgentPrune能成功防御两种类型的智能体对抗攻击,带来3.5%到10.8%的性能提升。

    AgentPrune的技术原理

    • 时空图建模:AgentPrune 将多智能体系统的通信结构建模为一个时空图,节点表示智能体,边表示通信连接,分为空间边(同一轮对话中的通信)和时间边(跨轮对话中的通信)。
    • 参数化图掩码:AgentPrune 通过参数化图掩码来优化通信连接。图掩码的目标是通过分布近似和低秩稀疏性来反映通信连接的重要性。分布近似通过策略梯度方法最大化系统的效用,同时最小化通信冗余;低秩稀疏性则通过低秩约束促使通信结构更加稀疏,剔除冗余、噪声甚至恶意消息。
    • 一次性剪枝:在训练初期,AgentPrune 对图掩码进行有限次优化,然后通过一次性剪枝剔除不重要的通信连接。具体来说,AgentPrune 根据图掩码的大小选择保留一定比例的最重要连接,生成一个稀疏的通信图。
    • 优化后的通信图:在后续的通信过程中,多智能体系统将严格遵循这个优化后的通信图进行消息传递,降低通信成本,同时保持高效的性能。

    AgentPrune的项目地址

    AgentPrune的应用场景

    • 多智能体系统优化:AgentPrune 可以无缝集成到现有的多智能体框架中,如 AutoGen 和 GPTSwarm,显著减少通信成本,同时保持或提升系统性能。
    • 经济高效的通信拓扑:在多智能体系统中,AgentPrune 通过一次性剪枝技术,生成稀疏的通信拓扑,显著减少 Token 消耗。
    • 复杂任务协作:AgentPrune 适用于需要多个智能体协作完成的复杂任务,如数学推理、代码生成和常识问答等。通过优化通信结构,AgentPrune 能提高任务完成效率并降低经济成本。
    • 工业和企业级应用:在工业自动化和企业级应用中,AgentPrune 可以优化智能体之间的通信,减少资源浪费,提高系统的整体效率。
  • ScholarCopilot – 滑铁卢与卡内基梅隆大学联合推出的AI学术写作助手

    ScholarCopilot是什么

    ScholarCopilot 是加拿大滑铁卢大学与卡内基梅隆大学的研究团队开发的专为学术写作设计的人工智能工具,基于 Qwen-2.5-7B 模型,通过动态检索引用和联合优化生成与引用的方式,能精准地生成带有准确引用的学术文本。在文本生成过程中,ScholarCopilot 会插入特殊的检索标记 ,通过该标记查询引用数据库,将检索到的引用内容整合到后续生成中,提高引用的准确性和文本的连贯性。

    ScholarCopilot

    ScholarCopilot的主要功能

    • 语境感知续写:基于已有内容预测接下来的三句话,确保逻辑连贯,例如自动扩展文献综述章节。
    • 章节自动生成:输入关键词,AI 生成完整章节框架,支持调整学术风格,如实证分析或理论推导。
    • 多语言支持:支持中英文混合写作,适合国际期刊投稿。
    • 动态检索增强:写作中插入标记,AI 实时从 50 万篇 arXiv 论文库中检索相关文献,准确率超 40%。
    • 一键插入引用:支持 APA/MLA 等多种格式,自动生成 BibTeX 条目,节省整理时间。
    • 溯源验证功能:点击引用直接跳转原文,确保每一条参考文献真实可查。
    • 博士团队训练数据:基于 Qwen-2.5-7B 模型,在专业学术语料上微调,生成文本的学术严谨性评分达 2.87/5,远超同类工具。
    • 错误自检系统:自动标记疑似“幻觉内容”,提示用户手动复核,如矛盾数据、未验证结论。

    ScholarCopilot的技术原理

    • 动态检索标记:在文本生成过程中,ScholarCopilot 会动态判断何时需要引用文献,生成一个特殊的检索标记。这一标记触发模型暂停文本生成,实时检索学术数据库中的相关文献。
    • 联合优化生成与检索:检索到的文献内容(如摘要或关键段落)会被直接融入后续的文本生成步骤中。通过这种方式,模型能生成高质量的学术文本,确保引用的准确性和相关性。
    • 对比学习优化:检索标记的表示通过对比学习进行优化,使模型能高效地进行相似性搜索,进一步提升检索的准确率。
    • 引用准确性提升:ScholarCopilot 的 top-1 检索准确率达到了 40.1%,显著优于传统方法如 E5-Mistral-7B-Instruct(15.0%)和 BM25(9.8%)。
    • 生成质量优化:在 1000 个学术写作样本数据集上,ScholarCopilot 在相关性、连贯性、学术严谨性、完整性和创新性五个维度上的综合评分达到 16.2/25,超越了参数更大的模型。
    • 训练与数据:ScholarCopilot 基于 Qwen-2.5-7B 模型,训练数据集包含来自 arXiv 的 500K 论文。通过联合优化文本生成和引用检索任务,模型在效率和准确性上都得到了显著提升。

    ScholarCopilot的项目地址

    ScholarCopilot的应用场景

    • 学术论文撰写:ScholarCopilot 专为学术写作设计,能显著提升撰写论文的效率和质量。通过“边生成、边检索”的动态机制,在生成文本时实时判断何时需要引用文献,自动检索相关文献。
    • 引言和相关工作部分:ScholarCopilot 在撰写论文的引言和相关工作部分时表现尤为出色。能自动预测接下来的几句话,根据上下文提供精确的引用建议。
    • 学术写作教学与培训:ScholarCopilot 可用于学术写作的教学和培训。帮助学生和新手研究人员掌握学术写作的技巧和规范,快速上手撰写高质量的学术论文。
    • 科研团队协作:对于科研团队,ScholarCopilot 可以共享学科知识库,帮助团队成员快速搭建论文框架。特别是对于新加入的成员,能快速上手领域综述写作,提升团队整体的写作效率。
    • 期刊审稿:ScholarCopilot 提供的溯源验证功能,使期刊审稿人能一键验证参考文献的真实性。
  • Fourier N1 – 傅利叶推出的首款开源人形机器人

    Fourier N1是什么

    Fourier N1 是通用机器人公司傅利叶发布的首款开源人形机器人。身高1.3米,体重38公斤,拥有23个自由度,采用铝合金与工程塑料复合结构,兼具强度与灵活性。搭载的FSA 2.0一体化执行器和自研控制系统,最高稳定奔跑速度可达3.5米/秒,具备单足站立及撑地爬起等高难度动作能力。背部插拔式电池设计可实现2小时以上续航,满足高频测试与便捷部署需求。

    Fourier N1

    Fourier N1的主要功能

    • 运动控制功能:全身拥有23个自由度,可模拟人体的各个动作,能够实现15°~20°坡度斜坡通行、20厘米高度楼梯攀爬、单足站立及撑地爬起等高难度动作,展现出卓越的本体可靠性与在非结构化场景下的运动鲁棒性。
    • 多模态交互功能:具备多模态交互能力,能很好地理解和响应语音、视觉及触觉等多种输入方式,极大提升了人机互动的自然性与流畅感。
    • 开源共享功能:同步开放涵盖物料清单、设计图纸、装配指南、基础操作软件在内的完整本体资源包,未来还将逐步开放针对该平台的推理代码与训练框架,为全球开发者提供更加完善的验证与开发环境。

    Fourier N1的技术原理

    • 高自由度设计:Fourier N1 全身拥有23个自由度,能模拟人体的复杂动作,在运动时展现出高度的灵活性和适应性。
    • 自研动力系统:搭载傅利叶自研的 FSA 2.0 一体化执行器,结合自研控制系统,提升了运动的稳定性与抗冲击能力,实现了更高精度的位姿控制。实测最高稳定奔跑速度可达3.5米/秒,展现出卓越的动态响应能力。
    • 运动算法验证:研发阶段,Fourier N1 历经长周期、高强度的运动算法验证,核心控制系统在响应速度、精度控制及抗干扰能力等关键性能上,均达到了预期技术标准。在工程验证环节,N1 已累计完成超过1000小时的户外复杂地形测试,单次连续运行时间超过72小时,全面验证了其结构设计的稳定性、耐久性与环境适应性。同时,N1 可稳定实现15°~20°坡度斜坡通行、20厘米高度楼梯攀爬、单足站立及撑地爬起等高难度动作,展现出卓越的本体可靠性与在非结构化场景下的运动鲁棒性。

    Fourier N1的项目地址

    Fourier N1的应用场景

    • 教学工具:Fourier N1 是一个理想的教学工具,学生可以通过实际操作,直观地理解机械结构、电路和编程等科学知识。
    • 患者辅助:Fourier N1 可能被用于患者辅助,例如帮助患者进行康复训练、协助行动不便的患者完成一些日常活动。
    • 物料搬运与检测:凭借其出色的运动能力和灵活性,N1 可以承担物料搬运、包装和检测等工作。
    • 家务助手:家庭用户可以通过自定义开发,让 Fourier N1 承担打扫、日常协助等任务。
    • 复杂地形作业:在灾难救援中,Fourier N1 凭借其出色的地形适应能力,能够进入危险区域进行搜索和救援工作。
  • 明岐 – 上海交大推出的医学多模态大模型,精准诊断罕见病

    明岐是什么

    明岐是上海交通大学计算机学院LoCCS实验室推出的首个精准诊断罕见病的医学多模态大模型。基于“大模型能力矩阵 + 专家路由协同”的双引擎驱动架构,整合医学影像、病历文本及化验指标等数据,为医生提供高精度、可解释的诊断支撑。在克罗恩病等消化道罕见病诊断中,准确率超92%,超越专科高级医生水平。明岐基于模型蒸馏和量化技术,大幅降低算力需求,实现低成本、本地化部署,助力医疗资源下沉,为解决中国医疗资源不平衡问题带来新可能。

    mingqi

    明岐的主要功能

    • 精准诊断:整合多模态数据(影像、病历、化验指标),实现罕见病(如克罗恩病)的高精度诊断,准确率超92%。
    • 可解释性:将诊断过程可视化,提供推理依据和相似病例对比,增强医生信任。
    • 多专家协作:模拟多位专家的诊断思路,综合多方意见,提升诊断全面性和准确性。
    • 本地化部署:降低算力需求,实现低成本、安全的本地化运行,满足数据隐私要求。

    明岐的技术原理

    • 双引擎驱动架构
      • 大模型能力矩阵:基于大规模预训练模型,学习海量医疗数据中的特征和模式,为罕见病诊断提供强大的基础能力。
      • 专家路由协同:模拟多位专家的诊断思路,将不同专家的经验和知识融入模型中,实现多专家协作诊断。
    • 多模态深度学习:整合医学影像(如CT、MRI、内镜图像等)、病历文本(如病史、症状描述等)和化验指标(如血液、生化指标等)等多模态数据。基于深度学习算法,提取多模态数据中的关键特征,实现对罕见病的综合诊断。
    • 透明诊断舱机制:将诊断过程中的每一步骤和推理逻辑可视化呈现,医生清晰了解AI的诊断依据。提供相似病例库对比,帮助医生快速定位疑似病变区域,增强诊断的可解释性。
    • 模型蒸馏与量化:基于模型蒸馏技术,将复杂的预训练模型压缩为更小、更高效的模型,降低算力需求。基于量化技术,进一步优化模型的运行效率,在低成本的硬件设备上高效运行。

    明岐的项目地址

    明岐的应用场景

    • 罕见病精准诊断:辅助医生快速、准确诊断罕见病,缩短确诊时间。
    • 基层医疗赋能:为基层医院提供低成本、高效的诊断服务,缓解专家资源紧张。
    • 教学与科研支持:助力医学教学与科研,提升诊断能力,推动技术发展。
    • 远程医疗服务:结合远程医疗,为偏远地区患者提供远程诊断,提高医疗可及性。
    • 医疗数据管理:整合多模态数据,便于存储、查询和分析,挖掘疾病风险因素。
  • 日日新SenseNova V6 – 商汤推出的多模态融合模型系列

    日日新SenseNova V6是什么

    日日新SenseNova V6是商汤推出的日日新第六代多模态融合大模型系列,基于6000亿参数的多模态MoE架构,实现文本、图像和视频的原生融合。日日新SenseNova V6在纯文本任务和多模态任务中表现卓越,多项指标超越GPT-4.5Gemini 2.0 Pro等模型。

    日日新SenseNova V6包含四个版本,SenseNova V6 Pro是6200亿参数的混合专家架构模型,支持实现文本、图像和视频原生融合,对标国际主流模型;SenseNova V6 Reasoner Pro具备推理能力,辅助解决复杂问题;SenseNova V6 Video专精视频理解,适用于教学、文旅等场景;SenseNova V6 Omni是轻量级全模态交互模型,提供实时互动体验。日日新SenseNova V6具备强推理、强交互和长记忆的特点,对中长视频进行推理和解析,在实时音视频交互中精准回答问题,提供情感化的表达。模型应用在教育辅导、具身智能等领域,为机器人提供大脑、眼睛、耳朵和嘴巴。

    SenseNova V6

    日日新SenseNova V6的主要功能

    • 视频处理与分析:支持对中长视频进行推理和解析。
    • 实时音视频交互:精准回答关于视频内容的问题,如人物关系、情节发展等。
    • 教育辅导:识别手写体,为小朋友辅导数学题,提供一对一的引导式讲解。
    • 情感理解与表达:具备高度拟人化的感知、表达和情感理解能力,根据不同对话内容和场景需求切换语气、情感与音调。
    • 具身智能:让机器人具备更强的感知和交互能力。

    日日新SenseNova V6的技术原理

    • 原生多模态融合训练技术:将文本、图像、视频、音频等多种模态信息在模型架构和训练过程中深度融合,避免传统方法中增强某一模态能力导致另一模态能力下降的问题,更好地处理复杂场景和捕捉跨模态的细节关联。
    • 多模态长思维链合成技术:基于多智能体协作,实现超长思维链的生成与验证,让模型具备长时间、多步骤的深度思考能力,适用于数学推导、科学分析、长文档理解等场景。
    • 多模态混合增强学习:基于人类偏好的RLHF和基于确定性答案的RFT,平衡模型的逻辑推理能力和情感表达能力,确保模型在提升推理能力的同时,自然表达情感。
    • 长视频统一表征和动态压缩:实现跨模态信息的高效对齐与压缩,将画面、语音、字幕、时间逻辑统一编码,形成连贯的时序表征,大幅提升处理效率。

    日日新SenseNova V6的项目地址

    日日新SenseNova V6的应用场景

    • 视频创作与分析:快速生成视频精华片段,剪辑特定场景并配解说和音效。
    • 教育辅导:辅导数学题,提供一对一讲解,帮助学生理解解题思路。
    • 智能客服:精准解答用户问题,提供个性化建议,提升用户体验。
    • 具身智能:为机器人提供感知和交互能力,应用在家庭、工业、医疗等场景。
    • 内容推荐:根据用户偏好推荐个性化视频、文章、音乐等内容。
  • BrowseComp – OpenAI 开源的 AI Agent 网络浏览能力基准

    BrowseComp是什么

    BrowseComp 是 OpenAI 开源的用于评估 AI Agent网络浏览能力的基准测试。包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。需要 AI Agent在互联网上搜索并匹配复杂约束条件,例如找出特定的足球比赛或电视剧角色等。在测试中,OpenAI 的 GPT-4o 和 GPT-4.5 准确率极低,最新发布的 Agent 模型 Deep Research 准确率高达 51.5%,显示出在自主搜索、信息整合和准确性校准方面的优势。

    BrowseComp

    BrowseComp的主要功能

    • 复杂信息检索能力评估:BrowseComp 包含 1266 个极具挑战性的问题,覆盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。这些问题需要 AI 代理在庞大的互联网空间中进行深度搜索,将潜在答案与问题中提出的复杂约束条件相匹配。
    • 问题设计严格把控难度:为了确保问题的高难度,数据师们通过三个主要检查点来严格把控:验证现有的模型(如 OpenAI 的 GPT-4o、GPT-4.5 和早期版本的 Deep Research)无法解决这些问题;进行五次简单的谷歌搜索,保证答案不会出现在搜索结果的第一页上;确保这些问题足够困难,以至于另一个数据师在十分钟内无法解决。
    • 答案验证的可靠性:尽管问题难度高,但答案是简短且明确的,易于通过参考答案进行验证。这种设计使基准测试既具有挑战性,又不失公平性。
    • 推动 AI 浏览代理技术发展:BrowseComp 的开源为 AI 浏览代理的研究提供了新的工具和方向,推动了更智能、更可靠的浏览代理的发展。

    BrowseComp的技术原理

    • 复杂问题设计:BrowseComp 包含 1266 个极具挑战性的问题,这些问题需要 AI 代理在互联网上进行多步推理和跨多个网站的信息检索。问题的设计目标是模拟现实世界中复杂的信息检索场景,要求 AI 代理能够处理难以获取且相互关联的信息。
    • 多源信息整合:AI 代理需要访问多个网站,整合不同来源的信息,才能找到问题的答案。例如,一个典型的问题可能需要代理访问体育赛事记录、裁判信息等多个网站,才能得出正确答案。
    • 推理与搜索策略:除了简单的信息检索,AI 代理还需要具备强大的推理能力,能根据检索到的信息进行逻辑分析和综合处理。例如,Deep Research 模型在 BrowseComp 中表现优异,因为能自主调整搜索策略,根据检索结果动态优化搜索路径。
    • 动态适应性:AI 代理需要具备动态适应性,能根据搜索过程中遇到的各种信息,快速做出反应并调整搜索策略。适应性使代理能在复杂的网络环境中更有效地找到目标信息。
    • 计算资源的影响:测试结果表明,增加计算资源可以显著提升 AI 代理在复杂网络浏览任务中的表现。更多的计算资源允许代理尝试更多的搜索路径,提高找到正确答案的概率。

    BrowseComp的模型性能

    • GPT-4o 和 GPT-4.5:两个模型在 BrowseComp 上的表现较差,准确率分别为 0.6% 和 0.9%。即使为 GPT-4o 启用浏览功能后,准确率也仅从 0.6% 提升到 1.9%。表明单纯赋予模型浏览能力,不能有效解决 BrowseComp 中的复杂问题。
    • OpenAI o1 模型:不具备浏览能力,但凭借较强的推理能力,准确率达到了 9.9%。说明推理能力在网络浏览任务中同样重要,即使无法直接从网络中检索信息,模型也可以通过对已有知识的深度推理来找到部分问题的答案。
    • Deep Research 模型:是 OpenAI 最新发布的 Agent 模型,在 BrowseComp 测试中表现最为出色,准确率高达 51.5%。模型能高效使用浏览工具,能对检索到的信息进行深度分析和综合处理。Deep Research 模型具备强大的适应性,能根据搜索过程中获取的各种信息迅速做出反应并调整搜索策略。

    BrowseComp的项目地址

    BrowseComp的应用场景

    • 企业知识库智能检索:可用于企业知识库的智能检索,如将大量研究文档转化为智能问答系统,提升了研发人员的信息查询效率。
    • 电商产品导购:在电商领域,可用于构建智能导购系统,帮助用户快速找到符合复杂需求的产品。
    • 政府信息公开服务:政府机构可以用于提供更高效的信息公开服务,帮助公众快速获取所需的政策、法规等信息。
    • 研究与开发:研究人员可用于测试和改进 AI 模型的推理和搜索策略,推动 AI 技术在信息检索领域的进一步发展。
  • FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架

    FantasyTalking是什么

    FantasyTalking 是阿里巴巴 AMAP 团队和北京邮电大学联合提出的新型框架,用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型,采用双阶段视听对齐策略,第一阶段通过片段级训练方案建立连贯的全局运动,第二阶段通过唇部追踪掩码在帧级别细化唇部运动,确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性,通过运动强度调制模块实现对表情和身体运动强度的控制。

    FantasyTalking

    FantasyTalking的主要功能

    • 口型同步:能准确识别并同步虚拟角色的口型与输入语音,使角色在说话时的口型与语音内容完全一致,增强了角色的真实感和可信度。
    • 面部动作生成:根据语音内容和情感信息,生成相应的面部动作,如眨眼、皱眉、微笑等,使虚拟角色的表情更加丰富和生动。
    • 全身动作生成:能根据场景和情节需要,生成全身的动作和姿态,如行走、奔跑、跳跃等,使虚拟角色在动画中更加自然和流畅。
    • 运动强度控制:通过运动强度调制模块,用户可以显式控制面部表情和身体运动的强度,实现对肖像运动的可控操纵,不仅限于唇部运动。
    • 多种风格支持:支持多种风格的虚拟形象,写实风格、卡通风格,能生成高质量的对话视频。
    • 多种姿态支持:支持生成具有各种身体范围和朝向的逼真说话视频,包括特写肖像、半身、全身以及正面和侧面姿势。

    FantasyTalking的技术原理

    • 双阶段视听对齐策略
      • 片段级训练:在第一阶段,通过片段级训练方案,模型会捕捉音频与整个场景(包括参考肖像、上下文对象和背景)之间的弱相关性,建立全局的视听依赖关系,实现整体特征融合。使模型能学习到与音频相关的非语言线索(如眉毛运动、肩膀动作)和强音频同步的唇部动态。
      • 帧级训练:在第二阶段,模型专注于帧级与音频高度相关的视觉特征细化,特别是唇部动作。通过使用唇部追踪掩码,模型能确保唇部运动与音频信号精确对齐,提高生成视频的质量。
    • 身份保持:传统的参考网络方法通常会限制视频中人物和背景的大范围自然变化。FantasyTalking 采用面部专注的交叉注意力模块,集中建模面部区域,通过交叉注意力机制解耦身份保留与动作生成。更轻量级,能解放对背景和人物自然运动的限制,确保在整个生成的视频序列中保持角色的身份特征。
    • 运动强度调节:FantasyTalking 引入了运动强度调制模块,能显式控制面部表情和身体运动的强度。使用户可以对肖像运动进行可控操纵,不仅限于唇部运动。通过调节运动强度,可以生成更加自然和多样化的动画。
    • 基于预训练的视频扩散变换器模型:FantasyTalking 基于 Wan2.1 视频扩散变换器模型,基于时空建模能力,生成高保真、连贯的说话肖像视频。模型能有效捕捉音频信号与唇部运动、面部表情以及身体动作之间的关系,生成高质量的动态肖像。

    FantasyTalking的项目地址

    FantasyTalking的应用场景

    • 游戏开发:在游戏开发中,FantasyTalking 可用于生成游戏角色的对话动画和战斗动画。能根据语音内容生成精准的口型同步、丰富的面部表情和自然的全身动作,使游戏角色更加生动逼真,提升游戏的视觉效果和玩家的沉浸感。
    • 影视制作:在影视制作中,可用于生成虚拟角色的表演动画和特效动画。通过 FantasyTalking 可以快速生成具有复杂表情和动作的虚拟角色,减少传统动画制作中的人力和时间成本,为影视作品增添更多的创意和想象力。
    • 虚拟现实和增强现实:在虚拟现实(VR)和增强现实(AR)应用中,FantasyTalking 可以生成虚拟角色的交互动画和引导动画。
    • 虚拟主播:FantasyTalking 可以用于生成虚拟主播的动画视频。支持多种风格的虚拟形象,虚拟主播可以用于新闻播报、直播带货、在线教育等多种场景,具有较高的实用性和灵活性。
    • 智能教育:在智能教育领域,FantasyTalking 可以生成虚拟教师或虚拟助教的动画视频。