Category: AI项目和框架

  • COMET – 字节开源的通信优化系统

    COMET是什么

    COMET是字节跳动推出的针对Mixture-of-Experts(MoE)模型的优化系统,能解决分布式训练中通信开销过大的问题。基于细粒度的计算-通信重叠技术,COMET将通信与计算操作深度融合,消除传统方法中因粒度不匹配导致的资源浪费和延迟。COMET引入共享张量依赖解析和自适应负载分配两大机制,动态调整资源分配,实现高效的通信隐藏和计算优化。在大规模生产环境中,COMET显著提升了MoE模型的训练效率,单层加速可达1.96倍,端到端加速1.71倍,已累计节省数百万GPU小时。COMET的核心代码已开源,支持主流大模型和多种并行策略,能无缝集成到现有训练框架中。

    COMET

    COMET的主要功能

    • 细粒度计算-通信重叠:分解共享张量和重新调度计算顺序,实现计算与通信的细粒度对齐。
    • 自适应负载分配:动态调整GPU线程块资源,根据输入规模和并行策略平衡通信与计算负载,消除流水线气泡,提升整体效率。
    • 高效资源管理:将通信和计算任务封装在独立线程块中,避免远程I/O阻塞计算核心,提升资源利用率。
    • 强鲁棒性和泛化能力:在专家负载不均衡或不同硬件环境下,保持低延迟,支持多种并行策略和大规模集群部署。
    • 易于集成:作为插件直接接入现有的MoE训练框架,无需侵入性改动,支持主流编译生态(如Triton)。

    COMET的技术原理

    • 共享张量依赖解析
      • 张量分解:将MoE层间传递的共享张量沿Token维度(M)或隐层维度(N)进行切割,让通信与计算的最小单元对齐。例如,在MoE第一层(Layer 0)沿M维度分解,在第二层(Layer 1)沿N维度分解,实现高效重叠。
      • 计算重调度:动态调整数据块的计算顺序,优先计算本地数据块,异步拉取远程Token,消除因等待远程数据导致的计算延迟。
    • 自适应负载分配
      • 线程块隔离:将通信与计算任务分别封装在独立线程块中,避免远程I/O阻塞计算核心。计算线程块专用在执行异步TMA指令的GEMM运算,通信线程块基于NVSHMEM实现单Token级数据传输。
      • 动态负载平衡:根据输入规模(如Token长度)和并行策略(EP/TP比例),实时调整线程块分配比例,基于预编译多个版本的计算-通信融合算子,实现运行时的“零开销”动态切换。

    COMET的性能表现

    • 单层加速:在大规模 MoE 模型中,实现单层加速 1.96 倍。
    • 端到端加速:在完整的 MoE 模型中,端到端平均实现加速 1.71 倍。
    • 不同模型和输入规模下的稳定性
      • 在多个大规模 MoE 模型(如 Mixtral-8x7B、Qwen2-MoE 等)中,COMET 的前向时延相比其他基线系统降低 31.8%-44.4%。
      • 在不同输入 Token 长度下,COMET 的执行时间显著短于基线方案,平均速度提升 1.28 倍到 2.37 倍。
    • 鲁棒性:在专家负载不均衡的场景下,COMET 能保持低于其他基线系统的延迟,表现出良好的鲁棒性。
    • 泛化能力:COMET 在 NVLink 和 PCIe 等不同网络环境下均能提供稳定的加速比,支持多种并行策略(如 EP、TP、EP+TP),适用于大规模训练框架。

    COMET的项目地址

    COMET的应用场景

    • 大规模 MoE 模型训练加速:优化 Mixtral-8x7B 等大模型的分布式训练,节省 GPU 小时,提升训练效率。
    • 异构硬件环境适配:支持 H800、L20 等不同 GPU 和网络环境(如 NVLink、PCIe),确保稳定加速。
    • 多并行策略支持:兼容 EP、TP 和混合并行策略,适应不同模型和硬件配置。
    • 动态负载均衡:在专家负载不均衡时,动态调整资源分配,保持低延迟运行。
    • 无缝集成现有框架:作为插件直接接入 MoE 训练框架(如 Megatron-LM),无需侵入性改动,便于快速部署。
  • FoxBrain – 鸿海研究院推出的推理大语言模型

    FoxBrain是什么

    FoxBrain 是鸿海研究院推出的繁体中文大型语言模型(LLM),具有强大的推理能力。基于 Meta Llama 3.1 架构,拥有 70B 参数,专注于数学和逻辑推理领域。FoxBrain 基于高效训练策略,用四周时间完成训练,使用 120 张 NVIDIA H100 GPU,展现了高效率和低成本的特点。FoxBrain基于自主技术生成高质量中文预训练数据,用 Adaptive Reasoning Reflection 技术提升推理能力。FoxBrain 推动 AI 在制造业、供应链管理和智慧决策等领域的应用,为台湾 AI 技术发展树立了新的标杆。

    FoxBrain

    FoxBrain的主要功能

    • 数据分析与决策辅助:处理复杂的数据信息,为用户提供决策支持。
    • 文书协作:帮助用户生成、编辑和优化文本内容,提高工作效率。
    • 数学与推理解题:在数学和逻辑推理方面表现出色,解决复杂的数学问题和逻辑难题。
    • 代码生成:辅助用户生成编程代码,提升开发效率。
    • 语言风格优化:针对台湾繁体中文的语言风格进行优化,更贴合本地用户需求。

    FoxBrain的技术原理

    • 基础架构:基于Meta Llama 3.1架构,拥有70B参数,具备强大的语言生成和理解能力。
    • 高效训练策略:用120张NVIDIA H100 GPU进行训练,基于多节点并行训练架构,确保高效能与稳定性。基于自主技术生成98B tokens的高质量中文预训练数据,涵盖24类主题。用Adaptive Reasoning Reflection技术,训练模型自主推理能力,提升在数学和逻辑推理领域的表现。
    • 上下文处理能力:支持128K token的上下文处理长度,处理更长的文本输入和输出。
    • 优化与评估:基于Continual Pre-Training、Supervised Fine-tuning、RLAIF等技术,不断优化模型性能,在TMMLU+测试数据集中表现出色。

    FoxBrain的项目地址

    FoxBrain的应用场景

    • 智能制造与供应链管理:优化生产流程,提供数据分析和决策支持,提升供应链效率和智能化水平。
    • 智慧教育与学习辅助:帮助学生解答数学和逻辑问题,提供学习辅导,生成学习材料,提升学习效率。
    • 智能办公与文书协作:自动生成和优化文本内容,辅助撰写报告、邮件等,提高办公效率和文档质量。
    • 软件开发与代码生成:辅助程序员生成代码片段,提供编程建议,提升软件开发效率和质量。
    • 智慧城市与数据分析:支持城市数据的分析和处理,提供智能决策支持,助力城市管理和公共服务的智能化升级。
  • LanDiff – 高质量文本到视频生成的混合框架

    LanDiff是什么

    LanDiff是用于高质量的文本到视频(T2V)生成的创新混合框架,结合了自回归语言模型(LLM)和扩散模型(Diffusion Model)的优势,通过粗到细的生成方式,有效克服了单一方法在语义理解和视觉质量上的局限性。在VBench T2V基准测试中取得了85.43的高分,超越了包括13B的Hunyuan Video在内的多个开源和商业模型。

    LanDiff

    LanDiff的主要功能

    • 高效语义压缩:通过语义标记器将3D视觉特征压缩为1D离散表示,压缩比高达14,000倍,保留丰富语义信息。
    • 高质量视频生成:基于流式扩散模型,将语义标记细化为高保真视频,支持长视频生成,降低计算成本。
    • 语义一致性和因果建模:依靠语言模型的自回归生成,确保视频与文本高度一致且时间连贯,避免传统扩散模型的时间不连贯问题。
    • 灵活控制与定制:支持帧数、运动分数等控制条件,可生成特定长度和动态特性的视频,平衡高质量视觉效果与语义准确性。
    • 高效计算与优化:采用视频帧分组技术减少时间冗余,使用高效的Transformer结构和注意力机制,降低计算资源消耗。

    LanDiff的技术原理

    • 粗到细的生成范式:LanDiff采用两阶段生成过程:
      • 第一阶段(粗粒度生成):基于语言模型(LLM)生成语义标记,这些标记代表视频的高级语义结构,为后续的视频生成提供蓝图。
      • 第二阶段(细粒度生成):通过扩散模型将这些语义标记细化为高保真视频,逐步添加细节,最终生成高质量的视频。
    • 语义标记器:将3D视觉特征压缩为紧凑的1D离散表示,压缩比高达14,000倍。受MP4视频编码算法启发,将视频帧分为关键帧(IFrame)和非关键帧(PFrame),关键帧进行完整编码,非关键帧仅捕获时间变化,显著减少时间冗余。
    • 语言模型:使用预训练的T5-XXL模型提取文本特征,并将视频转换为1D离散标记序列。引入额外的控制条件(如帧数和运动分数),增强生成结果的可控性。通过自回归方式生成语义标记,确保生成内容的语义一致性和时间连贯性。
    • 流式扩散模型:采用与MMDiT类似的架构,通过视频标记器解码器将语义标记解码为语义特征,然后作为条件指导扩散模型生成视频。

    LanDiff的项目地址

    LanDiff的应用场景

    • 视频制作:LanDiff可以快速生成高质量的视频内容,帮助视频创作者、广告公司和媒体机构高效地制作视频广告、短片、动画等。
    • 虚拟现实(VR)和增强现实(AR):生成虚拟场景和角色动画,丰富VR和AR应用的内容生态。
    • 教育视频:根据教学大纲或知识点描述,生成教育视频,帮助学生更直观地理解复杂概念。
    • 社交媒体内容:为社交媒体平台生成个性化、吸引人的视频内容,提升品牌影响力和用户参与度。
  • Heygem – 硅基智能推出的开源数字人模型

    Heygem是什么

    Heygem 是硅基智能推出的开源数字人模型,专为 Windows 系统设计。基于先进的AI技术,仅需 1 秒视频或 1 张照片,能在 30 秒内完成数字人形象和声音克隆,在 60 秒内合成 4K 超高清视频。Heygem支持多语言输出、多表情动作,具备 100% 口型匹配能力,在复杂光影或遮挡场景下能保持高度逼真的效果。Heygem 基于全离线运行模式,保护用户隐私,支持低配置硬件部署,极大地降低使用门槛,为内容创作、直播、教育等场景提供高效、低成本的数字人解决方案。

    Heygem

    Heygem的主要功能

    • 秒级克隆:仅需1秒视频或1张照片,完成数字人形象和声音的克隆,30秒内完成克隆,60秒内合成4K超高清数字人视频。
    • 高效推理:推理速度达到1:0.5,视频渲染合成速度达到1:2。
    • 高质量输出:支持4K超高清、32帧/秒的视频输出,超越好莱坞电影24帧的标准。
    • 多语言支持:克隆后的数字人支持8种语言输出,满足全球市场需求。
    • 无限量克隆:支持无限量克隆数字人形象和声音,无限量合成视频。
    • 100%口型匹配:在复杂光影、遮挡或侧面角度下,实现高度逼真的口型匹配。
    • 低配可跑:支持Docker一键部署,最低只需NVIDIA 1080Ti显卡即可运行。

    Heygem的技术原理

    • 声音克隆技术:基于AI等先进技术,根据给定的声音样本生成与之相似或相同声音的技术,涵盖语音中的语境、语调、语速等。
    • 自动语音识别:将人类语音中的词汇内容转换为计算机可读输入,让计算机 “听懂” 人们说的话。
    • 计算机视觉技术:用在视频合成中的视觉处理,包括面部识别、口型分析等,确保虚拟形象的口型与声音和文字内容相匹配。

    Heygem的项目地址

    如何使用Heygem

    • 安装要求
      • 系统要求:支持Windows 10 19042.1526或更高版本。
      • 硬件推荐
        • CPU:第13代英特尔酷睿i5-13400F。
        • 内存:32GB。
        • 显卡:RTX 4070。
      • 存储空间
        • D盘:用在存储数字人和项目数据,需要30GB以上空间。
        • C盘:用在存储服务镜像文件,需要100GB以上空间。
      • 依赖项
        • Node.js 18
        • Docker 镜像
          • docker pull guiji2025/fun-asr:1.0.2。
          • docker pull guiji2025/fish-speech-ziming:1.0.39。
          • docker pull guiji2025/heygem.ai:0.0.7_sdk_slim。
    • 安装步骤
      • 安装Docker:检查是否安装WSL(Windows Subsystem for Linux),如果未安装,运行wsl –install。更新WSL。下载安装Docker for Windows。
      • 安装服务器:用Docker和docker-compose安装服务器。在/deploy目录下运行docker-compose up -d。
      • 安装客户端:运行npm run build:win生成安装程序HeyGem-1.0.0-setup.exe。双击安装程序进行安装。

    Heygem的应用场景

    • 内容创作:快速生成动画、教育视频等,降低制作成本。
    • 在线教育:创建虚拟教师,支持多语言教学,提升趣味性。
    • 直播营销:用在虚拟直播、产品推广,降低人力成本。
    • 影视特效:生成虚拟角色或特效镜头,简化制作流程。
    • 智能客服:创建虚拟客服,提供自然的人机交互体验。
  • IMAGPose – 南京理工大学推出姿态引导图像生成的统一框架

    IMAGPose是什么

    IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架。解决传统方法在姿态引导的人物图像生成中存在的局限性,如无法同时生成多个不同姿态的目标图像、从多视角源图像生成目标图像受限,以及使用冻结的图像编码器导致人物图像细节信息丢失等问题。

    IMAGPose

    IMAGPose的主要功能

    • 多场景适应:IMAGPose支持多种用户场景,包括从单张源图像生成目标图像、从多视角源图像生成目标图像,同时生成多个具有不同姿态的目标图像。
    • 细节与语义融合:通过特征级条件模块(FLC),将低级纹理特征与高级语义特征相结合,解决了因缺乏专用人物图像特征提取器而导致的细节信息丢失问题。
    • 灵活的图像与姿态对齐:图像级条件模块(ILC)通过注入可变数量的源图像条件并引入掩码策略,实现图像和姿态的对齐,适应灵活多样的用户场景。
    • 全局与局部一致性:跨视图注意力模块(CVA)引入全局和局部分解的跨注意力机制,确保在多源图像提示时人物图像的局部保真度和全局一致性。

    IMAGPose的技术原理

    • 特征级条件模块(FLC):FLC 模块通过结合变分自编码器(VAE)编码器提取的低级纹理特征和图像编码器提取的高级语义特征,解决了因缺乏专用人物图像特征提取器而导致的细节信息丢失问题。
    • 图像级条件模块(ILC):ILC 模块通过注入可变数量的源图像条件并引入掩码策略,实现图像和姿态的对齐,适应灵活多样的用户场景。
    • 跨视图注意力模块(CVA):CVA 模块引入了全局和局部分解的跨注意力机制,确保在多源图像提示时人物图像的局部保真度和全局一致性。

    IMAGPose的项目地址

    IMAGPose的应用场景

    • 虚拟现实(VR)与增强现实(AR):IMAGPose 可以生成具有特定姿态的人物图像,可以在虚拟环境中以不同的姿态呈现自己,或者生成虚拟角色的多种姿态,增强沉浸感。
    • 电影制作与特效:在电影制作中,IMAGPose 可以用于生成角色的多种姿态,帮助特效团队快速生成不同场景中的人物图像,减少手动建模和动画的时间和成本。
    • 电子商务与时尚:IMAGPose 可以用于生成不同姿态的服装展示图像。商家可以生成模特在不同姿态下穿着服装的效果图,为消费者提供更全面的视觉体验。
    • 行人重识别(Re-ID):IMAGPose 生成的图像可以用于提高行人重识别任务的性能。通过生成不同姿态的人物图像,可以增加数据集的多样性,提高模型的鲁棒性和准确性。
    • 虚拟摄影与艺术创作:艺术家和摄影师可以用 IMAGPose 生成具有创意的人物姿态图像,用于虚拟摄影或艺术创作,探索更多视觉可能性。
  • DoraCycle – 新加坡国立大学推出多模态领域适应的统一生成模型

    DoraCycle是什么

    DoraCycle 是新加坡国立大学 Show Lab 推出多模态领域适应的统一生成模型,通过两个多模态循环(text-to-image-to-text 和 image-to-text-to-image)实现不同模态间的信息转换与对齐,基于统一生成模型学习的双向映射,以非配对数据进行领域适配训练,无需大量标注数据。模型通过循环端点的交叉熵损失优化,促进自我进化,适应特定领域。

    DoraCycle

    DoraCycle的主要功能

    • 无配对数据的领域适应:通过循环一致性学习,DoraCycle首次实现了使用无配对数据进行生成模型的领域适应,显著降低了数据获取成本。
    • 灵活的任务适应性:DoraCycle能处理无需成对知识的任务(如风格化),能有效结合少量配对数据完成需要新知识的任务(如身份生成)。

    DoraCycle的技术原理

    • 多模态循环一致性学习:DoraCycle 集成了两个多模态循环:文本到图像再到文本(T cycle) 和 图像到文本再到图像(I cycle)。这两个循环利用预训练的统一生成模型(如视觉-语言对齐模型)进行跨模态映射。
      • T cycle:从输入文本序列开始,模型先将其转换为图像表示,再将生成的图像转换回文本序列,通过计算生成文本与原始文本之间的交叉熵损失来优化模型。
      • I cycle:从输入图像开始,先将其转换为文本描述,再将文本描述转换回图像,通过计算生成图像与原始图像之间的交叉熵损失来优化模型。
    • 跨模态对齐的自监督学习:DoraCycle 基于统一生成模型学习的视觉和语言之间的双向映射。通过这两个循环,数据可以在相同模态内保持,施加对过程中引入偏差的约束。使模型能通过自监督学习,实现视觉和语言之间的跨模态对齐。
    • 训练稳定性增强:在多步推理过程中,为了避免梯度爆炸问题,DoraCycle 采用了以下技术:
      • 梯度裁剪:避免两个循环的优化方向冲突,从而提高训练的稳定性。
      • EMA 模型:维护一个缓慢更新的指数移动平均(EMA)模型,用于推理以生成伪数据,增强伪数据生成的稳定性。

    DoraCycle的项目地址

    DoraCycle的应用场景

    • 风格化设计:DoraCycle 可以用于生成符合特定风格的图像和文本内容。
    • 虚拟角色生成:在虚拟角色设计中,DoraCycle 可以结合少量配对数据和大规模无配对数据,生成具有特定身份和风格的虚拟角色。
    • 个性化广告内容:DoraCycle 可以根据品牌风格和目标受众生成个性化的广告图像和文案。
    • 个性化学习材料:DoraCycle 可以根据学生的学习风格和偏好生成个性化的学习材料。
  • Gemini Embedding – 谷歌推出的文本嵌入模型

    Gemini Embedding是什么

    Gemini Embedding 是 Google 推出的先进的文本嵌入模型,基于将文本转化为高维数值向量,捕捉其语义和上下文信息。Gemini Embedding基于 Gemini 模型训练,具备强大的语言理解能力,支持超过100种语言,在多语言文本嵌入基准测试(MTEB)中排名第一。模型适用于多种场景,如高效检索、文本分类、相似性检测等,能显著提升系统的效率和准确性。Gemini Embedding支持长达8K的输入标记长度和3K维度的输出,基于 Matryoshka Representation Learning(MRL)技术灵活调整维度满足存储需求。Gemini Embedding 现已集成至 Gemini API。

    Gemini Embedding

    Gemini Embedding的主要功能

    • 高效检索:比较查询和文档的嵌入向量,快速从海量数据库中找到相关文档。
    • 检索增强生成(RAG):结合上下文信息,提升生成文本的质量和相关性。
    • 文本聚类与分类:将相似文本分组,识别数据中的趋势和主题,或自动对文本进行分类(如情感分析、垃圾邮件检测)。
    • 文本相似性检测:识别重复内容,用在网页去重或抄袭检测。
    • 多语言支持:支持超过100种语言,适用于跨语言应用。
    • 灵活的维度调整:根据需求调整嵌入向量的维度,优化存储成本。
    • 长文本嵌入:支持长达8K个标记的输入,支持处理更长的文本、代码或数据块。

    Gemini Embedding的技术原理

    • 基于 Gemini 模型的训练:基于 Gemini 模型对语言的深度理解和上下文感知能力,生成高质量的嵌入向量。
    • 高维嵌入表示:模型输出3K维度的嵌入向量,相比传统模型,更精细地捕捉文本的语义信息。
    • Matryoshka Representation Learning(MRL):一种创新的技术,用户根据需求截断原始的高维嵌入向量,降低存储成本,保持语义信息的完整性。
    • 上下文感知:模型能理解文本的上下文信息,在复杂的多语言环境中准确捕捉语义。
    • 优化的输入和输出:支持长达8K个标记的输入,能处理更长的文本,同时基于高维嵌入向量提供更丰富的语义表示。

    Gemini Embedding的项目地址

    Gemini Embedding的应用场景

    • 开发者:构建智能搜索、推荐系统或自然语言处理应用。
    • 数据科学家:用在文本分类、聚类和情感分析。
    • 企业技术团队:用在知识管理、文档检索和客户支持。
    • 研究人员:进行语言学研究和多语言分析。
    • 产品团队:开发个性化内容和智能交互功能。
  • GO-1 – 智元机器人推出的首个通用具身基座模型

    GO-1是什么

    GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)和MoE(混合专家)组成。VLM借助海量互联网图文数据,赋予模型通用场景感知和语言理解能力;MoE中的Latent Planner(隐式规划器)通过大量跨本体和人类操作视频数据,获得通用的动作理解能力;Action Expert(动作专家)则基于百万真机数据,实现精细的动作执行。

    GO-1(Genie Operator-1)

    GO-1的主要功能

    • 人类视频学习:通过分析大量人类操作视频数据,模型能学习并理解真实世界中的动作知识,快速适应新任务。
    • 小样本快速泛化:在极少数据或零样本的情况下,GO-1能快速泛化到新场景和任务,降低了具身智能的应用门槛。
    • 一脑多形,跨本体应用:GO-1能灵活部署到不同类型的机器人本体上,支持多种机器人形态,展现出极高的通用性和灵活性。
    • 持续进化:在实际使用中,GO-1能不断学习和优化自身性能,通过数据回流系统从实际执行中遇到的问题数据中持续进化,越用越聪明。
    • 高效动作执行:基于百万级真机数据训练的Action Expert(动作专家),模型具备精细且高效的动作执行能力。

    GO-1的计算原理

    • VLM(多模态大模型):VLM通过深度挖掘海量互联网图文数据,赋予模型卓越的通用场景感知和语言理解能力。能准确识别理解图像中的信息,同时与文本数据进行高效融合,实现对复杂场景的全面理解。
    • MoE(混合专家系统):MoE系统进一步增强了模型的动作理解与执行能力。其中:
      • Latent Planner(隐式规划器):通过分析大量跨本体和人类操作视频数据,掌握了通用的动作规划逻辑。
      • Action Expert(动作专家):依托百万级真机数据训练,具备精细且高效的动作执行能力。

    GO-1的项目地址

    GO-1的应用场景

    • 零售服务:在零售环境中,GO-1可以被部署为服务机器人,提供顾客引导、商品查询、结账辅助等服务。
    • 接待与咨询:在酒店、餐厅或办公楼等场所,GO-1可以作为接待机器人,提供信息咨询、预订确认、方向指引等服务。
    • 生产线辅助:在制造业中,GO-1可以协助完成装配线上的重复性任务,如零件搬运、组装等。
    • 家务助手:在家庭环境中,GO-1可以作为家务助手,帮助完成清洁、整理等日常家务。
    • 科研探索:GO-1可以用于科研领域,如在极端环境中进行样本采集和数据分析。
  • AppAgentX – 西湖大学推出的自我进化式 GUI 代理框架

    AppAgentX是什么

    AppAgentX 是西湖大学推出的新型自我进化式 GUI(图形用户界面)代理框架,基于从执行历史中抽象出高级动作提升代理在智能手机交互中的效率和智能性。AppAgentX结合记忆机制和进化机制,记录任务执行过程,识别重复操作序列,替换为更高效的高级动作,减少对逐级推理的依赖。AppAgentX 基于链式知识框架实现行为的持续优化,增强适应性和效率。AppAgentX在多个基准测试中显著优于现有方法,展现出更高的准确性和效率,为智能代理在复杂任务执行中的应用提供新的思路。

    AppAgentX

    AppAgentX的主要功能

    • 自动归纳高效操作模式:检测任务执行中的重复性操作,自动总结为高级别的“一键”操作,简化操作流程。
    • 减少重复计算,提升执行效率:基于记忆和复用执行策略,避免重复推理,让任务执行更高效。
    • 基于视觉的通用操作能力:依赖屏幕视觉信息进行操作,无需后端API支持,在不同软件和设备上通用,实现“即插即用”。
    • 支持复杂任务和跨应用操作:像人类一样操作各种应用程序,支持复杂的跨应用任务,例如从网页爬取信息后填入Excel,或在多个软件之间联动操作。

    AppAgentX的技术原理

    • 记忆机制:基于链式结构记录任务执行历史,包括页面节点和元素节点。页面节点记录UI页面的描述和元素信息,元素节点记录具体交互细节。用LLM生成页面和元素的功能描述,合并重复描述用形成统一记录。
    • 进化机制:分析任务执行历史,识别重复的低级操作序列。将重复序列抽象为高级动作(称为“快捷节点”),替代原有的低级操作。扩展动作空间,将高级动作纳入代理的操作集,提升执行效率。
    • 链式知识框架:用基于图的存储结构(如Neo4j)记录任务执行的节点和关系。节点包括页面、元素和高级动作,关系表示它们之间的交互和转换。用链式结构实现行为的持续优化和进化。
    • 任务执行流程:在任务执行时,代理基于视觉匹配识别当前页面和元素。若匹配到高级动作,直接执行对应的低级操作序列,减少推理步骤。若高级动作不适用,回退到低级动作空间,确保任务仍能完成。

    AppAgentX的项目地址

    AppAgentX的应用场景

    • 自动化日常操作:自动完成手机设置调整、应用内任务等,减少手动操作。
    • 智能助手增强:集成到智能助手,帮助用户快速执行复杂任务。
    • 企业流程自动化:用于企业数据录入、报表生成等重复性任务,提高效率。
    • 跨应用任务管理:支持在不同应用间切换和操作,实现跨平台自动化。
    • 辅助特殊人群:简化操作流程,帮助老年人或身体不便者更轻松使用手机。
  • DINO-XSeek – IDEA 研究院推出的多模态目标检测模型

    DINO-XSeek是什么

    DINO-XSeek 是 IDEA 研究院推出的多模态目标检测模型,结合视觉感知和自然语言理解能力。DINO-XSeek基于复杂的语言描述精准定位图像中的目标,识别目标的属性(如颜色、形状、动作等)、位置关系及交互情况。模型基于 DINO-X 统一视觉模型,用检索式框架,先检测图像中的所有物体,再用大语言模型从候选目标中检索最相关的对象。DINO-XSeek 在自动驾驶、工业制造、智能家居、农业与食品等多个领域有广泛应用,实现安全检测、质量控制、危险行为识别等功能,为复杂场景的目标检测提供更接近人类理解能力的解决方案。

    DINO-XSeek

    DINO-XSeek的主要功能

    • 复杂语言理解:根据自然语言描述精准定位图像中的目标,支持对目标的详细描述,如“穿红色上衣的女孩”或“站在车旁的人”。
    • 属性识别:支持识别目标的颜色、形状、年龄、性别、服装、姿势、动作等属性。
    • 位置与空间关系识别:支持判断目标之间的相对位置及目标与环境的空间关系。
    • 交互关系识别:识别目标之间的交互及目标与环境的交互。
    • 推理与多实例处理:支持复杂语言推理,能处理多实例指代任务。

    DINO-XSeek的技术原理

    • 视觉编码器:提取图像中的视觉信息,生成视觉token,用在描述图像中的物体和场景。
    • 目标检测模型(DINO-X):基于开集目标检测模型,检测图像中的所有物体生成候选目标的边界框。
    • 文本tokenizer:将自然语言描述转换为文本token,提取语言中的语义信息。
    • 检索式框架:将视觉token、物体token和文本token一起输入到大语言模型(LLM)中,基于语言模型的推理能力,从候选目标中检索与语言描述最匹配的对象,不直接预测坐标。
    • 多模态融合与推理:结合视觉和语言模态,理解复杂的语言描述,用语言模型的推理能力,精准定位目标,实现指代表达理解(Referring Expression Comprehension, REC)。

    DINO-XSeek的项目地址

    DINO-XSeek的应用场景

    • 自动驾驶:识别道路、交通标志、障碍物等,辅助自动驾驶决策,提升行车安全。
    • 工业制造:检测零部件缺陷,识别未遵守安全规范的人员,保障生产质量和安全。
    • 智能家居与生活:识别家庭中的危险行为(如老人摔倒),提供智能设备交互支持。
    • 农业与食品:检测农作物病虫害和食品缺陷,提升种植与生产效率。
    • 安防监控:识别异常行为和目标,实时预警,增强监控系统效能。