Category: AI项目和框架

  • AingDesk – 开源AI客户端工具,一键部署上百款 AI 模型到个人电脑

    AingDesk是什么

    AingDesk 是开源的客户端软件,帮助用户快速将上百款 AI 模型部署到个人电脑上。通过一键部署功能,简化复杂的模型安装过程,没有技术背景的用户也能轻松上手。AingDesk 支持联网搜索,能通过百度、搜狗等搜索引擎获取实时信息,提升 AI 回答的准确性和时效性。AingDesk 提供模型共享功能,用户可以生成专属链接,将模型分享给他人使用,方便团队协作和知识共享。支持多语言界面。

    AingDesk

    AingDesk的主要功能

    • 一键部署 AI 模型:AingDesk 支持一键部署上百款 AI 模型,如 DeepSeek、Llama 等。用户无需复杂的配置和命令行操作,可快速完成模型的安装和启动,降低了 AI 模型的使用门槛。
    • 联网搜索功能:AingDesk 支持联网搜索,能通过百度、搜狗等搜索引擎获取实时信息,提升 AI 回答的准确性和时效性。结合最新的网络数据,为用户提供更全面的答案。
    • 模型共享与协作:用户可以通过 AingDesk 生成专属的模型分享链接,将本地部署的 AI 模型共享给他人使用。
    • 多语言支持:AingDesk 提供多语言界面,支持简体中文、英语、日语等 21 种语言,能满足不同用户群体的需求。
    • 模型管理:AingDesk 内置模型管理器,会根据用户的电脑配置推荐可流畅运行的 AI 模型,帮助用户高效管理本地模型资源。
    • 开源免费:AingDesk 是完全开源且免费的工具,用户可以在 GitHub 上查看源代码,自由下载和使用,没有任何功能限制。

    AingDesk的官网地址

    AingDesk的应用场景

    • 个人学习与研究:AingDesk 支持一键部署 DeepSeek 等上百款 AI 模型,适合学生和研究人员在本地快速使用 AI 模型进行学术研究、论文撰写或知识探索。
    • 团队协作与共享:AingDesk 支持生成专属分享链接,用户可以将部署好的 AI 模型通过微信、QQ 等工具分享给团队成员或朋友使用。
    • 办公场景:在办公环境中,AingDesk 可以帮助用户快速部署 AI 模型,用于智能文档处理、数据分析或自动化任务,提升工作效率。
    • 学术交流:AingDesk 的模型共享功能也适用于学术交流场景,研究者可以将本地部署的模型共享给同行,促进学术合作。
  • Llasa TTS – 香港科技大学开源的文本转语音模型

    Llasa TTS是什么

    Llasa TTS 是香港科技大学基于 LLaMA 架构推出的开源文本转语音(TTS)模型,支持高质量语音合成和克隆。Llasa TTS 基于单层向量量化(VQ)编解码器和单个 Transformer 架构,与标准 LLaMA 模型完全对齐,生成自然流畅的语音,支持情感表达和音色克隆等功能。Llasa TTS 在训练和推理阶段均表现出色,基于扩展训练时间和推理时间的计算资源,提升语音的自然度、韵律准确性和情感表达能力。Llasa TTS 提供 1B、3B 和 8B 参数规模的模型,支持多语言合成。

    Llasa TTS

    Llasa TTS的主要功能

    • 高质量语音合成:生成自然流畅的语音,支持中英文双语,适用于多种应用场景。
    • 情感表达:注入情感信息,生成带有快乐、愤怒、悲伤等情感色彩的语音,增强语音的自然度和表现力。
    • 语音克隆:仅需少量音频样本(如15秒),克隆特定人声的音色和情感,实现个性化语音合成。
    • 长文本支持:支持处理长文本输入,生成连贯的语音输出,适用于有声读物、语音播报等场景。
    • 零样本学习:支持对未见过的说话者或情感进行语音合成,无需额外的微调。

    Llasa TTS的技术原理

    • 基于 Transformer 的架构:基于单个 Transformer 架构,与标准的大型语言模型完全对齐。用单层向量量化(VQ)编解码器将语音波形转换为离散的语音标记,基于 Transformer 进行建模。
    • 语音分词器
      • 编码:将语音信号分解为语义特征和声学特征,分别基于预训练的 Wav2Vec2-BERT 和卷积模块提取。
      • 量化:用改进的向量量化(VQ)技术将特征编码为离散标记。
      • 解码:将离散标记解码回高质量的语音波形,支持语义和声学信息的重建。
    • 训练与推理扩展
      • 训练时间扩展:基于增加模型规模(如 1B、3B、8B 参数)或训练数据量(如 250k 小时语音数据),提升语音自然度和韵律准确性。
      • 推理时间扩展:在推理阶段引入语音理解模型作为验证器,用复杂的搜索策略(如束搜索、最佳候选选择)优化生成结果,增强情感表达和音色一致性。
    • 自回归生成:基于自回归生成方式,逐个生成语音标记,确保生成的语音在语义和韵律上与输入文本一致。

    Llasa TTS的项目地址

    Llasa TTS的应用场景

    • 智能语音助手:为智能设备或软件提供自然流畅的语音交互功能,提升用户体验。
    • 有声读物与在线教育:将文字内容转化为生动的语音,为用户或学生提供听觉学习体验。
    • 语音播报与客服:用于新闻播报、交通信息提示或客服系统,提供高效的信息传递。
    • 游戏与娱乐:为游戏角色或虚拟形象赋予个性化语音,增强沉浸感。
    • 语音克隆与内容创作:克隆特定人声,用于广告配音、视频制作或个性化语音内容创作。
  • TANGLED – 上海科大联合华中科大等推出的3D发型生成方法

    TANGLED是什么

    TANGLED是上海科技大学、Deemos Technology和华中科技大学联合推出的3D发型生成方法,支持从任意风格和视角的图像中生成高质量的3D发丝。TANGLED基于三个核心步骤实现:用多样化的MultiHair数据集提供丰富的发型样本;基于多视图线稿的扩散框架,用线稿特征的交叉注意力捕捉发型的拓扑结构;基于参数化后处理模块修复复杂发型(如辫子)的细节。TANGLED提升了发型的真实感和多样性,支持文化包容性数字角色的创建,为动画和增强现实等领域提供新的应用可能性。

    TANGLED

    TANGLED的主要功能

    • 多样化发型生成:支持处理各种复杂发型,如辫子、卷发、传统发型等。
    • 多视图输入支持:接受单视图或多视图图像作为输入。
    • 灵活的输入风格:支持多种输入风格,包括照片、手绘草图、卡通和油画等,满足不同应用场景的需求。
    • 文化包容性:特别关注未被充分代表的发型纹理(如卷曲、辫子)和复杂几何结构,支持生成具有文化意义的发型。
    • 高效集成:生成的3D发型能直接集成到现有的CG流程中,如Blender和Unreal Engine。

    TANGLED的技术原理

    • NeuraPressMultiHair数据集:提供457种多样化发型,标注了74个属性,重点关注复杂和具有文化意义的发型。数据集基于多视图渲染和线稿提取增强多样性,用GPT-4生成详细的文本标注。
    • 扩散框架:基于多视图线稿的扩散模型,线稿特征捕捉发型的拓扑结构(如发丝密度、分界线)。用DINOv2提取线稿特征,基于交叉注意力机制将其整合到扩散模型中。随机混合不同视角的线稿特征,增强模型对不同输入风格和视角的适应性。
    • 参数化后处理模块:针对复杂发型(如辫子)设计参数化建模和修复技术。用Frenet-Serret框架生成辫子的几何结构,基于注意力机制自然融入发型中。基于Laplacian平滑技术减少高频率噪声,确保发型的几何连贯性和视觉效果。

    TANGLED的项目地址

    TANGLED的应用场景

    • 文化包容性虚拟人物创建:生成多样化发型,支持不同文化背景的虚拟人物设计。
    • 动画发型设计:从草图生成3D发型,提升动画制作效率。
    • 增强现实(AR)发型预览:结合AR技术,让用户虚拟试戴不同发型。
    • 虚拟试妆应用:帮助用户在购买前预览发型效果。
    • 基于草图的3D发丝编辑:基于修改草图快速调整发型,适用于创意设计领域。
  • MagicArticulate – 南洋理工和字节推出的静态 3D 模型转骨架生成框架

    MagicArticulate是什么

    MagicArticulate 是南洋理工大学和字节跳动Seed实验室推出的自动将静态 3D 模型转换为可动画化资产的框架。MagicArticulate基于自回归生成骨架,预测蒙皮权重,模型能支持逼真的动画。MagicArticulate引入 Articulation-XL 数据集,包含超过 33,000 个高质量关节注释的 3D 模型,推出基于自回归 Transformer 的骨架生成方法,自然处理不同模型中骨骼数量和依赖关系的变化。MagicArticulate 在多样化对象类别上显著优于现有方法,为 3D 模型动画化提供高效且高质量的解决方案。

    MagicArticulate

    MagicArticulate的主要功能

    • 自动骨架生成:自动生成适合模型的骨架结构,支持不同模型的骨骼数量和关节依赖关系。
    • 蒙皮权重预测:基于预测顶点与关节之间的蒙皮权重,实现模型表面与骨架的绑定。
    • 高质量动画化:生成的骨架和蒙皮权重支持逼真的动画效果,适用于多种 3D 模型和应用场景。
    • 大规模数据支持:推出 Articulation-XL 数据集,包含超过 33,000 个高质量注释的 3D 模型,推动相关技术的开发和验证。

    MagicArticulate的技术原理

    •  自回归骨架生成
      • 点云采样与编码:从输入的 3D 模型表面采样点云,将点编码为固定长度的形状标记(shape tokens),捕捉模型的几何特征和拓扑结构。
      • 骨架序列建模:将形状标记附加到骨架标记的开头,基于自回归 Transformer 逐步生成骨架序列。自回归模型在每一步生成一个骨骼或关节,用之前生成的内容作为上下文信息,自然地处理不同模型中骨骼数量的变化和依赖关系。
      • Transformer 的优势:Transformer 的并行处理能力和注意力机制能高效地捕捉全局依赖关系,同时自回归生成方式灵活适应不同复杂度的骨架结构。
    • 蒙皮权重预测:基于扩散模型逐步优化蒙皮权重的分布。扩散过程从噪声开始,逐步恢复出顶点与关节之间的权重关系,类似于去噪过程。在预测蒙皮权重时,引入顶点与关节之间的体积测地线距离作为先验信息。基于大量标注数据(如 Articulation-XL 数据集)训练扩散模型,学习不同 3D 模型的蒙皮权重分布规律。
    • 大规模数据集支持:数据集包含超过 33,000 个带有高质量关节注释的 3D 模型。数据为模型训练提供丰富的监督信息,使骨架生成和蒙皮权重预测模块学习到不同模型的通用规律,在多样化场景中表现出色。

    MagicArticulate的项目地址

    MagicArticulate的应用场景

    • 3D 动画制作:快速将静态模型转换为可动画化资产,减少手动绑定骨骼和蒙皮的工作量,提升动画制作效率。
    • 游戏开发:为游戏角色和道具生成骨架和蒙皮权重,支持实时动画渲染,提升游戏开发效率和动画效果。
    • VR/AR:生成可交互的动态 3D 模型,增强虚拟环境中的沉浸感和交互体验。
    • 工业设计与 3D 打印:帮助设计师快速生成可活动的关节模型,优化产品运动功能,降低设计成本。
    • 人工智能与机器人学:用于机器人运动仿真和 AI 模型训练,优化关节运动和算法开发。
  • FlashMLA – DeepSeek 开源的高效 MLA 解码内核,专为Hopper 架构 GPU 设计

    FlashMLA是什么

    FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA(Multi-Head Linear Attention)解码内核,专为处理可变长度序列设计。通过优化 KV 缓存机制和采用 BF16 数据格式,提升了内存和计算效率。在 H800 SXM5 GPU 上,FlashMLA 的内存带宽可达 3000 GB/s,计算性能可达 580 TFLOPS。

    FlashMLA 的设计灵感源于 FlashAttention 2&3 和 Cutlass 项目,支持分页缓存和低秩压缩等技术,进一步优化了内存管理和计算性能。适用于大语言模型(LLM)的推理任务,在需要高效解码的自然语言处理(NLP)场景中表现出色。开发者可以通过简单的安装命令(python setup.py install)快速部署,运行基准测试脚本(python tests/test_flash_mla.py)验证性能。

    FlashMLA

    FlashMLA的主要功能

    • BF16 精度支持:支持 BF16 数据格式,兼顾性能与效率。
    • 页式 KV 缓存:采用页式键值缓存机制,块大小为 64,能实现更精细的内存管理。
    • 极致性能表现:在 H800 SXM5 GPU 上,FlashMLA 在内存受限场景下可达到 3000 GB/s 的带宽,在计算受限场景下可达到 580 TFLOPS 的算力。

    FlashMLA的技术原理

    • 分块调度与并行计算:通过分块调度机制,FlashMLA 能将计算任务分解为多个小块并行处理,充分利用 GPU 的并行计算能力。
    • 优化的内存访问模式:FlashMLA 通过优化内存访问模式,减少了内存访问的开销,在处理大规模数据时,能显著提升性能。

    如何使用FlashMLA

    • 环境准备:FlashMLA 需要以下硬件和软件环境:
      • 硬件:NVIDIA Hopper 架构 GPU(例如 H800 SXM5)。
      • 软件:CUDA 12.3 及以上版本;PyTorch 2.0 及以上版本。
    • 安装 FlashMLA:通过以下命令安装 FlashMLA:
    python setup.py install
    • 运行基准测试:安装完成后,可以通过运行以下命令进行性能测试:(此脚本将验证 FlashMLA 在当前环境下的性能表现,例如在 H800 SXM5 GPU 上,内存受限配置下可达到 3000 GB/s 的带宽,计算受限配置下可达到 580 TFLOPS 的算力。)
    python tests/test_flash_mla.py
    • 使用 FlashMLA:以下是 FlashMLA 的典型使用代码示例:
    from flash_mla import get_mla_metadata, flash_mla_with_kvcache
    
    # 获取元数据和分块信息
    tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
    
    # 在多层解码中调用 FlashMLA
    for i in range(num_layers):
        o_i, lse_i = flash_mla_with_kvcache(
            q_i, kvcache_i, block_table, cache_seqlens, dv,
            tile_scheduler_metadata, num_splits, causal=True
        )
    • 更多说明:完整代码和文档可访问 GitHub 仓库查看。

    FlashMLA的项目地址

    FlashMLA的应用场景

    • 自然语言处理(NLP)任务:FlashMLA 适用于需要高效解码的自然语言处理任务,如机器翻译、文本生成、情感分析和问答系统等。针对变长序列进行了优化,能显著提升推理效率。
    • 大语言模型(LLM)推理:FlashMLA 专为大语言模型的推理场景设计,通过优化 KV 缓存和并行解码机制,降低了硬件资源需求,同时提升了推理速度。
    • 实时交互应用:在对话 AI、实时翻译和内容推荐等需要快速响应的应用中,FlashMLA 能提供低延迟的推理能力,提升用户体验。
    • 高性能计算需求场景:FlashMLA 在 H800 SXM5 GPU 上表现出色,内存带宽可达 3000 GB/s,计算性能可达 580 TFLOPS,适用于对性能要求极高的计算任务。
    • 行业解决方案:FlashMLA 可用于金融、医疗、教育等垂直领域的高效应用,通过定制化部署,满足特定行业的高性能需求。
  • Moonlight-16B-A3B – 月之暗面开源的 MoE 模型

    Moonlight-16B-A3B是什么

    Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练,计算效率是传统 AdamW 的两倍。在性能方面,Moonlight 在多个基准测试中表现优异,在英语语言理解(MMLU)和代码生成(HumanEval)等任务中均超越了其他同类模型。模型的训练数据量达到 5.7 万亿 token,展现了更高的样本效率。

    Moonlight-16B-A3B

    Moonlight-16B-A3B的主要功能

    • 高效的语言理解和生成:该模型通过优化后的 Muon 优化器进行训练,能在多种语言任务中表现出色,例如语言理解、文本生成和代码生成。
    • 大规模数据训练:Moonlight-16B-A3B 使用了 5.7 万亿 token 的数据进行训练,支持高效率的分布式训练。
    • 高效优化器与训练效率:模型使用了改进后的 Muon 优化器,相比传统的 AdamW 优化器,计算效率提升约 2 倍。通过优化权重衰减和参数更新比例,Muon 优化器在大规模训练中表现出更高的稳定性和效率。
    • 低计算成本:模型仅需约 52% 的训练 FLOPs 即可达到与 AdamW 训练相当的性能。
    • 低激活参数设计:总参数量为 16B,激活参数仅为 3B,在保持高性能的同时显著降低了计算资源需求。

    Moonlight-16B-A3B的技术原理

    • Muon 优化器的改进:Moonlight-16B-A3B 使用了经过优化的 Muon 优化器。Muon 优化器通过矩阵正交化技术(如 Newton-Schulz 迭代)对模型参数进行优化,显著提升了训练效率。与传统的 AdamW 优化器相比,Muon 的样本效率提升了约 2 倍,在大规模训练中表现出更高的稳定性和效率。
    • 权重衰减与更新调整:为了提高 Muon 在大规模模型训练中的表现,开发团队引入权重衰减机制,对每个参数的更新规模进行了调整。使 Muon 能在无需超参数调整的情况下直接应用于大规模模型训练。
    • 分布式实现:Moonlight-16B-A3B 的训练采用了基于 ZeRO-1 的分布式优化技术。减少了内存开销,降低了通信成本,使模型能在大规模分布式环境中高效训练。
    • 模型架构与训练数据:Moonlight-16B-A3B 是一个 16B 参数的 MoE 模型,激活参数为 3B,使用了 5.7 万亿个标记进行训练。在保持高性能的同时,显著降低了计算资源需求。
    • 性能优化:通过优化的 Muon 优化器和高效的分布式训练,Moonlight-16B-A3B 在多个基准测试中表现出色,超越了其他同规模模型。

    Moonlight-16B-A3B的项目地址

    Moonlight-16B-A3B的性能效果

    • 语言理解任务
      • MMLU(Multilingual Language Understanding):Moonlight-16B-A3B 的性能达到了 70.0%,显著优于 LLAMA3-3B(54.75%)和 Qwen2.5-3B(65.6%)。
      • BBH(BoolQ Benchmark):Moonlight 在任务中达到了 65.2%,优于其他同类模型。
      • TriviaQA:Moonlight 的表现为 66.3%,接近或超越了其他模型。
    • 代码生成任务
      • HumanEval:Moonlight 在代码生成任务中达到了 48.1% 的性能,优于 LLAMA3-3B(28.0%)和 Qwen2.5-3B(42.1%)。
      • MBPP(Mini-Benchmark for Program Synthesis):Moonlight 的性能为 63.8%,显著优于其他模型。
    • 数学推理任务
      • GSM8K:Moonlight 在该任务中的表现为 77.4%,接近 Qwen2.5-3B 的最佳表现(79.1%)。
      • MATH:Moonlight 的性能为 45.3%,优于其他同类模型。
      • CMath:Moonlight 达到了 81.1% 的性能,优于 Qwen2.5-3B(80.0%)。
    • 中文任务
      • C-Eval:Moonlight 的性能为 77.2%,优于 Qwen2.5-3B(75.0%)。
      • CMMLU:Moonlight 的表现为 78.2%,优于其他同类模型。
    • 计算效率
      • 训练效率:Moonlight 使用的 Muon 优化器在计算效率上是 AdamW 的 2 倍,仅需约 52% 的训练 FLOPs 即可达到与 AdamW 相当的性能。
      • 内存和通信效率:通过改进的分布式实现,Moonlight 在大规模训练中表现出更高的内存和通信效率。
    Benchmark (Metric) Llama3.2-3B Qwen2.5-3B DSV2-Lite Moonlight
    Activated Param† 2.81B 2.77B 2.24B 2.24B
    Total Params† 2.81B 2.77B 15.29B 15.29B
    Training Tokens 9T 18T 5.7T 5.7T
    Optimizer AdamW * AdamW Muon
    English MMLU 54.75 65.6 58.3 70.0
    MMLU-pro 25.0 34.6 25.5 42.4
    BBH 46.8 56.3 44.1 65.2
    TriviaQA‡ 59.6 51.1 65.1 66.3
    Code HumanEval 28.0 42.1 29.9 48.1
    MBPP 48.7 57.1 43.2 63.8
    Math GSM8K 34.0 79.1 41.1 77.4
    MATH 8.5 42.6 17.1 45.3
    CMath 80.0 58.4 81.1
    Chinese C-Eval 75.0 60.3 77.2
    CMMLU 75.0 64.3 78.2

    Moonlight-16B-A3B的应用场景

    • 教育和研究:在学术研究中,Moonlight 可以帮助研究人员快速理解和分析大量文献。
    • 软件开发:开发者可以用 Moonlight 自动生成代码片段,提高开发效率。
    • 研究和工程:研究人员和工程师可以用 Moonlight 解决实际问题中的数学难题。
    • 中文内容创作:在内容创作领域,Moonlight 可以帮助创作者生成高质量的中文内容。
    • 大规模模型训练:在需要大规模模型训练的场景中,Moonlight 可以显著降低计算资源需求,提高训练效率。
  • AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架

    AvatarGO是什么

    AvatarGO 是南洋理工大学S-Lab、上海 AI Lab,香港大学联合推出的新型框架,用在从文本输入直接生成可动画化的 4D 人体与物体交互场景。通过零样本(zero-shot)方法基于预训练的扩散模型,解决传统方法在生成日常 HOI 场景时因缺乏大规模交互数据而受限的问题。AvatarGO 的核心包括:LLM 引导的接触重定位,基于 Lang-SAM 从文本提示中识别接触部位,确保人体与物体的空间关系精确表示;对应感知的运动优化,用 SMPL-X 的线性混合蒙皮函数构建运动场,优化人体和物体的动画,减少穿透问题。AvatarGO框架在多种人体与物体组合及多样化姿态下表现出优越的生成和动画能力。

    AvatarGO

    AvatarGO的主要功能

    • 从文本生成 4D 交互场景:基于简单的文本描述直接生成包含人体和物体交互的 4D 动画。
    • 精确的人体与物体接触表示:准确识别人体与物体的接触部位(如手、脚等),确保在生成的 3D 和 4D 场景中,人体与物体的空间关系是合理的。
    • 解决动画中的穿透问题:在动画生成过程中,有效避免人体与物体之间的穿透现象。
    • 多样化的 4D 动画生成:生成动态的 4D 动画,支持多种人物动作和物体交互。
    • 支持多种人物和物体组合:处理各种人物和物体的组合,包括虚拟角色(如动漫人物、超级英雄)和现实人物,及各种日常物品(如武器、工具、乐器等)。

    AvatarGO的技术原理

    • LLM 引导的接触重定位: Lang-SAM(Language Segment Anything Model) 从文本描述中提取接触部位(如“手”)。基于将 3D 人体模型渲染成 2D 图像,结合文本提示,生成人体接触部位的分割掩码。掩码被反向投影到 3D 模型中,初始化物体的位置,确保物体与人体的接触部位是准确的。
    • 空间感知的分数蒸馏采样:引入 SSDS,增强与人体-物体交互相关的文本标记(如“holding”)的注意力权重,帮助扩散模型理解人体与物体之间的空间关系。
    • 对应关系感知的运动优化: SMPL-X 模型作为中介,为人体和物体构建运动场。基于线性混合蒙皮(LBS)函数,将物体的运动与人体的运动同步优化。引入新的训练目标——对应关系感知损失,最小化人体与物体之间的空间偏差,确保在动画过程中两者不会出现穿透现象。
    • 基于扩散模型的 3D 和 4D 生成
      • 3D 生成:用 DreamGaussian 方法生成高质量的 3D 人体和物体模型。基于 3D 高斯点云表示场景,分数蒸馏采样(SDS)优化生成结果。
      • 4D 动画生成:在 3D 模型的基础上,基于 HexPlane 特征 和 SMPL-X 模型生成动态的 4D 动画。优化物体的全局参数(如旋转、平移)和人体的运动序列,生成连贯且逼真的 4D 动画。

    AvatarGO的项目地址

    AvatarGO的应用场景

    • 虚拟导购员:在商店中为顾客提供商品信息和购物建议。
    • 展厅讲解员:在博物馆或展厅中介绍展品和产品信息。
    • 数字大堂经理:在银行或营业厅提供咨询和引导服务。
    • 车载虚拟助手:在汽车中作为智能助手,提供陪伴和交互体验。
    • VR/AR内容创作:生成4D动画,用于虚拟现实和增强现实中的角色和交互设计。
  • SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

    SigLIP 2是什么

    SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。通过改进的训练方法和架构,显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入,与图像进行精准匹配。引入了自监督学习技术,如掩码预测和自蒸馏,进一步优化了模型的特征提取能力。SigLIP 2 提供了两种变体:FixRes(固定分辨率)和 NaFlex(支持多种分辨率和宽高比),能适应不同分辨率的图像输入。

    SigLIP 2

    SigLIP 2的主要功能

    • 多语言支持:SigLIP 2 能处理多种语言,提供强大的多语言视觉-语言编码能力,适用于不同语言和文化背景的任务。
    • 零样本分类:无需针对特定任务进行微调,SigLIP 2 可以直接在新的类别上进行分类。
    • 图像-文本检索:支持图像到文本的检索以及文本到图像的检索,能快速找到与输入内容最匹配的对应项。
    • 为大型语言模型提供视觉能力:SigLIP 2 可以作为视觉模块,为其他语言模型提供图像理解能力。
    • 高效训练与优化:采用 Sigmoid 损失函数,解决了传统对比学习方法(如 CLIP 的 InfoNCE 损失)的存储和计算瓶颈,提升了训练效率。

    SigLIP 2的技术原理

    • Sigmoid 损失函数:SigLIP 2 采用了 Sigmoid 损失函数替代传统的对比损失函数(如 CLIP 的 InfoNCE 损失)。能更平衡地学习全局和局部特征,避免了对比学习中常见的计算瓶颈。
    • 自监督学习与解码器预训练:SigLIP 2 结合了图像描述预训练和自监督学习方法,如自蒸馏和掩码预测。通过解码器预训练,模型能更好地理解图像区域及其对应的文本描述,提升对细粒度细节的捕捉能力。
    • 动态分辨率支持:SigLIP 2 引入了 NaFlex 变体,支持多种分辨率和原始宽高比。能保留图像的空间信息,适用于对分辨率敏感的任务,如文档理解或 OCR。
    • 多语言支持与去偏技术:SigLIP 2 在训练中使用了多语言数据集,通过去偏技术减少不公平的性别或文化偏见。使模型在多语言任务中表现更加公平和准确。
    • 全局与局部特征的结合:通过 Global-Local Loss 和 Masked Prediction Loss,SigLIP 2 能同时关注全局语义和局部细节,在密集预测任务(如语义分割和深度估计)中表现更优。
    • 向后兼容性:SigLIP 2 基于 Vision Transformer 架构,保持与早期版本的兼容性,用户可以无缝替换模型权重,无需重构整个系统。

    SigLIP 2的项目地址

    SigLIP 2的应用场景

    • 多语言图像分类:SigLIP 2 支持多种语言的零样本分类任务,能跨语言地识别和分类图像。用户可以上传一张图片,模型能识别出图片属于“动物”类别。
    • 视觉问答(VQA):结合语言模型,SigLIP 2 可以处理视觉问答任务,为用户提供基于图像内容的自然语言回答。
    • 文档理解:SigLIP 2 支持多分辨率和保留宽高比的特性,适用于文档图像处理,如 OCR 和文档内容理解。
    • 开放词汇分割与检测:在语义分割和目标检测任务中,SigLIP 2 能处理未见过的类别,适用于动态环境下的视觉任务。
  • BioMedGPT-R1 – 清华联合水木分子推出的多模态生物医药大模型

    BioMedGPT-R1是什么

    BioMedGPT-R1 是清华大学AI产业研究院(AIR)与北京水木分子生物科技有限公司联合推出的升级版多模态生物医药开源大模型。BioMedGPT-R1基于 DeepSeek R1 技术,更新文本基座模型和跨模态特征对齐,实现生物模态(如分子、蛋白质)与自然语言的统一融合。模型能处理多种生物医学任务,支持跨模态问答和深度推理,广泛应用于药物分子理解、靶点挖掘等领域。相比前代版本,BioMedGPT-R1 在化学分子描述等任务上性能显著提升,在生物医药文本问答任务上接近人类专家水平。

    BioMedGPT-R1

    BioMedGPT-R1的主要功能

    • 跨模态问答与推理:支持自然语言与生物模态(如化学分子、蛋白质)的交互式问答,结合文本和生物数据进行深度推理,为生物医药研究提供综合分析。
    • 药物分子理解与分析:对化学小分子进行结构、官能团、生化性质等方面的推理分析。
    • 药物靶点探索与挖掘:分析生物数据和文本信息,辅助发现潜在的药物靶点,加速药物研发的早期阶段。

    BioMedGPT-R1的技术原理

    • 多模态融合架构:整合自然语言模态和生物模态(如分子、蛋白质)的数据。基于生物模态编码器(如分子编码器和蛋白质编码器)提取特征,将“对齐翻译层”映射到自然语言表征空间,实现多模态数据的统一融合。
    • 跨模态特征对齐:用对齐翻译层(Translator),将生物模态的编码输出与文本模态的语义表征对齐,模型同时处理生物数据和自然语言指令,支持跨模态推理。
    • DeepSeek R1 蒸馏技术:基于 DeepSeek R1 的蒸馏版本更新文本基座模型,提升模型的文本推理能力,进一步优化多模态任务的性能。
    • 两阶段训练策略
      • 第一阶段:仅训练对齐翻译层,将生物模态表征映射到语义空间。
      • 第二阶段:同时微调对齐翻译层和基座大语言模型,激发模型在下游任务上的多模态深度推理能力。

    BioMedGPT-R1的项目地址

    BioMedGPT-R1的应用场景

    • 药物分子设计与优化:分析分子特性,辅助设计和优化药物分子。
    • 药物靶点发现:结合生物数据和文献,挖掘潜在药物靶点。
    • 临床前研究:分析生物标记物,支持疾病诊断和药物疗效评估。
    • 医学文本分析:辅助医学教育、文献解读和临床决策支持。
  • GRUtopia 2.0 – 上海 AI Lab 推出的通用具身智能仿真平台

    GRUtopia 2.0是什么

    GRUtopia 2.0(桃源2.0)是上海人工智能实验室发布的通用具身智能仿真平台。平台在GRUtopia 1.0的基础上进行了全面升级,具备三大核心创新:通用模块化框架、场景资产自动化生成和高效数据采集系统。用户仅需通过“三行代码”可定义复杂任务,无需在多个平台之间切换。平台集成百万级标准化物体资产,可实现复杂场景的“一键生成”,降低开发成本。GRUtopia 2.0 支持多种具身智能任务,如导航、操作和运动控制。作为“虚实贯通”技术体系的核心,平台通过高性能仿真推动具身智能从虚拟走向现实。

    GRUtopia 2.0

    GRUtopia 2.0的主要功能

    • 通用模块化仿真框架:GRUtopia 2.0 引入了通用模块化仿真框架,支持导航、操作、运动控制等多种具身任务。用户仅需通过“三行代码”即可定义任意任务,无需在多个平台之间切换,极大地简化了开发流程。
    • 场景资产自动化生成:平台集成了百万级标准化物体资产,结合自动化生成和随机化工具,能实现复杂场景的“一键生成”。
    • 高效数据采集系统:GRUtopia 2.0 提供了面向操作任务的多种低门槛遥操作工具,面向导航任务的批量化数据采集工具。与传统方式相比,遥操作效率提升5倍,导航任务数据采集效率最高提升20倍。
    • 大规模交互式3D场景数据集(GRScenes):平台包含10万个高度交互和精细标注的场景,可自由组合成城市规模的环境。场景涵盖了89种不同的场景类别,弥补了服务型环境的空白。
    • NPC系统(GRResidents):GRUtopia 2.0 引入了由大语言模型(LLM)驱动的NPC系统,负责社交互动、任务生成和任务分配。模拟了社交场景,为具身AI应用提供了新的维度。
    • 基准测试平台(GRBench):平台提出了GRBench,支持多种机器人,特别是以腿式机器人为主要智能体,评估执行物体导航、社交导航和移动操作等中等难度任务的能力。
    • 仿真到现实(Sim2Real)范式:GRUtopia 2.0 通过仿真平台展示了如何用仿真来缓解高质量数据的稀缺性,推动机器人技术从虚拟到现实的扩展和应用。
    • 支持多样化机器人:平台支持多种类型的机器人,包括人形机器人和腿式机器人,能满足从底层控制到高层决策的多层级研究需求。

    GRUtopia 2.0的项目地址

    GRUtopia 2.0的应用场景

    • 机器人训练与开发:GRUtopia 2.0 提供了通用模块化仿真框架,支持导航、操作和运动控制等多种具身任务。开发者可以通过简单的“三行代码”定义任务,无需在多个平台之间切换。
    • 复杂场景构建:平台集成了百万级标准化物体资产,结合场景自动化生成和随机化工具,能实现复杂场景的“一键生成”。场景涵盖了家庭、餐厅、办公室、公共场所等多种环境,为机器人提供了多样化的训练场景。
    • 社交互动与任务生成:GRUtopia 2.0 引入了由大语言模型(LLM)驱动的NPC系统,能模拟社交互动、任务生成和任务分配。
    • 数据采集与优化:平台提供了高效的数据采集系统,支持面向操作任务的多种低门槛遥操作工具和面向导航任务的批量化数据采集工具。