Blog

  • FlashMLA – DeepSeek 开源的高效 MLA 解码内核,专为Hopper 架构 GPU 设计

    FlashMLA是什么

    FlashMLA 是 DeepSeek 开源的针对 NVIDIA Hopper 架构 GPU 优化的高效 MLA(Multi-Head Linear Attention)解码内核,专为处理可变长度序列设计。通过优化 KV 缓存机制和采用 BF16 数据格式,提升了内存和计算效率。在 H800 SXM5 GPU 上,FlashMLA 的内存带宽可达 3000 GB/s,计算性能可达 580 TFLOPS。

    FlashMLA 的设计灵感源于 FlashAttention 2&3 和 Cutlass 项目,支持分页缓存和低秩压缩等技术,进一步优化了内存管理和计算性能。适用于大语言模型(LLM)的推理任务,在需要高效解码的自然语言处理(NLP)场景中表现出色。开发者可以通过简单的安装命令(python setup.py install)快速部署,运行基准测试脚本(python tests/test_flash_mla.py)验证性能。

    FlashMLA

    FlashMLA的主要功能

    • BF16 精度支持:支持 BF16 数据格式,兼顾性能与效率。
    • 页式 KV 缓存:采用页式键值缓存机制,块大小为 64,能实现更精细的内存管理。
    • 极致性能表现:在 H800 SXM5 GPU 上,FlashMLA 在内存受限场景下可达到 3000 GB/s 的带宽,在计算受限场景下可达到 580 TFLOPS 的算力。

    FlashMLA的技术原理

    • 分块调度与并行计算:通过分块调度机制,FlashMLA 能将计算任务分解为多个小块并行处理,充分利用 GPU 的并行计算能力。
    • 优化的内存访问模式:FlashMLA 通过优化内存访问模式,减少了内存访问的开销,在处理大规模数据时,能显著提升性能。

    如何使用FlashMLA

    • 环境准备:FlashMLA 需要以下硬件和软件环境:
      • 硬件:NVIDIA Hopper 架构 GPU(例如 H800 SXM5)。
      • 软件:CUDA 12.3 及以上版本;PyTorch 2.0 及以上版本。
    • 安装 FlashMLA:通过以下命令安装 FlashMLA:
    python setup.py install
    • 运行基准测试:安装完成后,可以通过运行以下命令进行性能测试:(此脚本将验证 FlashMLA 在当前环境下的性能表现,例如在 H800 SXM5 GPU 上,内存受限配置下可达到 3000 GB/s 的带宽,计算受限配置下可达到 580 TFLOPS 的算力。)
    python tests/test_flash_mla.py
    • 使用 FlashMLA:以下是 FlashMLA 的典型使用代码示例:
    from flash_mla import get_mla_metadata, flash_mla_with_kvcache
    
    # 获取元数据和分块信息
    tile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)
    
    # 在多层解码中调用 FlashMLA
    for i in range(num_layers):
        o_i, lse_i = flash_mla_with_kvcache(
            q_i, kvcache_i, block_table, cache_seqlens, dv,
            tile_scheduler_metadata, num_splits, causal=True
        )
    • 更多说明:完整代码和文档可访问 GitHub 仓库查看。

    FlashMLA的项目地址

    FlashMLA的应用场景

    • 自然语言处理(NLP)任务:FlashMLA 适用于需要高效解码的自然语言处理任务,如机器翻译、文本生成、情感分析和问答系统等。针对变长序列进行了优化,能显著提升推理效率。
    • 大语言模型(LLM)推理:FlashMLA 专为大语言模型的推理场景设计,通过优化 KV 缓存和并行解码机制,降低了硬件资源需求,同时提升了推理速度。
    • 实时交互应用:在对话 AI、实时翻译和内容推荐等需要快速响应的应用中,FlashMLA 能提供低延迟的推理能力,提升用户体验。
    • 高性能计算需求场景:FlashMLA 在 H800 SXM5 GPU 上表现出色,内存带宽可达 3000 GB/s,计算性能可达 580 TFLOPS,适用于对性能要求极高的计算任务。
    • 行业解决方案:FlashMLA 可用于金融、医疗、教育等垂直领域的高效应用,通过定制化部署,满足特定行业的高性能需求。
  • 清华大学《DeepSeek+DeepResearch:让科研像聊天一样简单》(PDF文件)

    《DeepSeek+DeepResearch:让科研像聊天一样简单》由清华大学和北京航空航天大学的研究团队撰写,主要探讨了人工智能(AI)技术在科研领域的应用,如何通过AI工具简化科研流程、提升效率,解决科研过程中面临的诸多挑战。重点介绍了DeepSeek和DeepResearch等AI工具的功能、优势及其在不同科研场景中的应用。

    站长推荐DeepSeek服务器繁忙怎么解决?16个免费R1满血版平替

    获取《DeepSeek+DeepResearch:让科研像聊天一样简单》 PDF原文件,扫码关注回复: 20250223

    一、能做什么?

    • 科研面临的主要挑战

      现代科研中课题研究的复杂性与跨学科性、数据膨胀与管理难题、科研周期长创新过程漫长且高风险、知识碎片化与信息过载、资源分配与科研管理效率问题等五大挑战。

    • AI赋能科研全新维度

      从协同共创智启科研、提效加速激发创新、智能检索精准分析、清洗数据挖掘智慧、呈现数据直观展示、优化设计提升精度、识别模式预见未来、支持决策精准判断、自动实验提升效率、挖掘知识创新发现、优化项目精准管理、推广成果扩大影响等12个方面阐述AI如何赋能科研。

    二、要怎么做?

    • 撰写文章标题指令

      如何根据提供的手稿摘要,生成5个研究论文英文标题并解释原因。

    • 中-英、英-中互译指令

      说明如何将中文段落准确地、学术性地翻译成英文,并以标记表的形式给出输出结果。

    • 中文学术写作润色指令

      如何改进所提供文本的拼写、语法、清晰度、简洁性和整体可读性,以markdown表格的形式提供输出结果。

    • 英文学术写作润色指令

      如何润色学术论文中的英文段落,以符合学术风格,并用标记符表格列出所有修改及原因。

    • 提升段落间逻辑和连贯性指令

      分析文本中每个段落中句子之间的逻辑性和连贯性,提出改进后的文本及改进之处。

    • 标点符号错误一键修改指令

      如何确保文字中的标点符号正确无误,并列出发现的错误及更正后的文本。

    • 改写降重指令

      如何用原文改写段落,以科研语气风格重写文字。

    • 解读文献配图指令

      如何作为领域专家解读论文中的图。

    • 论文参考文献格式指令

      如何检查参考文献的格式问题,并提供修正后的参考文献。

    • 生成专业知识图谱指令

      如何利用网络搜索最新信息,提取实体及关系,并构建知识结构。

    • 论文选题指令

      从专业角度为公共管理专业研究生提供电商领域的基本概述、关键研究主题、适合深入探索的方向以及5个具体的研究方向。

    • 高效阅读文献指令

      如何高效阅读论文,提取核心内容,并对文献的优缺点进行客观评价。

    • 提炼文献内容指令

      如何总结提炼文献的主要内容,包括研究主题、核心内容、研究方法、理论介绍及主要观点。

    • 优化文章结构指令

      如何对文章进行结构优化,调整文章的整体框架,并提出改进建议。

    • 文献综述撰写指令

      如何撰写文献综述,涵盖研究背景、主要理论与方法、当前研究趋势与挑战等。

    • 生成论文调查问卷指令

      如何生成关于具体研究主题的学术论文调查问卷。

    • 模拟论文答辩指令

      如何进行模拟毕业答辩,以问答形式展开。

    • 选题与研究问题确定指令

      如何根据学科发展趋势、研究热点与已有文献,推荐创新性强且具有研究价值的研究论文选题。

    • 论文研究内容撰写指令

      如何基于研究主题,分析研究现状,列出研究空白,设计研究方案。

    • 论文研究思路撰写指令

      如何基于研究主题,分析研究现状,列出研究空白,给出研究思路。

    • 论文技术方案撰写指令

      如何基于研究主题和研究思路,分析研究现状,列出技术方案,选择对应技术方案。

    • 论文摘要撰写指令

      如何基于研究主题,撰写简洁且有力的论文摘要。

    • 高阶数据分析指令

      如何制作10个不同的可视化图表,展示数据变量之间的关系或潜在分析思路。

    获取《DeepSeek+DeepResearch:让科研像聊天一样简单》 PDF原文件,扫码关注回复: 20250223

    三、效果如何?

    • 元知AI综述工具

      介绍元知AI综述工具的概况、功能亮点,包括多版本与模块化支持、增强版绘图功能、无数据检索、低重复率、无限双语数据导入、幻觉克服、高规范格式输出等。

    • 中科院PubScholar平台

      介绍中科院PubScholar平台的概况、功能亮点,包括免费开放使用、海量学术资源整合、无数据检索等。

    • 知网研学平台

      介绍知网研学平台的概况、功能亮点,包括较高格式规范输出、中文内容丰富、无数据检索等。

    • 斯坦福STORM

      介绍斯坦福STORM平台的概况、功能亮点,包括资料整合与文章生成、模拟对话与问题生成、转化文献为连贯文章、多智能体协作对话等。

    • 用户体验对比:使用步骤

      对比元知AI综述工具、中科院PubScholar平台、知网研学平台、斯坦福STORM的使用步骤。

    三、附加知识

    • DeepSeek+DeepResearch基本知识介绍

      国内外主流LLM产品,包括AI文本生成、AI图片生成、AI音乐生成、AI视频生成、AI模型生成、虚拟人方面、数据方面等。

    • DeepSeek:颠覆出圈,霸榜热议

      讲述DeepSeek的发展节点,包括成立时间、开源代码大模型发布、通用大模型发布、新一代推理模型发布等,以及其引发全球关注的情况。

    • 推理能力:核心突破,专项升级

      介绍DeepSeek R1的推理能力,包括强化学习驱动、推理能力专项提升、推理过程等。

    • 训练方法:数据冷启,阶段递进

      讲述DeepSeek R1的训练方法,包括冷启动数据的定义与作用、数据来源与特点、对模型训练的影响,以及多阶段训练的具体过程。

    • 降本提能:架构创新,技术增效

      介绍DeepSeek通过架构创新和模型蒸馏技术提升模型性能、降低计算成本和内存占用的情况,包括模型蒸馏技术、架构创新、多头潜在注意力机制、多令牌预测、FP8混合精度训练等。

    • 策略优化:开源特性,成本优势

      讲述DeepSeek的开源策略、成本优势,包括训练成本、调用成本,以及开源模型的优势与挑战。

    • 测试评估:对标顶尖,能力出众

      介绍DeepSeek R1在推理任务、知识类任务、其他任务中的表现,以及其在教育类知识问答、数学推理、代码生成等方面的能力。

    • 本地部署:灵活高效,协同优化

      讲述DeepSeek的端侧部署能力、端云协同优化,包括模型轻量化、实时性、硬件兼容性、离线能力、任务分配与负载均衡、数据传输与延迟优化、模型更新与协同训练等。

    • 对比优势:高性价比,技术普惠

      对比DeepSeek与国内外顶尖同类产品的公司、模型、产品类型、核心功能、优点、缺点。

    • 革新技术标准:低本高能,开放共创

      讲述DeepSeek如何通过创新技术路径、重塑定价逻辑、推动研发转型,促使AI行业重新审视技术应用与发展方向。

    • 重塑产业格局:打破桎梏,竞争活跃

      讲述DeepSeek的崛起如何改变AI市场的竞争格局,包括活跃市场竞争、中美技术竟合、全球AI产业链升级。

    • 技术深化:突破局限,能力提升

      讲述DeepSeek R1的通用能力提升、解决语言混杂问题、优化提示工程、软件工程任务等方面的计划。

    • 场景拓展:创新推动,垂直深耕

      讲述DeepSeek R1在医疗领域、金融领域、教育领域、法律领域、工业领域、具身智能探索、自进化系统构建、多模态融合等方面的未来应用。

    • DeepResearch:智能协作,自主研究

      介绍DeepResearch的核心功能,包括多步骤自主研究、端到端强化学习、深度信息整合,以及其在学术研究、金融分析、消费决策、商业研究等场景中的应用。

    • 技术创新:流程自动,突破效能

      讲述技术创新中的自动化处理与智能化决策、深度行业研究与数据驱动、复杂任务的全流程自动化等内容。

    • 认知协作:异构智能,集群协作

      介绍三阶认知生成体系、异构智能体集群,以及引入优化agent实现复杂任务自动化的情况。

    获取《DeepSeek+DeepResearch:让科研像聊天一样简单》 PDF原文件,扫码关注回复: 20250223

  • Moonlight-16B-A3B – 月之暗面开源的 MoE 模型

    Moonlight-16B-A3B是什么

    Moonlight-16B-A3B 是 Moonshot AI 推出的新型 Mixture-of-Expert (MoE) 模型,具有 160 亿总参数和 30 亿激活参数。模型使用了优化后的 Muon 优化器进行训练,计算效率是传统 AdamW 的两倍。在性能方面,Moonlight 在多个基准测试中表现优异,在英语语言理解(MMLU)和代码生成(HumanEval)等任务中均超越了其他同类模型。模型的训练数据量达到 5.7 万亿 token,展现了更高的样本效率。

    Moonlight-16B-A3B

    Moonlight-16B-A3B的主要功能

    • 高效的语言理解和生成:该模型通过优化后的 Muon 优化器进行训练,能在多种语言任务中表现出色,例如语言理解、文本生成和代码生成。
    • 大规模数据训练:Moonlight-16B-A3B 使用了 5.7 万亿 token 的数据进行训练,支持高效率的分布式训练。
    • 高效优化器与训练效率:模型使用了改进后的 Muon 优化器,相比传统的 AdamW 优化器,计算效率提升约 2 倍。通过优化权重衰减和参数更新比例,Muon 优化器在大规模训练中表现出更高的稳定性和效率。
    • 低计算成本:模型仅需约 52% 的训练 FLOPs 即可达到与 AdamW 训练相当的性能。
    • 低激活参数设计:总参数量为 16B,激活参数仅为 3B,在保持高性能的同时显著降低了计算资源需求。

    Moonlight-16B-A3B的技术原理

    • Muon 优化器的改进:Moonlight-16B-A3B 使用了经过优化的 Muon 优化器。Muon 优化器通过矩阵正交化技术(如 Newton-Schulz 迭代)对模型参数进行优化,显著提升了训练效率。与传统的 AdamW 优化器相比,Muon 的样本效率提升了约 2 倍,在大规模训练中表现出更高的稳定性和效率。
    • 权重衰减与更新调整:为了提高 Muon 在大规模模型训练中的表现,开发团队引入权重衰减机制,对每个参数的更新规模进行了调整。使 Muon 能在无需超参数调整的情况下直接应用于大规模模型训练。
    • 分布式实现:Moonlight-16B-A3B 的训练采用了基于 ZeRO-1 的分布式优化技术。减少了内存开销,降低了通信成本,使模型能在大规模分布式环境中高效训练。
    • 模型架构与训练数据:Moonlight-16B-A3B 是一个 16B 参数的 MoE 模型,激活参数为 3B,使用了 5.7 万亿个标记进行训练。在保持高性能的同时,显著降低了计算资源需求。
    • 性能优化:通过优化的 Muon 优化器和高效的分布式训练,Moonlight-16B-A3B 在多个基准测试中表现出色,超越了其他同规模模型。

    Moonlight-16B-A3B的项目地址

    Moonlight-16B-A3B的性能效果

    • 语言理解任务
      • MMLU(Multilingual Language Understanding):Moonlight-16B-A3B 的性能达到了 70.0%,显著优于 LLAMA3-3B(54.75%)和 Qwen2.5-3B(65.6%)。
      • BBH(BoolQ Benchmark):Moonlight 在任务中达到了 65.2%,优于其他同类模型。
      • TriviaQA:Moonlight 的表现为 66.3%,接近或超越了其他模型。
    • 代码生成任务
      • HumanEval:Moonlight 在代码生成任务中达到了 48.1% 的性能,优于 LLAMA3-3B(28.0%)和 Qwen2.5-3B(42.1%)。
      • MBPP(Mini-Benchmark for Program Synthesis):Moonlight 的性能为 63.8%,显著优于其他模型。
    • 数学推理任务
      • GSM8K:Moonlight 在该任务中的表现为 77.4%,接近 Qwen2.5-3B 的最佳表现(79.1%)。
      • MATH:Moonlight 的性能为 45.3%,优于其他同类模型。
      • CMath:Moonlight 达到了 81.1% 的性能,优于 Qwen2.5-3B(80.0%)。
    • 中文任务
      • C-Eval:Moonlight 的性能为 77.2%,优于 Qwen2.5-3B(75.0%)。
      • CMMLU:Moonlight 的表现为 78.2%,优于其他同类模型。
    • 计算效率
      • 训练效率:Moonlight 使用的 Muon 优化器在计算效率上是 AdamW 的 2 倍,仅需约 52% 的训练 FLOPs 即可达到与 AdamW 相当的性能。
      • 内存和通信效率:通过改进的分布式实现,Moonlight 在大规模训练中表现出更高的内存和通信效率。
    Benchmark (Metric) Llama3.2-3B Qwen2.5-3B DSV2-Lite Moonlight
    Activated Param† 2.81B 2.77B 2.24B 2.24B
    Total Params† 2.81B 2.77B 15.29B 15.29B
    Training Tokens 9T 18T 5.7T 5.7T
    Optimizer AdamW * AdamW Muon
    English MMLU 54.75 65.6 58.3 70.0
    MMLU-pro 25.0 34.6 25.5 42.4
    BBH 46.8 56.3 44.1 65.2
    TriviaQA‡ 59.6 51.1 65.1 66.3
    Code HumanEval 28.0 42.1 29.9 48.1
    MBPP 48.7 57.1 43.2 63.8
    Math GSM8K 34.0 79.1 41.1 77.4
    MATH 8.5 42.6 17.1 45.3
    CMath 80.0 58.4 81.1
    Chinese C-Eval 75.0 60.3 77.2
    CMMLU 75.0 64.3 78.2

    Moonlight-16B-A3B的应用场景

    • 教育和研究:在学术研究中,Moonlight 可以帮助研究人员快速理解和分析大量文献。
    • 软件开发:开发者可以用 Moonlight 自动生成代码片段,提高开发效率。
    • 研究和工程:研究人员和工程师可以用 Moonlight 解决实际问题中的数学难题。
    • 中文内容创作:在内容创作领域,Moonlight 可以帮助创作者生成高质量的中文内容。
    • 大规模模型训练:在需要大规模模型训练的场景中,Moonlight 可以显著降低计算资源需求,提高训练效率。
  • 优雅YOYA – 中科闻歌推出的音视频内容生成平台

    优雅是什么

    优雅(YOYA)是中科闻歌推出的多模态文生视频平台,通过AI多模态技术赋能视频内容创作全链路。平台以大语言模型和多模态大模型为核心,支持文本生成视频、图像、数字人等多种功能,具备语音克隆、视频口型翻译、AI音乐创作等智能工具。文生视频能力,用户只需输入主题要求,平台可快速生成脚本、完成素材生成与剪辑,输出高质量视频。YoYa具备独创的多模态素材介入生成能力,能对已有内容资产进行高阶语义检索和智能剪辑,大幅提升创作效率。

    优雅

    优雅的主要功能

    • 文生视频全链路生成:YoYa依托雅意大模型和多模态大模型能力,智能完成从脚本生成到视频制作的全链路生产。用户只需输入主题要求,平台可快速生成脚本、以文生图、以图生视频,完成智能剪辑、语音合成和人物口型驱动。
    • 多模态素材介入生成:YoYa具备独创的多模态素材介入生成能力,能对已有内容资产进行高阶语义检索和智能剪辑。平台支持景别、运镜、节奏、情感等20多个媒体专业维度的信息抽取,可智能选取相关素材完成剪辑,大幅提升视频生成的可控性和完成度。
    • 丰富的AI工具集:YoYa提供了语音克隆、视频口型翻译、AI数字人、AI音乐创作、多模态内容编目等多种智能工具,覆盖视频内容创作的全链路,有效支撑视频创意的高质量落地。
    • 一键成片与高效创作:YoYa能一键生成30秒以上的视频,支持用户快速将创意转化为高质量视频内容,显著降低创作成本和时间。
    • 长视频一键拆分:可将超长视频智能拆分为多个短视频,模拟人类专业拆分逻辑,场景级拆分准确率达90%,节省95%的人工拆条时间。
    • 多语种视频翻译:支持中、英、日等5种以上语言的实时翻译,AI驱动人物口型,自定义声音克隆,相似度超90%,较人工译制节省80%以上时间。
    • 记者采写智能体:基于多维信息融合的AI写作,可将采访录音、文档、图片、视频等素材一键成稿,支持联网检索补全事件信息,节省80%新闻生产时间。

    如何使用优雅

    • 访问平台:访问优雅的官方网站,注册或登录。
    • 输入主题要求:只需输入视频的主题或描述,YoYa基于AI多模态技术,智能生成脚本、以文生图、以图生视频。
    • 智能生成与剪辑:平台会自动完成素材生成、剪辑、语音合成以及人物口型驱动等操作,用户无需手动操作,快速生成30秒以上的视频。
    • 素材介入生成:如果用户有已有素材,YoYa支持多模态素材介入生成。可以根据脚本对已有素材进行高阶语义检索,智能选取相关素材完成剪辑,大幅提升视频生成的可控性和完成度。
    • 使用AI工具集:YoYa提供了丰富的AI工具集,如语音克隆、视频口型翻译、AI数字人、AI音乐创作等,用户可以根据需求选择合适的工具来进一步优化视频。
    • 输出与优化:生成的视频可以直接下载或进一步优化调整,满足不同的创作需求。

    优雅的应用场景

    • 媒体行业:提升新闻生产效率,支持多语言视频翻译,助力国际传播。
    • 影视制作:快速生成视频脚本、旁白和视频内容,降低创作成本。
    • 企业宣传:帮助企业快速制作宣传视频,提升品牌形象。
    • 教育与知识科普:在教育领域,YoYa可用于制作微课、科普视频等,通过AI生成的动画和视频内容,提升教学效果和学习趣味性。
  • Reweb – AI前端开发工具,支持导入 Figma 设计文件转换为代码

    Reweb是什么

    Reweb 是为开发者设计的 AI 可视化构建工具,主要用于快速生成和定制基于 Next.js 和 Tailwind CSS 的用户界面。Reweb 结合 AI 生成 UI 的高效性和可视化编辑器的灵活性,支持从空白画布或 Figma 文件开始设计,能导出高质量的代码,无缝对接开发流程。Reweb帮助开发者快速启动项目,提升开发效率,同时保持代码的可扩展性和灵活性。

    Reweb

    Reweb的主要功能

    • AI 生成 UI:根据用户输入的描述或上传的图像快速生成界面组件。
    • 可视化编辑器:提供直观的可视化界面,支持拖拽、调整和定制界面元素,针对 Tailwind CSS 和 shadcn/ui 进行优化。
    • 高质量代码导出:将设计导出为 Next.js、Tailwind 和 shadcn/ui 格式的高质量代码。
    • Figma 文件导入:支持导入 Figma 设计文件转换为代码。
    • 预构建模板与组件库:提供丰富的预构建模板和可重用组件。
    • 自定义与扩展:开发者在可视化编辑的基础上,进一步通过代码进行自定义和扩展。
    • CLI 导出功能:专业版支持命令行界面(CLI)导出代码,方便集成到现有开发流程中。

    Reweb的官网地址

    Reweb的产品定价

    • Hobby(业余)计划:免费,1个用户,2个项目,5次代码导出,有限的访问权限,在共享链接上显示Reweb水印。
    • Pro(专业)计划 :$12/月,包含Hobby 计划的所有内容,无限项目,AI 限制提高10倍,无限代码导出,命令行界面(CLI)导出,在共享链接上不显示Reweb水印。
    • Team(团队)计划:即将推出,包含Pro 计划的所有内容,邀请团队成员,更高的 AI 限制,优先支持。

    Reweb的应用场景

    • 快速原型设计:开发者快速生成界面原型,验证设计概念,无需从零编写代码,大大缩短设计周期。
    • 前端开发加速:开发者快速搭建登录页面、仪表盘或电商网站,显著提升开发效率,节省时间和精力。
    • 设计与开发协作:设计师和开发者无缝协作,减少设计与开发之间的沟通成本和转换时间。
    • 教育与学习:帮助初学者或学生快速理解前端开发流程,同时基于实际操作提升学习效果。
  • AvatarGO – 南洋理工联合上海 AI Lab 等推出的4D人体与物体交互生成框架

    AvatarGO是什么

    AvatarGO 是南洋理工大学S-Lab、上海 AI Lab,香港大学联合推出的新型框架,用在从文本输入直接生成可动画化的 4D 人体与物体交互场景。通过零样本(zero-shot)方法基于预训练的扩散模型,解决传统方法在生成日常 HOI 场景时因缺乏大规模交互数据而受限的问题。AvatarGO 的核心包括:LLM 引导的接触重定位,基于 Lang-SAM 从文本提示中识别接触部位,确保人体与物体的空间关系精确表示;对应感知的运动优化,用 SMPL-X 的线性混合蒙皮函数构建运动场,优化人体和物体的动画,减少穿透问题。AvatarGO框架在多种人体与物体组合及多样化姿态下表现出优越的生成和动画能力。

    AvatarGO

    AvatarGO的主要功能

    • 从文本生成 4D 交互场景:基于简单的文本描述直接生成包含人体和物体交互的 4D 动画。
    • 精确的人体与物体接触表示:准确识别人体与物体的接触部位(如手、脚等),确保在生成的 3D 和 4D 场景中,人体与物体的空间关系是合理的。
    • 解决动画中的穿透问题:在动画生成过程中,有效避免人体与物体之间的穿透现象。
    • 多样化的 4D 动画生成:生成动态的 4D 动画,支持多种人物动作和物体交互。
    • 支持多种人物和物体组合:处理各种人物和物体的组合,包括虚拟角色(如动漫人物、超级英雄)和现实人物,及各种日常物品(如武器、工具、乐器等)。

    AvatarGO的技术原理

    • LLM 引导的接触重定位: Lang-SAM(Language Segment Anything Model) 从文本描述中提取接触部位(如“手”)。基于将 3D 人体模型渲染成 2D 图像,结合文本提示,生成人体接触部位的分割掩码。掩码被反向投影到 3D 模型中,初始化物体的位置,确保物体与人体的接触部位是准确的。
    • 空间感知的分数蒸馏采样:引入 SSDS,增强与人体-物体交互相关的文本标记(如“holding”)的注意力权重,帮助扩散模型理解人体与物体之间的空间关系。
    • 对应关系感知的运动优化: SMPL-X 模型作为中介,为人体和物体构建运动场。基于线性混合蒙皮(LBS)函数,将物体的运动与人体的运动同步优化。引入新的训练目标——对应关系感知损失,最小化人体与物体之间的空间偏差,确保在动画过程中两者不会出现穿透现象。
    • 基于扩散模型的 3D 和 4D 生成
      • 3D 生成:用 DreamGaussian 方法生成高质量的 3D 人体和物体模型。基于 3D 高斯点云表示场景,分数蒸馏采样(SDS)优化生成结果。
      • 4D 动画生成:在 3D 模型的基础上,基于 HexPlane 特征 和 SMPL-X 模型生成动态的 4D 动画。优化物体的全局参数(如旋转、平移)和人体的运动序列,生成连贯且逼真的 4D 动画。

    AvatarGO的项目地址

    AvatarGO的应用场景

    • 虚拟导购员:在商店中为顾客提供商品信息和购物建议。
    • 展厅讲解员:在博物馆或展厅中介绍展品和产品信息。
    • 数字大堂经理:在银行或营业厅提供咨询和引导服务。
    • 车载虚拟助手:在汽车中作为智能助手,提供陪伴和交互体验。
    • VR/AR内容创作:生成4D动画,用于虚拟现实和增强现实中的角色和交互设计。
  • SigLIP 2 – 谷歌 DeepMind 推出的多语言视觉语言编码器模型

    SigLIP 2是什么

    SigLIP 2 是Google DeepMind 提出先进的多语言视觉-语言模型 ,是 SigLIP 的升级版本,提升图像与文本之间的对齐能力。通过改进的训练方法和架构,显著增强了模型在多语言理解、零样本分类、图像-文本检索等任务中的表现。SigLIP 2能处理多种语言的文本输入,与图像进行精准匹配。引入了自监督学习技术,如掩码预测和自蒸馏,进一步优化了模型的特征提取能力。SigLIP 2 提供了两种变体:FixRes(固定分辨率)和 NaFlex(支持多种分辨率和宽高比),能适应不同分辨率的图像输入。

    SigLIP 2

    SigLIP 2的主要功能

    • 多语言支持:SigLIP 2 能处理多种语言,提供强大的多语言视觉-语言编码能力,适用于不同语言和文化背景的任务。
    • 零样本分类:无需针对特定任务进行微调,SigLIP 2 可以直接在新的类别上进行分类。
    • 图像-文本检索:支持图像到文本的检索以及文本到图像的检索,能快速找到与输入内容最匹配的对应项。
    • 为大型语言模型提供视觉能力:SigLIP 2 可以作为视觉模块,为其他语言模型提供图像理解能力。
    • 高效训练与优化:采用 Sigmoid 损失函数,解决了传统对比学习方法(如 CLIP 的 InfoNCE 损失)的存储和计算瓶颈,提升了训练效率。

    SigLIP 2的技术原理

    • Sigmoid 损失函数:SigLIP 2 采用了 Sigmoid 损失函数替代传统的对比损失函数(如 CLIP 的 InfoNCE 损失)。能更平衡地学习全局和局部特征,避免了对比学习中常见的计算瓶颈。
    • 自监督学习与解码器预训练:SigLIP 2 结合了图像描述预训练和自监督学习方法,如自蒸馏和掩码预测。通过解码器预训练,模型能更好地理解图像区域及其对应的文本描述,提升对细粒度细节的捕捉能力。
    • 动态分辨率支持:SigLIP 2 引入了 NaFlex 变体,支持多种分辨率和原始宽高比。能保留图像的空间信息,适用于对分辨率敏感的任务,如文档理解或 OCR。
    • 多语言支持与去偏技术:SigLIP 2 在训练中使用了多语言数据集,通过去偏技术减少不公平的性别或文化偏见。使模型在多语言任务中表现更加公平和准确。
    • 全局与局部特征的结合:通过 Global-Local Loss 和 Masked Prediction Loss,SigLIP 2 能同时关注全局语义和局部细节,在密集预测任务(如语义分割和深度估计)中表现更优。
    • 向后兼容性:SigLIP 2 基于 Vision Transformer 架构,保持与早期版本的兼容性,用户可以无缝替换模型权重,无需重构整个系统。

    SigLIP 2的项目地址

    SigLIP 2的应用场景

    • 多语言图像分类:SigLIP 2 支持多种语言的零样本分类任务,能跨语言地识别和分类图像。用户可以上传一张图片,模型能识别出图片属于“动物”类别。
    • 视觉问答(VQA):结合语言模型,SigLIP 2 可以处理视觉问答任务,为用户提供基于图像内容的自然语言回答。
    • 文档理解:SigLIP 2 支持多分辨率和保留宽高比的特性,适用于文档图像处理,如 OCR 和文档内容理解。
    • 开放词汇分割与检测:在语义分割和目标检测任务中,SigLIP 2 能处理未见过的类别,适用于动态环境下的视觉任务。
  • BioMedGPT-R1 – 清华联合水木分子推出的多模态生物医药大模型

    BioMedGPT-R1是什么

    BioMedGPT-R1 是清华大学AI产业研究院(AIR)与北京水木分子生物科技有限公司联合推出的升级版多模态生物医药开源大模型。BioMedGPT-R1基于 DeepSeek R1 技术,更新文本基座模型和跨模态特征对齐,实现生物模态(如分子、蛋白质)与自然语言的统一融合。模型能处理多种生物医学任务,支持跨模态问答和深度推理,广泛应用于药物分子理解、靶点挖掘等领域。相比前代版本,BioMedGPT-R1 在化学分子描述等任务上性能显著提升,在生物医药文本问答任务上接近人类专家水平。

    BioMedGPT-R1

    BioMedGPT-R1的主要功能

    • 跨模态问答与推理:支持自然语言与生物模态(如化学分子、蛋白质)的交互式问答,结合文本和生物数据进行深度推理,为生物医药研究提供综合分析。
    • 药物分子理解与分析:对化学小分子进行结构、官能团、生化性质等方面的推理分析。
    • 药物靶点探索与挖掘:分析生物数据和文本信息,辅助发现潜在的药物靶点,加速药物研发的早期阶段。

    BioMedGPT-R1的技术原理

    • 多模态融合架构:整合自然语言模态和生物模态(如分子、蛋白质)的数据。基于生物模态编码器(如分子编码器和蛋白质编码器)提取特征,将“对齐翻译层”映射到自然语言表征空间,实现多模态数据的统一融合。
    • 跨模态特征对齐:用对齐翻译层(Translator),将生物模态的编码输出与文本模态的语义表征对齐,模型同时处理生物数据和自然语言指令,支持跨模态推理。
    • DeepSeek R1 蒸馏技术:基于 DeepSeek R1 的蒸馏版本更新文本基座模型,提升模型的文本推理能力,进一步优化多模态任务的性能。
    • 两阶段训练策略
      • 第一阶段:仅训练对齐翻译层,将生物模态表征映射到语义空间。
      • 第二阶段:同时微调对齐翻译层和基座大语言模型,激发模型在下游任务上的多模态深度推理能力。

    BioMedGPT-R1的项目地址

    BioMedGPT-R1的应用场景

    • 药物分子设计与优化:分析分子特性,辅助设计和优化药物分子。
    • 药物靶点发现:结合生物数据和文献,挖掘潜在药物靶点。
    • 临床前研究:分析生物标记物,支持疾病诊断和药物疗效评估。
    • 医学文本分析:辅助医学教育、文献解读和临床决策支持。
  • GRUtopia 2.0 – 上海 AI Lab 推出的通用具身智能仿真平台

    GRUtopia 2.0是什么

    GRUtopia 2.0(桃源2.0)是上海人工智能实验室发布的通用具身智能仿真平台。平台在GRUtopia 1.0的基础上进行了全面升级,具备三大核心创新:通用模块化框架、场景资产自动化生成和高效数据采集系统。用户仅需通过“三行代码”可定义复杂任务,无需在多个平台之间切换。平台集成百万级标准化物体资产,可实现复杂场景的“一键生成”,降低开发成本。GRUtopia 2.0 支持多种具身智能任务,如导航、操作和运动控制。作为“虚实贯通”技术体系的核心,平台通过高性能仿真推动具身智能从虚拟走向现实。

    GRUtopia 2.0

    GRUtopia 2.0的主要功能

    • 通用模块化仿真框架:GRUtopia 2.0 引入了通用模块化仿真框架,支持导航、操作、运动控制等多种具身任务。用户仅需通过“三行代码”即可定义任意任务,无需在多个平台之间切换,极大地简化了开发流程。
    • 场景资产自动化生成:平台集成了百万级标准化物体资产,结合自动化生成和随机化工具,能实现复杂场景的“一键生成”。
    • 高效数据采集系统:GRUtopia 2.0 提供了面向操作任务的多种低门槛遥操作工具,面向导航任务的批量化数据采集工具。与传统方式相比,遥操作效率提升5倍,导航任务数据采集效率最高提升20倍。
    • 大规模交互式3D场景数据集(GRScenes):平台包含10万个高度交互和精细标注的场景,可自由组合成城市规模的环境。场景涵盖了89种不同的场景类别,弥补了服务型环境的空白。
    • NPC系统(GRResidents):GRUtopia 2.0 引入了由大语言模型(LLM)驱动的NPC系统,负责社交互动、任务生成和任务分配。模拟了社交场景,为具身AI应用提供了新的维度。
    • 基准测试平台(GRBench):平台提出了GRBench,支持多种机器人,特别是以腿式机器人为主要智能体,评估执行物体导航、社交导航和移动操作等中等难度任务的能力。
    • 仿真到现实(Sim2Real)范式:GRUtopia 2.0 通过仿真平台展示了如何用仿真来缓解高质量数据的稀缺性,推动机器人技术从虚拟到现实的扩展和应用。
    • 支持多样化机器人:平台支持多种类型的机器人,包括人形机器人和腿式机器人,能满足从底层控制到高层决策的多层级研究需求。

    GRUtopia 2.0的项目地址

    GRUtopia 2.0的应用场景

    • 机器人训练与开发:GRUtopia 2.0 提供了通用模块化仿真框架,支持导航、操作和运动控制等多种具身任务。开发者可以通过简单的“三行代码”定义任务,无需在多个平台之间切换。
    • 复杂场景构建:平台集成了百万级标准化物体资产,结合场景自动化生成和随机化工具,能实现复杂场景的“一键生成”。场景涵盖了家庭、餐厅、办公室、公共场所等多种环境,为机器人提供了多样化的训练场景。
    • 社交互动与任务生成:GRUtopia 2.0 引入了由大语言模型(LLM)驱动的NPC系统,能模拟社交互动、任务生成和任务分配。
    • 数据采集与优化:平台提供了高效的数据采集系统,支持面向操作任务的多种低门槛遥操作工具和面向导航任务的批量化数据采集工具。
  • Indic Parler-TTS – 开源多语言TTS模型,专注于合成印度语和英语

    Indic Parler-TTS是什么

    Indic Parler-TTS 是 Hugging Face 和 AI4Bharat 团队合作推出的多语言文本到语音(TTS)模型,专门用于印度语言和英语的语音合成。Indic Parler-TTS 是 Parler-TTS Mini 的扩展版本,支持 20 种印度语言和英语,拥有 69 种独特语音,能生成自然、清晰且富有情感的语音输出。模型基于描述性文本输入,灵活调整语音的音调、语速、情感、背景噪音等特性,适应多种应用场景。Indic Parler-TTS 在多种印度语言上表现出色,在低资源语言上展现强大的适应性。

    Indic Parler-TTS

    Indic Parler-TTS的主要功能

    • 多语言支持
      • 支持 20 种印度语言和英语,包括印地语、泰米尔语、孟加拉语、泰卢固语、马拉地语等。
      • 提供对未正式支持的语言的有限支持,如克什米尔语和旁遮普语。
    • 丰富的情感和语音特性
      • 支持多种情感表达,如愤怒、快乐、悲伤、惊讶等。
      • 支持调整语音的音调、语速、背景噪音、混响和整体音质。
    • 灵活的输入方式
      • 用户用描述性文本(caption)控制语音的特性,例如指定说话者的性别、口音、情感和录音环境。
      • 模型自动识别输入文本的语言,切换到相应的语言进行语音合成。
    • 高质量的语音输出:在多种语言上表现出色,尤其是在印度语言上。
    • 语音多样性:提供 69 种独特的语音,每种语言都有推荐的语音,以确保自然和清晰的发音。
    • 定制化能力:用户基于描述性文本精确控制语音的背景噪声、混响、表达性、音调、语速和语音质量。

    Indic Parler-TTS的技术原理

    • 基于深度学习的 TTS 架构:基于深度学习的文本到语音模型,采用 Encoder-Decoder 架构,将文本输入转换为语音波形,实现高质量的语音合成。
    • 多语言预训练与微调:基于大规模多语言数据集进行预训练,在特定的印度语言和英语数据集上进行微调。这种预训练+微调的方式使其能够适应多种语言和方言。
    • 描述性文本控制:引入描述性文本(caption)输入,基于自然语言描述控制语音的特性。
    • 双分词器机制:模型使用两个分词器:一个用于处理文本输入(prompt),另一个用于处理描述性文本(description)。

    Indic Parler-TTS的项目地址

    Indic Parler-TTS的应用场景

    • 语音助手:为智能设备提供多语言语音交互,方便用户操作。
    • 有声读物:将文本转换为语音,满足不同用户的阅读需求。
    • 新闻播报:生成多语言语音内容,扩大信息传播范围。
    • 客服系统:支持多语言的自动语音应答,提升服务效率。
    • 内容创作:为影视、广告等提供高效语音合成,丰富创作形式。