Category: AI项目和框架

  • UltraMem – 字节豆包大模型团队推出的全新超稀疏模型架构

    UltraMem是什么

    UltraMem 是字节跳动豆包大模型团队提出的全新超稀疏模型架构,解决传统 MoE 架构在推理时的高额访存问题。架构通过优化内存访问和计算效率,显著降低推理成本,推理速度较 MoE 提升了2-6倍,成本最高可降低83%。UltraMem 的核心技术包括:多层结构改进,将大型内存层拆分为多个小内存层,分布在 Transformer 层中,增加 skip-layer 操作,实现并行计算;优化 value 检索方式,采用 Tucker 分解查询键检索(TDQKR),提高检索精度;以及隐式扩展稀疏参数(IVE),通过虚拟内存和物理内存的概念,减少显存和部署成本。实验表明,UltraMem 在不同规模的激活参数下均展现出显著的性能优势,随着稀疏参数增加,扩展能力优于 MoE。

    UltraMem

    UltraMem的主要功能

    • 降低推理成本:UltraMem 通过优化内存访问机制,显著降低了推理时的访存需求,使推理成本最高可降低83%。
    • 提升推理速度:相比传统的 MoE 架构,UltraMem 的推理速度提升了2-6倍,在常见 batch size 规模下,访存成本几乎与同计算量的 Dense 模型相当。
    • 优化内存管理:UltraMem 通过稀疏计算和选择性参数激活策略,减少了推理过程中对内存的依赖,有效避免了内存瓶颈。
    • 支持大规模模型:该架构为构建数十亿规模的 value 或 expert 模型开辟了新路径,具备优异的扩展特性。
    • 保持模型性能:在参数和激活条件相同的情况下,UltraMem 显著降低了推理成本,在模型效果上超越了 MoE。

    UltraMem的技术原理

    • 稀疏计算与参数解耦:UltraMem 通过稀疏计算的方式,将计算和参数解耦。仅激活与当前任务最相关的部分参数,不是像传统 MoE 那样在推理时激活所有专家,显著降低了内存访问需求。
    • 优化的内存访问机制:UltraMem 引入了大规模超稀疏内存层,通过选择性激活少量参数,避免了推理时的内存瓶颈。这种机制使在常见 batch size 下,UltraMem 的访存成本几乎与同计算量的 Dense 模型相当。
    • 并行计算机制:UltraMem 通过优化计算图和采用先进的算法,使多个推理任务可以同时进行。并行计算机制提高了资源利用率,进一步加快了推理速度。
    • Tucker 分解查询键检索(TDQKR):UltraMem 采用更复杂的乘法方法——Tucker 分解查询键检索(TDQKR),用于优化 value 的检索过程。方法通过分解查询和键的交互,提高了检索精度和效率。
    • 隐式扩展稀疏参数(IVE):UltraMem 提出了隐式扩展稀疏参数(IVE)技术,通过虚拟内存和物理内存的概念,隐式地扩展稀疏参数。在不增加显存负担的情况下,提升了模型的性能和扩展能力。
    • 多层结构设计:UltraMem 将大型内存层拆分为多个小内存层,以固定间隔分布在 Transformer 层中。使模型可以并行执行内存层的访存操作和 Transformer 层的计算,提高了整体效率。

    UltraMem的项目地址

    UltraMem的应用场景

    • 实时推理场景:UltraMem 适用于对延迟要求较高的推理场景,例如代码补全和智能客服。在这些场景中,模型需要快速响应用户请求,UltraMem 的低延迟特性能够显著提升用户体验。
    • 大规模模型部署:UltraMem 的高效推理能力和低访存成本成为部署大规模语言模型(LLM)的理想选择。在构建数十亿规模的 value 或 expert 模型时,UltraMem 能在有限的计算资源下实现高性能。
    • 金融领域:在金融领域,UltraMem 可以用于信贷资产管理和风险预测。通过更精准地识别客户意图和风险特征,UltraMem 能帮助金融机构实现业务降本增效。
    • 能源行业:在能源领域,UltraMem 可以应用于设备运检、电力营销客服和新能源功率预测。通过高效的数据处理和推理能力,UltraMem 能优化资源配置,提升能源效率。
    • 工业自动化:在工业自动化中,UltraMem 可用于设备故障预测和生产流程优化。其高效的推理能力能快速分析大量工业数据,实现智能化的生产管理。
  • MoMask – 文本驱动生成高质量3D人体动作的模型

    MoMask是什么

    MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的运动标记,结合掩码Transformer和残差Transformer来生成动作序列。模型在文本到动作生成任务上表现出色,FID指标达到0.045(HumanML3D数据集),显著优于其他方法。MoMask可无缝应用于相关任务,如文本引导的时序修复,无需额外微调。

    MoMask

    MoMask的主要功能

    • 文本驱动的3D动作生成:用户可以通过输入简单的文本描述,生成对应的3D人体动作动画。例如,输入“一个人在跑步机上跑步”,MoMask能生成相应的动作。
    • 动作编辑与时序控制:MoMask支持对生成的动作进行复杂的时序编辑,如插入、删除或替换动作片段,可以改变动作的持续时间或细节。
    • 高精度动作生成:采用多层量化和掩码建模技术,MoMask能生成高质量、高精度且连贯的3D动作序列。在HumanML3D数据集上,生成质量的FID值仅为0.045,显著优于其他方法。
    • 多平台支持与易用性:MoMask支持本地运行,提供了Huggingface WebUI演示、Colab在线演示,可以作为Blender插件使用,方便用户快速上手。
    • 动作评估与优化:MoMask提供了评估脚本,可以用于评估生成动作的质量和逼真度,帮助用户优化动作生成效果。

    MoMask的技术原理

    • 分层量化方案:MoMask采用分层量化方案,将3D人体动作表示为多层离散的运动标记(tokens)。首先,通过矢量量化(Vector Quantization)将动作序列编码为基底层的运动标记。然后,通过迭代的残差量化(Residual Quantization)逐步减少量化误差,生成更高层次的残差标记。能捕捉动作的高保真细节。
    • 掩码Transformer:是MoMask的核心组件之一。在训练阶段,随机掩码基底层的运动标记,基于文本输入预测这些被掩码的标记。在生成阶段,从一个完全为空的序列开始,掩码Transformer通过迭代填充缺失的标记,逐步生成完整的动作序列。
    • 残差Transformer:用于处理分层量化中的残差标记。在生成基底层标记后,残差Transformer基于当前层的标记序列,逐步预测下一层的残差标记。能进一步优化动作的细节,提高生成动作的质量。
    • 生成过程:MoMask的生成过程分为两个阶段:
      • 掩码Transformer生成基底层标记:从空序列开始,通过迭代预测被掩码的标记,直到生成完整的基底层标记序列。
      • 残差Transformer生成残差标记:基于基底层的标记,逐层预测更高层次的残差标记,最终生成高质量的3D动作。

    MoMask的项目地址

    MoMask的应用场景

    • 游戏开发:在游戏开发中,MoMask可以快速生成各种角色的动作,减少手动制作动作的工作量,提高开发效率。
    • 动画制作:动画师可以用MoMask快速生成复杂的动作序列,进行高效的动态场景编辑,减少手动劳动。
    • 虚拟现实(VR):在VR应用中,MoMask能根据自然语言指令生成逼真的虚拟人物动作,增强用户的沉浸感。
    • 体育数据分析:MoMask可用于分析运动员的动作轨迹,帮助研究人员更好地理解人体动作的规律,为运动员提供训练建议。
    • 动作编辑与修复:MoMask支持基于文本的编辑功能,用户可以指定动作的特定部分进行编辑,例如改变动作的持续时间或细节。
  • potpie.ai – AI代码库Agent构建平台,自动化代码分析、测试和开发任务

    potpie.ai是什么

    potpie.ai 是开源平台,基于AI技术为代码库创建定制化的工程代理(Agents)。potpie.ai基于构建代码库的知识图谱,深度理解代码组件之间的关系,实现自动化代码分析、测试和开发任务。potpie.ai提供多种预构建的代理,例如调试代理、代码库问答代理、代码变更代理、集成测试代理、单元测试代理、低层次设计代理和代码生成代理等,帮助开发者快速解决常见问题并优化开发流程。potpie.ai 支持自定义代理,开发者根据自身需求创建个性化的工具。

    potpie.ai

    potpie.ai的主要功能

    • 深度代码理解:基于构建代码知识图谱,捕捉代码组件之间的关系,深度理解代码库。
    • 预建和自定义代理:提供多种预建代理,如调试代理、代码库问答代理、代码更改代理、集成测试代理、单元测试代理、LLD 代理和代码生成代理等,支持用户根据需求创建自定义代理。
    • 无缝集成:支持与现有的开发工作流无缝集成,支持多种编程语言。
    • 灵活适应:适用于任何大小和语言的代码库。
    • 智能交互:基于简单的聊天界面与代理进行交互,无需复杂设置。

    potpie.ai的技术原理

    • 知识图谱
      • 构建知识图谱:基于静态代码分析和自然语言处理(NLP)技术,构建代码库的知识图谱。知识图谱是图结构,其中节点表示代码组件(如函数、类、模块),边表示组件之间的关系(如调用关系、依赖关系)。
      • 语义理解:用NLP技术,理解代码注释、文档字符串和变量名等自然语言内容,更准确地捕捉代码的语义信息。
    • AI代理
      • 代理架构:基于预训练的大型语言模型(如OpenAI的GPT模型),基于微调和定制化指令,理解并处理特定的代码库任务。
      • 任务驱动:每个代理都有明确的任务定义,包括系统指令、任务步骤和工具调用。代理基于定义执行任务,生成相应的输出。
    • 工具系统
      • 工具函数
        • get_code_from_probable_node_name:根据可能的节点名称检索代码片段。
        • get_code_from_node_id:根据节点ID获取代码。
        • get_nodes_from_tags:根据标签检索节点。
        • ask_knowledge_graph_queries:执行向量相似性搜索以获取相关信息。
      • 工具调用:代理在执行任务时,可以通过调用工具函数来获取所需的信息或执行特定的操作。

    potpie.ai的项目地址

    potpie.ai的应用场景

    • 新员工入职培训:帮助新入职的开发人员快速熟悉代码库结构、功能和开发流程。
    • 代码变更与影响分析:代码变更代理能够分析代码修改的影响范围,识别受影响的API和模块,提供改进建议。
    • 自动化测试生成:生成单元测试和集成测试代码,帮助开发团队提高测试覆盖率,确保代码质量和功能稳定性。
    • 低层次设计(LLD)规划:根据功能需求生成详细的设计方案,帮助开发团队更好地规划和实施。
    • 代码调试与问题解决:提供针对性的调试步骤和解决方案,帮助开发人员快速定位和解决问题。
  • ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型

    ProtGPS是什么

    ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)和怀特黑德生物医学研究所推出的,基于深度学习的蛋白质语言模型,用在预测蛋白质在细胞内的亚细胞定位。ProtGPS基于分析蛋白质的氨基酸序列,用进化尺度的蛋白质变换器(Transformer)架构学习序列中的复杂模式和相互关系。ProtGPS能预测蛋白质在12种不同亚细胞区域(如核仁、核斑点等)的分布概率,成功指导生成能特异性组装到特定亚细胞区域的新型蛋白质序列。ProtGPS能识别导致蛋白质亚细胞定位改变的致病突变,为理解细胞功能和疾病机制提供新的工具和视角。

    ProtGPS

    ProtGPS的主要功能

    • 预测蛋白质在细胞内的分布:预测蛋白质在12种不同亚细胞区域(如核仁、核斑点、应激颗粒等)的定位概率。
    • 设计具有特定亚细胞定位的蛋白质:生成新的蛋白质序列,特异性地组装到目标亚细胞区域(如核仁或核斑点)。
    • 识别致病突变对蛋白质定位的影响:分析突变对蛋白质亚细胞定位的影响,预测致病突变是否会导致蛋白质分布异常。

    ProtGPS的技术原理

    • 基于Transformer的序列学习:基于ESM2(Evolutionary Scale Model 2)架构,一种基于Transformer的蛋白质语言模型。同时学习输入序列中所有氨基酸之间的关系,捕捉蛋白质序列中的复杂模式和相互作用。
    • 神经网络分类器联合训练
      • 将ESM2与神经网络分类器联合训练。分类器的任务是根据ESM2提取的特征,预测蛋白质在不同亚细胞区域的定位概率。
      • 训练数据集包括5480个人类蛋白质序列,序列被注释为属于12种不同的亚细胞区域,学习到不同亚细胞区域的蛋白质序列特征。
    • 生成蛋白质序列的算法:为设计具有特定亚细胞定位的蛋白质,用马尔可夫链蒙特卡洛(MCMC)算法。在生成蛋白质序列时,考虑蛋白质的化学空间和内在无序性,确保生成的序列符合自然蛋白质的分布,能特异性地定位到目标亚细胞区域。
    • 致病突变分析:分析致病突变对蛋白质亚细胞定位的影响。比较野生型和突变型蛋白质的定位预测结果,识别那些导致蛋白质分布改变的突变。用信息论中的Shannon熵和Wasserstein距离,用在量化突变对蛋白质定位预测不确定性的影响。

    ProtGPS的项目地址

    ProtGPS的应用场景

    • 疾病机制研究:识别致病突变对蛋白质亚细胞定位的影响,帮助理解疾病发病机制。
    • 蛋白质工程与药物设计:设计具有特定亚细胞定位的蛋白质,用在开发新型蛋白质药物或生物传感器。
    • 细胞生物学研究:预测蛋白质在不同亚细胞区域的定位,助力细胞内蛋白质功能和相互作用的研究。
    • 基因治疗与基因编辑:设计特异性靶向亚细胞区域的基因编辑工具,提高基因编辑的效率和特异性。
    • 蛋白质功能注释与数据库构建:为蛋白质功能研究提供线索,助力构建更全面的蛋白质功能数据库。
  • HumanDiT – 浙大联合字节推出的姿态引导人体视频生成框架

    HumanDiT是什么

    HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DiT),能在大规模数据集上训练,生成具有精细身体渲染的长序列人体运动视频。HumanDiT 的核心优势在于姿态引导机制,通过关键点扩散变换器(Keypoint-DiT)生成后续姿态序列,保证视频中人体动作的连贯性和自然性。引入了前缀潜在参考策略,在长序列中保持个性化特征。 HumanDiT 支持多种视频分辨率和可变序列长度,适合长序列视频生成。基于姿态适配器实现给定序列的姿态转移,进一步提升了姿态对齐的准确性。

    HumanDiT

    HumanDiT的主要功能

    • 姿态引导的视频生成:HumanDiT 基于关键点扩散变换器(Keypoint-DiT)生成后续姿态序列,确保视频中人体动作的连贯性和自然性。
    • 长序列视频生成:支持多种视频分辨率和可变序列长度,适合生成长序列的高质量视频。
    • 个性化特征保持:通过前缀潜在参考策略,在长序列中保持个性化特征。
    • 灵活的输入与输出:能从静态图像或现有视频中继续生成视频,适用于多种应用场景。
    • 姿态适配与细化:基于姿态适配器实现给定序列的姿态转移,通过姿态细化模块增强面部和手部特征与参考图像的对齐效果。

    HumanDiT的技术原理

    • 姿态引导与扩散变换器:HumanDiT 通过姿态引导的方式生成视频,基于关键点扩散变换器(Keypoint-DiT)在推理阶段生成后续的姿态序列。确保了视频中人体动作的连贯性和自然性,同时扩散变换器能够处理不同分辨率和序列长度的视频。
    • 前缀潜在参考策略:为了在长序列视频生成中保持个性化特征,HumanDiT 引入了前缀潜在参考策略。策略通过将视频的第一帧作为无噪声的前缀潜在向量,供模型在生成过程中参考,保持视觉一致性。
    • 姿态适配器与姿态细化模块:HumanDiT 使用姿态适配器来实现给定序列的姿态转移,通过姿态细化模块进一步优化生成的姿态序列。有助于提高面部和手部等细节部位的生成质量,确保与参考图像的对齐效果。
    • 大规模数据集训练:HumanDiT 在包含 14000 小时高质量视频的大型数据集上进行训练,数据通过结构化的数据处理流程收集,涵盖了多种人类动作场景。使模型能学习到丰富的运动先验,在推理过程中表现出强大的泛化能力。

    HumanDiT的项目地址

    HumanDiT的应用场景

    • 虚拟人:HumanDiT 可以用于生成虚拟人的动态视频,动作更加自然流畅。在虚拟客服场景中,虚拟人可以根据用户的提问实时生成相应的动作和表情,提供更加生动、逼真的交互体验。
    • 动画电影:HumanDiT 能生成高质量、长序列的人体运动视频,可以用于生成动画角色的动作序列,帮助动画师快速生成高质量的动作片段,提高制作效率。
    • 沉浸式体验:HumanDiT 可以用于构建沉浸式体验中的虚拟角色和动作。在沉浸式 VR 体验中,HumanDiT 可以生成与场景匹配的人物动作和表情,让参与者感受到更加真实和生动的体验。
    • 视频生成与续写:可以从单张图像生成视频,或者从现有视频中继续生成后续内容。
  • InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型

    InternVideo2.5是什么

    InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了显著进展,特别是在长视频处理和细粒度时空感知方面表现出色。模型能处理长达万帧的视频,视频处理长度较前代提升了6倍,可在长视频中精准定位目标帧,实现“大海捞针”式的检索。支持通用视频问答,完成目标跟踪、分割等专业视觉任务。

    InternVideo2.5

    InternVideo2.5的主要功能

    • 超长视频处理:InternVideo2.5能处理长达万帧的视频,视频处理能力较前代提升了6倍(从3000帧提升到10000帧)。能在长视频中精准定位目标帧,实现“大海捞针”式的检索,显著提升了视频分析的效率。
    • 细粒度时空感知:模型能准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。支持通用视频问答,完成目标跟踪、分割等专业视觉任务。可以在复杂场景下识别物体的运动轨迹和状态变化,为自动驾驶和监控安防等领域提供精准的视觉支持。
    • 多模态融合:InternVideo2.5将视觉感知和语言理解深度融合,能根据视频内容生成详细的描述和回答用户的问题。
    • 专业视觉任务支持:通过任务偏好优化(TPO),InternVideo2.5能处理多种专业视觉任务,如目标跟踪、分割、时间定位等。能根据任务需求动态调整模型的处理策略,在不同场景下提供最优的视觉分析能力。
    • 高效预训练与优化:InternVideo2.5采用渐进式多阶段训练方案,使用超过30万小时的视频语料进行预训练。提升模型的性能,降低了训练成本。

    InternVideo2.5的技术原理

    • 长时丰富上下文建模(LRC):LRC通过扩展模型的上下文长度和细节感知能力,使InternVideo2.5能处理长达万帧的视频。核心在于:
      • 视频长度自适应令牌表示:根据视频的长度和内容特征动态调整帧采样策略。例如,短序列(如秒级视频)采用密集采样(每秒15帧),长序列(如分钟或小时级视频)则采用稀疏采样(每秒1帧),确保在不同时间尺度上能有效捕捉运动信息。
      • 分层上下文压缩(HiCo):通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。具体包括:
        • 时空令牌合并:基于语义相似性进行令牌合并,非基于位置的简单池化操作。在保留细节的同时,显著减少了冗余信息。
        • 多模态上下文整合:在语言模型处理阶段,进一步整合压缩后的视觉令牌,确保视觉和语言信息的深度融合。
    • 任务偏好优化(TPO):TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习。使InternVideo2.5能处理多种专业视觉任务,如目标跟踪、分割、时间定位等。具体实现方式包括:
      • 任务特定组件集成:在模型中加入任务特定的组件(如时间头、掩码适配器等),并通过任务特定数据集进行训练。
      • 视觉概念预训练:使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。
    • 渐进式多阶段训练方案:InternVideo2.5采用渐进式多阶段训练方案,逐步提升模型的性能:
      • 基础学习阶段:进行任务识别指令调整和视频语言对齐训练。
      • 细粒度感知训练阶段:通过集成任务特定组件和视觉概念预训练,增强视觉理解能力。
      • 综合优化阶段:在混合语料库上进行多任务训练和指令调整,优化所有模型组件。
    • 高效分布式系统:为了支持大规模视频数据的训练和测试,InternVideo2.5开发了基于多模态序列并行的分布式系统。系统结合了序列和张量分布式处理,以及动态数据打包技术,显著提高了训练效率。

    InternVideo2.5的项目地址

    InternVideo2.5的应用场景

    • 视频内容理解和检索:InternVideo2.5能根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
    • 视频编辑和创作:InternVideo2.5能为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词。可以根据用户的指令对视频进行剪辑和调整,提高视频创作的效率。
    • 监控安防:在监控安防领域,InternVideo2.5能实时分析监控视频,快速定位异常事件并发出警报。
    • 自动驾驶:InternVideo2.5能实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。
  • PDF to Podcast – 英伟达推出的 PDF 转音频内容 AI 工具

    PDF to Podcast是什么

    PDF to Podcast是NVIDIA推出的PDF转音频的AI工具,基于NVIDIA NIM微服务架构的,能将PDF文档转换为生动的音频内容,如播客。基于大型语言模型(LLM)、文本到语音(TTS)技术以及NVIDIA的微服务,将PDF中的内容提取转换为Markdown格式,再生成自然流畅的对话或独白形式的音频。工具支持用户上传目标PDF文件,可选择性添加上下文PDF作为参考,通过引导提示(如“重点关注NVIDIA第三季度财报的关键驱动因素”)来聚焦生成内容。

    PDF to Podcast

    PDF to Podcast的主要功能

    • PDF到Markdown转换:从PDF中提取内容并转换为Markdown格式,以便进一步处理。
    • 生成对话或独白:AI处理Markdown内容,生成自然流畅的音频脚本。
    • 文本到语音(TTS):将处理后的文本内容转换为高质量的语音。

    PDF to Podcast的项目地址

    PDF to Podcast的软件组件

    • NVIDIA NIM微服务:使用Llama 3.1系列模型进行推理。
    • 文档解析:使用Docling进行PDF到Markdown的转换。
    • 语音合成:使用ElevenLabs进行文本到语音的转换。
    • 存储和缓存:使用MinIO和Redis。

    PDF to Podcast的部署方式

    • 使用NVIDIA API目录:无需本地GPU硬件,所有模型推理在NVIDIA云基础设施上完成。最低要求为8核CPU、64GB内存和100GB磁盘空间。
    • 本地部署NVIDIA NIM:如果需要更高的性能和隐私保护,可以选择本地部署NVIDIA NIM,但需要满足更高的硬件要求。

    如何使用PDF to Podcast

    • 安装依赖:需要安装Docker、Docker Compose等工具。
    • 获取API密钥:需要NVIDIA API目录和ElevenLabs的API密钥。
    • 克隆代码库:从GitHub克隆NVIDIA-AI-Blueprints/pdf-to-podcast。
    • 设置环境变量:配置API密钥等环境变量。
    • 启动服务:使用Docker Compose启动所有微服务。
    • 生成音频:通过命令行工具指定PDF文件,生成音频内容。
    • 更换模型:可以根据需要更换不同的LLM模型。
    • 调整GPU配置:优化GPU使用,例如使用较小的模型以减少GPU内存需求。

    PDF to Podcast的应用场景

    • 企业培训与政策解读:将冗长的培训手册、政策文件等PDF文档转换为音频播客,员工可以在通勤或休息时收听,提高学习效率。
    • 技术与研发简报:将技术研究报告或研发文档转换为音频内容,方便研究人员和工程师在移动场景下获取信息。同时,结合虚拟角色扮演,可以模拟技术汇报场景,提升沟通能力。
    • 客户服务与酒店管理:将客户服务指南或酒店管理手册转换为对话式播客,员工可以通过与虚拟客户角色的互动练习,提升服务技巧和冲突解决能力。
    • 医疗与应急准备:将医疗协议或应急响应指南转换为易于理解的音频内容,通过虚拟角色扮演模拟紧急情况,让医护人员在安全的环境中进行实操演练。
    • 教育与学习:将学术论文或教学材料转换为音频内容,学生可以在任何时间、任何地点进行学习。结合虚拟现实(VR)或增强现实(AR)技术,可以进一步提升学习体验。
  • TPO – AI优化框架,动态调整推理模型的输出,更符合人类偏好

    TPO是什么

    TPO(Test-Time Preference Optimization)是新型的AI优化框架,在推理阶段对语言模型输出进行动态优化,更符合人类偏好。TPO通过将奖励信号转化为文本反馈,将模型生成的优质响应标记为“选择”输出,低质量响应标记为“拒绝”输出,进而生成“文本损失”并提出“文本梯度”,以此迭代改进模型输出,无需更新模型参数。 实验表明,经过少量迭代,即使是未经对齐训练的模型也能在多个基准测试中显著提升性能,在AlpacaEval 2的LC指标上从27.8%提升至37.8%。

    TPO

    TPO的主要功能

    • 动态对齐人类偏好:TPO能在模型推理时,根据奖励模型(Reward Model)的反馈,动态调整模型的输出,更符合人类的偏好和期望。
    • 无需重新训练模型:TPO无需对模型进行重新训练或更新权重,可在推理阶段实现对模型输出的优化。
    • 高效优化与可扩展性:TPO在推理时的搜索宽度和深度上具有良好的可扩展性,能高效地优化模型输出。
    • 提升模型性能:TPO能显著提升模型在多个基准测试中的性能,更接近或超过经过训练时偏好对齐的模型。
    • 增强模型的解释性和可理解性:TPO通过文本反馈的形式,使模型的优化过程更加透明和可理解。
    • 提升推理稳定性:TPO能显著提升模型的推理稳定性,减少生成意外或有害响应的概率。
    • 轻量级和高效性:TPO是轻量级的优化方法,计算成本低,适合在实际应用中快速部署。

    TPO的技术原理

    • 奖励信号转化为文本反馈:TPO的核心在于将奖励模型(Reward Model)的数值信号转化为可解释的文本反馈。具体来说,模型在每次推理时生成多个候选响应,通过奖励模型对这些响应进行评分。然后,TPO选择得分最高(“选择”响应)和得分最低(“拒绝”响应)的响应,分析它们的优势和不足,生成“文本损失”。
    • 迭代优化过程:基于“文本损失”,TPO生成“文本梯度”,这些梯度指导模型在下一次迭代中如何改进输出。过程类似于传统的梯度下降优化,但完全在文本层面进行,不是直接更新模型参数。通过多次迭代,模型的输出逐渐与人类偏好对齐。
    • 依赖于模型的指令跟随能力:TPO的成功依赖于策略模型具备基础的指令跟随能力,因为模型必须准确解释和响应奖励模型的反馈。如果模型缺乏这种能力,TPO可能无法有效工作。

    TPO的项目地址

    TPO的应用场景

    • 指令遵循:TPO能提升模型在指令遵循任务中的表现。使TPO适用于需要模型根据具体指令生成准确响应的场景,如智能助手、客服机器人等。
    • 偏好对齐:TPO可以用于优化模型的输出以更好地符合人类的偏好。在推荐系统、内容生成等领域具有重要应用价值,能帮助模型生成更符合用户期望的内容。
    • 安全性:在BeaverTails-Evaluation和XSTest等安全基准测试中,TPO优化后的模型能够更有效地避免生成有害或不安全的响应。对于需要确保模型输出安全可靠的应用场景(如医疗咨询、金融建议等)具有重要意义。
    • 数学推理:TPO能提升模型在数学推理任务中的表现。在MATH-500等数学基准测试中,TPO优化后的模型在解决数学问题上的准确率显著提高。
  • HUGWBC – 上海交大联合上海 AI Lab 推出的人形机器人全身控制器

    HUGWBC是什么

    HUGWBC(Humanoid Unified and General Whole-Body Controller)是上海交通大学、上海AI Lab联合推出的人形机器人全身控制器,能实现精细的运动控制。HUGWBC基于扩展的命令空间和先进的训练技术,让机器人执行多种自然步态(如行走、跑步、跳跃、站立和单脚跳),支持实时外部上肢控制信号,实现复杂的运动操作任务。HUGWBC用强化学习在模拟环境中训练,用不对称训练框架(AAC)将策略直接迁移到真实机器人上。

    HUGWBC

    HUGWBC的主要功能

    • 支持多种步态:支持控制机器人执行行走、跑步、跳跃、站立和单脚跳等多种步态。
    • 精细调整参数:支持调整步态频率、脚摆高度、身体高度、腰部旋转和身体俯仰角等参数,适应不同的任务需求。
    • 实时外部干预:支持上肢的实时外部控制信号(如遥操作或运动重定向),让机器人在执行运动任务时进行复杂的操作。
    • 高鲁棒性和适应性:HUGWBC能适应不同的地形和外部干扰,保持运动的稳定性和精度。

    HUGWBC的技术原理

    • 扩展的命令空间:设计包含任务命令和行为命令的通用命令空间,灵活地控制机器人的运动和姿态。
    • 强化学习训练:基于强化学习(特别是PPO算法)在模拟环境中训练控制策略,定义奖励函数优化机器人的运动性能。
    • 不对称训练框架:采用不对称训练框架(AAC),批评网络访问所有特权信息,演员网络仅用真实机器人可用的传感器数据,提高策略的泛化能力。
    • 对称性损失:引入对称性损失函数,鼓励策略生成自然且对称的运动,提高运动的稳定性和效率。
    • 干预训练:在训练中引入外部干预信号,适应上肢的实时控制,且保持下肢运动的稳定性和精度。
    • 脚轨迹规划:用五次多项式轨迹规划方法,确保脚在摆动阶段的平滑运动,提高运动的自然性和稳定性。

    HUGWBC的项目地址

    HUGWBC的应用场景

    • 复杂地形导航:控制人形机器人在不平坦的地形上行走、跑步和跳跃,适应各种复杂的环境,如崎岖的山路、废墟或建筑工地等,执行搜索和救援任务。
    • 动态任务执行:支持机器人进行高动态任务,如快速奔跑、跳跃和单脚跳,在需要快速反应和高机动性的场景中发挥作用,例如体育赛事辅助或紧急响应任务。
    • 人机协作任务:基于实时外部上肢干预功能,让人形机器人与人类操作员协作完成复杂的任务,如搬运、装配或精细操作,提高工作效率和安全性。
    • 服务机器人应用:在家庭或服务场所中,让人形机器人执行日常任务,如清洁、搬运物品或协助老年人和残疾人,提供更加自然和灵活的服务。
    • 科学研究与开发:开发和测试新的运动控制算法、人机交互技术和机器人感知能力,推动人形机器人技术的进一步发展。
  • YAYI-Ultra – 中科闻歌推出的混合专家模型

    YAYI-Ultra是什么

    YAYI-Ultra (雅意)是中科闻歌研发的企业级大语言模型的旗舰版本,具备强大的多领域专业能力和多模态内容生成能力。支持数学、代码、金融、舆情、中医、安全等多个领域的专家组合,能缓解垂直领域迁移中的“跷跷板”现象。YAYI-Ultra 支持最长128k的输入和更长的上下文窗口,具备1000万+图文数据对齐的多模态能力。支持多轮对话角色扮演、内容安全风控以及10+智能插件调用。

    YAYI 雅意

    YAYI-Ultra的主要功能

    • 多领域专业能力:YAYI-Ultra 是混合专家模型,支持数学、代码、金融、舆情、中医、安全等多种领域专家组合,缓解稠密模型在垂直领域迁移过程中普遍存在的“跷跷板”现象。
    • 多模态内容生成:支持图文并茂的输出,能根据用户的问题从知识库中提取相关信息,同步给出对应的图片内容。
    • 超长文输出:支持最长20万字输入和10万字超长输出,形成从“输入理解”到“内容创作”的全链路长文本能力闭环。
    • 数据分析与可视化:能准确完成数据分析、计算和图表绘制任务。
    • 复杂任务智能规划:YAYI-Ultra 增强了多工具串行调用场景下的规划合理性,能将复杂任务拆解为多个子任务,通过调用搜索引擎、代码解释器、图像解析等基础工具,以及新闻热榜追踪、传播影响力分析等垂直领域工具来完成任务。
    • 联网智能创作:支持联网收集信息完成创作,例如写一篇关于中国儒家文化发展历史的分析报告。

    YAYI-Ultra的技术原理

    • 混合专家架构:YAYI-Ultra 采用混合专家模型架构,支持多种领域专家组合,如数学、代码、金融、舆情、中医、安全等。能显著缓解稠密模型在垂直领域迁移过程中普遍存在的“跷跷板”现象,为不同领域提供高精度、低能耗的智能化解决方案。
    • 指令微调与数据驱动:YAYI-Ultra 的训练基于大规模的高质量多语言语料,结合指令微调技术,在不同领域和任务上表现出色。

    YAYI-Ultra的评测表现

    在OpenCompass大模型公开学术榜单中,YAYI-Ultra以64.5分首次闯入前十,成为TOP10中五个中国大模型之一。具体表现如下:

    • 代码生成:在LiveCodeBench中排名第五,表现优于GPT-4o-20241120版本。
    • 复杂指令理解:在IFEval中排名第九。
    • 知识推理能力:在MMLU-Pro中排名第九。

    YAYI-Ultra的项目地址

    YAYI-Ultra的应用场景

    • 媒体领域:帮助客户将内容创作时间缩短30%-50%,内容发布频率提升20%-40%,内容差错率从5%降至0.5%左右。
    • 医疗领域:基于YAYI的大医金匮中医大模型,可精准诊断500余种常见病症,辨证推理准确率高达90%,并面向C端用户推出了“大医金匮”中医健康管理APP。
    • 财税领域:基于YAYI的财税知识大模型,模型回答准确率90.1%,高于其他同类型模型,客户实现24小时不间断的咨询服务。