Category: AI项目和框架

  • AlphaQubit – 谷歌推出的量子错误解码器

    AlphaQubit是什么

    AlphaQubit是谷歌推出基于AI技术的量子错误解码器,用深度学习架构Transformers识别和纠正量子计算中的错误。AlphaQubit基于精确的误差识别,助力量子计算机实现长时间、大规模的可靠计算,对于推动量子计算的实用化具有重要意义。AlphaQubit在谷歌的Sycamore量子处理器上经过训练和测试,展现出比现有技术更高的错误识别精度,为量子纠错领域树立新的标准。

    AlphaQubit

    AlphaQubit的主要功能

    • 错误识别与纠正:识别量子计算机中的计算错误,进行纠正,提高量子计算的准确性和可靠性。
    • 基于AI的解码:用机器学习技术预测和纠正量子比特(量子位)的错误。
    • 性能优化:优化量子纠错过程,提高量子计算机的性能,能执行更复杂、更长时间的计算任务。
    • 泛化能力:泛化到超出训练数据的场景,在训练中未遇到的新情况下能保持良好性能。

    AlphaQubit的技术原理

    • 量子纠错码:基于量子纠错码,特别是表面码(surface code),基于物理量子比特的冗余编码逻辑量子信息的方法。
    • 一致性检查:定期对量子比特进行一致性检查检测错误,检查是基于测量量子比特的X和Z稳定子完成的。
    • 神经网络架构:基于Transformers的神经网络架构,架构在自然语言处理等领域显示出强大的性能。
    • 输入与输出:将一致性检查的结果作为输入,用神经网络处理后,预测逻辑量子比特在实验结束时的状态是否发生错误。
    • 训练与微调:首先在模拟数据上进行预训练,然后用来自特定量子处理器的实验数据进行微调,适应实际的硬件特性。
    • 软读出与泄漏信息:基于软读出(soft readouts)和泄漏(leakage)信息,提供关于量子比特状态的额外信息,提高错误纠正的准确性。

    AlphaQubit的项目地址

    AlphaQubit的应用场景

    • 量子计算机开发:直接应用在量子计算机的开发中,提高量子处理器的稳定性和准确性,执行更复杂的计算任务。
    • 药物发现:在药物研发领域,量子计算机模拟分子和化学反应,确保量子计算结果的准确性,加速新药的发现和开发。
    • 材料设计:量子计算机精确模拟材料的电子结构,提高模拟的准确性,在新材料设计和发现中发挥作用。
    • 密码学:量子计算机在破解传统加密算法方面,能提高量子计算机在密码学领域的应用效率和安全性。
    • 优化问题:量子计算机在解决优化问题方面,帮助提高量子优化算法的准确性,应用于物流、金融等领域。
  • Samsung Gauss2 – 三星推出的第二代多模态生成式AI模型

    Samsung Gauss2是什么

    Samsung Gauss2是三星公司推出的第二代多模态生成式AI模型,能提升Galaxy AI功能的性能和效率。Samsung Gauss2能同时处理文本、代码和图像等多种数据类型。Samsung Gauss2分为三个版本:精简版(Compact)、均衡版(Balanced)和至尊版(Supreme),适应不同的计算环境和应用场景。模型支持多种语言和编程语言,性能比前代提升1.5到3倍,显著减少用户等待时间。三星已在内部广泛应用Samsung Gauss2提高员工的工作效率,特别是在编码辅助、文档摘要、邮件撰写和翻译等方面。

    Samsung Gauss2

    Samsung Gauss2的主要功能

    • 多模态输入处理:同时处理文本、代码和图像等多种数据类型。
    • 个性化AI功能:集成知识图谱技术,提供个性化的用户体验。
    • 提高效率和性能:在不同设备上提供更快的处理速度和更高的效率。
    • 设备独立运行:精简版在没有互联网连接的情况下在设备上独立运行。
    • 专家混合技术:至尊版利用“专家混合”技术,选择最适合的专家模型执行特定任务。
    • 多语言和编程语言支持:支持9到14种语言和多种编程语言,增强多语言文本生成和代码编写的能力。

    Samsung Gauss2的技术原理

    • 多模态学习:理解和处理多种类型的数据输入,需要复杂的算法解析和学习不同数据模式之间的关系。
    • 模型优化:优化模型结构,在不同的设备上高效运行。
    • 知识图谱集成:集成知识图谱技术,提供更加个性化的服务和功能。
    • 专家混合技术:在至尊版中,用“专家混合”技术,一种集成多个专家模型的方法,根据任务需求动态选择最合适的模型。
    • 稳定训练技术:三星自主研发的稳定训练技术,确保模型在训练过程中的稳定性和准确性。
    • 定制化分词器:为提高处理文本数据的效率和准确性,采用定制化的分词器技术。

    Samsung Gauss2的项目地址

    Samsung Gauss2的应用场景

    • 智能手机和平板电脑:在聊天应用中提供智能回复建议。
    • 笔记本电脑: -在编程时提供代码自动补全和错误检测。
    • 家用电器:基于语音识别和自然语言处理技术,控制智能家电。
    • 企业内部应用:为软件开发者提供代码编写辅助,提高编码效率。
    • 客户服务:自动分类和总结客户电话,提高客服效率。
    • 内容创作:将草图转换为详细图像,辅助设计师和艺术家
  • DeepSeek-R1-Lite – 深度求索推出的新一代AI推理模型,媲美OpenAI o1-preview

    DeepSeek-R1-Lite是什么

    DeepSeek-R1-Lite是深度求索推出的新一代AI推理模型,DeepSeek-R1-Lite用强化学习训练,具备长思维链推理能力,能实时展示推理思考过程,性能在多个基准测试中超越GPT-4等模型。模型在数学、编程和复杂逻辑推理任务上表现出色,提供媲美OpenAI o1-preview的推理效果。DeepSeek-R1-Lite拥有“深度思考”模式,专门针对复杂推理问题设计,展现出更高的效率和准确率。DeepSeek-R1-Lite 只是一个较小的基座模型,仅支持网页使用,暂不支持 API 调用。正式版 DeepSeek-R1 模型即将完全开源,并公开技术报告,支持部署 API 服务。

    DeepSeek-R1-Lite

    DeepSeek-R1-Lite的主要功能

    • 复杂逻辑推理:擅长处理数学问题和编程难题等需要复杂逻辑推理的任务。
    • 长思维链推理:能进行长达数万字的推理过程,包含大量的反思和验证步骤。
    • 透明推理过程:实时展示AI的思考过程,提高模型的可解释性,消除黑盒问题。
    • 持续迭代:目前处于迭代开发阶段,未来将完全开源,提供API服务,支持更广泛的应用场景。

    如何使用DeepSeek-R1-Lite

    登录DeepSeek的官方网站,选择“深度思考”模式,开启与 DeepSeek-R1-Lite 预览版的对话,每天限量50次。

    DeepSeek-R1-Lite的应用场景

    • 教育领域:作为教学辅助工具,帮助学生解决数学和编程等学科的复杂问题。
    • 科研工作:在科研中辅助进行数据分析和复杂问题的逻辑推理,提高研究效率。
    • 软件开发:辅助程序员进行代码审查、错误调试和算法优化。
    • 金融分析:在金融领域中进行风险评估和市场趋势分析。
    • 医疗诊断:辅助医生进行病例分析和治疗方案的制定。
  • AtomThink – 华为诺亚方舟联合多所高校推出的多模态数学推理框架

    AtomThink是什么

    AtomThink是中山大学、香港科技大学、上海交通大学、香港大学及华为诺亚方舟实验室的研究人员共同推出的多模态数学推理框架。框架基于构建长链的思维(CoT)引导多模态大型语言模型(MLLMs)进行复杂推理,包含自动CoT注释引擎、原子步骤微调和多种搜索策略。AtomThink基于提升原子步骤的质量,显著增强MLLMs在解决数学问题时的推理能力,为开发通用的慢思维模型提供新的方向。

    AtomThink

    AtomThink的主要功能

    • CoT注释引擎:自动生成高质量的链式思考(Chain-of-Thought,CoT)注释,解决视觉数学数据质量不足的问题。
    • 原子步骤微调策略:联合优化多模态大型语言模型(MLLM)和策略奖励模型(Policy Reward Model,PRM),实现逐步推理。
    • 搜索策略:提供四种不同的搜索策略,与PRM结合使用,完成复杂的推理任务。
    • 数据集构建:提出AtomMATH,一个大规模多模态数据集,包含长CoTs,用在训练和评估模型。
    • 原子能力评估:设计一种基于结果监督的原子能力评估方法,评估MLLMs在生成每种原子步骤时的能力。

    AtomThink的技术原理

    • 慢思考框架:AtomThink框架的核心思想是“慢思考”,基于逐步构建长CoT指导MLLMs进行复杂推理,不依赖于快速直接的预测。
    • 动态提示策略:基于动态提示策略,驱动MLLMs迭代构建状态推理路径,每个路径节点代表一个推理步骤,包括前一阶段、当前状态和可能的行动。
    • 短CoT增强:基于LLMs将现有的短CoT注释语义分割成多个离散步骤,专注于解决推理过程中的单个原子问题。
    • 多模态数据集:从多个数据源采样数学数据,基于动态提示和短CoT增强生成多步骤推理路径,构建AtomMATH数据集。
    • 原子步骤微调:在AtomMATH数据集上进行微调,让MLLM能学习基于原子步骤的推理模式。

    AtomThink的项目地址

    AtomThink的应用场景

    • 教育辅助:作为智能辅导系统,为学生提供数学问题的逐步解答和解释。
    • 自动化测试与评估:在在线考试系统中自动生成和评分数学试题。
    • 学术研究:辅助研究者探索和解决复杂的数学问题。
    • 软件开发:帮助开发者自动生成和调试数学计算相关的代码。
    • 智能客服和技术支持:在需要数学计算或推理的客服场景中提供支持。
  • BlueLM-V-3B – ViVo联合香港中文大学推出的算法和系统协同设计方法

    BlueLM-V-3B是什么

    BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法,支持高效部署多模态大型语言模型(MLLM)至移动设备。模型以小尺寸(2.7B语言参数和400M视觉参数)、快速度(24.4 token/s生成速度)和强性能(OpenCompass基准测试中得分66.1)为特点,基于优化动态分辨率方案和硬件感知部署,提升模型在手机上的推理效率和性能。

    BlueLM-V-3B

    BlueLM-V-3B的主要功能

    • 多模态理解:处理和整合文本、图像等多种数据形式,提供更丰富的交互和深入的上下文理解。
    • 实时处理:在移动设备上实现实时响应,适用于需要快速反馈的场景,如增强现实或实时翻译。
    • 隐私保护:支持在设备上进行本地处理,减少数据传输,增强用户隐私保护。
    • 高效率部署:优化模型适应移动设备的计算和内存限制,确保在资源受限的硬件上高效运行。
    • 高性能:在参数量相对较小的情况下,实现与更大参数量模型相媲美的性能。
    • 跨语言能力:支持多语言理解,增强模型在不同语言环境下的适用性。

    BlueLM-V-3B的技术原理

    • 算法设计
      • 动态分辨率处理:重新设计动态图像分辨率策略,适应高分辨率图像理解,减少图像令牌数量,降低部署复杂性。
      • 宽松的宽高比匹配方法:引入参数α,选择更合适的宽高比,减少图像放大,优化训练和部署效率。
    • 系统设计
      • 批量图像编码:用NPU的并行处理能力,对图像补丁进行批量处理,加速图像编码过程。
      • 流水线并行处理:在图像编码过程中,设计流水线并行处理,隐藏Conv2D操作的执行延迟。
      • 令牌下采样器:基于合并和融合信息,减少图像令牌数量,适应NPU的处理能力。
      • 分块计算:为处理长输入令牌,采用分块策略,平衡并行处理和NPU性能。
    • 模型量化:用INT8和INT4精度量化模型权重,保持LLM激活的INT16和ViT激活的FP16精度,平衡计算效率和模型准确性。
    • 整体框架:在模型初始化时同时加载ViT和LLM模型,用户上传图像后立即开始处理,同时输入指令,提高响应速度和内存使用效率。

    BlueLM-V-3B的项目地址

    BlueLM-V-3B的应用场景

    • 增强现实(AR):在移动设备上提供实时的增强现实体验,例如手机摄像头识别现实世界中的物体,并提供相关信息。
    • 实时翻译:在跨语言交流中,实时翻译语音或图像中的文字,帮助用户克服语言障碍。
    • 教育辅助:作为学习工具,帮助学生理解复杂的概念,提供图像和文本的互动式学习体验。
    • 视觉问答(VQA):用户基于拍照或上传图片,询问图像内容相关问题,模型提供准确的答案。
    • 图像和文档理解:在办公自动化中,理解和处理图像和文档中的内容,如自动识别发票、合同等文档信息。
  • EyeDiff – 文本到图像扩散模型,自然语言生成多模态眼科图像

    EyeDiff是什么

    EyeDiff是文本到图像的扩散模型,基于自然语言提示生成多模态眼科图像,提高常见和罕见眼病的诊断准确性。模型在多个大规模数据集上训练,能准确捕捉关键病变特征,并与文本提示高度一致。基于集成生成的图像,EyeDiff显著提升检测少数类别和罕见眼病的准确性,有效解决数据不平衡问题,为眼科领域专家级疾病诊断模型的开发提供新方案。

    EyeDiff

    EyeDiff的主要功能

    • 文本到图像生成:根据自然语言提示生成多模态眼科图像。
    • 诊断能力提升:基于生成的图像提高对常见和罕见眼病的诊断准确性。
    • 数据不平衡解决:在罕见疾病中,基于生成图像解决数据不足和不平衡问题。
    • 数据增强:为深度学习模型提供合成训练数据,增强模型的泛化能力。

    EyeDiff的技术原理

    • 基于Stable Diffusion(SD)模型:基于SD v1-5,一个先进的文本到图像生成模型,在潜在空间中进行去噪处理生成与输入文本高度一致的图像。
    • 多模态数据训练:在包含14种眼科图像模态和80多种眼病的大规模数据集上进行训练,学习图像分布与对应文本描述之间的关系。
    • 文本编码与图像特征融合:用CLIP文本编码器处理文本提示,基于交叉注意力机制将其与图像特征结合,确保生成的图像准确反映文本提示。
    • 潜在扩散模型(LDM):基于潜在扩散模型,模型由时间条件UNets组成,根据噪声图像潜在表示、时间步和文本嵌入输入减少噪声。
    • 图像质量评估:基于VQAScore和人类专家评估生成图像的质量,确保生成的图像与文本提示高度一致。
    • 下游疾病诊断任务:将生成的图像用于增强下游疾病诊断任务,比较不同模型(原始真实图像、过采样图像和EyeDiff生成图像)的性能评估EyeDiff的有效性。

    EyeDiff的项目地址

    EyeDiff的应用场景

    • 自动疾病筛查:辅助自动化筛查系统,基于生成的图像增强模型的诊断能力,提高对常见和罕见眼病的识别率。
    • 数据增强:在眼病数据集不足,尤其是罕见眼病数据稀缺的情况下,生成合成图像,用在数据增强,改善模型训练效果。
    • 跨中心数据共享:生成隐私保护的图像,有助于在保护患者隐私的前提下,促进不同医疗机构之间的数据共享和合作研究。
    • 教育和培训:生成的图像用在医学教育和专业培训,提供给眼科医生和学生更多的案例学习,尤其是在罕见病案例难以获得的情况下。
    • 临床研究:在临床研究中,帮助生成标准化和规范化的图像数据,研究眼病的发病机制、病程进展和治疗效果。
  • KuaiFormer – 快手推出的检索框架,基于Transformer

    KuaiFormer是什么

    KuaiFormer是快手技术团队推出的基于Transformer的检索框架,用在大规模内容推荐系统。基于重新定义检索流程,从传统的分数估计任务转变为Transformer驱动的“下一个动作预测”范式,有效进行实时兴趣获取和多兴趣提取,显著提升检索性能。KuaiFormer用多兴趣查询Token、自适应序列压缩机制,实现在亿级候选集上的稳定训练。已在2024 年 5 月集成到快手 App 的短视频推荐系统,为超过4亿日活用户提供服务,显著增加用户日均使用时长。

    KuaiFormer

    KuaiFormer的主要功能

    • 多兴趣提取:引入多个查询Token捕捉用户的多样化兴趣,模型能更好地理解和预测用户的复杂兴趣。
    • 自适应序列压缩:为提高长序列建模的效率,KuaiFormer设计自适应序列压缩机制,基于压缩早期观看的视频序列减少输入序列长度,保留最新的视频信息。
    • 稳定训练技术:KuaiFormer用一种定制的softmax学习目标和LogQ校正方法,稳定地训练模型,在面对亿级候选集时能保持性能。
    • 实时推荐:实时响应用户的请求,从数十亿的选项中快速选出与用户实时兴趣相关的候选项目。

    KuaiFormer的技术原理

    • Transformer架构:基于自注意力机制捕捉用户行为序列中的复杂依赖关系。
    • Next Action Prediction:KuaiFormer将检索过程转变为预测用户的下一个动作,有助于更准确地捕捉用户的实时兴趣。
    • 多兴趣Query Token:受到BERT中[CLS] Token的启发,引入多个可学习的Query Token,结合多兴趣训练策略,从历史项目序列中提取不同的用户兴趣表示。
    • 自适应Item压缩机制:KuaiFormer将早期项目序列分组并压缩,减少输入序列长度,同时对最新项目进行细粒度建模。
    • Smooth In-Batch Softmax Loss:KuaiFormer基于In-Batch Softmax作为学习目标,应用LogQ校正方法纠正采样偏差。

    KuaiFormer的项目地址

    KuaiFormer的应用场景

    • 短视频推荐:快手App的短视频推荐系统,分析用户的历史观看行为和兴趣,为用户推荐可能感兴趣的新视频。
    • 内容发现:在内容发现方面,帮助用户探索和发现新内容,增加内容的多样性和新颖性,提升用户体验。
    • 个性化推荐:捕捉用户的多维兴趣,提供更加个性化的推荐,满足用户的个性化需求。
    • 实时推荐系统:实时响应用户的行为变化,快速更新推荐列表,适用于需要实时推荐更新的场景。
    • 大规模数据处理:在处理数十亿级别的视频库时,KuaiFormer 的高效率和可扩展性成为大规模数据处理的理想选择。
  • XiYan-SQL – 阿里推出文本到SQL的多生成器集成框架

    XiYan-SQL是什么

    XiYan-SQL是阿里巴巴推出的自然语言到SQL(NL2SQL)框架,基于多生成器集成策略,结合提示工程和监督微调,提升SQL查询生成质量。XiYan-SQL引入M-Schema半结构化架构表示,增强对数据库结构的理解,包括数据类型、主键和示例值。XiYan-SQL基于三阶段流程生成和优化SQL查询,包括架构链接、基于示例学习(ICL)和SFT的生成器,及纠错和选择模型。

    XiYan-SQL

    XiYan-SQL的主要功能

    • 自然语言理解:理解用户的自然语言查询请求,将其转换为SQL查询语句。
    • 数据库结构理解:基于M-Schema架构表示,理解数据库的结构,包括表、字段、数据类型等。
    • SQL查询生成:根据用户的自然语言请求和数据库结构,生成相应的SQL查询语句。
    • 查询优化:对生成的SQL查询进行优化以提高查询效率和准确性。
    • 错误纠正:在生成SQL查询的过程中,识别并纠正潜在的错误。
    • 多数据库适应性:适应不同类型的数据库,包括关系型和非关系型数据库。

    XiYan-SQL的技术原理

    • 多生成器集成策略:XiYan-SQL结合多个生成器,每个生成器负责生成SQL的不同部分,提高生成质量。
    • 提示工程(Prompt Engineering):基于精心设计的提示,引导模型更好地理解用户的查询意图。
    • 监督微调(SFT):在预训练模型的基础上,监督学习对模型进行微调,适应特定的数据库结构和查询需求。
    • M-Schema架构表示:XiYan-SQL引入M-Schema,一种半结构化的数据库架构表示方法,包含数据库的元信息,如表名、字段名、数据类型等,增强模型对数据库结构的理解。
    • 三阶段流程
      • 架构链接:识别和链接数据库架构中的相关元素。
      • 生成器:基于链接的架构信息和用户的查询意图,生成SQL查询候选。
      • 优化和选择:基于纠错模型和选择模型对生成的SQL查询进行优化和筛选,确保生成的查询语句是准确和高效的。

    XiYan-SQL的项目地址

    XiYan-SQL的应用场景

    • 数据库查询简化:非技术用户用自然语言直接查询数据库,无需学习复杂的SQL语法。
    • 数据分析师工具:数据分析师用自然语言描述数据需求,XiYan-SQL自动生成相应的SQL查询,提高工作效率。
    • 智能助手和聊天机器人:集成到智能助手或聊天机器人中,理解用户的查询请求并直接从数据库中检索信息。
    • 教育和培训:在教育领域,帮助学生和新手更容易地理解和学习数据库查询语言。
    • 业务智能(BI)工具:在BI工具中,作为后端处理引擎,将用户的自然语言查询转换为数据库可以理解的查询语句。
  • Verifier Engineering – 中科院、阿里、小红书联合推出的新型后训练范式

    Verifier Engineering是什么

    Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engineering基于自动化验证器执行验证任务并向基础模型提供反馈,分为搜索、验证和反馈三个阶段,优化模型性能。基于闭环反馈机制,强化模型的泛化能力,是实现人工通用智能的重要步骤。

    Verifier Engineering

    Verifier Engineering的主要功能

    • 搜索(Search):根据给定指令,从模型输出分布中采样代表性或潜在问题的样本。
    • 验证(Verify):用各种验证器(如规则检测、评估指标或手动注释)来评估生成的候选响应。
    • 反馈(Feedback):基于验证结果监督式微调或上下文学习等方法增强模型性能。
    • 提升模型性能:基于闭环反馈循环,持续改进模型的准确性和可靠性。

    Verifier Engineering的技术原理

    • 目标条件马尔可夫决策过程(GC-MDP):将验证器工程形式化为GC-MDP,包括状态空间、动作空间、转移函数、目标空间、目标分布和奖励函数。
    • 搜索结构:线性搜索和树搜索,在状态-动作空间中导航,平衡探索和利用。
    • 验证器分类:根据验证形式(二进制、分数、排名、文本反馈)、验证粒度(标记级、思想级、轨迹级)、验证器来源(基于程序、基于模型)和是否需要额外训练分类验证器。
    • 反馈方法
      • 基于训练的反馈:基于数据高效地更新模型参数。
      • 基于推理的反馈:在推理过程中修改输入或策略,不改变模型参数。

    Verifier Engineering的项目地址

    Verifier Engineering的应用场景

    • 自然语言处理(NLP):机器翻译、文本摘要、情感分析、问答系统、对话系统等,基于验证器工程提升模型的语言理解和生成能力。
    • 代码生成与编程辅助:辅助开发人员编写、调试代码,自动生成代码片段,及优化代码质量。
    • 教育和学术研究:构建智能教育助手,提供个性化学习建议,自动评估学生作业和论文。
    • 内容审核与安全:检测和过滤不当内容,如仇恨言论、假信息和违反政策的内容,确保平台内容的安全性。
    • 知识问答和搜索引擎:提高搜索引擎的准确性,提供更相关和准确的信息检索结果。
  • MARS – 字节推出优化大模型训练效率的框架

    MARS是什么

    MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归动量技术优化梯度估计。MARS框架灵活,支持全矩阵或对角Hessian近似,衍生出基于AdamW、Lion和Shampoo的三种优化算法实例。实验结果表明,MARS在训练GPT-2模型时,相较传统的AdamW优化器,展现出卓越的性能。

    MARS

    MARS的主要功能

    • 提高训练效率:MARS结合预条件梯度方法和方差减少技术,提高大型模型训练的效率,尤其是在训练深度神经网络和大型语言模型时。
    • 统一优化框架:提供适应不同Hessian近似方法的统一框架,包括全矩阵和对角矩阵近似。
    • 算法实例化:在MARS框架下,实现三种具体的优化算法实例:MARS-AdamW、MARS-Lion和MARS-Shampoo,分别基于不同的预条件梯度更新策略。
    • 方差减少:引入缩放随机递归动量技术,有效减少训练过程中的梯度方差,加速模型收敛。

    MARS的技术原理

    • 预条件梯度方法:基于预条件梯度方法调整学习率,让每个参数或参数组有定制的学习率,适应其局部曲率。
    • 方差减少技术:引入方差减少技术,如STORM(Stochastic Recursive Momentum),减少随机梯度的方差,加速优化过程。
    • 缩放随机递归动量:在STORM的基础上引入缩放参数,调整方差减少的强度,定义新的梯度估计器。
    • 梯度裁剪和指数移动平均:为优化训练稳定性,MARS在梯度估计器中应用梯度裁剪,用指数移动平均(EMA)计算递归动量。

    MARS的项目地址

    MARS的应用场景

    • 深度学习模型训练:训练深度神经网络,尤其是参数众多的复杂模型。
    • 大规模语言模型:优化大型语言模型的训练过程,如GPT系列模型,提高训练效率和模型性能。
    • 计算机视觉任务:在图像分类、目标检测等计算机视觉领域中,加速模型的训练和提高模型的泛化能力。
    • 强化学习算法:在强化学习中,优化策略网络或价值函数的参数,尤其是在面对高方差梯度时。
    • 推荐系统模型:在构建推荐系统时,优化模型参数,更好地处理大规模用户和物品特征。