Category: AI项目和框架

  • PPTAgent – 中科院推出的自动生成高质量演示文稿框架

    PPTAgent是什么

    PPTAgent是中国科学院软件研究所中文信息处理实验室推出的创新框架,基于模仿人类工作流程的两阶段编辑方法,从文档自动生成高质量的演示文稿。PPTAgent分析参考演示文稿,提取结构模式和内容模式,基于代码动作草拟大纲并生成幻灯片,确保内容的一致性和对齐。PPTAgent基于大型语言模型(LLM)的能力,将演示文稿生成过程分解为迭代的编辑工作流程,提高生成演示文稿的连贯性和适应性,还能更好地处理复杂的格式问题。 PPTAgent引入PPT Eval评估框架,从内容、设计和连贯性三个维度全面评估生成的演示文稿质量,为未来的演示文稿生成研究提供宝贵的资源和见解。

    PPTAgent

    PPTAgent的主要功能

    • 分析参考演示文稿:理解其结构模式和内容模式。
    • 草拟大纲:基于分析结果,创建详细的演示文稿大纲。
    • 生成幻灯片:基于代码动作,将大纲转化为具体的幻灯片内容,确保内容的一致性和对齐。
    • 编辑和修正:提供反馈机制,对生成的幻灯片进行编辑和自我修正,提高生成文稿的质量。
    • 综合评估:基于PPT PPT Eval框架,从内容、设计和连贯性三个维度评估生成的演示文稿质量。

    PPTAgent的技术原理

    • 第一阶段:演示文稿分析
      • 幻灯片聚类
        • 将幻灯片分为两类:支持演示文稿结构的幻灯片(如开场幻灯片)和传达特定内容的幻灯片(如项目符号幻灯片)。
        • 用不同的聚类算法,基于文本或视觉特征对幻灯片进行聚类。对于结构幻灯片,用LLM推断每个幻灯片的功能角色;对于内容幻灯片,用层次聚类方法基于图像相似性进行聚类。
      • 模式提取
        • 进一步分析幻灯片的内容模式,确保编辑的目的性。
        • 用LLM的情境感知能力,提取多样化的内容模式。每个元素通过类别、模态和内容来表示,基于LLM的指令遵循和结构化输出能力提取每个幻灯片的模式。
    • 第二阶段:演示文稿生成
      • 大纲生成
        • 指导LLM创建包含多个条目的结构化大纲。每个条目指定参考幻灯片、相关文档部分索引及新幻灯片的标题和描述。
        • 用LLM的规划和总结能力,结合文档内容和参考演示文稿的语义信息,生成连贯且吸引人的大纲,指导后续的生成过程。
      • 幻灯片生成
        • 在大纲的指导下,基于迭代编辑参考幻灯片来产生新幻灯片。
        • 实现五个专门的API,支持LLM编辑、删除和复制文本元素,及编辑和删除视觉元素。
        • 将幻灯片从原始XML格式转换为HTML表示,使LLM更容易理解和操作。
        • LLM接收两种输入:基于部分索引的源文档文本和可用图像的标题。新幻灯片内容根据内容模式生成。
        • LLM用生成的内容、参考幻灯片的HTML表示和API文档,产生可执行的编辑动作。在REPL环境中执行,系统在执行过程中检测错误并提供实时反馈,LLM基于中间结果迭代优化编辑动作,增强生成过程的稳健性。

    PPTAgent的项目地址

    PPTAgent的应用场景

    • 教育领域:教师快速生成课程讲解的演示文稿,包含关键知识点、图表和示例,提高教学效率和学生的学习兴趣。
    • 企业培训:企业生成新员工培训的演示文稿,介绍公司文化、规章制度、业务流程等内容,帮助新员工快速了解公司环境。
    • 市场营销:市场团队生成产品推广演示文稿,包含产品特点、市场分析、用户案例等内容,用在客户会议或市场活动。
    • 项目管理:项目团队生成项目进度汇报的演示文稿,包含项目目标、进度情况、遇到的问题和解决方案等内容,用于向管理层或客户汇报。
    • 个人使用:个人生成个人演讲的演示文稿,包含演讲主题、关键观点、支持材料等内容,提高演讲效果。
  • 新言意码 – 前月之暗面明超平创立的 AI Coding 项目

    新言意码是什么

    新言意码是专注于AI编程应用开发的公司,由前月之暗面海外产品Noisee的明超平创立。公司全称深圳新言意码科技有限公司,成立于2024年9月23日,位于广东省深圳市,主要在其他技术推广服务领域经营。其产品主要面向海外市场,对标美国智能代码生成产品Cursor。新言意码已成功完成两轮融资,目前公司估值达8000万美金,投资方包括高榕资本、真格基金、五源资本、高瓴创投和IDG资本等多家一线基金。

    新言意码

    新言意码的主要功能

    • 代码生成与补全: 新言意码的AI编程工具能根据用户的自然语言描述,自动生成代码片段或完整的程序。还可以在用户编写代码时提供智能补全,提高编程效率。
    • 代码审查与优化: 能审查现有代码,提供优化建议,帮助开发者提升代码质量。能识别潜在的错误和性能瓶颈,提出改进方案。
    • 自动化测试: 新言意码能自动生成测试用例,执行自动化测试,确保代码的稳定性和可靠性。
    • 智能代码搜索: 开发者可以通过自然语言查询,快速找到所需的代码片段或相关文档。类似于专注于编程领域的搜索引擎。
    • 多语言支持: 新言意码支持多种编程语言,包括但不限于Python、Java、JavaScript等,满足不同开发者的需求。

    新言意码的应用场景

    • 软件开发: 在软件开发过程中,开发者可以通过描述功能需求,AI工具自动生成相应的代码框架。
    • 教育与学习: 对于编程学习者来说,新言意码可以作为一个学习辅助工具。能提供代码示例,解释编程概念,帮助学习者更好地理解和掌握编程知识。
    • 代码维护与重构: 在代码维护阶段,新言意码可以帮助开发者识别和修复代码中的问题。还能提供重构建议,优化代码结构,提高代码的可读性和可维护性。
    • 团队协作: 在团队开发环境中,新言意码可以作为一个协作工具。能帮助团队成员共享代码片段,统一代码风格,提高团队的协作效率。
    • 快速原型开发: 对于需要快速构建原型的场景,新言意码可以极大地缩短开发时间。开发者可以通过描述功能,AI工具快速生成可运行的原型代码。
  • Agent Laboratory – AMD 联合约翰·霍普金斯大学推出的自主科研 Agent

    Agent Laboratory是什么

    Agent Laboratory是AMD和约翰·霍普金斯大学推出,基于大型语言模型(LLM)的自主研究框架,能加速科学发现、降低成本并提高研究质量。Agent Laboratory接受人类提供的研究想法,基于文献综述、实验和报告撰写三个阶段,产生全面的研究输出,包括代码库和研究报告。Agent Laboratory支持用户在每个阶段提供反馈和指导,提高研究的整体质量。实验结果表明,Agent Laboratory能显著降低研究费用,与之前的自主研究方法相比,实现了84%的费用减少。Agent Laboratory在不同LLM后端下的表现也有所不同,其中o1-preview在有用性和报告质量方面得分最高,o1-mini在实验质量方面得分最高。

    Agent Laboratory

    Agent Laboratory的主要功能

    • 文献综述:自动收集和整理与研究主题相关的文献,为后续研究阶段提供参考。
    • 实验设计与执行:基于文献综述和研究目标,制定详细的实验计划,自动执行实验。
    • 代码生成:自动生成用于实验的机器学习代码,支持多种LLM后端,如gpt-4o、o1-mini和o1-preview。
    • 结果解释:对实验结果进行分析和解释,为撰写研究报告提供基础。
    • 报告撰写:生成结构化的研究报告,包括摘要、引言、背景、相关工作、方法、实验设置、结果和讨论等部分。
    • 用户交互:支持自主模式和共同驾驶模式,用户在每个阶段提供反馈和指导,提高研究质量。

    Agent Laboratory的技术原理

    • 基于大型语言模型(LLM):用预训练的LLM,如gpt-4o、o1-mini和o1-preview,生成自然语言文本,包括文献综述、实验计划、代码和研究报告。
    • 自主代理系统:用多个专门的代理(如PhD代理、Postdoc代理、ML Engineer代理和Professor代理)协作,完成文献检索、实验设计、代码编写、结果解释和报告撰写等任务。
    • 模块化工具:mle-solver模块自动生成和优化机器学习代码,paper-solver模块生成和优化研究报告,确保实验和报告的质量。
    • 迭代改进机制:代理在每个阶段进行自我反思,根据实验结果或错误信号生成改进措施,基于迭代优化提高代码和报告的质量。
    • 用户交互与反馈:支持自主模式和共同驾驶模式,用户在每个阶段提供反馈和指导,代理根据反馈进行调整和优化,提高研究的整体质量。

    Agent Laboratory的项目地址

    Agent Laboratory的应用场景

    • 科研文献综述:快速收集和整理相关文献,生成文献综述报告,为研究提供背景信息。
    • 实验设计与执行:制定详细实验计划,自动生成实验代码,执行实验并监控结果,提高研究效率。
    • 代码生成与优化:生成高质量的机器学习代码,支持多种编程语言和框架,基于迭代改进机制优化代码性能。
    • 结果解释与报告撰写:分析实验结果,生成结构化的研究报告,确保报告的清晰度和逻辑性。
    • 多领域研究支持:适用于机器学习、生物医学、材料科学、社会科学等多个领域,加速研究进程。
  • 日日新融合大模型 – 商汤科技推出的原生融合模态大模型

    日日新融合大模型是什么

    “日日新”融合大模型(SenseNova)是商汤科技于2025年1月10日正式推出的多模态大模型。模型实现了原生融合模态,深度推理能力与多模态信息处理能力均大幅提升,能处理文本、图像、视频等多种信息,突破了模态之间的限制在SuperCLUE和OpenCompass两大权威评测榜单均夺得第一,成为“双冠王”。

    日日新融合大模型的主要功能

    • 图像识别与分析:能准确识别和分析图像中的内容,包括模糊的文本、复杂的场景等。
    • 视频处理:可以处理视频内容,提取关键信息,进行视频编辑和生成等操作,提升视频交互体验。
    • 语音识别与合成:结合语音和自然语言处理能力,提升交互体验,如在语音客服、在线教育等场景中应用。
    • 文本处理:具备强大的文本理解和生成能力,能处理复杂的富模态文档,如表格、文本、图片、视频等融合形式的文档。
    • 数学计算与逻辑推理:能解决复杂的数学问题,如计算2的31次方和3的21次方哪个更大,用对数函数的方法进行解答。
    • 数据分析与决策支持:可以分析数据图表中的信息,提取关键要素,给出结论,为用户提供决策支持。

    日日新融合大模型的技术原理

    • 原生融合模态:模型能够同时处理文本、图像、视频等多种信息,突破了传统大语言模型仅支持单一文本输入的限制。
    • 融合模态数据合成
      • 逆渲染技术:通过逆渲染技术,将图像和文本数据进行融合,生成大量合成数据。这些合成数据在图文模态之间建立起大量的交互桥梁,使得模型能够更扎实地掌握模态之间的丰富关系。
      • 基于混合语义的图像生成:利用混合语义生成技术,进一步丰富了融合模态数据,提升了模型对多模态信息的理解能力。
    • 融合任务增强训练:构建了丰富的跨模态任务,为模型的训练提供了坚实的基础。这些任务不仅包括传统的文本处理任务,还涵盖了图像识别、视频分析等多模态任务,使模型在多种业务场景中能够有效响应用户需求。
    • 深度推理能力
      • 文理兼修:在SuperCLUE年度评测中,文科成绩以81.8分位列全球第一,理科成绩夺得金牌,其中计算维度以78.2分位列国内第一。
      • 复杂问题解决:能处理复杂的富模态文档,如表格、文本、图片、视频等融合形式的文档,并提供深入的推理支持。

    日日新融合大模型的项目地址

    日日新融合大模型的应用场景

    • 自动驾驶:处理复杂的多模态信息,提升决策能力。
    • 视频交互:提升视频内容生成、编辑和分析的效率。
    • 办公教育:高效处理复杂的富模态文档,提升办公和教育效率。
    • 金融:分析和处理多源异构数据,提供准确的风险评估和投资建议。
    • 园区管理:提升园区的管理效率和安全性。
    • 工业制造:优化生产流程和质量控制。
  • ConceptMaster – 高保真多概念视频定制生成的创新 AI 框架

    ConceptMaster是什么

    ConceptMaster是用于多概念视频定制的创新框架,能在无需测试时调优的情况下,在扩散Transformer模型上生成高质量且概念一致的定制视频。框架通过学习解耦的多概念嵌入并将其独立注入扩散模型中,有效解决了多概念视频定制中的身份解耦问题,面对高度相似的视觉概念,能保证每个概念的保真度。

    ConceptMaster的主要功能

    • 多概念视频定制:能根据给定的多个参考图像,生成包含多个概念的高质量定制视频,且无需在测试时进行额外调优。比如可根据“一个男人在海边弹吉他”和“一个女人在桥前亲吻”的参考图像,生成相应概念的视频。
    • 解决身份解耦问题:通过学习解耦的多概念嵌入,以独立的方式注入扩散模型,有效保证了具有多个身份的定制视频的质量,可精准区分不同概念的属性,即使对于高度相似的视觉概念也能保持各自的独特性。
    • 高质量数据收集:精心建立了一个数据构建管道,能系统地收集跨不同概念的精确多概念视频实体数据,为训练能够良好表示和解耦各种概念的模型提供了有力支持,收集了超过130万对涵盖人类、生物和各种物体类别的视频实体对。
    • 综合基准测试:设计了一个综合基准,从概念保真度、身份解耦能力和视频生成质量三个关键维度验证模型的有效性,涵盖了六种不同的概念组合情景,为评估多概念视频定制模型的性能提供了全面的参考。

    ConceptMaster的技术原理

    • 扩散Transformer模型基础:ConceptMaster构建于基于Transformer的潜在扩散模型之上。模型使用3D变分自编码器(3D-VAE)将视频从像素空间转换到潜在空间,在此基础上构建Transformer模型。
    • 多概念嵌入学习与注入
      • 视觉概念表示提取:使用CLIP图像编码器从给定的参考图像中提取密集的视觉标记,然后通过一个可学习的Q-Former网络,利用这些标记作为键值库进行查询,提取出更全面的视觉语义表示。
      • 解耦内部配对嵌入:将提取到的视觉表示与相应的文本标签结合,创建多模态概念表示。与直接将视觉表示与标题嵌入组合的方法不同,ConceptMaster使用T5编码器分别对每个概念标签进行编码,然后引入解耦注意力模块(DAM),对每对视觉和文本标签嵌入进行内部配对注意力操作,充分挖掘文本标签信息,增强每个概念的特定表示。
      • 多概念嵌入组合与注入:将每个概念的多模态表示组合成一个复合嵌入,然后设计了一个多概念注入器(MC-Injector),以交叉注意力的方式将其嵌入到扩散Transformer模型中。MC-Injector作为一个额外的专用交叉注意力层,位于每个Transformer块中原有文本交叉注意力层之后,能有效学习概念而不受原有文本交叉注意力的干扰,增强多个身份的表示。
    • 数据构建管道
      • 快速筛选不合适的视频:从互联网收集超过640万段视频作为源数据,通过使用PySceneDetect过滤掉包含场景转换的视频,移除低光流分数的视频以及低光照对比度的视频,确保视频数据的基本属性维持在高标准。
      • 细粒度身份信息提取:准确提取每个身份的区域和文本标签。使用LISA(基于MLLM的分割器)输入文本提示和图像,凭借强大的视觉推理能力提取实体掩码,去除过大或过小或高度碎片化的掩码,从这些掩码中得出框区域,通过CLIP分类去除误分类的区域。
    • 辅助数据集联合训练:除了构建的MCVC数据外,ConceptMaster还利用辅助数据集增强概念表示。复制了BLIPDiffusion的单概念图像数据集(约30万)以增强高特异性概念,同时纳入了CelebV单概念视频数据集(约6万)以改善人物表示。构建数据、BLIP-Diffusion和CelebV的数据采样比例为8:1:1。

    ConceptMaster的项目地址

    ConceptMaster的应用场景

    • 视频内容创作:电影、电视剧制作团队可以根据剧本中的特定场景描述,利ConceptMaster快速生成包含多个角色和道具的概念视频,为实际拍摄提供创意参考和视觉指导。
    • 动画制作:动画师可以借助ConceptMaster根据角色设计和故事情节,生成动画片段的初步版本,提高创作效率。
    • 游戏开发:游戏开发者可以用ConceptMaster生成游戏中的过场动画、角色动作演示等视频内容,丰富游戏的剧情表现和角色塑造。
    • 产品展示与推广:企业可以用ConceptMaster制作产品宣传视频,将产品的外观、功能、使用场景等多个概念融合到一个视频中。
  • Search-o1 – 人大联合清华推出自主知识检索增强的推理框架

    Search-o1是什么

    Search-o1是中国人民大学和清华大学推出的创新框架,能提升大型推理模型(LRMs)在面对复杂问题时的推理能力。基于整合代理检索增强生成(RAG)机制和Reason-in-Documents模块,让LRMs在推理过程中动态检索外部知识,填补知识空白。RAG机制支持模型自主决定何时发起搜索查询,Reason-in-Documents模块负责精炼检索到的文档,提取对当前推理步骤有用的信息,确保信息无缝集成到推理链中,保持推理的连贯性和逻辑性。Search-o1在多个复杂推理任务和开放域问答基准测试中展现卓越的性能,为构建更可靠、更通用的智能系统提供新的途径。

    Search-o1

    Search-o1的主要功能

    • 动态知识检索:在推理过程中,当模型遇到知识空白时,动态地检索外部知识,支持逐步推理。
    • 知识精炼:将检索到的文档精炼成简洁、相关的信息,确保信息无缝集成到推理链中,保持推理的连贯性。
    • 提高推理准确性:基于补充外部知识,减少因知识不足导致的推理错误,提高推理的准确性和可信度。
    • 多任务适用性:在科学、数学、编程等多个复杂推理任务及开放域问答任务中表现出色,展示了广泛的适用性。

    Search-o1的技术原理

    • 代理检索增强生成(RAG)机制
      • 自主检索:模型在推理过程中自主决定何时生成搜索查询,触发检索机制获取相关外部知识。
      • 动态迭代:检索机制在单个推理会话中多次触发,满足不同推理步骤的知识需求。
      • 特殊符号:搜索查询和检索结果被特殊符号包围,确保检索过程与推理链的无缝对接。
    • Reason-in-Documents模块
      • 文档分析:基于当前搜索查询、检索到的文档和之前的推理步骤,对文档进行深入分析。
      • 信息提取:从文档中提取与当前推理步骤直接相关的信息,确保信息的准确性和相关性。
      • 精炼输出:生成简洁、相关的信息,并将其无缝集成到推理链中,保持推理的连贯性和逻辑一致性。

    Search-o1的项目地址

    Search-o1的应用场景

    • 科学研究:在化学、物理和生物学等科学领域,动态检索和整合知识,解决复杂的科学问题,如化学反应分析、物理问题求解和生物学问题解答。
    • 数学教育:在数学问题解决和竞赛辅导中,检索数学公式、定理和解题技巧,帮助学生逐步推导出复杂数学问题的解决方案,提高解题能力。
    • 编程开发:在编程任务中,检索编程语言语法、库函数和代码优化技巧,生成正确的代码并优化现有代码的性能,提高开发效率。
    • 开放域问答:在单跳和多跳问答任务中,检索相关事实和信息,进行多步推理,准确回答各种复杂问题,提供全面的知识支持。
    • 医疗健康:在疾病诊断和治疗方案推荐中,检索症状、疾病信息、诊断方法和最新治疗指南,辅助医生进行准确诊断和提供最佳治疗建议,提升医疗决策的科学性。
  • SPAR3D – Stability AI等机构推出的单试图重建 3D 网络模型

    SPAR3D是什么

    SPAR3D是Stability AI和伊利诺伊大学香槟分校推出的,先进的单图生成3D模型方法,能从单张图像中高效重建出高质量的3D对象。SPAR3D基于两阶段设计,第一阶段用点扩散模型生成稀疏的3D点云,第二阶段结合采样的点云和输入图像生成高度详细的网格。SPAR3D结合回归模型和生成模型的优势,能准确重建图像中的可见表面,又能合理生成被遮挡部分的几何和纹理细节。SPAR3D在多个数据集上表现出色,推理速度快,支持用户对生成网格的交互式编辑,为单视图3D重建任务提供一种实用且高效的解决方案。

    SPAR3D

    SPAR3D的主要功能

    • 单视图3D重建:从单张2D图像中重建出高质量的3D网格模型,适用于增强现实、电影制作、制造业等需要3D建模的场景。
    • 快速推理:具有高效的推理速度,每个物体的重建时间仅需0.7秒,适合实时应用需求。
    • 支持用户编辑:生成的3D网格支持交互式编辑,用户基于修改点云调整未见表面的细节,如添加物体部件或改善局部细节,满足个性化需求。
    • 泛化能力强:不仅在标准数据集上表现优异,多图像和AI生成图像上实现准确的几何结构重建和良好的纹理效果,具有强大的泛化性能。

    SPAR3D的技术原理

    • 两阶段设计
      • 点采样阶段:用轻量级的点扩散模型生成稀疏的3D点云。模型基于DDPM框架,用前向过程向原始点云添加噪声,再用后向过程中的去噪器学习去除噪声,生成包含XYZ和RGB信息的点云。点扩散模型的低分辨率特性使得采样速度快,且能初步捕捉物体的基本形状和颜色信息。
      • 网格化阶段:将采样的点云和输入图像作为条件,用大型三平面Transformer生成高分辨率的三平面特征。三平面特征用于估计物体的几何、纹理、光照以及材质属性(如金属度和粗糙度)。基于可微分渲染器进行训练,将预测的几何和材质渲染成图像,与真实图像进行比较,优化模型参数,生成与输入图像高度一致且细节丰富的3D网格。
    • 点云作为中间表示:点云作为连接两个阶段的桥梁,为网格化阶段提供必要的几何和颜色信息,支持用户在点云层面上进行编辑,增强模型的灵活性和可交互性。
    • 概率建模与逆渲染:在点采样阶段,基于概率建模处理单视图3D重建中的不确定性问题,生成合理的点云分布。在网格化阶段,进行逆渲染,将点云和图像信息融合,估计出物体的详细几何结构和材质属性,解决从单张图像中分离几何、光照和材质的难题。

    SPAR3D的项目地址

    SPAR3D的应用场景

    • 家居设计:用户拍摄家中沙发照片,生成3D模型,在AR中预览不同风格沙发搭配效果,助力购买决策。
    • 电影制作:拍摄古堡遗址照片,生成古堡3D模型,特效团队在此基础上创作出符合剧情的宏伟古堡场景。
    • 工业设计:拍摄无人机原型照片,生成3D模型,设计师在模型上调整结构,优化无人机性能。
    • 游戏开发:拍摄森林照片,生成森林3D模型,开发者添加游戏元素,构建出森林探险场景。
    • 文物修复:拍摄破损佛像照片,生成3D模型,专家依此分析结构,制定修复方案,让佛像恢复原貌。
  • rStar-Math – 微软推出的小模型复杂推理与自进化SLMs的创新技术

    rStar-Math是什么

    rStar-Math是微软亚洲研究院推出的创新研究项目,基于蒙特卡洛树搜索(MCTS)驱动的深度思考,使小型语言模型(SLMs)在数学推理方面达到甚至超越OpenAI大型模型的水平。rStar-Math不依赖于从更高级模型的数据蒸馏,是用自我进化的深度思考提升模型性能。rStar-Math引入三种创新方法:代码增强的逐步验证推理轨迹合成、基于Q值的过程偏好模型(PPM)训练方法,及四轮自我进化的训练策略。rStar-Math在MATH基准测试中将Qwen2.5-Math-7B的准确率从58.8%提高到90.0%,在AIME 2024测试中平均解决53.3%的问题,超越OpenAI的o1-preview模型。rStar-Math展示了模型的内在自我反思能力,在推理过程中识别并纠正错误的步骤。

    rStar-Math

    rStar-Math的主要功能

    • 生成高质量的数学推理轨迹:基于蒙特卡洛树搜索(MCTS)生成逐步验证的推理轨迹,确保每个步骤的正确性和高质量。
    • 自我进化:用四轮自我进化,逐步提升策略模型和过程偏好模型(PPM)的性能,处理更复杂的数学问题。
    • 提高模型的准确率:在多个数学基准测试中显著提高模型的准确率,例如在MATH基准测试中将Qwen2.5-Math-7B的准确率从58.8%提高到90.0%。
    • 自我反思能力:模型能在推理过程中识别并纠正错误的步骤,展现出自我反思的能力。

    rStar-Math的技术原理

    • 代码增强的逐步验证推理轨迹合成
      • MCTS驱动的深度思考:将复杂的数学问题分解为多个单步生成任务,基于MCTS逐步构建搜索树,生成推理轨迹。
      • 代码执行验证:策略模型生成自然语言(NL)推理步骤和相应的Python代码。
      • Q值标注:基于终端引导标注和PPM增强标注两种方法,为每个步骤自动分配Q值,指导MCTS节点选择和识别高质量步骤。
    • 过程偏好模型(PPM)训练方法
      • 避免直接使用Q值:传统的Q值作为奖励标签存在噪声和不精确的问题。rStar-Math通过构建步骤级的正负偏好对,使用成对排名损失来训练PPM,提高标签的可靠性。
      • 偏好对构建:对于每个步骤,选择Q值最高的两个步骤作为正例,Q值最低的两个步骤作为负例。PPM通过这些偏好对进行训练,预测每个步骤的奖励标签。
    • 四轮自我进化
      • 初始强策略模型:第一轮用DeepSeek-Coder-V2-Instruct作为初始策略模型,进行MCTS rollout生成训练数据。
      • 可靠PPM训练:第二轮用更新后的策略模型进行更可靠的Q值标注,训练第一个可靠的PPM。
      • PPM增强MCTS:第三轮用可靠的PPM进行MCTS,生成更高质量的推理轨迹,覆盖更多的数学和竞赛级问题。
      • 解决挑战性问题:第四轮增加MCTS rollout次数和不同的随机种子,提高对竞赛级问题的覆盖率。

    rStar-Math的项目地址

    rStar-Math的应用场景

    • 教育辅导:为学生提供个性化的数学学习辅导,逐步解决复杂的数学问题,提高解题能力和理解力。
    • 科研支持:辅助数学家和科学家进行复杂的数学问题探索,生成初步的解题思路和验证步骤,加速研究进程。
    • 金融科技:在金融风险评估和量化交易中,基于精确的数学模型和推理,预测市场风险和优化交易策略。
    • 工程设计:在工程设计和系统优化中,用数学推理优化系统参数,提高系统的性能和可靠性。
    • 数据分析:在企业数据分析中,基于数学模型和推理,从大量数据中挖掘有价值的信息,进行市场预测和业务决策支持。
  • Hallo3 – 复旦联合百度开源的高动态与真实感肖像动画生成框架

    Hallo3是什么

    Hallo3是复旦大学和百度公司联合推出的,基于扩散变换器网络(Diffusion Transformer Networks)的肖像图像动画技术,能生成高度动态和逼真的视频。Hallo3基于预训练的变换器视频生成模型,有效解决现有方法在处理非正面视角、动态对象渲染和生成沉浸式背景方面的挑战。Hallo3基于新的视频骨干网络,设计身份参考网络确保视频序列中面部身份的一致性,研究了语音音频条件和运动帧机制,实现由语音音频驱动的连续视频生成。实验表明,Hallo3在生成具有多种方向的逼真肖像方面表现出色,能适应复杂姿势和动态场景,产生逼真且平滑的动画效果。

    Hallo3

    Hallo3的主要功能

    • 多视角动画生成:从不同的视角(如正面、侧面、 overhead 或低角度)生成动画肖像,突破传统方法主要依赖正面视角的限制。
    • 动态对象渲染:处理肖像周围动态对象的动画,如人物手持智能手机、麦克风或佩戴紧密贴合的物品,生成对象在视频序列中的真实运动。
    • 沉浸式背景生成:生成具有动态效果的背景,如前景中的篝火或背景中的拥挤街道场景,增强视频的真实感和沉浸感。
    • 身份一致性保持:在整个视频序列中保持肖像的身份一致性,在长时间的动画中也能准确地识别和保持人物的面部特征。
    • 语音驱动的动画:基于语音音频驱动肖像的面部表情和嘴唇动作,实现高度同步的语音和面部动画,让动画更加自然和逼真。

    Hallo3的技术原理

    • 预训练的变换器视频生成模型
      • 基础架构:CogVideoX模型作为基础架构,用3D变分自编码器(VAE)对视频数据进行压缩。模型将潜在变量与文本嵌入相结合,基于专家变换器网络进行处理。
      • 条件机制:引入三种条件机制:文本提示(ctext)、语音音频条件(caudio)和身份外观条件(cid)。主要用交叉注意力(cross-attention)和自适应层归一化(adaLN)整合这些条件信息。
    • 身份参考网络
      • 3D VAE和变换器层:用因果3D VAE结合42层变换器层的身份参考网络,从参考图像中提取身份特征,嵌入到去噪潜在代码中,基于自注意力机制增强模型对身份信息的表示和长期保持。
      • 特征融合:将参考网络生成的视觉特征与去噪网络的特征进行融合,确保生成的面部动画在长时间序列中保持一致性和连贯性。
    • 语音音频条件
      • 音频嵌入:wav2vec框架提取音频特征,生成帧特定的音频嵌入,基于线性变换层将音频嵌入转换为适合模型的表示。
      • 交叉注意力机制:在去噪网络中,交叉注意力机制将音频嵌入与潜在编码进行交互,增强生成输出的相干性和相关性,确保模型有效地捕捉驱动角色生成的音频信号。
    • 视频外推:引入运动帧作为条件信息。将生成视频的最后几帧作为后续片段生成的输入,用3D VAE处理运动帧,生成新的潜在代码,实现时间一致的长视频推理。
    • 训练和推理
      • 训练过程:分为两个阶段。第一阶段训练模型生成具有身份一致性的视频;第二阶段扩展到音频驱动的视频生成,整合音频注意力模块。
      • 推理过程:模型接收参考图像、驱动音频、文本提示和运动帧作为输入,生成具有身份一致性和嘴唇同步的视频。

    Hallo3的项目地址

    Hallo3的应用场景

    • 游戏开发:为游戏中的角色生成动态的肖像动画,使角色在游戏中的表现更加自然和逼真,提升玩家的游戏体验。
    • 电影制作:生成逼真的角色动画,提升电影和动画的视觉效果和沉浸感。
    • 社交媒体:为社交媒体用户生成动态头像,使用户的个人资料更加生动有趣,提升用户在社交媒体上的个性化体验。
    • 在线教育:生成虚拟讲师的动画,让在线课程更加生动和有趣,提高学生的学习兴趣和参与度。
    • 虚拟现实和增强现实:在VR和AR应用中生成虚拟角色,提供更加逼真的交互体验,增强用户的沉浸感和参与感。
  • 星火纪要 – 科大讯飞推出的会议交流总结和分析平台

    星火纪要是什么

    星火纪要是科大讯飞推出的集转录、总结、翻译、分析为一体的音视频处理平台,广泛应用于通用会议、访谈、销售、培训等场景。能帮助个人高效总结会议重点内容,提升工作学习效率;辅助企业从众多会议中洞察趋势与共性问题,进行更准确的组织决策。上传1小时音频文件,5分钟转录完毕,提炼仅需1分钟,角色分离准确率超95%;提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。

    星火纪要

    星火纪要的主要功能

    • 转录:能将会议、访谈等音视频内容快速转录成文字。上传1小时的音频文件,仅需5分钟即可完成转录。
    • 总结:在转录的基础上,星火纪要能够自动提炼出会议或访谈的重点内容和待办事项,生成精简的纪要。例如,提供销售、访谈等12种场景模板,转录准确率超96%,总结准确率超90%。
    • 翻译:支持将转录的内容进行翻译,方便跨语言的沟通和记录。
    • 分析:能够对会议内容进行深入分析,帮助企业从众多会议中洞察趋势与共性问题,从而进行更准确的组织决策。
    • 角色分离:能够区分会议中的不同讲话人,将不同讲话人的发言分开整理,方便后续查阅和分析,角色分离准确率超95%。
    • 智能整理:包括语篇规整功能,可以自动过滤重复词、叹词及语气词,让会议记录相对清晰、专业。
    • 一键成稿:上传音频文件后,根据用户的指令,可以一键生成所需的文档,如策划案、新闻稿件等。

    星火纪要的官网地址

    星火纪要的应用场景

    • 会议记录:能够将会议中的语音内容实时转录成文字,帮助参会人员准确记录会议内容。例如,上传1小时的音频文件,仅需5分钟即可完成转录。
    • 会议纪要生成:在转录的基础上,自动提炼出会议的重点内容和待办事项,生成精简的会议纪要。如2小时的会议内容,通过星火纪要可以实现“5分钟掌握”。
    • 角色区分:能够区分会议中的不同讲话人,将不同讲话人的发言分开整理,方便后续查阅和分析。
    • 访谈记录:将访谈过程中的对话内容转录成文字,方便后续整理和分析。
    • 客户沟通记录:记录与客户的沟通内容,便于后续跟进和分析客户的需求和反馈。