Blog

  • Songburst – AI音乐生成器,根据风格和情感描述生成原创音乐

    Songburst是什么

    Songburst是面向大众的AI音乐生成器,用户描述想要的音乐风格或情感,AI能创作出原创音轨。Songburst适用于视频、播客、游戏等多种在线内容,支持将音乐导出至Spotify和Apple Music。用户能无限下载生成的音乐,以wav或mp3格式使用,或基于Songburst提示增强器细化描述,生成更精准的音乐作品。

    Songburst

    Songburst的主要功能

    • AI音乐创作:用户描述想要的音乐风格或情感,AI根据描述生成原创音乐。
    • 多场景应用:生成的音乐用在视频游戏、在线视频、播客等多种场合。
    • 无限下载:用户无限制地下载生成的音乐作品,支持wav和mp3格式。
    • 音乐导出:用户将生成的音乐导出到Spotify和Apple Music等流媒体平台。
    • 提示增强器:Songburst提供提示增强器工具,帮助用户创建更详细、更精确的音乐生成提示。
    • 灵感示例:提供示例提示,激发用户创作灵感,帮助更好地描述想要的音乐。

    Songburst的官网地址

    Songburst的应用场景

    • 视频内容制作:为YouTube视频、社交媒体短视频、企业宣传片等提供背景音乐。
    • 播客制作:生成播客节目的开场、结尾音乐或作为背景配乐。
    • 游戏开发:为视频游戏提供背景音乐或音效,增强游戏体验。
    • 广告和营销:为广告视频、营销活动制作吸引人的音乐,提高观众的参与度和记忆度。
    • 社交媒体内容:为Instagram、TikTok等社交媒体平台的内容创作背景音乐。
  • Samsung Gauss2 – 三星推出的第二代多模态生成式AI模型

    Samsung Gauss2是什么

    Samsung Gauss2是三星公司推出的第二代多模态生成式AI模型,能提升Galaxy AI功能的性能和效率。Samsung Gauss2能同时处理文本、代码和图像等多种数据类型。Samsung Gauss2分为三个版本:精简版(Compact)、均衡版(Balanced)和至尊版(Supreme),适应不同的计算环境和应用场景。模型支持多种语言和编程语言,性能比前代提升1.5到3倍,显著减少用户等待时间。三星已在内部广泛应用Samsung Gauss2提高员工的工作效率,特别是在编码辅助、文档摘要、邮件撰写和翻译等方面。

    Samsung Gauss2

    Samsung Gauss2的主要功能

    • 多模态输入处理:同时处理文本、代码和图像等多种数据类型。
    • 个性化AI功能:集成知识图谱技术,提供个性化的用户体验。
    • 提高效率和性能:在不同设备上提供更快的处理速度和更高的效率。
    • 设备独立运行:精简版在没有互联网连接的情况下在设备上独立运行。
    • 专家混合技术:至尊版利用“专家混合”技术,选择最适合的专家模型执行特定任务。
    • 多语言和编程语言支持:支持9到14种语言和多种编程语言,增强多语言文本生成和代码编写的能力。

    Samsung Gauss2的技术原理

    • 多模态学习:理解和处理多种类型的数据输入,需要复杂的算法解析和学习不同数据模式之间的关系。
    • 模型优化:优化模型结构,在不同的设备上高效运行。
    • 知识图谱集成:集成知识图谱技术,提供更加个性化的服务和功能。
    • 专家混合技术:在至尊版中,用“专家混合”技术,一种集成多个专家模型的方法,根据任务需求动态选择最合适的模型。
    • 稳定训练技术:三星自主研发的稳定训练技术,确保模型在训练过程中的稳定性和准确性。
    • 定制化分词器:为提高处理文本数据的效率和准确性,采用定制化的分词器技术。

    Samsung Gauss2的项目地址

    Samsung Gauss2的应用场景

    • 智能手机和平板电脑:在聊天应用中提供智能回复建议。
    • 笔记本电脑: -在编程时提供代码自动补全和错误检测。
    • 家用电器:基于语音识别和自然语言处理技术,控制智能家电。
    • 企业内部应用:为软件开发者提供代码编写辅助,提高编码效率。
    • 客户服务:自动分类和总结客户电话,提高客服效率。
    • 内容创作:将草图转换为详细图像,辅助设计师和艺术家
  • Kimi翻译通 – Kimi推出的AI翻译助手

    Kimi翻译通是什么

    Kimi翻译通是Kimi智能助手推出的翻译服务,能实现中英文之间的互译,直译和意译均可支持。用户可以将PDF等格式的文档上传给翻译通,要求其翻译成中文,翻译结果语言自然流畅,复杂的专业术语也能准确翻译。适合需要翻译学术论文、专业文档的用户,帮助他们跨越语言障碍,提高阅读和理解外文资料的效率。

    Kimi翻译通

    Kimi翻译通的主要功能

    • 一键中英互译:Kimi翻译通能实现中英文之间的快速互译,支持直译、意译。
    • 长文本翻译:支持长文本的翻译,能处理专业学术论文等长篇文档的翻译和理解。
    • 分段翻译:对于篇幅过长的文档,Kimi翻译通能进行分段翻译,用户只需输入“继续”指令,就可以继续翻译下一部分。
    • 翻译准确性:Kimi翻译通的翻译速度快,语言准确流畅,复杂的专业术语也能准确翻译。
    • 文件格式支持:支持PDF、Word、Excel、PPT、TXT等多种文件格式的翻译。

    如何使用Kimi翻译通

    • 访问官网:打开Kimi官网,注册账号登录。
    • 选择Kimi+功能:在界面左侧点击Kimi+功能,选择办公提效分类,点击翻译通功能。
    • 召唤Kimi翻译通在对话框中输入@翻译通,就会召唤出Kimi的翻译通功能。
    • 上传文件选择发送需要翻译的文件,支持的文件格式包括PDF、Word、Excel、PPT、TXT等。
    • 指定翻译需求明确告诉Kimi翻译通的翻译需求,比如“请将这份文档翻译成中文”。
    • 等待翻译结果Kimi翻译通会处理文件,如果文件较长,会分批提供翻译结果。
    • 获取翻译结果翻译完成后,Kimi翻译通会提供翻译好的文本。如果需要,可以请求翻译的特定部分或者继续翻译下一部分。

    Kimi翻译通

    Kimi翻译通的应用场景

    • 学术研究:研究人员和学者经常需要阅读和理解外文文献,Kimi翻译通可以帮助快速翻译专业论文和学术资料。
    • 商务交流:在国际贸易和商务沟通中,Kimi翻译通可以协助企业翻译合同、商业报告和市场分析,确保信息的准确传达。
    • 法律文件:法律专业人士可以用Kimi翻译通来翻译法律文件和国际协议,确保法律术语的准确无误。
    • 技术文档:工程师和技术人员可以用Kimi翻译通来翻译技术手册、产品说明和开发文档。
    • 教育领域:教师和学生可以用Kimi翻译通来翻译教材、课程内容和教育研究,促进教育资源的国际化交流。
    • 旅游和文化:旅游行业可以用Kimi翻译通来翻译旅游指南、文化介绍和历史资料,为游客提供多语言服务。
  • Alpha3D – AI 3D模型生成平台,2D图像或文本自动转换3D模型

    Alpha3D是什么

    Alpha3D是创新的AI驱动的3D模型生成平台,能将2D图像或文本提示快速转换为3D模型。Alpha3D无需3D建模经验,让3D内容创作变得简单快捷,大幅降低成本和时间。平台特别适合游戏开发、XR和元宇宙领域,支持用户轻松创建和使用3D资产。

    Alpha3D

    Alpha3D的主要功能

    • 2D到3D模型生成:用户上传2D图像或用文本提示,Alpha3D将输入自动转换成3D模型。
    • 文本到3D模型生成:用户输入文本描述,Alpha3D根据描述生成相应的3D模型。
    • 与NVIDIA Omniverse集成:Alpha3D扩展其功能到NVIDIA Omniverse平台,支持用户直接在Omniverse中用Alpha3D生成的3D模型。

    Alpha3D的官网地址

    Alpha3D的产品定价

    • 免费套餐(Free):提供50个AI生成的3D资产。
    • 高级套餐(Premium):起价为每月$0.99。支持下载生成的3D资产。
    • 企业套餐(Enterprise):价格详询销售。提供无限的AI生成3D资产。

    Alpha3D

    Alpha3D的应用场景

    • 游戏开发:在游戏设计中,快速生成游戏环境、角色和道具的3D模型,加速游戏开发流程。
    • 虚拟现实(VR)和增强现实(AR):为VR和AR体验创建3D内容,如虚拟场景、交互对象等,提升用户体验。
    • 元宇宙:在构建元宇宙平台时,用于生成虚拟世界中的建筑、角色和环境。
    • 电影和动画制作:在电影和动画产业中,用于快速创建背景、道具和其他3D元素。
    • 产品设计和原型制作:设计师快速生成产品原型的3D模型,进行概念验证和设计迭代。
  • PaperFake – AI论文写作平台,10分钟内生成3万字论文初稿

    PaperFake是什么

    PaperFake是一站式论文写作平台,基于先进的大模型技术,帮助用户快速生成原创论文。用户提供论文标题和学科领域,PaperFake能在10分钟内生成3万字的论文初稿。PaperFake能有效降低AIGC痕迹,确保论文的原创性和创新性,知网查重率低于10%。PaperFake支持自动生成图表、代码,提供开题报告、答辩PPT等附加材料,满足个性化需求。所有生成的文档能自动发送至用户邮箱,使用便捷。PaperFake致力于提升论文写作效率,让学术创作变得更加轻松。

    PaperFake

    PaperFake的主要功能

    • 快速生成论文初稿:用户输入论文标题和学科,PaperFake能在10分钟内生成一篇长达3万字的论文初稿。
    • 高原创性保证:生成的论文知网查重率低于10%,确保论文的原创性和创新性。
    • 个性化定制:支持用户根据专业方向和需求定制论文题目,满足不同用户的需求。
    • 自动生成图表和代码:除文本内容,PaperFake能自动生成图表和代码,增强论文的专业性和完整性。
    • 提供附加材料:包括开题报告、答辩PPT、任务书等,为用户提供一站式的论文写作支持。
    • 学术参考文献:提供40篇学术真实的中英文参考文献,帮助用户在写作过程中引用和参考。
    • 致谢模板:提供5篇致谢模板,方便用户完成论文的致谢部分。
    • 中英文摘要:生成中英文摘要,帮助用户快速完成论文摘要的编写。
    • 便捷发送:生成的论文、开题报告、任务书等文档自动发送至用户邮箱,方便快捷。

    如何使用PaperFake

    • 访问网站:访问PaperFake的官网:paperfake.cn 。(点击获取 – AI论文工具合集
    • 输入论文信息:在指定的输入框中输入论文标题和选择相关的学科领域。帮助PaperFake的算法理解论文的主题和范围。
    • 选择额外选项:PaperFake提供定制选项,如特定的章节要求、字数限制,根据需求进行设置。
    • 生成论文:点击“生成”或类似的按钮,启动论文生成过程。根据PaperFake的效率,需要等待几分钟。
    • 查看和编辑论文:论文初稿生成,在线查看或下载。检查内容,确保符合要求,并进行编辑和调整。
    • 下载和发送:将生成的论文下载到设备上,或用提供的自动发送功能,将论文发送到邮箱。

    PaperFake的产品定价

    • 价格:49元/篇

    PaperFake的应用场景

    • 学术写作:学生和研究人员辅助撰写学术论文,包括毕业论文、学期论文、研究提案等。
    • 课程作业:学生帮助完成课程作业,特别是在需要快速生成大量文本的情况下。
    • 项目报告:在项目结束时,项目团队快速生成项目报告的初稿,节省时间并提高效率。
    • 商业计划书:企业家和商业人士撰写商业计划书,尤其是在初创阶段需要快速准备文档时。
    • 技术文档:技术人员生成技术文档的初稿,如用户手册、技术规范等。
  • Looooooong Kimi – Kimi推出的200万字文本处理超能力

    Looooooong Kimi是什么

    Looooooong Kimi 是 Kimi 智能助手推出的超长文本处理能力。能处理高达200万字的文本,可以无损地理解和处理非常长的文档,如大型报告、书籍或研究论文等。Looooooong Kimi 强大之处在于能在保持文本完整性的同时,提供深入和准确的服务,可处理大量文本数据的领域,如学术研究、法律分析和市场研究等。用户可以快速地从大量文本中提取信息。

    Looooooong Kimi的主要功能

    • 超长文本处理能力:Looooooong Kimi能无损处理高达200万汉字的上下文,支持大量的信息输入和输出。
    • 文档上传与解析:可以上传多种格式的文件,如TXT、PDF、Word文档、PPT幻灯片和Excel电子表格等,Looooooong Kimi能解析这些文件并提供关键信息。
    • 多文件处理:能同时处理多个文档,整理关键信息,可以生成表格,最多上传50个文件同时进行处理和分析。
    • 网址阅读功能:Looooooong Kimi 能分析用户提供的链接,为用户提供简洁的总结。
    • 资料查询功能:具备实时搜索功能,用户能通过关键词快速定位网络上的信息,精确定位特定网站内的信息。
    • 语言翻译功能:Looooooong Kimi 可以翻译多种语言的文本,包括英文、韩文、日文等,能处理较长的文本。
    • 多模态功能:Looooooong Kimi 可以识别并分析图像内关键信息,提供基于图像内容的进一步解答和帮助。

    如何使用Looooooong Kimi

    • 访问Kimi官网:访问Kimi官方网站
    • 注册或登录:需要注册新账号或直接登录即可。
    • 进入Kimi+页面:登录后,点击导航栏中的“Kimi+”选项,进入Kimi+页面。
    • 选择“Looooooong Kimi”:在Kimi+页面中,会看到不同的Kimi+功能选项,选择“Looooooong Kimi”进行体验。
    • 申请使用:点击“Looooooong Kimi”后,需要填写一些信息来申请使用这项功能。提交申请后,等待官方的验证和批准。
    • 上传文件:申请通过后,可以开始上传文件。“Looooooong Kimi”支持多种文件格式,包括TXT、PDF、Word文档、PPT幻灯片和Excel电子表格等。
    • 处理文件:上传文件后,“Looooooong Kimi”将开始处理文件内容。可以指定需要处理的特定部分,或者让系统自动处理整个文件。
    • 获取结果:“Looooooong Kimi”处理完文件后,获取处理结果,可进行其他调整后使用。

    Looooooong Kimi的应用场景

    • 学术研究与论文写作:”Looooooong Kimi” 能帮助用户处理和理解长达200万字的学术资料,包括专业学术论文的翻译和理解、辅助分析法律问题等。
    • 长文本总结与生成:能对长篇小说如《天龙八部》等进行总结,回顾主要剧情,能详细描述小说中的小人物背景。
    • 文件阅读与解析:”Looooooong Kimi” 可以阅读和解析用户上传的长文本文件,如TXT、PDF、Word文档等,帮助用户快速获取文件中的信息。
    • 搜索辅助:具备搜索能力,可以结合搜索结果为用户提供更加全面的答案,对于需要大量信息整合的场景。
    • 教育辅导:辅助用户学习,提供知识点解释、作业帮助等,在处理大量学习资料时。
    • 技术支持与API文档理解:帮助用户理解API开发文档,提供技术支持。
  • DeepSeek-R1-Lite – 深度求索推出的新一代AI推理模型,媲美OpenAI o1-preview

    DeepSeek-R1-Lite是什么

    DeepSeek-R1-Lite是深度求索推出的新一代AI推理模型,DeepSeek-R1-Lite用强化学习训练,具备长思维链推理能力,能实时展示推理思考过程,性能在多个基准测试中超越GPT-4等模型。模型在数学、编程和复杂逻辑推理任务上表现出色,提供媲美OpenAI o1-preview的推理效果。DeepSeek-R1-Lite拥有“深度思考”模式,专门针对复杂推理问题设计,展现出更高的效率和准确率。DeepSeek-R1-Lite 只是一个较小的基座模型,仅支持网页使用,暂不支持 API 调用。正式版 DeepSeek-R1 模型即将完全开源,并公开技术报告,支持部署 API 服务。

    DeepSeek-R1-Lite

    DeepSeek-R1-Lite的主要功能

    • 复杂逻辑推理:擅长处理数学问题和编程难题等需要复杂逻辑推理的任务。
    • 长思维链推理:能进行长达数万字的推理过程,包含大量的反思和验证步骤。
    • 透明推理过程:实时展示AI的思考过程,提高模型的可解释性,消除黑盒问题。
    • 持续迭代:目前处于迭代开发阶段,未来将完全开源,提供API服务,支持更广泛的应用场景。

    如何使用DeepSeek-R1-Lite

    登录DeepSeek的官方网站,选择“深度思考”模式,开启与 DeepSeek-R1-Lite 预览版的对话,每天限量50次。

    DeepSeek-R1-Lite的应用场景

    • 教育领域:作为教学辅助工具,帮助学生解决数学和编程等学科的复杂问题。
    • 科研工作:在科研中辅助进行数据分析和复杂问题的逻辑推理,提高研究效率。
    • 软件开发:辅助程序员进行代码审查、错误调试和算法优化。
    • 金融分析:在金融领域中进行风险评估和市场趋势分析。
    • 医疗诊断:辅助医生进行病例分析和治疗方案的制定。
  • 讯飞星辰MaaS – 科大讯飞推出的AI大模型定制微调平台

    讯飞星辰MaaS是什么

    讯飞星辰MaaS是科大讯飞推出的AI大模型定制微调平台,创建你的专属定制大模型。讯飞星辰MaaS汇集20多个行业内知名的优质模型,如星火大模型、Llama3、DeepSeek等,支持零代码微调,降低大模型精调门槛。讯飞星辰MaaS围绕数据管理、模型微调、评估、托管和推理服务,提供大模型全生命周期管理,覆盖内容创作、代码、逻辑推理等多场景应用。

    讯飞星辰MaaS在模型与数据集丰富度、功能特性上完成全新升级,增强数据工程能力,支持多种数据集格式,提供高级参数配置,满足专业开发者需求。

    xunfeixingchen

    讯飞星辰MaaS的主要功能

    • 模型微调和部署
      • 模型集成:提供20+行业内知名的优质模型,如讯飞星火、Llama3、SD-XL等。
      • 开源模型精调:引入书生系列、Qwen2.5系列等多个开源模型的精调。
      • 新增模型:新增Spark Max、Spark Mini、Spark Tiny等星火自研模型,适应不同业务场景需求。

    xunfeixingchen

    • 数据集构建和管理
      • 数据工程能力:基于问答抽取、数据增强、prompt工程等维度出发,构建全方位的数据工程能力。
      • 数据集格式支持:支持多种数据集格式,包括ShareGPT、Alpaca等,实现主流数据集格式的支持。
      • 自动拆分测试集:平台支持从训练集中自动拆分出一定比例的数据作为测试集,在训练完成后进行验证,展示微调效果。
      • 批量推理:支持最多10个模型同时在线批量推理,大大提高数据处理的效率,适用于需要处理大量数据的场景。

    xunfeixingchen

    • 功能特性升级
      • 兼容性与迁移支持兼容OpenAI协议,依赖OpenAI API的企业能无缝迁移到国产大模型,实现技术过渡。
      • 功能增强与扩展:function_call精调训练,调用外部工具,增强大语言模型的能力。
      • 模型训练与评估:支持展示Loss曲线,实时监控模型训练效果,动态调整训练策略。裁判员打分模型评判模型效果的好坏
      • 高级参数配置:支持分词长度、Lora Merge,UnSloth等特性配置。
    • API矩阵构建丰富且高性价比的API矩阵,提供不同版本的API服务,如Spark Pro、Ultra和Max版本,支持不同长度的上下文和Batch版本API。

    如何使用讯飞星辰MaaS

    • 注册和登录:访问讯飞星辰MaaS的官方网站。创建账户或用现有账户登录。
    • 了解平台服务:浏览平台提供的服务和功能,了解不同模型的特点和适用场景。
    • 选择模型:根据业务需求选择合适的预训练模型。讯飞星辰提供多种模型,包括星火系列、Llama3等。
    • 数据准备:准备或选择适合的数据集进行微调。平台支持多种数据集格式,提供数据增强等工具帮助构建高质量数据集。
    • 模型微调:用提供的工具对选定的模型进行微调。包括上传数据集、配置微调参数等步骤。
    • 模型评估:用评估工具对微调后的模型进行效果评估,比如查看Loss曲线、用裁判员模型进行效果对比等。
    • 模型部署:将训练好的模型部署到实际应用中。讯飞星辰支持模型托管和推理服务,方便模型的快速部署。
    • API调用:如果需要,基于讯飞星辰提供的API进行模型调用,实现模型服务的集成。

    讯飞星辰MaaS的应用场景

    • 逻辑推理:构建基于逻辑推理的智能问答系统,提供决策支持,帮助用户快速获取信息和解决方案。
    • 数据管理:通过自动化的数据标注和清洗,提高数据准备的效率和质量,为AI模型训练提供坚实的数据基础。
    • 模型微调和评估:根据不同业务需求定制AI模型,通过微调和评估优化模型性能,适应特定的应用场景。
    • 托管和推理服务:将训练好的AI模型部署到云端或边缘设备,提供稳定可靠的在线推理服务,支持高并发请求。
    • 多模态应用:训练并构建多模态应用,在图像和语音识别领域,提供智能分析和处理能力,如自动识别图像内容和转换语音为文本。
  • Prezi – AI演示文稿工具,无边界画布、自由组织和连接演示内容

    Prezi是什么

    Prezi是创新的AI演示文稿工具,基于开放式画布和动态演示方式,帮助用户创建引人入胜的演示文稿和视频。与传统线性幻灯片不同,Prezi支持自由组织内容,提供丰富的模板和资源库,包括图片、GIF和图标等。Prezi AI技术辅助用户快速生成演示内容,提升创意效率。Prezi广泛应用于商业和教育领域,深受全球用户喜爱。

    Prezi

    Prezi的主要功能

    • 开放式画布:提供无边界的画布,让用户自由地组织和连接演示内容。
    • 动态演示:支持演示文稿中的元素用动态的方式出现和消失。
    • 专业模板:提供多种设计精美的模板,帮助用户快速开始创建演示文稿。
    • 内容库:拥有大量的可重用演示文稿和内容库,用户能在此基础上进行创作。
    • 多媒体集成:支持图片、视频、GIF、图标等多媒体元素的集成,丰富演示文稿的表现形式。
    • 视频会议集成:支持用户在视频会议中将自己置于演示文稿中心,提高远程演示的互动性。

    Prezi的官网地址

    Prezi的产品定价

    • Standard(标准版):$7/月,创建和分享演示文稿和信息图表
    • Plus(增强版):$19/月,无限制使用Prezi,导入现有PowerPoint幻灯片,获取高级图像,PDF导出
    • Premium(高级版):$29/月,包含Plus版所有功能,加上强大的分析工具,高级在线培训等

    Prezi

    Prezi的应用场景

    • 商业演示:用在产品介绍、商业计划、市场分析、销售演示等,吸引潜在客户和投资者。
    • 教育和学术:教师和学生制作互动式课件、课程讲解、学术报告和研究展示。
    • 会议和研讨会:在行业会议、研讨会和工作坊中,帮助演讲者更有效地传达信息和吸引听众。
    • 培训和工作坊:企业培训、技能提升课程和团队建设活动增强互动性和参与度。
    • 项目提案:在向客户或管理层展示项目提案时帮助清晰地展示项目流程和预期成果。
  • AtomThink – 华为诺亚方舟联合多所高校推出的多模态数学推理框架

    AtomThink是什么

    AtomThink是中山大学、香港科技大学、上海交通大学、香港大学及华为诺亚方舟实验室的研究人员共同推出的多模态数学推理框架。框架基于构建长链的思维(CoT)引导多模态大型语言模型(MLLMs)进行复杂推理,包含自动CoT注释引擎、原子步骤微调和多种搜索策略。AtomThink基于提升原子步骤的质量,显著增强MLLMs在解决数学问题时的推理能力,为开发通用的慢思维模型提供新的方向。

    AtomThink

    AtomThink的主要功能

    • CoT注释引擎:自动生成高质量的链式思考(Chain-of-Thought,CoT)注释,解决视觉数学数据质量不足的问题。
    • 原子步骤微调策略:联合优化多模态大型语言模型(MLLM)和策略奖励模型(Policy Reward Model,PRM),实现逐步推理。
    • 搜索策略:提供四种不同的搜索策略,与PRM结合使用,完成复杂的推理任务。
    • 数据集构建:提出AtomMATH,一个大规模多模态数据集,包含长CoTs,用在训练和评估模型。
    • 原子能力评估:设计一种基于结果监督的原子能力评估方法,评估MLLMs在生成每种原子步骤时的能力。

    AtomThink的技术原理

    • 慢思考框架:AtomThink框架的核心思想是“慢思考”,基于逐步构建长CoT指导MLLMs进行复杂推理,不依赖于快速直接的预测。
    • 动态提示策略:基于动态提示策略,驱动MLLMs迭代构建状态推理路径,每个路径节点代表一个推理步骤,包括前一阶段、当前状态和可能的行动。
    • 短CoT增强:基于LLMs将现有的短CoT注释语义分割成多个离散步骤,专注于解决推理过程中的单个原子问题。
    • 多模态数据集:从多个数据源采样数学数据,基于动态提示和短CoT增强生成多步骤推理路径,构建AtomMATH数据集。
    • 原子步骤微调:在AtomMATH数据集上进行微调,让MLLM能学习基于原子步骤的推理模式。

    AtomThink的项目地址

    AtomThink的应用场景

    • 教育辅助:作为智能辅导系统,为学生提供数学问题的逐步解答和解释。
    • 自动化测试与评估:在在线考试系统中自动生成和评分数学试题。
    • 学术研究:辅助研究者探索和解决复杂的数学问题。
    • 软件开发:帮助开发者自动生成和调试数学计算相关的代码。
    • 智能客服和技术支持:在需要数学计算或推理的客服场景中提供支持。