Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • The AI Scientist-v2 – 通用端到端 AI 系统,自动探索科学假设生成论文

    The AI Scientist-v2是什么

    The AI Scientist-v2 是 Sakana AI 、不列颠哥伦比亚大学、Vector研究所等机构联合推出的完全自动生成科学发现的端到端AI系统,支持自主地提出科学假设、设计和执行实验、分析数据、生成可视化结果,撰写科学论文。与前一版本相比,The AI Scientist-v2 消除对人类编写代码模板的依赖,引入基于代理的树搜索方法,更系统地探索科学假设。The AI Scientist-v2整合视觉-语言模型(VLM)反馈循环,提高生成内容的质量和清晰度。The AI Scientist-v2 成功生成了一篇完全用 AI 撰写的论文,通过 ICLR 2025 研讨会的同行评审,成为首个达到这一成就的 AI 系统。

    The AI Scientist-v2

    The AI Scientist-v2的主要功能

    • 自主提出科学假设:生成新颖的科学假设,类似于人类科学家在研究初期提出的研究方向或问题。
    • 设计和执行实验:设计实验流程和实际执行实验,包括数据收集和处理。
    • 数据分析和可视化:分析实验数据,生成图表和可视化结果,帮助理解实验发现。
    • 撰写科学论文:撰写完整的科学论文,包括摘要、引言、方法、实验结果和结论等部分。

    The AI Scientist-v2的技术原理

    • 基于代理的树搜索:系统基于新颖的树搜索算法,用实验管理代理(Experiment Progress Manager)分阶段管理实验过程。每个阶段都有明确的目标和停止条件,例如初步调查、超参数调整、研究议程执行和消融研究。树搜索方法支持系统并行探索多个实验路径,显著加速科学发现的过程。
    • 视觉-语言模型(VLM)反馈:在实验和论文撰写阶段,系统用 VLM 对生成的图表和文本进行评估和反馈。VLM 能检查图表的清晰度、标签的准确性及文本描述的一致性,确保生成的内容质量高且科学准确。
    • 代码生成和执行:系统自动生成实验代码,在 Python 解释器中执行代码。如果代码执行出错,系统记录错误信息尝试调试,确保实验的顺利进行。
    • 数据加载和处理:系统用 Hugging Face Hub 自动下载和加载常用的数据集,简化数据处理流程。实验数据被保存为结构化的 numpy 文件,便于后续的分析和可视化。
    • 多阶段实验管理:实验管理代理将实验过程分为多个阶段,每个阶段都有明确的目标和评估标准。

    The AI Scientist-v2的项目地址

    The AI Scientist-v2的应用场景

    • 科学研究自动化:自动完成从提出假设到撰写论文的全流程,提高研究效率。
    • 机器学习研究:快速生成和验证新算法或模型改进,加速技术创新。
    • 跨学科应用:支持多学科研究,为复杂问题提供创新解决方案。
    • 教育与培训:作为教学工具,帮助学生和研究人员理解科学研究方法。
    • 工业与商业:优化机器学习模型,提高生产效率和产品质量。
  • LoveyDovey – AI社交应用,与自定义角色进行实时对话

    LoveyDovey是什么

    LoveyDovey是AI社交应用,支持用户与自己想象中的角色进行实时对话,创造属于自己的故事。用户与各种具有独特故事的迷人角色进行交流,角色根据用户的互动逐渐加深关系发展为浪漫关系。用户自定义角色的个性和风格,享受自然流畅的AI对话体验。应用支持照片分享和日常生活分享等功能,为用户提供沉浸式的恋爱和社交体验。

    LoveyDovey

    LoveyDovey的主要功能

    • 自定义角色:用户创建和设置角色的个性和风格,打造理想聊天对象。
    • 创作故事:用户能与角色共同创作故事,主导情节发展,体验独特的叙事乐趣。
    • 多样角色选择:应用提供多种独特角色供用户选择,满足不同用户的喜好。
    • 24小时陪伴:角色随时在线,用户随时开启聊天,享受持续陪伴。
    • 生活分享:支持照片和日记分享,让用户与角色的互动更贴近真实社交。
    • 自然对话体验:AI对话系统自然流畅,让交流仿佛与真人对话。

    LoveyDovey的官网地址

    LoveyDovey的应用场景

    • 情感倾诉:向角色倾诉烦恼,获得安慰和理解。
    • 恋爱模拟:与角色发展浪漫关系,体验恋爱过程。
    • 创作故事:可与角色共同创作故事,激发灵感。
    • 社交陪伴:随时与角色聊天,缓解孤独感。
    • 角色互动:与各种角色交流,体验不同性格和故事。
  • UniRig – 清华联合 VAST 开源的通用自动骨骼绑定框架

    UniRig是什么

    UniRig是清华大学计算机系和VAST联合推出的创新自动骨骼绑定框架,用在处理复杂和多样化的3D模型。基于大型自回归模型和骨骼点交叉注意力机制,生成高质量的骨骼结构和蒙皮权重。框架引入Rig-XL数据集,包含超过14,000个3D模型,涵盖多种类别,用在训练和评估。UniRig在骨骼绑定精度和运动精度上显著优于现有的学术和商业方法,支持无缝应用在从动漫角色到复杂有机和无机结构的各种对象类别,极大地提高动画制作的效率。

    UniRig

    UniRig的主要功能

    • 自动骨骼生成:为各种3D模型(如人类、动物、虚构角色等)生成拓扑结构正确的骨骼树。
    • 蒙皮权重预测:预测每个骨骼对网格顶点的影响权重,确保网格在骨骼动画驱动下自然变形。
    • 支持多样化模型:适用于多种类型的3D模型,包括复杂的有机和无机结构。
    • 高效动画制作:提高动画制作的效率,减少手动操作的时间和工作量。
    • 动态效果支持:生成支持物理模拟的骨骼属性(如弹簧骨骼)。

    UniRig的技术原理

    • 骨骼树标记化:将骨骼树结构转换为序列化的标记,便于自回归模型高效处理。基于特殊标记(如<type>)表示骨骼类型(如弹簧骨骼、模板骨骼),用深度优先搜索(DFS)算法提取线性骨骼链,紧凑地表示骨骼结构。骼树标记化能减少序列长度,提高模型的训练和推理效率。
    • 自回归模型:基于Transformer的自回归模型(如Skeleton Tree GPT)预测骨骼树。模型逐个生成标记构建骨骼树,确保生成的骨骼结构在拓扑上是有效的。模型的输入包括从3D网格采样的点云和可选的类别信息,输出是表示骨骼树的标记序列。
    • 骨骼点交叉注意力机制:基于点云编码器和骨骼编码器分别提取点云和骨骼树的特征,用交叉注意力机制结合特征预测蒙皮权重。
    • 大规模数据集:为训练和评估UniRig,研究者们构建Rig-XL数据集,包含超过14,000个3D模型,涵盖多种类别。数据集的多样性和规模让UniRig能学习到不同类型的骨骼结构和蒙皮权重,提高模型的泛化能力。
    • 物理模拟辅助训练:在训练过程中引入物理模拟,基于模拟骨骼在物理力(如重力、弹性力)下的运动,评估预测的蒙皮权重和骨骼属性的合理性。间接监督方法能引导模型学习逼真的蒙皮权重,提高动画的真实感。

    UniRig的项目地址

    UniRig的应用场景

    • 动画制作:快速生成骨骼和蒙皮权重,减少手动操作,提升动画制作效率。
    • 虚拟角色:为虚拟角色(如VTuber)生成自然流畅的骨骼绑定,支持实时动画。
    • 游戏开发:快速生成角色和物体的骨骼绑定,支持动态效果,提升游戏视觉效果。
    • 3D内容创作:适用建筑设计、工业设计等,支持多样化3D模型的骨骼绑定。
    • 教育领域:作为教学工具,帮助学习者快速掌握骨骼动画的基本概念。
  • Droidrun – 开源AI手机操作工具,支持 Agent 操作 Android 手机

    Droidrun是什么

    Droidrun 是AI手机操作工具,支持 AI Agent像人类一样操作 Android 手机。Droidrun由运行在电脑或云端的 LLM 智能体和安装在手机上的 DroidRun Portal App 组成,结合视觉解析、UI 提取和 LLM 推理,实现复杂任务自动化。Droidrun支持用户基于简单的自然语言命令完成应用启动、UI 操作等任务。Droidrun 支持 OpenAI、Anthropic、Gemini 等多种 LLM 提供商,提供 Python API 用在自定义自动化。Droidrun 为构建强大的 AI 助手和实现复杂任务自动化提供新的可能。

    Droidrun

    Droidrun的主要功能

    • 视觉 + UI 解析:结合视觉模型(识别屏幕内容)和 UI 结构提取(解析控件树),实现精准交互。
    • 智能自愈机制:智能检测错误(如网络中断、界面变化),自动调整操作路径,确保自动化流程的稳健性。
    • 自然语言控制:用户基于自然语言指令直接控制 Android 设备,例如打开应用、发送消息等。
    • 多 LLM 支持:支持多种大型语言模型(LLM)提供商,如 OpenAI、Anthropic、Gemini 等,用户根据需要选择不同的模型。
    • 极简命令行操作:提供易于使用的命令行界面,方便用户快速部署和执行自动化任务。
    • 丰富的扩展能力:提供可扩展的 Python API,用户能自定义自动化脚本,满足个性化需求。
    • 自动化测试支持:执行固定 UI 流程并验证是否成功,适用于测试工程师的自动化测试场景。

    Droidrun的技术原理

    • 自然语言处理(NLP):基于大型语言模型(LLM)解析用户的自然语言指令。模型理解用户的意图,生成相应的操作序列。
    • 视觉解析:基于截图功能获取手机屏幕的图像,用视觉模型(如 OCR 技术)解析屏幕上的文字和控件。让 LLM 能够“看到”手机界面,更准确地理解当前的上下文并生成正确的操作指令。
    • UI 结构提取:基于 Android 的 Accessibility Service API 提取屏幕的 UI 结构信息。分析 AccessibilityNode 信息,DroidRun 能识别屏幕上的按钮、输入框等控件,实现精准的操作。
    • 操作指令生成:LLM 根据解析的自然语言指令和屏幕上下文信息,生成具体的操作指令序列
    • DroidRun Portal App:安装在 Android 手机上的 DroidRun Portal App 负责接收来自电脑或云端的指令,基于 ADB 或 Wi-Fi 将指令转换为实际的手机操作。

    Droidrun的官网地址

    Droidrun的应用场景

    • AI手机助手:让AI像人一样操作手机,完成各种操作。
    • 跨应用数据交互:实现不同应用间的数据传递和任务流转。
    • 自动化任务执行:自动完成订车、录视频等复杂任务。
    • 数据提取与录入:高效提取和录入应用中的数据。
    • 多设备协同控制:支持多设备批量操作和任务分配
  • CodeBuddy – 腾讯云推出的AI编程助手

    CodeBuddy是什么

    CodeBuddy 是腾讯云推出的 AI 编程助手,能帮助开发者高效编程。CodeBuddy 支持代码补全、诊断、优化、重构,能生成单元测试和进行代码评审。核心模式 Craft 能基于自然语言指令轻松开发应用,让无编程知识也能快速上手。CodeBuddy 全面兼容 MCP 开放生态,能接入多种第三方工具和服务。CodeBuddy 支持多种编程语言和框架,适配 DeepSeek V3 等先进模型,极大地提升开发效率和代码质量,是开发者在 AI 时代的智能编程伙伴。

    CodeBuddy

    CodeBuddy 的主要功能

    • 代码补全与生成
      • 自动补全代码:智能感知当前编码环境,实时提供下一步代码编辑建议,支持简单行/块/跨文件代码补全。
      • 根据注释生成代码:开发者基于注释描述需求,CodeBuddy 将自动生成相应的代码实现。
      • 生成测试代码:支持主流测试框架(如 Jest、Mocha 等),自动识别被测依赖关系,生成边界测试用例。
    • 代码优化与诊断
      • 代码诊断与修复:快速检查代码中的语法错误和逻辑错误,帮助开发者规范代码格式。
      • 代码优化建议:提供代码优化建议,帮助开发者提升代码质量和性能。
    • 智能体模式
      • Craft 模式:基于自然语言指令,独立完成多文件代码编写与修改,自动生成可执行的应用,支持从零到一的完整项目构建。
      • Chat 模式:基于自然语言问答,AI 深度理解代码,提供实时建议和解答。
    • 工程理解与知识库
      • 工程理解智能体:基于 Codebase 等功能,AI 辅助理解项目工程,提供精准的代码建议和解决方案。
      • 支持 RAG 知识库:企业能构建专属知识库,提升模型输出效果,助力高效解决问题。
    • 代码评审与测试
      • 智能代码评审:帮助开发者及时发现、解决本地代码变更可能引入的问题,提高代码质量,加速开发流程。
      • 单元测试优化:显著提升单测有效性及覆盖率,支持多种主流测试框架。
    • 生态兼容性
      • 支持 MCP 协议:全面兼容 MCP 开放生态,支持 MCP 市场,开发者能为智能体添加各种第三方工具或服务。
      • 多语言支持:支持多种编程语言和框架,包括前端、后端、客户端等。

    如何使用CodeBuddy

    • 安装 CodeBuddy 插件
      • 方法一快速安装:打开 Visual Studio Code(VS Code)。在 VS Code 的本地客户端插件市场中直接搜索安装腾讯云代码助手。
      • 方法二本地插件包安装:访问CodeBuddy的安装页面。点击页面上的“下载安装包”按钮,获取最新版本的本地安装包。
      • 方法三从 IDE 安装:打开已安装的 Visual Studio Code,点击左侧导航栏上的“扩展”图标,在搜索框中输入腾讯云代码助手搜索。在搜索结果中找到插件后,点击“安装”按钮。
    • 登录腾讯云账号:安装完成后,打开 VS Code。在 VS Code 的右下角状态栏中找到CodeBuddy的图标,点击图标。按照提示完成注册和登录。
    • 开始使用 CodeBuddy
      • 代码补全:在编写代码时,CodeBuddy自动提供代码补全建议,基于 Tab 键快速插入建议代码。
      • 生成代码:基于自然语言描述需求,CodeBuddy 根据注释生成相应的代码。
      • 代码诊断与修复:CodeBuddy 自动检查代码中的错误,提供修复建议。
      • 技术对话:在编辑器中输入问题,CodeBuddy 用自然语言回答问题,提供相关代码建议。
      • Craft 模式:基于自然语言指令,自动生成完整的应用代码,支持从零到一的项目构建。
      • Chat 模式:基于自然语言问答,提供实时的代码建议和解答。

    CodeBuddy的官网地址

    CodeBuddy的应用场景

    • 代码编写与补全:快速补全代码,生成复杂代码片段,支持多种语言和框架,提升开发效率。
    • 代码优化与修复:自动检测、修复代码错误,提供优化建议,提升代码质量和性能。
    • 项目理解与管理:基于智能体理解项目结构和逻辑,辅助代码评审,提高项目开发效率。
    • 测试与调试:自动生成测试用例,提升测试覆盖率,辅助调试,快速定位问题。
    • 技术学习与协作:提供技术问答,支持团队知识库,促进学习和协作,保持编码风格一致。
  • HoloPart – 港大联合 VAST 开源生成完整可编辑部件的 3D 模型

    HoloPart是什么

    HoloPart 是香港大学、VAST 团队推出的新型扩散模型,支持将 3D 物体分解为完整、可编辑的语义部件,即使部件被遮挡。HoloPar基于两阶段方法,用局部注意力和全局上下文注意力机制,确保零件的细节和整体形状的一致性。HoloPart 在 ABO 和 PartObjaverse-Tiny 数据集上的表现显著优于现有方法,为几何编辑、材质编辑和动画制作等下游应用提供新的可能性。

    HoloPart

    HoloPart的主要功能

    • 3D 零件隐式分割:识别可见的表面片段,支持补全被遮挡的部分,生成完整的 3D 零件。
    • 几何超分辨率:支持几何细节的超分辨率重建。
    • 下游应用支持:支持多种下游应用,包括几何编辑、材质编辑、动画制作和几何处理。

    HoloPart的技术原理

    • 两阶段方法
      • 初始分割:用现有的 3D 零件分割技术(如 SAMPart3D)获取初始的、不完整的零件片段(表面片段)。
      • 零件补全:基于 PartComp(基于扩散模型的网络)将片段补全为完整的 3D 零件。
    • 扩散模型:PartComp 是基于扩散模型的网络,基于捕捉零件的细粒度几何细节,确保零件的局部特征被准确还原。用整体形状的上下文信息,确保补全的零件与整体形状在几何和语义上保持一致。
    • 数据预训练与微调:用变分自编码器(VAE)和扩散模型对大规模的完整 3D 形状数据进行预训练,学习通用的 3D 形状表示。在有限的零件数据上对预训练模型进行微调,适应零件补全任务,克服数据稀缺的挑战。

    HoloPart的项目地址

    HoloPart的应用场景

    • 几何编辑:修改零件的大小、形状和位置,满足设计需求。
    • 材质分配:为零件添加不同材质,提升视觉效果。
    • 动画制作:让零件独立运动,如车轮转动,提高动画灵活性。
    • 几何处理:优化零件的网格划分,提升模型质量。
    • 数据生成:为 3D 模型训练提供高质量零件数据,丰富创作素材。
  • Seed-Thinking-v1.5 – 字节跳动推出的最新思考模型

    Seed-Thinking-v1.5是什么

    Seed-Thinking-v1.5 是字节跳动推出的推理智能模型,采用混合专家(MoE)架构,总参数量为 200B,每次激活 20B 参数。模型在多个基准测试中表现出色,如在 AIME 2024 测试中获得 86.7 分,在 Codeforces 评测中 pass@8 指标达到 55.0 分,在 GPQA 测试中获得 77.3 分。在非推理任务中胜率比 DeepSeek R1 高出 8%,展现出广泛的适用性。Seed-Thinking-v1.5 的开发涉及精心策划的训练数据、先进的强化学习框架、双层奖励系统和高效的基础设施。模型将于 4 月 17 日通过火山引擎开放接口供用户体验。

    Seed-Thinking-v1.5

    Seed-Thinking-v1.5的主要功能

    • 卓越的推理能力:Seed-Thinking-v1.5 在多个权威基准测试中表现出色,例如在 AIME 2024 测试中获得 86.7 分,在 Codeforces 评测中 pass@8 指标达到 55.0%,在 GPQA 测试中获得 77.3 分。表明其在 STEM(科学、技术、工程和数学)领域以及编程方面具有强大的推理能力。
    • 广泛的泛化能力:模型在非推理任务中也表现出色,胜率比 DeepSeek R1 高出 8%,显示出其在复杂用户场景处理能力方面的优势。
    • 高效的基础设施:为支持大规模训练,Seed-Thinking-v1.5 采用了 HybridFlow 编程模型和流式推理系统(SRS),通过三层并行架构(张量/专家/序列并行)优化了训练效率。

    Seed-Thinking-v1.5的技术原理

    • 混合专家模型(MoE)架构:Seed-Thinking-v1.5 采用了混合专家模型(Mixture-of-Experts, MoE)架构,总参数量为 200B,每次激活 20B 参数。在保持高性能的同时,显著减少了计算资源的消耗,提高了模型的效率。
    • 强化学习算法
      • VAPO 和 DAPO 框架:为解决强化学习训练中的不稳定性问题,研究团队提出了 VAPO(面向 Actor-Critic)和 DAPO(面向 Policy Gradient)两大框架。这两种方法能提供稳健的训练轨迹,有效优化推理模型。
      • 奖励建模:团队设计了两种奖励建模方案,Seed-Verifier 和 Seed-Thinking-Verifier。Seed-Thinking-Verifier 通过详细的推理过程,解决了奖励欺骗、预测不确定性和边界情况处理失败等问题。
    • 数据处理与增强
      • 可验证问题:包括数学、编程和逻辑谜题,通过严格筛选与增强(如将选择题转为填空题),确保模型学习到真实的推理能力。
      • 非可验证问题:如创意写作和对话,通过动态过滤低方差样本,避免模型陷入局部优化。
      • 数据增强策略:例如用模型生成候选答案,结合人工验证修正错误参考答案,提升数据可靠性。
    • 分布式训练基础设施
      • 混合并行架构:结合张量并行(TP)、专家并行(EP)和上下文并行(CP),支持高效的大规模训练。
      • 流式生成系统(SRS):通过异步处理和动态资源调度,将长文本生成的效率提升 3 倍,解决了传统同步框架的“拖尾问题”。
      • 自动调优系统:根据实时负载动态选择最优计算配置,平衡内存与计算资源。

    Seed-Thinking-v1.5的项目地址

    Seed-Thinking-v1.5的性能表现

    • 数学推理:在 AIME 2024 测试中获得 86.7 分,与 OpenAI 的 o3-mini-high 持平。
    • 编程任务:在 Codeforces 评测中,pass@8 指标达到 55.0%,优于 DeepSeek-R1。
    • 科学问答:在 GPQA 测试中准确率达 77.3%,接近顶尖模型水平。
    • 非推理任务:在非推理任务中,胜率比 DeepSeek R1 高出 8%,表现出较强的泛化能力。

    Seed-Thinking-v1.5的应用场景

    • 科学问答:Seed-Thinking-v1.5 在科学问答方面也有显著表现。模型能理解和回答涉及科学概念和原理的复杂问题,适用于教育和研究领域。
    • 创意写作:模型能生成跨时空对话,例如模拟历史人物的内心独白或融合不同领域术语的叙事。在内容创作、广告、剧本编写等领域具有潜在的应用价值。
    • 逻辑推理:Seed-Thinking-v1.5 在处理需要逻辑分析和推理的问题时具有显著优势,适用于需要逻辑判断和分析的场景,如法律分析、市场策略规划等。
    • 教育辅助:Seed-Thinking-v1.5 的推理能力可以帮助学生解决数学和科学问题,提供编程练习的反馈,辅助语言学习。
  • Skywork-OR1 – 昆仑万维开源的高性能系列推理模型

    Skywork-OR1是什么

    Skywork-OR1(Open Reasoner 1)是昆仑万维推出的开源高性能推理模型系列,模型突破大模型在逻辑推理和复杂任务求解方面的能力瓶颈。Skywork-OR1包含三款模型,Skywork-OR1-Math-7B是数学推理模型,具备强大的数学解题能力;Skywork-OR1-7B-Preview是通用模型,兼具数学和代码能力;Skywork-OR1-32B-Preview是旗舰版本,适合更高复杂度的任务,推理能力更强。在性能方面,Skywork-OR1系列在多个基准测试中表现出色。例如,在AIME24和AIME25数学数据集上,Skywork-OR1-Math-7B分别取得了69.8%和52.3%的高分,远超同规模的主流模型。在竞赛编程任务中,Skywork-OR1-32B-Preview在LiveCodeBench数据集上的表现接近DeepSeek-R1(671B参数),展现卓越的性价比。

    Skywork-OR1

    Skywork-OR1的主要功能

    • 逻辑推理能力:具备强大的逻辑推理能力,处理复杂的逻辑关系和多步骤推理任务。
    • 编程任务支持:支持生成高质量的代码,支持多种编程语言。
    • 代码优化与调试:对代码进行优化和调试,提高代码的可读性和执行效率。
    • 多领域任务适应:具备通用推理能力,支持处理其他领域的复杂任务。
    • 多轮对话与交互:支持多轮对话,根据上下文信息逐步解决问题,提供更连贯的推理过程。

    Skywork-OR1的技术原理

    • 高质量数据集:基于高质量的数学数据集,如NuminaMath-1.5(约89.6万题),筛选出AIME、Olympiads等高难度子集,总计约11万道数学题目。LeetCode和TACO数据为主,经过严格筛选和去重,保留单元测试完整、验证通过的问题,获得13.7K条高质量代码问题。
    • 数据预处理与过滤:每道题进行多轮采样验证答案,剔除“全对”或“全错”的题目,避免无效数据对训练的影响。结合人类评审和LLM自动判题机制,清理语义不清、信息不全、格式错误或含有无关内容的题目。
    • 训练策略:基于GRPO进行模型训练,多阶段训练逐步增加上下文窗口长度,提升模型的长链思维能力。在训练前和训练过程中分别进行离线和在线过滤,动态剔除无效样本,确保训练数据的有效性和挑战性。在强化学习采样时用高采样温度(τ=1.0),基于自适应熵控制机制,增强模型的探索能力,避免过早陷入局部最优。
    • 损失函数优化:在训练中移除KL损失项,让模型充分地探索和优化推理能力。将策略损失在训练批次内的所有token上进行平均,提升优化过程的一致性与稳定性。
    • 多阶段训练:基于多阶段训练逐步扩展上下文窗口长度,让模型在有限token内高效完成任务,逐步掌握复杂的长链思维能力。在多阶段训练初期,基于特定策略处理截断样本,确保模型在进入下一阶段时迅速提升性能。

    Skywork-OR1的性能表现

    • 数学推理任务
      • 通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24与AIME25数据集上实现同参数规模最优表现,展现强大数学推理能力。
      • 专项模型Skywork-OR1-Math-7B在AIME24和AIME25上分别取得69.8与52.3的高分,远超当前主流7B级别模型,凸显高阶数学推理专业优势。
      • Skywork-OR1-32B-Preview在所有benchmark上超越QwQ-32B,在AIME25上基本与R1持平。
    • 竞赛编程任务
      • 通用模型Skywork-OR1-7B-Preview与Skywork-OR1-32B-Preview在LiveCodeBench数据集上取得同等参数规模最优性能。
      • Skywork-OR1-32B-Preview代码生成与问题求解能力接近DeepSeek-R1(参数规模671B),在压缩模型体量的同时实现卓越性价比,体现训练策略先进性。
    • Skywork-OR1-Math-7B表现
      • 在AIME24上训练准确率曲线显示性能稳定提升,模型在AIME24和AIME25上分别达到69.8%和52.3%,超越OpenAI-o3-mini (low),达当前尺寸SOTA性能。
      • 在Livecodebench上从37.6%提升到43.6%,相比基线模型显著提升,显示训练方法领域泛化性好。

    Skywork-OR1的项目地址

    Skywork-OR1的应用场景

    • 数学教育:辅助学生解题,提供思路与步骤,助力教师备课。
    • 科研辅助:帮助研究人员探索复杂模型,验证猜想,推导公式。
    • 编程开发:生成代码框架,优化代码,辅助调试,提升开发效率。
    • 数据分析:支持金融、商业等领域决策,预测趋势,评估风险。
    • AI研究:作为研究平台,推动推理模型架构和算法的改进。
  • 小布助手 – OPPO推出的网页版 AI 助手,接入满血版 DeepSeek

    小布助手是什么

    小布助手是OPPO推出的智能语音助手,内置在OPPO、一加、真我realme等机型中。具备语音交互、联网搜索、系统操作、信息查询等多种功能。小布助手网页版正式上线,登录OPPO账号,可同步手机端历史对话记录。网页版接入满血版DeepSeek技术,支持联网搜索和结果导出,涵盖便签、pdf、docx等多种格式。此外,小布助手支持粤语模式、儿童模式等特色功能。

    小布助手

    小布助手的主要功能

    • 深度思考功能:接入DeepSeek-R1满血版,自带深度思考功能,无需额外点击按钮,能对复杂问题进行深入分析和解答。
    • 联网搜索:支持联网搜索功能,当用户提出问题时,小布助手可以通过联网获取最新的信息,为用户提供更准确、全面的答案。
    • 结果导出:联网搜索后得到的结果,用户可以选择将其导出,支持便签、pdf、docx等多种格式。
    • 日常信息查询:可以快速获取天气、新闻、股票行情等信息,还能设置日历提醒、闹钟等。
    • 智能家居控制:能连接并控制智能家居设备,如智能灯泡、空调、电视等,实现语音操控家居环境。
    • 娱乐互动:可以播放音乐、点播有声书、讲笑话、讲故事等,陪伴用户度过休闲时光。
    • 学习辅助:支持实时翻译、解答数学题、朗读电子书等功能,帮助用户学习。
    • 语音风格选择:支持多种语音风格,用户可以根据自己的喜好选择不同的声音,如温柔女声、稳重男声等。
    • 自定义唤醒词:用户可以在小布助手的设置中自定义唤醒词,打造专属的唤醒体验。
    • 同步历史对话:登录OPPO账号后,网页版小布助手可以同步手机端的历史对话记录,实现无缝衔接。

    如何使用小布助手

    • 访问网页版:访问小布助手的官方网站,登录OPPO账号,可同步手机端的历史对话记录。
    • 语音交互:点击网页上的麦克风图标,直接通过语音与小布助手对话。
    • 文字输入:在输入框中输入问题或指令,然后点击发送。
    • 联网搜索:网页版小布助手同样支持联网搜索,搜索结果会直接显示在网页上。
    • 深度思考:网页版小布助手支持深度思考功能,可以对复杂问题进行更深入的分析和解答。
    • 多种格式导出:联网搜索的结果可以导出为便签、PDF、Word等多种格式,方便保存和分享。

    小布助手的应用场景

    • 日常信息查询:用户可以通过语音或文字输入的方式,快速获取互联网上的信息。新闻、天气、股票行情或其他任何问题,小布助手通过联网搜索提供最新的答案。
    • 智能写作与创作:小布助手网页版支持AI写作功能,可以帮助用户快速生成文本内容,提升写作效率。
    • 信息收集与分析:在工作中,用户可以用小布助手的联网搜索功能,快速收集和分析信息,提高工作效率。
    • 多任务操作:网页版小布助手适合习惯于大屏和多任务操作的用户,可以在浏览网页的同时使用小布助手。
  • UNO – 字节跳动推出的创新AI图像生成框架

    UNO是什么

    UNO是字节跳动推出创新的AI图像生成框架,突破传统模型在多主体生成中的局限。通过“少到多”的泛化方法,能高质量地生成单主体和多主体图像,解决了多主体场景下的一致性难题。UNO基于扩散变换器生成高一致性的多主体数据,采用渐进式跨模态对齐技术,分阶段训练模型,逐步提升生成效果。引入了通用旋转位置嵌入(UnoPE),支持多种分辨率和长宽比的图像生成。

    UNO

    UNO的主要功能

    • 单主体定制生成:UNO能根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像。
    • 多主体组合生成:UNO可以接收多个参考图像作为输入,生成包含所有参考主体的新图像。
    • 虚拟试穿与产品展示:UNO支持虚拟试穿功能,可以将特定的产品(如服装、饰品等)放置在不同的人物模型上,展示其效果。可以将产品放置在各种场景中,保持产品的原始特征。
    • 风格化生成:UNO能对参考主体进行风格转换,生成不同风格的图像。
    • 强大的泛化能力:UNO在多个任务中展现了强大的泛化能力,能适应多种应用场景,如单主体和多主体驱动的图像生成,能泛化到id、tryon、style等场景。

    UNO的技术原理

    • 高一致性数据合成管道:UNO 利用扩散变换器(Diffusion Transformers)的内在上下文生成能力,生成高一致性的多主体配对数据。能自动创建大规模、高质量的训练数据,解决了数据获取的难题。
    • 渐进式跨模态对齐:UNO 采用渐进式跨模态对齐策略,将训练过程分为两个阶段:
      • 第一阶段:使用单主体上下文生成的数据对预训练的文本到图像(T2I)模型进行微调,使其具备处理单主体驱动生成任务的能力。
      • 第二阶段:引入多主体数据继续训练,增强模型处理复杂场景的能力。通过这种逐步对齐的方式,模型能更好地适应从单主体到多主体的生成任务。
    • 通用旋转位置嵌入(UnoPE):UNO 引入了通用旋转位置嵌入(UnoPE),有效解决了在扩展视觉主体控制时的属性混淆问题。UnoPE 通过为文本和图像标记分配特定的位置索引,调控多模态标记之间的交互,使模型专注于从文本特征中获取布局信息,在保持良好文本可控性的同时,提高主体相似性。
    • 模型架构:UNO 以开源模型 FLUX.1 dev 为基础,继承了其文生图基础能力和多模态注意力机制,采用了通用定制化模型框架。使模型能从文本到图像模型迭代训练而来,通过其独特的渐进式跨模态对齐和通用旋转位置嵌入等机制,实现了在单主体和多主体驱动生成中既能保持高一致性又能确保可控性。
    • 数据管理与模型进化:UNO 采用“模型-数据共同进化”的新范式,核心思想是用较弱的模型生成训练数据,训练更强的模型。让模型在训练过程中逐渐适应多样化场景,能有效应对实际应用中可能遇到的复杂情况。

    UNO的项目地址

    UNO的应用场景

    • 虚拟试穿:UNO 可以将不同的服装、饰品等产品放置在虚拟人物模型上,生成不同场景下的试穿效果。
    • 产品设计:在产品设计中,UNO 可以将产品放置在各种背景和场景中,保持产品的原始特征,为设计师提供更灵活的设计思路。
    • 创意设计:UNO 能接收多个参考图像作为输入,生成包含所有参考主体的新图像。
    • 个性化内容生成:UNO 可以根据一张参考图像生成保持同一主体特征但处于不同场景、姿势或风格的图像。
    • 角色和场景设计:UNO 可以为游戏开发提供强大的图像生成支持,帮助开发者快速生成角色和场景,激发创意。