Author: Chimy

Responses API – OpenAI 推出的构建 AI Agents 的核心服务
Responses API是什么

Responses API 是 OpenAI 推出的用在构建 AI Agents 的核心接口，Responses API是 Chat Completions API 的升级版，结合 Assistants API 的工具调用能力，支持更复杂的任务处理。开发者基于一次调用，用多种内置工具（如网页搜索、文件搜索、计算机操作等）和多轮模型交互，完成复杂任务。Responses API 简化了项目开发流程，降低了技术门槛，同时支持流式事件，提升响应效率。

Responses API的主要功能
- 集成多种工具调用能力：结合 Chat Completions API 的对话生成能力和 Assistants API 的工具调用功能，支持开发者在一次调用中结合多种工具（如网页搜索、文件搜索、计算机操作等）完成复杂任务。
- 支持流式事件处理：提供可预测的流式事件支持，实时处理和响应数据流，提升交互效率和用户体验。
- 监控与调试支持：与 OpenAI 的监控工具（如 Logs 和 Traces）集成，帮助开发者追踪和调试 Agent 的工作流，优化性能和稳定性。
- 统一Item-based设计：用户输入、模型输出、工具调用都被抽象成统一结构的Item，结构清晰，扩展性强，为功能扩展和集成打下良好基础。
- 更简单的多态性处理：基于Item-based设计和智能类型推断，简化多态性处理的复杂度，无需大量条件判断代码即处理不同类型的Item。
Responses API 的内置工具
- Web Search（网页搜索）：快速获取最新答案，支持gpt-4o和gpt-4o-mini模型，提供相关引文。
- File Search（文件搜索）：从大量文档中检索相关信息，支持多种文件类型和查询优化。
- Computer Use（计算机使用）：用Computer-Using Agent（CUA）模型，支持自动化任务，如浏览器工作流程。
Responses API的官网地址
- 官网地址：https://platform.openai.com/docs/quickstart?api-mode=responses
Responses API的产品定价
- Token 费用：Responses API 根据生成和处理的 Token 数量进行收费。
- 工具使用费用：
  - 网页搜索：使用 gpt-4o-search-preview 和 gpt-4o-mini-search-preview 模型的定价分别为每千次查询 30美元和 25美元。
  - 文件搜索：每千次查询收费 2.50美元，文件存储价格为 0.10美元/GB/天，首 GB 免费。
  - 计算机使用： 3美元/100万输入 Token 和 12美元/100万输出 Token。
Responses API的应用场景
- 智能客服：自动回答客户问题，处理订单和退款。
- 市场研究：从网络和文档中收集数据，进行分析。
- 内容创作：撰写文章，编辑文档，发布社交媒体更新。
- 销售支持：寻找潜在客户，生成销售提案。
- 个性化教育：提供定制化学习材料，评估学生表现。
March 12, 2025
绘蛙·多图成片 – 阿里绘蛙推出的 AI 图生视频工具
绘蛙·多图成片是什么

绘蛙·多图成片是阿里绘蛙推出的AI视频生成工具，基于上传2-4张具有连贯性的图片，结合文字描述，快速生成一段流畅的视频。用户选择本地上传图片或从已有作品中导入套图，用文字引导视频内容，避免生成偏差。系统能智能生成适配视频的文案，支持多种视频尺寸（如3:4、9:16、1:1、16:9）。绘蛙·多图成片广泛应用于创意视频制作、广告宣传等领域，大大降低视频创作的门槛和成本，为用户提供高效、便捷的视频生成方式。

绘蛙·多图成片的主要功能
- 图片上传与导入：支持本地上传2-4张图片，或从已有作品中直接导入套图，方便用户快速准备素材。
- 文字描述引导：用户输入文字描述引导视频生成，明确主体动作、场景细节等。
- 智能文案生成：根据上传的图片自动生成适配视频的文案，提升视频的完整性和表现力。
- 多种视频尺寸：支持多种视频尺寸（如3:4、9:16、1:1、16:9），满足不同场景和平台的需求。
如何使用绘蛙·多图成片
- 访问官网：访问绘蛙·多图成片的操作界面。
- 准备图片素材：准备2-4张具有连贯性或主题一致的图片。要求：图片大小在20KB~15MB之间。分辨率大于600×800。格式支持jpg/jpeg/png/heic/webp。建议图片露出人脸、单人、背景简单，且比例一致。
- 上传图片：点击“上传图片”按钮，选择本地电脑中的图片。如果之前在绘蛙AI上有过创作，直接从已有作品中导入套图。
- 添加图片描述（非必填）：
  - 智能描述：点击“一键识别图片”，系统自动分析图片内容生成智能描述。
  - 手动输入：根据视频需求，输入主体动作、场景变化等描述。例如：“模特在海边走动，海浪在身后翻滚。”
  - 描述格式：建议按照“主体+动作，背景+动作，其他细节”的形式撰写。
- 选择视频画质：选择“高清画质”或默认画质，根据需求和生成速度权衡。
- 填写“不希望出现的内容”：如果对生成结果有特殊要求，填写不希望出现的内容，如“变形”“光影变化”“模糊变焦”等，帮助AI生成更符合预期的视频。
- 点击生成：点击生成按钮后，系统开始处理图片生成视频。
- 查看生成结果：视频生成完成后，在页面上查看生成的视频内容。如果对结果不满意，调整描述或图片后重新生成。
绘蛙·多图成片的应用场景
- 创意短视频制作：快速生成社交媒体、广告宣传等创意视频，无需专业设备，节省时间和成本。
- 电商产品展示：将多张产品图片生成动态视频，展示多角度和使用场景，提升购买意愿。
- 广告与营销：生成符合主题的广告视频，精准引导视频效果，满足营销需求。
- 个人创意表达：将静态图片转化为动态视频，用于旅行记录、生活分享等，无需复杂编辑技能。
- 教育与演示：制作教学视频或演示文稿背景，直观展示内容，增强学习兴趣。
March 12, 2025
PlanGEN – 谷歌研究团队推出的多智能体框架
PlanGEN是什么

PlanGEN 是谷歌研究团队推出的多智能体框架，通过多智能体协作、约束引导和算法自适应选择，解决复杂问题的规划和推理。包含三个关键组件：约束智能体、验证智能体和选择智能体。智能体协同工作，形成一个强大的问题解决系统。

PlanGEN的主要功能
- 多智能体协作：PlanGEN 包含三个关键智能体，协同完成复杂任务：
  - 约束智能体（Constraint Agent）：深入解析问题描述，提取关键约束条件，包括显式和隐含约束。
  - 验证智能体（Verification Agent）：基于约束条件评估计划质量，分配奖励分数，并提供精确的质量反馈，指导迭代优化。
  - 选择智能体（Selection Agent）：根据问题复杂度动态选择最佳算法，平衡探索与利用。
- 四种实现方式：PlanGEN 提供四种不同的实现方式，适应不同复杂度的问题：
  - PlanGEN (Best of N)：并行生成多个计划，选择奖励最高的方案，适合中等复杂度的规划问题。
  - PlanGEN (Tree-of-Thought)：构建决策树，逐步探索和评估可能的解决路径，适合需要多步推理的复杂问题。
  - PlanGEN (REBASE)：实现改进的深度优先搜索，允许从次优路径回溯，适合具有复杂约束和多个可行解的问题。
  - PlanGEN (Mixture of Algorithms)：根据问题特性动态选择最适合的算法，实现实例级适应性。
- 约束引导与迭代优化：PlanGEN 强调约束引导的迭代验证，通过约束智能体提取问题约束，验证智能体评估计划质量，根据反馈进行迭代优化。确保生成的计划不仅满足约束条件，能在多次迭代中逐步完善。
- 自适应算法选择：PlanGEN 采用改进的 Upper Confidence Bound (UCB) 策略，动态选择最适合的推理算法。能根据问题复杂度和历史表现，灵活切换不同的算法，平衡探索和利用。
- 模型不可知性与可扩展性：PlanGEN 是一个模型不可知的框架，能与不同的 LLM 模型结合使用。使 PlanGEN 具有良好的可扩展性，可以适应不同的任务和模型。
PlanGEN的项目地址
- arXiv技术论文：https://arxiv.org/pdf/2502.16111
PlanGEN的应用场景
- 智能客服系统：PlanGEN 可用于开发高性能的智能客服系统，支持多轮对话、准确理解用户意图、提供个性化回复，具备知识图谱推理能力。
- 复杂任务规划：PlanGEN 在复杂任务规划中表现出色，例如日历调度、会议安排和旅行规划等。PlanGEN (Best of N) 通过并行生成多个计划并选择最优方案，适合中等复杂度的任务。在需要多步推理的复杂问题（如数学证明）中，PlanGEN (Tree-of-Thought) 构建决策树逐步探索解决方案。
- 自动驾驶与无人机集群：PlanGEN 的多智能体协作机制也适用于自动驾驶车队和无人机集群。自动驾驶汽车通过多智能体框架实现协同驾驶，优化交通流量和安全性。无人机集群则可用于物流配送、农田监测和自然灾害救援等任务，通过协同作业提高效率。
- 供应链优化：在供应链管理中，PlanGEN 可以帮助应对市场需求的突然变化或突发事件。通过多智能体协作，零售商、供应商和生产商可以迅速调整生产、运输和库存计划，确保供应链的稳定运行。
- 科学与数学推理：PlanGEN 在科学和数学推理任务中也有显著表现。例如，在 OlympiadBench 基准测试中，PlanGEN (REBASE) 和 PlanGEN (Mixture of Algorithms) 通过灵活的算法选择和迭代优化，显著提高了数学和物理问题的解决准确率。
March 12, 2025
MeshPad – 草图驱动的AI 3D网格生成与编辑工具
MeshPad是什么

MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工具，能将简单的二维草图迅速转化为高质量的 3D 网格模型，支持实时编辑。用户在草图上添加或删除线条，可对 3D 网格进行修改，如删除区域或添加新几何形状。采用三角形序列表示，通过 Transformer 模型捕捉复杂几何关系，生成高质量网格。推测性预测策略可显著降低计算成本，加速编辑过程，每次编辑仅需几秒，生成的网格质量在 Chamfer 距离上比现有方法提升 22%。

MeshPad的主要功能
- 草图驱动的3D网格生成：用户只需绘制简单的二维草图，MeshPad 能自动将这些草图转化为高质量的三维网格模型。
- 实时交互式编辑：MeshPad 支持用户对生成的3D网格进行实时编辑。用户可以在草图上添加、删除或修改线条，操作会立即反映在3D网格模型上。
- 高效的网格处理：MeshPad 采用三角形序列表示法，能高效处理网格的添加和删除操作。内置的Transformer模型能捕捉复杂的几何关系，生成高质量的网格。
- 高质量网格输出：MeshPad 生成的网格在Chamfer距离上比现有方法提升22%，生成的3D模型更加精确，细节更加丰富。
MeshPad的技术原理
- 三角形序列表示：MeshPad 使用三角形序列表示法来高效处理网格的添加和删除操作。
- Transformer 模型：MeshPad 基于大型 Transformer 模型来捕捉复杂的几何关系。Transformer 模型在处理网格的添加和删除操作时，能递归地生成新的三角形网格，将新生成的网格与现有模型无缝融合。
  - 添加操作（Add）：Transformer 使用自回归模型预测新增三角面片的位置，通过“推测预测”对齐顶点坐标，确保新增部分与原网格完美融合。
  - 删除操作（Del）：通过分类网络分析网格中的顶点，给出“删除标签”，精准去除不需要的部分，不会破坏其他结构。
- 推测性预测策略：MeshPad 引入了一种顶点对齐的推测性预测策略。通过预测顶点的多个输出标记，显著降低了计算成本，加速了编辑过程。每次编辑仅需几秒钟，实现了真正的实时交互体验。
- 实时交互与优化：MeshPad 的交互式设计支持用户通过简单的草图操作（如添加或删除线条）来实时编辑 3D 网格模型。
MeshPad的项目地址
- 项目官网：https://derkleineli.github.io/meshpad/
- arXiv技术论文：https://arxiv.org/pdf/2503.01425
MeshPad的应用场景
- 艺术设计：快速将草图转化为3D雕塑、动画或游戏模型。
- 建筑设计：将手绘草图转化为建筑模型，实时调整设计细节。
- 工业设计：生成和修改产品原型，加速设计迭代过程。
March 11, 2025
绘蛙·创意文生图 – 阿里绘蛙推出的 AI 文生图工具
绘蛙·创意文生图是什么

绘蛙·创意文生图是阿里绘蛙推出的AI图像生成工具。提供详细的文本提示（Prompt），帮助用户生成具有特定风格、场景和氛围感的图像。绘蛙-创意文生图用精准的文字描述生成高质量的视觉作品，广泛应用于电商营销、广告设计、创意灵感等领域，为用户带来高效且个性化的AI图像创作体验。

绘蛙·创意文生图的主要功能
- 文本生成图像：用户输入详细的文本描述，AI算法将文字转化为具体的图像内容，满足不同场景和风格的需求。
- 智能扩写：用户输入初步的提示词后，AI将根据提示词提供更详细的描述，帮助丰富用户的创意。
- 参考图库：用户选择自己喜欢的参考图辅助图像生成。
- 创意灵感激发：为用户提供丰富的创意示例和Prompt模板，帮助用户快速找到灵感，提升创作效率。
如何使用绘蛙·创意文生图
- 访问绘蛙-创意文生图：访问绘蛙·创意文生图界面。
- 输入提示词：在创意文生图界面中输入提示词。输入想要生成图像的描述，例如：“一个女生，穿着白色连衣裙，在海边沙滩上”。
- 提示词库：点击词库能获得参考词提示词。
- 智能扩写：如果需要更详细的描述，输入提示词后，点击智能扩写，AI根据初步描述提供更详细的文本。
- 选择参考图：或用平台提供的参考图库，选择自己的参考图制作同款。
- 生成图像：确认提示词无误后，点击“生成”按钮。AI将根据描述生成图像。
- 查看和下载图像：生成完成后，在界面上查看生成的图像。如果满意，下载图像到本地，用于后续的设计或编辑工作。
绘蛙·创意文生图的应用场景
- 服装设计与展示：设计师快速生成服装的虚拟展示图，无需实际模特或摄影，展示服装在不同场景和姿势下的效果。
- 广告和营销材料制作：营销团队创建吸引人的广告海报或社交媒体内容，提高营销材料的创意性和吸引力。
- 内容创作者的灵感来源：作家、博主或视频创作者作为内容创作的灵感来源，或作为作品的视觉补充。
- 游戏和电影概念艺术：游戏开发者和电影制作人生成概念艺术，帮助团队在制作前可视化角色、场景和道具。
- 个人娱乐与创意表达：普通用户探索自己的创意，生成个性化的图像，用在个人娱乐或在社交媒体上分享。
March 11, 2025
Anus – Manus 生成的开源 AI 智能体项目，复刻 Manus 部分功能
Anus是什么

Anus（Autonomous Networked Utility System）是 Manus 生成的开源自主智能体项目，复刻 Manus 的部分功能。Anus支持自然语言指令执行、多代理协作、网络交互、文档处理、代码执行和多模态输入处理等功能。Anus用混合架构，结合单代理的简单性和多代理的强大能力，支持OpenAI、开源模型及本地部署，提供丰富的工具生态系统和灵活的模型集成选项。Anus的目标是为开发者、研究人员和AI爱好者提供一个强大、灵活且易于使用的工具，推动AI技术的广泛应用和创新。

Anus的主要功能
- 任务自动化：基于自然语言指令执行复杂任务，支持单代理或多代理模式。
- 多代理协作：支持多代理系统，预定义角色（如研究者、分析员、编写者）协同完成复杂任务。
- 多模态输入处理：支持文本、图像、音频等多种输入形式，进行图像识别、音频转录和视频分析。
- 丰富的工具生态系统：
  - 网络交互：支持网页自动化、数据抓取、表单填写和认证处理。
  - 文档处理：支持PDF、Office文档分析，及OCR识别。
  - 代码执行：支持Python等语言的代码生成与安全执行。
- 灵活的模型集成：支持OpenAI模型、开源模型（如Llama、Mistral）及本地部署。
Anus的技术原理
- 基于 Manus 的生成能力：整个项目的设计、编码和文档由 Manus 自主完成，Manus 在生成过程中参考互联网上的现有知识和开源项目。
- 混合代理架构：结合单代理的高效性和多代理的协作能力，根据任务复杂性动态切换模式。多代理系统中，代理基于预定义角色或自定义角色进行分工协作，用结构化协议进行通信和冲突解决。
- 动态任务规划：将复杂任务分解为多个子任务，基于智能规划系统逐步执行。基于任务需求动态分配计算资源，优化性能。
- 工具生态系统：集成多种工具（如网络自动化工具Playwright、文档处理工具、代码执行沙箱等），基于插件系统扩展功能。
如何安装Anus
- 通过pip安装（推荐用户）。
# 安装Anus pip install anus-ai # 验证安装 anus --version
如果需要安装可选功能（如文档处理、浏览器自动化、代码执行等），安装额外的依赖包：
# 安装所有可选功能 pip install anus-ai[all]
从源代码安装（推荐开发者）：

克隆仓库：
git clone https://github.com/nikmcfly/ANUS.git cd ANUS
- 创建、激活虚拟环境：
python -m venv venv source venv/bin/activate # Windows: venv\Scripts\activate
- 安装依赖：
pip install -e .
- - 验证安装：
anus --version
- 使用Docker安装：
  
  拉取Docker镜像：
docker pull anusai/anus:latest
运行Docker容器：
docker run -it anusai/anus:latest
- 使用Conda安装：
  
  创建Conda环境：
conda create -n anus python=3.11 conda activate anus
- 安装Anus：
pip install anus-ai
Anus的项目地址
- GitHub仓库：https://github.com/nikmcfly/ANUS/
Anus的应用场景
- 教育与学习：作为智能体开发的学习工具，帮助初学者理解Agent架构和任务规划。
- 原型开发：提供基础框架，助力开发者快速搭建智能体项目原型。
- 任务自动化：用在简单的任务规划与执行，如数据处理、文件操作等。
- 工具集成参考：为需要集成外部工具的项目提供参考。
- 开源协作：吸引社区开发者参与完善，推动智能体技术发展。
March 11, 2025
DeepSeek百宝箱 – DeepSeek API在多种软件中的集成应用
DeepSeek百宝箱是什么

DeepSeek百宝箱是 DeepSeek官方维护的 GitHub 项目，展示如何将 DeepSeek API 集成到各种流行软件中。项目列出了一系列支持 DeepSeek 的工具和应用，涵盖了从桌面端到移动端的多种平台，包括但不限于聊天工具（如 SwiftChat、Pal）、知识管理工具（如 Coco AI、SiYuan）、翻译工具（如 Easydict、Bob）以及开发工具（如 PHP Client、DeepSwiftSeek）。展示了 DeepSeek 在不同场景下的应用能力，帮助开发者和用户更好地使用强大的语言模型功能，提升工作效率和用户体验。

DeepSeek百宝箱的主要功能
- 精选资源库：所有工具均经过 DeepSeek 技术团队验证，确保稳定性与兼容性。项目按功能（如模型训练、部署、监控、优化等）和应用场景（如 NLP、CV、数据分析等）进行分类，帮助用户快速定位所需工具。紧跟 DeepSeek 技术迭代，定期新增工具、修复问题，保持生态前沿性。
- 开箱即用：一键部署脚本，提供主流框架（如 PyTorch、TensorFlow）的预配置环境与示例代码。封装标准化接口，支持 RESTful、gRPC 等多种协议，简化集成流程。
- 详实文档：每个工具附带教程、API 文档及常见问题解答（FAQ）。
- 本地化支持：提供中文/英文双语资源，适配国内开发环境（如 GPU 加速、私有云部署）。
- 社区驱动：开放 Issue 追踪和 Pull Request，鼓励开发者贡献工具或优化建议。
- 全链路覆盖：支持模型训练（分布式训练框架）、调优（超参优化工具）、部署（Docker/Kubernetes 模板）、监控（性能分析仪表盘）全流程。适配主流操作系统（Linux/Windows/macOS）及硬件（CPU/GPU/TPU）。
- 多平台即插即用：支持 Slack、GitHub、AWS、Jira 等 20+ 开发工具的一键接入，无需编写额外代码。
- 低代码可视化配置：通过拖拽式界面自定义 AI 工作流，比如设置“自动扫描提交代码→检测潜在漏洞→生成修复建议”的自动化管道，开发效率提升 60% 以上。
- 智能上下文感知：基于 DeepSeek 独家算法，工具能自动识别不同场景需求。例如，在 Confluence 文档中智能建议技术术语解释，在 Jenkins 构建失败时推荐调试方案。
- 毫秒级响应引擎：依托分布式计算架构，处理百万行日志分析时，仍能保持 200ms 内的响应速度，避免工作流卡顿。
- 动态权限管理：细粒度控制不同角色对 AI 功能的调用权限，支持 SOC2 合规审计日志，满足金融、医疗等敏感行业的严苛要求。
- 自适应学习机制：工具会持续分析团队使用习惯，自动优化推荐策略。
DeepSeek百宝箱的主流工具和应用

办公与生产力工具
- Chatbox：支持多种流行 LLM 模型的桌面客户端，可在 Windows、Mac 和 Linux 上使用。用户可以在写文档、做计划时随时获取智能建议。
- Raycast：macOS 生产力工具，支持各种扩展，包括 DeepSeek AI，允许用户用几个按键来控制工具。
- ChatDOC：一款 AI 文档阅读工具，具备强大的溯源功能，确保每一条信息的来源清晰可查，帮助用户高效、精准地掌握文档核心。
- GPTBots：无代码 AI Agent 构建平台，集成了包括 Deepseek 在内的国际主流 LLM，并提供了基于 RAG 的知识存储 / 检索，工具自定义 / 调用，工作流编排等模块，并可将 Agent 集成至多个主流平台（WhatsApp、Telegram 等），为企业提供端到端的 AI 解决方案。
- DeepChat：完全免费的桌面端智能助手，内置强大的 DeepSeek 大模型，支持多轮对话、联网搜索、文件上传、知识库等多种功能。
- Quantalogic：一个 ReAct（推理和行动）框架，用于构建高级 AI 代理。
AI编程与智能体开发工具
- Cursor：基于 VS Code 的 AI 代码编辑器。
- WindSurf：由 Codeium 开发的另一个基于 VS Code 的 AI 代码编辑器。
- AutoDev：AutoDev 是 JetBrains IDE 中的开源 AI 编程助手。
- Onegai Copilot：Onegai Copilot 是 JetBrains IDE 中的 AI 编程助手。
- Continue：Continue 是 IDE 中的开源自动编程工具。
移动与社交应用
- Liubai：在微信上使用 DeepSeek 管理笔记、任务、日历和待办清单，实现人工智能与日常办公的结合。
- Pal – AI Chat Client：为 iOS 和 iPadOS 用户设计的定制聊天平台，提供个性化、方便的聊天环境。
- ToMemo：iOS 应用，集成了 AI 大模型，可以在键盘中快速输出使用。
内容创作与知识管理
- FastGPT：基于 LLM 大模型的开源 AI 知识库构建平台，支持 DeepSeek、OpenAI 等多种模型。它提供了开箱即用的数据处理、模型调用、RAG 检索和可视化 AI 工作流编排能力，帮助您轻松构建复杂的 AI 应用。
- PapersGPT：集成了 DeepSeek 及其他多种 AI 模型的 Zotero 插件，辅助论文阅读。
- 思源笔记：隐私优先的个人知识管理系统，支持完全离线使用，并提供端到端加密的数据同步功能。
- Cherry Studio：为创造者而生的桌面版 AI 助手。
多媒体与娱乐
- Video Subtitle Master：批量为视频生成字幕，并可将字幕翻译成其他语言，支持多种翻译服务。
- LiberSonora：AI 赋能的有声书工具集，包含智能字幕提取、AI 标题生成、多语言翻译等功能。
- Story-Flicks：通过一句话即可快速生成高清故事短视频，支持 DeepSeek 等模型。
开发与技术工具
- Dify：支持 DeepSeek 模型的 LLM 应用开发平台，可用于创建 AI 助手、工作流、文本生成器等应用。
- go-stock：由 Wails 使用 NativeUI 构建并由 LLM 提供支持的股票数据查看分析器。
- Wordware：使任何人都可以通过自然语言构建、迭代和部署他们的 AI 堆栈。
教育与学习
- Zotero：文献管理工具，帮助用户收集、整理、注释、引用和分享研究成果，可使用 DeepSeek 作为翻译服务。
- Enconvo：AI 时代的启动器，是所有 AI 功能的入口，也是一位体贴的智能助理。
金融与投资
- Alpha Pai：AI 投研助理 / AI 驱动的新一代金融信息入口，代理投资者听会、记纪要，提供金融投资信息的搜索问答和定量分析等投资研究工作。
- go-stock：股票数据查看分析器，由 LLM 提供支持。
RAG 框架
- RAGFlow：开源的 RAG 引擎，结合大语言模型（LLM）针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。
- AutoFlow：基于 GraphRAG 的知识库工具，提供类 Perplexity 的搜索页面，可以嵌入简单的 JavaScript 代码片段。
- DeepSearcher：结合强大的 LLM（DeepSeek、OpenAI 等）和向量数据库（Milvus 等），根据私有数据进行搜索、评估和推理。
DeepSeek百宝箱的项目地址
- Github仓库：https://github.com/deepseek-ai/awesome-deepseek-integration
DeepSeek百宝箱的应用场景
- 辅助诊断：在医疗领域，DeepSeek 可以通过分析医学影像等数据，快速识别病灶，为医生提供辅助诊断参考。
- 文档阅读工具：例如 ChatDOC，是 AI 文档阅读工具，具备强大的溯源功能，确保每一条信息的来源清晰可查。
- 知识管理工具：例如 Coco AI，开源的跨平台统一搜索与效率工具，连接搜索多种数据源，支持私有部署，注重隐私。
- 视频字幕生成：例如 Video Subtitle Master，批量生成视频字幕，可将字幕翻译成其他语言，支持多种翻译服务。
- 有声书工具：例如 LiberSonora，AI 有声书工具集，包含智能字幕提取、AI 标题生成、多语言翻译等功能。
March 11, 2025
R1-Omni – 阿里通义开源的全模态大语言模型
R1-Omni是什么

R1-Omni 是阿里通义推出的基于强化学习（RLVR）的全模态大语言模型，专注于情感识别任务。通过结合视觉和音频信息，能清晰地解释情感识别的推理过程，展现出强大的情感理解能力。在多个情感识别数据集上，R1-Omni 的性能显著优于监督微调（SFT）模型，在分布外场景中表现出色，具有很强的泛化能力。

R1-Omni的主要功能
- 多模态情感分析：R1-Omni 能同时处理视觉和音频信息，对输入的视频或音频内容进行情感识别，准确判断其中所表达的情感。
- 可解释的推理过程：模型给出情感识别结果，能生成详细的推理过程。推理过程封装在特定的标签内，解释模型是如何整合视觉和音频线索得出预测的，增强了模型的可解释性。
- 基于 RLVR 的训练：R1-Omni 采用 RLVR 训练范式，基于可验证奖励函数直接评估输出，无需依赖单独的奖励模型。简化了奖励机制，同时确保了与任务内在正确性标准的一致性。
- GRPO 方法应用：结合 GRPO（生成相对策略优化）方法，直接比较生成的响应组，避免使用额外的评论家模型，增强了模型区分高质量和低质量输出的能力。
- 推理能力增强：相比其他基线模型，R1-Omni 提供了更连贯、准确和可解释的推理过程。
- 理解能力提高：在多个情感识别数据集上，R1-Omni 的情感识别准确率显著优于其他模型。
- 泛化能力更强：在分布外（OOD）数据集上，R1-Omni 表现出色，能够更好地适应未见场景。
R1-Omni的技术原理
- RLVR 训练范式：RLVR 是新的训练范式，核心思想是基于验证函数直接评估模型输出，无需依赖传统的人类反馈强化学习（RLHF）中的单独奖励模型。给定输入问题 q，策略模型 πθ 生成响应 o，然后使用可验证奖励函数 R(q,o) 对其进行评估，优化目标是最大化验证奖励减去基于 KL 散度的正则化项。简化了奖励机制，同时确保了与任务内在正确性标准的一致性。
- GRPO 方法：GRPO（分组相对策略优化）是改进的强化学习方法，与传统的 PPO（近端策略优化）不同。GRPO 避免了使用额外的评论家模型，直接比较生成的响应组。具体过程是：针对一个问题 q，采样多组输出 {o1,o2,…,oG}，对每个输出计算奖励分 {r1,r2,…,rG}，然后对这些奖励分进行归一化处理，形成相对奖励。能更直接地反映同一问题下不同输出的优劣关系，增强模型区分高质量和低质量输出的能力。
- 冷启动策略：R1-Omni 的模型构建采用了受 DeepSeek-R1 启发的冷启动策略。首先，在包含 232 个可解释多模态情感推理数据集（EMER）样本和 348 个手动标注的 HumanOmni 数据集样本的组合数据集上，对 HumanOmni-0.5B 进行微调。使模型具备初步的推理能力，了解视觉和音频线索是如何对情感识别产生作用的。之后，通过 RLVR 训练进一步优化模型。
- 奖励函数设计：在 RLVR 训练过程中，奖励函数由两部分组成：准确率奖励和格式奖励。准确率奖励用于评估预测情感与真实情感的匹配度，格式奖励确保模型输出符合指定的 HTML 标签格式。保证了情感识别的准确性和输出的可解释性。
- 模型输出格式：R1-Omni 的输出预期包含两部分：推理过程和最终情感标签。推理过程封装在 <think></think> 标签内，解释模型如何整合视觉和音频线索得出预测；最终情感标签封装在 <answer></answer> 标签内，表示预测的情感。提供了情感识别结果，给出了详细的推理过程，增强了模型的可解释性
R1-Omni的项目地址
- Github仓库：https://github.com/HumanMLLM/R1-Omni
- HuggingFace模型库：https://huggingface.co/StarJiaxing/R1-Omni-0.5B
- arXiv技术论文：https://arxiv.org/pdf/2503.05379
R1-Omni的应用场景
- 情感分析：可用于社交媒体管理、舆情监测、消费者情感分析等场景，帮助企业更有效地与目标用户互动。
- 内容创作辅助：结合 AI 绘画与写作工具，为市场营销、广告创意等提供优质的解决方案。
- 心理健康评估：R1-Omni 可以分析患者的情绪表达，辅助心理健康专业人士进行评估和干预。
- 教育领域：在在线教育中，R1-Omni 可以分析学生的情绪反应，帮助教师调整教学策略。
March 11, 2025
SeedFoley – 字节推出的端到端视频音效生成模型
SeedFoley是什么

SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型，为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型，实现音效与视频的高度同步。模型采用快慢特征组合的视频编码器，提取视频的时空特征，同时基于原始波形作为输入的音频表征模型，保留高频信息，提升音效细腻程度。扩散模型通过优化概率路径上的连续映射关系，减少推理步数，降低推理成本。 SeedFoley 能精准提取视频帧级视觉信息，智能区分动作音效和环境音效，支持多种视频长度，在音效准确性、同步性和匹配度上表现优异。

SeedFoley的主要功能
- 智能生成音效：SeedFoley 能精确提取视频帧级视觉信息，通过分析多帧画面信息，精准识别视频中的发声主体及动作场景，比如节奏感强烈的音乐瞬间，电影中的紧张情节，能精准卡点，营造出身临其境的逼真体验。
- 区分音效类型：SeedFoley 可智能区分动作音效和环境音效，显著提升视频的叙事张力和情感传递效率。
- 支持多种视频长度：SeedFoley 能支持可变长度的视频输入，在音效准确性、音效同步性和音效匹配度等指标上都取得了领先水平。
SeedFoley的技术原理
- 视频编码器：SeedFoley 的视频编码器采用快慢特征组合的方式，在高帧率上提取帧间的局部运动信息，在低帧率上提取视频的语义信息。通过这种方式，模型能在低计算资源下实现 8fps 的帧级别视频特征提取，实现精细动作定位。最后基于 Transformer 结构融合快慢特征，实现视频的时空特征提取。
- 音频表征模型：与传统的基于梅尔频谱的 VAE 模型不同，SeedFoley 采用原始波形作为输入，经过编码后得到 1D 的表征。音频采用 32k 的采样率，确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征，有效提升音频在时序上的分辨率，提升音效的细腻程度。
- 扩散模型：SeedFoley 采用 Diffusion Transformer 框架，通过优化概率路径上的连续映射关系，实现从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性，SeedFoley 通过构建连续变换路径，有效减少推理步数，降低推理成本。在训练阶段，将视频特征与音频语义标签分别编码为隐空间向量，通过通道维度拼接将二者与时间编码及噪声信号进行混合，形成联合条件输入。提升了音效和视频画面在时序上的一致性。
如何使用SeedFoley
- 访问即梦平台：访问即梦的官方网站或使用即梦 App，注册并登录。
- 生成视频：在即梦上选择视频生成功能，根据您的需求生成视频内容。
- 选择「AI 音效」功能：在生成视频后，选择「AI 音效」功能。系统会自动为您的视频生成 3 个专业级音效方案。
- 预览和选择音效方案：预览生成的音效方案，选择最适合您视频内容的音效方案。
- 应用音效：将选择的音效方案应用到您的视频中。
- 注意事项：
  - 视频长度：SeedFoley 支持可变长度的视频输入，但建议视频长度不要过长，确保生成效果。
  - 音效类型：SeedFoley 可智能区分动作音效和环境音效，提升视频的叙事张力和情感传递效率。
  - 预览效果：在选择音效方案时，建议仔细预览每个方案的效果，选择最适合您视频内容的音效。
SeedFoley的应用场景
- 生活 Vlog：为个人 Vlog 添加逼真的环境音效，如街头的嘈杂声、咖啡馆的背景音乐等。
- 短片制作：为短片添加与情节匹配的动作音效和环境音效，增强观众的沉浸感。
- 游戏制作：为游戏视频添加逼真的音效，如战斗音效、环境音效等，提升游戏的体验感。
- 视频后期制作：在视频后期制作中，SeedFoley 可以快速生成与视频内容高度匹配的音效，节省后期制作的时间和成本。
- 广告视频：为广告视频添加吸引人的音效，提升广告的吸引力和传播效果。
- 教育视频：为教育视频添加合适的音效，增强观众的学习兴趣和注意力。
March 11, 2025
START – 阿里联合中科大推出的自学推理模型
START是什么

START（Self-Taught Reasoner with Tools）是阿里巴巴集团和中国科学技术大学推出的新型工具增强型推理模型，结合外部工具（如Python代码执行器）提升大型语言模型（LLMs）的推理能力。START基于“Hint-infer”技术在推理过程中插入提示，激发模型使用外部工具，基于“Hint-RFT”框架进行自学习和微调。START在长链推理（Long CoT）的基础上，引入工具调用，显著提高在复杂数学问题、科学问答和编程挑战中的准确性和效率。START在多个基准测试中表现出色，超越现有模型，成为首个开源的长链推理与工具集成相结合的模型。

START的主要功能
- 复杂计算与验证：调用Python代码执行器，进行复杂的数学计算、逻辑验证和模拟。
- 自我调试与优化：START用工具执行代码并验证输出，自动检测错误并进行调试，提高答案的准确性。
- 多策略探索：基于提示（Hints）引导模型尝试多种推理路径和方法，增强模型在面对复杂问题时的灵活性和适应性。
- 提升推理效率：基于工具调用和自我验证，减少模型在复杂任务中的幻觉（hallucination）现象，提高推理效率和可靠性。
START的技术原理
- 长链推理：继承长链推理的优势，分解问题为多个中间推理步骤，模拟人类的深度思考过程，提高模型在复杂任务中的推理能力。
- 工具集成：START基于调用外部工具（如Python代码执行器）弥补传统长链推理的不足。模型在推理过程中生成代码，用工具执行验证结果。
- Hint-infer：在推理过程中插入人工设计的提示（Hints），激发模型调用外部工具的能力。引导模型在特定节点调用工具，无需额外的演示数据。
- Hint-RFT：结合Hint-infer和拒绝采样微调（RFT），对模型生成的推理轨迹进行评分、过滤和修改，进一步优化模型的工具使用能力。
- 自学习框架：基于主动学习方法，从模型生成的推理轨迹中筛选出有价值的数据，用于微调，让模型自我学习如何更有效地使用工具。
- 测试时扩展：在推理结束时插入提示，增加模型的思考时间和工具调用次数，提高推理的准确性和成功率。
START的项目地址
- arXiv技术论文：https://arxiv.org/pdf/2503.04625
START的应用场景
- 数学问题求解：解决复杂的数学题目，如数学竞赛和高等数学问题，用代码验证提高准确性。
- 科学研究辅助：帮助处理物理、化学和生物等领域的复杂计算和科学问题。
- 编程与调试：生成代码并自动调试，解决编程难题，提升开发效率。
- 跨学科问题解决：综合运用多学科知识，解决工程设计、数据分析等复杂任务。
- 教育与学习：作为智能辅导工具，辅助学生学习数学和科学，提供详细的解题过程和反馈。
March 11, 2025