Category: AI项目和框架

  • PlanGEN – 谷歌研究团队推出的多智能体框架

    PlanGEN是什么

    PlanGEN 是谷歌研究团队推出的多智能体框架,通过多智能体协作、约束引导和算法自适应选择,解决复杂问题的规划和推理。包含三个关键组件:约束智能体、验证智能体和选择智能体。智能体协同工作,形成一个强大的问题解决系统。

    PlanGEN

    PlanGEN的主要功能

    • 多智能体协作:PlanGEN 包含三个关键智能体,协同完成复杂任务:
      • 约束智能体(Constraint Agent):深入解析问题描述,提取关键约束条件,包括显式和隐含约束。
      • 验证智能体(Verification Agent):基于约束条件评估计划质量,分配奖励分数,并提供精确的质量反馈,指导迭代优化。
      • 选择智能体(Selection Agent):根据问题复杂度动态选择最佳算法,平衡探索与利用。
    • 四种实现方式:PlanGEN 提供四种不同的实现方式,适应不同复杂度的问题:
      • PlanGEN (Best of N):并行生成多个计划,选择奖励最高的方案,适合中等复杂度的规划问题。
      • PlanGEN (Tree-of-Thought):构建决策树,逐步探索和评估可能的解决路径,适合需要多步推理的复杂问题。
      • PlanGEN (REBASE):实现改进的深度优先搜索,允许从次优路径回溯,适合具有复杂约束和多个可行解的问题。
      • PlanGEN (Mixture of Algorithms):根据问题特性动态选择最适合的算法,实现实例级适应性。
    • 约束引导与迭代优化:PlanGEN 强调约束引导的迭代验证,通过约束智能体提取问题约束,验证智能体评估计划质量,根据反馈进行迭代优化。确保生成的计划不仅满足约束条件,能在多次迭代中逐步完善。
    • 自适应算法选择:PlanGEN 采用改进的 Upper Confidence Bound (UCB) 策略,动态选择最适合的推理算法。能根据问题复杂度和历史表现,灵活切换不同的算法,平衡探索和利用。
    • 模型不可知性与可扩展性:PlanGEN 是一个模型不可知的框架,能与不同的 LLM 模型结合使用。使 PlanGEN 具有良好的可扩展性,可以适应不同的任务和模型。

    PlanGEN的项目地址

    PlanGEN的应用场景

    • 智能客服系统:PlanGEN 可用于开发高性能的智能客服系统,支持多轮对话、准确理解用户意图、提供个性化回复,具备知识图谱推理能力。
    • 复杂任务规划:PlanGEN 在复杂任务规划中表现出色,例如日历调度、会议安排和旅行规划等。PlanGEN (Best of N) 通过并行生成多个计划并选择最优方案,适合中等复杂度的任务。在需要多步推理的复杂问题(如数学证明)中,PlanGEN (Tree-of-Thought) 构建决策树逐步探索解决方案。
    • 自动驾驶与无人机集群:PlanGEN 的多智能体协作机制也适用于自动驾驶车队和无人机集群。自动驾驶汽车通过多智能体框架实现协同驾驶,优化交通流量和安全性。无人机集群则可用于物流配送、农田监测和自然灾害救援等任务,通过协同作业提高效率。
    • 供应链优化:在供应链管理中,PlanGEN 可以帮助应对市场需求的突然变化或突发事件。通过多智能体协作,零售商、供应商和生产商可以迅速调整生产、运输和库存计划,确保供应链的稳定运行。
    • 科学与数学推理:PlanGEN 在科学和数学推理任务中也有显著表现。例如,在 OlympiadBench 基准测试中,PlanGEN (REBASE) 和 PlanGEN (Mixture of Algorithms) 通过灵活的算法选择和迭代优化,显著提高了数学和物理问题的解决准确率。
  • MeshPad – 草图驱动的AI 3D网格生成与编辑工具

    MeshPad是什么

    MeshPad 是基于草图输入的交互式艺术化网格生成与编辑工具,能将简单的二维草图迅速转化为高质量的 3D 网格模型,支持实时编辑。用户在草图上添加或删除线条,可对 3D 网格进行修改,如删除区域或添加新几何形状。 采用三角形序列表示,通过 Transformer 模型捕捉复杂几何关系,生成高质量网格。推测性预测策略可显著降低计算成本,加速编辑过程,每次编辑仅需几秒,生成的网格质量在 Chamfer 距离上比现有方法提升 22%。

    MeshPad

    MeshPad的主要功能

    • 草图驱动的3D网格生成:用户只需绘制简单的二维草图,MeshPad 能自动将这些草图转化为高质量的三维网格模型。
    • 实时交互式编辑:MeshPad 支持用户对生成的3D网格进行实时编辑。用户可以在草图上添加、删除或修改线条,操作会立即反映在3D网格模型上。
    • 高效的网格处理:MeshPad 采用三角形序列表示法,能高效处理网格的添加和删除操作。内置的Transformer模型能捕捉复杂的几何关系,生成高质量的网格。
    • 高质量网格输出:MeshPad 生成的网格在Chamfer距离上比现有方法提升22%,生成的3D模型更加精确,细节更加丰富。

    MeshPad的技术原理

    • 三角形序列表示:MeshPad 使用三角形序列表示法来高效处理网格的添加和删除操作。
    • Transformer 模型:MeshPad 基于大型 Transformer 模型来捕捉复杂的几何关系。Transformer 模型在处理网格的添加和删除操作时,能递归地生成新的三角形网格,将新生成的网格与现有模型无缝融合。
      • 添加操作(Add):Transformer 使用自回归模型预测新增三角面片的位置,通过“推测预测”对齐顶点坐标,确保新增部分与原网格完美融合。
      • 删除操作(Del):通过分类网络分析网格中的顶点,给出“删除标签”,精准去除不需要的部分,不会破坏其他结构。
    • 推测性预测策略:MeshPad 引入了一种顶点对齐的推测性预测策略。通过预测顶点的多个输出标记,显著降低了计算成本,加速了编辑过程。每次编辑仅需几秒钟,实现了真正的实时交互体验。
    • 实时交互与优化:MeshPad 的交互式设计支持用户通过简单的草图操作(如添加或删除线条)来实时编辑 3D 网格模型。

    MeshPad的项目地址

    MeshPad的应用场景

    • 艺术设计:快速将草图转化为3D雕塑、动画或游戏模型。
    • 建筑设计:将手绘草图转化为建筑模型,实时调整设计细节。
    • 工业设计:生成和修改产品原型,加速设计迭代过程。
  • Anus – Manus 生成的开源 AI 智能体项目,复刻 Manus 部分功能

    Anus是什么

    Anus(Autonomous Networked Utility System)是 Manus 生成的开源自主智能体项目,复刻 Manus 的部分功能。Anus支持自然语言指令执行、多代理协作、网络交互、文档处理、代码执行和多模态输入处理等功能。Anus用混合架构,结合单代理的简单性和多代理的强大能力,支持OpenAI、开源模型及本地部署,提供丰富的工具生态系统和灵活的模型集成选项。Anus的目标是为开发者、研究人员和AI爱好者提供一个强大、灵活且易于使用的工具,推动AI技术的广泛应用和创新。

    Anus

    Anus的主要功能

    • 任务自动化:基于自然语言指令执行复杂任务,支持单代理或多代理模式。
    • 多代理协作:支持多代理系统,预定义角色(如研究者、分析员、编写者)协同完成复杂任务。
    • 多模态输入处理:支持文本、图像、音频等多种输入形式,进行图像识别、音频转录和视频分析。
    • 丰富的工具生态系统
      • 网络交互:支持网页自动化、数据抓取、表单填写和认证处理。
      • 文档处理:支持PDF、Office文档分析,及OCR识别。
      • 代码执行:支持Python等语言的代码生成与安全执行。
    • 灵活的模型集成:支持OpenAI模型、开源模型(如Llama、Mistral)及本地部署。

    Anus的技术原理

    • 基于 Manus 的生成能力:整个项目的设计、编码和文档由 Manus 自主完成,Manus 在生成过程中参考互联网上的现有知识和开源项目。
    • 混合代理架构:结合单代理的高效性和多代理的协作能力,根据任务复杂性动态切换模式。多代理系统中,代理基于预定义角色或自定义角色进行分工协作,用结构化协议进行通信和冲突解决。
    • 动态任务规划:将复杂任务分解为多个子任务,基于智能规划系统逐步执行。基于任务需求动态分配计算资源,优化性能。
    • 工具生态系统:集成多种工具(如网络自动化工具Playwright、文档处理工具、代码执行沙箱等),基于插件系统扩展功能。

    如何安装Anus

    • 通过pip安装(推荐用户)
    # 安装Anus
    pip install anus-ai
    
    # 验证安装
    anus --version

    如果需要安装可选功能(如文档处理、浏览器自动化、代码执行等),安装额外的依赖包:

    # 安装所有可选功能
    pip install anus-ai[all]
    •  从源代码安装(推荐开发者)
      • 克隆仓库
    git clone https://github.com/nikmcfly/ANUS.git
    cd ANUS
      • 创建、激活虚拟环境
    python -m venv venv
    source venv/bin/activate  # Windows: venv\Scripts\activate
      • 安装依赖
    pip install -e .
      • 验证安装
    anus --version
    • 使用Docker安装
      • 拉取Docker镜像
    docker pull anusai/anus:latest
      • 运行Docker容器
    docker run -it anusai/anus:latest
    • 使用Conda安装
      • 创建Conda环境
    conda create -n anus python=3.11
    conda activate anus
      • 安装Anus
    pip install anus-ai

    Anus的项目地址

    Anus的应用场景

    • 教育与学习:作为智能体开发的学习工具,帮助初学者理解Agent架构和任务规划。
    • 原型开发:提供基础框架,助力开发者快速搭建智能体项目原型。
    • 任务自动化:用在简单的任务规划与执行,如数据处理、文件操作等。
    • 工具集成参考:为需要集成外部工具的项目提供参考。
    • 开源协作:吸引社区开发者参与完善,推动智能体技术发展。
  • DeepSeek百宝箱 – DeepSeek API在多种软件中的集成应用

    DeepSeek百宝箱是什么

    DeepSeek百宝箱是 DeepSeek官方 维护的 GitHub 项目,展示如何将 DeepSeek API 集成到各种流行软件中。项目列出了一系列支持 DeepSeek 的工具和应用,涵盖了从桌面端到移动端的多种平台,包括但不限于聊天工具(如 SwiftChat、Pal)、知识管理工具(如 Coco AI、SiYuan)、翻译工具(如 Easydict、Bob)以及开发工具(如 PHP Client、DeepSwiftSeek)。展示了 DeepSeek 在不同场景下的应用能力,帮助开发者和用户更好地使用强大的语言模型功能,提升工作效率和用户体验。

    DeepSeek百宝箱

    DeepSeek百宝箱的主要功能

    • 精选资源库:所有工具均经过 DeepSeek 技术团队验证,确保稳定性与兼容性。项目按功能(如模型训练、部署、监控、优化等)和应用场景(如 NLP、CV、数据分析等)进行分类,帮助用户快速定位所需工具。紧跟 DeepSeek 技术迭代,定期新增工具、修复问题,保持生态前沿性。
    • 开箱即用:一键部署脚本,提供主流框架(如 PyTorch、TensorFlow)的预配置环境与示例代码。封装标准化接口,支持 RESTful、gRPC 等多种协议,简化集成流程。
    • 详实文档:每个工具附带教程、API 文档及常见问题解答(FAQ)。
    • 本地化支持:提供中文/英文双语资源,适配国内开发环境(如 GPU 加速、私有云部署)。
    • 社区驱动:开放 Issue 追踪和 Pull Request,鼓励开发者贡献工具或优化建议。
    • 全链路覆盖:支持模型训练(分布式训练框架)、调优(超参优化工具)、部署(Docker/Kubernetes 模板)、监控(性能分析仪表盘)全流程。适配主流操作系统(Linux/Windows/macOS)及硬件(CPU/GPU/TPU)。
    • 多平台即插即用:支持 Slack、GitHub、AWS、Jira 等 20+ 开发工具的一键接入,无需编写额外代码。
    • 低代码可视化配置:通过拖拽式界面自定义 AI 工作流,比如设置“自动扫描提交代码→检测潜在漏洞→生成修复建议”的自动化管道,开发效率提升 60% 以上。
    • 智能上下文感知:基于 DeepSeek 独家算法,工具能自动识别不同场景需求。例如,在 Confluence 文档中智能建议技术术语解释,在 Jenkins 构建失败时推荐调试方案。
    • 毫秒级响应引擎:依托分布式计算架构,处理百万行日志分析时,仍能保持 200ms 内的响应速度,避免工作流卡顿。
    • 动态权限管理:细粒度控制不同角色对 AI 功能的调用权限,支持 SOC2 合规审计日志,满足金融、医疗等敏感行业的严苛要求。
    • 自适应学习机制:工具会持续分析团队使用习惯,自动优化推荐策略。

    DeepSeek百宝箱的主流工具和应用

    办公与生产力工具

    • Chatbox:支持多种流行 LLM 模型的桌面客户端,可在 Windows、Mac 和 Linux 上使用。用户可以在写文档、做计划时随时获取智能建议。
    • Raycast:macOS 生产力工具,支持各种扩展,包括 DeepSeek AI,允许用户用几个按键来控制工具。
    • ChatDOC:一款 AI 文档阅读工具,具备强大的溯源功能,确保每一条信息的来源清晰可查,帮助用户高效、精准地掌握文档核心。
    • GPTBots:无代码 AI Agent 构建平台,集成了包括 Deepseek 在内的国际主流 LLM,并提供了基于 RAG 的知识存储 / 检索,工具自定义 / 调用,工作流编排等模块,并可将 Agent 集成至多个主流平台(WhatsApp、Telegram 等),为企业提供端到端的 AI 解决方案。
    • DeepChat:完全免费的桌面端智能助手,内置强大的 DeepSeek 大模型,支持多轮对话、联网搜索、文件上传、知识库等多种功能。
    • Quantalogic:一个 ReAct(推理和行动)框架,用于构建高级 AI 代理。

    AI编程与智能体开发工具

    • Cursor:基于 VS Code 的 AI 代码编辑器。
    • WindSurf:由 Codeium 开发的另一个基于 VS Code 的 AI 代码编辑器。
    • AutoDev:AutoDev 是 JetBrains IDE 中的开源 AI 编程助手。
    • Onegai Copilot:Onegai Copilot 是 JetBrains IDE 中的 AI 编程助手。
    • Continue:Continue 是 IDE 中的开源自动编程工具。

    移动与社交应用

    • Liubai:在微信上使用 DeepSeek 管理笔记、任务、日历和待办清单,实现人工智能与日常办公的结合。
    • Pal – AI Chat Client:为 iOS 和 iPadOS 用户设计的定制聊天平台,提供个性化、方便的聊天环境。
    • ToMemo:iOS 应用,集成了 AI 大模型,可以在键盘中快速输出使用。

    内容创作与知识管理

    • FastGPT:基于 LLM 大模型的开源 AI 知识库构建平台,支持 DeepSeek、OpenAI 等多种模型。它提供了开箱即用的数据处理、模型调用、RAG 检索和可视化 AI 工作流编排能力,帮助您轻松构建复杂的 AI 应用。
    • PapersGPT:集成了 DeepSeek 及其他多种 AI 模型的 Zotero 插件,辅助论文阅读。
    • 思源笔记:隐私优先的个人知识管理系统,支持完全离线使用,并提供端到端加密的数据同步功能。
    • Cherry Studio:为创造者而生的桌面版 AI 助手。

    多媒体与娱乐

    • Video Subtitle Master:批量为视频生成字幕,并可将字幕翻译成其他语言,支持多种翻译服务。
    • LiberSonora:AI 赋能的有声书工具集,包含智能字幕提取、AI 标题生成、多语言翻译等功能。
    • Story-Flicks:通过一句话即可快速生成高清故事短视频,支持 DeepSeek 等模型。

    开发与技术工具

    • Dify:支持 DeepSeek 模型的 LLM 应用开发平台,可用于创建 AI 助手、工作流、文本生成器等应用。
    • go-stock:由 Wails 使用 NativeUI 构建并由 LLM 提供支持的股票数据查看分析器。
    • Wordware:使任何人都可以通过自然语言构建、迭代和部署他们的 AI 堆栈。

    教育与学习

    • Zotero:文献管理工具,帮助用户收集、整理、注释、引用和分享研究成果,可使用 DeepSeek 作为翻译服务。
    • Enconvo:AI 时代的启动器,是所有 AI 功能的入口,也是一位体贴的智能助理。

    金融与投资

    • Alpha Pai:AI 投研助理 / AI 驱动的新一代金融信息入口,代理投资者听会、记纪要,提供金融投资信息的搜索问答和定量分析等投资研究工作。
    • go-stock:股票数据查看分析器,由 LLM 提供支持。

    RAG 框架

    • RAGFlow:开源的 RAG 引擎,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。
    • AutoFlow:基于 GraphRAG 的知识库工具,提供类 Perplexity 的搜索页面,可以嵌入简单的 JavaScript 代码片段。
    • DeepSearcher:结合强大的 LLM(DeepSeek、OpenAI 等)和向量数据库(Milvus 等),根据私有数据进行搜索、评估和推理。

    DeepSeek百宝箱的项目地址

    DeepSeek百宝箱的应用场景

    • 辅助诊断:在医疗领域,DeepSeek 可以通过分析医学影像等数据,快速识别病灶,为医生提供辅助诊断参考。
    • 文档阅读工具:例如 ChatDOC,是 AI 文档阅读工具,具备强大的溯源功能,确保每一条信息的来源清晰可查。
    • 知识管理工具:例如 Coco AI,开源的跨平台统一搜索与效率工具,连接搜索多种数据源,支持私有部署,注重隐私。
    • 视频字幕生成:例如 Video Subtitle Master,批量生成视频字幕,可将字幕翻译成其他语言,支持多种翻译服务。
    • 有声书工具:例如 LiberSonora,AI 有声书工具集,包含智能字幕提取、AI 标题生成、多语言翻译等功能。
  • R1-Omni – 阿里通义开源的全模态大语言模型

    R1-Omni是什么

    R1-Omni 是阿里通义推出的基于强化学习(RLVR)的全模态大语言模型,专注于情感识别任务。通过结合视觉和音频信息,能清晰地解释情感识别的推理过程,展现出强大的情感理解能力。在多个情感识别数据集上,R1-Omni 的性能显著优于监督微调(SFT)模型,在分布外场景中表现出色,具有很强的泛化能力。

    R1-Omni

    R1-Omni的主要功能

    • 多模态情感分析:R1-Omni 能同时处理视觉和音频信息,对输入的视频或音频内容进行情感识别,准确判断其中所表达的情感。
    • 可解释的推理过程:模型给出情感识别结果,能生成详细的推理过程。推理过程封装在特定的标签内,解释模型是如何整合视觉和音频线索得出预测的,增强了模型的可解释性。
    • 基于 RLVR 的训练:R1-Omni 采用 RLVR 训练范式,基于可验证奖励函数直接评估输出,无需依赖单独的奖励模型。简化了奖励机制,同时确保了与任务内在正确性标准的一致性。
    • GRPO 方法应用:结合 GRPO(生成相对策略优化)方法,直接比较生成的响应组,避免使用额外的评论家模型,增强了模型区分高质量和低质量输出的能力。
    • 推理能力增强:相比其他基线模型,R1-Omni 提供了更连贯、准确和可解释的推理过程。
    • 理解能力提高:在多个情感识别数据集上,R1-Omni 的情感识别准确率显著优于其他模型。
    • 泛化能力更强:在分布外(OOD)数据集上,R1-Omni 表现出色,能够更好地适应未见场景。

    R1-Omni的技术原理

    • RLVR 训练范式:RLVR 是新的训练范式,核心思想是基于验证函数直接评估模型输出,无需依赖传统的人类反馈强化学习(RLHF)中的单独奖励模型。给定输入问题 q,策略模型 πθ​ 生成响应 o,然后使用可验证奖励函数 R(q,o) 对其进行评估,优化目标是最大化验证奖励减去基于 KL 散度的正则化项。简化了奖励机制,同时确保了与任务内在正确性标准的一致性。
    • GRPO 方法:GRPO(分组相对策略优化)是改进的强化学习方法,与传统的 PPO(近端策略优化)不同。GRPO 避免了使用额外的评论家模型,直接比较生成的响应组。具体过程是:针对一个问题 q,采样多组输出 {o1​,o2​,…,oG​},对每个输出计算奖励分 {r1​,r2​,…,rG​},然后对这些奖励分进行归一化处理,形成相对奖励。能更直接地反映同一问题下不同输出的优劣关系,增强模型区分高质量和低质量输出的能力。
    • 冷启动策略:R1-Omni 的模型构建采用了受 DeepSeek-R1 启发的冷启动策略。首先,在包含 232 个可解释多模态情感推理数据集(EMER)样本和 348 个手动标注的 HumanOmni 数据集样本的组合数据集上,对 HumanOmni-0.5B 进行微调。使模型具备初步的推理能力,了解视觉和音频线索是如何对情感识别产生作用的。之后,通过 RLVR 训练进一步优化模型。
    • 奖励函数设计:在 RLVR 训练过程中,奖励函数由两部分组成:准确率奖励和格式奖励。准确率奖励用于评估预测情感与真实情感的匹配度,格式奖励确保模型输出符合指定的 HTML 标签格式。保证了情感识别的准确性和输出的可解释性。
    • 模型输出格式:R1-Omni 的输出预期包含两部分:推理过程和最终情感标签。推理过程封装在 <think></think> 标签内,解释模型如何整合视觉和音频线索得出预测;最终情感标签封装在 <answer></answer> 标签内,表示预测的情感。提供了情感识别结果,给出了详细的推理过程,增强了模型的可解释性

    R1-Omni的项目地址

    R1-Omni的应用场景

    • 情感分析:可用于社交媒体管理、舆情监测、消费者情感分析等场景,帮助企业更有效地与目标用户互动。
    • 内容创作辅助:结合 AI 绘画与写作工具,为市场营销、广告创意等提供优质的解决方案。
    • 心理健康评估:R1-Omni 可以分析患者的情绪表达,辅助心理健康专业人士进行评估和干预。
    • 教育领域:在在线教育中,R1-Omni 可以分析学生的情绪反应,帮助教师调整教学策略。
  • SeedFoley – 字节推出的端到端视频音效生成模型

    SeedFoley是什么

    SeedFoley 是字节跳动豆包大模型语音团队开发的端到端视频音效生成模型,为视频创作提供智能音效生成服务。通过融合时空视频特征与扩散生成模型,实现音效与视频的高度同步。模型采用快慢特征组合的视频编码器,提取视频的时空特征,同时基于原始波形作为输入的音频表征模型,保留高频信息,提升音效细腻程度。扩散模型通过优化概率路径上的连续映射关系,减少推理步数,降低推理成本。 SeedFoley 能精准提取视频帧级视觉信息,智能区分动作音效和环境音效,支持多种视频长度,在音效准确性、同步性和匹配度上表现优异。

    SeedFoley

    SeedFoley的主要功能

    • 智能生成音效:SeedFoley 能精确提取视频帧级视觉信息,通过分析多帧画面信息,精准识别视频中的发声主体及动作场景,比如节奏感强烈的音乐瞬间,电影中的紧张情节,能精准卡点,营造出身临其境的逼真体验。
    • 区分音效类型:SeedFoley 可智能区分动作音效和环境音效,显著提升视频的叙事张力和情感传递效率。
    • 支持多种视频长度:SeedFoley 能支持可变长度的视频输入,在音效准确性、音效同步性和音效匹配度等指标上都取得了领先水平。

    SeedFoley的技术原理

    • 视频编码器:SeedFoley 的视频编码器采用快慢特征组合的方式,在高帧率上提取帧间的局部运动信息,在低帧率上提取视频的语义信息。通过这种方式,模型能在低计算资源下实现 8fps 的帧级别视频特征提取,实现精细动作定位。最后基于 Transformer 结构融合快慢特征,实现视频的时空特征提取。
    • 音频表征模型:与传统的基于梅尔频谱的 VAE 模型不同,SeedFoley 采用原始波形作为输入,经过编码后得到 1D 的表征。音频采用 32k 的采样率,确保高频信息的保留。每秒钟的音频提取到 32 个音频潜在表征,有效提升音频在时序上的分辨率,提升音效的细腻程度。
    • 扩散模型:SeedFoley 采用 Diffusion Transformer 框架,通过优化概率路径上的连续映射关系,实现从高斯噪声分布到目标音频表征空间的概率匹配。相较于传统扩散模型依赖马尔可夫链式采样的特性,SeedFoley 通过构建连续变换路径,有效减少推理步数,降低推理成本。在训练阶段,将视频特征与音频语义标签分别编码为隐空间向量,通过通道维度拼接将二者与时间编码及噪声信号进行混合,形成联合条件输入。提升了音效和视频画面在时序上的一致性。

    如何使用SeedFoley

    • 访问即梦平台:访问即梦的官方网站或使用即梦 App,注册并登录。
    • 生成视频:在即梦上选择视频生成功能,根据您的需求生成视频内容。
    • 选择「AI 音效」功能:在生成视频后,选择「AI 音效」功能。系统会自动为您的视频生成 3 个专业级音效方案。
    • 预览和选择音效方案:预览生成的音效方案,选择最适合您视频内容的音效方案。
    • 应用音效:将选择的音效方案应用到您的视频中。
    • 注意事项
      • 视频长度:SeedFoley 支持可变长度的视频输入,但建议视频长度不要过长,确保生成效果。
      • 音效类型:SeedFoley 可智能区分动作音效和环境音效,提升视频的叙事张力和情感传递效率。
      • 预览效果:在选择音效方案时,建议仔细预览每个方案的效果,选择最适合您视频内容的音效。

    SeedFoley的应用场景

    • 生活 Vlog:为个人 Vlog 添加逼真的环境音效,如街头的嘈杂声、咖啡馆的背景音乐等。
    • 短片制作:为短片添加与情节匹配的动作音效和环境音效,增强观众的沉浸感。
    • 游戏制作:为游戏视频添加逼真的音效,如战斗音效、环境音效等,提升游戏的体验感。
    • 视频后期制作:在视频后期制作中,SeedFoley 可以快速生成与视频内容高度匹配的音效,节省后期制作的时间和成本。
    • 广告视频:为广告视频添加吸引人的音效,提升广告的吸引力和传播效果。
    • 教育视频:为教育视频添加合适的音效,增强观众的学习兴趣和注意力。
  • START – 阿里联合中科大推出的自学推理模型

    START是什么

    START(Self-Taught Reasoner with Tools)是阿里巴巴集团和中国科学技术大学推出的新型工具增强型推理模型,结合外部工具(如Python代码执行器)提升大型语言模型(LLMs)的推理能力。START基于“Hint-infer”技术在推理过程中插入提示,激发模型使用外部工具,基于“Hint-RFT”框架进行自学习和微调。START在长链推理(Long CoT)的基础上,引入工具调用,显著提高在复杂数学问题、科学问答和编程挑战中的准确性和效率。START在多个基准测试中表现出色,超越现有模型,成为首个开源的长链推理与工具集成相结合的模型。

    START

    START的主要功能

    • 复杂计算与验证:调用Python代码执行器,进行复杂的数学计算、逻辑验证和模拟。
    • 自我调试与优化:START用工具执行代码并验证输出,自动检测错误并进行调试,提高答案的准确性。
    • 多策略探索:基于提示(Hints)引导模型尝试多种推理路径和方法,增强模型在面对复杂问题时的灵活性和适应性。
    • 提升推理效率:基于工具调用和自我验证,减少模型在复杂任务中的幻觉(hallucination)现象,提高推理效率和可靠性。

    START的技术原理

    • 长链推理:继承长链推理的优势,分解问题为多个中间推理步骤,模拟人类的深度思考过程,提高模型在复杂任务中的推理能力。
    • 工具集成:START基于调用外部工具(如Python代码执行器)弥补传统长链推理的不足。模型在推理过程中生成代码,用工具执行验证结果。
    • Hint-infer:在推理过程中插入人工设计的提示(Hints),激发模型调用外部工具的能力。引导模型在特定节点调用工具,无需额外的演示数据。
    • Hint-RFT:结合Hint-infer和拒绝采样微调(RFT),对模型生成的推理轨迹进行评分、过滤和修改,进一步优化模型的工具使用能力。
    • 自学习框架:基于主动学习方法,从模型生成的推理轨迹中筛选出有价值的数据,用于微调,让模型自我学习如何更有效地使用工具。
    • 测试时扩展:在推理结束时插入提示,增加模型的思考时间和工具调用次数,提高推理的准确性和成功率。

    START的项目地址

    START的应用场景

    • 数学问题求解:解决复杂的数学题目,如数学竞赛和高等数学问题,用代码验证提高准确性。
    • 科学研究辅助:帮助处理物理、化学和生物等领域的复杂计算和科学问题。
    • 编程与调试:生成代码并自动调试,解决编程难题,提升开发效率。
    • 跨学科问题解决:综合运用多学科知识,解决工程设计、数据分析等复杂任务。
    • 教育与学习:作为智能辅导工具,辅助学生学习数学和科学,提供详细的解题过程和反馈。
  • LanPaint – 零训练 AI 图像修复工具

    LanPaint是什么

    LanPaint 是用在Stable Diffusion 模型的高质量图像修复工具,无需额外训练实现精准的图像修复和替换。LanPaint基于多轮迭代推理优化修复效果,支持无缝且准确的修复结果。LanPaint 提供简单易用的集成方式,与 ComfyUI 的工作流程一致,用户替换默认的采样器节点即可使用。LanPaint提供多种参数调整,适应不同复杂度的修复任务,例如调整推理步骤、内容对齐强度等。LanPaint 适用于从简单替换到复杂损坏修复的多种场景,是提升图像生成质量的有力工具。

    LanPaint

    LanPaint的主要功能

    • 零训练图像修复:无需额外训练,与任何Stable Diffusion模型(包括用户自定义模型)无缝配合,实现高质量的图像修复。
    • 简单集成:与ComfyUI的KSampler工作流程完全兼容,用户能轻松替换默认采样器节点,快速上手。
    • 高质量修复:基于多轮迭代推理,优化修复区域与原始图像的衔接,实现无缝且自然的修复效果。
    • 参数灵活调整:提供多种高级参数(如推理步骤、内容对齐强度、噪声掩码等),用户根据任务复杂度进行精细调整。

    LanPaint的技术原理

    • 迭代推理:在每次去噪步骤之前,进行多次迭代推理(由LanPaint_NumSteps参数控制),模拟模型的“思考”过程,逐步优化修复区域的生成内容。
    • 内容对齐与约束:基于LanPaint_Lambda参数控制修复区域与未修复区域的内容对齐强度,确保修复后的图像在视觉上自然过渡,避免出现明显的拼接痕迹。
    • 动态调整噪声掩码:在迭代过程中,动态调整噪声掩码的强度(由LanPaint_StepSize控制),更好地引导模型生成修复区域的内容,避免过度生成导致的失真。
    • 高级参数优化:调整LanPaint_cfg_BIG(修复区域的CFG规模)和LanPaint_Friction(摩擦系数)等参数,优化修复效果,平衡修复质量和生成速度。
    • 二值掩码处理:要求输入掩码为二值掩码(值为0或1),避免因透明度或渐变导致的生成问题,确保修复区域的边界清晰且明确。

    LanPaint的项目地址

    LanPaint的应用场景

    • 图像修复与损坏恢复:用在修复老旧照片、损坏的图像或去除图像中的划痕、污渍等缺陷,恢复图像的完整性和清晰度。
    • 内容替换与编辑:快速替换图像中的特定元素,如改变人物的服装颜色、替换场景中的物品等,实现创意图像编辑或视觉效果优化。
    • 艺术创作与设计:在艺术创作中,修改或完善绘画作品中的局部细节,或根据创意需求调整图像内容,帮助艺术家和设计师快速实现想法。
    • 广告与商业图像处理:在广告设计中,快速调整产品展示图中的背景、道具或人物元素,满足不同的营销需求,提升视觉效果的吸引力。
    • 视频帧修复与编辑:用在修复视频中的关键帧,实现视频内容的优化或修复,例如去除视频中的干扰元素或修复损坏的视频帧。
  • TrajectoryCrafter – 腾讯和港中文推出的单目视频自由运镜技术

    TrajectoryCrafter是什么

    TrajectoryCrafter 是腾讯PCG ARC Lab和香港中文大学推出的,用在单目视频的相机轨迹重定向方法,支持在后期自由调整视频的相机位置和角度,轻松改变视频中的运镜方式。TrajectoryCrafter基于解耦视图变换和内容生成,用双流条件视频扩散模型,将点云渲染和源视频作为条件,实现对用户指定相机轨迹的精确控制和高质量的 4D 内容生成。TrajectoryCrafte用创新的双重重投影策略和混合数据集(结合动态单目视频与静态多视角数据)训练模型,显著提升在多样化场景中的泛化能力。TrajectoryCrafter 在多视角和大规模单目视频数据集上表现出色,能生成高保真、与源视频一致的新型轨迹视频,为沉浸式视频体验提供新的可能性。

    TrajectoryCrafter

    TrajectoryCrafter的主要功能

    • 精确轨迹控制:用户指定任意相机轨迹(如平移、旋转、缩放等),生成与之匹配的视频内容。
    • 高保真视频生成:生成的视频在视觉上与原始视频保持一致,具备高质量的细节和纹理。
    • 4D一致性:生成的视频在空间上与目标轨迹一致,在时间上与原始视频保持连贯性,避免内容漂移或闪烁。
    • 多样化场景泛化:模型能适应各种场景,包括室内、室外、动态场景等,具有良好的泛化能力。

    TrajectoryCrafter的技术原理

    • 双流条件视频扩散模型
      • 解耦视图变换与内容生成:将相机轨迹的确定性变换与内容生成的随机性分开处理。基于点云渲染实现精确的视图变换,用视频扩散模型生成高质量的内容。
      • 双流条件机制:模型包含两个条件输入:点云渲染(用在精确控制视图变换)和源视频(用在提供细节和纹理)。用独特的Ref-DiT模块(参考条件扩散变换器),将源视频的细节信息通过交叉注意力机制注入到生成过程中,提升生成视频的保真度。
    • 动态点云渲染:深度估计将单目视频转换为动态点云,根据用户指定的相机轨迹渲染新视图。点云渲染准确捕捉几何关系和视图变换,提供几何指导。
    • 混合数据集与训练策略:用混合数据集策略,结合网络规模的单目视频和静态多视角数据集进行训练。对于单目视频,用双重重投影策略生成大规模的训练样本。具体方法是将视频通过深度估计提升为点云,渲染新视图后再重新投影回原始视角,模拟点云渲染的效果。模型用两阶段训练策略,第一阶段专注于视图变换的准确性和缺失区域的合成;第二阶段用多视角数据集训练,提升生成视频与源视频的一致性。

    TrajectoryCrafter的项目地址

    TrajectoryCrafter的应用场景

    • 沉浸式娱乐:用在VR/AR,让用户自由切换视角,增强沉浸感。
    • 创意视频制作:帮助影视、短视频创作者添加新视角效果,提升内容吸引力。
    • 智能视频会议:动态调整会议视角,聚焦特定区域或人员,提升交互性。
    • 自动驾驶与机器人:生成多视角驾驶或导航场景,用在训练和测试算法。
    • 教育与培训:创建多视角教学视频,帮助学生更好地理解和学习。
  • VideoPainter – 港中文联合腾讯等机构推出的视频修复和编辑框架

    VideoPainter是什么

    VideoPainter 是香港中文大学、腾讯ARC Lab、东京大学、澳门大学等机构推出的视频修复和编辑框架,专门用在处理任意长度的视频内容。VideoPainter基于双分支架构,结合轻量级上下文编码器和预训练的扩散模型,实现高效的背景保留和前景生成。框架支持插件式操作,用户根据需求灵活调整修复效果。VideoPainter 引入 ID 重采样技术,能在长视频中保持对象一致性。VideoPainter构建了 VPData 和 VPBench,目前最大的视频修复数据集,包含超过 39 万段视频剪辑,为大规模训练和评估提供支持。VideoPainter 在视频质量、掩码区域保留和文本对齐等多个指标上展现卓越了性能,为视频修复和编辑领域带来新的突破。

    VideoPainter

    VideoPainter的主要功能

    • 任意长度的视频修复:处理从短片段到长视频的各种内容,修复被遮挡或损坏的部分。
    • 背景保留与前景生成:基于双分支架构,实现背景的精确保留和前景的高质量生成。
    • 文本指导的视频编辑:支持用文本指令进行视频编辑,如添加、删除、替换或修改视频中的对象。
    • 对象一致性维持:在长视频中保持对象的身份一致性,避免出现对象漂移或突变。
    • 插件式控制:支持与不同的扩散模型或LoRA(低秩适配)模型结合,实现多样化的视频生成和编辑需求。

    VideoPainter的技术原理

    • 双分支架构
      • 背景分支:基于轻量级上下文编码器提取背景特征,注入到预训练的扩散模型中,确保背景的连贯性。
      • 前景分支:基于扩散模型的生成能力,根据文本提示生成前景内容,与背景特征结合,实现高质量的修复。
    • 轻量级上下文编码器:仅包含两层,占用主模型参数的6%,提取背景特征并以分组方式注入到扩散模型中。基于选择性特征融合,将背景特征注入到模型中,避免前景和背景信息混淆。
    • ID重采样技术:在训练时,增强目标区域的ID信息,提升模型对修复区域的感知能力。在推理时,将前一视频片段的修复区域特征与当前片段结合,确保长视频中对象的一致性。
    • 插件式控制:支持与不同的扩散模型或LoRA模型结合,用户根据需求选择合适的模型进行视频修复或编辑。兼容文本到视频(T2V)和图像到视频(I2V)扩散模型,进一步扩展应用范围。
    • 大规模数据集构建:用先进的视觉模型(如SAM2、Grounding DINO等),自动生成精确的分割掩码和密集的文本描述。构建VPData和VPBench,包含超过39万段视频剪辑,为大规模训练和评估提供支持。

    VideoPainter的项目地址

    VideoPainter的应用场景

    • 影视修复与制作:修复老电影、电视剧中的损坏画面,或添加特效、修改场景。
    • 广告与营销:快速生成高质量视频内容,添加或替换背景、道具,实现个性化定制。
    • 视频创作与直播:实时修复视频中的错误或干扰,添加虚拟道具,提升视觉效果。
    • VR与AR应用:生成沉浸式视频内容,修复或修改虚拟场景,增强现实感。
    • 教育与培训:制作教学视频,修复古籍影像,添加虚拟设备或标注,增强教学效果。