Category: AI工具

AI工具集介绍和收录了当前最新的AI产品，紧跟最新AI领域的进展，介绍了AI产品的主要功能、如何使用和主要应用场景，快速了解最新AI产品发展趋势。

Tersa – 免费AI工作流构建平台，通过拖放方式连接
Tersa是什么

Tersa 是开源免费的 AI 工作流构建平台，通过简单直观的拖放界面，帮助用户快速创建和运行 AI 工作流。支持多达 77 个顶级 AI 模型，包括 GPT-4o、Claude 3.5 Sonnet、DALL-E 3 和 Whisper 等，能满足文本生成、图像和视频创作、音频转录以及代码优化等多种任务需求。用户可以通过拖放文件来生成节点，轻松设计复杂的工作流，无需编写代码或深入了解技术细节。

Tersa的主要功能
- 可视化工作流构建：用户可以通过拖放节点的方式连接并运行工作流，构建由多种行业领先的 AI 模型驱动的工作流程。
- 支持多种 AI 模型：平台支持 77 个顶级 AI 模型，如 GPT-4o、Claude 3.5 Sonnet、DALL-E 3 和 Whisper 等，能满足文本生成、图像和视频创作、音频转录以及代码优化等多种任务需求。
- 文件拖放功能：用户可以拖放文件以生成节点，简化复杂工作流的设计过程。
Tersa的官网地址
- 官网地址：tersa.ai
Tersa的应用场景
- 文本处理：用户可以用 Tersa 集成的 AI 模型（如 GPT-4o、Claude 3.5 Sonnet 等）对文本数据进行预处理、分析和总结。
- 自动化内容生成：构建自动化工作流，例如根据输入的文本提示自动生成图像、视频或文本内容。
- 代码审查与重构：连接代码节点和文本节点，用 AI 模型分析代码库，识别需要改进的领域，自动执行重构过程。
- 快速原型开发：在产品开发过程中，Tersa 可以帮助开发者快速构建和测试 AI 功能，加速产品的迭代过程。
- 功能集成：通过连接不同的 AI 模型，开发者可以在一个平台上实现多种功能的集成，例如在同一个应用中同时处理文本、图像和音频。
May 19, 2025
LightLab – 谷歌等机构推出的图像光源控制模型
LightLab是什么

LightLab是谷歌等机构推出的基于扩散模型的图像光源控制模型，能对单张图像中的光源进行细粒度的参数化控制。模型支持用户调整光源的强度和颜色，插入虚拟光源，及改变环境光的强度。基于结合少量真实照片对和大量合成渲染图像进行训练，LightLab能生成物理上合理的光照效果，如阴影和反射。工具提供交互式演示界面，用户基于滑块直观地调整光照参数，实现复杂的光照编辑。LightLab在多种场景下表现出色，为摄影和图像编辑提供强大的功能。

LightLab的主要功能
- 光源强度控制：用户能调整图像中特定光源的强度，实现从完全关闭到任意强度的调节。
- 光源颜色控制：支持用户改变光源的颜色，支持多种颜色温度和自定义RGB颜色。
- 环境光控制：用户能调节场景的环境光强度，模拟不同环境光照条件。
- 虚拟光源插入：支持插入虚拟光源，生成合理的光照效果。
- 连续编辑：支持对同一图像进行多次连续的光照编辑，每次编辑都基于前一次的结果。
LightLab的技术原理
- 扩散模型：基于扩散模型的强大生成能力，训练后能理解和生成逼真的光照效果。
- 数据生成：结合少量真实照片对和大量合成渲染图像生成训练数据。真实照片对提供复杂的几何和光照细节，合成数据增加光照条件的多样性。
- 线性光模型：基于光的线性特性，用简单的加减运算合成不同光照强度和颜色的图像序列。
- 条件扩散模型：对扩散模型进行条件化，模型根据用户指定的光照参数（如光源强度、颜色和环境光强度）生成相应的图像。
- 色调映射：用合适的色调映射策略，确保生成的图像在视觉上具有合理的曝光和对比度。
- 参数化控制：基于参数化的方式控制光源的属性，让用户直观地基于滑块等界面元素进行调整。
LightLab的项目地址
- 项目官网：https://nadmag.github.io/LightLab/
- HuggingFace模型库：https://huggingface.co/papers/2505.09608
- arXiv技术论文：https://arxiv.org/pdf/2505.09608
LightLab的应用场景
- 摄影后期：调整照片光源，增强或改变灯光效果。
- 影视特效：快速生成不同光照条件下的画面。
- 室内设计：模拟不同灯光布局的效果。
- 游戏开发：优化游戏场景的光照效果。
- 广告制作：突出产品特点，营造吸引人的视觉效果。
May 19, 2025
Index-AniSora – B站开源的动漫视频生成模型
Index-AniSora是什么

Index-AniSora 是哔哩哔哩开源的先进动漫视频生成模型，模型支持一键生成多种动漫风格的视频，涵盖番剧片段、国创动画、VTuber 内容等。模型包含超过 1000 万高质量的文本视频对，基于时空掩码模块实现图像到视频生成、帧插值和局部图像引导等功能。Index-AniSora 提供 948 段多样化动画视频的基准数据集，用在评估模型在人物一致性、运动一致性等方面的表现。

Index-AniSora的主要功能
- 图像到视频生成：根据单张图片生成连贯的动画视频，适用于从静态画面扩展为动态场景。
- 帧插值：支持关键帧插值，基于生成中间帧实现平滑过渡，减少动画制作中手工绘制的工作量。
- 局部图像引导：支持用户指定特定区域进行动画生成。
- 时空控制：结合时间和空间的控制能力，支持首帧、尾帧、多帧引导等多种方式，实现精准的动画创作。
- 多样化风格支持：生成多种动画风格的视频，包括番剧、国创动画、漫画改编、VTuber 内容等，满足不同需求。
Index-AniSora的技术原理
- 扩散模型（Diffusion Model）：基于扩散模型架构，逐步去除噪声生成高质量的视频内容。扩散模型在生成任务中表现出色，适合处理复杂的时空数据。
- 时空掩码模块（Spatiotemporal Mask Module）：引入时空掩码模块，支持模型在生成过程中对特定时间和空间区域进行控制。例如，掩码指定哪些帧或哪些区域需要生成动画，实现局部引导和关键帧插值等功能。
- 3D 因果变分自编码器（3D Causal VAE）：用在对视频的时空特征进行编码和解码，将视频压缩到低维的潜在空间，降低计算复杂度，保留关键的时空信息。
- Transformer 架构：结合 Transformer 的强大建模能力，基于注意力机制捕捉视频中的复杂时空依赖关系。Transformer 的使用让模型能处理长序列数据，生成更连贯的视频内容。
- 监督微调（Supervised Fine-Tuning）：在预训练的基础上，用大量的动画视频数据进行监督微调，让模型更好地适应动画视频生成任务。微调过程中用多种策略，如弱到强的训练策略、多任务学习等，提高模型的泛化能力和生成质量。
- 数据处理流水线：基于场景检测、光学流分析、美学评分等技术，从大量原始动画视频中筛选出高质量的训练数据。确保训练数据的质量和多样性，为模型的性能提升提供保障。
Index-AniSora的项目地址
- GitHub仓库：https://github.com/bilibili/Index-anisora
- HuggingFace模型库：https://huggingface.co/IndexTeam/Index-anisora
- arXiv技术论文：https://arxiv.org/pdf/2412.10255
Index-AniSora的应用场景
- 动画制作：快速生成高质量动画片段，减少手工绘制工作量，提升创作效率。
- VTuber内容：生成舞蹈、表演等动态视频，助力虚拟主播内容创作。
- 创意验证：快速生成动画概念和故事板，辅助前期创意探索。
- 教育与培训：作为教学工具，帮助学生和新手快速掌握动画制作技巧。
- 营销与娱乐：生成动画广告、宣传视频和社交媒体内容，提升营销效果和用户互动。
May 19, 2025
AIFlowy – 开源的企业级AI应用开发平台
AIFlowy是什么

AIFlowy 是开源的企业级 AI 应用开发平台，帮助企业快速构建和管理 AI 应用。基于 Java 开发，支持智能对话机器人、私有知识库构建、AI 工作流编排和大模型管理等功能，提供完善的系统管理模块，满足企业级应用需求。 AIFlowy 采用 Apache-2.0 开源协议，要求保留版权信息和控制台内容。适合国内企业场景，注重实际落地。

AIFlowy的主要功能
- AI 功能
  - Bot 应用：快速搭建智能对话机器人，满足企业自动化交互需求。
  - RAG 知识库：支持构建私有知识库，通过检索增强生成（RAG）技术，提升大模型回答的精准度。
  - AI 工作流编排：可轻松编排 AI 应用工作流，满足复杂业务场景需求。
  - 大模型管理：支持大模型的配置、接入和管理。
  - 大模型市场：提供大模型的下载、使用、部署及微调功能。
  - Bot 插件：链接和扩展 AI 能力，快速集成业务。
- 系统管理功能
  - 用户管理：支持用户信息的创建、修改和删除。
  - 角色管理：可创建和分配不同角色，控制用户权限。
  - 菜单管理：自定义菜单项，优化用户体验。
  - 部门管理：支持企业内部部门的创建和管理。
  - 岗位管理：定义岗位信息，便于人员管理和权限分配。
  - 日志管理：记录系统操作日志，便于问题排查和审计。
AIFlowy的官网地址
- 官网地址：aiflowy.tech
AIFlowy的应用场景
- 智能对话机器人：AIFlowy 提供了强大的 Bot 应用功能，企业可以快速搭建智能对话机器人，用于客户服务、内部咨询、员工培训等场景。
- 私有知识库管理：AIFlowy 的知识库功能支持企业将内部文档、产品手册、FAQ 等资料进行结构化管理。通过 RAG（检索增强生成）技术，AI 应用能结合知识库中的内容生成更精准、更贴合业务的回答，提升企业内部信息的利用效率。
- AI 工作流编排：AIFlowy 提供了可视化的 AI 工作流编排功能，企业可以将一系列 AI 操作步骤串联起来，形成自动化处理流程。
- 大模型管理：AIFlowy 支持大模型的配置、接入和管理，企业可以根据自身需求选择合适的大模型，进行微调和优化。
- 企业信息化系统升级：AIFlowy 可以用于改造现有的信息化系统，为传统的业务流程注入 AI 能力。
May 18, 2025
Rox – AI销售Agent，自动处理数据优化销售流程
Rox是什么

Rox 是专注于销售领域的AI人工智能平台。通过智能代理（Agent）群体，帮助销售团队高效管理客户关系和优化销售流程。 Agent 能自动收集和整合客户数据，生成个性化邮件和社交媒体内容，自动化处理数据更新等任务，显著节省销售人员的时间，能专注于高价值的客户互动。Rox 提供深度数据分析和洞察，助力团队制定精准策略。

Rox的主要功能
- 智能代理群体：Rox 的 Agent 群体能自动处理客户信息，包括从各个来源收集并整合客户数据，提供单一视图。 Agent 可以在最少人类监督下执行现实世界任务。
- 实时更新：与传统 CRM 不同，Rox 可以实时监控客户动态，确保客户档案始终保持最新。
- 个性化内容生成：Agent 可以创建个性化的邮件和社交媒体内容（如 LinkedIn 帖子），帮助销售人员与客户保持良好沟通，提高客户参与度。
- 自动化任务处理：自动执行数据处理和任务，如更新 CRM 系统、生成客户动态报告等，减少销售人员的行政任务时间。
- 数据分析与洞察：提供可操作的数据分析报告，帮助销售人员制定更精准的销售策略。
- 与现有系统集成：Rox AI 能无缝集成 Salesforce、Zendesk 等现有 CRM 和 ERP 系统，确保数据同步和一致性。
Rox的官网地址
- 官网地址：rox.com
Rox的应用场景
- 客户发现与拓展：Rox 可以在庞大的联系人库中搜索潜在客户，用相关的公共信息丰富这些联系人资料，帮助销售人员找到合适的切入点并安排有意义的会议。
- 销售会议支持：Rox AI 提供会前简报和会议总结功能，帮助销售人员更好地准备和回顾会议内容，提升沟通效率。
- 客户信息管理和监控：Rox AI 通过智能代理群体整合客户数据，提供实时更新的客户档案。与传统 CRM 系统相比，Rox 能实时监控客户动态，确保销售人员始终掌握最新信息。
- 个性化营销与客户互动：Rox AI 可以生成个性化的电子邮件和 LinkedIn 消息，帮助销售人员更高效地与客户沟通。
May 18, 2025
Skild Brain – Skild AI推出的具身智能基础模型
Skild Brain是什么

Skild Brain 是 Skild AI 推出的具身智能基础模型，成为多种机器人和任务的共享通用大脑。能适应不同的硬件和任务，具有强大的泛化能力。可以集成到任何类型的机器人中，能在复杂的环境中执行多种任务，如物体操纵、导航和视觉检查。Skild AI 的技术优势在于模型的泛化能力和大规模数据训练，训练数据点比竞争对手多出1000倍。

Skild Brain的主要功能
- 物体操纵：Skild Brain 能控制机器人执行精确的物体操纵任务，如抓取、移动和放置物品。
- 运动与导航：机器人可以在复杂环境中自主导航，避开障碍物并到达指定位置。
- 环境适应：模型具备强大的自适应能力，能在动态和不可预测的环境中灵活操作，例如在建筑工地、工厂或家庭环境中。
- 涌现行为：Skild AI 的模型展现出“涌现能力”，能执行一些未出现在训练数据中的动作，如接住滑落的物体或旋转物体到正确方向。
- 移动操作平台：Skild AI 提供基于 Skild Brain 的移动操作平台，使开发者能通过简单的 API 调用开发机器人应用程序。
- 安全/巡检机器人平台：Skild AI 提供用于自动化视觉检查、数据收集或巡逻的全栈机器人解决方案。
- 四足机器人平台：用于恶劣物理条件下的任务，例如攀爬陡峭斜坡和绕过障碍物。
Skild Brain的官网地址
- 官网地址：skild.ai
Skild Brain的应用场景
- 工业自动化：在制造业中，机器人可以执行装配、搬运和检测等任务，提高生产效率。
- 物流与仓储：机器人能够自动完成货物分拣、搬运和存储，优化物流流程。
- 医疗保健：可用于辅助手术、患者护理和药物递送等医疗任务。
- 家庭服务：家庭机器人可以执行清洁、看护和陪伴等任务。
May 18, 2025
Sierra – AI客户服务Agent，实时解决复杂问题和交流
Sierra是什么

Sierra 是专注于对话式人工智能（AI）的平台，通过智能技术革新客户服务体验。通过提供始终在线、富有同理心且与品牌形象一致的AI智能体，帮助企业在多个渠道上实现高效、个性化的客户互动。Sierra 的AI Agent能实时解决复杂问题，如处理换货、更新订阅等，支持语音交互，为客户提供更自然、更便捷的沟通方式。平台具备强大的适应性，能快速响应业务变化，通过数据分析持续优化客户体验。

Sierra的主要功能
- 实时客户支持：能处理客户的各种问题，包括复杂的交流场景。
- 品牌一致性：AI Agent能模拟品牌的声音和语调，提供一致的客户体验。
- 快速适应业务变化：能迅速适应业务变化，通过分析报告不断优化客户体验。
- 多语言支持：提供多语言对话支持，满足不同地区客户的需求。
- 情感化语言处理：AI Agent能理解客户的情感和上下文，提供更自然、更贴心的互动体验。
- 无缝集成：可以与企业现有的业务系统（如 CRM、订单管理系统等）无缝集成，实现数据的实时同步和操作。
- 行动导向的支持：AI Agent能回答问题，能直接执行操作，例如处理订单更新、退换货、安排配送等。
- 质量保证：平台提供强大的审计和实时监控功能，确保 AI Agent的回答符合企业政策和合规性要求。
- 复杂问题解决：能处理复杂问题，适应业务变化，不断优化客户体验。
- 语音功能：支持语音对话，提供更便捷的沟通方式。
Sierra的官网地址
- 官网地址：sierra.ai
Sierra的应用场景
- 零售行业：帮助品牌如 Casper 提供个性化的产品推荐和服务支持，解决客户咨询，提高客户满意度和解决率。
- 金融服务：为金融机构提供客户咨询解答、账户管理等服务，提升客户体验。
- 电信行业：帮助电信运营商处理客户咨询，解决技术问题，提供套餐推荐等。
- 娱乐行业：如 Sirius XM 等娱乐广播公司，通过 AI 代理为用户提供节目咨询、订阅管理等服务。
- 呼叫中心：作为呼叫中心的补充或替代，提供自动化的客户支持，减少人工客服的工作量。
May 18, 2025
Doji – AI虚拟试衣应用，支持查看其他产品链接上身效果
Doji是什么

Doji 是 Dorian Dargan 和 Jim Winkens 创立的 AI 虚拟试衣应用。用户只需上传多张自拍和全身照片，Doji 的 AI 技术能生成高度逼真的虚拟形象，支持用户在形象上虚拟试穿各种服装。提供精选品牌和款式，能导入其他零售商的产品链接，用户轻松查看服装上身效果。Doji 具备个性化推荐功能，根据用户偏好和身材推荐适合的服装。用户可以将试穿效果分享到社交媒体，与他人互动。

Doji的主要功能
- 创建个性化虚拟形象：用户上传几张自拍和全身照片后，Doji 的 AI 技术会在大约 30 分钟内生成一个高度逼真的虚拟形象。
- 虚拟试穿服装：用户可以浏览应用内精选的服装品牌和款式，并将服装“穿”在自己的虚拟形象上查看效果。用户可以导入其他在线零售商的产品链接，进行虚拟试穿。
- 个性化推荐：Doji 根据用户的偏好、身体尺寸和时尚趋势，推荐适合的服装和搭配。
- 社交分享功能：用户可以将虚拟试穿效果分享到社交媒体，与朋友和社区互动。
- 快速试穿体验：Doji 的 AI 模型能快速生成试穿效果，减少用户等待时间。
Doji的官网地址
- 官网地址：doji.com
Doji的应用场景
- 服装试穿：用户在购买服装时，可以通过 Doji 上传自己的照片，生成虚拟形象后试穿各种品牌和款式。
- 多品牌体验：Doji 支持应用内精选品牌的试穿，能导入其他在线零售商的产品链接，为用户提供了更广泛的购物选择。
- 风格尝试：用户可以用 Doji 尝试不同的时尚风格，比如从休闲风到正装风，从街头风到高级定制。
- 品牌推广：品牌可以通过与 Doji 合作，将产品展示在应用内，让用户在虚拟试穿的过程中了解和体验品牌的产品，提高品牌的曝光度和用户购买意愿。
May 18, 2025
ShotAdapter – Adobe联合UIUC推出的多镜头视频生成框架
ShotAdapter是什么

ShotAdapter是Adobe联合UIUC推出的用在文本到多镜头视频生成的框架，基于微调预训练的文本到视频模型，引入过渡标记和局部注意力掩码策略，实现对多镜头视频的生成。框架能确保角色在不同镜头中的身份一致性，支持用户用特定的文本提示控制镜头的数量、时长和内容。ShotAdapter推出从单镜头视频数据集中构建多镜头视频数据集的新方法，基于采样、分割和拼接视频片段来生成训练数据。

ShotAdapter的主要功能
- 多镜头视频生成：根据文本描述生成包含多个镜头的视频，每个镜头有不同的活动和背景。
- 镜头数量和时长控制：用户用文本提示精确控制视频中镜头的数量和每个镜头的持续时间。
- 角色身份一致性：在多个镜头中保持角色的身份一致。
- 背景控制：支持在视频中保持背景一致或在镜头之间切换到新的背景，根据用户需求灵活调整。
- 镜头特定内容控制：支持用户基于镜头特定的文本提示控制每个镜头的内容，实现对视频细节的精细控制。
ShotAdapter的技术原理
- 过渡标记：引入特殊的过渡标记，用在指示视频中镜头的切换。标记被嵌入到文本到视频模型中，让模型能识别和生成镜头之间的过渡。
- 局部注意力掩码：为确保每个镜头的内容与文本提示紧密对应，基于局部注意力掩码。掩码策略限制模型中不同部分之间的交互，让每个文本提示只影响对应的视频帧，实现镜头特定的控制。
- 微调预训练模型：基于在多镜头视频数据集上对预训练的文本到视频模型进行微调，生成多镜头视频。微调过程只需要相对较少的迭代（如5000次）让模型适应多镜头视频生成任务。
- 数据集构建：为训练多镜头视频生成模型，推出从单镜头视频数据集中构建多镜头视频数据集的方法。基于采样、分割和拼接视频片段，及后处理步骤（如身份一致性检查和镜头特定字幕生成），创建适合训练的多镜头视频数据集。
ShotAdapter的项目地址
- 项目官网：https://shotadapter.github.io/
- arXiv技术论文：https://arxiv.org/pdf/2505.07652
ShotAdapter的应用场景
- 影视制作：生成剧本预览、动画和特效视频，提升制作效率。
- 广告营销：制作吸引人的广告和社交媒体视频，增加用户参与度。
- 教育领域：辅助教学和培训，制作教学视频及企业培训内容。
- 游戏开发：生成游戏剧情视频和过场动画，增强玩家体验。
- 个人创作：助力个人创作视频日记和创意视频，激发灵感。
May 18, 2025
BLIP3-o – Salesforce Research等机构推出的多模态模型
BLIP3-o是什么

BLIP3-o是Salesforce Research等机构推出的创新多模态模型，融合自回归模型的推理和指令遵循能力及扩散模型的强大生成能力。模型基于扩散语义丰富的CLIP图像特征，不依靠传统的VAE特征或原始像素，在图像理解和生成方面表现出色。BLIP3-o用一种顺序预训练策略，先进行图像理解训练，再进行图像生成训练，保留图像理解能力发展强大的图像生成能力。模型在多个图像理解和生成基准测试中取得优异的成绩，且完全开源，包括代码、模型权重、预训练和指令调整数据集。

BLIP3-o的主要功能
- 文本到文本：生成与图像相关的描述性文本。
- 图像到文本：对输入的图像进行理解生成描述性文本，支持多种图像理解任务，如视觉问答（VQA）和图像分类。
- 文本到图像：根据输入的文本描述生成高质量的图像。
- 图像到图像：对输入的图像进行编辑和修改，生成新的图像。
- 混合训练：支持图像生成和理解任务的混合训练，提高模型的综合性能。
BLIP3-o的技术原理
- 自回归模型与扩散模型的结合：自回归模型生成中间视觉特征，捕捉文本描述中的语义信息。扩散模型生成最终的图像。扩散模型基于逐步去除噪声生成图像，生成高质量且多样化的图像。
- CLIP特征扩散：用CLIP模型对图像进行编码，生成语义丰富的特征向量。特征向量比传统的VAE特征更紧凑且信息量更大。基于扩散模型对CLIP特征进行建模，生成与目标图像特征相似的特征向量，实现高质量的图像生成。
- 顺序预训练策略：首先对模型进行图像理解任务的预训练，确保模型具备强大的图像理解能力。在图像理解预训练的基础上，冻结自回归模型的权重，仅对扩散模型进行训练，实现高效的图像生成。
- 流匹配损失函数：用流匹配损失函数训练扩散模型，损失函数能更好地捕捉图像特征的分布，生成更高质量的图像。流匹配损失函数引入随机性，让模型能生成多样化的图像，不仅仅是单一的输出。
- 指令调整数据集：基于GPT-4o生成的多样化提示，创建一个包含60k高质量提示图像对的数据集，用在微调模型，提高指令遵循能力和视觉审美质量。
BLIP3-o的项目地址
- GitHub仓库：https://github.com/JiuhaiChen/BLIP3o
- HuggingFace模型库：https://huggingface.co/BLIP3o
- arXiv技术论文：https://arxiv.org/pdf/2505.09568
BLIP3-o的应用场景
- 图像生成与编辑：根据文本描述生成或修改图像，辅助设计和创意工作。
- 视觉问答：理解图像内容并回答相关问题，可用于教育和智能客服。
- 多模态对话：结合图像和文本进行对话，提升交互体验。
- 图像标注与分类：自动生成图像标签和进行分类，优化图像管理。
- 艺术与创意：生成艺术图像，激发创作灵感，满足个性化需求。
May 18, 2025