Category: AI工具

AI工具集介绍和收录了当前最新的AI产品,紧跟最新AI领域的进展,介绍了AI产品的主要功能、如何使用和主要应用场景,快速了解最新AI产品发展趋势。

  • Matrix-3D – 昆仑万维开源的3D世界模型

    Matrix-3D是什么

    Matrix-3D 是昆仑万维 Skywork AI 团队推出的用在生成可探索全景3D世界的框架。框架结合全景视频生成与3D重建,从单图像或文本提示出发,生成高质量、全向可探索的3D场景。基于轨迹引导的全景视频扩散模型和两种3D重建方法(快速前馈网络与高质量优化方法),Matrix-3D 实现大范围、高一致性的3D场景生成,支持文本和图像输入,具备高效性和强泛化能力。框架配套的 Matrix-Pano 数据集为研究提供有力支持。

    Matrix-3D

    Matrix-3D的主要功能

    • 全景视频生成:从单张图像或文本提示生成高质量全景视频,支持用户自定义相机轨迹。
    • 3D场景重建:提供快速前馈网络和高质量优化方法两种3D重建方式,满足不同需求。
    • 多种输入支持:支持文本和图像输入,用户根据需求选择,生成对应的3D场景。
    • 大范围场景生成:生成的3D场景范围大,支持360°自由探索,探索范围优于其他方法。
    • 高度可控性:用户能自定义生成轨迹,能在已生成场景基础上无限续写扩展。

    Matrix-3D的技术原理

    • 轨迹引导的全景视频生成:用场景网格(Mesh)渲染图作为条件输入,训练一个视频扩散模型。模型根据用户定义的相机轨迹生成全景视频,确保生成内容的空间一致性和几何准确性。
    • 全景视频到3D场景的转换:基于 Transformer 架构,直接从生成的全景视频的 latent 特征中预测3D几何属性。实现快速3D场景重建,适合实时应用。
    • 优化方法(Optimization-based):对生成的全景视频进行超分辨率处理和3D Gaussian Splatting 优化。生成高质量、细节丰富的3D场景,适合对视觉质量要求较高的场景。
    • Matrix-Pano 数据集:为解决现有3D场景数据稀缺的问题,Matrix-3D 提供一个大规模合成数据集。包含116,759个高质量静态全景视频序列,每个序列都带有相机轨迹和注释。数据集的多样性和高质量为模型训练提供了有力支持。
    • 全景表示:用全景图作为中间表示,覆盖360°水平视角和180°垂直视角。基于多个位置的全景图拼接生成全景视频,包含3D世界生成所需的所有信息。

    Matrix-3D的项目地址

    • 项目官网:https://matrix-3d.github.io/
    • GitHub仓库:https://github.com/SkyworkAI/Matrix-3D
    • HuggingFace模型库:https://huggingface.co/Skywork/Matrix-3D
    • 技术论文:https://github.com/SkyworkAI/Matrix-3D/blob/main/asset/report.pdf

    Matrix-3D的应用场景

    • 游戏开发:快速生成高质量3D游戏场景,缩短开发周期,提升玩家个性化体验。
    • 影视制作:生成逼真虚拟场景和特效,降低拍摄成本,助力故事板设计与场景预览。
    • 虚拟现实(VR)和增强现实(AR):Matrix-3D生成的全景3D场景支持360°自由探索,可用在虚拟旅游和AR应用,提升沉浸感。
    • 机器人导航与自动驾驶:生成复杂3D环境,用在机器人导航和自动驾驶系统的训练与测试,提升决策安全性。
    • 教育与培训:生成虚拟实验室和逼真训练场景,用在教育和技能培训,提高效果。
  • RynnEC – 阿里达摩院推出的世界理解模型

    RynnEC是什么

    RynnEC是阿里巴巴达摩院推出的世界理解模型 (MLLM),专门用在具身认知任务。模型能从位置、功能、数量等11个维度全面解析场景中的物体,支持物体理解、空间理解以及视频目标分割等功能。RynnEC仅靠视频序列能建立连续的空间感知,无需3D模型,支持灵活交互。RynnEC为具身智能提供强大的语义理解能力,助力机器人更好地理解物理世界。

    RynnEC

    RynnEC的主要功能

    • 物体理解:RynnEC能从多个维度(如位置、功能、数量等)解析场景中的物体,支持对物体的详细描述和分类。
    • 空间理解:基于视频序列建立连续的空间感知,支持3D感知,理解物体之间的空间关系。
    • 视频目标分割:根据文本指令实现视频中的目标分割,支持对特定区域或物体的精确标注。
    • 灵活交互:支持基于自然语言的交互,用户通过指令与模型进行实时沟通,获取反馈。

    RynnEC的技术原理

    • 多模态融合:将视频数据(包括图像和视频序列)与自然语言文本相结合,通过多模态融合技术,让模型能同时处理视觉和语言信息。用视频编码器(如 SigLIP-NaViT)提取视频特征,再用语言模型进行语义理解。
    • 空间感知:模型基于视频序列建立连续的空间感知,无需额外的3D模型。用时间序列信息和空间关系建模技术,让模型理解物体在空间中的位置和运动。
    • 目标分割:基于文本指令引导的视频目标分割技术,模型能根据用户的指令识别和分割视频中的特定目标。用掩码(mask)和区域标注技术,实现对视频帧中特定区域的精确分割。
    • 训练与优化:RynnEC 用大规模的标注数据进行训练,包括图像问答、视频问答和视频目标问答等多种格式。采用分阶段训练策略,逐步优化模型的多模态理解和生成能力。支持 LORA(Low-Rank Adaptation)技术,基于合并权重进一步优化模型性能。

    RynnEC的项目地址

    • GitHub仓库:https://github.com/alibaba-damo-academy/RynnEC/

    RynnEC的应用场景

    • 家庭服务机器人:助力家庭机器人理解指令,精准定位并操作家庭环境中的物品,如“拿遥控器”,提升家居自动化水平。
    • 工业自动化:在工业场景中,帮助机器人识别和操作生产线上的物体,完成复杂任务,如“将红色零件放在蓝色托盘上”,提高生产效率。
    • 智能安防:通过视频监控实时跟踪目标,如“监控红色车辆”,增强安防系统的智能化和响应能力。
    • 医疗辅助:使医疗机器人能理解指令并执行任务,如“送药品到病房302”,提升医疗服务的精准性和效率。
    • 教育培训:通过视频分割技术辅助教学,如“显示细胞结构”,增强学生对复杂概念的理解和学习体验。
  • RynnRCP – 阿里达摩院开源的机器人上下文协议

    RynnRCP是什么

    RynnRCP 是阿里达摩院开源的机器人上下文协议(Robotics Context Protocol),能打通具身智能开发全流程。RynnRCP 包含 RCP 框架 和 RobotMotion 两大模块,前者提供机器人本体与传感器的标准化能力接口;后者作为云推理与机器人控制的桥梁,将低频推理命令转换为高频控制信号。RynnRCP 通过标准化协议和工具,降低开发门槛,助力具身智能从数据采集到动作执行的高效适配与实现。

    RynnRCP

    RynnRCP的主要功能

    • RCP 框架
      • 能力抽象:提供机器人本体和传感器的能力抽象,将复杂的硬件接口封装为标准化的服务接口,方便开发者调用。
      • 多协议支持:支持多种通信协议(如 MQTT、WebSocket、LCM 等),实现机器人与云平台、边缘设备之间的高效通信。
      • 模块化设计:开发者根据需求扩展和定制服务节点,例如实现设备占用控制、资源调度和多客户端协作等功能。
      • 安全通信:配置文件仅存储设备认证元数据,运行时通过 HTTPS 安全通道生成时间敏感的访问令牌,确保通信安全。
    • RobotMotion
      • 低频到高频转换:将离散的低频推理命令实时转换为高频连续控制信号,确保机器人运动的平滑性和连贯性。
      • 仿真与调试工具:提供基于 MuJoCo 的物理仿真工具,支持仿真环境中的运动规划和验证,降低策略迁移难度。
      • 数据采集与回放:支持数据采集和回放功能,方便开发者对机器人运动轨迹进行可视化分析。
      • 真机调试:提供真机调试功能,支持在实际机器人上快速验证和优化控制策略。
    • Camera Node
      • 实时图像采集:用 OpenCV 实现多摄像头的实时图像采集,支持动态调整分辨率和帧率。
      • 无损压缩:基于 Gzip 对原始图像进行无损压缩,减少网络传输带宽消耗。
      • 异步处理:用 Python 的多线程能力,分离图像采集和消息响应,确保系统响应性和资源利用效率。

    RynnRCP的技术原理

    • 机器人上下文协议(RCP):RCP 是一种标准化的通信协议,用在定义机器人本体、传感器和云平台之间的交互方式。基于抽象层将硬件接口封装为通用的服务接口,使不同硬件和模型之间能无缝对接。RCP 支持多种通信协议(如 MQTT、WebSocket、LCM 等),基于适配层实现协议之间的转换和兼容,确保数据传输的高效性和稳定性。用标准化的数据格式(如 Protobuf、LCM 消息类型)定义数据传输的内容和结构,便于开发者理解和使用。
    • 模块化设计:RCP 框架用模块化设计,将机器人服务分为多个独立的模块(如 ActionServer、SensorServer、DeviceMonitorServer 等),每个模块负责特定的功能,开发者根据需求进行扩展和定制。提供统一的开发范式和基础模块,方便开发者快速上手,减少开发成本。
    • 低频到高频转换:RobotMotion 模块通过实时控制算法,将离散的低频推理命令转换为高频连续控制信号,确保机器人运动的平滑性和连贯性。结合物理仿真工具(如 MuJoCo),对机器人运动进行规划和优化,确保运动轨迹符合物理约束。

    RynnRCP的项目地址

    • GitHub仓库:https://github.com/alibaba-damo-academy/RynnRCP

    RynnRCP的应用场景

    • 工业自动化:通过标准化协议和实时控制技术,实现工业生产线上机械臂的精确控制与任务执行,提升生产效率和产品质量。
    • 物流仓储:在物流仓库中,控制AGV和机器人完成货物搬运与分拣任务,同时实时监控库存状态,优化物流流程。
    • 服务机器人:支持家庭、酒店、餐厅等场景中的服务机器人,完成清洁、送餐、咨询等任务,提升服务效率和用户体验。
    • 医疗康复:用在控制康复机器人,根据患者康复进度调整训练强度,同时支持手术辅助机器人提供高精度的手术支持。
    • 农业与环境监测:控制农业机器人完成播种、灌溉、收割等任务,同时用在环境监测机器人实时采集和上传监测数据,助力农业生产和环境保护。
  • 会PPT – AI PPT生成工具,自动校验数据准确性

    会PPT是什么

    会PPT(huiPPT)是智能AI办公工具,能一键生成PPT。用户只需输入主题或关键词,系统能快速生成逻辑清晰、设计精美的演示文稿。工具混合模型架构,结合本地和云端数据,自动匹配视觉资产,支持动态大纲、智能模板和实时风格迁移。适合职场人士、教师学生,能通过会PPT高效完成报告、课件或方案制作,节省时间和精力,重新定义高效办公。

    会PPT

    会PPT的主要功能

    • 一键生成PPT:用户输入主题或关键词,系统快速生成完整的PPT演示文稿。
    • 智能内容创作:通过混合模型架构,结合本地和云端数据,生成逻辑清晰、内容丰富的PPT。
    • 智能模板匹配:内置1200+种智能模板,支持实时风格迁移,满足不同场景需求。
    • 动态大纲生成:采用动态大纲树算法,确保PPT内容逻辑自洽。
    • 数据校验与美学评分:自动校验数据准确性,进行美学评分,提升PPT质量。
    • 多种创作模式
      • 主题生成模式:输入关键词,获取完整故事线。
      • 链接解析模式:抓取网页内容,自动提炼核心观点。
      • 文档转换模式:将Word/PDF文档快速转换为可视化演示文稿。

    如何使用会PPT

    • 访问官网:访问会PPT的官方网站:https://huippt.com/,选择在线使用或下载客户端。
    • 注册账号:点击页面上的“注册”按钮,填写相关信息(如邮箱、密码等),完成账号注册。
    • 登录平台:注册完成后,使用注册的账号和密码登录会PPT平台。
    • 开始创作:登录后进入创作面板,输入主题或关键词,例如“人工智能伦理的思辨报告”或“新能源汽车行业分析”。
    • 选择生成模式:根据需求选择生成模式。
    • 调整和编辑:生成的PPT自动匹配智能模板,用户根据需求调整内容、样式和风格。会PPT支持全图层编辑,能自由修改文字、图片、颜色等。
    • 保存和导出:完成编辑后,点击“保存”按钮保存PPT,或点击“导出”按钮将PPT导出为PPTX格式,方便在其他设备上使用。

    会PPT的应用场景

    • 企业办公:快速生成市场分析、项目汇报、培训材料和销售演示PPT,提升企业办公效率。
    • 教育领域:教师快速制作教学课件,学生高效完成课堂报告和学术汇报PPT。
    • 创意设计:设计师快速生成创意构思、设计提案和视觉设计PPT,提升设计效率。
    • 个人使用:快速制作个人简历、旅行计划和生活记录PPT,方便个人展示和分享。
    • 政府与非营利组织:快速生成政策解读、项目申报和公益宣传PPT,助力政策推广和项目执行。
  • RynnVLA-001 – 阿里达摩院开源的视觉-语言-动作模型

    RynnVLA-001是什么

    RynnVLA-001 是阿里达摩院推出的视觉-语言-动作模型。模型通过在大量第一人称视角的视频上进行预训练,学习人类操作技能,并隐式迁移到机器人手臂的操控中。模型结合视频生成技术和变分自编码器(VAE),能生成连贯、平滑的动作序列,更接近人类动作。模型将“下一帧预测”和“下一动作预测”统一到一个 Transformer 架构中,显著提升机器人在复杂任务中的成功率和指令遵循能力。

    RynnVLA-001

    RynnVLA-001的主要功能

    • 理解语言指令:接收自然语言指令,例如“将红色物体移动到蓝色盒子中”。
    • 生成动作序列:根据指令和当前视觉环境,生成连贯、平滑的动作序列,驱动机器人手臂完成任务。
    • 适应复杂场景:处理复杂的抓取和放置任务,及长时域任务,提高任务成功率。
    • 模仿人类操作:通过从第一人称视角的视频中学习,生成的动作更接近人类自然操作。

    RynnVLA-001的技术原理

    • 第一阶段:第一人称视频生成模型,用大规模第一人称视角的视频数据进行预训练,学习人类操作的视觉模式和物理动态。基于 Transformer 的自回归架构,预测未来帧,模拟机器人操作的视觉推理过程。
    • 第二阶段:变分自编码器(VAE),将动作片段压缩为紧凑的嵌入向量,减少计算开销。通过 VAE 解码器将嵌入向量还原为连贯的动作序列,提高动作预测的平滑性。
    • 第三阶段:视觉-语言-动作模型,将预训练的视频生成模型微调为 VLA 模型,统一“下一帧预测”和“下一动作预测”。用 Transformer 架构,结合视觉输入和语言指令,生成动作嵌入向量,驱动机器人执行任务。

    RynnVLA-001的项目地址

    • 项目官网:https://huggingface.co/blog/Alibaba-DAMO-Academy/rynnvla-001
    • GitHub仓库:https://github.com/alibaba-damo-academy/RynnVLA-001
    • HuggingFace模型库:https://huggingface.co/Alibaba-DAMO-Academy/RynnVLA-001-7B-Base

    RynnVLA-001的应用场景

    • 工业自动化:在工业生产中,驱动机器人完成复杂装配和质量检测任务,提高生产效率和产品质量。
    • 服务机器人:在家庭或餐饮服务中,让机器人根据自然语言指令完成日常服务任务,如整理物品、送餐等。
    • 物流与仓储:在物流仓库中,指导机器人完成货物分拣和搬运,优化库存管理流程。
    • 医疗保健:在医疗领域,辅助手术操作或康复训练,提升医疗服务的精准度和效率。
    • 人机协作:在人机协作场景中,机器人能更好地理解人类指令,实现自然流畅的人机互动。
  • Matrix-Game 2.0 – 昆仑万维推出的自研世界模型

    Matrix-Game 2.0是什么

    Matrix-Game 2.0 是昆仑万维 SkyWork AI 发布的自研世界模型。是业内首个开源的通用场景实时长序列交互式生成模型,全面开源,推动交互式世界模型领域的发展。模型采用视觉驱动的交互方案,通过 3D 因果变分自编码器和多模态扩散 Transformer 架构,实现低延迟、高帧率的长序列交互性能,能以 25 FPS 的速度生成连续视频内容,支持分钟级生成时长。具备精准的物理规律和场景语义理解能力,支持用户通过简单指令自由操控虚拟环境,适用于游戏开发、虚拟现实和影视制作等场景。

    Matrix-Game 2.0

    Matrix-Game 2.0的主要功能

    • 实时长序列生成:能以 25 FPS 的速度在多种复杂场景中稳定生成连续视频内容,生成时长可扩展至分钟级,显著提升了连贯性与实用性。
    • 精准交互控制:支持用户通过简单指令(如键盘方向键、鼠标操作)自由探索、操控虚拟环境,精准响应用户的交互操作。
    • 视觉驱动建模:采用视觉驱动的交互世界建模方案,专注于通过视觉理解和物理规律学习来构建虚拟世界,避免了语言先验带来的语义偏置。
    • 多场景泛化能力:具备出色的跨域适应性,支持多种风格与环境的模拟,包括城市、野外等空间类型,以及真实、油画等视觉风格。
    • 增强的物理一致性:角色在面对台阶、障碍物等复杂地形时,能展现出符合物理逻辑的运动行为,提升沉浸感与可控性。

    Matrix-Game 2.0的技术原理

    • 视觉驱动交互世界建模:Matrix-Game 2.0 采用图像为中心的感知与生成机制,专注于通过视觉理解和物理规律学习来构建虚拟世界,避免了传统依赖语言提示的生成模式,更真实、更准确地理解和生成虚拟世界。
    • 3D 因果变分自编码器(3D Causal VAE):通过三维因果变分自编码器实现空间和时间维度的高效压缩,提升建模效率与生成能力。对视频的时空特征进行编码和解码,将视频压缩到低维的潜在空间,降低计算复杂度,同时保留关键的时空信息。
    • 多模态扩散 Transformer(DiT):结合视觉编码器与用户动作指令,逐帧生成物理合理的动态视觉序列,通过 3D VAE 解码成完整视频。
    • 自回归扩散生成机制:基于 Self-Forcing 训练策略,通过创新的自回归扩散生成机制克服了传统双向扩散模型的延迟和误差累积问题。通过历史帧条件生成当前帧,减少因依赖未来帧而导致的时序延迟。
    • 分布匹配蒸馏(DMD):通过最小化与基础模型之间的分布差异,引导学生模型学习生成高质量视频帧,对齐训练与推理阶段的分布,显著缓解误差积累问题。
    • KV 缓存机制:引入键值缓存机制(KV-Cache),显著提升长视频生成的效率和一致性。通过维护固定长度的注意力上下文,实现无缝滚动生成,支持无限时长的视频输出。

    Matrix-Game 2.0的项目地址

    • 项目官网:https://matrix-game-v2.github.io/
    • GitHub仓库:https://github.com/SkyworkAI/Matrix-Game
    • HuggingFace模型库:https://huggingface.co/Skywork/Matrix-Game-2.0
    • 技术报告:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf

    Matrix-Game 2.0的应用场景

    • 游戏开发:Matrix-Game 2.0 可以在多种游戏场景中生成真实感更强、符合物理逻辑的可交互视频,支持角色的动态行为和场景交互,例如在 GTA 和 Minecraft 等游戏场景中模拟车辆运作或角色移动。
    • 虚拟现实:模型能实时生成高质量的虚拟环境,支持用户通过简单指令自由探索和操控虚拟世界,为虚拟现实应用提供了强大的技术支持。
    • 影视制作:Matrix-Game 2.0 可以快速生成高质量的虚拟场景和动态内容,帮助影视制作团队高效地创建复杂的视觉效果和动画场景。
    • 具身智能:Matrix-Game 2.0 提供了具身智能体训练与数据生成的技术支持,为智能体在虚拟环境中的训练和测试提供了高效的解决方案。
    • 虚拟人和智能交互系统:Matrix-Game 2.0 的实时交互能力和对物理规则的理解使其成为虚拟人和智能交互系统的理想解决方案,能生成自然流畅的动作和响应。
  • GLM-4.5V – 智谱开源的最新一代视觉推理模型

    GLM-4.5V是什么

    GLM-4.5V是智谱推出的最新一代视觉推理模型。模型基于106B参数规模构建,拥有12B激活能力,是目前领先的视觉语言模型(VLM)。模型在GLM-4.1V-Thinking的基础上升级而来,继承其优秀架构,结合新一代文本基座模型GLM-4.5-Air进行训练。模型在视觉理解、推理能力上表现卓越,适用网页前端复刻、grounding、图寻游戏、视频理解等场景,有望推动多模态应用的进一步发展。为帮助开发者直观体验 GLM-4.5V 的强大能力并打造专属多模态应用,团队开源了一款桌面助手应用,能实时截屏、录屏,借助 GLM-4.5V 模型处理代码辅助、视频分析、游戏解答、文档解读等多种视觉任务。

    GLM-4.5V

    GLM-4.5V的主要功能

    • 视觉理解与推理:能理解和分析图像、视频等视觉内容,进行复杂的视觉推理任务,例如识别物体、场景、人物关系等。
    • 多模态交互:支持文本与视觉内容的融合处理,例如根据文本描述生成图像,或者根据图像生成文本描述。
    • 网页前端复刻:根据网页设计图生成前端代码,实现快速的网页开发。
    • 图寻游戏:支持基于图像的搜索和匹配任务,例如在复杂场景中找到特定目标。
    • 视频理解:支持分析视频内容,提取关键信息,进行视频摘要、事件检测等任务。
    • 跨模态生成:支持从视觉内容生成文本,或者从文本生成视觉内容,实现多模态内容的无缝转换。

    GLM-4.5V的技术原理

    • 大规模预训练:模型基于106B参数的预训练架构,用海量的文本和视觉数据进行训练,学习语言和视觉的联合表示。
    • 视觉语言融合:采用Transformer架构,将文本和视觉特征进行融合,基于交叉注意力机制实现文本与视觉信息的交互。
    • 激活机制:模型设计12B激活参数,用在推理过程中动态激活相关的参数子集,提高计算效率和推理性能。
    • 结构继承与优化:继承GLM-4.1V-Thinking的优秀结构,结合新一代文本基座模型GLM-4.5-Air进行训练,进一步提升性能。
    • 多模态任务适配:基于微调和优化,模型能适应多种多模态任务,例如视觉问答、图像描述生成、视频理解等。

    GLM-4.5V的性能表现

    • General VQA:GLM-4.5V在通用视觉问答任务中表现最佳,尤其在MMBench v1.1基准测试中得分高达88.2。
    • STEM:GLM-4.5V在科学、技术、工程和数学相关任务中同样领先,例如在MathVista测试中获得84.6的高分。
    • Long Document OCR & Chart:在处理长文档和图表的OCRBench测试中,GLM-4.5V以86.5分展现卓越的性能。
    • Visual Grounding:GLM-4.5V在视觉定位任务上表现突出,RefCOCO+loc (val)测试得分为91.3。
    • Spatial Reasoning:在空间推理能力方面,GLM-4.5V在CV-Bench测试中取得87.3分的优异成绩。
    • Coding:在编程任务中,GLM-4.5V在Design2Code基准测试中得分82.2,显示其在代码生成和理解方面的能力。
    • Video Understanding:GLM-4.5V在视频理解方面同样表现出色,在VideoMME (w/o sub)测试中得分74.6。

    GLM-4.5V

    GLM-4.5V的项目地址

    • GitHub仓库:https://github.com/zai-org/GLM-V/
    • HuggingFace模型库:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
    • 技术论文:https://github.com/zai-org/GLM-V/tree/main/resources/GLM-4.5V_technical_report.pdf
    • 桌面助手应用:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

    如何使用GLM-4.5V

    • 注册与登录:访问 Z.ai 官网,用邮箱注册账号。完成注册后,登录账号。
    • 选择模型:在登录后,在模型选择下拉框中选择GLM-4.5V。
    • 体验功能
      • 网页前端复刻:上传网页设计图,模型将自动生成前端代码。
      • 视觉推理:上传图像或视频,模型将进行视觉理解、物体识别、场景分析等任务。
      • 图寻游戏:上传目标图像,模型将在复杂场景中找到匹配的图像。
      • 视频理解:上传视频文件,模型将提取关键信息,生成视频摘要或事件检测结果。

    GLM-4.5V的API 调用价格

    • 输入:2 元/M tokens
    • 输出:6 元/M tokens
    • 响应速度:达到 60-80 tokens/s

    GLM-4.5V的应用场景

    • 网页前端复刻:上传网页设计图,模型快速生成前端代码,助力开发者高效实现网页开发。
    • 视觉问答:用户上传图像并提问,模型根据图像内容生成准确答案,可用在教育、智能客服等领域。
    • 图寻游戏:在复杂场景中快速找到目标图像,适用于安防监控、智能零售及娱乐游戏开发。
    • 视频理解:分析视频内容,提取关键信息生成摘要或检测事件,优化视频推荐、编辑及监控。
    • 图像描述生成:为上传的图像生成精准描述文本,辅助视障人士理解图像,提升社交媒体分享体验。
  • Sheet0 – L4级Data Agent,将任意数据源转为结构化数据表

    Sheet0是什么

    Sheet0 是创新的 L4 级 Data Agent 产品,为用户提供高效、准确的数据收集与处理服务。通过自然语言交互,将任意数据源(如网页、文件、API)转化为结构化的数据表格,实现“100% 准确,0 幻觉” 的数据交付。Sheet0 的核心优势在于动态 Workflow 系统和 Data Environment 驱动的反馈机制,能自动修复错误优化任务执行流程。适用于营销、电商和知识工作者等场景,能为 Agent 提供实时数据支持,目标是成为 Agent 时代的“新后端”,类似于 Agent 的 Google.com。用户可以通过简单的指令让 Sheet0 完成复杂的数据任务。

    Sheet0

    Sheet0的主要功能

    • 数据收集与结构化:能将网页、文件、API 等任意数据源转化为结构化的数据表格,快速提取并整理数据。
    • 自然语言交互:用户可以通过自然语言描述需求,Sheet0 自动完成任务,无需复杂操作。
    • 高准确性与可靠性:提供“100% 准确,0 幻觉”的数据交付能力,通过可解释、可回溯的 Workflow 确保数据处理过程透明、结果可靠。
    • 实时数据交付:支持实时数据收集与交付,满足用户对数据时效性的需求。
    • 自动化任务执行:用户可开启自动化模式,Sheet0 完全自动执行数据处理任务,提高效率。
    • 动态优化与自我修复:内置动态 Workflow 系统和 Data Environment 驱动的反馈机制,能自动优化任务流程修复错误。

    Sheet0的官网地址

    • 官网地址:https://www.sheet0.com/

    Sheet0的应用场景

    • 营销与销售:分析社交媒体数据,生成销售线索,优化营销策略,帮助企业在市场中精准定位目标客户。
    • 电商运营:收集电商平台数据,分析商品表现、用户评价等,为电商运营提供决策支持,提升运营效率。
    • 知识工作:为知识工作者提供高效的数据处理和分析工具,快速整理和分析复杂数据,提升工作效率。
    • 市场研究:快速收集和整理市场数据,支持实时数据分析,帮助研究人员快速洞察市场趋势。
    • 内容创作:为内容创作者提供数据支持,快速收集相关主题的数据,辅助内容创作和选题策划。
  • MiroFlow – 多Agent系统开发框架,支持高并发处理

    MiroFlow是什么

    MiroFlow是强大的多智能体系统开发框架,专为构建复杂、高性能的AI智能体而设计,为MiroThinker等模型生成高质量的智能体轨迹数据。框架具备可复现的性能,在GAIA验证集上稳定达到72.2%的通过率。框架支持高并发和容错,内置可观测性和评估工具,方便调试和优化。MiroFlow用模块化设计,支持多轮对话、丰富的工具集成和分层子智能体架构,能灵活处理复杂任务。MiroFlow提供详细的配置系统、任务日志和输出格式化功能,方便开发者快速上手和扩展。

    MiroFlow

    MiroFlow的主要功能

    • 可复现的高性能:MiroFlow在GAIA验证集上稳定达到72.2%的通过率,提供完整脚本和配置文件,确保结果可复现。
    • 高并发与容错能力:支持高效并发处理,具备强大的容错机制,能应对限流API和不稳定网络。
    • 内置可观测性和评估工具:配备基准测试脚本和Web界面,用在可视化和调试智能体运行轨迹,同时提供全面的日志系统。
    • 模块化设计:基于多轮对话、工具集成和分层子智能体架构,支持复杂任务的灵活处理。
    • 灵活的工具接入:通过MCP服务器连接多种工具,支持代码执行、视觉感知、网页搜索等功能,兼容多种LLM提供商。
    • 配置与扩展性:用Hydra配置管理系统,支持结构化YAML配置文件,输出格式化系统能适应不同基准测试需求。

    MiroFlow的技术原理

    • 多阶段工作流:用户输入通过LLM进行意图识别和查询增强。主智能体根据增强后的查询制定执行计划,并协调整个工作流,包括调用工具、委托任务给子智能体等。子智能体独立规划、执行工具调用,并将结果返回给主智能体。主智能体汇总结果并生成符合用户指令或基准测试格式的输出。
    • 模块化架构:核心组件包括Pipeline(任务执行协调器)、Orchestrator(对话流管理器)和LLM Client(LLM接口)。工具管理器(Tool Manager)负责连接和管理MCP服务器,支持工具发现、错误处理和工具黑名单功能。子智能体(Sub-Agents)专注于特定领域任务,例如网页浏览、代码执行等,每个子智能体都有自己的工具集和定制化提示。
    • LLM与工具集成:MiroFlow基于LLM进行任务规划和对话管理,同时用MCP服务器提供的工具执行具体任务。MCP服务器基于FastMCP构建,支持多种工具,如代码执行、视觉感知、网页搜索等。
    • 高并发与容错:基于异步处理和队列管理实现高并发任务处理。内置的容错机制能处理API限流、网络不稳定等问题,确保任务的连续性。
    • 可观测性与日志系统:提供Web界面用在可视化智能体的运行轨迹。全面的日志系统记录智能体交互、工具执行、性能指标和错误信息,便于调试和优化。

    MiroFlow的项目地址

    • GitHub仓库:https://github.com/MiroMindAI/Miroflow

    MiroFlow的应用场景

    • 复杂任务自动化:MiroFlow能处理多步骤、多工具的任务,例如自动化数据处理和分析,提高企业工作效率。
    • 智能客服与支持:用在构建智能客服系统,自动回答用户问题,处理订单查询等复杂任务,提升客户体验。
    • 教育与学习辅助:为学生提供个性化学习路径和作业辅导,根据学习进度提供针对性解答,助力教育智能化。
    • 代码生成与调试:辅助软件开发,自动生成代码片段、调试代码问题,提高开发效率,减少人工干预。
    • 多模态内容创作:结合文本、图像、音频等多种模态生成内容,提升内容创作的多样性和吸引力。
  • MiroThinker – 开源的Agent模型系列,基于Qwen3构建

    MiroThinker 是什么

    MiroThinker 是开源的智能体模型系列,专为深度研究和复杂、长期问题解决设计。模型基于 Qwen3 构建,具备任务分解、多跳推理、检索增强生成、代码执行、网页浏览和文件处理等能力。MiroThinker v0.1 提供 8B、14B 和 32B 参数规模的 SFT 和 DPO 变体,在 GAIA 基准测试中表现出色。模型配备 MiroFlow 框架,支持多语言模型和灵活的工具集成,适合广泛的实际应用场景。

     MiroThinker

    MiroThinker 的主要功能

    • 任务分解(Task Decomposition):将复杂的任务分解为多个子任务,逐步解决问题,提高任务执行的效率和成功率。
    • 多跳推理(Multi-hop Reasoning):支持多步骤的逻辑推理,能处理需要多层思考和信息整合的问题。
    • 检索增强生成(Retrieval-Augmented Generation):结合检索技术,从大量数据中提取相关信息,增强生成内容的准确性和丰富性。
    • 代码执行(Code Execution):支持直接执行代码片段,能处理编程任务和数据处理等需求。
    • 网页浏览(Web Browsing):支持实时浏览网页,获取最新信息,用在回答需要最新数据的问题。
    • 文件处理(Document/File Processing):能读取和处理多种格式的文件,如 PDF、Word、Excel 等,提取关键信息用在分析和回答问题。

    MiroThinker 的技术原理

    • 基于 Qwen3 的架构:MiroThinker 是在 Qwen3 基础模型上构建的,继承其强大的语言生成和理解能力。
    • 强化学习(Reinforcement Learning):基于强化学习优化模型的行为策略,使其在复杂任务中表现更优。DPO(Direct Preference Optimization)变体特别强调这一点。
    • 长期记忆与上下文管理:集成长期记忆机制,能够存储和检索大量上下文信息,支持长文本和复杂任务的处理。
    • 工具集成框架(MiroFlow):提供一个灵活的框架,支持与外部工具(如搜索引擎、代码执行环境等)的无缝集成,扩展模型的功能。
    • 大规模数据训练:用大规模、高质量的数据集进行训练,确保模型在多种任务场景中表现出色。

    MiroThinker 的项目地址

    • GitHub仓库:https://github.com/MiroMindAI/MiroThinker
    • HuggingFace模型库:https://huggingface.co/collections/miromind-ai/mirothinker-v01-689301b6d0563321862d44a1
    • 在线体验Demohttps://dr.miromind.ai/

    MiroThinker 的应用场景

    • 科学研究:助力研究人员分解复杂科学问题,通过多跳推理和检索增强生成,提供实验设计与解决方案建议。
    • 商业智能:实时获取市场数据,分析趋势,为商业决策提供支持,帮助企业在竞争中占据优势。
    • 教育与学习:根据学生的学习进度和需求,提供个性化的学习计划与辅导,提升学习效果。
    • 医疗健康:分析患者病历和最新医学数据,为医生提供诊断和治疗建议,辅助临床决策。
    • 智能客服:处理复杂的客户咨询,通过多跳推理和检索增强生成,提供准确的解决方案,提升客户满意度。