Author: Chimy

  • AutoGLM沉思 – 首个免费、具备深度研究和操作能力的AI Agent

    AutoGLM沉思是什么

    AutoGLM沉思是智谱推出的首个免费、具备深度研究和操作能力的AI Agent,能模拟人类思维过程,处理复杂的开放式问题。AutoGLM沉思具备强大的推理能力和自主操作能力,支持进行多步骤的深度思考,像人类一样自主浏览和操作网页,完成从数据检索、分析到生成报告。AutoGLM沉思基于智谱自研的推理模型GLM-Z1-Air训练而成,完全免费且不限量使用,是智谱在AI Agent领域的重要创新。

    autoglm-research

    AutoGLM沉思的主要功能

    • 深度研究与推理:支持处理复杂问题,基于多步骤推理生成详细报告。
    • 自主调用工具:自主调用浏览器等工具,像人类一样操作网页,完成搜索、点击、筛选等任务,获取和处理网页上的信息。
    • 多平台信息检索:突破API限制,访问小红书、公众号、京东等平台。
    • 免费不限量使用:无需付费或邀请码,支持用户随时使用。

    如何使用AutoGLM沉思

    • PC客户端使用
      • 下载:访问AutoGLM沉思的体验页面,下载智谱清言桌面客户端(支持Mac和Windows系统)。
      • 安装Chrome浏览器插件:客户端安装过程中,自动提示安装智谱清言浏览器插件(AutoGLM Web),目前仅支持最新版本的Chrome浏览器。如果未自动安装,在Chrome网上应用店搜索“智谱清言浏览器插件”手动安装。
      • 启动AutoGLM沉思智能体:打开智谱清言桌面客户端。在客户端的左侧导航栏或智能体中心中找到“AutoGLM沉思”选项。点击进入AutoGLM沉思界面。
    • 输入指令并发起任务:在AutoGLM沉思的输入框中输入问题或任务指令,AutoGLM沉思自动开始执行任务。
    • 观察执行过程:AutoGLM沉思自动进行推理分析,联网搜索相关信息。如果需要操作网页,系统自动打开Chrome浏览器,进行搜索、点击、筛选等操作。
    • 查看结果:AutoGLM沉思完成任务后,自动生成一份详细的报告或答案。

    AutoGLM沉思的官方示例

    • 生成式AI技术影响:生成式AI技术对未来知识生产模式的颠覆性影响。
      • 具体要求
        • 对比传统学术研究与AI辅助研究的范式差异。
        • 选取至少5个典型领域(如医学、法学、文学、经济学、艺术学等)进行深度研究案例分析。
        • 字数要求一万字以上。

    autoglm-research

    • 复古相机推荐:请帮我推荐一款文艺风格的复古相机。

    autoglm-research

    • 儿童编程教程:请求设计一个详细的教程,教导有一定Python基础的10岁儿童使用Python调用智谱的免费大模型,目标是让这名儿童能够制作出一个图形化界面的AI聊天机器人。

    autoglm-research

    AutoGLM沉思的应用场景

    • 行业与市场研究:挖掘特定行业的热点主题、分析市场趋势,结合财务和经营指标形成深度研报,例如研究A股市场中的具身智能行业。
    • 技术分析与比较:对比传统研究与AI辅助研究的范式差异,进行深度案例分析,如分析生成式AI技术对未来知识生产模式的影响。
    • 产品推荐与购买决策:根据用户需求,比较不同产品的优缺点,从规格参数、用户评价等方面给出购买建议。
    • 旅游与生活规划:设计旅游攻略,参考网友真实评论,规划行程、推荐景点和美食。
    • 教育与学习辅助:设计儿童编程教程,指导使用Python调用大模型,或制作历史教案,分析关键事件对国际地位的影响。
  • MegaTTS 3 – 字节与浙江大学合作推出的零样本语音合成系统

    MegaTTS 3是什么

    MegaTTS 3是字节跳动与浙江大学合作推出的零样本文本到语音合成系统,采用轻量级扩散模型,参数量仅0.45B,能高效生成高质量语音。系统将语音分解为内容、音色、韵律等属性分别建模,支持中文、英文及中英混合语音合成,具备超高音质的语音克隆能力,几秒音频样本能模仿目标声音。支持口音强度控制等可控性功能。MegaTTS 3可应用于语音合成、语音编辑、跨语言语音合成等多个场景。

    MegaTTS 3

    MegaTTS 3的主要功能

    • 零样本合成:无需目标说话人的特定语音数据,通过少量提示即可生成其语音,实现快速语音克隆。
    • 多语言支持:支持中文、英文及中英混合语音合成,满足不同语言场景需求。
    • 高音质输出:生成的语音自然流畅,音质清晰,与目标说话人高度相似。
    • 音色控制:可调整生成语音的音色,更接近目标说话人或添加特定音色效果。
    • 韵律调整:支持对语音的韵律进行控制,如语速、语调等,让语音更具表现力。
    • 口音强度控制:通过参数调整,可生成带不同口音强度的语音,模拟多种语言风格。
    • 快速克隆:仅需几秒目标说话人的音频样本,可快速生成其语音,实现高效语音克隆。

    MegaTTS 3的技术原理

    • 轻量级扩散模型:MegaTTS 3 采用轻量级的扩散模型(TTS Diffusion Transformer),参数量仅为 0.45B,在保证高效的同时,能生成高质量的语音。扩散模型通过逐步添加和去除噪声来生成目标语音,核心包括前向过程(加噪)和反向过程(去噪),反向过程用于生成数据样本。
    • 语音分解与建模:MegaTTS 3 将语音分解为内容、音色、韵律和相位等不同属性,为每个属性设计了合适的模块进行建模:
      • 音色建模:使用全局向量(global vectors)来建模音色,因为音色是随时间缓慢变化的全局属性。
      • 韵律建模:利用基于潜在码的语言模型(latent code language model)来拟合韵律的分布,因为韵律在句子中快速变化,语言模型能够捕捉局部和长距离的依赖关系。
      • 内容建模:采用基于 VQGAN 的声学模型生成语谱图。
      • 相位建模:相位由基于 GAN 的声码器适当构建,不需要语言模型对相位进行建模。
    • 数据与训练:MegaTTS 3 在大规模多领域数据集上进行训练,包含 20K 小时的语音数据。使模型在零样本语音合成、语音编辑和跨语言语音合成任务上表现出色。
    • 稀疏对齐算法:MegaTTS 3 引入稀疏对齐算法,提供稀疏对齐边界来引导潜在扩散变换器(DiT),在不缩小搜索空间的情况下降低对齐难度,实现高自然度。

    MegaTTS 3的项目地址

    MegaTTS 3的应用场景

    • 学术研究:研究人员可以用它来测试语音合成技术,分析 latents 的效果。
    • 教育辅助:将教材转为语音,生成有声读物,提升学习体验。
    • 内容制作:为视频或播客生成旁白,节省人工录音成本。
    • 语音交互:开发者可集成到设备中,实现中英文语音对话。
  • Move AI – AI动作捕捉工具,支持普通2D视频转为3D运动数据

    Move AI是什么

    Move AI 是AI动作捕捉工具,专注于无标记动作捕捉技术,基于AI技术和计算机视觉技术,将普通摄像头(如手机)拍摄的2D视频转换为高质量的3D运动数据。Move AI无需穿戴任何特殊设备或标记,简化动作捕捉流程,具备高效、快速处理和高精度的特点。Move AI 广泛应用于娱乐(如电影、游戏、现场表演)、体育分析、虚拟现实(VR)和增强现实(AR)等领域,为创作者和企业提供高效、低成本的解决方案。

    Move AI

    Move AI的主要功能

    • 无标记动作捕捉:无需穿戴任何特殊装备或标记,用户用手机、标准相机等设备进行动作捕捉。
    • 实时动作追踪:支持实时动作捕捉和反馈,适用于现场表演、体育分析等多种场景。
    • 高质量运动数据:捕捉包括手指动作在内的高精度3D运动数据。
    • 多摄像头支持:支持单摄像头和多摄像头配置,捕捉范围从5米×5米到20米×20米不等。
    • 数据导出与兼容性:支持导出FBX和USD格式,兼容主流3D动画软件和游戏引擎。

    Move AI的官网地址

    Move AI的产品定价

    • 免费版:提供访问 Move One、30 积分(终身)、最多 1 用户、单人动作捕捉、第一代模型(Gen-1 models)、30秒视频限制、聊天机器人和文档支持。
    • 入门版:$15/月,提供访问 Move One、180 积分、最多 1 用户、单人动作捕捉、第一代模型(Gen-1 models)、60秒视频限制、额外积分价格为 $0.30/每额外积分、聊天机器人和文档支持。
    • 基础版:$35/月,提供访问 Move One、480 积分、最多 1 用户、单人动作捕捉、第一代模型(Gen-1 models)、60秒视频限制、额外积分价格为 $0.25/每额外积分、聊天机器人和文档支持。
    • 团队版:$225/月,提供访问 Move One 和 API/SDK、4000 积分、最多 10 用户(包括 3 个)、单人动作捕捉、第一代模型(Gen-1 models)、60秒视频限制、额外积分价格为 $0.17/每额外积分、聊天和电子邮件支持。
    • 企业版:价格定制,提供访问 Move One、Move Pro、Move Live、API/SDK、本地解决方案、本地和无限数据处理、多人动作捕捉、高级安全和合规、第一代和第二代模型(Gen-1 and Gen-2 models)、优先支持。

    Move AI的应用场景

    • 影视与动画:捕捉演员动作生成3D动画,简化制作流程,提升效率。
    • 游戏开发:快速生成逼真角色动画,降低开发成本。
    • 体育分析:分析运动员动作,辅助训练和康复。
    • VR与AR:实时驱动虚拟角色,增强沉浸感。
    • 机器人:助力机器人模拟人类动作,提升灵活性。
  • OmniSQL – 开源文本到 SQL 模型,自然语言转换为 SQL 查询语句

    OmniSQL是什么

    OmniSQL 是开源的文本到 SQL 模型,将自然语言问题高效转换为 SQL 查询语句。通过创新的数据合成框架生成了首个百万量级的文本到 SQL 数据集 SynSQL-2.5M,包含 250 万条高质量样本,覆盖 16,000 余个跨领域数据库,样本涵盖多种复杂度层级和语言风格。OmniSQL 提供 7B、14B 和 32B 三种模型版本,微调过程中融合了 Spider 和 BIRD 的高质量标注数据。

    OmniSQL

    OmniSQL的主要功能

    • 文本到SQL转换:OmniSQL能理解用户以自然语言形式提出的问题,转换为对应的SQL查询语句。
    • 支持多种数据库和复杂查询:OmniSQL支持多种数据库类型,能处理从简单单表查询到复杂的多表连接、子查询、函数调用以及公共表表达式(CTE)等各种复杂度层级的SQL查询。
    • 提供思维链解决方案:除了生成SQL查询语句外,OmniSQL会为每个样本提供一个思维链解决方案。这个思维链展示了从理解自然语言问题到生成SQL查询的逻辑推理过程,有助于用户更好地理解模型的决策路径,同时也便于开发者对模型进行调试和优化。
    • 多模型版本选择:OmniSQL提供了三种不同大小的模型版本,分别是7B、14B和32B。用户可以根据自己的实际需求和计算资源情况选择合适的模型版本。不同规模的模型在性能和资源消耗之间进行了平衡,较小的模型运行速度更快、资源占用更少,较大的模型则可能在某些复杂查询场景下表现更好。

    OmniSQL的技术原理

    • 数据库自动生成:OmniSQL分析网络表格,推断业务场景,借助大语言模型自动构建含多表关系、主外键约束的数据库结构。采用增强策略,增加列数、优化结构,让生成的数据库更贴合实际应用。
    • 复杂度感知的SQL查询生成:定义四个复杂度等级,结合SQLite函数库,如聚合函数(SUM、AVG等)、窗口函数(ROW_NUMBER、RANK等),生成各类SQL查询。能依用户问题智能选择复杂度等级,给出合适查询语句。
    • 风格化问题反向翻译:采用SQL-to-Question策略,将SQL查询反向译为9种语言风格的自然语言问题,经语义分析确保翻译前后语义一致,提升自然语言与SQL转换效率和准确性,适应不同用户语言习惯。
    • CoT解决方案合成:通过逐步推理生成器,为样本添加中间推导步骤。训练时,模型学习问题到SQL的转换,也学习每步推理逻辑,提高推理准确性与可靠性,向用户展示透明推理过程,增强信任。
    • 大规模数据合成与训练:OmniSQL基于其数据合成框架生成了大规模的高质量训练数据集SynSQL-2.5M。数据集包含超过250万条样本,覆盖了16,000余个跨领域的数据库。通过在如此大规模且多样化的数据集上进行训练,OmniSQL能学习到不同领域、不同风格的自然语言表达与SQL查询之间的映射关系,具备更强的泛化能力和适应性。

    OmniSQL的项目地址

    OmniSQL的应用场景

    • 企业数据分析:OmniSQL 通过自然语言查询功能,让非技术人员能轻松地从数据库中获取所需信息。
    • 教育领域:在 SQL 教学中,OmniSQL 的链式思考(CoT)解决方案能够帮助初学者更好地理解从自然语言问题到 SQL 查询的转换过程。教师可以用 OmniSQL 生成查询示例,让学生通过实际操作来掌握 SQL 的概念和技巧。
    • 跨领域适配:OmniSQL 基于其数据合成框架,能快速生成特定领域的数据集。在医疗领域,可以生成 EHRSQL 数据集,助力医疗研究;在科研领域,可以生成 ScienceBenchmark 数据集,辅助科研数据分析。
  • Vibe Draw – AI 3D建模工具,涂鸦草图一键转为3D模型

    Vibe Draw是什么

    Vibe Draw是开源的 AI 3D建模工具,支持将用户在2D画布上绘制的涂鸦草图转化为精美的3D模型。用户能用文本提示或继续绘制迭代优化模型,一键导出为标准格式(.glTF)。Vibe Draw打破技术门槛,让任何人无需专业技能轻松实现3D创意。Vibe Draw前端基于Next.js、React和Three.js等技术,后端基于FastAPI和Celery构建,支持实时更新和异步任务处理。

    Vibe Draw

    Vibe Draw的主要功能

    • 草图变3D模型:用户在无限2D画布上随意绘制草图,AI自动识别生成3D模型。
    • 模型变3D场景:用户将生成的3D模型拉到一个3D空间中随意排布,快速构建完整的3D场景。
    • 一键导出:支持导出为glTF格式。
    • AI草图优化:AI会自动优化草图,保留用户的空间构图。
    • 文字生成3D模型:用户直接输入文字提示生成3D模型。
    • 模型可编辑:生成的模型基于“再次涂改”或新的文字提示进行编辑。

    Vibe Draw的技术原理

    • 前端技术:前端基于Next.js和React构建,提供响应式和用户友好的界面,结合Three.js实现3D模型的高效渲染,TLDraw作为强大的2D绘图画布支持自由绘制和图形编辑,Zustand用在状态管理确保应用状态的高效同步和管理,整体为用户提供流畅的交互体验。
    • 后端技术:后端基于FastAPI作为高性能API框架,处理前端请求和复杂的后端逻辑;Celery作为异步任务队列,用在处理耗时的AI操作,如草图优化和3D模型转换;Redis提供发布/订阅功能,用在实时更新和任务结果存储,基于SSE(服务器发送事件)技术向用户实时反馈任务进度,提升交互的实时性和用户体验。
    • AI驱动的转换:核心功能依赖于先进的AI算法,自动将用户绘制的粗糙2D草图优化为更精细的绘图,支持进一步转换为3D模型。AI模型支持对复杂形状和结构的自动建模,用户基于文本提示对3D模型进行进一步的优化和调整,实现从创意草图到3D世界的高效转换。

    Vibe Draw的项目地址

    Vibe Draw的应用场景

    • 创意设计:快速将草图转化为3D模型,帮助设计师快速验证创意。
    • 教育辅助:直观展示2D到3D的转换,帮助学生学习空间结构和建模原理。
    • 游戏开发:快速生成游戏场景和角色原型,加速开发前期设计。
    • 建筑设计:将手绘建筑草图转化为3D模型,便于与客户沟通方案。
    • 个人创作:低门槛实现创意表达,适合普通用户娱乐和分享。
  • EmotiVoice – 网易有道开源的AI语音合成系统

    EmotiVoice是什么

    EmotiVoice是网易有道开源的多语言、多声音和提示控制的文本到语音(TTS)系统。EmotiVoice支持英语和中文,提供超过2000种声音,支持基于提示生成带有不同情感(如开心、悲伤、愤怒等)的语音。EmotiVoice具备情感合成、语音克隆等功能,提供Web界面和OpenAI兼容的API,方便用户使用和开发者集成,适合用在语音助手、有声读物等多种场景。

    EmotiVoice

    EmotiVoice的主要功能

    • 多语言支持:支持中英文双语。
    • 海量音色:提供超过2000种不同的音色。
    • 情感合成:支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。
    • 易用性:提供简单易用的Web界面,支持批量生成的脚本接口。
    • 语音克隆:支持语音克隆。

    EmotiVoice的技术原理

    • 情感和风格控制:基于风格嵌入将情感或风格的描述嵌入到模型中,让模型根据输入的提示生成相应情感或风格的语音。在训练过程中,模型用包含多种情感和风格的语音数据进行训练,更好地理解和生成不同情感和风格的语音。模型在生成语音时,根据输入的文本和情感/风格提示进行条件生成,实现情感和风格的控制。
    • 多语言和多语音支持:模型在训练时用多种语言的数据理解和生成不同语言的语音。为每个说话人训练独特的嵌入向量,生成不同说话人的语音。
    • 高效的推理和部署:基于Docker 容器快速部署 EmotiVoice,无需手动安装和配置复杂的依赖环境。EmotiVoice 提供与 OpenAI 兼容的 TTS API,方便用户在现有的系统中集成和使用。用户基于 Web 界面进行交互式语音合成,或用户脚本接口进行批量生成。
    • 预训练模型和微调:模型在大规模的语音数据上进行预训练,学习通用的语音特征和模式。用户根据自己的需求对预训练模型进行微调,例如调整语音的速度、音调或情感强度,生成符合需求的语音。

    EmotiVoice的项目地址

    EmotiVoice的应用场景

    • 内容创作:生成有声读物、播客、视频配音等,支持多种风格和情感。
    • 智能语音助手:应用于智能家居、车载系统,提供语音交互和情感化反馈。
    • 教育领域:辅助语言学习,生成在线课程语音,提升学习体验。
    • 客服系统:用在智能客服和语音应答,提供多风格语音服务。
    • 娱乐与游戏:为游戏角色配音,用于互动娱乐,增强沉浸感。
  • PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景

    PhysGen3D是什么

    PhysGen3D 是创新的框架,能将单张图像转换为交互式的 3D 场景,生成具有物理真实感的视频。结合了基于图像的几何和语义理解以及基于物理的模拟,通过从单张图像中推断物体的 3D 形状、姿态、物理和光照属性,创建出以图像为中心的数字孪生。再基于物质点方法(MPM)模拟物体的反事实物理行为,最终将动态效果无缝整合到原始图像中,生成视觉逼真的结果。

    PhysGen3D

    PhysGen3D的主要功能

    • 从单张图像创建交互式 3D 场景:PhysGen3D 能将单张图像转换为可交互的 3D 场景,用户可以在这个场景中模拟不同的物理行为。
    • 精确控制物体的初始条件:用户可以指定物体的速度、材质属性等初始条件,从而对生成视频的结果进行精细控制。
    • 生成具有物理真实感的视频:通过结合基于图像的几何和语义理解以及基于物理的模拟,PhysGen3D 可以生成在动态和光照方面视觉逼真且物理上合理的视频。
    • 密集 3D 跟踪:可以对场景中的物体进行精确的 3D 跟踪。
    • 视频编辑:能够在不同场景之间交换物体,或者在保持物体初始位置不变的情况下移除某些物体。
    • 相机控制:支持从不同视角生成视频。
    • 从绘画生成视频:可以处理生成的图像和绘画等其他类型的输入,并生成视频。

    PhysGen3D的技术原理

    • 3D 场景重建:PhysGen3D 从单张图像出发,通过先进的基于图像的几何和语义理解技术,推断出物体的 3D 形状、姿态、物理和光照属性,同时重建背景的几何和外观。基于多种预训练的视觉模型,将它们的输出整合起来,创建出以图像为中心的数字孪生。
    • 物理模拟:在物理模拟方面,PhysGen3D 采用了物质点方法(MPM),是一种基于点 – 体素的框架,用于模拟图像中物体的反事实物理行为。通过精确推断物体的物理属性,PhysGen3D 能在模拟环境中实现高度的真实感和稳定性。用户可以指定物体的速度、材质属性等初始条件,对生成视频的结果进行精细控制。
    • 基于物理的渲染:完成动态模拟后,PhysGen3D 通过运动插值计算顶点运动,变形网格,使用优化的基于物理的渲染(PBR)材料,在环境光照下利用 Mitsuba3 进行基于物理的渲染。为了避免将整个静态背景转换到渲染管线中,PhysGen3D 构建了一个 3D 阴影捕捉表面,采用两遍阴影映射技术提取阴影和全局光照效果,最后将前景物体和阴影合成到修复后的背景上,生成最终的视频。

    PhysGen3D的项目地址

    PhysGen3D的应用场景

    • 影视制作与特效:PhysGen3D 可以用于影视制作中的特效生成,帮助创作者快速构建具有物理真实感的动态场景。
    • 虚拟现实与增强现实:在虚拟现实(VR)和增强现实(AR)应用中,PhysGen3D 能从单张图像生成交互式的 3D 场景,为用户提供沉浸式的体验。
    • 教育与培训:PhysGen3D 可以用于教育领域,帮助学生更好地理解物理概念。
    • 游戏开发:PhysGen3D 为游戏开发提供了新的可能性。开发者可以从单张图像生成具有物理真实感的动态场景的能力,快速构建游戏中的关卡和场景。
    • 广告与营销:在广告和营销领域,PhysGen3D 可以用于生成吸引人的动态广告内容。从产品照片生成动态视频,展示产品的使用场景和物理特性,吸引消费者的注意力。
  • ObjectMover – 港大联合 Adobe 推出的新型图像编辑模型

    ObjectMover是什么

    ObjectMover 是香港大学和 Adobe Research 联合提出的新型图像编辑模型,解决图像中物体移动、插入和移除时出现的光照、阴影不协调以及物体失真等问题。将物体移动视为两帧视频的特殊案例,利用预训练视频生成模型的跨帧一致性学习能力,通过微调模型将其迁移到图像编辑任务。模型采用序列到序列建模,输入包括原始图像、目标物体图像和指令图,输出为物体移动后的合成图像。

    ObjectMover

    ObjectMover的主要功能

    • 物体移动:可将图像中的物体移动到指定位置,自动调整相关的物理效果,如光照、阴影、反射等,同时保持物体的身份特征。
    • 物体删除:能真实地填充被移除物体的背景,非生成不相干的新物体,准确地移除与物体相关的光影。
    • 物体插入:能精准保持被插入物体的身份特征,自动生成与环境一致的光影效果。

    ObjectMover的技术原理

    • 视频先验迁移:ObjectMover将物体移动任务视为两帧视频的特殊案例,利用预训练视频生成模型(如扩散模型)对跨帧一致性的学习能力。通过微调模型,将其从视频生成任务迁移到图像编辑任务。能充分利用视频模型预训练时习得的物理规律及物体对应关系,在图像编辑任务中实现精确的光影同步与身份特征保持。
    • 序列到序列建模:模型将物体移动任务重构为序列预测问题。输入包括原始图像、目标物体图像、指令图(标注移动位置与方向),输出为物体移动后的合成图像。使模型能更好地理解和处理物体在不同位置下的光影变化和遮挡关系。
    • 合成数据集构建:由于缺乏大规模物体移动的真实数据,研究团队使用现代游戏引擎(如虚幻引擎)生成高质量合成数据对。数据涵盖了复杂光照、材质和遮挡场景,增强了模型训练的多样性和泛化能力。
    • 多任务学习策略:ObjectMover结合了物体移动、移除、插入及视频数据插入四个子任务,通过统一框架在合成数据与真实视频数据上进行训练。提升了模型对真实场景的泛化能力,使模型在处理不同图像编辑任务时表现出更高的适应性和鲁棒性。

    ObjectMover的项目地址

    ObjectMover的应用场景

    • 特效制作:对于一些复杂的特效场景,如物体的消失或出现,ObjectMover可以实现物体的删除和插入,保持场景的真实感。
    • 虚拟场景编辑:在虚拟现实和游戏开发中,需要对虚拟场景中的物体进行灵活的调整。ObjectMover可以用来移动场景中的物体,如将一个道具从一个位置移动到另一个位置,同时保持物体的光照和阴影与环境一致。
    • 游戏关卡设计:开发者可以用ObjectMover快速调整关卡中的物体布局,提高关卡设计的效率。
    • 产品展示:对于产品广告,可以用ObjectMover将产品放置在不同的场景中,展示产品的不同使用场景。
    • 空间规划:在建筑和室内设计中,可以用ObjectMover将家具或装饰品移动到不同的位置,评估不同的设计方案。
  • RoboOS – 智源研究院推出的首个跨本体具身大小脑协作框架

    RoboOS是什么

    RoboOS是智源研究院推出的首个跨本体具身大小脑协作框架。基于“大脑-小脑”分层架构,具身大脑RoboBrain负责全局感知与决策,小脑技能库负责低延迟精准执行,跨机器人数据中枢则实时共享空间、时间和本体记忆,形成感知-认知-决策-行动的闭环。 RoboOS支持松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等不同类型的具身本体,实现大脑模型与小脑技能的“即插即用”,通过共享记忆系统实现多个机器人之间的状态同步与智能协作。RoboOS具备端云一体化协同能力,支持多机器人系统的端云协同,指令响应延迟低于10ms。

    RoboOS

    RoboOS的主要功能

    • 跨本体协作:基于“大脑-小脑”分层架构,支持松灵双臂、睿尔曼单/双臂、智元人形、宇树人形等不同类型的具身本体,实现多个机器人之间的状态同步与智能协作,突破传统“信息孤岛”限制。
    • 任务规划与执行:具身大脑RoboBrain负责全局感知与决策,构建动态时空感知、规划指导和反馈纠错机制;小脑技能库负责低延迟精准执行,实现柔性与精密操作等,形成感知-认知-决策-行动的闭环。
    • 动态任务管理:可动态管理多机器人任务队列,支持优先级抢占与资源优化分配,确保复杂场景下实时响应,实现高并发任务调度。可基于执行反馈动态调整策略,结合环境变化,持续优化任务规划,提升鲁棒性,做到实时闭环优化。
    • 即插即用与快速部署:实现大脑模型(如LLM/VLM)与小脑技能(如抓取、导航)的“即插即用”,原生支持异构机器人本体的灵活接入,以Profile模板机制快速完成机器人能力建模与适配,大幅降低开发门槛与接入成本。
    • 端云一体化协同:在端侧部署中,机器人注册即可自动与云端部署的RoboBrain大脑建立双向通信链路,通过高效发布-订阅机制实现实时任务调度与状态反馈,指令响应延迟低于10ms,满足复杂动态任务的闭环控制需求。

    RoboOS的技术原理

    • “大脑-小脑”分层架构
      • 具身大脑RoboBrain:负责全局感知与决策,构建动态时空感知、规划指导和反馈纠错机制。
      • 小脑技能库:负责低延迟精准执行,实现柔性与精密操作等。
      • 跨机器人数据中枢:负责实时共享空间、时间和本体记忆,为决策规划与优化协作操作提供信息支持,从而形成感知-认知-决策-行动的闭环。

    RoboOS的应用场景

    • 工业自动化:在工业生产中,RoboOS可实现不同类型机器人之间的协作,完成复杂的生产任务,例如多机器人协同完成零部件的搬运、装配等工作,提高生产效率和质量。
    • 智慧物流:RoboOS能支持物流机器人在仓储和配送环节中的协作,如货物的分拣、搬运和配送等任务,优化物流流程。
    • 智能制造:在智能制造领域,RoboOS可以用于复杂制造任务的自动化执行,提升生产的灵活性和适应性。
    • 服务机器人:RoboOS可用于服务机器人在不同场景中的应用,如餐厅服务、酒店服务等,实现机器人之间的协作,提供更高效的服务。
    • 实验室与科研:RoboOS为科研人员提供了强大的平台,用于研究自主移动机器人和无人驾驶汽车等前沿技术。
  • RoboBrain – 智源研究院开源的具身大脑模型

    RoboBrain是什么

    RoboBrain是智源研究院推出的开源具身大脑模型,推动单机智能迈向群体智能。由三个模块组成:用于任务规划的基座模型、用于可操作区域感知的A-LoRA模块和用于轨迹预测的T-LoRA模块。RoboBrain采用多阶段训练策略,具备长历史帧记忆和高分辨率图像感知能力,能将抽象指令映射为具体动作。在任务规划、可操作区域感知和轨迹预测等评测任务中均表现出色。

    RoboBrain

    RoboBrain的主要功能

    • 规划能力(Planning Capability):将复杂的操作指令分解为可管理的子任务。例如,将“提起茶壶并将水倒入杯中”分解为“靠近茶壶并提起”“移动茶壶使壶嘴对准杯口”和“倾斜茶壶倒水”等步骤。
    • 可操作性感知(Affordance Perception):识别和解释交互对象的可操作区域,如茶壶的把手或壶嘴。
    • 轨迹预测(Trajectory Prediction):预测完成操作所需的完整轨迹,如从当前位置到茶壶把手的运动轨迹。

    RoboBrain的技术原理

    • 模型架构:RoboBrain基于LLaVA框架,由以下三个主要模块组成:
      • 视觉编码器(Visual Encoder):使用SigLIP模型,将输入图像编码为视觉特征。
      • 投影器(Projector):通过两层MLP将视觉特征映射到与文本嵌入相同的维度。
      • 大语言模型(LLM):采用Qwen2.5-7B-Instruct模型,用于理解和生成文本指令。
    • 多阶段训练策略:RoboBrain采用多阶段训练策略,提升其在机器人操作任务中的性能:
      • 通用视觉训练(OneVision Training):在大规模通用视觉数据集上进行预训练,以开发基础的视觉和语言理解能力。
      • 机器人任务训练:在ShareRobot数据集上进行微调,增强任务规划、可操作区域感知和轨迹预测能力。
    • 数据集支持:RoboBrain的训练依赖于ShareRobot数据集,是高质量的异构数据集,包含任务规划、物体可操作区域和末端执行器轨迹等多维度标注。数据集的多样性和准确性经过精心设计,支持模型在复杂任务中的表现。
    • 推理过程:在实际应用中,RoboBrain首先感知视觉输入,将输入指令分解为一系列可执行的子任务,然后执行可操作区域感知和轨迹预测。分步处理方式使模型能高效地将抽象指令转化为具体的机器人操作。

    RoboBrain的项目地址

    RoboBrain的应用场景

    • 多机器人协作:RoboBrain作为跨本体具身大小脑协作框架RoboOS的核心大脑模型,能实现多个不同类型的机器人之间的高效协作。
    • 复杂任务规划:RoboBrain能将复杂的操作指令分解为可管理的子任务,例如“Water plants”(浇花)、“Put the pot in the drawer”(将花盆放入抽屉)、“Cluster blocks of the same color into different corners”(将同色积木聚集到不同角落)等任务,RoboBrain可以生成详细的规划步骤。
    • 可操作区域感知:RoboBrain能识别和解释交互对象的可操作区域,例如在“Cluster blocks of the same color into different corners”任务中,RoboBrain能识别不同颜色积木的可操作区域,规划出合理的操作路径。
    • 实时反馈与优化:RoboBrain结合RoboOS的端云协作能力,能实时接收执行反馈,根据环境变化动态调整策略,持续优化任务规划,提升鲁棒性。