Skip to main content

Author: Chimy

TrackVLA – 银河通用推出的纯视觉端到端导航大模型

TrackVLA是什么

TrackVLA是银河通用推出的产品级端到端导航大模型。模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路闭环。无需提前建图,在复杂环境中自主导航、灵活避障,根据自然语言指令识别和跟踪目标对象。TrackVLA让机器人在真实场景中展现出强大的自主性和智能交互能力,为具身智能的商业化落地提供重要支撑,推动机器人从实验室走向日常生活,成为人类的智能伙伴。

TrackVLA

TrackVLA的主要功能

  • 自然语言理解与目标识别:理解自然语言指令,识别目标对象。
  • 复杂环境中的目标跟踪:在人流密集的环境中,准确跟踪目标对象。
  • 无需建图的自主导航:在陌生环境中,无需提前建图即自主导航,适应各种场景。
  • 灵活避障:实时识别避开障碍物,适应复杂场景。
  • 适应环境光线变化:在不同光照条件下保持稳定性能。
  • 远程可视守护:基于App实时查看机器人视角,提供移动守护功能。
  • 技能涌现:支持泛化到未训练过的任务,如跟随动物。

TrackVLA的技术原理

  • 纯视觉环境感知:TrackVLA依赖摄像头获取环境图像信息,基于深度学习算法对图像进行处理和分析,实现对周围环境的感知。
  • 语言指令驱动:TrackVLA能理解自然语言指令,基于自然语言处理(NLP)技术将指令转化为具体的行动任务。
  • 端到端模型:TrackVLA用端到端(End-to-End)模型架构,将视觉感知、语言理解、目标识别、路径规划和动作执行集成在一个统一的模型中。架构类似于动物的大脑,从输入的图像和指令直接推理出行动方案,无需人为拆分多个步骤。

TrackVLA的应用场景

  • 陪伴与服务:在公共场所(如公园、超市)陪伴儿童和老人,提供守护服务,帮助携带物品。
  • 安防巡逻:在公共场所(如商场、停车场)自主巡逻,监控环境,识别异常并发出警报。
  • 物流配送:在室内环境(如医院、写字楼)或社区内完成物品运输和最后一公里配送任务。
  • 教育与科研:作为教学工具辅助教育,或作为科研平台研究前沿技术。
  • 娱乐与互动:在主题公园或家庭环境中与人互动,提供娱乐表演或增加家庭乐趣。

DeepEyes – 小红书联合西安交大推出的多模态深度思考模型

DeepEyes是什么

DeepEyes 是小红书团队和西安交通大学联合推出的多模态深度思考模型。基于端到端强化学习,实现类似 OpenAI o3 的“用图思考”能力,无需依赖监督微调(SFT)。DeepEyes 在推理过程中动态调用图像工具,如裁剪和缩放,增强对细节的感知与理解。模型在视觉推理基准测试 V* Bench 上准确率高达 90.1%,展现出强大的视觉搜索和多模态推理能力。DeepEyes 具备出色的图像定位能力,能有效减少幻觉现象,提升模型的可靠性和泛化能力。

DeepEyes

DeepEyes的主要功能

  • 用图思考:直接将图像融入推理过程,不仅“看图”,还能“用图思考”,在推理过程中动态调用图像信息,增强对细节的感知与理解。
  • 视觉搜索:在高分辨率图像中快速定位小物体或模糊区域,基于裁剪和缩放工具进行详细分析,显著提升搜索准确率。
  • 幻觉缓解:基于聚焦图像细节,减少模型在生成回答时可能出现的幻觉现象,提升回答的准确性和可靠性。
  • 多模态推理:在视觉和文本推理之间实现无缝融合,提升模型在复杂任务中的推理能力。
  • 动态工具调用:模型能自主决定何时调用图像工具,如裁剪、缩放等,无需外部工具支持,实现更高效、更准确的推理。

DeepEyes的技术原理

  • 端到端强化学习:DeepEyes 用端到端强化学习(RL)训练模型,无需冷启动监督微调(SFT)。基于奖励信号直接优化模型的行为,自主学习如何在推理过程中有效利用图像信息。奖励函数包括准确率奖励、格式奖励和条件工具奖励,确保模型在正确回答问题的同时,高效地使用图像工具。
  • 交错多模态思维链(iMCoT):DeepEyes 引入交错多模态思维链(Interleaved Multimodal Chain-of-Thought, iMCoT),支持模型在推理过程中动态地交替使用视觉和文本信息。模型在每一步推理中决定是否需要进一步的视觉信息,基于生成边界框坐标裁剪图像中的关键区域,将区域重新输入模型,作为新的视觉证据。
  • 工具使用导向的数据选择:为更好地激励模型的工具使用行为,基于工具使用导向的数据选择机制。训练数据经过精心筛选,确保样本有效促进模型的工具调用能力。数据集包括高分辨率图像、图表数据和推理数据,覆盖多种任务类型,提升模型的泛化能力。
  • 动态工具调用行为:在训练过程中,模型的工具调用行为经历三个阶段:初始探索、积极使用和高效利用。模型从最初的随机尝试逐渐发展到高效、准确地调用工具,最终实现与人类类似的视觉推理过程。
  • 多模态融合:DeepEyes 基于将视觉和文本信息深度融合,构建一个统一的推理框架。融合提升了模型在视觉任务中的表现,增强了在多模态任务中的整体性能。

DeepEyes的项目地址

DeepEyes的应用场景

  • 教育辅导:解析试卷中的图表和几何图形,为学生提供详细的解题步骤,提升学习效率。
  • 医疗影像:分析医学影像,辅助医生进行诊断,提高诊断的准确性和效率。
  • 智能交通:实时分析路况图像,辅助自动驾驶系统做出更准确的决策,提升交通安全。
  • 安防监控:分析监控视频,识别异常行为,增强公共安全和犯罪预防能力。
  • 工业制造:在生产线上进行质量检测和设备故障预测,提高生产效率并降低维护成本。

从容大模型 – 云从科技推出的多模态AI模型

从容大模型是什么

从容大模型是云从科技推出的多模态AI模型。模型在国际权威评测平台OpenCompass的多模态榜单中以80.7分登顶,超越谷歌、OpenAI等顶尖团队。模型聚焦通用视觉语言理解与推理任务,基于多模态对齐、决策类人化、高效工程优化和原生多模态推理等核心技术突破,构建全球领先的技术壁垒。从容大模型在医学健康、数理逻辑、艺术设计等多领域表现突出,在金融、制造、政务等多个领域实现规模化落地,助力智能化转型。

从容大模型

从容大模型的主要功能

  • 视觉感知与认知理解:支持处理视觉信息(如图像、视频)进行认知理解,例如在医学健康、艺术设计等领域表现突出,能理解复杂的视觉场景。
  • 跨领域应用:在多个专业领域(如数理逻辑、医学健康、艺术设计等)展现强大的理解与推理能力。
  • 复杂场景文本识别:在复杂场景下进行文本识别(如OCRbench),支持处理高分辨率图像与文档(如合同、发票表格等),支持智能审查、智能解析、智能问答等任务。
  • 开放域问答:在开放域问答(如MMVet)中表现优异,提供准确且有深度的答案。

从容大模型的技术原理

  • 多模态对齐:构建高质量的基准数据集,涵盖多种任务场景,基于强化指令对齐提升模型对多模态数据的理解和推理能力。融合DPO和GRPO技术,优化模型的学习机制,让模型更贴近人类思维进行决策推理,无需依赖奖励模型实现类人化推理决策。
  • 高效工程优化:针对高分辨率图像和多模态文档理解任务,对模型的图像编码器进行结构优化,高效处理高分辨率图像和复杂文档。优化模型的上下文建模能力,精准追踪长文本中的逻辑关系,支持跨页文档分析和多轮对话等任务。
  • 原生多模态推理:升级模型架构,处理多图、跨图场景的图文交错模式和原生视频模式,实现复杂的多模态任务,如跨图比较、图文组合推理、多图问答等。

从容大模型的应用场景

  • 金融风控:与银行合作,构建风控AI智能体,实现风险识别自动化,降低投诉量。
  • 智能客服:为电商平台部署智能客服平台,提升问答准确率和客服效率。
  • 医学健康:处理医学影像,辅助医生诊断,提升诊断准确性和效率。
  • 政务领域:处理政务文档,实现智能审查和问答,优化公共服务。
  • 制造业:用在产品质量检测,提升生产效率和产品质量。

PPT.cn – AI PPT制作平台,快速生成完整的PPT框架

PPT.cn是什么

PPT.cn 是基于 AI 技术的智能 PPT 制作平台,帮助用户快速、高效地生成高质量的 PPT 演示文稿。用户只需输入主题或上传相关文档,平台通过 AI 智能解析,快速生成逻辑清晰、视觉效果出色的 PPT 框架和内容。提供上千套涵盖多行业的精美模板,适配不同场景需求。

PPT.cn

PPT.cn的主要功能

  • 智能生成 PPT:用户输入 PPT 主题和需求后,系统可在几秒内生成完整的 PPT 框架,包括逻辑结构和内容大纲。
  • 文档智能解析:支持上传 Word、Excel 等文档,AI 自动提取文字和数据,快速生成逻辑清晰、视觉效果好的 PPT 页面,图表和配图也会自动搭配好。
  • 丰富的模板资源:上千套可商用模板,涵盖金融、教育、医疗、科技等多个行业,满足不同场景需求。
  • 多样化风格:提供从正式严肃到活泼有趣的多种风格模板,包含党政风、中式风格等,充分考虑国内用户的审美和使用习惯。
  • 多种格式支持:支持 PPTX、PDF、PNG 等多种格式导出,满足不同使用场景的需求。

PPT.cn的官网地址

PPT.cn的应用场景

  • 职场汇报:PPT.cn 能快速生成清晰的框架和内容,帮助职场人士高效完成汇报准备工作。
  • 提案演示:在商务提案中,PPT.cn 可以根据输入的内容生成专业的演示文稿,支持添加图表和数据,让提案更具说服力。
  • 课程讲解:教师可以用 PPT.cn 快速制作课件,将复杂的知识点以直观的方式呈现给学生,提高教学效果。
  • 产品介绍:在产品发布会或推广活动中,PPT.cn 可以生成吸引人的产品介绍 PPT,突出产品特点和优势。
  • 个人项目展示:在个人项目汇报或成果展示中,PPT.cn 能快速生成专业的展示文稿,提升个人形象和项目吸引力

Circuit Tracer – Anthropic开源的AI模型内部决策追踪工具

Circuit Tracer是什么

Circuit Tracer 是 Anthropic 推出的开源工具,用在研究大型语言模型的内部工作机制。Circuit Tracer 基于生成归因图(attribution graphs)揭示模型在生成特定输出时内部所经历的步骤。归因图能帮助研究人员追踪模型的决策过程、可视化特征之间的关系,测试不同的假设。Circuit Tracer 支持多种流行的开源模型,如 Gemma Llama,基于 Neuronpedia 提供交互式可视化界面,方便用户探索和分析模型行为。

Circuit Tracer

Circuit Tracer的主要功能

  • 生成归因图:揭示模型决策路径,显示特征和节点间的影响关系。
  • 可视化与交互:基于交互式界面,直观查看和操作归因图,便于理解和分享。
  • 模型干预:修改特征值观察输出变化,验证模型行为。
  • 支持多种模型:兼容 Gemma、Llama 等主流模型,便于对比研究。

Circuit Tracer的技术原理

  • 转码器(Transcoders):用预训练的转码器来生成归因图。转码器是一种神经网络组件,能将模型的内部特征转换为更易于理解和解释的形式。基于转码器,Circuit Tracer 能捕捉模型内部的特征和节点之间的关系。
  • 直接效应计算(Direct Effect Computation):Circuit Tracer 计算每个非零转码器特征、转码器错误节点和输入标记对其他非零转码器特征和输出 logit 的直接影响。
  • 图修剪(Graph Pruning):对生成的图进行修剪。修剪过程移除影响力较小的节点和边,只保留对模型决策有显著影响的部分。修剪参数(如节点阈值和边阈值)由用户自定义,控制图的复杂度和清晰度。
  • 交互式可视化界面:提供一个基于 Web 的交互式可视化界面,用户在浏览器中直接查看和操作归因图。界面支持节点的标注、分组和注释,让用户更直观地理解和分析模型的内部机制。

Circuit Tracer的项目地址

Circuit Tracer的应用场景

  • 模型行为研究:基于归因图分析模型的决策过程,理解在生成特定输出时的内部逻辑。
  • 多语言模型分析:研究多语言模型(如 Llama)的内部表示,探索跨语言处理机制。
  • 多步推理研究:分析模型在多步推理任务中的行为,揭示逐步推理的过程和逻辑。
  • 模型优化与改进:基于干预功能测试不同假设,验证模型的某些行为是否符合预期,优化模型结构。
  • 教育与分享:基于交互式可视化界面,将复杂的模型决策过程直观展示给他人,便于教学和交流。

AI周刊丨本周不可错过的AI行业动态(5.26-6.1)

本篇内容,带你快速了解本周AI热点资讯

 

01. AI大事件

 

DeepSeek-R1开源新版本DeepSeek-R1-0528,AI编程能力跃升

DeepSeek发布R1模型重大更新,在数学、编程等基准测试中表现优异,接近国际顶尖水平。

新版模型针对“幻觉”问题优化,在改写润色等场景中幻觉率降低45%-50%,复杂推理任务准确率显著提升,同时增强了创意写作能力,代码生成性能媲美OpenAI o3-high模型

DeepSeek开源新版R1-0528模型,继续采用MIT开源协议,权重已在ModelScope和HuggingFace发布,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

昆仑万维推出全球首款Office智能体,天工超级智能体APP

昆仑万维天工超级智能体APP,深度融合AI技术与办公场景,它能自动生成文档、进行数据分析、会议辅助等,还能根据用户的自然语言指令完成复杂办公任务,为智能办公领域提供定制化解决方案。

北京支持制造业部署具身智能机器人

北京市经济和信息化局印发《北京市人工智能赋能新型工业化行动方案(2025年)》,围绕“人工智能与新型工业化”发展,共推出16条措施支持企业发展。

支持制造业企业部署具身智能机器人等设备,符合条件的示范项目最高可获3000万元支持,旨在推动人工智能与工业深度融合,助力制造业智能化升级。

宇树科技回应更名“股份有限公司”,王兴兴曾称有可能赴港上市

宇树科技向合作伙伴发布通知称,因公司发展需要,杭州宇树科技有限公司即日起名称变更为杭州宇树科技股份有限公司。届时,原公司所有业务由“新公司名称”继续经营,原公司签订的所有合同继续有效。

今年4月,宇树科技创始人王兴兴曾表示后续有可能赴港上市。

字节跳动禁用第三方AI开发软件

字节跳动安全与风控部门发邮件,自6月30日起在内部分批次禁用Cursor等第三方AI开发软件,推自研Trae作为替代。

此前发布的Trae海外版本周已上线付费方案,Pro版首月收费3美元/月。

小红书与复旦哲学达成“AI+人文”合作

小红书与复旦哲学宣布在AI人文训练方面达成合作。双方共同成立“AI人文人才训练营”,展开AI后训练相关的人文课题共创,培养“AI+人文”复合型人才。

大模型的训练分为预训练和后训练两个阶段,人文训练属于后训练的一部分,对AI在人性化表达、人类价值对齐等方面的表现起到关键作用。

八部门联合发布《加快数智供应链发展专项行动计划》,鼓励企业采用AI

商务部、国家发展改革委、教育部、工业和信息化部、交通运输部、农业农村部、税务总局、国家数据局等8部门联合印发了《加快数智供应链发展专项行动计划》。

鼓励企业采用AI、大数据等先进技术来提高整个供应链的效率和弹性,以促进经济高质量增长。

阿里巴巴集团与SAP达成战略合作,探索接入通义千问大模型

阿里巴巴集团与SAP宣布达成战略合作。合作将SAP领先的企业级软件与阿里云的基础设施及AI能力相结合,加速企业客户的创新和数字化转型。

阿里云将作为SAP超大规模云服务提供商,支持企业在阿里云上部署SAP ERP云及私有云版本,加入SAP IaaS认证计划。SAP将探索接入通义千问大模型,使企业客户能在SAP应用中使用本地化生成式AI功能。

王兴披露美团AI业务进展,6月将推业务决策助手

王兴披露了美团AI业务的进展情况,预计在6月推出业务决策助手,助力美团业务的决策制定。

此外,王兴还表示,美团的基础大模型能力已接近GPT-4o的水平。

 

2.0 新产品发布

 

荣耀确认进军机器人业务:跑步速度4m/s打破行业记录

荣耀CEO李健在发布会上官宣荣耀进军机器人业务,展示的机器人跑步速度达4m/s打破了包括宇树科技人形机器人G1在内的机器人行业记录

此前荣耀被挤出国内手机市场Top5,其销售与服务总裁称有信心重返前三。

零次方发布轮式人形机器人Zerith-H1,面向类家庭服务场景

零次方发布轮式人形机器人Zerith-H1,搭载垂直场景操作基础模型Zerith-V0,具备轮式移动底盘,上半身可调整高度,适应不同操作场景。

在官方展示的演示视频里,H1可以完成多项家庭服务,整理杂物、刷马桶、打扫地面等,全程动作非常丝滑流畅。

傲意科技推出灵巧手

傲意科技推出具备触觉感知的第二代灵巧手ROH- AP001和小型机器人专用灵巧手ROH-LiteS,分别针对力度自适应需求和小型化应用场景。

ROH-AP001,搭载了高密度点阵触觉传感器,可实时感知0.1N至25N的细微压力变化,实现了接近人类手指的灵活度与精准操控能力。

提供UART、RS485、CAN等多协议通讯接口,可无缝接入工业机器人、人形机器人及特种设备控制系统,实现毫秒级指令响应。

ROH-LiteS灵巧手专为小型机器人量身打造,极致小巧与轻盈,整手负载达25KG,单指静态负载可达8KG。

通义灵码AI IDE正式上线,在通义灵码官网免费下载开箱即用

阿里云宣布通义灵码AI IDE正式上线,支持最强开源模型Qwen3,自带编程智能体模式,全面支持长期记忆、行间建议预测和行间会话等能力。

通义灵码深度集成魔搭MCP广场,涵盖3000+MCP服务,拓宽AI编码助手能力边界。

字节跳动旗下剪映推出视频内容创作Agent「小云雀」

字节跳动旗下剪映团队推出AI视频Agent「小云雀」,主打“灵感即所得,创作零门槛”,已接入豆包和DeepSeek,目前仅安卓可下载,iOS预计6月发布。

该工具让用户先选择场景,避免生成内容“跑题”,提升交互效率和结果相关性。

快手可灵AI上线2.1系列模型:更快更便宜

快手发布可灵2.1系列模型。模型在高品质模式(1080p)下生成5秒视频不到1分钟,成本降低65%。

动态细节、响应和幅度提升,人物动作更贴近现实,能更好理解用户意图。

可灵2.1有标准(720p)和高品质(1080p)两种模式,主打高性价比和高效生成,大师版提供更卓越表现。

QQ浏览器推出首个高考 Agent“>AI 高考通”,量身定制志愿填报方案

QQ浏览器推出行业内首个高考Agent——“AI高考通”,为高考生提供全流程AI助力。

考生可通过它快速获取全面权威的高考信息,如院校资料、专业信息等,能一键得到量身定制的志愿填报方案。

高考期间,AI全程陪伴,提供“AI解题答疑”“AI作文辅导”等功能,助力考生考前提分、考中查询日程、考后个性化推荐志愿。

国产机器人操作系统鸿道发布

鸿道具身智能机器人操作系统发布。首创大小脑融合架构,该系统通过多项安全认证,构建全链路防护体系,保障工业及家庭场景安全。

其他动态

字节再出AI新产品剪小映简化版视频剪辑应用,降低了视频剪辑的门槛,方便更多用户进行视频创作。

Opera推出首款“AI Agent”浏览器Opera Neon,由Neon Chat、Do和Make三大功能组成,能理解用户意图并转化为行动,如生成报告、编写代码等。

百度多智能体协作应用心响APP上线iOS版,苹果安卓用户均可免费使用。心响APP支持旅游攻略、深度研究、法律咨询、试题讲解等10大场景、200+任务类型。

北大校友官宣推出号称“最强通用Agent” Fairies(中译仙女),能执行Deep research、代码生成、发邮件等1000个操作。

飞猪AI“问一问”功能升级,提升“智慧交通顾问”、“酒店顾问”查询精度,可推荐如国产飞机C919机票。新增“会员助手”,查询会员等级及权益。优化搜索引擎输入提示、旅行方案一键生成长图等功能,手绘行程地图实用性增强,接入真实地图数据,生成有方位、直观距离的手绘地图。

中国电信陕西公司与数字生活公司携手优必选科技共同研发的首款“家庭桌面AI机器人”,正式全国首发。机器人依托大模型技术,具备情感计算、环境感知等能力,可实现拟人化陪伴、舞蹈娱乐、故事互动、英语口语练习、视频通话、绘本伴读、家居控制等多元化服务,为用户打造“主动式”“成长式”智慧生活体验。

360宣布全系浏览器升级为AI浏览器,用户只需一个窗口,AI即可完成跨平台检索、万字文档秒级摘要、甚至一键生成PPT,效率提升高达60倍。

腾讯元宝功能升级,接入DeepSeek模型,支持双模引擎(混元 + DeepSeek)文生图创作,并推出视频问答功能,强化多模态处理能力,与QQ浏览器深度整合。

有道云笔记推出「文转图表」功能,将文字快速转化为可视化图表。功能可智能解析文本数据结构和逻辑关系,自动生成匹配图表类型,支持海量图表样式选择和灵活编辑,满足不同场景需求。

 

03. 开源项目

 

阿里巴巴开源自主搜索AI智能体WebAgent

阿里巴巴在Github上开源自主搜索AI智能体WebAgent,具备端到端自主信息检索与多步推理能力,能像人类一样主动感知、决策和行动。

WebAgent分为WebDancer和WebWalker,前者是智能体训练框架,后者是LLM基准测试。

腾讯混元开源语音数字人模型HunyuanVideo-Avatar

腾讯混元开源语音数字人模型HunyuanVideo-Avatar,模型由腾讯混元视频大模型及腾讯音乐天琴实验室MuseV技术联合研发。

用户只需上传一张图片和一段音频,模型能生成人物、动物自然说话或唱歌的视频,支持多种场景和风格。

红杉中国推出全新AI基准测试工具xbench,动态更新测试内容

红杉中国推出全新AI基准测试工具xbench,发布相关论文。

xbench采用双轨评估体系,分为AGI追踪与专业对齐两大方向,同时评估AI的理论能力上限与实际落地价值。

首期发布科学问题解答测评集和中文互联网深度搜索测评集。

 

04. 投资融资

 

地平线子公司融资1亿美元,超10家资本「集体抢滩」具身智能Infra赛道

地瓜机器人宣布完成1亿美元A轮融资,本轮融资由高瓴创投、五源资本、线性资本、和暄资本、九合创投、Vertex Growth、砺思资本、敦鸿资产、沸点资本、梅花创投、黄浦江资本等投资机构共同参投。

地瓜机器人表示将在 6 月发售面向具身智能机器人的RDK S100机器人开发套件,该平台具备百 TOPS 级算力,是一款单SoC算控一体计算平台,可实现机器人感知与运控协同计算。

目前,该平台已获得乐聚机器人、逐际动力、睿尔曼、清华大学智能产业研究院、求之科技、国讯芯微等数家行业顶级合作伙伴抢先搭载。

沙特人工智能公司Humain寻求美国顶级科技公司投资

沙特阿拉伯新成立的国有人工智能公司Humain正在与OpenAI、埃隆·马斯克的xAI和安德森·霍洛维茨(Andreessen Horowitz)等在内的美国公司进行谈判。

公司风险投资基金Humain Ventures将于今年夏天启动,初始资金为100亿美元,用于投资美国、欧洲和亚洲部分地区的初创企业。

该公司的目标是到2030年建立1.9吉瓦的数据中心装机容量,四年后将这一数字提高到6.6吉瓦。Amin称,按照目前的市场价格,该项目将耗资770亿美元。

OpenAI首席战略官称继布局韩国和日本后,将加大对亚洲投资

OpenAI首席战略官Jason Kwon在新加坡举行的活动上表示,继在韩国、日本和新加坡设立办公室之后,公司计划进一步扩大在亚洲的投资。

Kwon表示,公司对亚洲增长前景持乐观态度。

智元机器人获上海国资委领投:创下国内该赛道最大累计融资额纪录

上海国投公司旗下基金领投国内具身智能领域领军企业智元机器人。本轮融资后,智元创下中国具身智能赛道最大累计融资额纪录。

欧洲AI 3D建模新星SpAItial,种子轮融资近亿

欧洲AI 3D模型专家马蒂亚斯·尼斯纳创立的SpAItial公司获1300万美元种子轮融资,折合人民币约9425万元,本轮融资由欧洲早期投资机构早鸟风险投资公司(Earlybird Venture Capital)领投,Speedinvest(一家位于奥地利维也纳的风险投资公司)及多位知名天使投资人跟投。

尼斯纳曾是Synthesia的联合创始人,团队成员来自Meta和谷歌等公司。

该公司聚焦文本生成3D技术,致力于实现高拟真3D环境的交互性。

前追觅高管创立具身智能公司,半年累计融资近2亿

Lumos Robotics鹿明机器人完成天使++轮融资,投资方包括复星锐正、德马科技和吴中金控。是半年内的第三轮融资,累计融资近2亿。

鹿明机器人由资深机器人专家喻超创立,拥有全栈研发能力。产品包括机器人关节模组、视触觉模组及LUS、MOS系列人形机器人。

本轮资金将用于完善产品和深化产业协同,加速商业化落地。

具身智能公司优理奇机器人完成数亿元天使轮及天使+轮融资

优理奇机器人(UniX AI)近期完成数亿元天使轮及天使+轮融资,投资方包括中关村前沿基金、赛纳资本及长安私人资本。

本轮融资将用于加速研发多模态具身智能大模型与通用机器人本体的同步演进,并推动其在泛商业服务和C端场景的落地。

微分智飞连续完成两轮融资,加速空中机器人具身智能研发标题模板

微分智飞(杭州)科技有限公司在一个月内完成数千万元天使轮及天使+轮融资。

融资将用于加速飞行具身智能领域创新、集群空中机器人智能进化及人才团队构建。公司由浙江大学高飞教授创立,打造通用空中机器人具身智能大脑及其集群系统,推动工业、城市与自然空间的智能化升级。

斑头雁智能科技B轮融资,投资方为阿里云、名川资本等

斑头雁(杭州)智能科技有限责任公司B轮融资,融资额未披露,参与投资的机构包括阿里云,名川资本。

斑头雁智能科技专注企业级AI智能体开发平台,为行业头部客户提供一站式大模型应用落地方案,集成「LLM+知识库+工作流+插件+数据库」全能力,提供「专业咨询+成熟平台+定制服务」三位一体解决方案,助力企业快速构建生产级Agent应用。

马斯克的xAI与Telegram签署3亿美元协议以集成Grok

马斯克创立的xAI公司向通讯平台Telegram支付3亿美元部署其Grok人工智能聊天机器人,双方达成为期一年合作关系,Telegram还将获得xAI订阅收入50%分成。

xAI的Grok很快将在Telegram中可用,并将提供聊天、文本编辑、聊天和文档摘要、收件箱代理、群聊 moderation 等功能。

英伟达第一财季营收、净利润同比增长

英伟达发布了截至4月27日的2026财年第一财季财报,期内实现营收440.62亿美元,同比上涨69%,高于市场预期的432.8亿美元;预计2026财年第二财季的销售额将达到450亿美元,上下浮动2%。

此外,英伟达CEO黄仁勋计划出售至多600万股股票,英伟达首席财务官科莱特・克雷斯则计划出售至多 50 万股。

 

05. 观点洞察

 

周鸿祎提出“以模制模”:安全大模型应对大模型安全

周鸿祎在2025中国—上海合作组织人工智能合作论坛上表示,人类在享受AI带来的巨大机遇时,也必须正视与之伴生的安全风险与监管挑战,应“以模制模”,利用安全大模型解决大模型安全问题,同时在监管治理层面应采取辩证、客观的态度,为创新预留足够空间。

原文链接:AI周刊丨本周不可错过的AI行业动态(5.26-6.1)

吴恩达团队推出《MCP:使用 Anthropic 构建富上下文 AI 应用》

DeepLearning.AI平台上推出“MCP: Build Rich-Context AI Apps with Anthropic”的在线课程。课程由Anthropic和DeepLearning.AI合作开发,Elie Schoppik讲授,属于中级水平,总时长为1小时38分钟,包含11个视频课程和7个代码示例。课程主要介绍Model Context Protocol(MCP),学习者将通过实践学习MCP的核心概念,包括其客户端-服务器架构和通信机制。课程内容涵盖如何将一个聊天机器人转变为MCP兼容应用,构建和部署本地或远程MCP服务器,以及如何将聊天机器人连接到不同的MCP服务器。

tutorials-mcp

课程简介

  • 课程名称:MCP: Build Rich-Context AI Apps with Anthropic
  • 课程级别:中级
  • 课程时长:1小时38分钟
  • 课程形式:11个视频课程,7个代码示例
  • 授课教师:Elie Schoppik(Anthropic技术教育负责人)
  • 课程机构:DeepLearning.AI(与Anthropic合作开发)

课程目标

  • 标准化工具和数据访问:探索MCP如何标准化AI应用对工具和数据的访问,简化新工具的集成和与外部系统的连接(如GitHub仓库、Google文档、本地文件等)。
  • 构建和部署MCP服务器:学习如何构建和部署一个MCP服务器,该服务器提供工具、资源和提示,并将其添加到AI应用(如Claude Desktop)的配置中以扩展其功能。
  • 创建MCP兼容应用:构建一个MCP兼容的应用程序,该应用程序托管多个MCP客户端,每个客户端都与一个MCP服务器保持一对一的连接。

课程内容

  • MCP架构:介绍MCP的客户端-服务器架构和底层通信机制。
  • 聊天机器人示例:通过代码示例展示如何将一个聊天机器人转变为MCP兼容的应用程序。
  • 创建MCP服务器:使用FastMCP构建本地MCP服务器,使用MCP Inspector进行测试。
  • 创建MCP客户端:在聊天机器人中创建MCP客户端,动态连接到服务器。
  • 连接到参考服务器:将聊天机器人连接到Anthropic团队构建的参考服务器,如文件系统服务器和网络内容提取服务器。
  • 配置Claude Desktop:学习如何配置Claude Desktop以连接到你的服务器和其他服务器,并探索其如何抽象化MCP客户端的底层逻辑。
  • 远程部署服务器:学习如何远程部署MCP服务器,并使用Inspector或其他MCP兼容应用进行测试。
  • 未来发展方向:了解MCP未来的发展路线图,包括多智能体架构、MCP注册表API、服务器发现、授权和认证等。

课程官网地址

适用人群

  • 技能要求:熟悉Python,并对LLM提示和LLM应用开发有基本了解。
  • 学习目标:希望构建能连接到不断增长的MCP服务器生态系统的富有上下文的AI应用,减少集成工作量的开发者。

课程亮点

  • 实践性强:通过代码示例和实际操作,帮助学习者快速掌握MCP的实现和应用。
  • 生态系统连接:强调如何将AI应用与外部数据源和工具进行标准化连接,减少开发过程中的碎片化。
  • 未来展望:提供了MCP未来发展的方向,让学习者能够提前了解并适应新技术的发展。

DGM – 自改进AI Agent系统,会迭代修改自身代码提升性能

DGM是什么

DGM(Darwin Gödel Machine)是自改进人工智能系统,通过迭代修改自身代码来提升性能。DGM从其维护的编码代理档案中选择一个代理,基于基础模型生成新版本,然后在编码基准测试中验证新代理的性能。如果性能提升,新代理会被加入档案。DGM的设计灵感来源于达尔文进化论,通过开放性探索策略,从不同起点探索多种进化路径,避免陷入局部最优解。在实验中,DGM在多个基准测试中的性能显著提升,例如在SWE-bench基准测试中性能从20.0%提升至50.0%,在Polyglot基准测试中从14.2%提升至30.7%。DGM的自改进过程在隔离的沙盒环境中进行,确保安全性。

DGM

DGM的主要功能

  • 自我改进:DGM能迭代地修改自己的代码,优化性能和功能。通过自我修改模块读取自身源代码,基于基础模型生成修改建议。
  • 实证验证:每个代码修改会通过编码基准测试(如SWE-bench和Polyglot)进行验证,确保改进的有效性。评估引擎通过Docker容器隔离和评估新版本代码的性能。
  • 开放性探索:DGM受到达尔文进化论的启发,通过开放性探索策略,从不同起点探索多种进化路径,避免陷入局部最优解。维护一个编码代理档案,不断积累所有生成的变体,支持从档案中的任何代理分支出新的进化路径。
  • 安全性考虑:DGM的执行和自修改过程都在隔离的沙盒环境中进行,限制对宿主系统的影响。

DGM的工作原理

  • 自修改阶段:DGM从其维护的编码代理(coding agents)档案中选择一个代理,基于基础模型(foundation model)生成该代理的一个新版本。
  • 验证阶段:新生成的代理在编码基准测试中进行评估,确定其性能是否提升。
  • 档案更新:经过验证的改进代理被加入到档案中,档案不断积累所有生成的变体。

DGM的项目地址

DGM的应用场景

  • 自动编程:DGM能自动生成和优化代码,减轻开发者的负担,提高编程效率。可以通过自我改进生成更高效的代码,提升软件的整体性能。
  • 代码优化:DGM可以自动检测代码中的问题并进行优化,提高代码的可读性和执行效率。通过不断迭代改进,DGM能生成更优的代码版本,减少开发时间和成本。
  • 自动修复:DGM通过自我进化可以自动修复发现的问题,降低软件维护成本。能识别代码中的潜在问题,生成修复方案,减少人工干预。
  • 研究平台:DGM为研究自我改进系统提供了实践平台,有助于学术界对该领域的研究。研究人员可以用DGM探索新的算法和模型,推动人工智能技术的发展。

AltPage.ai – AI营销平台,自动生成 SEO 优化的对比页面

AltPage.ai是什么

AltPage.ai是AI驱动的营销工具,基于自动化生成 SEO 优化的对比页面,帮助用户捕获竞争对手的搜索流量。平台基于AI技术自动识别竞争对手,创建数据支持的比较页面,确保页面基于SEO优化在搜索结果中排名靠前。AltPage.ai的优势在于动态更新功能,支持自动跟踪竞争对手的价格和功能变化,确保内容始终最新。用户无需技术背景,在短时间内部署并优化页面,在竞争激烈的市场中脱颖而出。

AltPage.ai

AltPage.ai的主要功能

  • 竞品分析:自动识别竞争对手,找到流量机会。
  • 页面生成:创建优化的比较页面,突出自身优势。
  • 动态更新:自动更新竞品信息,保持内容最新。
  • 快速部署:无需技术背景,10分钟内发布页面。
  • 结果分析:实时监控页面表现,助力策略调整。

AltPage.ai的官网地址

AltPage.ai的产品定价

  • 免费试用(Free Trial):每月50个免费积分(大约可生成5页替代页面或博客),每月最多生成5页,免费托管5页在服务器上,自动抓取和匹配图片,自动插入内部链接,AI页面设计和生成,标准支持,1次免费入门电话
  • 标准(Standard):$9/月,每月100个积分(大约可生成10页替代页面或博客),每月最多生成10页,免费托管10页在服务器上,自动抓取和匹配图片,自动插入内部链接,AI页面设计和生成,标准支持,1次免费入门电话
  • 专业(Professional):$21.9/月,包含标准计划的所有功能,每月300个积分(大约可生成30页替代页面或博客),每月最多生成30页,免费托管30页在服务器上,自动抓取和匹配图片,自动插入内部链接,AI页面设计和生成,优先页面生成。

AltPage.ai的应用场景

  • 电商竞争:帮助电商企业捕获竞争对手的流量,吸引更多潜在客户。
  • 软件推广:为软件公司生成优化页面,突出产品优势,提升转化率。
  • 品牌营销:助力品牌在搜索结果中获得更多曝光,增强品牌影响力。
  • 市场拓展:优化页面,吸引高意图用户,拓展市场份额。

SignGemma – 谷歌DeepMind推出的手语翻译AI模型

SignGemma是什么

SignGemma 是谷歌 DeepMind 团队推出的全球最强大的手语翻译AI模型。专注于将美国手语(ASL)翻译成英语文本,通过多模态训练方法,结合视觉数据和文本数据,精准识别手语动作并实时转化为口语文本。模型具备高准确率和上下文理解能力,响应延迟低于0.5秒。SignGemma采用高效架构设计,可在消费级GPU上运行,支持端侧部署,保护用户隐私。

SignGemma

SignGemma的主要功能

  • 实时翻译:SignGemma能实时捕捉手语动作,将其转换为准确的文本输出,响应延迟低于0.5秒,接近自然对话节奏。
  • 精准识别:模型能识别基本手势,能理解手语中的语境和情感表达。
  • 多语言支持:目前主要支持美国手语(ASL)到英语的翻译。
  • 端侧部署:模型支持在本地设备上运行,用户数据无需上传云端,适合医疗、教育等敏感场景。

SignGemma的技术原理

  • 多模态训练:SignGemma 结合视觉数据(手语视频)和文本数据进行训练,能精准识别手语动作并理解语义。通过多摄像头阵列与深度传感器,构建手部骨骼的时空轨迹模型,捕捉手势在空间中的轨迹变化和时间上的动态演进。
  • 深度学习架构:模型采用高效的架构设计,能在消费级GPU上运行,基于先进的AI技术对手语动作进行深度解析。
  • 空间语法理解:SignGemma 构建了“三维语义理解框架”,能理解手语中的“空间语法”,例如用不同身体区域代表不同话题域。使模型在长句翻译中的连贯性提升40%。
  • 语义映射:通过对比学习技术,模型将手语的空间表达映射为口语的线性序列,能捕捉面部表情等非手部动作的表达。

SignGemma的应用场景

  • 学习辅助:为听障学生提供更便捷的学习工具,帮助他们更好地理解课程内容。
  • 教育资源开发:开发者可以基于 SignGemma 开发专门的教育平台,提供丰富的手语学习资源和互动课程,促进听障教育的发展。
  • 医患沟通:在医院等医疗场所,SignGemma 能帮助医生与听障患者进行更有效的沟通。医生可以通过模型快速了解患者的病情描述,患者也能更好地理解医生的诊断和治疗建议。
  • 公共服务:在公共交通、机场、火车站等公共场所,SignGemma 可以集成到信息显示屏或自助服务终端中,为听障人士提供实时的信息翻译和交互服务。