Skip to main content

Author: Chimy

Ilya 最新演讲解读:学习,是AI时代最后的掌握权

“AI最终将拥有无法预测的能力,而我们还没有准备好”——Ilya Sutskever

这几天,OpenAI联合创始人、前首席科学家 Ilya Sutskever 的一段演讲引发了热议。

这是他在接受开放大学荣誉学位时的发言,Sutskever讲述自己从俄罗斯到以色列、再到加拿大的成为AI领域顶尖研究者的传奇故事。

有人说这是一次回顾,也有人说像是一次坦率的自白。但更准确地说,它是一场关于“学习”能力的深思——那是他人生的起点,也可能是AI未来的方向。

 

01. 自学改变了他的一生

 

Sutskever出生在俄罗斯,五岁时随父母移民到以色列。

他是那种典型的好学生,一个偶然的机会,他父母偶然发现了开放大学,于是从八年级起,他开始自学开放大学的课程。

那时他第一次拥有了“可以理解一切”的信心:只要慢慢读,就一定能理解。

后来,他们全家又搬去多伦多,他没有选择重新上高中,而是跑去公共图书馆找机器学习的书。

那年是2002年,那时候的机器学习,基本还是学术圈的冷门,主流还是专家系统,图像识别也刚起步。可他不是跟着风口走,他是顺着自己的疑问去找答案。

他说自己想搞清楚一个问题:计算机会学习吗?学习这件事,可能吗?

这个问题,成了他人生的主线。

之后,他因缘际会加入多伦多大学,成为Geoffrey Hinton的学生,和团队一起做出了AlexNet,拉开了深度学习的序幕。

他和团队被Google收购,加入Google Brain。再后来,他和几位朋友一起,在湾区创办了我们熟知的OpenAI。

从图书馆翻书的少年,到构建全球最强AI模型的研究者,他其实一直在围绕那个问题打转:什么叫真正的学习?理解力是怎么形成的?机器有没有可能走出这一步?

 

02. AI学习的终点

 

演讲中段,他谈到AI的未来。所有人都期待他讲讲ChatGPT之后的技术图景,他却说,我们还没有准备好。

他不是站在舞台上做预测,而是在几十年研究之后,向人类提出一个问题——

我们理解AI了吗?它在理解我们吗?

如果AI有一天能做医学研究——能治病,甚至延长生命,那是好事。但问题也在这:如果AI能做到这些,那它还能做什么?

AI学会了学习,接下来就可能是它自己创造更聪明的AI。

那一刻,我们该怎么办?

没有答案。Ilya也没有。他只是说,我们要准备好。虽然现在没有明确的方法。

这话从他口中说出来,是另一种重量。他不像Altman那样“CEO式”地思考未来,也不是马斯克式的警世钟。他更像一位研究员,一直在问自己,问机器,问世界,“学习”这件事究竟能走到哪一步。

 

03. Ilya的闭环时刻

 

这场演讲最后,他说,在很长的一段时间里,开放大学代表了他对学习的全部信仰。

不是一纸学位,而是一种象征。那是他第一次明白,只要愿意学,就真的可以走到很远。

那个靠教材自学、靠图书馆寻找机器学习入门书的少年,如今站在世界AI产业的中心,他说这是一种圆满的闭环。

他没有用“感恩”之类的词,而是用了“信仰”。他信的不是教育制度,是学习本身。

 

04. 一些分享

 

看完这个演讲,我心里一直有种很奇怪的感觉。

现在的AI行业很热,模型一天比一天大,产品更新一周一波。但真正走在最前面,像Ilya这样的人,说的不是更快更强,而是“我们还不知道”

他说得不快,也不煽情,但每一句话都像是在知识尽头处发出来的回声。

不是在控诉,也不是在兜售未来感。他只是提醒我们,AI不会等我们准备好再进化。它在学,我们也得继续学。不能只靠围观、用法、调参。

AI未来到底能不能控制、能不能对齐,现在没人能确定。但有一件事可以肯定:

人类如果放弃学习,就真的理解不了它了。

 

以下是发言全部内容:

我出生在俄罗斯,我的父母在我五岁的时候移民到以色列。我开始上学,我是一个好学生,我的父母希望我能在一个更好的环境里学习。有一天,我们偶然发现了开放大学,于是我从八年级开始上他们的课。这是最好的体验。

顺便说一下,我拿到了我的课本,开放大学的教材写得非常清楚,我刚到那些书就开始读,我理解得很清楚。读到某个程度,我还记得那一刻,我感到自己前后判若两人。我变得有信心,只要慢慢读,我就一定能理解。所以这对我帮助非常大。另外,你知道的,我学习了数学和计算机科学。我打下了很扎实的基础。

后来我的父母搬到了多伦多,我做的第一件事就是去多伦多公共图书馆尝试寻找一本关于机器学习的书,与其重新上一次高中,我选择尝试转学到多伦多大学。很幸运的是杰夫·辛顿也在多伦多。这就是应该去的地方,当时世界上最具前瞻性的AI思想都在这里。于是我成功地作为转学生加入多伦多大学。

2002年时,电脑已经可以玩一点电子游戏,他们可以下棋和跳棋,但仅限于此。我记得曾经想过,一台很强的电脑可以下棋没问题,但它是怎么学习的呢?学习本身到底有没有可能?计算机会学习吗?

我觉得如果如果能解答“如何学习”这个问题,那么其他一切都会随之而来。我们在研究生阶段写了Alex论文,一些公司因此表示想要收购我们的公司,但那时候我们根本还没有公司,所以我们需要创建一家公司,最终谷歌收购了我们。因此,我加入了谷歌。大型神经网络可以做任何事情的想法,在我们在谷歌的研究中又被进一步证实了。之后,我有了参与创办OpenAI的机会。我当时在海湾地区。心里想,在这里不尝试一次真正的创业机会怎么行呢?而且是和这么多杰出的人一起,于是我决定去做这件事。我们继续在OpenAI工作。

深度学习是一个很大的理念,有很多人为此做出了贡献。我很高兴我也能有所贡献。

但是说到AI,未来却并不那么简单。AI很激动人心,因为它很强大,对吧?你有了能力就能做各种事情。那么,当AI变得足够强大,你能想象AI会做什么样的事情?如果AI变得足够有能力,我们将拥有令人难以置信的医疗技术,如果AI能进行医学研究,那将是惊人的。我们可以做更多的事情,可以治愈很多疾病,甚至延长生命。我认为这些真的是很棒的事情,但如果AI能做到这一点,它还能做什么?最终的答案是:它什么都能做,即不可预测又难以想象。

我们该如何应对?我们必须做好准备,但目还没有明确的办法。最终,AI的力量将是巨大的。AI能创造下一代AI,这就是所谓的智能爆炸。天呐,那时候我们该怎么办?AI的问题在于它的影响太大,太强大了,它能解决一切问题,它也可以做任何事情,而所有这些问题,现在都没有答案。

现在,我想对开放大学授予我这个荣誉学位表示最深切的感谢,我觉得这很有意义,因为在相当长的一段时间里,开放大学对我来说代表了整个学术界和所有对学习的兴趣。这就像一个圆满的闭环,以一种非常有意义的方式。

原文链接:Ilya 最新演讲解读:学习,是AI时代最后的掌握权

FairyGen – AI动画故事视频生成框架,风格一致、叙事连贯

FairyGen是什么

FairyGen 是大湾区大学推出的动画故事视频生成框架,支持从单个手绘角色草图出发,生成具有连贯叙事和一致风格的动画故事视频。框架借助多模态大型语言模型(MLLM)进行故事规划,基于风格传播适配器将角色的视觉风格应用到背景中,用 3D Agent重建角色生成真实的运动序列,基于两阶段运动适配器优化视频动画的连贯性与自然度。FairyGen 在风格一致性、叙事连贯性和运动质量方面表现出色,为个性化动画创作开辟新途径。

FairyGen

FairyGen的主要功能

  • 动画故事视频生成:从单个手绘角色草图出发,生成具有连贯叙事和一致风格的动画故事视频。
  • 风格一致性保持:基于风格传播适配器,将手绘角色的视觉风格应用到背景中,确保整个视频的风格一致性。
  • 复杂运动生成:用3D代理重建角色,生成物理上合理的运动序列,支持复杂且自然的运动表现。
  • 叙事连贯性支持:借助多模态大型语言模型(MLLM)进行故事规划,生成结构化的故事板,确保视频的叙事连贯性。

FairyGen的技术原理

  • 故事规划:用多模态大型语言模型(MLLM)从单个手绘角色草图中生成结构化的故事板,定义全局叙事概述和详细的镜头级故事板,为视频的叙事框架提供基础。
  • 风格传播:基于风格传播适配器,学习手绘角色的视觉风格,应用到背景中,确保背景与角色在视觉风格上的一致性,增强视频的整体视觉连贯性。
  • 3D运动建模:用3D Agent重建角色,基于骨骼绑定和运动重定向技术,生成物理上合理的运动序列,为动画提供自然、流畅的运动表现。
  • 两阶段运动适配器:在图像到视频扩散模型的基础上,基于两阶段训练策略。第一阶段学习角色的空间特征,去除时间偏见;第二阶段基于时间步移策略学习运动动态,确保运动的连贯性和自然性。
  • 视频生成与优化:将上述各部分结合,基于微调的图像到视频扩散模型,直接渲染出与故事板对齐的多样化且连贯的视频场景,最终生成完整的动画故事视频。

FairyGen的项目地址

  • 项目官网:https://jayleejia.github.io/FairyGen/
  • GitHub仓库:https://github.com/GVCLab/FairyGen
  • arXiv技术论文:https://arxiv.org/pdf/2506.21272

FairyGen的应用场景

  • 教育领域:教师可借助 FairyGen 将学生手绘角色转化为动画故事,激发学生写作与创造力。
  • 数字艺术创作:艺术家用 FairyGen 快速将手绘草图生成动画视频,高效实现创意,节省时间和成本。
  • 心理健康治疗:治疗师基于 FairyGen 帮助患者将手绘角色变成动画故事,促进情感表达与心理康复。
  • 儿童创意启蒙:家长与儿童一起用 FairyGen,将儿童手绘角色制作成动画,培养想象力与创造力,增进亲子互动。
  • 广告营销:广告商运用 FairyGen 制作个性化动画广告,吸引受众,提升品牌传播效果。

Mysite.ai – AI网站构建工具,输入业务信息快速生成专业网站

Mysite.ai是什么

Mysite.ai 是专为小型企业设计的AI网站构建器。基于简单的AI驱动的方式帮助用户快速创建网站。用户只需回答一些问题,AI 快速生成网站的初始版本,支持用户在此基础上进行调整和修改。工具操作简单,让没有技术背景的用户也能轻松上手。与传统网站构建工具相比,Mysite.ai 更加直观,能快速生成专业外观的网站,节省时间和精力。

Mysite.ai

Mysite.ai的主要功能

  • 智能生成网站:用户只需回答一些简单问题,如业务类型、目标受众等,AI 根据信息快速生成网站的初始框架,包括主页布局、基本页面结构等,为用户提供一个起点。
  • 个性化定制:用户在 AI 生成的网站基础上进行个性化修改。支持更换图片、调整文字内容、修改颜色主题、添加或删除页面元素等,满足自身品牌和业务的独特需求。
  • AI内容生成:自动撰写网站文案,节省用户的时间与精力。
  • 潜在客户捕获:内置潜在客户捕获功能,帮助用户收集访客信息,提高客户转化率。
  • 一键发布:完成网站定制后,用户轻松地将网站一键发布到互联网上,无需复杂的代码部署或服务器设置,让网站快速上线,开始展示业务并吸引客户。

Mysite.ai的官网地址

  • 官网地址:https://mysite.ai/

Mysite.ai的产品定价

  • 个人计划(Personal):每月 $12,专家级 AI 开发者支持,无限 AI 使用,自定义域名。
  • 商业计划(Business):每月 $15,包含个人计划的所有功能,支持在网站上添加表单,将联系人导出为 CSV 文件

Mysite.ai的应用场景

  • 小型企业网站搭建:帮助小型企业快速创建专业网站,展示产品和服务,提升品牌知名度。
  • 自由职业者个人品牌展示:为自由职业者提供平台,展示作品和专业技能,吸引潜在客户。
  • 创业者项目推广:助力创业者快速搭建网站,展示新产品或服务,收集用户反馈,进行市场测试。
  • 非营利组织宣传与筹款:协助非营利组织创建网站,发布活动信息、捐赠渠道,提升影响力和公众参与度。
  • 个人项目与兴趣展示:支持个人创建博客、在线作品集,分享生活、知识和兴趣爱好,建立个人品牌。

Deep Video Discovery – 微软推出的深度视频探索智能体

Deep Video Discovery是什么

Deep Video Discovery(DVD)是微软推出的深度视频探索智能体,专为理解和分析长视频设计。Deep Video Discovery将长视频分割成多个较短的片段,基于大型语言模型(LLM)的高级推理能力,自主地规划和选择合适的工具及参数来收集信息。Deep Video Discovery配备一套搜索中心的工具,包括全局浏览、片段搜索和帧检查,能在不同层次上收集信息,基于迭代推理逐步构建对视频内容的理解。在多个长视频理解基准测试中,Deep Video Discovery均取得最先进的性能,显著提高长视频理解的准确性和效率。

Deep Video Discovery

Deep Video Discovery的主要功能

  • 多粒度视频理解:从全局、片段和帧三个层次理解和分析视频内容,提供全面的视频理解能力。
  • 自主搜索与推理:自主地规划和执行搜索策略,根据用户查询动态选择合适的工具和参数,逐步收集信息并构建对视频内容的理解。
  • 高效信息检索:基于全局浏览、片段搜索和帧检查等工具,快速定位和提取与用户查询相关的视频片段和细节。
  • 长视频理解:擅长处理长达数小时的信息密集型视频,能有效解决长视频理解中的时间和空间复杂性问题。
  • 灵活的工具使用:根据不同的任务需求,灵活组合和使用多种工具,实现高效的视频内容分析和问题回答。

Deep Video Discovery的技术原理

  • 多粒度视频数据库构建:将长视频均匀分割成多个较短的片段(clips),每个片段大约5秒。从全局、片段和帧三个层次提取视频信息。全局层提供视频的主体和事件总结,片段层提供文本描述(caption),帧层保留原始像素信息。构建一个包含解码帧、文本描述和对应嵌入向量的结构化数据库,支持快速检索和详细分析。
  • 自主搜索与答案生成
    • 全局浏览(Global Browse):提供视频的全局总结,帮助代理快速解视频的主体和主要事件。
    • 片段搜索(Clip Search):基于文本嵌入匹配,快速检索与用户查询相关的视频片段。
    • 帧检查(Frame Inspect):在特定时间范围内进行细粒度的视觉问答(VQA),提取帧级别的详细信息。
    • 自主代理设计:Agent基于迭代的观察-推理-行动循环,用LLM的推理能力,动态选择和使用工具,逐步收集信息并构建对视频内容的理解。
    • 迭代推理:Agent根据当前的观察状态和推理结果,选择合适的工具和参数,逐步细化查询,最终生成准确的答案。
  • LLM驱动的推理:LLM作为核心,负责推理和规划。LLM根据当前的对话历史和观察结果,选择合适的工具和参数,动态调整推理策略。根据任务需求,灵活组合和使用不同的工具,构建多步骤的工具使用链,解决复杂的查询任务。

Deep Video Discovery的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2505.18079

Deep Video Discovery的应用场景

  • 教育领域:在线教育平台分析长视频课程,学生快速定位到课程中特定知识点或章节。
  • 体育赛事分析:体育赛事分析比赛视频,快速提取关键事件。
  • 视频监控:安防监控系统中,实时分析监控视频,快速识别异常行为或事件。
  • 影视制作:影视后期制作团队分析拍摄素材,快速找到所需镜头。
  • 企业会议记录:企业分析会议视频,快速提取会议要点和关键决策。

Ovis-U1 – 阿里推出的多模态统一模型

Ovis-U1是什么

Ovis-U1是阿里巴巴集团Ovis团队推出的多模态统一模型,拥有30亿参数。模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。

Ovis-U1

Ovis-U1的主要功能

  • 多模态理解:支持理解复杂的视觉场景和文本内容,回答有关图像的问题,执行视觉问答(VQA)任务,及进行图像描述生成。
  • 文本到图像生成:根据文本描述生成高质量的图像,支持多种风格和复杂的场景描述。
  • 图像编辑:根据文本指令对图像进行精确编辑,包括添加、调整、替换、删除图像中的元素,及风格转换等。

Ovis-U1的技术原理

  • 架构设计
    • 视觉解码器(Visual Decoder):基于扩散的Transformer架构(MMDiT),从文本嵌入生成高质量图像。
    • 双向令牌细化器(Bidirectional Token Refiner):增强文本和视觉嵌入之间的交互,提升文本到图像合成和图像编辑任务的性能。
    • 视觉编码器(Visual Encoder):基于预训练的视觉编码器(如Aimv2-large-patch14-448),进行微调适应多模态任务。
    • 适配器(Adapter):连接视觉编码器和多模态大语言模型(MLLM),对视觉和文本嵌入进行对齐。
    • 多模态大语言模型(MLLM):作为模型的核心,处理文本和视觉信息,支持多种多模态任务。
  • 统一训练方法:Ovis-U1在多模态理解、文本到图像生成和图像编辑任务上同时进行训练,基于共享知识提升模型的泛化能力。训练过程分为六个阶段,逐步优化模型在不同任务上的性能。每个阶段都有特定的任务和训练目标,逐步提升模型的多模态能力。
  • 数据组成
    • 多模态理解数据:包括公开数据集(如COYO、Wukong、Laion、ShareGPT4V、CC3M)和内部开发的数据。
    • 文本到图像生成数据:用Laion5B数据集和JourneyDB数据集,基于预训练模型生成详细的图像描述。
    • 图像+文本到图像生成数据:涵盖图像编辑、参考图像驱动的图像生成、像素级控制的图像生成等多种任务的数据。
  • 性能优化:在图像编辑任务中,调整文本和图像的引导系数(CFG),实现对编辑指令的精确控制。用多个基准测试(如OpenCompass、GenEval、DPG-Bench、ImgEdit-Bench、GEdit-Bench-EN)全面评估模型的多模态能力。

Ovis-U1的项目地址

  • GitHub仓库:https://github.com/AIDC-AI/Ovis-U1
  • HuggingFace模型库:https://huggingface.co/AIDC-AI/Ovis-U1-3B
  • 技术论文:https://github.com/AIDC-AI/Ovis-U1/blob/main/docs/Ovis_U1_Report.pdf
  • 在线体验Demo:https://huggingface.co/spaces/AIDC-AI/Ovis-U1-3B

Ovis-U1的应用场景

  • 内容创作:Ovis-U1根据文本描述生成高质量图像和视频帧序列,为艺术家和视频编辑人员提供创意构思和内容构建的高效辅助工具,显著提升创作效率。
  • 广告与营销:模型依据产品特点和目标受众描述生成吸引人的广告图像与宣传海报,为社交媒体营销创作图片和视频内容,助力品牌增强传播效果,吸引更多用户关注。
  • 游戏开发:Ovis-U1依据游戏背景和角色描述生成游戏场景、角色及道具图像,为游戏设计提供创意灵感和初步素材。
  • 建筑设计:Ovis-U1根据建筑风格和周边环境描述生成建筑概念图及室内场景和家具布置图像,帮助客户快速理解设计意图,辅助设计师高效展示设计方案,提高设计沟通效率。
  • 科学研究:模型能生成复杂科学现象和数据的可视化图像及实验场景和设备图像,帮助研究人员更好地理解和展示研究成果。

AnimaX – 北航联合清华等推出的3D动画生成框架

AnimaX是什么

AnimaX是北京航空航天大学联合清华大学、香港大学等推出的高效3D动画生成框架,将视频扩散模型的动作先验与基于骨骼的动画结构相结合。框架能将视频中的动作知识有效迁移到3D领域,支持具有任意骨骼结构的多样化关节网格。AnimaX基于将3D动作表示为多视图、多帧2D姿态图,用联合视频姿态扩散模型,结合共享位置编码和模态感知嵌入,确保视频与姿态序列之间的时空对齐,实现高质量的3D动画生成。框架训练数据集包含16万个绑定序列,AnimaX在泛化性、动作保真度和效率方面均达到行业领先水平,为类别无关的3D动画提供可扩展的解决方案。

AnimaX

AnimaX的主要功能

  • 任意骨骼结构支持:AnimaX支持处理具有不同骨骼拓扑结构的3D模型,适用各种角色和物体,如人类、动物、家具等。
  • 文本驱动的动画:用户基于简单的文本描述指定动画内容,AnimaX根据文本提示生成相应的动画序列。
  • 多视图一致性:生成的动画在多个视角下保持一致,确保从不同角度观察时动画的连贯性和真实性。
  • 高效生成:AnimaX基于前馈式方法,在短时间内生成高质量的3D动画,大大提高动画制作的效率。

AnimaX的技术原理

  • 联合视频姿态扩散模型:AnimaX将3D动作表示为多视图、多帧2D姿态图。支持模型用视频扩散模型的强大动作先验,保持与3D骨骼动画的兼容性。联合视频姿态扩散模型,AnimaX能同时生成视频和对应的2D姿态序列。联合生成策略确保视频和姿态之间的时空对齐。
  • 共享位置编码和模态感知嵌入:为确保视频和姿态序列之间的时空对齐,AnimaX引入共享位置编码。编码机制让模型更好地理解和对齐不同模态(RGB视频和姿态图)中的空间信息。模态感知嵌入用在区分不同模态的数据,确保模型正确处理RGB视频和姿态图的差异。
  • 多视图一致性:AnimaX引入多视图注意力机制和相机条件嵌入,确保生成的视频在多个视角下保持一致。让模型能学习不同视角之间的空间对应关系,生成一致的多视图视频。
  • 3D动作重建和动画:生成的多视图姿态序列基于三角测量方法转换为3D关节位置。用逆向运动学将3D关节位置转换为关节角度,驱动3D模型的动画。
  • 大规模数据集训练:AnimaX在新策划的包含16万个绑定序列的数据集上进行训练。数据涵盖多种类别,如人类、动物、家具等,确保模型具有良好的泛化能力。

AnimaX的项目地址

  • 项目官网:https://anima-x.github.io/
  • GitHub仓库:https://github.com/anima-x/anima-x
  • arXiv技术论文:https://arxiv.org/pdf/2506.19851

AnimaX的应用场景

  • 游戏开发:快速生成角色和环境的动画,提升开发效率和内容丰富度。
  • 影视制作:用在动画电影、视觉效果和虚拟角色的动画生成,增强视觉效果。
  • 虚拟现实(VR)和增强现实(AR):生成虚拟角色和动态环境的动画,提升沉浸感和交互体验。
  • 广告和营销:创建动态广告和产品展示动画,吸引观众注意力,提高参与度。
  • 教育和培训:生成虚拟实验和模拟训练的动画,提升教学和训练效果。

WorldVLA – 阿里达摩院联合浙大推出的自回归动作世界模型

WorldVLA是什么

WorldVLA是阿里巴巴达摩院和浙江大学联合推出的自回归动作世界模型,模型将视觉-语言-动作(VLA)模型与世界模型整合到一个单一框架中。模型基于动作和图像理解预测未来的图像,目的是学习环境的基本物理规律以改进动作生成。动作模型根据图像观察生成后续的动作,辅助视觉理解,并反过来帮助世界模型的视觉生成。WorldVLA在性能上优于独立的动作模型和世界模型,突显世界模型与动作模型之间的相互增强作用。为解决自回归方式生成一系列动作时性能下降的问题,提出一种注意力掩码策略,在生成当前动作时选择性地屏蔽先前的动作,在动作块生成任务中显著提高性能。

WorldVLA

WorldVLA的主要功能

  • 动作生成:根据图像和语言指令生成后续动作,支持连续动作规划。
  • 图像预测:基于当前图像和动作预测未来图像状态,提升视觉预测精度。
  • 环境理解:学习环境物理规律,增强视觉和动作理解能力。
  • 双向增强:动作模型与世界模型相互促进,提升整体性能。

WorldVLA的技术原理

  • 统一框架:WorldVLA将视觉-语言-动作(VLA)模型和世界模型整合到一个单一的框架中。用三个独立的编码器(图像编码器、文本编码器和动作编码器)将不同模态的数据编码为统一的词汇表中的标记,实现跨模态的理解和生成。
  • 自回归生成:模型用自回归的方式进行动作和图像的生成。动作模型根据历史图像和语言指令生成动作,世界模型根据历史图像和动作预测未来的图像状态。
  • 注意力掩码策略:为解决自回归模型在生成一系列动作时可能出现的性能下降问题,WorldVLA提出一种注意力掩码策略。在生成当前动作时选择性地屏蔽先前的动作,减少错误的传播,提高动作块生成的性能。
  • 双向增强:WorldVLA基于世界模型和动作模型的相互作用实现双向增强。世界模型基于预测未来状态帮助动作模型更好地理解环境的物理规律,动作模型基于生成动作帮助世界模型更准确地预测未来的图像状态。
  • 训练策略:WorldVLA在训练时混合使用动作模型数据和世界模型数据,确保模型能够同时学习到动作生成和图像预测的能力。混合训练策略让模型能在单一架构中实现多种功能。

WorldVLA的项目地址

  • GitHub仓库:https://github.com/alibaba-damo-academy/WorldVLA
  • HuggingFace模型库:https://huggingface.co/collections/jcenaa/worldvla-685b9df63bdfe8cb67cc71b2
  • arXiv技术论文:https://arxiv.org/pdf/2506.21539

WorldVLA的应用场景

  • 机器人目标导向任务:帮助机器人根据视觉和语言指令完成目标导向的任务,如将物体从一个位置移动到另一个位置。
  • 复杂环境中的精细操作:在复杂环境中,如杂乱桌面或狭窄空间,生成适应性强的动作,完成精细操作。
  • 人机协作任务:在人机协作场景中,理解人类的动作和意图,生成相应的协作动作,提高协作效率。
  • 未来场景模拟与预测:预测未来的图像状态,帮助机器人提前规划和评估动作后果,如自动驾驶中的道路场景预测。
  • 教育与研究平台:作为教学工具和研究平台,帮助学生和研究人员理解和实践机器人控制和视觉预测的原理。

ComputerX – AI Agent工具,自动化处理计算机任务

ComputerX是什么

ComputerX是基于人工智能的AI Agent工具,通过自然语言指令帮助用户自动化处理各种计算机任务,提升工作效率。能处理多种任务,如旅行规划、数据分析、报告生成、网页应用创建等,支持文本、表格、图像和代码等多种输出格式。ComputerX基于 AI 技术整合来自多个在线来源的信息,提供全面且准确的结果,保持任务执行过程的透明性。

ComputerX

ComputerX的主要功能

  • 自然语言处理:能理解用户的自然语言指令,执行相应的任务。
  • 任务自动化:可以处理多种类型的计算机任务,如数据分析、报告生成、网页应用创建等。
  • 信息整合与输出:能访问和整合来自多个在线来源的信息,以文本、表格、图像和代码等多种格式输出结果。
  • 任务执行透明化:用户可以看到AI如何推理和完成每个请求,增强了对结果的信任。
  • 跨平台支持:可在网页端、Mac Apple Silicon桌面以及移动设备上使用。

ComputerX的官网地址

  • 官网地址:https://computerx.ai/

ComputerX的应用场景

  • 学习辅助:通过自然语言指令获取信息、整理学习资料,帮助学生更高效地学习。
  • 创意实现:支持网页应用创建等功能,能帮助创作者快速实现创意。
  • 设计优化:基于AI技术优化设计流程,提供设计建议和改进方案。
  • 虚拟助手:作为“万能遥控器”,控制家庭娱乐和家居设备,如播放音乐、视频,调控灯光、温度等。
  • 数据分析与决策支持:为企业提供数据分析和决策支持,帮助企业更好地理解市场趋势和客户需求。

Voxiyo – AI语音笔记管理应用,支持与笔记交互式对话

Voxiyo是什么

Voxiyo是AI语音笔记管理应用,帮助用户高效记录、整理和利用语音信息。基于强大的 AI 功能,将语音笔记转化为文字、摘要、关键点和待办事项,实现一键生成和管理。用户可以与语音笔记进行交互式对话,通过语音指令获取笔记的总结、关键信息或任务安排,AI 会自动帮助整理和回忆内容。

Voxiyo

Voxiyo的主要功能

  • 语音录制与转录:用户可以快速录制语音笔记,通过 AI 技术将语音内容实时转换为文字,支持多种语言。
  • 智能整理与分类:提供标签、文件夹和快速搜索功能,帮助用户高效管理和查找笔记。
  • AI 洞察与交互:能总结笔记内容、提取关键点、生成待办事项,支持用户通过语音或文字与笔记进行交互式对话。
  • 任务管理:将语音笔记转化为可操作的任务,在一个界面中集中管理和跟踪。
  • 分享与备份:支持将笔记分享给他人,可将笔记备份到云端。
  • 多平台支持:适用于 iOS 和 Android 设备,数据支持跨平台同步。

Voxiyo的官网地址

  • 官网地址:https://voxiyo.com/
  • 苹果AppStore应用商店:https://apps.apple.com/us/app/voxiyo/id6737908578

Voxiyo的应用场景

  • 会议记录:用户可以用 Voxiyo 录制会议内容,AI 会自动将语音转录为文字,提取关键点和生成摘要。会议结束后,可以快速回顾重点内容,将这些内容转化为待办任务,确保后续工作的顺利推进。
  • 灵感捕捉:用户可以随时随地通过语音记录自己的想法,Voxiyo 会将这些语音笔记整理成文字,通过智能标签和文件夹功能帮助用户分类保存。
  • 学习与研究:用户可以录制讲座或访谈内容,Voxiyo 的 AI 能快速转录并提取关键信息,帮助用户更好地理解和整理学习内容。
  • 健康与健身:用户可以通过语音记录自己的饮食和运动情况,Voxiyo 会自动整理成文字,生成相关的待办任务,帮助用户更好地管理自己的健康计划。

批改邦 – 国产AI作业批改与教研指导工具

批改邦是什么

批改邦是国产的AI作业批改与教研指导工具。主要面向教师群体,通过人工智能技术帮助教师高效批改学生作业,包括语文和英语作文。能逐段分析作文,提供详细点评和修改建议,生成润色优化版本,为教师生成评语。批改邦支持教案生成、教研计划规划等教研指导功能,助力教师提升教学水平。

批改邦

批改邦的主要功能

  • AI作文批改:批改邦能深入分析学生的中英文作文,逐段给出详细的点评及修改建议,生成润色优化版本。可以结合推荐的好词好句好选材,为学生提供具体的写作指导。批改邦会为教师生成评语,教师可以在AI批改的基础上进行协同批改,融入自己的见解和观点。
  • 多学科支持:批改邦支持语文和英语作文的批改,支持默写作业的批改。
  • 班级批量批改:教师可以批量上传学生的作业,进行批量批改和导出。
  • 自定义批改格式:用户可以根据自己的教学需求,设置批改格式和评分规则。
  • 教研辅助功能:批改邦提供教案生成、教研计划规划等功能,帮助教师更好地准备教学内容。
  • 个性化反馈:批改邦的批改结果包括旁批、结构性批阅、教师总评、作文润色及原文对比等多个模块,形成全面的反馈体系。

如何使用批改邦

  • 注册与登录:访问“批改邦”的官网 https://www.pigaibang.com/,注册或登录使用服务。
  • 上传作业
    • 拍照上传:点击“拍照批改”,对准作文拍照(确保光线充足、文字清晰),框选作文区域,自动识别文字(支持手写体)。
    • 文档上传:也可直接上传作文文档。
  • 批改作业:选择需要批改的作业或题目,补充清晰题目要求,编写具体评分规则(分项最佳),建议开启“智能评语”。点击“批改测试”,检查AI给出的测试批改结果是否符合预期,根据测试结果调整优化评分项及标准,直至满意。测试通过后,点击“开始评分”,等待AI后台完成该题所有学生作业的批改。
  • 查看与修改批改结果:如需修改成绩或评语,需进入作业/考试详情页手动操作。找到相应作业,点击“批阅”,在作业详情页,点击“重新批阅”,即可逐份修订分数和评语。
  • 教研指导:批改邦提供教案生成、教研计划规划等教研指导功能。
  • 协同批改:教师可在AI批改的基础上进行协同批改,融入自己的见解和观点。

批改邦的应用场景

  • 作文教学与批改:教师可以将学生的作文拍照或上传文档,批改邦会根据设定的评分规则和要求进行批改,并生成评语。教师可以在AI批改的基础上进行补充或修改,进一步完善批改内容。
  • 日常作业批改:教师可以将学生的作业拍照上传,批改邦会自动识别文字并进行批改。对于默写作业,批改邦可以快速检查错别字和遗漏内容,减轻教师的批改负担。
  • 考试阅卷与分析:教师可以将试卷拍照上传,批改邦会对主观题进行批改并生成评分。教师可以根据批改结果进行成绩统计和分析,了解学生的学习情况。
  • 教研与教学准备:教师可以用批改邦的教案生成功能,根据教学目标和内容生成初步教案。批改邦可以帮助教师制定教研计划,提供教学方法和资源的建议。
  • 家长辅导:家长可以将孩子的作业拍照上传到批改邦,参考AI的批改结果和建议,帮助孩子纠正错误并提供学习指导。