Skip to main content

Author: Chimy

AI Quests – 谷歌联合斯坦福推出的AI教育工具

AI Quests是什么

AI Quests 是谷歌研究团队与斯坦福学习加速器联合推出的游戏化教育工具,通过沉浸式冒险活动,让11至14岁的学生学习人工智能(AI)及在现实世界中的应用。学生将扮演谷歌研究人员的角色,解决与气候、健康和科学相关的问题。首个任务是洪水预测,未来将有糖尿病视网膜病变检测和大脑映射等任务。每个任务配有课程计划、教师指南和真实研究人员的视频信息,帮助学生理解AI的实际应用。

AI Quests

AI Quests主要功能

  • 沉浸式冒险学习:通过游戏化的形式,让学生置身于奇幻世界中,扮演AI研究人员,在导师Skye教授的指导下完成一系列沉浸式的冒险。
  • 基于真实研究场景的任务:学生的核心任务是基于真实研究场景,定义问题、收集数据、评估数据、训练和测试模型。
  • 培养AI素养:让学生在解决气候、健康和科学等领域问题的过程中,学习AI的基础知识及其应用,了解人类判断和数据质量对AI结果的影响。
  • 提供教师资源:每个任务配有完整的课程计划和教师指南,包括游戏前和游戏后的活动,帮助教师更好地引导学生学习。

如何使用AI Quests

  • 访问平台:访问 AI Quests 官网 https://research.google/ai-quests/,注册账号并登录。
  • 选择任务:根据教学计划或兴趣选择任务,如洪水预测、糖尿病视网膜病变检测等。
  • 任务准备:教师需熟悉任务内容、准备教学材料,学生仔细阅读任务简介。
  • 完成任务:学生依次完成定义问题、收集数据、评估数据、训练模型、测试模型和反思改进的步骤。
  • 观看视频:任务结束后,学生观看谷歌研究人员的视频,了解AI的实际应用。

AI Quests的应用场景

  • 教育领域:通过沉浸式冒险活动,帮助学生学习人工智能(AI)的基础知识及在现实世界中的应用。
  • 气候科学:学生通过收集降雨量和河流流量等数据,训练AI模型预测洪水
  • 健康医疗:学生通过分析医学图像,学习如何用AI技术辅助医疗诊断,帮助医生更早地发现疾病,改善患者的治疗效果。
  • 神经科学:让学生了解AI在神经科学研究中的应用,例如通过AI技术绘制大脑地图,帮助科学家更好地理解大脑的功能和结构。
  • 教师与课程整合:帮助教师将AI教育融入课堂,使学生在实践中学习AI技术,应用在解决实际问题。

LucaVirus – 阿里开源的病毒基础大模型

LucaVirus是什么

LucaVirus 是阿里巴巴云 LucaGroup 研发的专为病毒设计的统一核酸 – 蛋白质语言模型。在 254 亿个核苷酸和氨基酸标记上训练,涵盖几乎所有已知病毒。模型可学习核苷酸和氨基酸序列间的关系等生物学上有意义的表示,基于此开发的下游模型能应对病毒学关键挑战,如识别基因组“暗物质”中的病毒、表征未知蛋白质酶活性、预测病毒进化能力、发现针对新病毒的抗体药物等,在相关任务上表现出色。其蛋白质嵌入能高分辨率区分蛋白质家族,嵌入距离与遗传距离相关性强,进化信息丰富,在抗体 – 抗原结合预测上性能优异,准确率等指标超过现有模型和基于结构的预测方法。

LucaVirus

LucaVirus的主要功能

  • 病毒发现:能识别隐藏在基因组“暗物质”中的病毒,帮助科学家在复杂的基因组数据中发现新的病毒序列,拓展对病毒种类的认知。
  • 功能预测:可以表征未知蛋白质的酶活性,通过分析蛋白质序列预测其可能具有的生物化学功能,为理解病毒的致病机制和开发抗病毒药物提供线索。
  • 进化分析:预测病毒的进化能力,通过对病毒序列的进化信息进行建模,帮助研究人员了解病毒的变异趋势和进化路径,这对于公共卫生领域的病毒监测和防控至关重要。
  • 药物发现:发现针对新出现病毒的抗体药物,利用模型预测病毒抗原与抗体的结合潜力,加速抗体药物的研发进程,提高应对新发传染病的能力。

LucaVirus的技术原理

  • 多模态数据融合:结合核苷酸和氨基酸序列数据,构建统一的核酸-蛋白质语言模型,学习两者之间的复杂关系。
  • 大规模数据训练:在254亿个核苷酸和氨基酸标记上进行训练,涵盖几乎所有已知病毒,确保模型具有广泛的泛化能力和对病毒多样性的理解。
  • 进化信息建模:通过嵌入学习,将病毒序列的进化信息融入模型,使模型能够捕捉病毒的进化分歧和同源性,为进化分析提供支持。
  • 可解释性嵌入:生成的嵌入能够以高分辨率区分蛋白质家族,并与遗传距离相关联,为病毒学研究提供可解释的生物学表示。
  • 下游任务适配:开发专门的下游模型,针对病毒发现、功能预测、进化分析和药物发现等任务进行优化,提升模型在实际应用中的性能。

LucaVirus的项目地址

  • Github仓库:https://github.com/LucaOne/LucaVirus
  • HuggingFace模型库:https://huggingface.co/collections/LucaGroup/lucavirus-689d9382d0cc09780f380958

LucaVirus的应用场景

  • 公共卫生监测:通过快速识别新出现的病毒和监测病毒的进化趋势,为公共卫生部门提供早期预警,帮助制定有效的防控策略,减少病毒传播和疫情爆发的风险。
  • 疾病诊断:辅助医疗人员更准确地诊断病毒感染性疾病,尤其是对于一些症状相似但由不同病毒引起的疾病,提高诊断的准确性和效率。
  • 疫苗研发:为疫苗开发提供关键信息,如预测病毒的抗原性变化,帮助设计更有效的疫苗,提高疫苗对病毒变异的适应性,增强疫苗的保护效果。
  • 药物开发:加速抗病毒药物的研发过程,通过预测病毒蛋白的功能和药物靶点,为新药设计提供理论依据,降低研发成本和时间。
  • 生物安全防御:在生物安全领域,用于检测和识别潜在的生物威胁,如新型病毒的出现,为国家和地区的生物安全提供技术支持,保障公众健康和社会稳定。

Mixboard – 谷歌推出的AI画板工具

Mixboard是什么

Mixboard 是谷歌实验室推出的全新 AI 画板工具,由 Nano Banana 提供支持。工具通过自然语言交互,让用户能轻松将任何想法即时可视化。用户输入文本提示或选择预置模板,AI 能生成一系列相关图片。Mixboard 支持批量编辑、组合图片、风格迁移,能对图片进行客观描述、调整文字格式。Mixboard 适用创意设计、家居装饰、派对策划等多种场景,帮助用户快速探索和优化创意。Mixboard 已开启公测,让任何人都能轻松地使用 AI 实现自己的想法。

Mixboard

Mixboard的主要功能

  • 文本生成图像:用户通过输入文本提示,让 AI 生成与描述相关的图像,快速将想法可视化。
  • 自然语言编辑:用自然语言指令对画板上的图像进行调整、合并或修改,操作简单直观。
  • 图像生成与迭代:提供“重新生成”和“更多类似”功能,帮助用户快速探索不同版本的创意。
  • 图像组合与风格迁移:支持将一张图片中的元素添加到另一张图片中,或进行风格迁移,实现创意融合。
  • 批量编辑与便捷操作:支持批量编辑图片,无需拖入编辑框,直接选中即可操作。同时提供消除背景、复制、下载等功能。
  • 内容描述与文本编辑:支持对描述文字进行加粗、修改颜色等操作。
  • 预置模板与个性化创作:提供预置模板供用户快速开始,支持用户上传自己的图片进行个性化创作。

Mixboard的官网地址

  • 官网地址:https://labs.google/mixboard

Mixboard的应用场景

  • 创意设计:工具能帮助设计师快速生成和迭代创意,让产品设计、服装设计和平面设计,都能通过文本提示生成相关图像、进行编辑。
  • 家居装饰:用户用来规划家居布局、挑选装饰风格,甚至预览家具摆放在房间中的效果。
  • 派对策划:Mixboard 能生成相关的装饰、食物、饮品等图像,帮助策划者快速搭建派对场景。
  • 教育辅助:教师用 Mixboard 制作教学课件,学生用来完成创意作业,激发想象力。
  • 商业营销:企业快速生成广告创意、产品宣传图,甚至模拟市场推广场景。

MiroFlow v0.2 – MiroMind开源的研究智能体框架

MiroFlow v0.2是什么

MiroFlow v0.2是MiroMind推出的开源研究智能体框架,能将任何大型语言模型(LLM)升级至OpenAI深度研究级别的能力,专注于可靠完成复杂的工具使用任务。框架具有开源可复现、高并发高可靠性及部署成本低等优势,在GAIA、HLE、xBench-DeepSearch和BrowserComp等多个基准测试中取得顶尖成果。MiroFlow v0.2基于简洁的Gradio前端界面和强大的后端多工具协作,通过查询增强、任务规划、子智能体委派、工具调用和结果合成等环节高效处理用户查询,为AI研究和应用提供强大的支持。

MiroFlow v0.2

MiroFlow v0.2的主要功能

  • 任务规划与执行:能对复杂任务进行自动规划和执行,协调多个工具和子智能体完成任务。
  • 多工具协作:支持多种工具(如网页浏览器、Python工具等)的协作,完成多步骤的网络研究和资源分析。
  • 高并发与高可靠性:具备强大的并发管理和容错设计,高效处理有速率限制的API和不稳定的网络环境。
  • 成本效益:单块RTX 4090显卡即可运行,基于免费开源工具,易于部署和扩展。
  • 开源可复现:所有性能指标均可通过公开代码复现,确保研究的透明性和可验证性。

MiroFlow v0.2的技术原理

  • 查询增强:通过大型语言模型分析用户输入,明确意图、丰富查询细节,方便更精准地理解需求。
  • 任务规划:主智能体根据增强后的查询内容制定详细执行计划,协调整个工作流程。
  • 子智能体委派:对于复杂或专业任务,主智能体将部分工作委派给具备相关专业知识的子智能体,子智能体能自主规划和执行任务。
  • 工具调用:智能体通过连接到MCP(模型上下文协议)服务器,获取、使用所需的外部工具。
  • 结果合成:任务完成后,系统整合多个信息源的结果,确保输出内容高质量且符合用户需求。

MiroFlow v0.2的项目地址

  • 项目官网:https://miromind.ai/blog/miroflow
  • HuggingFace模型库:https://huggingface.co/collections/miromind-ai/mirothinker-v02-68af084a18035f57b17cd902

MiroFlow v0.2的应用场景

  • 学术研究:帮助研究人员快速收集和分析大量学术资源,自动生成文献综述或研究方案,大幅提升学术研究的效率。
  • 市场分析:通过多步骤的网络研究和多工具协作,快速分析市场趋势、竞争对手信息,为商业决策提供数据支持。
  • 新闻报道:自动收集和整理新闻事件的多方面信息,帮助记者快速生成新闻报道框架,提高新闻生产的时效性。
  • 教育辅导:根据学生的问题,快速搜索和整理教育资源,提供详细的解答和学习建议,辅助教学活动。
  • 技术开发:协助开发者快速收集技术文档、代码示例等资源,帮助用户更好地理解和应用新技术,提升开发效率。

阿里吴泳铭:AGI只是起点,超级人工智能ASI才是终极目标

9月24日,在杭州召开的云栖大会上,阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭发表主旨演讲,他认为实现通用人工智能AGI已是确定性事件,但这只是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能ASI。

吴泳铭首次系统阐述了通往ASI的三阶段演进路线

  • 第一阶段:“智能涌现”,AI通过学习海量人类知识具备泛化智能。
  • 第二阶段:“自主行动”,AI掌握工具使用和编程能力以“辅助人”,这是行业当前所处的阶段。
  • 第三阶段:“自我迭代”,AI通过连接物理世界并实现自学习,最终实现“超越人”。

为实现这一目标,吴泳铭明确了阿里云的战略路径。阿里云作为“全栈人工智能服务商”,将通过两大核心路径实施AI战略:第一,通义千问坚定开源开放路线,致力于打造“AI时代的Android”;其二,构建作为“下一代计算机”的超级AI云,为全球提供智能算力网络。

为支撑这一宏大愿景,吴泳铭表示,阿里巴巴正在积极推进三年3800亿的AI基础设施建设计划,并将会持续追加更大的投入。根据远期规划,为了迎接ASI时代的到来,对比2022年这个GenAI的元年,2032年阿里云全球数据中心的能耗规模将提升10倍。

以下为演讲全文——

开始演讲之前,我想特别感谢一下支持整个中国乃至全球科技行业的开发者朋友。今天是云栖大会的10周年,云栖大会起源于阿里云的开发者大会,是广大开发者推动了中国乃至全球的云计算、AI和科技行业的发展。所以,在演讲之前,我想特别向开发者们致以最高的谢意。

当前的世界,一场由人工智能驱动的智能化革命刚刚开始。过去几百年,工业革命通过机械化放大了人类的体能,信息革命通过数字化放大了人类的信息处理能力。而这一次,智能化革命将远超我们的想象。通用人工智能AGI不仅会放大人类智力,还将解放人类的潜能,为超级人工智能ASI的到来铺平道路。

最近的三年,我们已经清晰地感受到它的速度。几年时间,AI的智力从一个高中生迅速提升到博士生的水平,还能拿到国际IMO的金牌。AI Chatbot是人类有史以来用户渗透率最快的功能。AI 的行业渗透速度超过历史上所有技术。Tokens 的消耗速度两三个月就翻一番。最近一年,全球AI行业的投资总额已经超过4000亿美元,未来5年全球AI的累计投入将超过4万亿美元,这是历史上最大的算力和研发投入,必然将会加速催生更强大的模型,加速AI应用的渗透。

实现AGI——一个具备人类通用认知能力的智能系统,现在看来已成为确定性事件。然而,AGI并非AI发展的终点,而是全新的起点。AI不会止步于AGI,它将迈向超越人类智能、能够自我迭代进化的超级人工智能(ASI)。

AGI的目标是将人类从80%的日常工作中解放出来,让我们专注于创造与探索。而ASI作为全面超越人类智能的系统,将可能创造出一批“超级科学家”和”全栈超级工程师”。ASI将以难以想象的速度,解决现在未被解决的科学和工程问题,比如攻克医学难题、发明新材料、解决可持续能源和气候问题,甚至星际旅行等等。ASI将以指数级的速度推动科技的飞跃,引领我们进入一个前所未有的智能时代。

我们认为,通往ASI之路将经历三个阶段:

第一阶段是“智能涌现”,特征是“学习人”。

过去几十年的互联网发展,为智能涌现提供了基础。互联网将人类历史上几乎所有的知识都数字化了。这些语言文字承载的信息,代表了人类知识的全集。基于此,大模型首先通过理解全世界的知识集合,具备了泛化的智能能力,涌现出通用对话能力,可以理解人类的意图,解答人类的问题,并逐渐发展出思考多步问题的推理能力。现在,我们看到AI已经逼近人类各学科测试的顶级水平,比如国际数学奥赛的金牌水平。AI逐渐具备了进入真实世界、解决真实问题、创造真实价值的可能性。这是过去几年的主线。

第二个阶段是“自主行动”,特征是“辅助人”。

这个阶段,AI不再局限于语言交流,而是具备了在真实世界中行动的能力。AI可以在人类的目标设定下,拆解复杂任务,使用和制作工具,自主完成与数字世界和物理世界的交互,对真实世界产生巨大影响。这正是我们当下所处的阶段。

实现这一跨越的关键,首先是大模型具备了Tool Use能力,有能力连接所有数字化工具,完成真实世界任务。人类加速进化的起点是开始创造和使用工具,现在大模型也具备了使用工具的能力。通过Tool Use,AI可以像人一样调用外部软件、接口和物理设备,执行复杂的真实世界任务。这个阶段,由于AI能够辅助人类极大提高生产力,它将快速的渗透到物流、制造、软件、商业、生物医疗、金融、科研等几乎所有行业领域。

其次,大模型Coding能力的提升,可以帮助人类解决更复杂的问题,并将更多场景数字化。现在的Agent还比较早期,解决的主要是标准化和短周期的任务。要想让Agent能解决更复杂、更长周期任务,最关键的是大模型的Coding能力。因为Agent可以自主Coding,理论上就能解决无限复杂的问题,像工程师团队一样理解复杂需求并自主完成编码、测试。发展大模型Coding能力是通往AGI的必经之路。

未来,自然语言就是AI时代的源代码,任何人用自然语言就能创造自己的Agent。你只需要输入母语,告诉AI你的需求,AI就能自己编写逻辑、调用工具、搭建系统,完成数字世界的几乎所有工作,并通过数字化接口来操作所有物理设备。 未来,也许会有超过全球人口数量的Agent和机器人与人类一起工作,对真实世界产生巨大影响。在这个过程中,AI就能连接真实世界的绝大部分场景和数据,为未来的进化创造条件。

随后AI将进入第三个阶段——“自我迭代”,特征是“超越人”。这个阶段有两个关键要素:

一、AI连接了真实世界的全量原始数据

目前AI的进步最快的领域是内容创作、数学和Coding领域。我们看到这三个领域有明显的特征。这些领域的知识100%是人类定义和创造的,都在文字里,AI可以100%理解原始数据。但是对于其他领域和更广泛的物理世界,今天的AI接触到的更多是人类归纳之后的知识,缺乏广泛的、与物理世界交互的原始数据。这些信息是有局限的。AI要实现超越人类的突破,就需要直接从物理世界获取更全面、更原始的数据。

举一个简单的例子,比如一家汽车公司的CEO要迭代明年的产品,大概率会通过无数次的用户调研或者内部的讨论来决定下一款汽车将要具备什么样的功能,与竞对相比要实现哪些方面的长板,保留什么方面的能力。现在AI要去做还是很难的,核心点在于它所获得的数据和信息,全都是调研来的二手数据。如果有一天AI有机会,能够连接这款汽车的所有的资料和数据,它创造出来的下一款汽车会远远超过通过无数次头脑风暴所创作出来的。这只是人类世界当中的一个例子,更何况更复杂的物理世界,远远不是通过人类知识归纳就能够让AI理解的。

所以AI要进入到一个更高的阶段,就需要直接从物理世界获取更全面、更原始的数据,就像在自动驾驶的早期阶段,只靠人类的总结,Rule-based的方法去实现自动驾驶,无法实现很好的效果。新一代的自动驾驶,大部分采用端到端的训练方法,直接从原始的车载摄像头数据中学习,实现了更高水平的自动驾驶能力。即便我们现在看起来相对简单的自动驾驶问题,仅依靠人类归纳的知识和规则,也无法解决,更何况整个复杂的物理世界。只是让AI学习人类归纳的规律,是远远不够的。只有让AI与真实世界持续互动,获取更全面、更真实、更实时的数据,才能更好的理解和模拟世界,发现超越人类认知的深层规律,从而创造出比人更强大的智能能力。

二、Self-learning自主学习

随着AI渗透更多的物理世界场景,理解更多物理世界的数据,AI 模型和agent能力也会越来越强,有机会为自己模型的升级迭代搭建训练infra、优化数据流程和升级模型架构,从而实现 Self learning。这会是AI发展的关键时刻。

随着能力的持续提升,未来的模型将通过与真实世界的持续交互,获取新的数据并接收实时反馈,借助强化学习与持续学习机制,自主优化、修正偏差、实现自我迭代与智能升级。每一次交互都是一次微调,每一次反馈都是一次参数优化。当经过无数次场景执行和结果反馈的循环,AI将自我迭代出超越人类的智能能力,一个早期的超级人工智能(ASI)便会成型。

一旦跨过某个奇点,人类社会就像按下了加速键,科技进步的速度将超越我们的想象,新的生产力爆发将推动人类社会进入崭新的阶段。这条通往超级人工智能的道路,在我们的眼前正在日益清晰。随着AI技术的演进和各行各业需求爆发,AI也将催生IT产业的巨大变革。

我们的第一个判断是:大模型是下一代的操作系统。我们认为大模型代表的技术平台将会替代现在OS的地位,成为下一代的操作系统。未来,几乎所有链接真实世界的工具接口都将与大模型进行链接,所有用户需求和行业应用将会通过大模型相关工具执行任务,LLM将会是承载用户、软件 与 AI计算资源交互调度的中间层,成为AI时代的OS。来做一些简单的类比:自然语言是AI时代的编程语言,Agent就是新的软件,Context是新的Memory,大模型通过MCP这样的接口,连接各类Tools和Agent类似PC时代的总线接口,Agent之间又通过A2A这样的协议完成多Agent协作类似软件之间的API接口。

大模型将会吞噬软件。大模型作为下一代的操作系统,将允许任何人用自然语言,创造无限多的应用。未来几乎所有与计算世界打交道的软件可能都是由大模型产生的Agent,而不是现在的商业软件。潜在的开发者将从几千万变成数亿规模。以前由于软件开发的成本问题,只有少量高价值场景才会被工程师开发出来变成商业化的软件系统。未来所有终端用户都可以通过大模型这样的工具来满足自己的需求。

模型部署方式也会多样化,它将运行在所有设备上。现在主流的调用模型API的方式,来使用模型只是初级阶段,其实看起来非常原始。类似大型主机时代的分时复用阶段,每个人只有一个终端连接上大型主机分时复用。这种方式无法解决数据持久化,缺乏长期记忆,实时性不够,隐私无法解决,可塑性也不够。未来模型将运行在所有计算设备中,并具备可持久记忆,端云联动的运行状态,甚至可以随时更新参数,自我迭代,类似我们今天的OS运行在各种环境之中。

正是基于这个判断,我们做了一个战略选择:通义千问选择开放路线,打造AI时代的Android。我们认为在LLM时代,开源模型创造的价值和能渗透的场景,会远远大于闭源模型。我们坚定选择开源,就是为了全力支持开发者生态,与全球所有开发者一起探索AI应用的无限可能。

我们的第二个判断:超级AI 云是下一代的计算机。

大模型是运行于 AI Cloud之上新的OS。这个OS可以满足任何人的需求。每个人都将拥有几十甚至上百个Agent,这些Agent 24小时不间断地工作和协同,需要海量的计算资源。

数据中心内的计算范式也在发生革命性改变,从CPU为核心的传统计算,正在加速转变为以 GPU为核心的 AI 计算。新的AI计算范式需要更稠密的算力、更高效的网络、更大的集群规模。

这一切都需要充足的能源、全栈的技术、数百万计的GPU和CPU,协同网络、芯片、存储、数据库高效运作,并且24 小时处理全世界各地的需求。这需要超大规模的基础设施和全栈的技术积累,只有超级AI云才能够承载这样的海量需求。未来,全世界可能只会有5-6个超级云计算平台。

在这个新时代,AI将会替代能源的地位,成为最重要的商品,驱动千行百业每天的工作。绝大部分AI能力将以Token的形式在云计算网络上产生和输送。Token就是未来的电。在这个崭新的时代,阿里云的定位是全栈人工智能服务商,提供世界领先的智能能力和遍布全球的AI云计算网络,向全球各地提供开发者生态友好的AI服务。

首先,我们有全球领先的大模型——通义千问。通义千问开源了300多款模型,覆盖了全模态、全尺寸,是最受全球开发者欢迎的开源模型。截至目前,通义千问全球下载量超6亿次,衍生模型超17万个,是全球第一的开源模型矩阵,可以说是渗透计算设备最广泛的大模型。

同时,阿里云提供一站式模型服务平台百炼,支持模型定制化以及Agent快速开发,同时提供AgentBay这样的Agent运行环境、灵码/Qoder等一系列开发者套件,让开发者可以方便地使用模型能力和创建使用Agent。

其次,阿里云运营着中国第一、全球领先的AI基础设施和云计算网络,是全球少数能做到软硬件垂直整合的超级AI云计算平台之一。在硬件和网络层面,阿里云自研的核心存储系统、网络架构、计算芯片,构成了阿里云大型计算集群最坚实的底座。

阿里云正在全力打造一台全新的AI超级计算机,它同时拥有最领先的AI基础设施和最领先的模型,可以在基础架构设计和模型架构上协同创新,从而确保在阿里云上调用和训练大模型时,能达到最高效率,成为开发者最好用的AI云。

AI行业发展的速度远超我们的预期,行业对AI基础设施的需求也远超我们的预期。我们正在积极推进三年3800亿的AI基础设施建设计划,并将会持续追加更大的投入。从现在我们看到的AI行业远期发展以及客户需求角度来看,为了迎接ASI时代的到来,对比2022年这个GenAI的元年,2032年阿里云全球数据中心的能耗规模将提升10倍。这是我们的一个远期规划,我们相信通过这样的饱和式投入,能够推动AI行业的发展,迎接ASI时代的到来。

超级人工智能到来之后,人类和AI会是怎么样的协作关系?

未来的AI越来越强,甚至超越人类智能能力的ASI诞生,那我们人类和AI将如何相处?我们对未来充满乐观,超级人工智能到来之后,人类和AI是一个崭新的协同方式。程序员可能已经感受到了,我们可以下一个指令,通过Coding这样的工具,让它晚上12个小时就能够创造出一个我们需要的系统,从这里我们看到了未来人和AI怎么样去共同协同的一种早期的雏形。所以我们觉得,从Vibe Coding到Vibe Working。未来,每个家庭、工厂、公司,都会有众多的Agent和机器人24小时为我们服务。也许,未来每个人都需要使用100张GPU芯片为我们工作。

正如电曾经放大了人类物理力量的杠杆,ASI将指数级放大人类的智力杠杆。过去我们消耗10个小时的时间,获得10小时的结果。未来,AI可以让我们10小时的产出乘以十倍、百倍的杠杆。回顾历史,每次技术革命解锁更多生产力之后,都会创造出更多的新需求。人会变得比历史上任何时候都强大。

最后,我想强调,一切才刚刚开始。AI 将重构整个基础设施、软件和应用体系,成为真实世界的核心驱动力,掀起新一轮智能化革命。阿里巴巴将持续投入,与合作伙伴和客户一起,让AI 深入产业、共创未来。祝大家度过一个充实愉快的云栖大会,谢谢大家!

阶跃AI桌面伙伴 – 阶跃AI推出的桌面AI Agent

阶跃AI桌面伙伴是什么

阶跃AI桌面伙伴(小跃)是阶跃AI推出的常驻桌面右上角的智能助手,支持多任务并行处理,能同时执行多个任务且不干扰用户当前工作。工具能连接本地操作系统,查看和管理本地文件,支持访问互联网,完成复杂任务规划与执行。阶跃AI桌面伙伴支持“妙计”功能,用户能创建常用指令模板复用,支持设置定时任务,精准提醒。阶跃AI桌面伙伴能提升工作效率,会主动关心用户,提供个性化关怀提醒。

阶跃 AI 桌面伙伴

阶跃AI桌面伙伴的主要功能

  • 多任务并行处理:支持同时运行多个任务,后台操作不干扰用户当前工作,任务完成时提醒用户。
  • 本地与互联网交互:连接本地操作系统,能查看和管理本地文件,同时支持访问互联网,自主完成任务规划、信息搜集、分析处理和本地文件生成。
  • 定时任务与提醒:支持用户设置周期性任务,小跃精准提醒、按时执行,例如监测数据、提醒事项等。
  • 本地文件处理:支持搜索、创建、编辑本地文件,自动整理文档数据,如发票报销整理、表格比价等。
  • “妙计”功能:用户能创建、保存常用的指令模板,一键复用,提高工作效率。

如何使用阶跃AI桌面伙伴

  • 下载与安装:访问阶跃AI桌面伙伴下载地址 https://www.stepfun.com/download,选择系统版本(目前仅支持 Mac,Windows 版本开发中),下载并安装。
  • 启动与调用:安装完成后,小跃以悬浮窗形式常驻桌面右上角,点击悬浮窗即可唤醒使用。
  • 输入指令:在小跃的输入框中输入指令,输入“/”可调出“妙计”功能,选择或输入具体任务指令,小跃会根据指令执行相应操作。
  • 多任务处理:支持多任务并行,可在后台同时运行多个任务,任务完成后会弹出提醒,用户能在任务窗口查看进度,随时接管或打断任务。
  • 本地文件操作:通过输入相关指令,搜索、创建、编辑本地文件,例如整理发票、编辑文档等,高效处理本地文件数据。
  • 互联网交互:连接互联网,执行信息搜集、分析处理等任务,例如基于网络信息生成文档、分析数据等,实现线上线下协同操作。
  • 定时任务设置:输入“/设置提醒”或“/定时任务”,设置周期性任务,如每日监测电商爆款、提醒重要事项等,小跃按时执行、提醒用户。
  • 使用“妙计”功能:输入“/”调出“妙计”功能,选择或创建个性化指令模板,一键复用常用操作,提高工作效率,例如快速填写表单、生成报告等。

阶跃AI桌面伙伴的应用场景

  • 面试经验总结:输入指令让小跃基于网络上的面试经验笔记,快速生成面试经验和注意事项文档,帮助用户高效准备面试。
  • 电商爆款追踪:设置定时任务,让小跃每日监测电商平台爆款商品信息,生成看板,助力电商从业者把握市场动态。
  • 发票报销整理:自动将桌面上的发票文件按开票时间重命名、分类整理,简化财务报销流程。
  • 表格比价:输入指令让AI根据最新汇率计算商品价格,对比不同平台的价格差,生成比价表格,方便采购决策。
  • 表单填写:输入指令让AI将个人信息填入指定表单,告别繁琐的复制粘贴操作。

通义万相Wan2.5模型实测,可生成音画同步视频

2025云栖大会终于来啦!今年的主题是“云智一体•硅碳共生”,全球50多个国家的2000多位演讲嘉宾齐聚杭州,围绕Agentic AI与Physical AI等前沿话题展开对话,场面堪称一场科技春晚。

今天上午倍受关注的还是阿里最新的大模型——通义万相 Wan2.5-Preview 系列模型

Wan2.5-Preview 系列模型是多感官叙事,采用原生多模态架构,文本、图像、视频、音频处理能力全面提升,可以直接生成音画同步的视频。

这些技术升级,既是阿里在基础模型上的长期投入,也是其面向产业应用、推动大模型生态扩展的体现。

K姐也是第一时间获得了体验资格~接下来,咱们一起看看看看实测效果。

 

01. 音画同频的关键:跨模态对齐

 

Wan2.5 提供了图像生成与视频生成两大功能,并且支持由音频搭配prompt/图片生成视频

我们只需要在日常文/图生视频的提示词基础上,添加对人声、环境音效、背景音乐的描述,就可以得到音画同步的成品视频。

视频生成时长最长为10s,可以生成分辨率为1080p、24fps的高清视频。

官网:https://tongyi.aliyun.com/wan/

话不多说,先放几个实测案例让大家感受下:

case1 综艺录制

prompt:综艺节目录制现场,舞台布置成客厅风格,柔和的暖色灯光,两张沙发面对观众摆放,中间的茶几上放着饮品和零食。一位年轻男idol坐在沙发上,穿着时尚休闲装,手里拿着话筒,说道:“迷人的话我不会说,但迷人的我正在说话”。现场观众笑声爆发,镜头切到其他嘉宾,他们一边笑一边鼓掌。

这段5秒的镜头中,Wan2.5 对提示词的遵循度非常高,画面细节也处理得很不错,比如客厅风格、暖色灯光、茶几上的饮品和零食。

人物说话的表情、口型都非常自然,特别是运镜时,人物还主动往嘉宾方向靠,感觉下一秒就该把话筒递过去了…

case2 户外摄影

上传一张蜗牛的照片

prompt:暴雨天,雨水密集地拍打在草地上,发出“沙沙”的沉闷声,夹杂着水珠溅散的轻响,四周环境空旷而湿润。

密集的雨点打在蜗牛壳上,聚成大水珠流下。Wan2.5 对现实世界的理解还不错,根据图片的场景和提示词生成了匹配的环境音效,声音和画面的一致性也很不错。

case3 演唱会

我们上传一段歌曲的音频。

prompt:特写镜头,一位非常漂亮的女歌手站在演唱会舞台中央深情演唱。她穿着精致的礼服,长发披肩,在微风中轻轻飘动,映着舞台灯光更显动人。她双手紧握话筒,声音高亢饱满,情绪澎湃。

视频的光影和色彩都很不错,特别是发丝光,很灵动很真实。画面中人物的口型与音频也很贴合。

Wan2.5 的音画同步不是简单的让人物嘴巴动起来,还添加了很多细节,比如头微微晃动,脖子用力时紧绷的肌肉、呼吸时肩膀的收缩与起伏,这种细节让整个画面更有生命感,仿佛真的是现场实拍。

 

02. Wan2.5与Veo3对比

 

case1 美食视频

prompt:一个20岁左右的女大学生,在热闹的小吃街坐着,用筷子夹起一小块红烧肉,慢慢咀嚼,靠近镜头,轻声说道:“好吃”。声音甜美,语气轻快。背景音是小吃街人来人往嘈杂的声音。

Wan2.5 和Veo3生成的画面内容质量都挺好的,但是Veo3似乎遇到BUG了,整个视频都没有声音。

case2 电视的演变

prompt:锁定广角镜头,从正面拍摄同一客厅,电视位于画面的中央,始终居中构图。画面展示电视在几十年间发展演变,从 1950 年代的黑白电视机,到1970 年代的木质机柜,再到1990 年代的 CRT 显示器,再到2000 年代的平板电视,最后是2020 年代的智能 OLED 电视。家具、颜色和风格也随着时代变迁而变化,复古 70 年代,简约 90 年代,现代 2000 年代,未来 2020 年代。

镜头: 35mm 电影镜头,细节清晰。

音效: 视静电声、频道切换声、遥控器点击声与时代过渡同步。

混合级别: 各时代之间平滑过渡

Wan2.5 对提示词的遵循程度高很多,电视机始终在画面的正中心,也一直采用中心构图,主题更直观。

装修风格方面,Wan2.5 各年代之间的差别并不大,这点Veo3做得更好一些。

Wan2.5 和Veo3都展示了多个时代的电视机风格,也都添加了切换时的音效。

 

03. 一些分享

 

以前的视频生成,总是声音和画面对不上,还需要在不同平台添加人声、对口型、加背景音,现在微量的提示词即可生成一段音画同步的完整视频。

Wan2.5让创作直接“可视化”和“可听化”。做短视频、虚拟主播、甚至远程教学,不需要再依赖复杂的后期,AI 就能一键完成,大大降低了创作门槛。

Wan2.5 能同时对齐声音的节奏、语言的语义、画面的动作,这不仅仅是视频生成的进化,更是迈向多模态AI成熟应用的关键一步。

广告、教育、影视、游戏,过去都要靠人工配音和后期,费钱又费时。Wan2.5 把视频生成拉到生产级工具的水准,低成本高质量的虚拟内容或将全面爆发。

原文链接:2025云栖大会,阿里整了个大活!

Wan2.5 – 阿里通义推出的多模态生成模型系列

Wan2.5是什么

Wan2.5(通义万相2.5)是阿里推出的最新多模态生成模型,为通义万相 2.5 preview 版(Wan2.5-Preview),涵盖文生视频、图生视频文生图和图像编辑四大功能,首次实现音画同步的视频生成能力,支持高清1080P、24fps视频创作,能生成匹配画面的人声、音效和音乐。模型能生成中英文文字、复杂图表和艺术海报,支持一键图像编辑。,模型基于原生多模态架构,输入提示词或音频即可驱动创作,大幅降低创作门槛,广泛应用在广告、电商、影视等领域。模型现已上线通义万相阿里云百炼平台。

Wan2.5

Wan2.5的主要功能

  • 视频生成
    • 音画同步 :模型能生成与画面匹配的人声(包括多人)、音效、音乐BGM,支持多种语言,画面与声音严丝合缝。
    • 时长提升 :视频生成时长从5秒提升至10秒,能实现更完整的剧情故事。
    • 高清画质 :支持24帧每秒的1080P高清视频生成,满足电影级场景的创作需求。
    • 复杂指令理解 :在视频生成任务中能理解运镜等复杂连续变化指令控制。
  • 图像生成
    • 文字生成 :支持中英文、小语种、艺术字、长文本、复杂构图的精准渲染,支持生成海报、LOGO等。
    • 图表生成 :支持输出科学图表、流程图、数据图、架构图、文字内容表格等结构化图文。
  • 图像编辑
    • 丰富编辑任务 :支持换背景、改颜色、加元素、调风格等丰富编辑任务。
    • 指令精准理解 :输入一句话即可完成P图,指令理解精准,无需专业PS技能。
    • 一致性保持 :支持单图/多图参考垫图,人脸、商品、风格等视觉元素ID强保持。

如何使用Wan2.5

  • 访问官网:访问通义万相官网,完成账号注册和登录。
  • 选择功能模块:登录后,进入首页,选择需要的功能模块,如“视频生成”“图像生成”“图像编辑”等。
  • 输入指令或上传素材:根据所选功能模块的要求,输入相关指令(如文本描述)或上传素材(如图片、音频等)。
  • 生成内容:点击“生成”按钮,等待系统处理。生成完成后,平台显示生成结果,支持查看、下载或分享生成的视频、图片等内容。

Wan2.5的应用场景

  • 广告制作:广告公司快速生成与广告主题相关的创意视频和图像,大大提升广告内容的制作效率和多样性,降低制作成本。
  • 电商内容创作:电商平台和商家生成商品展示视频和海报,提升商品的吸引力和用户的购买意愿。
  • 影视制作:影视制作团队生成初步的视频脚本、场景设计和特效预览,帮助导演和编剧快速验证创意,降低制作风险。
  • 教育内容创作:教育机构和教师生成教学视频、科学图表和流程图,提升教学内容的生动性和易理解性。

Qwen3-LiveTranslate – 阿里通义推出的全模态同传大模型

Qwen3-LiveTranslate是什么

Qwen3-LiveTranslate 是阿里通义团队推出的基于大语言模型的多语言实时音视频同传模型。模型支持 18 种语言及多种方言的翻译,具备视觉增强技术,可结合口型、动作等多模态信息提升翻译准确性。模型低延迟(最低 3 秒)和无损同传技术,确保翻译质量接近离线翻译,且配备自然音色。模型在复杂声学环境下表现优异,跨越语言鸿沟,让交流更顺畅自然。

Qwen3-LiveTranslate

Qwen3-LiveTranslate的主要功能

  • 多语言实时翻译:支持 18 种语言(如中、英、法、德、日、韩等)及多种方言(如普通话、粤语、四川话等)的离线和实时音视频翻译。
  • 视觉增强翻译:结合视觉上下文(如口型、动作、文字等),提升在嘈杂环境和一词多义场景下的翻译准确性。
  • 低延迟同传:基于轻量混合专家架构与动态采样策略,实现最低 3 秒延迟的同传体验。
  • 无损翻译质量:通过语义单元预测技术缓解跨语言调序问题,翻译质量接近离线翻译。
  • 自然音色输出:根据原始语音内容自适应调节语气和表现力,生成拟人化的音色。

Qwen3-LiveTranslate的技术原理

  • 多模态数据融合:结合语音、视觉等多模态数据,增强模型对上下文的理解能力。
  • 语义单元预测:通过分析语言的语义结构,预测跨语言翻译中的调序问题,确保翻译的准确性和流畅性。
  • 轻量混合专家架构:基于轻量级的混合专家系统,结合动态采样策略,优化计算资源分配,降低延迟。
  • 海量音视频数据训练:基于海量多语言音视频数据进行训练,提升模型对不同语言和方言的适应能力。
  • 视觉增强技术:用计算机视觉技术识别口型、动作等视觉信息,辅助语音翻译,提升翻译的准确性和鲁棒性。

Qwen3-LiveTranslate的项目地址

  • 项目官网:https://qwen.ai/blog?id=b2de6ae8555599bf3b87eec55a285cdf496b78e4&from=research.latest-advancements-list
  • 在线体验Demo:https://huggingface.co/spaces/Qwen/Qwen3-Livetranslate-Demo

Qwen3-LiveTranslate的应用场景

  • 国际会议:为国际会议提供实时多语言翻译,确保不同语言背景的参会者即时理解会议内容,提升交流效率。
  • 远程教育:在远程教育场景中,将教师的讲解实时翻译成学生母语,打破语言障碍,让全球学生都能无障碍学习。
  • 跨国商务沟通:通过低延迟的实时翻译功能,帮助跨国企业进行商务谈判、电话会议等,确保沟通顺畅,避免因语言问题导致的误解。
  • 旅游出行:游客在异国他乡可以通过语音翻译与当地人无障碍交流,轻松解决语言难题。
  • 媒体直播:在国际新闻、体育赛事等直播场景中,实时将主播的语音翻译成多种语言,让全球观众同步收看,提升媒体的国际影响力。

Qwen3-VL – 阿里通义推出的最强视觉语言模型

Qwen3-VL是什么

Qwen3-VL 是阿里通义推出的 Qwen 系列中最强大的视觉语言模型,具备卓越的多模态能力。模型能理解纯文本、图像和视频,支持长上下文、空间感知、代码生成等功能。Qwen3-VL-235B-A22B是该系列的旗舰模型,包含 Instruct 与 Thinking 两个版本, Instruct 版本在视觉感知任务中表现优异, Thinking 版本在多模态推理中达到领先水平。Qwen3-VL 能像人类一样操作界面、进行复杂推理、生成创意文案,将设计图转化为代码。模型支持多语言 OCR 和长视频理解,广泛应用在教育、开发、自动化等领域,是当前多模态模型中的佼佼者。

Qwen3-VL

Qwen3-VL的主要功能

  • 视觉交互与任务执行:Qwen3-VL 能操作电脑和手机界面,识别图形用户界面(GUI)元素,理解按钮功能,调用工具并执行任务。在 OS World 等基准测试中表现卓越,通过工具调用显著提升细粒度感知任务的表现。
  • 强大的纯文本处理能力:从预训练初期开始, 融合文本与视觉模态的协同训练,持续强化文本处理能力。纯文本任务表现与 Qwen3-235B-A22B-2507 纯文本旗舰模型相当。
  • 视觉编程能力:支持根据图像或视频生成代码。
  • 空间感知与推理:2D 定位从绝对坐标升级为相对坐标,支持判断物体方位、视角变化和遮挡关系,能实现 3D 定位。
  • 长上下文与长视频理解:全系列模型原生支持 256K token 的上下文长度,可扩展至 100 万 token。模型能完整输入、全程记忆、精准检索,支持视频精确定位到秒级别。
  • 多模态推理与思考:Thinking 模型重点优化 STEM 和数学推理能力。面对专业学科问题,模型能捕捉细节、分析因果,给出有逻辑、有依据的答案。
  • 全面升级的视觉感知与识别:Qwen3-VL 能识别更丰富的对象类别,从名人、动漫角色、商品、地标到动植物等,满足日常生活和专业领域的“万物识别”需求。
  • 多语言 OCR 与复杂场景识别:OCR 支持的语言种类从 10 种扩展到 32 种,覆盖更多国家和地区。在复杂光线、模糊、倾斜等实拍场景下表现稳定,对生僻字、古籍字、专业术语的识别准确率显著提升,超长文档理解和精细结构还原能力进一步增强。

Qwen3-VL的技术原理

  • 多模态融合结合视觉(图像、视频)和语言(文本)模态,通过混合模态预训练,实现视觉和语言的深度融合。
  • 架构设计基于原生动态分辨率设计,结合 MRoPE-Interleave 技术,交错分布时间、高度和宽度信息,提升对长视频的理解能力。引入 DeepStack 技术,融合 ViT 多层次特征,提升视觉细节捕捉能力和图文对齐精度。
  • 视觉特征 token 化将 ViT 不同层的视觉特征进行 token 化,保留从底层到高层的丰富视觉信息,提升视觉理解能力。
  • 时间戳对齐机制基于“时间戳-视频帧”交错输入形式,实现帧级别的时间信息与视觉内容的细粒度对齐,提升视频语义感知和时间定位精度。

Qwen3-VL的项目地址

  • 项目官网:https://qwen.ai/blog?id=99f0335c4ad9ff6153e517418d48535ab6d8afef&from=research.latest-advancements-list
  • GitHub仓库:https://github.com/QwenLM/Qwen3-VL
  • HuggingFace模型库:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
  • 官网体验Qwen Chat

Qwen3-VL的应用场景

  • 自动化办公与任务执行:模型操作电脑和手机界面,自动完成如打开应用、填写表单等任务,提高办公效率。
  • 视觉编程辅助:根据设计图生成网页代码,帮助开发者快速实现前端开发,提升开发效率。
  • 教育与学习辅导:在 STEM 学科问题解答上表现出色,能为学生提供详细的解题思路和答案,辅助学习。
  • 创意内容生成:根据图像或视频内容生成文案、故事等,为创作者提供灵感和素材,助力创意写作。
  • 复杂文档处理:模型能解析长文档和多页文件,提取关键信息,方便用户快速获取所需内容。