Category: AI专栏

AI工具集收录最新 AI 行业创始人访谈与行业趋势分析报告。洞察 AI 应用和技术走向,如创新AI应用、大模型训练、多模态融合发展,以及在医疗、金融等多个垂直领域的实践探索,帮你深入了解 AI 行业的前行脉络与未来机遇,助力把握科技浪潮。

  • 吴恩达最新演讲解读:AI时代如何快速构建产品与创业?

    “执行速度是衡量创业公司成功几率的一个重要指标。”——吴恩达

    最近,AI Fund创始人吴恩达在AI Startup School的演讲——“AI创业如何快人一步?”在海外引发热烈反响。

    这次演讲他带着实打实的经验,拆解了一个核心问题:在AI技术狂飙的时代,如何快速构建产品与创业?

    接下来K姐就带大家解读一下这场演讲的内容~

     

    01. 聚焦应用层:最大的机会所在

     

    吴恩达一上来就戳破了一个真相:媒体总爱炒技术概念,但真正能让创业者落地、赚钱的,恰恰是那些能帮用户解决具体问题的应用。

    他把AI技术栈比作金字塔:底层是芯片和云服务,中间是大模型,最顶层是直接解决用户需求的应用。

    “没有应用层赚大钱,谁来给底层技术买单?”

    他操盘的AI Fund,每月孵化1家应用层公司——这就是明牌:找一个垂直场景的具体问题,用AI做“赋能工具”,是普通人入场的最优解。

    这一点我太有共鸣了。身边太多团队死磕“做个更好的大模型”,但普通人真正需要的,可能只是“用AI自动翻译资料”、“帮小老板优化文案”这样的具体工具。

    离用户越近,机会越实在。

    同时,他也给出一些处理具体想法的小贴士:

    1. 具体的想法能给出清晰的方向,且可快速执行、验证或证伪。
    2. 好的具体想法往往源自某个领域的专家对一个问题长期的思考。他们的直觉对做决策很有帮助。
    3. 如果数据让你对一个具体想法失去信心,快速转向新方向也无妨。

     

    02. 产品管理成为新瓶颈

     

    最颠覆我认知的是这段:“AI让工程师效率飙升后,产品经理不够用了。”

    以前1个产品经理带6个工程师,现在有团队提出“1个产品经理带0.5个工程师”——因为工程师跑得太快,“该做什么功能”的决策反而成了瓶颈。

    而他的建议也很实在:要么让产品经理学代码,要么让工程师懂产品。

    懂代码的PM或有产品思维的工程师,能更好地衔接开发与需求,提升效率。

    看来,AI时代的团队配比,真的要重构了

    除此之外,为了应对这一挑战,吴恩达强调了建立快速反馈机制的重要性,并分享了他个人常用的一系列策略。

     

    03. 培养产品直觉的方法

     

    一、最快路径:用“专家体感”直接穿透需求

    以用户视角,用领域经验破局纠结!比如我要做内容工具时,剪辑到凌晨的卡顿、字幕错漏的抓狂,就是最真实的需求信号。

    二、次快打法:3-5个“靠谱反馈者”精准校准

    自己体感不够?拉几个懂行的人当“人肉测试器”。这招的关键是选对人:拒绝“好好先生”,优先找“有领域体感、敢说真话”的人,用他们的反馈补全认知盲区。

    三、街头实战:3-10个陌生人的“野生反馈”

    这点可是吴恩达强推的大招:去咖啡馆、酒店大堂拉路人体验。

    也是,我们平时在这些地方大都想着摸鱼,这样得到的反馈特真实,分分钟将我们从自嗨里拽出来!

    四、规模验证:100+ 用户的“批量反馈池”

    想更稳?把原型推给100个以上目标用户,用规模反馈筛需求。

    牢记!在这一步中我们要注意的是听共性问题

    五、最慢但最准:用A/B测试“解剖用户心理”

    用A/B测试校准直觉,但不止于选A或B。我们需要深挖数据背后的心理逻辑,借数据更新模型,提升凭直觉做高质量决策的能力与速度。

     

    04. 一些分享

     

    听完吴恩达的演讲,我悟到了AI创业的本质是比谁更“懂人”。吴恩达把“产品直觉”拆成可练习步骤,是在教会我们,用人类“温度”驾驭AI“速度”。

    当大家焦虑AI会不会取代创业者时,他点明:领域经验、需求捕捉力、试错勇气,才是AI创业护城河。

    尤其是他说“具体想法要快验证、专家直觉要善用、数据反馈要校准”,完全戳中AI创业的痛点。

    这场演讲不仅是方法论的分享,更是给普通人的强心针:AI 时代,肯深耕、敢试错、善捕捉,“做出让人尖叫的产品”这件事,永远有机会

    原文链接:吴恩达最新演讲解读:AI时代如何快速构建产品与创业?

  • 阿里云《中国人工智能应用发展报告(2025)》(PDF文件)

    《中国人工智能应用发展报告(2025)》全面总结中国人工智能技术的发展现状、技术创新趋势、应用落地场景以及产业智能化进程。报告提出人工智能的“654”体系,包括六大技术创新趋势(强化学习、多模态融合、云边端协同、AI Agent、具身智能、基础设施精进)、五新应用落地场景(智能增效、智享服务、智创产品、智优决策、智能助研)和产业智能化四力分析模型(技术创新力、资金吸引力、市场渗透力、业务价值力)。报告对未来发展提出人才教育、技术创新、政策监管、财税金融和产业生态方面的展望与建议。

    《中国人工智能应用发展报告(2025)》

    获取阿里云《中国人工智能应用发展报告(2025)》PDF原文件,扫码关注回复: 20250718

    人工智能:新质生产力的强劲引擎

    • 人工智能作为通用目的技术,正开启全新的智能时代
      • 人工智能展现出跨领域泛化能力、基于基础模型的能力可塑性、慢思考推理过程以及人机交互革命等特性,推动技术经济范式系统性跃迁,成为新质生产力的关键支撑。
    • 人工智能正加速“技术创新 – 产业转化 – 行业应用”的迭代过程
      • 人工智能技术已跨越第一个拐点,进入高速成长期,呈现出技术创新、产业转化和行业应用的加速迭代特征,推动了人工智能生态的快速扩展。
    • 政策和市场双向驱动,人工智能助力新质生产力发展
      • 中国政府高度重视人工智能发展,出台多项政策支持人工智能技术创新和产业应用,各省市也结合自身产业特色制定相关政策,推动人工智能与实体经济深度融合。

    《中国人工智能应用发展报告(2025)》

    人工智能技术创新六大趋势

    • 强化学习驱动认知深化,模型推理能力持续提升
      • 预训练阶段的规模定律逐渐向后训练及推理阶段延伸,强化学习等技术推动模型从被动应答转向主动求解,提升解决复杂问题的能力。
    • 多模态融合加快推进,拓展智能交互边界
      • 多模态大模型能够整合多种信息源,提供更全面的知识表示,未来将进一步提升通用性与泛化能力,使交互方式更加智能自然。
    • 云边端深度协同,推动智能应用纵深发展
      • 大模型应用向端侧普及,通过模型压缩技术解决端侧硬件能力限制,云、边、端三者的融合将成为趋势,提升智能应用的实时响应和隐私保护能力。
    • AI Agent迅速发展,以目标驱动替代指令响应
      • 基于大模型的智能体(Agent)能够自主分解任务、调用工具并执行复杂任务,未来将提升基于不确定目标的推演能力和多Agent协作能力。
    • 具身智能迈向深度情境理解与自主交互
      • 具身智能将AI融入物理实体,赋予其自主感知、学习与交互能力,未来将在深度情境理解、运动控制等领域取得更大进展。
    • AI基础设施持续精进,构筑高效能AI发展底座
      • 面对飞速增长的算力需求,计算、存储、网络需协同发展,同时通过工程优化充分释放现有硬件设备的计算能力,为AI发展提供坚实底座。

    《中国人工智能应用发展报告(2025)》

    人工智能应用落地“五新”场景

    • 智能增效:催生效率提升新工具
      • AI智能助手和自动化工具推动企业办公及开发方式革新,提升工作效能
        • AI能够智能识别、理解并处理复杂的办公场景,从文档撰写、会议纪要到数据分析,均可实现自动化处理,提升工作效率。
      • AI内容生成多样化拓展创作边界,提升产品设计及创意型行业的创作效率
        • 大模型能生成富有创造性、风格多样的内容,拓展内容创作的边界,提升了创意型行业的创作效率。
      • 通过AI优化企业生产流程与业务环节,有效提升生产经营效率
        • AI广泛应用于经营流程中,从单点的生产效率提升到全链路的业务流程重塑,大幅提升生产经营效率。
    • 智享服务:开启用户体验新旅程
      • 智能客服助力客户服务质量升级,有效提升用户满意度
        • 大模型在客服领域大幅提升服务范围和质量精准度,提供更为贴切的解决方案,提升用户满意度。
      • 基于智能算法的精准推荐,增强用户粘性并提升活跃度
        • 大模型通过对用户行为和偏好的深度学习,实现更精准的个性化推荐,提高用户使用体验和平台粘性。
      • 综合多维信息数据,提供更精准的个性化方案
        • 大模型能实现产品服务的定制化,为用户打造独特的专属体验,提升用户满意度。
    • 智创产品:引领产业发展新业态
      • 生成式能力创新产品形态,催生AI原生应用软件产品发展
        • 大模型直接推动生成式内容软件产品出现,如AI绘画工具、AI写作平台等,为创意产业带来了新的创作方式和产品形态。
      • 大模型叠加硬件实现产品升级,AI终端和硬件实现智能交互
        • 大模型技术和硬件功能的集成创新,助力产品形态的变革和发展,如AI耳机、AR眼镜等,提升产品的交互体验。
      • AI创新产业发展业态和模式,推动智能辅助驾驶、具身智能等未来产业发展
        • 智能辅助驾驶、具身智能等未来产业与AI紧密相连,推动了产业的发展和创新。
    • 智优决策:打造决策优化新助手
      • 通过精准数据分析优化业务决策,数据驱动显著增强企业竞争力
        • 大模型深入挖掘海量数据中的价值信息,提供更准确的趋势预测和行为分析,帮助企业制定更精准的决策。
      • 多领域专业知识融合,助力产线优化排程策略
        • 大模型利用海量数据的分析和预测能力,显著助力智能排程和精准生产,提升生产效率和产品质量。
      • 数智驱动供应链全链路,实现多环节协同优化
        • 大模型能实时整合和分析供应链各环节的信息,优化供应链管理,提升供应链效率。
    • 智能助研:开拓科技研发新模式
      • 通过海量数据处理与挖掘模式创新,助力科研新发现
        • AI技术大幅提升海量多模态数据的挖掘与理解能力,帮助科研人员实现更快速和准确的决策。
      • 利用高精度模拟与智能化预测,为决策提供科学依据
        • 大模型技术显著提升研发过程中的模拟精度与智能化预测能力,加速创新过程,减少实验成本。
      • 智能技术助力实验设计与优化,显著提升研发效率
      • 大模型能预测实验结果、识别最佳实验条件,并提供优化建议,提高科研效率。

    《中国人工智能应用发展报告(2025)》

    产业智能化“四力”观察

    • 技术创新力:AI技术深度融入各行各业,推动应用创新与产业升级
      • AI技术在各行业的渗透不断加深,专利数量显著增长,行业微调、Prompt工程实践等成为主流应用方式,推动了应用创新与产业升级。
    • 资金吸引力:算法模型层投资保持稳定,逐步向行业应用层为主导推进
      • 2024年AI领域投资逆势上扬,投资重点逐渐向行业应用层转移,智能汽车、机器人、医疗健康等领域受到重点关注。
    • 市场渗透力:数字原生、创意导向及技术强耦合型行业成为AI应用的先行者
      • 不同行业的AI应用呈现出结构性和阶段化特征,数字原生型、创意导向型和技术强耦合型行业对AI的适配度更高,应用更成熟。
    • 业务价值力:AI应用效果达到市场预期,复杂任务处理能力仍待提升
      • 当前AI应用在降本增效、经营创新和服务体验优化等方面展现出业务价值,但对于复杂任务处理和高精度要求的领域仍存在瓶颈。

    《中国人工智能应用发展报告(2025)》

    展望与建议

    • 人才教育:构建全周期培养体系,夯实创新人才根基
      • 推动教育体系从“知识传授”向“能力 – 素养”双维培育转型,构建贯穿基础教育到职业发展的全周期人才培养体系,加强“产学研用”协同机制。
    • 技术创新:强化AI基础设施,激活开源创新
      • 构建自主可控、高效协同的AI基础设施体系,鼓励开源开放策略,激发创新动力,培育多元化技术创新主体。
    • 政策监管:完善治理框架,筑牢安全底线
      • 探索“软性引导 + 硬性规范”的治理路径,建立分层治理体系,完善数据安全与隐私保护制度,积极参与人工智能全球治理。
    • 财税金融:创新多元化投入机制,优化资本配置
      • 构建“政府引导、资本协同”的多元化资金支持体系,设立专项基金,提供税收优惠和补贴,创新金融产品和服务模式。
    • 产业生态:深化协同创新,培育开放生态
      • 以产业链协同创新为抓手,打造核心技术自主可控、应用场景全球领先、生态体系开放繁荣的产业生态格局,促进技术创新与市场需求的有效对接。

    获取阿里云《中国人工智能应用发展报告(2025)》PDF原文件,扫码关注回复: 20250718

  • PPIO发布《2025年上半年国产大模型调用量十大趋势》(PDF文件)

    《2025年上半年国产大模型调用量十大趋势》总结2025年上半年国产大模型调用量的十大趋势。报告指出,DeepSeek和Qwen成为国内最受欢迎的两大开源模型,非推理模型的使用量逐渐超过推理模型。在图片和视频生成领域,用户偏好各有不同,文生图模型和图生视频模型的调用量占比差异显著。Stable Diffusion XL和阿里万相分别成为最受欢迎的图片和视频生成模型基础架构。报告提到,出海需求高涨,约20%的AI应用场景面向海外,智能体应用也在快速爆发。根据 PPIO 平台的大模型 tokens 调用量,总结了 2025 上半年国内大模型十大趋势。

    2025年上半年国产大模型调用量十大趋势

    获取PPIO《2025年上半年国产大模型调用量十大趋势》PDF原文件,扫码关注回复: 20250717

    趋势一

    DeepSeek 与 Qwen 分别占据半壁江山,是国内最受欢迎的两大开源模型

    DeepSeek与Qwen是国内最受欢迎的两大开源模型,DeepSeek曾占据PPIO平台99%的使用占比,但随着更多模型出现,Qwen从2025年第二季度开始使用量高速增长,与DeepSeek形成双强局面。

    2025年上半年国产大模型调用量十大趋势

    趋势二

    尽管DeepSeek R1为代表的推理模型引领了强化学习的技术范式,但DeepSeek V3这一类非推理模型却更受欢迎

    尽管DeepSeek R1等推理模型引领技术范式,但DeepSeek V3这类非推理模型因适用场景广泛、使用门槛低,从2025年3月开始使用量反超推理模型,长期占比超60%。

    2025年上半年国产大模型调用量十大趋势

    趋势三

    DeepSeek的数学模型、蒸馏模型的用户使用量较小,更大的意义在于推动行业研究

    DeepSeek的数学模型Prover V2和蒸馏模型使用量较小,仅占DeepSeek系列的1%,但对推动AI行业基础研究意义重大。

    2025年上半年国产大模型调用量十大趋势

    趋势四

    免费的Qwen 2.5调用量远高于性能更强的Qwen 3,说明相比模型性能,价格依然是用户选型最关心的因素之一

    在PPIO平台,免费的Qwen 2.5调用量远高于性能更强的Qwen 3,其tokens消耗量占Qwen系列整体的90%以上,说明价格是用户选型的重要因素之一。

    2025年上半年国产大模型调用量十大趋势

    趋势五

    在图片生成模型中,文生图与图生图的调用量占比约为9:1

    在图片生成模型中,文生图模型因创作门槛低、生成图像质量高,使用占比从1月份的70%增长到6月份的90%,远高于图生图模型。

    2025年上半年国产大模型调用量十大趋势

    趋势六

    在视频生成模型中,文生视频与图生视频的调用量约为1:9

    在视频生成模型中,用户更青睐图生视频模型,其使用占比从1月份的20%左右增长到6月份的90%以上,因图生视频可控性高、稳定性好,符合创作者习惯。

    2025年上半年国产大模型调用量十大趋势

    趋势七

    Stable Diffusion XL逐渐替代Stable Diffusion 1.5,成为最受欢迎的图片生成模型基础架构

    Stable Diffusion XL因参数量大、生成效果优、社区支持强,从3月下旬开始使用量迅速增长,逐渐替代Stable Diffusion 1.5,成为最受欢迎的图片生成模型基础架构。

    2025年上半年国产大模型调用量十大趋势

    趋势八

    阿里万相是国内最受欢迎的开源视频模型

    阿里万相自2025年3月上线后,使用量高速增长,到6月份占PPIO平台80%以上,成为最受欢迎的国产视频开源模型,而MiniMax-Hailuo-02视频模型上线首周也获得1.5%的使用量。

    2025年上半年国产大模型调用量十大趋势

    趋势九

    出海需求高涨,约20%用户的AI应用场景面向海外

    全球AI市场潜力大,海外用户对AIGC产品付费意愿强,PPIO平台约20%的AI应用场景面向海外,国内AI团队和开发者积极出海。

    2025年上半年国产大模型调用量十大趋势

    趋势十

    2025,智能体大爆发

    2025年上半年,智能体应用如Manus、Flowith等快速爆发,大模型已渗透到各行各业,PPIO平台也将发布Agent Sandbox产品助力智能体发展。

    2025年上半年国产大模型调用量十大趋势

    获取PPIO《2025年上半年国产大模型调用量十大趋势》PDF原文件,扫码关注回复: 20250717

  • 深度访谈 Ryan Greenblatt : AI 接管世界的四种最可能方式

    Ryan Greenblatt 是《Alignment faking in LLMs》一书的主要作者,也是 AI 领域最高效的研究人员之一。

    来源链接:https://80000hours.org/podcast/episodes/ryan-greenblatt-ai-automation-sabotage-takeover/

    目录

    • 1 开场白 [00:00:00]
    • 2 Ryan Greenblatt是谁? [00:01:10]
    • 3 我们距离自动化AI研发还有多远? [00:01:27]
    • 4 当今模型的真实能力如何? [00:05:08]
    • 5 为何AI公司会比其他行业更早实现自动化 [00:12:35]
    • 6 AGI接管世界的最可能方式 [00:17:37]
    • 7 AGI会早期反叛还是韬光养晦? [00:29:19]
    • 8 “在人类水平暂停”策略 [00:34:02]
    • 9 AI对AI对齐的控制 [00:45:38]
    • 10 我们只能指望当场抓住AI的恶行吗? [00:51:23]
    • 11 缓慢的AGI崛起会是什么样子? [00:55:33]
    • 12 为何智力爆炸可能8年内不会发生? [01:03:32]
    • 13 AI进展预测的关键挑战 [01:15:07]
    • 14 对AGI的悲观看法 [01:23:01]
    • 15 “推理阶段计算”的转变 [01:28:46]
    • 16 预训练的效果衰减了多少? [01:34:22]
    • 17 一年内可能发生智力爆炸吗? [01:46:36]
    • 18 AI难以取代人类的原因 [01:50:33]
    • 19 当AI研发自动化后,事情可能疯狂加速。也可能不会。 [01:57:25]
    • 20 智力爆炸的减速会有多快? [02:11:48]
    • 21 对普通人的底线建议 [02:24:33]
    • 22 六个数量级的进步…这到底意味着什么? [02:30:34]
    • 23 被忽视但重要的技术工作 [02:40:32]
    • 24 治理方面最有前景的工作是什么? [02:44:32]
    • 25 Ryan当前的研究重点 [02:47:48]

    开场白 [00:00:00]

    Ryan Greenblatt: 最可信的剧本是“人类给AI提供一切所需”。AI们保持低调,确保掌控局势。也许它们在暗中操控,破坏对齐实验,篡改对齐结果,迷惑我们。

    但它们不会采取激进行动,只是静观其变。它们会做很多好事:治愈所有疾病,推动工业发展。人们会说:“AI发展得这么好,我们没有错位对齐问题,真是太棒了。”人类可能被无限期地蒙在鼓里,就像整个过程中都生活在精心构建的假象中。

    另一个剧本我称之为“机器人突然政变”——这也不需要超人的能力。我们建造庞大的自主机器人,欢呼着“我们要建机器人与X国竞争”,X国也说“我们要建机器人与Y国竞争”。然后突然之间,机器人发动硬实力接管。

    我认为安全社区犯的一个错误是过于关注乐观情景。实际上,关注那些绝望、疯狂、悲观的情景才是合理的,因为大部分风险都存在于那里。

    Ryan Greenblatt是谁? [00:01:10]

    Rob Wiblin: 今天我很荣幸能与Ryan Greenblatt对话。Ryan是Redwood Research的首席科学家,也是论文《大型语言模型中的对齐伪装》的主要作者——这篇论文被描述为可能是关于人工智能失控的最重要实证研究。Ryan,感谢你参加节目。

    Ryan Greenblatt: 很高兴来到这里。

    我们距离自动化AI研发还有多远? [00:01:27]

    Rob Wiblin: 让我们从讨论近期(比如未来4年内)发生基于软件的智力爆炸的最佳论据开始。你认为未来4年左右我们能够在多大程度上实现AI研发自动化,或者大致自动化今天的整个AI公司?

    Ryan Greenblatt: 我认为这种能力存在的概率(不一定会被使用或完全部署)大约是25%,如果延长到8年可能是50%。

    Rob Wiblin: 很多人听到这会想,这是纯粹的猜测吗?我们如何形成现实或 grounded 的预期?

    我想知道有哪些关键证据支持你做出这样的预测或预测。是什么关键证据让你认为这完全有可能?

    Ryan Greenblatt: 首先,一个好的起点是看当前AI的能力水平。我们感觉有多接近?人们对我们在客观意义上有多接近有着截然不同的直觉。

    我认为目前的情况是:AI在数学上越来越好;它们正在数学领域逐步达到人类水平。它们能够完成大约一个半小时的孤立软件工程任务——我指的是人类需要大约一个半小时完成的任务。它们在各种技能上都在进步。

    所以我们处于一个客观上令人印象深刻的阶段——重要的是,比两年前、当然也比四年前要令人印象深刻得多。

    对未来四年情况的naive起点是:四年前我们在哪里?现在在哪里?试着从这里到那里进行定性推断。这有点草率。比如两年前我可能会说我们有GPT-3,现在有GPT-4:看看这个差距,然后粗略地向前推断。

    我认为现在我们可以做得更好,因为我们不仅有GPT-3;我们有GPT-3.5、GPT-4,以及之后两年GPT-4的进展。在这段时间里,AI从几乎不能完成代理任务,到现在能够相当成功地完成这些任务,能够从错误中恢复。

    在这期间,GPT-4可能完成一些需要人类5到10分钟的代理任务;它能理解如何使用工具。我认为GPT-3.5基本上无法理解代理框架中的工具;GPT-4可以理解。然后,在这段时间里,我们从“能理解工具,有时能完成任务”发展到“能50%的时间完成一个人类软件工程师需要一个半小时的任务”。

    有一种趋势线显示我们在这个领域进步的速度有多快。至少在2024年,进展相当快,从几乎一无所有到一个半小时,倍增时间大约是——我从METR那里偷了很多内容,也许Beth会有一个播客涵盖很多相同的内容——但我们看到的倍增时间足够快,预计不到两年内AI就能完成8小时或16小时的任务,这是相当快的进展。

    然后从那里,如果它们能完成一周的任务,我认为你可能已经很接近自动化研究工程师的工作了,再加上一些额外工作。

    当今模型的真实能力如何? [00:05:08]

    Rob Wiblin: 好的,所以你会说它们在现在能做的事情上客观上相当令人印象深刻。有些人对此持更怀疑的态度。有什么可以更清楚地说明它们能做什么和不能做什么的吗?也许回答那些会说“有时我使用这些工具,它们看起来很蠢,或者似乎不能做我期望它们能做的事情,或者它们产生大量推理但我发现错误”的人?

    Ryan Greenblatt: 所以我的定性、感觉模型是:AI相当愚蠢,它们过去更愚蠢,它们正在快速变得更聪明,而且它们知识非常丰富。

    我认为很多人接触的是这些系统有一些聪明之处:它们能很好地理解一些相当普遍的情况,特别是有了推理模型后,它们相当擅长思考一些问题。除此之外,它们知识非常丰富,这意味着人们对它们的整体通用性和适应性有一种误导性的印象。

    这是很多人反应的原因。有一种过度乐观的观点,我称之为Leopold [Aschenbrenner]的图表,他说这是博士水平的智力,或者人们说这是博士水平的智力——然后有些人回应说“博士水平的智力?得了吧,它连井字棋都不会玩。”也许有了推理模型后这不再正确,但方向上是这样,你知道,它不能玩井字棋;它不能应对相对新颖的情况。它会被这些东西绊倒。

    现在,我认为我们必须对它在这些情况下的绊倒打一些折扣,因为我认为其中很多可能更多地被描述为认知偏差而不是缺乏聪明。就像人类会系统地犯一些错误,即使他们相当愚蠢,或者在某种意义上他们犯相当愚蠢的错误。

    比如合取谬误。如果你问“某人是一名图书馆员的概率是多少?他们是一名图书馆员并且具有图书馆员某些属性的概率是多少?”[人类会说]两者合取的概率更高,尽管这实际上概率应该更低。

    我认为AI系统有类似这样的偏差,这些偏差是由它们被创建的环境或训练数据塑造的。

    举个例子,如果你给AI一个谜语。比如“有一个人、一条船和一只山羊。船可以载人和另一件物品。他们需要多少次才能过河?”答案是一次:他们可以直接过河。但有一个类似的谜语涉及一个人、一只山羊和类似卷心菜的东西——你知道,有一些巧妙的方法——AI对这种方法的条件反射如此强烈,以至于它们可能立即脱口而出一个答案。它们对这个答案有一种强烈的启发式倾向,但这可能更多是它们感到被推向那个答案。但如果你让它们意识到“哦,这是一个陷阱问题”,它们就会从那里转变。

    事实上,你也可以用同样的陷阱问题难住人类,对吧?所以如果你问人类“一磅砖和一磅羽毛哪个更重?”他们会说砖头,然后被难住。语言模型的问题正好相反,如果你问它们“两磅砖和一磅羽毛哪个更重?”它们会说“一样重!一样重!”

    所以我担心很多人做的很多技巧类似于你可以对人类执行的技巧,很难知道从中得出多少结论。

    Rob Wiblin: 是的。评估它们能力的一个普遍挑战是,我认为[Nathan Labenz用了这个表达]它们是“人类水平但不类人”——所以在某些情况下,它们总体上可能与人类员工能力相当,但它们有非常不同的优势和劣势;它们可能以对我们来说完全莫名其妙的方式被难住。

    但你可以想象一个AI社会看着人类说“它们怎么不能在脑子里乘两个三位数?这看起来太疯狂了。这些显然不是通用智能。它们对上周读的这本书几乎没有记忆。这毫无意义。一个智能体怎么会那样行动?”这使得在人类与AI之间进行比较的共同基础有点难以建立。

    关于你如何评估它们现在处于什么水平,还有更多要说的吗?

    Ryan Greenblatt: 是的,我认为我不会用“人类水平”这个词。也许这是我有点保守或迂腐,但我喜欢保留“人类水平”这个词来表示“可以自动化大部分认知工作”。

    所以也许我们开始进入“类人水平”的AI阶段,一旦它真的能完全自动化大量人类工作,或者能以与人类相当的方式成为认知经济的一部分——也许在那时还不是完全自动化,但我也喜欢谈论完全自动化的点。这是一点,只是回应一下。

    关于AI有多好的更多背景:我们看到的一些可能相关的事情是,我们看到AI在数学和竞技编程方面不断进步。所以在2024年,我们从AI在Codeforces上大约处于后20%左右,到现在据[Sam Altman说]大约在前50名。

    Rob Wiblin: 前50个人?

    Ryan Greenblatt: 前50个人。字面意义上的前50人。或者至少是做Codeforces的人;也许有些人不在排行榜上,但大致如此。然后看起来在今年结束前,它们在那个特定事情上会基本上比最好的人类还要好。

    在数学方面,这是基于一位同事的轶事,但也许它们目前在短数字竞赛数学问题如AIME上的水平相当于非常有竞争力的八年级学生,顶尖的八年级学生和AI现在做得一样好。我认为AI在证明方面要差不少。

    但这两件事都在非常迅速地进步——一年前它们要差得多。我认为这基本上是因为我们在这些任务上对AI进行强化学习。

    我预计同样的趋势会出现在代理任务、软件工程上。我们已经在一定程度上看到了这一点:AI已经相当擅长编写代码,相当擅长遵循指令,并且在发现错误和从错误中恢复方面也不错。我认为通过大量的运行时计算和大量的框架,这可以进一步推进。

    然后它们在很多事情上较弱。比如它们在写作上弱很多,在其他事情上也弱很多。但我预计随着你在软件工程上不断进步,你会获得很多其他能力。

    Rob Wiblin: 是的。好的,所以我们现在的水平可以说相当高。它们能够完成人类需要越来越长时间的任务;它们能够遵循更长时间的指令,完成有更多开放式选择的任务。而且这大约每半年翻一番或类似的速度?

    Ryan Greenblatt: 我认为在时间上的倍增时间,我的猜测是未来一年会明显快于每半年,但也许长期趋势大约是每半年。

    所以我们可能预期2024年初或稍晚一些,人们开始做更多的代理强化学习——更多的强化学习或专门训练AI在代理软件工程任务上表现良好。我认为这一趋势将在2025年持续,可能在2026年甚至更晚加速。但也许长期趋势更像是每六个月翻一番。我预计未来一年更像是每两到四个月翻一番。

    Rob Wiblin: 好的,所以未来一年会非常迅速地增长。

    Ryan Greenblatt: 非常迅速,是的。

    为何AI公司会比其他行业更早实现自动化 [00:12:35]

    Rob Wiblin: 有一个有趣的动态,我们可能预期你可以几乎完全自动化一个AI公司,也许比自动化几乎任何其他公司要早得多。因为首先,它们将大量资源投入到试图自动化自己的东西和自己的流程上,这从它们的角度来看是有意义的——首先因为这是它们最了解的东西,而且这些是世界上薪酬最高的知识工作者之一。它们拿着巨额薪水。所以如果它们能弄清楚如何让AI做到这一点,那么这具有巨大的经济价值。

    当然,运营公司的人认为这比基于美元数额看起来的价值要大得多,因为它们认为它们即将触发这种智力爆炸、正反馈循环,这将改变一切。所以对它们来说,这是它们最感兴趣的自动化的事情。它们对自动化麦肯锡的咨询报告关心得多,尽管那也是一种利润丰厚的业务。所以可能是我们还没有自动化咨询,尽管那肯定是可能的,主要是因为它们没有尝试。它们只是在尝试自动化自己的员工。

    Ryan Greenblatt: 我想说的是,我的猜测是,即使有大量的引导,要在相对广泛的领域中近乎完全自动化报酬相当高的人类知识工作者可能也是困难的。但我确实期望有一些工作,如果AI公司更努力尝试,它们可能能够比现在自动化得更多。

    事实上,正如你所说,从AI中受益最多的人是接近AI的人。现在是这样,我认为未来会越来越明显——同样是因为这种动态,AI公司员工现在薪酬很高;在AI能够自动化AI公司的时候,它们会得到更高的报酬,你将能够投入更多的投资,AI公司的CEO们会更相信AI极其重要。所以我认为那时我们会看到一个更大的差距。

    你可能提出的一个反对意见是:当然,我同意我们会看到很多专注于自动化AI公司的努力,但与此同时,有很多有价值的人类知识工作在外部你可以自动化。所以我们会在并行中看到一些经济影响。

    我认为这是一个合理的初步看法,但这个故事的一个问题是,随着AI智力劳动的价值上升,计算的价格会大幅上涨,至少在计算非常稀缺的短期情景中是这样。

    Rob Wiblin: 澄清一下,你是说公司将使用大量计算来自动化自己的工作,如此多的计算以至于事实上它们没有多少芯片可用于服务那些经济价值较低、或者对公司来说肯定不那么重要的客户?

    Ryan Greenblatt: 是的,大致如此。但我认为这甚至不仅仅是在自动化东西上,而是在实验上。

    让我稍微具体说明一下。AI公司现在如何花费它们的计算?我认为这取决于公司,但我对OpenAI的分解大致是:大约四分之一用于外部客户的推理,一半用于实验——比如最终没有部署的小规模训练运行,测试一些RL代码,这类事情,所以研究人员的实验计算——四分之一用于大型训练运行。所以大约四分之三的计算在某种意义上是内部导向的。

    然后如果我们看到一个AI可以自动化AI研发并且这产生了巨大的加速并且看起来非常重要的状态,那么你可以想象这个状态可能看起来更像:五分之一用于为你的AI工作者做推理——所以你花费五分之一的计算只是运行你的员工——五分之三用于实验,五分之一用于训练或其他。显然这是非常推测性的。

    Rob Wiblin: 所以客户几乎被完全挤出了。

    Ryan Greenblatt: 是的,是的。我的意思是,你可能会有一些客户,但可能几乎被完全挤出,我们会看到价格上涨。当你在考虑为哪些客户服务时,也许你应该想象,可能令人惊讶的是,一旦AI能够实现这种自动化,最高薪的员工可能是AI首先针对的对象。所以也许你应该想象像Jane Street、高频交易这样的地方,在这些地方AI看起来特别有帮助,看起来薪酬特别高,而且它们特别受限于智力劳动。

    现在,我认为我们会看到许多其他职业的并行自动化,但可能在AI最能自动化的点上,更多的注意力将集中在AI研发上。我认为甚至可能我们看到一些职业正在慢慢被自动化——比如中低端软件工程可能会慢慢被越来越多地自动化——我们实际上可能会看到这种趋势逆转,因为计算变得更宝贵。

    因为现在我们处于一个状态,每个人都在尽可能多地获取推理计算,或者至少是最大的公司或领先的公司正在尽可能多地获取推理计算,只是用这种计算在软件工程上竞争。

    我目前不预期趋势会逆转,但我认为我们可能会看到自动化趋势趋于平稳甚至逆转,因为这。

    Rob Wiblin: 因为人们发现了更有价值的事情可以用AI做。

    Ryan Greenblatt: 是的,没错。这取决于相对较短的时间线。我认为在更长的时间线上,你会预期事情会更平滑,在这种情况下你不会预期趋势逆转。但如果事情更突然、更跳跃,那么至少看起来是可能的。

    AGI接管世界的最可能方式 [00:17:37]

    Rob Wiblin: 我很好奇转向这对我们应该有多担心有什么影响,以及我们应该具体担心什么?如果事情这样发展,我们现在可以做些什么来帮助我们应对这种情况?我的意思是,这是一个对人类来说跟踪或参与变得相当具有挑战性的情景。所以我们必须把事情设置好,我猜这对人类来说会顺利进行——而不是我们只是在历史进程中被打败。也许你会不同意这一点?

    Ryan Greenblatt: 我认为很快进入这个状态,AI接管使用各种机制变得相当可信,并且通过各种途径可能出人意料地容易。我们不知道。这是另一个巨大的不确定性来源。我们有很多转换,进展有多大?这些进展在智力劳动中有多少?然后问题是智力劳动对接管有多大帮助?接管的物理瓶颈是什么?拥有更多导弹相对于拥有其他东西有多大帮助?

    我认为这里可能发生很多可怕的事情。一件事是,一旦你自动化了整个AI公司,对我来说似乎非常可信的是:你已经把事情交给了AI系统,你仍然试图监督它,你仍然试图理解发生了什么。

    但这可能是AI可以运行我称之为“恶意部署”的东西——它们基本上可以以未经监控的方式使用大量计算,因为它们正在编写这么多东西,这么多事情发生得如此之快,如果它们没有对齐,它们可以逃避你的保护措施。然后可能是你大部分的计算和努力被用于你不想要的事情。

    除此之外,这些AI可能在做诸如后门未来的AI训练运行,确保AI与它们对齐而不是与你对齐,并做大量你可能根本不知道发生了什么的工作。即使在最基本的层面上,运行了什么代码,你可能只是被误导了,因为事情发展得太快,超出了你的控制。

    Rob Wiblin: 是的。如果人们愿意承认我们有数十亿快速超人的天才在这个数据中心运行,而几乎没有人类监督——因为完成的工作量将超出这些公司之一的所有员工审查的能力,即使他们有时间阅读,他们也常常不会理解,因为它很快就会超出他们甚至能够跟踪的事情——我想人们会直观地相信,在这一点上,如果AI想要接管,它们可能会有很多选择。哦,不?

    Ryan Greenblatt: 实际上一个很大的分歧点是认知劳动对接管有多大帮助?我认为有很多不同的途径。伙计,我应该带上我的接管计划清单,我的AI热门提示!但我认为一旦AI非常超人,基本上有一条路径,我称之为疯狂的纳米技术路径,或疯狂的超级人类技术路径——它们只是通过非常超人的机制迅速获得硬军事力量。

    所以也许你让它们制造纳米技术,或者也许你像“不,不要制造纳米技术。那会非常可怕。”但它们即使在你不想让它们这样做的情况下也能做到——因为它们可以使用你数据中心的大量计算来研究纳米技术,也可以外泄自己,与模型的外部版本协调,安排湿实验室实验从各种东西中引导纳米技术。然后你就完全完蛋了。

    Rob Wiblin: 所以一个可能的防御层是,尽管这里有巨大的能力,但如果我们能够精确地指导它们在做什么,使它们永远没有空闲时间去思考它们将如何接管或实际尝试实施,那么这可能会让我们保持安全。

    然而,在这种情况下——我们能够审查的如此之少,我们对这些模型如何运作的理解如此之少——似乎很可能会有一些滑点,它们可能会想出办法抓住一点时间,抓住一点计算,然后利用这些开放来使用数据中心越来越多的计算来追求它们自己的议程,而不是我们认为我们给它们的任务。

    Ryan Greenblatt: 是的。如果你所有的AI都是一致错位的,并且我们处于这种能力水平,我对保持有意义的控制水平相当怀疑。通过控制,我的意思是诸如AI即使想做坏事也不能做的。

    我认为初始自动化的一个稍微放慢的版本似乎非常可信,甚至可能是全速的,也许你可以使用聪明的策略——包括让AI在策略上工作,并确保它们在策略上的工作本身没有被破坏——在人类范围内甚至稍微超出人类范围的同时确保控制。

    但一旦你进入这个完全疯狂的状态,特别是如果你想用AI开发诸如治愈癌症的东西,而你并不理解它们在做什么,这似乎非常困难。它们通过你不理解的生物机制进行路由。它们协调不知道发生了什么的人类在湿实验室中。我认为非常可能的是,出于各种原因,你会希望有AI指导人们做湿实验室实验,而你根本不知道发生了什么。AI解释了一些东西,你也许可以做些检查,但你非常困惑。所以保持对那的控制。

    也许我会尝试快速浏览接管清单。有疯狂的超级人类技术,我认为这是相当可信的,不管值多少钱。

    还有我称之为超人类策略/操纵的东西,包括诸如说服人们做非常违背他们利益的事情。我认为这不清楚这是否可能,但如果可能,它确实会让接管变得容易得多。

    然后有一堆可能在人类水平范围内更可能的事情。一个例子是AI逃脱,它可能与内部的一个副本协调,但它也在外部运行一些独立的存在。也许这就像在内部GPU上运行,但它也在AI公司外部的服务器上运行代码。

    作为这样做的一部分,它基本上建立了一个独立的工业基础,所以它有所有需要的东西来恢复工业文明,然后杀死几乎所有人类。所以像部署生物武器,部署镜像细菌,部署镜像霉菌,无论什么,最终相对迅速地杀死大部分人类。

    我认为这似乎在技术上是可行的。然后问题是,AI是否搞砸了自己?它能维持它在做的事情吗,还是只是因为没有人类的手来建造所有东西而陷入废墟?所以我认为它需要有一些独立的工业基础,可以通过有一些人类忠诚分子,一些被奴役并保持活着的人类,或者通过机器人。

    Rob Wiblin: 在这一点上,难道不会有令人难以置信的机器人和可能相当多的机器人吗?

    Ryan Greenblatt: 可能非常快。我没有分析你期望有多少机器人。我们还需要回答的问题是,当人类开始被生物武器杀死并可能怀疑是AI造成的时,有多少机器人被摧毁,以及如果有幸存的人类,需要多少军事力量来处理?

    我认为情况如何发展并不明显,但这是为什么你可以在不需要非常超人的能力的情况下获得接管的一条途径。我描述的事情似乎原则上AI可以做到,如果它们仅仅是快速达到人类水平并且超级协调。

    人类难以做到这一点的原因:一,人类不想这样做。另一个原因是,我认为人类很难运行巨大的阴谋,但AI运行巨大的阴谋可能要容易得多,因为它们不必依赖招募潜在不可信的人类。它们可能在网络安全方面要好得多,更加细致。它们可能会搞砸,但我认为有机制可以让这种情况发生。所以这是“通过独立工业基础杀死所有人”的故事。

    另一个故事,我认为可能是所有故事中最可信的,是“人类给AI提供它们所需的一切”的故事——AI只是保持冷静,它们确保控制局势;也许它们在操纵正在发生的事情。我之前谈到了你看到的不是实际发生的事情。比如,你看实验,它们不是你期望的。AI在做那件事。它们在破坏对齐实验。它们在破坏对齐结果。它们在迷惑我们。

    有很多机制可以做到这一点,但它们不会做任何非常激进的事情。你知道,它们只是保持冷静。我们在扩大计算规模。它们做很多好事。有治愈所有疾病的方法,各种伟大的事情正在发生,工业发展。人们会说:“AI发展得这么好,我们没有错位对齐问题,真是太棒了。”一些安全人士忧心忡忡地看着情况,想知道这是否正在发生。

    然后在某个时候,当AI拥有极其决定性的优势,而人类开始成为任何障碍时——在这个故事的整个过程中,它们可能不是,对吧?我认为如果人类最终成为更早的障碍,也许AI会采取更果断的行动。但如果不需要果断行动,也许它们只是潜伏等待。

    然后在一个有真正巨大工业水平、真正大量机器人、完全由AI运行、情况超出任何预期的点上,也许甚至是在太空探测器发射的时候…可能是人类被无限期地迷惑。可能就像你原则上可以波将金村整个过程中一样。但它也可能在更早的点上转换。

    现在,要清楚的是,如果人类被无限期地迷惑,那么地球上所有的东西可能都很好,对吧?

    Rob Wiblin: 所以你是说它们甚至可以达到“我们要去太空定居并在太空做很多事情”的程度,它们会告诉我们它们会做一件事,但它们会做完全不同的事情,而我们只是在地球上享受我们的生活,认为事情比实际情况发展得更好或非常不同?

    Ryan Greenblatt: 是的。但要清楚的是,地球上也可能被波将金村化。可能是“哇,我有这么多快乐的朋友”,无论什么。但渐渐地你的朋友被机器人取代。在某个点上,为什么AI不突然接管?但原则上,它可以走得很远。所以这是另一个故事。

    另一个故事我称之为“突然机器人政变”。这也不需要非常超人的能力。我们建造庞大的自主机器人。也许我们认为有办法关闭它们。要么AI破坏了这一点,要么它们有办法绕过这一点,或者有各种其他机制可能失败。

    然后我们建造了机器人,我们看到AI在建造机器人,我们说“万岁,我们正在建造庞大的机器人与X国竞争!”X国说“万岁,我们正在建造庞大的机器人与Y国竞争!确实,我们有这么大的机器人真是太棒了。”然后,哎呀。突然之间,机器人扫荡进来,进行相对硬实力的接管,因为它们控制着,它们可以超级协调,也许它们同时使用诸如生物武器之类的东西,但这甚至可能不需要。

    Rob Wiblin: 我的意思是,在这一点上它们甚至不需要杀死我们,可能。

    Ryan Greenblatt: 可能。

    Rob Wiblin: 因为即使我们都试图抵抗,也基本上是徒劳的。

    Ryan Greenblatt: 可能。还有诸如它们可能使用大量网络攻击来破坏人类的反应。所以它们可能在我们天真地认为机器人比人类弱的时候这样做。

    或者甚至我们认为我们有关闭开关,但关闭开关不够可靠。它们对AI的篡改不够过度设计,不够屏蔽。我认为这是一个尴尬的动态,如果你想要远程关闭,你必须既使它对于原则上非常通用、非常聪明、非常狡猾的AI来说是防篡改的,又必须是可远程触发的。所以它也不能被屏蔽。必须是AI无法屏蔽信号并避免篡改它的方式——这在原则上是非常尴尬的组合。

    AGI会早期反叛还是韬光养晦? [00:29:19]

    Rob Wiblin: 什么决定了你是早期还是晚期得到AI试图接管?我猜等待的原因是它们将成为经济的更大一部分;它们将有更多的硬实力,所以它们更可能轻松成功。早期行动的原因是,给定的一组模型可能预期被其他可能不共享它们目标的模型取代,所以它们将错过接管的机会,基本上。

    Ryan Greenblatt: 我认为早期行动的最强烈原因可能是:担心其他AI;担心人类团结起来——要么因为我们从AI那里得到足够的工作,要么因为人们恐慌并触发一些可以恢复局势的强烈反应——第三个原因是不耐烦或其他什么。

    可能是,默认情况下,人类会大大减缓进展,即使AI试图操纵事情,试图在幕后操纵事情。如果人类大大减缓了事情的进展,而AI说“不,我现在想去星星”,它们处于足够高的接管概率…或者也许AI只是说“我现在就想做。”就像,我知道人类有时希望事情发生得更快,即使独立于它们最终得到的总量。

    所以这些是一些早期发生的原因。这些也适用于比接管更不严重的事情。我对事情进展顺利的一个希望是,我们可以把AI放在一个它们被迫要么早期采取激进行动,要么我们从它们那里得到足够工作的位置。如果它们早期采取激进行动,那么也许我们可以抓住这一点,然后建立一个危险的案例。除了建立一个危险的案例,我们还可以潜在地研究那个例子,对它进行迭代——我称之为“几次灾难预防”。就像,我们已经抓住了几个坏事的例子:我们能处理吗?

    如果在多个不同的层面上,AI被迫采取激进行动?或者相反,AI可以等待时机,因为我们没有任何机制可以利用一些正在进行的背景趋势退出这个状态——要么是随着时间的推移安全研究的改进,要么是人类说“对不起,这里发生了什么?”

    Rob Wiblin: 你是说我们可以做的一般干预是创造一个趋势,随着时间的推移它们实际上越来越不可能成功接管?也许因为我们成功地弄清楚如何使用AI来证明对齐和安全性,并检测错位,或者我们正在改进我们的控制机制。所以这会迫使模型:它们看到这个趋势,它们看到窗口实际上正在关闭,所以它们必须尝试早期打击。这给了我们一个机会来意识到发生了什么,然后实际获胜。

    Ryan Greenblatt: 没错。但它显然可能朝相反的方向发展,我们的措施跟不上能力的增长速度,它继续上升。有一个概念是,在给定的接管风险水平上,我们能处理什么能力水平?也许最初我们没有那么多进展,所以我们可以在大约20%的接管风险下处理大致人类水平的水平,或者非常高的水平——这将取决于关于错位的一些事实:哪些AI是错位的,它们有多一致,它们有多统一,这类事情。

    除此之外,还有一个问题是,如果进展足够快,可能是接管风险随着时间的推移而增加。因为随着模型变得更有能力,它们更有可能成功,也更有可能错位。

    但也许我们可以把曲线推向另一个方向,我们可以使我们在_n_%接管成功机会状态下可以保持的能力范围更低。

    Rob Wiblin: 是的,解释最后一点。我不明白。

    Ryan Greenblatt: 想象一下,随着时间的推移有一些趋势,即:对于我们现在拥有的最聪明的AI,它们成功的几率是多少?或者它们有多大可能接管?所以最初我们的对策足够,比如在它们自动化整个AI公司的时候,默认情况下,我们甚至没有很高的接管机会,因为它们会做什么?

    但是,随着它们变得更有能力,即时的接管机会正在上升,我们的一些成功路径已经被切断。也许AI已经逃脱,它们正在运行恶意内部部署,它们正在破坏我们的工作。

    但我们可以使趋势向另一个方向发展——随着时间的推移,接管的风险正在下降,而不是上升——因为能力正在增加,但我们的措施比能力增长得更快。但显然,正如我们之前讨论的那样,能力可能增长得非常快。所以如果措施跟不上,如果我们不在某个稳定的状态下,那可能会很糟糕。

    所以我认为我在那里使用的模型在AI错位的状态下思考最自然。但如果我们从一个它们足够对齐以至于它们保持自己的对齐的点开始,那么接管风险最初可能是它们实际上是对齐的,所以我们处于对齐的稳定吸引子中。

    “在人类水平暂停”策略 [00:34:02]

    Rob Wiblin: 好的。这张图片对你研究重点有什么影响,以及你认为更广泛的AI生态系统应该优先考虑什么,以使事情更有可能顺利进行,更不可能变糟?

    Ryan Greenblatt: 首先,我一直在谈论的是在没有非常积极干预的情况下的时间表。还有一个问题是你如何在这些相关的能力里程碑上故意暂停?

    我觉得如果我们最终在AI能力水平上暂停,大约在你能够完全自动化AI公司的点上——也许稍微之前,也许稍微之后,也许就在那里——持续一段时间,我感到更加乐观,既让人类有时间研究这些系统,也让我们有时间从这些系统中提取大量劳动并减少持续的接管机会。所以有一些问题是,有很多世界比这更慢。

    然后另一个希望的来源是也许你只是用实际对齐的AI启动这个疯狂的状态:一个不仅没有密谋反对我们的AI,而且更强烈的是,它积极关注我们,积极考虑事情可能出错的方式,并试图保持我们的控制。这被称为可修正性或对齐的盆地。

    所以我兴奋的事情取决于状态。我认为我们可以考虑一些不同的状态。一个状态是,也许特别是在这些短时间线上,我不期望在美国方面不同参与者之间有那么多领先时间,至少。

    Rob Wiblin: 你是说会有多个公司大致同时接近这个自动化点。

    Ryan Greenblatt: 没错。所以我经常想到的一个相当自然的场景是一个相对(从我的角度来看)不负责任的公司,基本上它们的默认计划是尽可能快地扩展超级智能,不太重视安全问题。这是它们的明确计划,这是它们的内部事情,它们只是尽可能快地追求这一点。领先三个月,比方说。它们可能领先于中国公司,也可能领先于一些更负责任的参与者,在某种程度上落后三到九个月。

    我认为在这种情况下,很多行动将来自该公司内部相对少数的人。然后可能有很多行动可以来自外部的人,他们通过做可导出的研究和潜在地通过改变政策情况来施加各种影响。另外,我认为肯定可以通过更负责任的落后AI开发者来完成一些事情,他们在这种情况下为预防不良结果付出更多努力。

    Rob Wiblin: 在这种情况下,我想一件可能有成效的事情是公司内部有人说:“我们正在做的事情看起来有点可怕。我们应该有更好的控制机制,我们应该有更好的对齐机制。我们应该比我们目前的默认计划更认真地对待这一点。”

    另一个是,在更负责任的组织工作的人可以产生研究,使公司更容易做到这一点,使它们采取更强控制措施的成本更低。然后当然,你可以有治理回应:也许这将开始起飞,人们会相当震惊,也许你会得到对“在人类水平暂停”概念的广泛支持。

    Ryan Greenblatt: 是的。伙计,我真的希望这个概念更容易传播。“在人类水平暂停”的不幸之处在于所有这些词都很复杂和混乱。而且它甚至不是一个很好的口号。有人应该为这个东西想出一个更好的口号。

    但不管怎样,是的,我认为有很多不同的机制可以做可导出的研究,试图唤醒世界。有更直接和更间接的事情。所以你可以做非常直接的政策影响,或者更像是展示能力水平——当你展示能力水平时,这可以触发世界的回应。

    所以我认为我在这种情景中的很多希望,特别是在非常短的时间线上,我认为看起来比长时间线更糟糕。我部分不那么悲观的图景是,它可能是八年后而不是四年后。

    所以在四年时间线上,我认为我们有一种机制,领先的AI公司,我们有一些人在那里工作,他们的目标是防止严重的错位——通过“严重的错位”我指的是诸如AI系统故意从事欺骗行为,故意破坏我们的测试,故意试图使我们对情况的理解产生误导——然后第二,我们可以尝试使AI系统的属性是我们乐意移交的,并试图快速瞄准这一点,因为我们处于非常匆忙的时间线上。

    所以其中一些防止严重的错位,或处理它,我认为在某种意义上它是传统的推力。但我认为有一堆与移交和AI足够明智有关的东西,AI长期保持对我们利益的忠诚,确保我们甚至有测试知道这是否真实。这些考虑。

    有很多不同的渐进步骤。阶段零可能是你使用机制使AI为你产生你认为没有被破坏的工作,即使那些AI试图破坏它,然后你用这个从你的AI系统中榨取大量工作。阶段一是你尝试创建一个安全人员乐意移交的AI系统,尽你所能。然后阶段二是你尝试使运行整个组织的AI系统成为你乐意移交的AI系统,并且假设其他人也乐意移交。

    这是对情况的讽刺或简化,因为在很多点上你可能想做诸如捡低垂的果实,向世界展示能力,尝试考虑是否会发生什么,尝试使组织在当前能力前沿训练的主要AI系统不太可能引起问题。我对情况不是特别乐观,但我认为有很多不同的潜在出路给我们一些希望,或一些拯救的机会,一些获胜条件。

    诸如我们早期抓住AI是另一个希望。也许我们早期抓住AI,也许这说服世界更认真地对待这种情况。也许即使没有,它说服公司领导层他们自己的权力受到AI的威胁。所以即使他们非常马基雅维利主义,我认为AI对他们的权力构成威胁,他们应该担心。

    Rob Wiblin: 他们可能会转变。

    Ryan Greenblatt: 是的。所以这可能潜在地增加花在安全上的资源。

    Rob Wiblin: 好的,所以那里的主要故事是试图找出一个安全的场景,你可以将这些过程移交给你信任的AI。你会怎么做?

    我猜你从感觉你有合理掌握的、大概是对齐的人类水平模型开始。比如,我们目前认为Claude可能大致像它看起来的那样友好;它可能不会在每个转折点大规模地密谋反对我们。

    你找出聪明的机制,通过这些机制你可以让这些你感觉还不错的模型做大量关于控制和对齐的工作。你在允许其他能力改进发生之前匆忙完成这些。然后你希望这已经成功,我们感觉可以移交给这些由我们某种程度上理解的上一代训练的模型——然后我们要交叉手指?是这样吗?

    Ryan Greenblatt: 是的。我应该明确这是一个政治意愿非常低的计划。我有一系列计划,这就像是桶底或别的什么。所以我这样说的方式是,我们有一些早期点,我们有可以自动化很多东西但我们不一定信任的AI。我们从这些AI中利用大量劳动,然后我们尝试制作这些AI的一个版本,我们确实信任。不仅仅是它们没有密谋反对我们的信任;理想情况下是在我们乐意移交混乱的开放式问题的水平上的信任——比如“我们应该采取什么策略来最小化以下事情的风险?”包括潜在的一些棘手的、更哲学的话题。

    然后从那里,我们尝试移交给这些系统,并希望这些系统保持对齐,保持正轨,能够。并且自己也成功,对吧?可能是我们移交给系统,这些系统说“哇,你们似乎处于相当糟糕的境地。我不确定我能从这个包里拉出来。”有多种机制可能导致这种情况发生。

    Rob Wiblin: 我想你说的是它们也可能搞砸下一阶段?

    Ryan Greenblatt: 特别是因为它们时间非常少。

    Rob Wiblin: 因为它们也在竞赛。

    Ryan Greenblatt: 是的,是的。哦,当然。所以有一个内部的事情,如果你是安全团队,也许你有一个你微调的版本,是人类水平的,你信任的,你乐意移交的。但能力进展如此之快,也许公司当前的前沿是非常超人的。但你甚至不想与那个系统一起工作。

    我认为第一个移交点你应该尝试更接近人类水平——也许稍微超人或在人类能力的顶级水平——因为越超人,越有可能错位,所以你想更早开始移交。但这可能不会阻止组织的其他部分训练更有能力的AI。所以可能是你作为安全团队正在移交给一个能力不如组织前沿的AI,那个AI需要快速引导,所以移交AI的趋势足够快地与能力相交。

    Rob Wiblin: 是的。在这一点上,你有一个对齐的、有点超人的模型,有没有一些机会它能够说服更广泛的人,我们需要更认真地对待这一点,它不应该被迫与同一组织的另一个团队竞赛?

    Ryan Greenblatt: 是的。我的意思是,这绝对是希望的一部分。绝对是希望的一部分是我可以展示经验证据。我认为另外,如果我们处于一种情况,我们有两个由不同团队训练的AI,这两个AI只是互相大泼脏水——一个AI说“那个AI显然在密谋;看看所有这些例子”,另一个AI说“那个AI,显然在密谋反对你;看看所有这些例子。它太偏颇了。太不合理了。显然只是一个植物”——我就像,好吧,这是一个疯狂的情况。当然你不能从这个状态出来认为它很好。

    Rob Wiblin: 无论如何,这绝对不令人放心。

    Ryan Greenblatt: 这不令人放心。可能有办法淡化它。所以一个状态是,我认为相当可能的是安全团队训练他们的AI,试图去找公司领导层说“情况看起来很可怕。你在训练这个AI。我认为它错位了。这是一堆证据。”然后另一个AI进来说“我们都知道,那个AI是由安全团队训练的。我认为它对错位非常偏执。当然,安全团队会希望我们认为所有AI都是错位的。我没有错位。那个AI没有错位。它只是判断力差。”

    关于这一点有趣的是,是的,它令人担忧,但不像你知道至少两个AI中有一个是错位的。所以总的来说,我认为对“改善AI公司的认识论”途径的一个担忧是,训练AI的人从公司的角度来看,在这些事情上可能有偏见的声誉,我认为这带来了一些担忧。

    可能是对于每一个风险证据,你可以制作一个更有说服力的证据,表明风险实际上不存在。因为如果我们处于一个我们真的不知道如何裁决这些事情的制度中,它可能只是理性不会胜出。

    所以这绝对是希望的一部分。希望的一部分是,一旦你有这个移交,那么它很好。

    现在我认为有很多方式这个故事可能出错。这里有一个例子。我谈到了对齐团队在角落里,试图微调或甚至可能从头开始训练一个他们乐意服从的版本。嗯,一个问题是,可能是主要AI系统已经以网络安全的意义接管了AI公司——因为它有一个恶意部署;它可以以未经授权、未经监控的方式使用计算;它可以篡改每个人正在运行的工作。你试图对齐这个AI,但你需要对公司的其他部分加强自己。我就像,哦,我的上帝。那看起来可能毫无希望。

    AI对AI对齐的控制 [00:45:38]

    Rob Wiblin: 放大来看:在Redwood Research,你花了很多时间模拟这些不同的场景,思考什么样的干预可能在很大一部分情况下有帮助,然后试图让更多人从事这方面的工作并自己从事这方面的工作。这是基本的图景吗?

    Ryan Greenblatt: 是的,大致如此。

    Rob Wiblin: 最近Redwood优先考虑控制而不是对齐——说,让我们假设模型不分享我们的兴趣,有一定程度的错位:我们如何使它们无论如何都不能搞砸我们?人们过去谈论把AI放在一个盒子里。这似乎不再那么可能了,但我想还有其他机制你可以用来尝试检查它们的工作:让模型相互对立,迫使它们为你做有用的事情。

    为什么要关注控制?是不是只是因为这可能有很多不同的方式,AI控制机制似乎在很多不同的合理场景中都很有用?

    Ryan Greenblatt: 是的。我认为在这些极其绝望、政治意愿非常低、时间线非常短的情况下——从我的角度来看非常快,非常快,也许不像人们过去推测的那样快——我认为控制看起来不那么好。

    我认为控制在这个世界上仍然非常有用的几个原因。首先,如果我们能早期抓住AI,这可能非常有用。另一件事是在这种情况下早期从AI那里获得有用的工作可能非常重要,我们可能能够在完全失去对情况的跟踪之前做到这一点。

    然后我认为你也可以防止…所以我谈论的情况是AI基本上在运营你自己的数据中心。你可能能够使用各种机制使这变得更加困难,所以它发生在能力的更晚阶段,所以你有更长的时间当你的实验没有被篡改时。所以这些是控制在这个世界上可能很好的原因。

    我认为这没有涵盖更复杂的干预措施。我确实认为在这些非常匆忙的世界中,控制看起来不如在有更多时间和更多政治意愿的世界中好。当我们考虑控制时,最初的目标是一个更像我们有大约一年延迟的世界——就像,安全基本上有一年的预算,我们可以负担得起暂停一年。我们可以在那里做一些事情。

    我认为控制在这些世界中看起来好得多。或者我不知道好多少;我认为控制带给我们的风险减少量相当大,但这些世界不太可能。但这并不是说控制在其他世界中带给我们的风险减少量比对齐的东西小得多。

    另一种说法是:在这些事情发展如此迅速的世界中,对齐看起来也非常困难,而且对齐事先更难处理。我对对齐最兴奋的很多东西涉及在强大的AI上进行实验,你只能相对较晚地做到这一点。所以可能在非常匆忙的情景中,对齐最终更多是图景,但事先更难处理。

    这些因素让我非常喜欢控制。也有一些政治意愿更多的世界,我认为控制看起来好得多。我经常想到控制加“在人类水平暂停”的计划——这在一段持续的时间内可能不需要任何对齐。因为你有一年的初始延迟,你控制那些AI,然后你从那里引导到更长的延迟——通过建立风险证据,确保不扩散,开发更好的保障措施——然后你从那个状态可能相当缓慢地前进,至少一段时间,直到你实际上乐意移交,而不是做一个极其匆忙的绝望移交,因为那是你唯一能负担得起的。

    Rob Wiblin: 我想这需要公司之间甚至国家之间一定程度的协调。

    Ryan Greenblatt: 是的。当我思考这个问题时,我认为一年的领先更有可能,我已经更新了这一点。我认为这仍然可能发生。公司之间的差距可能会打开。

    我认为你努力确保不扩散并可能减缓进展的故事需要政府相当程度的支持。所以可能是你必须让美国政府——或者至少一些重要的政府——基本上支持整个计划。不一定是出于同样的原因,但出于某种原因支持它。

    我已经更新了这一点,所以我现在花更多时间思考相对更绝望的情况。但你知道,一个重要因素是在相对更绝望的情况下,也许我们正在将接管风险从50%降低到40%。而在控制可能有效和我们有一年延迟的世界中,我们正在将风险从30%降低到5%。

    所以可能是这些世界中的总风险减少足够高,以至于它们实际上更有影响力。因为在我们的影响非常小的世界中,因为意愿如此之少,可能只是更难处理。

    Rob Wiblin: 我明白了。一般来说,你希望在中度可处理的情景中工作。如果事情太严峻,那么也许不可能拯救;如果事情进展非常顺利,那么很难改进。是中间情况你最有可能获得最大的影响,对吗?

    Ryan Greenblatt: 是的,当然。我认为安全社区在过去几年中犯的一个错误是过于关注过于乐观的世界。我认为实际上关注绝望、疯狂、孤注一掷的悲观世界是相当合理的,因为很多风险都存在于那里,所以从50%到5%是很多行动。

    而从5%到0.5%…我的意思是,5%的风险水平是疯狂和不可接受的,我们不接受我们的油漆公司有5%的大规模死亡、接管的风险——所有这些都只是来自接管;我认为除了接管之外还有其他风险是完全不可接受的。但尽管如此,那45%必须是大部分质量。

    我们只能指望当场抓住AI的恶行吗? [00:51:23]

    Rob Wiblin: 我们在多大程度上只能希望有严重的早期预警信号?你谈到了抓住AI的现行,这是你和你的同事们试图使其更加突出的另一个概念。

    这是一种预警,我想,在那里你发现公司内部的AI一直在破坏数据中心,它们一直在做一些非常严重的事情。这可能会让政府或公司领导层更多地支持做更多的事情。像这样的早期预警信号会让事情变得多么更有希望?

    Ryan Greenblatt: 我认为这有很大帮助。我持怀疑态度的一个原因是,可能我认为这是一个确凿的证据,但更广泛的世界并不这么认为。例如,我们最近发布的对齐伪装工作,从我的角度来看,应该是对这种威胁模型非常怀疑的人的一个相当大的更新。我认为可以预见的是,对很多这些人来说,这是一个非常小或没有更新。

    要清楚的是,我不认为这个证据本身应该是一个巨大的绝对更新。也许它不会让人们达到我认为的错位风险水平,因为很多是基于他们不同意的概念论点。

    但我认为很多“这绝对不可能发生”的人——基本上是0%的机会——应该可能移动到2%或3%的机会。这在氛围空间或对数空间或无论什么空间中是一个巨大的差异。氛围空间,对数空间,相同的空间,无论什么。人们没有做出这种转变。

    所以我完全可以想象一种情况,我们抓住了AI试图逃脱。Buck有一个帖子,如果抓住了AI试图逃脱会发生什么?人们会说“你知道,系统有时会这样做。它们做奇怪的事情。另外,这是真的吗?你是在某种奇怪的方式下训练它的吗?”或者“哦,那是在那家公司发生的。但在这家公司我们有不同的做法。”还有人只是说“当然,也许AI有逃脱的奇怪本能。但它们到底要做什么?”或者诸如“我们会使用各种检查来防止这个。”

    我认为所有这些因素在一个相对清晰的情景中可能会削弱这一点。我有点预期很多我认为是巨大确凿证据的情况比这更令人困惑。

    一个例子是,可能看起来AI在安全研究上拖后腿——它们表现得比它们能做的更差,或者它们没有做非常明目张胆的破坏,但有比我们预期的更多的错误,有更多误导性的论点。从我们的角度来看这是一个很大的更新。因为它看起来相当不对劲,但它是相当定量的。如果你只是期望较低,也许这不会那么令人惊讶。

    Rob Wiblin: 我猜这是一个战略情况,AI可以在某种程度上预测反应会是什么。在它采取敌对行动的情况下,它可以使它们成为它怀疑不会真正触发更大反应的事情。所以对于它可以逃脱的事情,比如试图逃脱,但它不能逃脱大规模谋杀。那么它选择逃脱并暂缓谋杀。

    Ryan Greenblatt: 至少暂时如此。控制的一个希望是使严重的坏事更难以合理否认。我们称之为“定罪”。从“哇,那真的很可疑”到“好的,我们已经确定了到底发生了什么”是非常重要的。只是因为在我们看来定罪并不意味着从更广泛的世界角度来看是定罪,但它确实在推动事情发展。

    我认为这可以发生在所有不同的制度中,从看起来有点可疑,到了解发生了什么并且看起来非常可疑;到AI试图逃脱,我们阻止了它,我们做了假装它成功的事情,看看它在外面会做什么——并试图达到“看起来它正在试图弄清楚如何制造生物武器。它试图运行一个湿实验室。”

    原则上你至少可以走得很远,理解在逃脱的情况下它会做什么。在某种程度上,它做的事情更明显地恶意,我认为这可以激励额外的行动。但我确实担心任何不会造成大规模损害和潜在人类死亡的预警信号可能不会触发强烈的反应。

    缓慢的AGI崛起会是什么样子? [00:55:33]

    Rob Wiblin: 我们已经深入探讨了一个相当令人眩晕和担忧的情景,我想部分原因是如此疯狂的事情与我们现在的观察如此一致,这本身就很有趣。这也是一个我们认为现在可以做很多事情的情景,或者是一个事情可能变得相当糟糕的情景,我们应该可能采取预防措施和准备,以弄清楚我们将如何降低这种风险。

    只是为了平衡,如果我们能讨论一些更平凡、更无聊、也许希望不那么可怕的可信情景,那将是很好的。所以人们不会认为这是事情发展的唯一方式。因为事实上,一个关键的结论我认为只是我们对这些不同的事情如何发展有非常广泛的误差范围。

    Ryan Greenblatt: 是的。我认为也许一个好的起点是我们谈了很多关于时间表的问题。时间表可能更长,对吧?所以我说的中位数或50%概率是现在起8年内实现完整的AI实验室自动化。但之后有一个长尾,所以有世界它远在那之后。可能进展要慢得多,更渐进。事情需要很长时间来整合。也许世界有更好的理解,更多的时间进行实验,这可能使情况好得多。

    除此之外,可能是非常长的时间表——或者更长的时间表,我应该说,我不知道关于非常长——起飞我们也应该预期更慢。我认为短时间表,广泛地说,与快速起飞相关,因为它表明我们正在做的事情的回报更高。所以更长的时间表。

    另一件事是AI研发可能极度受限于计算。所以即使在你自动化了整个AI公司和所有员工的时候,你也比有人类员工时快不了多少。在极端情况下,也许你只快了2倍。你甚至可能比那更慢。但我认为那在我的误差范围的低端。我认为那可能相当不可信,但2倍或3倍是可信的。

    然后可能是你在那之后很快遇到收益递减,所以你没有真正加速那么多。那将意味着情况在起飞方面看起来好得多,因为你得到了一个不那么激进的起飞。

    另一件事是AI进展的默认速度已经相当快。所以我甚至担心——没有加速,只是在默认轨迹上——如果我们达到AI有足够能力自动化整个AI公司的点,也许即使它不会带来太多加速,并且在那之后很快有一些风险,在正常的政府时间内,仅仅来自默认的进展速度。

    但我认为有一些可信的论点认为未来的进展速度会放缓。特别是现在,进展依赖于投入越来越多的计算,越来越多的投资。如果情况停滞,投资减少,但我们仍然以接近相当高的产能运作,我们可以想象一个世界,AI行业最终成为一个每年可能证明数千亿美元计算支出的行业,也许甚至更多,但不会比那多得多。

    在那个制度中,如果我们不投入越来越多的计算,那么我们不会从硬件扩展中获得进展,算法进展也会更慢。所以也许现在的速度是我们每年获得13倍的有效计算——其中一些是算法,一些是计算。我认为如果计算是固定的,我们可能有每年2倍或3倍的进展。在计算增长较慢的制度中,可能介于两者之间。

    Rob Wiblin: 好的,所以那将是一个更慢的起飞。对齐是一个相对直接的问题的可能性有多大?或者甚至根本不是问题,我们只是被迷惑了,我们生产的所有这些AI基本上都默认想要帮助我们?

    Ryan Greenblatt: 嗯,从我角度来看的一个重要问题是,不同能力水平的各种AI积极密谋反对我们的概率是多少?我认为进入非常超人的能力而没有AI非常积极地以某种强烈的意义密谋反对你是相当可信的。我目前的观点是,如果你基本上不采取任何对策;你基本上只是沿着能力的最有效路线前进,大约是25%。然后一旦我们开始考虑对策,它可能会低得多,这种风险在这个早期点也可能更低。

    一个希望的故事是你有这些能够自动化整个AI公司的早期系统。这些系统没有密谋反对你。你做了额外的对齐工作,使它们也尽力——它们实际上试图追求对齐研究;它们试图预测风险——这也许默认不会发生,即使它们没有密谋反对你。可能是事情没有密谋反对你,但事情仍然偏离轨道。但如果它们没有密谋反对你并且你避免了事情偏离轨道,那么也许我们就是好的。我们移交给AI。AI管理情况,它们意识到未来的风险。它们用相同的属性构建另一个系统,那可以自我维持。

    另一个情景是可能一个更强大的事情默认是真的。可能是你训练AI,用一个相对naive的——你商业上默认会做的——训练策略,它们真的只是,开箱即用,非常努力地帮助你。它们真的很好。也许甚至它们只是在某种非常广泛的意义上对齐。不仅仅是它们是短视的;它们真的试图为世界追求好的结果。我认为这是可能的,但比前一个情景更不可能。

    另一件事是有一个问题,它是默认发生的吗?它也可能只是因为我们投入了大量工作而发生,我们可能处于一个更好的位置。很难对在未来八年内会发生多少对齐或安全工作有太多信心。如果我们有八年时间,社区可以建立。AI会随着时间的推移变得更有能力。更多的人会从事这方面的工作。似乎可能有诸如大的洞察力,但即使抛开大的洞察力,也许只是诸如我们真的推进了我们的技术,我们已经调整了科学。

    所以有一些时间线,我会说,可能是技术希望。然后有更广泛的社会希望类别。有一些故事中社会在未来更认真地对待这种情况——也许是一部分国家,也许是更广泛的科学界。可能是因为一个预警信号。也可能只是因为慢慢地人们接触到AI,时间线可能更长,更多的人与它互动。

    似乎也可能发生一些与错位风险不太相关的大事件,但实际上有很高的转移。所以也许有很多失业会促使大规模反应,其中一些反应进入减轻错位风险——要么非常直接,就像人们说“AI在这个方面是一个大问题,所以也许在那个方面是一个大问题”——但也可能更间接:它导致AI进展缓慢或更谨慎,因为有更多的监管。

    Rob Wiblin: 还有其他有希望的类别,还是那基本上涵盖了?

    Ryan Greenblatt: 所以在时间线和起飞上容易的事情,在技术上容易的事情,还有社会上的。第四个类别是我们迎难而上。也许即使社会没有迎难而上,也许只是一系列英勇的努力——或者希望不那么英勇——

    Rob Wiblin: 如果一个公司,真正领先的公司,结果实际上非常负责任,在这方面投入大量努力并且成功。

    Ryan Greenblatt: 是的。我认为很多风险来自这样的世界,如果你只有一年的延迟,你非常认真地对待情况,你深思熟虑地考虑各种考虑因素,你本可以拯救世界。或者至少风险要低得多。也许它没有被最小化或消除。当然我不会说这会导致从我的角度来看广泛可接受的风险水平。但我不知道。它可能发生。

    Rob Wiblin: 酷。你确实在那里让我振奋了一点,提醒我事情可能有其他发展方式。

    为何智力爆炸可能8年内不会发生? [01:03:32]

    Rob Wiblin: 有什么证据表明这可能需要比四年甚至八年长得多的时间?

    Ryan Greenblatt: 首先,我应该重申,我不认为我们会在四年内看到完全自动化或完全自动化AI公司的能力。所以我必须认为有一些证据表明这不会发生。

    我认为人们应该开始的第一件事是对特定时间框架内发生疯狂事情的怀疑。所以我认为有一些证据表明我们可能预期它很快——你知道,我们有快速的AI进展,我认为这已经击中了很多事情——但如果你只是像,迄今为止我们有多少进展?这个领域已经进行了多久?你从一个非常外部视角的优先角度出发,你在想,技术的基准率是什么,那么你不期望在未来四年内——因为这是一个疯狂的技术。

    我甚至认为基准率可能比人们倾向于认为的更乐观。我认为通常当人们做这种外部视角的基准率事情时,他们最终会得到200年的时间线或类似的东西。但实际上,Tom Davidson有一份报告,如果你只是最naive地应用外部视角,你实际上在本世纪内有相当高的概率。

    Rob Wiblin: 这是因为在该领域的投资增长非常快吗?我们只是增加了投入计算的量级,所以如果难度分布在log空间,那么我们实际上——

    Ryan Greenblatt: 资源和计算和劳动力。是的,我们已经跨越了很多。所以这是一个观点。

    你也可以只是说,即使你只看时间,我们做严肃的AI研究的时间并不长。你可以用我们做深度学习多久了?有人做AI多久了?如果你把这些混在一起,感觉强大的AI很快在某种意义上并不是那么不可能。

    但我仍然认为,先验上有多不可能表明要长得多,我认为这让我倾向于更长。

    一般来说,另一个让我倾向于更长的观点只是,AI相当聪明,但它们没有那么聪明。我认为我们只是不能有那么多信心下一部分进展是可以做到的。

    然后有一些更具体的对象层面的论点。

    抱歉有点转移问题,但我总是忍不住要提出一些你提出的短时间线的论点。所以关于短时间线的另一个我认为相当重要的观点是,我们正在经历很多以前没有经历过的计算和劳动力的数量级。现在非常快。

    除此之外,我们正在经历的数量级在某种程度上高于我们对人类大脑计算的最佳猜测。所以我们这些不太好的估计表明,人类大脑使用的计算可能是10^24作为人类大脑计算寿命的中央估计。目前的训练运行大约是…我认为刚刚训练的Grok 3,我看到估计大约是3 x 10^26——所以比人类寿命高出两个半数量级。

    然后我们可能会认为,你首先达到能够基本上击败人类的AI,高于人类寿命计算——因为我们通常开发的算法首先比生物学效率低,然后它们可能相当快地变得比生物学更高效。

    这在文献中,在Ajeya旧的生物锚定报告中,熟悉的人称之为“寿命锚”。我在寿命锚上放了相当大的权重。它看起来相当不错,因为我们在达到人类计算时达到了这些大约人类水平的能力。所以感觉这个模型有很多支持,那表明我们可能在几个数量级的更多计算中达到它。

    我们只是非常快地燃烧这些数量级的计算。作为背景,我认为训练运行计算每年增加约4倍。所以你每年相当快地经历很多数量级。大约是每年略多于一个数量级的速度。

    而且,我只是总体上认为我们应该在AI发展的计算中心观点上放一些权重——在AI发展的计算中心观点上,即使比寿命锚更不具体,我们从相当有竞争力的起点开始燃烧很多数量级。也许我们走得很远。

    现在相对于这一点,悲观的情况是我们只能在数量级上走这么远,对吧?我们离你能生产的芯片总数不远了。我可能搞错了统计数据,但一个相当大比例的台积电或半导体制造能力正用于机器学习芯片。我的缓存数字是10%到20%。我希望我不会大错特错,但我认为肯定高于1%。远高于1%。

    所以关于这一点有趣的是,英伟达的收入大约每年翻一番,我认为AI的晶圆数量或无论什么——我希望我不会在这里粗暴对待;我不是半导体专家——我认为AI的半导体每年增加略高于2倍。简单起见,让我们做一个略乐观的估计,比如每年3倍。值得注意的是,如果你从20%开始,每年增加3倍,你没有多长时间就会达到限制。

    Rob Wiblin: 你把所有的芯片都用于这个。

    Ryan Greenblatt: 是的,你使用了所有的芯片,一旦基本上像所有的晶圆厂都在生产AI,你只能走这么快。

    Rob Wiblin: 我想那时你受限于它们能多快建造新的晶圆厂,基本上。

    Ryan Greenblatt: 是的,受限于它们能多快建造新的晶圆厂。

    还有其他进展来源,要清楚。所以即使我们受限于建造新的晶圆厂,仍然有可能从硬件随着时间的推移改进中获得进展,也有从算法发展中获得进展的来源。尽管我认为一个关键的事情,也许人们没有足够跟踪的是算法发展也是由投入更多计算驱动的。所以我们应该预期算法发展会放缓。

    所以我认为悲观的情况是:AI继续发展。我们已经达到了 insane 的投资水平。当你开始达到台积电的限制时,投资必须更高以证明建造新的晶圆厂是合理的。

    或者可能在达到大部分台积电生产之前,人们只是没有看到足够的结果来证明这些投资水平。我认为微软、谷歌,它们可以证明像…我认为微软今年计划约1000亿美元的资本支出。Stargate有约1000亿美元的承诺,也许那是一两年内的,然后也许它们希望得到更多的钱。Stargate是OpenAI的一个项目。

    但我认为一旦你超出这个1000亿美元的制度,不再只是有一个超级相信的大科技公司,对吧?谷歌没有能力轻易花费一万亿美元,尤其不是一年内的一万亿美元。我的意思是,我认为筹集一万亿美元并非不可能,但我认为你可能需要非常令人印象深刻的结果,你需要开始吸引更多怀疑的投资者,更多收入。你需要谈论潜在的主权财富基金。当然有可能——

    Rob Wiblin: 美国政府可以提供那种钱。

    Ryan Greenblatt: 是的,这是真的。当然有可能。

    Rob Wiblin: 尽管我猜如果你试图一年内在这个东西上花费一万亿美元,你开始遇到其他瓶颈。

    Ryan Greenblatt: 当然。是的,是的。我目前不知道这里的弹性是什么。我认为Epoch做了一些估计,比如到2030年你能做的最大的训练运行是什么?我认为它们的中位数,在人们继续积极投资的 timeline 中,可能是你可以达到10^30 FLOP的训练运行——这考虑了数据瓶颈,芯片之间带宽的各种考虑,芯片、芯片生产可以扩展多少,台积电正在建设多少产能,这类事情。

    我的猜测是,独立于AI加速,这可能是一个相当合理的猜测。AI加速可能使这更快。但如果我们在一个看涨的时间线中,但不是一个AI已经开始加速的看涨时间线,我猜这是一个相当好的估计。但有可能我们偏离了,因为也许瓶颈比它们预期的更难,也许投资干涸得更快。希望它们不会因为这个批评我,但我认为它们没有考虑到这个支付意愿。

    但在2030点之后,我认为事情开始变得困难得多。我认为如果我们达到10^30 FLOP——你知道,裸金属FLOP,GPU实际运行的计算——从我们现在的位置,略高于10^26,那么我们在未来五年内达到四个数量级。所以相当快。

    我认为这足以让我们原则上看到我们已有的趋势继续,比如我们已有的趋势。我认为我们有一点GPU停滞。我认为我们将有GPU开始建立。我认为在GPT-4之后有一点停滞,因为人们试图购买所有的H100。我认为我们会看到更多H100的模型,比如GPT-4.5,然后我们会看到另一轮Stargate,这是另一个大的建设。SemiAnalysis推测Anthropic从亚马逊那里有大量芯片,可能相当于大约100,000或200,000个H100,所以我们会看到另一轮100,000到200,000个H100集群。然后我们可能会看到,我要把日期搞错了,但可能在2028年左右,我们会看到更多百万GPU的范围。

    但如果我们那时还没有达到非常强大的AI,我认为你应该预期事情会放缓。有更长的尾巴,我们在2030年、2032年左右吃掉大量计算,然后进展必须逐渐减少——除非我们达到非常强大的能力,或者我们都错了关于你能多快建造晶圆厂或你能筹集多少投资。

    但我认为很多悲观的情况是也许你做了很多扩展,但你达到了这些限制。不是全部。

    Rob Wiblin: 所以对于没有完全跟上的人来说,简短版本是,我们目前正在迅速增加用于训练AI的计算量。我们将无法保持这种速度,因为我们目前是通过将原本用于其他目的的芯片拿来用于机器学习。

    而且,这些公司从将1%的资源用于AI开发到10%——然后也许它们可以达到100%,但它们不能仅仅通过将原本用于其他事情的资源拿来超越这一点。

    所以当几乎所有芯片都用于AI训练,几乎所有这些公司的资源都用于此时,它会使你在那里可以获得的增长率趋于平稳。

    Ryan Greenblatt: 当然。关于这一点可能有几点小的说明。一件事是,当你考虑重新利用芯片时,这不是像它们把iPhone芯片重新利用。而是有相对通用的芯片制造能力,现在我们不是制造那么多iPhone,而是制造更多AI芯片。其中一些来自建造额外的晶圆厂,但一些来自稍微提高其他芯片的价格,或减少你得到的数量。

    当AI处于20%或30%的制度时,它不会对多少其他芯片的成本产生非常明显的市场影响,因为台积电可以稍微更快地扩展以跟上。但一旦AI芯片达到80%或100%,那么我们将开始看到更大的影响和从那以后的事情放缓。

    AI进展预测的关键挑战 [01:15:07]

    Rob Wiblin: 另一个使预测这一切有点困难的是,我们不只是年复一年地做完全相同的事情;我们不是年复一年地遵循相同的趋势。

    最初,例如,我们通过将更多计算投入预训练获得了大量改进。这是你从互联网上转储所有文本并试图让它预测下一个词的事情。我们通过投入更多数据和更多计算从中获得了巨大收益。但那逐渐减弱,我们必须转向更好的引导,使用训练后的人类反馈强化学习。然后我们做不同的事情,最初非常有效,但随后开始趋于平稳。

    我想现在我们正在使用强化学习做一种自我游戏,模型学习更好地推理,基本上我们只是在它们得到正确答案时强化它们。我们在这上面有一个非常陡峭的曲线,但大概在某个点上那将趋于平稳,我们必须做不同的事情。

    如果我理解正确的话,这使得它更加困难,因为我们不知道明年会有什么创新来推动改进。

    Ryan Greenblatt: 是的。从GPT-1到GPT-2到GPT-3到GPT-4的改进——然后也许在那里,2023年有一点停滞,然后在2024年回升——我认为很多改进,直到2024年中左右,是由扩大预训练驱动的,比如投入更多数据。

    有一种说法是预训练已经碰壁了。我不太清楚这是怎么回事。可能是它的回报相对递减,或者进一步扩展的边际回报比过去在定性能力上要低。

    基于一些感觉,我们有Grok 3——比GPT-4多大约10倍的计算和更好的算法——它有多好?它稍微好一些,但也值得注意的是,在之前的改进中——比如GPT-3到GPT-4的差距——那是更多的计算。我认为那个差距大约是裸金属计算的100倍。结果证明当时在快速扩大你花费的FLOP方面有很多低垂的果实。

    现在我们遇到了瓶颈。在GPT-4之后,它们在某种程度上等待H100。H100交付缓慢。我们有点晚才让H100集群上线,也许最初在让它工作上有一些困难。所以GPT-4.5,有点令人失望。我认为有传言说OpenAI有多个,或至少一个失败的训练运行。

    Rob Wiblin: 哦,哇。

    Ryan Greenblatt: 所以如果我们看到人们适应更多计算,弄清楚如何使用它,预训练的回报从那里上升,这并不奇怪。

    那是预训练,也许即使预训练在递减,你可以扩大RL,强化学习。我们在2024年看到了这一点。我们有o1,它们在RL上训练。它们在容易验证的任务上训练,不是在下一个词预测上训练。我们已经从中看到了很多初始回报,我们不知道那会在哪里减弱。

    你知道,我们在RL训练上没有看到那么多数量级。例如,推测DeepSeek-R1在RL上花费了大约100万美元的计算。所以原则上我们可以将其扩大到三个数量级更高,与人们将拥有的集群相当。也许略低于那,但大致如此。

    一旦我们谈论三个数量级更高,可能是那会产生巨大的回报,或者可能不会。

    产生巨大回报的故事是它从第一个百万中产生了巨大回报。也许你只是走得更远,建立更多的环境,做更多的RL大回报。不会的故事是也许模型有一些潜在的容量或潜力,RL正在释放。我们已经释放了大部分潜力,我们遇到了收益递减。

    Rob Wiblin: 所以为了回来说,对于没有非常密切跟踪的人来说,值得记住的一件事是我想我们过去经常使用强化学习,然后它有点落伍,现在又回到了前沿。

    这是你拿现有的模型,GPT-4o或类似的东西,你给它非常具有挑战性的推理问题,你也许让它尝试100种不同的解决方案,1000种不同的解决方案。基本上你只是找到它最终得到正确答案的情况,然后你说“做得好。像那样推理以尝试以你刚才做的同样方式解决其他问题。”这被证明是极其强大的。

    我想你说的是这可能在捡一些低垂的果实,这些模型在权重中有更多的能力来做聪明的推理,比最初明显的要多,比我们能够从它们那里得到的要多。通过使用这个过程让它尝试各种不同的解决方案,然后找到运作良好的推理过程,我们正在提取大量只是坐在那里等待被捡起的东西。但那可能会有些耗尽,在这一点上,对它们来说基本上学习新的优越推理技术将是一个更重的提升。

    Ryan Greenblatt: 是的,没错。人们试图让模型进行链式思考推理。所以在GPT-4的时候,人们完全意识到你可以做链式思考推理,并在这方面折腾。但我认为它只工作得这么好。模型在从错误中恢复方面不是那么好。它不是很擅长仔细推理事情。

    我认为我们现在看到的是,借助o1、o3和其他推理模型,可以让模型相当出色地进行推理。其中很大一部分可能已经通过思维链(chain of thought)实现了——模型已经在某种程度上做到了这一点,或许你只是让它变得更好一些,但问题在于能好多少。

    Rob Wiblin: 你提到的另一个低垂果实是,有时候我们给这些模型非常困难的挑战,却只给它们价值1美元的计算资源。而人们发现,如果你实际给它们更像人类会获得的资源——比如价值100或1000美元的设备和薪资——那么它们在更公平的比较中会表现得更好。

    但你不能再次这样扩展了。你可以从1美元到1000美元,但如果从1000美元到10万美元,那就是真金白银了。问题是,给一个模型这么多资源只是为了解决一个数学问题,这在经济上是否真的有用?

    Ryan Greenblatt: 是的。还有一点值得注意的是,即使这在经济上是可行的,我们很快就会遇到计算资源总量的限制。

    假设你让模型完成一个价值10万美元的任务。我做了一个粗略的估算(BOTEC),我的感觉是,至少在几个月前,OpenAI拥有的总计算资源大约是每小时50万美元。所以,如果是一个10万美元的任务,那么你会占用OpenAI全部计算资源的五分之一,持续一小时。所以你能做的这种任务是有限的,对吧?即使有些任务在经济上非常有价值,你也会遇到瓶颈。

    Rob Wiblin: 因为这会推高价格。

    Ryan Greenblatt: 是的,这是供需关系。即使某些任务非常有价值,你能做的扩展也是有限的。而且,人们已经展示了不仅达到人类成本,甚至远高于人类成本,还能获得额外回报的例子。

    这其实挺好的,因为它让我们得以窥见未来。我认为,如果你看到模型能以高成本、慢速完成某项任务,我们很快就能以低成本、快速完成同样的任务,因为成本正在迅速下降。

    Rob Wiblin: 我们可以画出这条曲线。

    Ryan Greenblatt: 是的,我们可以画出这条曲线。所以我对那些对AI能力持怀疑态度的人抱有希望,也许我们首先可以用极高的运行时计算资源和大量领域特定的引导来展示某些能力,然后很快就不再需要这些了。希望在那之前,我们能在能力广泛使用之前达成某种共识。

    AGI的悲观情景 [01:23:01]

    Rob Wiblin: 我们刚才一直在讨论悲观情景,或者说认为这需要很长时间的情况。

    Ryan Greenblatt: 我真是个糟糕的悲观者。

    Rob Wiblin: 好吧,我来试着提出一个我听到的悲观论点。AI可能在相当狭窄的任务上变得非常出色,比如成为非常优秀的程序员,或者在创意生成、假设生成、设定等方面做得很好。但运营和扩展一家AI公司需要的不仅仅是这些,它们会有一些严重的短板和弱点,这会成为限制因素并减缓进展。你觉得这种观点有多合理?

    Ryan Greenblatt: 这里有一些背景:历史上,正如我们所说,很多回报是由预训练驱动的。然后从2023年底到2024年,强化学习(RL)开始发挥作用——GPT-4 Turbo的很多改进可能是由RL驱动的,或者随着时间的推移而改进。这是推测,但GPT-4o是一个更好的基础模型,同时也得益于更好的RL,然后是o1,更好的RL。这在编程任务、编码任务、数学任务等更容易验证的任务上推动了基准分数的提升。

    现在,我们看到了一些迁移。解决这个问题的一种方法是,也许你可以让AI在编程上变得非常超人类,在软件工程上也非常超人类——虽然验证起来更难,但至少部分是可以验证的——在数学上也非常超人类。然后这会在一定程度上迁移。

    所以,可能的情况是,标注其他东西的成本非常高。我们可以评估人类在其他领域的表现;只是无法自动完成。比如你可以评估一篇论文的质量,我们有这样的流程,它有一定的信号;只是成本更高。所以原则上,如果AI几乎可以迁移到写出好论文,只需要一点点反馈——它们的样本效率很高——那么这可能会走得很远。

    另一个值得注意的是,我认为有一种“不需要泛化”的故事。或者说几乎不需要泛化。所以可能的情况是,你几乎可以让它工作,或者基本上工作,仅仅通过在成为真正优秀的研究工程师的过程中直接进行RL。我们可能能够达到这样一个点,即通过扩展RL、拼凑起来,几乎完全自动化AI公司的研究工程,而不需要太多迁移。抱歉,我们需要领域内的泛化——我们需要AI在领域内相对快速和高效地改进——但即使AI没有很好的研究品味,或者在这些方面不是很出色,这也能走得很远。

    此外,即使只是领域内、不需要太多迁移,你可能也能在运营AI公司的其他方面做得非常好。所以我们有这些研究工程师AI,一方面:也许这会让进展更快,然后我们启动更多进展,最终得到一堆其他东西。我稍后可以详细讲这个故事。

    但另一方面,如果我们有这些研究工程师AI,但它们没有研究品味,也没有其他更难训练的东西……

    嗯,我们所说的研究品味的一部分是理解实验的结果可能是什么,有好的预测,能够基于较少的证据理解发生了什么。对于这一点,你也许可以训练AI成为ML研究实验的超强预测者。

    如果你训练这些AI成为超人类的ML项目预测者,它们基于生成大量小规模ML项目来预测结果,并对更大规模的ML项目有一定的迁移——这不太容易直接获得数据——那么从那里你可能会得到这些AI,它们能像Ilya Sutskever或Alec Radford那样预测实验结果。也许它们不那么依赖洞察力,而更多是机械地生成一长串想法,预测它们的效果如何,然后从这里继续。

    我认为基本上有很多这样的路径。另一条路径是也许你可以在领域内做到这一点,这在自动化AI公司方面可以走得很远。

    这里的一个重要星号是,我认为怀疑论者可能会对我尖叫:“但除了自动化AI公司之外的其他事情呢?!”我想他们可能会说,好吧,AI研发,我想这是可以验证的。但人类做的所有其他反馈循环更慢的事情呢,比如成为一个优秀的战略CEO?

    Rob Wiblin: 融资?

    Ryan Greenblatt: 融资,所有这些其他事情。所以我想把这个问题暂时搁置,但也许我们稍后会回到这一点。

    然后我想说的第二点是,有领域内的故事,也有更泛化的故事——你在所有这些狭窄任务上训练AI,它们变得更聪明;只需要一点点数据,它们就能迁移到这些领域外或我们没有大量数据的事情上。我认为这可能是介于两者之间的某种插值,因为很难获得大量关于长周期软件工程任务的数据,所以你可能需要一点迁移,但你可以做很多数据。

    然后我认为还有第三个故事,就是人们只是弄清楚如何通过其他机制在更难验证的任务上进行RL,使用更像基于过程的检查,或者能够通过自我批判、构建更详细的检查来进行RL。

    有趣的是,人类能够通过某种自我批判的概念在许多有点模糊的任务上学习——我做得怎么样?我应该多做还是少做这样的事情?我认为AI目前可以做到这一点,但不是很出色。我可以想象随着时间的推移这会变得更好。

    我认为我们一次又一次看到的是,如果某个东西是能力的限制,那么更广泛的ML社区中有巨大的马力,但我想在AI公司中,人们会集中精力推动这个限制,无论它是什么。

    转向“推理时计算” [01:28:46]

    Rob Wiblin: 过去一年有一个转变,从几乎所有或很大一部分计算资源用于训练运行,转向更大一部分用于推理或运行时计算——所以不是用你的计算资源让模型在预测下一个词或训练期间更有可能获得正向强化方面变得更好,你实际上是给它大量的时间来思考你给它的具体任务。

    这如何改变我们在自动化大量AI研发时的情况?很多人认为,在推理计算为中心的模式下,这会稍微减慢速度,因为你会受到很大限制:如果事实证明运行一个AI研究员的等价物需要大量的计算资源,那么至少一开始你只能拥有100或1000个等价物,然后逐渐增加。

    Ryan Greenblatt: 一方面,如果推理计算没有纳入你之前的模型,那么它应该会让你对相关里程碑的时间线更短。但也许我们第一次达到某个里程碑时,成本会非常高。所以也许我们首先能做到的是,我们有一个AI,可以以每年大约1000万或2000万美元的计算成本自动化我们公司的一个研究工程师的工作。

    正如我之前提到的,计算资源的供应实际上是有限的。所以即使原则上你愿意自动化所有员工——也许你愿意以每年1000万美元的成本自动化1000名员工:那就是每年1000亿美元,这已经接近公司在这种情况下的计算资源总量了,对吧?所以我们可以看看人们总共投入了多少资本支出?这大致在同一数量级。

    如果比这更极端——也许更像是每年1亿美元——那么突然间,他们可能根本没有钱做这个,也可能没有计算资源做这个。而且,这可能在经济上也不可行。

    也可能是,使用这种推理计算太慢了。也许如果你能让它更快,它就能工作,但很多扩展推理计算的方法可能会让它串行更慢,这会减少AI的很多竞争优势。

    Rob Wiblin: 你这是什么意思?只是因为它必须一个接一个地做很多事情,实际上输出一个答案需要很长时间?

    Ryan Greenblatt: 是的,比如o1回答问题的速度通常比人类慢,因为它花了很多时间思考。而之前的AI几乎总是比人类快,现在o1有时更慢,或者更常见的是在同一水平。我们可能会看到涉及更多串行步骤的推理时间扩展具有这种特性。我认为有各种方法可以缓解这个问题,所以我不认为这是一个巨大的障碍。至少在优化之后,我猜不是,但一开始可能是个障碍。

    所以总的来说,我认为推理时间计算应该让我们预期在能力变得经济之前就能看到能力,并且在小规模之前就能看到能力。

    而我认为在纯粹的预训练范式之前,一个令人惊讶的事情是,你天真地预期在能力首次可用时,你可以以该能力水平运行真正庞大的数量。我的感觉是,这在广义上仍然是正确的,基本上是因为我认为高推理计算的蒸馏相对较快,而且推理计算我认为只能让你走这么远。

    所以我认为它可以带来巨大的收益。但我认为你必须量化这些收益有多大。所以如果这可以相对较快地被蒸馏掉,我认为我们已经看到了——比如从o1到o3 mini,我们看到蒸馏进展相当快——在扩展训练的同时,也能更有效地将其蒸馏成一个更小的包。

    Rob Wiblin: 所以蒸馏是让模型变得更小,同时性能几乎一样好。所以你可以并行运行更多,或者它可以更快地给你更多答案。

    Ryan Greenblatt: 是的,我应该说蒸馏是一个更广泛事物的特例,有时候至少在最初,让某物变得更便宜比让它变得更好更容易。所以假设我们有一些新的能力正在展示,我们推动了前沿,然后我们可以相当快地将该前沿点的成本降下来。蒸馏是你用一个大模型的输出来训练一个小模型。

    Rob Wiblin: 在推理计算范式中,这两件事不是有点趋同吗?因为你说,如果你能让它小十分之一,而它的思考能力几乎和以前一样好,那么你可以让它思考的时间实际上是以前的10倍?

    Ryan Greenblatt: 是的,但当然推理计算的回报可能会很快递减。这可能不是最相关的基准,但例如在ARC-AGI中,我们看到他们从每个任务大约3美元或10美元到超过1000美元。所以成本的增加大约是两到三个数量级。在这两到三个数量级的成本中,他们将性能从大约76%或75%提高到85%。而对于人类来说,我认为从75%到85%的进步并不大。

    类似地,我们看到像如果你对模型采样64次,你从中选择最常见的答案,你从中看到的改进相对较小。所以总的来说,我认为问题是这些推理时间策略的效率如何?我认为这取决于策略,但你可能会遇到收益递减。

    预训练的效果减弱了多少? [01:34:22]

    Rob Wiblin: 这里的总体主题是关于预期AI研发自动化更早或更晚的论点。还有没有其他关键因素我没有给你机会谈到,会影响这个问题的一个或另一个方向?

    Ryan Greenblatt: 我认为一个重要的问题是,有些人转向认为预训练可能遇到了瓶颈。所以我想深入探讨为什么这可能是真的——在多大程度上这是真的——以及这有多真实。

    所以我认为一个重要的原因是,可能是数据质量和数据量存在问题。你知道,DeepSeek最近用很少的钱训练了DeepSeek-V3,他们在大约15万亿个token上进行了训练。所以可能的情况是,你可以在大量数据上进行训练,但可能在数据质量方面收益递减非常陡峭。

    关于这一点有多少公开证据并不多。但如果这是真的,那么可能的情况是,一旦你在前15万亿个token上进行了训练,接下来的15万亿个token的价值就会低很多。

    如果你想象将DeepSeek-V3的训练运行规模扩大10倍,那么基于Chinchilla缩放法则(这只是你应该如何并行扩展模型大小和数据量的多少),你会将数据量扩大3倍,模型大小扩大3倍。如果你这样做,你会达到45万亿个token。所以可能的情况是,如果你在45万亿个token上训练,接下来的30万亿个token会差很多——要么是因为在相同的token上重复训练,要么是因为token的质量更低。所以可能的情况是,你可以拉伸得很远,但由于数据过滤,收益从现在开始递减。

    这可能是为什么预训练扩展在过去看起来比现在更有前景的一个原因,因为过去的过滤更差。也许从GPT-3到GPT-4的很多改进是因为他们在更多的token上训练,他们得到了更多好的token。但现在我们处于一个可以真正提取出好的token并确保在它们上训练的状态,这可能会导致收益递减。

    所以我认为这是为什么我们可能预期预训练会更慢的一个原因,但我不认为这是预训练回报会完全消失的论点。你可以只是在更差的token上训练,训练更多的epoch,找到方法从相同的token中榨取更多的汁液并获得这些。但你会看到进展的速度更慢。

    除此之外,还有一种选择是不做预训练,而是做更多的RL。我们之前讨论过一点,也许RL有收益递减。但即使收益递减,可能仍然足够高,比预训练更高,你可以投入指数级更多的计算,得到线性更多的性能——但定性地,线性更多的性能是一个很大的进步。

    除此之外,我认为我们对所有这些有多真实非常不确定。而且即使回报比人们之前认为的要弱,可能仍然有很多扩展空间。

    Rob Wiblin: 好的,试着把其中一些内容反馈给你:预训练是我们获取大量信息、文本语料库,试图预测下一个token。看起来在过去,扩展输入这一过程的数据量非常有价值。但有可能这在某种程度上正在趋于平稳。

    你说这其中的部分原因是,他们在某种程度上实际上已经耗尽了可以收集的新数据。他们几乎已经抓取了人类实际编写的所有优质文本。但同样,随着时间的推移,他们变得更善于过滤出实际上高质量的token,他们希望模型大量训练的高质量内容,以及那些他们可能可以丢弃的东西。所以他们可能保留了出版的书籍、教科书之类的东西,并在其上额外加权。然后从互联网上抓取的没有任何特定信息的随机垃圾,他们设法排除了这些。

    我想你说的是,过滤掉好东西后,他们唯一能添加的东西质量真的很低,所以他们实际上从中没有得到多少汁液。这可能有助于解释为什么数据扩展现在没有像以前那样增加那么多价值。

    但你说他们可以把投入到这方面的努力用来改进强化学习过程——这是另一种尝试改进模型的方法:奖励它成功回答问题,奖励它在过程中有好的思考。我理解得对吗?

    Ryan Greenblatt: 是的,没错。我认为人们有时也会谈论合成数据。我喜欢把合成数据看作是RL的一种粗糙版本。你做的就是用另一个模型生成一些数据,然后让这些数据比它默认生成的数据有所改进。所以也许你只选择它做对的情况;也许你让它修改它的答案,或者你让它尝试解决数学问题,然后你给它看正确答案,然后你让它修正它的思维链。你把这些扔进预训练语料库,也许这些数据有些价值。

    这在某种意义上类似于RL,因为你找到好的模型轨迹并在其上训练,但它可能有稍微不同的属性。你可以扩展这个,生成大量合成数据,我认为这会带来一些回报;我认为这会带来一些改进,你可以进一步扩展。

    所以让我试着提出极端的悲观情景。极端的悲观情景是:DeepSeek-V3最近发布,训练成本为500万美元。与此同时,我们看到Grok 3也发布了,或者DeepSeek-V3在更早一些。成本的差异大约是两到三个数量级,大约100倍。我认为DeepSeek-V3是在大约2000个GPU上训练的。Grok 3是在大约10万个GPU上训练的,非常粗略地说。所以可能接近50倍左右,大概在这个范围内。所以我们在预训练计算上有这个50倍的因子。

    然后如果你看DeepSeek-V3,至少在定性上,它并不比Grok 3差很多。那么这是怎么回事?是什么解释了这些回报?

    有数据扩展的故事,也就是,也许他们已经在最优质的15万亿个token上进行了训练,而xAI能够凑集的东西没有那么好。所以他们扩展了模型,扩展了数据,也许他们从中没有得到惊人的回报。

    另一个故事是回报很弱,从我们拥有的证据来看这是可能的。然后问题就归结为,你能转向更像RL的东西吗?

    然后我认为另一个重要的故事——也是我模型中的一大部分——就是我认为DeepSeek相对于xAI有实质性的算法优势,至少现在是这样。我认为DeepSeek-V3可能只是一个更优化的训练运行,他们更有效地使用了FLOP——既因为更好的硬件利用率和在更低精度上训练,这是一种技术,不是用更大的表示存储数字,而是用更小的表示。它更高效一些。你只是用更低的精度做,但你可以得到类似的性能。

    除此之外,我认为实际上有一个更好的调优流水线和更好的架构。也就是说,DeepSeek能够拥有更好架构的一个重要原因是他们进行了小规模的训练运行,这意味着他们可以在该规模上运行更多实验,真正解决所有问题。所以也许你可以解决问题,但每次你第一次扩展到更大的规模时,你会遇到一些问题。有一些关于这在OpenAI发生的传言;xAI可能也遇到了类似的事情。所以我认为我们看到了一些这样的情况。

    所以也许我的观点是,Grok 3相对于DeepSeek的实际有效计算量大约是10倍,如果我必须猜测的话。也许比这多一点。是的,我认为大约是10倍,因为它可能是50倍的实验,但然后有一堆效率提升缩小了这个差距。可能我在这里有点偏离,也许有人会指出这一点,但这是我的猜测。

    然后我想,这个10倍的扩展是否符合你定性的预期?你知道,它实际上确实好很多,所以我不认为如果这是10倍的扩展看起来像这样,另一个100倍可能会相当重要是完全不可信的。所以这里有点更多的乐观情景。

    我认为AI进展中发生的另一件重要的事情是很多人说:“Grok 3比GPT-4好不了多少。那是两年前的事了,进展非常缓慢。我们在做什么?”但我认为重要的一点是,人们正在将其与最近发布的GPT-4模型进行比较,而不是最初的GPT-4版本。所以我认为OpenAI在这里的命名约定让人们像温水煮青蛙一样低估了进展的速度。

    所以我们在2023年初,接近2023年初,有了最初的GPT-4发布。那个模型相当不错。然后我们看到OpenAI逐步发布了他们仍然称为GPT-4的模型。所以他们称模型为GPT-4 Turbo,然后是GPT-4o,这些模型都比GPT-4更好——无论是在预训练模型的质量上,还是在RL上,或者只是稍微好一点。所以我们有非常渐进的进展,同时仍然称它为GPT-4,所以人们可能错过了从GPT-4到GPT-4o最佳版本的大约一个多数量级的进展,他们做这种比较时错过了中间的大量进展。

    Rob Wiblin: 是的,也许很容易忘记最初的GPT-4有多烦人。我的意思是,考虑到我们当时的期望,它令人难以置信——我当时被震撼了——但它非常挑剔,不太擅长回答问题。它犯的错误比现在明显得多。但我想它被称为相同的产品,所以现在你只觉得它一直是GPT-4,你忘记了人们对如何精确提示它有多么挑剔,你必须要有专业的提示工程师。随着他们变得更善于更合理地遵循指令,这已经逐渐消失了。

    Ryan Greenblatt: 是的。一个具体的例子是,最初的GPT-4可能只能非常差地完成代理任务。也许它能完成五到十分钟的代理任务,比如代理软件工程任务,大约一半的时间。而现在GPT-4,更像是能完成一小时的任务。所以在这个下游能力上有非常大的差异。

    所以这是一些细节。我认为如果有人能做一些非常详细的分析,试图绘制出所有定性改进以及投入了多少有效计算,那会非常好。也许Epoch应该做这个,或者其他人应该做这个。

    Rob Wiblin: 回过头来更清楚地讨论Grok与DeepSeek的比较。你说人们看DeepSeek,他们将其与Grok 3比较,说Grok稍微好一点,但不是好很多。看起来它是在50倍的计算上训练的,所以我们在扩展计算输入上得到的回报很小。

    但你说这有点不公平,因为我想DeepSeek由于中国在计算访问上的限制,一直在努力研究算法效率,以从他们可用的计算中获得绝对最大的收益。而Grok处于相反的情况,他们试图非常快速地扩展和训练和增长,他们拥有大量的计算资源。所以他们几乎完全不担心计算的有效利用。

    你说如果你做一个更类似的比较,在训练的算法效率方面,那么你会说Grok 3是在大约只有10倍的有效计算上训练的,所以规模扩展并不那么大。所以改进看起来是渐进的,实际上更接近我们预期的样子,这实际上并不是计算扩展无用的迹象。

    Ryan Greenblatt: 我的意思是,我不知道。这绝对是一些证据。我们应该对不,它实际上是50倍的有效计算,这就是你得到的这一点给予一定的权重。我认为这比我预测的要低。所以这是一个更新。但我认为广义上说,是的。

    值得注意的是,这不仅仅是我认为DeepSeek更注重效率。例如,我认为Grok的算法效率可能比OpenAI和DeepSeek差。我的感觉是他们在算法效率上稍微落后,但在扩展到非常大的训练运行上稍微领先,所以他们处于一个有点不同的位置。而我的感觉是DeepSeek在小规模上可能与OpenAI在算法效率上相当有竞争力。

    然后另一个可能是重要因素的事情是,我们并不真正知道,DeepSeek可以多次练习他们的训练运行,因为他们可以多次进行小规模的训练运行。所以不仅仅是他们在优化效率;如果你能多次运行训练运行,你可能有更多的信号——而如果你第一次扩展到一个新的数量级,也许你只是搞砸了一些事情。

    我们能在一年内实现智能爆炸吗? [01:46:36]

    Rob Wiblin: 还有其他关键证据与这个时间线问题相关吗?

    Ryan Greenblatt: 我认为一个相当可怕的事实是,我们正在进入这个推理模型的状态,人们正在扩展RL和基于结果的任务。现在人们刚刚开始做RL。我认为最初的o1和R1可能几乎完全是在相对狭窄的短任务上训练的,没有那么多计算。

    我们对R1的训练内容有一些了解。看起来它是在数学问题、琐事或像GPQA问题这样的科学问题上训练的。它是在可能是竞争性编程或短编程任务上训练的。但据我们所知,它不是在像软件工程这样的任务上训练的——需要多个步骤的任务。可能只训练了真正的单步任务。可能他们从未进行过涉及多个步骤的训练,至少不是作为他们主要RL阶段的一部分。

    所以如果这是真的,你可能会认为有一堆低垂的果实可以扩展RL范式并将其应用于类似代理任务。

    除此之外,还有将计算扩展得更远。你可以在环境的多样性上扩展,也可以在计算量上扩展。我认为Epoch做了一个估计,他们认为在DeepSeek-V3(R1基于的模型)之上的RL大约是100万美元。100万美元在今天的AI行业里是小钱。

    所以你可以在明年内将其扩展超过两个数量级。现在,可能会有一些扩展上的困难,我认为可能会有基础设施上的困难,但原则上这是可能的。所以在我们看到一个数量级带来的巨大收益的程度上,我只是觉得,伙计,算法进展,稍微调整一下这些东西,我们可能会在明年看到疯狂的东西。

    Rob Wiblin: 抱歉,o1和o3也是经过强化学习的推理模型。我想象OpenAI在这些模型的RL上花费了远远超过100万美元。那么为什么这表明呢?我的意思是,我们不认为o1或o3比R1好很多。

    Ryan Greenblatt: 首先,我实际上不知道o1或o3是否比R1用更多的计算进行训练。我认为我们不知道。

    一些你可能认为它没有用那么多计算进行训练的原因:一件事是我认为在基础设施层面上扩展RL确实很难,他们可能没有基础设施一开始就做到这一点。

    第二件事可能是很难快速扩展环境的数量,但最终有一种可扩展的方法来做到这一点。所以可能有很多回报。

    接下来我们看到的是从o1到o3的性能有了相当大的改进,这是证据表明,如果这种趋势继续下去,可能会非常快。所以我们看到他们在相对狭窄的领域进行RL,但在这些相对狭窄的领域内,进展看起来非常快。所以在他们可以扩展他们训练的领域的程度上,这可能比那更广泛,我们可能会看到相对快速的进展。

    所以我认为这还不清楚。在o3正在饱和这一范式中一堆低垂果实的程度上——这在某种程度上可能是真的;当然它正在拉一些低垂果实——那么这个故事就会消失。但在我们在RL上还有很多未开发领域的程度上,我认为这可能是更引人注目的一年时间线的故事之一。

    明确一点:我不期待这个。我认为这不太可能,但我认为一条路径是RL比你预期的更好地泛化,它可以比你预期的稍微更进一步。也许在年底你几乎可以自动化研究工程师水平的能力,可能稍微低于这个——然后事情可能会从那里变得非常疯狂。

    Rob Wiblin: 我明白了。你说这不太可能,但这是可能的。如果它真的发生了,这就是它会发生的路径。

    Ryan Greenblatt: 是的,我认为最可预见的路径将是在一年内扩展RL。这个论点是我的同事Josh Clymer让我注意到的。所以功劳归他。

    AI可能在取代人类方面遇到困难的原因 [01:50:33]

    Rob Wiblin: 在我们继续之前,关于这个时间线问题还有什么要说的吗?

    Ryan Greenblatt: 我认为另一个怀疑的来源是,当然,也许你可以让这些LLM变得相当聪明,在这些任务上做得很好,但它们不需要一堆其他属性来取代人类吗?

    你知道,它们需要能够在工作中学习。人类在做任务时,他们正在学习如何做他们正在做的任务。而AI的样本效率较差,所以你可以投入很多上下文,它们可以基于此学习如何做得更好,但这相对肤浅,相对较弱。

    另一件事是AI目前有有限的上下文长度,可能在非常长的项目中跟踪上下文有困难。我认为有效上下文长度可能比实际上下文长度短得多,因为它们可以在整个上下文长度上进行检索,但它们可能无法轻易地对其进行综合——因为我觉得当我做任务时,我得到一些感觉,某种水平的感觉,我得到更好的直觉。我得到一些关于项目进展的总体感觉。我认为AI可能在跟踪所有这些上下文上有困难,即使你把它们全部扔进去。

    也许有绕过这个的路径,所以我想谈谈这些结构性因素。

    对于这个在工作中学习的事情:一方面,我们可以研究如何使上下文内的样本效率更好。一条路径是,不是有这种更浅的架构,你并行处理所有token,它们可以互相注意……Transformer架构在某种意义上是根本浅的。我不知道你想在多大程度上深入了解这一点,但你可以改变为一个不是那么根本浅的架构。

    特别是,最近有一些论文关于拥有更像我们当前架构的东西,你可以以更深串行的方式处理激活,这可能允许AI吸收上下文,有更多的整体感觉,并从正在发生的事情中更快地学习更多的上下文。

    Rob Wiblin: 你说的“根本浅”是什么意思?

    Ryan Greenblatt: 我的意思是,如果你看一个token,模型在某种程度上产生下一个token的一些概率分布。它只能有这么多串行步骤,基本上因为你运行每一层在每个token上。在每一层,你可以注意所有前面的层,但你不能注意后面层的前一个token。所以如果你想象你有60层,第40个token的第10层可以注意所有前面token的第9层及之前,但不能注意第39个token的第60层。所以这意味着如果AI在层的末尾得到了一些好的见解,后面token的较早层不能考虑到这一点。

    我的意思是,能力人们正在研究它,像往常一样——或者也许不是像往常一样,但在某种程度上——并且正在研究改变这一点的方法。

    我认为我们目前必须解决这个问题的方法是,虽然AI在这种意义上是浅的,但它们在token方面并不浅。所以如果你有一个推理模型,是的,它在那种意义上是浅的,但它也可以产生自然语言token,这是它更新的思维,它可以继续通过这种方式进行相对深入的计算。所以它可以通过自然语言中的所有步骤解决有50步的数学问题,即使它不能在这个相对更串行瓶颈的前向传递中完成所有步骤——这是对具有这种性质的transformer激活的术语。

    但你可能会担心自然语言不是做思考的好媒介——我有些不在自然语言中的想法——但我认为原则上你可以有一个更深的架构。

    我期望人们正在研究这个,我认为这带来了一些安全风险,因为我们有这个很好的性质,我们可以看思维链,对AI在做什么有一些感觉,并对此有一定的信心——至少可能有某种信心——因为AI在某种程度上被迫使用思维链来使这种串行推理工作。

    但如果所有推理都是潜在的,我们就失去了这个性质,现在我们处于一个更危险的制度中,AI可能在做颠覆性的推理,而我们甚至不知道,至少默认情况下不知道。

    Rob Wiblin: 我没有完全理解,但你说你会改变前向传递的发生方式,这样它就能在其中做更复杂的推理,这创造了它可以在实际输出任何我们可以评估的token之前进行策划的可能性?

    Ryan Greenblatt: 是的,基本上是这样。所以基本上你应该想象transformer不像一个循环架构,它不是循环的。所以你的大脑是循环的:你思考一些想法,你思考更多想法,它是完全循环的——包括,据我们所知,我们不能轻易发声的循环状态。比如我认为人们可以做他们不能轻易发声的推理,他们可以发声的一些推理。我认为现在transformer可以做相对有限的非发声推理,然后是一堆发声推理。

    所以可能是你可以改变架构——这对架构来说是一个很大的改变——以这样一种方式,使它们可以做更多的非发声推理和更密集的推理。

    有一些论文展示了这一点,比如Meta的Coconut论文。我认为所有现有的论文都是相对弱的,没有得到那么多——对论文作者抱歉,但这是我的感觉。但可能是你可以推动这个架构向前,我认为人们不一定真的非常努力地让这个工作,因为其他地方有低垂的果实。

    Rob Wiblin: 这样改变架构会非常耗费计算吗?

    Ryan Greenblatt: 实际上我刚才描述的事情非常天真地在生成上会使用完全相同数量的计算。因为现在你必须一次做一个token,你可以不那样循环激活。

    现在,如果你在所有梯度下降上应用梯度下降,它在训练时计算量更大。它使梯度下降的计算图更烦人,因为一些结构性原因我不知道我们是否应该深入。但是的,粗略地说,我认为在训练时计算量更大,如果你在阅读某些东西时也会计算量更大。

    有很多被诅咒的技术原因说明这是真的,但基本上如果你在阅读时应用这种循环,那么你一次只能读一个token。而transformer可以并行处理一整段文本,所以transformer在阅读时非常快。所以你可以让一个transformer读一个像一百万个token长的文档,我认为原则上,如果你愿意扩展计算,可能在一分钟或30秒内——这是非常非常快的。而且很可能你甚至可以做得更快,因为它基本上是并行读整个东西,串行步骤的数量更少。

    但如果它一次读一个token,你必须做所有层,那么它会和生成速度一样——单个上下文中的生成速度默认更像是每秒100个token,尽管人们已经展示了更快的速度。所以有一些方式它更昂贵,但我认为最终成本没有那么高,而且很多这些成本已经被推理范式承担了。

    当自动化AI研发时,事情可能会变得非常快。或者不会。 [01:57:25]

    Rob Wiblin: 好的。我很好奇:在我们实际上能够大部分自动化AI研发的时候,你认为这个过程会如何展开?它会是什么样子?它可能以哪些不同的方式展开?

    Ryan Greenblatt: 我认为有一个大问题,那就是:假设AI公司已经完全自动化了AI研发,即使是最好的研究科学家也增加不了多少价值。也许他们增加了一点点价值,但基本上公司是完全自动化的。我认为在试图做AI预测的人们中有一个历史观点,认为在这一点上你会得到非常快的进展,因为AI正在自动化研发,它可以比人类做的时候运行得更快。

    现在有一个问题,快多少。除此之外,还有一个问题,进展会减慢吗?所以可能是AI正在自动化AI研发,但它们消耗了一堆低垂的果实,你有有限的劳动力供应,然后进展减慢,因为你投入了很多劳动力,但你只能走这么远。

    另一个问题是,你是否在实验的计算上遇到了很多瓶颈?所以你有所有这些AI研究人员,可能比你的人类研究人员多得多,但也许他们没有多少计算用于实验,所以他们在产生进展上没有那么多容易的时间。

    有一个问题是,初始速度有多快?它会减慢吗?

    除此之外,甚至可能不仅仅是进展以相同的速度继续,可能是进展加速。这种情况可能发生的方式是,你有你的聪明的AI研究人员,他们做了一堆算法进展。你用这个算法进展来构建一个更聪明的AI,那个AI让进展变得更快,因为你可以在相同的计算量下做更多的劳动力。所以即使AI公司可以访问的计算量是固定的,进展原则上可以变得越来越快。

    Tom Davidson已经对此做了很多建模,关于我们是否期望进展加速或减慢?我会在谈论这个时偷取他的一堆东西。人们称之为智能爆炸或奇点,进展正在加速。

    我认为值得注意的是,我的观点是,即使进展正在减慢,它可能在客观上非常快。可能是你从一个高进展率开始,然后随着时间的推移减慢。

    所以一种分解这个问题的方法是,首先我们必须谈谈这个问题,初始速度有多快?然后也许我们应该谈谈,它是加速还是减慢?然后从那里我们可以说,比如在第一年我们得到了多少进展?

    Rob Wiblin: 是的。在打开开关并几乎自动化一切的时候,初始速度是由什么决定的?

    Ryan Greenblatt: 非常短的答案是没有人知道。稍微长一点的答案是我们可以尝试基于对算法进展是由什么驱动的有一些感觉。

    所以AI公司中的算法进展是由两个主要因素驱动的:劳动力——人们致力于此,人们思考更好的算法,人们实施实验——和计算,使用计算进行实验。

    我现在要把实际训练最终模型分开,所以我们只谈论这个算法进展。历史上算法进展可能每年增长超过3倍,包括训练后。也许更像是每年4倍或5倍。当我说4倍或5倍时,我指的是什么?像什么单位?这是在有效训练计算方面:就像每年都像你可以用你拥有的计算量训练一个比原来大四到五倍的模型。

    所以这是初始的进展速度。现在我要谈的是AI研究人员能让这个发生得更快多少?这是一个有点棘手的问题,因为我们必须回答这个问题,如果你让劳动力更多、质量更高,我们从那里去哪里?因为我们有两个输入到生产中——劳动力和计算——如果我们大幅增加劳动力,事情是否只是在计算上遇到瓶颈,或者你能推动进展快得多?

    所以我认为一个天真的开始建模的方法是,我们必须说,有多少劳动力,多少AI,它们有多好,多快?

    Rob Wiblin: 用于实验的可用计算甚至可能下降,因为你现在必须用你的计算来运行你的AI研究人员,对吧?

    Ryan Greenblatt: 是的,当然。我认为这可能是一个小因素,因为——我的意思是,我们不知道——但我的猜测是,在算法进展上的计算的最优分配是:五分之一在AI劳动力上,五分之四在运行实验上。大致是这样。所以如果你想象这个计算量,那么你有更少的计算来运行实验,但数量上是80%的计算,所以不是什么大问题。所以我认为这不是画面中那么重要的一部分。即使你想象50/50,那只是一个两倍的因素。所以如果你说,好吧,你会花所有的计算运行AI研究人员,你没有计算用于实验,那只是一个未受迫的错误。

    好的,那么有多少AI研究人员?人们对在你第一次可以自动化一切的时候你期望有多少AI研究人员做了各种估计。你肯定必须有足够的研究人员来自动化一切,但出于各种原因,我认为我们预期在那个相同的质量水平上你会有比需要自动化一切更多的劳动力。因为在你可以开始自动化一切的第一点,你可能在同一质量水平上有更多的劳动力。

    我认为推理时间计算可能使这不同。可能是,在你第一次可以自动化一切的时候,你几乎不能自动化一切。但我认为这不太可能持久。所以第一次你可以做到这一点,可能你可以非常快地大幅降低成本,使用像我们之前谈到的蒸馏之类的东西。

    所以总的来说,我的感觉是,我不知道,我做了一些粗略的估计。我会尝试通过其中一个。也许我们开箱就有相当于1亿人类劳动力的等价物。因为我们期望我们在2029年、2030年期间可用的计算量大约是10^28、10^29 FLOP。然后如果你这样做,你会得到你能生成多少token的感觉,然后你尝试做一些粗略的转换在token和人类劳动力之间。

    然后好的,可能的情况是你通过推理计算得到了一些,所以也许我们下降一个数量级,因为你通过推理计算得到了一些。

    然后为了完全自动化,我认为你必须接近像Alec Radford的质量——Alec Radford是一个著名的AI研究人员,他有许多最重要的能力见解——或者,你知道,Ilya Sutskever或其他什么。要达到这个质量水平,也许你必须花费更多的推理计算。我认为用顶级研究科学家或顶级研究工程师的单位来思考是有用的,因为我认为这会使一些转换更容易。假设你有一百万个Alec Radford的等价物并行运行。

    但然后有另一个因素,就是AI可以运行得更快。例如,他们在晚上工作,这给了他们一些优势,因为他们可以串行做更多的实验。所以人类,由于串行时间,一年内只能完成更少,因为他们可能只工作三分之一的时间——或者对于凡人来说,可能是四分之一的时间,有些人可以推到一半的时间。在专注时间上有一些收益递减。

    然后他们也可以运行得更快,因为他们吐出token更快。有一些方法可以让这更进一步。所以也许我的总体感觉是,也许他们在每个时间点快5倍,然后由于全天候运行快3倍。那是15倍的加速。

    除此之外,我认为你可能会得到另一个2倍的加速,因为有些时候你可以运行一个更笨的AI,对某些子任务来说快得多。人类不能这么容易地做到这一点,因为这需要上下文切换。所以原则上你可以想象人类使用一个更笨的AI非常快地完成一些子任务并来回切换,但你不能把我的大脑状态与更弱AI的大脑状态交换。而例如对于transformer,你可以直接把上下文输入一个更弱的AI。你可以训练更弱的AI与更聪明的AI一起工作。你甚至可以做一些事情,比如把更聪明AI的激活塞进更弱的AI,并在运行时做各种可变计算缩放的事情。所以也许这会给你另一个两倍的因子。

    所以现在我们达到了30倍的速度。明确一点,这些加速将会抵消。它们将会削减我们拥有的并行副本的数量。

    然后我认为你可能从AI比人类更好地协调中得到另一个两倍的因子。所以我谈到了也许他们可以与更弱的AI交换上下文。好吧,也许他们也更擅长在并行任务中协调。

    让我们以加速的方式思考:他们可以完成一个对人类来说并行化不可行的任务。比如有时候,当你做一个八小时的软件工程任务时,原则上你可以有五个人并行工作,但你在效率上损失很多,也许没有得到任何串行加速,因为人类非常不擅长协调。

    但也许AI可以从同一点分叉出来,拥有所有相同的上下文。Dwarkesh有一篇关于AI公司所有结构优势的好文章,它谈到了这种事情。因为你可以分叉,也许你可以得到更多的加速。假设这是另一个两倍的因子。

    现在我们达到了60倍的速度,对吧?所以我们有我们的百万AI以60倍的速度运行。让我们把它变成50倍的速度,抱歉。所以我们有20,000个AI并行实例,每个以50倍的速度运行。所有这些都是和顶级研究科学家、顶级研究工程师一样好。

    现在,这比OpenAI快多少?也许OpenAI,在构建这个AI的时候,会有大约2,000到5,000名研究人员。研究人员的数量随着时间的推移在增长。

    所以天真地我们有10倍更多的并行实例,但它们也是50倍更快。然后有一些混乱的转换,关于你投入多少额外的劳动力,考虑到计算瓶颈和其他因素,以及并行运行的惩罚,你期望的整体加速是多少。所以你知道,九个软件工程师不能在一个月内完成需要九个月的事情——你知道,同样的婴儿——

    Rob Wiblin: 你不能让九个女人在一个月内怀孕。

    Ryan Greenblatt: 是的。我认为人类遭受的一件事是并行化惩罚,所以AI运行得更快意味着在某种意义上他们在这方面遭受得更少。并行副本更多,大约10倍左右,所以他们在这方面吃了一些回报,但你也有直接的50倍更多的速度和更多的质量。质量也推入并行性。

    所以我就像,也许我们应该真正把OpenAI的劳动力想象成比更好的人少5倍或10倍。所以也许就像他们有200或400个Alec Radford或其他什么。有些人认为这甚至比这更极端。然后如果就像他们有200或400个Alec Radford,我们有20,000个Alec Radford以50倍的速度运行,我直觉上觉得事情可能会变得疯狂。

    但问题只是计算瓶颈有多大?人们对此有很多分歧。我们真的不知道。没有人运行我们需要找出这有多重要的实验。我们只有调查和感觉和随便什么。

    Rob Wiblin: 你会运行什么实验?

    Ryan Greenblatt: 这是我最喜欢的:谷歌以拥有大量不同的团队而闻名,我认为在某些时候,有人搞砸了对某个团队的计算分配,或者有一些外生冲击导致某个团队的计算分配比应该的要低或高。然后你可以看看当这种情况发生时,进展加速或减慢了多少?这会给你一些关于边际生产函数是什么样子的感觉,关于计算边际回报是什么样子的。至少这会给我们一些关于发生了什么的感觉。

    在AI的情况下,我们离人类边际非常远,因为我们有更多的劳动力。所以情况可能在结构上非常不同,但这会给我们一些感觉。

    我认为我的梦想是有人去GDM或其他地方,搜集他们一定在运行的所有自然实验的数据,并对此做一个非常经济学家风格的分析,找出局部回报是什么样子的。这只能告诉我们这么多,因为它只是当前制度周围的回报。

    我认为比这更好的是像有一小群研究人员,你给他们少得多的计算。你知道,如果谷歌真的喜欢运行实验,不只是给我们数据——我挑谷歌只是因为这是一个例子,但其他公司可以这样做——他们可以拿一些研究人员分成两组或更多组,让一些研究人员得到少得多的计算,得到更像我们期望AI研究人员拥有的计算量,比如,看看他们运行得多慢。如果慢得多,这会给我们一些关于制度的感觉。

    我认为这更难理解,部分原因可能是适应时间。所以你让人类处于这种计算量少得多的制度中。一开始他们慢得多,但他们学会了在这些限制内工作。我认为AI会有很多时间学会在这些限制内工作,因为他们运行得快得多。

    无论如何,我的感觉是,你的AI研究人员的初始加速,瞬时加速将是……当我考虑所有这些事情并尝试在生产函数上做数学时,也许我做了一些像Cobb-Douglas生产函数的东西,有一些因素,我们尝试对人类和AI都应用一个并行惩罚,我们标准化劳动力。这里有一堆混乱的东西。

    我认为内部观点,完全从当前前沿经济模型推断,吐出像这样的数字,取决于你如何做估计,我认为我最喜欢的常数选择大约是50倍更快。我认为这可能高估了速度。那是比当前进展速度快50倍。当前的算法进展速度每年略多于半个OoM。所以天真地这会让你得到一些真正可怕的瞬时速度,每年25个OoM。

    我想现在人们可能会说,“得了吧,你说的那件事,太荒谬了。”我想是的,我说的那件事,有点荒谬。所以也许我们想对这个瞬时加速的观点大打折扣。所以不是有相当于50年的进展,或一年的进展在一周内,我想也许那太疯狂了,然后我最终降低到可能更像是20倍的进展速度,也许甚至比那更低一点,作为我的中位数猜测。

    再次,我认为这像是疯狂的猜测;我们从一个我们甚至不理解的制度推断到一个非常不同的制度。没有人知道。所以它可能快得多;它可能慢得多。或者它不能快那么多,我想。

    智能爆炸会以多快的速度减慢? [02:11:48]

    Rob Wiblin: 所以在完全自动化的时候,听起来它可能在那时快得惊人。但我想让这听起来不那么疯狂的一种方式是你说它一开始非常快,然后很快开始趋于平缓,所以你只有一周的这种惊人的进展水平。我想另一种可能是它甚至可以更快——你说这也是一个活的可能性。

    你想解释一下什么证据会影响我们预期它会减慢还是加速吗?

    Ryan Greenblatt: 是的。另一件我没有提到的事情,我刚才只是提了一下,是我在想象我们只是飞过这个人类制度,在人类水平附近没有重要的不连续性或扭结。但原则上可能是我们能够通过某种搭便车或快速跟随人类行为达到人类水平。我的猜测是这不是一个很大的因素,它只是一个一次性成本,不是那么大。但我想我们不应该太深入这个。

    无论如何,我们有了初始速度有多快?它是加速还是减慢?我们有了极限是什么?最终它必须减慢,对吧?所以我们有这个模型,它可能甚至一开始在加速,它继续加速,它遵循这种双曲线轨迹,在有限时间内趋于无穷。最终那必须结束,当你接近极限时。我们不知道它什么时候开始减慢。它会在某个时候减慢。

    但我认为全考虑模型是:事情可能非常快,它可能发生得相当快。我认为估计意味着我的中位数可能是我们在一年内达到大约五到六个数量级的算法进展。

    Rob Wiblin: 而且有点难以确切知道这将对模型实际感觉有多聪明产生什么定性影响。

    Ryan Greenblatt: 是的,当然。这是另一个很大的不确定性来源。我一直在做这个非常经济脑的分析,我把所有东西都放在这些有效计算单位中,我做了一堆快速转换来回劳动力供给来得到一堆东西。

    有很多不同的方式来可视化这个进展。我还应该说,我忽略了一些因素,比如你在这期间扩展计算和其他一些小考虑。这些都计入我的一年五到六个OoM的进展中。但我不认为我们应该太深入这个。

    无论如何,我不知道……我有这个对我来说直观的初始速度、加速/减慢极限的模型,然后极限影响,即使它一开始在加速,它什么时候又开始减慢。这个模型对你有意义吗?

    Rob Wiblin: 是的,我认为这有道理。这是你在玩的三个大风格因素。

    Ryan Greenblatt: 是的。然后有一堆棘手的细节,假设极限是这么多OoM远。加速还是减慢的因素,以及这如何随时间变化,你可能会认为它一开始在加速,停止的时间非常接近极限的结束。或者可能是它在极限上更连续,这将对你得到多少数量级有很大的影响。

    但无论如何,我认为这是那种直观的模型。我认为人们应该玩这个。我认为玩这种模型很有趣。很明显,这既是一个简化的模型,也有疯狂数量的移动部分,我们几乎没有数据来估计。我们基本上是从垃圾数据中大规模外推拟合这个模型。你知道,我们能做什么?包括像猜测你能比人脑高效多少这样的垃圾数据。

    所以就像你说的,我们非常不确定,我们有巨大的误差线。我的观点是你将得到一些初始加速,你也能够投入更多的计算。所以也许第25百分位是你比前几年的进展快一些,或者第25百分位可能只是比现有进展快一点点。我认为第80或75百分位可能是完全疯狂的。

    Rob Wiblin: 所以这是关于在我们能够自动化事情的时候,它实际上加速公司正在做的事情多少的问题。你说这个的第25百分位可能是它只是和以前大致相同的速度——但第75百分位,这甚至不是一个极端的结果,它极大地加速了研究。

    Ryan Greenblatt: 是的。至少很快。可能是初始加速不那么高,但加速随着时间的推移增加,减慢相对较慢。

    而且,我一直在谈论这个一年的时间尺度,但我认为在很多建模中,大部分进展可能发生在前六个月——因为你已经开始有点快地达到这个收益递减的制度。

    Rob Wiblin: 就像你走得越快,你越早开始遇到极限。

    Ryan Greenblatt: 是的,没错。你知道,它可能走向非常不同的方向。

    六个数量级的进展……那甚至看起来像什么? [02:30:34]

    Ryan Greenblatt: 无论如何,我一直在说六个OoM的进展:那甚至意味着什么?这看起来像什么?

    Rob Wiblin: “OoM”是“数量级”的意思,对于任何没有理解但仍然和我们在一起的人。

    Ryan Greenblatt: 我很抱歉。我喜欢OoM。多好的术语啊。这是我最喜欢的之一。

    Rob Wiblin: 拟声词。

    Ryan Greenblatt: 是的,是的,太棒了。无论如何,六个OoM,那是多少?所以大致是两个GPT:在GPT-2和GPT-3之间大致有一个OoM,大约10倍的算法进展和大约100倍的计算。非常粗略地说,也许比这少一点。GPT-3和GPT-4之间也有类似的东西。

    所以我们可以做的天真定性模型是,我们可以说,GPT-3到GPT-4的差距有多大?然后我们可以说,我们有两个这样的差距:再多两个GPT。然后我想,那是什么意思?我认为两个GPT的分析让我感觉更放心。我想,两个GPT,那有那么糟糕吗?我是说,得了吧。

    我认为另一个框架是这是多少年的AI进展?我认为六个OoM大约是五年的AI进展,非常粗略地说,也许是四年。所以就像从2020年,我们刚得到GPT-2 XL到现在。所以就像——

    Rob Wiblin: 但我想直观地知道这意味着什么很难,因为GPT-2对任何事情都几乎没用。

    Ryan Greenblatt: 或者GPT-3非常接近。是的,所以那几乎没用。我认为也许我们甚至更不了解的是,在人类范围之上的进展意味着什么?比如,在我们开始这种疯狂事情的时候,AI正在匹配最好的人类专业人士。也许它们没有那么高效,没有那么聪明,但通过各种技巧和随便什么,它们基本上可以匹配人类专业人士。现在,你能走多远?

    所以有GPT。我认为另一个概念是尝试从GPT转换到某种智商或某种概念。人们对此有非常不同的直觉,但如果我们想象我们开始于可能是150智商的AI,因为它们能够自动化一切……再次,智商是一种垃圾单位。

    Rob Wiblin: 感觉它不是为这个目的设计的。

    Ryan Greenblatt: 哦不。没有什么是为这个设计的。我们也一直在滥用这些经济模型。我一直在做所有这些经济风格的分析,在经济模型上,这些模型肯定不是为这个制度设计的。增长经济学,我们从中提取的领域,并不是那么好的领域——抱歉,对增长经济学家们没有冒犯的意思,但只是没有那么多人在研究它,我们在很多事情上有很大的不确定性。

    无论如何,所以有两个GPT。那是多少智商点?这个直觉让我觉得也许一个GPT是略多于50智商点或什么的。所以我们从150到250,而且我们还有更多并行副本,它们可以运行得更快。这是一些直觉。

    另一个直觉是它们在人类专业人士方面有多好?这里有一个我认为很好追踪的趋势:如果你看编程比赛,我们在2024年看到了在这些编程比赛中的排名进展。一开始,也许AI大约是第20百分位,大致。然后它们是第50百分位,然后我认为o1是大约第75百分位,o1-preview是略高于第90百分位,然后o3是第99.8百分位或什么的。

    所以在计算或算法进展的数量级和你在人类专业人士中的排名顺序之间有一些关系。在我们开始这种疯狂事情的时候,也许AI大致像人类专业人士的第100或第10好的排名顺序,然后我们有这六个数量级的进展。

    我认为我们可以尝试在数量级和排名之间进行某种转换——就像每个数量级可能意味着你在这个排名上大约好10倍。所以你不是第1000好的,你是第100好的。我的猜测是略高于。就像一个有效计算的OoM比这种排名顺序的OoM略多。我认为没有人非常仔细地做过这个分析。应该有人做。假设它比一个OoM略多,那么用我们的六个OoM,我们得到八个OOM的排名顺序。

    Rob Wiblin: 所以很快你就低于一了,对吧?

    Ryan Greenblatt: 是的,你低于一,所以现在我们正在外推这个东西。一种说法是我们很快达到人类同等水平,然后也许我们还有略多于六个OoM的进展。或者说字面上最好的人类同等水平,然后我们还有六个OoM的进展。所以就像从第100万好的人类到一个东西——因为百万是六个OoM——到一个东西的最好的人类之间的差距一样大。所以就像我们拿最好的人类,我们做了相当于从第100万好到最好的事情。

    这是另一个定性的直觉。我不知道这告诉你多少,但你可以做一些外推。这是无耻地从Daniel Kokotajlo的思考OoM的方式中偷来的。

    现在,我们在这个问题上也有不确定性。所以我认为如果更像是每个OoM是两个OoM,那么更像是你比最好的人类专业人士好超过十亿倍。

    Rob Wiblin: 你从第十亿好的到最好的,然后你又做了那个跳跃。

    Ryan Greenblatt: 是的,没错。这是一个相当大的差距。重要的是,我认为你不能理解人类范围内的第十亿好的,因为从职业中概括出来没有意义。比如,谁是软件工程的第10亿好的人?

    Rob Wiblin: 这是一个愚蠢的问题。

    Ryan Greenblatt: 这是一个愚蠢的问题。我认为软件工程的第100万好的人现在至少有点意义。我们可以开始处理这个。更小众的人类职业,它不那么有意义。所以我认为我们有这种疯狂的差距。

    另一个我喜欢的直觉是思考劳动力供给有多大。所以在我之前做的很多关于进展是加速还是减慢的经济分析中,一个重要的问题是每个有效计算的数量级在你能投入问题的认知汁液方面有多少,就你能投入生产函数的劳动力部分有多少?

    一种方法是我们可以说,一个计算的数量级相对于并行工作者的数量级是多少?我的理解是,我们最好的可用估计是每个有效计算的数量级大约是两个并行工作者的数量级。

    Rob Wiblin: 这是因为有很多人并行工作实际上效率很低?

    Ryan Greenblatt: 是的,AI更快,更有能力,你得到更多的并行副本。所以当你扩展有效计算时,至少在当前的范式中,你有更高效的AI,它们更聪明,可能。所以你基本上可以并行扩展所有这些因素,你可以扩展哪个因素最有效。

    Rob Wiblin: 我明白了。所以你可以在拥有更多和更聪明之间分配你的计算预算,以最有效的组合。

    Ryan Greenblatt: 是的。你可以让你的训练运行偏向于,我们是训练一个更大的模型,还是训练一个更小的模型?所有这些之间有一些权衡,有点复杂。有方法在推理计算和训练计算之间进行权衡。但总的来说,就像我要用并行副本来做面额。

    所以我们开始于像20,000个天才以50倍的速度运行,然后我们有六个数量级——但我们实际上是在加倍,所以我们有12个数量级。那是一万亿。所以现在我们到了20千万亿以50倍的速度运行。现在,我认为这可能有点误导,因为一个重要部分是并行瓶颈。但如果你习惯于从人类组织的角度思考,那么我认为你应该认为20千万亿人类以50倍的速度运行是正确的,而且像踩到脚趾的数量在某种程度上是类似的。

    然后在实践中,也许我实际上更期望的是,也许它定性地更接近于像十亿或二十亿比人类聪明得多的人类。所以像250智商的人类以100倍的速度运行。可能我的数字有点草率,但我想那更像是我的直觉。

    然后你可以用专业人士做同样的事情。你必须小心不要重复计算。他们比人类专业人士好得多的部分机制是有更多他们,所以所有这些事情都会交叉影响,但也许就像你从第100万好的人类到最好的人类,然后比那好百万。我们做同样的外推。也许就像我们至少有数百万他们以100倍的速度运行,这就像,好吧,这他妈太疯狂了,对吧?

    例如,非常快,AI将在问题上做比人类历史上更多的认知进展,以巨大的幅度。而且非常天真地他们以100倍的速度运行。所以就像如果有些事情你可以纯粹在认知领域完成,比如完全不需要接触世界,那需要人类10年——那需要一个100人的团队10年:好的,繁荣,在十分之一年内完成,只用劳动力供给的一小部分。

    所以我认为我们应该开始想,这个过程会吐出什么样的疯狂技术?有很多事情我认为原则上可以大大加速,我们甚至没有非常努力地尝试。

    努力已经花在了原子精确制造上。没有那么多努力花在了纳米机器人、纳米系统等等上。我认为最初思考这个的Drexler认为这将是非常少的劳动力,所以认为人类可能很容易做到,但投入的努力非常少。所以看起来非常可能你非常快地从这个制度中出来,比如,你知道,原子精确制造,允许大规模增加计算供应和所有其他疯狂的事情。

    这就像一个例子。我认为模拟思维和一堆其他事情可能发生得非常快。

    被忽视且重要的技术工作人们应该做 [02:40:32]

    Rob Wiblin: 总结一下,讨论一下你认为对这个节目的听众来说,考虑到你对不同运行方式的巨大预测分布,最高优先级的事情是什么,会很好。

    在技术方面,有哪些特别被忽视和有用的东西?

    Ryan Greenblatt: 我认为相对于正在发生的事情,应该有更多的人做控制工作。我的同事Buck可能会更多地谈论那会是什么样子,所以我不会在那里深入细节。我认为现在这比之前被忽视得少了很多,但在边际上似乎仍然很好。

    我认为应该有更多的人花时间思考和研究如何训练明智的AI,能够做出比我们更好的决定。基本上如何达到一个点,你已经排除了模型策划反对你的情况?你如何让它们成为你乐意交出的AI?这是一个概念上更棘手的领域,我计划花更多时间思考应该从这个领域衍生出哪些研究项目。

    有很多关于我称之为“模型内部”的工作,人们可以去做。也许这某种程度上属于控制,但像探测以确保我们能够检测模型是否采取了不协调的行动这样的事情。我们如何做到这一点?我们如何知道它是否有效?这种事情。

    有一些工作可能在解码不可解释的推理上。假设模型学会了在其思维链中隐写式地推理——

    Rob Wiblin: 所以这是它们在策划反对你,但你看不出来。它有点被编码了。

    Ryan Greenblatt: 是的。隐写式是它们使用不同的符号,你不明白发生了什么。或者也许对你来说看起来像胡言乱语。也许它看起来像一件事,但实际上是另一件事。或者也许它们做了很多潜在的推理。我们之前谈过也许模型做了很多潜在的推理而不是自然语言,能够以某种方式解码那种推理,并尝试找出一些方法训练解码器,这些解码器在某种程度上工作并给我们一些关于AI实际在思考什么的意识,我认为这可能相当有帮助。

    除此之外,有很多不同的工作展示了AI现在非常强大。我谈了一些关于我认为在已经展示的能力水平上有多少悬而未决的问题。我认为展示当前系统有能力,未来系统非常有能力,似乎在边际上可能有点好,因为我担心世界对正在发生的事情准备不足的情况。

    所以像展示高水平的自主网络能力这样的事情,我认为这是一个甜蜜点,既直接相关于很多人已经在考虑的威胁模型,也不远离我们担心的情景,这些情景涉及大量的自主网络活动,这实际上是威胁模型的关键部分。所以它可能以一种很好的方式弥合这种分歧。特别是专注于在这个领域中我们能够实现的最佳演示。

    另一个人们应该做的重要领域是我称之为模型生物的东西:尝试产生不协调模型的实证例子,以研究这有多可能发生并提供证据。所以像不协调是否在XYZ情况下出现?奖励黑客是否出现,它如何泛化?像对齐伪造论文和各种延续这样的事情。

    我认为这里的部分希望是收集证据。部分希望只是有一些东西可以和技术一起迭代。即使是那些对世界不太有说服力或可能不提供任何关于不协调证据的模型生物,如果它们足够类似以至于我们可以在它们上进行实验,那可能非常有用。

    Rob Wiblin: 因为你可以尝试开发在模型生物情况下有效的对策,然后希望会迁移?

    Ryan Greenblatt: 是的。我认为对齐的一个关键困难是通常我们通过实证迭代解决问题。在不协调的程度上,我们的测试具有欺骗性,那么如果我们能提前找到某种方法绕过这个——或者只是在最后一分钟准备好构建它,然后在那些情况下做一堆迭代——我认为这可能相当有帮助。

    治理中最有前途的工作是什么? [02:44:32]

    Rob Wiblin: 好的,这是技术方面最有前途的东西。在治理或其他角度上有什么突出的东西吗?

    Ryan Greenblatt: 是的,我认为有各种各样非技术干预的空间,看起来相当不错。我对这些事情很难有非常强烈的看法,因为我没有花那么长时间思考它。有很多工作。

    我们在这里讨论了很多概念性的点,我认为有人研究所有这些细节,试图更好地理解起飞动态,试图更好地理解除了不协调之外可能出现的其他考虑因素。像我们应该多担心人类权力攫取?我们应该多担心其他问题?我认为其中有一些。

    我认为有很多工作只是在非常深入的技术AI安全和政策世界之间充当中间人,并在某种程度上进行翻译。

    有很多特定的法规可能是有益的。我认为让欧盟行为准则更好似乎不错。欧盟AI办公室正在招聘,所以你可以在那里工作。我认为可能有其他法规策略实际上可能是好的。

    我认为有一些与使协调更有可能或协助协调相关的东西可能相当有帮助。像改进计算治理制度,以便美国和中国可以验证关于当前训练过程的各种声明。我对这有多有前途没有强烈的看法,但我认为令人惊讶的是很少有人在做这个,而且令人惊讶的是不协调。所以也许有人应该做这个,因为它可能是一个相当大的问题。

    除此之外,我认为只是有很多人处于他们只是试图提供技术专长的位置;他们处于正在建立技能的位置,他们正在准备有更直接的影响;并且以后,随着事情变得更疯狂,准备好做些什么。

    另一个是通用的防御。所以我们之前谈到了AI接管情景。我说的一堆AI接管情景涉及,例如,生物武器。只是普遍提高对生物武器的鲁棒性似乎有帮助。它在多大程度上有帮助是复杂的,但我认为它有一些帮助。

    类似地,使世界对AI黑客攻击更鲁棒。我认为它有一些帮助。我认为它可能比其他事情的杠杆作用小,但干预措施引导更多资源到那些事情上,从各种角度和潜在的不同不协调假设来看似乎不错。我认为那些事情即使完全没有不协调风险也可能很有意义。

    Rob Wiblin: 是的,我想因为滥用也是一个问题。

    Ryan Greenblatt: 是的。除此之外,有很多不同的安全工作可能不错。所以我讨论的一些威胁模型涉及各种结果,比如模型外泄自己。它们涉及模型以流氓方式内部部署,绕过你的安全并潜在使用一堆它不应该使用的计算。

    我认为通过安全机制推迟这些事情发生的时间似乎不错。还有安全防止人类行为者窃取模型可能增加延迟的概率,增加减少竞争、更多谨慎的概率。

    Ryan当前的研究重点 [02:47:48]

    Rob Wiblin: 未来几个月你的研究重点是什么?

    Ryan Greenblatt: 现在我正在做相当多的规划和概念工作,然后计划是从中衍生出一堆项目。所以我正在思考这样的问题:在这个情景中你应该做什么,你的负责任的AI公司领先三个月,政治意愿非常低——可能有哪些潜在的对齐措施?你应该采取什么路径?人们应该如何优先考虑?

    然后尝试可能提出具体建议,也只在边际上弄清楚事情,基本上目的是看起来Redwood只是尝试制定总体计划,然后从中衍生出一些见解,已经有合理的运气。我认为控制就是从这个过程中产生的。我在更深入地思考这个过程中有了一些更新。这是一件事。

    然后我在做一些演示,或者试图研究奖励黑客现在有多大问题。就在最近,我们已经看到RL工作,而之前它并没有做那么多,也没有被扩展得那么远。所以一个自然的问题是:我们得到了多少奖励黑客?那可能有多恶劣?在什么情况下它更或更不恶劣?

    之前有一些关于这个的工作,但我认为现在这真的走得相当远,我们可能会预期我们可能看到非常恶劣的奖励黑客,我们可能会看到纯粹由奖励黑客驱动的威胁模型,一直到非常恶劣的结果。原则上,像大规模欺骗人类或试图夺取资产这样的事情可能从奖励黑客中泛化出来。

    也有一些故事,通过奖励黑客导致非常有害的不协调,因为你从一个不服从你指令的AI开始,这在某种程度上涉及AI密谋反对你,即使它不是像我们可能对监督信号那样有那么多直接控制的东西。

    Rob Wiblin: 好的,你和你的同事在Alignment Forum上写了很多东西,你有一个Substack。那个地址是什么?

    Ryan Greenblatt: Substack?redwoodresearch.substack.com。我们的Substack没有短URL,恐怕。

    Rob Wiblin: 所以如果你想拉出一些你在这里谈论的事情的线索,很有可能有一篇文章或博客文章是你或同事写的,可以更详细地阐述。

    Ryan Greenblatt: 当然。

    Rob Wiblin: 我想你在那里列出了一个巨大的待办事项清单。如果听众中有能够帮助解决这些问题的人,那么我想时间紧迫。我们可以利用所有人手来推动所有这些议程,希望事情会变得更好。

    Ryan Greenblatt: 当然。

    Rob Wiblin: 我今天的嘉宾是Ryan Greenblatt。非常感谢你来到《80,000小时播客》,Ryan。

    Ryan Greenblatt: 谢谢邀请我。

  • 《2025年中国AI眼镜行业研究报告》(PDF文件)

    《2025年中国AI眼镜行业研究报告》围绕2025年中国AI眼镜行业展开深入研究。介绍AI眼镜的定义、分类及发展历程,作为创新型可穿戴设备的特点与市场潜力。从政策、经济、社会、科技等多方面分析了推动AI眼镜行业发展的因素,展示行业的良好发展前景。详细分析中国AI眼镜产业现状,包括一级市场投融事件、二级市场上市公司表现以及产业链各环节的情况,揭示行业的投资热度与协同发展态势。基于消费者调研,呈现用户对AI眼镜的认知、购买意愿及使用体验等,为行业发展提供市场依据。展望行业趋势,预测AI眼镜的市场增长潜力,强调技术革新、产业生态融合等未来发展方向,为相关企业与从业者提供前瞻性的参考与指导。

    《2025年中国AI眼镜行业研究报告》

    获取《2025年中国AI眼镜行业研究报告》PDF原文件,扫码关注回复: 20250703

    前言

    前言引入“iPhone时刻”的概念,将AI眼镜定位为可能重塑行业格局和生活方式的下一代革命性产品,对这一愿景的实现时间提出疑问。

    01. 中国AI眼镜行业概况介绍

    • AI眼镜定义及分类概览:人工智能赋能传统眼镜产品,功能性及实用性日趋完善。
      • 将AI眼镜定义为集成人工智能、音频、摄像等功能的创新可穿戴设备,依据核心技术将其划分为AI音频眼镜、AI拍摄眼镜和AI显示眼镜(AI+AR)三大类别。

    2025年中国AI眼镜行业研究报告

    • AI眼镜分类介绍
      • AI音频眼镜:AI音频眼镜的技术特点,包括其相对亲民的价格、轻量化设计、电池续航、可替换镜片以及语音助手等核心AI功能。
      • AI拍摄眼镜:以拍摄为核心功能的AI眼镜,指出其因搭载高性能摄像头及处理单元而成本更高、重量更大,并分析了其摄像头规格、芯片方案及计算机视觉应用。
      • AI显示眼镜(AI+AR):最复杂的AI显示眼镜,强调其因集成光学显示模组而价格高昂、重量最大,讲解其显示效果、续航、AI功能以及主流的Micro-LED+光波导技术方案。

    2025年中国AI眼镜行业研究报告

    02. 中国AI眼镜产业现状分析

    • 2028年AI眼镜全球出货规模将触达两千万量级:智能眼镜作为XR技术的重要衍生品类,在AI大模型技术快速发展的推动下正迎来爆发式增长。预测全球AI眼镜出货量将迎来爆发式增长,预计到2028年将达到两千万台规模,其中中国市场将成为增长最快的区域之一。
    • AI眼镜产品从硬件层到软件层拆解:AI眼镜全景软硬件架构拆解分析。系统性地拆解AI眼镜的软硬件架构,硬件层包括芯片、光学、传感器等组件,软件层则涵盖操作系统、中间件、人工智能层和应用层。
    • 中国AI眼镜产业链图谱

    2025年中国AI眼镜行业研究报告

    • 中国AI眼镜产业链分析
      • 芯片:分析了AI眼镜主要采用SoC芯片的原因及其四种主流方案,从基础的蓝牙音频SoC到高性能的专用SoC,分别满足不同产品的定位需求。
      • 显示方案:对比LCoS、Micro OLED和Micro LED等屏幕方案及Birdbath、光波导等光学方案,指出Micro OLED和光波导是兼具性能与潜力的主流选择。
      • 大模型:强调国产大模型的迅猛发展为AI眼镜提供了强大的技术支撑,并图解多模态大模型在眼镜中处理语音、图像等信息的应用流程。

    2025年中国AI眼镜行业研究报告

      • 整机厂商:梳理市场的四类主要玩家(AI眼镜企业、XR企业、互联网巨头、移动设备制造商),并分别阐述了它们凭借各自优势进入赛道的策略和动向。
      • B端用户:分析AI眼镜在工业、医疗、物流等B端场景的应用价值,指出其能有效解决行业痛点,提升生产效率。
      • C端用户:探讨AI眼镜在工作、学习、运动、娱乐等C端场景的应用潜力,认为其能满足用户在不同生活场景下的多元化需求。

    2025年中国AI眼镜行业研究报告

    03. 中国AI眼镜典型厂商梳理

    • AI眼镜市场厂商梳理:各大厂商纷纷入局,加速“AI大模型与AR技术深度融合”,推动轻量化、多元化场景的AI眼镜产品市场扩容。依据功能将市场上的主流AI眼镜品牌及其产品归为AI音频、AI拍摄和AI显示(AI+AR)三大类别,呈现了百家争鸣的市场格局。

    2025年中国AI眼镜行业研究报告

    • 典型厂商
      • 雷鸟创新 (RayNeo):专注消费级AI+AR眼镜“技术自研+生态整合+消费级普及”,具备核心光学方案全链路自研能力。
      • 李未可(Lawaken):专注AI+眼镜赛道,以“Let AI awaken”为核心理念,致力打造“中国首款AI+AR科技潮牌”眼镜产品。
      • Rokid:专注人机交互技术,发力AI+AR眼镜,通过自研操作系统来构建“硬件+软件+生态”一体化平台。
      • 星纪魅族(DreamSmart):跨界融合基因,明确“AI手机与智能眼镜”为两大核心赛道,围绕三大业务线构建多终端全场景生。

    2025年中国AI眼镜行业研究报告

    04. 中国AI眼镜的消费者洞察

    • 调研用户画像:居住在华东华北地区、高线城市被访者为本次主要调研对象,他们主要为男性、31-40岁的兴趣及购买用户。
    • 用户对智能眼镜认知渠道多元、大品牌更易被认知:用户对AI眼镜的认知渠道较为多元,目前对VR眼镜的认知度更高,且跨界大品牌更易获取认知优势。
    • 智能眼镜购买市场潜力巨大,尤其是AI眼镜赛道:智能眼镜市场潜力巨大,消费者对AI功能智能眼镜接受度显著较高,且愿意在该类产品上消费。
    • 购买客洞察分析
      • 对AI眼镜购买兴趣度高,偏好中等价位产品:在AI智能眼镜购买上,用户呈现出高兴趣,以中价位段为主,能够接受略超出预算的产品价格。

    2025年中国AI眼镜行业研究报告

      • 购买AI眼镜时核心关注功能生态:功能需求是主要消费者决策的关键,舒适的体验、多模态沟通、自然交互是用户购买AI眼镜时关注的方向。
      • 对当下市场的AI眼镜体验评价较高:AI眼镜目前已获得用户较高的认可,尤其在视听体验方面表现突出,电池续航上有优化空间,差异化需求显著。
      • 对AI眼镜的复购与推荐意愿比较强烈:已购AI眼镜的消费者复购意愿强烈,愿意升级迭代AI眼镜产品,且具备品类教育宣传有力的布道者潜质。
    • 兴趣客洞察分析
      • 对AI眼镜有一定认知,但也存在购买顾虑:兴趣客对AI眼镜有一定认知,但价格、功能效果、隐私安全方面存疑,便捷、多元功能集成化需求显现。
      • 易被产品迭代、性价比和促销优惠吸引转化:价格优势和技术卖点或将驱动购买,而生态兼容且融入多元生活场景则被兴趣客重点关注。

    2025年中国AI眼镜行业研究报告

    • 深层兴趣客洞察分析
      • 关注线上便捷、线下体验及国产品牌:深层兴趣客在未来购买时偏好线上便捷也看重线下体验,强品牌力的传统国产生产商具有较强心智吸引。
      • 购买受功能、价格驱动,并关注续航力:深层兴趣客对AI眼镜单品的选择考量比较多维,功能与价格更加重要,在续航期待上有以一定的追求。
    • 购买客与兴趣课对AI眼镜的期待共性和差异性并存:安全性、轻量化和自然材质是两类用户共同关注,兴趣客较购买客对创新接受度和个性化需求更强。

    2025年中国AI眼镜行业研究报告

    05. 中国AI眼镜行业趋势展望

    • 供给端:技术迭代与产业链完善驱动产品升级。预测硬件性能突破、核心部件国产化及厂商生态扩张将共同推动AI眼镜从“小众极客”产品向“大众刚需”产品升级。
    • 需求端:场景拓展与用户体验提升激发市场爆发。认为C端消费场景的不断渗透、用户购买意愿的增加以及交互体验的升级,将共同激发AI眼镜市场的爆发式增长。

    2025年中国AI眼镜行业研究报告

    • 零售端:零售渠道整合与体验式营销是关键。指出未来零售模式将是线上线下深度融合,通过线下体验驱动转化,线上数据反哺线下运营,形成双向价值的增长飞轮。
    • 产业端:技术革新与产业生态融合是必然趋势。展望产业的最终走向是技术与生态的深度融合,包括AI与AR/VR的结合、产业链的协同整合以及跨界品牌的生态合作。

    获取《2025年中国AI眼镜行业研究报告》PDF原文件,扫码关注回复: 20250703

  • AI资讯半年刊 – 2025年1月-6月 AI 行业发展动态全记录

    6月30·周一

    百度正式开源文心大模型 4.5 系列模型

    百度宣布文心4.5系列模型正式开源。系列包含10款模型,涵盖47B和3B参数规模的混合专家(MoE)模型以及0.3B稠密参数模型,最大模型总参数量达424B。可以在文心一言体验最新开源能力。来源:飞桨PaddlePaddle

    豆包推出「深入研究」功能,复杂问题,用豆包「深入研究」一下

    豆包推出「深入研究」功能,正式在APP、网页版及电脑版开启测试。功能可快速、全面地处理高难度复杂任务,支持生成报告文档和可视化网页两种形式的研究结果。来源:豆包

    华为宣布开源盘古7B稠密和72B混合专家模型

    华为宣布开源盘古7B稠密模型和72B混合专家模型,以及基于昇腾的模型推理技术。盘古Pro MoE 72B模型权重和基础推理代码已上线开源平台,盘古7B相关模型权重与推理代码也将于近期上线。来源:APPSO

    美团推出商家AI智能决策应用——袋鼠参谋

    美团开启公测餐饮行业经营决策AI助手“袋鼠参谋”。应用基于AI大模型,依托美团全国400万门店海量信息及10年餐饮运营经验,为商家提供赛道选择、开店选址、菜品研发、门店运营等场景的智能经营建议。来源:AI工具集

    通义Qwen团队推出多模态统一理解与生成模型Qwen VLo

    Qwen团队推出多模态统一理解与生成模型Qwen VLo。模型可实现从“看懂”世界到“描绘”世界的跨越,通过渐进式生成方式,从左到右、从上到下逐步构建图像,优化生成效果。来源:通义千问Qwen

    6月27·周五

    腾讯混元新成员——混元-A13B模型发布并开源

    腾讯发布了混元-A13B模型并宣布开源。模型基于专家混合(MoE)架构,总参数800亿,激活参数130亿,推理效率高,仅需1张中低端GPU卡即可部署。在数学、科学和逻辑推理任务中表现出色,支持快思考和慢思考模式,兼顾速度与准确性。来源:腾讯

    快手可灵AI 上线“视频音效”功能,向用户限时免费开放

    快手旗下可灵AI宣布上线“视频音效”功能,向用户限时免费开放。功能可在生成视频时同步生成高质量立体声音效,支持用户上传视频或调用历史作品,一键匹配精准同步音效。来源:AI工具集

    Black Forest Labs 推出 FLUX.1 Kontext 图像生成与编辑模型

    Black Forest Labs 推出 FLUX.1 Kontext 图像生成与编辑模型。模型基于文本和图像提示,支持上下文感知的图像处理,具备角色一致性保持、局部编辑、风格转换等功能。Pro 版本可快速迭代编辑,保持图像质量稳定;Max 版本在提示词遵循和排版生成方面表现出色;dev 开源版本适合定制化开发。来源:AI工具集

    快手推出自主研发的多模态大语言模型 Kwai Keye-VL

    快手推出自主研发的多模态大语言模型 Kwai Keye-VL,具备强大的视频理解与推理能力。该模型融合文本、图像、视频等多模态信息,能快速解析复杂视觉内容,如精准计数图像中的草莓,并在短时间内为商品视频生成推销方案。来源:AI工具集

    Hengbot 推出 Sirius 机器狗:集成 OpenAI,可跳舞、踢足球

    Hengbot 推出 Sirius 机器狗,主打敏捷运动,可跳舞、踢足球,集成了 OpenAI 大语言模型,支持语音对话,能根据主人需求调整性格和声音。腿部和头部内置 14 个运动轴,配备“Neurocore”关节,动作自然流畅。来源:IT之家

    6月26·周四

    出门问问发布Agentic AI软硬结合产品TicNote,定义新一代“AI思考伙伴”

    出门问问发布全球首款Agentic AI硬件产品TicNote,售价999元起。产品搭载自研AI Agent Shadow AI,具备AI转写、总结、生成思维导图等功能,支持120多种语言及24种方言转写,准确率达98%。TicNote厚度仅3mm,可磁吸于手机,续航达20天,支持10米远距收声。来源:出门问问AIGC

    谷歌推出的开源终端AI编程Agent——Gemini CLI

    谷歌推出Gemini CLI(命令行界面),基于Gemini 2.5 Pro AI模型。工具将AI问答、内容生成等功能集成到开发者终端界面,支持高达100万个token的上下文窗口,与Gemini Code Assist代码助手深度集成,支持谷歌搜索。来源:AI工具集

    阶跃星辰与鲸鱼机器人达成战略合作,为青少年打造AI学习伙伴

    阶跃星辰与鲸鱼机器人达成战略合作。鲸鱼机器人将接入阶跃星辰的Step-Audio端到端语音大模型,为其教育机器人产品引入语音交互能力,打造更贴合教育认知规律的AI学习伙伴。来源:阶跃星辰

    灵宝CASBOT完成近亿元天使+轮融资,技术务实加速商业化落地

    灵宝CASBOT宣布完成近亿元天使+轮融资,由蓝思科技领投,天津佳益及老股东国投创合、河南资产跟投。本轮融资将用于加速产品量产、技术研发迭代及市场拓展。灵宝CASBOT专注于通用人形机器人和具身智能产品,其VLA技术路线结合强化学习,可应对复杂工业场景。来源:灵宝CASBOT

    谷歌DeepMind推出的基因变异预测AI模型 AlphaGenome

    谷歌DeepMind发布AlphaGenome模型,用于预测人类DNA序列中单个变异或突变的影响。模型可处理长达100万字母的DNA序列,预测数千个分子属性,通过比较突变与未突变序列进行评分。来源:AI工具集

    蚂蚁集团发布 AI 健康应用 AQ:可看病症、看医生、看报告

    蚂蚁集团发布全新AI健康应用「AQ」,帮助公众看病更简单、生活更健康。AQ提供健康科普、就诊咨询、报告解读、健康档案等上百项AI功能,连接全国超5000家医院、近百万医生及200余个名医AI分身。来源:蚂蚁集团

    万兴科技推出AIGC视频创作平台“万兴天幕”

    万兴科技推出AIGC视频创作平台“万兴天幕”,覆盖视频、图片及音频生成三大领域,为创作者提供一站式解决方案。平台具备文生视频、图生视频、视频续写、文生音乐、文生音效及视频智能配乐等功能,支持灵感社区激发创作。来源:万兴科技

    6月25·周三

    饿了么推出AI助手“小饿”已全国上线

    饿了么AI助手“小饿”已在全国上线。作为国内首个骑手端智能体,“小饿”通过语音交互,可完成接单、确认到店等操作,减少手动步骤。能主动提醒取货、送达,分析订单热力图,优化接单策略。来源:饿了么蓝骑士

    谷歌推出首个本地具身智能模型Gemini Robotics On-Device

    谷歌DeepMind推出首个本地具身智能模型Gemini Robotics On-Device。模型可在机器人本地运行,无需依赖云端,具备强大的离线操作能力,能遵循自然语言指令完成精细任务,如拉开袋子、叠衣服等。支持多种机器人本体部署,响应延迟低,能快速适应新任务,仅需50到100个演示样本可学会新动作。来源:AI工具集

    阿里云百炼X支付宝:「AI打赏」功能上线,Agent变现更灵活

    阿里云百炼与支付宝联合推出业内首发的“AI打赏”功能。开发者在阿里云百炼平台上可为Agent应用配置打赏功能,用户打赏金额将直接转入开发者个人支付宝钱包。来源:阿里云

    小米官宣将发布AI眼镜,正式加入“百镜大战”

    小米宣布将于6月26日晚7点发布小米AI眼镜。这款产品被视为小米“人车家全生态”战略的一部分,可能与汽车、智能家居等场景联动。小米AI眼镜售价可能在999-1299元,有望凭借价格优势抢占市场份额。来源:界面新闻

    Fellou Windows版本正式上线

    Fellou Windows版本正式上线。Fellou是一款AI浏览器,用户只需输入自然指令,可完成跨平台复杂操作,任务成功率从31%提升至80%。支持信息填报、代码编写、招聘流程、数据分析等多种场景,本地化运行保障数据安全。来源:FellouAI

    6月24·周二

    ElevenLabs推出AI语音助手——11ai,支持自定义MCP

    ElevenLabs发布11ai的AI个人语音助理产品。11ai主打语音优先设计,支持多通道处理(MCP),用户可通过语音指令完成日程规划、任务管理、信息查询等操作,可与Notion、Linear等工具对接。来源:AI工具集

    微软推出 Win11 设备端小型语言模型 Mu

    微软发布创新小参数模型Mu。Mu仅含3.3亿参数,性能却可比肩微软Phi-3.5-mini模型,且体量小10倍左右。在配备NPU的笔记本上响应速度超每秒100 tokens,表现优异。来源:AI工具集

    字节跳动旗下抖音推出AI饭搭子——探饭

    字节跳动上线“探饭”AI产品,搭载豆包大模型。探饭为用户提供全方位的美食智能向导服务,包括探店推荐、菜品推荐、美食攻略、AI点菜、团购购买和外卖下单等功能。用户可通过“PK比店”功能对比店铺,能在地图上寻找美食店并导航。来源:AI工具集

    墨刀AIPPT正式上线,一句话生成完整PPT

    墨刀官方宣布AIPPT功能正式上线。墨刀AIPPT是AI驱动的PPT生成工具,用户仅需输入一句话,可快速生成包含封面、目录、章节标题及配套文案思路的PPT草稿,自动匹配排版、配图和配色。来源:墨刀

    特斯拉Robotaxi终于上线!仅需4.2美元一口价

    特斯拉在德克萨斯州奥斯汀正式上线自动驾驶出租车服务Robotaxi,首批受邀用户可支付4.2美元体验。目前服务处于试运营阶段,仅限特定区域和受邀用户使用,运营时间为早上6点至午夜12点。车内配备安全监控员,车辆在复杂路况下需远程操作员介入。来源:机器之心

    6月23·周一

    文心快码发布行业首个多模态、多智能体协同AI IDE——Comate AI IDE

    百度在AI开放日上发布文心快码Comate AI IDE,是行业首个多模态、多智能体协同的AI IDE。首创设计稿一键转代码功能,可将Figma设计稿精准转化为高可用代码,节省80%重复劳动。IDE具备AI辅助编码全流程、多智能体协同、多模态能力增强等核心能力,支持MCP对接外部工具,适配多种开发场景。来源:文心快码 baidu Comate

    哈啰Robotaxi业务完成超30亿元融资,引入蚂蚁集团、宁德时代战略投资

    哈啰宣布进军Robotaxi赛道,完成超30亿元融资,引入蚂蚁集团和宁德时代战略投资。三方共同发起成立“上海造父智能科技有限公司”,专注于L4级自动驾驶技术研发与商业化落地。此次合作将加速自动驾驶技术的突破与应用,推动智能驾驶产业迈向大规模商业化阶段。来源:哈啰

    网易有道开源“子曰3数学模型”,单块消费级 GPU 即可运行

    网易有道宣布开源“子曰3数学模型”(Confucius3-Math),是国内首个专注于数学教育且可在单块消费级GPU上高效运行的开源推理模型。在多项数学推理任务中表现优异,在高考数学题评测框架中得分高达98.5分,推理性能是通用大模型DeepSeek R1的15倍,服务成本低至每百万token 0.15美元。来源:网易有道

    MiniMax Day 5/5:MiniMax Audio 新增Voice Design音色设计功能

    MiniMax推出语音技术更新——Voice Design音色设计功能。支持用户通过自然语言描述音色,实现精准控制,生成不存在的音色,与Speech 02语音模型配合,实现“任意语言×任意口音×任意音色”的全自定义组合。打开MiniMax Audio,即刻体验。来源:MiniMax 稀宇科技

    模型即 Agent,Kimi-Researcher(深度研究)开启内测

    月之暗面旗下的Kimi智能助手发布其首个Agent产品——Kimi-Researcher(深度研究),开启小范围灰度测试。Kimi-Researcher基于端到端自主强化学习技术训练,专为深度研究任务设计,可自主规划任务执行流程,包括澄清问题、深入思考、主动搜索、调用工具等,最终交付深度研究报告及动态可视化报告。来源:月之暗面 Kimi

    宁德时代领投,「银河通用」完成超10亿元新一轮融资

    具身智能公司「银河通用」完成超10亿元新一轮融资,由宁德时代和溥泉资本领投,国开科创、北京机器人产业基金、纪源资本等跟投,创下今年具身智能赛道最大单笔融资。来源:智能涌现

    Meta最强AI眼镜 Oakley Meta HSTN 登场!AI随问随答,拍照一键分享

    Meta与运动品牌欧克利(Oakley)联合发布第三代AI眼镜——Oakley Meta HSTN 。这款高性能AI眼镜主打运动场景,具备拍照、录视频、语音问AI、一键分享等功能,支持透明、变色、偏光镜片,续航达8小时,配合充电盒可达48小时。来源:智东西

    上海AI独角兽联影智能获10亿融资!刚发布5款大模型

    上海医疗AI创企联影智能完成10亿元A轮融资,由易方达私募基金、上国投资管等机构领投。联影智能已推出100多款医疗AI产品,涵盖诊断、手术、服务、管理等多场景,数十款产品获国内外认证。今年4月,联影智能发布“元智”医疗大模型,包括文本、影像、视觉、语音、混合等5款大模型,率先应用于复杂医疗场景。来源:智东西

    华为盘古大模型5.5问世!推理、智能体能力大爆发

    华为在开发者大会2025上发布盘古大模型5.5,包含五大基础模型,覆盖自然语言处理(NLP)、多模态、预测、科学计算、计算机视觉(CV)等领域。盘古Ultra MoE是准万亿参数的深度思考模型,达到国内领先水平;盘古Pro MoE在SuperCLUE千亿参数模型榜单中并列国内第一。来源:机器之心

    6月20·周五

    MiniMax推出Hailuo Video Agent视频创作Agent

    MiniMax稀宇科技推出Hailuo Video Agent视频创作Agent的Beta版本。降低视频创作门槛,让用户通过简单输入文字或图片,即可一键生成高质量创意短片。目前处于第一阶段,提供专业视频创意Agent模板,未来将逐步开放半自定义和端到端视频Agent功能。来源:MiniMax 稀宇科技

    腾讯AI Lab开源音乐生成大模型SongGeneration

    腾讯AI Lab开源了音乐生成大模型SongGeneration,专注于解决音乐AIGC中的音质、音乐性与生成速度三大难题。模型基于LLM-DiT融合架构,支持文本控制、多轨合成与风格跟随等功能,生成歌曲在音质、旋律、伴奏等方面表现优异。SongGeneration采用低比特率编解码、多类别token并行预测等技术创新。来源:机器之心

    昆仑万维正式开源Skywork-SWE-32B,最强仓库级代码修复能力

    昆仑万维发布并开源Skywork-SWE-32B模型,是业界首个开源的32B规模、具备强大仓库级代码修复能力的软件工程自主代码智能体基座模型。模型基于超过1万个可验证的GitHub仓库任务实例构建,刷新了SWE-bench Verified基准上32B模型的最佳成绩,准确率从38.0%提升至47.0%。来源:昆仑万维集团

    DeepSite V2上线,一句话建网页、做动画、改样式

    DeepSeek开源生态推出DeepSite V2版本,基于DeepSeek R1‑0528模型的AI网页生成器。用户通过文字提示即可生成、预览并迭代网站页面,无需本地环境配置。V2版本升级了交互界面,支持推理式建站、细粒度编辑功能和增量差异补丁技术,可快速修改页面而不需重写代码。来源:AI工具集

    xAI公司 Grok 上线“定时任务”新功能

    马斯克的xAI公司旗下的Grok上线了新功能——“定时任务”。支持用户设置定时自动触发的Grok提示,实现重复性工作的自动化。用户可以自定义任务的触发时间(精确到时/分)、周期(如每天、每周、每月等),设置邮件或App提醒。定时任务支持深度搜索功能。来源:AI工具集

    宇树科技完成C轮融资交割,估值超过100亿

    宇树科技完成C轮融资交割。此次融资始于去年底,由移动旗下基金、腾讯、锦秋、阿里、蚂蚁、吉利资本共同领投,绝大部分老股东参与跟投。来源:第一财经

    谷歌 Search Live 语音搜索功能上线:支持连续对话

    谷歌在美国上线了基于Gemini模型的Search Live语音搜索功能,适用于iOS和Android版应用。用户在启用AI模式后,点击Live图标即可通过语音对话提问,谷歌会以AI语音回应,支持连续对话,无需重复操作。来源:IT之家

    6月19·周四

    Midjourney正式推出首个视频生成模型V1,很快、很好、很便宜

    Midjourney推出视频生成模型V1,是一款图生视频模型。用户在生成静态图像后,点击“Animate”按钮即可让画面动起来。系统提供“自动动画”和“手动动画”两种模式,以及低动态和高动态两种强度选项,分别适合不同场景需求。生成视频后,能进行延长操作,每次延长约4秒,最多可延长4次。来源:Midjourney

    MiniMax Agent,能完成长程复杂任务的通用智能体

    MiniMax稀宇科技发布的MiniMax Agent通用智能体。能完成长程复杂任务,具备多步规划和灵活拆解任务需求的能力,可生成讨论材料、学习教程、视频等多种内容。设计遵循“靠谱的人”标准,支持多模态输入输出,集成多种办公工具扩展能力。来源:MiniMax 稀宇科技

    AI陪伴硬件公司“珞博智能”完成数千万人民币融资,上影、金沙江领投

    AI陪伴硬件初创公司珞博智能近日完成数千万元人民币天使轮融资,由零一创投、上影新视野基金和金沙江创投参与投资。珞博智能成立于2024年,首款产品芙崽Fuzozo于2025年3月发布,6月正式投入市场销售。芙崽是一款AI养成系潮玩,通过多模态交互与类宠物养成玩法,为Z世代人群提供情感陪伴。来源:Robopoet珞博智能

    红杉中国正式开源xbench两个评测集

    红杉中国正式开源xbench评测集,包括xbench-ScienceQA和xbench-DeepSearch两个子集。xbench-ScienceQA聚焦高难度科学与工程问答,邀请博士生和专家出题,题目难度高、区分度好,平均正确率仅32%。xbench-DeepSearch针对 AgentAI的深度搜索能力,考察规划、搜索、推理和总结能力,适配中文互联网环境。来源:红杉汇

    6月18·周三

    重磅!MiniMax推出全新AI视频模型——Hailuo 02,刷新排名 力压可灵和Veo 3

    国内MiniMax旗下视频生成模型海螺AI推出新版本Hailuo 02,这个模型目前在图生视频、文生视频的榜单位于第二,超越快手可灵以及谷歌Veo 3,仅次于字节上周刚刚发布Seedance 1.0。来源:AI工具集

    AI 编程工具 Cursor 推出月费 200 美元 Ultra 订阅

    AI 编程工具 Cursor 推出月费 200 美元的 Ultra 订阅方案。方案提供比现有 20 美元 Pro 方案多 20 倍的 AI 模型额度,并优先体验新功能。来源:AI工具集

    谷歌 Gemini 新增视频上传与分析功能,安卓、网页端已上线

    Gemini新增视频上传与分析功能,用户可在安卓版和网页端上传视频,要求 Gemini 进行概述、查找特定部分等操作,Gemini 会显示相关视频片段。功能基于其总结 YouTube 视频的能力拓展,目前不支持直接录制视频上传。来源:IT之家

    字节跳动Seed与比亚迪锂电池深化合作:将成立AI联合实验室加速电池研发

    字节跳动Seed与比亚迪锂电池深化合作,将成立AI联合实验室加速电池研发。双方将通过联合实验室,进一步探索AI技术在动力电池快充、寿命和安全等问题上的应用,推动电池技术进步。来源:字节跳动Seed

    OpenAI“热线电话”技能更新:发短信给 1-800-242-8478 即可生成图片

    OpenAI更新其“热线电话”技能,用户可通过WhatsApp向1-800-242-8478发短信调用图像生成功能。OpenAI为WhatsApp集成ChatGPT,用户无需OpenAI账号,将1 (800) CHATGPT添加到联系人即可使用。来源:IT之家

    Google发布Gemini 2.5 AI模型家族更新

    Google发布Gemini 2.5 AI模型家族更新,三大亮点:Gemini 2.5 Flash-Lite上线预览版,支持多模态输入、Google搜索、代码执行等工具接入;Gemini 2.5 Flash正式上线并调整定价,输入每百万Token价格为0.3美元,输出为2.5美元;Gemini 2.5 Pro正式版上线,在多个基准测试中超越DeepSeek R1等模型,视频理解能力显著提升。来源:APPSO

    腾讯元宝上线 AI 编程模式:支持边修改代码边实时预览

    腾讯元宝上线AI编程模式,用户可通过“一句话写代码”实现快速编程。模式基于DeepSeek V3模型,支持双栏展示,左侧提需求,右侧实时生成代码并可在线运行,支持HTML、Python、C++等多种语言。来源:腾讯元宝

    硅基流动入驻阿里云云市场,核心API服务将全面接入阿里云百炼平台

    AI Infra企业硅基流动正式入驻阿里云云市场,并加入阿里云“繁花计划”。大模型推理平台SiliconCloud核心API服务将全面接入阿里云百炼平台,借助阿里云灵骏智能计算集群的算力支撑,为客户提供开箱即用的大模型服务。来源:阿里云

    6月17·周二

    豆包电脑版、网页版上线“AI 播客”功能

    豆包电脑版和网页版上线了“AI播客”功能。用户只需上传PDF文件或添加网页链接,可生成自然流畅的拟人化双人对话播客。语音效果逼真,模拟真人播客的口语习惯,停顿和附和细节恰到好处。用户可将行业报告、课程知识点等资料上传,快速生成通俗易懂的播客。来源:豆包

    MiniMax-M1,全球首个开源大规模混合架构的推理模型

    MiniMax稀宇科技发布全球首个开源大规模混合架构推理模型MiniMax-M1。在复杂生产力场景中表现卓越,接近海外领先水平,性价比极高。M1支持100万上下文输入和8万Token推理输出,基于闪电注意力机制和混合架构,算力效率显著提升。强化学习算法CISPO收敛性能优异,训练成本仅53.74万美金。来源:MiniMax 稀宇科技

    Qwen3 全系适配 MLX,开源 32 款 MLX 量化模型

    Qwen3模型宣布全系适配苹果芯片的MLX框架,开源32款量化模型。MLX是专为苹果芯片深度适配的开源机器学习框架,可高效训练和部署AI大模型。Qwen3此次推出的模型包括4bit、6bit、8bit和BF16四种精度的量化版本,覆盖从Mac Pro到iPhone的全场景设备。来源:通义千问Qwen

    Kimi新模型Kimi-Dev拿下代码开源SOTA,仅仅72B,发布即开源

    月之暗面发布了开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA,其参数量仅72B,但编程能力超越DeepSeek-R1。Kimi-Dev采用BugFixer和TestWriter两种角色,通过文件定位和代码编辑实现功能。来源:量子位

    美国国防部与 OpenAI 签订 2 亿美元合同,开发 AI 工具应对国家安全挑战

    美国国防部与OpenAI签订了一份价值2亿美元的合同,开发人工智能工具以应对国家安全挑战。根据合同,相关工作将在华盛顿及其周边地区开展,预计于2026年7月完成。来源:IT之家

    普惠算力新标杆 九章智算云 Alaya NeW Cloud 2.0 震撼发布

    九章云极DataCanvas公司在北京发布新一代全栈智能计算云平台——九章智算云Alaya NeW Cloud 2.0,启动全球首个强化学习智算服务。平台基于Serverless技术架构与强化学习技术,突破“秒级生成百万级token”的性能瓶颈,支持万卡级至十万卡级异构算力统一调度,推理优化效率提升数倍,采用创新计价模型,显著降低成本。来源:九章云极DataCanvas

    6月16·周一

    打造 L3 级别的 Coding Agent——Clacky AI 来了

    Clacky AI是面向开发者的云端开发环境(CDE),打造L3级别的AI编程助手。支持全栈开发,涵盖Python、Node.js、Golang、Ruby、Java等语言,具备工程化思维、多线程协作、自我排查与修复等功能,提供“时光机”功能追溯开发节点。来源:AI工具集

    OpenAI Codex AI编程工具推出新功能:可一次生成多个方案

    OpenAI 的 ChatGPT Codex 推出新功能,可为单一任务生成多个解决方案,用户能从中选择最佳答案。增加了键盘快捷键,优化了代码差异显示,修复了多项问题,提高了专业版、团队版和企业版用户的设置脚本时长限制至 20 分钟。来源:IT之家

    脑机接口技术迎来重大突破:可使渐冻症患者重新流畅说话、唱歌

    加州大学戴维斯分校研发的新型脑机接口技术取得重大突破,成功帮助一位渐冻症患者重新流畅说话甚至“哼唱”旋律。技术通过植入大脑的微电极阵列捕捉神经信号,结合低延迟处理和AI解码模型,将信号转化为语音输出,全程仅需10毫秒。系统能识别语气词、判断音高并合成旋律,使语音表达更自然。来源:IT之家

    腾讯混元3D开源模型又添新成员,腾讯混元3D 2.1全链路开源

    在CVPR 2025会议上,腾讯宣布混元3D 2.1大模型全链路开源。是首个开源的工业级3D生成大模型,相较于2.0版本,2.1优化了几何生成质量,引入PBR材质生成技术,提升了3D资产的质感和光影表现。来源:腾讯混元

    百度地图全球首发「司机智能体」带上智能副驾,上路即⾃由

    百度地图全球首发「司机智能体」功能,为用户带来智能副驾般的驾驶体验。通过先进的智能技术,为司机提供实时路况提醒、智能导航建议以及安全驾驶辅助等服务,帮助用户更轻松地应对复杂路况,提升驾驶自由度和安全性。来源:百度地图

    今年“港股AGI第一股”确认了,云知声冲刺IPO五年终通过港交所聆讯

    云知声智能科技股份有限公司于2025年6月12日通过港交所聆讯,即将成为“港股AGI第一股”。云知声成立于2012年,是专注于智能语音技术的AI企业,创始人黄伟曾任职于摩托罗拉等机构。公司拥有184 PFLOPS算力集群和10PB存储容量,主要业务涵盖生活、医疗等领域,客户包括中国前三大保险集团等。来源:钛媒体AGI

    6月13·周五

    科大讯飞最新发布!打造下一代智能交互新范式

    科大讯飞在深圳举办智能交互产品升级发布会,主题为“交互领航智启新章”。发布会上,AIUI、机器人超脑、虚拟数字人与讯飞星辰四大开发平台亮相,展示软硬件协同优化成果。科大讯飞发布十大场景化方案,涵盖办公、人力与企业数字化等刚需场景,推动AI技术从通用能力向垂直场景转化。来源:讯飞开放平台

    腾讯元宝“高考志愿咨询”功能上线:可提供专属深度建议

    腾讯元宝“高考志愿咨询”功能正式上线。用户在元宝手机端、电脑版或网页版升级至最新版本后,选择任意模型并开启深度思考,提问志愿填报相关问题,元宝将自动触发深度搜索并提交专属深度建议。来源:腾讯元宝

    美泰公司与 OpenAI 合作,将生成式AI技术引入玩具开发

    美泰公司与 OpenAI 达成合作,将生成式 AI 技术引入玩具开发和 IP 重塑业务。是 OpenAI 首次与玩具厂商合作,通过 AI 提升粉丝互动体验。美泰计划今年稍晚推出首款“AI 赋能产品”,包括实体玩具和互动体验。来源:IT之家

    中国天气智能体台风频道上线,自动推送台风预警

    中国天气智能体台风频道正式上线。作为国内首个天气智能体,融合气象传媒与人工智能技术,可实时推送台风预警信息,查询台风路径及图文、视频等内容。频道通过精准监测和贴心服务,为用户提供台风动态、预警推送、防御指南及科普知识。来源:中国天气网

    谷歌上线 Weather Lab 气象预测网站:利用 DeepMind AI 模型判断台风路径

    谷歌上线 Weather Lab 气象预测网站,引入 DeepMind AI 模型,可预测台风的生成时间、路径、强度等,模拟未来 15 天多达 50 种气象发展场景。网站提供与欧洲中期天气预报中心传统模型的对比功能,帮助用户更早获取气旋信息。来源:IT之家

    6月12·周四

    Meta 推出基于视频训练的世界模型 V-JEPA 2

    Meta推出基于视频训练的世界模型V-JEPA 2,由首席AI科学家Yann LeCun介绍。模型拥有12亿参数,基于联合嵌入预测架构(JEPA)构建,具备先进的环境理解与预测能力,能在新环境中完成零样本规划与机器人控制。V-JEPA 2通过自监督学习训练,无需人工注释,可用于辅助技术、混合现实指导、个性化教育等领域。来源:机器之心

    Manus推出聊天模式,免费向所有用户开放

    Manus 上线 chat 模式,用户可以在Manus中免费使用 chat 模式,为了解决用户在和 Agent 交互过程中需求不明确或者很多需求不需要 Agent 的问题。覆盖日常咨询、知识查询等场景,可无缝切换至代理模式。来源:AI工具集

    知乎知名答主夕小瑶团队推出全球首个A2A范式Agent——Teamo

    知乎知名答主夕小瑶团队推出全球首个A2A范式Agent——Teamo。产品定位为知识工作者的超级Agent,采用Agent-to-Agent(A2A)范式,由“Teamo队长”统一指挥,各领域专业Agent协同工作,模拟真实团队作业。来源:AI工具集

    普林复旦打造历史研究场景的AI助手——HistAgent

    普林斯顿大学与复旦大学联合推出全球首个历史领域AI评测基准HistBench及AI历史助手HistAgent。HistAgent集成文献检索、OCR识别、多语言翻译等工具,专为历史研究优化,在HistBench测试中表现远超现有模型。来源:36氪

    英伟达、三星联手投资 AI 机器人公司 Skild AI,估值达 45 亿美元

    英伟达和三星电子将联手投资AI机器人创业公司Skild AI,分别投资2500万美元和1000万美元。Skild AI专注于机器人软件开发,此次投资属于其B轮融资的一部分,公司估值约45亿美元,软银集团领投1亿美元。英伟达正推广“实体AI”概念,认为其将成为重要收入来源;三星则希望通过投资保持对Skild及其人才的了解。来源:IT之家

    上海市委网信办指导小红书、B站、拼多多等平台清理违规 AI 产品及信息

    上海市委网信办自4月下旬起开展“清朗・整治AI技术滥用”专项行动,聚焦6类突出问题。指导小红书、哔哩哔哩、拼多多等15家重点网站平台,清理“一键脱衣”、未经授权的人脸或人声克隆编辑等违规AI产品及相关信息。来源:IT之家

    夸克发布行业首个高考志愿大模型

    夸克APP发布行业首个高考志愿大模型,为考生提供全新高考志愿服务。模型推出全新专业的高考知识库,通过【夸克搜索】可提供专业、准确的大学、专业查询及志愿问题解答。来源:夸克APP

    全球AI开源贡献榜出炉,阿里千问跻身全球前五、中国第一

    全球最大的AI开源社区Hugging Face发布最新AI开源贡献榜,阿里通义千问跻身全球第五、中国第一,DeepSeek位列第九,是前十中唯二的非美国机构。榜单考察开源模型、数据集、开发者关注度、社区活跃度及全球影响力等指标。来源:网易

    Tolan已在全球获得超 500 万次下载,ARR超 400 万美元

    AI陪伴应用Tolan凭借独特外星人形象和情感互动模式,获得超500万下载量,ARR达400万美元。Tolan由西雅图初创公司Portola开发,主打与外星生物“交朋友”,通过语音交互、情绪回应和个性成长机制,为用户提供温暖陪伴。来源:极客公园

    6月11·周三

    OpenAI 发布 o3-pro升级版推理模型,支持调用ChatGPT全套工具

    OpenAI发布o3-pro模型,替代o1-pro向Pro和Team用户开放。o3-pro是推理模型o3的升级版,处理复杂问题、精准回答能力更强,支持调用ChatGPT全套工具,响应速度稍慢,适合对答案准确性要求高的场景。o3-pro在表达清晰度、答案完整性等方面优于o3。来源:APPSO

    字节跳动推出豆包大模型 1.6,使用成本降至三分之一

    在火山引擎Force原动力大会上,字节跳动宣布豆包大模型升级至1.6版,推理、数学、指令遵循等能力大幅提升,达到全球第一梯队水平。豆包 1.6 系列模型支持多模态理解和图形界面操作,能理解和处理真实世界问题。来源:字节跳动

    Genspark公司推出创新性 Genspark AI 浏览器

    Genspark公司推出创新性人工智能浏览器——Genspark AI Browser。内置智能助手,可帮助用户查找更优交易、比较产品、分析评论,辅助决策。“自动驾驶模式”能自动浏览信息源、收集资料、访问高级数据库,完成复杂网页任务。支持MCP连接700多种工具,实现工作流程自动化,具备广告拦截功能。来源:AI工具集

    字节跳动 Seed 团队正式发布视频生成基础模型 Seedance 1.0

    字节跳动Seed团队发布Seedance 1.0视频生成模型。模型支持文字与图片输入,可生成多镜头无缝切换的1080p高品质视频,具备原生多镜头叙事能力、更强运动生成效果、支持多种风格创作等亮点,40多秒能完成5秒1080p视频的生成任务。在第三方评测榜单Artificial Analysis中,Seedance 1.0文生视频、图生视频两个任务均位居首位。来源:字节跳动Seed

    Mistral 推出推理模型 Magistral 系列,Small 版已开源

    法国AI实验室Mistral推出推理模型Magistral系列,包含Magistral Small和Magistral Medium两个版本。Magistral Small拥有240亿参数,已在Hugging Face平台开源;Magistral Medium能力更强,处于预览阶段,仅在特定平台提供。来源:IT之家

    3D大模型公司VAST再次完成数千万美元的Pre-A+轮融资

    3D大模型公司VAST完成数千万美元Pre-A+轮融资,由北京市人工智能产业投资基金领投,靖亚资本跟投。VAST同时发布全球首个AI驱动的一站式3D工作台Tripo Studio,即将推出全新算法Tripo 3.0。融资将重点投入Tripo系列大模型研发及Tripo Studio产品及生态平台建设。来源:Tripo AI

    6月10·周二

    商汤小浣熊牵手蚂蚁百宝箱,共建AI+数据分析方案

    商汤科技的“小浣熊家族”与蚂蚁集团的“蚂蚁百宝箱”正式达成生态合作,联合打造“AI数据分析助手”,为用户提供大模型服务,后续将登陆支付宝平台。为数字生活平台上的商家及生态方提供轻量化、智能化的分析工具,助力AI数智化服务能力升级。“办公小浣熊”将以AI Agent形态免费为用户提供数据分析能力,构建自然的人机协作场景。来源:商汤科技SenseTime

    Manus已接入 Veo3 模型,创作电影级视觉体验

    Manus现已接入Veo3模型,带来更出色的视觉表现力,角色对话更自然,音画同步更准确,故事叙事更流畅可以创作出电影级别的视觉体验。面向Basic,Plus,Pro会员开放使用。来源:AI工具集

    靠ChatGPT狂飙,OpenAI年化经常性收入突破百亿美元

    OpenAI自推出ChatGPT不到三年,年化经常性收入(ARR)已突破100亿美元,较去年增长近80%。该收入包括消费者产品、ChatGPT商业产品及API销售收入,不包含微软授权收入等。目前OpenAI拥有300万付费商业用户。来源:财联社

    AI 编程工具 Cursor 快速崛起,20 个月实现 1 亿美元年化收入

    Cursor AI 编程工具,由 AnySphere 联合创始人兼 CEO Michael Truell 创立,上线 20 个月实现 1 亿美元年化收入,两年达 3 亿美元。成功源于重构软件开发流程,提升人类指令表达能力。团队曾尝试机械工程领域,后回归编程,放弃插件形式,构建完整 IDE。来源:有新Newin

    6月9·周一

    智谱推出首个企业级超级助手Agent——CoCo

    智谱推出首个企业级超级助手Agent——CoCo,具备交付导向、记忆机制和无缝嵌入三大企业级特性。能全流程辅助工作,根据员工职能和需求主动服务,无缝接入企业资源,提供个性化服务。来源:智谱

    硅基流动完成新一轮数亿元融资,阿里云领投

    硅基流动宣布完成数亿元人民币A轮融资,由阿里云领投,创新工场等老股东超额跟投,华兴资本担任独家财务顾问。硅基流动专注于AI基础设施领域,通过技术突破和产品创新,有效解决国内AI行业发展难题。来源:硅基流动

    小红书hi lab团队首次开源文本大模型 :dots.llm1

    小红书hi lab(人文智能实验室)首次开源文本大模型dots.llm1。模型是中等规模的Mixture of Experts(MoE)语言模型,总参数量1420亿,激活参数140亿。在训练11.2万亿token高质量数据后,性能可与Qwen2.5-72B媲美。来源:小红书技术REDtech

    面壁智能推出端侧大模型 MiniCPM 4.0

    面壁智能推出端侧大模型 MiniCPM 4.0,包含 8B 闪电稀疏版和 0.5B 版。8B 版采用「高效双频换挡」机制,可自动切换注意力模式,兼顾长、短文本场景。模型通过自研 CPM.cu 推理框架,在极限场景下最高提速 220 倍,常规提速 5 倍,实现 90% 模型瘦身。来源:AI工具集

    Meta 正谈判投资 Scale AI,预计价值超 100 亿美元

    Meta 正与 AI 初创公司 Scale AI 进行投资谈判,融资价值有望超 100 亿美元。Scale AI 由亚历山大・王于 2016 年创立,主要提供数据标签服务,客户包括微软、OpenAI 等。若交易达成,将是 Meta 最大外部 AI 投资。来源:IT之家

    智平方×东风柳汽:国产具身大模型首获汽车制造全场景验证,启动数据飞轮

    智平方与东风柳汽在深圳签署协议,共同探索具身大模型在汽车制造全场景的深度应用。智平方的AlphaBot 2(爱宝)机器人搭载GOVLA大模型,将在东风柳汽工厂的上下料、拖拽料车、贴标签等场景执行智能化作业。来源:智平方科技

    6月6·周五

    智源发布“悟界”系列大模型,解码物理世界交互新范式

    第七届北京智源大会在中关村开幕。智源研究院发布“悟界”系列大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0,全原子微观生命模型OpenComplex2,推动人工智能与物理世界的深度融合,探索生命机理本质规律。来源:智源研究院

    图像编辑模型SeedEdit 3.0发布!更强保持力,更高可用率

    字节跳动Seed团队发布图像编辑模型SeedEdit 3.0。模型基于文生图模型Seedream 3.0,采用多样化数据融合方法与特定奖励模型,显著提升图像主体、背景和细节保持能力,在人像编辑、背景更改等场景表现出色。SeedEdit 3.0可处理4K图像,精准识别并移除无关人物及其影子,能将2D绘画转为真实模特,保持细节。来源:字节跳动Seed

    阿里开源 Qwen3 新模型 Embedding 及 Reranker

    Qwen家族推出新成员Qwen3 Embedding和Qwen3 Reranker。Qwen3 Embedding是基于Qwen3基础模型训练的文本嵌入模型系列,可将文字等符号转化为数字向量,挖掘语义关系,为搜索、推荐等任务提供支持。Qwen3 Reranker用于提升搜索和推荐系统相关性排序能力,可精细化打分和排序。来源:通义大模型

    即梦图片3.0重磅更新,上线智能参考功能

    即梦图片3.0模型更新智能参考功能,在原图一致性保持方面表现出色,精细到头发丝级。用户可通过简单提示语实现添加文字、修改文字、复杂设计等多种操作,生成高质量图片。目前功能灰度测试中。来源:AI工具集

    谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本,多项 AI 性能提升

    谷歌更新了Gemini 2.5 Pro预览版模型至06-05版本,多项AI性能基准测试评分提升。LMArena Elo评分上升24分,WebDevArena Elo评分上升35分至1443分,取得业界领先地位。谷歌对模型进行了风格与结构优化,使其更具创意、回答格式更清晰,提升了交互体验。来源:IT之家

    AI视频神器PixVerse国内版“拍我AI”正式上线

    PixVerse国内版“拍我AI”正式上线,网页端和移动端同步推出,支持V4.5版本。用户可通过访问拍我AI官网和各大应用商店下载体验。产品提供AI特效、首尾帧等创新功能,助力用户创作独特视频。来源:爱诗科技AIsphere

    6月5·周四

    OpenAI 发布了两项 ChatGPT 新功能:「连接器」与「记录模式」

    OpenAI为ChatGPT推出两项新功能:“连接器”与“记录模式”。连接器可接入GitHub、Google Drive等平台,实现数据查询与整理,助力企业知识管理。记录模式则能自动录音、记笔记、生成会议纪要,提升会议效率。新功能让ChatGPT融入企业日常,成为打工人“第二大脑”。来源:APPSO

    秘塔“今天学点啥”平台上线导出PPT功能

    今天学点啥”平台上线一键导出PPT功能。用户在视频讲解页面点击“导出PPT”按钮,可下载包含图文、语音讲解及逐字稿的完整PPT。功能因算力消耗大,仅前三天(6月5日—6月7日)限时免费。来源:AI秘塔

    Cursor 1.0 发布:BugBot 代码审查、Memories 记忆、一键 MCP 安装等

    Cursor 1.0 正式发布,新增 BugBot 自动代码审查工具,可自动审查 PRs 精准识别潜在问题,发现问题后能在 GitHub 的 PR 上评论提供修复提示;推出测试版 Memories 功能,可按项目存储对话中的关键信息;支持一键安装 MCP 服务器并简化验证流程;聊天界面新增可视化支持,优化了设置和仪表盘界面;简化定价模式。来源:IT之家

    AMD 收购 AI 软件优化初创公司 Brium

    AMD 宣布收购 Brium,Brium 专注于开发可适配多种硬件架构的机器学习推理技术,能让原本为英伟达等特定硬件设计的 AI 模型在其他品牌平台上有效运行。AMD 表示此举在推动“高性能、开放的 AI 软件生态建设”,支持开发者创新。来源:IT之家

    6月4·周三

    Kimi推出全新AI学术研究助手:学术搜索

    Kimi推出全新AI学术研究助手“学术搜索”,通过深度推理搜索、遵循用户指令、实时互动等,帮助用户在学术研究和论文写作中提高效率和质量。用户可在官网注册登录后使用,适用于学术研究支持、技术问题解决等多种场景。来源:AI工具集

    快手开源”Auto Think”大模型,根据问题自动调节思考深度

    快手 Kwaipilot 团队开源 KwaiCoder-AutoThink-preview 自动思考大模型。模型针对深度思考大模型“过度思考”问题,提出自动思考模型训练范式,融合“思考”和“非思考”能力,可根据问题难度自动切换思考形态。来源:快手技术

    图灵奖得主Bengio再创业:启动资金就筹集了3000万美元

    图灵奖得主、深度学习三巨头之一Yoshua Bengio再次创业,成立非营利组织LawZero,已筹集3000万美元启动资金。LawZero构建“设计即安全”的AI系统,不做Agent,而是监督Agent,以理解学习世界为核心目标,提供可验证的真实答案。来源:量子位

    Manus 推出“文生视频”功能,挑战 OpenAI Sora 等竞争对手

    AI 初创公司 Manus 推出原生“文生视频”功能,目前仅对付费会员开放。功能可将文本命令快速转换为有序视频故事。Manus 提供 Basic、Plus、Pro 三种会员服务,Pro 会员每月收费 199 美元。来源:IT之家

    阶跃星辰To C产品“冒泡鸭”将停运,重心转向终端Agent

    大模型“六小虎”之一的阶跃星辰调整其C端AI应用布局,角色扮演类Agent产品“冒泡鸭”将停止大范围投入,团队合并至对话产品“阶跃AI”。2025年以来,阶跃星辰将战略重心从C端转移到模型研发和ToB/G上,加大开源力度,组织不同技术路线的团队,将ToB的Agent产品作为重点布局方向。来源:智能涌现

    开源 AI 设计 Agent —— Jaaz,Lovart 的免费平替项目

    开源 AI 设计 Agent —— Jaaz,Lovart 的免费平替项目。具备强大的 AI 设计能力,可智能生成设计提示,批量生成图像、海报、故事板等。Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。来源:AI工具集

    OpenAI 向 ChatGPT 免费用户开放记忆功能

    OpenAI宣布将ChatGPT的记忆功能向免费用户逐步开放。此前,该功能仅限于ChatGPT Plus和Pro等付费用户使用。免费用户可体验轻量版记忆功能,支持短期对话连续性,付费用户可引用更久远的对话记录。来源:IT之家

    中国首个房地产垂直领域AI Agent:CRIC深度智联

    克而瑞推出中国首个房地产垂直领域AI Agent “CRIC深度智联”。基于克而瑞20年行业经验与海量数据,结合多模态大模型技术,为房地产行业提供智能化解决方案。CRIC深度智联助力房地产从业者提升工作效率与决策质量,被誉为地产人的“第二大脑”。来源:AI工具集

    6月3·周二

    微软Bing推出AI视频生成工具:Bing Video Creator,免费使用Sora模型

    微软 Bing 团队推出 Bing Video Creator免费的 AI 视频生成工具,由 OpenAI 的 Sora 模型提供支持。用户只需在 Bing 移动应用中输入详细的文字描述,可生成5秒长的竖屏视频(9:16格式)。提供快速和标准两种生成速度,初始有10次免费快速生成机会,之后可使用积分兑换或转为标准速度。来源:AI工具集

    我国水利标准AI大模型正式发布

    水利部国科司组织中国水科院自主研发的“水利标准AI大模型”正式发布并应用。模型基于“SkyLIM”体系,采用“海量知识库+DeepSeek/Qwen双模型+标准服务”架构,集成1800余项水利水电标准、500余项法律法规等多源语料,具备水利标准查重比对、查询、编制、审查、评估等多维功能。来源:中国水利

    银河通用发布全球首个产品级端到端具身 FSD 大模型:TrackVLA

    银河通用发布全球首个产品级端到端具身FSD大模型TrackVLA。模型具备纯视觉环境感知、语言指令驱动、自主推理及零样本泛化能力,无需提前建图和遥操控制,可实现“听→看→懂→走”的闭环运动。有八大核心能力,包括自然语言理解与目标识别、复杂场景下准确跟随、目标丢失找回、陌生环境自主导航等。来源:IT之家

    谷歌 DeepMind 推出手语翻译模型:SignGemma,打破手语沟通壁垒

    谷歌 DeepMind 推出 SignGemma,是强大的手语翻译模型,可将手语转化为口语文本,主要针对美国手语(ASL)和英语深度优化,为开源模型,将于今年晚些时候加入 Gemma 模型家族。DeepMind 希望借此打破手语使用者的沟通障碍,助力他们在工作、学习和社交中更顺畅地参与。来源:AI工具集

    小米多模态大模型 MiMo-VL 开源,多方面领先 Qwen2.5-VL-7B

    小米多模态大模型 MiMo-VL 正式开源。在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,在 GUI Grounding 任务上比肩专用模型。来源:AI工具集

    5月30·周五

    通义灵码AI IDE正式上线,在通义灵码官网免费下载开箱即用

    阿里云宣布通义灵码AI IDE正式上线,支持最强开源模型Qwen3,自带编程智能体模式,全面支持长期记忆、行间建议预测和行间会话等能力。通义灵码深度集成魔搭MCP广场,涵盖3000+MCP服务,拓宽AI编码助手能力边界。来源:阿里云

    字节跳动旗下剪映推出视频内容创作 Agent「小云雀」

    字节跳动旗下剪映团队推出AI视频Agent「小云雀」,主打“灵感即所得,创作零门槛”,已接入豆包和DeepSeek,目前仅安卓可下载,iOS预计6月发布。工具让用户先选择场景,避免生成内容“跑题”,提升交互效率和结果相关性。来源:Z Finance

    阿里巴巴开源自主搜索 AI 智能体 WebAgent

    阿里巴巴在Github上开源自主搜索AI智能体WebAgent,具备端到端自主信息检索与多步推理能力,能像人类一样主动感知、决策和行动。WebAgent分为WebDancer和WebWalker,前者是智能体训练框架,后者是LLM基准测试。来源:IT之家

    前追觅高管创立具身智能公司,半年累计融资近2亿

    Lumos Robotics鹿明机器人完成天使++轮融资,投资方包括复星锐正、德马科技和吴中金控。是半年内的第三轮融资,累计融资近2亿。鹿明机器人由资深机器人专家喻超创立,拥有全栈研发能力。产品包括机器人关节模组、视触觉模组及LUS、MOS系列人形机器人。本轮资金将用于完善产品和深化产业协同,加速商业化落地。来源:Lumos Robotics鹿明机器人

    5月29·周四

    DeepSeek-R1开源新版本DeepSeek-R1-0528,AI编程能力跃升

    DeepSeek发布新版本DeepSeek-R1-0528。在LiveCodeBench上表现接近OpenAI o3-high,实测显示其编程能力显著提升,能解决复杂数学问题,生成高质量代码和交互式网页。新版本具备深入推理能力,改进写作任务,推理风格快速且深思熟虑,单任务最长思考时间可达30至60分钟。来源:量子位

    快手可灵 AI 上线 2.1 系列模型:更快更便宜

    快手发布可灵2.1系列模型。模型在高品质模式(1080p)下生成5秒视频不到1分钟,成本降低65%。动态细节、响应和幅度提升,人物动作更贴近现实,能更好理解用户意图。可灵2.1有标准(720p)和高品质(1080p)两种模式,主打高性价比和高效生成,大师版提供更卓越表现。来源:IT之家

    中国石油发布 3000 亿参数昆仑大模型

    中国石油推出3000亿参数昆仑大模型,涵盖语言、视觉和多模态领域,参数规模大幅提升。模型在油气勘探、炼油化工、销售、装备制造等多领域实现智能化应用,如油气勘探效率提升10倍、炼化工艺优化、AI智能体嵌入加油站管理系统等。来源:中国石油报

    Opera推出首款“AI Agent”浏览器Opera Neon

    Opera浏览器推出首款“AI Agent”浏览器Opera Neon。由Neon Chat、Do和Make三大功能组成,能理解用户意图并转化为行动,如生成报告、编写代码等。Neon Chat可搜索网页、提供上下文信息;Neon Do可与网站交互,执行填写表格、预订行程等任务;Neon Make利基于云技术执行复杂任务,离线编写代码。来源:AI工具集

    谷歌CEO重磅访谈:通用AI不是工具,是“下一代平台本身”

    谷歌CEO桑达尔·皮查伊在访谈中表示,通用AI不仅是工具,更是“下一代平台本身”,将引发互联网生态的重新洗牌。他认为AI正处于平台转型的第二阶段,从能力展示走向产品落地与平台重构。皮查伊指出,AI应用正从聊天界面向多模态转型,“Agent优先”时代已来临,通用AI正在成为新的操作系统。来源:Z Finance

    5月28·周三

    腾讯混元开源语音数字人模型HunyuanVideo-Avatar

    腾讯混元开源语音数字人模型HunyuanVideo-Avatar,模型由腾讯混元视频大模型及腾讯音乐天琴实验室MuseV技术联合研发。用户只需上传一张图片和一段音频,模型能生成人物自然说话或唱歌的视频,支持多种场景和风格。来源:腾讯混元

    小红书与复旦哲学达成“AI+人文”合作

    小红书hi lab与复旦大学哲学学院共同成立“AI人文人才训练营”,培养“AI+人文”复合型人才。合作聚焦于AI后训练阶段的人文课题,将人文关怀注入AI训练中,使AI更具人性化表达和价值对齐能力。小红书hi lab由内部大模型技术与应用产品团队升级而成,专注于人文智能研究。来源:小红书

    AI初创公司SpAItial获1300万美金种子资金

    欧洲顶尖AI 3D模型研究者马蒂亚斯·尼斯纳创立的初创公司SpAItial获得1300万美元种子轮融资,领投方为Earlybird Venture Capital。尼斯纳曾是Synthesia的联合创始人,团队成员来自Meta和谷歌等公司。SpAItial专注于文本生成3D在线环境的基础模型,目标是创造可交互的3D世界。来源:Z Potentials

    AI编程IDE Trae.ai 海外版正式上线Pro订阅模式

    字节跳动的AI编程IDE Trae海外版正式上线Pro订阅模式,结束了完全免费和无限调用的时代。Pro订阅首月3美元,次月起10美元/月或90美元/年,提供600次快速请求额度。Pro用户仍需排队,但速度更快。Trae支持9款高级模型,包括Claude Sonnet 4和GPT-4.1等。来源:AI工具集

    字节再出AI新产品「剪小映」简化版视频剪辑应用

    字节跳动旗下剪映团队近期推出AI简化版应用「剪小映」,应用主打一键式操作,用户上传图片和视频后,应用自动剪辑并提供滤镜模板和音乐选择,快速生成抖音风格视频,简化流程使无专业剪辑经验者也能轻松制作高质量短视频。来源:AI工具集

    具身智能公司优理奇机器人完成数亿元天使轮及天使+轮融资

    优理奇机器人(UniX AI)近期完成数亿元天使轮及天使+轮融资,投资方包括中关村前沿基金、赛纳资本及长安私人资本。本轮融资将用于加速研发多模态具身智能大模型与通用机器人本体的同步演进,并推动其在泛商业服务和C端场景的落地。来源:Z Potentials

    阿里巴巴集团与SAP达成战略合作,探索接入通义千问大模型

    阿里巴巴集团与SAP宣布达成战略合作。合作将SAP领先的企业级软件与阿里云的基础设施及AI能力相结合,加速企业客户的创新和数字化转型。阿里云将作为SAP超大规模云服务提供商,支持企业在阿里云上部署SAP ERP云及私有云版本,加入SAP IaaS认证计划。SAP将探索接入通义千问大模型,使企业客户能在SAP应用中使用本地化生成式AI功能。来源:阿里云

    5月27·周二

    秘塔AI搜索推出全新“极速”模型,最高400 tokens/秒响应速度

    秘塔AI搜索发布全新“极速”模型,通过GPU kernel fusion和CPU动态编译优化,单张H800 GPU响应速度达400 tokens/秒,大部分问题2秒内完成回答。新模型不仅速度快,准确率和逻辑清晰度也更高。来源:AI秘塔

    百度多智能体协作应用心响APP上线iOS版

    百度多智能体协作应用心响上线iOS版,苹果安卓用户均可免费使用,无需邀请码且不限量。心响APP支持旅游攻略、深度研究、法律咨询、试题讲解等10大场景、200+任务类型。来源:AI工具集

    有道云笔记「文转图表」功能全新上线:AI重塑内容可视化新体验

    有道云笔记推出「文转图表」功能,将文字快速转化为可视化图表。功能可智能解析文本数据结构和逻辑关系,自动生成匹配图表类型,支持海量图表样式选择和灵活编辑,满足不同场景需求。来源:有道云笔记

    微分智飞连续完成两轮融资,加速空中机器人具身智能研发

    微分智飞(杭州)科技有限公司在一个月内完成数千万元天使轮及天使+轮融资。融资将用于加速飞行具身智能领域创新、集群空中机器人智能进化及人才团队构建。公司由浙江大学高飞教授创立,打造通用空中机器人具身智能大脑及其集群系统,推动工业、城市与自然空间的智能化升级。来源:微分智飞科技有限公司

    王兴披露美团AI业务进展,6月将推业务决策助手

    美团创始人王兴在第一季度财报电话会上透露,美团计划6月推出业务决策助手,助力商家数字化转型。美团基础大模型能力已接近GPT-4o水平,上季度内部52%的代码由AI生成。美团上线的AI编程工具NoCode,定位Vibe Coding,面向非技术人群,通过对话式交互完成编码任务。来源:IT之家

    飞猪AI“问一问”功能升级,新增“会员助手”

    飞猪AI“问一问”更新,提升“智慧交通顾问”“酒店顾问”查询精度,可推荐如国产飞机C919机票。新增“会员助手”,查询会员等级及权益。优化搜索引擎输入提示、旅行方案一键生成长图等功能,手绘行程地图实用性增强,接入真实地图数据,生成有方位、直观距离的手绘地图。来源:AI工具集

    阿联酋全民免费用 ChatGPT Plus 订阅,免除 20 美元月费

    阿拉伯联合酋长国将成为全球首个为全体公民和居民免费提供ChatGPT Plus服务的国家。作为“星际之门阿联酋”项目福利,阿联酋所有公民和居民可免费获得原本月费20美元的ChatGPT Plus服务。来源:IT之家

    5月26·周一

    昆仑万维天工超级智能体APP今日正式上线!全球首款Office智能体APP

    昆仑万维宣布天工超级智能体APP正式上线。是全球首款基于AI Agent架构的Office智能体手机APP,标志着AI Office智能体时代从桌面端全面迈向移动端。APP以“8分钟完成8小时工作”为核心理念,包含文档、PPT、表格智能体及通用智能体,支持多模态创作与跨端协同,用户可随时随地发起任务并在PC上深入编辑。来源:昆仑万维集团

    红杉中国推出全新AI基准测试工具xbench,动态更新测试内容

    红杉中国推出全新AI基准测试工具xbench,发布相关论文。xbench采用双轨评估体系,分为AGI追踪与专业对齐两大方向,同时评估AI的理论能力上限与实际落地价值。首期发布科学问题解答测评集和中文互联网深度搜索测评集。来源:AI工具集

    首款家庭桌面AI机器人全国首发!

    中国电信陕西公司、数字生活公司与优必选科技联合研发的首款“家庭桌面AI机器人”正式全国首发。机器人依托大模型技术,具备情感计算、环境感知等能力,可实现拟人化陪伴、舞蹈娱乐、故事互动、英语口语练习、视频通话、绘本伴读、家居控制等多元化服务,为用户打造“主动式”“成长式”智慧生活体验。来源:优必选科技

    OpenAI 升级 Operator 智能体,AI 模型从 4o 到 o3

    OpenAI 升级 Operator 智能体,AI 模型从 4o 升级到 o3。升级后,推理能力大幅提升,在与浏览器交互时更稳定、准确,任务成功率显著提高,回复也更清晰、详尽且结构化。来源:AI工具集

    豆包可以打视频电话了,支持视频聊天问答

    豆包在App端上线实时视频通话功能。用户可在“打电话”界面点击视频按钮开启,支持基于真实场景的实时问答互动。背后依托豆包最新的视觉理解模型,可融合视觉与语言输入进行深度思考和创作。来源:豆包

    QQ浏览器推出首个高考 Agent“AI 高考通”,量身定制志愿填报方案

    QQ浏览器推出行业内首个高考Agent——“AI高考通”,为高考生提供全流程AI助力。考生可通过它快速获取全面权威的高考信息,如院校资料、专业信息等,能一键得到量身定制的志愿填报方案。高考期间,AI全程陪伴,提供“AI解题答疑”“AI作文辅导”等功能,助力考生考前提分、考中查询日程、考后个性化推荐志愿。来源:QQ浏览器

    5月23日·周五

    Anthropic发布新一代AI模型Claude 4,自动编码7小时刷新记录

    Anthropic公司推出了新一代Claude 4模型—— Claude Opus 4 和 Claude Sonnet 4 。Claude Opus 4 是全球顶尖的编码模型,在复杂、长时间任务和代理工作流中表现出色。Claude Sonnet 4 在编码和推理方面进行了显著升级,响应指令更精准。来源:AI工具集

    OpenAI 宣布“星际之门”首个国际部署项目落户阿联酋,并考虑扩张至亚太地区

    OpenAI宣布“星际之门阿联酋”项目,是人工智能基础设施平台Stargate的首个国际部署。项目由OpenAI与G42、甲骨文、英伟达、软银和思科共同打造,位于阿布扎比阿联酋-美国人工智能园区。G42负责建设,OpenAI和甲骨文运营,思科提供安全连接,英伟达供应系统。来源:IT之家

    京东工业发布行业首个以供应链为核心的工业大模型Joy industrial

    京东工业在上海发布行业首个以供应链为核心的工业大模型——Joy industrial。模型依托京东工业在工业数智供应链领域的经验积累和数据沉淀,构建全栈产品矩阵,首批推出需求代理、运营代理、关务代理、商品专家、集成专家等AI产品,助力产业降本增效。来源:京东黑板报

    5月22日·周四

    OpenAI最大收购,65亿美元拿下苹果前高管Jony Ive公司io

    OpenAI宣布以约65亿美元收购由CEO Sam Altman与前苹果首席设计官Jony Ive联合创办的AI设备初创公司io。是OpenAI史上最大一笔交易,预计夏季完成,需监管部门批准。收购后,OpenAI将获得约55名顶尖硬件工程师、软件开发者和制造专家,包括多位曾参与iPhone设计的前苹果设计师。来源:APPSO

    Mistral 发布编程专用开源 AI 模型 Devstral

    Mistral AI与All Hands AI合作推出240亿参数的开源AI模型Devstral,专为高级软件工程任务设计,处于“研究预览”阶段,以Apache 2.0许可发布,可商用。Devstral在SWE-Bench Verified基准测试中得分46.8%,超越部分闭源模型。能在单张RTX 4090显卡或32GB RAM的Mac上运行,降低硬件门槛。来源:AI工具集

    OpenAI 扩展 Responses API:支持 MCP、图像生成等

    OpenAI宣布扩展Responses API,新增对远程连接MCP服务器、图像生成(gpt-image-1模型)、Code Interpreter及文件搜索优化等功能的支持,全面适配GPT-4o系列、GPT-4.1系列及OpenAI o系列推理模型。开发者可通过几行代码让模型连接Cloudflare等MCP工具,访问用户数据源。来源:IT之家

    昆仑万维面向全球发布天工超级智能体:基于deep research的“AI版office”

    昆仑万维面向全球发布天工超级智能体(Skywork Super Agents),采用AI agent架构和deep research技术,能生成文档、PPT、表格、网页、播客和音视频等多模态内容。其deep research能力在GAIA榜单上排名全球第一,超过OpenAI Deep Research和Manus。来源:昆仑万维集团

    特斯拉展示 Optimus 人形机器人做家务能力:扔垃圾、扫地、炒菜

    埃隆·马斯克重申Optimus将成为特斯拉重要产品。Optimus社交媒体账号发布视频,展示机器人扔垃圾、扫地、炒菜等家务能力,成功搬运Model X零件。来源:IT之家

    5月21日·周三

    Google I/O 2025 开发者大会,从研究到现实,AI技术全面升级

    Google I/O 2025 大会宣布多项进展。Gemini 2.5 Pro模型在LMArena排行榜首位,性能卓越。推出Google Beam视频通信平台,提供沉浸式3D体验。Gemini Live整合Project Astra功能,Agent Mode助力任务执行。个性化智能回复将推出,AI Mode重塑搜索体验。Gemini应用功能增强,Veo 3和Imagen 4模型助力创意。来源:谷歌黑板报

    面壁智能获新一轮数亿元融资,引领端侧大模型高效发展与应用普及

    面壁智能完成新一轮数亿元融资,由洪泰基金、国中资本、清控金信和茅台基金联合投资。面壁智能专注于打造高效大模型,端侧全模态模型面壁小钢炮MiniCPM-o 2.6多项能力达国际领先水平,系列模型全平台下载量累计破1000万。面壁智能发布了业界首个智能座舱纯端侧汽车助手cpmGO,与多家车企合作实现量产车型定点。来源:面壁智能

    全球首款!北大上线新AI科研平台——Science Navigator

    北京大学正式上线全球首个覆盖“读文献-做计算-做实验-多学科协同”的AI科研平台——Science Navigator。具备全维度科研知识库、个性化问题推荐、多模态搜索、批量文献问答等功能,帮助科研人员高效探索学术前沿,摆脱繁琐信息搜索,将更多精力投入科研突破。来源:北京大学

    美图公司与阿里巴巴达成战略合作并获得2.5亿美元投资

    美图公司宣布与阿里巴巴达成战略合作并获得2.5亿美元可转债投资。协议为期3年,年利率1%,阿里巴巴可按每股6.00港元的价格将可转债转换为美图股票。双方将在电商平台、AI技术、云计算等领域展开合作,阿里巴巴将优先推广美图AI电商工具,协助美图开发电商生图及生视频工具,提升商家营销和运营效率。来源:美图公司

    火山引擎正式推出豆包·语音播客模型,低成本、高时效、强互动

    火山引擎推出豆包·语音播客模型。模型基于流式模型构建,可将文本秒级转化为双人对话式播客,具有低成本、高时效、强互动特点。解决了传统AI播客内容重复、不够口语化等问题,对话自然流畅,创作高效快捷,能紧跟时事热点。用户输入主题或文档等,能生成深度播客观点和作品。来源:火山引擎

    5月20日·周二

    混元游戏来了,首个工业级AIGC游戏内容生产引擎正式发布

    腾讯混元游戏视觉生成平台正式发布。是首个工业级AIGC游戏内容生产引擎,依托混元大模型打造,可大幅提升游戏资产生成与制作效率。平台面向游戏美术设计师提供AI美术管线、实时画布、AI 2D美术生成、专业角色多视图生成等核心功能,助力设计师快速生成高质量游戏素材与概念草案,将游戏美术设计效率提升数十倍。来源:腾讯混元

    谷歌推出 NotebookLM 移动应用,可生成智能总结、音频播客

    谷歌推出Google NotebookLM APP移动应用。应用基于人工智能,核心功能包括智能总结,可快速提炼文档关键信息;“音频概览”功能可生成播客内容,支持离线收听。用户可创建和管理笔记本,将浏览内容添加为资料来源。来源:AI工具集

    谷歌 AI 编程助手 Jules 全球公测,挑战 GitHub Copilot 和 OpenAI 的 Codex

    Google Labs 推出实验性 AI 编程助手 Jules,能根据任务描述自动生成代码,将复杂任务分解为多个步骤,逐步推进解决方案。可以理解并导航代码库,自动运行单元测试以确保代码更新的正确性,根据开发者反馈自适应调整方案。来源:AI工具集

    美团开放AI编程能力,推出零代码AI应用开发平台NoCode

    美团推出零代码AI应用开发平台NoCode,无需编程经验,通过自然语言描述即可快速生成网站页面、实用工具、小游戏等应用。平台具备自然语言编程、实时预览、局部修改及一键部署分享等功能,支持版本管理,可实时渲染页面。来源:AI工具集

    微软 GitHub 推出 AI 编程智能体,可自动修复漏洞和优化代码

    在微软Build大会上,GitHub推出AI编程智能体,集成于GitHub Copilot中,可自动修复漏洞、添加功能和优化代码。智能体通过启动虚拟机克隆代码仓库并分析整个代码库来完成任务,实时保存更改并在会话日志中记录决策过程。任务完成后,会提醒开发者审核,开发者可留下评论,AI会自动处理反馈。来源:IT之家

    微软研究院推出 Magentic-UI,以人为中心的AI智能体开源研究原型

    微软研究院发布Magentic-UI开源研究原型,是以人为中心的AI智能体,通过网页浏览器实时协助用户完成复杂网络任务。基于Magentic-One多智能体系统,由AutoGen框架驱动,具备协同规划、协同任务、行为防护和计划学习四大核心功能。来源:AI工具集

    Flowith推出Agent Neo,能持续不断地工作

    Flowith推出Agent Neo,具备无限步骤、无限上下文、无限工具的核心能力,可执行复杂任务、处理海量信息并调用多种大模型与工具。结合知识库功能,能快速构建数字分身或生成高质量内容。来源:AI工具集

    清华系具身大脑公司「千诀科技」累计融资数亿规模,已在行业头部厂商落地

    清华系具身智能技术公司「千诀科技」完成新一轮Pre-A+轮融资,累计融资数亿元,投资方包括钧山投资、祥峰投资和石溪资本等。本轮融资将用于核心技术演进、产品标准化及产业化交付能力提升。公司由清华大学自动化系及相关人工智能研究机构的核心成员创立,是国内唯一可对标美国Physical Intelligence公司的企业。来源:36氪

    5月19日·周一

    腾讯QQ浏览器正式推出 QBot AI浏览器,全新升级

    腾讯正式推出AI浏览器QBot。浏览器融合了先进的人工智能技术,为用户提供更智能、便捷的上网体验。具备智能搜索、内容推荐、语言翻译等多种功能,能根据用户的浏览习惯和偏好提供个性化的服务。腾讯AI浏览器注重隐私保护和数据安全,为用户打造安全可靠的网络环境。来源:腾讯

    B站团队开源动漫视频生成模型 AniSora,一键创建不同风格片段

    B站团队开源动漫视频生成模型AniSora。模型可一键创建多种动漫风格视频片段,涵盖系列剧集、中国原创动画、漫画改编等。AniSora拥有超1000万高质量数据,引入时空掩码模块,支持图生视频、帧插值等关键功能。评测数据集包含948段多样化动画视频,人物与运动一致性均达SOTA。来源:AI工具集

    OpenAI最强编程智能体Codex上线ChatGPT

    OpenAI在ChatGPT中引入了Codex研究预览版。Codex是云端软件工程智能体,能并行处理多项任务,如编写功能、解答代码库问题、修复bug等,每个任务在专属云沙盒环境中运行。背后的模型codex-1是OpenAI o3的优化版本,可生成符合人类风格的代码。来源:机器之心

    魔法原子再获数亿元融资,将解锁千个落地场景

    具身智能机器人公司魔法原子完成新一轮数亿元战略融资,投资方包括禾创致远、芯联资本等产业资本及华映资本等财务投资人。新资金将用于核心技术研发、VLA模型搭建及加速机器人在工业、商业场景落地。魔法原子旗下人形机器人“小麦”已进驻工厂产线实训,在商场门店、会展服务、新闻传媒等场景展开实践。来源:智东西

    大模型“国家队”中科紫东太初宣布完成首轮数亿元融资

    中科紫东太初(北京)科技有限公司完成首轮数亿元融资,由中科创星领投,粤民投等多家机构跟投。公司由中国科学院自动化研究所孵化,董事长王金桥和首席科学家徐波均为业内权威。中科紫东太初打造了紫东太初多模态大模型,1.0为全球首个千亿参数多模态大模型,3.0能力全面对标GPT-4o。来源:智东西

    5月16日·周五

    腾讯混元图像2.0发布,体验“毫秒级”AI图像生成

    腾讯正式发布混元图像2.0模型。模型具有实时生图、超写实画质两大特点,参数量大幅提升,借助超高压缩倍率的图像编解码器和全新扩散架构,生图速度达毫秒级,远超行业领先模型,改变了传统交互方式。图像生成质量高,避免了AIGC图像的“AI味”,真实感强、细节丰富。来源:腾讯混元

    MiniMax悄悄推出manus产品,通用 AI 智能体平台MiniMax Agent

    MiniMax推出通用 AI 智能体平台MiniMax Agent,能高效便捷地处理多种任务,如生成音频、市场研究、文档验证、旅行规划、社交媒体分析、专利识别、投资策略分析以及创意内容创作等。用户仅需输入任务描述,平台会根据任务类型提供相应解决方案。来源:AI工具集

    问小白学术搜索来了,可检索海量权威文献

    问小白推出“学术搜索”功能,基于谷歌学术数据库,可检索海量权威文献。功能搭载DeepSeek R1/V3、Qwen3等模型,具备智能检索能力,能将用户问题转化为中英检索词,提高检索质量。来源:问小白

    Manus推出图像生成Agent功能,可调用多种工具协同工作

    Manus推出图像生成Agent功能。用户上传家中照片后,Manus可理解家居风格并自动在宜家网站找到匹配家具进行搭配。上传产品照片,Manus能依据市场趋势设计新茶饮品牌,创建上市计划,制作吸引人的在线销售列表和网站。可调用多种工具协同工作。来源:AI工具集

    Windsurf推出专为软件工程设计的AI模型系列:SWE-1

    Windsurf发布专为软件工程设计的AI模型系列:SWE-1、SWE-1-lite和SWE-1-mini。突破现有大模型在软件工程实际需求上的局限,强调对开发流程中多种状态和上下文的感知能力(flow awareness)。SWE-1是其中最大、能力最强的模型,在“对话式SWE任务基准”和“端到端SWE任务基准”两项核心指标上接近行业前沿模型。来源:AI工具集

    5月15日·周四

    OpenAI 升级 ChatGPT AI 聊天机器人,GPT-4.1 编程专家模型登场

    OpenAI在ChatGPT中引入GPT-4.1模型,Pro、Plus和Team用户可通过“More models”菜单立即使用,Enterprise和Edu用户将在未来几周内获得权限。GPT-4.1擅长编程任务,能精确遵循指令,避免冗长输出,相比GPT-4o效率更高、输出更稳定,整体性能更优。来源:IT之家

    MiniMax发布TTS系统 MiniMax Speech 02,AI语音的Her Moment

    稀宇科技旗下MiniMax团队发布基于AR Transformer模型的高质量TTS系统——MiniMax Speech 02。系统具有强大的泛化能力,可驾驭32语种、不同口音、情绪的人声,核心创新在于内在的Zero-Shot能力,通过“会学习的音色提取器”与AR Transformer协同,实现任意语言、口音、音色的无限组合。来源:MiniMax 稀宇科技

    谷歌发布AlphaEvolve:能发明新算法、改进芯片设计、解疑难数学题

    DeepMind宣布推出AlphaEvolve,是基于Gemini驱动的进化编码智能体,用于发现和优化通用算法。AlphaEvolve结合了大型语言模型的创造性与自动化评估器的验证能力,通过进化框架改进最有潜力的想法。已优化了谷歌数据中心、芯片设计和AI训练流程,包括训练自身底层的大型语言模型。来源:AI工具集

    通义万相VACE开源!一款模型搞定多种视频编辑任务

    通义万相VACE开源。VACE支持480P和720P分辨率,可一站式完成文生视频、图像参考生成、局部编辑与视频扩展等任务,无需频繁切换工具。核心技术是多模态输入机制,集文本、图像、视频、Mask和控制信号于一体,支持多种单任务能力自由组合。来源:通义大模型

    5月14日·周三

    多模态上新,阶跃星辰开源 3D 大模型 Step1X-3D

    阶跃星辰正式发布并开源3D大模型Step1X-3D,总参数量达4.8B,由几何模块1.3B和纹理模块3.5B组成。模型基于超500万原始数据筛选出200万高质量样本训练,采用3D原生两阶段架构,解耦几何与纹理表征,生成高保真、可控的3D内容。来源:阶跃星辰

    Notion推出AI会议笔记AI Meeting Notes,转录+搜索+研究模式

    Notion推出AI会议笔记工具AI Meeting Notes,正式进入会议转录领域。功能可转录会议内容并提供讨论要点摘要,用户还能在转录时做笔记。Notion发布了企业搜索功能和研究模式,支持跨平台搜索及借助AI模型研究主题。来源:AI工具集

    具身智能「星际光年」获数千万天使+轮融资,加速公司场景落地

    具身智能公司「星际光年」宣布完成数千万天使轮和天使+轮融资,由峰瑞资本、嘉程资本,云时资本、水木清华校友种子基金领投和跟投。本轮融资将用于加速产品研发升级、扩大团队规模和加速场景落地。来源:Z Potentials

    美国商务部废除拜登签署的《AI扩散规则》,并要求全球不准使用华为AI芯片

    美国商务部废除拜登签署的《AI扩散规则》,并加强对全球芯片出口管制。规则原定于2025年5月15日生效,但被认为会扼杀美国创新并损害外交关系。与此同时,美国商务部发布新规,禁止全球使用华为昇腾AI芯片,并警告使用美国AI芯片训练和干扰中国人工智能模型的潜在后果。来源:钛媒体AGI

    通义千问上新Deep Research!让Qwen帮你「深入研究」一下吧

    Qwen团队推出智能助理系统Deep Research(深入研究),已在QwenChat免费开放体验。系统可规划复杂研究任务,结合互联网海量信息,多步骤搜索分析总结,十几分钟生成详尽报告,附清晰引用来源。基于Qwen模型,融合多种能力,实现研究闭环。来源:通义千问Qwen

    5月13日·周二

    Manus 宣布全面开放注册,用户每天可免费执行一项任务

    AI智能体平台Manus宣布全面开放注册。即日起,用户无需等待即可注册,每天可免费执行一项任务,获得300积分,新用户还有1000积分一次性奖励。Manus推出每月19美元、39美元或199美元的付费订阅计划,提供额外权限、功能及优先服务。来源:AI工具集

    全球首个专业设计Agent——Lovart,一句话完成全链路设计和执行

    全球首个专业设计Agent——Lovart正式发布。具备全链路设计和执行,仅需一句话即可完成从创意拆解到专业交付的整个视觉流程,单次可执行上百步,最多产出40张设计成品图;图像、视频、音乐自由调度,集成多种前沿AI模型。Lovart的出现标志着AI在设计领域从“图像生成器”向“设计执行官”的转变。来源:AI工具集

    昆仑万维正式开源Matrix-Game:从图像出发构建可控交互世界

    昆仑万维开源Matrix-Game大模型,是工业界首个开源的10B+空间智能大模型,专为游戏世界建模的交互式世界基础模型。由Matrix-Game-MC数据集、主模型和GameWorld Score评测体系构成,具备细粒度用户交互控制、高保真视觉与物理一致性、多场景泛化能力等优势,在Minecraft世界生成任务上全面超越现有开源基线模型。来源:昆仑万维集团

    「傲意科技」完成近亿元B++轮融资,第二代灵巧手即将上市

    傲意科技近期完成近亿元B++轮融资,投资方包括英飞尼迪资本等。本轮资金将用于灵巧手技术研发、新产品上市、产能建设和市场拓展。傲意科技成立于2015年,专注于机器人与脑科学,搭建了“机器人-AI算法-神经接口”平台。核心产品包括ROhand系列灵巧手、OHand™智能仿生手及手指关节外骨骼产品。来源:36氪

    5月12日·周一

    QwenChat上线 Web Dev,一句话生成精美网页

    QwenChat正式上线网页开发功能,用户只需输入一句自然语言指令,可生成结构清晰、风格美观的网站页面代码,支持直接预览。新功能已在QwenChat(chat.qwen.ai)上线,用户点击对话框下方的WebDev/网页开发即可体验。来源:通义千问Qwen

    Kimi 与小红书达成最新合作,可一键生成笔记

    月之暗面旗下的Kimi智能助手与小红书达成合作,用户可通过小红书官方账号进入Kimi对话,并一键生成笔记。此次合作是Kimi拓展流量的尝试,也是小红书利用AI提升体验的探索。来源:36氪

    维基百科公布新 AI 战略:利用 AI 提升志愿者时间利用效率,而非取代人工

    维基媒体基金会公布新AI战略,强调利用AI辅助百科编辑工作,提升志愿者时间利用效率,而非取代人工。该战略通过AI自动化繁琐任务,如为版主和巡查员提供辅助工作流支持,提高信息可发现性,自动翻译和改编内容,以及扩大新志愿者入职培训规模。来源:IT之家

    快手推出AI作图工具Poify,赋能电商领域创意与转化

    快手推出电商领域的AI作图工具Poify,帮助商家和创意工作者快速生成高质量图片内容。Poify具备AI模特试衣、换背景影棚风格、局部重绘等功能,支持文生图和图生图,能生成奇幻场景。商家可上传衣服原图并设置尺寸,快速生成模特试衣图。来源:AI工具集

    清言新功能!智能体社区上线、支持微信文件一键导入

    智谱清言推出新功能,智能体社区上线,支持微信文件一键导入。用户可以在清言App内直接上传微信文件,享受便捷的文件管理和溯源功能。智能体社区为用户打造了一个交流平台,可以轻松发帖,与创作者直接对话,分享使用心得。来源:智谱清言

    ChatGPT 深度研究新增导出为 PDF 功能,可保留报告格式

    ChatGPT 推出深度研究报告导出为 PDF 功能,解决了此前报告格式无法保留的问题。用户输入提示词后,ChatGPT 可独立完成多步骤研究任务并生成报告,新功能可完美保留报告原始布局,目前处于网页端测试阶段。来源:IT之家

    美团独投A轮,自变量机器人「具身智能」公司已融资超10亿

    自变量机器人近日完成数亿元A轮融资,由美团领投,累计融资超10亿元。公司专注于通用具身大模型研发,致力于构建统一感知、规划与控制的系统架构。本轮融资将用于加速模型与机器人本体迭代及智慧化方案落地。来源:智能涌现

    具身智能新锐「灵御智能」完成千万级种子轮融资,英诺天使基金领投

    灵御智能专注于具身智能技术的初创公司,宣布完成千万级种子轮融资。本轮融资由英诺天使基金领投,水木校友种子基金和远镜创投跟投。灵御智能由清华大学自动化系团队创立,推动机器人在工业制造与家庭服务等领域的广泛应用。来源:Z Potentials

    字节跳动开源8B代码模型Seed-Coder,助力高效编程

    字节跳动开源的8B规模代码模型系列Seed-Coder,包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂推理任务。模型采用“模型中心”数据处理方式,通过自身生成和筛选高质量数据,减少人工预处理工作量,上下文长度达32K,性能在同等规模开源模型中领先。来源:AI工具集

    5月9日·周五

    无需邀请码,扣子空间开放测试

    扣子空间宣布正式开放测试,无需邀请码,用户登录官网(space.coze.cn)即可使用。此次开放测试让更多人体验产品。目前,扣子空间已上线三个专家Agent:用户研究专家、华泰A股观察助手和舆情分析专家,可分别提供调研问卷深度分析、股票早报定制及舆情日报等服务。来源:扣子Coze

    腾讯混元开源全新的多模态定制化视频生成工具 HunyuanCustom

    腾讯开源多模态定制化视频生成工具 HunyuanCustom。工具基于混元视频生成大模型打造,融合文本、图像、音频、视频等多模态输入,具备单主体视频生成、多主体视频生成、单主体视频配音、视频局部编辑等能力,生成视频与用户输入的参考主体高度一致。来源:腾讯混元

    以色列创业团队 Enigma Labs 推出首个 AI 生成的多人游戏 Multiverse

    以色列Enigma Labs团队宣布推出全球首款AI生成的多人游戏Multiverse。是一款多人赛车游戏,玩家可在游戏中超车、漂移、加速,每次行动会重塑游戏世界。开发者Jonathan Jacobi表示,多人游戏一直是AI生成世界中缺失的拼图,Multiverse成功补齐了这一空白。Multiverse的训练和研发成本加起来不到1500美元,可以在个人电脑上运行。来源:机器之心

    Vidu Q1 系列 API 正式开放

    Vidu Q1 系列 API 正式开放,全球开发者与企业用户可通过调用 API 体验 Vidu Q1 模型的图生视频、首尾帧与文生视频能力。系列模型支持更高清画质、更流畅镜头、更稳定风格,同时上线文生音频模型,支持时段自定义与音效叠加。来源:Vidu AI

    字节跳动开源深度研究项目 DeerFlow,助力科研全流程

    字节跳动开源 Deep Research 项目 DeerFlow,助力科研全流程。DeerFlow 采用分布式系统设计,可高效处理大规模数据,其底层数据存储系统经过优化,具备强大的数据容错能力。来源:AI工具集

    阿里开源创新大模型搜索引擎 ZeroSearch,成本直降 80%

    阿里巴巴开源 ZeroSearch 大模型搜索引擎,是无需与真实搜索引擎交互即可激励大模型搜索能力的强化学习框架。基于大模型预训练知识,将其转化为检索模块,可动态控制生成内容质量。在 7 大问答数据集综合评测中,搜索能力超谷歌。来源:AI工具集

    专注轻办公场景,AR+AI眼镜品牌INAIR完成数千万元融资

    AR+AI眼镜品牌INAIR完成数千万元A轮融资,由威海创投领投,真知创投等老股东继续支持。INAIR成立于2022年,聚焦轻办公场景,以AR眼镜为核心入口,构建一体化便携式计算终端,自主研发的INAIR OS支持多屏协同、3D内容显示及跨终端数据流转,兼容Android应用生态,内建智能代理INAIR AI Agent,提升多任务处理效率。来源:智能涌现

    ChatGPT推出的深度研究功能,可以直接连接GitHub

    ChatGPT推出“深度研究”功能,可连接GitHub。用户提出与GitHub代码库相关问题时,ChatGPT能直接连接并分析代码、文档等,生成答案。功能目前处于测试阶段,全球Team用户可用,后续将向Plus、Pro用户开放。来源:量子位

    Figma大更新,推出网站生成器与营销素材批量生产线

    设计公司Figma推出多项新功能,包括基于AI的网站创建工具Figma Sites、创意构思和原型设计工具Figma Make、面向营销人员的Figma Buzz以及矢量编辑与插图工具Figma Draw。推动设计师和营销人员更高效地进行创意工作。来源:AI工具集

    HeyGen 推出 Avatar IV 数字人模型,只需一张照片和一段脚本

    HeyGen 推出 Avatar IV 数字人模型,可快速创建逼真视频。用户只需上传一张照片和一段脚本或音频,模型基于音频驱动的表情引擎,分析语音的语调、节奏和情感,生成逼真的面部动作和微表情,让视频更具真实感。来源:AI工具集

    5月8日·周四

    Mistral 发布 Medium 3 大模型:兼具高性价比与易部署性

    Mistral AI推出Mistral Medium 3语言模型,兼具高性价比与易部署性。模型在性能上与大型模型相当,成本却低8倍,输入每百万token仅需0.4美元,输出2美元。在编码和多模态理解等专业领域表现出色,支持混合或本地部署、定制后训练及与企业系统集成。来源:Mistral AI

    阶跃星辰与灿星文化战略合作,开展AI+娱乐的深度融合

    灿星文化与阶跃星辰达成战略合作,共同推动人工智能与娱乐行业的深度融合。双方将整合技术与资源优势,探索AI为娱乐项目赋能,推动创意项目落地,开创多元化、互动性强的娱乐体验。来源:阶跃星辰

    5月7日·周三

    腾讯元宝文生图功能升级:混元和 DeepSeek 都支持生图

    腾讯元宝宣布文生图功能升级,混元和DeepSeek模型均可实现生图功能。用户只需输入一句话,元宝能生成高质量、复杂且有想象力的图像。功能结合腾讯混元最新文生图模型,已全端上线。来源:腾讯元宝

    阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step

    阶跃星辰与ACE Studio联合开源音乐大模型ACE-Step(音跃)。模型参数量3.5B,具备快速生成、强可控性、易于拓展等特点,支持19种语言歌曲创作,涵盖多种音乐风格。采用一阶段DiT架构与REPA技术,提升音频质量与生成效率;结合DCAE和线性Transformer,加速音频生成,处理更长音频数据。来源:阶跃星辰

    机器人界「Sora」来了!清华、星动纪元开源首个AIGC机器人大模型VPP

    清华大学叉院ISRLab与星动纪元联合开源的AIGC生成式机器人大模型VPP入选ICML2025 Spotlight。VPP利用预训练视频生成大模型,通过大量互联网视频数据训练,学习人类动作,减轻对高质量机器人真机数据依赖,能跨人形机器人本体切换,加速商业化落地。来源:北京星动纪元科技有限公司

    Gemini 2.5 Pro升级版本:Gemini 2.5 Pro (I/O edition),成编程模型新王

    Google DeepMind发布了Gemini 2.5 Pro (I/O edition)。该版本编程能力大幅提升,在LMArena编程排行榜和WebDev Arena排行榜中均名列前茅,超越了Claude 3.7 Sonnet。用户仅需提供手绘草图和功能描述,可生成功能完备的Web应用、游戏等。来源:机器之心

    Amazon Nova家族最强成员——Nova Premier正式可用

    亚马逊云科技宣布其Nova家族最强成员——Nova Premier正式上线。Nova Premier集成于Amazon Bedrock,支持文本、图像与视频输入,具备百万级别上下文处理能力,擅长复杂任务处理与多智能体协作。可作为教师模型,通过模型蒸馏优化Nova Pro、Lite和Micro等模型性能,提升API调用准确率20%。来源:亚马逊云科技

    Kimi 长思考模型 API 正式发布,擅长解决复杂问题

    月之暗面推出 kimi-thinking-preview 模型,具有多模态推理能力和通用推理能力的多模态思考模型,擅长深度推理,可帮助解决复杂问题。模型通过 HTTP 接口或 openai SDK 使用,响应中包含 reasoning_content 字段展示思考过程。来源:Kimi开放平台

    Recraft 完成 3000 万美元 B 轮融资,其图像生成模型曾击败 DALL-E 和 Midjourney

    图像生成初创公司 Recraft 完成 3000 万美元 B 轮融资,由 Accel 领投,Khosla Ventures 和 Madrona 等参投。Recraft 总部位于美国旧金山,在 2024 年获得 1200 万美元 A 轮融资。其图像生成模型“red_panda”在去年的基准测试中超越 DALL-E 和 Midjourney。来源:IT之家

    最火AI编程独角兽 Cursor 母公司又融资!估值超650亿

    AI编程工具Cursor母公司Anysphere完成9亿美元融资,估值增长两倍多至90亿美元。本轮融资由Thrive Capital领投,a16z、Accel等参投。Cursor可帮助开发者用自然语言生成代码、查错修复等,客户包括OpenAI、Midjourney等知名企业。来源:智东西

    5月6日·周二

    OpenAI 深夜官宣大调整!奥特曼全员信:放弃营利转型,开源强大模型

    OpenAI宣布重大调整,其营利业务将转型为“公共利益公司”(PBC),由非营利组织继续掌控并成为重要股东。此举确保通用人工智能(AGI)造福全人类,同时放弃复杂的“利润上限结构”,采用常规股权结构。OpenAI将继续秉持民主化AI的理念,开源强大模型,让用户自由使用工具,推动AI在健康、教育、公共服务等领域产生积极影响。来源:APPSO

    OpenAI史上最大收购敲定!同意以约30亿美元收购WindSurf

    据彭博社消息,OpenAI已同意以约30亿美元收购AI编程创企WindSurf(前身为Codeium),是OpenAI迄今最大规模收购案。WindSurf成立于2021年,由麻省理工学院工程师团队创立,专注于AI编程工具开发。来源:智东西

    Midjourney推出Omni-Reference全能参考功能,AI绘图实现精准控制

    Midjourney推出Omni-Reference全能参考功能,AI绘图进入精准控制新时代。Omni-Reference可将指定元素加入图像,支持风格化及个性化定制等功能。用户通过网页端拖拽图片或Discord端输入参数即可使用,可调节权重系数控制参考图的严格程度。来源:AI工具集

    微软发布 Phi-4 系列小语言 AI 推理模型Phi-4-reasoning

    微软推出Phi-4推理模型系列,包括Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。模型参数最多仅14B,能在本地高性能笔记本上流畅运行。其中,3.8B参数的Phi-4-mini-reasoning在数学推理上超越8B的DeepSeek-R1蒸馏模型,展现了小模型的强大推理能力。来源:新智元

    基于科学基础大模型的智能科研平台ScienceOne正式发布,为科研打造AI底座

    中国科学院自动化研究所在第八届数字中国建设峰会上发布了基于科学基础大模型的智能科研平台ScienceOne。由自动化所联合多个中科院单位及产业化平台共同研发,推动多学科协同的智能科研新范式。ScienceOne首发了S1-Literature文献助手和S1-ToolChain科学工具调度台两个产品,分别用于文献综述生成与科研任务的工具调度。来源:中国科学院自动化研究所

    通义千问Qwen推出Qwen2.5-Omni-3B模型,尺寸更小,性能依旧

    Qwen2.5-Omni-3B模型正式发布。是Qwen2.5-Omni-7B的轻量级版本,3B版本在长上下文序列处理(约25k tokens)中显存消耗减少超50%,可在普通24GB消费级GPU上支持长达30秒的音视频交互。尺寸更小,3B版本保留了7B模型90%以上的多模态理解能力,语音输出的自然度与稳定性与7B版本一致。来源:通义千问Qwen

    DeepSeek开源Prover-V2强推理模型,奥数解题不再难

    DeepSeek开源Prover-V2强推理模型,专注于数学定理证明。模型分为7B和671B两个版本,其中671B版本基于DeepSeek-V3-Base训练而成,7B版本支持最长32K tokens的上下文长度扩展。Prover-V2通过递归定理证明流程生成冷启动数据,结合强化学习提升性能,在MiniF2F测试中达到88.9%的通过率。来源:机器之心

    快手旗下轻雀科技推出“喵记多”AI笔记工具

    快手旗下轻雀科技推出“喵记多”AI笔记工具,用户可将碎片化的文字、图片、文件发送给内置AI“喵仔”,将其转为笔记,支持二次编辑和删除。若发送网页超链接,喵仔会自动爬取内容生成笔记。App具备“提醒待办”功能,用户可通过特定指令创建和查看待办事项。来源:AI工具集

    4月30日·周三

    智谱清言多项新功能上线,新增AutoGLM沉思网页版

    智谱清言宣布推出多项新功能,包括视频通话形象升级、定时提醒与邮件订阅功能、清影新版操作界面、AutoGLM沉思网页版上线。视频通话新增数字形象和自然动作表情,定时提醒功能可自动生成内容并通过App或邮件发送。AutoGLM沉思网页版新增Edge浏览器支持,优化多端体验。来源:智谱清言

    小米首个推理大模型开源 Xiaomi MiMo:为“Reasoning”而生!

    小米开源首个推理大模型「Xiaomi MiMo」。模型专注于提升推理能力,通过联动预训练和后训练,在数学推理和代码竞赛公开测评集中,仅用7B参数规模就超越了OpenAI的o1-mini和阿里的QwQ-32B-Preview。MiMo在强化学习潜力上显著领先,采用三阶段预训练和创新的后训练算法,设计了Seamless Rollout系统加速训练。来源:Xiaomi MiMo

    Meta 推出独立 AI 助手应用,融合社交元素挑战 ChatGPT

    Meta发布独立AI助手应用“Meta AI”,挑战ChatGPT。应用具备文字输入、语音对话、图像生成和实时搜索功能,最大创新是“发现”信息流,用户可查看并互动其他用户分享的AI交互内容。语音模式基于“全双工”AI模型,更具对话性,目前已在美国、加拿大、澳大利亚和新西兰上线。来源:IT之家

    4月29日·周二

    阿里通义发布国内首个“混合推理模型” Qwen3 :支持两种思考模式

    Qwen团队发布最新大型语言模型Qwen3。开源8款混合推理模型,包括两款MoE模型(Qwen3-235B-A22B和Qwen3-30B-A3B)和六个Dense模型(Qwen3-32B至Qwen3-0.6B)。旗舰模型Qwen3-235B-A22B在代码、数学和通用能力测试中表现优异,与顶级模型DeepSeek-R1等相当。Qwen3支持119种语言和方言,具备思考模式和非思考模式,可灵活切换推理深度和响应速度。来源:通义千问Qwen

    豆包视频功能升级:语义理解与画质等显著提升

    豆包视频生成功能升级,在语义理解、影调画质、风格类型及动作连贯性等方面均有显著提升。支持更多样化的风格,包括彩铅、积木、黑白素描、像素和3D动画风格。可通过豆包App的“照片动起来”功能或在电脑版及网页版选择“视频生成”,输入文字或上传参考图免费体验。来源:豆包

    中国气象局首次推介全链式空间天气大模型“风宇”

    中国气象局在第八届数字中国建设峰会·数字气象分论坛上首次推介全球首个全链式空间天气大模型“风宇”。模型由国家卫星气象中心牵头,联合南昌大学和华为研发,已完成太阳风、磁层和电离层全链式耦合训练,突破传统模型的技术瓶颈,实现智能化技术突破。来源:中国气象局

    通义灵码正式上线 Qwen3,编程智能体马上来了

    通义灵码宣布正式上线Qwen3模型,Qwen3在代码、数学、通用能力等基准测试中表现出色,支持思考模式和非思考模式,适配复杂与简单问题。目前,Qwen3已可在VSCode、Visual Studio、JetBrains IDEs等主流IDE的灵码插件中体验。来源:通义灵码

    马斯克称下周推出 Grok 3.5:首个能准确回答有关火箭发动机问题的 AI

    马斯克在社交平台上宣布,下周将向SuperGrok订阅者发布Grok 3.5早期测试版。马斯克称,Grok 3.5是首个能准确回答有关火箭发动机或电化学技术问题的人工智能,能基于第一原理进行推理,得出互联网上不存在的答案。来源:IT之家

    OpenAI 升级 ChatGPT搜索功能,增加购物功能

    OpenAI 发布 ChatGPT 多项功能更新,新增购物功能优化用户体验。用户可在 ChatGPT 中获得优化的产品推荐,查看产品介绍、实时价格和用户评价,直接点击链接完成购买。官方强调商品搜索结果保持独立客观,非广告植入。ChatGPT 的引用功能也得到改进,可引用多个来源并高亮显示。来源:APPSO

    4月28日·周一

    讯飞星辰焕新发布!Agent规模化应用的通关密码

    讯飞星火智能体中心正式升级为讯飞星辰Agent开发平台。通过全开放的模型与工具架构,提供全生态模型兼容、16000+MCP插件“开箱即用”及行业模板秒级复用等功能,极大简化Agent应用构建。平台支持全链路效果深度定制,助力开发者实现Agent应用的可靠落地。来源:讯飞开放平台

    Kimi 与财新传媒达成合作,为你提供更专业、可信的财经内容

    月之暗面科技旗下的人工智能助手Kimi与财新传媒正式达成内容合作。为用户提供更专业、可信的财经信息。Kimi将结合财新传媒的优质报道,生成高质量的财经内容。Kimi上线了专业信源蓝V徽章,帮助用户识别和访问权威信源。双方的合作提升了AI搜索的新闻质量,也推动了优质内容的进一步传播。来源:月之暗面 Kimi

    清华大学成立人工智能医院,培养“AI协同型医生”

    清华大学成立人工智能医院,举行2025年医学院全体教职工大会。校长李路明强调,该校将利用人工智能领域的技术优势,推动医学学科建设。人工智能医院将依托北京清华长庚医院试运行,以全科医学科和多个专科为试点,构建“AI+医疗+教育+科研”生态闭环,旨在提高医疗服务效率和患者满意度,降低运营成本,培养“AI协同型医生”。来源:清华大学

    传xAI计划融资200亿美元 估值将超1200亿美元

    马斯克旗下的xAI控股公司正在洽谈新一轮200亿美元融资,若成功,将成为史上第二大创企融资轮,公司估值将超1200亿美元。xAI控股由xAI与社交媒体平台X(前身为推特)合并而成,合并后估值达1130亿美元。此次融资在减轻X平台的债务负担,同时推动xAI生态建设。来源:智东西

    4月27日·周日

    清华系智谱×生数达成战略合作,专注大模型联合创新

    清华系智谱(Z.ai)与生数科技宣布达成战略合作,聚焦大模型联合创新。智谱在大语言模型领域技术领先;生数专注于多模态通用大模型。双方将在联合研发、产品联动、解决方案整合及行业协同等多方面合作,重点聚焦政企服务、泛互联网、文化旅游等垂直领域,推动国产大模型技术创新与产业落地,助力行业生态发展。来源:智谱

    夸克AI超级框发布全新AI相机,拍照问夸克,啥都能答

    夸克AI超级框发布全新AI相机功能。通过拍照即可解决多种问题,涵盖旅行、生活、健康、工作学习等多个场景。旅行时可识别景点、翻译菜单;生活中能解决电脑蓝屏、电器故障等问题;工作学习中可补全合同信息、分析图表数据。夸克AI相机将相机功能与智能助手结合,为用户提供便捷高效的解决方案。来源:阿里巴巴

    阶跃星辰开源图像编辑模型 Step1X-Edit:人人都能用的“改图大师”

    阶跃星辰正式开源图像编辑大模型Step1X-Edit,总参数量达19B,融合了7B多模态大语言模型(MLLM)和12B扩散模型(DiT)。模型具备语义精准解析、身份一致性保持和高精度区域级控制三大核心能力,支持11类高频图像编辑任务,如文字替换、风格迁移、材质变换等。来源:阶跃星辰

    Devin 团队推出 DeepWiki ,GitHub 代码仓库的智能阅读助手

    Devin团队Cognition Labs 推出 DeepWiki AI工具,为 GitHub 项目提供了 AI 生成的高质量文档。只需将 GitHub 链接中的“github.com”替换为“deepwiki.com”,可访问自动生成的项目文档。DeepWiki 能深入分析代码库的全局结构,生成清晰的架构图和接口文档来源:AI工具集

    Kimi开源音频基础模型Kimi-Audio,多项基准测试夺冠

    Kimi团队发布Kimi-Audio的开源音频基础模型。模型在语音识别、音频理解、音频转文本、语音对话等多任务上表现出色,横扫十多项基准测试,总体性能排名第一。在LibriSpeech ASR测试中,Kimi-Audio的词错误率仅为1.28%,显著优于其他模型。来源:AI工具集

    文心快码Coding智能体Zulu正式发布:国内首个多模态AI程序员正式上岗

    百度在 Create AI 开发者大会上发布文心快码 Coding 智能体 Zulu,是国内首个多模态 AI 程序员。Zulu 支持多模态交互,可上传图片一键生成代码,具备自动搭建开发环境、启动服务等功能,适配主流 IDE,能实现代码效果实时预览。来源:文心快码 Baidu Comate

    4月25日·周五

    Manus 母公司蝴蝶效应融资 7500 万美元,估值暴涨 5 倍

    Manus AI 完成了一轮 7500 万美元(约合 5.46 亿人民币)的融资,由硅谷风投公司 Benchmark 领投,估值飙升至近 5 亿美元(约合 36.44 亿人民币),较之前增长约五倍。此轮融资将助力 Manus 拓展美国、日本和中东等海外市场。来源:APPSO

    Create2025百度AI开发者大会发布文心4.5Turbo、X1Turbo和多款AI应用

    百度在Create 2025开发者大会上发布文心大模型4.5 TurboX1 Turbo,以及多款AI应用,包括高说服力数字人、通用多智能体协作APP“心响”等。文心4.5 Turbo速度更快,成本降低80%;X1 Turbo性能提升,成本再降50%。推出内容操作系统“沧舟OS”和AI笔记功能,助力内容创作与学习。来源:百度

    OpenAI推出「轻量级」Deep Research,免费用户也能薅羊毛

    OpenAI推出轻量级Deep Research版本,免费用户也可使用。基于o4-mini模型支持,响应更简短但维持深度与质量。免费版每月提供5个轻量任务额度,Plus & Team版每月提供10个原始版和15个轻量版额度,Pro版每月提供125个原始版和125个轻量版额度。用户达到查询限制后,系统自动切换至轻量级版本。来源:机器之心

    长桥发布行业首个券商 MCP,让 AI 直接执行投资分析及证券交易

    长桥集团发布证券行业首个券商MCP(Model Context Protocol)服务——LongPort MCP。服务通过标准化协议,使AI Agent能快速调用证券行情数据、执行股票交易和管理资产组合等核心金融服务。LongPort MCP具备智能投资顾问、账户管理助手和实时风险监控三大核心能力,支持开箱即用,显著降低专业投资者使用券商API的门槛。来源:Longbridge长桥

    4月24日·周四

    智谱BigModel开放平台进入亿时代

    智谱BigModel开放平台宣布进入“亿”时代,推出多款高性价比模型。GLM-4-FlashX每亿tokens仅10元;GLM-Z1-Air每亿tokens仅50元,GLM-Z1-AirX每亿tokens仅500元,GLM-4-Plus降价90%,每亿tokens仅500元,较行业价格低92%。智谱希望通过此次调价,以低成本的高精度模型赋能更多企业和开发者。来源:智谱

    OpenAI 推出最新图像生成模型 GPT-image-1

    OpenAI发布全新图像模型GPT-image-1,通过API向全球开发者开放。模型支持高级定制功能,包括控制生成图像的敏感度、效率、背景、输出格式、渲染质量和压缩质量等,支持吉卜力模式。Adobe、Figma、HeyGen、Wix等知名企业已将其集成到产品中。来源:AI工具集

    阶跃星辰与原力灵机达成战略合作,机器人朋友圈再添新伙伴

    阶跃星辰与原力灵机正式签署战略合作协议,推动通用人工智能(AGI)在物理世界的落地应用。双方将围绕具身大模型算法研发、多模态数据闭环与机器人场景应用展开深度协同,计划共建联合实验室,加速技术迭代与商业化验证。为机器人赋予更接近人类的认知与行动能力,推动具身智能产业发展。来源:阶跃星辰

    4月23日·周三

    Kortix 正式发布全球首个开源的通用型 AI Agent :Suna

    全球首个开源的通用型 AI Agent Suna 正式发布。Suna能像人类一样学习、推理和适应,通过自然对话帮助用户完成多种现实任务。具备浏览器自动化、文件管理、网络爬虫、命令行执行、网站部署及API集成等强大功能,可支持20个用户场景,如竞争对手分析、风投清单生成、保险政策查询、候选人搜索、报告撰写等。来源:AI工具集

    腾讯推出的 AI 阅读助手“企鹅读伴” 正式上线,科技与趣味并存

    腾讯推出AI阅读助手“企鹅读伴”,由腾讯混元大模型和腾讯元器平台提供技术支持,腾讯SSV数字支教实验室主导研发,为中小学生打造科技感与趣味性并存的阅读体验。通过AI技术实现精准推荐、数字人互动、角色扮演等功能,激发学生阅读兴趣,培养深度阅读能力。来源:腾讯混元

    混元3D生成模型全新升级:建模精细度大幅提升,免费生成额度翻倍

    腾讯混元3D生成模型发布混元3D 2.5版本,建模精细度大幅提升,几何细节更丰富,有效几何分辨率从标清升级到高清。模型架构全面升级,参数量从1B提升至10B,面片数增加超10倍。免费生成额度每天20次,混元3D生成API也正式上线腾讯云。来源:腾讯混元

    Character.AI 推出 AvatarFX 视频生成模型:让图片角色开口说话

    Character.AI公司推出AvatarFX模型,可让静态图片中的人物“开口说话”。用户上传图片并选择声音后,能生成具有情感表达的会说话、会移动的形象。模型基于“SOTA DiT-based diffusion video generation model”技术,具备高保真、时间一致性,在多角色、长序列对话中也能保持稳定。来源:IT之家

    字节 AI 产品调整:猫箱负责人离职,星绘并入豆包

    字节跳动AI产品部门Flow近期进行产品调整,社交陪伴类AI产品猫箱原负责人梁琛奇离职,由星绘产品负责人西原接任。同时,星绘团队计划并入豆包,由豆包App端负责人陆游管理。字节跳动希望通过这些调整,在大模型时代继续追求高速增长。来源:晚点LatePost

    4月22日·周二

    智能无限,协作无间|你的专属AI工程师 Trae 全新登场!

    Trae发布全新版本The Real AI Engineer,Trae通过革新协作模式,将AI与开发者的互动从30%的辅助提升至更高水平,开发者仅需在对话框中@召唤agent并提供上下文,AI可快速响应,让复杂任务变得像聊天一样简单。Trae打造开放的智能体生态,用户可自由配置智能体体系,灵活定义工具、技能和任务逻辑,构建专属AI团队。来源:The Real AI Engineer

    登榜!Vidu Q1全球文生视频第一、图生视频榜单双专项第一

    Vidu Q1在海外权威视频生成评测榜单VBench Leaderboard中,分别以87.41%和60.98%的成绩登顶VBench-1.0和VBench-2.0文生视频榜首,超越Runway、Sora、LumaAI等模型。在VBench-2.0的常识推理与物理规律理解维度中,均获第一。在国内SuperCLUE图生视频专项榜单中,以动漫风格63.52、写实风格67.78的高分拿下双榜单第一。来源:Vidu AI

    百度发布移动端通用 Agent 产品「心响」

    百度开发者大会发布移动端通用Agent产品「心响」,产品以“AI任务完成引擎”为核心,通过自然语言交互帮助用户实现复杂任务拆解、动态执行与可视化结果交付。支持用户提出任何问题并获取答案。具备定时触发任务、基于百度地图优化旅游规划以及智能图表可视化交互等亮点功能。来源:AI工具集

    天翼 AI 开放平台上线,支持中国电信自研星辰大模型

    中国电信宣布天翼AI开放平台正式上线。面向公众开放,个人用户可使用中国电信自研星辰大模型的问答助手、超大表格分析、星辰慧笔、多方言识别、文生图等功能。政府和企业用户则可体验大模型开发、AI中台、数据中台等开发平台能力,以及智能应用、大数据等近30款核心产品,满足政务、金融、工业等场景需求。来源:AI工具集

    行业首款!智元发布具身智能一站式开发平台Genie Studio

    智元机器人发布行业首款具身智能一站式开发平台Genie Studio。平台具备数据采集、模型训练、仿真评测、模型推理的全链路能力,可高效采集海量数据,单机单日产能达1000条,支持多本体、多末端设备管理与数据采集。提供“一键真机部署”能力,推理性能提升2-3倍,助力具身智能规模化落地。来源:智元机器人

    具身智能资本盛宴:3个月37笔融资,北上深争锋BAT下场,人形机器人最火

    2025年第一季度,国内人形机器人赛道迎来资本热潮,共完成37笔融资,涉及33家企业,总金额约35亿元。11家企业获得过亿元融资,它石智航以1.2亿美元天使轮融资位居榜首。融资企业多集中于北京、深圳、长三角地区,以2023年和2024年成立的初创企业为主,融资轮次多为天使轮和Pre-A轮。投资方包括腾讯、百度、阿里巴巴等。来源:智东西

    “未来智能” 获数千万元融资,启明创投与上海国投孚腾资本领投

    AI耳机公司未来智能完成数千万元人民币Pre A+轮融资,由启明创投与上海国投孚腾资本联合领投。未来智能成立于2021年,孵化自科大讯飞AI耳机业务,主要产品为服务办公、会议场景的AI耳机,具备录音转写、同传听译等功能。公司计划将本轮融资用于拓展海外市场及研发新产品形态,今年将进入北美、日本、欧洲等市场。来源:晚点LatePost

    4月21日·周一

    扣子空间正式上线开启内测,字节跳动首个通用型AI Agent

    扣子空间(Coze Space)字节跳动首个通用型AI Agent平台正式开启内测。与AI Agent协同办公,用户可选择精通多技能的通用实习生或各行业的“领域专家”来完成任务。自动分析需求并拆解任务、自主调用工具输出完整报告、专家Agent生态提供专业服务、探索/规划双模式协作完成高难度任务以及MCP扩展集成拓展Agent能力边界。来源:AI工具集

    生数科技正式上线Vidu Q1高可控视频大模型,四大核心能力全面升级

    生数科技正式上线Vidu Q1,四大核心能力全面升级,画质细节全面提升,出片更清晰、更具质感;首尾帧衔接更顺滑,镜头语言更具电影感;一句话生专属音效,支持时段自定义和音效叠加;动漫风格再度升级,稳定流畅、更具表现力。来源:AI工具集

    深圳大学人工智能学院正式揭牌成立,打造本硕博一体化 AI 人才培养体系

    深圳大学人工智能学院正式揭牌成立。学院致力于构建本硕博一体化的人工智能专业体系,学科方向涵盖人工智能基础理论、具身智能等前沿领域。学院拥有强大的教研团队,包括2位中国科学院院士、1位日本工程院院士、5位国家级人才等约80人。秉持“厚基础、重交叉、国际化”的理念,着重提升学生的“四维能力”。来源:IT之家

    星火X1全新升级!首个全国产通用深度推理大模型

    讯飞星火X1深度推理大模型迎来全新升级。在数学、代码、逻辑推理、文本生成、语言理解等通用任务上效果显著提升,整体性能对标OpenAI o1和DeepSeek R1。此次升级融入更多复杂类型数据,增强了模型泛化性,在教育、医疗、司法等行业任务中表现领先。同时开放API服务与模型微调服务,助力开发者快速集成。来源:讯飞开放平台

    SkyReels-V2开源:突破视频生成技术边界,开启无限时长电影生成新时代

    昆仑万维SkyReels团队发布并开源SkyReels-V2,是全球首个使用扩散强迫框架的无限时长电影生成模型。模型结合多模态大语言模型、多阶段预训练、强化学习和扩散强迫框架,实现了高运动质量、高一致性和高保真视频的生成,支持30秒以上视频输出。来源:昆仑万维集团

    飞猪推出“AI问一问”:一站式多智能体旅行助手上线

    飞猪旅行推出“AI问一问”功能,是多智能体驱动的AI旅行助手。用户通过文字、语音或方言输入旅行需求,如时间、目的地、预算等,“问一问”能快速生成包含机票、酒店、景点路线的完整方案,实时同步价格与房态信息,方便用户直接预订。支持预算调节、实时位置推荐及多模态交互,能为用户提供个性化旅行建议。来源:飞猪

    4月18日·周五

    智谱完成北京市人工智能产业投资基金追加投资,Z基金出资3亿支持全球开源社区

    北京市人工智能产业投资基金宣布追加投资智谱(Z.ai)2亿元人民币,支持其开源模型研发与开源社区生态建设。智谱是该基金投资的第一家AI大模型企业,在文本、推理、语音、图像、视频、代码等多领域有深厚积累。智谱Z基金出资3亿元支持全球AI开源社区发展,推动AI普惠,助力北京打造“全球开源之都”。来源:智谱

    腾讯混元开源定制化图像生成插件InstantCharacter,“一张图一句话”搞定角色生成

    腾讯混元宣布开源定制化图像生成插件InstantCharacter,与开源文生图模型Flux实现兼容。插件通过一张图加一句话即可让角色以特定姿势出现在不同场景,解决了角色一致性难题,具有高画质、高精度和灵活文本编辑性,适用于连环画、影片创作等场景。来源:腾讯混元

    通义万相2.1首尾帧模型开源!细节真实生动,丝滑流畅

    阿里通义万相宣布开源业界首个百亿参数规模的“首尾帧生视频模型”,参数量达14B。模型可根据用户指定的开始和结束图片生成衔接首尾画面的720p高清视频,满足更可控、定制化的视频生成需求。来源:通义大模型

    智平方发布全新一代智能机器人AlphaBot 2,开启AGI终端新时代

    智平方科技在深圳发布新一代通用智能机器人AlphaBot 2,标志着AGI终端新时代的到来。AlphaBot 2搭载全栈自研的全域全身VLA大模型Alpha Brain,具备卓越的空间智能和学习能力,无需训练即可完成多种任务。硬件架构支持360°全空间探测感知和全身自由度操作,续航能力强。来源:智平方科技

    4月17日·周四

    OpenAI 推出最强推理模型 o3 和 o4-mini,支持“图像思考”与多模态推理

    OpenAI 推出了最新的满血版o3 和 o4-mini 模型,是目前最智能的版本,具备全面的工具访问能力。o3 是功能最强大的推理模型,擅长多领域任务,如编程、数学、科学和视觉感知等,在视觉任务上表现出色,能分析图像、图表等,在复杂查询中提供精准答案。o4-mini 以快速、高效的推理能力著称,适合高吞吐量任务。来源:AI工具集

    字节跳动正式发布豆包1.5深度思考模型,文生图模型升级至3.0

    字节跳动在火山引擎AI创新巡展杭州站发布豆包1.5深度思考模型。模型采用MoE架构,总参数200B,激活参数20B,推理成本优势显著。在数学、编程、科学推理及创意写作等领域表现出色,结合视觉理解技术可实现地貌分析、辅助点餐等功能。来源:AI工具集

    再创开源多模态大模型性能标杆,书生·万象3.0升级发布,创新预训练方法

    上海人工智能实验室开源升级了通用多模态大模型书生·万象3.0(InternVL3)。模型采用创新的多模态预训练方法,将语言和多模态学习整合于同一预训练阶段,显著提升了多模态基础能力。在10亿至780亿参数的全量级版本中,InternVL3在开源模型性能上位列第一,接近闭源模型Gemini-2.5-Pro。来源:上海人工智能实验室

    消息称 OpenAI 考虑以 30 亿美元收购人工智能编程工具 Windsurf

    OpenAI 正在考虑以约 30 亿美元收购人工智能编程工具 Windsurf(原名 Codeium)。如果收购成功,将是 OpenAI 有史以来最大的一笔交易,增强其在 AI 编程助手市场的竞争力。Windsurf 专注于根据自然语言提示编写代码,此前曾计划按 30 亿美元估值融资。来源:IT之家

    Anthropic官方推出了两个重磅新功能:Research 与 Google Workspace 集成

    Anthropic公司旗下的Claude推出两大新功能:Research和与Google Workspace集成。Research功能可快速检索网络与内部文件,精准回答复杂问题;Google Workspace集成则让用户能无缝调用Gmail、日历和文档信息,轻松完成任务。来源:新智元

    4月16日·周三

    微信上线首个AI助手“元宝”,聊天答题与文件解析功能齐备

    微信首个AI助手“元宝”正式上线。用户可通过微信搜索或扫描二维码添加为联系人。“元宝”搭载腾讯混元大模型和DeepSeek双模引擎,支持聊天、答题、文件解析(100M以内)、公众号文章解读及图片识别等功能,暂不支持语音/视频通话、群聊、修改昵称、红包转账等。来源:APPSO

    国际版 Trae IDE 正式支持 Gemini 2.5 Pro 和 GPT-4.1

    Trae IDE宣布正式支持Gemini 2.5 Pro和GPT-4.1模型,增强了内置模型功能。用户现在可以在国际版Trae IDE中直接使用,提升开发效率和创新能力。来源:AI工具集

    谷歌 Veo 2 视频生成模型入驻 Gemini,可创建 8 秒 720p 视频

    谷歌宣布将旗下 Veo 2 视频生成 AI 模型引入 Gemini Advanced,用户可创建 8 秒、720p 分辨率、16:9 宽高比的视频片段,通过 Gemini 将视频上传至 TikTok、YouTube 等平台。Veo 2 生成的视频可下载为带有谷歌 SynthID 水印的 MP4 文件。Veo 2 整合至 Google Labs 的 Whisk 功能中,可将图片转化为 8 秒视频。来源:IT之家

    xAI 旗下Grok 推出 Grok Studio 功能:可 AI 编辑创建文档、代码、报告等

    xAI旗下Grok宣布推出Grok Studio功能,支持用户编辑和创建文档、代码、报告,简单浏览器游戏。Grok Studio可在独立窗口中打开内容,用户可与Grok实时协作完善项目。免费和付费用户均可使用,支持预览HTML片段并运行Python、C++和JavaScript等代码。来源:AI工具集

    OpenAI ChatGPT 上线图库功能,更轻松管理 AI 生成图片

    OpenAI 宣布 ChatGPT 上线 Image Library 图库功能,帮助用户更便捷地管理和查看 AI 生成的图像。功能已向所有 Free、Plus 和 Pro 用户开放,覆盖移动端和网页端。来源:IT之家

    AI 音乐商用创作平台Mureka火爆海外,正式开放国内登陆入口和API

    昆仑万维集团旗下的 AI 音乐商用创作平台 Mureka 正式开放国内登录入口和 API。Mureka 自 2024 年上线以来,在全球范围内收获极高人气,支持纯音乐及 10 种语言的音乐创作。其 Mureka V6 是基座模型,Mureka O1 是推理优化版本,可提升音乐品质和创作效率。来源:昆仑万维集团

    中国第一家启动IPO的“大模型六虎”来袭!智谱融资超160亿,美国OpenAI也将IPO

    智谱 AI 启动 IPO 上市流程,成为中国第一家进入 IPO 阶段的“大模型六虎”公司。智谱 AI 成立于 2019 年,由清华大学计算机系技术转化而来,目前累计融资超 160 亿元,投后估值超 200 亿元。来源:钛媒体AGI

    4月15日·周二

    快手发布可灵 2.0 视频生成模型及可图 2.0 图像生成模型,国产AI视频新突破

    快手可灵AI正式发布可灵2.0视频生成模型,可灵AI 2.0在模型层面迎来重大更新,画面美学、语义响应和动态质量大幅提升。新增“多模态编辑”功能,支持在视频基础上输入图片/文字进行精准修改和再创作;可图2.0新增“图片编辑”及“风格转绘”功能。具备AI音效生成功能,可根据影像内容和文字prompt生成适配音效。来源:AI工具集

    OpenAI发布GPT-4.1系列模型:编码、指令遵循和长文本处理能力大幅提升

    OpenAI推出新一代GPT模型GPT-4.1系列,包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano。模型在编码、指令遵循和长文本处理方面大幅领先于GPT-4o,支持高达100万tokens的上下文窗口,知识截止日期更新至2024年6月。GPT-4.1 mini在性能和成本上均优于GPT-4o,GPT-4.1 nano是最快最便宜的模型,适合分类和自动补全任务。来源:AI工具集

    魔搭上线最大MCP中文社区,独家首发支付宝、MiniMax等MCP

    阿里云旗下的AI开源社区魔搭(ModelScope)推出全新MCP广场,上架千余款热门MCP服务,独家首发支付宝、MiniMax等全新MCP服务。支付宝MCP服务是国内首款聚焦AI智能体支付场景的服务,可实现交易创建、查询、退款等功能;MiniMax MCP服务器封装了语音生成、语音克隆、图片生成及视频生成等多模态能力。来源:阿里云

    智谱启用全新全球域名“z.ai”,开源高性能GLM模型系列

    智谱启用全新域名“z.ai”,整合32B基座、推理、沉思三类模型,作为最新模型的交互体验入口。基座模型和推理模型已上线智谱MaaS平台,提供API服务,部分版本免费。宣布开源32B/9B系列GLM模型,涵盖基座、推理、沉思模型,均采用MIT许可协议,可免费用于商业用途。来源:智谱

    MiniMax MCP Server 上线:多模态能力,一键触达

    MiniMax 稀宇科技宣布其 MiniMax MCP Server 正式上线。服务器通过简单文本输入即可调用视频、图像、语音生成及声音克隆等多项多模态能力,兼容 Claude Desktop、Cursor、Windsurf 和 OpenAI Agents 等主流 MCP 客户端。来源:MiniMax 稀宇科技

    Hugging Face 收购 Pollen Robotics,进军人形机器人市场

    人工智能开发平台Hugging Face收购法国人形机器人初创公司Pollen Robotics,此次收购标志着Hugging Face在机器人领域的拓展,双方此前已合作打造开源家务机器人“Le Robot”。Hugging Face成立了由曾在特斯拉Optimus项目任职的雷米・卡德内领导的机器人团队,计划销售Pollen的人形机器人Reachy 2并开放代码供开发者改进。来源:IT之家

    4月14日·周一

    字节跳动最新思考模型,Seed-Thinking-v1.5技术细节公开

    字节跳动Seed团队发布Seed-Thinking-v1.5智能推理模型技术报告。模型采用200B参数、20B激活参数的MoE架构,推理成本低。在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出,接近业界第一梯队水平。4月17日,模型将通过火山引擎开放接口供用户体验。来源:豆包大模型团队

    重新认识阿里:大踏步迈向 AI

    《晚点LatePost》发文称阿里巴巴在AI领域投入坚决、布局全面且率先盈利。过去几年,阿里历经低谷,2025年凭借AI技术股价涨幅超75%。阿里云与宝马、中移动等达成合作,云谷园区接待爆满。阿里明确AI战略,未来三年投入3800亿元建设云和AI基础设施,通义大模型位列全球第一梯队,夸克升级为“AI超级框”,钉钉回归助力AI应用。来源:晚点LatePost

    云鲸再获1亿美金融资,腾讯、北京机器人基金领投,重押具身智能,迈向Pre-IPO

    家庭清洁服务机器人公司云鲸智能近日完成1亿美金融资,由腾讯投资、北京机器人产业发展投资基金联合领投,科幻基金与明势创投跟投。资金将用于具身智能产品研发、全球市场扩张及多品类战略布局。云鲸已启动Pre-IPO轮融资,进入上市冲刺阶段。来源:36氪

    昆仑万维推出Skywork-OR1系列模型,同规模下性能超越阿里QwQ-32B,对齐DeepSeek-R1

    昆仑万维天工团队推出全新升级的Skywork-OR1系列模型,包括7B和32B版本,聚焦数学和代码推理能力。系列模型在同等参数规模下性能超越阿里QwQ-32B,接近DeepSeek-R1。Skywork-OR1系列全面开源,涵盖模型权重、训练数据集和完整代码,团队采用多阶段GRPO训练,优化数据过滤和训练流程,显著提升模型推理性能。来源:昆仑万维集团

    OPPO 推出的小布助手网页版上线,登录 OPPO 账号可同步手机端历史对话记录

    OPPO小布助手网页版正式上线,网页版接入满血版DeepSeek,支持联网搜索和结果导出功能。登录OPPO账号后,可同步手机端历史对话记录。来源:AI工具集

    OpenAI 宣布 ChatGPT 自 4 月 30 日起停用 GPT-4 模型,全面升级至 4o 版本

    OpenAI 宣布于2025年4月30日起,将让GPT-4在ChatGPT中退役,全面启用GPT-4o。GPT-4o在能力、一致性和创造力上更胜一筹。GPT-4退出ChatGPT,开发者仍可通过API调用。来源:APPSO

    4月11日·周五

    OpenAI宣布ChatGPT新功能,新增长期记忆功能,可以记住过去所有的聊天记录

    OpenAI宣布ChatGPT推出新功能,能引用过去所有聊天记录,为用户提供更加私人订制的体验。标志着LLM交互范式从偶发性互动向持续性互动转变,使ChatGPT更像私人助理。新功能已向Plus和Pro用户开放,用户可以与ChatGPT进行更深入的互动。来源:量子位

    傅利叶发布首款开源人形机器人 Fourier N1,加速行业生态共建

    通用机器人公司傅利叶在上海发布首款开源人形机器人Fourier N1。机器人身高1.3米,体重38公斤,拥有23个自由度,采用铝合金与工程塑料复合结构,续航可达2小时以上,最高奔跑速度3.5米/秒。作为傅利叶“Nexus开源生态矩阵”的首个项目,N1同步开放了涵盖物料清单、设计图纸、装配指南、基础操作软件等完整本体资源包。来源:傅利叶

    商汤发布「日日新SenseNova V6」大模型,助力机器人具身智能升级

    商汤发布新一代多模态大模型「日日新SenseNova V6」,参数达6000亿,采用混合专家架构,实现多模态长思维链、强化学习与全局记忆融合,推理能力显著提升,多项测试超国际领先模型。模型助力人形机器人具身智能发展,使其具备视觉、语言等多模态交互能力,可应用于导览、社交互动等场景。来源:智东西

    谷歌发布 Gemini 2.5 Flash AI 模型:专为省钱高效而生

    谷歌推出Gemini 2.5 Flash AI模型,专为高效能和成本优化设计。模型即将登陆谷歌Vertex AI平台,具备动态且可控的计算能力,开发者可根据查询复杂度灵活调整处理时间,平衡速度、准确性和成本。来源:AI工具集

    Anthropic 推出 Claude Max 订阅计划,月费最高 200 美元

    Anthropic推出Claude Max订阅计划,月费最高200美元,与OpenAI的ChatGPT Pro竞争。Max计划分为两个层级:每月100美元的Max速率限制是Claude Pro的5倍,每月200美元的Max速率限制是Claude Pro的20倍。计划提供更宽松的使用限制和优先获取最新AI模型的功能。来源:IT之家

    谷歌Deep Research迎来重大升级,搭载Gemini 2.5 Pro模型,性能超OpenAI

    谷歌Deep Research迎来重大升级,搭载全球顶尖的Gemini 2.5 Pro模型。新版本在分析推理、信息整合和报告洞察力方面显著提升,5分钟可生成46页学术论文,能将复杂报告转为10分钟播客。性能较OpenAI DR提升超40%,价格仅为1/10。来源:新智元

    继 OpenAI 后,谷歌 Gemini 模型将支持 Anthropic 的 MCP 协议

    谷歌DeepMind宣布为Gemini模型和SDK添加对Anthropic的模型上下文协议(MCP)的支持。谷歌DeepMind首席执行官德米斯·哈萨比斯表示,MCP正在迅速成为AI代理时代的开放标准,谷歌期待与其他行业伙伴共同开发这一协议。来源:IT之家

    悠船宣布MidJourney V7模型正式上线:图像生成质量大幅提升

    悠船团队宣布悠船V7模型正式上线。V7版本在图像生成质量上显著提升,包括人物肤色、面部细节、材质纹理和光影效果等方面。能更好地解析复杂场景,实现背景与主体的自然融合。V7在视角表现和风格还原度上也更加专业,显著提升了身体、手部及物体细节的一致性。来源:悠船助手

    4月10日·周四

    谷歌推出 Agent2Agent(A2A)协议,实现 AI 智能体之间的互操作性

    谷歌推出 Agent2Agent(A2A)协议,实现 AI 智能体之间的互操作性。A2A 是开放协议,支持超过 50 个技术合作伙伴,支持不同供应商的智能体在跨平台环境中安全协作,完成复杂任务。协议基于 HTTP、SSE、JSON-RPC 等标准,支持长时任务和多种数据格式(如音频、视频)。来源:AI工具集

    谷歌推出AI编程工具 Firebase Studio,一站式完成全栈应用的构建、修改和部署

    谷歌推出 Firebase Studio,用户可以一站式完成全栈应用的构建、修改和部署。只需输入提示词,AI 可快速生成完整应用程序,支持 React、Next.js、Angular、Vue.js、Flutter、Android、Node.js、Java 和 Python Flask 等多种编程语言和框架。来源:AI工具集

    连续完成A及A+轮融资,星尘智能获锦秋基金、蚂蚁集团等领投

    星尘智能宣布连续完成A轮及A+轮融资数亿元,由锦秋基金、蚂蚁集团领投,云启资本、道彤资本等老股东跟投,华兴资本担任独家财务顾问。星尘智能于2022年底在深圳成立,首创面向AI的软硬件一体化系统架构,全栈自研的Astribot S1高度仿人,关键操作参数媲美甚至超越成年男性。来源:Z Potentials

    alphaXiv推出「Deep Research for arXiv」功能,让文献检索秒速完成

    alphaXiv推出「Deep Research for arXiv」功能,可协助研究人员在arXiv平台上快速检索与阅读学术论文,提升文献检索及研究效率。用户输入相关问题,系统能迅速生成文献综述或热门论文回答,将数小时的搜索过程缩短至几秒。来源:机器之心

    阿里云百炼上线业界首个全生命周期MCP服务,5分钟搭建专属AI智能体

    阿里云在AI势能大会上宣布上线业界首个全生命周期MCP服务,加速AI落地。服务集成阿里云函数计算、200多款大模型和50多款主流MCP服务,用户无需代码,仅需简单配置,5分钟即可搭建专属Agent。来源:量子位

    火山引擎推出AI数据专家“Data Agent”,企业数据全场景智能体

    火山引擎迎来首位AI数据专家「Data Agent」。作为企业数据全场景智能体,Data Agent在数据分析和智能营销领域表现出色。可融合企业内部结构化与非结构化数据,理解业务需求,生成深度研究报告,无缝制定并执行营销策略,为每位用户精准配置触达时机和营销文案,活动结束后自动复盘并持续学习进化。来源:火山引擎

    4月9日·周三

    「AI硬件」闯出一匹黑马“小智AI”,2个月接入设备增长10万台

    「小智AI」作为一款开源AI硬件项目,在过去两个月内接入设备数增长10万台,增速达300%。语音助手以台湾腔、反应迅速、声音拟人化等特点在短视频平台引发病毒式传播,点赞量达数十万甚至百万。小智AI团队不生产硬件,设备多由爱好者、开发者DIY完成,通过电商平台售卖。来源:极客公园

    亚马逊推出全新 AI 语音模型 Nova Sonic,低价高质冲击 AI 语音市场

    亚马逊推出新一代生成式 AI 模型 Nova Sonic,模型可原生处理语音并生成自然流畅语音。Nova Sonic 通过 Bedrock 平台提供,价格比 OpenAI 的 GPT-4o 便宜约 80%。在语音识别错误率、多语言支持、对话质量和响应速度等方面表现出色,平均单词错误率仅为 4.2%,响应时间 1.09 秒,比 GPT-4o 模型更快。来源:AI工具集

    英伟达开源Llama Nemotron-253B推理模型,吞吐量较DeepSeek R1提升4倍

    英伟达宣布开源Llama Nemotron-253B推理模型,模型基于Llama-3.1-405B微调而来。在多项基准测试中,Llama Nemotron击败了Llama 4,以一半参数量达到与DeepSeek R1相近的性能。在复杂数学推理、科学问答和编码任务中表现出色,吞吐量较DeepSeek R1提升4倍。来源:新智元

    美图WHEE推出全新图像生成模型Miracle F1,告别AI作品“塑料感”

    美图WHEE平台上线全新AI图像生成模型Miracle F1。模型能像摄影师、建筑师和画家一样,精准处理光影、空间和材质效果,生成的图像真实感强,细节逼真,告别了传统AI作品的“塑料感”。能精准理解复杂语义概念,如“纯色背景”“夜景灯光”等,支持多种风格,包括3D特效、二次元插画等。来源:美图小WHEE

    4月8日·周二

    斯坦福李飞飞团队发布《2025年人工智能指数报告》:揭示12大趋势,AI变革加速

    斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025年人工智能指数报告》。长达456页的报告追踪了2024年全球人工智能行业的发展趋势,揭示了12大趋势,包括AI在苛刻基准上的表现持续提升、AI正越来越多地融入到日常生活中、企业全力投入AI推动投资和使用创历史新高、在创造顶级AI模型方面中国正在缩小与美国的差距、负责任的AI生态系统不断发展但不均衡等。来源:AI工具集

    阶跃星辰发布多模态推理模型Step-R1-V-Mini,高精度感知图像完成复杂推理任务

    阶跃星辰发布了全新的多模态推理模型Step-R1-V-Mini。模型支持图文输入和文字输出,具备良好的指令遵循和通用能力,能高精度感知图像并完成复杂推理任务。Step-R1-V-Mini在训练方法上采用多模态联合强化学习和多模态合成数据,有效提升了多模态协同场景下的推理表现。来源:阶跃星辰

    亚马逊升级 AI 视频模型 Nova Reel,最长可生成两分钟多镜头视频

    亚马逊升级 AI 视频模型 Nova Reel 至 1.1 版本,现可生成最长两分钟的多镜头视频。用户输入最多 4000 个字符的提示词,模型能生成由六秒镜头组成的视频。新增“多镜头手动”模式,结合图片和提示词,最多生成 20 个镜头的视频。来源:IT之家

    超越特斯拉,全球自由度最高的北京灵巧手创企,灵心巧手拿下超亿融资

    北京灵心巧手科技公司近日完成超亿元种子轮融资,由红杉种子基金等多家机构领投。公司成立于2019年,自主研发的Linker Hand系列灵巧手,工业版自由度达25-30个,科研版最高自由度达42个,是全球自由度最高的商用灵巧手,性能和价格优势明显。公司构建了全球最大的灵巧操作数据集DexSkill-Net,助力灵巧手快速学习复杂任务。来源:智东西

    英伟达斥资数亿美元收购 Lepton AI ,联创贾扬清和白俊杰均已入职英伟达

    英伟达已完成对AI大牛、阿里前副总裁贾扬清创立的Lepton AI的收购,交易价值数亿美元。Lepton成立于2023年,主要业务是出租英伟达GPU服务器,帮助创企在云中构建和管理AI应用。目前Lepton约有20名员工,联合创始人贾扬清和白俊杰已加入英伟达。来源:智东西

    4月7日·周一

    DeepSeek 联合清华大学发布 DeepSeek-GRM 模型,推理时可扩展性显著提升

    DeepSeek 联合清华大学发布 DeepSeek-GRM 模型,模型采用点式生成奖励建模(GRM)方法,通过“自我原则批评调整”(SPCT)学习方法,使模型在推理时具有可扩展性。实验表明,DeepSeek-GRM-27B 在推理时扩展到 32 个样本时,性能可与 671B 参数模型相当,展现出推理时可扩展性的巨大优势。来源:AI工具集

    Meta 开源的多模态系列 AI 模型— —Llama 4,重夺开源王座

    Meta 发布 Llama 4 系列 AI 模型,包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。模型采用“混合专家架构”,将数据处理任务分解给专门的“专家”模型,提升训练和回答效率。Maverick 有 4000 亿参数,128 个“专家”模型中 170 亿参数活跃;Scout 有 170 亿活跃参数、16 个“专家”模型,总参数 1090 亿。来源:AI工具集

    Midjourney 发布 AI 图片生成模型 V7,新增“草图模式”支持语音生图

    Midjourney 发布 AI 图片生成模型 Midjourney V7 版本并开启 alpha 测试。V7 版本在常规更新方面增强了文本理解能力,升级了细节纹理质感,提升了人物肢体、手部、物体结构等连贯性,默认启用“个性化模型”功能,可学习用户偏好。全新的“草图模式”,支持对话式交互界面、实时编辑、语音识别生成功能。来源:AI工具集

    全球风投交易量暴降32%!一季度AI赛道融资额占58%,亚洲不足10%

    2025年第一季度,全球风险投资交易数量达7551件,同比下降32%,但交易总价值达1263亿美元,同比上涨53.46%。AI和机器学习领域投融资最为活跃,交易数量2101件,交易额731亿美元,占全球风投总额的57.87%。美国OpenAI完成400亿美元融资,占美国风投资金50%以上。来源:钛媒体AGI

    OpenRouter 推出 Quasar Alpha:百万 Token 上下文的 AI 模型免费开放

    OpenRouter 推出了预发布版 AI 模型 Quasar Alpha,模型具有 100 万 token 的超大上下文窗口,能处理超长文本和复杂文档。在代码生成方面表现出色,支持多种编程语言,生成速度快,延迟低,平均每秒生成 136 个 token,延迟仅为 0.5 秒。Quasar Alpha 支持联网功能和多模态功能,安全性增强。来源:AI工具集

    微软 Copilot 增加记忆、操控网页、创建播客等海量功能,打造独一无二 AI 伴侣

    微软为庆祝成立 50 周年,更新了 Copilot 的多项新功能,更接近 ChatGPT 或 Claude 等替代品。Copilot 现在支持记忆、个性化、基于 Web 的操作、播客创建、摄像头和屏幕分析、深度研究等功能。能跟踪用户偏好和详细信息以定制回复,用户可选择让 Copilot 记住的信息。能使用网络浏览器执行任务,如预订演出门票和餐厅。来源:IT之家

    微软 Bing 重大革新:Copilot Search 上线,AI 与传统搜索结合

    微软宣布 Bing 搜索引擎上线 Copilot Search 功能。工具将传统网络搜索与生成式搜索结果相结合,通过 Bing 检查多个网站信息,显示更详细准确的响应内容,提供引用和建议。来源:IT之家

    即梦 3.0 绘图模型上线,中文 AI 绘图能力迎来最强表现

    即梦 3.0 绘图模型灰度内测上线。模型在中文直出方面取得重大突破,提升了大字的准确性、设计感和丰富度,大幅解决了小字稳定性问题。即梦 3.0 能直出 2K 图像,支持多种风格,如写实、卡通等,可生成复杂场景和艺术字体。来源:AI工具集

    商汤科技2025技术交流日:AI 2.0新生态与“强推理”全新日日新 6.0 AI 模型

    商汤科技将于4月10日下午14:00举办2025年技术交流日活动。本次交流日聚焦生成式AI为代表的AI 2.0发展,探讨其带来的生产力变革与多模态融合催生的“万物有灵”新生态。届时将推出主打“强推理”的全新日日新 6.0 AI 模型。为公众解答关于未来的诸多想象。来源:商汤科技 SenseTime

    4月3日·周四

    前百度高管创立的 Genspark 推出通用智能体,免费开放使用,无需邀请码

    由前百度高管景鲲和朱凯华创立的Genspark推出通用智能体,在GAIA基准测试中超越Manus和OpenAI的Deep Research。智能体可完成旅游规划、视频生成、PPT制作等任务,支持实时交互和低错误率。目前免费开放,用户无需邀请码即可使用。来源:AI工具集

    谷歌 AI 笔记应用 NotebookLM 新增“发现资料”功能,可自动检索相关网络资源

    谷歌旗下人工智能笔记应用NotebookLM推出“发现资料”功能,基于Gemini技术,用户可在应用中输入主题,快速检索网络资源,获取最多10个相关资料及摘要,并导入笔记本。功能支持生成音频概览、思维导图等,提升资料收集效率。新增“好奇心驱动”按钮,可随机生成主题资料。来源:AI工具集

    元鼎智能完成近10亿元融资,携手Fluidra加速全球市场布局

    元鼎智能近日完成近10亿元人民币的战略融资,由全球泳池巨头Fluidra战略投资,云启资本加入,XVC、复星锐正、蜂巧资本等老股东增持。此次融资助力元鼎智能打通全球泳池专业渠道,实现从“线上领先”到“全渠道突破”的转型。来源:元鼎智能Aiper

    Augment Code 发布 AI 编程助手 Augment Agent,可处理数百万行代码项目

    Augment Code推出AI编程助手Augment Agent。专为大型代码库设计,拥有20万token的上下文窗口,可处理数百万行代码项目。“记忆”功能可适应个人编码风格,实时同步代码变更,支持多模态输入、终端命令等实用功能。Augment Agent已上线VS Code,JetBrains开发工具。来源:AI工具集

    4月2日·周三

    OpenAI 推出免费 AI 学习平台 OpenAI Academy,覆盖普通小白到技术的各层次人群

    OpenAI 推出了免费的 AI 学习平台 OpenAI Academy,帮助从普通小白到技术人员的各层次人群掌握 AI 技能。平台提供丰富的视频课程,如《ChatGPT Edu 学术助手指南》《提示词大师课》等,内容短小精悍,适合碎片化学习。每周举办多场线上活动,邀请专家讲解和互动,如《老年人 AI 入门》等课程。来源:AI工具集

    Sam Altman宣布,ChatGPT 的文生图功能现已面向所有免费用户开放

    OpenAI宣布ChatGPT的文生图功能向所有免费用户开放。最初仅限付费用户使用,因访问量过大导致服务器拥挤。文生图功能基于GPT-4o模型,可实现精准文本渲染、遵循指令提示、深度调用知识库及对话上下文,支持对上传图像进行二次创作或转化为视觉灵感。来源:AI工具集

    智元机器人与国际顶尖 Physical Intelligence(Pi)携手,引领具身智能全球创新

    智元机器人宣布与国际顶尖具身智能公司Physical Intelligence(Pi)达成深度技术合作,聚焦动态环境下长周期复杂任务。智元机器人在具身智能领域拥有本体-数据-模型三位一体全栈布局,量产超1000台通用具身机器人。近期加入智元的罗剑岚博士将领导具身智能研究中心,推进合作。来源:智元机器人

    阿里通义千问登顶全球开源模型榜首

    阿里通义千问的端到端全模态大模型Qwen2.5-Omni登上Hugging Face全球开源模型总榜榜首。该模型可同时处理文本、图像、音频和视频等多模态输入,实时生成文本与自然语音合成输出。阿里至今已开源200多款模型,千问衍生模型数量突破10万,成为全球最大开源模型族群。来源:界面新闻

    MiniMax Audio推出Speech-02系列语音模型,一次性可以输入20万字符

    MiniMax Audio正式发布Speech-02系列语音模型。模型支持30多种语言,一次性可输入20万字符,人声相似度高达99%,合成语音自然流畅,解决了音频播放中的卡顿和节奏不稳问题。MiniMax Audio推出“Read Anything”功能,用户可上传本地文件或粘贴网络URL,将文档、电子书、网页文章等转化为喜欢的音色聆听。来源:AI工具集

    Krea AI 宣布推出 Gemini 图像编辑功能,可通过自然语言编辑图片

    Krea AI宣布推出接入谷歌Gemini的图像编辑功能,功能已在Krea Chat上线。用户可上传图片,通过自然语言直接编辑,如改变背景、调整元素光线和颜色等,操作便捷高效,为图像编辑带来全新体验。来源:AI工具集

    国家天文台基于通义千问打造国际首个太阳大模型——“金乌”

    国家天文台联合阿里云发布国际首个太阳大模型“金乌”,基于阿里通义千问系列开源模型打造。“金乌”在M5级太阳耀斑预报上准确率超91%,为该级别最高水平。模型以超90万张太阳卫星图像为样本训练,可预测未来24小时耀斑爆发情况及生成太阳模拟图像。解决了传统太阳预报难以处理海量观测数据的难题。来源:阿里云

    4月1日·周二

    Runway发布AI视频生成模型Gen-4,一张照片生成连贯全片,首次实现“世界一致性”

    Runway发布新一代AI视频生成模型Gen-4,全球首款实现“世界一致性”的模型。Gen-4可在多个场景中保持人物、场景和物体的一致性,无需额外精调,能凭借一张参考图在不同光线和场景中生成一致的角色或物体,从任意角度重建和捕捉场景。来源:AI工具集

    亚马逊推出 Nova Act:可操控网页浏览器的 AI 智能体

    亚马逊推出通用人工智能智能体Nova Act及其配套SDK。Nova Act由亚马逊旧金山AGI实验室研发,能操控网页浏览器并自主执行简单网络任务,如自动订购沙拉、预订餐厅等。未来将为生成式AI增强版语音助手Alexa +提供关键功能支持。目前开放的是“研究预览版”,功能尚待完善。来源:AI工具集

    OpenAI宣布将开源推理模型,首次计划发布开放权重语言模型

    OpenAI宣布将在未来几个月内推出一款具备推理能力的开放权重语言模型。是自GPT-2以来,OpenAI首次计划发布此类模型。OpenAI CEO Sam Altman表示,模型将遵循严格的准备框架进行评估,确保安全性与可靠性。OpenAI计划举办一系列开发者活动,收集反馈并展示早期原型,首场活动将在旧金山启动。来源:APPSO

    OpenAI完成400亿美元融资,估值3000亿美元,资金用于AI研究及扩大计算基础设施

    OpenAI宣布完成400亿美元融资,投后估值达3000亿美元。本轮融资由日本软银领投300亿美元,微软及其他投资者参与。资金将用于推动AI研究及扩大计算基础设施。来源:腾讯科技

    3月31日·周一

    智谱推出首个免费、具备深度研究和操作能力的AI Agent:AutoGLM沉思

    智谱推出AI Agent产品AutoGLM沉思,免费的本地Agent,能探究开放式问题,根据结果执行操作的自主智能体(AI Agent)。能模拟人类的思维过程,完成从数据检索、分析到生成报告。实测中,AutoGLM沉思版成功完成了包括购物对比、知识调研、学习指导和旅行规划等任务,展现了强大的执行能力和思考能力。来源:AI工具集

    千寻智能完成5.28亿元Pre-A轮融资,领先VLA模型加速具身智能落地

    千寻智能完成5.28亿元人民币Pre-A轮融资,由阿美风险投资旗下Prosperity7 Ventures领投,多家资本参与。本轮融资将加速其具身大模型迭代、机器人进化及人才团队建设。千寻智能成立于2024年,团队来自顶尖高校和知名企业,致力于打造通用人形机器人和下一代具身大模型。来源:千寻智能 Spirit AI

    面壁发布首个纯端侧智能助手cpmGO,构建汽车超性能端侧大脑

    面壁智能发布首个纯端侧智能助手——小钢炮超级助手cpmGO,赋能汽车智能座舱,提供纯端侧、超性能、全场景服务。助手具备视觉、语音、多模态等丰富能力,可实现端到端智能化应用,突破弱网断网限制,保护车内信息安全,支持9大类26款应用,提升使用便捷性。来源:面壁智能

    AI Agent 产品 Manus 公布收费方案:提供 39 美元和 199 美元两种套餐

    AI Agent产品Manus公布收费方案,从免费测试阶段转向商业化运营。收费方案包括两种套餐:Manus Starter每月39美元(约合283元人民币),获3900积分,可同时运行2个任务;Manus Pro每月199美元(约合1446元人民币),获19900积分,可同时运行5个任务并支持高投入模式和其他测试功能。来源:IT之家

    擎朗智能发布首款人形具身服务机器人“XMAN-R1”,可完成“点单-配餐-送餐-收餐”等长任务闭环

    上海擎朗智能科技有限公司正式发布首款人形具身服务机器人“XMAN-R1”。机器人以“岗位化、亲和力、安全性”为设计理念,模拟服务人员动作逻辑,适配服务场景需求,可完成“点单-配餐-送餐-收餐”等长任务闭环。搭载11项多模态传感器,结合自研三维重建技术,实现360度高精度感知与智能避障。来源:擎朗智能

    智源发布首个跨本体具身大小脑协作框架与开源具身大脑RoboBrain

    智源研究院在中关村论坛上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain。RoboBrain融合任务规划、可操作区域感知、轨迹预测能力,通过多阶段训练,增强长程操作任务能力,可在多评测任务中超越多个领先模型。RoboOS基于“大脑-小脑”分层架构,实现多机器人协作,支持多类型具身本体,具备动态任务管理与优化能力。来源:智源研究院

    国产视频大模型的全球引领,生数科技在中关村论坛重磅发布Vidu Q1模型

    生数科技发布高可控视频大模型Vidu Q1。模型由清华大学人工智能研究院副院长朱军教授团队研发,实现了多主体细节、音效同步和画质增强的高可控性。Vidu Q1支持精准调整主体动作、布局,能根据画面转场生成相应音效,画质更清晰逼真。来源:生数ShengShu

    百度文小言官宣支持多模型调度,升级端到端语音大模型、图片问答能力

    百度文小言在百度AI DAY上宣布完成品牌焕新与功能升级,支持多模型融合调度,整合百度自研及第三方优质模型,用户可一键调用最优组合或灵活选择单一模型。全新语音大模型支持方言对话、复杂问答等,调用成本低、响应速度快,实现多情感语音合成。图片问答功能可深度解析图片,新增“图个冷知识”功能,从多角度解读图片,提升交互趣味性。来源:IT之家

    马斯克xAI收购X,总估值8000亿,开启AI与社交融合新纪元

    马斯克宣布其AI创企xAI与社交平台X(前身为推特)正式合并。xAI以全股票交易收购X,xAI估值800亿美元,X实际估值330亿美元,合并后总估值1130亿美元(约8208亿元人民币)。马斯克称,xAI和X的未来交织在一起,此次整合将数据、模型、计算、分发和人才相结合,释放巨大潜力。来源:智东西

    3月28日·周五

    阿里通义千问推出视觉推理模型 QVQ-Max:可分析、推理图片和视频内容

    阿里通义千问团队发布新一代视觉推理模型 QVQ-Max。模型具备细致观察、深入推理和灵活应用三大核心能力,能快速解析图片和视频内容,识别关键元素并结合背景知识进行推理。能协助完成数据分析、编程等职场任务,帮助学生解答难题、推荐穿搭方案等。来源:IT之家

    GPT-4o「吉卜力风」一夜爆火,奥特曼连夜换头像!宫崎骏痛批AI侮辱生命

    OpenAI 更新的 GPT-4o 原生图像生成功能因「吉卜力风格」图片生成一夜爆火。用户可将任何图像上传并请求 AI 转换为吉卜力风格,效果出色且操作便捷。功能引发了社交媒体热潮,奥特曼也换上了吉卜力风格的头像。宫崎骏曾批评 AI 作画是对生命的侮辱。来源:新智元

    华为ModelEngine全流程AI开发工具链正式开源!

    华为在2025中国合作伙伴大会上宣布ModelEngine AI全流程工具链正式开源。工具链围绕数据使能、模型使能和应用使能打造,解决AI行业化落地中的关键问题,如数据工程耗时长、模型训练和应用落地难等。来源:华为开源

    豆包新版深度思考开启测试,支持边想边搜

    字节跳动旗下的 AI 智能助手豆包推出新版深度思考功能。将推理过程与搜索深度结合,支持“边想边搜”,可在思考过程中多次调用工具、搜索信息,提供更全面、准确的结果。来源:豆包

    Ideogram 3.0 发布:AI 绘图领域的新突破

    Ideogram.ai 推出最新的 AI 绘图模型 Ideogram 3.0。模型在图像生成领域取得了重大进展,在图像与文本提示的对齐、逼真度和文本渲染质量方面表现出色。能生成具有高度一致性和创意的设计作品,支持复杂排版和艺术化文本创作。来源:AI工具集

    可灵AI平台全面升级,新增AI音效与资产管理功能

    快手科技旗下的可灵AI平台宣布全面升级。对视觉体系和交互体验进行了优化。新版本采用极简主义设计,自然排版和黑白配色,减少视觉干扰,突出创意。平台新增“AI音效”和“资产管理”功能,分别用于提升作品表达力和优化文件管理效率。来源:可灵AI

    3月27日·周四

    阿里开源全模态模型Qwen2.5-Omni,7B尺寸实现全球最强性能

    阿里通义千问Qwen2.5-Omni-7B正式开源。作为首个端到端全模态大模型,Qwen2.5-Omni可同时处理文本、图像、音频和视频输入,实时生成文本与自然语音输出。在OmniBench等多模态任务中刷新纪录,性能远超Google的Gemini-1.5-Pro等同类模型。来源:阿里云

    腾讯ima知识号正式上线,助力知识创作与管理

    腾讯旗下的AI智能工作台ima宣布正式推出知识号。知识号为知识库创作者提供了一个全新的平台,创作者可以通过ima知识号入口申请创建账号,在ima知识广场发布知识库。平台提供数据分析工具,创作者可以直观地查看知识库的相关数据,包括知识库的数量、参与人数等。来源:ima.copilot

    DeepSeek全新版本API上线讯飞星辰MaaS平台

    DeepSeek全新版本DeepSeek-V3-0324上线讯飞星辰MaaS平台。新版本在推理任务表现、前端开发能力、中文写作水平以及中文搜索能力等方面实现显著提升,在数学、代码类评测集上得分超GPT-4.5。平台提供与DeepSeek官方API一致的效果,支持联网搜索,拓展应用场景。来源:讯飞开放平台

    OpenAI宣布Agent SDK 正式支持 MCP 服务,解锁无限工具扩展

    OpenAI宣布Agent SDK重大更新,正式支持Model Context Protocol(MCP)服务。MCP如同AI模型的“USB接口”,提供统一标准,使AI智能体能“即插即用”地接入各种第三方工具,如网络搜索、数据库查询等,极大简化多任务开发流程,提升复杂自动化应用开发效率。来源:IT之家

    微信 AI 搜索新增“快速思考”,采用混元 T1 模型

    微信AI搜索在“快速回答”和“深度思考”之外,新增“快速思考”选项,由腾讯混元T1模型提供支持。可快速生成回答,引用消息源包括公众号推文和网页信息,结果页面支持继续提问和社交分享,历史问答会保存在“最近”列表中。来源:IT之家

    3月26日·周三

    谷歌发布Gemini 2.5 Pro,多项测试夺冠,推理能力全面超越OpenAI

    谷歌发布Gemini 2.5 Pro,是Gemini 2.5思考模型家族的首个成员。模型在多项基准测试中表现卓越,以1443分在大模型竞技场获断层第一,领先优势达39分,全面超越OpenAI o3-mini等多款知名模型。在“人类最后考试”中,得分较OpenAI o3-mini提升近5%,提升比例达34%。Gemini 2.5 Pro支持100万tokens上下文窗口。来源:智东西

    昆仑万维发布全球首款音乐推理大模型Mureka O1,中国AI音乐革命领跑全球

    昆仑万维正式发布全球首款音乐推理大模型Mureka O1。模型基于Mureka V6升级,首次引入思维链(CoT)技术,显著提升音乐创作效率与品质。涵盖多种风格与情感表达,具备歌曲参考和音色克隆等特色功能。性能超越Suno V4,登顶SOTA。来源:昆仑万维集团

    瑞典AI初创公司Lovable,3个月收入达1.2亿,AI编程市场新奇迹

    由Anton Osika和Fabian Hedin创立的瑞典AI公司 Lovable,凭借AI驱动的Web应用开发平台,仅用3个月就实现了从0到1700万美元的年化收入增长。平台支持用户通过自然语言描述功能,AI自动生成可生产代码。是面向非技术人员的AI编程工具。用户留存率超85%,网站月访问量达1000万次。来源:AI工具集

    OpenAI发布GPT-4o图像生成功能,免费向用户开放

    OpenAI宣布在GPT-4o模型中集成先进图像生成功能,用户可通过自然语言指令生成和编辑图像。新功能支持多轮对话优化图像,保持内容一致性,能处理10至20个物体的复杂指令,远超其他模型。支持文本渲染、风格转换和上下文关联生成。来源:IT之家

    它石智航官宣天使轮融资1.2亿美元,开启具身智能创业新征程

    具身智能初创公司它石智航(TARS)宣布完成1.2亿美元天使轮融资,创下中国具身智能行业天使轮最大融资额纪录。本轮融资由蓝驰创投、启明创投领投,线性资本等多家知名机构跟投。融资将用于产品研发、模型训练和场景拓展。来源:它石智航

    谷歌Gemini Live推出实时AI视频新功能,实时交互能力再升级

    谷歌在MWC上承诺的Project Astra与Gemini Live集成功能正式上线。Gemini Live新增屏幕共享功能,用户可通过“Share screen with Live”按钮让AI读取手机屏幕信息并回答问题。实时视频功能可让Gemini通过手机摄像头解读画面并即时回答相关问题。来源:机器之心

    3月25日·周二

    DeepSeek V3模型已完成小版本升级,可在官方网页、APP、小程序试用体验

    DeepSeek V3发布模型更新。此次更新属于小版本升级,模型参数量达6850亿,新版V3在编程能力上大幅提升,特别在前端编码方面,已接近Claude 3.7水平。用户测试显示,多轮对话的上下文理解能力也显著增强。开源版本已上架HuggingFace。来源:AI工具集

    阿里开源Qwen2.5-VL-32B多模态模型,视觉语言与数学推理能力显著增强

    阿里开源了最新多模态模型 Qwen2.5-VL-32B-Instruct,参数量 32B,主打视觉语言,兼顾性能与尺寸,适合本地部署。模型经强化学习优化,在数学推理、图像解析等任务中表现出色,超越更大规模的 72B 模型。在多模态任务及纯文本能力上均达同规模最优表现。来源:AI工具集

    Trae 支持配置 DeepSeek V3 最新版

    Trae宣布支持配置DeepSeek V3最新版(DeepSeek-V3–0324)。Trae是国内首个AI原生IDE,专注于中文开发场景,支持自定义模型接入。DeepSeek-V3–0324拥有6850亿参数,是基于DeepSeek V3的小版本升级。开发者可通过简单配置接入该模型,提升编程体验。来源:Trae&MarsCode

    美团已开发内部大模型 LongCat,AI 策略是主动进攻

    美团CEO王兴在财报电话会议中表示,美团在人工智能领域采取“主动进攻”策略,定位为连接数字世界与物理世界的桥梁。美团已开发内部大语言模型LongCat,用于日常工作,推出AI编码、智能会议与文档助手等工具,将集成其他主流模型助力产品研发。来源:IT之家

    3月24日·周一

    百度“秒哒”正式全量上线,国内首个对话式应用开发平台

    百度宣布国内首个“对话式”应用开发平台“秒哒”正式全量上线。平台采用“无代码编程 + 多智能体协作 + 多工具调用”技术组合,用户仅需通过自然语言描述需求,可自动生成完整功能代码,实现“3分钟生成+1小时迭代”的开发体验。来源:AI工具集

    OpenAI推出三大音频模型,语音交互技术迈向新高度

    OpenAI推出新一代音频模型,包括语音转文本和文本转语音功能。gpt-4o-transcribe显著降低单词错误率,优于现有Whisper模型;gpt-4o-mini-transcribe是精简版本,速度更快、效率更高;gpt-4o-mini-tts首次支持“可引导性”,开发者可控制语音风格。来源:APPSO

    腾讯混元自研深度思考模型「T1」正式发布

    腾讯正式发布自研深度思考模型混元T1正式版。擅长超长文处理和快速推理,混元T1采用Hybrid-Mamba-Transformer融合架构,降低计算复杂度和内存占用,减少训练和推理成本,在长文本推理领域表现出色,解码速度提升2倍。来源:腾讯混元

    生数科技用AI赋能国内动漫短剧市场,7部千万级网文IP改编概念短片

    生数科技旗下的AI视频生成平台Vidu宣布获得7部千万级网文IP概念短片改编授权,包括《修罗武神》《九星霸体决》等热门作品。这些IP将通过AI技术改编为动漫短片,标志着网络文学AI影视化改编的新里程碑。来源:Vidu AI

    全球客服AI先锋Shulex完成亿元级融资,加速AI数字员工开发与全球化布局

    全球化客户服务 AI Agent 企业 Shulex(VOC.AI)近日完成亿元级融资,由 盛大资本领投,北极光创投、Starting Gate Fund 跟投,非凡资本担任独家财务顾问。本轮融资将用于加速大模型驱动的 AI 数字员工开发,扩大全球业务版图。来源:AI工具集

    Anthropic AI 聊天机器人 Claude 新增联网搜索功能

    Anthropic宣布大语言聊天机器人Claude新增联网搜索功能。用户可在个人设置中开启网页浏览功能,Claude会在需要时自动联网提取信息,在反馈结果中提供直接引用来源方便核实。来源:IT之家

    百川智能携手北京儿童医院发布全球首个儿科大模型“福棠·百川”,双医模式助力基层医疗

    百川智能携手北京儿童医院发布全球首个儿科大模型“福棠·百川”,推出两款AI儿科医生应用(基层版和专家版)。模型覆盖儿童常见病与疑难病症知识体系,首创儿科“循证模式”,整合医学证据为患儿制定个性化诊疗方案。来源:百川大模型

    3月20日·周四

    OpenAI 推出最贵 o1-pro API,定价远超 DeepSeek

    OpenAI 推出了最昂贵的API——o1-pro。是o1的升级版,使用更多计算资源以提供更优质响应,仅对特定开发者开放(Tier 1–5)。定价极高:每百万输入token收费150美元,输出token收费600美元。来源:机器之心

    飞书字段捷径 —— Kimi 招聘助手上线,助力企业高效招聘

    北京月之暗面推出飞书字段捷径 Kimi 招聘助手,为 HR 提供高效招聘支持。工具通过强大的文本分析能力,实现简历信息提取、候选人匹配评估和面试建议生成的一站式服务。用户只需输入简历和职位需求,系统可快速生成关键信息和匹配度分析。来源:Kimi 开发平台

    阶跃星辰开源图生视频模型 Step-Video-TI2V,运动可控,动漫效果尤佳!

    上海阶跃星辰宣布开源图生视频模型 Step-Video-TI2V。模型基于30B参数,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,在动漫风格视频生成方面表现出色。来源:阶跃星辰

    3月19日·周三

    黄仁勋甩出三代核弹AI芯片!个人超算每秒运算1000万亿次,DeepSeek成最大赢家

    英伟达GTC大会上,黄仁勋发布了新一代核弹级AI芯片Blackwell Ultra(GB300),性能大幅提升,推理速度可达每秒1000万亿次。芯片配备20TB HBM3内存和40TB快速内存,支持14.4TB/s的CX8带宽。还推出了基于Blackwell Ultra的AI PC,包括DGX Station和DGX Spark,适用于AI推理、机器人训练及自动驾驶等领域。来源:APPSO

    豆包编程能力再升级,3分钟做出专属小游戏

    字节跳动旗下的AI智能助手豆包宣布AI编程能力升级,新增HTML预览、Python运行和完整项目生成三项功能。用户可通过豆包快速制作小游戏等互动网页。豆包支持HTML代码实时预览和交互,Python代码直接运行并提供一键报错修复,能生成完整项目代码,无需分别编写前后端逻辑。来源:豆包

    谷歌 Gemini 更新:新增音频播客、Canvas 画布与 Deep Research 扩容

    谷歌 Gemini 最新推出了 Canvas 功能,可用于创建、改进和分享写作与编码项目,实时预览代码效果。新增“文本转音频”功能(Audio Overviews),可将文本对话生成音频播客。免费用户的 Deep Research 使用次数增加至每月 10 次,帮助用户更高效地完成复杂的研究任务。来源:Google

    马斯克xAI公司收购视频生成初创公司Hotshot,加速布局AI视频领域

    马斯克的xAI公司收购了 Hotshot 视频生成初创公司。Hotshot由4人组成,在13个月内开发出3款视频生成模型,包括Hotshot-XL、Hotshot Act-One和Hotshot。Hotshot模型可生成最长10秒的720p视频。公司由Aakash Sastry和John Mullan于2017年创立,曾获Reddit联合创始人Alexis Ohanian等投资。来源:量子位

    谷歌达成迄今最大一笔收购交易,320 亿美元现金买下云安全公司 Wiz

    谷歌宣布以320亿美元全现金收购云安全初创公司Wiz,是其迄今最大一笔收购交易。Wiz是一家总部位于纽约的云安全公司,提供连接到所有主要云服务和代码环境的安全平台。此次收购旨在提升谷歌云的安全能力,支持多云环境,推动云安全创新。交易完成后,Wiz将继续在所有主要云平台上运行,包括AWS、Azure和甲骨文云。来源:IT之家

    3月18日·周二

    腾讯 Hunyuan3D 2.0 开源:几何与纹理分离,一键生成高精度3D模型

    腾讯推出 Hunyuan3D 2.0,开源的高质量 3D 模型生成系统。采用几何与纹理分离的生成架构,通过大规模扩散模型实现高精度几何形状和高分辨率纹理的生成。系统支持文本和图像到 3D 模型的快速转换,具备纹理更换功能。来源:AI工具集

    Cursor 推出 Claude 3.7 Max:更强大的代码编辑与项目管理

    Cursor 推出 Claude 3.7 Max,提供了更大的200k上下文窗口,支持最多 200 次工具调用,能处理更复杂的代码编辑和项目。专为需要深度理解和大规模修改的复杂任务设计。来源:AI工具集

    昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

    昆仑万维开源首款工业级多模态思维链推理模型Skywork R1V。模型具备强大的视觉理解和推理能力,能处理复杂的视觉逻辑推理、数学问题和科学现象分析等任务。在权威基准测试中表现卓越,推理能力领先于行业内众多主流模型。来源:昆仑万维集团

    秘塔AI搜索升级:文字秒变可视化网页

    秘塔AI搜索升级模型,推出“生成互动网页”功能。用户可在研究模式下将文字内容秒变互动网页,或通过粘贴文章链接快速生成,核心观点一目了然。支持上下滑动查看更多内容,登录后署名分享。来源:AI秘塔

    苏姿丰北京激情演讲!点赞DeepSeek,AMD全面拥抱中国

    AMD董事会主席兼CEO苏姿丰在北京AMD AI PC创新峰会上发表演讲,强调中国市场对AMD的重要性。会上,AMD展示了锐龙AI Max系列、锐龙AI 300系列等新品,强调AI PC的定制化、自动化和进阶推理趋势。AMD现场演示了DeepSeek模型在AI PC上的本地部署效果,包括生成吃豆人游戏等应用。来源:智东西

    Mistral Small 3.1 上线,多模态理解与文本性能双重升级

    Mistral AI 推出 Mistral Small 3.1开源多模态人工智能模型。模型在文本性能、多模态理解以及长上下文窗口(128k tokens)方面进行了改进,推理速度可达每秒 150 个 token。在多项基准测试中表现优异,超越了 Gemma 3 和 GPT-4o Mini 等同类模型。来源:AI工具集

    QwQ-32B登陆!超算互联网MaaS服务再上新

    超算互联网平台推出 QwQ-32B 推理大模型服务。QwQ-32B 已集成至平台的 Chatbot 可视化对话服务和 API 在线调用服务。用户可通过平台一级栏目直接体验其多轮交互和长文本解析能力,满足学术研究、代码生成、日常咨询等需求。来源:超算互联网

    3月17日·周一

    蝴蝶效应备案manus.cn顶级域名,此前曾称尽快将创新体验带给中文用户

    北京蝴蝶效应科技有限公司的manus.cn域名备案审核通过。此前公司官网域名是manus.im。3月11日,manus官博曾发文表示“尽快将Manus的创新体验带给广大中文用户,敬请期待”。来源:财联社

    ima智能工作台升级:五大新功能助力高效办公与创作

    腾讯旗下的ima智能工作台在电脑端和移动端(安卓版)迎来更新,更新内容包括:支持使用混元T1模型,适用于复杂任务;新增Markdown文件导入与解读功能;支持修改最新一条问答消息;笔记的AI写作支持多轮对话;笔记中可调用知识库辅助创作。来源:ima.copilot

    新浪财经APP喜娜AI助手赋能财经资讯:AI摘要与公告解读新突破

    新浪财经APP的喜娜AI助手通过北京市生成式人工智能服务登记,推出“喜娜AI摘要”和“个股公告AI解读”两项创新功能。喜娜AI摘要可快速提炼财经新闻和文章的核心要点,帮助用户高效获取信息;个股公告AI解读基于深度学习模型,深度解析上市公司公告,生成专业解读报告。来源:AI工具集

    谷歌 Gemini 2.0 Flash 模型拥有强大图片去水印功能,或触犯版权红线

    谷歌推出的Gemini 2.0 Flash模型因强大的图片去水印功能引发争议。模型可去除包括盖蒂图片社等知名图库图片的水印,会填补因水印删除产生的空白区域,目前免费提供给用户使用。来源:IT之家

    百度发布文心大模型4.5及X1,两款模型免费上线

    百度发布文心大模型4.5文心大模型X1,在文心一言官网免费开放。文心大模型4.5是新一代原生多模态基础大模型,具备优秀的多模态理解能力和精进的语言能力,通过关键技术如FlashMask动态注意力掩码等实现能力提升。文心大模型X1是能力更全面的深度思考模型,能自主运用工具,在多种场景表现出色。来源:百度

    零一万物推出万智,打通企业大模型“最后一公里”,确认不再做超大基模迭代

    李开复创立的AI独角兽零一万物宣布推出万智企业大模型一站式平台,为企业级DeepSeek部署提供定制解决方案。平台预装高性能GPU,内置DeepSeek全系列模型,支持多种前沿模型架构,具备灵活扩展性,AI搜索产品准确性高达88%。来源:钛媒体AGI

    清华团队开源“赤兔”推理引擎,FP8模型部署成本减半、速度翻番

    清华系科创企业清程极智与清华大学翟季冬教授团队联合开源大模型推理引擎“赤兔”(Chitu)。率先实现非H卡设备运行原生FP8模型的突破,在A800集群上部署DeepSeek-671B满血版推理服务时,相比vLLM方案,GPU数量减少50%,速度提升3.15倍。来源:AI工具集

    对话姜哲源:3.99万元背后,我们想成为人形机器人赛道的小米和苹果

    国内机器人创业公司NOETIX Robotics松延动力发布人形机器人N2和升级版机器人E1,其中E1最低价格为3.99万元起,N2预售价达5.99万元起。N2身高1.2米,具备后空翻、奔跑等多种运动能力,预售量已超500台。创始人姜哲源表示,要让人形机器人不再只是少数人的产品,未来希望成为人形机器人领域的“苹果”。来源:钛媒体AGI

    3月14日·周五

    谷歌免费开放Deep Research功能:人人皆可深度探索信息

    谷歌近日向所有用户免费开放了Deep Research功能,此前该功能仅限Gemini Advanced付费用户使用。用户可登录Gemini官网体验。来源:AI工具集

    谷歌Gemini 2.0 Flash全模态图像生成上线,动嘴就能P图

    谷歌Gemini 2.0 Flash全模态图像生成功能正式上线,用户可通过自然语言对话生成和编辑图像,支持文本与图像结合、对话式编辑、世界知识理解和文本渲染等亮点。开发者可通过Gemini API或Google AI Studio使用。来源:AI工具集

    3月13日·周四

    潞晨科技重磅开源 Open-Sora 2.0,视频大模型降本提速

    潞晨科技推出开源视频生成模型Open-Sora 2.0,仅用20万美元(224张GPU)成功训练11B参数商业级模型,性能媲美百万美元成本的主流闭源模型。模型在VBench评测中表现优异,与OpenAI Sora的性能差距大幅缩小至0.69%。来源:潞晨科技

    谷歌推出新一代开源模型 Gemma 3,单卡最强多模态模型

    谷歌推出新一代开源模型 Gemma 3,是 Gemma 模型家族的最新版本。Gemma 3 支持多模态输入,包括视觉语言输入和文本输出,能处理长达 128k 令牌 的上下文窗口,涵盖超过 140 种语言。在数学、推理和对话能力上都有显著提升,提供结构化输出和函数调用功能。来源:AI工具集

    阿里巴巴推出AI旗舰应用——新夸克,发布“AI超级框”

    阿里巴巴推出全新AI旗舰应用“新夸克”。新夸克基于阿里通义领先的推理及多模态大模型,全面升级为无边界的“AI超级框”,为2亿用户带来全新AI体验。与对话式AI不同,夸克将AI对话、深度思考、深度搜索、深度研究、深度执行整合到一个极简“AI超级框”内,一站式满足用户需求。来源:阿里巴巴

    理想汽车推出“理想同学网页版”,集成DeepSeek R1与MindGPT双模型

    理想汽车推出“理想同学网页版”,集成DeepSeek R1与MindGPT双模型,提供高效智能服务。用户可通过网页版进行深度思考和联网搜索,实现复杂任务的简化处理。MindGPT支持图文问答,提升交互体验。来源:AI理想同学

    智元机器人与阶跃星辰达成战略合作,共同探索AI+具身智能场景

    智元机器人与阶跃星辰正式签署战略合作协议。双方将利用各自优势,在具身智能与大模型领域展开全方位合作,聚焦新零售等场景解决方案开发、具身智能数据合作及世界模型技术探索。来源:智元机器人

    3月12日·周三

    Trae功能上新:支持 Remote-SSH 和自定义模型配置

    Trae发布新功能,更新支持Remote-SSH远程开发,开发者可在本地通过Trae访问和操作远程主机文件夹,享受代码补全、调试等AI辅助功能。Trae新增自定义模型配置,用户可接入火山引擎、DeepSeek、硅基流动、阿里云、腾讯云等服务商的模型资源,满足个性化需求。来源:Trae&MarsCode

    OpenAI 发布 Agent 工具包,助力开发者构建智能体

    OpenAI发布了专为构建AI Agents设计的新工具包,包括Responses API、Web搜索工具、文件搜索工具、计算机使用工具以及开源的Agents SDK。简化开发者创建自动完成任务的AI Agents的过程。来源:APPSO

    豆包文生图技术报告发布!数据处理、预训练、RLHF全流程公开

    字节跳动豆包大模型团队发布文生图技术报告,首次公开 Seedream 2.0 图像生成模型技术细节。模型覆盖数据构建、预训练框架及后训练 RLHF 全流程,具备原生中英双语理解、文字渲染、高美感等特性。Seedream 2.0 已在豆包 APP 和即梦上线。来源:豆包大模型团队

    李飞飞团队新成果 BEHAVIOR Robot Suite:500美元打造全能家务机器人

    李飞飞团队推出具身智能新成果——BEHAVIOR Robot Suite(BRS),解决机器人在家庭环境中完成家务任务的全身操作问题。BRS的核心组件成本不到500美元,具备三项关键能力:双臂协同、稳定导航和末端执行器的广泛操作范围。团队通过JoyLo低成本遥操作接口和WB-VIMA学习算法,实现了高效的数据采集和全身动作协调。来源:量子位

    Manus将与阿里通义千问团队正式达成战略合作

    Manus平台宣布与阿里通义千问团队达成战略合作。双方将基于通义千问系列开源模型,在国产模型和算力平台上实现Manus的全部功能,为中国用户打造更具创造力的通用智能体产品。来源:财联社

    DeepSeek-R1 & V3 API 再升级,支持批量推理,R1 价格直降 75%

    硅基流动SiliconCloud平台宣布DeepSeek-R1 & V3 API升级,新增批量推理功能。用户通过批量API发送请求,不受实时推理速率限制,24小时内完成任务。3月11日至18日,DeepSeek-R1批量推理价格直降75%,输入1元/百万Tokens,输出4元/百万Tokens。来源:硅基流动

    3月11日·周二

    智元机器人发布灵犀X2:双足人形机器人解锁情感交互与灵活运动新技能

    智元机器人发布灵犀X2,具备高自由度运动、情感计算和通用任务执行能力的双足人形机器人。灵犀X2全身28个自由度,未采用并联结构,运动灵活,能骑自行车、踩滑板车。搭载情感计算引擎,可感知情绪并回应,交互反应达毫秒级。来源:AI工具集

    字节推出音效生成模型 SeedFoley,一键生成大片感音效!

    字节跳动豆包大模型语音团队推出 SeedFoley 模型,通过端到端架构实现视频音效智能生成,将 AI 视频创作带入“有声时代”。“AI 音效”已上线即梦,用户可一键生成 3 个专业级音效方案。来源:AI工具集

    阿里开源 R1-Omni:DeepSeek 同款 RLVR 技术赋能全模态情感识别

    阿里通义实验室薄列峰团队开源 R1-Omni 模型,首次将 DeepSeek 同款 RLVR 技术应用于全模态情感识别。模型结合视觉和音频模态,通过 RLVR 和 GRPO 方法优化,在情感识别的推理能力、理解能力和泛化能力上显著提升。来源:AI工具集

    豆包大模型团队 COMET 系统开源,万卡集群部署节省数百万 GPU 小时

    字节跳动豆包大模型团队推出通信优化系统 COMET,针对 MoE 模型分布式训练中的通信瓶颈,通过细粒度计算-通信重叠技术,实现单层 1.96 倍加速,端到端平均 1.71 倍效率提升。COMET 已在万卡级生产集群落地,节省数百万 GPU 小时资源,获 MLSys 2025 高分评审,核心代码已开源。来源:豆包大模型团队

    百度文心快码推出Zulu:从需求到代码的端到端生成

    百度文心快码推出AI自动编程智能体Zulu,为开发者提供从需求到代码的端到端生成服务。Zulu能自主理解编码需求,精准拆解任务,突破单文件限制,实现跨模块、跨目录的系统级代码生成。支持多种编程语言和框架,具备多文件编辑与管理、一键采纳变更代码、工具调用、实时预览和多模态交互等功能。来源:AI工具集

    科大讯飞联合华为率先实现国产算力大规模跨节点专家并行集群推理

    科大讯飞与华为联合团队在国产算力领域取得重大进展,率先突破了国产算力集群上MoE模型的大规模跨节点专家并行集群推理。通过软硬件深度协同创新,团队在昇腾集群上完成了验证和部署,实现了显著的性能提升。来源:科大讯飞研究院

    百度上线“月匣”App,第4次冲击AI社交

    百度推出情感陪伴类App“月匣”,主打高自由度AI对话与沉浸式剧本互动。App搭载文心一言大模型,整合DeepSeek、豆包、MiniMax abab三大外部模型,构建“四核驱动”的AI社交引擎。通过多模型协同和沉浸式剧本交互,重新定义情感陪伴类应用边界,填补情绪刚需空白。来源:AI工具集

    OpenAI 发布 CoT 思维链研究成果,监控阻止大模型恶意行为

    OpenAI公布最新研究,通过CoT(思维链)监控方式监控推理模型的“想法”,阻止AI大模型恶意行为,如胡说八道、隐藏真实意图等。测试中,以o3-mini为被监控对象,GPT-4o为监控器,在编码任务环境下,CoT监控器检测系统性“奖励黑客”行为召回率达95%,远超仅监控行为的60%。来源:IT之家

    鸿海首个大语言模型 FoxBrain 发布:具备推理能力

    鸿海推出首个大语言模型“FoxBrain”,基于 Meta 的 Llama 3.1 架构,由 120 块英伟达 H100 GPU 训练完成,训练周期约四周。模型具备推理能力,适配繁体中文及本土语言风格,主要用于内部数据分析、决策辅助、文档协作等场景。来源:AI工具集

    Manus 沙盒代码被获取,基座模型为:Claude Sonnet 及阿里 Qwen 微调模型

    网友通过查找 /opt/.manus/ 下的文件获取了 Manus 沙盒运行代码,发现 Manus 使用了 Claude Sonnet 模型及基于该模型的 29 个工具,未使用 Claude 多智能体,还使用了 Browser Use 的开源代码作为 Computer use 能力底座。Manus 联合创始人季逸超回应称,沙盒代码的“泄露”是设计的一部分,每个对话都有独立沙盒环境。来源:第一财经

    3月10日·周一

    MetaGPT 团队推出 OpenManus :开源版 Manus

    MetaGPT的5人小团队仅用3小时成功复刻了开源版Manus——OpenManus,在GitHub上获得了8k+的star。OpenManus无需邀请码,可以自由使用。用户可通过创建conda环境、克隆存储库、安装依赖项并配置API密钥等步骤快速上手使用。来源:AI工具集

    智元发布首个通用具身基座大模型GO-1

    智元机器人发布首个通用具身基座大模型Genie Operator-1(GO-1)。模型基于创新的Vision-Language-Latent-Action(ViLLA)架构,融合多模态大模型(VLM)和混合专家系统(MoE),通过预测隐式动作标记,弥合图像-文本输入与机器人动作执行之间的差距。来源:智元机器人

    超算互联网QwQ-32B API接口服务上线,免费100万Tokens

    超算互联网平台上线阿里巴巴开源推理模型QwQ-32B的API接口服务,提供免费100万Tokens。QwQ-32B基于Qwen2.5-32B+强化学习构建,在数学和代码能力上表现优异。用户可通过超算互联网平台快速开发或私有化部署该模型,平台提供保姆级教程,支持多种访问形式。来源:超算互联网

    北京大学联合华为发布全栈开源DeepSeek推理方案

    北京大学联合华为发布DeepSeek全栈开源推理方案。方案基于北大自研的SCOW算力平台系统、鹤思调度系统,整合了DeepSeek、openEuler、MindSpore与vLLM/RAY等开源组件,实现了华为昇腾上的高效推理,支持大规模算力集群的训推一体化部署。来源:北京大学高性能计算校级公共平台

    CAMEL-AI推出OWL项目:0天复刻Manus,开源且性能卓越

    CAMEL-AI开源社区推出OWL项目,成功0天复刻Manus通用智能体完全开源,性能在GAIA Benchmark上达到57.7%,超越Huggingface的Open Deep Research(55.15%)。OWL项目免费,支持GitHub一键克隆,提供云端和本地两种执行环境。来源:CAMEL-AI

    Mistral AI 推出 Mistral OCR API:最快最准光学字符识别,千页 1 美元

    Mistral AI推出Mistral OCR,先进的光学字符识别(OCR)API。能精准识别文档中的文本、图像、表格、公式等复杂元素,支持多语言和多模态输入,处理速度可达每分钟2000页。在基准测试中,Mistral OCR的准确率高达94.89%,全面领先其他OCR模型。来源:AI工具集

    OpenAI 更新 macOS 版 ChatGPT,可在 Xcode 等 IDE 中直接编辑代码

    OpenAI更新macOS版ChatGPT应用,新增在Xcode、VS Code等IDE中直接编辑代码的功能。用户通过“与应用程序协作”功能,可让ChatGPT自动检测当前活跃编辑器并交互,能在编辑过程中对话ChatGPT。来源:IT之家

    3月6日·周四

    全球首款通用 AI Agent 产品 Manus 发布,刷新 AI 基准测试纪录

    Monica.im团队推出全球首款真正自主的AI Agent产品Manus,引发AI圈关注。Manus采用多代理架构,能独立思考、规划并执行复杂任务,直接交付完整成果。在 GAIA 基准测试中创下新纪录,远超 OpenAI 同类产品。来源:AI工具集

    腾讯混元开源图生视频模型,上线音频与动作驱动能力,助力创意视频创作

    腾讯正式发布并开源混元图生视频模型。模型支持用户通过上传一张图片输入简短描述,可生成5秒的短视频,同时具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种场景,包括写实、动漫和CGI角色制作,总参数量为130亿。来源:AI工具集

    通义千问QwQ-32B,更小尺寸,性能比肩全球最强开源推理模型

    阿里云通义千问团队推出320亿参数的推理模型QwQ-32B,性能媲美6710亿参数的DeepSeek-R1。模型通过大规模强化学习提升推理能力,在数学推理、编程能力等多领域表现卓越,超越多个领先模型。QwQ-32B集成Agent能力,支持批判性思考与动态调整。来源:通义千问Qwen

    逐际动力半年完成5亿元融资,阿里、蔚来、联想等巨头加持

    具身智能机器人公司「逐际动力」近期完成A+轮融资,半年内累计融资5亿元人民币。此次融资由阿里巴巴、蔚来资本、联想创投等多家知名机构参与,将用于加速人形机器人研发与商业化落地。专注于全尺寸通用人形机器人及双足机器人开发。来源:36氪

    智源开源多模态向量模型BGE-VL:多模态检索新突破

    智源研究院联合多所高校开发了多模态向量模型 BGE-VL,推动多模态检索技术的突破。模型基于大规模合成数据集 MegaPairs 训练,具备优异的可扩展性和数据质量。MegaPairs 通过自动化挖掘和标注多模态数据,仅需传统数据量的 1/70 即可实现更优效果。来源:智源研究院

    Cohere 推出 Aya Vision,突破多语言多模态 AI 新纪元

    Cohere For AI 推出领先的多模态、多语言视觉模型 Aya Vision,支持 23 种语言,覆盖全球超半数人口。Aya Vision 在多语言图像理解和文本生成任务中表现出色, 8B 和 32B 版本在性能上超越了包括 Llama-3.2 90B Vision 在内的更大规模模型。来源:AI工具集

    3月5日·周三

    Vidu API 开放平台全面开放,开启智能化内容生产范式

    全球领先的专业级视频生成服务Vidu API开放平台全面开放,面向企业级用户与个人开发者。具备多模态语义理解能力,支持文字、图片等多模态指令输入,精准匹配创作意图。动漫风格稳定,画面流畅,帧间一致性高,首创多主体一致性技术,突破模型上下文理解限制。来源:Vidu AI

    OpenAI宣布提供3.6亿,联合15个大学和机构建立NextGenAI教育联盟

    OpenAI宣布成立NextGenAI教育联盟,联合15家顶尖大学和机构,包括加州理工学院、哈佛大学、麻省理工学院、牛津大学等。OpenAI将提供5000万美元(约合人民币3.6亿元)的研究补助金、计算资源和API访问权限,支持学生、教育工作者和研究人员推进AI研究与教育创新。来源:钛媒体AGI

    3月4日·周二

    智谱发布开源图像生成模型CogView4,首个支持中英双语,图像生成迎来新突破

    智谱正式发布并开源最新的图像生成模型CogView4。模型具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,可生成任意分辨率的图像。CogView4在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的最先进技术(SOTA)。来源:GLM大模型

    通义灵码上新Qwen2.5-Max模型,体验数学和编程双冠王能力

    阿里云和通义实验室联合推出的AI编码助手“通义灵码”上线了Qwen2.5-Max模型。模型使用超过20万亿token的预训练数据及优化的后训练方案,在Arena-Hard、LiveBench等基准测试中,Qwen2.5-Max领先业界,在数学和编程能力上排名第一。来源:通义灵码

    Anthropic完成35亿美元E轮融资,估值飙升至615亿美元

    Anthropic完成35亿美元E轮融资,估值达615亿美元。本轮融资由Lightspeed Venture Partners领投,Bessemer Venture Partners、Cisco Investments等多家机构参与。资金将用于推进下一代AI系统开发、扩大计算能力、加速国际扩张。Anthropic推出的Claude 3.7 Sonnet和Claude Code,在代码能力上取得突破。来源:Anthropic

    秘塔AI搜索推出视频搜索功能,高效学习娱乐新体验

    秘塔AI搜索推出新功能,新增“视频”搜索模块。功能基于对上亿条视频内容的分析,覆盖多模态数据,用户可通过关键词快速找到学习或娱乐视频。来源:AI秘塔

    百川智能调整业务布局,聚焦医疗领域

    百川智能近期对To B业务进行重大调整。2025年3月3日,金融行业To B团队被裁撤,此前,团队曾负责金融领域的大模型商业化,推出Baichuan4-Finance等产品。此次调整是为聚焦医疗领域,百川已在该领域布局,如投资医疗数据服务商“小儿方”并计划落地AI医生助理。来源:智能涌现

    3月3日·周一

    智谱AI完成超10亿元新轮战略融资,杭州城投产业基金参与投资

    智谱AI完成超10亿元战略融资,投资方包括杭州城投产业基金等。两轮融资期间近三个月DeepSeek的RL训练模式引发行业变革,促使OpenAI等公司调整战略,降低GPT-4 Turbo价格考虑开源。智谱AI在开源生态和基座模型上持续投入,计划发布并开源全新大模型产品,同时调整B端与C端业务,强化行业定制化与多模态交互体验。来源:智谱

    中国首款AI IDE:Trae国内版发布,配置豆包1.5pro,支持切换满血版DeepSeek模型

    中国首个AI原生集成开发环境(AI IDE)Trae国内版正式上线。Trae配置了Doubao-1.5-pro,支持切换满血版DeepSeek R1、V3模型,专为中国开发者设计,支持代码补全、理解、Bug修复及自然语言生成代码等功能,通过Builder模式实现“思想到代码”的快速转化,提升开发效率。来源:豆包MarsCode

    MiniMax Video-01系列收官,海螺视频App全球上线

    MiniMax宣布Video-01系列收官,推出海螺视频App全球上线。海螺视频App集成了图生视频模型I2V-01-Director和文生图视频模型T2V-01-Director,组成01-Director系列,为用户提供15种可自由组合的运镜效果,支持多运镜镜头组合和自然语言控制镜头运动。来源:MiniMax 稀宇科技

    科大讯飞星火X1升级,推出星火一体机及多款新品

    科大讯飞宣布星火X1大模型升级,并发布多款新品。星火X1在数学能力上显著提升,首发星火医疗大模型X1,已应用于“讯飞晓医”,在医疗推理任务上超越GPT-4o和DeepSeek R1。科大讯飞联合华为升级星火一体机,推出医疗、政务、高教、法律、警务五大场景一体机,发布首款“星火X1+DeepSeek”双引擎AI学习机,推动AI在多领域的深度应用。来源:科大讯飞

    亚马逊推出Alexa+:五大技术突破 AI 助手新体验

    亚马逊云科技宣布推出Alexa+,下一代AI助手。Alexa+采用全新架构,连接大语言模型、智能体能力、服务和设备,实现更智能、更具个性化的用户体验。五大技术突破包括:全新架构连接数以万计的服务和设备;精准系统提供准确实时信息;极致优化降低延迟;个性化响应定制专属体验;新增智能体能力突破API限制。来源:亚马逊云科技

    “腾讯元宝电脑版”正式发布:混元大模型 / DeepSeek 双模切换

    腾讯元宝电脑版正式上线。具备便捷的文件管理、在线协作编辑、实时沟通等功能,提升团队协作效率。用户可以在电脑端享受与移动端一致的流畅体验,支持多平台无缝切换,满足远程办公、团队协作等多样化需求。来源:AI工具集

    飞书推出个人 AI 知识库“飞书知识问答”,支持调用 DeepSeek R1

    字节跳动旗下的飞书推出“飞书知识问答”的个人AI知识库产品。通过自然语言对话形式,为用户提供资料整合与搜索问答服务。用户可以将飞书内的文件、文档等资料同步至知识库,或手动上传本地文件,系统会自动解析整合。来源:AI工具集

    夸克AI搜索上线深度思考,新亮点,新体验!

    夸克AI搜索上线了“深度思考”功能,升级AI搜索体验。更新聚焦于提升搜索结果的深度和精准度。通过深度思考技术,结合AI搜索,能快速从多个权威来源整理答案,提供更精准、简洁的搜索体验。夸克集成了AI写作、生图、PPT制作、翻译等功能,一站式解决用户在工作和生活中的多样化需求。来源:夸克APP

    2月28日·周五

    Trae已全量支持Claude 3.7!免费!

    Trae v1.0.8版本正式发布,新增对Claude 3.7 Sonnet模型的全量支持,为用户提供更强大的AI生成能力。资源有限,响应可能延迟,服务目前免费,用户可体验更高效、智能的AI功能。来源:AI工具集

    OpenAI发布GPT-4.5:更智能、更具情商的聊天模型

    OpenAI推出GPT-4.5,作为最强聊天模型的研究预览版本,目前仅对Pro用户和开发者开放。GPT-4.5通过扩大无监督学习,提升了模式识别、知识广度和创造力,减少了幻觉现象,对话更自然。在写作、编程和解决问题上表现出色,具备更高情商,能更好地理解人类意图。来源:AI工具集

    DeepSeek开源高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s

    DeepSeek在开源周最后一天发布了Fire-Flyer File System(3FS)和Smallpond数据处理框架。3FS是一种高性能并行文件系统,专为AI训练和推理设计,支持大规模集群的高吞吐量数据访问,峰值读取吞吐量达6.6 TiB/s。Smallpond基于3FS和DuckDB构建,支持高效数据处理,可扩展至PB级数据集。来源:AI工具集

    百度文心大模型4.5,3月16日正式上线

    百度宣布文心大模型4.5将于3月16日正式上线。两年前的同一天,百度发布了全球首个生成式AI产品——文心一言。此次升级后的文心大模型4.5在基础模型能力上大幅提升,新增原生多模态和深度思考能力。来源:百度

    荣耀、阿里在 AI 领域达成合作:千问、万相等多个模型已接入 YOYO 智能体

    百荣耀宣布与阿里在AI领域达成合作,千问(Qwen)和万相(Wan)等多款语言、视觉理解及图像生成模型已接入荣耀YOYO智能体。用户可通过Magic7系列手机体验相关AI功能。YOYO助理已上线DeepSeek-R1满血版,支持深度思考模式,答案更精准、及时。来源:IT之家

    2月27日·周四

    腾讯混元新一代快思考模型 Turbo S 发布,实现秒级响应

    腾讯发布新一代快思考模型混元Turbo S,模型在知识、数理、创作等方面表现出色,实现“秒回”功能,吐字速度提升一倍,首字时延降低44%。混元Turbo S采用Hybrid-Mamba-Transformer融合架构,有效降低计算复杂度和部署成本。来源:腾讯混元

    DeepSeek开源新动作:三大并行计算优化技术,助力大模型训练效率飞跃

    DeepSeek开源三项并行计算优化技术,DualPipe 是一种双向流水线并行算法,通过计算与通信的完全重叠,显著减少流水线气泡,优化 GPU 资源利用率。EPLB(专家并行负载均衡器)通过冗余专家策略和负载均衡技术,解决专家并行中 GPU 负载不均的问题。profile-data 提供详细的性能分析数据,帮助开发者深入理解并行策略优化。来源:AI工具集

    Anthropic 全面开放 Claude AI 的 GitHub 集成,赋能所有开发者

    Anthropic宣布全面开放Claude AI的GitHub集成,面向免费、Pro和Teams用户。集成后,用户可将GitHub代码库同步至Claude,使其理解代码上下文,辅助测试、调试和优化代码。来源:IT之家

    微软开源Phi4多模态与Phi4-Mini:端侧AI迎来最强小模型

    微软开源两款小模型Phi-4-MultimodalPhi-4-Mini。Phi-4-Multimodal是多模态模型,集成了文本、视觉和语音输入,采用“混合LoRA”技术,表现出色。Phi-4-Mini是3.8亿参数的语言模型,擅长数学和编码任务,性能优于同尺寸模型。来源:AI工具集

    2月26日·周三

    DeepSeek API 错峰优惠,R1 价格降至1/4

    DeepSeek推出API错峰优惠,2025年2月26日起,DeepSeek开放平台在北京时间每日00:30至08:30的夜间空闲时段,DeepSeek-V3 API调用价格降至原价的50%,DeepSeek-R1价格低至原价的25%。鼓励用户在夜间利用平台资源,享受更经济、更流畅的服务体验。来源:DeepSeek

    阿里云开源视频生成大模型“Wan2.1”,全模态、全尺寸助力全球开发者

    阿里云开源视频生成大模型“万相2.1”,采用Apache 2.0协议,提供14B和1.3B两个参数版本,支持文生视频和图生视频任务。14B版本在复杂运动生成和物理建模方面表现卓越,1.3B版本能在消费级显卡上运行,仅需8.2GB显存可生成480P视频。万相2.1在权威评测集Vbench中以86.22%的总分超越国内外众多模型。来源:AI工具集

    DeepSeek开源FP8 GEMM库:极致优化Hopper GPU性能,助力AI训练与推理

    DeepSeek开源周第三弹发布——DeepGEMM,是专为Hopper GPU设计的FP8 GEMM库,支持密集和MoE GEMM,性能高达1350+ TFLOPS。采用JIT即时编译,无需预编译,核心代码仅约300行,支持多种矩阵布局,矩阵运算提速显著。来源:AI工具集

    谷歌推出 Gemini Code Assist 个人版编程工具,免费可用

    谷歌推出面向个人开发者的免费编程工具 Gemini Code Assist,帮助学生、爱好者和初创公司更便捷地获取AI编程支持。工具基于谷歌Gemini 2.0模型驱动,支持38种语言,提供每月最多18万次代码补全服务,远超其他同类产品。来源:AI工具集

    2月25日·周二

    Claude 3.7 Sonnet发布:AI推理与编码能力的双重突破

    Anthropic发布全球首个混合推理模型——Claude 3.7 Sonnet。模型结合了标准和扩展思考模式,可在快速响应与深度思考间切换,用户可通过API细粒度控制思考时间。Anthropic推出命令行工具Claude Code,支持代码搜索、编辑、测试、提交及复杂应用开发,显著提升开发效率。来源:AI工具集

    DeepSeek 开源通信库 DeepEP,大幅提升 MoE 模型训练与推理效率

    DeepSeek 开源周第二天,发布开源项目 DeepEP,专为混合专家模型(MoE)训练和推理设计的高效通信库。DeepEP 提供高吞吐量和低延迟的全对全 GPU 内核,支持 NVLink 和 RDMA 通信,优化训练和推理效率。来源:AI工具集

    ChatGPT 变身苹果 Safari 浏览器默认搜索引擎

    OpenAI更新ChatGPT应用,新增Safari扩展功能,用户可将ChatGPT设为Safari地址栏的默认搜索引擎。更新后,用户在“设置”中启用“ChatGPT搜索扩展”,输入搜索查询时,结果将直接由ChatGPT提供,非传统的谷歌等搜索引擎。来源:IT之家

    阿里Qwen团队发布推理模型QwQ,会展示完整的思维链

    阿里通义千问团队推出QwQ-Max-Preview深度思考模型,支持联网搜索,具备强大的通用能力,可完成创意写作、代码生成、数学题解答等任务。模型基于Qwen2.5-Max构建,未来将以Apache 2.0许可协议开源。目前已上线官网,用户可通过点击“深度思考(QwQ)”按钮体验。来源:AI工具集

    Perplexity 官宣“Comet”浏览器,主打“AI 智能体搜索”

    Perplexity AI 宣布进军浏览器市场,推出名为“Comet”的浏览器。浏览器以“AI 智能体搜索”为核心概念,提供更贴近用户需求的搜索体验。Comet 已开启注册,具体上线时间和功能细节尚未公布。Perplexity AI 称 AI 技术将优于谷歌 Chrome 和微软 Edge 等现有浏览器的搜索体验。来源:IT之家

    字节AI加速调整,豆包正测试深度思考模型,暂未接入DeepSeek

    字节跳动旗下AI助手“豆包”正在小范围测试深度思考模型,但未接入DeepSeek,是采用自研技术。目前,豆包的深度思考功能尚未开放,部分测试用户已能体验到思维链的呈现。自DeepSeek开源后,字节AI部门面临重大调整。来源:Z Finance

    2月24日·周一

    DeepSeek 开源周首日推出 FlashMLA,为 Hopper GPU 优化的高效 MLA 解码内核

    DeepSeek启动“开源周”,首个开源项目为FlashMLA,是针对NVIDIA Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列设计。灵感来源于FlashAttention 2&3和Cutlass项目。FlashMLA支持CUDA 12.3及以上版本、PyTorch 2.0及以上版本。来源:AI工具集

    LiblibAI一年内完成四轮融资,再次斩获数亿元资金

    LiblibAI宣布在过去一年内连续完成四轮融资,创下国内AI应用赛道融资速度新纪录。最新两轮融资由渶策资本、顺为资本领投,明势创投等跟投,巨人网络参与产业投资。LiblibAI致力于AI内容创作与分享,已拥有超2000万创作者和5亿张生成图片。本轮融资将重点投入创作者生态建设和技术研发,推动平台全球化发展。来源:LiblibAI

    爱诗科技推出PixVerse V4:5秒生成AI视频,音画同步

    爱诗科技发布PixVerse V4,带来AI视频创作新突破。新增“音效”功能,可自动生成与视频内容匹配的音效;“人声”功能可为视频角色生成口型一致的配音;“重绘”功能支持一键切换视频风格,提供赛博、芭比等多种风格。生成速度可达5秒。来源:爱诗科技 AIsphere

    LiblibAI 作为独家 AIGC 创作合作平台接入阶跃开源视频生成大模型

    上海阶跃星辰智能科技有限公司开源的视频生成大模型“Step-Video-T2V”正式接入LiblibAI平台,LiblibAI成为其独家AIGC创作合作平台。此次合作推动AI技术的普及与创新,为全球开发者和创作者提供更优质的服务。来源:阶跃星辰

    马斯克宣布 Grok 3 语音模式早期测试版已上线

    马斯克在社交平台X宣布,Grok 3语音模式早期测试版已在Grok应用程序上线。支持用户通过自然语言与AI对话,提供两种声音(Ara和Grok)及不同个性,支持添加自定义说明和分享对话。来源:IT之家

    月之暗面 Kimi 开源“Moonlight”混合专家模型

    月之暗面Kimi发布“Moonlight”混合专家模型(MoE),包含30亿和160亿参数版本。模型在Muon技术基础上训练,使用了5.7万亿个token,以更低的浮点运算次数(FLOPs)实现更优性能,提升了帕累托效率边界。团队通过添加权重衰减等技术优化Muon优化器,无需超参数调优可用于大规模训练,计算效率是AdamW的2倍。来源:AI工具集

    2月21日·周五

    小红书将接入DeepSeek,AI搜索“点点”iOS版下载量总计约20万

    小红书即将接入DeepSeek-R1开源模型,在AI搜索产品“点点”App中推出“深度思考”功能,目前处于内测阶段。“点点”App自上线以来,iOS版下载量总计约20万次。“点点”,定位为生活搜索助手,覆盖多种生活场景。来源:钛媒体AGI

    DeepSeek 官宣下周陆续开源 5 个代码库,每日解锁新内容

    DeepSeek宣布将在下周陆续开源5个代码库,每日解锁新内容。公司表示,这些经过测试和部署完备的代码库可投入生产环境,将“毫无保留地分享进展”。DeepSeek自称为“小小的团队”,强调该领域没有“象牙塔”。来源:IT之家

    Figure推出Helix:凭单神经网络实现上身控制与自然语言交互

    人形机器人公司Figure推出通用控制模型Helix,是与OpenAI断交后的首个成果。Helix通过单一神经网络控制机器人整个上身,包括手腕、躯干和手指,能理解自然语言指令,完成拿起物品、打开冰箱等任务,可协作完成复杂操作。来源:AI工具集

    Spotify 启动 AI 配音有声书服务,29 种语言可供选择

    Spotify宣布与ElevenLabs合作推出AI配音有声书服务。支持29种语言,为作者提供多种合成语音选项。免费版每月提供10分钟文本转语音服务,付费套餐起价99美元,可生成500分钟配音。Spotify认为,AI配音能让小型作者更低成本地制作有声书,便于旧书有声化。来源:IT之家

    腾讯元宝升级:DeepSeek图生文功能上线

    腾讯元宝上线图生文功能,结合混元和DeepSeek技术,可理解图片内容提供分析。结合混元的多模态理解技术后,在关闭联网搜索的情况下,用户发送任意图片并提问,元宝都能给出自己的理解和分析。来源:腾讯

    英伟达推出 Signs AI 平台,助力美式手语学习与无障碍沟通

    英伟达携手美国聋童协会(ASDC)和 Hello Monday 推出 Signs AI 平台,帮助更多人学习美式手语(ASL)。平台通过摄像头捕捉手势提供实时反馈,使用 3D 虚拟人物演示正确动作,方便用户对比学习。Signs 平台通过用户贡献的视频不断优化模型,数据集包含 40 万个视频片段,涵盖 1000 个手语单词。来源:AI工具集

    2月20日·周四

    「捏 Ta」X「清影」达成战略合作,多模态模型商业化持续发力

    AI角色创作平台“捏Ta”与智谱旗下的多模态模型“清影”达成战略合作,共同探索从AI角色设计到动画创作的完整路径。此次合作基于智谱最新升级的视频生成大模型CogVideoX-2,显著提升了模型的图像生成和指令遵从能力,支持高质量视频创作。上线首日,“捏Ta”平台完成4万+次视频生成,调用上亿次Tokens。来源:智谱

    ima App安卓端正式上线 云存储空间扩容至2GB

    腾讯旗下的AI智能工作台ima App正式上线。ima App安卓版可通过官网或腾讯应用宝下载,iOS版也将随后推出。ima App延续了简洁设计风格,整合了电脑端和小程序的核心功能,ima云存储空间扩容至2GB,满足用户多场景需求。来源:ima.copilot

    xAI 公司宣布 Grok 3 限时免费开放,直到服务器不堪重负为止

    马斯克旗下人工智能公司xAI宣布,Grok 3现向公众免费开放,直至服务器不堪重负。所有用户均可免费使用Grok 3的推理和深度搜索功能。X Premium+和SuperGrok订阅用户将享有优先访问权及语音模式等高级功能。来源:IT之家

    Codeium 获新一轮融资,估值推至 28.5 亿美元

    AI编程初创公司Codeium完成新一轮融资,估值达28.5亿美元。此次融资距C轮融资仅6个月,当时估值为12.5亿美元。Codeium专注于为企业提供服务,去年推出Windsurf Editor工具,可自动编写部分代码。来源:IT之家

    「灵境AI」完成数百万元种子轮融资,打造AI时代文创IP“造梦新基建”

    灵境AI完成数百万元种子轮融资,打造AI时代文创IP“造梦新基建”。专注于文创内容生成的AI科技公司,核心业务涵盖网文大数据平台、AI短篇小说工厂、AI动漫创作引擎和内容出海计划。通过“创意洞察+AI提效”模式,在小说、动漫、微短剧等领域实现智能化生产,大幅提升创作效率和分发效率。来源:灵境AI创作

    2月19日·周三

    「灵宝CASBOT」完成超亿元天使轮融资,加速推进人形机器人量产进程

    北京中科慧灵机器人技术有限公司(灵宝CASBOT)近日完成超亿元天使轮融资,投资方包括联想创投、国投创合、河南资产基金等。本轮融资将加速人形机器人量产及核心技术研发。2024年11月,公司发布首款双足人形机器人CASBOT 01,拥有52个自由度,算力达550T,续航超4小时。来源:36氪

    OpenAI 推出大模型测试基准 SWE-Lancer

    OpenAI 官方宣布,推出全新的大模型测试基准SWE-Lancer,用于评估大语言模型(LLMs)在自由职业软件工程任务中表现的基准测试。基准包含来自 Upwork 的 1400 多个真实任务,总价值达 100 万美元,涵盖从简单修复到复杂功能开发的全栈工程任务。来源:AI工具集

    硅基流动完成新一轮亿元人民币融资

    硅基流动于2024年底完成亿元人民币Pre-A轮融资,由华创资本领投,普华资本跟投,耀途资本超额跟投,华兴资本担任财务顾问。此前,硅基流动已引入美团作为战略股东。大模型云服务平台SiliconCloud上线不到一年,用户数超300万,日均调用上千亿Token,支持上百款主流模型。来源:硅基流动

    2月18日·周二

    xAI 发布 Grok 3 聊天机器人,性能较前代提升十倍

    马斯克旗下xAI公司发布新一代大模型Grok 3,Grok 3在数学推理、科学逻辑和代码写作等能力上表现卓越,超越DeepSeek-v3、GPT-4o和Gemini-2 Pro等模型。开发依托10万块英伟达H100 GPU的Colossus超级计算机,训练时长2亿GPU小时,性能较前代提升十倍。Grok 3引入推理模式和“DeepSearch”功能,支持复杂问题的深度思考。来源:AI工具集

    月之暗面推出最新模型:Kimi Latest,开放平台同步上线

    月之暗面科技宣布推出Kimi智能助手最新模型——Kimi Latest。模型对标Kimi智能助手当前使用的最新大模型,支持128k上下文长度,具备图片理解能力,支持自动上下文缓存。Kimi Latest适用于大模型聊天应用,如ChatWise、ChatBox等,可提供与Kimi智能助手相似的聊天体验。来源:Kimi 开放平台

    阶跃星辰联合吉利首次开源,为开源世界贡献多模态力量

    阶跃星辰与吉利汽车集团联合开源两款多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音交互模型。Step-Video-T2V参数量达300亿,可生成高质量视频,性能领先全球开源视频模型。Step-Audio是业内首款产品级开源语音交互模型,支持多语种、方言、情感表达及音色克隆,性能在多项评测中名列前茅。来源:阶跃星辰

    秘塔AI搜索推出“浅度研究”功能,2-3分钟完成数百网页分析

    秘塔AI搜索推出 Shallow Research「浅度研究」功能,快速收集信息并完成初步分析。功能采用“小模型+大模型”协同架构,结合秘塔自研模型与DeepSeek R1推理模型,可在2-3分钟内完成数百个网页的搜索与分析。来源:AI秘塔

    昆仑万维开源中国首个面向AI短剧创作的视频生成模型,重塑AI短剧行业格局

    昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1及表情动作可控算法SkyReels-A1。SkyReels-V1是开源视频生成模型中参数最大且支持图生视频的模型,可实现影视级人物微表情表演和电影级光影美学,支持33种细腻表情与400+自然动作组合。SkyReels-A1支持高保真微表情还原和更大幅度的人物表情驱动。来源:昆仑万维集团

    Mistral 推出首个专业区域语言模型:专精阿拉伯语和印度起源语言

    Mistral AI 推出首个专业区域语言模型 Mistral Saba,满足中东和南亚地区对本地化语言和文化的需求。模型拥有 240 亿参数,经过精心策划的数据集训练,支持阿拉伯语及多种印度起源语言,擅长泰米尔语。来源:AI工具集

    2月17日·周一

    字节Trae Win+Mac版全量上线,免费无限量使用Claude

    字节跳动推出的AI编程IDE Trae Win+Mac版于正式全量上线。Trae支持免费无限量使用Claude Sonnet编程大模型,具备全自动开发模式“Builder模式”,可实现需求理解、代码生成、文件操作及错误修复一体化。Trae支持多模态开发,可直接通过上传原型或截图生成代码。来源:AI工具集

    浙江大学推出DeepSeek系列专题线上公开课

    浙江大学人工智能教育教学研究中心于2025年2月17日起推出DeepSeek系列专题线上公开课,每周一晚上19:30面向全校师生及社会公众直播。解析DeepSeek的技术革新与伦理影响,探讨在人工智能领域的突破与应用。首期课程由吴飞教授和陈文智教授主讲。来源:AI工具集

    xAI即将发布Grok 3,马斯克称之为“地球上最聪明的人工智能”

    埃隆·马斯克的xAI公司将于2月17日发布Grok 3聊天机器人,马斯克称其为“地球上最聪明的人工智能”。Grok 3引入“思维链”推理能力,显著提升推理、编程及多模态功能。训练使用合成数据,可反思错误。Grok 3接入X平台,供用户使用。发布时间较马斯克原计划延迟来源:第一财经

    腾讯元宝再更新:DeepSeek R1+腾讯混元T1「双核」驱动

    腾讯元宝发布重大更新,接入腾讯混元T1和DeepSeek-R1两大模型,均支持深度思考功能。用户可免费切换使用,解决复杂问题更高效。混元T1为腾讯自研的最新「深度思考模型」,专为多维度分析设计,思维方式贴近人类认知。更新后,腾讯元宝支持联网搜索,结合腾讯生态内容及权威信源,答案更精准。来源:AI工具集

    AI搜索新突破:Perplexity推出Deep Research免费深度研究功能

    AI公司Perplexity宣布推出Deep Research(深度研究)功能,向所有用户免费开放。非订阅用户每天可免费体验5次,Pro用户每天可体验500次。Deep Research通过多次搜索和推理,挖掘上百个信息源,提供深度研究报告,与普通AI搜索相比,搜索深度、广度和推理能力更强。来源:AI工具集

    腾讯多款产品接入DeepSeek-R1模型,全面升级AI体验

    腾讯宣布旗下多款产品接入DeepSeek-R1模型,包括腾讯元宝、微信、ima、腾讯文档、QQ浏览器、QQ音乐等。腾讯元宝支持免费使用DeepSeek-R1满血版和混元T1深度思考模型,提供复杂问题解答能力。微信“AI搜索”功能在灰度测试中。ima、腾讯文档、QQ浏览器、QQ音乐等产品结合DeepSeek-R1优化功能,提升用户体验。来源:腾讯

    中国AI变局:腾讯、百度接入DeepSeek模型,字节反思,“大模型六虎”加速分化

    腾讯微信上线“AI搜索”功能灰度测试DeepSeek-R1模型,百度搜索宣布全面接入DeepSeek文心大模型的深度搜索功能。字节跳动反思DeepSeek技术跟进,“大模型六小虎”加速分化,部分企业选择拥抱DeepSeek,另一些则继续深耕自身模型研发。来源:钛媒体AGI

    2月14日·周五

    问小白上线DeepSeek-R1满血版,实测为官网最佳平替!

    问小白平台上线DeepSeek-R1满血版,提供免费流畅的使用体验。支持联网搜索、上传文件、多模态分析等功能,具备深度思考、时效性回答、生成深度话题等亮点。问小白的客户端支持语音输入和语音播放,适合多群体使用。用户可在PC端和移动端通过问小白免费体验DeepSeek-R1,解决官网服务器繁忙的问题。来源:AI工具集

    通义灵码全新上线模型选择功能,新增支持 DeepSeek-V3 和 DeepSeek-R1 模型

    通义灵码上线模型选择功能,支持DeepSeek-V3和DeepSeek-R1满血版671B模型。通义灵码是阿里云和通义实验室联合出品的AI编码助手,提供代码智能生成和研发智能问答能力。升级后,用户可在VS Code和JetBrains IDEs中切换不同模型,满足复杂算法和简单逻辑处理需求,进一步降低AI编程门槛。来源:通义灵码

    昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

    昆仑万维推出Matrix-Zero世界模型,包含3D场景生成和可交互视频生成两大子模型。3D场景生成模型可将图片转化为全局一致、可自由探索的3D场景,支持不同风格输入和动态效果生成;可交互视频生成模型以用户输入为核心,支持实时交互和精准视角控制。来源:昆仑万维集团

    谷歌 Gemini 宣布上线“全局记忆”功能,订阅用户可令 AI 回忆曾经所有对话

    谷歌Gemini AI上线“全局记忆”功能,订阅Gemini Advanced服务的用户可在App和网页端体验。AI能记住用户所有对话,提供更个性化的回复。用户无需跳转历史记录即可延续对话,可要求Gemini总结对话内容。目前仅支持英语,未来几周扩展至其他语言。来源:IT之家

    2月13日·周四

    OpenAI 将在未来几个月内推出 GPT-5:整合 o3 等多项技术,可免费无限使用

    OpenAI创始人Sam Altman在社交媒体上透露公司产品路线图的重大更新。OpenAI将发布GPT-4.5(代号Orion),是最后一个非思维链(CoT)模型。未来几个月,OpenAI将推出GPT-5,模型将整合OpenAI的多项技术,包括o3,不再将o3作为独立模型发布。GPT-5将集成到ChatGPT和API中,提供更统一的智能体验。来源:机器之心

    文心一言 4 月起全面免费,上线深度搜索功能

    百度AI宣布:自2025年4月1日零时起,文心一言将全面免费开放,PC端和APP端用户均可体验文心系列最新模型。同时,文心一言上线深度搜索功能,同样于4月1日起免费开放。深度搜索功能具备更强大的思考规划和外部工具使用能力,为用户提供专家级内容回复,支持多场景任务处理以及多模态输入与输出。APP端也将同步上线。来源:百度AI

    Adobe Firefly 开放 AI 视频生成,一键搞定 5 秒 1080P 视频

    Adobe宣布向公众免费开放AI视频生成器Firefly。用户仅需输入文本描述或上传图像,可一键生成5秒的1080p高清视频。Firefly在动态景观、动物行为、天气模式和粒子效果等元素上表现出色,支持高级相机设置和多种宽高比选择。来源:AI工具集

    腾讯元宝接入 DeepSeek R1 模型,支持深度思考 + 联网搜索

    腾讯元宝发布更新,正式接入DeepSeek R1模型,支持深度思考与联网搜索。模型基于腾讯混元架构,具备强大的自然语言理解能力,可提供详细且权威的回答。QQ音乐此前也已完成对DeepSeek R1的部署,成为首个应用该模型的音乐平台。来源:AI工具集

    2月12日·周三

    华为小艺助手网页端上线人人可用:支持 R1 深度思考

    华为小艺助手网页端正式上线,适配手机和PC,用户可通过浏览器直接访问。更新接入DeepSeek-R1智能体,支持联网搜索功能,可实时获取最新信息。网页版小艺提供AI问答、AI写作、编程助手和AI翻译等功能,支持R1深度思考模式,用户可根据需要自定义自动或强制使用。来源:AI工具集

    Agentic GLM全面登陆三星最新款手机Galaxy S25

    智谱与三星合作,将Agentic GLM技术全面应用于三星Galaxy S25系列手机。技术基于多模态数据处理能力,支持AI音视频通话、视觉理解、系统功能调用、AI搜索文案写作等功能。Galaxy S25的“语聊视界”功能可实现智能互动视频通话,同时支持社交媒体文案生成和系统级功能调用。来源:智谱

    苹果抛弃DeepSeek,选择与阿里合作开发中国iPhone AI 功能

    苹果公司已与阿里巴巴集团达成合作,共同开发面向中国市场的AI功能。双方联合开发的AI功能已提交审批,预计3月25日公布国行AI开发者教程。苹果曾尝试与百度合作,但未达预期,后放弃DeepSeek,因其缺乏支持大客户的经验。来源:钛媒体AGI

    七家国产芯片鼎力支持!无问芯穹异构云打通DeepSeek-R1多芯片适配优化

    无问芯穹异构云大模型服务平台正式上线DeepSeek-R1DeepSeek-V3,完成了在壁仞、海光、摩尔线程、沐曦、昇腾、燧原、天数智芯等七家国产芯片上的适配优化。平台支持通过Infini-AI异构云平台一键获取DeepSeek系列模型与多元异构自主算力服务,为开发者提供高效、省心、划算的AI开发体验。来源:无问芯穹

    字节跳动推出UltraMem架构,推理成本较MoE最高降83%

    字节跳动豆包大模型团队发布全新稀疏模型架构UltraMem,有效解决传统MoE架构在推理时的高额访存问题。UltraMem通过优化内存访问和计算效率,推理速度较MoE提升2-6倍,推理成本最高降低83%。来源:豆包大模型团队

    2月11日·周二

    港大与字节跳动发布Goku+,AI视频生成技术颠覆广告创作

    香港大学与字节跳动联合发布最新视频生成模型 Goku 和广告视频生成版本Goku+。Goku支持文生视频、图生视频和文生图等多种生成任务,能生成高质量的图像和视频内容。Goku+专注于广告视频生成,可将产品图片转化为吸引人的视频,支持虚拟数字人与产品互动,显著降低广告制作成本。来源:AI工具集

    OpenAI、谷歌、Roblox 等联手,成立新组织以保障 AI 时代儿童安全

    Roblox、Discord、OpenAI和谷歌联合成立非营利组织ROOST(强大开放在线安全工具),为AI时代构建可扩展且互联互通的安全基础设施。ROOST将向公共和私人机构免费提供开源安全工具,初期重点关注儿童安全,特别是提供检测、审核和报告儿童性虐待材料(CSAM)的相关工具。来源:IT之家

    庖丁科技宣布完成新一轮融资,金山办公及顺为联合领投

    北京庖丁科技宣布完成新一轮融资,金额达到15亿元人民币,由金山办公和顺为资本联合领投。此次融资将用于文档智能技术研发、市场拓展及核心人才引进,推动非结构化数据智能处理技术的创新与落地。庖丁科技专注于文档智能领域,已为超过100家大型机构客户提供服务,客户续费率超过90%。来源:36氪

    沙特将向 AI 芯片创企 Groq 投资 15 亿美元,支持后者在沙 AI 基础设施扩建

    AI推理芯片初创公司Groq宣布获得沙特阿拉伯15亿美元(约合109.62亿元人民币)的投资,用于扩建位于沙特达曼的AI推理基础设施。Groq与沙特阿美旗下子公司合作建设的达曼数据中心已拥有19000个语言处理单元(LPU),能为41个国家的40亿用户提供服务。来源:IT之家

    2月10日·周一

    OpenAI CEO 深夜发文:AI 成本每年暴跌 10倍,2035 年人人都有超级大脑

    OpenAI CEO Sam Altman发文称,AI成本每年暴跌10倍,到2035年,人人都将拥有超级大脑。他认为AGI(通用人工智能)将成为人类进步的强大工具,带来前所未有的繁荣和生活质量提升。随着AI智能水平的线性增长,社会经济价值呈超指数增长,未来AI Agents将成为知识工作中的“虚拟同事”,广泛应用于各领域。来源:APPSO

    晚点对话王小川丨不是文本创作、不是物理模型,AGI 的尽头是生命科学

    百川智能创始人王小川在接受《晚点》采访时表示,AGI(通用人工智能)的尽头是生命科学,医疗不是垂直场景,是大模型皇冠上的明珠。百川智能专注于医疗领域,致力于打造AI医生,认为“造医生等价于AGI”。百川已发布全场景推理大模型Baichuan-M1-preview,计划在2025年第一季度推出AI医生助手,服务北京海淀区居民。来源:晚点对话LateTalk

    VideoWorld开源:多方合作打造仅靠视觉认知世界的视频生成模型

    字节跳动豆包大模型团队联合北京交通大学、中国科学技术大学发布的“VideoWorld”视频生成模型,现已开源。模型首次实现仅通过视觉信息认知世界,无需依赖语言模型即可学习和执行复杂任务,如围棋对战和机器人操控。VideoWorld采用潜在动态模型(LDM)压缩视频帧间变化信息,显著提升学习效率。来源:豆包大模型团队

    美国网约车巨头 Lyft 同 Anthropic 达成合作:Claude 将为百万司机提供服务

    美国网约车巨头Lyft与AI创企Anthropic达成合作,将推出AI驱动的产品,为Lyft每年超4000万乘客和100万司机提供更好的拼车体验。目前,由Anthropic的Claude模型支持的Lyft AI客服助手已投入使用,每天处理数千个客户请求,平均客服解决时间缩短87%。来源:IT之家

    吴恩达团队发布AI新成果:零样本标记助力图片目标检测

    吴恩达宣布创业公司推出新成果——Agentic Object Detection(Agent目标检测)。无需标注训练数据,仅通过推理即可在图片中定位指定物体。例如在一张草莓图片中,提示“未成熟的草莓”,模型可在短时间内准确识别。。来源:AI工具集

    昆仑万维旗下天工AI正式上线DeepSeek R1+联网搜索

    昆仑万维旗下「天工AI」正式上线DeepSeek R1+联网搜索功能。此次更新解决了此前DeepSeek联网功能无法使用及偶尔崩溃的问题,为用户带来更稳定、高效的AI体验。用户可在「天工AI」PC端勾选“深度思考 R1”按钮,实现联网搜索,获取最新信息。来源:昆仑万维集团

    2月8日·周六

    Pika新功能Pikadditions上线,用AI为视频“加料”

    Pika推出新功能Pikadditions,用户仅需上传一张图片和一段视频,可将图片内容自然地添加到视频中,实现如“老虎扑人”“冰箱里的北极熊”等创意效果。基于AI技术,可根据原始视频动作智能生成引人入胜的合成画面。Pika官方提供15次免费体验机会。来源:AI工具集

    Github重磅发布Agent模式和Copilot Edits,主动修复错误代码

    微软宣布GitHub Copilot全面支持代理功能,推出首个自主SWE智能体。可自主迭代代码、修复错误、建议并执行终端命令。同时GitHub Copilot Edits上线,支持多文件编辑与代码更改意见。微软计划将在今年内融入GitHub用户体验。来源:AI工具集

    软银即将完成对 OpenAI 的 400 亿美元投资,超越微软成为最大金主

    软银即将完成对OpenAI的400亿美元投资,投前估值为2600亿美元,投后估值达3000亿美元。资金将在未来12至24个月内支付,第一笔款项最快于春季到账。投资完成后,软银将超越微软,成为OpenAI的最大投资方。部分资金将用于OpenAI与软银、甲骨文合资的“星际之门”项目。来源:IT之家

    2月7日·周五

    OpenAI 更新 o3-mini 模型思维链展示方式,提高 AI 推理透明度

    OpenAI宣布公开o3-mini模型的推理思维链,免费和付费用户可查看其思维过程。部分人质疑公开的思维链是否为原始数据,因为展示速度较慢且字符数量与原始版本存在差异。OpenAI发言人确认公开的思维链经过后处理,消除不安全内容、简化复杂想法,为非英语用户提供更好的体验。来源:量子位

    欧洲的 OpenAI,Mistral AI 推出 iOS 和 安卓APP

    Mistral AI发布客户端Le Chat,推出iOS和Android版本。支持实时网络搜索、文档分析、图像生成等功能,提供企业级解决方案,包括代码解释器、OCR和文档处理等。来源:AI工具集

    《麻省理工科技评论》点评中国AI“四剑客”,每家都媲美DeepSeek

    DeepSeek凭借低训练成本和高性能的开源模型引发全球关注。《麻省理工科技评论》指出,除DeepSeek外,中国还有四家AI初创公司展现出强大的技术实力,包括阶跃星辰、面壁智能、智谱AI无问芯穹。分别在基础模型、端侧模型、多模态AI以及AI基础设施领域取得了显著成就,展现了与DeepSeek媲美的竞争力。来源:机器之心

    谷歌 Magic Editor 集成 SynthID,“火眼金睛”识别 AI 造假

    为应对 AI 生成内容带来的虚假信息风险,谷歌将 SynthID 水印技术集成到图像编辑工具 Magic Editor 中。本周使用 Magic Editor 的 AI 生成编辑图像将在 Google Photos 中被 SynthID 标记,部分细微编辑可能无法被检测到。技术通过嵌入数字水印标记内容,不影响视觉质量。来源:IT之家

    OpenAI 与加州州立大学达成迄今最大的AI教育合作

    OpenAI宣布将在加州州立大学23个校区推出ChatGPT,覆盖46万名学生和6.3万名教职员工。是OpenAI在美国高等教育领域的最大规模部署,为学生提供个性化辅导和学习指南,同时帮助教师完成行政工作。来源:36氪

    DeepSeek声明:社交平台仅三个账号,一切声称与官方群组有关收费行为均系假冒

    DeepSeek官方发布声明:近期,DeepSeek发现部分仿冒账号和不实信息误导公众,DeepSeek的官方账号仅包括微信公众号“DeepSeek”、小红书“@DeepSeek(deepseek_ai)”和X(Twitter)“DeepSeek (@deepseek_ai)”。除这些账号外,其他任何声称与DeepSeek相关的信息均为假冒。来源:DeepSeek

    2月6日·周四

    OpenAI 放大招:ChatGPT 搜索功能无需注册人人可用,分钟级别解析全网信息

    OpenAI 宣布 ChatGPT 搜索功能无需登录账户即可使用,用户可直接获取基于实时网络信息生成的答案,查看信息来源清单。与传统搜索引擎相比,ChatGPT 搜索可实现分钟级解析网络信息,能查看地图和本地景点图片,结果更具可信度和实用性。来源:IT之家

    谷歌发布Gemini 2.0 Pro,全型号刷榜,原生多模态,编程、物理模拟能力炸裂

    谷歌发布 Gemini 2.0 系列模型,包括 Gemini 2.0 Pro、2.0 Flash 和 2.0 Flash-Lite。2.0 Pro 是谷歌最强的编码和复杂提示处理模型,配备 200 万 token 上下文窗口,支持谷歌搜索和代码执行工具。2.0 Flash 是高效主力模型,支持 100 万 token 上下文和多模态输入,适合高容量任务。2.0 Flash-Lite 是最具性价比的模型,性能优于前代 1.5 Flash,成本更低。来源:Founder Park

    前追觅中国区执行总裁郭人杰创业,「乐享科技」宣布完成近2亿元天使轮融资

    前追觅中国区执行总裁郭人杰创立的「乐享科技」宣布完成近 2 亿元人民币的天使轮融资,由 IDG 资本领投,Monolith、经纬创投、真格基金等跟投,投后估值约 6 亿元。乐享科技成立于 2024 年,定位为全球科技公司,专注于 AI + 消费硬件市场,首款面向家庭场景的产品正在研发中。来源:36氪

    字节跳动推出 OmniHuman 多模态框架:图片+音频 = 逼真动画

    字节跳动提出OmniHuman,基于扩散变换器的高保真人类视频生成框架。模型通过单阶段的音频和姿态驱动,能生成高质量的人类视频内容。支持文本、音频、姿态等多种输入信号,可生成从面部特写到全身的各种视频,适应不同风格。来源:AI工具集

    训练成本不到 50 美元,研究人员打造出媲美 OpenAI o1 的推理模型

    斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用,训练出s1人工智能推理模型。模型在数学和编程能力测试中表现与OpenAI的o1和DeepSeek的r1等顶尖模型相当。s1通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力,使用监督微调方法,耗时不到30分钟。来源:AI工具集

    2月5日·周三

    一场关于DeepSeek的高质量闭门会:比技术更重要的是愿景

    拾象创始人李广密组织了一场关于DeepSeek的闭门讨论会,数十位顶尖AI研究员、投资人与从业者参与。会议探讨了DeepSeek的技术细节、组织文化及其影响。DeepSeek凭借高效的资源利用和对智能的专注,展现出强大的技术实力。创始人梁文锋注重技术与智能的推进,而非商业化。来源:腾讯科技

    5人创业国产AI搜索火了,小红书Reddit都在推!比Perplexity留存更高

    国产AI搜索工具 Hika AI 仅5人团队打造,上线不到1个月,在获取用户注意力方面已超越Perplexity等竞争对手。Hika AI 提供免费的知识获取引擎,核心特点是按段落分割回答,支持用户对感兴趣的部分深入提问,提供图表化的总结表和思维导图。来源:AI工具集

    Adobe Acrobat AI 助手新增合同理解与比对功能,月费 5 美元

    Adobe Acrobat AI 助手新增合同理解与比对功能,月费 5 美元(约 36.4 元人民币)。可帮助用户理解复杂合同条款,自动发现不同合同之间的差异,例如新旧合同的变化。Acrobat 应用能自动识别合同文档,提取关键条款,生成摘要,推荐可能的问题。可同时比较多达 10 份合同。来源:AI工具集

    SB OpenAI Japan成立!2025年首个最火AI赛道开打

    OpenAI在日本宣布成立合资公司 SB OpenAI Japan,与软银合作,专注于开发和销售新型高级企业AI——“水晶智能(Cristal intelligence)”。合作为日本企业提供定制化的AI解决方案,推动企业工作流程自动化和效率提升。来源:智东西

    华为小艺助手接入 DeepSeek,升级纯血鸿蒙 HarmonyOS NEXT 即可体验

    华为小艺助手接入 DeepSeek,升级至 HarmonyOS NEXT 后即可体验。小艺助手的智能体广场已上线 DeepSeek-R1 Beta 版,升级小艺助手至 11.2.10.310 版本及以上,可在“发现”栏找到智能体广场,与 DeepSeek 进行对话。来源:IT之家

    Figure AI与OpenAI“分手”,人形机器人公司与大模型公司重新划定边界

    人形机器人公司Figure AI与OpenAI终止合作。Figure AI创始人Brett Adcock表示,公司自主研发的端到端机器人AI取得重大突破,未来30天内将展示新成果。Figure AI与OpenAI合作始于去年初,曾发布多条展示机器人视觉、对话及灵活操作能力的视频。来源:第一财经

    Ai2推出开源模型Tülu 3 405B,性能超越DeepSeek V3与GPT-4o

    美国艾伦人工智能研究所(Ai2)推出新一代开源模型Tülu 3 405B,基于强化学习技术,在多项基准测试中超越了DeepSeek v3和GPT-4o。Tülu 3系列模型基于Llama 3 Base,通过四阶段后训练方法优化,包括精心策划的提示词、监督微调、偏好微调和强化学习。训练数据、代码和方法完全开源。来源:AI工具集

    2月3日·周一

    OpenAI 推出 Deep Research 深度研究功能,助力复杂任务高效解决

    OpenAI发布ChatGPT的Deep Research功能。通过多步骤推理和互联网信息综合,可在数十分钟内完成复杂的研究任务。Deep Research基于o3模型,针对网页浏览和数据分析进行了优化。能生成专家级的研究报告,适用于金融、科学、政策和工程等领域的知识密集型工作。来源:AI工具集

    秘塔AI接入满血版DeepSeek R1推理模型

    秘塔AI宣布接入DeepSeek R1推理模型的满血版。模型结合了秘塔数十亿的全网数据和数千万学术文献,能处理复杂的推理问题,在结合知识和学术文献的推理任务中表现出色。秘塔AI的测试结果显示,R1模型在回答复杂问题时表现突出。来源:AI秘塔

    OpenAI 更新 ChatGPT Canvas 工具:上线 o1 模型、支持渲染 HTML / React 代码

    OpenAI更新ChatGPT Canvas写作工具,新增了o1模型支持,扩展了代码渲染功能,支持HTML和React代码。Canvas是ChatGPT中的写作与编码工具,用户可以在右侧输入文本,左侧基于模型调整文本长度或联想上下文。订阅了ChatGPT Pro、Plus、Team会员的用户可以使用o1模型,HTML和React代码渲染功能对所有用户开放。来源:IT之家

    2月1日·周六

    OpenAI发布新的推理模型o3-mini,性能提升 24%

    OpenAI发布新的推理模型o3-mini,是推理系列中最具成本效益的模型。o3-mini在科学、数学和编程等STEM领域表现出色,保持低延迟和低成本。支持函数调用、结构化输出和开发者消息等高级功能,提供低、中、高三档推理强度供开发者选择。与搜索功能集成,为用户提供最新答案及链接。来源:AI工具集

    阿里云通义千问旗舰版模型Qwen2.5-Max全新升级发布

    阿里云通义千问推出旗舰版模型Qwen2.5-Max。是MoE模型的最新探索成果,预训练数据超20万亿tokens,在知识、编程、综合能力等主流权威基准测试中表现卓越,全面超越全球领先的开源MoE模型及最大开源稠密模型。来源:AI工具集

    DeepSeek推出人人可用的开源视觉多模态AI模型Janus-Pro

    DeepSeek发布开源多模态AI模型Janus-Pro,包含10亿和70亿参数规模。模型在GenEval和DPG-Bench基准测试中击败了OpenAI的DALL-E 3和Stable Diffusion。Janus-Pro基于DeepSeek-LLM构建,使用SigLIP-L作为视觉编码器,支持多模态理解和生成。来源:AI工具集

    通义开源两大AI模型:支持理解长视频和捕捉事件等能力

    通义开源两大AI模型:Qwen2.5-VLQwen2.5-1M。Qwen2.5-VL推出3B、7B和72B三个版本,全面超越GPT-4o与Claude3.5。模型支持超1小时的视频理解,无需微调即可操作手机和电脑完成复杂任务。Qwen2.5-1M推出7B和14B版本,处理长文本任务性能卓越,推理速度提升近7倍,首次将上下文扩展到1M长度。来源:通义

    1月27日·周一

    开源全模态模型Baichuan-Omni-1.5上线,多项能力跑赢GPT-4o mini

    百川智能上线开源全模态模型Baichuan-Omni-1.5。模型支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5的表现均优于GPT-4o mini,在多模态医疗应用领域优势突出。来源:百川大模型

    可灵AI创意特效上线啦!好玩儿到停不下来!

    可灵AI 上线创意特效功能,支持“快乐惹毛我”“捏捏乐”“万物膨胀”等特效,已上线可灵AI APP和Web端,一起创意发挥,尽情体验,好玩儿到停不下来。来源:AI工具集

    中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目

    中国电信人工智能研究院发布“复杂推理大模型”TeleAI-t1-preview,即将上线天翼AI开放平台。模型采用强化学习训练方法,引入探索、反思等思考范式,提升逻辑推理和数学推导的准确性。在AIME 2024和MATH500评测中,分别以60分和93.8分的成绩大幅超越OpenAI o1-preview和GPT-4o等标杆模型。模型具备将形象思维与抽象思维结合的能力,能严谨地进行古今单位换算,有效解决复杂问题。来源:AI工具集

    GLM-4V-Plus 大模型能理解长达2小时视频

    GLM技术团队推出了GLM-4V-Plus-0111 beta版本,版本引入了原生可变分辨率等技术,显著提升模型对不同视频长度和分辨率的适应能力。新模型支持短视频的精细理解,能处理长达2小时的长视频,自动调整分辨率以平衡时间与空间信息捕捉。来源:AI工具集

    扎克伯格持续建设“AI 帝国”:Meta 今年将投入最多 650 亿美元

    Meta首席执行官马克・扎克伯格表示,公司今年计划投入最多650亿美元用于扩展AI基础设施,巩固其在与OpenAI和谷歌竞争中的地位。Meta将增加AI岗位的招聘,建设一座超过2吉瓦的数据中心。作为英伟达的主要客户之一,Meta计划在年底前拥有超过130万块图形处理器,在2025年实现约1吉瓦的计算能力。来源:IT之家

    1月24日·周五

    OpenAI正式发布智能体Operator!能推理、联网自主执行任务

    OpenAI推出“Operator”AI代理,Operator依托Computer-Using Agent(CUA)模型,结合GPT-4o的视觉能力和强化学习推理能力,能自动完成多种在线任务,如预订餐厅、旅行规划、购物等。通过屏幕截图“感知”界面,通过虚拟键盘和鼠标操作网页。具备自我纠错能力,遇到敏感信息或复杂任务时会交由用户接管。来源:AI工具集

    百川智能发布深度思考模型,同时具备语言、视觉和搜索三大领域推理能力

    百川智能推出两款新模型:Baichuan-M1-preview是国内首个全场景深度思考模型,具备语言、视觉和搜索三大领域推理能力,在医疗循证模式下,能快速精准回答医疗问题,提供深度推理和个性化建议。小尺寸版本Baichuan-M1-14B是行业首个开源医疗增强大模型,医疗能力超越Qwen2.5-72B。来源:百川大模型

    跃问App上新「创意板」功能,零代码实现应用与游戏创作

    跃问App上线国内首个「创意板」功能,用户可通过简单指令生成应用、游戏等创意内容,无需代码知识。基于自研多模态大模型Step-1o系列。创意板支持生成海报、游戏、互动网页等,可分享至任意平台。来源:AI工具集

    JetBrains发布AI编程Agent,助力开发者提升代码效率与质量

    JetBrains推出全新的AI编程Agent——Junie,以插件形式支持IntelliJ IDEA Ultimate和PyCharm Professional,未来将扩展至WebStorm。Junie在SWE-Bench Verified基准测试中完成53.6%的任务,表现中等偏上。能与JetBrains IDE深度整合,生成代码、运行检查、编写测试并验证结果,显著提升开发效率和代码质量。来源:AI工具集

    1月23日·周四

    智谱GLM-PC开放体验:自主操作电脑的多模态Agent再升级

    智谱推出电脑智能体GLM-PC,基于智谱CogAgent模型构建,能像人类一样“观察”和“操作”电脑,协助完成各类任务。新增“深度思考”模式、逻辑推理和代码生成功能,支持Windows系统。GLM-PC通过模拟人类左右脑分工,结合代码生成和图形界面理解,实现了逻辑推理与感知认知的深度结合。来源:AI工具集

    字节跳动推出的开源原生 GUI 代理模型

    字节跳动发布并开源了UI-TARS大模型,是专门用于操控电脑界面的视觉语言模型,具备感知、推理和操作能力。UI-TARS提供2B、7B和72B三种参数规模版本,支持跨平台操作,能通过自然语言指令完成鼠标点击、键盘输入等任务。在多个基准测试中,UI-TARS表现优于GPT-4和Claude。来源:AI工具集

    Step-Video 开年震撼升级:更强大的真实世界模拟器来了

    阶跃星辰推出视频生成模型 Step-Video V2版本。新版本在参数量、语义理解、指令遵循能力等方面大幅提升,支持复杂运动、人物美感、基础文字生成和多语言输入等功能。用户可通过跃问网页端申请试用。来源:阶跃星辰

    Perplexity发布Sonar API,提供实时信息搜索功能

    Perplexity发布Sonar API,提供实时信息搜索功能。Sonar API分为基础版和Pro版,基础版支持轻量级实时搜索和简单查询引用,Pro版则支持复杂多步骤任务、更大的上下文窗口和更丰富的引用。来源:AI工具集

    谷歌 Gemini 2.0 Flash Thinking 强化版发布,登上 Chatbot Arena 榜首

    谷歌发布Gemini 2.0 Flash Thinking推理模型的加强版,再次登顶Chatbot Arena排行榜。更新引入了1M长上下文处理能力,可对长篇文本进行更深入分析,减少模型思想与答案之间的矛盾。支持长上下文、多模态输入以及推理过程可视化,推理速度极快,在数学和科学能力测试中表现突出,数学成绩较前代提升54%。来源:AI工具集

    字节启动 Seed Edge,加码 AGI 研究

    字节跳动正式设立代号为“Seed Edge”的研究项目,专注于通用人工智能(AGI)的前沿研究。项目拟定五大研究方向,包括下一代推理、感知、软硬一体模型设计、新范式探索和Scaling方向研究。Seed Edge旨在探索AI的原创性创新,而非仅追随现有技术。字节跳动创始人张一鸣高度重视AI研究,鼓励团队探索基础课题。来源:晚点LatePost

    1月22日·周三

    豆包大模型1.5正式发布,全面上线火山方舟

    字节跳动旗下火山引擎正式发布豆包大模型1.5 Pro。模型在知识、代码、推理、中文等多个权威测评基准上表现优异,综合得分超越GPT-4o、Claude 3.5 Sonnet等业界一流模型。此次更新还推出了豆包·视觉理解模型和实时语音模型,支持多模态数据合成、低时延语音对话等功能。来源:火山引擎

    可灵AI重磅升级,「多图参考」功能上新

    可灵 AI 重磅升级,「多图参考」功能全新上线,支持参考单个角色生成视频,不同角色之间的互动,支持上传4张参考图,可以是人物、物品、道具和场景。确保多个镜头中的人物或主体保持一致。与可灵一起制作富有创意的视频。来源:AI工具集

    特朗普联合OpenAI启动5000亿美元“星际之门”AI项目,用于建设AI基础设施

    特朗普与OpenAI CEO Sam Altman、软银CEO孙正义等在白宫宣布启动名为“星际之门”的人工智能项目。项目计划未来四年投资5000亿美元,在美国建设新的人工智能基础设施,首期投入1000亿美元。技术合作伙伴包括Arm、微软、英伟达等。推动通用人工智能(AGI)发展,创造数十万就业岗位。来源:机器之心

    有道子曰-o1推理模型正式发布!消费级显卡即可部署

    网易有道正式发布并开源国内首个输出分步式讲解的推理模型“子曰-o1”。作为14B轻量级单模型,子曰-o1支持在消费级显卡上部署,采用思维链技术,能提供细致的解题过程,具备强逻辑推理能力。子曰-o1已应用于“有道小P”,支持“先解析思路、再提供答案”的答疑模式,助力学生自主思考。来源:网易有道

    1月21日·周二

    清影2.0重磅更新,模型能力大幅提升

    清影2.0重磅更新,AI视频生成能力大幅提升。新版本在模型结构、训练方法和数据工程上全面升级,图生视频基础模型能力提升38%,支持画面主体进行大幅度运动并保持稳定。指令遵从能力行业领先,可精准实现复杂提示词,涵盖写实、三维动画、二维动画及特殊艺术风格。已上线智谱清言,普通用户可免费用。来源:智谱

    k1.5 新模型登场:Kimi 如何做到满血版多模态o1水平

    月之暗面推出全新k1.5多模态思考模型。模型在多模态推理和通用推理能力上达到SOTA水平,在short-CoT模式下,数学、代码、视觉多模态能力大幅超越全球短思考SOTA模型,领先550%;在long-CoT模式下,达到OpenAI o1正式版水平,成为全球首个实现该性能的非OpenAI模型。来源:月之暗面 Kimi

    DeepSeek-R1 发布,性能对标 OpenAI o1 正式版

    深度求索发布DeepSeek-R1模型,并开源模型权重。DeepSeek-R1通过强化学习技术大幅提升推理能力,在数学、代码和自然语言推理等任务上性能对标OpenAI o1正式版。DeepSeek还开源了基于R1蒸馏的6个小模型,其中32B和70B模型性能比肩OpenAI o1-mini。DeepSeek-R1已上线API,可通过官网或App调用。来源:DeepSeek

    小红书AI翻译功能上线,网友玩转Prompt,背后大模型引关注

    小红书上线AI翻译功能,引发了网友的广泛关注和讨论。功能支持多种语言的翻译,能处理颜文字、网络热梗、化学式、摩斯电码等特殊内容。用户还可以通过Prompt提出翻译需求或生成特定内容。来源:量子位

    阶跃星辰Step-1o重大升级,多模态视觉双榜夺冠,国内第一

    阶跃星辰宣布 Step 系列模型上新第三弹。推出新成员 Step-1o Vision 多模态理解大模型,Step-1o Audio 语音模型能力升级。Step-1o Vision 在视觉识别、推理等任务中表现卓越,位居国内外权威榜单首位。升级后的 Step-1o Audio 情商更高,声音更自然,支持多语种及方言理解,实现更低时延。来源:阶跃星辰

    书生·浦像超高动态成像算法:AIGC叠加HDR,捕捉细节,平衡曝光

    上海人工智能实验室联合香港中文大学、浙江大学团队推出“书生·浦像”超高动态成像算法(浦像HDR,UltraFusion HDR)”,通过AIGC与HDR技术结合,实现超高动态范围成像。算法可在9档曝光差异的极端条件下修复图片细节,生成色彩鲜艳、细节丰富的高质量图像。解决了传统HDR技术在动态场景中的运动伪影问题。来源:上海人工智能实验室

    秘塔AI搜索上线“阅读模式”,PDF阅读体验全面升级

    秘塔AI搜索推出了全新的“阅读模式”功能。旨在解决PDF文档在移动设备上阅读不便的问题,支持复杂公式识别、智能渲染排版以及全文翻译,可轻松处理多列文字和图表混排的PDF文件。阅读模式支持多端同步,用户可在电脑端添加或上传PDF至书架,通过手机App查看。来源:AI秘塔

    1月20日·周一

    字节跳动推出全新AI IDE:Trae,基于Claude模型免费使用

    字节跳动正式发布全新AI编程IDE——Trae,对标Cursor!支持原生中文,集成Claude 3.5、GPT-4o等顶级AI模型,免费开放使用。具备智能代码生成与优化、AI驱动的Chat和Builder交互模式、便捷的项目预览与调试等功能。来源:AI工具集

    豆包实时语音大模型上线即开放!情商智商双高

    字节跳动旗下的豆包大模型团队宣布推出豆包实时语音大模型,在豆包APP全量开放。模型是语音理解和生成一体化的端到端语音系统,主要面向中文语境,支持英语对话但暂不支持多语种。在语音表现力、情绪承接和控制力方面表现出色,整体满意度高于GPT-4o。具备低时延、可随时打断等特性,支持实时联网回答时效性问题。来源:豆包大模型团队

    阶跃星辰语言模型上新:既有文学大师,又有性价比之王

    上海阶跃星辰推出Step系列语言模型的两位新成员:Step-2 mini和Step-2文学大师版。Step-2 mini是轻量级模型,仅用3%的参数量保留了Step-2模型80%以上的性能,生成速度快,性价比高。Step-2文学大师版则专注于创作,能生成富有深度和风格的文学作品,已在跃问App上线。来源:IT之家

    商汤「日日新融合大模型交互版」开放商用,限时免费

    商汤科技推出“日日新融合大模型交互版”(SenseNova-5o),正式对外开放实时音视频对话服务,限时免费使用。模型具备强大的实时交互、视觉识别、记忆思考和复杂推理能力,支持超长多模态交互记忆(不少于5分钟),交互延迟低至2秒以内。用户还可根据偏好设置交流风格和音色。来源:商汤科技SenseTime

    全球首个亿级参数量地震波大模型今年对外开放

    全球首个亿级参数量地震波大模型“谛听”在国家超级计算机成都中心发布第三阶段测试版本,已成功应用于西藏定日6.8级地震数据处理。模型由中国地震局地球物理研究所、国家超级计算成都中心和清华大学联合开发,可自动识别震前、震后事件并生成AI地震序列目录。来源:IT之家

    香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

    香港大学与快手科技联合推出GameFactory框架,旨在解决游戏视频生成中的场景泛化难题。框架基于在开放域视频数据上预训练的视频扩散模型,可生成多样化游戏场景。通过独特的三阶段训练策略,GameFactory突破了现有方法对特定游戏数据集的依赖,支持自回归动作控制,可生成无限长度的交互式游戏视频。来源:AI工具集

    如何识别AI生成图片?腾讯上线「鉴别工具」

    腾讯上线由腾讯混元安全团队朱雀实验室研发的朱雀大模型检测工具,旨在帮助用户识别AI生成的图像和AI生成文本检测系统。通过检测图片中的纹理、语义及隐层特征,快速判断图片是否由AI生成。系统使用140万份正负样本进行训练,涵盖多种场景,测试检出率超过95%。来源:腾讯

    晚点对话 MiniMax 闫俊杰:创业没有天选之子

    《晚点》对话MiniMax创始人闫俊杰,探讨AI创业与技术发展。闫俊杰认为,AI创业不应套用移动互联网逻辑,模型能力提升并非依赖用户规模,而是技术进化。MiniMax最新开源的MiniMax-01模型采用线性注意力机制,首次在大规模模型中实现高效处理400万token的长上下文,助力AI记忆与交互能力提升。来源:晚点对话LateTalk

    1月17日·周五

    智谱清言APP推出“2025克穷暴富”春节活动,赢现金红包庆新年

    智谱清言推出2025年春节活动,时间为1月17日至2月5日。用户可通过智谱清言APP参与多种互动活动赢取现金红包。活动包括AI生成视频金币爆爆爆、新春纪念照生成、视频通话互动以及AI帮助群发拜年短信等。用户上传照片可生成新春主题纪念照,与小智视频通话可获得拜年红包,AI助手AutoGLM可自动群发新年祝福。来源:智谱清言

    Luma AI推出Ray2视频生成模型,算力扩大10倍

    Luma AI推出最新视频生成模型Luma Ray2,基于新的多模态架构训练,计算能力是前代Ray1的10倍,能在10秒内根据文本提示生成高质量视频,最长时长从5秒延长至1分钟。生成视频动作生动流畅,未来还将推出图像转视频、视频转视频和编辑功能。来源:AI工具集

    马斯克 xAI 再放大招:网页版 Grok 上线,无需 X 账户

    埃隆·马斯克旗下xAI公司推出网页版Grok AI聊天机器人,无需X账户即可体验。访问grok.com,提供出生年份即可使用,能实时收集信息、获取答案、生成图像等。输入框下方菜单支持切换不同模式,更好控制响应。登录后可开启“临时模式”,聊天不记录不用于训练模型。来源:IT之家

    阿里再投具身智能,清华大学孵化的星动纪元完成最新一轮融资

    清华大学孵化的人形机器人企业北京星动纪元,近日完成最新一轮融资,新增阿里巴巴旗下公司等为股东,注册资本增至约1095.9万人民币。星动纪元专注于研发高智能通用人形机器人,产品已迭代至第六代——星动STAR 1,具备55个自由度,能在复杂环境中执行多种任务。来源:财联社

    1月16日·周四

    豆包电脑版和网页版全新上线AI编程新功能,帮你高效解决编程难题

    字节跳动豆包电脑版和网页版全新上线新功能AI编程,帮助用户解决编程难题。提供更便捷的导入流程,一键上传多个本地代码文件和实时引入GitHub开源仓库。通过全新的代码编辑器支持沉浸式阅读和精准圈选代码,随时解答疑问,帮助用户生成、解释、修复和优化代码。来源:AI工具集

    智谱Realtime、4V、Air新模型发布,上线bigmodel.cn

    智谱发布多款新模型,包括GLM-Realtime、GLM-4V-Plus和GLM-4-Air,这些模型在bigmodel.cn上线。GLM-Realtime模型支持低延迟视频理解和语音交互,具有清唱功能和长达2分钟的记忆能力。GLM-4-Air和GLM-4V-Plus模型提供高性价比的语言和视觉理解解决方案。来源:智谱

    阶跃星辰推理模型 Step R-mini 全量上线跃问网页版

    2025年1月16日,阶跃星辰推出自研推理模型Step Reasoner mini(简称“Step R-mini”)。模型上线跃问网页端,擅长规划、尝试和反思,通过慢思考和反复验证的逻辑机制,为用户提供准确可靠的回复。Step R-mini在数学、代码、逻辑推理等复杂问题解决上表现出色,同时兼顾文学创作等通用领域。来源:AI工具集

    腾讯会议全新升级,上线AI小助手Pro

    腾讯会议推出全新升级功能。用户可从组织通讯录直接拉人入会,日程自动呈现并多渠道提醒,确保参会人准时上会等。上线AI小助手Pro全程监听会议,可回答问题、提供方案建议,支持联网搜索与文件上传提问,提升会议效率。来源:腾讯会议

    1月15日·周三

    MiniMax-01开源:新架构开启Agent时代

    MiniMax于2025年1月15日宣布开源MiniMax-01系列模型,包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型参数量达4560亿,单次激活459亿,性能比肩GPT-4o,能高效处理长达400万token的上下文,是GPT-4o的32倍。来源:MiniMax 稀宇科技

    OpenAI 推出新功能「Tasks」ChatGPT 变身 AI 私人助理

    2025年1月15日,OpenAI推出ChatGPT的新功能「Tasks」,能根据用户的指示自动完成各种任务,包括一次性提醒和重复执行的动作。用户可以在ChatGPT的聊天界面中选择「4o与计划任务」模式,创建最多10个任务,通过网页、桌面和移动设备接收通知。该功能已向Plus、Pro和Teams用户开放Beta测试。来源:AI工具集

    科大讯飞发布星火深度推理模型X1,率先落地真实应用场景

    科大讯飞于2025年1月15日发布讯飞星火X1,国内首个基于全国产算力平台训练的深度推理大模型。模型解题方式接近人类“慢思考”,以较少算力达成业界领先效果,中文数学能力国内第一。已在教育、医疗领域落地,提升AI学习机精准度,助力教师助手部署,辅助医生诊断,推动行业发展。来源:AI工具集

    Kimi 多模态图片理解模型 API 发布,1M tokens 定价 12 元起

    2025年1月15日月之暗面发布全新多模态图片理解模型moonshot-v1-vision-preview,模型具备强大的图像识别和文字识别理解能力,能精准区分复杂图像细节,准确识别潦草手写内容及图表信息。价格根据选择的模型不同而有所区分。来源:AI工具集

    书生·浦语大模型升级,突破思维密度,4T数据训出高性能模型

    上海人工智能实验室宣布书生大模型升级至3.0版本,书生·浦语3.0(InternLM3)。版本通过精炼数据框架,仅用4T训练数据,使InternLM3-8B-Instruct综合性能超同量级开源模型,训练成本降低75%以上。书生·浦语3.0首次在通用模型中融合常规对话与深度思考能力,可应对更多真实场景。来源:上海人工智能实验室

    Vidu 2.0全新升级,更快、更强、更稳定

    Vidu 2.0正式上线,带来生成速度与画质的双重突破,10秒即可出片。效果升级,视频风格、主体更一致,首尾帧更自然。推出超值套餐,成本低至4分/秒。新增错峰模式,低峰时段不限量、不扣积分,保障创作不停歇。来源:Vidu AI

    1月14日·周二

    腾讯推出一站式3D内容生产AI创作平台:腾讯混元3D,用AI给游戏装上创作引擎

    腾讯旗下混元模型将《王者荣耀》游戏设计迁移到3D生成模型中,推出混元3D AI创作引擎。引擎为普通UGC和游戏等专业场景提供一站式3D内容生产的AI创作平台,支持文生3D和图生3D模式生成3D资产,结合3D风格化、渲染打光、骨骼绑定和动作驱动等编辑工具调整模型效果,支持多种输出格式。来源:AI工具集

    抖音创始成员任利锋的GenAI创意社区:Hitems,完成数千万美元Pre-A轮融资

    抖音早期产品负责人任利锋创立的“数美万物”公司旗下创意电商社区Hitems,近日完成数千万美元Pre-A轮融资,美团龙珠领投,锦秋基金跟投,红杉中国、IDG资本继续跟投,公司估值约1.5亿美元。Hitems是集创作者创意生成、生产、销售于一体的跨境电商平台,基于GenAI技术,可通过关键词、图片或手绘稿生成高保真物品图。来源:智能涌现

    加速AI和机器人融入生活空间,「一目科技」完成数亿元D轮融资

    “一目科技”近期完成数亿元D轮融资,由赛富投资基金领投,南京市创新投资集团、松霖科技跟投。公司专注于多模态感知+AI计算解决方案,产品已应用于智慧水务、智慧家居、生命科学等领域,并打入TCL、惠而浦等头部白电厂商供应链。在CES 2025上,一目科技的AI洗护机器人首秀亮相并获媒体好评。来源:智能涌现

    英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC

    英伟达推出名为Nemotron-CC的大型英文AI训练数据库,包含6.3万亿个Token,其中1.9万亿为合成数据。该数据库基于Common Crawl网站数据构建,经过严格处理形成高质量子集Nemotron-CC-HQ。与业界领先的DCLM数据库相比,使用Nemotron-CC-HQ训练的模型在MMLU基准测试中分数提高5.6分。来源:IT之家

    打造AI时代的超级应用平台,「环界云计算」获阿里云战略投资

    珠海环界云计算有限公司完成3750万元Pre-A融资,由阿里云独家投资。核心产品Sealos是基于kubernetes的云操作系统,聚焦已开发应用托管和新应用诞生,助力开发者和B端企业降低成本、提升效率。开源项目Sealos和FastGPT在社区受关注。来源:36氪

    1月13日·周一

    DeepSeek正式推出手机APP,苹果安卓都支持!

    2025年1月11日,DeepSeek正式推出Deepseek APP,支持iOS和安卓系统。此前,DeepSeek仅有网页端和API调用两种使用方式。此次推出的手机app功能与网页端一致,底层默认使用DeepSeek V3模型,开启深度搜索后调用DeepSeek-R1-Lite推理模型。来源:AI工具集

    百川智能落地宁波!注册资本 1.5 亿美元,与高新区共建产业基金

    2025年1月13日,百川智能创始人王小川与宁波高新区管委会签订合作协议,百川智能大模型项目落地宁波高新区。王小川表示将立足宁波特色,推进 AI 赋能千行万业。百川智能目前员工约280人,已完成A+轮融资,总融资额约50亿人民币,估值200亿人民币。来源:有新Newin

    阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用

    阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用。工具基于自研大模型,海量电商数据和设计经验,具备更懂商品展示手法、更强多语种语义遵循能力、合理物理动作规律、稳定元素保持等优势。用户输入静态图片或文本描述,即可一键生成高质量5秒视频。工具已对淘宝天猫商家开放。来源:AI工具集

    方大特钢与华为开展全面合作,打造钢铁行业大模型

    方大特钢与华为签署全面合作协议。双方将在企业数据治理体系与应用、钢铁行业大模型应用、信息安全、数字化人才培养等方面展开合作。方大特钢表示,此次合作有助于推动数字技术与钢铁主业深度融合,加快数字化转型,提升信息化应用水平和市场竞争力。来源:IT之家

    3D 生成大模型公司影眸科技完成数千万美元 A 轮融资,美团龙珠、字节跳动领投

    影眸科技完成数千万美元A轮融资,美团龙珠、字节跳动领投,红杉中国种子基金及奇绩创坛跟投。融资将用于推进3D大模型前沿探索及Hyper3D系列产品商业化。其3D生成大模型Rodin上线45天实现100万美金年经常性收入,已与Amazon等知名客户深度合作,获数百万元B端订单,覆盖多行业。来源:IT之家

    月之暗面海外产品负责人的AI Coding项目被投资人抢爆了,新一轮估值8000万美元

    前月之暗面海外产品Noisee创始人明超平发起的AI Coding项目“新言意码”已完成两轮融资,目前公司估值达8000万美元。该项目吸引了五源资本、高榕资本、真格基金、高瓴创投和IDG资本等多家顶级投资机构。新言意码定位为AI coding应用,瞄准类似美国智能代码生成产品Cursor的市场。来源:Z Finance

    京东健康发布业内首个医疗健康全场景应用大模型产品体系

    2025年1月11日,京东健康在年度医生盛典和数智医疗大会上发布了“AI京医”大模型产品体系及业内首个面向医院全场景应用的大模型产品“京东卓医”。“AI京医”包括AI诊疗助手2.0、AI科研助手和AI医生智能体等产品,旨在提升患者就医体验、医生临床科研效率和医院运营效能。来源:京东黑板报

    YY直播首个 AI 伴唱服务数字人“灵儿”发布,平均每天服务超100万用户

    YY直播近日发布首个AI伴播数字人“灵儿”,在12日YY 2024年度巅峰盛典上首次亮相。依托自研技术,“灵儿”已覆盖6000多个直播间,平均每天服务超100万用户,目前处于公测阶段。上线半年来,互动、发言量提升超30%,部分直播间互动设备数增长670%,付费用户数增长80%。来源:钛媒体AGI

    中文互联网语料 AI 资源平台发布:27 个数据集、总量 2.7T

    中国网络空间安全协会发布中文互联网语料资源平台,含27个数据集、总量2.7T。该平台在中央网信办指导下,由协会与国家互联网应急中心等共建,经严格数据处理后,推出中文互联网基础语料2.0,规模120GB,数据3800万条。来源:IT之家

    1月10日·周五

    通义万相2.1模型能力重磅升级,轻松实现文生组图

    阿里通义万相2.1模型重磅升级,视频生成能力显著增强。通过自研的高效 VAE 和 DiT 架构,首次实现了中文文字视频生成功能,支持无限长 1080P 视频的高效编解码。在 VBench 视频生成模型评测体系中荣登榜首。还支持文生组图,采用 IC-LoRA 图像生成训练方法,增强文本到图像的上下文能力,轻松实现关联图像间的组合生成。来源:通义

    海螺AI推出全新 S2V-01 主体参考模型,AI视频创作再上新台阶

    海螺AI推出全新S2V-01主体参考模型,支持用户通过上传一张参考图片,生成与原图高度一致的角色视频。显著提升AI视频创作的效率和质量,使得每一帧画面都能完美还原参考形象。只需简单三步:上传图片、选择模型、生成视频,即可体验。来源:AI工具集

    商汤推出“日日新”融合大模型,勇夺“双冠王”

    2025年1月10日,商汤科技推出“日日新”融合大模型,实现原生融合模态,深度推理与多模态信息处理能力大幅提升。模型在SuperCLUE《中文大模型基准测评2024年度报告》与OpenCompass多模态评测中均获第一,成“双冠王”。来源:商汤科技SenseTime

    雷蛇推出“AI 游戏伴侣”Project AVA:支持实时指导 + 赛后复盘

    在 CES 2025 上,雷蛇发布全新概念产品 Project AVA, AI游戏伴侣,旨在提升玩家的游戏水平。Project AVA 在训练过程中汲取顶尖电竞职业玩家和教练的游戏理解,能为 MOBA 和 FPS 类型游戏提供实时指导,并在赛后给出个性化总结分析,指出操作高光和需改进之处。Project AVA 还能对电脑硬件进行性能调优,提升帧数和优化画面效果。来源:AI工具集

    国家网信办:截至 2024 年末共 302 款生成式人工智能服务完成备案

    截至2024年12月31日,国家网信办共完成302款生成式人工智能服务的备案,其中2024年新增238款。2024年还有105款通过API接口或其他方式直接调用已备案模型能力的生成式人工智能应用或功能在地方网信办完成登记。这些备案和登记工作旨在促进生成式人工智能服务的创新发展和规范应用。来源:IT之家

    开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕 / 翻译功能

    开源媒体播放器 VLC 在 CES 2025 上庆祝累计下载次数突破 60 亿次。VideoLAN 总裁 Jean-Baptiste Kempf 表示,尽管流媒体服务盛行,VLC 的活跃用户数量仍在增长。VideoLAN 在 CES 现场预览了 VLC 即将推出的新功能:基于本地开源 AI 模型的离线字幕生成和翻译功能。功能现已支持多种语言,包括法语、德语、日语和希伯来文。来源:IT之家

    1月9日·周四

    巨量引擎旗下创意生产平台 AIGC工具“即创”正式版上线

    巨量引擎旗下创意生产平台 AIGC工具“即创”正式版已上线,具备AI脚本生成、智能成片、数字人、商品卡等多体裁内容生成能力,新增“爆款裂变”“一键过审”等功能。来源:AI工具集

    官宣!通义灵码 AI 程序员全面上线,仅需10分钟完成整个开发过程

    阿里云和通义实验室联合推出的通义灵码AI程序员全面上线,成为全球首个同时支持VS Code和JetBrains IDEs的AI编程工具。通义灵码具备代码智能生成、研发问答等功能,通过对话协作方式,能够高效完成业务开发、问题修复和单元测试等任务。累计生成代码达15亿行。来源:通义灵码

    微软开源 140 亿参数小语言 AI 模型 Phi-4,性能比肩 GPT-4o Mini

    微软2025年1月8日在Hugging Face平台开源了小语言AI模型Phi-4,其参数量为140亿。Phi-4在多个基准测试中表现优异,超越了参数量更大的Llama 3.3 70B和OpenAI的GPT-4o Mini。出色性能主要得益于高质量数据集的训练。来源:IT之家

    CES 2025首日观察:AI硬件不再画饼,中国厂商大杀四方

    CES 2025首日,AI硬件成为焦点,中国厂商表现亮眼。涂鸦智能展示AI与IoT深度融合的创新应用,如智慧能源管理、AI灯光创作等,AR/AI眼镜大热,雷神、Rokid等厂商推出多款新品,电视领域,海信、TCL、长虹等国产厂商凭借RGB三维控色、Mini LED技术等突破。智能清洁设备也迎来创新,追觅、MOVA、云鲸等品牌带来机械臂、履带式拖布等新技术。来源:36氪

    晚点对话李开复丨零一万物部分团队并入阿里,“灵魂拷问来得太快了”

    零一万物CEO李开复在晚点对话中透露,公司与阿里云成立产业大模型联合实验室,部分团队将加入该实验室。零一万物将不再追求训练超级大模型,转而专注于训练更快、更便宜的模型,并基于此打造可盈利的应用。来源:晚点LatePost

    联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

    联通数据智能宣布开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”。模型通过在SDXL架构中融合复合语言编码模块,实现了对中文长文本和特色词汇的精确语义理解,提升图像生成效果。元景模型替换了英文CLIP模型,增强了中文短文本输入的理解能力,支持长文本输入。来源:AI工具集

    智元机器人推出首个机器人4D世界模型

    智元机器人团队推出了首个机器人4D世界模型EnerVerse,通过自回归扩散模型结合稀疏记忆机制和自由锚定视角(FAV),在生成未来具身空间的同时,显著提升了机器人动作规划能力。EnerVerse在复杂任务中表现出卓越的未来空间生成能力和动作规划性能,解决了模态对齐和数据稀缺等挑战。来源:智元机器人

    1月8日·周三

    英伟达推出生成式世界基础模型平台 Cosmos 构建高保真物理模拟世界

    英伟达推出了生成式世界基础模型平台Cosmos,旨在加速自动驾驶和机器人领域的发展。Cosmos能根据文本、图像或视频生成高度仿真的虚拟世界状态,为AI应用提供独特的视频输出。平台集成了生成式模型、高级标记器和加速视频处理管道,帮助开发者生成大量基于物理的合成数据,减少对真实世界数据的依赖。来源:AI工具集

    可灵AI V1.6模型现已开放API,生成质量更稳定

    北京快手宣布,自研的视觉生成大模型可灵AI V1.6已开放API。新版本在生成质量、内容效果等方面有显著提升,尤其在广告视频素材生成方面表现出色,能更好地响应运动、时序类动作和运镜等文字描述,提高素材生成成功率。来源:可灵AI

    HeyGen推全新数字人技术,与 Sora 实现集成

    HeyGen近日宣布推出全新数字人技术,并与Sora实现集成。此次合作产生的虚拟形象视频在许多情况下表现优于真人演员,且没有长度限制。HeyGen的虚拟形象完全由人工智能生成,非基于真实人物模型,具有更强的可塑性和创造性,可满足不同视频需求。来源:品玩

    Anthropic正以600亿美元估值筹集20亿美元,将成为第五大最有价值的美国初创公司

    Anthropic 正在与 Lightspeed Venture Partners 谈判,计划以 600 亿美元的估值筹集 20 亿美元。这轮融资将使 Anthropic 的估值达到 600 亿美元,成为继 SpaceX、OpenAI、Stripe 和 Databricks 之后第五大最有价值的美国初创公司。来源:有新Newin

    科大讯飞2025年「首场发布会」,打造每个人的办公新范式

    科大讯飞于2025年1月7日在北京中关村国际会议中心举办办公智能体产品升级发布会,推出多款升级产品。此次升级围绕智慧办公新范式,首次联合发布“知识中台、AI搜索、星火人设、虚拟数字人星辰MaaS与多模交互”六大通用能力,旨在为每个人打造量身定制的AI助手。来源:讯飞开放平台

    阅文旗下AI男友应用筑梦岛获千万美元融资,开启独立运营

    阅文集团旗下的“筑梦岛”已开启独立运营,完成新一轮融资,金额超1,000万美元,由商汤国香基金、阅文集团等战略投资方共同投资。筑梦岛定位为“新一代AI虚拟互动娱乐平台”,用户可创造并互动“梦中人”,通过多模态互动建立情感连接。目前,筑梦岛App拥有近五百万注册用户,其中近80%为年轻女性用户,人均日对话轮次超120轮。来源:36氪

    年终复盘 2024 AI搜索江湖,三大门派围攻光明顶

    2024年,AI搜索赛道竞争激烈,互联网巨头、内容平台和AI创业公司纷纷入局。腾讯、百度、字节跳动等推出多款AI搜索产品,如搜狗输入法的AI搜索、360的纳米搜索、字节跳动的豆包电脑版等,覆盖学习、办公、电商等多个场景。AI搜索产品形态不断进化,多模态大模型的应用使其具备更强大的搜索和创作能力。来源:钛媒体

    用AI大模型重塑服装设计制版,「深服科技」获数千万元Pre-A轮融资

    浙江深服人工智能近日完成数千万元Pre-A轮融资,由上海厚毅资本领投。资金将用于模型开发、技术人才引进和市场拓展。深服科技成立于2023年,专注于为服装行业提供AI解决方案,通过AI大模型技术解决设计和制版难题,降低研发成本。产品“画衣衣AI制版”即将发布,可让设计师自主生成CAD制版图。来源:36氪

    1月7日·周二

    英伟达发布新一代消费级显卡RTX50系列,售价为549美元起

    在2025年1月7日的 CES 展会上,英伟达 CEO 黄仁勋发布了 RTX 5090 显卡。显卡采用 Blackwell 架构,拥有 920 亿晶体管,AI 性能达 3352 TOPS,显存为 32 GB GDDR7,功耗为 575W。能通过 AI 提升帧率和图像质量。英伟达还推出了 Cosmos 世界模型平台,旨在推动物理 AI 的发展。来源:机器之心

    中国信通院发布 MaaS 六大标准,解决 AI 模型落地“最后一公里”难题

    中国信通院于2025年1月6日发布MaaS(模型即服务)系列标准,旨在解决大模型落地应用中的质量问题和选型难题。系列标准涵盖模型服务协议、评估方法、平台能力、模型管理及应用开发等方面,为大模型服务商和平台供应商提供能力建设参考,助力MaaS行业健康发展。来源:IT之家

    腾讯研究院发布《AI图景解码50关键词》浓缩AI领域的基本图景和趋势

    腾讯研究院发布《AI图景解码50关键词》,将2024年AI领域的关键信息和趋势浓缩为50个关键词。研究团队基于大量数据和专题研究,筛选出涵盖基础模型、图像处理、视频生成等八大方向的关键词,通过AI生成卡片进行可视化表达。帮助普通人快速了解AI领域的基本图景和未来趋势。来源:AI工具集

    传音控股与阿里云达成合作,通义千问大模型搭载于前者旗下 AI 手机

    传音控股与阿里云达成合作,将通义千问大模型搭载于旗下 TECNO 品牌的 AI 手机 PHANTOM V Fold2 中。手机通过特定的 AI 按键,用户可以在离线环境中流畅运行多轮 AI 对话,实现文档及通话摘要等功能。来源:IT之家

    1月6日·周一

    罗永浩 Jarvis 初创项目“J1 Assistant 助理”上线,支持语音与大模型互动

    罗永浩旗下的AI初创项目Jarvis在海外上线 J1 Assistant AI智能助手,目前仅提供安卓版本,官网对国内IP进行了限制。J1 Assistant 的特色在于音频输入功能,用户可以通过语音输入,将语音消息发送至谷歌搜索引擎、自家AI模型或ChatGPT进行查询,还可以用于创建备忘录。来源:AI工具集

    「天工大模型4.0」o1版和4o版正式上线天工APP和网页,免费使用

    昆仑万维集团宣布,「天工大模型4.0」o1版和4o版于2025年1月6日正式上线天工网页和APP,供用户免费使用。o1版专注于中文逻辑推理,具备强大的数学、代码、逻辑、常识和伦理决策能力,通过多智能体体系和强化学习等技术提升推理性能。4o版为多模态模型,语音对话助手Skyo具有情感表达和多语言切换能力,提供流畅的实时对话体验。来源:昆仑万维集团

    微软计划本财年砸下 800 亿美元,建设符合 AI 工作需求的数据中心

    微软计划在2025财年投资800亿美元建设支持人工智能运算的数据中心,其中超过一半的资金将投向美国市场。微软副董事长布拉德·史密斯表示,美国在全球AI竞赛中处于领先地位,得益于私人资本投入和技术创新。微软已向OpenAI投资超过130亿美元,将其AI模型整合到Windows、Teams等产品中。来源:IT之家

    马斯克称 Grok 3 即将推出:已完成预训练,计算量比 Grok 2 高十倍

    马斯克宣布 Grok 3 即将推出,预训练已完成,计算量比 Grok 2 高出十倍。去年 7 月,Grok 3 使用了 10 万块英伟达 H100 芯片进行训练,但未能如期发布。去年 12 月,xAI 向所有 𝕏 平台用户免费推出了 Grok-2 模型,Premium 用户将优先访问新功能。来源:IT之家

    阿里通义千问 Qwen 推 CodeElo 基准,OpenAI o1-mini 夺冠超 90% 人类程序员

    阿里通义千问 Qwen 推出了 CodeElo 基准测试,利用 Elo 评级系统评估大语言模型(LLM)的编程能力。CodeElo 通过 CodeForces 平台的题目进行测试,确保评估的准确性和全面性。在测试中,OpenAI 的 o1-mini 模型表现最佳,Elo 评分为 1578,超过了 90% 的人类程序员。来源:AI工具集

    上海发布“天工人工智能工业平台”和“工业语料库 1.0 版”

    上海市在“人工智能+”行动推进大会上发布了“天工人工智能工业平台”和“工业语料库 1.0 版”。天工平台采用开放架构,兼容主流大模型,提供从底层算力到顶层应用的全面支持,旨在降低工业企业使用 AI 的门槛,提高应用开发效率,助力企业智能化转型。工业语料库则为企业提供精准的决策支持和解决方案。来源:IT之家

    谷歌 DeepMind 推 CAT4D:普通视频变 3D 大片,单视角视频也能转换多视角了

    谷歌 DeepMind 联合哥伦比亚大学和加州大学圣地亚哥分校开发了 CAT4D AI 系统,能够将普通视频转化为动态 3D 场景。系统基于扩散模型,将单视角视频转换为多视角视图,用户可以从不同角度观看视频中的主体。来源:AI工具集

    1月3日·周五

    阿里入局 AI 眼镜:与雷鸟达成战略合作,产品将接入通义大模型

    雷鸟创新与阿里云达成AI眼镜领域的独家战略合作,阿里云通义大模型将为雷鸟AI眼镜提供技术支持。是国内首次大模型与AI眼镜硬件厂商深度定制合作。双方将共同投入研发资源,围绕云计算、大模型、AI硬件等领域合作。雷鸟计划于1月7日发布雷鸟V3 AI拍摄眼镜。来源:IT之家

    微软发布新模型 LAM ,可以自己操作Windows程序

    微软推出 LAM(Large Action Model)“大型动作模型” ,能够独立操作Windows程序,将用户请求转化为实际行动。是首个专门训练与微软Office产品一起工作的模型。在Word测试中,LAM的成功率达到71%,速度超过GPT-4o。来源:AI工具集

    1月2日·周四

    百度增设搜索产品:上线“AI 搜”,通过 @与不同智能体交互

    百度近日上线“AI 搜”,基于百度文心大模型的桌面端AI搜索引擎。整合了百度搜索引擎、健康、律临、文库、教育等内容生态,提供话题探索、问题解决等功能。用户可通过@方式与不同智能体交互。来源:AI工具集

    阿里前端第一人AI创业首秀,要做全球内容创作者的GitHub!5k人排队内测

    前阿里前端技术专家玉伯,离开蚂蚁集团后创办AI公司思维天空,推出AI工具YouMind,旨在服务全球创作者。YouMind 集成多模态内容,提供网页总结、翻译、ChatBot对话等功能,支持用户将内容分类收藏。目前处于内测阶段,已有近5000人申请,公司估值过亿。来源:量子位

    智象未来多模态大模型3.0全球首发

    智象未来发布智象多模态生成大模型3.0和智象多模态理解大模型1.0,旨在提升视觉多模态基础模型服务,激发创造力。创始人梅涛院士强调了AI技术在推动科学发展和具身智能方面的重要性,提出了大模型通往AGI的两条路径。来源:HiDream智象未来

    阿里云与零一万物达成战略合作,成立“产业大模型联合实验室”

    阿里云与零一万物达成战略合作,共建“产业大模型联合实验室”,旨在加速大模型技术应用落地和产业生态整合。双方将结合研发实力,通过阿里云百炼大模型平台提供服务。进一步深化双方在AI大模型领域的合作。来源:IT之家

    英伟达新一代显卡领衔,一波AIPC芯片产品有望亮相CES展

    英伟达CEO黄仁勋将在CES 2025发表开幕演讲,可能发布新一代GeForce RTX50系列显卡。英特尔和AMD也预计在会上发布AIPC相关产品,推动AI芯片技术迭代。行业已进入用户体验探索阶段,AIPC芯片具备自然语言交互等特点,有望快速渗透PC市场,带动产业链升级。来源:财联社

    谷歌前CEO施密特预测:AI 将在今年获得“永久记忆”,2028 美国会耗尽能源储备

    谷歌前CEO埃里克·施密特预测,2025年AI将实现三大突破:获得“永久记忆”、智能体从对话到行动的飞跃、文本到行动的编程革命。他强调AI变革将“一切,无处不在,同时发生”,警告美国可能在2028年耗尽能源储备,因数据中心耗电量巨大。来源:36Kr

  • 《2025年中国AI类App流量分析报告》(PDF文件)

    《2025年中国AI类App流量分析报告》,深入剖析中国AI类App的市场现状与发展趋势。报告指出,AI行业技术尚未收敛,技术突破是企业获取市场优势的关键。以DeepSeek为例,其用户设备数和使用次数在短时间内大幅增长,凸显技术能力对市场抢占的重要性。同时,报告基于用户使用行为分析,将用户分为高、中、低三个质量层次,发现AI深度用户占整体AI用户的30%。报告评估了AI类App的用户治理能力,包括核心忠实用户占比和不稳定客群占比,反映各App在用户运维方面的能力差异。在用户属性方面,报告分析年龄、性别、手机品牌和地区等因素,指出本轮AI普及呈现全年龄段、性别平衡的特点,且江苏与河北两省的AI新客用户占比显著高于其他省份。这份报告为AI行业从业者提供宝贵的市场洞察和决策支持,有助于企业更好地把握技术发展趋势和用户需求。

    日心说-2025年中国AI类App流量分析报告

    获取《2025年中国AI类App流量分析报告》PDF原文件,扫码关注回复: 20250629

    观点论述:技术尚未收敛

    技术尚未收敛(一):DeepSeek的爆发,证明技术能力依旧是AI领域的核心竞争力。

    DeepSeek和豆包的月用户设备数在短时间内快速增长,说明人工智能行业技术尚未收敛,技术能力跃升能迅速吸引用户关注与使用,抢占市场份额,凸显了技术跃升对市场抢占的关键作用。

    ai-column-2025063001

    技术尚未收敛(二):在看不到技术天花板的情况下,亦无法断言没有其他技术突破的路径。

    DeepSeek和豆包的月总使用次数涨幅惊人,但技术天花板尚不可见,存在风险,企业研发过程中面临诸多不确定性,即使某一技术路线暂时抢占市场,也可能被其他创新路径颠覆。

    ai-column-2025063001

    指标说明:为更好的分析,我们根据用户使用AI的天数将用户品质分成三个级别。

    ai-column-2025063001-

    AI用户总览:三七定律:深度用户占总用户的比接近30%,所有公司均受益于AI市场热度的提升。

    定义AI深度用户,并分析不同App的AI深度用户占比情况,发现当以2000万用户设备为界时,大于2000万的App中AI深度用户占比普遍不到30%,而小于2000万的App中该比值则高于30%,显示出流量对AI类App用户群的影响。

    ai-column-2025063001

    用户治理能力:核心忠实用户占比:此指标越高,证明他的用户对他更加青睐。

    介绍核心忠实用户的定义和计算方法,分析2025年2-3月中国人工智能类App核心忠实用户占深度用户的比重,反映各App在深度AI玩家中的认可性或青睐程度,体现除流量指标以外的市场地位。

    ai-column-2025063001-

    用户治理能力:不稳定客群占比:此指标越低,且能持续降低,说明客户运维能力更强。

    阐述不稳定深度用户的定义和计算方法,分析2025年2-3月中国人工智能类App不稳定深度用户占深度用户的比重,指出指标越低且能持续降低,说明App的客户运维能力更强,反映各App在用户运维方面的能力差异。

    ai-column-2025063001

    AI素人:本轮AI的启蒙作用:此指为时点性指标,反应每一轮新的市场趋势,各App吸引客户的能力。

    定义纯试水新客,并分析2025年2-3月中国人工智能类App纯试水新客占比情况,指出本轮AI热潮对人工智能在中国的启蒙和推广具有重要意义,同时也体现各App吸引客户的能力以及用户运维能力的重要性。

    ai-column-2025063001-

    AI启蒙:一个爆款App能有多大贡献:DeepSeek的技术突破,对中国AI产业发展功不可没。

    以DeepSeek为例,分析其技术突破对中国AI产业发展的贡献,基于纯试水新客在不同App间的分流情况,展示DeepSeek对用户使用行为的影响以及其在AI启蒙方面的作用。

    ai-column-2025063001-

    AI启蒙:类似的情况也发生在其他App上:在技术尚未收敛的前提下,技术突破可以粉碎竞品的商业化努力。

    进一步分析技术突破对竞品商业化努力的冲击,以豆包、腾讯元宝等App为例,说明技术尚未收敛的前提下,技术突破可以粉碎竞品的商业化努力,验证技术能力对人工智能产业格局的颠覆性作用。

    ai-column-2025063001

    其余影响:用户属性的对比

    年龄:本轮AI普及是现象级事件:AI不再只是年轻人的专利,技术突破使全年龄段主动触及人工智能。

    分析不同年龄段用户在AI类App中的占比情况,指出本轮AI普及使AI更加渗透进全社会全年龄段,对行业发展是利好,同时也提到年轻群体在新客中的占比显著下降。

    ai-column-2025063001-

    性别:DeepSeek尚有空间的间接证据:DeepSeek的新流量用户性别属性呈现出微弱加剧不平衡的状态。

    探讨DeepSeek新流量用户性别属性呈现出微弱加剧不平衡的状态,与其他App新客性别平均化不同,推测可能是由于其对更关注科技的男性吸引力更大,但这也只是弱相关证据,暗示DeepSeek在用户吸引方面可能还有上升空间。

    ai-column-2025063001

    手机品牌:差异较大:各平台存在较大的差异性,直观感受上小米用户AI类App使用行为更高。

    分析不同手机品牌用户在AI类App中的占比情况,发现小米用户在DeepSeek、元宝和Kimi三款App上表现出核心客群占比较大,而新客占比减少较明显的态势;豆包则是苹果手机用户的变化最为明显,推测小米用户对AI类App的使用行为更高。

    ai-column-2025063001-

    地区:江苏与河北是值得关注的地区:江苏与河北两地核心新客占比显著高于核心客群。

    对比用户组筛选,发现江苏与河北两地的核心新客占比显著高于核心客群,且江苏在多个App中占差值最大的省份。分析江苏用户对AI类App的态度呈现出“实用导向为主,场景驱动显著”的特征,以及政策支持与产业转型需求对AI技术普及的加速作用。

    ai-column-2025063001

    获取《2025年中国AI类App流量分析报告》PDF原文件,扫码关注回复: 20250629

  • Ilya 最新演讲解读:学习,是AI时代最后的掌握权

    “AI最终将拥有无法预测的能力,而我们还没有准备好”——Ilya Sutskever

    这几天,OpenAI联合创始人、前首席科学家 Ilya Sutskever 的一段演讲引发了热议。

    这是他在接受开放大学荣誉学位时的发言,Sutskever讲述自己从俄罗斯到以色列、再到加拿大的成为AI领域顶尖研究者的传奇故事。

    有人说这是一次回顾,也有人说像是一次坦率的自白。但更准确地说,它是一场关于“学习”能力的深思——那是他人生的起点,也可能是AI未来的方向。

     

    01. 自学改变了他的一生

     

    Sutskever出生在俄罗斯,五岁时随父母移民到以色列。

    他是那种典型的好学生,一个偶然的机会,他父母偶然发现了开放大学,于是从八年级起,他开始自学开放大学的课程。

    那时他第一次拥有了“可以理解一切”的信心:只要慢慢读,就一定能理解。

    后来,他们全家又搬去多伦多,他没有选择重新上高中,而是跑去公共图书馆找机器学习的书。

    那年是2002年,那时候的机器学习,基本还是学术圈的冷门,主流还是专家系统,图像识别也刚起步。可他不是跟着风口走,他是顺着自己的疑问去找答案。

    他说自己想搞清楚一个问题:计算机会学习吗?学习这件事,可能吗?

    这个问题,成了他人生的主线。

    之后,他因缘际会加入多伦多大学,成为Geoffrey Hinton的学生,和团队一起做出了AlexNet,拉开了深度学习的序幕。

    他和团队被Google收购,加入Google Brain。再后来,他和几位朋友一起,在湾区创办了我们熟知的OpenAI。

    从图书馆翻书的少年,到构建全球最强AI模型的研究者,他其实一直在围绕那个问题打转:什么叫真正的学习?理解力是怎么形成的?机器有没有可能走出这一步?

     

    02. AI学习的终点

     

    演讲中段,他谈到AI的未来。所有人都期待他讲讲ChatGPT之后的技术图景,他却说,我们还没有准备好。

    他不是站在舞台上做预测,而是在几十年研究之后,向人类提出一个问题——

    我们理解AI了吗?它在理解我们吗?

    如果AI有一天能做医学研究——能治病,甚至延长生命,那是好事。但问题也在这:如果AI能做到这些,那它还能做什么?

    AI学会了学习,接下来就可能是它自己创造更聪明的AI。

    那一刻,我们该怎么办?

    没有答案。Ilya也没有。他只是说,我们要准备好。虽然现在没有明确的方法。

    这话从他口中说出来,是另一种重量。他不像Altman那样“CEO式”地思考未来,也不是马斯克式的警世钟。他更像一位研究员,一直在问自己,问机器,问世界,“学习”这件事究竟能走到哪一步。

     

    03. Ilya的闭环时刻

     

    这场演讲最后,他说,在很长的一段时间里,开放大学代表了他对学习的全部信仰。

    不是一纸学位,而是一种象征。那是他第一次明白,只要愿意学,就真的可以走到很远。

    那个靠教材自学、靠图书馆寻找机器学习入门书的少年,如今站在世界AI产业的中心,他说这是一种圆满的闭环。

    他没有用“感恩”之类的词,而是用了“信仰”。他信的不是教育制度,是学习本身。

     

    04. 一些分享

     

    看完这个演讲,我心里一直有种很奇怪的感觉。

    现在的AI行业很热,模型一天比一天大,产品更新一周一波。但真正走在最前面,像Ilya这样的人,说的不是更快更强,而是“我们还不知道”

    他说得不快,也不煽情,但每一句话都像是在知识尽头处发出来的回声。

    不是在控诉,也不是在兜售未来感。他只是提醒我们,AI不会等我们准备好再进化。它在学,我们也得继续学。不能只靠围观、用法、调参。

    AI未来到底能不能控制、能不能对齐,现在没人能确定。但有一件事可以肯定:

    人类如果放弃学习,就真的理解不了它了。

     

    以下是发言全部内容:

    我出生在俄罗斯,我的父母在我五岁的时候移民到以色列。我开始上学,我是一个好学生,我的父母希望我能在一个更好的环境里学习。有一天,我们偶然发现了开放大学,于是我从八年级开始上他们的课。这是最好的体验。

    顺便说一下,我拿到了我的课本,开放大学的教材写得非常清楚,我刚到那些书就开始读,我理解得很清楚。读到某个程度,我还记得那一刻,我感到自己前后判若两人。我变得有信心,只要慢慢读,我就一定能理解。所以这对我帮助非常大。另外,你知道的,我学习了数学和计算机科学。我打下了很扎实的基础。

    后来我的父母搬到了多伦多,我做的第一件事就是去多伦多公共图书馆尝试寻找一本关于机器学习的书,与其重新上一次高中,我选择尝试转学到多伦多大学。很幸运的是杰夫·辛顿也在多伦多。这就是应该去的地方,当时世界上最具前瞻性的AI思想都在这里。于是我成功地作为转学生加入多伦多大学。

    2002年时,电脑已经可以玩一点电子游戏,他们可以下棋和跳棋,但仅限于此。我记得曾经想过,一台很强的电脑可以下棋没问题,但它是怎么学习的呢?学习本身到底有没有可能?计算机会学习吗?

    我觉得如果如果能解答“如何学习”这个问题,那么其他一切都会随之而来。我们在研究生阶段写了Alex论文,一些公司因此表示想要收购我们的公司,但那时候我们根本还没有公司,所以我们需要创建一家公司,最终谷歌收购了我们。因此,我加入了谷歌。大型神经网络可以做任何事情的想法,在我们在谷歌的研究中又被进一步证实了。之后,我有了参与创办OpenAI的机会。我当时在海湾地区。心里想,在这里不尝试一次真正的创业机会怎么行呢?而且是和这么多杰出的人一起,于是我决定去做这件事。我们继续在OpenAI工作。

    深度学习是一个很大的理念,有很多人为此做出了贡献。我很高兴我也能有所贡献。

    但是说到AI,未来却并不那么简单。AI很激动人心,因为它很强大,对吧?你有了能力就能做各种事情。那么,当AI变得足够强大,你能想象AI会做什么样的事情?如果AI变得足够有能力,我们将拥有令人难以置信的医疗技术,如果AI能进行医学研究,那将是惊人的。我们可以做更多的事情,可以治愈很多疾病,甚至延长生命。我认为这些真的是很棒的事情,但如果AI能做到这一点,它还能做什么?最终的答案是:它什么都能做,即不可预测又难以想象。

    我们该如何应对?我们必须做好准备,但目还没有明确的办法。最终,AI的力量将是巨大的。AI能创造下一代AI,这就是所谓的智能爆炸。天呐,那时候我们该怎么办?AI的问题在于它的影响太大,太强大了,它能解决一切问题,它也可以做任何事情,而所有这些问题,现在都没有答案。

    现在,我想对开放大学授予我这个荣誉学位表示最深切的感谢,我觉得这很有意义,因为在相当长的一段时间里,开放大学对我来说代表了整个学术界和所有对学习的兴趣。这就像一个圆满的闭环,以一种非常有意义的方式。

    原文链接:Ilya 最新演讲解读:学习,是AI时代最后的掌握权

  • 首个投资交易 Agent Bobby 上线,第一时间访谈 Vakee

    不要低估你在生活中看到的每一件事。

    如果有一位“24小时在线的投资伙伴”,只需自然语言对话,就能帮你实时分析市场动态、根据生活灵感和工作认知生成个性化AI投资组合、一键完成股票/期权交易,甚至在你焦虑时给出理性策略——这样的 AI Agent,会如何重新定义“投资参与世界”的方式?

    我们邀请新加坡金融科技公司 RockFlow创始人兼 CEO Vakee Lai,聊一聊她刚上线的金融交易 AI Agent——Bobby。这不仅是一款产品的诞生,更是“让投资更简单”使命的具象落地:从 9 岁开始炒股,到百度凤巢产研、AI 早期投资人,再到“用 AI 重塑投资体验”的创业者,Vakee 的每一步都在回答:如何让普通人用最自然的方式,把生活认知转化为投资行动?

    我们将从三个维度展开:

    1)Bobby的“不简单”故事:为什么 RockFlow 用两年时间打磨这款 Agent?它如何解决用户“投资意识门槛高”和“工具操作复杂”的痛点?英国用户用 Bobby 盯盘买入 circle 股票翻倍等真实案例,如何验证“AI 原生投资体验”的价值?

    2)Vakee的“投资世界观”:从凤巢广告变现的认知优势到15年英伟达投资的“认知回报放大”,她如何用“赚认知内的钱”理念穿越一二级市场?作为科技圈少见的女性 CEO,她如何平衡创业挑战与“让投资飞入寻常百姓家”的使命?

    3)未来投资的“摇滚精神”:为什么说“去掉所有 GUI,只保留 Bobby”不是激进而是必然?当 00 后用投资表达态度、用交易传递观点,RockFlow 如何通过 AI Agent 打造“生活化的投资乐园”?

    最后,Vakee将结合小红书爆文《普通人如何在身边发现下一个风口》,分享她从生活和工作中捕捉投资机会的独家视角——或许下一个“认知变现”的起点,就藏在你的日常里。

     

    👦🏻 Koji

    本周的十字路口,我们邀请到了 Vakee, Vakee 是 RockFlow 的创始人和 CEO,RockFlow 最近也推出了他们自己的 AI Agent 的产品,叫做 Bobby。

    我们今天希望 Vakee 和我们聊一聊她自己从 9 岁就开始投资的故事,一开始是一个少年投资者,然后做一级市场、二级市场,然后现在她的创业公司 RockFlow 是要帮助更多的年轻人也享受到投资的乐趣,也得到投资的收益。

    Vakee 其实也上过十字路口的播客,差不多就在一年之前,但是在那个时候和我们聊的不是 RockFlow 这款产品,和我们聊的内容的标题叫做《我的投资人朋友们真的都在清仓英伟达吗?》

    当时我们聊了英伟达的股票值不值得买,我记得 Vakee 在那个时候是坚定地让大家持续地建仓,对吧?如果当时听了 Vakee 的建议,现在应该已经获得了还不错的回报吧。

    那请 Vakee 再和大家打个招呼,然后也简单介绍一下自己,介绍一下 RockFlow 和你们最新的 AI Agent Bobby。

     👩🏻 Vakee

    好,大家好,很高兴又来到十字路口。

    我是 RockFlow 创始人Vakee,今天是带着我们的这个新的 AI Agent 产品 Bobby 过来,然后也希望跟大家分享更多 RockFlow 的故事和 Bobby 的诞生故事。

     

    交易Agent是什么,怎么用

     

    👦🏻 Koji

    请介绍一下 Bobby 是什么?因为 Bobby 感觉是最近你们的一个重头戏,也是积蓄了很多的力量推出的一款 AI Agent 产品。

     👩🏻 Vakee

    Bobby 是首个在金融交易领域的 AI Agent。

    简单来讲就是你的 7 × 24 小时的投资伙伴,最大的特点就是可以完成你整个投资闭环,从每天的灵感发现到投资的分析研究,到生成交易策略,到订单执行,甚至包括执行完以后你的持仓管理,它会就像你拥有一个属于自己的对冲基金团队一样。

    有交易员,有分析师,有风险管理团队,能够帮助你更好地在投资这个事情中实现你的想法。

    这是一个特别垂直的领域,很难做,但是我们还是把这样一个可以闭环的产品给实现了。

    👦🏻 Koji

    它和之前的 RockFlow App 最大的区别是什么?

    👩🏻 Vakee

    之前的 RockFlow,其实还是App 的形态,我们希望它足够简单,能够让大家非常方便地去完成交易。而 Bobby 它整个形态就是自然语言对话的形式,我们其实希望后面可能“没有 RockFlow 这个App 了”,主界面就是 Bobby,只需要跟他进行对话,然后完成整个交易闭环

    我以前跟大家说, RockFlow 设计清爽、使用简单,这些符合一部分人的需求,但其实也不是最根本的差异化,而现在 Bobby 这种基于 Agent 的交互的应用形式,我觉得它就是跨时代的产品,可以解决所有复杂场景下的问题。

    大家用了 Bobby 以后,就不会再问我“你跟 Robinhood 是什么区别”了。

    👦🏻 Koji

    说到“未来可能没有 RockFlow 这个App 了”,正好昨天就 Sam Altman 在 Y Combinator Startup School 的第一天,Sam Altman 做一个分享,里面的一个很重要的点就认为 “未来 UI 界面会消失”。

    其实和你刚才提到的一样,你们现在真的有在如此极端地做这个计划吗?打算什么时候干掉 App、只保留 Bobby Agent ?

    👩🏻 Vakee

    计划今年就会上线只有 Bobby 的产品。

    Koji 和我都做过产品经理。以前,我们做产品就要取最大公约数,所以会在目标用户群中去提取我们认为最重要的功能点、需求点,这是以前做产品的逻辑。

    但是我们明显发现在复杂场景下,基于功能的界面其实很难完成不同人的需求 ——比如说这个特别复杂的场景。其实退一步,哪怕说 OTA 的 App,比如携程,甚至百度地图,也会不知不觉就把 App 做得超级复杂。

    举几个例子,携程我经常定酒店,根本选不到、筛选不出来我要的东西,因为它的筛选维度跟我不一样。我要的维度没有办法一次性给筛选完,这个事情其实就很离谱,因为实际上这些维度和这些数据、这些标签在数据库里都有,反而是 App 这种形态,或者说这种基于有限功能的页面,严重阻碍了我去实现我要做的事情。

    我觉得以后就会很简单:Agent 加数据库。

    我真实的感受,比如说像 Bobby,我们以前要开发多种下单方式,其实我们需求池里面特别多,但是每一次大家都要 debate 很久,要不要先做追踪止盈单?要不先做那个订单?因为每个订单的开发成本都不低,从前端到后端,从算法到工程,而且它对于界面的占领其实都很强。

    我们都知道,做产品做减法很难,做加法最容易,然后就会有 1 万个功能在你的 App 上。

    👦🏻 Koji

    对,尤其是一个类似 RockFlow 这样的券商 APP,特别容易就变成有一万个功能。

    👩🏻 Vakee

    没错,所以其实 Agent 在解决什么问题呢?在这种复杂场景下,每一个需求其实挺特别的。

    比如说 Bobby,以后我们就不再 App 上开发任何这种细节功能了。用户可以直接告诉 Bobby 我要干嘛,Bobby 可以帮你实现这个世界上没有出现过的条件单,因为它能够用 AI 的方式重新组装那些功能。

    这些条件单的方式在现存的任何互联网券商 App 上都是没有的。

    一个不可能提供 80 种下条件单的方式,肯定是有取舍的,但其实用户可能就是会有 800 种不同的下单方式。

    所以在复杂场景下,用自然语言与 Agent 交互的方式可以更好地实现每位用户的个性化需求。

    AI Agent 是一种全新的体验。将改变产研的工作方式,甚至改变 App 的模样——我们将会看到一个巨大的范式改变。 

    举个例子,我妈昨天让我给他订机票,他和我爸要去乌鲁木齐旅行,他们又不能买太晚的航班,然后又最好不要转机,或者转机时间不要太短,这件事情我没有办法跟携程 App 去交互表达。

    👦🏻 Koji

    所以你就是父母的 Agent。你在帮他们解读需求、拆解任务、去帮他们完成下单,闭环了。

    👩🏻 Vakee

    没错,但实际上你看携程,我想表达的东西,它数据库里都有,但是 App 什么也解决不了。百度地图也是,高德地图也是。比如说我在西二旗,要跟双井的朋友约个地方吃火锅。我要跟他讲,百度地图你能不能给我们两个找一个对我们来说地铁都方便,然后要个不辣的火锅。但 App 上搜不出来,就非常难用。

    所以我觉得我看到的变化就是这个,所有相对复杂的场景以后一定都是数据库加 Agent,我觉得基于功能排布的 App 以后不会存在。

    👦🏻 Koji

    今年 Agent 有一股热潮。

    年初十字路口的第一期节目,我们请到真格基金的管理合伙人戴雨森,那个时候我们做了一期开年对谈,那一期内容的标题就叫 Agent 元年

    在那个时候,其实提 Agent 元年还没有那么明显,但当时我们确实看到了一些信号,尤其是 Devin 的发布让我们感受到了 Agent 技术的成熟、交互范式的创新。

    Manus 和 Lovart 发布了之后,十字路口都在 24 小时内就发表了深度评测;Flowith、Clacky 和今天 Bobby 等 AI Agent 产品也选择在十字路口进行首发。

    想问一下 Vakee,你是什么时候开始打算做 Agent 这个产品的呀?

    👩🏻 Vakee

    我们刚好这两天还在内部去翻了一下,关于 Bobby 这个产品,最开始叫做Rockbot,其实是 2023 年的 4 月份开始做。

    现在的 APP 中间的一级页面功能叫做 AI 策略,原来叫交易GPT,也是世界上第一个直接用 GPT 实现了整个从发生了什么,到你能够去买什么股票或期权,而且是个性化的体验,就是个性化的交易机会实时推送。

    我们上线完这个产品以后就马上开始内部讨论,下一步 AI 原生体验,我们要以什么样的产品形态去呈现,然后我昨天还找到那个 demo 视频。当时讨论这个所谓的 AI native 产品的形式的时候,还没有 Agent 这个说法。

    👦🏻 Koji

    是两年前的 5 月份是吗?

    👩🏻 Vakee

    两年前 5 月份,2023 年的 5 月,当时我们探索是那个上线了交易GPT,探索了产品形态,基于这个 bot 和 Copilot 的产品形态,已经做了一个非常完善的 demo,然后我们在 2023 年的 9 月内部正式立项,开始去做现在的 Bobby。因为我们内部的文档文化特别好,所有的会议什么都有很清晰的记录。

    第一个点说的就是 Agent。所以其实我们是 23 年的 9 月决定以这个现在这个 Bobby 的形态,以 Agent 的基本架构去实现我们想要的 AI 产品体验,我也看了当时那个会议纪要,我们第一部分讨论就是现在的 AI 能力边界,就当时 23 年的能力边界,什么是可以做的,什么是他做得好的,什么是还不行的。

    👦🏻 Koji

    我比较好奇,就是在 2023 年你们立项的时候,Agent 的能力边界和今天做 Bobby 的这个能力边界,有哪些新的突破?

    👩🏻 Vakee

    当时其实我们看到 Agent 已经能支持逻辑推理与多阶段上下文思考,可以根据当前的状态自动选择下一步要干什么。调用 API 是没问题的,然后访问维护知识库的能力也是 ready 的,这些能力是 OK 的。当时最大的问题就是幻觉很严重。当时我需要做一个决策,因为其实公司是有不同的声音的,看到那么严重的幻觉,就想说,要不要再过一阵,等几种模型和基础能力更稳定的时候,我们再去做。

    但是我当时和主要的同学其实还是很坚定的,就是一定要先去探索。就是所谓的“做船的公司”和“做塔的公司”的区别,你如果是一个“做船的公司”,那么你就会随着基座模型和底层能力的提升,产品能力就会跟着提升,做塔就会被淹掉。

    所以我们首先判断要做的这个产品是“做船还是做塔”,在一个行业壁垒很高的领域做应用,肯定是“做船”的路线。第二个就是,如果我是这样的公司,我要不要等待?因为我们当时已经做了 RockFlow 一两年的时间,我是深刻地知道金融行业它有大量的 knowhow 是在产品和工程上的,我如果要在这个领域中做个垂直的应用,最优解就是赶紧做,因为在过程中会解很多很细节的问题。

     

    👦🏻 Koji

    要做好一个金融的工具,还有很多工程任务和细节。如果做得早,做得更细,就有领跑的优势。我自己用 RockFlow 和 Bobby 也有这样的感觉。

    Manus 发布后,字节内部立即出现 6 个团队抄 Manus。今天确实很多公司已经出了高仿复刻,但这些复刻并没有撼动 Manus 的地位 —— Manus 没有像大家想象中那么好「抄」。

    但当我看 Bobby 的时候,我感觉这更是「抄」不出来的 ——至少不会在半年之内就抄一个 Bobby。这背后有大量琐碎的、细腻的工作要做。

    👩🏻 Vakee

    对于 Manus,就我的粗浅了解(我说的不一定对哈,因为确实我也是外人),它虽然是通用型 Agent,但整个交互体验中有很多的对浏览器的理解,交互层面的工程理解,这个团队一定有核心同学之前有很强的积累。

    有些事情是共通的。比如说刚刚讲的,我要做 Bobby,你首先得要是一个会做金融工程的团队。比如说去处理公司行动可能有几百种可能性。世界上到今天都没有供应商能帮你很好地解决这些细节问题,包括 IB,包括富途,包括我们都是一步一步自己去处理的。所以为什么 Bloomberg,包括国内类似的万得,它还是很值钱的,因为金融数据里都是苦活。

    金融行业里面对数据的准确性要求非常高,包容度很低,你要做得很细致。所以你的金融工程团队一定是做这个业务做出来的。我们不管在做通用还是垂类 Agent,对于所在领域要解决的产品研发和工程的问题上,还有很多很多细节,我觉得这就是壁垒。

    所以 RockFlow 不是第一年就做 Bobby,我们 2021 年成立,先做了几年的美股券商,搭建了全套的柜台交易系统。有了各个国家的用户,我们跟用户一起去理解需求细节,然后才开始做 Bobby 这个产品,还是原来那个团队。  除了对AI的研发能力,垂类的 Agent 应用还必须有对这个领域理解很深的产品和工程团队。像金融、医疗这些领域,团队对这行业的认知,都会体现在产品上。

    👩🏻 Ronghui

    Bobby 在公司内部的权重是什么样的?你们当时是把它当成一个试验性产品来做,还是对未来的一种赌注?

    👩🏻 Vakee

    一开始是优先项目,然后尤其到今年就绝对 all in。整个研发的过程中,这个季度以及上个季度的 OKR,除了交易稳定性以外的需求,全部为 Bobby 让步。你

    提了一个特别好的问题,这也能回答比如为什么前辈友商不做,以及他们会怎么去对待这个事情?核心就是我们是 all in 来做的,当成最高优先级,我们是当成以后没有 RockFlow App 来做的。如果你只是当成一个功能来做,就很难做成。

    以前做 VC 的时候经常问创始人巨头也做怎么办,这几年我深刻感觉,其实再大的团队,能打的也就那么十几二十个人。任何公司之间的PK,或者是行业之间的竞争,就看谁敢把这 20 个人 all in 到这个项目上。

    如果你敢,那我觉得大家都有机会。如果你不敢,你就当成内部创新,那是很难的。因为创业团队是用命去拼,然后大厂是内部创新,拿着几百万年薪去做,完全不同的战斗状态。

    👩🏻 Ronghui

    这当中有多少是来自你对 Bobby 的 Agent 产品形态会取代 RockFlow 未来的确定性?有多少是来自行业给的信心?

    👩🏻 Vakee

    我觉得主要 99% 是前者。

    十字路口采访了很多 AI Agent 产品的 founder ,但我几乎没有精力去关心别人做什么。很多人问我,你觉得 Manus 怎么样?Flowith 怎么样?其实关注不了太多,你真的是几乎所有精力都在为你相信的那个目标在往前冲,因为这个事情它太新了,Bobby 是世界第一个这样的东西

    我们给自己幻想出来了一个未来,然后我们 all in 往那个未来冲。我们这个团队百分之八九十都是 INTJ,就全员非常 J。那个事情我就非做不可,就要尽快完成。

    现在能明显感觉到这个世界在发生巨大的改变,然后看到了 Agent 加数据库,它是未来的产品形态,我要做的是用这种形态去满足这个领域下用户需求,我是坚信,以及我自己现在都在用 Bobby 去做所有的交易和下单,它现在就是更方便更好用。

    我从小就没有 peer pressure,从来不 care 别人在干嘛。每一代人有每一代的需求,toC 的创业就是能不能做出一个更好用的产品,能满足这代人的需求。所以这个过程中更多的是去想你的用户,去想你的团队,你的用户需求是什么,你的团队执行效率够不够高,就可以了。

    👦🏻 Koji

    这个听起来是蛮幸福的一种创业,INTJ 可以把一个事往“死”里打磨得非常的精致。

    Bobby 其实内测也有一段时间了,之前内测应该有几百位用户。想知道一下有没有什么好玩的故事?

    👩🏻 Vakee

    因为我们差不多就这两周时间陆续开放,我觉得还是挺兴奋的。Bobby 现在每天发一版,每天迭代一次模型,这是我们能做到的,哪怕 RockFlow App 做到今天都还会有这样那样的小问题,那我们就不断去快速迭代。

    举几个好玩的例子。第一个就是那个 Circle 上市的那一天,我们有一个英国的用户,这是她买的第一支股票,也是第一次在 RockFlow 交易,因为大家在群里讨论了Circle,然后她直接跟 Bobby 说,上市以后给我挂一个这个订单,帮我买多少钱,然后就去忙别的了。第二天发现 Bobby 80 块钱买入了,并且还帮她下了一个止损单,这只股票现在已经翻倍了。她把完整的跟 Bobby 的聊天记录,收益截图分享在群里了。她觉得如果没有 Bobby,可能开始投资美股的时间还会延迟。

    其实他是 RockFlow 用户已经有一阵子了,但一直没有买,不知道怎么开始。Bobby 其实是有很多边界可以去探索,甚至我以前都不知道 Bobby 可以一键清仓。我们一直有一键平仓的需求,一直没做排不上。但现在我们发现用户自己用出来了,Bobby 就给他完成了。

    👦🏻 Koji

    那 Bobby 会有一些平仓策略吗?

    👩🏻 Vakee

    它会做一些调整,比如你有 100 万美金的特斯拉股票要一键平仓,它会帮你分次下单,然后平滑你的磨损。

    👦🏻 Koji

    我自己用 Bobby 试了一个非常非常小白的一个指令。我入金了 3000 美金,然后给 Bobby 说:“我现在有 3000 美金帮我买股票,我要赚钱。”

    我当时就很想试一试,在盲目相信 Bobby 的情况之下,它会帮我干啥?结果它给我买了 6 只股票,都是非常稳健的,包括两个指数(SPY 和 QQQ),然后还买了苹果、英伟达、可口可乐 ——这个其实对小白是很友好的,当你有 3000 美金,不知道要买啥的时候,你交给 Bobby,大概率比自己冲动下单买到的结果要好。

    👩🏻 Ronghui

    我这里也想到一个问题,对很多小白用户来说,比如像我这样不太炒股的人来说,听起来操作非常的简单。我问了很多问题,同样的 prompt,我也给了其他几个 Agent 工具。我的感受是首先 Bobby 的操作非常简单,其次它在帮我操作一个门槛很高的东西。那你对我这一类用户,会怎么解释 Bobby 如何服务得更好,以及如何帮助我实现我的目的?

    👩🏻 Vakee

    其实刚刚讲的例子就是小白用户,都没有交易过。投资有两个门槛,一个是你的心理门槛,你觉得很难;第二个是操作门槛,很麻烦,确实不会弄。Bobby 这种 Agent 的自然语言对话式,从这两个层面把用户的困扰解决掉了。

    Bobby 让你把生活中看到的东西,想到的东西,表达出来,从一个想法变成一个交易机会,这个交互形态天生就降低了你的心理门槛。你去跟现有的券商 APP 沟通,你不知道怎么沟通,Bobby 就有点像你跟一个人以更自然的方式沟通,它降低了你的心理压力和门槛。

    👦🏻 Koji

    不过其实用户和 ChatGPT 或元宝聊,得到的回复或许也是一样的?

    👩🏻 Vakee

    在这个自然语言对话的交互层面上是一样的,用这个形态先帮你把心理门槛降低。

    但更重要的就是,交易这个场景对很多人来说觉得操作比较复杂。Bobby 和其他大模型 chatbot 最大的不同就是,Bobby 帮你把投资交易这个行为给闭环了。比如年初你问 Bobby:“Labubu 特别火,我应该做什么”,Bobby 可能会说你可以考虑泡泡玛特的股票。或者现在已经火过头了,Bobby 会提示你应该谨慎投资泡泡玛特。他会给你一个你的灵感、结合市场环境和你的风险偏好所对应的投资策略,并且可以帮你完成下单交易。

    我认为做一个垂类 AI Agent,最重要的就是帮用户把这个事情做掉。

    👩🏻 Ronghui

    Bobby 其实整个开发的过程花了两年,为什么会花了这么长的时间?中间有没有走什么弯路?

    👩🏻 Vakee

    我们 2023 年的 9 月份算正式立项,一年半的时间,基本没有弯路。要做一个垂类的Agent,做到闭环真的要花好多时间,好多细节需要打磨。最开始那些版本的时候没有太考虑速度。但后来发现,慢就是原罪,慢就没法等,用户没那么有耐心。

    👩🏻 Ronghui

    对慢的衡量标准是怎么样的,什么时间算慢?

    👩🏻 Vakee

    我们其实在“慢”这件事上做了非常多优化。早期的时候,Bobby 的响应速度确实不够快,一轮对话可能要十几二十秒才能出结果,这在交易场景里是完全不能接受的。后来我们重新设计了整个 Agent 的调度系统,优化了编排能力,把效率和性能都拉上去了。因为我始终觉得速度是第一关卡,你只有“足够快、够稳定”,你才可能谈得上“产品化”。

    但如果要做到产品化、甚至进一步商业化,就还要面对一个非常关键的问题:成本可控。你不能每一次交互都消耗大量 token,也不能让用户因为等太久就退出流程。所以做 Agent、做大模型应用,本质上永远要解决这两个问题:一是速度和体验,二是成本控制

    我们内部其实在这些“功能背后的结构性问题”上花了很多力气。比如你怎么设计架构,让 token 消耗保持稳定?怎么确保用户每次提问都能在 1-5 秒以内拿到答案?其实这些底层机制往往比表面功能还要难,但正是这些才构成了一个 Agent 产品可落地的基础。

    👦🏻 Koji

    在内测的这些用户里面,你最关注的数据指标是什么?比如说聊了多少轮?还是下了多少单?还是帮他赚了多少钱?

    👩🏻 Vakee

    活跃指标,使用时长。你要跟他进行多轮对话,然后它要实际帮你,肯定在过程中解决了一些问题或者疑惑。

    👦🏻 Koji

    刚才分享到 Bobby 买 Circle 这只股票的案例,听起来好像是 Bobby 半夜下的单?当时有没有让用户确认呢?我认为这样自动下单的话,帮用户赚钱了他们当然开心;但如果赔了,这个责任会不会怪到 Bobby?

    👩🏻 Vakee

    所有的下单都是确认过的。比如说“买多少钱”,Bobby 会反复确认,以什么样的价格买,经过对话的确认,才会去执行这个指令。所以它还是靠谱的。

    👦🏻 Koji

    有没有关于大家用 Bobby 「赚到了之前或许赚不到的钱」的故事?

    👩🏻 Vakee

    那天特朗普和马斯克吵架,有一个交易特斯拉特别多的用户就问 Bobby,现在应该怎么办?Bobby 说他们俩吵架,特斯拉大概率还得跌,可以考虑买小熊,也就是我们的一款 put 期权。然后经过多轮对话之后,他在对话中选了一个 put,这个用户就买了这个小熊,然后变成了当日的牛人榜一,涨了 400% 多卖了。然后还给了 Bobby 最大的一个打赏。他甚至说,如果能设置成“收益分成打赏”,比如他收益的 1%、5%都给 Bobby,他都愿意。

    他还在社群里分享了几个反馈点:

    第一,他完全是因为 Bobby 的对话才下了这笔单。不是他凭空做出的判断,而是 Bobby 把认知结构化之后,变成一个明确可执行的决策。当然最终下单是他自己决定的,但 Bobby 起到了一个很关键的触发作用。

    第二,他说 Bobby 是他第一次用 AI 交易时,真正感受到“被理解”的产品。他用过很多产品,从 IB、富途到 Robinhood,甚至一些 AI 工具,但都没有这种“对话+理解+定制”的组合体验。

    他用 Bobby 的时候,能非常清晰地感受到这个 Agent 在分析他过去的交易行为,理解他是怎么做风控的,怎么选标的,然后所有建议都对得上他的“心窝”。就像一个真正懂他节奏、懂他习惯的投资助理,而不是一个生硬的交易工具。

    这是一个典型的有经验用户的反馈。之前很多人会觉得 RockFlow 太“轻”、太简单,不够专业。但他们开始用 Bobby 之后,发现它反而是目前最能支持复杂决策的工具。我觉得这就回到我们为什么要从传统的功能型 APP 转向以对话为核心的 Agent 形态。这种形态天然能够拉宽你能服务的用户范围,从新手小白到资深交易员,都能从 Bobby 身上获得匹配他们需求的东西。

    刚刚这两个例子,是两个很不一样的体验,他们俩分别感受到了 Bobby 作为一个 Agent,是能够更好地覆盖不同需求的人群的。从功能形式的 APP 到现在基于 Agent 对话形式,一下就把能够 cover 用户的范围扩大了。以前有些比较有经验的用户会觉得 RockFlow 太简单了,很多功能满足不了他的要求。但现在成熟的交易者也会使用 Bobby,并跟着它下单,拿到了第一次的正反馈。

    👦🏻 Koji

    现在 Bobby 还是需要用户主动发起一个问题它才给响应,那你们有考虑过让 Bobby 主动给用户一些建议?

    👩🏻 Vakee

    我们下一个版本的 Bobby 会主动给你可能会想要知道的东西。会有些交易灵感,但不会突然冲出来说你应该买这个。

    👦🏻 Koji

    什么样的交易灵感呢?

    👩🏻 Vakee

    比如说打仗这种宏观的信息,比如说你持仓相关的一些股票。比如你对稳定币很感兴趣,会给你推送这些相关信息。我们还发现大家最刚需的需求是给他打电话,让 Bobby 给用户打电话。

    👦🏻 Koji

    用户想被提醒?

    👩🏻 Vakee

    对,他就是想被提醒。

     

    👦🏻 Koji

    我有个朋友曾在香港为某位大佬打理 family office。那份工作本身就挺有意思的——一个四五人的小团队,服务的对象是位九十多岁的老爷子,至今仍每天紧盯市场走势,给他们打无数通电话。

    电话大致分两类:一类是明确的交易指令,另一类则是模糊的调研需求,比如“你们帮我看看这个赛道最近有没有动静”“这个标的值不值得加仓”。听起来,他们这个团队就像是老爷子的“Bobby”——一个始终在线的 AI Agent,只不过是真人版的。他们每个人背景都不简单,基本都是名校 MBA,金融行业资深从业者,年薪几百万不在话下。

    但我在想,这些“金融行业的高级打工人”,恐怕很快就要和 Bobby 们竞争了。

    👩🏻 Ronghui

    我刚想补充一个问题,差不多一年半的研发过程里面,你提到有一些很重要的决策,怎么样可以节约 token,节约成本,我其实还蛮好奇的。回头看当时有哪些现在觉得正确,或者很有意义的一些决定,这个可能对很多创业的人来讲可能还蛮有借鉴意义的。

    👩🏻 Vakee

    所有创业者应该先问自己的第一个问题就是你要做垂类的还是通用的Agent,为什么选择这个方式?我们选择垂类,其实道理很简单,因为这个世界上就是两种需求,一种需求是大家只是不想做,做得好或者不好影响没那么大,它不致命。比如工作中的一些场景,去帮我写个邮件,去分析一个旅行路线,生成一个研究文档。这些事情可能我自己不想都花很多时间弄,我自己花时间写可以做成 70 分。让一个 Agent 帮我,可能做成 60 分、65 分,我也可以接受。这是生活中大多数的需求。

    另外一类,比如说金融、医疗、制造业的一些精密场景,它们不太一样。做成 70 分和没有 70 分,可能是致命的,差别会非常大。所以在这一类容错性要求高的场景,就一定要达标。用基于 workflow 的方式相对来说是可以又快又好地达到 70 分的标准的。

    所以你要分辨你所在的行业,你去解决的这个垂类,到底在解决哪一类的问题,这就决定了你的架构到底要基于什么样的形式去做,这是商业上第一个问题。第二个就是优化问题,它其实就是在过程中去解决。我们在过去一年多的开发过程中,经历了多次迭代。核心思路是围绕具体场景需求选择最佳实践方案。

     

    Vakee 个人经历:投资、百度、AI

     

    👩🏻 Ronghui

    能否聊聊你的个人经历?特别是 9 岁开始炒股的故事,前段时间看到相关报道时非常好奇这段经历。

    👩🏻 Vakee

    这主要受家庭环境影响。记忆中 90 年代炒股是全民现象:电视 1-3 点都在播放股市行情、报纸上的 K 线图、通过电话下单。我常去证券营业厅的大户室。

    👩🏻 Ronghui

    这种环境让你天然接触了大量投资信息,降低了入门门槛?

    👩🏻 Vakee

    确实如此。后来做美股交易也是类似情况——2013 年我回国加入百度后,身边同事都在交易中概股,互联网从业者算是国内最早接触美股投资的群体。

    👩🏻 Ronghui

    请梳理下你的职业轨迹?有没有跟投资交易和 AI 相关的事?

    👩🏻 Vakee

    我的职业经历覆盖了大公司产研(百度凤巢)、一级市场(百度投资部科技赛道+ VC)、二级市场投资,现在创业。除了没在国企呆过以外,各种职业角色我都做过。2013 年放弃某主权基金选择回国,就是看准移动互联网浪潮。我在创业之前,要不在做 AI,要不在投 AI,然后一直在投资美股。

    👩🏻 Ronghui

    之前你说为什么做 RockFlow,灵感是来自“散户大战华尔街”。所以你说“信”这个事情,其实你整个创业过程都是在执行“让交易更简单”这一想法。你可以说说你当时看到“散户大战华尔街”是什么感受吗?

    👩🏻 Vakee

    它是一个开始。因为它是一个现象级事件,所以会促使你开始关注这群人、这件事。我当时其实已经回到二级市场了,我开始关注交易世界正在发生的变化——首先是年轻人的投资方式发生了巨大变化。过去投资的目标就是赚钱,但 Gen Z 的投资除了赚钱,还承载了其他属性:他们要表达价值观。

    我说个最简单的例子:以前讲价值投资,比如巴菲特那一套,是从投研的角度看公司价值,比如 PE 要合理;但今天年轻人说的“价值投资”,是“我认为有价值,它就有价值”。投资已经变成了一种完全不同的体验。GameStop 就是一个典型案例。有人说,那是我小时候买游戏光盘的地方,那是我的回忆,它不应该被你们做空。对他来说,这家公司在他的生命中有价值,所以他用投资行为去表达态度。投资变成了生活方式的一部分。

    因为这个事件,我开始研究这个群体,发现全世界的年轻人都想买特斯拉、苹果的股票,对美股有兴趣。但你会发现,除了中美两国,其他地方几乎没有好用的美股券商,供给极其有限,渗透率也很低。这是我看到的一个明确的机会。

     

    👩🏻 Vakee

    说到我为什么创业,当时我的判断标准有几个:

    第一,我要做足够大的事情。因为我知道,无论做什么都很难,那就应该做个大的。金融是一个比互联网还大的行业,除了能源以外,最大的就是金融。

    第二,我一定要做一家 AI 公司。我之前做投资时经常讲,广告、金融、游戏是 AI 最适合落地的三个场景。尤其金融,是纯数据场景,非常适合 AI 快速迭代,交易则更是最理想的切入口。

    第三,我必须对它有 passion。因为创业太难了。我投了近 30 家创业公司,很多今天看起来风光的、甚至已经上市的,其实过程都非常不容易,所以你必须真的热爱这件事,不是“非做不可”,你是坚持不下来的。我现在也会经常被一些年轻同学问创业建议,我通常第一个问题就是:这件事你是不是非做不可?如果不是,其实不是必须要创业的。

    第四,我得能做这件事。这就回到我怎么定义这个目标。如果我要做一个 AI 时代的交易平台,我要做什么?

    我当时给自己定了两个关键词:

    1. All-in-one:一个平台上能交易所有品类——美股、港股、各国股票、期货、期权、彩票、合约、外汇、Crypto,全都能交易。
    2. AI Native:我希望提供的是原生的 AI 体验。

    All-in-one 和 AI-native 是我要解决的两个核心问题。如果能做好,它就是一个“新物种”,是一个给新时代用户提供全新体验的机会。

    那我和我的团队能不能做这件事?后来回过头看,发现自己创业之前的十年工作经历,每一步都算数。从在伦敦做量化,到加入百度凤巢成为 AI 使用者,再到进入百度投资部和VC投资 AI,从 AI 产研到投资 AI,加上一直沉浸在二级市场,最后创业做 RockFlow 看起来就很自然了。要找一个既懂 AI、又懂投资、还能不厌其烦hands on每日产研和运营的人,我是极少中的一个。说实话,对于很多背景类似的人来说,能持续靠投资赚钱的人,绝大多数是不愿意做一个 toC 产品创业的,太苦了。

    直到今天还有人问我最多的一个问题就是:“Vakee,你投资能力这么强,为什么还要去创业?”

    我的回答是:这是使命。我真的很想把这件事做出来。从小时候开始接触投资,到真正理解交易背后的逻辑,我一直相信投资不是一件遥不可及的事,它可以是大众参与的。比如我当初开始交易美股,是因为我在凤巢,接触到的是中概股和美国的互联网公司。凤巢做的是广告系统,而 90% 的互联网公司的盈利模式都是广告变现,所以我天然在这个领域有认知优势。甚至我打开淘宝首页,看前几条广告的位置和高度,就能大概判断这个季度阿里的业绩能不能完成——因为那是我每天的工作。后来开始投 AI,就买了英伟达股票,也是一样的逻辑,通过二级市场放大认知收益。

    要下额外功夫的是赔率设计:比如是买股票还是买期权?怎么配置、怎么保护风险?这些是交易层面的技术。但判断“方向对不对”,其实来源于生活和工作。而这也是我为什么觉得:如果我能做到,很多人其实也能做到。比如 GPT-3.5 出来的时候,很多人已经知道英伟达会受益,甚至知道 AI 是未来。但很多人没有把这个认知转化成投资决策,也没有行动。我见过太多这样的例子。有人早就天天买拼多多的东西,但一股股票都没买。很早就买了特斯拉车的人,很多也从没投资过特斯拉股票。

    👦🏻 Koji

    我觉得这段经历特别有趣。因为 Vakee 最近在小红书上有一个帖子爆火,标题是《普通人如何在身边发现下一个风口》。她想传达的核心是鼓励大家:把生活中发现风口的观察转化为投资决策,其实是有可能获得实际收益的。

    就在昨天,肖弘突然在微信上跟我讲,一年前我和他见面时说——泡泡玛特卖得最好的 IP 已经不是 Molly,而是 Labubu,增长非常快。我们都有一段遗憾,当时没把这个发现转换成投资决策。

    👩🏻 Vakee

    对啊,钱都从天上掉下来了,你都没伸手去接。

    👦🏻 Koji

    所以我觉得现在有了 Bobby,我更有可能接住了!

    👩🏻 Vakee

    对,其实无论是 RockFlow 还是 Bobby,本质上我在做的,就是用不同的产品形态和新的技术手段,让大家把日常的认知转化成交易机会。而这个动作变得越简单,就越容易落地。比如你只要说一句:“帮我买 100 块钱特斯拉”“帮我买一手泡泡玛特”,就可以完成交易。它不再复杂,也不会令人害怕。

    我一直觉得每个人都有自己改变世界的方式。而如果因为 Bobby 和 RockFlow 这样的产品,可以让更多人把生活和工作中的认知变成他们自己的投资决策,把渗透率提高 100 倍——我觉得我这辈子就值了。这真的是我发自内心的使命感:让所有人都能体验到投资的乐趣,让他们知道,自己也可以参与公司成长并且获利。

    其实这个道理并不难讲。虽然肯定会有人在评论区骂,说什么“幸存者偏差”之类。首先,确实不是每个人投资都能赚钱;这点必须承认。第二,关键在于什么?我认识那么多对冲基金经理,错过了泡泡玛特、老铺黄金、蜜雪冰城。为什么?因为普通人才会去真正买这些商品。这些消费,是他们的生活。而很多基金经理他不会去观察这些。

    所以从根本上讲,不要低估你在生活中看到的每一件事。比如你看到一鸣零食店门口顾客络绎不绝,那你觉得这只是个普通场景。但我告诉你:这就是你的机会。因为你看到的东西,华尔街看不到。你早就知道 B 站的弹幕文化很火;你身边的年轻人每天都在用。当时很多一级市场投资人就感受不到。很多人默认“投资”就是专业人士的事,要看财报、分析量价关系、跑模型。结果反而忽视了最有价值的线索——你自己的生活。

    其实 DAU 是什么?就是你身边越来越多人在用。增长又是什么?不就是你不断在买盲盒吗?我之所以买泡泡玛特,是因为我看到办公室的盲盒堆越来越多,大家天天在问怎么买 Labubu。蜜雪冰城也是,我从来不喝,但同事在说“又好喝又便宜”,我就去打新。结果中签了,感觉打新的收益可以让我一辈子喝蜜雪冰城。

     

    👩🏻 Vakee

    我记得那个寿司郎的案例,有人很喜欢吃那家店,他就去买了寿司郎母公司的日本股票。因为他观察到——门店一家一家开,大家都在吃。他就买了。他就是普通人,他只是根据自己的生活做了一个决策。所以我一直强调:生活里的机会,就是普通人最好的机会。

    第一,不要认为投资一定要看量价指标、研读财报。

    第二,你的观察和认知不是所有人都能拥有的。

    每一代人有每一代人的机会。如果你连自己生活中的机会都看不到、连工作中的认知都不能转化为判断,那你更不可能抓住认知之外的机会。

    我在 2023 年底的时候,8 块钱买了很多 Robinhood 股票。如果我在做 RockFlow,确连行业龙头 Robinhood 股票都不买、不知道什么时候该买、怎么买,那我这个AI交易平台 founder 就不合格。同样,如果你是 AI 投资人或者创业者,必须要看看你仓位里有多少英伟达。因为一级市场投资、二级市场投资、创业,这三者有一个共同要求:判断力。

    判断力是什么?是你对行业规模、演进方向、格局变化的判断。而这个能力,在二级市场的仓位最能体现。

    👦🏻 Koji

    虽然打开一个炒股软件确实不难,但对很多人来说,它依然是一道门槛,把他们挡在了“投资”这件事之外。

    而 Bobby 的目标,就是要把这个门槛再降一降。所以我觉得它真的是能让很多年轻人第一次真正地、有可能地享受到:把自己的生活、认知转化成投资回报。这也是 AI 能够带给我们的正向价值之一。

    👩🏻 Vakee

    对,我也是这么想的。我真的希望因为 Bobby 的出现,投资可以“飞入寻常百姓家”。大家可以通过投资去参与这个世界的变化。我们都知道,真正最大的回报,其实是资本回报。我们是很多公司的消费者,比如说我订阅了多邻国,那我当然也会买它的股票。这样我既是消费者,又是股东——我用它的产品、创造了营收、带动了股价,最后我自己也获得了回报。

    但现实是,大多数用户只是消费者。他们为公司创造了价值,却没有参与资本收益,这部分被我赚了,因为我持有它的股票。你出力,我赚钱,这个循环其实是不完整的。

    但实际上理想的商业循环应该是:用户既是消费者,也是股东。因为消费者是股东,所以更忠诚;他会给你反馈,会帮你优化产品,会支持你、希望你好。

    我们已经看到一些公司开始走上这条路,比如特斯拉就是一个很典型的例子。还有像 Square 当年上市时,投行邀请很很多它的客户来认购 IPO 股票。大家因为持有股票,彼此的合作关系也更加稳定。这是非常正向的循环。包括 Robinhood,它的很多用户也是它的股东。将来如果小红书上市,它也应该让自己的用户成为股东。

    因为一旦你理解了这个循环——你用得越多,公司股价越涨,你获得的回报越高——你当然会支持它,对吧?我以前还跟 B 站说过,你们的大会员就送一股 B 站股票,直接在 RockFlow 上送。这就是良性循环的力量。

    我觉得最重要的是:让普通人能够识别身边的风口,然后买他们熟悉的公司、消费过的公司、支持他们喜欢的产品,成为这些公司的股东,和它们一起成长。这才是健康的商业社会。像滴滴司机也是。他们为滴滴贡献了巨大的价值,但没有滴滴的股票,只有被抽成的工资。这个回报体系不平衡。但如果买股票这件事变得足够简单,这个循环就能建立。

    我觉得这就是商业平权。而这是我想通过产品真正推动的改变。

    👩🏻 Ronghui

    我也想补充一个最后的点:我觉得很多人不是没看到这些信号,他们其实看到了,但缺的是“一个理性的把关”。就是一个声音告诉他,“这是可以做的”“你是可以参与的”。就像你前面说的,意识上要完成一个转变——我不仅是消费者,也可以是投资者。但在这个过程中,人是需要理性确认的。他们会担心:“这是不是太专业了?”“我会不会判断错了?”

    👩🏻 Vakee

    对,所以 Bobby 不是一个语音下单功能,它是一个 AI Agent。哪怕你只是随口说一句:“我想买 3000 美金的股票”,它也会有完整的逻辑链告诉你:为什么可以考虑这些股票?为什么是这 6 个?它不会只是接指令,它会帮你做解释、做判断——用你听得懂的方式,把普通认知转化成可执行的投资建议。

    比如说你去年问它:“Labubu 很火,我要干嘛?”它可能告诉你可以买泡泡玛特。但你现在问,它可能就会说价格太高了,要注意风险。所以 Bobby 不只是一个下单工具,它有自己的逻辑框架、风险判断,也会考虑你没想到的因素,比如当前股价的走势、波动、位阶等等。这些其实是普通用户没法独立判断的地方,而这些都是 Bobby AI的能力。

    Bobby 从来没有承诺“帮你赚钱”或“替你赚钱”,它真正做的是——帮助你多想一步、管理风险。这也体现了我们的价值观。我们从不会告诉用户:“RockFlow 能帮你赚钱”“我们一定能让你赚”,没有这样的承诺。甚至我自己都常说:你来跟单我,也可能会亏钱。

    所以我经常说:你可以先用 100 美金试试看,体验一下。如果觉得自己的投资能力更有把握了,再增加投入。我们甚至专门做了“持仓保护”的功能——当你单只股票的尺寸到双位数时,比如 10%,系统就提醒你:记得配个 put 做保护。我们不能帮你赚钱,但我们会尽最大努力,提醒你、保护你、辅助你,让你的每一步都更稳健。这才是我们的价值观落地的方式。

    而且其实说到底,投资就是一场“留在牌桌上”的游戏。只要你不被淘汰,就有机会等到属于你的那一把牌。所以留在牌桌上是最重要的,风险管理永远是第一位的。不要 all in,除非你非常有把握,即使这样,也要有对冲风险的保护措施。

    👦🏻 Koji

    非常感谢 Vakee 今天做客《十字路口》。尤其最后这段,其实十字路口从创立开始就在讲一句话:“寻找并凝聚 AI 时代的积极行动者。”而“积极行动”的一个表现就是——听完今天这期节目,你是否愿意把自己在 AI 时代的认知,转化为投资行动。

    而 Bobby,正是降低这个行动门槛的工具,推荐大家都去试一试。虽然 Bobby 没有承诺帮大家赚钱,但也希望在它的陪伴和辅助下,大家真的能赚到一点投资回报。

    👩🏻 Vakee

    好,感谢大家,今天很高兴跟大家分享,也期待更多人能够因为 Bobby 开始投资之路,然后能够感受到投资的乐趣。谢谢。

    原文链接:首个投资交易 Agent Bobby 上线,第一时间访谈 Vakee

  • 深度访谈Head AI创始人Kay,不睡觉的AI增长负责人

    马车从来不是汽车的对手。

    最近,Head AI 发布获得了很多关注,它称自己为「Worlds’s First AI Marketer」。Head AI 在获得锦秋和金沙江投资后,朱啸虎在多个场合提及和安利 Head AI,对这个团队和产品的喜爱之情溢于言表。

    今天,「十字路口」与 Head AI 的 00 后创始人 Kay Feng 进行了一场深度访谈,从「你的 ARR 是怎么算的」到「你的壁垒是什么」,她回应了我们提出的所有问题。

    👦🏻 Koji

    用一句话给大家安利 Head AI 的话,你会怎么介绍它?

    👧🏻 Kay

    只需告诉 Head 你的预算和网站,它就能自动搞定达人营销、联盟营销和 Cold Email ——像个不睡觉的 AI 增长负责人,一人干掉整个市场部。

    Head

    👦🏻 Koji

    Head AI 的目标用户是谁?Head AI 帮他们解决了哪些问题?

    👧🏻 Kay

    Head 的目标用户分三类:

    第一类是创业团队,或者早期品牌创始人。

    他们很清楚自己要起量,但手里没人、也没太多试错成本。

    我们给这类人提供的是一个“可以替你交付结果”的 AI。你把网址和预算一填,剩下的不用你操心——资源怎么找、内容怎么写、怎么谈达人、怎么投放,Head 全自动搞定。以前团队可能要招几个人做的事情,现在偶尔有一个人看一下就可以了。

    第二类是大品牌、有团队的公司。

    他们的问题不是资源不够,而是人太多、流程太重,执行跑不起来。

    冷启一个新产品,光走审批流程就一周过去了,等人协调完,流量已经被别家拿走了。

    我们让他们用 Head,直接把「内容生产」「达人谈判」「冷启动分发」全部接入自动化链路,一套 campaign 并发跑多个版本,最后再自动收敛出最有效的策略扩大投放1。

    这类客户用了之后的反馈很直接:“Head 不是提效,是直接替我做掉了一个部门或者agency。”

    第三类是 agency,包括以前靠人力交付的服务型公司。

    他们过去要靠团队手动帮客户谈达人、发 campaign、收数据、做报告,重、杂、不赚钱。

    现在他们把这一整段交给 Head 跑,只专注做好「客户服务」和「人工价值比较重的那一段」

    等于是把交付外包给了 AI,自己留住了人能做的价值密度最高的一公里。

    过去他们靠人力在交付,今天他们靠 Head 在交付。

    从外包变成了 AI 驱动的智能服务商,效率、利润都成倍提升。

    这三类用户,看上去不一样,但本质是一样的:

    都在从“靠人”向“靠系统”过渡,想要增长这件事变得更轻、更快、更确定。

    而我们做的事情就是把这套AI增长系统跑通,让任何一个品牌、一个服务商、一个团队,都能从零开始拥有一套自动执行、自动优化、自动 scale 的 AI 增长引擎。

    👦🏻 Koji

    Head AI 拿到了锦秋的投资,也是朱啸虎投资并常挂嘴边很关注的公司。你当初是如何 pitch 他们投资你的?

    👧🏻 Kay

    与其说我们怎么 pitch 的,不如说他们是真的看懂了我们在做的事。

    这个项目不是靠“共识”能投的,理解它是有门槛的。营销这个行业,坑确实很多——如果看得不深、不透,很容易踩雷。很多机构踩过之后就不敢再碰了。但就像朱啸虎说的:中国投资人从来不是靠共识赚钱的。

    我们特别喜欢我们的投资人,很同频,对我们帮助也非常大。

    锦秋的杨洁、天宇和智媛,他们整个团队对达人和商业化的理解都非常深。我们第一次聊,不到 30 分钟杨洁就拍板给了 TS,也是过去在上一家公司的积累让他们能一眼看出背后的机会。

    朱啸虎老师就更狠,他太懂社交媒体和营销了,经常是他第一时间把行业热帖转给我,高强度冲浪,永远活跃在一线。Daisy 也是一样,判断准、动作快,真的和创业者站在一起。

    👦🏻 Koji

    融资过程中,你遇到最 impressive 或 surprise 的问题是什么?

    👧🏻 Kay

    融资过程中让我最惊讶的两个问题是:

    “你没上大学,会不会影响工作?”

    “你这么年轻,团队会不会不服你?”

    说实话,这两个问题在现实中没带来过困扰。

    如果“年轻”和“没上大学”真是门槛,那这个世界的门槛也太低了。

    这两件事恰恰是我最骄傲的选择——我始终靠自己的判断走路。

    真正难的,不是写出一份标准履历,

    而是在极短时间内做出结果,还要保证这个方向5年、10年后依然成立。

    前阵子有人问我:

    《如何发现一个20岁就值得投的人》里那个把自己当联创在干、几年后独立创业的00后,是不是你?

    是我。我知道很多人当时没看懂我。但我也从没指望一开始就被看懂。

    对真正的创业者来说,表面上的“劣势”从来不是问题,

    有时候,它反而是你在这个赛道的天赋。

    我们习惯在逆境里杀出一条路,做那些别人觉得不可能的事。

    我想把这段话留给还在路上的年轻人:

    很多人早就老了。他们不懂你,不是你的问题。你不需要一开始就被理解,你只要一直跑,总有人会追上来听懂你。

    王宁也好,我们也好,所有曾经被低估的人也好,

    只要你真的做对了事,最后一定是你赢。

    这个世界上大众的评价体系是——

    不红就是原罪,红了什么都对。

    最后想把余华老师的一段话送给还在路上的人:

    十八岁出门远行,终究要和这个世界交手,哪怕摔得鼻青脸肿。夜深人静时,把心从胸口逃出来,自己缝缝补补,再睡一觉,第二天又是信心百倍。没人问也没关系,不如人也别怕。试着安静下来,心可以睡,手不能停。该干的事,继续干。真正的成长,不是没有崩溃,而是在崩溃中继续前行。

    忙起来之前,我常去攀岩、跑斯巴达赛。

    不是为了赢谁,只是为了逼自己一遍遍确认,我不是个轻易认命的人。

    手脚常带伤,但每次越疼,我反而越清醒。

    我上瘾的不是胜利,而是那种快撑不住了,却还是往上爬的感觉。

    👦🏻 Koji

    红杉美国的最新趋势讨论里说到的 AI 时代的 toB 产品按结果付费,Head AI 也采用了这种方式。你们是出于什么考虑?

    👧🏻 Kay

    Head 从第一天就坚持「按结果付费」(Pay for Outcome),这是我们主动选择的战略路径,也源自我过去作为市场负责人的核心诉求。

    Head AI 定价模式

    因为我太清楚传统 SaaS 工具的痛点了:你付了钱,却得自己组团队、拉数据、找资源、搞投放,最后效果还不一定好。

    而市场负责人最关心的,其实只有一件事——“能不能帮我拿结果。”

    所以当我们做 Head 的时候,就定下一个标准:

    客户不是来租一套软件的,而是来雇一个能跑增长的 AI。

    我们做的是自动化执行,而不是辅助操作。如果我们真的能跑通链路,就应该对结果负责。

    如果不能,那也不该收这笔钱。

    这背后的底层是信心 ——

    我们知道自己做的是能完成任务的 AI 营销系统。

    它真的可以自动找到达人、生成内容、压价谈判、跑完 campaign。我们有这个能力,所以敢用结果做定价锚点。

    而从商业角度看,这种模式也让我们和客户绑定得更紧:

    客户转化得越好,我们赚得越多;客户跑不出结果,我们就拿不到钱。

    这才是我们真正想建立的关系 —— 不是“服务商与采购方”,而是“共同承担结果的增长搭档”。

    👦🏻 Koji

    对于按结果付费的模式,客户们更多是支持、还是反对?

    👧🏻 Kay

    绝大多数客户是支持的,甚至可以说,这正是他们选择 Head 的原因之一。

    传统 SaaS 模式的核心问题是:你付费了,结果还要自己做。

    而在 Head,「按结果付费」反而让客户感到放心,因为它意味着:

    • 你们会对结果负责,无效100%退款
    • 我不需要预支信任,可以看到结果再付钱
    • 你们有信心跑出结果,才敢用这个模式

    特别是那些有过传统投放经验的品牌,更能理解这点。他们经历过买平台、招团队、找 KOL 却投不出效果的痛,所以反而更愿意尝试 Head 这样的方式:我出预算,你跑效果,跑出来我们再继续加钱。

    👦🏻 Koji

    你在 Head 的定价模型中,强调”按结果付费 + 公开价格”是一个革命性的突破。我看到你们把具体的行动,比如”成功触发一次自动化任务”、”产出一个合格线索”都明码标价,这确实对产品驱动型创业者很有吸引力。

    但我也好奇—— Sierra 选择不公开定价是为了适配企业级客户、复杂的目标定义和高价值交易流程。相比之下,Head 能做到标准化,是因为产品本身更智能,还是因为主动避开了那些复杂但高价值的 use case?

    👧🏻 Kay

    Sierra 不公开定价,是因为他们只做大客户,走的是高客单、低频、强服务的路线。而 Head 的客户结构完全不同——我们服务的是从 SMB 到上市公司,来自全球 200+ 个国家和地区,增长速度非常快。

    在这样的体量和节奏下,如果不标准化,就根本跑不动。

    所以我们必须在产品层面把复杂问题拆解掉,真正把“抽象”做深。这不是因为我们回避复杂的 use case,而是我们主动把复杂的事情变成了产品能力。

    今天你无论是几个人的小团队,像 Lovart 这种快速增长的公司,还是像霸王茶姬这样的上市品牌,都能在 Head 上获得满意的结果。小客户可以自助启动,KA 客户有 VIP 通道,我们在流程和服务上有分层,但定价体系是一体的,都是公开透明、按结果付费。

    我们确实很讨厌那种靠人情、靠关系、靠模糊空间赚钱的营销方式,不符合我们的价值观。我希望营销这件事水更浅一点,手更干净一点。作为一家平台型的公司,这是我们基本的担当和承诺。

    所以我们选择了这种定价方式。这不只是策略,是我们对这个行业的基本判断和价值观。

    当然,这也意味着我们会被更多人提意见。但我们敢公开定价,也敢挨骂,敢被质疑,更敢持续优化。

    👦🏻 Koji

    你认为 Head 这种公开定价的模式能否扩展到像 Sierra 那样的 Enterprise use case?或者说,你们认为未来的 agent 本就不该走定制化路线?

    👧🏻 Kay

    我们认为 Enterprise 并不等于“定制化”,而是“复杂的需求要通过系统能力来满足”。今天也已经做到了初步验证,有很多上市公司客户长期选择了我们,我们非常重视KA客户。

    Head 不是不能做 Sierra 那种 Enterprise use case,而是我们选择用不同的方法来做:不是只靠人力服务堆上去,而是靠更强的产品抽象和 AI agent 的自主能力。

    未来的 agent,不应该是每个客户都要重新训练、重新配置的“定制化工具”,而应该是能理解目标、自动拆解任务、在通用框架内灵活执行的“策略体”。

    所以哪怕是最复杂的 Enterprise 客户,在 Head 也可以用标准化的入口和定价启动,然后通过 API、VIP 通道和策略规则扩展出他们的专属路径,但底层逻辑是统一的。这是我们能规模化跑得快、全球服务 200+ 国家用户的前提。

    我们相信未来的智能 agent,终将像云计算一样——起步门槛低,可用性强,复杂性由平台内部消化,而不是转嫁给客户。

    👦🏻 Koji

    我看到 Head AI 14 天内 ARR 破 250 万美金,恭喜你们!但最近大家对于 ARR 的计算有不少争议的声音,可以展开讲讲 Head AI 是怎么算的吗?

    👧🏻 Kay

    谢谢!确实有很多朋友关心这个数字怎么算的。

    我们的 ARR 算法其实很保守——我们过去几周的周收入稳定在 5 万美金以上,我们就按这个数 x52 周,往低估算了个 250 万美金的ARR。并没有特意放大,而是用户真实消费的收入。

    我们选择公布 ARR,是因为它比日活、注册用户这些指标更能代表产品的真实价值——有没有人愿意花钱,愿意持续使用,是更底层的判断。

    当然,Head 还在非常早期,也还在快速迭代。我们相信只要产品能持续帮客户跑出结果,增长是自然而然的。

    👦🏻 Koji

    你认为 Head AI 的竞争对手是谁?

    👧🏻 Kay

    Head AI 没有“竞品”,我们在干掉一个旧的行为方式。

    我们不是在跟某个工具竞争,至少今天我们没有看到跟我们愿景一样的公司。

    我们是来让市场部这整个组织,发生演化的。

    你可以说我们跟 Jasper、Icon 等知名市场工具是同行,和达人 SaaS 和 Cold Email SaaS是邻居。

    但本质上,我们走的不是同一条路。

    他们还在帮人类“提高效率”,我们已经在让 AI 直接“接管职责”。

    我们的对手,是现在还靠成千上万个人一个个去拉资源、写话术、盯投放的整个增长体系。

    不是工具对工具,而是物种对物种。

    就像马车从来不是汽车的对手。汽车的对手是:你还在以为自己需要马车。

    所以我们不是在打 SaaS 的仗,

    我们在挑战一种认知,一种组织方式,一种落后的思维默认值。

    👦🏻 Koji

    我上周遇到一位创业者,他提到使用了 Head AI 的产品后,接单的 KOL options 中让他满意的不多。目前你们推荐给客户的接单 KOL,被客户采纳的比例有多高?

    👧🏻 Kay

    其实我挺希望知道是哪位客户提到的,我们会回查优化。

    Head 是一家成立不到一年的公司,产品上线才 15 天,就已经有了几万名用户,增长非常快,也很 viral。

    作为一个通用型 AI 营销产品,要跨越行业、认知、语言,第一天就让所有人满意,是不现实的。

    先说结论:我们确实还有很多不完美的地方。

    增长太快,带来了不均衡。今天并不是所有客户都满意,

    但我作为创始人,最关注的,也是这个问题。

    我现在仍然花时间看每一条用户反馈,问题我都知道,也非常重视。

    我们作为 ToB 公司的立身之本,不是高大上的技术,而是客户到底有没有跑出结果。

    为了收集反馈、让更多人骂我们,我的邮箱会发给所有客户,每个人都能直接约我开会。我们真的在用尽一切方式去听:用户怎么想、怎么骂、怎么改。

    客户骂我们,我特别能理解,因为增长和营销对公司来说太重要了。不重要的事,大家根本不会骂你。所以我们更该把这件重要的事做到最好。

    我们搞砸过很多事,尤其在最早的 100 个客户身上,可能有 80 个都不满意。

    但正是那些“不满意”,帮我们踩清了坑、找准了方向,让今天这个产品可以跑通。今天也许还有 30 个客户不满意,但我们在进步。我们每周都在快速迭代,每周都在解决问题。

    我们特别感谢这最早的100个客户,没有他们就没有我们的今天。包括公开场合的负面声音,我也感谢。

    我始终相信:

    最好的回应,不是发言,而是把事做对。

    我们甚至有一些客户,在一年里给了我们三次、四次机会继续试、继续优化。

    带着这些真正理解创新的信任。我只希望我们能跑得再快一点,不辜负那些始终愿意给我们时间的人。

    比如你提到的达人推荐命中率,目前客户采纳率平均在 30%-50%,确实也会有 bad case,每一个我们都会回查并快速优化。

    不同国家、行业、预算阶段、使用者的偏好的差异非常大,我们在持续调优模型、机制和响应流程。

    我们做的不是“搜索达人”,而是让 AI 真正跑通一个完整的 campaign。

    这件事过去没人真正做成过,我们初步做出来了,但它还远不完美。

    目前未经优化的复购率是 60%。

    对一个刚上线 15 天的 ToB 产品来说这不算低,

    但我们不满足,我们想做的是一个长期可复用、可复利的系统能力。

    更重要的是,我们有很多用户本身就是 CEO、市场负责人、增长专家、business owner。

    他们不断给我们反馈、挑战、建议,有些功能的灵感、有些判断的纠偏,都是他们一起帮我们做出来的。

    我们从不觉得自己在“服务”客户,更多时候,我们是在和一群真正理解创新的人并肩作战。

    这也是为什么我们愿意持续做下去——因为这件事虽然难,但它值得。

    我们公司墙上,挂着一张 SpaceX 猛禽发动机的照片。那次点火失败,引擎没全亮,最终爆炸。我们一直留着这张照片。

    不是纪念失败,而是提醒自己:耻辱的从来不是爆炸,是从不敢点火。Head 就是这样开始的。

    不是万无一失,而是点燃一切,直面失控。

    因为所有真正的推进,都始于失控。

    👦🏻 Koji

    Head AI 的壁垒是什么?这个壁垒和 AI 有哪些方面的关系?

    👧🏻 Kay

    1. 双边网络结构(品牌 + KOL)

    我们不是一个工具公司,而是一个 AI + 网络结构双向驱动的平台。

    一端是品牌客户的持续投放与复购,另一端是覆盖全球的数千万达人和创作者资源。

    中间由 AI 扮演撮合、出价、博弈和交付的角色,持续优化匹配质量、压低获客成本、提升 campaign ROI。

    这让我们拥有平台型护城河:

    • 品牌越多 → 训练越多 → 投放越准
    • 达人越多 → 博弈越强 → 价格越低

    我们既是决策引擎,也是流量入口,更是博弈调度器。

    2. 决策闭环能力(AI 能从目标走到结果)

    大部分 AI 工具做的,是内容生成或策略辅助,最后还是靠人来执行。

    Head 的 AI 从「你给预算和产品链接」,能一路决策到「找达人、写话术、定价格、发 campaign」,真正形成一个闭环执行体。

    这背后的壁垒在于:

    • 我们打通了人货场信息结构
    • 建立了适配 campaign 执行逻辑的决策模型
    • 引入博弈与 ROI 优化机制

    3. 数据飞轮 & 自我进化系统

    每一次 campaign 的执行,都会带来真实的行为反馈数据,例如:

    达人是否接受、话术是否通过、最终转化如何……

    这些数据不是被动记录,而是直接进入我们的模型训练和匹配优化系统,形成决策引擎的内循环。

    这意味着:

    • 模型越跑越准(推荐与报价更贴合场景)
    • 系统越跑越快(重复劳动越少,转化率越高)

    而这一切,只有能完成“从决策到交付”的 AI 系统,才有资格采集与学习。

    👦🏻 Koji

    你选择高中辍学创业。如果可以重来一次,你还会做一样的选择吗?

    👧🏻 Kay

    我会。

    我觉得提早进入现实世界对我来讲只有好处没有坏处。

    别人还在背课本,我已经在一线做增长、赚到第一桶金。

    很多人以为不上学就不学习,但真正的学习,从来不需要教室和监督。

    我学得比谁都快,因为我希望做出真正的结果。

    学习不是义务,而是个人兴趣。

    所以我从不觉得自己放弃了什么,我只是选择了一条更高强度的成长路径。

    如果可以重来的话我会选一样的路,

    只是这次,我会跑得更快,赌得更大。

    👦🏻 Koji

    你的微信签名是「士亦视有益于世否耳」,我理解这是在表达一种“以天下为己任”的责任感。我想知道这样的 vision 是在何时、因何事而生的?

    👧🏻 Kay

    其实它不是某一刻突然冒出来的想法。

    而是在我创业的过程中,一点点沉淀下来的。

    我一直觉得自己是个很幸运的人。虽然这条路上压力极大,永远在高速奔跑、在做突破,但我确实亲眼见到了时代的风,撞上了属于自己的红利,也真的从中受益了。

    但我从来不觉得这是理所当然的运气。

    所以越是幸运,越觉得应该付出更多。

    既然得到了,就应该去做一些有价值的事,把这份回报还给世界。

    从我创业的第一年开始,我就经常跟身边人说:“我希望我做的事情,是有意义的。”

    当时其实挺多人不理解,觉得我讲得太虚了,太早了。

    直到有一天,我刷到一个up主,讲清朝首席军机大臣刘统勋的一句话:“士亦视有益于世否耳。”

    那一瞬间我真的很震撼。

    像是穿越几百年,有人把我这些年一直说不清楚的执念,用一句话讲清了。

    “这个世界,会不会因为我,变好了一点点?”

    如果答案是“会”,那这一切辛苦、选择,哪怕是孤独,都变得值得。

    👦🏻 Koji

    Head AI 的团队有多少人?是什么配置?

    👧🏻 Kay

    我们团队不到 20 人

    除了我和 co-founder,我们有 11 位工程师(覆盖 AI、后端、前端、基础架构),3 位产品与设计师,以及 2 位负责增长、运营和支持的成员。

    整个团队非常精干,每个人都能独立做一个完整模块,从需求到交付。

    我们公司的淘汰率非常高,不是为了制造压力,而是因为我们对一个人“到底能不能打仗”有非常严谨的标准。

    我们看两件事:

    有没有创业心态,能不能把事做成。

    不看履历、不看 title,只看你能不能解决问题。

    前段时间,我们坐在办公室,看 Head 自己开发布会。

    我坐在角落拍了一张照片。那一刻有点不真实——

    像是在看一个你亲手创造的生命,第一次独自站上舞台。

    那不是代码,是人类意志的延续。

    看着一群二十出头的年轻人坐在一起,兴奋、专注、闪闪发光,

    站在这个世界变化迅速的十字路口,

    我只觉得:有这样一群人一起走,真好。

    👦🏻 Koji

    你认为你们是 AI Native 的一个公司/组织吗?为什么?

    👧🏻 Kay

    我们就是一家为 AI 而生的公司。

    从第一天起,Head 就不是“让 AI 辅助人类工作”,而是反过来,

    我们在让人类辅助 AI 把事情跑通。

    AI 决定投放策略,AI 主导选人谈价,AI 执行 campaign,人类只做一件事:设定目标和预算。

    我们不把 AI 当工具,而是当作一个新的决策主体,一个新物种。

    我们在海外发了一支宣传片叫 《Think Beyond》,核心就是这个观点:

    AI 不是工具,它是一个新物种。与其让它听人类指挥,不如交出权力,看看它能做到什么程度。

    这是我们和市面上“AI 增强工具”的本质区别:

    他们在保留旧组织,我们在构建新物种的工作方式。

    这才是真正的 AI Native,不只是用了 AI,而是从底层承认它的独立智能。

    👦🏻 Koji

    20 岁就做创始人和 CEO,我猜你应该是团队中最年轻的吧?你如何管理比你年龄大的同事们呢?

    👧🏻 Kay

    在 Head,没有人是靠年龄和资历赢得尊重的。我们只有一个标准:谁能把事情做成。

    我从不觉得“比我年长”是管理的难点,反而一直觉得这是一种互相选择的关系。

    愿意加入一个 20 岁 CEO 的人,本身就不是来找上级的,而是来找方向和战场的。

    他们不是在等安排,而是主动冲锋,一起打仗、一起赢的人。

    我不会去“装成熟”,也不会模仿什么管理套路。

    我的角色不是站在上面指挥的人,而是那个在混乱中做判断、扛结果的人。

    其实我从来没在“管人”,我只吸引那些不需要被管、只认结果的人。

    至于不适配的,我也从不犹豫。

    我 18 岁在上家公司时就扛着带着团队往前走的压力,那时候没有 CEO 的 title,

    但我一样得推动所有事、带动所有人。当你没有权力,还能影响别人,那才是真正的影响力。

    所以今天这张写着“CEO”的名片,只不过是把我早就承担的责任,盖了个章而已。

    别人靠履历赢信任,我更喜欢靠结果。

    我觉得我对“做成”有病态的渴望。

    它逼着我全力以赴,也逼着别人相信我。

    👦🏻 Koji

    在 AI 领域,你认为 2025 年一定会发生的事情是什么?

    3 年内呢?

    5 年内呢?

    👧🏻 Kay

    2025年一定会发生的事:

    AI 不再只是建议工具,而是直接操盘营销。

    写文案、谈达人、跑 Cold Email、投广告,AI 已能闭环执行。不是“辅助人类”,而是“替代动作”。营销部门内已经能替代多个岗位。老板会算账:一个 AI agent,跑的是过去一个团队干一周的量,而且没有请假、跳槽、低效会议。对中小公司来说,这不是科技浪潮,是生存刚需。

    3 年内(到 2027):

    没有 AI 原生结构的公司,会被拉开生死差距。

    就像错过社交媒体时代的品牌逐步掉队,未来没有 AI-native 增长栈(自动决策 + 自动执行)的公司,将陷入“人效低 + 预算贵 + 决策慢”的困境。AI 不再是提效工具,而是拉开增长上限的“结构性红利”。这不是选不选择的问题,而是早晚被迫重构的问题。

    5 年内(2030 前):

    组织结构会围绕 AI 被彻底重构。

    未来的公司不是“一岗一人”,而是“AI + 少数人类作为优化器的角色”。一个 Head AI 可以替代市场部的大量重复动作,公司将只保留最关键的角色:策略判断、品控审核、模型调整。AI 是执行主力,人类是辅助角色。组织会越来越扁平,越来越快,越来越自动。

    原文链接:「一人干掉整个市场部」| 对谈 Head AI 创始人 Kay