Category: AI专栏

AI工具集收录最新 AI 行业创始人访谈与行业趋势分析报告。洞察 AI 应用和技术走向,如创新AI应用、大模型训练、多模态融合发展,以及在医疗、金融等多个垂直领域的实践探索,帮你深入了解 AI 行业的前行脉络与未来机遇,助力把握科技浪潮。

  • Pollo AI 创始人阿彪深度专访:SEO 怎么做?红人怎么投?付费广告怎么搞?

    在 AI 的创业圈子里,有几位极其低调的创始人,他们的产品已达到千万美元甚至更高的年收入,但几乎从不公开分享,十字路口本周的嘉宾阿彪就是其中一位。

    阿彪是 AI 效率工具 Hix AI 和 AI 视频工具 Pollo AI 的创始人,这两款产品不管是用户规模、收入规模还是产品体验,都在出海的第一梯队。我们多次邀请阿彪来做客「十字路口」,最近他终于被我们打动了,希望通过分享交些新朋友,招到更多优秀的新人加入他的团队。另一方面,他也希望自己的经验能帮到更多 AI 时代出海的创业者。

     

    嘉宾阿彪:快问快答识其人

     

    🚥 Koji

    我们开始第一个环节,来和阿彪一起做一些快问快答。请问阿彪的年龄是?

    👦🏻 阿彪

    我是 91 年的。

    🚥 Koji

    毕业院校?

    👦🏻 阿彪

    我毕业于中山大学。

    🚥 Koji

    创业前在哪里工作?

    👦🏻 阿彪

    万兴科技。

    🚥 Koji

    你创业几年了?

    👦🏻 阿彪

    我是 18 年离职出来创业的,然后前两年是自由职业,后面 2020 年就是组建的公司。

    🚥 Koji

    出海几年了?

    👦🏻 阿彪

    七年了

    🚥 Koji

    创业后你们公司做了多少个产品了?

    👦🏻 阿彪

    不下 20 款。

    🚥 Koji

    现在在做的产品是什么?

    👦🏻 阿彪

    现在主要就是大家知道的那几个,比如说 Hix AI 和 Pollo AI.

    🚥 Koji

    目前公司多少人?

    👦🏻 阿彪

    90 多个人。

    🚥 Koji

    方便说一下收入规模吗?

    👦🏻 阿彪

    千万美金级 ARR。

     

    Pollo AI:打造一站式AI创意平台的愿景与挑战

     

    🚥 Koji

    最近阿彪应该花时间最多的产品是 Pollo,对不对?可不可以给我们来一句话安利一下 Pollo?

    因为今天做 AI 视频的产品感觉成千上万,Pollo AI 可谓其中的佼佼者。「十字路口」其实最近也访谈了四五位做 AI 视频的创业者。想听你安利一下 Pollo,给我们讲讲你做出来的 Pollo 它有何不同?

    👦🏻 阿彪

    我觉得首先来说,我们想把它打造成为一个一站式的 AI 创意创作平台。

    什么叫一站式呢?那就是各个模型都只是它的一个工具而已。你所挑选的一个工具,你想要什么就用什么。创意创作平台,我认为它就是包含了素材的管理、社区以及生成和编辑。

    🚥 Koji

    和其他的在 AI 视频或者 AI 图像领域这样的创意创作的工具产品相比,你觉得 Pollo 最大的不同是什么?

    👦🏻 阿彪

    最大的不同是全家桶吧,我觉得它几乎什么都能包括,它其实用户分层是比较明显的。

    我们想到第一类就是一些专业的创作者,图片视频这一块的。我们打算把它作为 studio 的这种模式,让一些专业的创作者可以在上面进行创作。

    同时如果只面向专业创作者,它会比较垂直,同时人群是相对不那么大的。那如果想切更大的市场,那就只能全家桶,只能够更泛一点,做泛娱乐型相关的,也就是说做了一些 AI 图片和视频相关的特效。

    🚥 Koji

    听起来你又想做普通用户,又想做专业用户,那会不会就是有一种因为用户画像不清晰,导致最后产品做出来变得非常臃肿的风险?

    👦🏻 阿彪

    它确实可能会有这样的问题。

    看产品的终端,其实从目前现有情况来看,其实剪映也存在类似的情况。以 APP 为例,它既有那种想玩一下特效的,也有那些专门想剪一下视频的。在它的 web 端当然就非常清晰,它就只做专业创作者,不做那些特效相关的东西了。

    在我们目前现阶段来说,我们 web 端肯定就是两者都会包含。它确实可能会让人觉得臃肿,一下子无所适从。但是我们期望通过一种比较好的用户体验,去尽量满足这两种人群的划分。在我们下一个大版本的迭代里,应该就能够看到这一点。

    🚥 Koji

    下一个版本大概是什么时候?

    👦🏻 阿彪

    应该是需要一个半月左右。

    🚥 Koji

    差不多就是六月份左右了,我们就能看到新的版本,非常期待。

     

    Pollo AI 的诞生与迭代:从简单套壳到多媒体平台

     

    🚥 Ronghui

    可不可以说一说当时你具体做 Pollo 或者是当时在计划这个产品的时候,看到哪些特别具体的机会点?

    以及周围的人当时都在干什么?为什么你觉得你选的这个方向是更好的?

    👦🏻 阿彪

    其实我们当时做这个并没有非常宏大的战略规划,只是觉得我们当时同时在做 AI 音乐和 AI 视频。

    最初我们更看好音乐,先做了音乐后做的视频,但后来发现视频跑得更好,这是超出我们预期的。

    当时我们的想法很简单,那个时候应该算是非常早期,可能 API 还没有公开,我们就通过内部关系看能不能接入。同时也发现他们正在开发这个 API 并打算发布,所以我们算是最早接入他们 API 的团队。

    🚥 Koji

    你刚才说接的是谁的 API?

    👦🏻 阿彪

    可灵。然后我们接了它,就去发布上线。

    🚥 Ronghui

    当时是哪个时间?

    👦🏻 阿彪

    应该是 2024 年的 8、9 月份的样子。

    当时我们发布的时候,市面上的 AI 视频产品很少,存在的基本都是大模型公司,简单套壳的基本很少。我们的想法也很简单,就套个壳试一下,没有想太多。

    产品后来的演变是随着我们对这个领域认知的不断提升,对一些行业和产品的深入了解,逐步进行的。

    🚥 Ronghui

    就你刚刚提到的,在这个过程中,随着对行业的了解的逐步增加,有哪些你现在回头想是特别重要的一些对行业的了解?

    👦🏻 阿彪

    首先我们刚开始做第一个版本的时候,其实是单纯套壳,那时候我们还没有在产品里显示出我们用的是可灵的 API。

    后来我们的第一个思维路径是发现,好像可以做个视频领域的 POE。所以我们就陆陆续续接入了市面上其他所有开放的视频模型 API,这算是第一个迭代。

    第二个迭代,我们发现用户在做视频创作时,他们更多是用图片生成视频,而不是文字生成视频。为了让用户有更好的生成效果,我们就开始做图片生成,接入了市面上所有的图片生成模型。这个时候我们就变成了一个图片和视频的多媒体平台。

    在这个基础上,我们想让用户体验更流畅,让他们生成的图片可以顺便生成视频。在生成图片的过程中,用户可能对图片有一些轻量级的 AI 编辑需求,比如超清、擦除某个地方、去背景等等。

    我们就做了图片的一些轻量级编辑工具,让用户在处理图片时,可以轻松编辑后直接生成视频。生成视频后也有相关轻量级编辑功能,比如加背景音乐、加音效,或者将视频变成慢动作、视频超清等。

    所以我们就做成了目前这个版本。整个过程是根据自己对产品的理解,对用户的理解,对市场的理解,分几个阶段进行产品演变。下一个产品迭代,大家到时候可以看到,它会基于认知的更新来迭代。

    🚥 Ronghui

    你们当时推出的时候是有特别针对某个市场吗?还是说就先发出来看一下哪个市场反响比较好?

    👦🏻 阿彪

    因为我一直是做海外,做英语语言市场,所以没有专门针对某一个国家或某几个国家。我一上来就是英语加多语言策略。这是我们这么多年出海经验积累下来的一个常规操作。

    其实严格来说,我肯定想主打某一个国家。比如说美国,谁都想吃这块最肥的蛋糕,但它不好打。

    美国市场首先竞争激烈。其次,如果想要做很多 KOL 推广,就面临两个问题:

    一是我们没有线下的关系基础,别人很可能就不理会我们;

    二是用户对产品要求非常高,看到是套壳产品可能就不会关注。

    这不是单纯用钱就能解决的事情。就算我想打美国市场,比如砸下去 10 万美金或者 20 万美金找红人,也不是想做就一定能做到的。理论上来说,针对单一国家进行突破肯定会更好。

    但还是那句话,这不是我想做就能做到的。目前来说,我们更可行的方式是全面铺开,把能接触到的红人先做一遍,把最低垂的果实先摘一遍。这样每个国家都能有一些收入,加起来效果也不错。等到我们有一定实力,产品真的能够被那些调性和要求比较高的头部 KOL 认可时,我们再去突破他们。

     

    Pollo AI 流量增长三板斧:SEO、红人与广告

     

    🚥 Koji

    其实朋友们知道阿彪要来上十字路口之后,好多人都跟我说特别想从你这里听到一些做流量做 SEO 的经验。因为感觉这个江湖传闻…

    🚥 Ronghui

    要做这些东西一定要先去阿彪那里学习一下(笑)。

    🚥 Koji

    对,所以我也很想请教一下,Pollo 问世到现在其实也才几个月不到,已经做到了很稳定的每个月差不多 400 万左右的访问量。

    想听你讲一讲这个流量成绩,你是怎么做到的?

    👦🏻 阿彪

    首先其实 SEO 只是其中的一环。

    我们公司目前 SEO、红人和广告都是有在同步推的。这个产品不单纯只是靠 SEO 而起的量。即使是广告,我们也分谷歌广告和 FB 广告。也就是说,这是三板斧齐下的情况下,它才达到这么样的一个水平。

    同时也是我们之前出海积累了好几年的经验,才达到这么一个水平。也就是说,当你看到我吃饱的时候,我吃第十个包子吃饱的时候,其实我前面可能已经吃了九个包子了。可能那九个包子是大家没看到的。

    如果要具体说是怎么样做到的,那我觉得就是从刚刚这三个维度:SEO、红人和广告。

    从 SEO 的角度来说,我觉得如果进行分析的话,其实也很简单。一个是主体的功能,第二个是小工具,第三个是模型,第四个是文章。你把这些页面你都先给它做了,你保证你这个流量过来,你要对应的承载的着陆页。你有了这些着陆页之后,你才有流量过到这里来。

    举个例子,比如说你有 100 个页面,每个页面十个流量,那你一天就有 1000 个流量,逻辑是这么个逻辑。所以你得先有这 100 个页面,你才有这一个页面 10 个流量的可能。所以就得先按照刚刚我说的这几个模块去做对应的页面,这是第一个。

    第二个的话,你可能还需要做一些 PR 和外链的推广,让这个网站有一些权重,有一些信任背书,从而能够在排名上有所提升。

    然后当然还有很多其他的细枝末节。比如说怎么样更好地优化用户体验,怎么样让这个东西更 SEO 友好,更符合爬虫等等。这些是更细节的部分,大概的框架是上面的这个框架。

    🚥 Koji

    之前有篇公众号的文章转发量还蛮高的。我看到他是专门写 Pollo,然后说你们是谷歌 SEO 的新卷王。

    然后在里面分析了一些你们做 SEO 的方法论。我不知道你看没看过那篇文章,你觉得他写的怎么样?准不准确?

    👦🏻 阿彪

    大体上说的都没有问题。虽然说我们被称为谷歌 SEO 新卷王,但是我觉得这里面卷王中的卷王应该是 Monica。我看他们比我们卷多了,他们在 SEO 这一块我觉得比我们做得更好。

    🚥 Koji

    这个怎么讲?

    👦🏻 阿彪

    基本上市面上所有 AI 相关的或者工作场景相关的一些工具,他们都做了,他们比我们更卷。

    只要是文章基本上都写,我们没有做得这么彻底,我们没有这么卷,所以我觉得它是真正的卷王,无论是产品功能层面还是 SEO 层面,他们都非常卷。

    🚥 Koji

    其实聊到这儿,我觉得阿彪之前讲的好像也没有什么特别之处,也没有讲什么大家貌似并不知道的奇巧淫技等等。你讲的更多是基本功,或者刚入行的时候看一些比较入门的教材,好像就知道的一些常识。

    是因为你觉得 SEO 就是常识,基本功的不断练习,不断重复,还是说你藏着什么秘密没有给我们讲?

    👦🏻 阿彪

    其实大的框架大家都是知道的,我觉得主要拉开差距的在在一些很多的细枝末节。

    🚥 Koji

    那你可以讲一些这样的细节吗?

    👦🏻 阿彪

    可以,举个例子,比如说在 Pollo 上面做了一个比较小的创新,那就是用户来到这儿,他直接就能看到这个工具是怎么用的。他不需要登录进入后台。而目前其实很多传统的工具或者网站或者产品,前台着陆页就是个展示。

    点击 「Try it now」去到后台,再去用。这个时候其实用户如果他想使用 A 功能,但是他去到后台他要找老半天才能找到 A 功能,这是一种比较糟糕的用户体验。但是在我们这儿,用户来到我这儿,A 功能就直接能用。登录前和登录后,它都长这样子,就没有非常明显的前后台的界限。

    但是我又为了让谷歌在这个页面上获得更多信息,如果我只有这个功能,没有一些相关的文字介绍,那这个是不利于 SEO 的。所以在登录前他看到这个页面,上面半部分是功能区,下面半部分是文字介绍区,或者是样品展示区,或者怎么用等等相关的一些内容和介绍。如果他登录之后,它就变成沉浸式的功能区,下面的内容就会被隐藏掉。

    这个是我认为 Pollo 这个产品非常大的一个创新。在 SEO 层面上,它既兼顾了 SEO 又兼顾了用户的体验。

    其实 SEO 的核心也是用户体验,你是否能够给用户很好的体验,你是否能够交付给用户一个满意的答复。这个答复可以认为是他想获取某个信息,可以是使用某个产品,它都是一种交付。

    🚥 Koji

    前面当你提到 SEO 分四个部分的时候,第三个部分你说的是模型,可以稍微展开讲一讲这个吗?

    👦🏻 阿彪

    其实这个就是因为市面上视频和图片模型有很多种,比如说可灵、Runway、Sora、Luma、海螺等等。这些模型其实用户会去搜这个品牌词,那我们做一个这样的内页,我们本来也是接了他们的模型的。

    用户如果搜可灵 AI,那他可能会去到可灵 AI 的页面,但他也可能会来到我们这个页面去使用。这个就是我说的模型页面。

    🚥 Koji

    了解了,这其实和做 SEO 经常用的一个手法就是子功能页面,但是感觉竞争应该更激烈。那这么激烈的大词的竞争,你们要怎么才抢得到?

    👦🏻 阿彪

    其实 SEO 它是个玄学,你很难说我一定能排上去,说实在的我也保证不了。

    很多情况其实要去排美国市场是很难的。举个例子,同样是英语语言,可能在其他英语语音国家,比如澳洲、新西兰、新加坡这些区域,Runway 这个词我可能能排到前面去,但在美国我可能排不上去。我吃的可能是这一部分的流量。

    或者是因为 Runway 没有做多语言,比如说没有做西班牙语、葡萄牙语,那在这些语言里面搜索时,我是做了多语言的,所以我的排名可能会相对靠前一点,我能够接到这一部分多语言的流量。

    🚥 Koji

    今天大家都热议的一个新话题,就是用 AI 来写 blog,然后去获得谷歌 SEO 的流量。

    这件事情你怎么看?你有实际操作过吗?有拿到什么成绩吗?

    👦🏻 阿彪

    首先我觉得我们在 AI 写 blog 上面的经验应该算是不多的。我们会用 AI 来进行辅助,一半 AI 一半人工。然后我认为单纯的 blog 来说,用户会更挑剔一点。

    目前有了一个新的风潮,那就是写得更像 human,更像人,更像一个朋友。像我跟你对话一样地娓娓道来。举个例子,比如说我要写一篇「十个最好的 AI 视频工具」,我的开头就会说我测试了很多工具,然后我在这方面有很多经验。现在我跟你说他们哪些地方有哪些问题,就是像一个朋友一样写这篇文章,反而会更好更有吸引力。

    为什么会这样呢?其实就是跟现在大家吃饭都能吃饱,但我会期望能吃得更好一点。就是用户更挑剔了,用 AI 生成的内容,它都一板一眼的,很机械,很冷血,没有什么人情味儿。那这个时候你有人情味儿,它就是不一样的点,用户挑剔的就是这个点。

    🚥 Koji

    为什么你没有采取完全交给 AI 写这样的办法呢?

    👦🏻 阿彪

    它肯定是做不到这种(高标准)的,直接做甩手掌柜不现实。

    🚥 Ronghui

    有没有什么别人在做的、你看到的,你觉得是一种普遍性的误解或者错误?

    👦🏻 阿彪

    在 SEO 层面第一个误解和错误就是以为总是不用花钱,其实是要花钱的,只是它是间接式的。

    比如说我写文章要钱,我做页面做功能要钱。然后第二个,我做外链的推广,我要提高我的权重和 PR 这些也要钱。

    它不是说纯薅羊毛,薅 Google 的羊毛,它不是这个逻辑。还是要花钱的,但它确实是 ROI 相对比较高的一种方式。

     

    红人营销与广告投放:时机、爆点与专业团队的重要性

     

    🚥 Koji

    做外链的时候,在不同的 SEO 微信群讨论组,我听到过很多不同的观点。

    有些人是鼓励大家一开始都拿免费的外链,然后也有朋友讲一上来直接就应该买高质量外链才有价值。比如说 1000 美金以上的外链是值得买的,否则就不要看了。

    那从你的经验里面,你会建议大家怎么搞外链?

    🚥 Ronghui

    这个钱怎么花是花在刀刃上?

    👦🏻 阿彪

    严格意义上来说,谷歌是不允许买外链的。所以对于买外链这事儿,对于一些它可能认为无效的外链,谷歌会让它们不起作用。

    这个大概的逻辑,其实我们从一个网站的生命周期去想就可以了。比如说一个刚刚出来的网站,它一下子有个很信任它的人说它很厉害,这样的外链对它来说是不自然的。一个网站刚开始的时候,它一定是很小的。它可能会先有一些比较一般的外链,或者直接就是一些比如说 Medium、Quora 等等这些很普通的外链,这是很常规的。然后慢慢地开始会有更多的人关注它,有一些高质量的外链。

    当然这并不意味着说你刚开始做个三两个、三五个高质量的外链,你就会受到惩罚。肯定不会这样子。在谷歌的眼里,你外链要遵循一个自然发展的逻辑,但它也会有一个容忍度。他不是说你做了三五个,那就会怎么样惩罚你。那这样要搞竞争对手太容易了,谷歌肯定不会让这样的事情发生。

    比如说你一开始完全没有差质量的外链,全部都是高质量外链,1000 美金以上的。我公司有钱,我土豪,我一下子砸了十万美金下去,那可能这个时候会适得其反,因为这是不自然的。

    你做外链时,就想象这是一个正常的网站,它自然发展,它的外链、它的速度质量、它的频次应该是怎么样的一个节奏,你按这个节奏去走。比如说我这一个月做 100 个外链,第二个月我不做了,第三个月我又不做了,第四个月我又做 100 个外链。你这样子是不自然的,对吧?

    一个正常的进展和坡度是,我每个月大概二三十个或者十来个,我逐渐地增加,或者我逐步就保持这个量级,不用波动太大,这里一下子有一下子没有,这个就不自然。

    🚥 Koji

    其实我感觉身边做 SEO 的朋友经常都有一种无力感,就觉得做了好像很久了,也看不到反馈。也不知道自己今天在做的事情会不会在一个月、两个月之后,甚至永远也都不会生效。

    那你怎么看呢?你有什么样的建议给这些感到无力的朋友们?

    👦🏻 阿彪

    首先 SEO 肯定是相对会比较慢的,3 到 6 个月你才能看到效果。

    如果中间有一些改动不能得到及时的反馈,你也不知道你做的这个事情是否是正确的。尤其是在你还经验不太够的情况下,很多人可能做了 3 到 6 个月没什么效果,这是有较大可能的。尤其是当他不是一个非常专业的人的情况下。

    因为 SEO 是一个非常系统性的工程,它包括了内容,包括了网站结构,包括了 URL 结构、包括了外链等等,包括了关键词的方向以及竞争度。它影响因素非常多,它是比较系统的一个工程。

    🚥 Koji

    在这个时候往往大家就会想着,我去请一个资深的 SEO 顾问,或者我来招一个有 SEO 经验的一个员工。

    不管是请顾问还是招员工,你觉得要去考验一个人做 SEO 做的好不好,那最应该问的关键的考察的问题是哪一个或者哪几个?

    👦🏻 阿彪

    第一个我觉得应该是看他从 0 到 1 怎么做的。比如说以某一个网站为例,他的思路是怎么样的,就是他脑海里面要有大概的一个思路框架,我觉得这个是非常重要的,大部分的人他其实是没有思路框架的,他只知道其中的某一个模块。

    第二个我会问他一下对 SEO 的一些理解和认知。他如果只停留在说找关键词做页面,做外链,那我会认为这种认知是比较浅的。

    🚥 Koji

    那怎样的回答我们可以认为他的认知算深的呢?

    👦🏻 阿彪

    看维度。如果说你要再往深一个维度,我觉得最简单的一句话就是满足用户的意图。

    🚥 Koji

    在 SEO 的这个领域有没有什么你认为是常识,但是有蛮多人都不认可,或者说他们不知道的事儿?有这样的事儿可以给我们讲一些吗?

    👦🏻 阿彪

    他们总觉得 SEO 是万金油,它能够做很多很多事情。但是 SEO 它有它的瓶颈和天花板,它就只能做这么多量,它不可能撑起来。

    比如说你做千万美金甚至更高,这不可能的,肯定还有一些其他的层面在的。所以就是我们要知道每一个营销方式它的天花板能做到多少,它也有它的局限性,不是每个行业都适合。

    🚥 Koji

    你觉得做 SEO 做的好的人和做的顶尖的人,他们之间的区别是什么?

    👦🏻 阿彪

    我觉得顶尖的人更加会有架构思维,会有全局思维一点。

    第一他需要对这个产品的定位或者未来发展的方向和认知要有一定的了解。

    第二个是他还要懂营销,懂 SEO 这一些东西。怎么样去跟自己的产品去进行很好的结合,让它既符合用户的体验,又符合 SEO 这一块。同时它整个的脉络是清晰的,我觉得这个是有一定的难度的。

    🚥 Ronghui

    你有没有面过什么人,他说了什么对 SEO 的理解,让你觉得非常印象很深,觉得很懂?

    👦🏻 阿彪

    这个还真没有,我们公司招的 SEO 都是之前没有经验的。然后我们直接自己写了一些培训文档,在内部培训的。

    🚥 Koji

    如果没有办法加入你的公司,跟着你去学,他必须得在网上自学。那你会推荐他去看什么样的文档,或者看哪里的教程?

    👦🏻 阿彪

    我觉得这个可以以我自己的亲身经历说一下。

    我在万兴工作的时候,首先我很感谢万兴给了我一个平台,让我去实践和操作一些 SEO 相关的东西。同时我自己其实跟其他同事不一样的一个点是在于我看到很多英文 SEO 博客,像 Ahrefs,像 Semrush,像 Authority Hacker,像 Backlinko。他们的 SEO 文章都非常的专业顶级,肯定是最前沿的。他们会时不时的去更新这种材料,在我认为是全球最好的 SEO 学习资料。他们的文章写的非常的通俗易懂,用词都非常的简单,然后图文匹配排版也很非常舒服。

    我还记得我当时在万兴工作的时候,我下楼拿盒饭等外卖的时候,都在拿手机看英文 SEO 的文章。我看到那些东西,我都觉得这实在是太干货了,太好了。我如饥似渴的像海绵一样吸取里面的养分。

    我觉得如果你看 100 篇文章,基本上理论知识肯定是没有什么太大的问题的。然后你再看一些做得好的 SEO 网站,你看个 50 个到 100 个,你基本上在样板案例上是没有什么问题的。其实好像也没有那么难,看一百篇文章也花不了那么多时间,看一百个网站。你看看他们的架构,看看他们的写法,URL 布局等等。好的东西你看多了,就自然知道该怎么做了。

    🚥 Ronghui

    有一种熟读唐诗三百首的感觉。

     

    Pollo 红人营销为何 「硬推」?「爆点」缺失下的突围之道

     

    🚥 Koji

    前面我们聊了很多 SEO,接下来我们也想听阿彪讲一讲红人营销。红人营销在 Pollo 里面应该发挥了不小的作用。

    👦🏻 阿彪

    其实 Pollo 做红人相对来说也不是那么容易做的,属于硬推的方式。

    🚥 Koji

    是因为刚才提到的 Pollo 并不是一个在技术上或者在产品交互上有非常大的创新的产品,所以它让红人没有兴奋感,没有向往感?是这个原因吗?

    👦🏻 阿彪

    这个是原因之一。第二个是他没有爆点,没有噱头点。举个例子,比如说我是有自己的大模型,因为你生成的东西是你自己的技术,你厉害是吧?这个是有 buff 的,是能加分的。

    但是我们是个套壳的。其实红人营销它就讲究一个爆点所在。就你这个产品是否有噱头点,有争论点,有有趣的点,用户才会去点赞、评论、分享。因为他觉得好玩有趣,或者有争议、有争论,才会爆。要不然干巴巴的去推这个东西,它也很难推。

    这里我举个典型的例子,比如说 GPT-4o 它发布了一个图片生成功能,它之前最大的一个亮点就是 Chat。这是一种很大的交互上的更新,一种创新,它确实很好。但是如果它仅有这个,肯定达不到现在的这种传播量级。

    它达到了真正的传播量级,是因为它做到了吉卜力风格。这个东西很有趣,大家都玩起来觉得很好玩,这个才让它的传播量级更上一个 level。这个就是它好玩,用户都想要玩,都喜欢有趣。它去刷短视频,他不是来听你正儿八经说你这个东西怎么用,那是很枯燥的,他想要的就是好玩。再举个例子,比如说 Heygen 之前出圈的,它就是因为郭德纲说英语,没说中文,大家觉得这个很有趣、很好玩,大家才知道原来它是做数字人的。

    🚥 Koji

    我之前其实自己做了一个消费品牌叫「躺岛」,是卖枕头的,躺岛其实取得了还是蛮好的成绩。在天猫、京东我们经常都是在枕头领域这个品类的第一名,直到今天只要是大促也都是在第一。枕头这个品类其实卖了 100 年了。

    为什么我们做了一个新的枕头就可以卖到全网第一?背后也有很多差异化,比如说我们这个枕头叫猫肚皮枕。首先很多人听完之后就会感到好奇,就会想要打开看一看这到底是什么。同时我们从色彩上、从视觉上、从材料上、从造型上都和大家常见的枕头们拉开了差距,有非常明显的差异化。

    我们把这个问题聊回来,阿彪刚才也提到说推红人的时候是硬推,是因为没有爆点。我刚讲的猫肚皮枕,它有明显的差异化。我也好奇,对于这样的产品硬推要怎么推呢?如果推出去 ROI 不好的话,那你现在的选择又是什么呢?

    👦🏻 阿彪

    这些东西也不是我刚开始做 Pollo 的时候就知道的,也是交了学费才慢慢逐步有这个感知的。

    当时也是硬推,也没有多想,就是让同事去做机械化的工作,大家去硬推这个东西。它的 ROI 肯定也不好,但即使是现在我也不知道 ROI 怎样,因为这很难去衡量。

    那我们现在怎么推?我们主要就是推特效了,一些好玩的特效。但是好玩的特效也有问题,用户觉得好玩他点个赞,OK,然后他就跑了,不付钱。

    🚥 Koji

    其实我看到有一些 KOL 在介绍 Pollo 的时候,会非常强调你们是一个全家桶产品,一站式可以用到最新的视频大模型。

    👦🏻 阿彪

    这是我们最新在做的一个尝试,因为这确实是它的一个亮点。但是你要说这种尝试效果一定有多好或者怎么样,还是那句话,它会比较难以衡量,或者说我们还没有做到那么精细化地去衡量。

    🚥 Ronghui

    你会怎么来衡量目前尝试的这个方向的结果呢?

    👦🏻 阿彪

    我们衡量结果主要是按照 CPM 来,我们也没有衡量结果吧,就是按照预算来衡量,我按 CPM 来计算。如果它的 CPM 比较低,那我就会做。至于做得好还是坏,就看播放量了,看最终的 CPM。

    🚥 Koji

    你会觉得 Pollo 现在是完全靠营销吗?

    因为听起来,至少在目前,这还是一个套壳产品,是一个全家桶 N 合一的产品。所以当我们说到 SEO,说到红人,说到广告,以及你们在今天做到的成绩,你觉得有多大的比例是营销带来的,又有多大的比例是因为你们的产品功能、产品创新所带来的?

    👦🏻 阿彪

    首先第一个我觉得是时机,时机也是很重要的一个点,我们做的相对早一点点,这是第一个。

    第二个是我会觉得营销应该还是能够占一半的比例。我觉得虽然它是个套壳的产品,但是它在交互上还是比较不错的。

    包括我们下一个版本的交互,也会有非常大的一个创新。这里我就先卖个关子,先不说了,到时大家可以去体验。就是我们会逐渐地把它真正当做一个产品来做,而不是个套壳工具。

     

    复盘产品成败:时机、核心价值与「学费」中习得的认知

     

    🚥 Koji

    创业的时机选择非常重要,在 AI 时代尤其如此。你有什么技巧去把握时机吗?做了几十个产品,不管是做 Hix 还是做 Pollo,现在回头看当时的时机选择都不错。大家都说唯快不破,但除了快之外,还有哪些把握时机的心得吗?

    👦🏻 阿彪

    首先我觉得 Hix 肯定是没有把握好节奏的,因为做得晚了一点。它 2023 年 5 月份才开始做,那时 ChatGPT 都已经火过几波了。Monica 才是真正把握好了节奏的那个公司,他们是吃到了这波红利的,我们肯定没有。

    然后像你刚刚说的,如何去找到这种新的东西,或者说把握好时间节奏。我觉得就是要时刻去关注最新的一些产品或者技术的动态,或者开源的方案。然后去想它怎样应用在我的产品里面,或者有哪些新的应用场景,要持续不断地去想这些东西。

    像我们,我可能和其他公司不一样的是,我们会做很多个产品,我可能就没有那么专注。

    🚥 Koji

    你觉得这是好事儿还是坏事儿呢?

    👦🏻 阿彪

    这种方式应该说有好有坏。

    比如像我这种情况,我做过这么多产品,却好像没有哪个产品能从 10 做到 100,这是它的坏处。可能因为我不够专注,不够深入。就我整体的性格而言,我应该不会单纯只寄希望于其中某一两款产品。主要是我本身比较喜欢做新东西。

    🚥 Ronghui

    你比较喜欢从 0 到 1 ?

    👦🏻 阿彪

    对,我会觉得从 0 到 1 是让我兴奋的。我天生就想去做这些新东西,喜欢去探索,想去尝试。

    如果老是盯着同一个东西,可能大半个月、一两个月都没什么新东西可以做,或者做出成果来,我就会觉得没什么意思。当然,理论上我可以把现有的事情做得更好更深入,但我就是没那么专一。

    🚥 Koji

    你觉得会有一些遗憾吗?就在过去两年,你并没有专注做一件事情,而是把自己的经力给分散掉了?

    👦🏻 阿彪

    没有,在我目前看来,我认为这是正确的决策。

    🚥 Koji

    为什么呢?

    👦🏻 阿彪

    因为如果我只专注在一个上面,我觉得我可能不会有更多新的好的产品思路和或者说产品落地出来。而我如果单纯只垂直在某一个事情上面,可能它也并不会有那么好的成绩出现。

    🚥 Ronghui

    这个还蛮有意思的。因为我们之前有一个嘉宾 Patrick,他说回头看,觉得应该当时更专注。在他的那期播客里面他聊到他早期也做了挺多尝试。回头看,觉得自己当时有点低估了产品的潜力,应该当时把更多的精力集中在做这件事儿上。

    👦🏻 阿彪

    其实我觉得还是要具体问题具体分析。

    像一些比较偏 B 端的产品,它是可以做得很深入的。而一些比较偏 C 端的产品,其实没啥好做的,你做了一年,基本上产品就做到头了。所以这取决于两个前提:第一是产品的属性,第二是它是否真的有潜力,它的天花板是否足够值得你去专一投入。

    🚥 Ronghui

    那你创业的话,你给自己定的目标是什么?

    👦🏻 夏勇峰

    我没有明确的目标,创业就是我的生活。我不创业,不做这些产品,我也没事可干。

    如果说要有个目标的话,能够得到一些价值体现,让我有成就感、自豪感、自我满足感,这是比较不错的。同时也能得到一些同行的认可。

    🚥 Koji

    其实我听你说自己的创业目标时,感觉还蛮松弛的。但会不会有一些 VC 听了之后就会觉得,这个人怎么这么松弛,他好像不是很有野心。

    所以我还挺好奇,有一个小问题:你有没有特别喜欢的企业家,或者你希望能够成为的企业家榜样?

    👦🏻 阿彪

    你说的这种野心要看在什么场合跟谁说。

    我肯定不可能在这个场合跟别人说,我要做一家几十亿美金的公司。我觉得我不是这种人,因为这不是我的风格。我更希望有些东西隐藏在自己内心,默默地守护它就好了。我比较喜欢的企业家是雷军,他在功成名就的时候还在一线做汽车。

    🚥 Koji

    那你买雷总最近的小米汽车了吗?

    👦🏻 阿彪

    我没有车,我也没有计划买车。如果有计划买车,其实我还挺喜欢那个 SU7 Ultra,尤其是前面两个大鼻孔的那个。

    🚥 Koji

    你为什么选择不买车?

    👦🏻 阿彪

    因为我用不到车。我平时我就打车好了,我就走路上下班,也不需要去什么出差、跑商务之类的,用不到车。

     

    付费广告投放秘诀:招到「高级投手」就够了吗?

     

    🚥 Koji

    刚才我们和阿彪聊了营销三板斧当中的 SEO 和红人营销。接下来我们来聊一聊付费投放广告投放。

    在广告投放你觉得自己要做好的话,有什么样的心得?

    👦🏻 阿彪

    我觉得心得就是招一个高级的广告投放,就这么简单。

    🚥 Koji

    那怎么识别呢?

    👦🏻 阿彪

    那就是你找一个朋友或者朋友的朋友,你付费让他帮你面试。

    以我为例,我就是一个没有做过广告投放的人,我现在也不擅长。你让我说技巧经验,我也不知道怎么弄。我能做的就是招一个厉害一点的人,让他来把控这些。千万不要说自己某一块不懂,然后招一个便宜的,那你只会亏掉更多。我现在越来越有一种非常深刻的理解,是在自己不擅长的领域,一定不要招中级的,一定要招高级。

    🚥 Ronghui

    在这个点上要舍得花钱。

    👦🏻 阿彪

    对,不论你是哪一块,你是产品也好,是营销也好,还是广告也好,还是技术也好,还是某一块具体的技术。

    比如说你是 Android 还是 iOS,前端还是后端,还是 Java 等等。只要是那块是你不擅长的,你觉得你搞不定,完全空白。那你先招一个高级的,你千万不要招那种水货,他会坑。他交的学费就被你买单了,而你买的高级的,他就是前面的公司已经买过单了。

    🚥 Koji

    在过去你做的几十个项目里面,应该有很成功的,然后也有可以说非常失败的?我猜也有一些做了之后没有任何的水花。那你会认为在这些产品里面成败的关键是什么?

    👦🏻 阿彪

    很好的问题。这个成败的关键我感觉就是有几个点。第一个就是选择做某个产品的时机,什么时候做这个产品很重要。它现在是不是好的切入时机。第二个是这个产品最重要的点是什么?

    举个例子,以我失败的一个案例来说,我们之前做过电子签名(海外版本)。这个产品用户会比较在乎什么呢?品牌信任度,他会在乎你的合规,会有很大的信任成本。这些在我看来是这个产品的关键点。而我们作为一个创业公司,在这些关键点上很难去实现,那在选择做这个的时候,就基本上已经注定了它是失败的。

    但这是做了之后才意识到的,而且我们当时做电子签名也并不是好的时机。这个领域已经发展很久了,DocuSign 都已经上市了,市面上还有 Adobe Sign 还有 HelloSign 等等,很多大公司都在做。我们做这个时间点不行,产品也没有跟别人不一样的切入点。产品成败的关键点,刚刚我说的品牌信任背书、合规这些东西也做不到。随便从哪个层面上来看,它都是一定会失败的。

    所以我现在对于做一个新产品,有几个关键点要考虑:第一是时机,第二是切入点,第三是从产品层面上,它的关键点到底是什么?是产品力,还是信任,还是品牌,还是营销,还是广告,还是什么?我觉得得先想清楚。

    🚥 Ronghui

    你前面说很多这些经验是交了学费的,可以讲讲你交的学费吗?现在回忆起来印象最深或者是最痛苦的一个学费是什么?

    👦🏻 阿彪

    就是我刚刚说的那个电子签名的软件,我们做了大半年,亏了好几百万,营销投入也不少。

    对,我们在这个基础上还开发了一个在线的 PDF 编辑工具,但也不是好的时机,没有什么差异化的切入点,竞争也非常激烈。

    当然这里面有个点我得说一下,它有个前提是什么呢?在 AI 没有出现之前,几乎没有什么新的场景,都是老产品、老场景。你很难找到新的东西去做,所以你很难说在时机上能有优势,只能去寻找产品的差异化切入点。

    现在不一样了,因为 AI 出现了,这个技术日新月异,新的东西不停地涌现。这就会有一些好的时机点去选择适合的产品方向。

    🚥 Koji

    你会怎么去寻找新的产品灵感?你做了那么多的东西,而且你也提到自己非常喜欢做新的东西,那你应该每天都有大量的时间在想下一个产品去做什么。

    所以我想知道你的一天是怎么度过的,新的产品灵感是用什么样的方式去找到的?

    👦🏻 阿彪

    其实我觉得国内的 AI 自媒体都做得挺好的,新的技术更新他们都能很快地同步过来。

    理论上来说,我应该做一个更高大上的事情,去 GitHub 上面看一些开源的、新的热门项目。但是我又不是技术出身,总觉得它好像隔了一层纱。

    我平时闲暇时间也会刷视频,会关注一些 AI 博主,他们非常勤奋,更新也很同步很快。新的 AI 相关的东西,无论是 GitHub 上面的,还是 Twitter 上面的,还是大公司的新闻,他们都会同步过来,给我们做了一道加工。虽然是二次加工的,但在闲暇时间刷手机时,你可能会发现这个东西有点意思,我自己做个记号,回头上班的时候再去深入看一下,这是我平时会做的事情。

    🚥 Koji

    Pollo 这个产品刚出来的时候,引起了非常大的关注。但同时我也听到有一个声音是说,Pollo 没什么特别的,好像我也能做。好像会有人觉得没有护城河。

    在阿彪你看来,在当时你看到了什么非共识的东西?或者说你看到了什么是其他人做不到,但是你和自己的团队就是能做到的?

    👦🏻 阿彪

    目前没有。确实也有人能做,也拉不开太大差距,这也是我们担心的点。

    但后面我们应该会有所迭代,可能能拉开一些差距。市面上像我们这种非技术门槛的产品,理论上谁都可以做。我们未来做的产品也一定会是这样。所以我不会太在意这点,它不会是我考虑的关键。我要做的就是把产品做好,然后尽快推进,相对快一点,让别人追赶有点吃力。营销方面的话也要全力以赴。

    🚥 Koji

    其实 Pollo 到现在,我觉得很多人都认为它非常神奇。从 0 到 400 万的流量只用了短短几个月,这好像是一夜之间做到的。

    从外部来看,就是每两个月就 300 万了,然后有 400 万了。但从内部来看,你觉得有明确的流量增长的里程碑吗?也就是有哪些明确的事件,给 Pollo 带来了爆发式的增长?

    👦🏻 阿彪

    它确实增长比较快。说到里程碑事件的话,好像也没怎么有,在内部它是比较稳定地增长,没有突然一下子出现陡峭的增长曲线。我觉得它应该属于三板斧的叠加效应,这样才会有比较好的成长。

    🚥 Ronghui

    前面你说也尝试了 AI 加音乐,但是那个做没有做起来,为什么?

    👦🏻 阿彪

    第一个问题是我们 API 成本比较贵,当时使用的 Minimax 和天工的。第二个就是用户付费确实也不多,但这里面我知道有些其他玩家他们做得挺好的。还有就是人群画像也不太清晰,有时候还是靠运气。

    🚥 Ronghui

    就是你觉得这个主要原因是跟你们更相关,还是跟音乐这个行业更相关?是这个行业有什么特别难的地方?

    👦🏻 阿彪

    我觉得都有。首先就用户购买来说,基本上就是买最便宜的,他不会买高版本的。

    第二个就是我们 API 成本确实比较高,相对于其他的竞争对手,比如 Suno,没有任何优势。Suno 的产品又更好,又比我们还便宜。我们做这种 API 套壳的,很难做,就是你跟 Suno 比他太有知名度了。你要占一头,要么比人家便宜,要么比人家好,但你又不可能比人家好。这样子就只能捞一些小虾米了,捞死鱼。

    🚥 Koji

    什么叫捞死鱼?

    👦🏻 阿彪

    就瞎猫碰上死耗子,这是 C 端产品的一个共性。有些人他就是不知道 Suno,他恰巧知道你,这不就是瞎猫碰上死耗子吗(笑)。

    🚥 Koji

    现在做 AI 视频的产品非常多,有很多已经很成功的,也不断有新发布的,感觉几乎每天都有新的 AI 视频产品出来。在所有这些产品里面,你自己最欣赏的产品是哪一个或者哪几个?

    👦🏻 阿彪

    剪映吧。当然它不需要我欣赏,它已经非常厉害了。

    它最大的一个点是,无论是功能还是运营还是增长,都是非常系统的、无敌的。这种团队放到哪个产品里面都能打。

    🚥 Koji

    你觉得剪映最后会是你们最大的竞争对手吗?

    👦🏻 阿彪

    不会,我们怎么可能跟剪去 PK 呢?

    🚥 Koji

    但是剪映可能会蚕食你的市场。

    👦🏻 阿彪

    这个我没想过,我觉得市场很大。

    第二个我觉得我们还是会不一样。我们的用户心智比较偏 AI 的,它是传统的这种剪辑或者模板工具,我们无意跟它去竞争,也不想跟它竞争,也怕跟它竞争。

    🚥 Koji

    除了剪映,在新一代的 AI 视频产品里面有没有是你自己比较欣赏的产品?不管它今天的规模是大是小?

    👦🏻 阿彪

    如果是模型公司的话肯定很多。但我觉得模型公司你不能算在里面,比如说像可灵、海螺,这些你不能算在里面。应用层像 Krea 或者 Freepik,但是我觉得他们真的是在产品层面上做得好吗?我是打个问号的。

    🚥 Koji

    所以你欣赏它们,不是只是欣赏它们的产品的体验和交互。

    👦🏻 阿彪

    而是说它现在目前做的比较大,也做的比较早,有前瞻性。但是它的产品交互我是不认可的。当然这个东西各有各的看法,有些人可能就喜欢那种交互。

    🚥 Koji

    你觉得有什么 AI 视频的产品在今天是被大家高估了?

    👦🏻 阿彪

    我觉得 Krea AI 就是被高估的,它融资了 8300 万美金,总共 ARR 800 多万美金,估值 5 亿美金。

    这个我觉得水分泡沫挺高的,可能美国市场上就是钱多,然后就有这个泡沫。其实我压根没想明白它要这么多钱,8300 万美金怎么花得完?然后 800 多万美金 ARR 的公司怎么能值 5 亿美金,我觉得这里面有被高估的成分。

    但是 a16z 作为投资机构的影响力是毫无疑问的,他们认可它,也许有一些我们暂时不知道的产品发展方向或者思路。

     

    中国软件出海的变局与心法:从认知迭代到「松弛感」管理

     

    🚥 Ronghui

    不管是听周围朋友说,还是在即刻上看到,挺多人都去找你交流,特别是关注出海的这个领域。

    你有观察到,比如说从去年到现在,大家普遍特别关心、找你聊会问的问题都集中在哪些地方?在过去的这段时间里,这些关心的话题有什么变化吗?

    👦🏻 阿彪

    大部分还是会问一下比如说 SEO 怎么做,怎么推?有一些也会说有什么新的好的产品方向或者思路,主要就是这两块。变化的话,好像也没有什么明显的变化。

    🚥 Ronghui

    那你觉得他们普遍特别关心什么,或者是普遍为什么问题而特别的担心?

    👦🏻 阿彪

    其实核心还是在于如何做好营销。

    我觉得不同的产品有不同的适合的营销策略,很多人并不清楚自己的产品究竟适合什么样的营销方式,他们缺乏这方面的认知。实际上 SEO 也不是万金油,并不是所有行业都适合做 SEO 的。

    举个例子,比如电子签名这类产品,你想去做红人营销,要怎么说呢?它是一个纯 B 端产品,很难想象这种产品有什么噱头点,内容也相对无趣。而如果做广告投放,你的竞争对手可能全都是拿了大额融资的公司或者已经上市的企业。人家都是用 VC 的钱,资金实力雄厚,一个点击都要花好几块甚至好几美金,在这种情况下你根本无法与他们抗衡。

    所以说,当你选择了这个产品的那一刻,它适合的营销方式其实就已经被决定了。如果没有选择正确的营销方式去做,很可能会事倍功半,看不到什么效果。

    再比如跨境电商行业,它就不适合做 SEO。SHEIN 创始人做 SEO 出身,但 SHEIN 的增长主要是通过广告投放来实现的。所以每个产品都有其注定适合的营销方式,选择了合适的方式,重点投入并发挥其长处就好了,并不是说每个领域都适合所有推广方式。

    🚥 Ronghui

    这些话是你见到每个人都得说一遍的吗?

    👦🏻 阿彪

    差不多吧。其实很多人问关于 SEO 的问题,翻来覆去也就是那么些内容。所以我说你还不如直接在微信上问我,我告诉你答案,这样你也不用特意跑过来,省得折腾。

    🚥 Koji

    你觉得在国内做出海有哪些优势,又有哪些问题?

    👦🏻 阿彪

    优势是我们有工程师红利,我们勤奋努力,工程师薪资相对海外便宜一些,然后我们赚的是美金,有汇率的优势。

    缺点是我们对于比如说非常偏 B 端的一些产品,如果需要洞察用户的使用场景或者体验,是有一定隔阂的。同时如果要去做那边的本地化或者商务销售,我们肯定不擅长。你不可能在国内给人家打一个视频电话做销售,那晚上都不用睡觉了。

    🚥 Koji

    创业到现在也差不多五年了。你觉得这五年里面你做过最关键的决策是哪一次?

    👦🏻 阿彪

    就是那些选择正确的产品,好的方向。所有错误的、没有做起来的产品,都是因为选错了方向。

    🚥 Koji

    选择比努力重要。你觉得自己创业五年在身上发生的最大的变化是什么呢?

    👦🏻 阿彪

    肯定认知还是会有所提升的。在对于选品和营销这一块,也会更加全面一点,认知更加深刻一点,然后心态上面也会更 OK 一点。

    🚥 Koji

    这个指的是过去焦虑的事情现在不焦虑了,或者过去害怕的事情现在不害怕了?

    👦🏻 阿彪

    就举个例子,从我自己的经验来看,我以前觉得如果是个好员工,你肯定会有更高的自我要求,你会经常加班。无论是工作还是学习,我认为工作是做不完的。所以我以前是会希望同事多加班,但是我发现这个是没有用的。我们现在同事大家也都不加班,尤其是营销,研发会加班。我现在也比较佛系了,心态也比较 OK 了。

    我是这样想的,如果说我这个产品方向选对了,那么它早一点或者晚一点达到某一个值,影响也不大。就像这个产品今天发布和明天发布好像差别也不是那么大。没必要一定要搞到通宵,搞到三四点才下班,这在我们这是不可能的。你产品选对了,方向选对了,你营销加班不加班好像决定不了什么。

    🚥 Koji

    就是在一个正确的坡道上滑雪。快一点,慢一点,反正最终都能到达目的地。

    👦🏻 阿彪

    对,就是这样子。比如说他早一周、早两周做到某一个值,我觉得你靠大家天天逼着去加班,做到这个我觉得也没什么意义。放过自己也放过他人,而且大家不怎么加班,我天天逼着人家加班,我也累,他们也累。所以还是算了,放过自己,放过大家,心态调整一下。

    🚥 Koji

    在过去一年你认为自己做过最好的一个决策是什么?

    👦🏻 阿彪

    因为我之前是做 SEO 出身的,我比较了解 SEO 的天花板和局限性,所以我非常苦恼单一技能树的问题。所以正确的决策应该就是公司层面在红人和广告这一块,补全技能树,让我们更全面一点。

    🚥 Koji

    在过去的工作经历,也包括你创业的经历,有谁给你带去的影响,你觉得是最深刻的?

    👦🏻 阿彪

    最近比如说 Manus 的发布,对我印象还是比较深刻的。因为他让我看到了 Monica 因为融了资,然后引入了更加优秀的人才,做出了非常优秀的产品,非常有创新。

    🚥 Koji

    你的 MBTI 是什么?

    👦🏻 阿彪

    我没有测过。

    🚥 Koji

    你不好奇吗?

    👦🏻 阿彪

    我不信这些。

    🚥 Koji

    所以你不信任何的玄学或者心理学吗?

    👦🏻 阿彪

    也不能说心理学,比如说什么星座算这个算那个,比如说湖南人怎么样,广东人怎么样,我觉得大家聊一聊 OK 没有问题,但是我不信这个东西。

    我当然也不会去否定,说这个东西怎么样。反正我肯定会属于某一个框架或者类型,但是我自己不会去做这样的事情,我懒得去测。

    🚥 Koji

    所以你是不是一个反权威的人?就是你从小可能没有那么尊重老师,或者说参加工作之后也不一定觉得领导说的都是对的?在这一点上面,你认为自己是不是叛逆程度还蛮高的?

    👦🏻 阿彪

    没有,我觉得我是个比较老实的人。

    但是我跟我的同事反复强调一个点,就是我觉得我们公司没有权威,我希望他们提出不同的意见。我在一定程度上是会迷信权威的,但同时我也会有一点自己的判断,会自己多问几个人。

    🚥 Koji

    其实过去十年,你毕业之后一直在做出海产品。你觉得在这十年里面有没有哪一个瞬间是你想起来就觉得特别有意思的?作为亲历中国软件出海这个完整过程的一个从业者。

    👦🏻 阿彪

    这个属于传统出海和 AI 出海。

    转拐点时刻就是 ChatGPT。我们之前出海,国内的创业者很少,聊的都没几个,就是传统以万兴为首的一系列相关或者不相关的竞品、友商或者嫡系部队,或者是员工出去创业做的一系列相关的公司,基本上就是大概这么个市场。

    然后因为有了 AI,就是万物生花,各种场景和产品都出来了,大家都出海了。而且目前出海也是大势所趋,玩家多了很多。所以我会感觉这个是个非常典型的分水岭。

    🚥 Koji

    所以最有意思的瞬间就是有了 AI 的那个瞬间?

    👦🏻 阿彪

    因为多了一些新的场景和机会。

    之前我看过很多的软件产品网站,非常多。要么就是竞争非常大,巨头林立,它天花板当然也高;要么就是它太小了,一直苦恼找不到好的方向。但是因为 AI 撕开了这个口子,让我们有了更多的一些机会,会去尝试一些新的产品,让我们也能跟一些大公司处于同一个起跑线。

    🚥 Ronghui

    这一两年我的一个感受,当然也可能是偏见,是有很多公司做出海,其实他们未必真的想做出海,而只是因为不想在国内卷。

    👦🏻 阿彪

    对,确实有这种情况。但我认为这也是可以理解的。同样一个产品你做得很好,在国内可能赚十万,但在海外可能赚 100 万美金。要从国内赚钱,真的太难了。

    🚥 Ronghui

    有很多人说创业要有自己的 DNA,要有自己的决心,或者团队要有某些特定能力。那在这个语境下,这些因素是不是没那么重要?

    👦🏻 阿彪

    首先我并不认同 DNA 或者基因这种说法,我认为这个东西是由创始人的蜕变和更新迭代决定的。所谓基因,其实是你给自己不迭代或不更新的一个借口或谎言。

    比如阿里,也不是一开始就能有阿里云做大模型,最初也不是做电商的,是自己逐步迭代出来的。字节也不是一开始就做海外,对吧?它也没有海外经营的基因,那它是怎么做出来的呢?就是通过迭代。所以我不认为有所谓的「基因」,这种说法其实是在限制自己。

    🚥 Koji

    我有一个小问题,我看到之前你在即刻发过一次招聘。当时你提到每天中午办公室有一个半小时的午休,然后每天下午好像是 3:40 到 4:00,还有 20 分钟固定的休息时间。

    这个政策看起来非常少见。你能展开讲讲吗?为什么会在下午专门安排 20 分钟给所有人集体休息?

    👦🏻 阿彪

    你还真细致,这都被你发现了。其实是因为之前有个同事提了个建议,我们就采纳了,就这么简单。我们觉得这样挺好的,有点像以前上学时有下课时间。

    现在我们感觉这个 20 分钟休息确实不错,因为到了那个点,人确实会有点疲惫,效率也会下降。休息一下,大家可以沟通互动,出去兜风、散步,交流一下,感觉挺好的。

    🚥 Ronghui

    听起来你确实现在变得比较佛系,是吗?

    👦🏻 阿彪

    我不认为这是一种佛系,我认为这是一种对员工还是好一点。

    🚥 Ronghui

    这叫什么,张弛有度对吧?

    👦🏻 阿彪

    我不认为我是个佛系的人(笑)。

    🚥 Koji

    好的,今天再次感谢阿彪来上十字路口和我们分享了非常多做营销、做 SEO 的干货,也讲了自己可能从来没在别的地方讲过的一些创业故事和心得体会。

    我非常期待 Pollo 在一个半月之后的新版本。也很希望阿彪能够再过半年、再过一年,带着更新的故事、更好的产品和更多的观察思考再来十字路口。好,谢谢你,再见。

    👦🏻 阿彪

    好,也谢谢大家。

    原文链接:「SEO新卷王」Pollo AI 创始人阿彪首谈:SEO 怎么做?红人怎么投?付费广告怎么搞?

  • AI周刊丨本周不可错过的AI行业动态(6.9-6.15)

    本篇内容,带你快速了解本周AI热点资讯

    weekly

     

    01. AI大事件

     

    智谱推出首个企业级超级助手Agent——CoCo

    智谱推出首个企业级超级助手Agent——CoCo,具备交付导向、记忆机制和无缝嵌入三大企业级特性。能全流程辅助工作,根据员工职能和需求主动服务,无缝接入企业资源,提供个性化服务。

    智谱coco

    联想发布城市超级智能体,展现AI驱动城市治理新范式

    在2025数字城市论坛上,联想集团展示了其“城市超级智能体”。该智能体采用“1×N”架构,通过一个城市级智能中枢平台联动多个垂直领域,旨在实现城市治理与社会服务的智能化升级,为城市发展注入“AI+”新动能。

    科大讯飞最新发布!打造下一代智能交互新范式

    科大讯飞在深圳举办智能交互产品升级发布会,主题为“交互领航智启新章”。

    在发布会上,AIUI、机器人超脑、虚拟数字人与讯飞星辰四大开发平台亮相,展示软硬件协同优化成果。

    科大讯飞发布十大场景化方案,涵盖办公、人力与企业数字化等刚需场景,推动AI技术从通用能力向垂直场景转化。

    全球AI开源贡献榜出炉,阿里千问跻身全球前五、中国第一

    全球最大的AI开源社区Hugging Face发布最新AI开源贡献榜,阿里通义千问跻身全球第五、中国第一,DeepSeek位列第九,是前十中唯二的非美国机构。

    榜单考察开源模型、数据集、开发者关注度、社区活跃度及全球影响力等指标。

    Tolan已在全球获得超 500 万次下载,ARR超 400 万美元

    AI陪伴应用Tolan凭借独特外星人形象和情感互动模式,获得超500万下载量,ARR达400万美元。

    Tolan由西雅图初创公司Portola开发,主打与外星生物“交朋友”,通过语音交互、情绪回应和个性成长机制,为用户提供温暖陪伴。

    字节跳动 Seed 团队正式发布视频生成基础模型 Seedance 1.0

    字节跳动Seed团队发布Seedance 1.0视频生成模型。模型支持文字与图片输入,可生成多镜头无缝切换的1080p高品质视频,具备原生多镜头叙事能力、更强运动生成效果、支持多种风格创作等亮点,40多秒能完成5秒1080p视频的生成任务。

    在第三方评测榜单Artificial Analysis中,Seedance 1.0文生视频、图生视频两个任务均位居首位。

     

    02. 新产品发布

     

    Dia 浏览器向 Arc 用户开放下载,推出“外部记忆体”功能

    所有 Arc 用户可直接访问官网下载安装,每位用户还可获得 3 个邀请码,支持新用户加入。

    Dia 浏览器推出了革命性的 AI 驱动功能——“外部记忆体”,将用户的浏览历史转化为一个可交互、可分析的个人智能知识库。

    主要特性包括:

    @History 模糊搜索:通过模糊的记忆片段或关键词高效检索浏览历史。

    自然语言提问:支持用自然语言提问,例如“帮我找一下上周看过的关于 AI Agent 的论文”。

    自动生成分析报告:基于特定时间段或主题的浏览数据生成结构化分析报告。

    夸克发布行业首个高考志愿大模型

    夸克APP发布行业首个高考志愿大模型,为考生提供全新高考志愿服务。

    模型推出全新专业的高考知识库,通过【夸克搜索】可提供专业、准确的大学、专业查询及志愿问题解答。

    腾讯元宝“高考志愿咨询”功能上线:可提供专属深度建议

    腾讯元宝“高考志愿咨询”功能正式上线。用户在元宝手机端、电脑版或网页版升级至最新版本后,选择任意模型并开启深度思考,提问志愿填报相关问题,元宝将自动触发深度搜索并提交专属深度建议。

    阿里国际站发布首个外贸营销智能体 OKKI AiReach

    阿里国际站旗下智能工作台OKKI发布了其首个外贸营销智能体(AI Agent) OKKI AiReach。

    该工具能主动分析供应链图谱、精准挖掘潜在客户,旨在帮助外贸商家寻找生意增量。

    内测数据显示,使用后营销打开率提升至15%,询盘上涨3倍。

    Meta 推出基于视频训练的世界模型 V-JEPA 2

    Meta推出基于视频训练的世界模型V-JEPA 2,由首席AI科学家Yann LeCun介绍。

    模型拥有12亿参数,基于联合嵌入预测架构(JEPA)构建,具备先进的环境理解与预测能力,能在新环境中完成零样本规划与机器人控制。

    V-JEPA 2通过自监督学习训练,无需人工注释,可用于辅助技术、混合现实指导、个性化教育等领域。

    OpenAI 发布 o3-pro升级版推理模型,支持调用ChatGPT全套工具

    OpenAI发布o3-pro模型,价格暴降 80%,高性能+低价格,替代o1-pro向Pro和Team用户开放。

    o3-pro是推理模型o3的升级版,处理复杂问题、精准回答能力更强,支持调用ChatGPT全套工具,响应速度稍慢,适合对答案准确性要求高的场景。o3-pro在表达清晰度、答案完整性等方面优于o3。

    字节跳动推出豆包大模型 1.6,使用成本降至三分之一

    在火山引擎Force原动力大会上,字节跳动宣布豆包大模型升级至1.6版,推理、数学、指令遵循等能力大幅提升,达到全球第一梯队水平。

    豆包 1.6 系列模型支持多模态理解和图形界面操作,能理解和处理真实世界问题。

    腾讯发布混元3D 2.1:首个完全开源AI 3D建模工具上线

    腾讯正式发布并全面开源了混元3D 2.1模型,这是业界首个从模型到代码均完全开源的AI 3D生成工具。

    该模型支持PBR物理渲染,能高精度还原真实材质,单张图生成3D模型仅需30秒。得益于其高效架构,用户在单张消费级GPU上即可完成部署和推理,极大降低了使用门槛,为游戏、动漫、电商等行业带来革命性的效率提升。

     

    其他动态

     

    豆包一句话P图升级,基于最新图像编辑模型SeedEdit 3.0,支持更多,P图玩法,包括一键添加或替换文字局部P图和风格切换,主体保持不变。

    Genspark公司推出创新性人工智能浏览器——Genspark AI Browser。内置智能助手,可帮助用户查找更优交易、比较产品、分析评论,辅助决策。“自动驾驶模式”能自动浏览信息源、收集资料、访问高级数据库,完成复杂网页任务。支持MCP连接700多种工具,实现工作流程自动化,具备广告拦截功能。

    商汤科技的“小浣熊家族”与蚂蚁集团的“蚂蚁百宝箱”正式达成生态合作,联合打造“AI数据分析助手”,为用户提供大模型服务,后续将登陆支付宝平台。

    中国天气智能体台风频道正式上线。作为国内首个天气智能体,融合气象传媒与人工智能技术,可实时推送台风预警信息,查询台风路径及图文、视频等内容。频道通过精准监测和贴心服务,为用户提供台风动态、预警推送、防御指南及科普知识。

    谷歌上线 Weather Lab 气象预测网站,引入 DeepMind AI 模型,可预测台风的生成时间、路径、强度等,模拟未来 15 天多达 50 种气象发展场景。网站提供与欧洲中期天气预报中心传统模型的对比功能,帮助用户更早获取气旋信息。    ·

    全球最大资管机构贝莱德已构建名为Asimov的AI研究平台。该虚拟分析师可24小时不间断地分析公司财报、研报和各类文件,以生成投资洞见。此举是金融业大规模应用AI的缩影,旨在提升投研效率和深度。

    Manus现已接入Veo3模型,带来更出色的视觉表现力,角色对话更自然,音画同步更准确,故事叙事更流畅可以创作出电影级别的视觉体验。面向Basic,Plus,Pro会员开放使用。

    知乎知名答主夕小瑶团队推出全球首个A2A范式Agent——Teamo。产品定位为知识工作者的超级Agent,采用Agent-to-Agent(A2A)范式,由“Teamo队长”统一指挥,各领域专业Agent协同工作,模拟真实团队作业。

    普林斯顿大学与复旦大学联合推出全球首个历史领域AI评测基准HistBench及AI历史助手HistAgent。HistAgent集成文献检索、OCR识别、多语言翻译等工具,专为历史研究优化,在HistBench测试中表现远超现有模型。

    OpenAl、Anthropic和 Google与 Lovable 合作,在本周末举办 AI 对决,周末期间,每个人都能不限量免费使用 Lovable生成代码,比较各模型 vibe coding 的表现。活动期间构建的网页还能分 65000 美金的奖金。

     

    03. 开源项目

     

    Mistral 推出推理模型 Magistral 系列,Small 版已开源

    法国AI实验室Mistral推出推理模型Magistral系列,包含Magistral Small和Magistral Medium两个版本。

    Magistral Small拥有240亿参数,已在Hugging Face平台开源;Magistral Medium能力更强,处于预览阶段,仅在特定平台提供。

    小红书hi lab团队首次开源文本大模型 :dots.llm1

    小红书hi lab(人文智能实验室)首次开源文本大模型dots.llm1。模型是中等规模的Mixture of Experts(MoE)语言模型,总参数量1420亿,激活参数140亿。在训练11.2万亿token高质量数据后,性能可与Qwen2.5-72B媲美。

    Databricks开源其核心ETL框架Delta Live Tables

    在其年度Data + AI峰会上,Databricks宣布将其核心的声明式ETL(数据提取、转换和加载)框架以“Apache Spark Declarative Pipelines”的名义开源。

    此举旨在帮助开发者更高效、可靠地构建和运行数据处理流程,加速数据管道构建速度高达90%。

     

    04. 投资融资

     

    美泰公司与 OpenAI 合作,将生成式AI技术引入玩具开发

    美泰公司与 OpenAI 达成合作,将生成式 AI 技术引入玩具开发和 IP 重塑业务。是 OpenAI 首次与玩具厂商合作,通过 AI 提升粉丝互动体验。美泰计划今年稍晚推出首款“AI 赋能产品”,包括实体玩具和互动体验。

    靠ChatGPT狂飙,OpenAI年化经常性收入突破百亿美元

    OpenAI自推出ChatGPT不到三年,年化经常性收入(ARR)已突破100亿美元,较去年增长近80%。该收入包括消费者产品、ChatGPT商业产品及API销售收入,不包含微软授权收入等。目前OpenAI拥有300万付费商业用户。

    AI 编程工具 Cursor 快速崛起,20 个月实现 1 亿美元年化收入

    Cursor AI 编程工具,由 AnySphere 联合创始人兼 CEO Michael Truell 创立,上线 20 个月实现 1 亿美元年化收入,两年达 3 亿美元。

    成功源于重构软件开发流程,提升人类指令表达能力。团队曾尝试机械工程领域,后回归编程,放弃插件形式,构建完整 IDE。

    Meta豪掷143亿美元收购Scale AI 49%股权,创始人加盟

    Meta Platforms宣布以143亿美元收购数据标注公司Scale AI 49%的股份,同时Scale AI的28岁华人创始人Alexandr Wang将加入Meta,此举被视为Meta重振其AI雄心的关键一步,但也引发了行业关于数据质量和高额开支的讨论。

    3D大模型公司VAST再次完成数千万美元的Pre-A+轮融资

    3D大模型公司VAST完成数千万美元Pre-A+轮融资,由北京市人工智能产业投资基金领投,靖亚资本跟投。

    VAST同时发布全球首个AI驱动的一站式3D工作台Tripo Studio,即将推出全新算法Tripo 3.0。融资将重点投入Tripo系列大模型研发及Tripo Studio产品及生态平台建设。

    硅基流动完成新一轮数亿元融资,阿里云领投

    硅基流动宣布完成数亿元人民币A轮融资,由阿里云领投,创新工场等老股东超额跟投,华兴资本担任独家财务顾问。

    硅基流动专注于AI基础设施领域,通过技术突破和产品创新,有效解决国内AI行业发展难题。

    英伟达、三星联手投资 AI 机器人公司 Skild AI,估值达 45 亿美元

    英伟达和三星电子将联手投资AI机器人创业公司Skild AI,分别投资2500万美元和1000万美元。

    Skild AI专注于机器人软件开发,此次投资属于其B轮融资的一部分,公司估值约45亿美元,软银集团领投1亿美元。

    英伟达正推广“实体AI”概念,认为其将成为重要收入来源;三星则希望通过投资保持对Skild及其人才的了解。

    高通宣布以24亿美元收购英国芯片IP公司Alphawave

    芯片巨头高通宣布以约24亿美元现金收购英国半导体IP企业Alphawave。此次收购旨在加强高通在AI算力高速互联技术(SerDes)方面的能力,是其在数据中心领域的重要战略布局。

    宁波博登智能完成亿元A轮融资,上海国资领投

    宁波AI数据服务商“博登智能”宣布完成亿元A轮融资,由上海国际集团旗下的国和投资领投,公司估值达到7亿元。

    该公司核心产品为基于AI的数据自动化标注平台,融资将用于技术深化和全球市场拓展。

     

    05. 观点洞察

     

    Ben Mann (Anthropic联合创始人): 未来是专业子代理协作的时代

    Anthropic联合创始人Ben Mann认为,AI应用的未来正朝着能执行长期复杂任务的“代理性”方向发展。

    未来的最优架构将是由一个通用的顶层模型(如Opus)扮演“编排者”,负责规划任务,然后分派给一系列更小、更高效、更专业的“子代理”或专用工具模型来执行,这能显著降低成本与延迟。

    英伟达CEO黄仁勋:未来十年是自动驾驶与机器人的时代

    英伟达CEO黄仁勋在Viva Tech科技大会上表示,未来几年,自动驾驶汽车和机器人技术将迎来蓬勃发展。他断言:“这是自动驾驶汽车、机器人和自动化机器的十年”,预示着物理世界的AI应用将成为下一个主要增长点。

    北大教授陈钟:AI重塑金融服务,需警惕新型系统性风险

    北京大学教授陈钟指出,AI正深刻重塑金融服务模式,但同时也带来了数据安全、模型偏见等新型系统性风险。他强调,金融业必须先行建立负责任的AI伦理与治理准则,并将公平性、可解释性、稳健性等核心价值嵌入AI系统全生命周期。

    郭明錤预测苹果WWDC 2025将聚焦生成式AI整合

    知名分析师郭明錤预测,苹果在即将召开的WWDC 2025上将把重心放在生成式AI上。预计苹果将重塑Siri品牌,深度整合AI与操作系统,并向开发者开放AI能力接口,以提升全场景用户体验和强化隐私保护。

    你不关心AI,AI就会关心你——Ilya Sutskever多伦多大学演讲要点

    Ilya Sutskever 在其母校多伦多大学的演讲中提出:“你不去关心AI,AI就会来关心你!” 这一观点呼应了他对人工智能未来影响的深刻洞察。他坚信基于大脑是生物计算机这一逻辑,数字大脑(AI)终将无所不能,完成人类所能做的一切。面对AI带来的巨大挑战与机遇,他强调最好的应对方式是亲自体验顶尖AI技术,从而形成对其能力的真实认知。

    他表示:“AI 带来的挑战,在某种意义上,是人类有史以来最大的挑战,而克服它也将带来最大的回报。无论你喜不喜欢,你的人生都将在很大程度上受到 AI 的影响。因此,去关注它,去留意它,然后产生出能量去解决那些即将出现的问题,这将是最重要的事情。”

    猎豹移动董事长傅盛:AI与硬件结合及应用是未来焦点

    猎豹移动董事长傅盛认为,未来大模型可能成为类似公共资源的存在,而真正的机会在于AI与硬件的结合(如智能服务机器人)以及具体的AI应用。他指出,几乎所有业务都能用AI重做一遍,创业者需要洞察用户需求与技术的结合点。

    原文链接:AI周刊丨本周不可错过的AI行业动态(6.9-6.15)

  • Cursor CEO 最新专访:五年内所有编程将用 AI 进行

    估值接近百亿,最新一轮融资高达 9 亿美元,Cursor 无疑是今年风头最劲的 AI 产品。Cursor 不仅是一个 AI 协助编程的工具,更加是创造了「vibe coding」的理念,一种主打低代码甚至零代码的编程方式。

    能在「套壳」的赛道上,真正闯出名堂,过程总比表象来得更艰辛。在做 AI 编程这个业务之前,Cursor 的初创团队曾经在其它更硬工程的领域兜兜转转,直到最后意识到:创业太难了,还是要做点自己喜欢的。

    Cursor CEO Michael Truell 作客 Y Combinator 的播客节目,分享了两次创业以来的经验,他重申了那个听起来有点陈词滥调,但总是有用的理念:

    毫不怀疑,永远坚信,直到时间证明你是对的。

    下文为访谈内容,经编译及删减。

    Garry Tan

    欢迎你,Michael。我们都知道并且非常喜欢 Cursor,你说过,Curosor 的目标是发明一种新型的编程方式,在这种方式下,你可以只描述你想要的东西,然后就可以构建它了。展开讲讲吧。Michael Truell:是的,公司的目标是用更好的东西代替编码。我和我的 3 位联合创始人,我们已经做程序员很长时间了。编程吸引我们的一点是,你可以非常快速地构建东西。但编程需要编辑,数百万行深奥的正式编程语言,需要做很多很多的工作才能真正在屏幕上显示出一些易于描述的东西。我们认为,在未来的 5 到 10 年里,有可能发明一种新的方法来构建更高水平、更高效的软件,我们使用 Cursor 的目标是到达那里。我们实现这一点的途径是使用 AI 编程,然后不断发展,将其从普通编程发展到看起来非常不同的东西。

    Garry Tan:

    所以有些人会说这就是我们今天所拥有的——你描述你想要什么,然后它就会出现。我们达到你真正想去的地方了吗?

    Michael Truell:

    我们正在看到事情真正发生变化,在较小的代码库中,在一小部分软件工作人群中,感受到变化最大。我们已经看到人们在代码之上迈向更高的抽象层次。

    但我认为还有很长的路要走。我认为 vibe coding 或编程的整个想法,如果不真正查看代码并理解它,它就不会真正起作用。如果你现在要处理数百万行代码和数十或数百人在多年的时间里从事某件事情,你不能避免思考代码。

    我们的主要重点是帮助专业程序员、面向那些以构建软件为生的人。在这些环境中。人们越来越多地使用 AI 进行编程。我们看到有人使用 AI 编写 40% 到 50% 的 Cursor 内生成的代码行,但这仍然是一个读取 AI 生成的所有内容的过程。因此,我们需要跨越的一个重要鸿沟是产品。我们将会达到一个不再是生产力工具的阶段,它可以帮助你阅读、编写、理解代码。

    Garry Tan:

    有一些初创公司显然是从零行代码开始的,所以这好像很容易。你觉得有没有一个界限,在那之上,仅仅是 vibe coding 就不太够了?

    Michael Truell:

    如果打算让代码在很长一段时间内保持稳定,那么我们绝对不建议您使用 vibe coding。我认为,当你是几 个人的初创公司时,并试图弄清楚你在做什么时,开发的一个特点通常是:代码只能存在数周。

    现在,我们正处于这样一个阶段,AI 正在为你提供帮助,对吗?要么将任务委托给人工智能,对它们说: 去帮我做这件事,去回答这个问题。

    编程有时候是非常可预测的,当你只是在旁边观察某人工作时,你知道,他们接下来 10 分钟、15 到 20 分钟的工作内容。所以这种标签页的形式可以发挥很大作用。而且这种委托给另一个人的代理形式也可以发挥很大作用。

    一旦这些开始变得成熟,对于 25%、30%的专业开发工作,可以完全端到端地依赖这些工具,而不用真正去关注具体细节。那么接下来需要弄清楚的是,关于如何让这些在现实世界中真正发挥作用。

    如果我们是一个帮助人类将头脑中的想法转化为屏幕上内容的工具,那么给人们对最细微细节的控制权总是很有帮助的。这是我们面临的产品挑战之一:你应该总是能够编辑逻辑中非常具体的部分。

    我认为一个有用的用户界面是将软件的逻辑写下来。然后你可以指向逻辑的各个部分并实际编辑它们。但是如果我们达到一个你不必太关注代码的地步,那个写下来的软件逻辑版本就必须变得更高层次。

    我们对此感到兴奋,在让代理工作起来之后,在让标签页形式变得非常成熟之后,AI 是否真的会改变编写和查看编程语言的含义?

    Garry Tan:

    是跟上下文窗口有关吗?一旦你超过大约 100 万到 200 万个 token,甚至我觉得直到最近 100 天我们才获得了可用的 200 万 token 长度,这是一个阶段。一旦你的代码库达到一定规模,就必须使用 RAG(检索增强生成),它有不完整的上下文,然后就无法做到人类程序员能做的事情?

    Michael Truell:

    是的,我认为在 agent 达到人类水平方面存在许多瓶颈。上下文窗口方面肯定是一个问题,如果你有 1000 万行代码,那大概是 1 亿个 token,既要有一个能够实际摄取这些内容的模型,又要让它具有成本效益,然后不仅仅是要有一个能够将这些内容摄取到其权重中的模型,还要有一个能够有效关注那个上下文窗口的模型。这很复杂。

    我认为这是这个领域需要解决的问题。而且这不仅仅是代码库的问题。这也是一个持续学习的问题:了解组织的背景和过去尝试过的事情,以及让模型真正持续学习某些东西的问题,这是我认为这个领域仍然没有很好解决方案的问题。训练这些模型的机构缺乏真正良好的长期上下文数据,所以我认为这将会很棘手。但是持续学习和长期的背景知识绝对是瓶颈。

    在网上有一个关于过去一两年在最大时间长度方面进展的惊人图表。AI 能够在一个任务上运行的时间已经从几秒钟增加到——我不知道这些数字实际上是如何得出的但有人声称,一些最新的模型可以达到一个小时。当然不同模态还存在问题,所以要成为一个软件工程师,你需要运行代码然后处理输出。

    所以计算机使用对于代码的未来将是重要的,能够运行代码,能够查看 Datadog 日志并与人类使用的那些工具进行交互。有很多我们将不得不面对的已知问题,还有很多我们将不得不面对的未知问题。

    然后我要指出的一件事是,我认为仅仅有一个文本框来要求软件更改的用户界面是不精确的。所以,如果你关心人类能够控制屏幕上显示的内容,你就需要一种不同的界面方式让他们进行交互。

    一个潜在用户界面是编程语言的演进,变成更高层次的东西。另一个可能是用户界面的直接操作,能够指向屏幕上的东西并说,哦,变这个,或者自己调整这些值。

    Garry Tan:

    这似乎是一堆刚刚冒头的东西,对吧?模型似乎没有明确的美学感知,所以也许这个需要人类设计师能够看到。

    Michael Truell:

    看到它们在美学方面有所改善是很有趣的。我们的理解是,你教这些模型在美学等方面做得更好的方式,并不像你教人类那样。它是通过收集大量数据,并对它们进行强化学习。这就是你在这个任务中的教学方式。这是一项足够多的人关心的任务,你可以支付所有这些的成本,你可以去训练并将其融入基础模型中。

    Garry Tan:

    因此,考虑到每个人都在建设的未来,而你无疑是站在前沿的领导者,你认为未来作为一名软件工程师,什么是不可替代的或类似的基本要素?是审美吗?

    Michael Truell:

    人们通常在思考软件的视觉方面时会考虑这个问题。我认为软件的非视觉方面也需要审美:关于逻辑如何工作。而现在,主动编程某种程度上会弄清楚你到底想要东西如何工作——比如你通过编写的逻辑真正定义的是什么产品,以及实现细节的高层次审美,即如何将其映射到物理计算机上——这些都捆绑在一起。

    但是现在,很多编程都是你在做的一种人工编译,你知道自己想要什么。你真的必须为计算机详细说明,因为你能够用来向计算机描述事物的语言是正常的编程,就是,你知道,for 循环、if 语句、变量和方法。你必须详细说明。

    所以我认为越来越多的那种人工编译步骤将会消失,计算机将能够填补空白,填补细节。但是由于我们的工具是帮助你实现的,帮助你构建你想的东西的那种品味,我认为永远不会消失。

    Garry Tan:

    这很有道理。有句话说优秀的人会帮助你达到你能看到的标准,但真正伟大的、真正精通的人,他们能达到一个你甚至看不见的更高标准。而这需要审美。你把这称为人们需要成为逻辑设计师。在意图驱动编程方面,这意味着什么呢?

    Michael Truell:

    随着这项技术越来越成熟,随着我们越来越接近一个编程可以自动化,可以用更好的构建软件的方式取代的世界,我认为会有很多影响。

    一个是,专业的开发人员只会变得更加高效。千人软件项目的进展速度如此之慢,百人软件项目的进展速度如此之快,很疯狂,其中很大一部分归结于现有逻辑的重要性,只是让你发挥最好的一面。

    随着这项技术越来越成熟,当我们越来越接近一个编程可以被自动化并且可以被更好的软件构建方式取代的世界时,我认为会有很多影响。我认为其中一个是,专业开发者将变得更加高效。

    千人软件项目的进展速度,百人软件项目的进展速度,以及真正的专业软件项目的进展速度都慢得令人发狂,很大程度上这归结于现有逻辑的负担,就是让你不堪重负。当你在一个代码库中时,可以从头开始,你可以很快地做事情,当你改变某些东西时,却会有一堆其他的东西随之破坏而需要你去修复。

    我认为其中一个影响将是,下一个分布式训练框架,下一个数据库或下一个视觉设计工具的构建速度将会快得多,下一个 AI 模型也是如此,如果你和实验室交谈,他们很大程度上在工程能力上受到瓶颈限制。我认为所有这些都会大幅改善。

    我的第一份工作之一实际上是在一家生物技术公司工作,这是一家由实验室科学家组成的公司。他们正在开发治疗疾病的药物,我是被聘用的第一个软件工程师,他们正在生成大量的化学物质,然后让它们通过这些生物实验。然后他们需要读取结果来弄清楚应该进一步研究哪些化学物质,需要大量的内部软件开发来做这件事。

    令人惊讶的是,看看现有的工具,它们是多么糟糕。然后想到这家软件不是核心竞争力的公司,必须出去做这种疯狂、费力的事情——雇佣一个真正的软件工程团队并培训他们,让他们进行内部产品开发,这简直太疯狂了。对于这种类型的公司,将会有更多的选择可供他们使用。

    Garry Tan:

    换个话题,我想听听 Cursor 早期的故事,你在 MIT 遇到了你的联合创始人 Sule、Arvid 和 Aman,这家公司成立于 2022 年。是什么把你们聚到一起的,你们什么时候意识到这是一个能够一起构建真正宏大目标的团队?

    Michael Truell:

    我认为我们有很多年轻的天真,在当时可能是没有根据的。一开始我们就相当有野心。Cursor 实际上来自于我们四个人的一个雄心勃勃的想法练习,你知道,我们都很年轻就开始了编程,然后我们的一些早期工程项目实际上与 AI 有关。我们中的一个人致力于提高机器人强化学习的数据效率,就是教机器人非常快速地学习新任务。那是我们早期的 AI 项目之一。

    另一个人致力于构建 Google 的竞争对手,使用神经网络来尝试快速构建一个令人惊叹的网络搜索引擎。其他人在 AI 方面做学术工作,但在 2021 年有两个时刻让我们真正兴奋地想要建立一家专注于 AI 的公司。

    其中一个是使用第一批真正有用的 AI 产品,其中 AI 真正处于核心地位,GitHub Copilot 老实说是那个让我们真切感受到现在真的可以用 AI 制作非常有用的东西的时刻,我们不应该去实验室工作来做这些事情。相反,是时候让这些东西进入现实世界了。

    另一件让我们真正兴奋的事情是看到来自 OpenAI 和其他地方的研究,显示有这些非常可预测的自然法则,表明如果你扩大数据规模并扩大投入这些模型的计算量,它们就会变得更好。

    我们想要选择知识工作的一个领域,然后致力于随着 AI 变得更加成熟,那个知识工作会变成什么样。我们对这样一种公司的形态非常感兴趣:为那个知识工作领域构建产品。首先,随着底层技术变得更加成熟,你就可以演进做那件事的形态。其次,即使在那时,很明显你可能需要的不仅仅是扩大语言模型的规模到 GPT 级别,继续推进底层机器学习进展的一种方式是获得产品数据。

    我们实际上并不太了解机械工程,我们研究了一段时间的计算机设计副驾驶。所以我们在训练 3D 自动补全模型,帮助那些在 Solidworks Fusion 360 这样的软件中对他们想要构建的零件进行 3D 建模的人,试图预测他们将要对几何形状做出的下一步改变。这是一个有趣的问题。这是学术界一直在研究的问题。实际上这也是 DeepMind 稍微研究过的问题。

    Garry Tan:

    这些都不是大语言模型。

    Michael Truell:

    你可以完全用 3D 来做,或者你可以说是我们研究了一段时间的一个方向,就是将其转化为语言问题,你把某人在 CAD 系统中所做的步骤转化为方法调用。相当复杂,但我们研究了一段时间。

    这有几个原因。一个是我们对机械工程真的没有像对编程那样兴奋。我们都是程序员。另一个是,我认为当时的科学技术还没有为 3D 做好准备,比如预训练模型在这方面还不够好。没有很多数据。互联网上 CAD 模型的数据比代码少好几个数量级。所以很难制作一个有用的模型,或者当时很难为那个领域制作一个有用的模型。

    Garry Tan:

    你会和那些使用 CAD 或机械师之类的人坐在一起吗?

    Michael Truell:

    我们就是这样做的。我们进行了大量的用户访谈,我认为我们可以做得更好。我认为,在年轻的天真中,我们每天都在运转,每周按小时计算任务,回顾我们在这方面花费的时间,我认为提早点更好。或者去一家雇佣机械工程师三周的公司工作吧,我认为那是非常有价值的,可以替代类似的数百个用户访谈中的一些。

    Garry Tan:

    我猜除此之外,你还在训练自己的模型来做到这一点,使用强化学习,这非常有用。同时学习如何启动大型集群来实际训练这些模型。

    Michael Truell:

    是的,我们当时并不知道。但是,是的,我们在那里做的一些事情最终对我们有用。它做了很多行为克隆,更少的 RL,但是在寻找人类所做的好的例子,然后训练 AI 去做这些事情。训练数百亿参数的大型语言模型并不是当时很多人在做的事,而且老实说,现在也没有那么多人训练超过 100 亿的参数规模、大型语言模型和机器学习模型。

    因此,基础设施的状态非常非常早。我们正在做像 4k Megatron LM 或微软这样的事情,剥离内部结构,部署用于训练的东西,甚至在推理方面,在那个时期,我们大规模运行了几件事情。现在在 Curosr 中,我们每天通过自己的推理进行超过 5 亿个模型调用,并且了解当时进行推理的一些经验,并且当时的训练对于 Curosr 体验绝对是非常有用的。

    Garry Tan:

    所以,有一件事我觉得既非常勇敢、又非常有远见,那就是你们在某个时刻停下来,说:「其实我们对 CAD 了解得还不够,我们需要换一条路。」

    当时是从训练 CAD 模型开始的吗?是不是最初的路径是:看到大模型实验室已经掌握了扩展能力,而 CAD 是一个可以深入的领域,于是就朝那个方向走下去?然后你们意识到,其实需要做的是别的事情。那么,真正让你们转向现在这个方向的那个契机是什么?

    Michael Truell:

    这并不是一时兴起的想法。我们本身就是程序员,也受到像 Copilot 这样的产品和早期 Codex 论文的启发。我还记得,当时我们为了说服投资人支持我们这个听起来有点疯狂的 CAD 点子,做过一件事:我们算了一下训练 Codex,第一个代码模型,大致需要多少钱。按我们的粗略计算,大概只需要九万美元或者十万美元左右。这个数字当时让投资人非常吃惊,也在某种程度上帮助我们筹到了足够的资金去推进 CAD 项目——因为那个项目一上来就得开始训练模型。

    我们其实一直都很关注编程方向,也一直对 AI 会如何改变编程这件事感到兴奋。但当时我们对投身这个领域还是有些顾虑,因为已经有很多人在做了,Copilot 本身就很厉害,还有几十家其他公司也在做类似的事。

    我们后来决定放下 CAD 项目——那个方向本身相对独立,但科学上不太顺利,我们自己对那个领域也逐渐失去了兴趣。而真正让我们重新回到编程方向的,是我们自身的兴趣,而支撑我们继续走下去的信心,则来自两方面:

    一是我们看到过去九个月左右,其他人在这个领域的进展似乎没有我们想象中那么快;二是我们认真想了一下,如果我们真的相信自己的判断,那么五年之内,所有的编程都会通过这些模型完成,编程这件事的本质会彻底改变。要走到那一步,无论是产品层面还是模型层面,都还需要迈出很多关键的跃迁,而这个方向的天花板实在太高了。

    与此同时,我们也观察到,现有的一些参与者好像并没有真正立志去实现一种「全然不同的编程方式」,他们的野心并不在那个层面,也缺乏真正去实现那个目标的执行力。

    第一次的经验告诉我们,建立一家公司很难,所以不妨去做你真正兴奋的事情。那个时候,我们开始着手研究公司的未来。

    Garry Tan:

    听起来你们当时的判断格外有远见。大概一年前,Sam Altman 也坐在这把椅子上说过类似的话:如果你在赌模型不会变得更聪明,那就是个糟糕的赌注。你应该始终相信模型在接下来的 12、18、24 个月里会变得更聪明——而事实也确实越来越印证了这一点。

    而你们听起来是在他这么说之前整整提前了 12 个月,就已经下定了这个赌注。

    Michael Truell:

    是的,当时我们内部有一句话叫做 「follow the line」——意思就是始终要沿着那条进步的曲线前进,并为它的走向做规划。

    这个理念其实可以追溯到「扩展法则」(scaling laws):只要你沿着这条线走,这些模型就会不断变得更好、更强、更聪明。我们相信这条曲线不会停,所以产品设计和路线规划也得始终对准它,提前为模型的飞跃做准备。

    Garry Tan:

    彼得·蒂尔有句经典的问题是:「你相信什么,而别人都不相信?」而你们当时相信了这件事——而且事实证明你们是对的。也正因为如此,你们才能走到那个「冰球即将落点」的地方。

    Michael Truell:

    是的,我想这是我们当时的一个优势。虽然现在这些观点已经变得非常主流了,但回到当时——比如说 2022 年,那真的是一个疯狂且关键的转折点。

    那一年年初,几乎没人真正谈论 AI。GPT-3 是前一年发布的,Copilot 当时刚处在测试阶段(2021 年),可能 2022 才正式上线。之后才慢慢开始引起注意。我们还清楚地记得当时一系列产品的发布,比如 InstructGPT,它通过指令微调让 GPT-3 更好用了一点;夏天的时候是 DALL·E,那次发布非常直观地打动了一些原本并不关注这个领域的人,让他们开始正视 AI 的发展。

    再接下来是 PaLM 和 Stable Diffusion,然后是 RLHF(人类反馈强化学习)、GPT-3.5 的出现。这些模型的能力提升非常快,却并没有伴随训练成本的大幅上涨,这点非常引人注意。

    有传言说,从 GPT-3 到 ChatGPT(也就是大家真正关注的爆发点)之间,训练成本只增长了大约 1%。这太疯狂了。而促成这巨大跃升的,是对指令的微调(instruction tuning)、RLHF,以及一些其他细节调整。

    Garry Tan:

    你还记得有没有哪些具体的产品功能或路线上的决策,是基于你们相信模型不仅会变得更聪明,而且会变得非常非常聪明这一前提做出的?这些决策后来有没有真的成为让你们「赢下比赛」的关键?

    因为你之前也提到,其实当时这个领域里确实还有十几家很不错的公司在做类似的事——但最终你们走到了前面,是不是和你们在早期就押注模型飞跃式进化、并据此做出不同产品路线有关?

    Michael Truell:

    我们当时做出的一个不那么显而易见的产品决策,就是不做浏览器插件(extension),而是选择从头构建一个编辑器(editor)。在当时,这个选择对很多人来说并不直观,甚至有点反常。

    但它背后的逻辑其实来自我们对未来的激进设想——我们相信所有编程最终都会通过这些模型完成,而且整个编程的样貌会完全不同。要实现那种形态,你就必须对用户界面(UI)有完全的控制权,不能受限于现成的平台或接口。所以我们从一开始就决定构建自己的编辑环境,而不是附着在别人的系统里。

    Garry Tan:

    2025 年了,我觉得我们其实才刚刚踏入「智能时代」的序幕,真的是一场彻头彻尾的革命。你个人现在最让你兴奋、最期待的是什么?

    Michael Truell:

    我觉得未来这十年,大家的「创造力」都会被极大放大——那些一直活跃在创作第一线的人会更有力量,而更多之前没机会动手的人,也会变得触手可及。

  • Sam Altman发布《The Gentle Singularity(温和的奇点)》

    本篇文章《The Gentle Singularity》由Sam Altman撰写,探讨了人工智能和数字超级智能的发展及其对人类社会的影响。尽管目前人类尚未达到完全的超级智能,但已经在许多领域取得了显著进展,例如GPT-4等系统已经展现出超越人类的智能,并且能够显著提升人类的工作效率。作者 Sam Altman 认为,未来几年内,AI将在更多领域实现突破,如2026年可能出现能够产生新见解的系统,2027年可能会有能够执行现实世界任务的机器人。

    The Gentle Singularity

    英文版

    The Gentle Singularity

    We are past the event horizon; the takeoff has started. Humanity is close to building digital superintelligence, and at least so far it’s much less weird than it seems like it should be.

    Robots are not yet walking the streets, nor are most of us talking to AI all day. People still die of disease, we still can’t easily go to space, and there is a lot about the universe we don’t understand.

    And yet, we have recently built systems that are smarter than people in many ways, and are able to significantly amplify the output of people using them. The least-likely part of the work is behind us; the scientific insights that got us to systems like GPT-4 and o3 were hard-won, but will take us very far.

    AI will contribute to the world in many ways, but the gains to quality of life from AI driving faster scientific progress and increased productivity will be enormous; the future can be vastly better than the present. Scientific progress is the biggest driver of overall progress; it’s hugely exciting to think about how much more we could have.

    In some big sense, ChatGPT is already more powerful than any human who has ever lived. Hundreds of millions of people rely on it every day and for increasingly important tasks; a small new capability can create a hugely positive impact; a small misalignment multiplied by hundreds of millions of people can cause a great deal of negative impact.

    2025 has seen the arrival of agents that can do real cognitive work; writing computer code will never be the same. 2026 will likely see the arrival of systems that can figure out novel insights. 2027 may see the arrival of robots that can do tasks in the real world.

    A lot more people will be able to create software, and art. But the world wants a lot more of both, and experts will probably still be much better than novices, as long as they embrace the new tools. Generally speaking, the ability for one person to get much more done in 2030 than they could in 2020 will be a striking change, and one many people will figure out how to benefit from.

    In the most important ways, the 2030s may not be wildly different. People will still love their families, express their creativity, play games, and swim in lakes.

    But in still-very-important-ways, the 2030s are likely going to be wildly different from any time that has come before. We do not know how far beyond human-level intelligence we can go, but we are about to find out.

    In the 2030s, intelligence and energy—ideas, and the ability to make ideas happen—are going to become wildly abundant. These two have been the fundamental limiters on human progress for a long time; with abundant intelligence and energy (and good governance), we can theoretically have anything else.

    Already we live with incredible digital intelligence, and after some initial shock, most of us are pretty used to it. Very quickly we go from being amazed that AI can generate a beautifully-written paragraph to wondering when it can generate a beautifully-written novel; or from being amazed that it can make live-saving medical diagnoses to wondering when it can develop the cures; or from being amazed it can create a small computer program to wondering when it can create an entire new company. This is how the singularity goes: wonders become routine, and then table stakes.

    We already hear from scientists that they are two or three times more productive than they were before AI. Advanced AI is interesting for many reasons, but perhaps nothing is quite as significant as the fact that we can use it to do faster AI research. We may be able to discover new computing substrates, better algorithms, and who knows what else. If we can do a decade’s worth of research in a year, or a month, then the rate of progress will obviously be quite different.

    From here on, the tools we have already built will help us find further scientific insights and aid us in creating better AI systems. Of course this isn’t the same thing as an AI system completely autonomously updating its own code, but nevertheless this is a larval version of recursive self-improvement.

    There are other self-reinforcing loops at play. The economic value creation has started a flywheel of compounding infrastructure buildout to run these increasingly-powerful AI systems. And robots that can build other robots (and in some sense, datacenters that can build other datacenters) aren’t that far off.

    If we have to make the first million humanoid robots the old-fashioned way, but then they can operate the entire supply chain—digging and refining minerals, driving trucks, running factories, etc.—to build more robots, which can build more chip fabrication facilities, data centers, etc, then the rate of progress will obviously be quite different.

    As datacenter production gets automated, the cost of intelligence should eventually converge to near the cost of electricity. (People are often curious about how much energy a ChatGPT query uses; the average query uses about 0.34 watt-hours, about what an oven would use in a little over one second, or a high-efficiency lightbulb would use in a couple of minutes. It also uses about 0.000085 gallons of water; roughly one fifteenth of a teaspoon.)

    The rate of technological progress will keep accelerating, and it will continue to be the case that people are capable of adapting to almost anything. There will be very hard parts like whole classes of jobs going away, but on the other hand the world will be getting so much richer so quickly that we’ll be able to seriously entertain new policy ideas we never could before. We probably won’t adopt a new social contract all at once, but when we look back in a few decades, the gradual changes will have amounted to something big.

    If history is any guide, we will figure out new things to do and new things to want, and assimilate new tools quickly (job change after the industrial revolution is a good recent example). Expectations will go up, but capabilities will go up equally quickly, and we’ll all get better stuff. We will build ever-more-wonderful things for each other. People have a long-term important and curious advantage over AI: we are hard-wired to care about other people and what they think and do, and we don’t care very much about machines.

    A subsistence farmer from a thousand years ago would look at what many of us do and say we have fake jobs, and think that we are just playing games to entertain ourselves since we have plenty of food and unimaginable luxuries. I hope we will look at the jobs a thousand years in the future and think they are very fake jobs, and I have no doubt they will feel incredibly important and satisfying to the people doing them.

    The rate of new wonders being achieved will be immense. It’s hard to even imagine today what we will have discovered by 2035; maybe we will go from solving high-energy physics one year to beginning space colonization the next year; or from a major materials science breakthrough one year to true high-bandwidth brain-computer interfaces the next year. Many people will choose to live their lives in much the same way, but at least some people will probably decide to “plug in”.

    Looking forward, this sounds hard to wrap our heads around. But probably living through it will feel impressive but manageable. From a relativistic perspective, the singularity happens bit by bit, and the merge happens slowly. We are climbing the long arc of exponential technological progress; it always looks vertical looking forward and flat going backwards, but it’s one smooth curve. (Think back to 2020, and what it would have sounded like to have something close to AGI by 2025, versus what the last 5 years have actually been like.)

    There are serious challenges to confront along with the huge upsides. We do need to solve the safety issues, technically and societally, but then it’s critically important to widely distribute access to superintelligence given the economic implications. The best path forward might be something like:

    1. Solve the alignment problem, meaning that we can robustly guarantee that we get AI systems to learn and act towards what we collectively really want over the long-term (social media feeds are an example of misaligned AI; the algorithms that power those are incredible at getting you to keep scrolling and clearly understand your short-term preferences, but they do so by exploiting something in your brain that overrides your long-term preference).
    2. Then focus on making superintelligence cheap, widely available, and not too concentrated with any person, company, or country. Society is resilient, creative, and adapts quickly. If we can harness the collective will and wisdom of people, then although we’ll make plenty of mistakes and some things will go really wrong, we will learn and adapt quickly and be able to use this technology to get maximum upside and minimal downside. Giving users a lot of freedom, within broad bounds society has to decide on, seems very important. The sooner the world can start a conversation about what these broad bounds are and how we define collective alignment, the better.

    We (the whole industry, not just OpenAI) are building a brain for the world. It will be extremely personalized and easy for everyone to use; we will be limited by good ideas. For a long time, technical people in the startup industry have made fun of “the idea guys”; people who had an idea and were looking for a team to build it. It now looks to me like they are about to have their day in the sun.

    OpenAI is a lot of things now, but before anything else, we are a superintelligence research company. We have a lot of work in front of us, but most of the path in front of us is now lit, and the dark areas are receding fast. We feel extraordinarily grateful to get to do what we do.

    Intelligence too cheap to meter is well within grasp. This may sound crazy to say, but if we told you back in 2020 we were going to be where we are today, it probably sounded more crazy than our current predictions about 2030.

    May we scale smoothly, exponentially and uneventfully through superintelligence.

    中文版

    温和的奇点

    我们已经越过了事件视界,腾飞已经开始。人类正接近构建数字超级智能,而至少到目前为止,这一切并没有看起来那么奇怪。

    机器人还没在街头随处可见,大多数人也还没整天和 AI 交流。人类仍然会死于疾病,去太空依然困难重重,我们对宇宙的理解仍然非常有限。

    尽管如此,我们最近已经构建出在许多方面比人类更聪明的系统,并且这些系统能显著放大人类的产出。最不可能的部分已经完成——那些促成 GPT-4 和 o3 等系统诞生的科学突破来之不易,但它们将带我们走得更远。

    AI 将在多个方面为世界带来贡献,但 AI 加速科学进步与提升生产力所带来的生活质量提升将是巨大的;未来有望远比现在更加美好。科学进步是整体进步的最大驱动力;一想到我们有可能获得多少更多的成果,就令人振奋。

    从某种意义上说,ChatGPT 已经比历史上任何一个人都更强大。每天有数亿人依赖它,且任务越来越重要;一项小的新增能力可能带来极大的正面影响,而一个微小的不匹配在被数亿人使用时,也可能造成很大的负面影响。

    2025 年,我们迎来了能够真正进行认知工作的智能代理;编写计算机代码的方式将彻底改变。2026 年,我们很可能会看到能产生原创见解的系统。2027 年,或许会出现能在现实世界中执行任务的机器人。

    将有更多人能够创作软件和艺术。但世界对这两者的需求也将大幅上升。专家们如果拥抱这些新工具,可能仍然比新手强得多。总体来看,2030 年一个人完成的事情将远超 2020 年,这种变化将令人瞩目,也会有许多人学会如何从中受益。

    在最重要的方面,2030 年代也许不会有太剧烈的变化。人们依然会爱家人,释放创造力,玩游戏,在湖里游泳。

    但在仍然非常重要的其他方面,2030年代很可能与以往任何时代都大不相同。我们不知道人类智能的上限有多高,但我们即将找出答案。

    到了 2030 年代,智慧和能源——即想法及实现想法的能力——将变得极其丰富。这两者长期以来一直是人类进步的基本限制;如果智慧和能源变得充足(加上良好的治理),理论上我们可以实现一切。

    现在我们已经与惊人的数字智能共处,并且在最初的震惊之后,大多数人已渐渐习惯。我们很快会从惊叹 AI 能写出优美段落,变成期待它写出完整小说;从惊讶它能诊断疾病,变成期望它能研发治愈方法;从惊讶它能写出小程序,变成希望它能创建整家公司。这就是「奇点」的方式:奇迹变成日常,然后变成起点。

    已经有科学家告诉我们,他们的工作效率是过去的两到三倍。高级AI之所以意义重大,其中一个最关键的原因是我们可以用它来加速 AI 研究本身。我们也许能发现新的计算材料、更好的算法,甚至更多未知的可能。如果我们能用一年、甚至一个月完成十年的研究,进步的速度显然会大不一样。

    从现在开始,我们已有的工具将帮助我们发现更多科学洞见,并辅助我们创造更先进的 AI 系统。当然,这还不是AI完全自主地更新自身代码,但这确实是「递归自我改进」的初始形态。

    还有其他一些自我强化的循环正在发生。AI 带来的经济价值推动了基础设施建设的飞轮,越来越多的资源正用于运行这些强大的 AI 系统。而能够制造其他机器人的机器人(在某种意义上,还有能建造其他数据中心的数据中心)离我们也不远了。

    如果我们必须用传统方式制造出最初的一百万个人形机器人,但它们随后能接手整个供应链——开采和提炼矿物、驾驶卡车、运行工厂等——并制造更多机器人、芯片厂和数据中心,那进步的速度就会截然不同。

    随着数据中心的生产逐渐自动化,智能的成本最终应该会接近电力成本。(很多人关心 ChatGPT 每次查询用多少能量;平均每次查询大约耗电 0.34 瓦时,大概相当于烤箱运行一秒多一点,或高效灯泡使用几分钟。此外,每次查询大约用水 0.000085 加仑,约等于十五分之一茶匙。)

    科技进步的速度将持续加快,而人类也有很强的适应能力。虽然会有艰难的挑战,比如整类工作消失,但另一方面,世界的财富增长如此之快,以至于我们将有机会认真考虑以前无法实现的新政策。我们可能不会一次性建立一套新的社会契约,但回顾几十年后,会发现逐步变化的累积带来了巨大转变。

    如果历史可以作为参考,我们总能找到新事物去做、新欲望去追求,并迅速适应新工具(工业革命后的职业变迁就是个很好的例子)。人们的期望会提升,但能力也会随之快速提升,我们会拥有更好的生活。我们会为彼此创造越来越美妙的事物。相比 AI,人类有一个长期且重要的优势:我们天生在意他人,以及他人怎么想、怎么做,而对机器却没什么感情。

    如果一千年前的自给农民看到我们现在的生活,会觉得我们从事的是「假工作」,仿佛只是在自娱自乐,因为我们食物充足、奢华难以想象。我希望我们未来一千年后也能用同样的眼光看待那些工作——觉得它们「非常假」,但毫无疑问,那些人会认为自己的工作极其重要且充实。

    未来将涌现出大量的新奇迹。到 2035 年,我们会取得什么突破现在都难以想象;可能今年我们还在解决高能物理问题,明年就开始太空殖民;或今年在材料科学上取得重大突破,明年就实现真正高带宽的脑机接口。很多人会选择继续以当下的方式生活,但也肯定会有人选择「接入系统」。

    展望未来,这些事现在听起来难以想象。但真正经历它时,可能会让人惊叹,却仍在可控范围内。从相对论的角度看,奇点是一点点发生的,融合是逐步进行的。我们正攀登那条技术指数增长的长弧线;向前看总觉得是陡峭的垂直,向后看则像是平缓的线,但其实它是一条平滑的曲线。(回想 2020 年,如果那时我们说 2025 年会接近 AGI,听起来会很疯狂,但对比过去五年所发生的一切,也许现在的预测不那么疯狂了。)

    当然,我们还面临许多严峻挑战。我们需要在技术上和社会层面解决安全问题,但在那之后,最重要的是确保超级智能能被广泛获取,因为这关系到经济结构。未来的最好路径可能包括以下几个步骤:

    首先解决「对齐问题」,也就是我们能有把握地确保 AI 系统长期学会并实现我们集体真正的意愿(比如社交媒体就是对齐失败的例子:推荐算法非常擅长让你不停刷,但它们是通过利用大脑短期偏好来压制你长期目标的)。

    接着,重点让超级智能变得便宜、普及,并避免被某个个人、公司或国家高度集中掌控。社会具有韧性、创造力,也能迅速适应。

    如果我们能激发集体的意志和智慧,尽管会犯错、也会有失控,但我们会迅速学习与调整,从而最大化收益、最小化风险。在社会广泛设定的框架下,给予用户更多自由将非常关键。世界越早开始关于这些框架及「集体对齐」如何定义的讨论,就越好。

    我们(整个行业,不只是 OpenAI)正在为世界构建一个「大脑」。

    这个大脑将高度个性化、人人易用;它的极限将取决于我们的好点子。长期以来,技术圈总爱嘲笑那些「只有想法的人」——他们有个点子,却没法实现。而现在,看起来他们的时代终于要到了。

    OpenAI 如今做的事情很多,但最根本的身份仍是一个超级智能研究公司。我们还有大量工作要做,但前路已经被照亮,黑暗正迅速退去。我们对能做这些事情感到无比感激。

    「智能几乎免费」已近在眼前。也许听起来疯狂,但如果我们在 2020 年告诉你我们将在 2025 年到达现在这个水平,听起来比我们现在对 2030 年的预测更疯狂。

    愿我们顺利、指数级、平稳地迈入超级智能时代。

    原文链接:the-gentle-singularity

  • AI周刊丨本周不可错过的AI行业动态(6.2-6.8)

    本篇内容,带你快速了解本周AI热点资讯

    weekly

     

    01. AI大事件

     

    比人类算法快70%!谷歌DeepMind用AI改进数据排序,登上Nature

    Google DeepMind发布三大AI工具AlphaZero、MuZero、AlphaDev,可提高数据中心资源利用率、提升视频压缩效率、发现更快算法。

    AlphaDev发现的新算法将短元素序列的排序效率提高70%,其新排序算法已发布到C++库中。

    智源发布“悟界”系列大模型,解码物理世界交互新范式

    第七届北京智源大会在中关村开幕。

    北京智源人工智能研究院发布“悟界”系列大模型,涵盖多模态世界模型Emu3、脑科学模型见微Brainμ、具身智能大脑RoboBrain 2. 0 以及微观生命模型OpenComplex2,构建全链条AI体系。

    谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本,多项 AI 性能提升

    谷歌更新了Gemini 2.5 Pro预览版模型至06-05版本,多项AI性能基准测试评分提升,放宽了Pro版用户的请求限制。

    LMArena Elo评分上升24分,WebDevArena Elo评分上升35分至1443分,取得业界领先地位。

    谷歌对模型进行了风格与结构优化,使其更具创意、回答格式更清晰,提升了交互体验。

    上海AI实验室造出首个「通才」机器人大脑

    上海人工智能实验室联合多家单位提出了一种全新的通用具身智能大脑框架VeBrain,通过同时集成视觉感知、空间推理和机器人控制能力,可实现多模态大模型(MLLM)对物理实体的直接操控,使机器人能像人类一样“看到-思考-行动”。

    微软宣布 6000 人裁员计划,战略重心转向 AI 领域

    微软公司今日宣布启动全球裁员计划,涉及约 6000 个岗位,主要集中在非技术类职能部门及部分子公司业务线。

    微软与印度 Yotta Data Services 达成战略合作,协同印度AI使命计划参与者、政府机构、印度理工学院、初创企业及商业组织展开协作。

    2025全球人工智能技术大会,近千名政产学研各界人士参会

    中国人工智能学会主办的2025全球人工智能技术大会(GAITC2025)在杭州未来科技城开幕,本届大会以“交叉、融合、相生、共赢”为主题,全球200多位专家学者分享前沿报告,政产学研各界人士参会。

    现场展示了区域在行业大模型落地应用的多项探索成果。

    同时,杭州未来科技城启动了人工智能领域知识产权证券化融资专项支持行动,为AI创新企业开辟了全新的融资路径,预计在未来三年内围绕人工智能领域发行5支知识产权证券化产品,辐射企业超过60家,融资额超过5亿元。

    Anthropic 宣布将在5天内切断 Windsurf 的所有API访问权限,联合创始人公布原因

    Anthropic 宣布将内切断 Windsurf 的所有API访问权限,具体涉及的模型包括:Claude 3.5 Sonnet、Claude 3.7 Sonnet、Claude 3.7 Sonnet Thinking。

    Anthropic 联合创始人兼首席科学官 Jared Kaplan 表示,公司之所以切断了 AI 编程助手 Windsurf 直接访问 Claude 模型的权限,主要原因在于市场传闻称 Windsurf 即将被 Anthropic 最大的竞争对手 OpenAI 收购。

     

    02. 新产品发布

     

    谷歌推出Veo3-Fast模型,价格比Veo 3便宜80%

    谷歌推出Veo3-Fast模型,生成单个视频消耗20积分,是Veo3的五分之一。

    Veo3-Fast生成的视频分辨率与Veo3一致,都是8秒720p,自动生成配音。

    即梦图片3.0重磅更新,上线智能参考功能

    即梦图片3.0模型更新智能参考功能,在原图一致性保持方面表现出色,精细到头发丝级。用户可通过简单提示语实现添加文字、修改文字、复杂设计等多种操作,生成高质量图片。目前功能灰度测试中,下周APP和Web端将全量上线。

    图像编辑模型SeedEdit 3.0发布!更强保持力,更高可用率

    字节跳动Seed团队发布图像编辑模型SeedEdit 3.0。模型基于文生图模型Seedream 3.0,采用多样化数据融合方法与特定奖励模型,显著提升图像主体、背景和细节保持能力,在人像编辑、背景更改等场景表现出色。

    SeedEdit 3.0可处理4K图像,精准识别并移除无关人物及其影子,能将2D绘画转为真实模特,保持细节。

    Cursor 1.0 发布:BugBot代码审查、Memories记忆、一键MCP安装等

    Cursor 1.0 正式发布,新增 BugBot 自动代码审查工具,可自动审查 PRs 精准识别潜在问题,发现问题后能在 GitHub 的 PR 上评论提供修复提示。

    推出测试版 Memories 功能,可按项目存储对话中的关键信息;支持一键安装 MCP 服务器并简化验证流程;聊天界面新增可视化支持,优化了设置和仪表盘界面;简化定价模式。

    OpenAI 发布了两项 ChatGPT 新功能:「连接器」与「记录模式」

    OpenAI为ChatGPT推出两项新功能:“连接器”与“记录模式”。

    连接器可接入GitHub、Google Drive等平台,实现数据查询与整理,助力企业知识管理。

    记录模式则能自动录音、记笔记、生成会议纪要,提升会议效率。

    Manus推出文生视频功能,挑战OpenAI、Sora等竞争对手

    Manus推出原生“文生视频”功能,目前仅对付费会员开放。

    功能可将文本命令快速转换为有序视频故事。Manus 提供 Basic、Plus、Pro 三种会员服务,Pro 会员每月收费 199 美元。

    Kimi推出全新AI学术研究助手:学术搜索

    Kimi推出全新AI学术研究助手“学术搜索”,通过深度推理搜索、遵循用户指令、实时互动等,帮助用户在学术研究和论文写作中提高效率和质量。

    用户可在官网注册登录后使用,适用于学术研究支持、技术问题解决等多种场景。

    AI视频神器PixVerse国内版“拍我AI”正式上线

    PixVerse国内版“拍我AI”正式上线,网页端和移动端同步推出,支持V4.5版本。

    用户可通过访问拍我AI官网和各大应用商店下载体验。产品提供AI特效、首尾帧等创新功能,助力用户创作独特视频。

    我国水利标准AI大模型正式发布

    水利部国科司组织中国水科院自主研发的“水利标准AI大模型”正式发布并应用。

    模型基于“SkyLIM”体系,采用“海量知识库+DeepSeek/Qwen双模型+标准服务”架构,集成1800余项水利水电标准、500余项法律法规等多源语料,具备水利标准查重比对、查询、编制、审查、评估等多维功能。

    微软Bing推出AI视频生成工具Bing Video Creator,免费使用Sora模型

    微软 Bing 团队推出 Bing Video Creator免费的 AI 视频生成工具,由 OpenAI 的 Sora 模型提供支持。

    用户只需在 Bing 移动应用中输入详细的文字描述,可生成5秒长的竖屏视频(9:16格式)。

    提供快速和标准两种生成速度,初始有10次免费快速生成机会,之后可使用积分兑换或转为标准速度。

    ElevenLabs发布最新版TTS模型——Eleven v3

    专攻AI语音合成的独角兽ElevenLabs发布旗下最新版TTS模型——Eleven v3,狠狠拿捏情感控制。

    Eleven v3不仅支持70多种语言(含中文),还能进行多人对话聊天,过程中每个人的情绪、语气等表现都非常生动。

    官方自信表示,这是“迄今为止最具表现力的文本转语音模型”。

     

    其他动态

     

    秘塔“今天学点啥”平台上线导出PPT功能。用户在视频讲解页面点击“导出PPT”按钮,可下载包含图文、语音讲解及逐字稿的完整PPT。

    阶跃星辰To C产品“冒泡鸭”将停运,团队合并至对话产品“阶跃AI”。2025年以来,阶跃星辰将战略重心从C端转移到模型研发和ToB/G上,将ToB的Agent产品作为重点布局方向。

    OpenAI宣布将ChatGPT的记忆功能向免费用户逐步开放。免费用户可体验轻量版记忆功能,支持短期对话连续性,付费用户可引用更久远的对话记录。

    OpenAI为ChatGPT付费用户升级了语音功能,它的语音更加自然,语调更细腻,节奏更真实(包括停顿和强调),并且对某些情绪的表达更加精准,包括同理心、讽刺等。在翻译方面也更高效,可以持续进行多轮翻译。

    克而瑞推出中国首个房地产垂直领域AI Agent——CRIC深度智。基于克而瑞20年行业经验与海量数据,结合多模态大模型技术,为房地产行业提供智能化解决方案。CRIC深度智联助力房地产从业者提升工作效率与决策质量,被誉为地产人的“第二大脑”。

    银河通用发布全球首个产品级端到端具身FSD大模型TrackVLA。模型具备纯视觉环境感知、语言指令驱动、自主推理及零样本泛化能力,无需提前建图和遥操控制,可实现“听→看→懂→走”的闭环运动。有八大核心能力,包括自然语言理解与目标识别、复杂场景下准确跟随、目标丢失找回、陌生环境自主导航等。

     

    03. 开源项目

     

    阿里开源 Qwen3 新模型 EmbeddingReranker

    Qwen3上新Embedding系列,专为文本表征、检索与排序任务设计,有0.6B/4B/8B三种尺寸,8B版本在MTEB多语言Leaderboard榜单中排名第一,性能超越一众商业API服务。还发布了排序模型Reranker系列。

    快手开源“Auto Think”大模型,根据问题自动调节思考深度

    快手 Kwaipilot 团队开源 KwaiCoder-AutoThink-preview 自动思考大模型。模型针对深度思考大模型“过度思考”问题,提出自动思考模型训练范式,融合“思考”和“非思考”能力,可根据问题难度自动切换思考形态。

    开源 AI 设计 Agent —— Jaaz,Lovart 的免费平替项目

    开源 AI 设计 Agent —— Jaaz,具备强大的 AI 设计能力,可智能生成设计提示,批量生成图像、海报、故事板等。

    Jaaz 支持 Ollama、Stable Diffusion、Flux Dev 等本地图像和语言模型,实现免费的图像生成。

    小米多模态大模型 MiMo-VL 开源,多方面领先 Qwen2.5-VL-7B

    小米正式开源多模态大模型 MiMo-VL。在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B,在 GUI Grounding 任务上比肩专用模型。

    Google开源 Deep Research 框架

    Google 开源了一个Deep Research 系统模板,详细演示了如何基于 Google Gemini 2.5 模型 和 LangGraph 框架构建研究增强型对话式AI,旨在通过动态生成搜索词、使用 Google 搜索查询网络、反思结果以识别知识空白,并迭代优化搜索,直到能够提供有充分支持的答案并附上引用。

    谷歌 DeepMind 推出手语翻译模型:SignGemma,打破手语沟通壁垒

    谷歌 DeepMind 推出 SignGemma,是强大的手语翻译模型,可将手语转化为口语文本,主要针对美国手语(ASL)和英语深度优化,为开源模型,将于今年晚些时候加入 Gemma 模型家族。DeepMind 希望借此打破手语使用者的沟通障碍,助力他们在工作、学习和社交中更顺畅地参与。

    面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍

    面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型,通过其 CPM.cu 自研推理框架,可实现220倍极致的速度提升,5 倍常规提速。

    本次在开源社区核心推出 8B 和 0.5B 两个参数规模的版本,均在同级别模型对比中实现了最佳性能。

     

    04. 投资融资

     

    图灵奖得主Bengio再创业:启动资金就筹集了3000万美元

    图灵奖得主、深度学习三巨头之一Yoshua Bengio再次创业,成立非营利组织LawZero,已筹集3000万美元启动资金。

    LawZero构建“设计即安全”的AI系统,不做Agent,而是监督Agent,以理解学习世界为核心目标,提供可验证的真实答案。

    AMD 收购 AI 软件优化初创公司 Brium

    AMD 宣布收购 Brium,Brium 专注于开发可适配多种硬件架构的机器学习推理技术,能让原本为英伟达等特定硬件设计的 AI 模型在其他品牌平台上有效运行。AMD 表示此举在推动“高性能、开放的 AI 软件生态建设”,支持开发者创新。

     

    05. 观点洞察

     

    Sam Altman建议企业领导者:直接开始,别等下一个版本

    在本周旧金山举办的 Snowflake Summit 2025 上,OpenAI CEO Sam Altman 开门见山地指出,对于2025年仍在观望的企业领导者,他的建议只有一句:直接开始,别等下一个版本。

    他表示,企业若总是等待更好的模型、更成熟的方案,反而会错过真正的先发优势。真正取得突破的,是那些愿意及早下注、小步快跑的团队。科技在飞速演进,胜负取决于谁拥有快速试错、快速学习的能力。

    Snowflake CEO Sridhar Ramaswamy 对此高度认同。他认为,好奇心是今天企业中最被忽视的稀缺能力。很多过去理所当然的工作方式,如今都需要被质疑。

    原文链接:AI周刊丨本周不可错过的AI行业动态(6.2-6.8)

  • AI周刊丨本周不可错过的AI行业动态(5.26-6.1)

    本篇内容,带你快速了解本周AI热点资讯

     

    01. AI大事件

     

    DeepSeek-R1开源新版本DeepSeek-R1-0528,AI编程能力跃升

    DeepSeek发布R1模型重大更新,在数学、编程等基准测试中表现优异,接近国际顶尖水平。

    新版模型针对“幻觉”问题优化,在改写润色等场景中幻觉率降低45%-50%,复杂推理任务准确率显著提升,同时增强了创意写作能力,代码生成性能媲美OpenAI o3-high模型

    DeepSeek开源新版R1-0528模型,继续采用MIT开源协议,权重已在ModelScope和HuggingFace发布,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

    昆仑万维推出全球首款Office智能体,天工超级智能体APP

    昆仑万维天工超级智能体APP,深度融合AI技术与办公场景,它能自动生成文档、进行数据分析、会议辅助等,还能根据用户的自然语言指令完成复杂办公任务,为智能办公领域提供定制化解决方案。

    北京支持制造业部署具身智能机器人

    北京市经济和信息化局印发《北京市人工智能赋能新型工业化行动方案(2025年)》,围绕“人工智能与新型工业化”发展,共推出16条措施支持企业发展。

    支持制造业企业部署具身智能机器人等设备,符合条件的示范项目最高可获3000万元支持,旨在推动人工智能与工业深度融合,助力制造业智能化升级。

    宇树科技回应更名“股份有限公司”,王兴兴曾称有可能赴港上市

    宇树科技向合作伙伴发布通知称,因公司发展需要,杭州宇树科技有限公司即日起名称变更为杭州宇树科技股份有限公司。届时,原公司所有业务由“新公司名称”继续经营,原公司签订的所有合同继续有效。

    今年4月,宇树科技创始人王兴兴曾表示后续有可能赴港上市。

    字节跳动禁用第三方AI开发软件

    字节跳动安全与风控部门发邮件,自6月30日起在内部分批次禁用Cursor等第三方AI开发软件,推自研Trae作为替代。

    此前发布的Trae海外版本周已上线付费方案,Pro版首月收费3美元/月。

    小红书与复旦哲学达成“AI+人文”合作

    小红书与复旦哲学宣布在AI人文训练方面达成合作。双方共同成立“AI人文人才训练营”,展开AI后训练相关的人文课题共创,培养“AI+人文”复合型人才。

    大模型的训练分为预训练和后训练两个阶段,人文训练属于后训练的一部分,对AI在人性化表达、人类价值对齐等方面的表现起到关键作用。

    八部门联合发布《加快数智供应链发展专项行动计划》,鼓励企业采用AI

    商务部、国家发展改革委、教育部、工业和信息化部、交通运输部、农业农村部、税务总局、国家数据局等8部门联合印发了《加快数智供应链发展专项行动计划》。

    鼓励企业采用AI、大数据等先进技术来提高整个供应链的效率和弹性,以促进经济高质量增长。

    阿里巴巴集团与SAP达成战略合作,探索接入通义千问大模型

    阿里巴巴集团与SAP宣布达成战略合作。合作将SAP领先的企业级软件与阿里云的基础设施及AI能力相结合,加速企业客户的创新和数字化转型。

    阿里云将作为SAP超大规模云服务提供商,支持企业在阿里云上部署SAP ERP云及私有云版本,加入SAP IaaS认证计划。SAP将探索接入通义千问大模型,使企业客户能在SAP应用中使用本地化生成式AI功能。

    王兴披露美团AI业务进展,6月将推业务决策助手

    王兴披露了美团AI业务的进展情况,预计在6月推出业务决策助手,助力美团业务的决策制定。

    此外,王兴还表示,美团的基础大模型能力已接近GPT-4o的水平。

     

    2.0 新产品发布

     

    荣耀确认进军机器人业务:跑步速度4m/s打破行业记录

    荣耀CEO李健在发布会上官宣荣耀进军机器人业务,展示的机器人跑步速度达4m/s打破了包括宇树科技人形机器人G1在内的机器人行业记录

    此前荣耀被挤出国内手机市场Top5,其销售与服务总裁称有信心重返前三。

    零次方发布轮式人形机器人Zerith-H1,面向类家庭服务场景

    零次方发布轮式人形机器人Zerith-H1,搭载垂直场景操作基础模型Zerith-V0,具备轮式移动底盘,上半身可调整高度,适应不同操作场景。

    在官方展示的演示视频里,H1可以完成多项家庭服务,整理杂物、刷马桶、打扫地面等,全程动作非常丝滑流畅。

    傲意科技推出灵巧手

    傲意科技推出具备触觉感知的第二代灵巧手ROH- AP001和小型机器人专用灵巧手ROH-LiteS,分别针对力度自适应需求和小型化应用场景。

    ROH-AP001,搭载了高密度点阵触觉传感器,可实时感知0.1N至25N的细微压力变化,实现了接近人类手指的灵活度与精准操控能力。

    提供UART、RS485、CAN等多协议通讯接口,可无缝接入工业机器人、人形机器人及特种设备控制系统,实现毫秒级指令响应。

    ROH-LiteS灵巧手专为小型机器人量身打造,极致小巧与轻盈,整手负载达25KG,单指静态负载可达8KG。

    通义灵码AI IDE正式上线,在通义灵码官网免费下载开箱即用

    阿里云宣布通义灵码AI IDE正式上线,支持最强开源模型Qwen3,自带编程智能体模式,全面支持长期记忆、行间建议预测和行间会话等能力。

    通义灵码深度集成魔搭MCP广场,涵盖3000+MCP服务,拓宽AI编码助手能力边界。

    字节跳动旗下剪映推出视频内容创作Agent「小云雀」

    字节跳动旗下剪映团队推出AI视频Agent「小云雀」,主打“灵感即所得,创作零门槛”,已接入豆包和DeepSeek,目前仅安卓可下载,iOS预计6月发布。

    该工具让用户先选择场景,避免生成内容“跑题”,提升交互效率和结果相关性。

    快手可灵AI上线2.1系列模型:更快更便宜

    快手发布可灵2.1系列模型。模型在高品质模式(1080p)下生成5秒视频不到1分钟,成本降低65%。

    动态细节、响应和幅度提升,人物动作更贴近现实,能更好理解用户意图。

    可灵2.1有标准(720p)和高品质(1080p)两种模式,主打高性价比和高效生成,大师版提供更卓越表现。

    QQ浏览器推出首个高考 Agent“>AI 高考通”,量身定制志愿填报方案

    QQ浏览器推出行业内首个高考Agent——“AI高考通”,为高考生提供全流程AI助力。

    考生可通过它快速获取全面权威的高考信息,如院校资料、专业信息等,能一键得到量身定制的志愿填报方案。

    高考期间,AI全程陪伴,提供“AI解题答疑”“AI作文辅导”等功能,助力考生考前提分、考中查询日程、考后个性化推荐志愿。

    国产机器人操作系统鸿道发布

    鸿道具身智能机器人操作系统发布。首创大小脑融合架构,该系统通过多项安全认证,构建全链路防护体系,保障工业及家庭场景安全。

    其他动态

    字节再出AI新产品剪小映简化版视频剪辑应用,降低了视频剪辑的门槛,方便更多用户进行视频创作。

    Opera推出首款“AI Agent”浏览器Opera Neon,由Neon Chat、Do和Make三大功能组成,能理解用户意图并转化为行动,如生成报告、编写代码等。

    百度多智能体协作应用心响APP上线iOS版,苹果安卓用户均可免费使用。心响APP支持旅游攻略、深度研究、法律咨询、试题讲解等10大场景、200+任务类型。

    北大校友官宣推出号称“最强通用Agent” Fairies(中译仙女),能执行Deep research、代码生成、发邮件等1000个操作。

    飞猪AI“问一问”功能升级,提升“智慧交通顾问”、“酒店顾问”查询精度,可推荐如国产飞机C919机票。新增“会员助手”,查询会员等级及权益。优化搜索引擎输入提示、旅行方案一键生成长图等功能,手绘行程地图实用性增强,接入真实地图数据,生成有方位、直观距离的手绘地图。

    中国电信陕西公司与数字生活公司携手优必选科技共同研发的首款“家庭桌面AI机器人”,正式全国首发。机器人依托大模型技术,具备情感计算、环境感知等能力,可实现拟人化陪伴、舞蹈娱乐、故事互动、英语口语练习、视频通话、绘本伴读、家居控制等多元化服务,为用户打造“主动式”“成长式”智慧生活体验。

    360宣布全系浏览器升级为AI浏览器,用户只需一个窗口,AI即可完成跨平台检索、万字文档秒级摘要、甚至一键生成PPT,效率提升高达60倍。

    腾讯元宝功能升级,接入DeepSeek模型,支持双模引擎(混元 + DeepSeek)文生图创作,并推出视频问答功能,强化多模态处理能力,与QQ浏览器深度整合。

    有道云笔记推出「文转图表」功能,将文字快速转化为可视化图表。功能可智能解析文本数据结构和逻辑关系,自动生成匹配图表类型,支持海量图表样式选择和灵活编辑,满足不同场景需求。

     

    03. 开源项目

     

    阿里巴巴开源自主搜索AI智能体WebAgent

    阿里巴巴在Github上开源自主搜索AI智能体WebAgent,具备端到端自主信息检索与多步推理能力,能像人类一样主动感知、决策和行动。

    WebAgent分为WebDancer和WebWalker,前者是智能体训练框架,后者是LLM基准测试。

    腾讯混元开源语音数字人模型HunyuanVideo-Avatar

    腾讯混元开源语音数字人模型HunyuanVideo-Avatar,模型由腾讯混元视频大模型及腾讯音乐天琴实验室MuseV技术联合研发。

    用户只需上传一张图片和一段音频,模型能生成人物、动物自然说话或唱歌的视频,支持多种场景和风格。

    红杉中国推出全新AI基准测试工具xbench,动态更新测试内容

    红杉中国推出全新AI基准测试工具xbench,发布相关论文。

    xbench采用双轨评估体系,分为AGI追踪与专业对齐两大方向,同时评估AI的理论能力上限与实际落地价值。

    首期发布科学问题解答测评集和中文互联网深度搜索测评集。

     

    04. 投资融资

     

    地平线子公司融资1亿美元,超10家资本「集体抢滩」具身智能Infra赛道

    地瓜机器人宣布完成1亿美元A轮融资,本轮融资由高瓴创投、五源资本、线性资本、和暄资本、九合创投、Vertex Growth、砺思资本、敦鸿资产、沸点资本、梅花创投、黄浦江资本等投资机构共同参投。

    地瓜机器人表示将在 6 月发售面向具身智能机器人的RDK S100机器人开发套件,该平台具备百 TOPS 级算力,是一款单SoC算控一体计算平台,可实现机器人感知与运控协同计算。

    目前,该平台已获得乐聚机器人、逐际动力、睿尔曼、清华大学智能产业研究院、求之科技、国讯芯微等数家行业顶级合作伙伴抢先搭载。

    沙特人工智能公司Humain寻求美国顶级科技公司投资

    沙特阿拉伯新成立的国有人工智能公司Humain正在与OpenAI、埃隆·马斯克的xAI和安德森·霍洛维茨(Andreessen Horowitz)等在内的美国公司进行谈判。

    公司风险投资基金Humain Ventures将于今年夏天启动,初始资金为100亿美元,用于投资美国、欧洲和亚洲部分地区的初创企业。

    该公司的目标是到2030年建立1.9吉瓦的数据中心装机容量,四年后将这一数字提高到6.6吉瓦。Amin称,按照目前的市场价格,该项目将耗资770亿美元。

    OpenAI首席战略官称继布局韩国和日本后,将加大对亚洲投资

    OpenAI首席战略官Jason Kwon在新加坡举行的活动上表示,继在韩国、日本和新加坡设立办公室之后,公司计划进一步扩大在亚洲的投资。

    Kwon表示,公司对亚洲增长前景持乐观态度。

    智元机器人获上海国资委领投:创下国内该赛道最大累计融资额纪录

    上海国投公司旗下基金领投国内具身智能领域领军企业智元机器人。本轮融资后,智元创下中国具身智能赛道最大累计融资额纪录。

    欧洲AI 3D建模新星SpAItial,种子轮融资近亿

    欧洲AI 3D模型专家马蒂亚斯·尼斯纳创立的SpAItial公司获1300万美元种子轮融资,折合人民币约9425万元,本轮融资由欧洲早期投资机构早鸟风险投资公司(Earlybird Venture Capital)领投,Speedinvest(一家位于奥地利维也纳的风险投资公司)及多位知名天使投资人跟投。

    尼斯纳曾是Synthesia的联合创始人,团队成员来自Meta和谷歌等公司。

    该公司聚焦文本生成3D技术,致力于实现高拟真3D环境的交互性。

    前追觅高管创立具身智能公司,半年累计融资近2亿

    Lumos Robotics鹿明机器人完成天使++轮融资,投资方包括复星锐正、德马科技和吴中金控。是半年内的第三轮融资,累计融资近2亿。

    鹿明机器人由资深机器人专家喻超创立,拥有全栈研发能力。产品包括机器人关节模组、视触觉模组及LUS、MOS系列人形机器人。

    本轮资金将用于完善产品和深化产业协同,加速商业化落地。

    具身智能公司优理奇机器人完成数亿元天使轮及天使+轮融资

    优理奇机器人(UniX AI)近期完成数亿元天使轮及天使+轮融资,投资方包括中关村前沿基金、赛纳资本及长安私人资本。

    本轮融资将用于加速研发多模态具身智能大模型与通用机器人本体的同步演进,并推动其在泛商业服务和C端场景的落地。

    微分智飞连续完成两轮融资,加速空中机器人具身智能研发标题模板

    微分智飞(杭州)科技有限公司在一个月内完成数千万元天使轮及天使+轮融资。

    融资将用于加速飞行具身智能领域创新、集群空中机器人智能进化及人才团队构建。公司由浙江大学高飞教授创立,打造通用空中机器人具身智能大脑及其集群系统,推动工业、城市与自然空间的智能化升级。

    斑头雁智能科技B轮融资,投资方为阿里云、名川资本等

    斑头雁(杭州)智能科技有限责任公司B轮融资,融资额未披露,参与投资的机构包括阿里云,名川资本。

    斑头雁智能科技专注企业级AI智能体开发平台,为行业头部客户提供一站式大模型应用落地方案,集成「LLM+知识库+工作流+插件+数据库」全能力,提供「专业咨询+成熟平台+定制服务」三位一体解决方案,助力企业快速构建生产级Agent应用。

    马斯克的xAI与Telegram签署3亿美元协议以集成Grok

    马斯克创立的xAI公司向通讯平台Telegram支付3亿美元部署其Grok人工智能聊天机器人,双方达成为期一年合作关系,Telegram还将获得xAI订阅收入50%分成。

    xAI的Grok很快将在Telegram中可用,并将提供聊天、文本编辑、聊天和文档摘要、收件箱代理、群聊 moderation 等功能。

    英伟达第一财季营收、净利润同比增长

    英伟达发布了截至4月27日的2026财年第一财季财报,期内实现营收440.62亿美元,同比上涨69%,高于市场预期的432.8亿美元;预计2026财年第二财季的销售额将达到450亿美元,上下浮动2%。

    此外,英伟达CEO黄仁勋计划出售至多600万股股票,英伟达首席财务官科莱特・克雷斯则计划出售至多 50 万股。

     

    05. 观点洞察

     

    周鸿祎提出“以模制模”:安全大模型应对大模型安全

    周鸿祎在2025中国—上海合作组织人工智能合作论坛上表示,人类在享受AI带来的巨大机遇时,也必须正视与之伴生的安全风险与监管挑战,应“以模制模”,利用安全大模型解决大模型安全问题,同时在监管治理层面应采取辩证、客观的态度,为创新预留足够空间。

    原文链接:AI周刊丨本周不可错过的AI行业动态(5.26-6.1)

  • AI周刊丨本周不可错过的AI行业动态(5.19-5.25)

    本篇内容,带你快速了解本周AI热点资讯

     

    01. AI大事件

     

    Google I/O 2025 开发者大会,从研究到现实,AI技术全面升级

    Google I/O 2025 大会宣布多项进展。

    • Gemini 2.5 Pro模型在LMArena排行榜首位,性能卓越。
    • 推出Google Beam视频通信平台,提供沉浸式3D体验。
    • Gemini Live整合Project Astra功能,Agent Mode助力任务执行。
    • 个性化智能回复将推出,AI Mode重塑搜索体验。
    • 全新Imagen 4生成细节超逼真。
    • Veo 3首次实现音视频融合。凭借其逼真的场景、可控的角色一致性、声音合成及多样的编辑功能,在AI视频生成领域树立了新的标杆。
     

    Anthropic发布史上最强AI模型Claude 4

    Anthropic发布Claude 4模型 (包括Claude Opus 4和Claude Sonnet 4)。

    该模型被誉为“史上最强AI模型”及“世界最佳编程模型”,具备分析数千数据源长时间执行任务编写接近人类水平内容复杂操作的能力。

    它采用了全新的混合推理架构,能在SWE-Bench Verified测试中取得72.5%成绩,Terminal-bench测试中取得43.2%成绩,并具备长达7小时的持续工作能力。

     

    OpenAI最大收购,65亿美元拿下苹果前高管Jony Ive公司io

    OpenAI宣布以约65亿美元收购由CEO Sam Altman与前苹果首席设计官Jony Ive联合创办的AI设备初创公司io。

    这笔收购将是OpenAI史上最大一笔交易,预计夏季完成,需监管部门批准。

    收购后,OpenAI将获得约55名顶尖硬件工程师、软件开发者和制造专家,包括多位曾参与iPhone设计的前苹果设计师。

     

    微软Build 2025大会:拥抱MCP协议,引入xAI大模型

    微软在Build 2025大会上宣布全面支持模型上下文协议(MCP),并与GitHub共同加入MCP指导委员会,推动开放标准落地。其智能体方案已覆盖超过23万家机构。

    同时,微软公司宣布把埃隆·马斯克的xAI公司的Grok 3和Grok 3 mini人工智能模型引入Azure AI Foundry平台,作为微软在公司云平台内直接托管和收费的新产品。

     

    OpenAI等科技巨头将在阿联酋建设人工智能基础设施集群

    OpenAI、英伟达等科技巨头将携手合作,在阿拉伯联合酋长国建设一座名为“星际之门阿联酋”(Stargate UAE)的人工智能基础设施集群。

    这一项目是OpenAI、软银和甲骨文今年1月宣布在美国建设人工智能基础设施计划的姊妹项目,预计第一阶段的200兆瓦人工智能“集群”将于2026年投入使用。

     

    02. 新产品发布

     

    豆包上线视频通话功能:支持实时视频问答互动

    豆包App实时通话功能升级,支持视频聊天问答。

    本次升级基于视觉推理模型,支持联网搜索,工作、生活和学习遇到问题,随时和豆包视频对话。

    该功能具有实时场景理解能力,通过摄像头捕捉用户周围环境,结合问题进行智能分析。从日常生活到专业工作,多场景适用。

     

    混元游戏:首个工业级AIGC游戏内容生产引擎发布

    腾讯混元游戏视觉生成平台正式发布。是首个工业级AIGC游戏内容生产引擎,依托混元大模型打造,可大幅提升游戏资产生成与制作效率。

    平台面向游戏美术设计师提供AI美术管线、实时画布、AI 2D美术生成、专业角色多视图生成等核心功能,助力设计师快速生成高质量游戏素材与概念草案,将游戏美术设计效率提升数十倍。

     

    美团推出零代码AI应用开发平台 NoCode

    美团推出零代码AI应用开发平台NoCode,无需编程经验,通过自然语言描述即可快速生成网站页面、实用工具、小游戏等应用。

    平台具备自然语言编程、实时预览、局部修改及一键部署分享等功能,支持版本管理,可实时渲染页面。

     

    Flowith 推出 Agent Neo

    Flowith推出Agent Neo,具备无限步骤、无限上下文、无限工具的核心能力,可执行复杂任务、处理海量信息并调用多种大模型与工具。

    结合知识库功能,能快速构建数字分身或生成高质量内容。

     

    腾讯 QQ 浏览器推出 QBot AI 浏览器

    腾讯正式推出AI浏览器QBot,融合了先进的人工智能技术,为用户提供更智能、便捷的上网体验。

    具备智能搜索、内容推荐、语言翻译等多种功能,能根据用户的浏览习惯和偏好提供个性化的服务。

     

    OpenAI 扩展 Responses API:支持MCP、图像生成

    OpenAI宣布扩展Responses API,新增对远程连接MCP服务器、图像生成(gpt-image-1模型)、Code Interpreter及文件搜索优化等功能的支持,全面适配GPT-4o系列、GPT-4.1系列及OpenAI o系列推理模型。

    开发者可通过几行代码让模型连接Cloudflare等MCP工具,访问用户数据源。

    昆仑万维发布天工超级智能体

    昆仑万维面向全球发布天工超级智能体(Skywork Super Agents),采用AI agent架构和deep research技术,能生成文档、PPT、表格、网页、播客和音视频等多模态内容。

    其deep research能力在GAIA榜单上排名全球第一,超过OpenAI Deep ResearchManus

     

    万兴科技Filmora升级AI功能

    万兴科技旗下视频创意软件Wondershare Filmora作为微软全球开发者大会主论坛合作伙伴亮相。

    桌面端升级AI Mate(视频编辑助手)功能、Semantic Search(语义搜索)及knowledge retrieval(知识检索)API,打造基于自然语言搜索与RAG(检索增强生成)的视频剪辑体验,还实现了产品在不同硬件芯片上的AI功能性能提升和AI能力的本地化运行升级。

     

    IBM企业级AI智能体平台watsonx Orchestrate落地

    IBM强调AI进入“落地马拉松”,重点支持企业自定义智能体规模化应用,发布watsonx Orchestrate平台,基于开源模型,支持复杂工作流自动化,已与Adobe、AWS、Microsoft等集成。

     

    PPIO推出企业私有化部署解决方案

    全球AI基础设施服务商PPIO派欧云正式推出针对大语言模型的企业私有化部署解决方案,通过“专用GPU集群 + 完全托管”模式,为企业构建自主可控的高性能AI部署平台,致力于让企业以更低的成本、更高的效率实现AI应用规模化落地。

    其他动态

    OpenAI Operator升级为 o3 模型 :浏览器交互更稳定、推理更精准,支持填写表单与网页操作任务。

    特斯拉展示 Optimus 人形机器人做家务的能力,如扔垃圾、扫地、炒菜等。

    北京大学正式上线全球首个覆盖“读文献-做计算-做实验-多学科协同”的AI科研平台——Science Navigator

    京东工业在上海发布行业首个以供应链为核心的工业大模型——Joy industrial。通过“工业大模型+供应链场景应用”双引擎,构建从底层算力、算法、数据到应用的全栈产品矩阵,助力产业降本、增效、合规、保供。

    英伟达CEO黄仁勋在Computex 2025大会上推出下一代Grace Blackwell GB300 AI服务器系统,基于升级版Blackwell芯片,推理性能提升1.5倍,HBM内存增加1.5倍,网络能力翻倍。

    火山引擎推出豆包·语音播客模型,具有低成本、高时效、强互动的特点。

    英特尔在Computex 2025发布面向专业人士的全新英特尔锐炫™ Pro B系列GPU(B60和B50),基于Xe2架构,专为AI推理和专业工作站设计。同时提供Gaudi 3 AI加速器PCIe卡和机架级系统新部署方案。

    GIGABYTE在COMPUTEX 2025展示升级版GIGAPOD GPU集群(支持AMD Instinct MI325X、NVIDIA HGX H200)、全球首秀GIGAPOD直接液冷(DLC)解决方案、符合OCP标准的多种服务器以及面向边缘AI的Jetson Orin嵌入式系统及集成NPU的BRIX迷你PC。

    Intel显卡携手蓝戟推出GUNNIR Intel Arc Pro B60 TF 24G专业级显卡,该产品搭载Xe2微架构、24GB大显存,直击AI开发、深度学习、三维影视渲染等高负载场景的算力痛点。

    英特尔在GitHub发布AI Assistant Builder公开测试版,这是一个轻量级开放软件框架,用于在英特尔AI PC上本地构建和运行自定义AI代理。

     

    03. 开源项目

     

    Mistral 发布编程专用 开源AI 模型 Devstral

    Mistral AI与All Hands AI合作推出240亿参数的AI模型Devstral,专为高级软件工程任务设计,处于“研究预览”阶段,以Apache 2.0许可发布,可商用。

    Devstral在SWE-Bench Verified基准测试中得分46.8%,超越部分闭源模型。能在单张RTX 4090显卡或32GB RAM的Mac上运行,降低硬件门槛。

     

    微软研究院推出 Magentic-UI,以人为中心的AI智能体研究原型

    微软研究院发布Magentic-UI研究原型,是以人为中心的AI智能体,通过网页浏览器实时协助用户完成复杂网络任务。

    基于Magentic-One多智能体系统,由AutoGen框架驱动,具备协同规划、协同任务、行为防护和计划学习四大核心功能。

    韩国Kakao推出4种开源Kanana语言模型

    Kakao在开发者平台 “Hugging Face” 上将其自主开发的人工智能(AI)模型 “Kanana 8B” 和 “Kanana 2.1B” 作为开源发布,共推出四种型号,基于Apache 2.0许可证,任何人都可对其进行自由修改和商用。

    相较于今年2月推出的 “Kanana Nano 2.1B” 模型,此次发布的模型性能有明显改进。

    西北大学科研团队发布自动识别与量化动物个体行为的开源AI框架

    西北大学郭松涛团队基于行为学的分析原理,利用人工智能技术,设计了自动识别与量化动物个体行为的开源AI框架,可广泛应用于圈养动物日常活动规律监测和关键行为异常预警、野生动物行为数据分析研究等领域。

    VS Code宣布GitHub Copilot Chat扩展开源

    Visual Studio Code官方团队宣布,GitHub Copilot Chat扩展将以MIT协议开源,并将关键AI能力重构入VS Code核心代码,强化社区协作和AI编辑器开发透明度。

    Hugging Face开源Open Computer Agent (OCA)

    Hugging Face宣布开源Open Computer Agent (OCA),设计用于虚拟Linux环境自动化任务执行,支持开发者和研究人员定制复杂任务流。

    NVIDIA开源物理AI数据集

    NVIDIA发布全新技术,其中包括开源物理AI数据集,包含用于开发GR00T N模型的24,000条高质量人形机器人运动轨迹数据。

    B站团队开源动漫视频生成模型Index-AniSora

    B站团队开源动漫视频生成模型Index-AniSora。模型可一键创建多种动漫风格视频片段,涵盖系列剧集、中国原创动画、漫画改编等。

    AniSora拥有超1000万高质量数据,引入时空掩码模块,支持图生视频、帧插值等关键功能。评测数据集包含948段多样化动画视频,人物与运动一致性均达SOTA。

     

    04. 投资融资

     

    Persist AI完成1200万美元A轮融资

    Persist AI宣布完成1200万美元A轮融资,旨在通过“云实验室”加速药物配方开发。

    清华系具身大脑公司「千诀科技」累计融资数亿规模

    清华系具身智能技术公司「千诀科技」完成新一轮Pre-A+轮融资,累计融资数亿元,投资方包括钧山投资、祥峰投资和石溪资本等。本轮融资将用于核心技术演进、产品标准化及产业化交付能力提升。

    公司由清华大学自动化系及相关人工智能研究机构的核心成员创立,是国内唯一可对标美国Physical Intelligence公司的企业。

    魔法原子再获数亿元融资,将解锁千个落地场景

    具身智能机器人公司魔法原子完成新一轮数亿元战略融资,投资方包括禾创致远、芯联资本等产业资本及华映资本等财务投资人。

    新资金将用于核心技术研发、VLA模型搭建及加速机器人在工业、商业场景落地。

    魔法原子旗下人形机器人“小麦”已进驻工厂产线实训,在商场门店、会展服务、新闻传媒等场景展开实践。

    面壁智能获新一轮数亿元融资,引领端侧大模型高效发展与应用普及

    面壁智能完成新一轮数亿元融资,由洪泰基金、国中资本、清控金信和茅台基金联合投资。

    面壁智能专注于打造高效大模型,端侧全模态模型面壁小钢炮MiniCPM-o 2.6多项能力达国际领先水平,系列模型全平台下载量累计破1000万。

    面壁智能发布了业界首个智能座舱纯端侧汽车助手cpmGO,与多家车企合作实现量产车型定点。

    美图公司与阿里巴巴达成战略合作并获得 2.5 亿美元投资

    美图公司宣布与阿里巴巴达成战略合作并获得2.5亿美元可转债投资。

    协议为期3年,年利率1%,阿里巴巴可按每股6.00港元的价格将可转债转换为美图股票。

    双方将在电商平台、AI技术、云计算等领域展开合作,阿里巴巴将优先推广美图AI电商工具,协助美图开发电商生图及生视频工具,提升商家营销和运营效率。

    尚跃智能完成新一轮战略型股权融资

    尚跃智能科技和国智领航(北京)信息科技研究院完成战略股权融资,本轮融资由国智领航(北京)信息科技研究院发起。

    战略融资将主要用于推进人工智能通识教育。

    光帆科技获得1.3亿人民币天使+融资

    北京光帆科技有限公司获得1.3亿人民币天使+融资,参与投资的机构包括Shokz韶音科技、同歌创投等,投后估值5亿人民币。

    光帆科技是一家基于硬件产品的AI应用服务商。

    谷歌收购AI聊天机器人公司相关情况受美国司法部调查

    美国司法部正在调查Alphabet旗下谷歌,审查其与一家热门聊天机器人公司Character.AI的人工智能技术使用协议是否违反了反垄断法。

    根据去年与谷歌达成的协议,Character.AI的创始人加入了谷歌,同时谷歌也获得了使用该公司技术的非独占性许可。

    OpenAI员工股权捐赠受阻

    CNBC在5月23日报道称,因公司股权结构特殊,OpenAI员工难以将所持股权捐赠给慈善机构,引发员工不满。

     

    05. 观点洞察

     

    金融业AI应用与变革流畅性

    艾扬斯最近的一项调查发现,报告指出90%欧洲金融服务企业已用AI,但“变革流畅性”而非技术本身是生存关键。需通过共创变革、容忍试错将AI创新转化为增长。

    Elon Musk论AI芯片、电力瓶颈与创新

    马斯克在CNBC采访中表示,目前AI瓶颈是芯片,很快转向电力,预测2026年中可能电力不足。他认为创新需要质疑权威,是美国优势所在。

    原文链接:AI周刊丨本周不可错过的AI行业动态(5.19-5.25)

  • AI周刊丨本周不可错过的AI行业动态(5.12-5.18)

    本篇内容,带你快速了解本周(5.12-5.18)AI热点资讯

     

    01. AI大事件

     

    清华大学成立全球首家AI医院

    中国成立全球首家由42名人工智能医生组成的AI医院,由清华大学智能产业研究院开发,整合21项医疗科室尖端技术。

    未来将构建“AI+医疗+教育+科研”生态闭环,促进优质医疗资源的高效扩容与均衡布局,致力于让更多人享有可负担、可持续的高质量医疗服务。

     

    中央网信办启动“清朗·整治AI技术滥用”第二阶段行动

    中央网信办启动“清朗·整治AI技术滥用”第二阶段行动。

    第二阶段聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容,假冒他人、从事网络水军活动等突出问题,集中清理相关违法不良信息,处置处罚违规账号、MCN机构和网站平台。

     

    美国商务部废除拜登签署的《AI扩散规则》,并要求全球不准使用华为AI芯片

    美国商务部宣布废除拜登签署的《AI扩散规则》,计划推出更简化规则,新增对华为昇腾AI芯片的全球使用禁令。

    原规则分级制度复杂,引发科技巨头反对,新规则以双边协议替代分级,强化供应链管控。

    这一政策调整利好美国科技企业,中东市场获得芯片进口新机会,中国则持续受压。

     

    谷歌发布AlphaEvolve能发明新算法、改进芯片设计、解疑难数学题

    谷歌DeepMind团队推出基于Gemini驱动的通用科学人工智能AlphaEvolve。

    用Gemini Flash和Gemini Pro两种模型,基于进化框架不断改进最有潜力的算法。

    AlphaEvolve在数据中心调度、硬件设计、AI训练和复杂数学问题解决等领域取得显著成果:

    • 在数据中心调度上,能让谷歌的计算资源回收0.7%;
    • 在硬件设计上,优化了TPU的电路,让芯片更节能;
    • AlphaEvolve 改进了矩阵乘法分割成子问题的方法,将Geimini的总训练时间缩短1%,运行速度还提高了23%;
    • 在数学领域的50个多公开问题测试中,75%的情况下AlphaEvolve重新发现了迄今为止的最佳解决方案。其中包含了困扰了数学界300年的「接吻数难题」,还颠覆了56年前Strassen算法神话。

    从此,AI不再仅仅是解决现有问题,还能发现新的前沿领域。

    AlphaEvolve

     

    02. 新产品发布

     

    腾讯混元图像2.0发布,体验“毫秒级”AI图像生成

    腾讯发布业内首个毫秒级响应的实时生图大模型——混元图像2.0,实现边输入文字边生成图像,生图质量提升明显。

     

    全球首个专业设计Agent——Lovart一句话完成全链路设计和执行

    Lovart 是 LiblibAI 为设计师打造的世界上首个专业设计 Agent。

    Lovart 能像专业设计师一样思考和执行设计任务,提供高水平的设计方案。

    仅需一句话即可完成从创意拆解到专业交付的整个视觉流程,单次可执行上百步,最多产出40张设计成品图;图像、视频、音乐自由调度,集成多种前沿AI模型。

     

    OpenAI推出Codex编程智能体

    OpenAI推出基于云端的AI智能体Codex,专注自动化软件开发,支持并行处理编码、修复错误等任务。

    Codex基于codex-1模型,目前以研究预览形式在ChatGPT平台上线,Pro、Enterprise和Team用户可率先体验。

    其他动态

    QwenChat正式上线网页开发功能,用户只需输入一句自然语言指令,可生成结构清晰、风格美观的网站页面代码,支持直接预览。

    Kimi与小红书达成最新合作,用户可通过小红书官方账号@Kimi智能助手 进入Kimiai对话,并一键生成笔记。

    快手推出AI作图工具Poify,包括AI模特试衣、换背景、一键抠图、局部重绘等功能,赋能电商领域创意与转化。

    OpenAI升级ChatGPT AI聊天机器人GPT-4.1编程专家模型登场。GPT-4.1能精确遵循指令,避免冗长输出,相比GPT-4o效率更高、输出更稳定,整体性能更优。

    Manus宣布全面开放注册,用户每天可免费执行一项任务。随后推出图像生成Agent功能,可调用多种工具协同工作

    MiniMax悄悄推出manus产品,通用 AI 智能体平台MiniMax Agent能高效便捷地处理多种任务,如生成音频、市场研究、文档验证、旅行规划、社交媒体分析、专利识别、投资策略分析以及创意内容创作等。

    MiniMax发布TTS系统 MiniMax Speech 02,AI语音的Her Moment,能够轻松驾驭32种语言、不同口音、不同情绪的人声。

    清言上线智能体社区,用户可以创作者直接对话,发帖交流。app支持微信文件一键导入。

    ChatGPT深度研究新增导出为 PDF 功能,可保留报告格式,另外,还新增了GitHub连接器,进一步拓展ChatGPT在代码管理和写作方面的应用能力。

    Notion推出AI会议笔记AI Meeting Notes,能实时转录会议内容,在会议结束后自动生成包含关键摘要、用户笔记对比和行动项的完整纪要。

    通义千问上新Deep Research!基于Qwen模型,融合多种能力,可规划复杂研究任务,结合互联网海量信息,多步骤搜索分析总结,十几分钟生成详尽报告,附清晰引用来源。

    问小白学术搜索来了,功能搭载DeepSeek R1/V3、Qwen3等模型,可检索海量权威文献。

    Windsurf推出专为软件工程设计的AI模型系列:SWE-1、SWE-1-lite和SWE-1-mini。涵盖代码生成、测试、调试、资料查找等开发环节,提升开发效率和用户体验。

    新迪数字发布新迪天工CAD 2025、新迪天工云CAD 2025、新迪3D轻量化引擎2025三款产品,将AI技术深度融入三维设计软件。

    INAIR发布智能新品——INAIR AI空间计算机,计划6月正式发售,搭载系统级AI助手,支持多窗口同台显示和跨设备接入。

     

    03. 开源项目

     

    阿里巴巴开源通义万相Wan2.1 – VACE模型,一款模型搞定多种视频编辑任务

    阿里巴巴正式开源通义万相「Wan2.1-VACE」,支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。

    昆仑万维正式开源Matrix-Game:从图像出发构建可控交互世界

    昆仑万维开源Matrix-Game大模型,是工业界首个开源的10B+空间智能大模型,它是一个专为游戏世界建模的交互式世界基础模型。

    Matrix-Game

    字节跳动开源8B代码模型Seed-Coder,助力高效编程

    字节跳动开源8B代码模型Seed-Coder,包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂推理任务。

    多模态上新,阶跃星辰开源3D大模型

    阶跃星辰正式发布并开源 3D 大模型——Step1X-3D,总参数量达4.8B,由几何模块1.3B和纹理模块3.5B组成,可生成高保真、可控的3D内容。

    Step1X-3D

     

    04. 投资融资

     

    美团独投A轮,自变量机器人「具身智能」公司已融资超10亿

    自变量机器人最近完成了由美团领投,美团龙珠跟投的数亿元A轮融资。从成立到现在不到一年半,它已经完成7轮融资,累计融资金额超10亿元。这次融资将用于加速模型与机器人本体迭代及智慧化方案落地。

    具身智能新锐「灵御智能」完成千万级种子轮融资,英诺天使基金领投

    国内具身智能企业“灵御智能”宣布完成千万级种子轮融资,本轮融资由英诺天使基金领投,水木校友种子基金、远镜创投跟投。灵御智能由清华大学自动化系团队创立,推动机器人在工业制造与家庭服务等领域的广泛应用。

    「傲意科技」完成近亿元B++轮融资,第二代灵巧手即将上市

    「傲意科技」近期已完成近亿元B++轮融资。本轮融资由英飞尼迪资本、浙江省国有资本运营有限公司旗下浙江省发展资产经营有限公司、沃美达资本共同投资,升氪剂资本担任长期财务顾问。本轮资金将用于灵巧手技术研发、新产品上市、产能建设和市场拓展。

    中科紫东太初完成首轮数亿元融资

    中科紫东太初(北京)科技有限公司宣布完成首轮数亿元融资,由中科创星领投,多家投资机构跟投,资金用于多模态人工智能技术研发与应用,同时加强在“AI+”领域的产业布局。

    谷歌成立AI创投基金

    谷歌成立AI创投基金——“AI未来基金”,投资初创企业。被选定的初创公司可获投资、谷歌旗下AI大模型早期使用权及专业团队指导。

    AI人工智能ETF获融资净买入

    AI人工智能ETF(512930.SH)融资净买入778.39万元,居全市场第一梯队,近5个交易日有3天获融资净买入。

     

    05. 观点洞察

     

    AI推理模型具备自主生成知识潜力

    OpenAI高级模型开发负责人Jakub Pachocki认为,AI推理模型正展现出自主生成知识的潜力,本世纪末AI自主研究将取得实质性进展,今年内可能出现近乎自主的软件开发系统。

    AI投资将推动结构性融资

    高盛集团的史蒂文·莫菲特和约翰·格林伍德认为,企业为AI相关项目寻求大量资金,催生了结构性融资市场的融资需求,未来将有更多企业受益于这一融资工具。

    维基百科公布新 AI 战略:利用 AI 提升志愿者时间利用效率,而非取代人工

    维基媒体基金会公布新AI战略,强调利用AI辅助百科编辑工作,提升志愿者时间利用效率,而非取代人工。该战略通过AI自动化繁琐任务,如为版主和巡查员提供辅助工作流支持,提高信息可发现性,自动翻译和改编内容,以及扩大新志愿者入职培训规模。
    原文链接:AI周刊丨本周不可错过的AI行业动态(5.12-5.18)
  • a16z深入详解 MCP 和 AI 工具的未来

    自 OpenAI 于 2023 年发布函数调用以来,一直在思考如何才能解锁代理和工具使用的生态系统。随着基础模型变得更加智能,代理与外部工具、数据和 API 交互的能力变得越来越分散:开发人员需要为代理运行和集成的每个系统实现具有特殊业务逻辑的代理。  显然,需要有一个用于执行、数据获取和工具调用的标准接口。API是互联网的第一个伟大统一器——为软件通信创建了一种共享语言——但人工智能模型缺乏同等的东西。

    模型上下文协议 (MCP) 于 2024 年 11 月推出,作为一种潜在的解决方案,在开发者和 AI 社区中获得了极大的关注。在这篇文章中,我们将探讨什么是 MCP、它如何改变 AI 与工具交互的方式、开发者已经用它构建了什么以及仍需解决的挑战。

    什么是MCP

    MCP 是一种开放协议,支持系统以跨集成通用的方式向 AI 模型提供上下文。协议定义了 AI 模型如何调用外部工具、获取数据以及与服务交互。下面是一个具体示例,展示了 Resend MCP 服务器如何与多个 MCP 客户端协同工作。

    MCP 的灵感来自于 LSP(语言服务器协议)。在 LSP 中,当用户在编辑器中输入内容时,客户端会查询语言服务器以自动完成建议或诊断。

    MCP 超越 LSP 的地方在于其以代理为中心的执行模型:LSP 主要是被动的(根据用户输入响应来自 IDE 的请求),而 MCP 旨在支持自主 AI 工作流。根据上下文,AI 代理可以决定使用哪些工具、以什么顺序使用以及如何将它们链接在一起以完成任务。MCP还引入了人机交互功能,以便人类提供额外的数据并批准执行。

    热门流行用例

    通过正确的 MCP 服务器,用户可以将每个 MCP 客户端变成“万能应用程序”。

    以 Cursor 为例:虽然 Cursor 是一个代码编辑器,但它也是一个实现良好的 MCP 客户端。最终用户可以使用Slack MCP 服务器将其转变为 Slack 客户端,使用Resend MCP 服务器将其转变为电子邮件发送器,使用Replicate MCP 服务器将其转变为图像生成器。利用 MCP 的更强大方法是在一个客户端上安装多个服务器以解锁新流程:用户可以安装服务器以从 Cursor 生成前端 UI,还可以要求代理使用图像生成 MCP 服务器为网站生成英雄图像。

    除了 Cursor 之外,当今大多数用例可以归纳为以开发为中心、本地优先的工作流程,或使用 LLM 客户端的全新体验。

    以开发为中心的工作流程

    对于每天生活在代码中的开发人员来说,一个普遍的感受是“我不想离开 IDE 去做x ”。MCP 服务器是实现这一梦想的绝佳方式。

    开发人员现在无需切换到 Supabase 来检查数据库状态,而是可以使用Postgres MCP 服务器执行只读 SQL 命令,使用Upstash MCP 服务器直接从 IDE 创建和管理缓存索引。在迭代代码时,开发人员还可以利用Browsertools MCP让编码代理访问实时环境以进行反馈和调试。

    这是 Cursor 代理如何使用 Browsertools 访问控制台日志和其他实时数据并更有效地进行调试的示例。

    除了与开发人员工具交互的工作流程之外,MCP 服务器解锁的新用途是能够通过抓取网页或根据文档自动生成 MCP 服务器,为编码代理添加高度准确的上下文。开发人员无需手动连接集成,可以直接从现有文档或 API 启动 MCP 服务器,使 AI 代理可以立即访问工具。这意味着花在样板上的时间更少,实际使用工具的时间更多——无论是提取实时上下文、执行命令,还是动态扩展 AI 助手的功能。

    全新体验

    尽管像 Cursor 这样的 IDE 因 MCP 对技术用户的强烈吸引力而受到最多关注,但它们并不是唯一可用的 MCP 客户端。对于非技术用户来说,Claude Desktop 是一个极好的切入点,它使 MCP 驱动的工具对普通用户来说更容易获得和使用。很快,我们可能会看到专门的 MCP 客户端出现,用于以业务为中心的任务,例如客户支持、营销文案、设计和图像编辑,因为这些领域与 AI 在模式识别和创意任务方面的优势密切相关。

    MCP 客户端的设计及其支持的特定交互在塑造其功能方面起着至关重要的作用。例如,聊天应用程序不太可能包含矢量渲染画布,就像设计工具不太可能提供在远程机器上执行代码的功能一样。最终,MCP 客户端体验决定了整体 MCP 用户体验——在 MCP 客户端体验方面,我们还有更多东西需要解锁。

    其中一个例子是 Highlight 如何实现@ 命令来调用其客户端上的任何 MCP 服务器。结果是一种新的 UX 模式,其中 MCP 客户端可以将生成的内容传输到任何选择的下游应用中。

    Highlight 实现 Notion MCP(插件)的一个例子。

    另一个例子是Blender MCP 服务器用例:现在,几乎不了解 Blender 的业余用户可以使用自然语言来描述他们想要构建的模型。随着社区为 Unity 和 Unreal 引擎等其他工具实现服务器,我们看到文本到 3D 的工作流程正在实时展开。

    将 Claude Desktop 与Blender MCP 服务器结合使用的示例。

    尽管我们主要考虑服务器和客户端,但随着协议的发展,MCP 生态系统正在逐渐成形。该市场地图涵盖了当今最活跃的领域,尽管仍有许多空白。我们知道 MCP 仍处于早期阶段,我们很高兴随着市场的发展和成熟,将更多参与者添加到地图中。

    在 MCP 客户端方面,我们目前看到的大多数高质量客户端都是以代码为中心的。这并不奇怪,因为开发人员通常是新技术的早期采用者,但随着协议的成熟,我们期望看到更多以业务为中心的客户端。

    我们看到的大多数 MCP 服务器都是本地优先的,专注于单人游戏。这是 MCP 目前仅支持基于 SSE 和命令的连接的表现。但是,随着生态系统使远程 MCP 成为一流,并且 MCP 采用可流式 HTTP 传输,我们预计会看到更多 MCP 服务器的采用。

    还有新一波 MCP 市场和服务器托管解决方案的出现,使 MCP 服务器发现成为可能。Mintlify的mcpt、Smithery和OpenTools等市场让开发人员更容易发现、共享和贡献新的 MCP 服务器——就像 npm 如何改变 JavaScript 的包管理或 RapidAPI 如何扩展 API 发现一样。这一层对于标准化对高质量 MCP 服务器的访问至关重要,允许 AI 代理根据需要动态选择和集成工具。

    随着 MCP 的采用率不断提高,基础设施和工具将在使生态系统更具可扩展性、可靠性和可访问性方面发挥关键作用。Mintlify 、Stainless和Speakeasy等服务器生成工具正在减少创建 MCP 兼容服务的摩擦,而 Cloudflare 和Smithery等托管解决方案正在解决部署和扩展挑战。与此同时,Toolbase等连接管理平台开始简化本地优先的 MCP 密钥管理和代理。

    未来的可能性

    我们仅处于代理原生架构演进的早期阶段。尽管如今 MCP 令人兴奋不已,但使用 MCP 进行构建和交付时仍存在许多未解决的问题。

    协议的下一次迭代中需要解锁的一些内容包括:

    托管和多租户

    MCP 支持 AI 代理与其工具之间的一对多关系,但多租户架构(例如 SaaS 产品)需要支持多个用户同时访问共享 MCP 服务器。默认拥有远程服务器可能是让 MCP 服务器更易于访问的短期解决方案,但许多企业也希望托管自己的 MCP 服务器以及单独的数据和控制平面。

    用于支持大规模 MCP 服务器部署和维护的简化工具链是可以实现更广泛采用的下一个部分。

    验证

    MCP 目前尚未定义客户端与服务器进行身份验证的标准身份验证机制,也没有提供 MCP 服务器在与第三方 API 交互时应如何安全地管理和委托身份验证的框架。身份验证目前由各个实现和部署方案决定。实际上,到目前为止,MCP 的采用似乎集中在本地集成上,而这些集成并不总是需要显式身份验证。

    更好的身份验证范例可能是远程 MCP 采用的一大优势。从开发人员的角度来看,统一方法应涵盖:

    • 客户端身份验证:用于客户端与服务器交互的标准方法,例如 OAuth 或 API 令牌
    • 工具身份验证:用于使用第三方 API 进行身份验证的辅助函数或包装器
    • 多用户身份验证:针对企业部署的租户感知身份验证

    授权

    即使工具经过了身份验证,谁应该被允许使用它,他们的权限应该有多细?MCP 缺乏内置的权限模型,因此访问控制处于会话级别——意味着工具要么可访问,要么完全受限。虽然未来的授权机制可以形成更细粒度的控制,但当前的方法依赖于基于 OAuth 2.1 的授权流程,该流程在经过身份验证后授予会话范围的访问权限。随着更多代理和工具的引入,这会带来额外的复杂性——每个代理通常都需要具有唯一授权凭据的自己的会话,从而导致基于会话的访问管理网络不断增长。

    网关

    随着 MCP 的采用规模不断扩大,网关可以充当身份验证、授权、流量管理和工具选择的集中层。与 API 网关类似,它将强制执行访问控制、将请求路由到正确的 MCP 服务器、处理负载平衡并缓存响应以提高效率。对于多租户环境尤其重要,因为不同的用户和代理需要不同的权限。标准化网关将简化客户端与服务器之间的交互、提高安全性并提供更好的可观察性,使 MCP 部署更具可扩展性和可管理性。

    MCP 服务器的可发现性和可用性

    目前,查找和设置 MCP 服务器是一个手动过程,需要开发人员定位端点或脚本、配置身份验证并确保服务器和客户端之间的兼容性。集成新服务器非常耗时,而且 AI 代理无法动态发现或适应可用的服务器。

    不过,根据Anthropic上个月在 AI 工程师会议上的演讲, MCP 服务器注册和发现协议似乎即将问世。可能会开启 MCP 服务器的下一阶段应用。

    执行环境

    大多数 AI 工作流都需要按顺序调用多个工具——但 MCP 缺乏内置的工作流概念来管理这些步骤。要求每个客户端都实现可恢复性和可重试性并不理想。尽管今天我们看到开发人员正在探索Inngest等解决方案来实现这一点,但将有状态执行提升为一流概念将为大多数开发人员理清执行模型。

    标准客户端体验

    我们从开发者社区听到的一个常见问题是,在构建 MCP 客户端时如何考虑工具选择:每个人都需要为工具实现自己的 RAG,还是有一个等待标准化的层?

    除了工具选择之外,调用工具也没有统一的 UI/UX 模式(我们已经看到了从斜线命令到纯自然语言的各种模式)。用于工具发现、排名和执行的标准客户端层可以帮助创建更可预测的开发人员和用户体验。

    调试

    MCP 服务器的开发人员经常发现,很难让同一个 MCP 服务器轻松地跨客户端运行。通常,每个 MCP 客户端都有自己的怪癖,客户端跟踪要么缺失,要么很难找到,这使得调试 MCP 服务器成为一项极其困难的任务。随着世界开始构建更多远程优先的 MCP 服务器,需要一套新的工具来使本地和远程环境中的开发体验更加简化。

    AI工具的影响

    MCP 的开发体验让我想起了 2010 年代的 API 开发。这种模式新颖而令人兴奋,但工具链还处于早期阶段。如果我们快进到几年后,如果 MCP 成为 AI 驱动工作流程的事实标准,会发生什么?一些预测:

    • 开发优先型公司的竞争优势将从提供最佳 API 设计发展到为代理商提供最佳工具集合。如果 MCP 能够自主发现工具,那么 API 和 SDK 提供商将需要确保他们的工具易于通过搜索找到,并且具有足够的差异性,以便代理商选择特定任务。这可能比人类开发人员寻找的更加细致和具体。
    • 如果每个应用程序都成为 MCP 客户端,每个 API 都成为 MCP 服务器,那么可能会出现一种新的定价模式:代理可以根据速度、成本和相关性等因素更加动态地选择工具。这可能会导致一个更加以市场为导向的工具采用过程,即选择性能最佳、模块化程度最高的工具,而不是采用最广泛的工具。
    • 文档将成为 MCP 基础设施的关键部分,因为公司需要设计具有清晰、机器可读格式(例如llms.txt)的工具和 API,并使 MCP 服务器成为基于现有文档的事实上的工件。
    • 仅使用 API 已远远不够,但可以成为很好的起点。开发人员会发现,从 API 到工具的映射很少是 1:1。工具是一种更高级的抽象,在执行任务时对代理来说最有意义——代理可以选择包含多个 API 调用的 draft_email_and_send() 函数,而不是简单地调用 send_email(),以最大限度地减少延迟。MCP 服务器设计将以场景和用例为中心,而不是以 API 为中心。
    • 如果每个软件都默认成为 MCP 客户端,那么将会出现一种新的托管模式,因为工作负载特征与传统网站托管不同。每个客户端本质上都是多步骤的,并且需要执行保证,例如可恢复性、重试和长时间运行的任务管理。托管提供商还需要在不同的 MCP 服务器之间进行实时负载平衡,以优化成本、延迟和性能,让 AI 代理能够在任何给定时刻选择最有效的工具。

    未来

    MCP 正在重塑 AI 代理生态系统,下一波进步将取决于我们如何应对基础挑战。如果做得好,MCP 可以成为 AI 与工具交互的默认界面,开启新一代自主、多模式和深度集成的 AI 体验。

    如果被广泛采用,MCP 可以代表工具构建、使用和货币化方式的转变。我们很高兴看到市场将它们带向何方。今年将是关键的一年:我们会看到统一的 MCP 市场崛起吗?身份验证对于 AI 代理来说会变得无缝吗?多步骤执行可以正式纳入协议吗?

    原文链接:https://a16z.com/a-deep-dive-into-mcp-and-the-future-of-ai-tooling/

  • DeepSeek交流纪要(字节内部原文)

    DeepSeek交流纪要

    站长推荐DeepSeek服务器繁忙怎么解决?14个免费R1满血版平替

    观点分享

    DeepSeek做的模型,和基于transformer的模型路径基本上是一致的,没有深度学习框架等的很大区别,DeepSeek核心点是在工程能力上的创新,现在做的模型一方面是理论,另一方面是工程。

    理论和工程方面,公司都盯着理论层面,字节也是一样的,市场上的模型算力有两根曲线,一个是堆叠尽可能多的算力来印证模型结构,所以字节要在海外投入500亿以上的预算,另一条曲线是业务增量。第一根曲线得到比较明确的结论是,如果要进行模型探索和验证,还是需要更多的GPU芯片,基座和AGI的探索投入时间比较长,研发路径可能会出现多种分叉,和海外公司处于战略相持阶段,要针对已有模型进行多轮验证,回到DeepSeek,我们也在做,能力迭代和更新不是他们一家。

    结论1:对于模型结构本身来说,我们不认为DeepSeek能在预训练等阶段能和其他厂商有很大的理论不同;

    结论2:不认为算力采购存在问题,需要更多算力来验证方案,在review和内省的是团队本身,奖励机制和研发架构设计合理性分析,在核心团队激励和层级设计上需要改变激发活力;

    结论3:不存在代差,DeepSeek比Kimi更纯粹,路径比Kimi更精准一些,现在字节在内的很多大厂,在参考DeepSeek路径和模型结构,能够在比较短时间之内拿出镜像版本出来。

    在深度学习路径来说,字节的方案和DeepSeek方案差不多,字节内部也针对MoE架构,注意力优化,豆包pro1.5效果也不错,只不过是闭源,跟DeepSeek很多路径也都一致,预算比较多,没有特别围绕卡的算力做垂类优化,在模型训练阶段比DeepSeek成本高一些,在整个效果上,通义等厂商效果都不一定比DeepSeek差,优化方案可能没有DeepSeek强。

    结论总结:DeepSeek做的最好的事情是路径选择等选型优化,在架构设计中做了很多内容,工程算法等内容成本控制比较优秀,对互联网大厂来说并不是跟不上做不到,只是很长时间内我们没有做,强化学习很多厂商都在做,路径本身并不是DeepSeek一家可以做,让我们最惊讶的是成本端,路径和DeepSeek还是一样的。

    商业化:不是核心本质,和tx战略做沟通时,核心逻辑是用户数量对基座模型没有直接关系,DeepSeek在研发和基座进行投入,对商业化没有什么探索。

    交流探讨

    Q:DeepSeek成本比较低的主要原因?

    A:DeepSeek还是绕不过英伟达的GPU芯片,对于DeepSeek来说,目前阶段绝大多数做模型的公司规避不掉GPU芯片,国产卡很多卡性能不是很强,也没有很多可选,在算力维度来看国内的模型公司算力基座,100%都是英伟达系列,万卡互连对于算力本身的通信、稳定性都有需求,需要对国产芯片做适配,需要国产卡做推理,目前我们投入很多精力做适配验证,除了百度自研昆仑芯,主要的芯片还是使用英伟达,国内绝大多数国产芯片在现在这个时间点内,还没办法承接需求。

    DeepSeek对于万卡互联的需求没有特别高,把工程问题前置,2025年可能因为DeepSeek开源冲击,对于算力结构发生很大变化

    (1)很多企业会因为DeepSeek低成本模型的覆盖,或者方案覆盖,激发二轮训练的需求,在几千张卡互联训练中可以指望国产芯片。之前很多公司放弃自研模型,现在可能会有变化,激发起国内手里有钱的公司进行模型研发

    (2)2025年可能因为国产芯片的可用性,逐步进行转变,艰难的转变到国内的卡,但还是要看水货渠道,如果有渠道,还是会用英伟达

    成本端的问题是核心,很多嵌入了OpenAI接口,或者蒸馏了OpenAI数据等的论调,基本不是很现实,因为成本实在太高;DeepSeek是开源模型,模型效果和训练方式来看,除了数据没有开源,我们可以使用DeepSeek开源论文在本地做复现,完全可以做成垂类模型。

    DeepSeek预训练模型中一点三方数据都没有?不是很确定,但这是惯例,我们可能会使用三方模型内容,进行打分,所有蒸馏侧的数据都是合成数据,DeepSeek和我们一样应该都不会用,他们应该使用的是自建多语言的语聊,我们愿意精选自建数据,蒸馏数据的数据质量不一定可靠,我们更多的要求比较高的数据精度,蒸馏出的数据很多不可用。

    模型训练所需要的成本,23、24年远比推理要高,模型训练沉没成本很高,推理需要看用户量,模型推理算力不如模型训练的核心原因是推理端没有模型增量出来,也就是没有人用,国内很多应用接口没有那么多用户的需求,可能25年会有变化,但在之前很长时间内,模型训练所需的算力都是最大的。推理和训练算力是不一样的,我们不能忽略OpenAI等公司的努力,在模型研发过程中,互联网大厂具备很多价值,我们筛选路径。DeepSeek本质是模型训练的改进。中长期来看,DeepSeek的API成本绝对不会比我们低,推理成本不一定会降低,主要是规模效应


    Q:对于GPU的需求?

    A:内部也在分析,我们通过应用和基座模型进行分析,之前很长时间内,全球模型从业者对于国内模型关注度没有那么高,因为绝大多数研发人员的关注点都在海外,国内只有通义做的还不错,之前很长一段时间,国内开源模型做的也可能不是很好,现在关注度上来了;因为工程能力的优化,理论层面非常富裕,对海外公司的恐慌在于GPU卡是否不需要了,需要更多的芯片进行探索和验证,DeepSeek让我们的路径进行转变,加速了路径的验证和探索的速度
    效果上来说,DeepSeek和OpenAI部分指标差不多,在小语种上有差距,中文不错英文尚可,在小语种和垂类知识回复中,有所受限。DeepSeek开源会对闭源市场产生很大冲击,模型本身不受影响,拉到本地就是自己的,DeepSeek是非常标准的开源模型,所有的组织都可以使用,应用侧主要还是卡不够,并发不够,是因为DeepSeek还是小体量,储备的芯片还是有限,训练和推理是不同的商业模式,推理还是针对垂类,如果使用联网搜索,成本还是大问题,并发也是大问题。豆包1000多个工程师进行优化,DeepSeek没有index页面,不是因为基座模型团队很强,C端应用就会做的很强。国内愿意开放搜索入口的厂商很少,被ban的风险很大,自主话语权很小,体量不是很大的公司会有比较大的问题,DeepSeek应用app不指望变现,对于赚钱和商业化不迫切,基座模型迭代不停就行。


    Q:DeepSeek会不会促进国内应用发展?

    A会使得行业变得更大,大量公司跃跃欲试在搞,之前因为行业增速有所放缓,DeepSeek开源之后会加速决策,生态圈会比较热闹,之前的误区是指望一级市场的投资者扶持大企业,因为花别人钱会有考核,现在造血能力比较强的企业,还有一级市场公司决策会更顺畅些,因为有开源模型作为参考。
    从资源投入来说,之前是寡头,现在是有更多公司拿卡做多轮验证,模型的生意和整个生态不一定会复现24年寡头竞争,25年会更热闹一些。我们也做算力租赁,市场目前也可以印证观点,大家的投入是持续的。

    模型的训练不是一年两年的事情,我们现在3年了,往后延续2年问题不大,不是一时的问题。


    Q:大厂是否会基于DeepSeek进行优化?

    A:会优化,路径上来说优化是一定的,总的算力来说不一定会下降,路径规划来说,目前比较明确,大厂是科研,路径分支都要做验证,小的公司只要沿着我们的脚印去做,我们的力度没有缩减,看到的现象是加速,可能总量还会增加


    Q:海外巨头算力需求是否会降低?

    A:海外巨头基座算力不会投入那么猛,推理侧聊的也都差不多,模型推理可能会增加,模型训练增速会有下滑,但并不会下滑很快。算力投入的北极星指标是有新的好用模型,只要还有,投入就会有;第二个是推理,完全取决于文本、图片、视频等多模态提升,和用户体量等正相关,如果客户越来越多,投入就会越强,我们寄希望于25年推理放量,也只有这样才会加大对推理的投入,整体来说算力本身还是增加的,不会因为DeepSeek而萎缩


    Q:目前硬件成本,训练成本和推理成本的比例?

    A字节现在手里的芯片有10万张,H20有20多万张,H20一半推理一半训练,A/H系列芯片训练。国内的互联网大厂训练还是占多数,我们买到的芯片还是训练卡占绝大多数,字节本身37开,25年可能会有结构性变化,有部分需求会因为文本多模态等起量,字节25年会日均模型调用量从4万亿到40万亿,公司结构方面,Seed不承担任何商业化指标,文本、图形、人形机器人都在这里;中间层是方舟,做模型蒸馏,裁剪量化商业化封装,逻辑上每个公司都是一样的,变成可用模型;再往下就是Flow(豆包,猫箱,眼镜等)都是创新应用团队,第三块是火山引擎。

    25年会有结构性变化,从4万亿日均Token到40万亿增长十倍,4万亿日均Token对应10万张A10/A30/L20/L40,因为12月底4万亿Token中70%都是文本,变成40万亿的时候,芯片占比70%以H20/590/910B/910C为主,剩下30%是L40/5090等,多模态的模型请求会有变化,国产训练卡主要做推理,我们有400多亿在国内,绝大多数用作模型推理,会储备比较多的590,8-10万张,910B有1万多张,910C有4-5万张,24年训练芯片是多于推理芯片的,25年可能会有交点,推理侧模型结构70%是非文本以外的多模态,无论如何即使训练成本下降,但对于推理侧的需求还是比较多的。

    日均40万亿Token,可能需要60万张卡,模型调用分为在线和离线,对于模型应用来说,可能会做削峰填谷,算力调度,小公司可能模型能力不错,输出效果来说不差,但我们可以做削峰填谷来降低推理成本。Token是计量单位,之前是纯文本,图片是1:4000,图像理解是1:1500,文生视频是1秒:150000,所以Token不是字符,文本占用量高的话Token不一定高,业内有两种调用方式,字节选用的是Token,另一种是调用次数,这两种有折算关系,24年初一次调用=800Token,现在一次调用=2000Token,文本24年初占比比较高。


    Q:推理成本受算法影响的程度?

    ADeepSeek的推理成本并不低,定价也不算便宜,字节的价格是比DeepSeek低的。DeepSeek是不赚钱的,定价仍然贵,推理层面字节有规模效应。单次训练成本DeepSeek确实低,同样万卡做推理,DeepSeek目前有2万张左右的训练芯片,最近紧急开发了一些芯片做推理,国内开了1-2万张卡,总的来说并不多,300-400万日活所需要的卡很少,比如1700万DAU,token调用量6000-7000亿,4万亿对应10万张卡,可以直接进行简单换算,开源模型用ToB的API没意义,DeepSeek的DAU差不多800-1000万,日均调用量几千亿规模,卡数总量不过万,DeepSeek优势是训练侧,但没有应用爆发,成本还是下不来的。


    Q:DeepSeek和普通的AIGC有什么区别?

    A:DeepSeek也属于生成式AI,有几个不同:

    第一个是把成本拉低,是llama的1/11,用先进技术把推理速度降低,模型架构和大部分不一样,用细颗粒度MoE,先进模型基本都是邓氏架构,细颗粒度不是首创,阿里也在往这个方向走,这个架构在推理的时候只激活部分参数,在推理机制上引入LLA,市场上有几种,多头注意力等,需要每个参数都参与计算,而DeepSeek只激活低参数,降低成本;

    第二个是训练方法,传统方法是FP32和FP16的混合精度,DeepSeek用FP8参数,比较敏感的组件还是FP16,分布式混合精度是目前做的比较少的,训练方法里面也有工程优化,之前时延导致GPU利用率不是很高,DeepSeek用流水线并行,高效利用通信网络,提升速率;

    第三是编程上面也有很大不一样,此前用CUDA,DeepSeek用PTX,PTX本身是CUDA的一部分,用更细颗粒度来调度底层单元,将硬件调度细化,是传统方法用的比较少的;

    第四是AI Infra,通常集群是三层网络,DeepSeek是两层,通信库降低PCIE消耗,减少GPU内存消耗增高网络通信速度,HF Reduce、分布式文件系统、调度平台用的比较灵活。


    Q:国内所有的训练公司是否可以复制,大幅减少GPU需求?

    ADeepSeek用PTX进行优化,PTX并不是绕过CUDA,是CUDA的一部分,PTX更底层一些,并没有100%用到CUDA标准库,到硬件底部调动硬件模块,还属于CUDA的组件,从这个角度来说是没办法马上复制到昇腾和AMD,PTX技术还是仅限于NVDA,跨生态还是有困难,没有把数据开源,只是把方法开源,方法可以参照,并非100%复制,部分复制的衍生模型会比较快。


    Q:DeepSeek大概降低了多少训练成本?

    A:QWEN没计划这么快发布2.5MAX,大厂本来计划一季度后半期,公开版本最大72B,中间用的卡数量是6000级别的,我们是有A800、H800混合组网,大概是1:3如果要量化的话。


    Q:国内的水平大概如何,和海外相比大概有多少成本降低?

    A:DeepSeek的600万美金是V3模型本身,V3模型是迭代出来的,把之前的模型加起来的话,成本至少是目前的3-5倍,小2000万美金肯定要的,和Llama3相比,大概1:4左右,因为DeepSeek没有太多公开数据,OpenAI主要是6000多张卡3个月以上,肯定是DeepSeek的好几倍。


    Q:当用户量起来之后DeepSeek是否有很大的扩容需求?

    A:在最接近看到的是能力下降,因为用户量增长的比较猛,增长了十几倍,本身是推理集群没有ready,深度推理和联网都用不了了,推理需求上来之后没有做到弹性扩容,暂时关闭了联网功能,从这个角度来看,虽然训练成本低了,杰文斯理论来看,门槛降低之后对算力是利好的,普及度提升,对DeepSeek来说要迅速扩容,不然会损失用户数。


    Q:本质上的框架还是基于英伟达的GPU芯片?

    A是的,还是CUDA生态


    Q:对芯片的依赖度会降低?

    A这个解读肯定是有问题的,他们还是在CUDA上做工作,其他公司没有在PTX上面进行,当大家看到之后,肯定会往这个方向做投入,用算法优化来提升性能,掌握方法之后会起来的很快,硬件的抄袭很困难甚至不可能,未来也会用CUDA来编程,国产在做芯片设计的时候会沿着这个思路去设计芯片,但取代不了。


    Q:国产芯片是否存在一定的成长空间?

    A:有的,低精度没那么大差距,FP8和FP16就可以做训练,芯片硬件差距下,用性能比较差的芯片也可以设计低精度模型,逻辑是通顺的。云计算大厂后面肯定都会支持DeepSeek,在MaaS上上线,2024年国产芯片牵引模型,接下来DeepSeek指引了方向,加上了算法优势,用性能稍微低的芯片来测试模型也是趋势。在接下来2-3个季度,大厂也会发布国产相关方案出来,除了CUDA以外


    Q:推理芯片需求量会增加?

    A:DeepSeek出来之后模型市场有几点变化: 对MaaS有一点冲击,DeepSeek会进入所有MaaS平台; 工具链上,会提供DeepSeek的调优工具; 出现非常多基于DeepSeek的衍生版本,很多都会基于DeepSeek的模型来蒸馏,牵引此前的垂直版本,版本出来之后用比较低的成本部署并商用,推理侧B端和C端商用。目前ToC端推理成本比较贵,现在可以用比较好的方式来获取用户,会出现大量的应用爆发。 DeepSeek出来之后会出很多Agent和AI应用,生态会繁荣起来,要准备足够多的算力来支持。


    Q:训练端的芯片是否会增加?

    A:预训练可能不会增加,后训练可能会增加,但占比没有推理侧高,今年主要还是73开,7还是推理。接下来DeepSeek已经把预训练做完了,接下来后训练做行业垂类模型,老版本迭代进行后训练需求。


    Q:AIDC的需求情况?

    A:AIDC市场即使没有DeepSeek出来,大厂也有预算,字节按照10万亿或者20万亿来消耗,接下来可能会做调整,DeepSeek没有出来之前的预测可能要调整,此后会有增长,总体来看会有更多的增长和需求,业务爆发要比预期快


    Q:优化主要集中在哪些环节?

    A:DeepSeek给我们的指引是,改变了堆算力的想法,把算法的权重增加,用算法来抵消算力不足,工程排第二,通信调度等,第三才是硬件


    Q:DeepSeek产业链和传统的算力产业链有什么增量环节?

    A:分上中下来说,在训练侧会减弱但推理侧会增长,上游需求并不会减少,DeepSeek后续要扩容,还是会带来硬件增长,会有很多基于DeepSeek进行软件开发的需求,比如微调等,比如MaaS平台需求,之前要选很多模型,现在减少了选项;后训练中会用到模型API,有很多要用到R1模型进行深度推理,此前大模型给做科研,研发,分子结构预测等用不到,现在可以用到,所以会出现基于R1的很多需求,接下来会用R1辅助科研等,今年在这个赛道会起来


    Q:是否会降低高性能算力需求?

    A:未来半年会逼着团队降成本,大厂会修改一部分预算assign到算法优化,随着行业掌握方法之后,就会开始新一轮的竞赛,训练成本和推理成本会下降,拉动整个行业增长,所以长期来看英伟达产业链地位并不会有变化。


    Q:阿里本身的MAX大概什么时候发布?

    A:大概提前一个半月发布。


    Q:是否仍然会有囤卡的现象?

    A在算法领先的时间窗口,会被复制和超越,有两个背景,美国会收紧,还有90天缓冲期,如果有渠道的厂商,如果看到了行业逻辑,就会一定去买,有渠道买应该也会买,硬件还是有很大差距。对英伟达来说,一年时间段为维度NVDA还不会有很大的地位变化


    Q:未来行业的趋势?

    A:DeepSeek也发布了多模态模型,能够做图像生成,这样的模型出来之后加快了多模态速度,之后会往多模态去走,端到端多模态以及衍生出来的产品,Token比文本模型多很多,从当下而言,DeepSeek划好了分水岭,开源模型超越闭源模型是趋势,多模态速度普及提升也是一个方向,占比来说多模态的算力消耗是文本模型的10倍左右,推理算力消耗是此前的好几倍


    Q:铜连接需求的变化?

    A铜连接本身做节点级别的链接,会跟着数量来变动,基于我们前期的判断来看,中长期来看,不会减少,机架扩容的时候还是用低成本方式来组网。


    Q:互联网大厂未来的资本开支分配和节奏?

    A:有些是美股上市公司,Q1做下个年度的预算,在讨论大致数字,因为DeepSeek东西插进来之后肯定会重新讨论,ALI之前讨论300亿元,加上液冷、交换机就是460亿,现在在讨论要不要这么多,不会大规模下降,也不会猛增,有一些博弈,大概率技术还是会坚持甚至追加,要财务跟技术共同协商。其他大厂来说,我的预计,百度今年不到100亿,不会猛增,字节最猛,阿里排第三,35%-40%增长,激进一些的话就是50%以上,腾讯排第二。