站长推荐:DeepSeek服务器繁忙怎么解决?14个免费R1满血版平替
观点分享
DeepSeek做的模型,和基于transformer的模型路径基本上是一致的,没有深度学习框架等的很大区别,DeepSeek核心点是在工程能力上的创新,现在做的模型一方面是理论,另一方面是工程。
理论和工程方面,公司都盯着理论层面,字节也是一样的,市场上的模型算力有两根曲线,一个是堆叠尽可能多的算力来印证模型结构,所以字节要在海外投入500亿以上的预算,另一条曲线是业务增量。第一根曲线得到比较明确的结论是,如果要进行模型探索和验证,还是需要更多的GPU芯片,基座和AGI的探索投入时间比较长,研发路径可能会出现多种分叉,和海外公司处于战略相持阶段,要针对已有模型进行多轮验证,回到DeepSeek,我们也在做,能力迭代和更新不是他们一家。
结论1:对于模型结构本身来说,我们不认为DeepSeek能在预训练等阶段能和其他厂商有很大的理论不同;
结论2:不认为算力采购存在问题,需要更多算力来验证方案,在review和内省的是团队本身,奖励机制和研发架构设计合理性分析,在核心团队激励和层级设计上需要改变激发活力;
结论3:不存在代差,DeepSeek比Kimi更纯粹,路径比Kimi更精准一些,现在字节在内的很多大厂,在参考DeepSeek路径和模型结构,能够在比较短时间之内拿出镜像版本出来。
在深度学习路径来说,字节的方案和DeepSeek方案差不多,字节内部也针对MoE架构,注意力优化,豆包pro1.5效果也不错,只不过是闭源,跟DeepSeek很多路径也都一致,预算比较多,没有特别围绕卡的算力做垂类优化,在模型训练阶段比DeepSeek成本高一些,在整个效果上,通义等厂商效果都不一定比DeepSeek差,优化方案可能没有DeepSeek强。
结论总结:DeepSeek做的最好的事情是路径选择等选型优化,在架构设计中做了很多内容,工程算法等内容成本控制比较优秀,对互联网大厂来说并不是跟不上做不到,只是很长时间内我们没有做,强化学习很多厂商都在做,路径本身并不是DeepSeek一家可以做,让我们最惊讶的是成本端,路径和DeepSeek还是一样的。
商业化:不是核心本质,和tx战略做沟通时,核心逻辑是用户数量对基座模型没有直接关系,DeepSeek在研发和基座进行投入,对商业化没有什么探索。
交流探讨
Q:DeepSeek成本比较低的主要原因?
A:DeepSeek还是绕不过英伟达的GPU芯片,对于DeepSeek来说,目前阶段绝大多数做模型的公司规避不掉GPU芯片,国产卡很多卡性能不是很强,也没有很多可选,在算力维度来看国内的模型公司算力基座,100%都是英伟达系列,万卡互连对于算力本身的通信、稳定性都有需求,需要对国产芯片做适配,需要国产卡做推理,目前我们投入很多精力做适配验证,除了百度自研昆仑芯,主要的芯片还是使用英伟达,国内绝大多数国产芯片在现在这个时间点内,还没办法承接需求。
DeepSeek对于万卡互联的需求没有特别高,把工程问题前置,2025年可能因为DeepSeek开源冲击,对于算力结构发生很大变化:
(1)很多企业会因为DeepSeek低成本模型的覆盖,或者方案覆盖,激发二轮训练的需求,在几千张卡互联训练中可以指望国产芯片。之前很多公司放弃自研模型,现在可能会有变化,激发起国内手里有钱的公司进行模型研发;
(2)2025年可能因为国产芯片的可用性,逐步进行转变,艰难的转变到国内的卡,但还是要看水货渠道,如果有渠道,还是会用英伟达。
成本端的问题是核心,很多嵌入了OpenAI接口,或者蒸馏了OpenAI数据等的论调,基本不是很现实,因为成本实在太高;DeepSeek是开源模型,模型效果和训练方式来看,除了数据没有开源,我们可以使用DeepSeek开源论文在本地做复现,完全可以做成垂类模型。
DeepSeek预训练模型中一点三方数据都没有?不是很确定,但这是惯例,我们可能会使用三方模型内容,进行打分,所有蒸馏侧的数据都是合成数据,DeepSeek和我们一样应该都不会用,他们应该使用的是自建多语言的语聊,我们愿意精选自建数据,蒸馏数据的数据质量不一定可靠,我们更多的要求比较高的数据精度,蒸馏出的数据很多不可用。
模型训练所需要的成本,23、24年远比推理要高,模型训练沉没成本很高,推理需要看用户量,模型推理算力不如模型训练的核心原因是推理端没有模型增量出来,也就是没有人用,国内很多应用接口没有那么多用户的需求,可能25年会有变化,但在之前很长时间内,模型训练所需的算力都是最大的。推理和训练算力是不一样的,我们不能忽略OpenAI等公司的努力,在模型研发过程中,互联网大厂具备很多价值,我们筛选路径。DeepSeek本质是模型训练的改进。中长期来看,DeepSeek的API成本绝对不会比我们低,推理成本不一定会降低,主要是规模效应。
Q:对于GPU的需求?
A:内部也在分析,我们通过应用和基座模型进行分析,之前很长时间内,全球模型从业者对于国内模型关注度没有那么高,因为绝大多数研发人员的关注点都在海外,国内只有通义做的还不错,之前很长一段时间,国内开源模型做的也可能不是很好,现在关注度上来了;因为工程能力的优化,理论层面非常富裕,对海外公司的恐慌在于GPU卡是否不需要了,需要更多的芯片进行探索和验证,DeepSeek让我们的路径进行转变,加速了路径的验证和探索的速度。
效果上来说,DeepSeek和OpenAI部分指标差不多,在小语种上有差距,中文不错英文尚可,在小语种和垂类知识回复中,有所受限。DeepSeek开源会对闭源市场产生很大冲击,模型本身不受影响,拉到本地就是自己的,DeepSeek是非常标准的开源模型,所有的组织都可以使用,应用侧主要还是卡不够,并发不够,是因为DeepSeek还是小体量,储备的芯片还是有限,训练和推理是不同的商业模式,推理还是针对垂类,如果使用联网搜索,成本还是大问题,并发也是大问题。豆包1000多个工程师进行优化,DeepSeek没有index页面,不是因为基座模型团队很强,C端应用就会做的很强。国内愿意开放搜索入口的厂商很少,被ban的风险很大,自主话语权很小,体量不是很大的公司会有比较大的问题,DeepSeek应用app不指望变现,对于赚钱和商业化不迫切,基座模型迭代不停就行。
Q:DeepSeek会不会促进国内应用发展?
模型的训练不是一年两年的事情,我们现在3年了,往后延续2年问题不大,不是一时的问题。
Q:大厂是否会基于DeepSeek进行优化?
A:会优化,路径上来说优化是一定的,总的算力来说不一定会下降,路径规划来说,目前比较明确,大厂是科研,路径分支都要做验证,小的公司只要沿着我们的脚印去做,我们的力度没有缩减,看到的现象是加速,可能总量还会增加。
Q:海外巨头算力需求是否会降低?
A:海外巨头基座算力不会投入那么猛,推理侧聊的也都差不多,模型推理可能会增加,模型训练增速会有下滑,但并不会下滑很快。算力投入的北极星指标是有新的好用模型,只要还有,投入就会有;第二个是推理,完全取决于文本、图片、视频等多模态提升,和用户体量等正相关,如果客户越来越多,投入就会越强,我们寄希望于25年推理放量,也只有这样才会加大对推理的投入,整体来说算力本身还是增加的,不会因为DeepSeek而萎缩。
Q:目前硬件成本,训练成本和推理成本的比例?
A:字节现在手里的芯片有10万张,H20有20多万张,H20一半推理一半训练,A/H系列芯片训练。国内的互联网大厂训练还是占多数,我们买到的芯片还是训练卡占绝大多数,字节本身37开,25年可能会有结构性变化,有部分需求会因为文本多模态等起量,字节25年会日均模型调用量从4万亿到40万亿,公司结构方面,Seed不承担任何商业化指标,文本、图形、人形机器人都在这里;中间层是方舟,做模型蒸馏,裁剪量化商业化封装,逻辑上每个公司都是一样的,变成可用模型;再往下就是Flow(豆包,猫箱,眼镜等)都是创新应用团队,第三块是火山引擎。
25年会有结构性变化,从4万亿日均Token到40万亿增长十倍,4万亿日均Token对应10万张A10/A30/L20/L40,因为12月底4万亿Token中70%都是文本,变成40万亿的时候,芯片占比70%以H20/590/910B/910C为主,剩下30%是L40/5090等,多模态的模型请求会有变化,国产训练卡主要做推理,我们有400多亿在国内,绝大多数用作模型推理,会储备比较多的590,8-10万张,910B有1万多张,910C有4-5万张,24年训练芯片是多于推理芯片的,25年可能会有交点,推理侧模型结构70%是非文本以外的多模态,无论如何即使训练成本下降,但对于推理侧的需求还是比较多的。
日均40万亿Token,可能需要60万张卡,模型调用分为在线和离线,对于模型应用来说,可能会做削峰填谷,算力调度,小公司可能模型能力不错,输出效果来说不差,但我们可以做削峰填谷来降低推理成本。Token是计量单位,之前是纯文本,图片是1:4000,图像理解是1:1500,文生视频是1秒:150000,所以Token不是字符,文本占用量高的话Token不一定高,业内有两种调用方式,字节选用的是Token,另一种是调用次数,这两种有折算关系,24年初一次调用=800Token,现在一次调用=2000Token,文本24年初占比比较高。
Q:推理成本受算法影响的程度?
A:DeepSeek的推理成本并不低,定价也不算便宜,字节的价格是比DeepSeek低的。DeepSeek是不赚钱的,定价仍然贵,推理层面字节有规模效应。单次训练成本DeepSeek确实低,同样万卡做推理,DeepSeek目前有2万张左右的训练芯片,最近紧急开发了一些芯片做推理,国内开了1-2万张卡,总的来说并不多,300-400万日活所需要的卡很少,比如1700万DAU,token调用量6000-7000亿,4万亿对应10万张卡,可以直接进行简单换算,开源模型用ToB的API没意义,DeepSeek的DAU差不多800-1000万,日均调用量几千亿规模,卡数总量不过万,DeepSeek优势是训练侧,但没有应用爆发,成本还是下不来的。
Q:DeepSeek和普通的AIGC有什么区别?
A:DeepSeek也属于生成式AI,有几个不同:
第一个是把成本拉低,是llama的1/11,用先进技术把推理速度降低,模型架构和大部分不一样,用细颗粒度MoE,先进模型基本都是邓氏架构,细颗粒度不是首创,阿里也在往这个方向走,这个架构在推理的时候只激活部分参数,在推理机制上引入LLA,市场上有几种,多头注意力等,需要每个参数都参与计算,而DeepSeek只激活低参数,降低成本;
第二个是训练方法,传统方法是FP32和FP16的混合精度,DeepSeek用FP8参数,比较敏感的组件还是FP16,分布式混合精度是目前做的比较少的,训练方法里面也有工程优化,之前时延导致GPU利用率不是很高,DeepSeek用流水线并行,高效利用通信网络,提升速率;
第三是编程上面也有很大不一样,此前用CUDA,DeepSeek用PTX,PTX本身是CUDA的一部分,用更细颗粒度来调度底层单元,将硬件调度细化,是传统方法用的比较少的;
第四是AI Infra,通常集群是三层网络,DeepSeek是两层,通信库降低PCIE消耗,减少GPU内存消耗增高网络通信速度,HF Reduce、分布式文件系统、调度平台用的比较灵活。
Q:国内所有的训练公司是否可以复制,大幅减少GPU需求?
A:DeepSeek用PTX进行优化,PTX并不是绕过CUDA,是CUDA的一部分,PTX更底层一些,并没有100%用到CUDA标准库,到硬件底部调动硬件模块,还属于CUDA的组件,从这个角度来说是没办法马上复制到昇腾和AMD,PTX技术还是仅限于NVDA,跨生态还是有困难,没有把数据开源,只是把方法开源,方法可以参照,并非100%复制,部分复制的衍生模型会比较快。
Q:DeepSeek大概降低了多少训练成本?
A:QWEN没计划这么快发布2.5MAX,大厂本来计划一季度后半期,公开版本最大72B,中间用的卡数量是6000级别的,我们是有A800、H800混合组网,大概是1:3如果要量化的话。
Q:国内的水平大概如何,和海外相比大概有多少成本降低?
A:DeepSeek的600万美金是V3模型本身,V3模型是迭代出来的,把之前的模型加起来的话,成本至少是目前的3-5倍,小2000万美金肯定要的,和Llama3相比,大概1:4左右,因为DeepSeek没有太多公开数据,OpenAI主要是6000多张卡3个月以上,肯定是DeepSeek的好几倍。
Q:当用户量起来之后DeepSeek是否有很大的扩容需求?
A:在最接近看到的是能力下降,因为用户量增长的比较猛,增长了十几倍,本身是推理集群没有ready,深度推理和联网都用不了了,推理需求上来之后没有做到弹性扩容,暂时关闭了联网功能,从这个角度来看,虽然训练成本低了,杰文斯理论来看,门槛降低之后对算力是利好的,普及度提升,对DeepSeek来说要迅速扩容,不然会损失用户数。
Q:本质上的框架还是基于英伟达的GPU芯片?
A:是的,还是CUDA生态。
Q:对芯片的依赖度会降低?
A:这个解读肯定是有问题的,他们还是在CUDA上做工作,其他公司没有在PTX上面进行,当大家看到之后,肯定会往这个方向做投入,用算法优化来提升性能,掌握方法之后会起来的很快,硬件的抄袭很困难甚至不可能,未来也会用CUDA来编程,国产在做芯片设计的时候会沿着这个思路去设计芯片,但取代不了。
Q:国产芯片是否存在一定的成长空间?
A:有的,低精度没那么大差距,FP8和FP16就可以做训练,芯片硬件差距下,用性能比较差的芯片也可以设计低精度模型,逻辑是通顺的。云计算大厂后面肯定都会支持DeepSeek,在MaaS上上线,2024年国产芯片牵引模型,接下来DeepSeek指引了方向,加上了算法优势,用性能稍微低的芯片来测试模型也是趋势。在接下来2-3个季度,大厂也会发布国产相关方案出来,除了CUDA以外。
Q:推理芯片需求量会增加?
A:DeepSeek出来之后模型市场有几点变化: 对MaaS有一点冲击,DeepSeek会进入所有MaaS平台; 工具链上,会提供DeepSeek的调优工具; 出现非常多基于DeepSeek的衍生版本,很多都会基于DeepSeek的模型来蒸馏,牵引此前的垂直版本,版本出来之后用比较低的成本部署并商用,推理侧B端和C端商用。目前ToC端推理成本比较贵,现在可以用比较好的方式来获取用户,会出现大量的应用爆发。 DeepSeek出来之后会出很多Agent和AI应用,生态会繁荣起来,要准备足够多的算力来支持。
Q:训练端的芯片是否会增加?
A:预训练可能不会增加,后训练可能会增加,但占比没有推理侧高,今年主要还是73开,7还是推理。接下来DeepSeek已经把预训练做完了,接下来后训练做行业垂类模型,老版本迭代进行后训练需求。
Q:AIDC的需求情况?
A:AIDC市场即使没有DeepSeek出来,大厂也有预算,字节按照10万亿或者20万亿来消耗,接下来可能会做调整,DeepSeek没有出来之前的预测可能要调整,此后会有增长,总体来看会有更多的增长和需求,业务爆发要比预期快。
Q:优化主要集中在哪些环节?
A:DeepSeek给我们的指引是,改变了堆算力的想法,把算法的权重增加,用算法来抵消算力不足,工程排第二,通信调度等,第三才是硬件。
Q:DeepSeek产业链和传统的算力产业链有什么增量环节?
A:分上中下来说,在训练侧会减弱但推理侧会增长,上游需求并不会减少,DeepSeek后续要扩容,还是会带来硬件增长,会有很多基于DeepSeek进行软件开发的需求,比如微调等,比如MaaS平台需求,之前要选很多模型,现在减少了选项;后训练中会用到模型API,有很多要用到R1模型进行深度推理,此前大模型给做科研,研发,分子结构预测等用不到,现在可以用到,所以会出现基于R1的很多需求,接下来会用R1辅助科研等,今年在这个赛道会起来。
Q:是否会降低高性能算力需求?
A:未来半年会逼着团队降成本,大厂会修改一部分预算assign到算法优化,随着行业掌握方法之后,就会开始新一轮的竞赛,训练成本和推理成本会下降,拉动整个行业增长,所以长期来看英伟达产业链地位并不会有变化。
Q:阿里本身的MAX大概什么时候发布?
A:大概提前一个半月发布。
Q:是否仍然会有囤卡的现象?
A:在算法领先的时间窗口,会被复制和超越,有两个背景,美国会收紧,还有90天缓冲期,如果有渠道的厂商,如果看到了行业逻辑,就会一定去买,有渠道买应该也会买,硬件还是有很大差距。对英伟达来说,一年时间段为维度NVDA还不会有很大的地位变化。
Q:未来行业的趋势?
A:DeepSeek也发布了多模态模型,能够做图像生成,这样的模型出来之后加快了多模态速度,之后会往多模态去走,端到端多模态以及衍生出来的产品,Token比文本模型多很多,从当下而言,DeepSeek划好了分水岭,开源模型超越闭源模型是趋势,多模态速度普及提升也是一个方向,占比来说多模态的算力消耗是文本模型的10倍左右,推理算力消耗是此前的好几倍。
Q:铜连接需求的变化?
A:铜连接本身做节点级别的链接,会跟着数量来变动,基于我们前期的判断来看,中长期来看,不会减少,机架扩容的时候还是用低成本方式来组网。
Q:互联网大厂未来的资本开支分配和节奏?
A:有些是美股上市公司,Q1做下个年度的预算,在讨论大致数字,因为DeepSeek东西插进来之后肯定会重新讨论,ALI之前讨论300亿元,加上液冷、交换机就是460亿,现在在讨论要不要这么多,不会大规模下降,也不会猛增,有一些博弈,大概率技术还是会坚持甚至追加,要财务跟技术共同协商。其他大厂来说,我的预计,百度今年不到100亿,不会猛增,字节最猛,阿里排第三,35%-40%增长,激进一些的话就是50%以上,腾讯排第二。
Leave a Reply