Blog

  • Diffuse – AI视频编辑工具,提供个性化视频生成和编辑功能

    Diffuse是什么

    Diffuse是基于 AI 技术的视频编辑器,专注于为用户提供高效、个性化的视频生成和编辑功能。用户可以通过上传一张自拍照,生成与自己高度逼真的虚拟角色,插入到各种 AI 生成的场景中,可以模仿其他视频中的动作,如舞蹈等。Diffuse 支持文本到视频的生成,用户可以通过输入文字提示或上传参考图像来生成原创视频内容。

    Diffuse

    Diffuse的主要功能

    • 个性化角色生成:用户上传一张自拍照后,Diffuse 可以生成一个与用户高度相似的虚拟角色,插入到各种 AI 生成的场景中,可以模仿其他视频中的动作。
    • 文本到视频生成:用户可以通过输入文字描述来生成视频内容,例如指定场景、角色动作等。Diffuse 支持上传参考图像或视频,帮助生成更符合用户需求的视频。
    • 预生成剪辑和提示编辑器:提供一组预生成的视频片段供用户选择,同时配备提示编辑器,用户可以详细描述想要的内容,生成更精准的视频。
    • 动作和表情生成:Diffuse 的动作引擎支持角色进行简单动作、复杂行为以及面部表情的交互,动作自然流畅,确保角色和场景的高度连贯性。
    • 移动优先设计:主要通过移动设备提供服务,用户可以在 iOS 和 Android 设备上随时随地进行视频创作,适合社交媒体内容创作者。

    Diffuse的官网地址

    Diffuse的应用场景

    • 个性化视频生成:Diffuse 可以根据用户上传的照片或文字描述生成个性化的视频内容,适合 TikTok、Instagram 等平台的内容创作者。
    • 创意挑战与互动:创作者可以用 Diffuse 发起创意挑战,鼓励用户生成并分享自己的视频内容,增加用户参与度.
    • 广告制作:企业可以用 Diffuse 快速生成吸引人的广告视频,提高广告的吸引力和传播效果。
    • 产品演示:生成高质量的产品演示视频,帮助品牌更好地展示产品特点。
    • 教学视频制作:教育工作者可以用 Diffuse 生成生动的教学视频,帮助学生更好地理解复杂概念。
  • s1 – 斯坦福和华盛顿大学推出低成本、高性能的AI推理模型

    s1是什么

    s1是斯坦福大学和华盛顿大学的研究团队开发的低成本、高性能的AI推理模型。模型通过“蒸馏”技术从谷歌的Gemini 2.0 Flash Thinking Experimental模型中提取推理能力。研究人员仅使用1000个精心策划的问题及其答案进行训练,训练成本不到50美元,训练过程耗时不到30分钟。S1模型在数学和编程能力测试中表现优异,与OpenAI的o1和DeepSeek R1等顶尖推理模型相当。

    s1

    s1的主要功能

    • 高效推理能力:S1模型专注于复杂问题的推理,在数学和编程领域表现出色。能解决高难度的竞赛级数学问题,如AIME(美国数学邀请赛)题目。S1模型在竞赛数学问题上的表现显著提升,最高超过OpenAI的o1-preview模型27%。
    • 低成本训练:S1模型仅使用1000个精心策划的问题及其推理轨迹进行训练,训练成本极低,仅需不到50美元的云计算费用,训练时间不到30分钟。
    • 测试时扩展(Test-time Scaling):S1模型通过预算强制技术在测试时动态调整计算量。通过强制终止模型的思考过程或追加“Wait”指令延长思考时间,模型可以重新检查答案,修正错误的推理步骤,提升推理性能。
    • 开源与可扩展性:S1模型的代码、数据和训练方法已在GitHub上开源,方便其他研究者和开发者使用和改进。

    s1的技术原理

    • 数据集构建(s1K)
      • 数据来源:S1模型的数据集s1K包含1000个高质量问题,从多个领域(如数学、物理、化学等)中筛选而来,覆盖了多种推理任务。
      • 筛选标准:通过难度、多样性和质量三个标准筛选问题。难度通过模型性能和推理轨迹长度衡量;多样性通过问题所属领域分类;质量通过数据格式和内容的准确性保证。
      • 最终选择:最终选择的问题覆盖了50个不同领域,确保了数据的多样性和代表性。
    • 监督微调(SFT)
      • 模型选择:使用Qwen2.5-32B-Instruct作为基础模型,模型在数学任务上表现优异。
      • 训练过程:在s1K数据集上进行监督微调,训练时间为26分钟,使用16个NVIDIA H100 GPU。训练过程中,模型学习从问题到推理轨迹和答案的映射。
    • 预算强制(Budget Forcing)
      • 控制测试时计算量:通过在测试时强制终止或延长模型的思考过程来控制计算量。具体方法包括:
        • 强制终止:如果模型生成的思考令牌数超过预设的最大限制,则强制终止思考过程,让模型直接输出答案。
        • 追加“Wait”:如果希望模型思考更长时间,则在当前推理轨迹后追加“Wait”指令,促使模型继续探索。
    • 测试时扩展方法的评估
      • 评估指标:通过控制性(Control)、扩展性(Scaling)和性能(Performance)三个指标评估不同的测试时扩展方法。
      • 方法比较:S1模型比较了多种测试时扩展方法,包括基于令牌的控制、基于步骤的控制和基于类别的控制。最终,预算强制方法在控制性、扩展性和性能上表现最佳。

    s1的项目地址

    s1的应用场景

    • 科学问题:S1模型可以应用于解决高难度的科学问题,如物理学、化学和生物学中的竞赛级问题。
    • 智能辅导系统:S1模型可以作为智能辅导系统的核心,帮助学生解决复杂的数学和科学问题,提供详细的推理步骤和解释。
    • 自动问答系统:S1模型可以用于自动问答系统,特别是在需要复杂推理和多步骤思考的场景中,例如解决用户提出的高难度问题。
    • 文本生成:S1模型可以用于生成高质量的文本内容,在需要逻辑推理和复杂结构的文本生成任务中。
    • 智能客服:S1模型可以应用于智能客服系统,解决复杂的用户问题,提供更准确和高效的解答。
    • 数据分析:S1模型可以用于数据分析和预测任务,需要推理和逻辑分析的场景中。
  • DeepSeek交流纪要(字节内部原文)

    DeepSeek交流纪要

    站长推荐DeepSeek服务器繁忙怎么解决?14个免费R1满血版平替

    观点分享

    DeepSeek做的模型,和基于transformer的模型路径基本上是一致的,没有深度学习框架等的很大区别,DeepSeek核心点是在工程能力上的创新,现在做的模型一方面是理论,另一方面是工程。

    理论和工程方面,公司都盯着理论层面,字节也是一样的,市场上的模型算力有两根曲线,一个是堆叠尽可能多的算力来印证模型结构,所以字节要在海外投入500亿以上的预算,另一条曲线是业务增量。第一根曲线得到比较明确的结论是,如果要进行模型探索和验证,还是需要更多的GPU芯片,基座和AGI的探索投入时间比较长,研发路径可能会出现多种分叉,和海外公司处于战略相持阶段,要针对已有模型进行多轮验证,回到DeepSeek,我们也在做,能力迭代和更新不是他们一家。

    结论1:对于模型结构本身来说,我们不认为DeepSeek能在预训练等阶段能和其他厂商有很大的理论不同;

    结论2:不认为算力采购存在问题,需要更多算力来验证方案,在review和内省的是团队本身,奖励机制和研发架构设计合理性分析,在核心团队激励和层级设计上需要改变激发活力;

    结论3:不存在代差,DeepSeek比Kimi更纯粹,路径比Kimi更精准一些,现在字节在内的很多大厂,在参考DeepSeek路径和模型结构,能够在比较短时间之内拿出镜像版本出来。

    在深度学习路径来说,字节的方案和DeepSeek方案差不多,字节内部也针对MoE架构,注意力优化,豆包pro1.5效果也不错,只不过是闭源,跟DeepSeek很多路径也都一致,预算比较多,没有特别围绕卡的算力做垂类优化,在模型训练阶段比DeepSeek成本高一些,在整个效果上,通义等厂商效果都不一定比DeepSeek差,优化方案可能没有DeepSeek强。

    结论总结:DeepSeek做的最好的事情是路径选择等选型优化,在架构设计中做了很多内容,工程算法等内容成本控制比较优秀,对互联网大厂来说并不是跟不上做不到,只是很长时间内我们没有做,强化学习很多厂商都在做,路径本身并不是DeepSeek一家可以做,让我们最惊讶的是成本端,路径和DeepSeek还是一样的。

    商业化:不是核心本质,和tx战略做沟通时,核心逻辑是用户数量对基座模型没有直接关系,DeepSeek在研发和基座进行投入,对商业化没有什么探索。

    交流探讨

    Q:DeepSeek成本比较低的主要原因?

    A:DeepSeek还是绕不过英伟达的GPU芯片,对于DeepSeek来说,目前阶段绝大多数做模型的公司规避不掉GPU芯片,国产卡很多卡性能不是很强,也没有很多可选,在算力维度来看国内的模型公司算力基座,100%都是英伟达系列,万卡互连对于算力本身的通信、稳定性都有需求,需要对国产芯片做适配,需要国产卡做推理,目前我们投入很多精力做适配验证,除了百度自研昆仑芯,主要的芯片还是使用英伟达,国内绝大多数国产芯片在现在这个时间点内,还没办法承接需求。

    DeepSeek对于万卡互联的需求没有特别高,把工程问题前置,2025年可能因为DeepSeek开源冲击,对于算力结构发生很大变化

    (1)很多企业会因为DeepSeek低成本模型的覆盖,或者方案覆盖,激发二轮训练的需求,在几千张卡互联训练中可以指望国产芯片。之前很多公司放弃自研模型,现在可能会有变化,激发起国内手里有钱的公司进行模型研发

    (2)2025年可能因为国产芯片的可用性,逐步进行转变,艰难的转变到国内的卡,但还是要看水货渠道,如果有渠道,还是会用英伟达

    成本端的问题是核心,很多嵌入了OpenAI接口,或者蒸馏了OpenAI数据等的论调,基本不是很现实,因为成本实在太高;DeepSeek是开源模型,模型效果和训练方式来看,除了数据没有开源,我们可以使用DeepSeek开源论文在本地做复现,完全可以做成垂类模型。

    DeepSeek预训练模型中一点三方数据都没有?不是很确定,但这是惯例,我们可能会使用三方模型内容,进行打分,所有蒸馏侧的数据都是合成数据,DeepSeek和我们一样应该都不会用,他们应该使用的是自建多语言的语聊,我们愿意精选自建数据,蒸馏数据的数据质量不一定可靠,我们更多的要求比较高的数据精度,蒸馏出的数据很多不可用。

    模型训练所需要的成本,23、24年远比推理要高,模型训练沉没成本很高,推理需要看用户量,模型推理算力不如模型训练的核心原因是推理端没有模型增量出来,也就是没有人用,国内很多应用接口没有那么多用户的需求,可能25年会有变化,但在之前很长时间内,模型训练所需的算力都是最大的。推理和训练算力是不一样的,我们不能忽略OpenAI等公司的努力,在模型研发过程中,互联网大厂具备很多价值,我们筛选路径。DeepSeek本质是模型训练的改进。中长期来看,DeepSeek的API成本绝对不会比我们低,推理成本不一定会降低,主要是规模效应


    Q:对于GPU的需求?

    A:内部也在分析,我们通过应用和基座模型进行分析,之前很长时间内,全球模型从业者对于国内模型关注度没有那么高,因为绝大多数研发人员的关注点都在海外,国内只有通义做的还不错,之前很长一段时间,国内开源模型做的也可能不是很好,现在关注度上来了;因为工程能力的优化,理论层面非常富裕,对海外公司的恐慌在于GPU卡是否不需要了,需要更多的芯片进行探索和验证,DeepSeek让我们的路径进行转变,加速了路径的验证和探索的速度
    效果上来说,DeepSeek和OpenAI部分指标差不多,在小语种上有差距,中文不错英文尚可,在小语种和垂类知识回复中,有所受限。DeepSeek开源会对闭源市场产生很大冲击,模型本身不受影响,拉到本地就是自己的,DeepSeek是非常标准的开源模型,所有的组织都可以使用,应用侧主要还是卡不够,并发不够,是因为DeepSeek还是小体量,储备的芯片还是有限,训练和推理是不同的商业模式,推理还是针对垂类,如果使用联网搜索,成本还是大问题,并发也是大问题。豆包1000多个工程师进行优化,DeepSeek没有index页面,不是因为基座模型团队很强,C端应用就会做的很强。国内愿意开放搜索入口的厂商很少,被ban的风险很大,自主话语权很小,体量不是很大的公司会有比较大的问题,DeepSeek应用app不指望变现,对于赚钱和商业化不迫切,基座模型迭代不停就行。


    Q:DeepSeek会不会促进国内应用发展?

    A会使得行业变得更大,大量公司跃跃欲试在搞,之前因为行业增速有所放缓,DeepSeek开源之后会加速决策,生态圈会比较热闹,之前的误区是指望一级市场的投资者扶持大企业,因为花别人钱会有考核,现在造血能力比较强的企业,还有一级市场公司决策会更顺畅些,因为有开源模型作为参考。
    从资源投入来说,之前是寡头,现在是有更多公司拿卡做多轮验证,模型的生意和整个生态不一定会复现24年寡头竞争,25年会更热闹一些。我们也做算力租赁,市场目前也可以印证观点,大家的投入是持续的。

    模型的训练不是一年两年的事情,我们现在3年了,往后延续2年问题不大,不是一时的问题。


    Q:大厂是否会基于DeepSeek进行优化?

    A:会优化,路径上来说优化是一定的,总的算力来说不一定会下降,路径规划来说,目前比较明确,大厂是科研,路径分支都要做验证,小的公司只要沿着我们的脚印去做,我们的力度没有缩减,看到的现象是加速,可能总量还会增加


    Q:海外巨头算力需求是否会降低?

    A:海外巨头基座算力不会投入那么猛,推理侧聊的也都差不多,模型推理可能会增加,模型训练增速会有下滑,但并不会下滑很快。算力投入的北极星指标是有新的好用模型,只要还有,投入就会有;第二个是推理,完全取决于文本、图片、视频等多模态提升,和用户体量等正相关,如果客户越来越多,投入就会越强,我们寄希望于25年推理放量,也只有这样才会加大对推理的投入,整体来说算力本身还是增加的,不会因为DeepSeek而萎缩


    Q:目前硬件成本,训练成本和推理成本的比例?

    A字节现在手里的芯片有10万张,H20有20多万张,H20一半推理一半训练,A/H系列芯片训练。国内的互联网大厂训练还是占多数,我们买到的芯片还是训练卡占绝大多数,字节本身37开,25年可能会有结构性变化,有部分需求会因为文本多模态等起量,字节25年会日均模型调用量从4万亿到40万亿,公司结构方面,Seed不承担任何商业化指标,文本、图形、人形机器人都在这里;中间层是方舟,做模型蒸馏,裁剪量化商业化封装,逻辑上每个公司都是一样的,变成可用模型;再往下就是Flow(豆包,猫箱,眼镜等)都是创新应用团队,第三块是火山引擎。

    25年会有结构性变化,从4万亿日均Token到40万亿增长十倍,4万亿日均Token对应10万张A10/A30/L20/L40,因为12月底4万亿Token中70%都是文本,变成40万亿的时候,芯片占比70%以H20/590/910B/910C为主,剩下30%是L40/5090等,多模态的模型请求会有变化,国产训练卡主要做推理,我们有400多亿在国内,绝大多数用作模型推理,会储备比较多的590,8-10万张,910B有1万多张,910C有4-5万张,24年训练芯片是多于推理芯片的,25年可能会有交点,推理侧模型结构70%是非文本以外的多模态,无论如何即使训练成本下降,但对于推理侧的需求还是比较多的。

    日均40万亿Token,可能需要60万张卡,模型调用分为在线和离线,对于模型应用来说,可能会做削峰填谷,算力调度,小公司可能模型能力不错,输出效果来说不差,但我们可以做削峰填谷来降低推理成本。Token是计量单位,之前是纯文本,图片是1:4000,图像理解是1:1500,文生视频是1秒:150000,所以Token不是字符,文本占用量高的话Token不一定高,业内有两种调用方式,字节选用的是Token,另一种是调用次数,这两种有折算关系,24年初一次调用=800Token,现在一次调用=2000Token,文本24年初占比比较高。


    Q:推理成本受算法影响的程度?

    ADeepSeek的推理成本并不低,定价也不算便宜,字节的价格是比DeepSeek低的。DeepSeek是不赚钱的,定价仍然贵,推理层面字节有规模效应。单次训练成本DeepSeek确实低,同样万卡做推理,DeepSeek目前有2万张左右的训练芯片,最近紧急开发了一些芯片做推理,国内开了1-2万张卡,总的来说并不多,300-400万日活所需要的卡很少,比如1700万DAU,token调用量6000-7000亿,4万亿对应10万张卡,可以直接进行简单换算,开源模型用ToB的API没意义,DeepSeek的DAU差不多800-1000万,日均调用量几千亿规模,卡数总量不过万,DeepSeek优势是训练侧,但没有应用爆发,成本还是下不来的。


    Q:DeepSeek和普通的AIGC有什么区别?

    A:DeepSeek也属于生成式AI,有几个不同:

    第一个是把成本拉低,是llama的1/11,用先进技术把推理速度降低,模型架构和大部分不一样,用细颗粒度MoE,先进模型基本都是邓氏架构,细颗粒度不是首创,阿里也在往这个方向走,这个架构在推理的时候只激活部分参数,在推理机制上引入LLA,市场上有几种,多头注意力等,需要每个参数都参与计算,而DeepSeek只激活低参数,降低成本;

    第二个是训练方法,传统方法是FP32和FP16的混合精度,DeepSeek用FP8参数,比较敏感的组件还是FP16,分布式混合精度是目前做的比较少的,训练方法里面也有工程优化,之前时延导致GPU利用率不是很高,DeepSeek用流水线并行,高效利用通信网络,提升速率;

    第三是编程上面也有很大不一样,此前用CUDA,DeepSeek用PTX,PTX本身是CUDA的一部分,用更细颗粒度来调度底层单元,将硬件调度细化,是传统方法用的比较少的;

    第四是AI Infra,通常集群是三层网络,DeepSeek是两层,通信库降低PCIE消耗,减少GPU内存消耗增高网络通信速度,HF Reduce、分布式文件系统、调度平台用的比较灵活。


    Q:国内所有的训练公司是否可以复制,大幅减少GPU需求?

    ADeepSeek用PTX进行优化,PTX并不是绕过CUDA,是CUDA的一部分,PTX更底层一些,并没有100%用到CUDA标准库,到硬件底部调动硬件模块,还属于CUDA的组件,从这个角度来说是没办法马上复制到昇腾和AMD,PTX技术还是仅限于NVDA,跨生态还是有困难,没有把数据开源,只是把方法开源,方法可以参照,并非100%复制,部分复制的衍生模型会比较快。


    Q:DeepSeek大概降低了多少训练成本?

    A:QWEN没计划这么快发布2.5MAX,大厂本来计划一季度后半期,公开版本最大72B,中间用的卡数量是6000级别的,我们是有A800、H800混合组网,大概是1:3如果要量化的话。


    Q:国内的水平大概如何,和海外相比大概有多少成本降低?

    A:DeepSeek的600万美金是V3模型本身,V3模型是迭代出来的,把之前的模型加起来的话,成本至少是目前的3-5倍,小2000万美金肯定要的,和Llama3相比,大概1:4左右,因为DeepSeek没有太多公开数据,OpenAI主要是6000多张卡3个月以上,肯定是DeepSeek的好几倍。


    Q:当用户量起来之后DeepSeek是否有很大的扩容需求?

    A:在最接近看到的是能力下降,因为用户量增长的比较猛,增长了十几倍,本身是推理集群没有ready,深度推理和联网都用不了了,推理需求上来之后没有做到弹性扩容,暂时关闭了联网功能,从这个角度来看,虽然训练成本低了,杰文斯理论来看,门槛降低之后对算力是利好的,普及度提升,对DeepSeek来说要迅速扩容,不然会损失用户数。


    Q:本质上的框架还是基于英伟达的GPU芯片?

    A是的,还是CUDA生态


    Q:对芯片的依赖度会降低?

    A这个解读肯定是有问题的,他们还是在CUDA上做工作,其他公司没有在PTX上面进行,当大家看到之后,肯定会往这个方向做投入,用算法优化来提升性能,掌握方法之后会起来的很快,硬件的抄袭很困难甚至不可能,未来也会用CUDA来编程,国产在做芯片设计的时候会沿着这个思路去设计芯片,但取代不了。


    Q:国产芯片是否存在一定的成长空间?

    A:有的,低精度没那么大差距,FP8和FP16就可以做训练,芯片硬件差距下,用性能比较差的芯片也可以设计低精度模型,逻辑是通顺的。云计算大厂后面肯定都会支持DeepSeek,在MaaS上上线,2024年国产芯片牵引模型,接下来DeepSeek指引了方向,加上了算法优势,用性能稍微低的芯片来测试模型也是趋势。在接下来2-3个季度,大厂也会发布国产相关方案出来,除了CUDA以外


    Q:推理芯片需求量会增加?

    A:DeepSeek出来之后模型市场有几点变化: 对MaaS有一点冲击,DeepSeek会进入所有MaaS平台; 工具链上,会提供DeepSeek的调优工具; 出现非常多基于DeepSeek的衍生版本,很多都会基于DeepSeek的模型来蒸馏,牵引此前的垂直版本,版本出来之后用比较低的成本部署并商用,推理侧B端和C端商用。目前ToC端推理成本比较贵,现在可以用比较好的方式来获取用户,会出现大量的应用爆发。 DeepSeek出来之后会出很多Agent和AI应用,生态会繁荣起来,要准备足够多的算力来支持。


    Q:训练端的芯片是否会增加?

    A:预训练可能不会增加,后训练可能会增加,但占比没有推理侧高,今年主要还是73开,7还是推理。接下来DeepSeek已经把预训练做完了,接下来后训练做行业垂类模型,老版本迭代进行后训练需求。


    Q:AIDC的需求情况?

    A:AIDC市场即使没有DeepSeek出来,大厂也有预算,字节按照10万亿或者20万亿来消耗,接下来可能会做调整,DeepSeek没有出来之前的预测可能要调整,此后会有增长,总体来看会有更多的增长和需求,业务爆发要比预期快


    Q:优化主要集中在哪些环节?

    A:DeepSeek给我们的指引是,改变了堆算力的想法,把算法的权重增加,用算法来抵消算力不足,工程排第二,通信调度等,第三才是硬件


    Q:DeepSeek产业链和传统的算力产业链有什么增量环节?

    A:分上中下来说,在训练侧会减弱但推理侧会增长,上游需求并不会减少,DeepSeek后续要扩容,还是会带来硬件增长,会有很多基于DeepSeek进行软件开发的需求,比如微调等,比如MaaS平台需求,之前要选很多模型,现在减少了选项;后训练中会用到模型API,有很多要用到R1模型进行深度推理,此前大模型给做科研,研发,分子结构预测等用不到,现在可以用到,所以会出现基于R1的很多需求,接下来会用R1辅助科研等,今年在这个赛道会起来


    Q:是否会降低高性能算力需求?

    A:未来半年会逼着团队降成本,大厂会修改一部分预算assign到算法优化,随着行业掌握方法之后,就会开始新一轮的竞赛,训练成本和推理成本会下降,拉动整个行业增长,所以长期来看英伟达产业链地位并不会有变化。


    Q:阿里本身的MAX大概什么时候发布?

    A:大概提前一个半月发布。


    Q:是否仍然会有囤卡的现象?

    A在算法领先的时间窗口,会被复制和超越,有两个背景,美国会收紧,还有90天缓冲期,如果有渠道的厂商,如果看到了行业逻辑,就会一定去买,有渠道买应该也会买,硬件还是有很大差距。对英伟达来说,一年时间段为维度NVDA还不会有很大的地位变化


    Q:未来行业的趋势?

    A:DeepSeek也发布了多模态模型,能够做图像生成,这样的模型出来之后加快了多模态速度,之后会往多模态去走,端到端多模态以及衍生出来的产品,Token比文本模型多很多,从当下而言,DeepSeek划好了分水岭,开源模型超越闭源模型是趋势,多模态速度普及提升也是一个方向,占比来说多模态的算力消耗是文本模型的10倍左右,推理算力消耗是此前的好几倍


    Q:铜连接需求的变化?

    A铜连接本身做节点级别的链接,会跟着数量来变动,基于我们前期的判断来看,中长期来看,不会减少,机架扩容的时候还是用低成本方式来组网。


    Q:互联网大厂未来的资本开支分配和节奏?

    A:有些是美股上市公司,Q1做下个年度的预算,在讨论大致数字,因为DeepSeek东西插进来之后肯定会重新讨论,ALI之前讨论300亿元,加上液冷、交换机就是460亿,现在在讨论要不要这么多,不会大规模下降,也不会猛增,有一些博弈,大概率技术还是会坚持甚至追加,要财务跟技术共同协商。其他大厂来说,我的预计,百度今年不到100亿,不会猛增,字节最猛,阿里排第三,35%-40%增长,激进一些的话就是50%以上,腾讯排第二。

  • FluxSR – 上海交大联合华为等高校推出的图像超分辨率模型

    FluxSR是什么

    FluxSR是新型的单步扩散模型,是上海交通大学、哈佛大学、华南理工大学和华为诺亚方舟实验室推出的专门用在真实世界图像超分辨率(Real-ISR)任务。FluxSR基于FLUX.1-dev文本到图像(T2I)扩散模型,通过流轨迹蒸馏(FTD)技术将多步流匹配模型蒸馏为单步超分辨率模型。FluxSR的核心优势在于能在保持T2I模型高真实感的同时,高效地生成高质量的超分辨率图像。FluxSR用TV-LPIPS感知损失和注意力多样化损失(ADL)优化图像高频细节,减少伪影。FluxSR在多个数据集上展现出卓越的性能,尤其在无参考图像质量评估指标上表现突出,显著降低计算成本,为高效、高质量的图像超分辨率提供新的解决方案。

    FluxSR

    FluxSR的主要功能

    • 高效单步超分辨率重建:在单步扩散过程中将低分辨率图像高效地恢复为高分辨率图像,显著减少计算成本和推理延迟,适合快速图像处理需求。
    • 高真实感图像生成:从预训练的文本到图像(T2I)模型中提取高真实感细节,将其应用于超分辨率任务,生成具有丰富细节和高真实感的图像。
    • 高频细节恢复与伪影抑制:能有效恢复图像的高频细节,减少高频伪影和重复模式。

    FluxSR的技术原理

    • 流轨迹蒸馏(Flow Trajectory Distillation, FTD):
      • 噪声到图像流的生成:用预训练的T2I模型生成噪声到图像的流。
      • 低分辨率到高分辨率流的推导:基于数学关系推导出LR到HR的流轨迹,避免直接优化SR流导致的分布偏移。
    • 单步扩散模型的训练策略:基于对大模型友好的训练策略,离线生成噪声到图像的流数据对,避免在训练过程中依赖额外的教师模型。显著减少内存消耗和训练成本,让单步模型的训练更加高效。
    • 感知损失和正则化
      • TV-LPIPS感知损失:结合总变差(TV)和LPIPS(Learned Perceptual Image Patch Similarity)损失,强调高频分量的恢复并减少生成图像中的伪影。
      • 注意力多样化损失(ADL):基于减少变换器中不同token的相似性,增强注意力的多样性,消除高频伪影。
    • 高效推理:在推理阶段仅依赖单个流模型,避免多步扩散模型的高计算开销。基于FTD技术,在单步中生成高质量的超分辨率图像,同时保持与多步模型相当的真实感。

    FluxSR的项目地址

    FluxSR的应用场景

    • 老旧照片修复:将低分辨率、模糊或损坏的老照片恢复为高分辨率、清晰的图像。
    • 影视制作:在影视后期制作中,将低分辨率的素材提升为高分辨率,适应高清或4K制作需求
    • 医学影像增强:提升低分辨率的医学影像(如X光、CT、MRI)的分辨率,帮助医生更准确地诊断疾病。
    • 智能手机拍照:提升手机拍摄的低分辨率照片的清晰度,尤其是在低光照或快速运动场景下。
    • 质量检测:在工业生产中,提升生产线上的图像检测系统的分辨率,帮助更准确地检测产品缺陷。
  • LOOK – AI服装设计工具,手绘草图时AI同步生成视觉效果

    LOOK是什么

    LOOK是实时AI时尚设计工具,专为时尚设计师开发。LOOK基于先进的AIGC技术,将设计概念即时转化为视觉呈现,简化传统设计流程。设计师在Procreate中绘制草图时,基于LOOK的实时设计功能,让AI同步生成视觉效果,实时调整细节。LOOK具备草图转图像、批量生产等功能,能快速生成多种设计变体,激发创意。LOOK集成多种工具,如文生图图生图模特试穿等,满足设计师从灵感到成品的全部需求,无需切换多个软件。

    LOOK

    LOOK的主要功能

    • 实时设计:基于连接Procreate,让设计师在手绘草图的同时,AI即时生成视觉呈现。设计师能在绘画过程中实时调整设计,修改面料图案、颜色、工艺等细节,确保每个细节都能完美呈现。
    • 草图转图像:AI根据设计师的草图生成多个创意视觉呈现,激发灵感。
    • 批量生产:支持一次性生成多个设计变体,提高设计效率。
    • 文生图:基于文字描述生成图像。
    • 图生图:基于已有图像生成新的设计。
    • 风格扩展:根据现有设计扩展出更多风格。
    • 微调:对生成的设计进行精细调整。
    • 模特试穿:将设计应用到虚拟模特身上。
    • 智能场景:为设计添加虚拟场景。
    • 一键背景移除:快速移除图像背景。
    • 智能颜色更改:快速调整颜色。
    • 智能擦除:智能擦除不需要的部分。
    • 模特定制:根据需求定制虚拟模特。

    LOOK的官网地址

    LOOK的产品定价

    • Starter 套餐:$29/月,无限制生成,普通生成速度,同时生成2张,生成频率30/4小时,高清频率限制8/4小时,高清质量2K,每月即时设计1200分钟。
    • Plus 套餐:$59/月,无限制生成,快速生成,同时生成4张,频率限制80/4小时,高清频率限制16/4小时,高清质量3K,每月即时设计3600分钟。
    • Pro 套餐:$99/月,无限制生成,超快生成速度,同时生成8张,无生成频率限制,高清频率限制48/4小时,高清质量4K,无即时设计限制。

    LOOK的应用场景

    • 教育与学习:时尚设计学院的学生和初学者学习和实践设计技能,快速理解和掌握设计流程。
    • 创意开发:设计师探索和实验不同的设计概念,激发创意和灵感。
    • 产品开发:时尚品牌和制造商在产品开发阶段快速迭代设计,提高从概念到成品的转化效率。
    • 市场营销:营销团队创建吸引人的视觉内容,用在社交媒体、广告和品牌推广,吸引目标客户群体。
    • 电子商务:电商平台和在线零售商设计和展示商品,提供虚拟试穿和个性化推荐,增强顾客的购物体验。
  • RAG-FiT – 英特尔实验室推出用于开发、增强大模型的开源RAG框架

    RAG-FiT是什么

    RAG-FiT(曾用名RAG Foundry)是英特尔实验室推出的开源框架,用在微调(fine-tuning)增强大型语言模型(LLMs)在检索增强生成(RAG)任务中的表现。RAG-FiT基于模块化设计,支持数据创建、训练、推理和评估四大功能模块。RAG-FiT能帮助用户快速创建适合RAG任务的数据集,用参数高效微调(PEFT)技术对模型进行优化,用多种RAG特定的评估指标衡量模型性能。RAG-FiT框架有高度的灵活性和扩展性,支持从数据选择、过滤到检索、提示生成等全方位的RAG用例,适用于问答系统、文本生成等多种应用场景。

    RAG-FiT

    RAG-FiT的主要功能

    • 数据创建与处理
      • 数据加载:支持从Hugging Face Hub或本地源加载数据集。
      • 数据预处理:包括数据过滤、归一化、聚合、信息检索、模板化提示生成等。
      • 数据保存:处理后的数据以一致的格式保存,方便后续训练和推理。
      • 灵活的处理流程:支持全局操作(如数据聚合、过滤)和局部操作(如单个样本的检索和文本处理)。
    • 训练
      • 参数高效微调(PEFT):用LoRA等技术对模型进行高效微调。
      • 训练配置:支持自定义学习率、优化器、批量大小等训练参数。
      • 模型推送:训练后的模型支持推送到Hugging Face Hub。
    • 推理
      • 生成预测:在处理后的数据集上生成预测结果。
      • 批量推理:支持对多个输入数据进行批量处理,提高效率。
    • 评估
      • 多维度评估:支持多种评估指标,如EM、F1、ROUGE、BERTScore等。
      • 自定义评估:用户能轻松实现自定义评估指标。
      • 全局与局部评估:支持对每个样本进行局部评估,及对整个数据集进行全局评估。

    RAG-FiT的技术原理

    • 检索增强
      • 检索机制:基于检索工具从外部知识库中获取与输入问题相关的上下文信息。工具包括基于向量的检索系统(如Haystack、Qdrant)和其他检索框架。
      • 上下文注入:将检索到的上下文信息注入到LLMs的输入中,帮助模型更好地理解问题背景,从而生成更准确、更有依据的答案。
    • 模块化设计
      • 数据处理模块:负责数据的加载、预处理和保存。支持多种数据源和灵活的处理流程。
      • 训练模块:用PEFT技术对模型进行微调,支持LoRA等高效训练方法。训练后的模型能保存或推送到Hugging Face Hub。
      • 推理模块:在处理后的数据集上生成预测结果,支持批量推理。
      • 评估模块:提供多种评估指标,支持对生成结果的多维度评估。
    • 配置驱动的工作流
      • Hydra配置工具:使用Hydra配置工具实现层次化配置,支持用命令行覆盖配置值,方便远程作业运行。
      • 配置文件:每个模块都有默认配置文件,用户能基于配置文件或命令行参数自定义工作流。
    • 实验与评估
      • 实验环境:提供一个端到端的实验环境,支持快速原型开发和多种RAG技术的实验。
      • 多维度评估:评估模块评估生成结果的准确性,还能评估检索结果的相关性和生成内容的忠实度(Faithfulness)和相关性(Relevancy)。

    RAG-FiT的项目地址

    RAG-FiT的应用场景

    • 问答系统:基于检索外部知识库增强语言模型,为用户提供更准确、更相关的答案,适用于医学、法律等专业领域。
    • 文本生成:结合最新背景信息生成高质量文本,如新闻报道、创意写作,提升内容的时效性和准确性。
    • 知识图谱增强:检索知识图谱中的实体和关系,生成与图谱一致的文本,提高知识表示的准确性和可解释性。
    • 多语言生成:跨语言检索知识库,生成多语言文本,满足多语言环境下的内容生成需求。
    • 文档摘要:检索文档关键信息生成摘要,提高摘要的准确性和信息覆盖率,适用于科研、商业等领域。
  • Chatbox AI – 开源的AI客户端助手,支持多种主流AI模型

    Chatbox AI是什么

    Chatbox AI是开源的跨平台AI客户端应用和智能助手,支持 Windows、Mac、Linux、iOS、Android 和网页版,集成多种先进的语言模型(如 ChatGPT、DeepSeek、Claude、Google Gemini Pro 等),支持本地模型(如 Llama2、Mistral 等)。Chatbox AI提供丰富的功能,包括本地数据存储、图像生成(Dall-E-3)、代码高亮、Markdown 和 LaTeX 支持、多语言交互、团队协作等。Chatbox AI基于 GPLv3 开源许可,用户能定制功能、参与社区贡献。

    Chatbox AI

    Chatbox AI的主要功能

    • 多语言模型支持:兼容多种主流 AI 模型,如 ChatGPT、Claude、Google Gemini Pro、Ollama 等,满足不同场景需求。
    • 本地数据存储:所有聊天记录和数据存储在本地设备上,确保隐私和安全,避免数据泄露风险。
    • 图像生成:集成 Dall-E-3,支持基于文字描述生成图像,将创意转化为视觉作品。
    • 代码辅助:支持代码生成、语法高亮、代码审查、优化等功能,帮助开发者提高编程效率。
    • 文档交互:支持与 PDF、Word、Excel 等文档交互,提取内容并提供智能回复。
    • 联网搜索:实时联网搜索,获取最新信息,支持内容摘要和事实核查。
    • Markdown 和 LaTeX 支持:适合学术写作和技术文档,支持格式化文本和复杂公式。
    • 跨平台使用:支持 Windows、Mac、Linux、iOS、Android 和网页版,随时随地使用。
    • 多语言支持:支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。
    • 团队协作:支持团队共享 API 资源,提升协作效率。

    如何使用Chatbox AI

    • 下载与安装:访问Chatbox AI的官方网站GitHub仓库,根据设备类型,选择合适的版本进行下载和安装。
    • 配置 API 密钥
      • 使用特定的 AI 模型(如 OpenAI 的 GPT 系列),需要配置 API 密钥。
      • 注册并登录相关 AI 服务提供商的平台(如 OpenAI、Anthropic 等),获取 API 密钥。
      • 在设置中找到 API 密钥配置选项,填入 API 密钥和接口地址。
    • 选择语言模型:在主界面或设置中选择使用的语言模型(如 GPT-3.5、Claude、Google Gemini Pro 等)。根据需要调整模型的参数(如上下文长度等)。
    • 开始使用:在主界面的输入框中输入问题或指令,系统自动生成回复。
    • Prompt 调试:用 Chatbox AI 提供的 Prompt 管理工具,保存和复用常用的 Prompt,基于调试工具优化 Prompt,获得更好的回复效果。

    Chatbox AI的独特优势

    • 开源与社区支持:用户能自由查看、修改和扩展代码,用户不仅能获取技术支持,还能基于社区反馈推动功能改进和新功能的开发。
    • 本地部署与数据隐私:所有聊天记录和Prompt都保存在本地,确保用户数据的隐私和安全,避免因网络问题或第三方存储导致的数据泄露风险。
    • 灵活性与扩展性:Chatbox AI支持多种大语言模型,用户根据需求选择最适合的模型,根据需求开发自定义插件,进一步扩展Chatbox的功能,打造专属的AI助手。
    • 免费与低成本:Chatbox AI本身是免费的,相比ChatGPT Plus的固定收费,Chatbox按量付费,使用成本更低,适合个人用户和小团队。

    Chatbox AI的应用场景

    • 办公效率提升:快速生成和编辑文档,如报告、邮件、会议纪要等,节省时间。
    • 学习辅助:帮助学生解答学术问题,涵盖多学科,提升学习效率。
    • 代码生成:快速生成代码片段、函数或完整脚本,支持多种编程语言,提高开发效率。
    • 图像生成:基于文字描述生成高质量图像,激发创意。
    • 信息查询:实时联网搜索,获取最新信息,解答日常问题。
  • Open Deep Research – Deep Research开源复现版智能体,支持切换多种语言模型

    Open Deep Research是什么

    Open Deep Research 是开源的 AI 智能体,是Deep Research开源复现项目,基于推理大量网络数据完成复杂的多步骤研究任务。Open Deep Research使用 Firecrawl 的搜索和提取功能,不依赖 OpenAI 的 o3 微调模型。Open Deep Research支持多种语言模型(如 OpenAI、Anthropic、Cohere 等),提供统一的 API 和 Next.js 应用框架,具备实时数据输入、结构化数据提取、服务器端渲染等功能。

    Open Deep Research

    Open Deep Research的主要功能

    • 数据提取与搜索
      • Firecrawl集成:实时从多个网站获取数据,将其结构化处理,为后续推理提供基础信息。
      • 多源数据整合:从不同类型的网页中提取关键信息,支持多种数据格式,确保数据的多样性和丰富性。
    • 推理与分析
      • AI推理引擎:基于强大的推理模型(如OpenAI的GPT-4o或其他LLM),对提取的数据进行深度分析和推理,生成综合性的结论。
      • 多维度分析:对数据进行多维度的分析,包括文本内容理解、数据关联分析、趋势预测等。

    Open Deep Research的技术原理

    • 数据提取与搜索技术
      • Firecrawl:基于Firecrawl快速从多个网站抓取数据,模拟浏览器行为,访问目标网站并提取网页内容,将其结构化处理为JSON或其他格式。
      • 实时数据流:提取的数据基于API实时传输到AI模型中,确保分析的时效性。
    • AI推理模型
      • 语言模型:基于先进的语言模型(如OpenAI的GPT系列)作为核心推理引擎。
      • 模型调用:基于AI SDK,用户灵活调用不同的语言模型,根据需求选择合适的模型进行推理。
    • 前端与后端集成
      • Next.js框架:Next.js作为前端框架,结合React Server Components和Server Actions,实现高效的服务器端渲染和动态用户界面。
      • API接口:基于AI SDK提供的统一API接口,前端能方便地调用后端的AI模型和服务。
    • 数据持久化与存储
      • Vercel Postgres:用Vercel Postgres作为数据库,支持结构化数据的存储和查询。
      • Vercel Blob:用在存储文件数据,支持大文件的高效存储和访问。

    Open Deep Research的项目地址

    Open Deep Research的应用场景

    • 文献综述:帮助研究人员快速收集和整理相关领域的文献资料,生成文献综述报告。
    • 行业分析:快速收集和分析特定行业的市场动态、竞争格局、发展趋势等信息,生成行业分析报告。
    • 投资研究:分析公司财务报表、行业动态、市场情绪等信息,为投资决策提供数据支持。
    • 政策研究:收集和分析国内外相关政策、法规和案例,为政策制定提供参考。
    • 新闻报道:快速收集和整理新闻事件的相关信息,生成新闻报道初稿。
  • Gemini 2.0 Pro – 谷歌推出的高性能多模态AI模型

    Gemini 2.0 Pro是什么

    Gemini 2.0 Pro是Google推出的高性能实验版AI模型,专为编程性能和复杂提示处理优化。Gemini 2.0 Pro具备200万tokens的超大上下文窗口,能处理和分析海量信息,支持调用Google搜索和代码执行等工具,增强理解和推理能力。Gemini 2.0 Pro在处理复杂问题和编程任务方面表现出色,是目前Google发布的最强模型之一。Gemini 2.0 Pro目前向Google AI Studio和Vertex AI的开发者以及桌面和移动设备上的Gemini高级用户开放,有望进一步提升多模态交互能力。

    Gemini 2.0 Pro

    Gemini 2.0 Pro的主要功能

    • 强大的编程性能:Gemini 2.0 Pro在编程任务方面表现出色,能生成高质量的代码片段、修复代码错误、优化代码结构,提供代码补全建议。且支持多种编程语言,帮助开发者提高开发效率。
    • 处理复杂提示:支持理解和生成复杂的自然语言文本,处理多步推理任务、逻辑推理和创造性写作,适合需要深度理解和生成高质量文本的场景。
    • 超大上下文窗口:Gemini 2.0 Pro拥有200万tokens的上下文窗口,支持处理和分析海量信息,适合处理长文本、复杂文档和多任务场景。
    • 工具调用能力:支持调用外部工具,如Google搜索和代码执行环境,增强其信息获取和问题解决能力,例如实时查询最新信息或验证代码逻辑。
    • 多模态输入支持:Gemini 2.0 Pro支持多模态输入(如文本、图像等),并输出文本结果,未来将扩展更多模态功能。

    Gemini 2.0 Pro的性能表现

    对比 Gemini 1.5 Flash、1.5 Pro、2.0 Flash-Lite、2.0 Flash 和 2.0 Pro Experimental在多个基准测试中的性能表现。

    • 综合表现:在所有测试类别中排名第一。
    • 具体测试表现
      • 编码能力:在LiveCodeBench测试中达到36.0%,Bird-SQL转换准确率突破59.3%,表现出色。
      • 数学能力:在MATH测试中达到91.8%,相比1.5版本提升了约5个百分点。
      • 推理能力:GPQA推理能力达到64.7%,SimpleQA世界知识测试达到44.3%。
      • 多语言理解:Global MMLU测试达86.5%,图像理解MMMU达72.7%,视频分析能力达71.9%。
      • 上下文窗口:支持200k的上下文窗口,能处理大量信息。
      • 工具调用:支持调用Google搜索和代码执行等工具,进一步增强了在复杂任务中的表现。
    • Gemini 2.0 Flash:拥有更高的速率限制、更强的性能和简化的定价。适用于高频率、大规模任务,支持100万tokens的上下文窗口,低延迟和高性能。现在支持在Google AI Studio和Vertex AI中的Gemini API构建生产级应用。
    • Gemini 2.0 Flash-Lite:Gemini 2.0系列中最具性价比的模型,性能优于1.5 Flash,保持相同的速度和成本。支持100万tokens的上下文窗口和多模态输入。
    • Gemini 2.0 Flash Thinking Experimental:现在向Gemini应用用户开放,可在桌面端和移动端APP中体验,能直接访问YouTube,搜索、地图等应用程序。

    模型全部免费使用,Gemini 2.0 Pro每天50次提问,其他都是1500次免费额度。

    Gemini 2.0 Pro的项目地址

    Gemini 2.0 Pro的应用场景

    • 编程辅助与开发:帮助开发者快速生成代码片段、优化现有代码、调试代码,提供代码执行和搜索工具的集成,适用于各种编程语言和复杂任务,显著提高开发效率。
    • 复杂任务与数据分析:数据科学家和分析师生成详细的分析报告,帮助用户快速理解和处理大量数据。
    • 学术研究与知识问答:协助研究人员整理文献、分析数据、生成研究假设和撰写论文,作为行业知识问答系统,帮助专业人士快速获取最新的学术和行业信息。
    • 教育与学习辅助:在教育领域帮助学生解答学术问题和撰写论文,适用于教育工作者和学生,提高教学和学习效率。
    • 创意与内容生成:广告文案撰写者、作家、编剧和设计师快速生成创意内容并优化创作过程。
  • OpusClip – AI视频剪辑工具,自动识别精彩片段生成社媒短视频

    OpusClip是什么

    OpusClip是AI视频剪辑工具,专为将长视频快速转换为适合社交媒体传播的短视频设计。通过先进的AI技术,能自动识别精彩片段并生成短视频,支持一键发布到TikTok、Instagram、YouTube等平台。OpusClip 提供自动字幕生成与翻译功能,支持超过20种语言,字幕准确率高达97%。具备智能人脸追踪、关键词高亮、表情符号添加等功能,能有效提升视频的吸引力。 OpusClip 的操作非常简单,用户只需上传视频,设置参数,点击“一键生成”,可快速获得多个短视频片段。

    OpusClip

    OpusClip的主要功能

    • AI 自动剪辑:OpusClip 可以分析视频内容,自动识别精彩片段并生成短视频。基于ClipAnything AI 技术能通过视觉、音频和情感线索,精准提取关键片段。
    • 多平台适配:支持将生成的短视频一键发布到 TikTok、Instagram Reels、YouTube Shorts、Facebook、LinkedIn 等多个社交媒体平台。
    • 自动字幕与翻译:支持自动生成字幕,提供超过 20 种语言的字幕翻译,字幕准确率高达 97%。
    • 品牌模板:用户可以创建和保存品牌模板,包括字体、颜色、标志和叠加位置等,确保所有视频片段保持一致的品牌风格。
    • 视频热度评分:通过 Virality Score 功能,OpusClip 可以分析视频的潜在热度,帮助用户了解哪些片段更有可能走红。
    • 智能人脸追踪:能预测移动的人脸,确保人物始终处于视频画面的中心。
    • 关键词高亮与表情符号:自动高亮关键词并添加相关表情符号,增加视频的吸引力。
    • 团队协作功能:支持团队账户,方便团队成员协作和管理创意项目。
    • 专业导出选项:OpusClip 支持将视频导出为 XML 文件,可以在 Adobe Premiere Pro 或 DaVinci Resolve 等专业编辑工具中进行进一步编辑。

    OpusClip的官网地址

    OpusClip的应用场景

    • 社交媒体内容生产:OpusClip 适合用于制作适合 Instagram、TikTok、YouTube 等平台的短视频。用户可以从长视频中提炼出精彩片段,快速制作并分享到社交媒体上,增加粉丝互动和热度。
    • 营销和广告:企业或品牌可以从产品介绍或广告拍摄中快速提取出吸引人的片段,用于营销推广。OpusClip 能帮助用户快速制作出具有吸引力的短视频广告,提高品牌知名度和销售额。
    • 教育和培训:教育工作者可以从冗长的讲座或培训视频中提取出关键点,制作出教学摘要或复习材料。有助于学生快速掌握核心知识,提高学习效果。
    • 新闻媒体:可以快速将新闻报道或访谈视频剪辑成适合社交媒体传播的短视频,突出关键信息,吸引观众关注。
    • 播客和音频内容:可以用 OpusClip 从剧集中提取亮点,转化为引人入胜的短视频,推广完整剧集,增加可见性并吸引新听众。