Category: AI专栏

  • AI周刊丨本周不可错过的AI行业动态(5.19-5.25)

    本篇内容,带你快速了解本周AI热点资讯

     

    01. AI大事件

     

    Google I/O 2025 开发者大会,从研究到现实,AI技术全面升级

    Google I/O 2025 大会宣布多项进展。

    • Gemini 2.5 Pro模型在LMArena排行榜首位,性能卓越。
    • 推出Google Beam视频通信平台,提供沉浸式3D体验。
    • Gemini Live整合Project Astra功能,Agent Mode助力任务执行。
    • 个性化智能回复将推出,AI Mode重塑搜索体验。
    • 全新Imagen 4生成细节超逼真。
    • Veo 3首次实现音视频融合。凭借其逼真的场景、可控的角色一致性、声音合成及多样的编辑功能,在AI视频生成领域树立了新的标杆。
     

    Anthropic发布史上最强AI模型Claude 4

    Anthropic发布Claude 4模型 (包括Claude Opus 4和Claude Sonnet 4)。

    该模型被誉为“史上最强AI模型”及“世界最佳编程模型”,具备分析数千数据源长时间执行任务编写接近人类水平内容复杂操作的能力。

    它采用了全新的混合推理架构,能在SWE-Bench Verified测试中取得72.5%成绩,Terminal-bench测试中取得43.2%成绩,并具备长达7小时的持续工作能力。

     

    OpenAI最大收购,65亿美元拿下苹果前高管Jony Ive公司io

    OpenAI宣布以约65亿美元收购由CEO Sam Altman与前苹果首席设计官Jony Ive联合创办的AI设备初创公司io。

    这笔收购将是OpenAI史上最大一笔交易,预计夏季完成,需监管部门批准。

    收购后,OpenAI将获得约55名顶尖硬件工程师、软件开发者和制造专家,包括多位曾参与iPhone设计的前苹果设计师。

     

    微软Build 2025大会:拥抱MCP协议,引入xAI大模型

    微软在Build 2025大会上宣布全面支持模型上下文协议(MCP),并与GitHub共同加入MCP指导委员会,推动开放标准落地。其智能体方案已覆盖超过23万家机构。

    同时,微软公司宣布把埃隆·马斯克的xAI公司的Grok 3和Grok 3 mini人工智能模型引入Azure AI Foundry平台,作为微软在公司云平台内直接托管和收费的新产品。

     

    OpenAI等科技巨头将在阿联酋建设人工智能基础设施集群

    OpenAI、英伟达等科技巨头将携手合作,在阿拉伯联合酋长国建设一座名为“星际之门阿联酋”(Stargate UAE)的人工智能基础设施集群。

    这一项目是OpenAI、软银和甲骨文今年1月宣布在美国建设人工智能基础设施计划的姊妹项目,预计第一阶段的200兆瓦人工智能“集群”将于2026年投入使用。

     

    02. 新产品发布

     

    豆包上线视频通话功能:支持实时视频问答互动

    豆包App实时通话功能升级,支持视频聊天问答。

    本次升级基于视觉推理模型,支持联网搜索,工作、生活和学习遇到问题,随时和豆包视频对话。

    该功能具有实时场景理解能力,通过摄像头捕捉用户周围环境,结合问题进行智能分析。从日常生活到专业工作,多场景适用。

     

    混元游戏:首个工业级AIGC游戏内容生产引擎发布

    腾讯混元游戏视觉生成平台正式发布。是首个工业级AIGC游戏内容生产引擎,依托混元大模型打造,可大幅提升游戏资产生成与制作效率。

    平台面向游戏美术设计师提供AI美术管线、实时画布、AI 2D美术生成、专业角色多视图生成等核心功能,助力设计师快速生成高质量游戏素材与概念草案,将游戏美术设计效率提升数十倍。

     

    美团推出零代码AI应用开发平台 NoCode

    美团推出零代码AI应用开发平台NoCode,无需编程经验,通过自然语言描述即可快速生成网站页面、实用工具、小游戏等应用。

    平台具备自然语言编程、实时预览、局部修改及一键部署分享等功能,支持版本管理,可实时渲染页面。

     

    Flowith 推出 Agent Neo

    Flowith推出Agent Neo,具备无限步骤、无限上下文、无限工具的核心能力,可执行复杂任务、处理海量信息并调用多种大模型与工具。

    结合知识库功能,能快速构建数字分身或生成高质量内容。

     

    腾讯 QQ 浏览器推出 QBot AI 浏览器

    腾讯正式推出AI浏览器QBot,融合了先进的人工智能技术,为用户提供更智能、便捷的上网体验。

    具备智能搜索、内容推荐、语言翻译等多种功能,能根据用户的浏览习惯和偏好提供个性化的服务。

     

    OpenAI 扩展 Responses API:支持MCP、图像生成

    OpenAI宣布扩展Responses API,新增对远程连接MCP服务器、图像生成(gpt-image-1模型)、Code Interpreter及文件搜索优化等功能的支持,全面适配GPT-4o系列、GPT-4.1系列及OpenAI o系列推理模型。

    开发者可通过几行代码让模型连接Cloudflare等MCP工具,访问用户数据源。

    昆仑万维发布天工超级智能体

    昆仑万维面向全球发布天工超级智能体(Skywork Super Agents),采用AI agent架构和deep research技术,能生成文档、PPT、表格、网页、播客和音视频等多模态内容。

    其deep research能力在GAIA榜单上排名全球第一,超过OpenAI Deep ResearchManus

     

    万兴科技Filmora升级AI功能

    万兴科技旗下视频创意软件Wondershare Filmora作为微软全球开发者大会主论坛合作伙伴亮相。

    桌面端升级AI Mate(视频编辑助手)功能、Semantic Search(语义搜索)及knowledge retrieval(知识检索)API,打造基于自然语言搜索与RAG(检索增强生成)的视频剪辑体验,还实现了产品在不同硬件芯片上的AI功能性能提升和AI能力的本地化运行升级。

     

    IBM企业级AI智能体平台watsonx Orchestrate落地

    IBM强调AI进入“落地马拉松”,重点支持企业自定义智能体规模化应用,发布watsonx Orchestrate平台,基于开源模型,支持复杂工作流自动化,已与Adobe、AWS、Microsoft等集成。

     

    PPIO推出企业私有化部署解决方案

    全球AI基础设施服务商PPIO派欧云正式推出针对大语言模型的企业私有化部署解决方案,通过“专用GPU集群 + 完全托管”模式,为企业构建自主可控的高性能AI部署平台,致力于让企业以更低的成本、更高的效率实现AI应用规模化落地。

    其他动态

    OpenAI Operator升级为 o3 模型 :浏览器交互更稳定、推理更精准,支持填写表单与网页操作任务。

    特斯拉展示 Optimus 人形机器人做家务的能力,如扔垃圾、扫地、炒菜等。

    北京大学正式上线全球首个覆盖“读文献-做计算-做实验-多学科协同”的AI科研平台——Science Navigator

    京东工业在上海发布行业首个以供应链为核心的工业大模型——Joy industrial。通过“工业大模型+供应链场景应用”双引擎,构建从底层算力、算法、数据到应用的全栈产品矩阵,助力产业降本、增效、合规、保供。

    英伟达CEO黄仁勋在Computex 2025大会上推出下一代Grace Blackwell GB300 AI服务器系统,基于升级版Blackwell芯片,推理性能提升1.5倍,HBM内存增加1.5倍,网络能力翻倍。

    火山引擎推出豆包·语音播客模型,具有低成本、高时效、强互动的特点。

    英特尔在Computex 2025发布面向专业人士的全新英特尔锐炫™ Pro B系列GPU(B60和B50),基于Xe2架构,专为AI推理和专业工作站设计。同时提供Gaudi 3 AI加速器PCIe卡和机架级系统新部署方案。

    GIGABYTE在COMPUTEX 2025展示升级版GIGAPOD GPU集群(支持AMD Instinct MI325X、NVIDIA HGX H200)、全球首秀GIGAPOD直接液冷(DLC)解决方案、符合OCP标准的多种服务器以及面向边缘AI的Jetson Orin嵌入式系统及集成NPU的BRIX迷你PC。

    Intel显卡携手蓝戟推出GUNNIR Intel Arc Pro B60 TF 24G专业级显卡,该产品搭载Xe2微架构、24GB大显存,直击AI开发、深度学习、三维影视渲染等高负载场景的算力痛点。

    英特尔在GitHub发布AI Assistant Builder公开测试版,这是一个轻量级开放软件框架,用于在英特尔AI PC上本地构建和运行自定义AI代理。

     

    03. 开源项目

     

    Mistral 发布编程专用 开源AI 模型 Devstral

    Mistral AI与All Hands AI合作推出240亿参数的AI模型Devstral,专为高级软件工程任务设计,处于“研究预览”阶段,以Apache 2.0许可发布,可商用。

    Devstral在SWE-Bench Verified基准测试中得分46.8%,超越部分闭源模型。能在单张RTX 4090显卡或32GB RAM的Mac上运行,降低硬件门槛。

     

    微软研究院推出 Magentic-UI,以人为中心的AI智能体研究原型

    微软研究院发布Magentic-UI研究原型,是以人为中心的AI智能体,通过网页浏览器实时协助用户完成复杂网络任务。

    基于Magentic-One多智能体系统,由AutoGen框架驱动,具备协同规划、协同任务、行为防护和计划学习四大核心功能。

    韩国Kakao推出4种开源Kanana语言模型

    Kakao在开发者平台 “Hugging Face” 上将其自主开发的人工智能(AI)模型 “Kanana 8B” 和 “Kanana 2.1B” 作为开源发布,共推出四种型号,基于Apache 2.0许可证,任何人都可对其进行自由修改和商用。

    相较于今年2月推出的 “Kanana Nano 2.1B” 模型,此次发布的模型性能有明显改进。

    西北大学科研团队发布自动识别与量化动物个体行为的开源AI框架

    西北大学郭松涛团队基于行为学的分析原理,利用人工智能技术,设计了自动识别与量化动物个体行为的开源AI框架,可广泛应用于圈养动物日常活动规律监测和关键行为异常预警、野生动物行为数据分析研究等领域。

    VS Code宣布GitHub Copilot Chat扩展开源

    Visual Studio Code官方团队宣布,GitHub Copilot Chat扩展将以MIT协议开源,并将关键AI能力重构入VS Code核心代码,强化社区协作和AI编辑器开发透明度。

    Hugging Face开源Open Computer Agent (OCA)

    Hugging Face宣布开源Open Computer Agent (OCA),设计用于虚拟Linux环境自动化任务执行,支持开发者和研究人员定制复杂任务流。

    NVIDIA开源物理AI数据集

    NVIDIA发布全新技术,其中包括开源物理AI数据集,包含用于开发GR00T N模型的24,000条高质量人形机器人运动轨迹数据。

    B站团队开源动漫视频生成模型Index-AniSora

    B站团队开源动漫视频生成模型Index-AniSora。模型可一键创建多种动漫风格视频片段,涵盖系列剧集、中国原创动画、漫画改编等。

    AniSora拥有超1000万高质量数据,引入时空掩码模块,支持图生视频、帧插值等关键功能。评测数据集包含948段多样化动画视频,人物与运动一致性均达SOTA。

     

    04. 投资融资

     

    Persist AI完成1200万美元A轮融资

    Persist AI宣布完成1200万美元A轮融资,旨在通过“云实验室”加速药物配方开发。

    清华系具身大脑公司「千诀科技」累计融资数亿规模

    清华系具身智能技术公司「千诀科技」完成新一轮Pre-A+轮融资,累计融资数亿元,投资方包括钧山投资、祥峰投资和石溪资本等。本轮融资将用于核心技术演进、产品标准化及产业化交付能力提升。

    公司由清华大学自动化系及相关人工智能研究机构的核心成员创立,是国内唯一可对标美国Physical Intelligence公司的企业。

    魔法原子再获数亿元融资,将解锁千个落地场景

    具身智能机器人公司魔法原子完成新一轮数亿元战略融资,投资方包括禾创致远、芯联资本等产业资本及华映资本等财务投资人。

    新资金将用于核心技术研发、VLA模型搭建及加速机器人在工业、商业场景落地。

    魔法原子旗下人形机器人“小麦”已进驻工厂产线实训,在商场门店、会展服务、新闻传媒等场景展开实践。

    面壁智能获新一轮数亿元融资,引领端侧大模型高效发展与应用普及

    面壁智能完成新一轮数亿元融资,由洪泰基金、国中资本、清控金信和茅台基金联合投资。

    面壁智能专注于打造高效大模型,端侧全模态模型面壁小钢炮MiniCPM-o 2.6多项能力达国际领先水平,系列模型全平台下载量累计破1000万。

    面壁智能发布了业界首个智能座舱纯端侧汽车助手cpmGO,与多家车企合作实现量产车型定点。

    美图公司与阿里巴巴达成战略合作并获得 2.5 亿美元投资

    美图公司宣布与阿里巴巴达成战略合作并获得2.5亿美元可转债投资。

    协议为期3年,年利率1%,阿里巴巴可按每股6.00港元的价格将可转债转换为美图股票。

    双方将在电商平台、AI技术、云计算等领域展开合作,阿里巴巴将优先推广美图AI电商工具,协助美图开发电商生图及生视频工具,提升商家营销和运营效率。

    尚跃智能完成新一轮战略型股权融资

    尚跃智能科技和国智领航(北京)信息科技研究院完成战略股权融资,本轮融资由国智领航(北京)信息科技研究院发起。

    战略融资将主要用于推进人工智能通识教育。

    光帆科技获得1.3亿人民币天使+融资

    北京光帆科技有限公司获得1.3亿人民币天使+融资,参与投资的机构包括Shokz韶音科技、同歌创投等,投后估值5亿人民币。

    光帆科技是一家基于硬件产品的AI应用服务商。

    谷歌收购AI聊天机器人公司相关情况受美国司法部调查

    美国司法部正在调查Alphabet旗下谷歌,审查其与一家热门聊天机器人公司Character.AI的人工智能技术使用协议是否违反了反垄断法。

    根据去年与谷歌达成的协议,Character.AI的创始人加入了谷歌,同时谷歌也获得了使用该公司技术的非独占性许可。

    OpenAI员工股权捐赠受阻

    CNBC在5月23日报道称,因公司股权结构特殊,OpenAI员工难以将所持股权捐赠给慈善机构,引发员工不满。

     

    05. 观点洞察

     

    金融业AI应用与变革流畅性

    艾扬斯最近的一项调查发现,报告指出90%欧洲金融服务企业已用AI,但“变革流畅性”而非技术本身是生存关键。需通过共创变革、容忍试错将AI创新转化为增长。

    Elon Musk论AI芯片、电力瓶颈与创新

    马斯克在CNBC采访中表示,目前AI瓶颈是芯片,很快转向电力,预测2026年中可能电力不足。他认为创新需要质疑权威,是美国优势所在。

    原文链接:AI周刊丨本周不可错过的AI行业动态(5.19-5.25)

  • AI周刊丨本周不可错过的AI行业动态(5.12-5.18)

    本篇内容,带你快速了解本周(5.12-5.18)AI热点资讯

     

    01. AI大事件

     

    清华大学成立全球首家AI医院

    中国成立全球首家由42名人工智能医生组成的AI医院,由清华大学智能产业研究院开发,整合21项医疗科室尖端技术。

    未来将构建“AI+医疗+教育+科研”生态闭环,促进优质医疗资源的高效扩容与均衡布局,致力于让更多人享有可负担、可持续的高质量医疗服务。

     

    中央网信办启动“清朗·整治AI技术滥用”第二阶段行动

    中央网信办启动“清朗·整治AI技术滥用”第二阶段行动。

    第二阶段聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容,假冒他人、从事网络水军活动等突出问题,集中清理相关违法不良信息,处置处罚违规账号、MCN机构和网站平台。

     

    美国商务部废除拜登签署的《AI扩散规则》,并要求全球不准使用华为AI芯片

    美国商务部宣布废除拜登签署的《AI扩散规则》,计划推出更简化规则,新增对华为昇腾AI芯片的全球使用禁令。

    原规则分级制度复杂,引发科技巨头反对,新规则以双边协议替代分级,强化供应链管控。

    这一政策调整利好美国科技企业,中东市场获得芯片进口新机会,中国则持续受压。

     

    谷歌发布AlphaEvolve能发明新算法、改进芯片设计、解疑难数学题

    谷歌DeepMind团队推出基于Gemini驱动的通用科学人工智能AlphaEvolve。

    用Gemini Flash和Gemini Pro两种模型,基于进化框架不断改进最有潜力的算法。

    AlphaEvolve在数据中心调度、硬件设计、AI训练和复杂数学问题解决等领域取得显著成果:

    • 在数据中心调度上,能让谷歌的计算资源回收0.7%;
    • 在硬件设计上,优化了TPU的电路,让芯片更节能;
    • AlphaEvolve 改进了矩阵乘法分割成子问题的方法,将Geimini的总训练时间缩短1%,运行速度还提高了23%;
    • 在数学领域的50个多公开问题测试中,75%的情况下AlphaEvolve重新发现了迄今为止的最佳解决方案。其中包含了困扰了数学界300年的「接吻数难题」,还颠覆了56年前Strassen算法神话。

    从此,AI不再仅仅是解决现有问题,还能发现新的前沿领域。

    AlphaEvolve

     

    02. 新产品发布

     

    腾讯混元图像2.0发布,体验“毫秒级”AI图像生成

    腾讯发布业内首个毫秒级响应的实时生图大模型——混元图像2.0,实现边输入文字边生成图像,生图质量提升明显。

     

    全球首个专业设计Agent——Lovart一句话完成全链路设计和执行

    Lovart 是 LiblibAI 为设计师打造的世界上首个专业设计 Agent。

    Lovart 能像专业设计师一样思考和执行设计任务,提供高水平的设计方案。

    仅需一句话即可完成从创意拆解到专业交付的整个视觉流程,单次可执行上百步,最多产出40张设计成品图;图像、视频、音乐自由调度,集成多种前沿AI模型。

     

    OpenAI推出Codex编程智能体

    OpenAI推出基于云端的AI智能体Codex,专注自动化软件开发,支持并行处理编码、修复错误等任务。

    Codex基于codex-1模型,目前以研究预览形式在ChatGPT平台上线,Pro、Enterprise和Team用户可率先体验。

    其他动态

    QwenChat正式上线网页开发功能,用户只需输入一句自然语言指令,可生成结构清晰、风格美观的网站页面代码,支持直接预览。

    Kimi与小红书达成最新合作,用户可通过小红书官方账号@Kimi智能助手 进入Kimiai对话,并一键生成笔记。

    快手推出AI作图工具Poify,包括AI模特试衣、换背景、一键抠图、局部重绘等功能,赋能电商领域创意与转化。

    OpenAI升级ChatGPT AI聊天机器人GPT-4.1编程专家模型登场。GPT-4.1能精确遵循指令,避免冗长输出,相比GPT-4o效率更高、输出更稳定,整体性能更优。

    Manus宣布全面开放注册,用户每天可免费执行一项任务。随后推出图像生成Agent功能,可调用多种工具协同工作

    MiniMax悄悄推出manus产品,通用 AI 智能体平台MiniMax Agent能高效便捷地处理多种任务,如生成音频、市场研究、文档验证、旅行规划、社交媒体分析、专利识别、投资策略分析以及创意内容创作等。

    MiniMax发布TTS系统 MiniMax Speech 02,AI语音的Her Moment,能够轻松驾驭32种语言、不同口音、不同情绪的人声。

    清言上线智能体社区,用户可以创作者直接对话,发帖交流。app支持微信文件一键导入。

    ChatGPT深度研究新增导出为 PDF 功能,可保留报告格式,另外,还新增了GitHub连接器,进一步拓展ChatGPT在代码管理和写作方面的应用能力。

    Notion推出AI会议笔记AI Meeting Notes,能实时转录会议内容,在会议结束后自动生成包含关键摘要、用户笔记对比和行动项的完整纪要。

    通义千问上新Deep Research!基于Qwen模型,融合多种能力,可规划复杂研究任务,结合互联网海量信息,多步骤搜索分析总结,十几分钟生成详尽报告,附清晰引用来源。

    问小白学术搜索来了,功能搭载DeepSeek R1/V3、Qwen3等模型,可检索海量权威文献。

    Windsurf推出专为软件工程设计的AI模型系列:SWE-1、SWE-1-lite和SWE-1-mini。涵盖代码生成、测试、调试、资料查找等开发环节,提升开发效率和用户体验。

    新迪数字发布新迪天工CAD 2025、新迪天工云CAD 2025、新迪3D轻量化引擎2025三款产品,将AI技术深度融入三维设计软件。

    INAIR发布智能新品——INAIR AI空间计算机,计划6月正式发售,搭载系统级AI助手,支持多窗口同台显示和跨设备接入。

     

    03. 开源项目

     

    阿里巴巴开源通义万相Wan2.1 – VACE模型,一款模型搞定多种视频编辑任务

    阿里巴巴正式开源通义万相「Wan2.1-VACE」,支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等全系列基础生成和编辑能力。

    昆仑万维正式开源Matrix-Game:从图像出发构建可控交互世界

    昆仑万维开源Matrix-Game大模型,是工业界首个开源的10B+空间智能大模型,它是一个专为游戏世界建模的交互式世界基础模型。

    Matrix-Game

    字节跳动开源8B代码模型Seed-Coder,助力高效编程

    字节跳动开源8B代码模型Seed-Coder,包含Base、Instruct和Reasoning三个版本,分别适用于代码补全、指令遵循和复杂推理任务。

    多模态上新,阶跃星辰开源3D大模型

    阶跃星辰正式发布并开源 3D 大模型——Step1X-3D,总参数量达4.8B,由几何模块1.3B和纹理模块3.5B组成,可生成高保真、可控的3D内容。

    Step1X-3D

     

    04. 投资融资

     

    美团独投A轮,自变量机器人「具身智能」公司已融资超10亿

    自变量机器人最近完成了由美团领投,美团龙珠跟投的数亿元A轮融资。从成立到现在不到一年半,它已经完成7轮融资,累计融资金额超10亿元。这次融资将用于加速模型与机器人本体迭代及智慧化方案落地。

    具身智能新锐「灵御智能」完成千万级种子轮融资,英诺天使基金领投

    国内具身智能企业“灵御智能”宣布完成千万级种子轮融资,本轮融资由英诺天使基金领投,水木校友种子基金、远镜创投跟投。灵御智能由清华大学自动化系团队创立,推动机器人在工业制造与家庭服务等领域的广泛应用。

    「傲意科技」完成近亿元B++轮融资,第二代灵巧手即将上市

    「傲意科技」近期已完成近亿元B++轮融资。本轮融资由英飞尼迪资本、浙江省国有资本运营有限公司旗下浙江省发展资产经营有限公司、沃美达资本共同投资,升氪剂资本担任长期财务顾问。本轮资金将用于灵巧手技术研发、新产品上市、产能建设和市场拓展。

    中科紫东太初完成首轮数亿元融资

    中科紫东太初(北京)科技有限公司宣布完成首轮数亿元融资,由中科创星领投,多家投资机构跟投,资金用于多模态人工智能技术研发与应用,同时加强在“AI+”领域的产业布局。

    谷歌成立AI创投基金

    谷歌成立AI创投基金——“AI未来基金”,投资初创企业。被选定的初创公司可获投资、谷歌旗下AI大模型早期使用权及专业团队指导。

    AI人工智能ETF获融资净买入

    AI人工智能ETF(512930.SH)融资净买入778.39万元,居全市场第一梯队,近5个交易日有3天获融资净买入。

     

    05. 观点洞察

     

    AI推理模型具备自主生成知识潜力

    OpenAI高级模型开发负责人Jakub Pachocki认为,AI推理模型正展现出自主生成知识的潜力,本世纪末AI自主研究将取得实质性进展,今年内可能出现近乎自主的软件开发系统。

    AI投资将推动结构性融资

    高盛集团的史蒂文·莫菲特和约翰·格林伍德认为,企业为AI相关项目寻求大量资金,催生了结构性融资市场的融资需求,未来将有更多企业受益于这一融资工具。

    维基百科公布新 AI 战略:利用 AI 提升志愿者时间利用效率,而非取代人工

    维基媒体基金会公布新AI战略,强调利用AI辅助百科编辑工作,提升志愿者时间利用效率,而非取代人工。该战略通过AI自动化繁琐任务,如为版主和巡查员提供辅助工作流支持,提高信息可发现性,自动翻译和改编内容,以及扩大新志愿者入职培训规模。
    原文链接:AI周刊丨本周不可错过的AI行业动态(5.12-5.18)
  • 《2024年中国人工智能产业研究报告》(PDF文件)- AI教程资料

    《2024年中国人工智能产业研究报告》,深入剖析中国AI产业在2024年的发展状况、趋势及挑战。报告指出,2024年国家高度重视AI技术发展,纳入国家战略,各地政府纷纷出台支持政策,推动技术创新与产业生态建设。2024年中国AI产业规模达2697亿元,增速26.2%,略低于预期,主要因大模型在实际业务场景中的表现未完全满足客户需求且建设成本较高。随着DeepSeek等开源模型的出现,助力中国AI产业向高效、开放和自主的方向迈进。报告分析大模型对算力产业的影响、基础层工具产品的发展、模型层开源创新对商业化实践的推动等,强调构建面向新一代AI的安全治理体系的重要性。

    2024年中国人工智能产业研究报告

    获取《2024年中国人工智能产业研究报告》 PDF原文件,扫码关注回复: 20250328

    中国大模型产业宏观环境

    • 中国人工智能产业政策环境:国家高度重视人工智能发展,出台一系列政策推动技术创新、资源建设、标准建立与行业应用。各地政府积极响应,因地制宜出台特色政策,推动AI产业生态形成。
    • 中国人工智能产业经济环境:2024年GDP增速放缓,CPI低位运行,AI技术作为新质生产力,展现出广阔发展前景。经济形势对AI产业的发展既带来挑战,提供机遇。

    2024年中国人工智能产业研究报告

    • 中国人工智能产业资本环境:资本市场持续关注人工智能,投资重点聚焦于语言与多模态模型应用、芯片、算力服务等领域。基础层与应用层协同发展,产业生态不断完善。
    • 中国人工智能产业社会环境:生成式AI的普及加速市场教育,公众接受度显著提升,就业替代、隐私安全等问题引发一定焦虑。
    • 中国人工智能产业技术环境:Transformer架构主导大模型发展,研发基于强化学习、思维链优化提升模型推理能力,加速跨模态融合,在推理效率优化和新型注意力机制等方面持续探索。

    2024年中国人工智能产业研究报告

    中国大模型产业价值总览

    • 中国人工智能产业图谱:涵盖AI基础层(算力基础、数据基础、算法基础)、技术层(机器学习、计算机视觉、智能语音等)及应用层(AI+泛安防、金融、政务等),展示大模型层与工具层的构成。
    • 中国人工智能产业规模:2024年中国AI产业规模为2697亿元,增速26.2%,略低于预期。预计2025至2029年中国AI产业将保持32.1%的年均复合增长率,2029年突破1万亿的市场规模。

    2024年中国人工智能产业研究报告

    • 大模型对算力产业位置影响分析:2024年部分地区智算中心出现闲置,随着推理应用爆发,推理侧算力需求大幅上涨,智算中心利用率有望逐步提高。
    • 大模型带动基础层工具产品售卖:分布式AI框架、LLMOps平台和一体机产品等不断发展,深度融合软硬件优势,加速大模型的训练与部署。

    2024年中国人工智能产业研究报告

    • 模型层开源创新推动商业化实践:开源模型如DeepSeek基于创新的模型结构和训练任务优化,大幅降低训练和推理成本,推动大模型的商业化实践。
    • 应用厂商侧“跑马圈地”态势渐起:应用层的产品表现成为竞争焦点,价格与流量成为核心竞争策略,大模型实践更加定制化及产品化。
    • B端大模型商业化进程:B端大模型商业化以项目制为主,2024年中标项目数量和金额快速增长,主要集中在政务、教科、通信与能源等领域,科大讯飞、百度等为主力中标厂商。2025年初,DeepSeek开源模型推动B端产业生态合作。

    2024年中国人工智能产业研究报告

    • C端AI产品生态位分析:2024年C端AI产品发展迅速,涵盖内容创作、智能对话、情感陪伴等,主要基于“免费+订阅制”模式,用户黏性不足,产品形态和生态壁垒尚未稳定,市场竞争激烈。
    • 深层产品洞察AI Coding:AI Coding产品基于自动生成代码提升开发者效率,降低编程门槛。2024年相关技术取得突破,推动产品从辅助性向自主性演进,未来有望实现从自然语言需求到软件开发交付的端到端实现。
    • 深层产品洞察AI硬件:2024年AI成为手机、电脑等硬件的卖点,推动端侧AI发展。AI硬件产品涵盖AI工具终端、教育陪伴、可穿戴设备等,未来有望出现全新端侧设备,拓展AI硬件的可能性。

    2024年中国人工智能产业研究报告

    中国大模型产业商业进程

    • 语音模态:产品形态以AI语音解决方案和AI生成为主,语音识别与生成能力持续增强,重点关注端到端的语音大模型技术架构。
    • 视觉模态:集中于机器视觉与生成类赛道,Transformer架构为技术主旋律,产品定位清晰,功能为出发点分别面向G端、大B、中小B、C端市场。

    2024年中国人工智能产业研究报告

    • 语言模态及多模态:多模态架构仍会侧重在生成或理解的单一路径,未来期待技术深度融合。以大语言模型为技术基础的AI产品多在大厂射程内,尤其是C端领域生态。
    • AI产品商业模式解析:AI产品变现路径暂以项目制与订阅制为主流,新产品或伴随新商业模式。
    • AI产品出海化尝试:出海成为企业扩市场扩营收的关键性策略,产品方向主要集中在AI图像/视频、AI社交/情感陪伴等领域。

    2024年中国人工智能产业研究报告

    中国大模型产业实践案例

    • 字节跳动:提供企业一站式大模型与AI原生应用开发及服务平台,顶层应用种类丰富,融合多模态交互与生态协同技术,提供个性化智能服务与高效体验。

    2024年中国人工智能产业研究报告

    • 阿里邮箱:服务百万企业,国内领先的企业邮箱产品,细分场景接入AI,自动化能力发挥邮箱业务价值。
    • DeepSeek:专注于大模型底层技术研发,其通用模型和推理模型达到业界领先水平,采取开源策略,基于工程优化与算法创新突破模型的性能与成本瓶颈。

    2024年中国人工智能产业研究报告

    中国大模型产业发展趋势

    • AI Agent的进阶:模型能力、工具生态、市场需求协同共振,持续推动Agent的通用性演进,向复杂任务持续演进,加速走向“决策-执行-反思”的自主闭环能力顶点。

    2024年中国人工智能产业研究报告

    • 物理AI的演进:作为融合数字智能与物理世界的桥梁,物理AI正成为下一代AI竞争高地,需解决硬件加速和软件优化、跨行业生态协作等一系列挑战。
    • DeepSeek的产业价值:推动技术普惠与平权,加速大模型向产业端和消费端的应用渗透,重构了技术扩散的路径,促进人工智能在应用层面的落地。
    • 人工智能安全治理体系的构建:安全是产业发展的红线,需构建面向新一代人工智能的治理框架,从技术、商业、法律、伦理等多个层面协同发力,确保人工智能的安全发展。

    2024年中国人工智能产业研究报告

    获取《2024年中国人工智能产业研究报告》 PDF原文件,扫码关注回复: 20250328

  • a16z深入详解 MCP 和 AI 工具的未来

    自 OpenAI 于 2023 年发布函数调用以来,一直在思考如何才能解锁代理和工具使用的生态系统。随着基础模型变得更加智能,代理与外部工具、数据和 API 交互的能力变得越来越分散:开发人员需要为代理运行和集成的每个系统实现具有特殊业务逻辑的代理。  显然,需要有一个用于执行、数据获取和工具调用的标准接口。API是互联网的第一个伟大统一器——为软件通信创建了一种共享语言——但人工智能模型缺乏同等的东西。

    模型上下文协议 (MCP) 于 2024 年 11 月推出,作为一种潜在的解决方案,在开发者和 AI 社区中获得了极大的关注。在这篇文章中,我们将探讨什么是 MCP、它如何改变 AI 与工具交互的方式、开发者已经用它构建了什么以及仍需解决的挑战。

    什么是MCP

    MCP 是一种开放协议,支持系统以跨集成通用的方式向 AI 模型提供上下文。协议定义了 AI 模型如何调用外部工具、获取数据以及与服务交互。下面是一个具体示例,展示了 Resend MCP 服务器如何与多个 MCP 客户端协同工作。

    MCP 的灵感来自于 LSP(语言服务器协议)。在 LSP 中,当用户在编辑器中输入内容时,客户端会查询语言服务器以自动完成建议或诊断。

    MCP 超越 LSP 的地方在于其以代理为中心的执行模型:LSP 主要是被动的(根据用户输入响应来自 IDE 的请求),而 MCP 旨在支持自主 AI 工作流。根据上下文,AI 代理可以决定使用哪些工具、以什么顺序使用以及如何将它们链接在一起以完成任务。MCP还引入了人机交互功能,以便人类提供额外的数据并批准执行。

    热门流行用例

    通过正确的 MCP 服务器,用户可以将每个 MCP 客户端变成“万能应用程序”。

    以 Cursor 为例:虽然 Cursor 是一个代码编辑器,但它也是一个实现良好的 MCP 客户端。最终用户可以使用Slack MCP 服务器将其转变为 Slack 客户端,使用Resend MCP 服务器将其转变为电子邮件发送器,使用Replicate MCP 服务器将其转变为图像生成器。利用 MCP 的更强大方法是在一个客户端上安装多个服务器以解锁新流程:用户可以安装服务器以从 Cursor 生成前端 UI,还可以要求代理使用图像生成 MCP 服务器为网站生成英雄图像。

    除了 Cursor 之外,当今大多数用例可以归纳为以开发为中心、本地优先的工作流程,或使用 LLM 客户端的全新体验。

    以开发为中心的工作流程

    对于每天生活在代码中的开发人员来说,一个普遍的感受是“我不想离开 IDE 去做x ”。MCP 服务器是实现这一梦想的绝佳方式。

    开发人员现在无需切换到 Supabase 来检查数据库状态,而是可以使用Postgres MCP 服务器执行只读 SQL 命令,使用Upstash MCP 服务器直接从 IDE 创建和管理缓存索引。在迭代代码时,开发人员还可以利用Browsertools MCP让编码代理访问实时环境以进行反馈和调试。

    这是 Cursor 代理如何使用 Browsertools 访问控制台日志和其他实时数据并更有效地进行调试的示例。

    除了与开发人员工具交互的工作流程之外,MCP 服务器解锁的新用途是能够通过抓取网页或根据文档自动生成 MCP 服务器,为编码代理添加高度准确的上下文。开发人员无需手动连接集成,可以直接从现有文档或 API 启动 MCP 服务器,使 AI 代理可以立即访问工具。这意味着花在样板上的时间更少,实际使用工具的时间更多——无论是提取实时上下文、执行命令,还是动态扩展 AI 助手的功能。

    全新体验

    尽管像 Cursor 这样的 IDE 因 MCP 对技术用户的强烈吸引力而受到最多关注,但它们并不是唯一可用的 MCP 客户端。对于非技术用户来说,Claude Desktop 是一个极好的切入点,它使 MCP 驱动的工具对普通用户来说更容易获得和使用。很快,我们可能会看到专门的 MCP 客户端出现,用于以业务为中心的任务,例如客户支持、营销文案、设计和图像编辑,因为这些领域与 AI 在模式识别和创意任务方面的优势密切相关。

    MCP 客户端的设计及其支持的特定交互在塑造其功能方面起着至关重要的作用。例如,聊天应用程序不太可能包含矢量渲染画布,就像设计工具不太可能提供在远程机器上执行代码的功能一样。最终,MCP 客户端体验决定了整体 MCP 用户体验——在 MCP 客户端体验方面,我们还有更多东西需要解锁。

    其中一个例子是 Highlight 如何实现@ 命令来调用其客户端上的任何 MCP 服务器。结果是一种新的 UX 模式,其中 MCP 客户端可以将生成的内容传输到任何选择的下游应用中。

    Highlight 实现 Notion MCP(插件)的一个例子。

    另一个例子是Blender MCP 服务器用例:现在,几乎不了解 Blender 的业余用户可以使用自然语言来描述他们想要构建的模型。随着社区为 Unity 和 Unreal 引擎等其他工具实现服务器,我们看到文本到 3D 的工作流程正在实时展开。

    将 Claude Desktop 与Blender MCP 服务器结合使用的示例。

    尽管我们主要考虑服务器和客户端,但随着协议的发展,MCP 生态系统正在逐渐成形。该市场地图涵盖了当今最活跃的领域,尽管仍有许多空白。我们知道 MCP 仍处于早期阶段,我们很高兴随着市场的发展和成熟,将更多参与者添加到地图中。

    在 MCP 客户端方面,我们目前看到的大多数高质量客户端都是以代码为中心的。这并不奇怪,因为开发人员通常是新技术的早期采用者,但随着协议的成熟,我们期望看到更多以业务为中心的客户端。

    我们看到的大多数 MCP 服务器都是本地优先的,专注于单人游戏。这是 MCP 目前仅支持基于 SSE 和命令的连接的表现。但是,随着生态系统使远程 MCP 成为一流,并且 MCP 采用可流式 HTTP 传输,我们预计会看到更多 MCP 服务器的采用。

    还有新一波 MCP 市场和服务器托管解决方案的出现,使 MCP 服务器发现成为可能。Mintlify的mcpt、Smithery和OpenTools等市场让开发人员更容易发现、共享和贡献新的 MCP 服务器——就像 npm 如何改变 JavaScript 的包管理或 RapidAPI 如何扩展 API 发现一样。这一层对于标准化对高质量 MCP 服务器的访问至关重要,允许 AI 代理根据需要动态选择和集成工具。

    随着 MCP 的采用率不断提高,基础设施和工具将在使生态系统更具可扩展性、可靠性和可访问性方面发挥关键作用。Mintlify 、Stainless和Speakeasy等服务器生成工具正在减少创建 MCP 兼容服务的摩擦,而 Cloudflare 和Smithery等托管解决方案正在解决部署和扩展挑战。与此同时,Toolbase等连接管理平台开始简化本地优先的 MCP 密钥管理和代理。

    未来的可能性

    我们仅处于代理原生架构演进的早期阶段。尽管如今 MCP 令人兴奋不已,但使用 MCP 进行构建和交付时仍存在许多未解决的问题。

    协议的下一次迭代中需要解锁的一些内容包括:

    托管和多租户

    MCP 支持 AI 代理与其工具之间的一对多关系,但多租户架构(例如 SaaS 产品)需要支持多个用户同时访问共享 MCP 服务器。默认拥有远程服务器可能是让 MCP 服务器更易于访问的短期解决方案,但许多企业也希望托管自己的 MCP 服务器以及单独的数据和控制平面。

    用于支持大规模 MCP 服务器部署和维护的简化工具链是可以实现更广泛采用的下一个部分。

    验证

    MCP 目前尚未定义客户端与服务器进行身份验证的标准身份验证机制,也没有提供 MCP 服务器在与第三方 API 交互时应如何安全地管理和委托身份验证的框架。身份验证目前由各个实现和部署方案决定。实际上,到目前为止,MCP 的采用似乎集中在本地集成上,而这些集成并不总是需要显式身份验证。

    更好的身份验证范例可能是远程 MCP 采用的一大优势。从开发人员的角度来看,统一方法应涵盖:

    • 客户端身份验证:用于客户端与服务器交互的标准方法,例如 OAuth 或 API 令牌
    • 工具身份验证:用于使用第三方 API 进行身份验证的辅助函数或包装器
    • 多用户身份验证:针对企业部署的租户感知身份验证

    授权

    即使工具经过了身份验证,谁应该被允许使用它,他们的权限应该有多细?MCP 缺乏内置的权限模型,因此访问控制处于会话级别——意味着工具要么可访问,要么完全受限。虽然未来的授权机制可以形成更细粒度的控制,但当前的方法依赖于基于 OAuth 2.1 的授权流程,该流程在经过身份验证后授予会话范围的访问权限。随着更多代理和工具的引入,这会带来额外的复杂性——每个代理通常都需要具有唯一授权凭据的自己的会话,从而导致基于会话的访问管理网络不断增长。

    网关

    随着 MCP 的采用规模不断扩大,网关可以充当身份验证、授权、流量管理和工具选择的集中层。与 API 网关类似,它将强制执行访问控制、将请求路由到正确的 MCP 服务器、处理负载平衡并缓存响应以提高效率。对于多租户环境尤其重要,因为不同的用户和代理需要不同的权限。标准化网关将简化客户端与服务器之间的交互、提高安全性并提供更好的可观察性,使 MCP 部署更具可扩展性和可管理性。

    MCP 服务器的可发现性和可用性

    目前,查找和设置 MCP 服务器是一个手动过程,需要开发人员定位端点或脚本、配置身份验证并确保服务器和客户端之间的兼容性。集成新服务器非常耗时,而且 AI 代理无法动态发现或适应可用的服务器。

    不过,根据Anthropic上个月在 AI 工程师会议上的演讲, MCP 服务器注册和发现协议似乎即将问世。可能会开启 MCP 服务器的下一阶段应用。

    执行环境

    大多数 AI 工作流都需要按顺序调用多个工具——但 MCP 缺乏内置的工作流概念来管理这些步骤。要求每个客户端都实现可恢复性和可重试性并不理想。尽管今天我们看到开发人员正在探索Inngest等解决方案来实现这一点,但将有状态执行提升为一流概念将为大多数开发人员理清执行模型。

    标准客户端体验

    我们从开发者社区听到的一个常见问题是,在构建 MCP 客户端时如何考虑工具选择:每个人都需要为工具实现自己的 RAG,还是有一个等待标准化的层?

    除了工具选择之外,调用工具也没有统一的 UI/UX 模式(我们已经看到了从斜线命令到纯自然语言的各种模式)。用于工具发现、排名和执行的标准客户端层可以帮助创建更可预测的开发人员和用户体验。

    调试

    MCP 服务器的开发人员经常发现,很难让同一个 MCP 服务器轻松地跨客户端运行。通常,每个 MCP 客户端都有自己的怪癖,客户端跟踪要么缺失,要么很难找到,这使得调试 MCP 服务器成为一项极其困难的任务。随着世界开始构建更多远程优先的 MCP 服务器,需要一套新的工具来使本地和远程环境中的开发体验更加简化。

    AI工具的影响

    MCP 的开发体验让我想起了 2010 年代的 API 开发。这种模式新颖而令人兴奋,但工具链还处于早期阶段。如果我们快进到几年后,如果 MCP 成为 AI 驱动工作流程的事实标准,会发生什么?一些预测:

    • 开发优先型公司的竞争优势将从提供最佳 API 设计发展到为代理商提供最佳工具集合。如果 MCP 能够自主发现工具,那么 API 和 SDK 提供商将需要确保他们的工具易于通过搜索找到,并且具有足够的差异性,以便代理商选择特定任务。这可能比人类开发人员寻找的更加细致和具体。
    • 如果每个应用程序都成为 MCP 客户端,每个 API 都成为 MCP 服务器,那么可能会出现一种新的定价模式:代理可以根据速度、成本和相关性等因素更加动态地选择工具。这可能会导致一个更加以市场为导向的工具采用过程,即选择性能最佳、模块化程度最高的工具,而不是采用最广泛的工具。
    • 文档将成为 MCP 基础设施的关键部分,因为公司需要设计具有清晰、机器可读格式(例如llms.txt)的工具和 API,并使 MCP 服务器成为基于现有文档的事实上的工件。
    • 仅使用 API 已远远不够,但可以成为很好的起点。开发人员会发现,从 API 到工具的映射很少是 1:1。工具是一种更高级的抽象,在执行任务时对代理来说最有意义——代理可以选择包含多个 API 调用的 draft_email_and_send() 函数,而不是简单地调用 send_email(),以最大限度地减少延迟。MCP 服务器设计将以场景和用例为中心,而不是以 API 为中心。
    • 如果每个软件都默认成为 MCP 客户端,那么将会出现一种新的托管模式,因为工作负载特征与传统网站托管不同。每个客户端本质上都是多步骤的,并且需要执行保证,例如可恢复性、重试和长时间运行的任务管理。托管提供商还需要在不同的 MCP 服务器之间进行实时负载平衡,以优化成本、延迟和性能,让 AI 代理能够在任何给定时刻选择最有效的工具。

    未来

    MCP 正在重塑 AI 代理生态系统,下一波进步将取决于我们如何应对基础挑战。如果做得好,MCP 可以成为 AI 与工具交互的默认界面,开启新一代自主、多模式和深度集成的 AI 体验。

    如果被广泛采用,MCP 可以代表工具构建、使用和货币化方式的转变。我们很高兴看到市场将它们带向何方。今年将是关键的一年:我们会看到统一的 MCP 市场崛起吗?身份验证对于 AI 代理来说会变得无缝吗?多步骤执行可以正式纳入协议吗?

    原文链接:https://a16z.com/a-deep-dive-into-mcp-and-the-future-of-ai-tooling/

  • 《2024年移动端AI应用场景研究报告》(PDF文件) – AI教程资料

    《2024年移动端AI应用场景研究报告》。全面分析了全球和中国人工智能市场的现状与发展趋势,重点关注移动端AI应用的市场格局、用户行为、应用场景以及未来发展方向。2024年移动端AI市场呈现明显的分化趋势,语言模型类应用占据主导地位,豆包、Kimi智能助手和文小言等应用表现突出。智能伴聊、图像处理和智能工具等细分赛道也在快速发展,用户需求加速向移动端迁移。报告深入分析了移动端AI应用的用户画像,包括用户对AI的认知度、使用场景、付费意愿以及使用反馈等。

    获取《2024年移动端AI应用场景研究报告》 PDF原文件,扫码关注回复: 20250226

    AI市场概览

    • 全球AI市场概览:全球AI市场规模持续扩大,预计2027年将迎来普适AI时代。中美成为产业引领者,推动AI技术、产品和应用的多轮驱动发展。

    • 人工智能产业结构对比:对比美国和中国在AI应用、基础大模型、云基础设施和芯片等方面的产业占比。
    • 中美AI发展对比:展示中美在AI独角兽企业数量、AI企业数量、大模型数量等方面的占比,并预测全球生成式AI市场规模的增长趋势。
    • 中国AI产业概览:中国AI产业从百模大战向应用驱动转型,本土化大模型加速落地,推动AI应用生态发展。介绍国内主要AI企业及软件产品,包括传统互联网企业、传统AI企业和AI初创企业的代表性产品。

    移动端AI市场研究

    • 移动端AI赛道流量增长强劲:2024年移动端AI月独立设备数翻番,人均月度使用时长持续攀升,市场接受度显著提升。
    • 用户画像:移动端AI应用整体用户分析:分析移动端AI应用的核心用户特征,包括性别、年龄、消费能力、城市级别和人群标签等。

    • 用户对AI的认知度及信息获取渠道:用户对AI的认知度不断提升,社交媒体和工作学习是主要信息来源。用户接触AI的时间和使用契机也有所分析。
    • 用户行为:移动端AI产品带来的反馈与使用契机:分析移动端AI应用在提升工作效率、辅助搜索、提供准确资料等方面的作用,以及用户开始使用AI的场景和功能吸引力。
    • 用户行为:移动端AI应用使用技巧:用户常用的AI应用使用技巧,如知乎式提问、迭代优化等,以及用户对个性化使用和AI应用基本原理的兴趣。

    • 用户付费:移动端AI应用付费意愿、付费区间和方式:分析用户对移动端AI应用的付费意愿、付费区间和付费方式,如免费基础版+增值服务、按月订阅模式等。
    • 用户付费:用户看重的影响购买决策因素:用户在购买移动端AI应用服务时最看重的因素,如使用便捷性、功能多样性、数据隐私保护等。

    • 用户付费:对高级功能的认知及付费意愿:用户对移动端AI高级功能的认知,如专家助手、云端协同等,以及对高级功能的付费意愿。
    • 使用反馈:移动端AI应用使用中遇到的问题:用户对移动端AI应用的整体满意度,以及使用中遇到的问题,如回答不准确、对话不自然等,需要改进的地方包括与办公软件集成、生成内容准确度等。

    移动端AI细分赛道研究

    • 移动端AI应用领域:整体概况:2024年11月移动互联网AI细分赛道数据显示,语言模型应用最受欢迎,活跃用户和使用时长领先。

    • 移动端AI应用:语言模型细分赛道用户行为情况:分析语言模型类应用的用户行为,如豆包、Kimi智能助手、文小言等应用的活跃用户规模和增长趋势,以及用户对这些应用的核心功能需求。
    • 移动端AI应用:智能伴聊细分赛道用户行为情况:智能伴聊类应用用户需求快速增长,星野APP凭借创新的AI社交体验脱颖而出,用户对泛娱乐类应用关注度更高。

    • 移动端AI应用:图像处理细分赛道用户行为情况:图像处理领域用户黏性持续增强,无界AI、图趣AI等头部应用通过差异化功能满足用户需求,细分赛道流量具备增长潜力。
    • 移动端AI应用:智能工具细分赛道用户行为情况:智能工具类赛道用户基数虽小但增长迅速,腾讯元宝等头部互联网企业推出的产品满足用户需求。

    移动端AI应用场景研究

    • 移动端AI应用主要使用场景:分析用户在生活、工作学习、娱乐休闲和亲子教育四大场景中使用移动端AI产品的比例和时间占比。
    • 移动端AI应用主要场景用户画像:展示不同场景下用户的性别、学历、城市等级、收入、职业等特征,如亲子教育场景中高学历人群和高收入人群占比显著。

    • 移动端AI应用使用周期、频率和时长:分析用户在各场景中使用移动端AI应用的周期、频率和单次使用时长,如亲子场景的使用频率更高。
    • 移动端AI应用主要场景使用体验:用户对移动端AI应用的整体评价,以及在不同场景中最认可和最有用的功能,如与办公软件协同、娱乐休闲功能等。

    • 移动端AI应用付费意愿:用户在不同场景下的付费意愿,包括愿意支付的月度费用、付费模式,以及对数据安全保护、专业内容生成等功能的付费意愿。

    AI应用未来展望

    • 技术创新驱动用户体验升级与场景深度融合:随着算法和模型改进,AI回答准确性和对话自然度提升,本地化AI能力增强,隐私保护和响应速度提升,生活和工作学习场景逐渐深化,办公软件协同能力完善,个人专家助手和云端协同功能丰富化,针对高学历用户的垂直领域应用普及,优化教育和办公等专业场景服务,提供一站式解决方案。

    • 商业模式创新与价值提升,细分赛道差异化发展:语言模型、智能伴聊、图像处理等细分赛道通过差异化商业模式和创新服务,实现持续分化发展,如轻量级订阅服务、专业内容生成优化、免费试用+付费进阶等模式。

    • AI应用生态系统完善与普及,市场释放增长潜力:中国AI软件市场规模持续扩大,用户规模增速高,新一线城市市场潜力大,区域服务差异缩小,用户活跃度和时长持续提升,社交媒体等核心渠道不断建设优化,用户教育体系完善,AI应用生态链逐步完善。

    获取《2024年移动端AI应用场景研究报告》 PDF原文件,扫码关注回复: 20250226

  • Anthropic《AI 经济指数报告》38页PDF(中文版)

    哪些经济任务是通过人工智能完成的?来自数百万次 Claude 对话的证据

    作者

    Kunal Handa*, Alex Tamkin*, Miles McCain, Saffron Huang, Esin Durmus

    Sarah Heck, Jared Mueller, Jerry Hong, Stuart Ritchie, Tim Belonax, Kevin K. Troy

    Dario Amodei, Jared Kaplan, Jack Clark, Deep Ganguli

    Anthropic

    摘要:

    尽管关于人工智能对未来工作影响的讨论广泛存在,但我们缺乏关于这些系统如何被用于不同任务的系统性实证证据。本文提出了一个用于衡量经济中人工智能使用模式的新框架。我们利用一个最近的隐私保护系统,分析了超过四百万次 Claude.ai 对话,通过美国劳工部 O*NET 数据库中的任务和职业视角进行分析。我们的分析发现,人工智能的使用主要集中在软件开发和写作任务上,这两者加起来几乎占了所有总使用量的一半。然而,人工智能的使用在经济中更为广泛,约 36% 的职业在其至少四分之一的任务中使用人工智能。我们还分析了人工智能如何被用于任务,发现 57% 的使用表明增强人类能力(例如,学习或迭代输出),而 43% 表明自动化(例如,以最少的人类参与完成请求)。尽管我们的数据和方法面临重要限制,且仅描绘了一个平台上的人工智能使用情况,但它们提供了一种自动化、细致的方法,用于跟踪人工智能在经济中不断演变的角色,并识别这些技术继续进步时对未来的潜在影响。

    获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取

    1. 引言

    人工智能的快速发展对劳动力市场的演变提出了深远的含义。尽管预测和准备这些变化至关重要,但我们缺乏关于人工智能系统如何被整合到经济中的系统性实证证据。现有的方法——无论是开发预测模型 ,还是定期对用户进行调查——都无法跟踪人工智能能力的进步与它们在经济中直接、实际使用之间的动态关系。

    在此,我们提出了一个用于衡量经济中不同任务的人工智能使用的全新实证框架,基于对 Claude.ai 上数百万次真实对话的隐私保护分析。通过将这些对话映射到美国劳工部 O*NET 数据库中的职业类别,我们不仅可以识别当前的使用模式,还可以发现哪些经济领域可能在这些技术继续进步时最受影响的早期迹象。

    我们利用这个框架做出了五个关键贡献:

    1. 提供了首次大规模实证测量,揭示了哪些任务在经济中看到了人工智能的使用(见图1、图2和图3)。我们的分析发现,在软件工程角色(例如软件工程师、数据科学家、生物信息学技术员)的任务中,以及需要大量写作能力的职业(例如技术作家、文案撰写人、档案管理员)和分析角色(例如数据科学家)中,人工智能的使用率最高。相反,涉及对环境进行物理操作的职业(例如麻醉师、建筑工人)的任务目前显示出极少的使用。

    2. 量化了职业内部人工智能使用的深度(见图4)。只有大约4%的职业在其至少75%的任务中使用人工智能,这表明在某些角色中可能存在深度任务级的使用。更广泛地,大约36%的职业在其至少25%的任务中使用人工智能,表明人工智能已经开始扩散到相当一部分劳动力的任务组合中。

    3. 测量了在人类与人工智能对话中哪些职业技能最具代表性(见图5)。认知技能,如阅读理解、写作和批判性思维,显示出较高的存在率,而物理技能(例如安装、设备维护)和管理技能(例如谈判)显示出极小的存在率——反映了人类与当前人工智能能力的明显互补性。

    4. 分析了工资和入职门槛与人工智能使用之间的相关性(见图6和表2)。我们发现,人工智能使用在工资分布的上四分位数达到峰值,但在工资分布的两端都下降。大多数高使用量职业集中在上四分位数,主要对应软件行业职位,而高工资职业(例如医生)和低工资职位(例如餐厅工作人员)显示出相对较低的使用量。这种模式可能反映了当前人工智能能力的限制,以及这些角色固有的物理操作要求,或者两者兼有。对于入职门槛,也出现了类似的模式,使用量在需要相当准备的职业(例如学士学位)中达到峰值,而不是在需要极少或广泛培训的职业中。

    5. 评估了人们是否使用 Claude 来自动化或增强任务(见图7)。我们发现,57%的互动显示出增强模式(例如,对任务进行来回迭代),而43%显示出以自动化为重点的使用(例如,直接执行任务)。尽管这一比例在不同职业中有所不同,但大多数职业在任务中表现出自动化和增强的混合,表明人工智能既是一个效率工具,也是一个协作伙伴。

    我们的方法提供了一种自动化、细致且基于实证的方法,用于跟踪人工智能使用模式,随着人工智能能力和社会使用的发展而演变。这种对新兴趋势的早期可见性为政策制定者和民间社会提供了应对人工智能如何改变工作方式的关键提前时间。然而,我们承认存在多个关键限制(在第4.1节中讨论);例如,我们的使用数据无法揭示 Claude 的输出在实践中是如何被使用的,我们依赖 O*NET 的静态职业描述意味着我们无法考虑人工智能可能创造的全新任务或职业。

    尽管如此,这个框架为理解人工智能对经济的不断演变的影响提供了一个基础。尽管我们的方法并不完美,但它们提供了一种系统性的方式来跟踪使用模式,并识别不同部门经济影响的早期指标。随着人工智能能力和采用的继续进步,我们相信这种实证测量对于理解和准备技术的更广泛的经济影响至关重要。

    2. 背景与相关工作

    我们的研究建立在多条试图建模、衡量和预测人工智能对经济影响的研究线路上。

    经济基础和基于任务的框架 大量经济学文献提出了理论模型,以理解自动化对劳动力市场的影响。最著名的是, 主张通过离散任务的视角来建模劳动力市场,这些任务可以由人类工人或机器完成——例如,调试代码或理发。基于这个框架,Autor [2015] 表明,尽管技术自动化了一些任务,但它们通常会在其他任务中增强人类能力,因为人类和机器之间存在互补性,从而导致对劳动力的需求增加。此外,Acemoglu 和 Restrepo [2018] 使用这个框架探索了一个模型,其中自动化技术可以创造全新的任务,而不仅仅是取代旧任务。

    预测人工智能对劳动力市场的影响 另一分支的研究利用基于任务的框架来预测自动化在未来经济中的普遍程度,通常基于美国劳工部提供的 ONET 职业信息数据库中对任务和职业的描述。例如,Frey 和 Osborne [2017] 将高斯过程分类器应用于 70 个标记职业的数据集,以预测哪些职业容易受到计算机化的威胁。Brynjolfsson et al. [2018a] 聘请人类标注者对 ONET 数据库中的 2069 个详细工作领域进行评级,特别关注它们被机器学习执行的潜力。Webb [2019] 分析了专利文件与工作描述之间的重叠,以预测任务对人工智能的“暴露”程度,发现高教育、高工资职业的暴露程度最高——这一模式部分反映在我们的实证使用数据中,尽管我们发现在中高工资职业中使用量最高,而不是在最高工资水平的职业中。

    人工智能实际使用的真实世界研究 为了补充这些基于人类或机器判断的预测,另一些研究试图收集具体数据,以了解人工智能目前在劳动力市场中的采用情况。例如,2023 年末的研究发现,丹麦暴露职业中有一半的工人使用过 ChatGPT,估计它可以将大约三分之一的任务工作时间减半,而 2024 年 8 月的一项后续研究发现,39% 的美国工作年龄成年人使用过生成式人工智能,其中约四分之一的人每周都在使用 [Bick et al., 2024]。此外,进一步的研究试图衡量这种使用的广度和深度,发现生成式人工智能工具对广泛个体领域的生产力有积极影响,包括软件工程、写作 、客户服务、咨询、翻译 、法律分析和数据科学。

    我们通过结合这些独立的方法,进行了首次对先进人工智能系统如何被用于经济中的任务和职业的全面分析。我们基于任务框架,但与预测潜在影响(职业对人工智能的“暴露”)不同,我们使用 Clio  测量真实世界的使用模式,这是一个最近的系统,能够对主要模型提供商上的数百万次人类模型对话进行隐私保护分析。这使我们能够补充特定领域人工智能生产力效应的对照研究,提供一个全面的视角,了解人工智能如何被整合到经济中的工作。我们的方法能够动态跟踪这些模式,随着人工智能能力和社会采用的演变,揭示当前的使用趋势以及未来扩散的早期迹象。

    3. 方法与分析

    为了了解人工智能系统如何被用于不同的经济任务,我们利用 Clio ,这是一个分析工具,使用 Claude 从数百万次人类模型对话中提供聚合的见解。我们使用 Clio 对对话进行分类,涵盖职业任务、技能和互动模式,揭示这些不同类别的分布。所有分析都基于 2024 年 12 月和 2025 年 1 月期间收集的对话数据。更多细节和提示见附录 B、E 和 F,包括验证我们数据集的组成以及如何在类别数量较多时(例如 O*NET 任务)进行分类。

    3.1 人工智能使用情况的任务级分析

    使用 Clio 对 100 万次 Claude.ai Free 和 Pro 对话的数据集进行分析,我们将每次互动映射到 ONET 数据库中最相关的任务类别。由于 ONET 中有近 20000 个独特的任务陈述,我们使用 Clio 创建了一个任务的分层树,并通过遍历树来进行分配。尽管一个对话通常可以映射到多个有效任务,但我们在将单个对话映射到多个任务时,观察到定性结果非常相似。我们还在附录 B 中提供了更多细节和分析,包括我们如何将对话映射到任务(附录 B.1)、层次创建过程(附录 B.1)、我们对对话级和账户级数据获得类似结果的事实(附录 B.2),以及我们对数据集组成的验证(附录 B.7)。此外,我们讨论了人类对我们任务层次分类的验证(附录 C)以及集群级数据的结果(附录 G)。

    计算机相关任务的人工智能使用量最大,其次是教育和交流背景下的写作任务。为了理解更广泛的模式,我们根据 O*NET 的职业框架对这些任务进行分组——首先将它们映射到特定职业(如计算机网络架构师),然后映射到更广泛的职业类别(如计算机和数学职业)。图 2 展示了这些职业类别的分布,显示了每个组中出现频率最高的职业和任务,而图 3 将这些使用模式与美国劳动力的实际职业分布进行了比较。

    值得注意的是,对话的职业分类并不一定意味着用户是该领域的专业人士。例如,一些关于营养的查询可能来自营养师,但也可能来自寻求个人饮食建议的个人。这种对传统专业任务的广泛访问——即使这些帮助并不完美——可能对这些领域产生重大影响,尽管分析这些影响超出了本研究的范围。我们在第 4.1 节中进一步讨论了这些限制。

    总之,这些数据揭示了一些深刻的道理:

    • 与我们在任务层面的发现一致,计算机和数学职业显示出最高的相关人工智能使用率,占所有查询的 37.2%。相关的人工智能使用率最高,占所有查询的 37.2%。
    • 艺术、设计、娱乐、体育和媒体职业的相关人工智能使用率位居第二(10.3%)。(10.3%),这可能反映了在 Claude.ai 的查询中,市场营销、写作和其他类型的内容生成非常普遍。在 Claude.ai 的流量中,营销、写作和其他类型的内容生成非常普遍。
    • 教育类职业也有很高的比例,包括教育教学和图书馆职业,以及学科类职业。和图书馆职业,以及特定学科的职业,如生命、物理和
    • 社会科学职业。Claude.ai 流量的很大一部分属于商业相关职业: 商业和金融职业、办公室和行政支持职业以及管理职业。
    • 令人惊讶的是,需要体力劳动的职业最少,例如运输和材料搬运职业。运输和材料搬运职业;医疗保健支持职业;以及农业、渔业和林业职业、

    每个职业中有多少任务使用了人工智能?为了评估人工智能在各职业中的融合程度,我们考察了每个职业的任务中有多少出现在我们的 Clio 运行结果中。如图 4 所示,我们发现人工智能任务的使用呈现出严重的偏态分布。只有约 4%的职业在至少 75%的相关任务中使用了人工智能,例如,在外语和文学教师这一职业中(75%的任务),我们观察到人工智能被用于与同事合作解决教学问题以及规划课程内容等任务,但并未用于撰写资助申请或维护学生记录等活动。仅有约 11%的职业在一半或更多的任务中使用了人工智能,比如市场营销经理(50%的任务),我们看到人工智能被用于市场调研分析和战略制定等任务,但未用于产品规格咨询或贸易展览协调等活动。在更低的阈值下,情况有所扩大,约 36%的职业在至少四分之一的任务中使用了人工智能,比如物理治疗师(25%的任务),我们观察到人工智能被用于研究和患者教育等任务,但未用于实际治疗或家庭护理指导等活动。这种分布表明,尽管如今人工智能可能触及许多职业,但在大多数任务中的深度整合仍有待提高。目前,在任何特定职业中实现完全自动化的情况仍然很少见。如今的人工智能似乎主要用于职业中的特定任务,而非完全取代整个工作岗位。

    3.2 职业技能展示

    O*NET 数据库包含 35 种职业技能,这些技能确定了工人在不同工作中执行任务所需的必要能力。这些技能包括批判性思维、复杂问题解决、说服力和设备维护等。我们使用 Clio 来识别与给定 Claude.ai 对话相关的模型所展示的所有职业技能,如图 5 所示。

    直观上,需要身体互动的技能,如安装、设备维护和修理,在 Claude.ai 流量中出现频率最低。相比之下,认知技能如批判性思维、阅读理解、编程和写作出现频率最高。然而,我们的分析只捕捉到技能是否在 Claude 的回应中被展示,而不是该技能是否是用户目的的核心,或者是否以专家水平执行。例如,尽管积极倾听是第二常见的技能,但这可能反映了 Claude 的默认对话行为——例如,重新表述用户输入并提出澄清问题——而不是用户专门寻求以倾听为中心的互动。

    3.3 按工资和入职门槛划分的人工智能使用情况 我们还报告了 O*NET 中另外两个职业维度的趋势:职业的中位工资和其入职门槛(即从事职业所需的准备程度)。

    工资 图 6 显示了人工智能使用情况如何随职业的中位工资而变化。我们发现,使用情况在工资分布的上四分位数中达到峰值,涉及计算机程序员和网页开发人员等计算职业。在工资分布的两端,职业的使用情况较低。例如,服务员和麻醉师(低工资和高工资职业)是数据中代表性最低的职业之一,这与我们发现需要身体互动的技能在数据中最为罕见的发现一致。

    入职门槛 O*NET 数据库中的职业被划分为 1 到 5 的工作区域,这些类别由从事给定职业所需的人类准备程度定义。需要较高教育、经验和培训水平的职业被划分为较高的工作区域。随着工作区域从 1 增加到 4,该区域在我们数据中的代表性也随之增加,达到峰值:需要相当准备的工作区域 4,通常需要四年制学士学位。然而,对于需要广泛准备的工作区域 5,代表性有所下降,其中大多数职业需要高级学位。这些结果清楚地表明,人类的入职门槛可能与语言模型的入职门槛大不相同。有关完整结果,请参阅附录 D.2 和表 2。

    3.4 自动化与增强用户 尽管前面的分析揭示了哪些任务的人工智能使用量最大,但它们并没有告诉我们人工智能是如何被用于这些任务的。经济学文献中的一个关键区别是自动化——技术取代人类劳动——与增强——技术补充并增强人类能力 。为了了解哪种模式更为普遍,我们使用 Clio 将对话分类为五种不同的协作模式(见表 1),分为自动化和增强两大类。

    在与 Claude.ai 的互动中,增强型和自动化型协作行为都存在,其中增强型对话(57%)略多于自动化型(43%)。不过,我们注意到一个重要的注意事项,即用户可能会在聊天窗口之外编辑和调整从 Claude 收到的回应,这表明实际的增强型对话比例可能更高。此外,即使是简单任务的自动化,当嵌入更广泛的人类指导工作流程中时,也可以增强人类能力。

    为了更好地理解这些协作模式在不同职业任务中的分布,我们考虑自动化与增强型行为如何在不同职业任务中有所不同:

    自动化行为 大多数指令性对话由写作和其他内容生成任务组成。在业务相关任务中,如“起草并优化专业商务电子邮件沟通”,以及学校作业相关集群中,如“解决包含计算和证明的多样化几何问题”,指令性对话的比例也很高。大多数反馈循环对话与编码和调试有关,用户反复将收到的错误反馈给模型。

    增强行为 任务迭代对话通常涉及前端开发(如“协助 Web 开发任务和 UI 改进”以及“创建和修改着陆页和关键网站组件”)以及专业沟通任务(例如“优化简历、求职信和工作申请”以及“协助专业和学术写作与沟通”)。学习对话在一般教育任务中出现频率最高,如“解释和分析戒严实施及其影响”、“提供胃肠健康和消化健康建议”以及“协助微控制器编程和嵌入式系统项目”。验证是对话量最小的类别,几乎全部集中在语言翻译任务上。

    3.5 按模型类型划分的使用模式

    随着人工智能能力的演变,了解不同模型如何被使用可以帮助预测不同经济部门的使用变化。我们通过比较两种 Claude 模型的使用模式来探索这一点:2024 年 3 月发布的 Claude 3 Opus 和 2024 年 10 月发布的 Claude 3.5 Sonnet(新)。我们的分析揭示了这些模型使用模式的明显专业化(见图 8)。与 Sonnet 相比,Opus 在创意和教育工作(例如“在电影、电视、戏剧和音乐中进行制作和表演”、“管理书籍和文档出版过程”、“设计和开发全面的教育课程和材料”以及“进行学术研究并传播发现”)中的使用量更高。这些模式与用户对 Opus 独特性格和写作风格的广泛观察一致。相比之下,Claude 3.5 Sonnet(新)更适合编码和软件开发任务(例如“开发和维护软件应用程序和网站”以及“编程和调试计算机系统和机器”),这与外部评估一致,后者强调了其相对较强的编码能力。

    通过在模型版本之间跟踪这些任务级别的使用模式,我们可以更好地了解哪些能力改进推动了不同经济部门人工智能使用的有意义变化。

    4. 讨论

    我们首次对先进人工智能系统如何被用于经济任务进行了大规模实证分析。尽管我们的工作提供了关于人工智能在经济中使用的广泛见解,但我们注意到关键限制和未来研究领域。

    4.1 限制

    数据样本 我们使用了 7 天期间的 Claude.ai Free 和 Pro 对话快照。可能我们的样本并不代表 Claude.ai 在更长时间窗口上的使用情况,而且很可能我们的样本在重要方面与其他人工智能模型提供商的 API 数据或数据不同,因为它们的模型能力、产品功能和用户基础不同。此外,Claude.ai 只输出文本,而不是其他模态。这排除了可能依赖图像或视频输出的关键潜在用户(例如时装设计师)。因此,我们的发现应被视为人工智能在劳动力市场使用情况的不完美快照,同时指出,随着更多研究人员和组织能够分享来自多样化部署环境的使用数据,更广泛的模型互动模式理解将出现。

    模型驱动分类的可靠性 我们使用 Claude 对用户对话进行分类,也可能引入潜在的不一致性,如果模型对任务的理解与 O*NET 数据库中的预期阅读不同。尽管我们进行了人类验证(附录 C),依赖于 Clio 的过去验证[^Tamkin et al., 2024^],并用集群级分析(附录 G)来证实我们的结果,但重要的是要注意,这些分类可能包含一些固有噪声。

    用户查询的复杂性不同 尽管我们努力排除与任何职业任务无关的对话(附录 B),但我们的方法没有考虑用户查询的复杂性——例如,提供基本煎蛋的说明并不表明烹饪专业知识。因此,我们可能通过将新手用户的对话分类为某些任务,高估了某些任务的使用率。

    O*NET 数据库的限制 尽管 ONET 数据库提供了对当前经济部门的宝贵见解,但其静态性质为分析人工智能对劳动力市场的影响带来了关键限制。该数据库无法捕捉人工智能系统(如 Claude)可能创造或转变的新兴任务和职业。此外,尽管 ONET 涵盖了大量的任务,但它无法包含经济中的所有任务。此外,这些任务通常以一般性措辞编写,导致在分类对话时存在固有模糊性——许多任务在多个不同职业中相似。最后,作为一个以美国为中心的分类系统,O*NET 可能会忽略其他地区的显著职业类别和任务,这可能会歪曲我们对全球 Claude.ai 使用情况的分布分析。这限制了我们的分析,因为人工智能使用模式可能因国际背景而异[^Gmyrek et al., 2023^]。

    缺乏对用户工作流程的完整上下文 尽管我们的工作分析了 Claude.ai 上的对话数据,但我们的方法无法捕捉用户如何使用 Claude.ai 对话的输出。例如,我们无法观察用户是否将代码片段复制到开发环境中,将写作建议纳入文档,对回应进行事实核查,还是将输出作为灵感而不是逐字内容。因此,判断 Claude 的输出实际上被用户在其任务中纳入的程度仍然无法实现。我们旨在为这种进一步的研究提供初步框架和发现。

    4.2 意义和未来工作

    尽管承认这些限制,我们的分析揭示了几个关于如何研究和应对人工智能经济影响的关键意义。

    与预测研究的比较 我们的实证发现既验证又挑战了之前关于人工智能对工作影响的预测。Webb 预测在工资分布的 90% 附近的职业中人工智能暴露度最高,而我们发现在中高工资职业中使用量达到峰值,而在工资分布的两端使用量较低。这种模式表明,除了技术可行性之外的因素——如实施成本、监管障碍和组织准备情况——可能正在抑制最高工资部门的采用。Eloundou et al. 预测 80% 的美国工人至少有 10% 的工作任务受到语言模型的影响;相比之下,我们的实证数据显示当前采用率为约 57% 的职业至少有 10% 的任务使用人工智能——低于预测,但随着能力提高和采用障碍减少,可能朝着他们的预测趋势发展。然而,他们对医疗保健等行业较高使用量的预测尚未在我们的数据中实现,我们观察到在科学应用中的使用量比他们预期的要高,这突显了部门特定的扩散障碍以及模型能力的意外发展的影响。这些预测与实际使用之间的差异强调了实证测量在理解人工智能不断演变的经济影响中的重要性,并表明技术可行性本身可能不足以预测人工智能将在经济中被采用的位置和方式。

    人工智能使用的动态跟踪 我们的研究提供了一个框架,用于系统地跟踪人工智能随时间融入劳动力的情况。与捕捉自我报告行为的调查不同,我们的方法揭示了在工作场所自然发生的真实人工智能使用模式,提供了更准确和细致的真正整合图景。这种能力服务于多个关键功能:它能够早期检测新兴使用模式,帮助识别接近技术拐点的部门,并揭示采用障碍可能正在导致行业间扩散不均的地方。通过监测人工智能使用的广度(跨职业)和深度(在特定角色内),政策制定者可以制定有针对性的干预措施——无论是支持显示出有希望的(或落后的)生产力提升的部门,还是解决快速自动化领域的潜在置换效应。动态测量系统为政策制定者和组织提供了应对技术转型的关键提前时间,而不是在已经发生破坏后才做出反应。

    任务级测量 我们的发现突显了在任务级别而不是工作级别分析人工智能使用的的重要性。目前,我们观察到的使用集中在特定任务(例如软件工程、内容创作)上,而不是整个职业的全面自动化。如果这种模式持续存在——人工智能只影响工作中的部分任务——这表明职业将演变而不是消失。然而,如果任务使用的广度不断增长且没有饱和迹象,这可能表明工作场所可能会发生更全面的转变。

    增强与自动化 在受影响的任务中,人工智能系统的使用方式可能差异显著。我们的分析揭示了一个重要的区别:虽然一些用户使用人工智能系统来完全自动化任务,但其他用户则将其用作增强其能力的协作工具。这种区别对工作者和生产力都很重要。当人工智能作为增强合作伙伴而不是替代品时,研究表明生产力得到了提升,同时个人在其工作中保持了有意义的参与[^Noy and Zhang, 2023^][^Peng et al., 2023^][^Cui et al., 2024^]。这些模式可以为政策优先事项提供信息——支持在明显受益的领域开发协作人工智能界面,同时为自动化更普遍的领域做好准备。

    从使用模式到更广泛的影响理解当前人工智能使用模式如何转化为更广泛的经济变化仍然是一个关键挑战。尽管我们的数据揭示了人工智能今天被使用的地方,但从这些早期使用趋势中推断长期后果提出了重大的实证挑战[^Acemoglu et al., 2022^]。例如,某些职业中高使用量可能预示着未来的生产力提升或置换效应,而人工智能使用在不同工资水平上的不均匀分布可能提供了关于人工智能如何重塑经济机会和不平等的早期迹象。尽管我们目前的结果无法明确映射这些关系,但纵向分析跟踪使用模式和结果可能有助于揭示人工智能使用推动工作场所变化的机制。

    总体而言,我们的发现表明人工智能已经在经济中的相当一部分任务中开始使用。我们为跟踪人工智能对工作不断演变的影响提供了这一初步框架,并希望与政策制定者、经济学家和其他利益相关者合作,制定能够将人工智能的好处传播到整个经济中的政策建议。

    5. 结论
    要理解人工智能如何影响经济,就需要将我们的分析基于真实世界的数据。我们对数百万次 Claude.ai 对话的分析揭示了清晰的模式:人工智能使用在软件开发和技术写作中达到峰值,约 4% 的职业在其四分之三的任务中使用人工智能,约 36% 的职业在其至少四分之一的任务中使用人工智能。使用在增强人类能力(57%)和自动化(43%)之间几乎平均分配。尽管这些模式具有信息价值,但它们只捕捉到了人工智能融入工作开始阶段。随着人工智能系统从文本扩展到处理视频、语音以及通过机器人进行物理操作,并且随着人工智能代理能够更自主地执行扩展任务,人机协作的本质将发生巨大变化。可能会围绕这些能力出现新的任务,甚至完全新的职业。动态跟踪这些变化的实证框架对于预测和准备不断演变的工作格局至关重要。未来的挑战不仅在于测量这些变化,还在于利用我们对它们的理解来帮助塑造一个更好的未来。

    6. 致谢
    感谢 Avital Balwit、Landon Goldberg、Logan Graham、Zac Hatfield-Dodds、Andrew Ho、Kamya Jagadish、Rebecca Lee、Liane Lovitt、Jennifer Martinez、Andi Peng、Ankur Rathi、Orowa Sikder、Colt Steele、Janel Thamkul 和 Meg Tong 提出的有益想法、讨论和反馈。此外,我们感谢 Jonathon Hazell、Anders Humlum、Molly Kinder、Anton Korinek、Benjamin Krause、Michael Kremer、John List、Ethan Mollick、Lilach Mollick、Arjun Ramani、Will Rinehart、Robert Seamans、Michael Webb 和 Chenzi Xu 对早期发现和论文草稿的富有成效的评论和讨论。

    参考文献

    D. Acemoglu. 《人工智能的潜在危害》. 国家经济研究局技术报告,2021.

    D. Acemoglu 和 P. Restrepo. 《人与机器之间的竞赛:对增长、要素份额和就业的影响》. 《美国经济评论》,108(6):1488–1542, 2018.

    D. Acemoglu, D. Autor, J. Hazell 和 P. Restrepo. 《人工智能与就业:来自在线职位的证据》. 《劳动经济学杂志》,40:S293 – S340, 2022.

    Anthropic. 《Claude 3 模型家族:Opus、Sonnet、Haiku》. 2024.

    D. H. Autor. 《“任务方法”对劳动力市场的概述》. 《劳动市场研究杂志》,46(3):185–199, 2013.

    D. H. Autor. 《为什么仍然有这么多工作?工作场所自动化的过去与未来》. 《经济展望杂志》,29(3):3–30, 2015.

    D. H. Autor, F. Levy 和 R. J. Murnane. 《近期技术变革的技能内容:实证探索》. 《经济学季刊》,118(4):1279–1333, 2003.

    A. Bick, A. Blandin 和 D. J. Deming. 《生成式人工智能的快速采用》. 国家经济研究局技术报告,2024.

    E. Brynjolfsson, T. Mitchell 和 D. Rock. 《机器能学什么,对职业和经济意味着什么?》. 《AEA 论文与会议记录》,108:43–47. 美国经济协会,2014 Broadway, Suite 305, Nashville, TN 37203, 2018a.

    E. Brynjolfsson, T. Mitchell 和 D. Rock. 《机器能学什么,对职业和经济意味着什么?》. 《AEA 论文与会议记录》,108:43–47, 2018b. DOI: 10.1257/pandp.20181019. URL: https://www.aeaweb.org/articles?id=10.1257/pandp.20181019.

    E. Brynjolfsson, D. Li 和 L. R. Raymond. 《工作中的生成式人工智能》. 国家经济研究局技术报告,2023.

    J. H. Choi 和 D. Schwarcz. 《法律分析中的人工智能辅助:实证研究》. SSRN 可用,2023.

    M. Comunale 和 A. Manera. 《人工智能的经济影响及其监管:学术文献和政策行动综述》. 2024.

    Z. K. Cui, M. Demirer, S. Jaffe, L. Musolff, S. Peng 和 T. Salz. 《生成式人工智能对高技能工作的影响:来自软件开发人员的三项实地实验的证据》. SSRN 可用,2024.

    F. Dell’Acqua, E. McFowland III, E. R. Mollick, H. Lifshitz-Assaf, K. Kellogg, S. Rajendran, L. Krayer, F. Candelon 和 K. R. Lakhani. 《在崎岖的技术前沿导航:人工智能对知识工作者生产力和质量影响的实地实验证据》. 哈佛商学院技术与运营管理系工作论文,(24-013), 2023.

    T. Eloundou, S. Manning, P. Mishkin 和 D. Rock. 《GPTs 是 GPTs:大型语言模型对劳动力市场影响的早期观察》,2023. URL: https://arxiv.org/abs/2303.10130.

    E. Felten, M. Raj 和 R. Seamans. 《像 ChatGPT 这样的语言模型将如何影响职业和行业?》arXiv 预印本 arXiv:2303.01157, 2023.

    C. B. Frey 和 M. A. Osborne. 《就业的未来:工作对计算机化的易感性》. 《技术预测与社会变革》,114:254–280, 2017.

    P. Gmyrek, J. Berg 和 D. Bescond. 《生成式人工智能与工作:对工作数量和质量潜在影响的全球分析》. 国际劳工组织工作论文,2023.

    A. Hering. 《Indeed 的人工智能工作报告:生成式人工智能将如何影响工作以及执行这些工作所需的技能》. Indeed Hiring Lab 研究报告,2023.

    A. Humlum 和 E. Vestergaard. 《ChatGPT 的采用》. 芝加哥大学 Becker Friedman 经济研究所技术报告,2024 年 4 月.

    A. Kilbourne-Quirk. onet-dataviz. https://github.com/adamkq/onet-dataviz, 2019. 一个用于抓取、制表和显示 O*NET 网站工作数据的项目。非商业用途。

    M. Kinder, X. de Souza Briggs, M. Muro 和 S. Liu. 《生成式人工智能、美国工人和未来的工作》. 2024 年 10 月.

    N. Maslej, L. Fattorini, R. Perrault, V. Parli, A. Reuel, E. Brynjolfsson, J. Etchemendy, K. Ligett, T. Lyons, J. Manyika, J. C. Niebles, Y. Shoham, R. Wald 和 J. Clark. 《人工智能指数报告 2024》,2024. URL: https://arxiv.org/abs/2405.19522.

    A. Merali. 《经济生产力的扩展定律:LLM 辅助翻译的实验性证据》. arXiv 预印本 arXiv:2409.02391, 2024.

    A. Mnih 和 G. Hinton. 《可扩展的层次化分布式语言模型》. 《神经信息处理系统会议录》,22nd International Conference on Neural Information Processing Systems, NIPS’08, 页码 1081–1088, Red Hook, NY, USA, 2008. Curran Associates Inc. ISBN 9781605609492.

    F. Morin 和 Y. Bengio. 《层次化概率神经网络语言模型》. 在 R. G. Cowell 和 Z. Ghahramani 编辑的《第十届人工智能与统计国际研讨会论文集》中,卷号 R5,机器学习研究进展,页码 246–252. PMLR, 06–08 Jan 2005. URL: https://proceedings.mlr.press/r5/morin05a.html. 2021 年 3 月 30 日重新发布。

    National Center for ONET Development. ONET OnLine, 2025a. URL: https://www.onetonline.org/. 访问日期:2025-01-17.

    National Center for ONET Development. ONET OnLine, 2025b. URL: https://www.onetonline.org/. 美国劳工部就业与培训管理局 (USDOL/ETA). 采用 CC BY 4.0 许可证。

    S. Noy 和 W. Zhang. 《生成式人工智能的生产力效应的实验性证据》. 《科学》,381(6654):187–192, 2023.

    S. Peng, E. Kalliamvakou, P. Cihon 和 M. Demirer. 《人工智能对开发人员生产力的影响:来自 GitHub Copilot 的证据》. arXiv 预印本 arXiv:2302.06590, 2023.

    N. Reimers 和 I. Gurevych. all-mpnet-base-v2: 基于 MPNet 的句子嵌入模型. https://huggingface.co/sentence-transformers/all-mpnet-base-v2, 2022. 基于 MPNet 的句子变换器模型,训练于超过 10 亿训练对。

    A. Tamkin, M. McCain, K. Handa, E. Durmus, L. Lovitt, A. Rathi, S. Huang, A. Mountfield, J. Hong, S. Ritchie, M. Stern, B. Clarke, L. Goldberg, T. R. Sumers, J. Mueller, W. McEachen, W. Mitchell, S. Carter, J. Clark, J. Kaplan 和 D. Ganguli. 《Clio:隐私保护下对人工智能实际使用的洞察》,2024. URL: https://arxiv.org/abs/2412.13678.

    P. Trammell 和 A. Korinek. 《变革性人工智能下的经济增长》. 国家经济研究局工作论文 31815,2023 年 10 月. URL: http://www.nber.org/papers/w31815.

    U.S. Bureau of Labor Statistics. U.S. Bureau of Labor Statistics. https://data.bls.gov/oes/#/home, 2024.

    US Census Bureau. 《美国收入:2022》. Census.gov, 2022.

    M. Webb. 《人工智能对劳动力市场的影响》. 创新经济学杂志,2019.

    E. Wiles, L. Krayer, M. Abbadi, U. Awasthi, R. Kennedy, P. Mishkin, D. Sack 和 F. Candelon. 《GenAI 作为外骨骼:知识工作者使用 GenAI 学习新技能的实验证据》. SSRN 可用,2024.

    获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取

  • DeepSeek交流纪要(字节内部原文)

    DeepSeek交流纪要

    站长推荐DeepSeek服务器繁忙怎么解决?14个免费R1满血版平替

    观点分享

    DeepSeek做的模型,和基于transformer的模型路径基本上是一致的,没有深度学习框架等的很大区别,DeepSeek核心点是在工程能力上的创新,现在做的模型一方面是理论,另一方面是工程。

    理论和工程方面,公司都盯着理论层面,字节也是一样的,市场上的模型算力有两根曲线,一个是堆叠尽可能多的算力来印证模型结构,所以字节要在海外投入500亿以上的预算,另一条曲线是业务增量。第一根曲线得到比较明确的结论是,如果要进行模型探索和验证,还是需要更多的GPU芯片,基座和AGI的探索投入时间比较长,研发路径可能会出现多种分叉,和海外公司处于战略相持阶段,要针对已有模型进行多轮验证,回到DeepSeek,我们也在做,能力迭代和更新不是他们一家。

    结论1:对于模型结构本身来说,我们不认为DeepSeek能在预训练等阶段能和其他厂商有很大的理论不同;

    结论2:不认为算力采购存在问题,需要更多算力来验证方案,在review和内省的是团队本身,奖励机制和研发架构设计合理性分析,在核心团队激励和层级设计上需要改变激发活力;

    结论3:不存在代差,DeepSeek比Kimi更纯粹,路径比Kimi更精准一些,现在字节在内的很多大厂,在参考DeepSeek路径和模型结构,能够在比较短时间之内拿出镜像版本出来。

    在深度学习路径来说,字节的方案和DeepSeek方案差不多,字节内部也针对MoE架构,注意力优化,豆包pro1.5效果也不错,只不过是闭源,跟DeepSeek很多路径也都一致,预算比较多,没有特别围绕卡的算力做垂类优化,在模型训练阶段比DeepSeek成本高一些,在整个效果上,通义等厂商效果都不一定比DeepSeek差,优化方案可能没有DeepSeek强。

    结论总结:DeepSeek做的最好的事情是路径选择等选型优化,在架构设计中做了很多内容,工程算法等内容成本控制比较优秀,对互联网大厂来说并不是跟不上做不到,只是很长时间内我们没有做,强化学习很多厂商都在做,路径本身并不是DeepSeek一家可以做,让我们最惊讶的是成本端,路径和DeepSeek还是一样的。

    商业化:不是核心本质,和tx战略做沟通时,核心逻辑是用户数量对基座模型没有直接关系,DeepSeek在研发和基座进行投入,对商业化没有什么探索。

    交流探讨

    Q:DeepSeek成本比较低的主要原因?

    A:DeepSeek还是绕不过英伟达的GPU芯片,对于DeepSeek来说,目前阶段绝大多数做模型的公司规避不掉GPU芯片,国产卡很多卡性能不是很强,也没有很多可选,在算力维度来看国内的模型公司算力基座,100%都是英伟达系列,万卡互连对于算力本身的通信、稳定性都有需求,需要对国产芯片做适配,需要国产卡做推理,目前我们投入很多精力做适配验证,除了百度自研昆仑芯,主要的芯片还是使用英伟达,国内绝大多数国产芯片在现在这个时间点内,还没办法承接需求。

    DeepSeek对于万卡互联的需求没有特别高,把工程问题前置,2025年可能因为DeepSeek开源冲击,对于算力结构发生很大变化

    (1)很多企业会因为DeepSeek低成本模型的覆盖,或者方案覆盖,激发二轮训练的需求,在几千张卡互联训练中可以指望国产芯片。之前很多公司放弃自研模型,现在可能会有变化,激发起国内手里有钱的公司进行模型研发

    (2)2025年可能因为国产芯片的可用性,逐步进行转变,艰难的转变到国内的卡,但还是要看水货渠道,如果有渠道,还是会用英伟达

    成本端的问题是核心,很多嵌入了OpenAI接口,或者蒸馏了OpenAI数据等的论调,基本不是很现实,因为成本实在太高;DeepSeek是开源模型,模型效果和训练方式来看,除了数据没有开源,我们可以使用DeepSeek开源论文在本地做复现,完全可以做成垂类模型。

    DeepSeek预训练模型中一点三方数据都没有?不是很确定,但这是惯例,我们可能会使用三方模型内容,进行打分,所有蒸馏侧的数据都是合成数据,DeepSeek和我们一样应该都不会用,他们应该使用的是自建多语言的语聊,我们愿意精选自建数据,蒸馏数据的数据质量不一定可靠,我们更多的要求比较高的数据精度,蒸馏出的数据很多不可用。

    模型训练所需要的成本,23、24年远比推理要高,模型训练沉没成本很高,推理需要看用户量,模型推理算力不如模型训练的核心原因是推理端没有模型增量出来,也就是没有人用,国内很多应用接口没有那么多用户的需求,可能25年会有变化,但在之前很长时间内,模型训练所需的算力都是最大的。推理和训练算力是不一样的,我们不能忽略OpenAI等公司的努力,在模型研发过程中,互联网大厂具备很多价值,我们筛选路径。DeepSeek本质是模型训练的改进。中长期来看,DeepSeek的API成本绝对不会比我们低,推理成本不一定会降低,主要是规模效应


    Q:对于GPU的需求?

    A:内部也在分析,我们通过应用和基座模型进行分析,之前很长时间内,全球模型从业者对于国内模型关注度没有那么高,因为绝大多数研发人员的关注点都在海外,国内只有通义做的还不错,之前很长一段时间,国内开源模型做的也可能不是很好,现在关注度上来了;因为工程能力的优化,理论层面非常富裕,对海外公司的恐慌在于GPU卡是否不需要了,需要更多的芯片进行探索和验证,DeepSeek让我们的路径进行转变,加速了路径的验证和探索的速度
    效果上来说,DeepSeek和OpenAI部分指标差不多,在小语种上有差距,中文不错英文尚可,在小语种和垂类知识回复中,有所受限。DeepSeek开源会对闭源市场产生很大冲击,模型本身不受影响,拉到本地就是自己的,DeepSeek是非常标准的开源模型,所有的组织都可以使用,应用侧主要还是卡不够,并发不够,是因为DeepSeek还是小体量,储备的芯片还是有限,训练和推理是不同的商业模式,推理还是针对垂类,如果使用联网搜索,成本还是大问题,并发也是大问题。豆包1000多个工程师进行优化,DeepSeek没有index页面,不是因为基座模型团队很强,C端应用就会做的很强。国内愿意开放搜索入口的厂商很少,被ban的风险很大,自主话语权很小,体量不是很大的公司会有比较大的问题,DeepSeek应用app不指望变现,对于赚钱和商业化不迫切,基座模型迭代不停就行。


    Q:DeepSeek会不会促进国内应用发展?

    A会使得行业变得更大,大量公司跃跃欲试在搞,之前因为行业增速有所放缓,DeepSeek开源之后会加速决策,生态圈会比较热闹,之前的误区是指望一级市场的投资者扶持大企业,因为花别人钱会有考核,现在造血能力比较强的企业,还有一级市场公司决策会更顺畅些,因为有开源模型作为参考。
    从资源投入来说,之前是寡头,现在是有更多公司拿卡做多轮验证,模型的生意和整个生态不一定会复现24年寡头竞争,25年会更热闹一些。我们也做算力租赁,市场目前也可以印证观点,大家的投入是持续的。

    模型的训练不是一年两年的事情,我们现在3年了,往后延续2年问题不大,不是一时的问题。


    Q:大厂是否会基于DeepSeek进行优化?

    A:会优化,路径上来说优化是一定的,总的算力来说不一定会下降,路径规划来说,目前比较明确,大厂是科研,路径分支都要做验证,小的公司只要沿着我们的脚印去做,我们的力度没有缩减,看到的现象是加速,可能总量还会增加


    Q:海外巨头算力需求是否会降低?

    A:海外巨头基座算力不会投入那么猛,推理侧聊的也都差不多,模型推理可能会增加,模型训练增速会有下滑,但并不会下滑很快。算力投入的北极星指标是有新的好用模型,只要还有,投入就会有;第二个是推理,完全取决于文本、图片、视频等多模态提升,和用户体量等正相关,如果客户越来越多,投入就会越强,我们寄希望于25年推理放量,也只有这样才会加大对推理的投入,整体来说算力本身还是增加的,不会因为DeepSeek而萎缩


    Q:目前硬件成本,训练成本和推理成本的比例?

    A字节现在手里的芯片有10万张,H20有20多万张,H20一半推理一半训练,A/H系列芯片训练。国内的互联网大厂训练还是占多数,我们买到的芯片还是训练卡占绝大多数,字节本身37开,25年可能会有结构性变化,有部分需求会因为文本多模态等起量,字节25年会日均模型调用量从4万亿到40万亿,公司结构方面,Seed不承担任何商业化指标,文本、图形、人形机器人都在这里;中间层是方舟,做模型蒸馏,裁剪量化商业化封装,逻辑上每个公司都是一样的,变成可用模型;再往下就是Flow(豆包,猫箱,眼镜等)都是创新应用团队,第三块是火山引擎。

    25年会有结构性变化,从4万亿日均Token到40万亿增长十倍,4万亿日均Token对应10万张A10/A30/L20/L40,因为12月底4万亿Token中70%都是文本,变成40万亿的时候,芯片占比70%以H20/590/910B/910C为主,剩下30%是L40/5090等,多模态的模型请求会有变化,国产训练卡主要做推理,我们有400多亿在国内,绝大多数用作模型推理,会储备比较多的590,8-10万张,910B有1万多张,910C有4-5万张,24年训练芯片是多于推理芯片的,25年可能会有交点,推理侧模型结构70%是非文本以外的多模态,无论如何即使训练成本下降,但对于推理侧的需求还是比较多的。

    日均40万亿Token,可能需要60万张卡,模型调用分为在线和离线,对于模型应用来说,可能会做削峰填谷,算力调度,小公司可能模型能力不错,输出效果来说不差,但我们可以做削峰填谷来降低推理成本。Token是计量单位,之前是纯文本,图片是1:4000,图像理解是1:1500,文生视频是1秒:150000,所以Token不是字符,文本占用量高的话Token不一定高,业内有两种调用方式,字节选用的是Token,另一种是调用次数,这两种有折算关系,24年初一次调用=800Token,现在一次调用=2000Token,文本24年初占比比较高。


    Q:推理成本受算法影响的程度?

    ADeepSeek的推理成本并不低,定价也不算便宜,字节的价格是比DeepSeek低的。DeepSeek是不赚钱的,定价仍然贵,推理层面字节有规模效应。单次训练成本DeepSeek确实低,同样万卡做推理,DeepSeek目前有2万张左右的训练芯片,最近紧急开发了一些芯片做推理,国内开了1-2万张卡,总的来说并不多,300-400万日活所需要的卡很少,比如1700万DAU,token调用量6000-7000亿,4万亿对应10万张卡,可以直接进行简单换算,开源模型用ToB的API没意义,DeepSeek的DAU差不多800-1000万,日均调用量几千亿规模,卡数总量不过万,DeepSeek优势是训练侧,但没有应用爆发,成本还是下不来的。


    Q:DeepSeek和普通的AIGC有什么区别?

    A:DeepSeek也属于生成式AI,有几个不同:

    第一个是把成本拉低,是llama的1/11,用先进技术把推理速度降低,模型架构和大部分不一样,用细颗粒度MoE,先进模型基本都是邓氏架构,细颗粒度不是首创,阿里也在往这个方向走,这个架构在推理的时候只激活部分参数,在推理机制上引入LLA,市场上有几种,多头注意力等,需要每个参数都参与计算,而DeepSeek只激活低参数,降低成本;

    第二个是训练方法,传统方法是FP32和FP16的混合精度,DeepSeek用FP8参数,比较敏感的组件还是FP16,分布式混合精度是目前做的比较少的,训练方法里面也有工程优化,之前时延导致GPU利用率不是很高,DeepSeek用流水线并行,高效利用通信网络,提升速率;

    第三是编程上面也有很大不一样,此前用CUDA,DeepSeek用PTX,PTX本身是CUDA的一部分,用更细颗粒度来调度底层单元,将硬件调度细化,是传统方法用的比较少的;

    第四是AI Infra,通常集群是三层网络,DeepSeek是两层,通信库降低PCIE消耗,减少GPU内存消耗增高网络通信速度,HF Reduce、分布式文件系统、调度平台用的比较灵活。


    Q:国内所有的训练公司是否可以复制,大幅减少GPU需求?

    ADeepSeek用PTX进行优化,PTX并不是绕过CUDA,是CUDA的一部分,PTX更底层一些,并没有100%用到CUDA标准库,到硬件底部调动硬件模块,还属于CUDA的组件,从这个角度来说是没办法马上复制到昇腾和AMD,PTX技术还是仅限于NVDA,跨生态还是有困难,没有把数据开源,只是把方法开源,方法可以参照,并非100%复制,部分复制的衍生模型会比较快。


    Q:DeepSeek大概降低了多少训练成本?

    A:QWEN没计划这么快发布2.5MAX,大厂本来计划一季度后半期,公开版本最大72B,中间用的卡数量是6000级别的,我们是有A800、H800混合组网,大概是1:3如果要量化的话。


    Q:国内的水平大概如何,和海外相比大概有多少成本降低?

    A:DeepSeek的600万美金是V3模型本身,V3模型是迭代出来的,把之前的模型加起来的话,成本至少是目前的3-5倍,小2000万美金肯定要的,和Llama3相比,大概1:4左右,因为DeepSeek没有太多公开数据,OpenAI主要是6000多张卡3个月以上,肯定是DeepSeek的好几倍。


    Q:当用户量起来之后DeepSeek是否有很大的扩容需求?

    A:在最接近看到的是能力下降,因为用户量增长的比较猛,增长了十几倍,本身是推理集群没有ready,深度推理和联网都用不了了,推理需求上来之后没有做到弹性扩容,暂时关闭了联网功能,从这个角度来看,虽然训练成本低了,杰文斯理论来看,门槛降低之后对算力是利好的,普及度提升,对DeepSeek来说要迅速扩容,不然会损失用户数。


    Q:本质上的框架还是基于英伟达的GPU芯片?

    A是的,还是CUDA生态


    Q:对芯片的依赖度会降低?

    A这个解读肯定是有问题的,他们还是在CUDA上做工作,其他公司没有在PTX上面进行,当大家看到之后,肯定会往这个方向做投入,用算法优化来提升性能,掌握方法之后会起来的很快,硬件的抄袭很困难甚至不可能,未来也会用CUDA来编程,国产在做芯片设计的时候会沿着这个思路去设计芯片,但取代不了。


    Q:国产芯片是否存在一定的成长空间?

    A:有的,低精度没那么大差距,FP8和FP16就可以做训练,芯片硬件差距下,用性能比较差的芯片也可以设计低精度模型,逻辑是通顺的。云计算大厂后面肯定都会支持DeepSeek,在MaaS上上线,2024年国产芯片牵引模型,接下来DeepSeek指引了方向,加上了算法优势,用性能稍微低的芯片来测试模型也是趋势。在接下来2-3个季度,大厂也会发布国产相关方案出来,除了CUDA以外


    Q:推理芯片需求量会增加?

    A:DeepSeek出来之后模型市场有几点变化: 对MaaS有一点冲击,DeepSeek会进入所有MaaS平台; 工具链上,会提供DeepSeek的调优工具; 出现非常多基于DeepSeek的衍生版本,很多都会基于DeepSeek的模型来蒸馏,牵引此前的垂直版本,版本出来之后用比较低的成本部署并商用,推理侧B端和C端商用。目前ToC端推理成本比较贵,现在可以用比较好的方式来获取用户,会出现大量的应用爆发。 DeepSeek出来之后会出很多Agent和AI应用,生态会繁荣起来,要准备足够多的算力来支持。


    Q:训练端的芯片是否会增加?

    A:预训练可能不会增加,后训练可能会增加,但占比没有推理侧高,今年主要还是73开,7还是推理。接下来DeepSeek已经把预训练做完了,接下来后训练做行业垂类模型,老版本迭代进行后训练需求。


    Q:AIDC的需求情况?

    A:AIDC市场即使没有DeepSeek出来,大厂也有预算,字节按照10万亿或者20万亿来消耗,接下来可能会做调整,DeepSeek没有出来之前的预测可能要调整,此后会有增长,总体来看会有更多的增长和需求,业务爆发要比预期快


    Q:优化主要集中在哪些环节?

    A:DeepSeek给我们的指引是,改变了堆算力的想法,把算法的权重增加,用算法来抵消算力不足,工程排第二,通信调度等,第三才是硬件


    Q:DeepSeek产业链和传统的算力产业链有什么增量环节?

    A:分上中下来说,在训练侧会减弱但推理侧会增长,上游需求并不会减少,DeepSeek后续要扩容,还是会带来硬件增长,会有很多基于DeepSeek进行软件开发的需求,比如微调等,比如MaaS平台需求,之前要选很多模型,现在减少了选项;后训练中会用到模型API,有很多要用到R1模型进行深度推理,此前大模型给做科研,研发,分子结构预测等用不到,现在可以用到,所以会出现基于R1的很多需求,接下来会用R1辅助科研等,今年在这个赛道会起来


    Q:是否会降低高性能算力需求?

    A:未来半年会逼着团队降成本,大厂会修改一部分预算assign到算法优化,随着行业掌握方法之后,就会开始新一轮的竞赛,训练成本和推理成本会下降,拉动整个行业增长,所以长期来看英伟达产业链地位并不会有变化。


    Q:阿里本身的MAX大概什么时候发布?

    A:大概提前一个半月发布。


    Q:是否仍然会有囤卡的现象?

    A在算法领先的时间窗口,会被复制和超越,有两个背景,美国会收紧,还有90天缓冲期,如果有渠道的厂商,如果看到了行业逻辑,就会一定去买,有渠道买应该也会买,硬件还是有很大差距。对英伟达来说,一年时间段为维度NVDA还不会有很大的地位变化


    Q:未来行业的趋势?

    A:DeepSeek也发布了多模态模型,能够做图像生成,这样的模型出来之后加快了多模态速度,之后会往多模态去走,端到端多模态以及衍生出来的产品,Token比文本模型多很多,从当下而言,DeepSeek划好了分水岭,开源模型超越闭源模型是趋势,多模态速度普及提升也是一个方向,占比来说多模态的算力消耗是文本模型的10倍左右,推理算力消耗是此前的好几倍


    Q:铜连接需求的变化?

    A铜连接本身做节点级别的链接,会跟着数量来变动,基于我们前期的判断来看,中长期来看,不会减少,机架扩容的时候还是用低成本方式来组网。


    Q:互联网大厂未来的资本开支分配和节奏?

    A:有些是美股上市公司,Q1做下个年度的预算,在讨论大致数字,因为DeepSeek东西插进来之后肯定会重新讨论,ALI之前讨论300亿元,加上液冷、交换机就是460亿,现在在讨论要不要这么多,不会大规模下降,也不会猛增,有一些博弈,大概率技术还是会坚持甚至追加,要财务跟技术共同协商。其他大厂来说,我的预计,百度今年不到100亿,不会猛增,字节最猛,阿里排第三,35%-40%增长,激进一些的话就是50%以上,腾讯排第二。

  • AI编程工具L1-L5分级介绍,GitHub Copilot 仅 L1

    AI编程L1-L5是什么

    AI编程的L1-L5分级体系是对AI编程工具自动化能力的分类,从基础的代码补全到全流程开发,体现了AI在软件开发中的不同应用层次。从L1到L5的工具逐步提升软件开发的自动化程度,降低开发门槛,让开发者能专注于更高层次的任务。

    AI编程L1-L5

    AI编程L1-L5的分级介绍

    L1:代码补全
    • 主要功能:专注于提供代码级别的自动补全,帮助开发者快速输入常见代码片段,简化开发流程,提升效率。
    • 代表产品
      • GitHub Copilot:通过智能建议和代码补全功能,简化编码流程。
      • Tabby:开源的代码补全工具。
      • Codium、Codeium:付费的代码补全工具。
    L2:任务级自动化
    • 主要功能:能根据自然语言描述生成代码片段,支持功能开发、漏洞修复和代码重构。需要高质量的提示和上下文支持,生成准确的代码。
    • 代表产品
      • ChatGPT:基于自然语言描述生成代码片段,支持功能开发、漏洞修复和代码重构。
      • Claude:与ChatGPT类似,支持任务级代码生成。
      • aider:命令行工具,简化提示生成过程。
      • 16x Prompt:桌面应用程序,帮助开发者从LLM中获取高质量代码。
      • CursorContinuePearAI:IDE扩展,将LLM集成到开发环境中。
    L3:项目级自动化
    • 主要功能:可以生成整个项目的代码框架,从需求文档直接生成初步代码。通过与项目管理工具和代码平台集成,实现需求收集、代码生成和部署的自动化。
    • 代表产品
      • Codegen:分析项目需求并生成相关拉取请求。
      • Sweep:实现需求收集、代码生成和部署的自动化。
      • Pythagora:部分开源,支持项目级自动化。
      • v0 by Vercel:生成网站代码,专注于前端开发。
      • Tempo by Tempo Labs:项目级自动化工具。
      • CerebrasCoder:生成网站代码,专注于前端开发。
    L4:从需求到生产
    • 主要功能:能实现从产品需求文档到最终生产部署的全流程自动化。可以管理整个开发活动,包括代码部署和生产环境维护,让非技术人员能快速生成完整的软件产品。
    • 代表产品
      • Devin:实现从需求到生产部署的全流程自动化。
      • Marblism:管理整个开发活动流程,支持非技术人员快速创建软件。
      • Genie:Cosine开发,支持全流程开发。
      • Engine、devlo、Gru:其他L4工具。
    L5:AI开发团队
    • 主要功能:是AI编程的最高级别,涉及多个AI代理协作,模拟完整的开发团队,各自负责项目的不同部分。
    • 代表产品
      • AutoDev:微软提出的AI开发团队概念,目前处于研究阶段。
      • MGX:MetaGPT团队设计,目前处于等待名单阶段。

    AI编程L1-L5的应用场景

    • L1应用场景:适用于简单的代码编写任务,减少手动输入的时间和错误。
    • L2应用场景:处理复杂的开发任务,需要高质量的提示和上下文支持,生成准确的代码。
    • L3应用场景:管理简单项目,生成基础代码,需要人工干预确保代码质量。
    • L4应用场景:非技术人员可以快速生成完整的软件产品,降低开发门槛,提高开发效率。
    • L5应用场景:AI系统能复制整个软件开发团队,在软件创作的各个方面进行编程和协作,实现高度自动化。
  • 智源研究院发布2025十大AI技术趋势

    在2025年伊始,智源研究院提出十个人工智能技术及应用趋势,以剖析科技演进轨迹,洞察未来发展方向,预测关键驱动力,指引人类社会迈向更加智能、美好与互联的未来。

    Trend 1 科学的未来:AI4S驱动科学研究范式变革

    大模型引领下的AI4S(AI for Science),已成为推动科学研究范式变革的关键力量。2024年,科研人员使用AI的比例快速增加,AI对科学研究方法和流程的变革效应也开始显现。

    提升科学研究效率,推动科学研究从聚焦优化特定任务向更复杂、更动态、更交叉的问题发展,大模型赋能下的AI4S都较以往展现出截然不同的效果。2025年,多模态大模型将进一步融入科学研究,赋能多维数据的复杂结构挖掘,辅助科研问题的综合理解与全局分析,为生物医学、气象、材料发现、生命模拟、能源等基础与应用科学的研究开辟新方向。

    Trend 2 “具身智能元年”:具身大小脑和本体的协同进化

    2025年的具身智能,将继续从本体扩展到具身脑的叙事主线,我们可以从三方面有更多期待。在行业格局上,近百家的具身初创或将迎来洗牌,厂商数量开始收敛;在技术路线上,端到端模型继续迭代,小脑大模型的尝试或有突破;在商业变现上,我们也必将看到更多的工业场景下的具身智能应用,部分人形机器人迎来量产。

    Trend 3 “下一个Token预测”:统一的多模态大模型实现更高效AI

    人工智能的本质在于对人的思维的信息过程的模拟,人类对于信息的交互和处理,总是呈现多模态、跨模态的输入输出状态。当前的语言大模型、拼接式的多模态大模型,在对人类思维过程的模拟,存在天然的局限性。从训练之初就打通多模态数据,实现端到端输入和输出的原生多模态技术路线给出了多模态发展的新可能。基于此,训练阶段即对齐视觉、音频、3D等模态的数据,实现多模态的统一,构建原生多模态大模型成为多模态大模型进化的重要方向。

    Trend 4 Scaling Law扩展:RL + LLMs,模型泛化从预训练向后训练、推理迁移

    基于Scaling Law推动基础模型性能提升的训练模式“性价比”持续下降,后训练与特定场景的Scaling law不断被探索。强化学习作为发现后训练、推理阶段的Scaling Law的关键技术,也将会得到更多的应用和创新使用。

    Trend 5 世界模型加速发布,有望成为多模态大模型的下一阶段

    更注重“因果”推理的世界模型赋予AI更高级别的认知和更符合逻辑的推理与决策能力,这种能力不仅能推动AI在自动驾驶、机器人控制及智能制造等前沿领域的深度应用,更有望突破传统的任务边界,探索人机交互的新可能。

    Trend 6 合成数据将成为大模型迭代与应用落地的重要催化剂

    高质量数据将成为大模型进一步Scaling up的发展阻碍。合成数据已经成为基础模型厂商补充数据的首选。合成数据可以降低人工治理和标注的成本,缓解对真实数据的依赖,不再涉及数据隐私问题;提升数据的多样性,有助于提高模型处理长文本和复杂问题的能力。此外,合成数据可以缓解通用数据被大厂垄断,专有数据存在获取成本等问题,促进大模型的应用落地。

    Trend 7 推理优化迭代加速,成为AI Native应用落地的必要条件

    大模型硬件载体从云端向手机、PC等端侧硬件渗透。在这些资源受限(AI算力、内存等)的设备上,大模型的落地应用会面临较大的推理侧的开销限制,对部署资源、用户体验、经济成本等均带来巨大挑战。算法加速和硬件优化技术持续迭代,双轮驱动加速AI Native应用落地。

    Trend 8 重塑产品应用形态,Agentic AI成为产品落地的重要模式

    2025年,更通用、更自主的智能体将重塑产品应用形态,进一步深入工作与生活场景,成为大模型产品落地的重要应用形态。从Chatbot、Copilot到AI Agent、Agentic AI,2023年以来行业对于AI应用形态的理解越发深入。2023年底,AI Agent应用编排框架收敛,Agentic AI概念被提出。从更强调产品概念的Agent,到更强调应用智能程度的Agentic AI,我们在2025年将看到更多智能化程度更高、对业务流程理解更深的多智能体系统在应用侧的落地。

    Trend 9 AI应用热度渐起,Super App花落谁家犹未可知

    近一年时间,生成式模型在图像、视频侧的处理能力得到大幅提升,叠加推理优化带来的降本,Agent/RAG框架、应用编排工具等技术的持续发展,为AI超级应用的落地积基树本。大模型应用从功能点升级,渗透到AI原生的应用构建及AI OS的生态重塑。虽然Super APP花落谁家尚未尘埃落定,但从用户规模、交互频次、停留时长等维度来看,AI应用热度持续攀升,已到应用爆发的黎明前夕。

    Trend 10 模型能力提升与风险预防并重,AI安全治理体系持续完善

    作为复杂系统,大模型的Scaling带来了涌现,但复杂系统特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战。基础模型在自主决策上的持续进步带来了潜在的失控风险,如何引入新的技术监管方法,如何在人工监管上平衡行业发展和风险管控?这对参与AI的各方来说,都是一个值得持续探讨的议题。

    科技的曙光将照耀人类前行的路途。这些技术将在激烈的竞争与协作中相互促进,共同谱写人与智能系统共生共荣的磅礴篇章。而我们作为亲历者,将见证科技为人类文明注入澎湃动能,推动人类能力的边界向更高更远处延伸。站在科技的肩膀上,身可高百尺,手可摘星辰。

  • 讯飞智作亮相央视首届“科晚”, 打造“AI张腾岳”三分钟炫技3种语言

    AI能写文章、能画画、能聊天,这些已经不再新鲜。但你是否想过,AI还能能听见危险的声音、能让课堂更生动,甚至能能用方言朗诵古诗?

    在2024年12月29日晚,中央广播电视总台首届《中国科技创新盛典》(简称“科晚”)上,科大讯飞董事长刘庆峰用一系列精彩的现场演示,向全国观众展现了人工智能赋能千行百业的创新实践,看AI技术如何真正走进百姓生活、服务社会发展。

    作为中央广播电视总台继“春晚”后打造的又一档重点节目,此次科技跨年盛典以“新质生产力”为主题,全面展现2024年中国科技创新的重大成果。科大讯飞作为人工智能企业代表在盛典现场展示其最新的人工智能技术应用成果。

    “AI张腾岳”三分钟炫技3种方言

    当舞台上突然出现“第二个张腾岳”时,现场观众发出阵阵惊叹。这位由讯飞智作打造的 AI 虚拟数字人,不仅与真人主持人神态自若地互动对话,更带来了一场跨越语言与方言的精彩表演。

    图为“AI张腾岳”(左)与主持人张腾岳(右)同台

    “AI 虚拟数字人张腾岳”用陕西、粤语、河南地方言分别演绎《静夜思》《望月怀远》《满江红》等经典诗词,字正腔圆,韵味十足,展现了AI驱动的虚拟数字人技术在多语言多方言表达方面取得的突破性进展。

    图为“AI张腾岳”用陕西方言朗诵《静夜思》

    据介绍,AI张腾岳融合了科大讯飞先进的语音合成、语音识别、语义理解、唇形预测、图像处理等人工智能技术,通过深度学习实现表情、动作的精准还原,配合先进的语音合成技术,使 AI 张腾岳具备自然的表情、流畅的动作和真实的声音表现。

    在今年的科大讯飞全球1024开发者节上,科大讯飞率先发布了超拟人数字人,仅需一张照片就能打造专属形象口型、表情、动作均由大模型自动生成,能够精准匹配文本的意图,进一步降低了虚拟数字人的应用门槛,这些技术都可以在讯飞智作体验。

    当前,讯飞智作的视频配音、新闻视频、培训视频、广告视频也已经广泛应用于媒体、金融、智慧文旅、企业数字化、智慧政务、IP运营多个领域,并与学习强国、新华社、WAIC、中信银行、中国平安等单位建立合作。

    虚拟数字人助力多场景赋能

    当下,技术进步带来的普惠红利正在逐步显现。虚拟数字人开始解锁越来越多的行业应用场景。

    讯飞多场景虚拟数字人+大模型赋能多个领域,从国际赛事巴黎奥运会到非遗文化北京中轴线,从行业活动天津智博会到智慧展厅山东高速,虚拟数字人正在扮演着越来越重要的角色。它们不仅能够进行产品介绍和客户服务,还能够基于大数据和人工智能技术提供更加精准、个性化的服务体验。当前以AI虚拟人交互平台为代表的平台化产品,已在央国企(企业数字化)、教育培训、文化旅游、电子商务、金融服务等多个行业领域内成功落地,其应用的广度与深度均在持续拓展之中。这一成就,正是讯飞虚拟数字人深入产业实践的一个生动写照。

    作为新质生产力代表,虚拟人平台始终坚持践行人工智能+,致力于让虚拟人成为人类伙伴!