Category: AI专栏

  • a16z深入详解 MCP 和 AI 工具的未来

    自 OpenAI 于 2023 年发布函数调用以来,一直在思考如何才能解锁代理和工具使用的生态系统。随着基础模型变得更加智能,代理与外部工具、数据和 API 交互的能力变得越来越分散:开发人员需要为代理运行和集成的每个系统实现具有特殊业务逻辑的代理。  显然,需要有一个用于执行、数据获取和工具调用的标准接口。API是互联网的第一个伟大统一器——为软件通信创建了一种共享语言——但人工智能模型缺乏同等的东西。

    模型上下文协议 (MCP) 于 2024 年 11 月推出,作为一种潜在的解决方案,在开发者和 AI 社区中获得了极大的关注。在这篇文章中,我们将探讨什么是 MCP、它如何改变 AI 与工具交互的方式、开发者已经用它构建了什么以及仍需解决的挑战。

    什么是MCP

    MCP 是一种开放协议,支持系统以跨集成通用的方式向 AI 模型提供上下文。协议定义了 AI 模型如何调用外部工具、获取数据以及与服务交互。下面是一个具体示例,展示了 Resend MCP 服务器如何与多个 MCP 客户端协同工作。

    MCP 的灵感来自于 LSP(语言服务器协议)。在 LSP 中,当用户在编辑器中输入内容时,客户端会查询语言服务器以自动完成建议或诊断。

    MCP 超越 LSP 的地方在于其以代理为中心的执行模型:LSP 主要是被动的(根据用户输入响应来自 IDE 的请求),而 MCP 旨在支持自主 AI 工作流。根据上下文,AI 代理可以决定使用哪些工具、以什么顺序使用以及如何将它们链接在一起以完成任务。MCP还引入了人机交互功能,以便人类提供额外的数据并批准执行。

    热门流行用例

    通过正确的 MCP 服务器,用户可以将每个 MCP 客户端变成“万能应用程序”。

    以 Cursor 为例:虽然 Cursor 是一个代码编辑器,但它也是一个实现良好的 MCP 客户端。最终用户可以使用Slack MCP 服务器将其转变为 Slack 客户端,使用Resend MCP 服务器将其转变为电子邮件发送器,使用Replicate MCP 服务器将其转变为图像生成器。利用 MCP 的更强大方法是在一个客户端上安装多个服务器以解锁新流程:用户可以安装服务器以从 Cursor 生成前端 UI,还可以要求代理使用图像生成 MCP 服务器为网站生成英雄图像。

    除了 Cursor 之外,当今大多数用例可以归纳为以开发为中心、本地优先的工作流程,或使用 LLM 客户端的全新体验。

    以开发为中心的工作流程

    对于每天生活在代码中的开发人员来说,一个普遍的感受是“我不想离开 IDE 去做x ”。MCP 服务器是实现这一梦想的绝佳方式。

    开发人员现在无需切换到 Supabase 来检查数据库状态,而是可以使用Postgres MCP 服务器执行只读 SQL 命令,使用Upstash MCP 服务器直接从 IDE 创建和管理缓存索引。在迭代代码时,开发人员还可以利用Browsertools MCP让编码代理访问实时环境以进行反馈和调试。

    这是 Cursor 代理如何使用 Browsertools 访问控制台日志和其他实时数据并更有效地进行调试的示例。

    除了与开发人员工具交互的工作流程之外,MCP 服务器解锁的新用途是能够通过抓取网页或根据文档自动生成 MCP 服务器,为编码代理添加高度准确的上下文。开发人员无需手动连接集成,可以直接从现有文档或 API 启动 MCP 服务器,使 AI 代理可以立即访问工具。这意味着花在样板上的时间更少,实际使用工具的时间更多——无论是提取实时上下文、执行命令,还是动态扩展 AI 助手的功能。

    全新体验

    尽管像 Cursor 这样的 IDE 因 MCP 对技术用户的强烈吸引力而受到最多关注,但它们并不是唯一可用的 MCP 客户端。对于非技术用户来说,Claude Desktop 是一个极好的切入点,它使 MCP 驱动的工具对普通用户来说更容易获得和使用。很快,我们可能会看到专门的 MCP 客户端出现,用于以业务为中心的任务,例如客户支持、营销文案、设计和图像编辑,因为这些领域与 AI 在模式识别和创意任务方面的优势密切相关。

    MCP 客户端的设计及其支持的特定交互在塑造其功能方面起着至关重要的作用。例如,聊天应用程序不太可能包含矢量渲染画布,就像设计工具不太可能提供在远程机器上执行代码的功能一样。最终,MCP 客户端体验决定了整体 MCP 用户体验——在 MCP 客户端体验方面,我们还有更多东西需要解锁。

    其中一个例子是 Highlight 如何实现@ 命令来调用其客户端上的任何 MCP 服务器。结果是一种新的 UX 模式,其中 MCP 客户端可以将生成的内容传输到任何选择的下游应用中。

    Highlight 实现 Notion MCP(插件)的一个例子。

    另一个例子是Blender MCP 服务器用例:现在,几乎不了解 Blender 的业余用户可以使用自然语言来描述他们想要构建的模型。随着社区为 Unity 和 Unreal 引擎等其他工具实现服务器,我们看到文本到 3D 的工作流程正在实时展开。

    将 Claude Desktop 与Blender MCP 服务器结合使用的示例。

    尽管我们主要考虑服务器和客户端,但随着协议的发展,MCP 生态系统正在逐渐成形。该市场地图涵盖了当今最活跃的领域,尽管仍有许多空白。我们知道 MCP 仍处于早期阶段,我们很高兴随着市场的发展和成熟,将更多参与者添加到地图中。

    在 MCP 客户端方面,我们目前看到的大多数高质量客户端都是以代码为中心的。这并不奇怪,因为开发人员通常是新技术的早期采用者,但随着协议的成熟,我们期望看到更多以业务为中心的客户端。

    我们看到的大多数 MCP 服务器都是本地优先的,专注于单人游戏。这是 MCP 目前仅支持基于 SSE 和命令的连接的表现。但是,随着生态系统使远程 MCP 成为一流,并且 MCP 采用可流式 HTTP 传输,我们预计会看到更多 MCP 服务器的采用。

    还有新一波 MCP 市场和服务器托管解决方案的出现,使 MCP 服务器发现成为可能。Mintlify的mcpt、Smithery和OpenTools等市场让开发人员更容易发现、共享和贡献新的 MCP 服务器——就像 npm 如何改变 JavaScript 的包管理或 RapidAPI 如何扩展 API 发现一样。这一层对于标准化对高质量 MCP 服务器的访问至关重要,允许 AI 代理根据需要动态选择和集成工具。

    随着 MCP 的采用率不断提高,基础设施和工具将在使生态系统更具可扩展性、可靠性和可访问性方面发挥关键作用。Mintlify 、Stainless和Speakeasy等服务器生成工具正在减少创建 MCP 兼容服务的摩擦,而 Cloudflare 和Smithery等托管解决方案正在解决部署和扩展挑战。与此同时,Toolbase等连接管理平台开始简化本地优先的 MCP 密钥管理和代理。

    未来的可能性

    我们仅处于代理原生架构演进的早期阶段。尽管如今 MCP 令人兴奋不已,但使用 MCP 进行构建和交付时仍存在许多未解决的问题。

    协议的下一次迭代中需要解锁的一些内容包括:

    托管和多租户

    MCP 支持 AI 代理与其工具之间的一对多关系,但多租户架构(例如 SaaS 产品)需要支持多个用户同时访问共享 MCP 服务器。默认拥有远程服务器可能是让 MCP 服务器更易于访问的短期解决方案,但许多企业也希望托管自己的 MCP 服务器以及单独的数据和控制平面。

    用于支持大规模 MCP 服务器部署和维护的简化工具链是可以实现更广泛采用的下一个部分。

    验证

    MCP 目前尚未定义客户端与服务器进行身份验证的标准身份验证机制,也没有提供 MCP 服务器在与第三方 API 交互时应如何安全地管理和委托身份验证的框架。身份验证目前由各个实现和部署方案决定。实际上,到目前为止,MCP 的采用似乎集中在本地集成上,而这些集成并不总是需要显式身份验证。

    更好的身份验证范例可能是远程 MCP 采用的一大优势。从开发人员的角度来看,统一方法应涵盖:

    • 客户端身份验证:用于客户端与服务器交互的标准方法,例如 OAuth 或 API 令牌
    • 工具身份验证:用于使用第三方 API 进行身份验证的辅助函数或包装器
    • 多用户身份验证:针对企业部署的租户感知身份验证

    授权

    即使工具经过了身份验证,谁应该被允许使用它,他们的权限应该有多细?MCP 缺乏内置的权限模型,因此访问控制处于会话级别——意味着工具要么可访问,要么完全受限。虽然未来的授权机制可以形成更细粒度的控制,但当前的方法依赖于基于 OAuth 2.1 的授权流程,该流程在经过身份验证后授予会话范围的访问权限。随着更多代理和工具的引入,这会带来额外的复杂性——每个代理通常都需要具有唯一授权凭据的自己的会话,从而导致基于会话的访问管理网络不断增长。

    网关

    随着 MCP 的采用规模不断扩大,网关可以充当身份验证、授权、流量管理和工具选择的集中层。与 API 网关类似,它将强制执行访问控制、将请求路由到正确的 MCP 服务器、处理负载平衡并缓存响应以提高效率。对于多租户环境尤其重要,因为不同的用户和代理需要不同的权限。标准化网关将简化客户端与服务器之间的交互、提高安全性并提供更好的可观察性,使 MCP 部署更具可扩展性和可管理性。

    MCP 服务器的可发现性和可用性

    目前,查找和设置 MCP 服务器是一个手动过程,需要开发人员定位端点或脚本、配置身份验证并确保服务器和客户端之间的兼容性。集成新服务器非常耗时,而且 AI 代理无法动态发现或适应可用的服务器。

    不过,根据Anthropic上个月在 AI 工程师会议上的演讲, MCP 服务器注册和发现协议似乎即将问世。可能会开启 MCP 服务器的下一阶段应用。

    执行环境

    大多数 AI 工作流都需要按顺序调用多个工具——但 MCP 缺乏内置的工作流概念来管理这些步骤。要求每个客户端都实现可恢复性和可重试性并不理想。尽管今天我们看到开发人员正在探索Inngest等解决方案来实现这一点,但将有状态执行提升为一流概念将为大多数开发人员理清执行模型。

    标准客户端体验

    我们从开发者社区听到的一个常见问题是,在构建 MCP 客户端时如何考虑工具选择:每个人都需要为工具实现自己的 RAG,还是有一个等待标准化的层?

    除了工具选择之外,调用工具也没有统一的 UI/UX 模式(我们已经看到了从斜线命令到纯自然语言的各种模式)。用于工具发现、排名和执行的标准客户端层可以帮助创建更可预测的开发人员和用户体验。

    调试

    MCP 服务器的开发人员经常发现,很难让同一个 MCP 服务器轻松地跨客户端运行。通常,每个 MCP 客户端都有自己的怪癖,客户端跟踪要么缺失,要么很难找到,这使得调试 MCP 服务器成为一项极其困难的任务。随着世界开始构建更多远程优先的 MCP 服务器,需要一套新的工具来使本地和远程环境中的开发体验更加简化。

    AI工具的影响

    MCP 的开发体验让我想起了 2010 年代的 API 开发。这种模式新颖而令人兴奋,但工具链还处于早期阶段。如果我们快进到几年后,如果 MCP 成为 AI 驱动工作流程的事实标准,会发生什么?一些预测:

    • 开发优先型公司的竞争优势将从提供最佳 API 设计发展到为代理商提供最佳工具集合。如果 MCP 能够自主发现工具,那么 API 和 SDK 提供商将需要确保他们的工具易于通过搜索找到,并且具有足够的差异性,以便代理商选择特定任务。这可能比人类开发人员寻找的更加细致和具体。
    • 如果每个应用程序都成为 MCP 客户端,每个 API 都成为 MCP 服务器,那么可能会出现一种新的定价模式:代理可以根据速度、成本和相关性等因素更加动态地选择工具。这可能会导致一个更加以市场为导向的工具采用过程,即选择性能最佳、模块化程度最高的工具,而不是采用最广泛的工具。
    • 文档将成为 MCP 基础设施的关键部分,因为公司需要设计具有清晰、机器可读格式(例如llms.txt)的工具和 API,并使 MCP 服务器成为基于现有文档的事实上的工件。
    • 仅使用 API 已远远不够,但可以成为很好的起点。开发人员会发现,从 API 到工具的映射很少是 1:1。工具是一种更高级的抽象,在执行任务时对代理来说最有意义——代理可以选择包含多个 API 调用的 draft_email_and_send() 函数,而不是简单地调用 send_email(),以最大限度地减少延迟。MCP 服务器设计将以场景和用例为中心,而不是以 API 为中心。
    • 如果每个软件都默认成为 MCP 客户端,那么将会出现一种新的托管模式,因为工作负载特征与传统网站托管不同。每个客户端本质上都是多步骤的,并且需要执行保证,例如可恢复性、重试和长时间运行的任务管理。托管提供商还需要在不同的 MCP 服务器之间进行实时负载平衡,以优化成本、延迟和性能,让 AI 代理能够在任何给定时刻选择最有效的工具。

    未来

    MCP 正在重塑 AI 代理生态系统,下一波进步将取决于我们如何应对基础挑战。如果做得好,MCP 可以成为 AI 与工具交互的默认界面,开启新一代自主、多模式和深度集成的 AI 体验。

    如果被广泛采用,MCP 可以代表工具构建、使用和货币化方式的转变。我们很高兴看到市场将它们带向何方。今年将是关键的一年:我们会看到统一的 MCP 市场崛起吗?身份验证对于 AI 代理来说会变得无缝吗?多步骤执行可以正式纳入协议吗?

    原文链接:https://a16z.com/a-deep-dive-into-mcp-and-the-future-of-ai-tooling/

  • 《2024年移动端AI应用场景研究报告》(PDF文件) – AI教程资料

    《2024年移动端AI应用场景研究报告》。全面分析了全球和中国人工智能市场的现状与发展趋势,重点关注移动端AI应用的市场格局、用户行为、应用场景以及未来发展方向。2024年移动端AI市场呈现明显的分化趋势,语言模型类应用占据主导地位,豆包、Kimi智能助手和文小言等应用表现突出。智能伴聊、图像处理和智能工具等细分赛道也在快速发展,用户需求加速向移动端迁移。报告深入分析了移动端AI应用的用户画像,包括用户对AI的认知度、使用场景、付费意愿以及使用反馈等。

    获取《2024年移动端AI应用场景研究报告》 PDF原文件,扫码关注回复: 20250226

    AI市场概览

    • 全球AI市场概览:全球AI市场规模持续扩大,预计2027年将迎来普适AI时代。中美成为产业引领者,推动AI技术、产品和应用的多轮驱动发展。

    • 人工智能产业结构对比:对比美国和中国在AI应用、基础大模型、云基础设施和芯片等方面的产业占比。
    • 中美AI发展对比:展示中美在AI独角兽企业数量、AI企业数量、大模型数量等方面的占比,并预测全球生成式AI市场规模的增长趋势。
    • 中国AI产业概览:中国AI产业从百模大战向应用驱动转型,本土化大模型加速落地,推动AI应用生态发展。介绍国内主要AI企业及软件产品,包括传统互联网企业、传统AI企业和AI初创企业的代表性产品。

    移动端AI市场研究

    • 移动端AI赛道流量增长强劲:2024年移动端AI月独立设备数翻番,人均月度使用时长持续攀升,市场接受度显著提升。
    • 用户画像:移动端AI应用整体用户分析:分析移动端AI应用的核心用户特征,包括性别、年龄、消费能力、城市级别和人群标签等。

    • 用户对AI的认知度及信息获取渠道:用户对AI的认知度不断提升,社交媒体和工作学习是主要信息来源。用户接触AI的时间和使用契机也有所分析。
    • 用户行为:移动端AI产品带来的反馈与使用契机:分析移动端AI应用在提升工作效率、辅助搜索、提供准确资料等方面的作用,以及用户开始使用AI的场景和功能吸引力。
    • 用户行为:移动端AI应用使用技巧:用户常用的AI应用使用技巧,如知乎式提问、迭代优化等,以及用户对个性化使用和AI应用基本原理的兴趣。

    • 用户付费:移动端AI应用付费意愿、付费区间和方式:分析用户对移动端AI应用的付费意愿、付费区间和付费方式,如免费基础版+增值服务、按月订阅模式等。
    • 用户付费:用户看重的影响购买决策因素:用户在购买移动端AI应用服务时最看重的因素,如使用便捷性、功能多样性、数据隐私保护等。

    • 用户付费:对高级功能的认知及付费意愿:用户对移动端AI高级功能的认知,如专家助手、云端协同等,以及对高级功能的付费意愿。
    • 使用反馈:移动端AI应用使用中遇到的问题:用户对移动端AI应用的整体满意度,以及使用中遇到的问题,如回答不准确、对话不自然等,需要改进的地方包括与办公软件集成、生成内容准确度等。

    移动端AI细分赛道研究

    • 移动端AI应用领域:整体概况:2024年11月移动互联网AI细分赛道数据显示,语言模型应用最受欢迎,活跃用户和使用时长领先。

    • 移动端AI应用:语言模型细分赛道用户行为情况:分析语言模型类应用的用户行为,如豆包、Kimi智能助手、文小言等应用的活跃用户规模和增长趋势,以及用户对这些应用的核心功能需求。
    • 移动端AI应用:智能伴聊细分赛道用户行为情况:智能伴聊类应用用户需求快速增长,星野APP凭借创新的AI社交体验脱颖而出,用户对泛娱乐类应用关注度更高。

    • 移动端AI应用:图像处理细分赛道用户行为情况:图像处理领域用户黏性持续增强,无界AI、图趣AI等头部应用通过差异化功能满足用户需求,细分赛道流量具备增长潜力。
    • 移动端AI应用:智能工具细分赛道用户行为情况:智能工具类赛道用户基数虽小但增长迅速,腾讯元宝等头部互联网企业推出的产品满足用户需求。

    移动端AI应用场景研究

    • 移动端AI应用主要使用场景:分析用户在生活、工作学习、娱乐休闲和亲子教育四大场景中使用移动端AI产品的比例和时间占比。
    • 移动端AI应用主要场景用户画像:展示不同场景下用户的性别、学历、城市等级、收入、职业等特征,如亲子教育场景中高学历人群和高收入人群占比显著。

    • 移动端AI应用使用周期、频率和时长:分析用户在各场景中使用移动端AI应用的周期、频率和单次使用时长,如亲子场景的使用频率更高。
    • 移动端AI应用主要场景使用体验:用户对移动端AI应用的整体评价,以及在不同场景中最认可和最有用的功能,如与办公软件协同、娱乐休闲功能等。

    • 移动端AI应用付费意愿:用户在不同场景下的付费意愿,包括愿意支付的月度费用、付费模式,以及对数据安全保护、专业内容生成等功能的付费意愿。

    AI应用未来展望

    • 技术创新驱动用户体验升级与场景深度融合:随着算法和模型改进,AI回答准确性和对话自然度提升,本地化AI能力增强,隐私保护和响应速度提升,生活和工作学习场景逐渐深化,办公软件协同能力完善,个人专家助手和云端协同功能丰富化,针对高学历用户的垂直领域应用普及,优化教育和办公等专业场景服务,提供一站式解决方案。

    • 商业模式创新与价值提升,细分赛道差异化发展:语言模型、智能伴聊、图像处理等细分赛道通过差异化商业模式和创新服务,实现持续分化发展,如轻量级订阅服务、专业内容生成优化、免费试用+付费进阶等模式。

    • AI应用生态系统完善与普及,市场释放增长潜力:中国AI软件市场规模持续扩大,用户规模增速高,新一线城市市场潜力大,区域服务差异缩小,用户活跃度和时长持续提升,社交媒体等核心渠道不断建设优化,用户教育体系完善,AI应用生态链逐步完善。

    获取《2024年移动端AI应用场景研究报告》 PDF原文件,扫码关注回复: 20250226

  • Anthropic《AI 经济指数报告》38页PDF(中文版)

    哪些经济任务是通过人工智能完成的?来自数百万次 Claude 对话的证据

    作者

    Kunal Handa*, Alex Tamkin*, Miles McCain, Saffron Huang, Esin Durmus

    Sarah Heck, Jared Mueller, Jerry Hong, Stuart Ritchie, Tim Belonax, Kevin K. Troy

    Dario Amodei, Jared Kaplan, Jack Clark, Deep Ganguli

    Anthropic

    摘要:

    尽管关于人工智能对未来工作影响的讨论广泛存在,但我们缺乏关于这些系统如何被用于不同任务的系统性实证证据。本文提出了一个用于衡量经济中人工智能使用模式的新框架。我们利用一个最近的隐私保护系统,分析了超过四百万次 Claude.ai 对话,通过美国劳工部 O*NET 数据库中的任务和职业视角进行分析。我们的分析发现,人工智能的使用主要集中在软件开发和写作任务上,这两者加起来几乎占了所有总使用量的一半。然而,人工智能的使用在经济中更为广泛,约 36% 的职业在其至少四分之一的任务中使用人工智能。我们还分析了人工智能如何被用于任务,发现 57% 的使用表明增强人类能力(例如,学习或迭代输出),而 43% 表明自动化(例如,以最少的人类参与完成请求)。尽管我们的数据和方法面临重要限制,且仅描绘了一个平台上的人工智能使用情况,但它们提供了一种自动化、细致的方法,用于跟踪人工智能在经济中不断演变的角色,并识别这些技术继续进步时对未来的潜在影响。

    获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取

    1. 引言

    人工智能的快速发展对劳动力市场的演变提出了深远的含义。尽管预测和准备这些变化至关重要,但我们缺乏关于人工智能系统如何被整合到经济中的系统性实证证据。现有的方法——无论是开发预测模型 ,还是定期对用户进行调查——都无法跟踪人工智能能力的进步与它们在经济中直接、实际使用之间的动态关系。

    在此,我们提出了一个用于衡量经济中不同任务的人工智能使用的全新实证框架,基于对 Claude.ai 上数百万次真实对话的隐私保护分析。通过将这些对话映射到美国劳工部 O*NET 数据库中的职业类别,我们不仅可以识别当前的使用模式,还可以发现哪些经济领域可能在这些技术继续进步时最受影响的早期迹象。

    我们利用这个框架做出了五个关键贡献:

    1. 提供了首次大规模实证测量,揭示了哪些任务在经济中看到了人工智能的使用(见图1、图2和图3)。我们的分析发现,在软件工程角色(例如软件工程师、数据科学家、生物信息学技术员)的任务中,以及需要大量写作能力的职业(例如技术作家、文案撰写人、档案管理员)和分析角色(例如数据科学家)中,人工智能的使用率最高。相反,涉及对环境进行物理操作的职业(例如麻醉师、建筑工人)的任务目前显示出极少的使用。

    2. 量化了职业内部人工智能使用的深度(见图4)。只有大约4%的职业在其至少75%的任务中使用人工智能,这表明在某些角色中可能存在深度任务级的使用。更广泛地,大约36%的职业在其至少25%的任务中使用人工智能,表明人工智能已经开始扩散到相当一部分劳动力的任务组合中。

    3. 测量了在人类与人工智能对话中哪些职业技能最具代表性(见图5)。认知技能,如阅读理解、写作和批判性思维,显示出较高的存在率,而物理技能(例如安装、设备维护)和管理技能(例如谈判)显示出极小的存在率——反映了人类与当前人工智能能力的明显互补性。

    4. 分析了工资和入职门槛与人工智能使用之间的相关性(见图6和表2)。我们发现,人工智能使用在工资分布的上四分位数达到峰值,但在工资分布的两端都下降。大多数高使用量职业集中在上四分位数,主要对应软件行业职位,而高工资职业(例如医生)和低工资职位(例如餐厅工作人员)显示出相对较低的使用量。这种模式可能反映了当前人工智能能力的限制,以及这些角色固有的物理操作要求,或者两者兼有。对于入职门槛,也出现了类似的模式,使用量在需要相当准备的职业(例如学士学位)中达到峰值,而不是在需要极少或广泛培训的职业中。

    5. 评估了人们是否使用 Claude 来自动化或增强任务(见图7)。我们发现,57%的互动显示出增强模式(例如,对任务进行来回迭代),而43%显示出以自动化为重点的使用(例如,直接执行任务)。尽管这一比例在不同职业中有所不同,但大多数职业在任务中表现出自动化和增强的混合,表明人工智能既是一个效率工具,也是一个协作伙伴。

    我们的方法提供了一种自动化、细致且基于实证的方法,用于跟踪人工智能使用模式,随着人工智能能力和社会使用的发展而演变。这种对新兴趋势的早期可见性为政策制定者和民间社会提供了应对人工智能如何改变工作方式的关键提前时间。然而,我们承认存在多个关键限制(在第4.1节中讨论);例如,我们的使用数据无法揭示 Claude 的输出在实践中是如何被使用的,我们依赖 O*NET 的静态职业描述意味着我们无法考虑人工智能可能创造的全新任务或职业。

    尽管如此,这个框架为理解人工智能对经济的不断演变的影响提供了一个基础。尽管我们的方法并不完美,但它们提供了一种系统性的方式来跟踪使用模式,并识别不同部门经济影响的早期指标。随着人工智能能力和采用的继续进步,我们相信这种实证测量对于理解和准备技术的更广泛的经济影响至关重要。

    2. 背景与相关工作

    我们的研究建立在多条试图建模、衡量和预测人工智能对经济影响的研究线路上。

    经济基础和基于任务的框架 大量经济学文献提出了理论模型,以理解自动化对劳动力市场的影响。最著名的是, 主张通过离散任务的视角来建模劳动力市场,这些任务可以由人类工人或机器完成——例如,调试代码或理发。基于这个框架,Autor [2015] 表明,尽管技术自动化了一些任务,但它们通常会在其他任务中增强人类能力,因为人类和机器之间存在互补性,从而导致对劳动力的需求增加。此外,Acemoglu 和 Restrepo [2018] 使用这个框架探索了一个模型,其中自动化技术可以创造全新的任务,而不仅仅是取代旧任务。

    预测人工智能对劳动力市场的影响 另一分支的研究利用基于任务的框架来预测自动化在未来经济中的普遍程度,通常基于美国劳工部提供的 ONET 职业信息数据库中对任务和职业的描述。例如,Frey 和 Osborne [2017] 将高斯过程分类器应用于 70 个标记职业的数据集,以预测哪些职业容易受到计算机化的威胁。Brynjolfsson et al. [2018a] 聘请人类标注者对 ONET 数据库中的 2069 个详细工作领域进行评级,特别关注它们被机器学习执行的潜力。Webb [2019] 分析了专利文件与工作描述之间的重叠,以预测任务对人工智能的“暴露”程度,发现高教育、高工资职业的暴露程度最高——这一模式部分反映在我们的实证使用数据中,尽管我们发现在中高工资职业中使用量最高,而不是在最高工资水平的职业中。

    人工智能实际使用的真实世界研究 为了补充这些基于人类或机器判断的预测,另一些研究试图收集具体数据,以了解人工智能目前在劳动力市场中的采用情况。例如,2023 年末的研究发现,丹麦暴露职业中有一半的工人使用过 ChatGPT,估计它可以将大约三分之一的任务工作时间减半,而 2024 年 8 月的一项后续研究发现,39% 的美国工作年龄成年人使用过生成式人工智能,其中约四分之一的人每周都在使用 [Bick et al., 2024]。此外,进一步的研究试图衡量这种使用的广度和深度,发现生成式人工智能工具对广泛个体领域的生产力有积极影响,包括软件工程、写作 、客户服务、咨询、翻译 、法律分析和数据科学。

    我们通过结合这些独立的方法,进行了首次对先进人工智能系统如何被用于经济中的任务和职业的全面分析。我们基于任务框架,但与预测潜在影响(职业对人工智能的“暴露”)不同,我们使用 Clio  测量真实世界的使用模式,这是一个最近的系统,能够对主要模型提供商上的数百万次人类模型对话进行隐私保护分析。这使我们能够补充特定领域人工智能生产力效应的对照研究,提供一个全面的视角,了解人工智能如何被整合到经济中的工作。我们的方法能够动态跟踪这些模式,随着人工智能能力和社会采用的演变,揭示当前的使用趋势以及未来扩散的早期迹象。

    3. 方法与分析

    为了了解人工智能系统如何被用于不同的经济任务,我们利用 Clio ,这是一个分析工具,使用 Claude 从数百万次人类模型对话中提供聚合的见解。我们使用 Clio 对对话进行分类,涵盖职业任务、技能和互动模式,揭示这些不同类别的分布。所有分析都基于 2024 年 12 月和 2025 年 1 月期间收集的对话数据。更多细节和提示见附录 B、E 和 F,包括验证我们数据集的组成以及如何在类别数量较多时(例如 O*NET 任务)进行分类。

    3.1 人工智能使用情况的任务级分析

    使用 Clio 对 100 万次 Claude.ai Free 和 Pro 对话的数据集进行分析,我们将每次互动映射到 ONET 数据库中最相关的任务类别。由于 ONET 中有近 20000 个独特的任务陈述,我们使用 Clio 创建了一个任务的分层树,并通过遍历树来进行分配。尽管一个对话通常可以映射到多个有效任务,但我们在将单个对话映射到多个任务时,观察到定性结果非常相似。我们还在附录 B 中提供了更多细节和分析,包括我们如何将对话映射到任务(附录 B.1)、层次创建过程(附录 B.1)、我们对对话级和账户级数据获得类似结果的事实(附录 B.2),以及我们对数据集组成的验证(附录 B.7)。此外,我们讨论了人类对我们任务层次分类的验证(附录 C)以及集群级数据的结果(附录 G)。

    计算机相关任务的人工智能使用量最大,其次是教育和交流背景下的写作任务。为了理解更广泛的模式,我们根据 O*NET 的职业框架对这些任务进行分组——首先将它们映射到特定职业(如计算机网络架构师),然后映射到更广泛的职业类别(如计算机和数学职业)。图 2 展示了这些职业类别的分布,显示了每个组中出现频率最高的职业和任务,而图 3 将这些使用模式与美国劳动力的实际职业分布进行了比较。

    值得注意的是,对话的职业分类并不一定意味着用户是该领域的专业人士。例如,一些关于营养的查询可能来自营养师,但也可能来自寻求个人饮食建议的个人。这种对传统专业任务的广泛访问——即使这些帮助并不完美——可能对这些领域产生重大影响,尽管分析这些影响超出了本研究的范围。我们在第 4.1 节中进一步讨论了这些限制。

    总之,这些数据揭示了一些深刻的道理:

    • 与我们在任务层面的发现一致,计算机和数学职业显示出最高的相关人工智能使用率,占所有查询的 37.2%。相关的人工智能使用率最高,占所有查询的 37.2%。
    • 艺术、设计、娱乐、体育和媒体职业的相关人工智能使用率位居第二(10.3%)。(10.3%),这可能反映了在 Claude.ai 的查询中,市场营销、写作和其他类型的内容生成非常普遍。在 Claude.ai 的流量中,营销、写作和其他类型的内容生成非常普遍。
    • 教育类职业也有很高的比例,包括教育教学和图书馆职业,以及学科类职业。和图书馆职业,以及特定学科的职业,如生命、物理和
    • 社会科学职业。Claude.ai 流量的很大一部分属于商业相关职业: 商业和金融职业、办公室和行政支持职业以及管理职业。
    • 令人惊讶的是,需要体力劳动的职业最少,例如运输和材料搬运职业。运输和材料搬运职业;医疗保健支持职业;以及农业、渔业和林业职业、

    每个职业中有多少任务使用了人工智能?为了评估人工智能在各职业中的融合程度,我们考察了每个职业的任务中有多少出现在我们的 Clio 运行结果中。如图 4 所示,我们发现人工智能任务的使用呈现出严重的偏态分布。只有约 4%的职业在至少 75%的相关任务中使用了人工智能,例如,在外语和文学教师这一职业中(75%的任务),我们观察到人工智能被用于与同事合作解决教学问题以及规划课程内容等任务,但并未用于撰写资助申请或维护学生记录等活动。仅有约 11%的职业在一半或更多的任务中使用了人工智能,比如市场营销经理(50%的任务),我们看到人工智能被用于市场调研分析和战略制定等任务,但未用于产品规格咨询或贸易展览协调等活动。在更低的阈值下,情况有所扩大,约 36%的职业在至少四分之一的任务中使用了人工智能,比如物理治疗师(25%的任务),我们观察到人工智能被用于研究和患者教育等任务,但未用于实际治疗或家庭护理指导等活动。这种分布表明,尽管如今人工智能可能触及许多职业,但在大多数任务中的深度整合仍有待提高。目前,在任何特定职业中实现完全自动化的情况仍然很少见。如今的人工智能似乎主要用于职业中的特定任务,而非完全取代整个工作岗位。

    3.2 职业技能展示

    O*NET 数据库包含 35 种职业技能,这些技能确定了工人在不同工作中执行任务所需的必要能力。这些技能包括批判性思维、复杂问题解决、说服力和设备维护等。我们使用 Clio 来识别与给定 Claude.ai 对话相关的模型所展示的所有职业技能,如图 5 所示。

    直观上,需要身体互动的技能,如安装、设备维护和修理,在 Claude.ai 流量中出现频率最低。相比之下,认知技能如批判性思维、阅读理解、编程和写作出现频率最高。然而,我们的分析只捕捉到技能是否在 Claude 的回应中被展示,而不是该技能是否是用户目的的核心,或者是否以专家水平执行。例如,尽管积极倾听是第二常见的技能,但这可能反映了 Claude 的默认对话行为——例如,重新表述用户输入并提出澄清问题——而不是用户专门寻求以倾听为中心的互动。

    3.3 按工资和入职门槛划分的人工智能使用情况 我们还报告了 O*NET 中另外两个职业维度的趋势:职业的中位工资和其入职门槛(即从事职业所需的准备程度)。

    工资 图 6 显示了人工智能使用情况如何随职业的中位工资而变化。我们发现,使用情况在工资分布的上四分位数中达到峰值,涉及计算机程序员和网页开发人员等计算职业。在工资分布的两端,职业的使用情况较低。例如,服务员和麻醉师(低工资和高工资职业)是数据中代表性最低的职业之一,这与我们发现需要身体互动的技能在数据中最为罕见的发现一致。

    入职门槛 O*NET 数据库中的职业被划分为 1 到 5 的工作区域,这些类别由从事给定职业所需的人类准备程度定义。需要较高教育、经验和培训水平的职业被划分为较高的工作区域。随着工作区域从 1 增加到 4,该区域在我们数据中的代表性也随之增加,达到峰值:需要相当准备的工作区域 4,通常需要四年制学士学位。然而,对于需要广泛准备的工作区域 5,代表性有所下降,其中大多数职业需要高级学位。这些结果清楚地表明,人类的入职门槛可能与语言模型的入职门槛大不相同。有关完整结果,请参阅附录 D.2 和表 2。

    3.4 自动化与增强用户 尽管前面的分析揭示了哪些任务的人工智能使用量最大,但它们并没有告诉我们人工智能是如何被用于这些任务的。经济学文献中的一个关键区别是自动化——技术取代人类劳动——与增强——技术补充并增强人类能力 。为了了解哪种模式更为普遍,我们使用 Clio 将对话分类为五种不同的协作模式(见表 1),分为自动化和增强两大类。

    在与 Claude.ai 的互动中,增强型和自动化型协作行为都存在,其中增强型对话(57%)略多于自动化型(43%)。不过,我们注意到一个重要的注意事项,即用户可能会在聊天窗口之外编辑和调整从 Claude 收到的回应,这表明实际的增强型对话比例可能更高。此外,即使是简单任务的自动化,当嵌入更广泛的人类指导工作流程中时,也可以增强人类能力。

    为了更好地理解这些协作模式在不同职业任务中的分布,我们考虑自动化与增强型行为如何在不同职业任务中有所不同:

    自动化行为 大多数指令性对话由写作和其他内容生成任务组成。在业务相关任务中,如“起草并优化专业商务电子邮件沟通”,以及学校作业相关集群中,如“解决包含计算和证明的多样化几何问题”,指令性对话的比例也很高。大多数反馈循环对话与编码和调试有关,用户反复将收到的错误反馈给模型。

    增强行为 任务迭代对话通常涉及前端开发(如“协助 Web 开发任务和 UI 改进”以及“创建和修改着陆页和关键网站组件”)以及专业沟通任务(例如“优化简历、求职信和工作申请”以及“协助专业和学术写作与沟通”)。学习对话在一般教育任务中出现频率最高,如“解释和分析戒严实施及其影响”、“提供胃肠健康和消化健康建议”以及“协助微控制器编程和嵌入式系统项目”。验证是对话量最小的类别,几乎全部集中在语言翻译任务上。

    3.5 按模型类型划分的使用模式

    随着人工智能能力的演变,了解不同模型如何被使用可以帮助预测不同经济部门的使用变化。我们通过比较两种 Claude 模型的使用模式来探索这一点:2024 年 3 月发布的 Claude 3 Opus 和 2024 年 10 月发布的 Claude 3.5 Sonnet(新)。我们的分析揭示了这些模型使用模式的明显专业化(见图 8)。与 Sonnet 相比,Opus 在创意和教育工作(例如“在电影、电视、戏剧和音乐中进行制作和表演”、“管理书籍和文档出版过程”、“设计和开发全面的教育课程和材料”以及“进行学术研究并传播发现”)中的使用量更高。这些模式与用户对 Opus 独特性格和写作风格的广泛观察一致。相比之下,Claude 3.5 Sonnet(新)更适合编码和软件开发任务(例如“开发和维护软件应用程序和网站”以及“编程和调试计算机系统和机器”),这与外部评估一致,后者强调了其相对较强的编码能力。

    通过在模型版本之间跟踪这些任务级别的使用模式,我们可以更好地了解哪些能力改进推动了不同经济部门人工智能使用的有意义变化。

    4. 讨论

    我们首次对先进人工智能系统如何被用于经济任务进行了大规模实证分析。尽管我们的工作提供了关于人工智能在经济中使用的广泛见解,但我们注意到关键限制和未来研究领域。

    4.1 限制

    数据样本 我们使用了 7 天期间的 Claude.ai Free 和 Pro 对话快照。可能我们的样本并不代表 Claude.ai 在更长时间窗口上的使用情况,而且很可能我们的样本在重要方面与其他人工智能模型提供商的 API 数据或数据不同,因为它们的模型能力、产品功能和用户基础不同。此外,Claude.ai 只输出文本,而不是其他模态。这排除了可能依赖图像或视频输出的关键潜在用户(例如时装设计师)。因此,我们的发现应被视为人工智能在劳动力市场使用情况的不完美快照,同时指出,随着更多研究人员和组织能够分享来自多样化部署环境的使用数据,更广泛的模型互动模式理解将出现。

    模型驱动分类的可靠性 我们使用 Claude 对用户对话进行分类,也可能引入潜在的不一致性,如果模型对任务的理解与 O*NET 数据库中的预期阅读不同。尽管我们进行了人类验证(附录 C),依赖于 Clio 的过去验证[^Tamkin et al., 2024^],并用集群级分析(附录 G)来证实我们的结果,但重要的是要注意,这些分类可能包含一些固有噪声。

    用户查询的复杂性不同 尽管我们努力排除与任何职业任务无关的对话(附录 B),但我们的方法没有考虑用户查询的复杂性——例如,提供基本煎蛋的说明并不表明烹饪专业知识。因此,我们可能通过将新手用户的对话分类为某些任务,高估了某些任务的使用率。

    O*NET 数据库的限制 尽管 ONET 数据库提供了对当前经济部门的宝贵见解,但其静态性质为分析人工智能对劳动力市场的影响带来了关键限制。该数据库无法捕捉人工智能系统(如 Claude)可能创造或转变的新兴任务和职业。此外,尽管 ONET 涵盖了大量的任务,但它无法包含经济中的所有任务。此外,这些任务通常以一般性措辞编写,导致在分类对话时存在固有模糊性——许多任务在多个不同职业中相似。最后,作为一个以美国为中心的分类系统,O*NET 可能会忽略其他地区的显著职业类别和任务,这可能会歪曲我们对全球 Claude.ai 使用情况的分布分析。这限制了我们的分析,因为人工智能使用模式可能因国际背景而异[^Gmyrek et al., 2023^]。

    缺乏对用户工作流程的完整上下文 尽管我们的工作分析了 Claude.ai 上的对话数据,但我们的方法无法捕捉用户如何使用 Claude.ai 对话的输出。例如,我们无法观察用户是否将代码片段复制到开发环境中,将写作建议纳入文档,对回应进行事实核查,还是将输出作为灵感而不是逐字内容。因此,判断 Claude 的输出实际上被用户在其任务中纳入的程度仍然无法实现。我们旨在为这种进一步的研究提供初步框架和发现。

    4.2 意义和未来工作

    尽管承认这些限制,我们的分析揭示了几个关于如何研究和应对人工智能经济影响的关键意义。

    与预测研究的比较 我们的实证发现既验证又挑战了之前关于人工智能对工作影响的预测。Webb 预测在工资分布的 90% 附近的职业中人工智能暴露度最高,而我们发现在中高工资职业中使用量达到峰值,而在工资分布的两端使用量较低。这种模式表明,除了技术可行性之外的因素——如实施成本、监管障碍和组织准备情况——可能正在抑制最高工资部门的采用。Eloundou et al. 预测 80% 的美国工人至少有 10% 的工作任务受到语言模型的影响;相比之下,我们的实证数据显示当前采用率为约 57% 的职业至少有 10% 的任务使用人工智能——低于预测,但随着能力提高和采用障碍减少,可能朝着他们的预测趋势发展。然而,他们对医疗保健等行业较高使用量的预测尚未在我们的数据中实现,我们观察到在科学应用中的使用量比他们预期的要高,这突显了部门特定的扩散障碍以及模型能力的意外发展的影响。这些预测与实际使用之间的差异强调了实证测量在理解人工智能不断演变的经济影响中的重要性,并表明技术可行性本身可能不足以预测人工智能将在经济中被采用的位置和方式。

    人工智能使用的动态跟踪 我们的研究提供了一个框架,用于系统地跟踪人工智能随时间融入劳动力的情况。与捕捉自我报告行为的调查不同,我们的方法揭示了在工作场所自然发生的真实人工智能使用模式,提供了更准确和细致的真正整合图景。这种能力服务于多个关键功能:它能够早期检测新兴使用模式,帮助识别接近技术拐点的部门,并揭示采用障碍可能正在导致行业间扩散不均的地方。通过监测人工智能使用的广度(跨职业)和深度(在特定角色内),政策制定者可以制定有针对性的干预措施——无论是支持显示出有希望的(或落后的)生产力提升的部门,还是解决快速自动化领域的潜在置换效应。动态测量系统为政策制定者和组织提供了应对技术转型的关键提前时间,而不是在已经发生破坏后才做出反应。

    任务级测量 我们的发现突显了在任务级别而不是工作级别分析人工智能使用的的重要性。目前,我们观察到的使用集中在特定任务(例如软件工程、内容创作)上,而不是整个职业的全面自动化。如果这种模式持续存在——人工智能只影响工作中的部分任务——这表明职业将演变而不是消失。然而,如果任务使用的广度不断增长且没有饱和迹象,这可能表明工作场所可能会发生更全面的转变。

    增强与自动化 在受影响的任务中,人工智能系统的使用方式可能差异显著。我们的分析揭示了一个重要的区别:虽然一些用户使用人工智能系统来完全自动化任务,但其他用户则将其用作增强其能力的协作工具。这种区别对工作者和生产力都很重要。当人工智能作为增强合作伙伴而不是替代品时,研究表明生产力得到了提升,同时个人在其工作中保持了有意义的参与[^Noy and Zhang, 2023^][^Peng et al., 2023^][^Cui et al., 2024^]。这些模式可以为政策优先事项提供信息——支持在明显受益的领域开发协作人工智能界面,同时为自动化更普遍的领域做好准备。

    从使用模式到更广泛的影响理解当前人工智能使用模式如何转化为更广泛的经济变化仍然是一个关键挑战。尽管我们的数据揭示了人工智能今天被使用的地方,但从这些早期使用趋势中推断长期后果提出了重大的实证挑战[^Acemoglu et al., 2022^]。例如,某些职业中高使用量可能预示着未来的生产力提升或置换效应,而人工智能使用在不同工资水平上的不均匀分布可能提供了关于人工智能如何重塑经济机会和不平等的早期迹象。尽管我们目前的结果无法明确映射这些关系,但纵向分析跟踪使用模式和结果可能有助于揭示人工智能使用推动工作场所变化的机制。

    总体而言,我们的发现表明人工智能已经在经济中的相当一部分任务中开始使用。我们为跟踪人工智能对工作不断演变的影响提供了这一初步框架,并希望与政策制定者、经济学家和其他利益相关者合作,制定能够将人工智能的好处传播到整个经济中的政策建议。

    5. 结论
    要理解人工智能如何影响经济,就需要将我们的分析基于真实世界的数据。我们对数百万次 Claude.ai 对话的分析揭示了清晰的模式:人工智能使用在软件开发和技术写作中达到峰值,约 4% 的职业在其四分之三的任务中使用人工智能,约 36% 的职业在其至少四分之一的任务中使用人工智能。使用在增强人类能力(57%)和自动化(43%)之间几乎平均分配。尽管这些模式具有信息价值,但它们只捕捉到了人工智能融入工作开始阶段。随着人工智能系统从文本扩展到处理视频、语音以及通过机器人进行物理操作,并且随着人工智能代理能够更自主地执行扩展任务,人机协作的本质将发生巨大变化。可能会围绕这些能力出现新的任务,甚至完全新的职业。动态跟踪这些变化的实证框架对于预测和准备不断演变的工作格局至关重要。未来的挑战不仅在于测量这些变化,还在于利用我们对它们的理解来帮助塑造一个更好的未来。

    6. 致谢
    感谢 Avital Balwit、Landon Goldberg、Logan Graham、Zac Hatfield-Dodds、Andrew Ho、Kamya Jagadish、Rebecca Lee、Liane Lovitt、Jennifer Martinez、Andi Peng、Ankur Rathi、Orowa Sikder、Colt Steele、Janel Thamkul 和 Meg Tong 提出的有益想法、讨论和反馈。此外,我们感谢 Jonathon Hazell、Anders Humlum、Molly Kinder、Anton Korinek、Benjamin Krause、Michael Kremer、John List、Ethan Mollick、Lilach Mollick、Arjun Ramani、Will Rinehart、Robert Seamans、Michael Webb 和 Chenzi Xu 对早期发现和论文草稿的富有成效的评论和讨论。

    参考文献

    D. Acemoglu. 《人工智能的潜在危害》. 国家经济研究局技术报告,2021.

    D. Acemoglu 和 P. Restrepo. 《人与机器之间的竞赛:对增长、要素份额和就业的影响》. 《美国经济评论》,108(6):1488–1542, 2018.

    D. Acemoglu, D. Autor, J. Hazell 和 P. Restrepo. 《人工智能与就业:来自在线职位的证据》. 《劳动经济学杂志》,40:S293 – S340, 2022.

    Anthropic. 《Claude 3 模型家族:Opus、Sonnet、Haiku》. 2024.

    D. H. Autor. 《“任务方法”对劳动力市场的概述》. 《劳动市场研究杂志》,46(3):185–199, 2013.

    D. H. Autor. 《为什么仍然有这么多工作?工作场所自动化的过去与未来》. 《经济展望杂志》,29(3):3–30, 2015.

    D. H. Autor, F. Levy 和 R. J. Murnane. 《近期技术变革的技能内容:实证探索》. 《经济学季刊》,118(4):1279–1333, 2003.

    A. Bick, A. Blandin 和 D. J. Deming. 《生成式人工智能的快速采用》. 国家经济研究局技术报告,2024.

    E. Brynjolfsson, T. Mitchell 和 D. Rock. 《机器能学什么,对职业和经济意味着什么?》. 《AEA 论文与会议记录》,108:43–47. 美国经济协会,2014 Broadway, Suite 305, Nashville, TN 37203, 2018a.

    E. Brynjolfsson, T. Mitchell 和 D. Rock. 《机器能学什么,对职业和经济意味着什么?》. 《AEA 论文与会议记录》,108:43–47, 2018b. DOI: 10.1257/pandp.20181019. URL: https://www.aeaweb.org/articles?id=10.1257/pandp.20181019.

    E. Brynjolfsson, D. Li 和 L. R. Raymond. 《工作中的生成式人工智能》. 国家经济研究局技术报告,2023.

    J. H. Choi 和 D. Schwarcz. 《法律分析中的人工智能辅助:实证研究》. SSRN 可用,2023.

    M. Comunale 和 A. Manera. 《人工智能的经济影响及其监管:学术文献和政策行动综述》. 2024.

    Z. K. Cui, M. Demirer, S. Jaffe, L. Musolff, S. Peng 和 T. Salz. 《生成式人工智能对高技能工作的影响:来自软件开发人员的三项实地实验的证据》. SSRN 可用,2024.

    F. Dell’Acqua, E. McFowland III, E. R. Mollick, H. Lifshitz-Assaf, K. Kellogg, S. Rajendran, L. Krayer, F. Candelon 和 K. R. Lakhani. 《在崎岖的技术前沿导航:人工智能对知识工作者生产力和质量影响的实地实验证据》. 哈佛商学院技术与运营管理系工作论文,(24-013), 2023.

    T. Eloundou, S. Manning, P. Mishkin 和 D. Rock. 《GPTs 是 GPTs:大型语言模型对劳动力市场影响的早期观察》,2023. URL: https://arxiv.org/abs/2303.10130.

    E. Felten, M. Raj 和 R. Seamans. 《像 ChatGPT 这样的语言模型将如何影响职业和行业?》arXiv 预印本 arXiv:2303.01157, 2023.

    C. B. Frey 和 M. A. Osborne. 《就业的未来:工作对计算机化的易感性》. 《技术预测与社会变革》,114:254–280, 2017.

    P. Gmyrek, J. Berg 和 D. Bescond. 《生成式人工智能与工作:对工作数量和质量潜在影响的全球分析》. 国际劳工组织工作论文,2023.

    A. Hering. 《Indeed 的人工智能工作报告:生成式人工智能将如何影响工作以及执行这些工作所需的技能》. Indeed Hiring Lab 研究报告,2023.

    A. Humlum 和 E. Vestergaard. 《ChatGPT 的采用》. 芝加哥大学 Becker Friedman 经济研究所技术报告,2024 年 4 月.

    A. Kilbourne-Quirk. onet-dataviz. https://github.com/adamkq/onet-dataviz, 2019. 一个用于抓取、制表和显示 O*NET 网站工作数据的项目。非商业用途。

    M. Kinder, X. de Souza Briggs, M. Muro 和 S. Liu. 《生成式人工智能、美国工人和未来的工作》. 2024 年 10 月.

    N. Maslej, L. Fattorini, R. Perrault, V. Parli, A. Reuel, E. Brynjolfsson, J. Etchemendy, K. Ligett, T. Lyons, J. Manyika, J. C. Niebles, Y. Shoham, R. Wald 和 J. Clark. 《人工智能指数报告 2024》,2024. URL: https://arxiv.org/abs/2405.19522.

    A. Merali. 《经济生产力的扩展定律:LLM 辅助翻译的实验性证据》. arXiv 预印本 arXiv:2409.02391, 2024.

    A. Mnih 和 G. Hinton. 《可扩展的层次化分布式语言模型》. 《神经信息处理系统会议录》,22nd International Conference on Neural Information Processing Systems, NIPS’08, 页码 1081–1088, Red Hook, NY, USA, 2008. Curran Associates Inc. ISBN 9781605609492.

    F. Morin 和 Y. Bengio. 《层次化概率神经网络语言模型》. 在 R. G. Cowell 和 Z. Ghahramani 编辑的《第十届人工智能与统计国际研讨会论文集》中,卷号 R5,机器学习研究进展,页码 246–252. PMLR, 06–08 Jan 2005. URL: https://proceedings.mlr.press/r5/morin05a.html. 2021 年 3 月 30 日重新发布。

    National Center for ONET Development. ONET OnLine, 2025a. URL: https://www.onetonline.org/. 访问日期:2025-01-17.

    National Center for ONET Development. ONET OnLine, 2025b. URL: https://www.onetonline.org/. 美国劳工部就业与培训管理局 (USDOL/ETA). 采用 CC BY 4.0 许可证。

    S. Noy 和 W. Zhang. 《生成式人工智能的生产力效应的实验性证据》. 《科学》,381(6654):187–192, 2023.

    S. Peng, E. Kalliamvakou, P. Cihon 和 M. Demirer. 《人工智能对开发人员生产力的影响:来自 GitHub Copilot 的证据》. arXiv 预印本 arXiv:2302.06590, 2023.

    N. Reimers 和 I. Gurevych. all-mpnet-base-v2: 基于 MPNet 的句子嵌入模型. https://huggingface.co/sentence-transformers/all-mpnet-base-v2, 2022. 基于 MPNet 的句子变换器模型,训练于超过 10 亿训练对。

    A. Tamkin, M. McCain, K. Handa, E. Durmus, L. Lovitt, A. Rathi, S. Huang, A. Mountfield, J. Hong, S. Ritchie, M. Stern, B. Clarke, L. Goldberg, T. R. Sumers, J. Mueller, W. McEachen, W. Mitchell, S. Carter, J. Clark, J. Kaplan 和 D. Ganguli. 《Clio:隐私保护下对人工智能实际使用的洞察》,2024. URL: https://arxiv.org/abs/2412.13678.

    P. Trammell 和 A. Korinek. 《变革性人工智能下的经济增长》. 国家经济研究局工作论文 31815,2023 年 10 月. URL: http://www.nber.org/papers/w31815.

    U.S. Bureau of Labor Statistics. U.S. Bureau of Labor Statistics. https://data.bls.gov/oes/#/home, 2024.

    US Census Bureau. 《美国收入:2022》. Census.gov, 2022.

    M. Webb. 《人工智能对劳动力市场的影响》. 创新经济学杂志,2019.

    E. Wiles, L. Krayer, M. Abbadi, U. Awasthi, R. Kennedy, P. Mishkin, D. Sack 和 F. Candelon. 《GenAI 作为外骨骼:知识工作者使用 GenAI 学习新技能的实验证据》. SSRN 可用,2024.

    获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取

  • DeepSeek交流纪要(字节内部原文)

    DeepSeek交流纪要

    站长推荐DeepSeek服务器繁忙怎么解决?14个免费R1满血版平替

    观点分享

    DeepSeek做的模型,和基于transformer的模型路径基本上是一致的,没有深度学习框架等的很大区别,DeepSeek核心点是在工程能力上的创新,现在做的模型一方面是理论,另一方面是工程。

    理论和工程方面,公司都盯着理论层面,字节也是一样的,市场上的模型算力有两根曲线,一个是堆叠尽可能多的算力来印证模型结构,所以字节要在海外投入500亿以上的预算,另一条曲线是业务增量。第一根曲线得到比较明确的结论是,如果要进行模型探索和验证,还是需要更多的GPU芯片,基座和AGI的探索投入时间比较长,研发路径可能会出现多种分叉,和海外公司处于战略相持阶段,要针对已有模型进行多轮验证,回到DeepSeek,我们也在做,能力迭代和更新不是他们一家。

    结论1:对于模型结构本身来说,我们不认为DeepSeek能在预训练等阶段能和其他厂商有很大的理论不同;

    结论2:不认为算力采购存在问题,需要更多算力来验证方案,在review和内省的是团队本身,奖励机制和研发架构设计合理性分析,在核心团队激励和层级设计上需要改变激发活力;

    结论3:不存在代差,DeepSeek比Kimi更纯粹,路径比Kimi更精准一些,现在字节在内的很多大厂,在参考DeepSeek路径和模型结构,能够在比较短时间之内拿出镜像版本出来。

    在深度学习路径来说,字节的方案和DeepSeek方案差不多,字节内部也针对MoE架构,注意力优化,豆包pro1.5效果也不错,只不过是闭源,跟DeepSeek很多路径也都一致,预算比较多,没有特别围绕卡的算力做垂类优化,在模型训练阶段比DeepSeek成本高一些,在整个效果上,通义等厂商效果都不一定比DeepSeek差,优化方案可能没有DeepSeek强。

    结论总结:DeepSeek做的最好的事情是路径选择等选型优化,在架构设计中做了很多内容,工程算法等内容成本控制比较优秀,对互联网大厂来说并不是跟不上做不到,只是很长时间内我们没有做,强化学习很多厂商都在做,路径本身并不是DeepSeek一家可以做,让我们最惊讶的是成本端,路径和DeepSeek还是一样的。

    商业化:不是核心本质,和tx战略做沟通时,核心逻辑是用户数量对基座模型没有直接关系,DeepSeek在研发和基座进行投入,对商业化没有什么探索。

    交流探讨

    Q:DeepSeek成本比较低的主要原因?

    A:DeepSeek还是绕不过英伟达的GPU芯片,对于DeepSeek来说,目前阶段绝大多数做模型的公司规避不掉GPU芯片,国产卡很多卡性能不是很强,也没有很多可选,在算力维度来看国内的模型公司算力基座,100%都是英伟达系列,万卡互连对于算力本身的通信、稳定性都有需求,需要对国产芯片做适配,需要国产卡做推理,目前我们投入很多精力做适配验证,除了百度自研昆仑芯,主要的芯片还是使用英伟达,国内绝大多数国产芯片在现在这个时间点内,还没办法承接需求。

    DeepSeek对于万卡互联的需求没有特别高,把工程问题前置,2025年可能因为DeepSeek开源冲击,对于算力结构发生很大变化

    (1)很多企业会因为DeepSeek低成本模型的覆盖,或者方案覆盖,激发二轮训练的需求,在几千张卡互联训练中可以指望国产芯片。之前很多公司放弃自研模型,现在可能会有变化,激发起国内手里有钱的公司进行模型研发

    (2)2025年可能因为国产芯片的可用性,逐步进行转变,艰难的转变到国内的卡,但还是要看水货渠道,如果有渠道,还是会用英伟达

    成本端的问题是核心,很多嵌入了OpenAI接口,或者蒸馏了OpenAI数据等的论调,基本不是很现实,因为成本实在太高;DeepSeek是开源模型,模型效果和训练方式来看,除了数据没有开源,我们可以使用DeepSeek开源论文在本地做复现,完全可以做成垂类模型。

    DeepSeek预训练模型中一点三方数据都没有?不是很确定,但这是惯例,我们可能会使用三方模型内容,进行打分,所有蒸馏侧的数据都是合成数据,DeepSeek和我们一样应该都不会用,他们应该使用的是自建多语言的语聊,我们愿意精选自建数据,蒸馏数据的数据质量不一定可靠,我们更多的要求比较高的数据精度,蒸馏出的数据很多不可用。

    模型训练所需要的成本,23、24年远比推理要高,模型训练沉没成本很高,推理需要看用户量,模型推理算力不如模型训练的核心原因是推理端没有模型增量出来,也就是没有人用,国内很多应用接口没有那么多用户的需求,可能25年会有变化,但在之前很长时间内,模型训练所需的算力都是最大的。推理和训练算力是不一样的,我们不能忽略OpenAI等公司的努力,在模型研发过程中,互联网大厂具备很多价值,我们筛选路径。DeepSeek本质是模型训练的改进。中长期来看,DeepSeek的API成本绝对不会比我们低,推理成本不一定会降低,主要是规模效应


    Q:对于GPU的需求?

    A:内部也在分析,我们通过应用和基座模型进行分析,之前很长时间内,全球模型从业者对于国内模型关注度没有那么高,因为绝大多数研发人员的关注点都在海外,国内只有通义做的还不错,之前很长一段时间,国内开源模型做的也可能不是很好,现在关注度上来了;因为工程能力的优化,理论层面非常富裕,对海外公司的恐慌在于GPU卡是否不需要了,需要更多的芯片进行探索和验证,DeepSeek让我们的路径进行转变,加速了路径的验证和探索的速度
    效果上来说,DeepSeek和OpenAI部分指标差不多,在小语种上有差距,中文不错英文尚可,在小语种和垂类知识回复中,有所受限。DeepSeek开源会对闭源市场产生很大冲击,模型本身不受影响,拉到本地就是自己的,DeepSeek是非常标准的开源模型,所有的组织都可以使用,应用侧主要还是卡不够,并发不够,是因为DeepSeek还是小体量,储备的芯片还是有限,训练和推理是不同的商业模式,推理还是针对垂类,如果使用联网搜索,成本还是大问题,并发也是大问题。豆包1000多个工程师进行优化,DeepSeek没有index页面,不是因为基座模型团队很强,C端应用就会做的很强。国内愿意开放搜索入口的厂商很少,被ban的风险很大,自主话语权很小,体量不是很大的公司会有比较大的问题,DeepSeek应用app不指望变现,对于赚钱和商业化不迫切,基座模型迭代不停就行。


    Q:DeepSeek会不会促进国内应用发展?

    A会使得行业变得更大,大量公司跃跃欲试在搞,之前因为行业增速有所放缓,DeepSeek开源之后会加速决策,生态圈会比较热闹,之前的误区是指望一级市场的投资者扶持大企业,因为花别人钱会有考核,现在造血能力比较强的企业,还有一级市场公司决策会更顺畅些,因为有开源模型作为参考。
    从资源投入来说,之前是寡头,现在是有更多公司拿卡做多轮验证,模型的生意和整个生态不一定会复现24年寡头竞争,25年会更热闹一些。我们也做算力租赁,市场目前也可以印证观点,大家的投入是持续的。

    模型的训练不是一年两年的事情,我们现在3年了,往后延续2年问题不大,不是一时的问题。


    Q:大厂是否会基于DeepSeek进行优化?

    A:会优化,路径上来说优化是一定的,总的算力来说不一定会下降,路径规划来说,目前比较明确,大厂是科研,路径分支都要做验证,小的公司只要沿着我们的脚印去做,我们的力度没有缩减,看到的现象是加速,可能总量还会增加


    Q:海外巨头算力需求是否会降低?

    A:海外巨头基座算力不会投入那么猛,推理侧聊的也都差不多,模型推理可能会增加,模型训练增速会有下滑,但并不会下滑很快。算力投入的北极星指标是有新的好用模型,只要还有,投入就会有;第二个是推理,完全取决于文本、图片、视频等多模态提升,和用户体量等正相关,如果客户越来越多,投入就会越强,我们寄希望于25年推理放量,也只有这样才会加大对推理的投入,整体来说算力本身还是增加的,不会因为DeepSeek而萎缩


    Q:目前硬件成本,训练成本和推理成本的比例?

    A字节现在手里的芯片有10万张,H20有20多万张,H20一半推理一半训练,A/H系列芯片训练。国内的互联网大厂训练还是占多数,我们买到的芯片还是训练卡占绝大多数,字节本身37开,25年可能会有结构性变化,有部分需求会因为文本多模态等起量,字节25年会日均模型调用量从4万亿到40万亿,公司结构方面,Seed不承担任何商业化指标,文本、图形、人形机器人都在这里;中间层是方舟,做模型蒸馏,裁剪量化商业化封装,逻辑上每个公司都是一样的,变成可用模型;再往下就是Flow(豆包,猫箱,眼镜等)都是创新应用团队,第三块是火山引擎。

    25年会有结构性变化,从4万亿日均Token到40万亿增长十倍,4万亿日均Token对应10万张A10/A30/L20/L40,因为12月底4万亿Token中70%都是文本,变成40万亿的时候,芯片占比70%以H20/590/910B/910C为主,剩下30%是L40/5090等,多模态的模型请求会有变化,国产训练卡主要做推理,我们有400多亿在国内,绝大多数用作模型推理,会储备比较多的590,8-10万张,910B有1万多张,910C有4-5万张,24年训练芯片是多于推理芯片的,25年可能会有交点,推理侧模型结构70%是非文本以外的多模态,无论如何即使训练成本下降,但对于推理侧的需求还是比较多的。

    日均40万亿Token,可能需要60万张卡,模型调用分为在线和离线,对于模型应用来说,可能会做削峰填谷,算力调度,小公司可能模型能力不错,输出效果来说不差,但我们可以做削峰填谷来降低推理成本。Token是计量单位,之前是纯文本,图片是1:4000,图像理解是1:1500,文生视频是1秒:150000,所以Token不是字符,文本占用量高的话Token不一定高,业内有两种调用方式,字节选用的是Token,另一种是调用次数,这两种有折算关系,24年初一次调用=800Token,现在一次调用=2000Token,文本24年初占比比较高。


    Q:推理成本受算法影响的程度?

    ADeepSeek的推理成本并不低,定价也不算便宜,字节的价格是比DeepSeek低的。DeepSeek是不赚钱的,定价仍然贵,推理层面字节有规模效应。单次训练成本DeepSeek确实低,同样万卡做推理,DeepSeek目前有2万张左右的训练芯片,最近紧急开发了一些芯片做推理,国内开了1-2万张卡,总的来说并不多,300-400万日活所需要的卡很少,比如1700万DAU,token调用量6000-7000亿,4万亿对应10万张卡,可以直接进行简单换算,开源模型用ToB的API没意义,DeepSeek的DAU差不多800-1000万,日均调用量几千亿规模,卡数总量不过万,DeepSeek优势是训练侧,但没有应用爆发,成本还是下不来的。


    Q:DeepSeek和普通的AIGC有什么区别?

    A:DeepSeek也属于生成式AI,有几个不同:

    第一个是把成本拉低,是llama的1/11,用先进技术把推理速度降低,模型架构和大部分不一样,用细颗粒度MoE,先进模型基本都是邓氏架构,细颗粒度不是首创,阿里也在往这个方向走,这个架构在推理的时候只激活部分参数,在推理机制上引入LLA,市场上有几种,多头注意力等,需要每个参数都参与计算,而DeepSeek只激活低参数,降低成本;

    第二个是训练方法,传统方法是FP32和FP16的混合精度,DeepSeek用FP8参数,比较敏感的组件还是FP16,分布式混合精度是目前做的比较少的,训练方法里面也有工程优化,之前时延导致GPU利用率不是很高,DeepSeek用流水线并行,高效利用通信网络,提升速率;

    第三是编程上面也有很大不一样,此前用CUDA,DeepSeek用PTX,PTX本身是CUDA的一部分,用更细颗粒度来调度底层单元,将硬件调度细化,是传统方法用的比较少的;

    第四是AI Infra,通常集群是三层网络,DeepSeek是两层,通信库降低PCIE消耗,减少GPU内存消耗增高网络通信速度,HF Reduce、分布式文件系统、调度平台用的比较灵活。


    Q:国内所有的训练公司是否可以复制,大幅减少GPU需求?

    ADeepSeek用PTX进行优化,PTX并不是绕过CUDA,是CUDA的一部分,PTX更底层一些,并没有100%用到CUDA标准库,到硬件底部调动硬件模块,还属于CUDA的组件,从这个角度来说是没办法马上复制到昇腾和AMD,PTX技术还是仅限于NVDA,跨生态还是有困难,没有把数据开源,只是把方法开源,方法可以参照,并非100%复制,部分复制的衍生模型会比较快。


    Q:DeepSeek大概降低了多少训练成本?

    A:QWEN没计划这么快发布2.5MAX,大厂本来计划一季度后半期,公开版本最大72B,中间用的卡数量是6000级别的,我们是有A800、H800混合组网,大概是1:3如果要量化的话。


    Q:国内的水平大概如何,和海外相比大概有多少成本降低?

    A:DeepSeek的600万美金是V3模型本身,V3模型是迭代出来的,把之前的模型加起来的话,成本至少是目前的3-5倍,小2000万美金肯定要的,和Llama3相比,大概1:4左右,因为DeepSeek没有太多公开数据,OpenAI主要是6000多张卡3个月以上,肯定是DeepSeek的好几倍。


    Q:当用户量起来之后DeepSeek是否有很大的扩容需求?

    A:在最接近看到的是能力下降,因为用户量增长的比较猛,增长了十几倍,本身是推理集群没有ready,深度推理和联网都用不了了,推理需求上来之后没有做到弹性扩容,暂时关闭了联网功能,从这个角度来看,虽然训练成本低了,杰文斯理论来看,门槛降低之后对算力是利好的,普及度提升,对DeepSeek来说要迅速扩容,不然会损失用户数。


    Q:本质上的框架还是基于英伟达的GPU芯片?

    A是的,还是CUDA生态


    Q:对芯片的依赖度会降低?

    A这个解读肯定是有问题的,他们还是在CUDA上做工作,其他公司没有在PTX上面进行,当大家看到之后,肯定会往这个方向做投入,用算法优化来提升性能,掌握方法之后会起来的很快,硬件的抄袭很困难甚至不可能,未来也会用CUDA来编程,国产在做芯片设计的时候会沿着这个思路去设计芯片,但取代不了。


    Q:国产芯片是否存在一定的成长空间?

    A:有的,低精度没那么大差距,FP8和FP16就可以做训练,芯片硬件差距下,用性能比较差的芯片也可以设计低精度模型,逻辑是通顺的。云计算大厂后面肯定都会支持DeepSeek,在MaaS上上线,2024年国产芯片牵引模型,接下来DeepSeek指引了方向,加上了算法优势,用性能稍微低的芯片来测试模型也是趋势。在接下来2-3个季度,大厂也会发布国产相关方案出来,除了CUDA以外


    Q:推理芯片需求量会增加?

    A:DeepSeek出来之后模型市场有几点变化: 对MaaS有一点冲击,DeepSeek会进入所有MaaS平台; 工具链上,会提供DeepSeek的调优工具; 出现非常多基于DeepSeek的衍生版本,很多都会基于DeepSeek的模型来蒸馏,牵引此前的垂直版本,版本出来之后用比较低的成本部署并商用,推理侧B端和C端商用。目前ToC端推理成本比较贵,现在可以用比较好的方式来获取用户,会出现大量的应用爆发。 DeepSeek出来之后会出很多Agent和AI应用,生态会繁荣起来,要准备足够多的算力来支持。


    Q:训练端的芯片是否会增加?

    A:预训练可能不会增加,后训练可能会增加,但占比没有推理侧高,今年主要还是73开,7还是推理。接下来DeepSeek已经把预训练做完了,接下来后训练做行业垂类模型,老版本迭代进行后训练需求。


    Q:AIDC的需求情况?

    A:AIDC市场即使没有DeepSeek出来,大厂也有预算,字节按照10万亿或者20万亿来消耗,接下来可能会做调整,DeepSeek没有出来之前的预测可能要调整,此后会有增长,总体来看会有更多的增长和需求,业务爆发要比预期快


    Q:优化主要集中在哪些环节?

    A:DeepSeek给我们的指引是,改变了堆算力的想法,把算法的权重增加,用算法来抵消算力不足,工程排第二,通信调度等,第三才是硬件


    Q:DeepSeek产业链和传统的算力产业链有什么增量环节?

    A:分上中下来说,在训练侧会减弱但推理侧会增长,上游需求并不会减少,DeepSeek后续要扩容,还是会带来硬件增长,会有很多基于DeepSeek进行软件开发的需求,比如微调等,比如MaaS平台需求,之前要选很多模型,现在减少了选项;后训练中会用到模型API,有很多要用到R1模型进行深度推理,此前大模型给做科研,研发,分子结构预测等用不到,现在可以用到,所以会出现基于R1的很多需求,接下来会用R1辅助科研等,今年在这个赛道会起来


    Q:是否会降低高性能算力需求?

    A:未来半年会逼着团队降成本,大厂会修改一部分预算assign到算法优化,随着行业掌握方法之后,就会开始新一轮的竞赛,训练成本和推理成本会下降,拉动整个行业增长,所以长期来看英伟达产业链地位并不会有变化。


    Q:阿里本身的MAX大概什么时候发布?

    A:大概提前一个半月发布。


    Q:是否仍然会有囤卡的现象?

    A在算法领先的时间窗口,会被复制和超越,有两个背景,美国会收紧,还有90天缓冲期,如果有渠道的厂商,如果看到了行业逻辑,就会一定去买,有渠道买应该也会买,硬件还是有很大差距。对英伟达来说,一年时间段为维度NVDA还不会有很大的地位变化


    Q:未来行业的趋势?

    A:DeepSeek也发布了多模态模型,能够做图像生成,这样的模型出来之后加快了多模态速度,之后会往多模态去走,端到端多模态以及衍生出来的产品,Token比文本模型多很多,从当下而言,DeepSeek划好了分水岭,开源模型超越闭源模型是趋势,多模态速度普及提升也是一个方向,占比来说多模态的算力消耗是文本模型的10倍左右,推理算力消耗是此前的好几倍


    Q:铜连接需求的变化?

    A铜连接本身做节点级别的链接,会跟着数量来变动,基于我们前期的判断来看,中长期来看,不会减少,机架扩容的时候还是用低成本方式来组网。


    Q:互联网大厂未来的资本开支分配和节奏?

    A:有些是美股上市公司,Q1做下个年度的预算,在讨论大致数字,因为DeepSeek东西插进来之后肯定会重新讨论,ALI之前讨论300亿元,加上液冷、交换机就是460亿,现在在讨论要不要这么多,不会大规模下降,也不会猛增,有一些博弈,大概率技术还是会坚持甚至追加,要财务跟技术共同协商。其他大厂来说,我的预计,百度今年不到100亿,不会猛增,字节最猛,阿里排第三,35%-40%增长,激进一些的话就是50%以上,腾讯排第二。

  • AI编程工具L1-L5分级介绍,GitHub Copilot 仅 L1

    AI编程L1-L5是什么

    AI编程的L1-L5分级体系是对AI编程工具自动化能力的分类,从基础的代码补全到全流程开发,体现了AI在软件开发中的不同应用层次。从L1到L5的工具逐步提升软件开发的自动化程度,降低开发门槛,让开发者能专注于更高层次的任务。

    AI编程L1-L5

    AI编程L1-L5的分级介绍

    L1:代码补全
    • 主要功能:专注于提供代码级别的自动补全,帮助开发者快速输入常见代码片段,简化开发流程,提升效率。
    • 代表产品
      • GitHub Copilot:通过智能建议和代码补全功能,简化编码流程。
      • Tabby:开源的代码补全工具。
      • Codium、Codeium:付费的代码补全工具。
    L2:任务级自动化
    • 主要功能:能根据自然语言描述生成代码片段,支持功能开发、漏洞修复和代码重构。需要高质量的提示和上下文支持,生成准确的代码。
    • 代表产品
      • ChatGPT:基于自然语言描述生成代码片段,支持功能开发、漏洞修复和代码重构。
      • Claude:与ChatGPT类似,支持任务级代码生成。
      • aider:命令行工具,简化提示生成过程。
      • 16x Prompt:桌面应用程序,帮助开发者从LLM中获取高质量代码。
      • CursorContinuePearAI:IDE扩展,将LLM集成到开发环境中。
    L3:项目级自动化
    • 主要功能:可以生成整个项目的代码框架,从需求文档直接生成初步代码。通过与项目管理工具和代码平台集成,实现需求收集、代码生成和部署的自动化。
    • 代表产品
      • Codegen:分析项目需求并生成相关拉取请求。
      • Sweep:实现需求收集、代码生成和部署的自动化。
      • Pythagora:部分开源,支持项目级自动化。
      • v0 by Vercel:生成网站代码,专注于前端开发。
      • Tempo by Tempo Labs:项目级自动化工具。
      • CerebrasCoder:生成网站代码,专注于前端开发。
    L4:从需求到生产
    • 主要功能:能实现从产品需求文档到最终生产部署的全流程自动化。可以管理整个开发活动,包括代码部署和生产环境维护,让非技术人员能快速生成完整的软件产品。
    • 代表产品
      • Devin:实现从需求到生产部署的全流程自动化。
      • Marblism:管理整个开发活动流程,支持非技术人员快速创建软件。
      • Genie:Cosine开发,支持全流程开发。
      • Engine、devlo、Gru:其他L4工具。
    L5:AI开发团队
    • 主要功能:是AI编程的最高级别,涉及多个AI代理协作,模拟完整的开发团队,各自负责项目的不同部分。
    • 代表产品
      • AutoDev:微软提出的AI开发团队概念,目前处于研究阶段。
      • MGX:MetaGPT团队设计,目前处于等待名单阶段。

    AI编程L1-L5的应用场景

    • L1应用场景:适用于简单的代码编写任务,减少手动输入的时间和错误。
    • L2应用场景:处理复杂的开发任务,需要高质量的提示和上下文支持,生成准确的代码。
    • L3应用场景:管理简单项目,生成基础代码,需要人工干预确保代码质量。
    • L4应用场景:非技术人员可以快速生成完整的软件产品,降低开发门槛,提高开发效率。
    • L5应用场景:AI系统能复制整个软件开发团队,在软件创作的各个方面进行编程和协作,实现高度自动化。
  • 智源研究院发布2025十大AI技术趋势

    在2025年伊始,智源研究院提出十个人工智能技术及应用趋势,以剖析科技演进轨迹,洞察未来发展方向,预测关键驱动力,指引人类社会迈向更加智能、美好与互联的未来。

    Trend 1 科学的未来:AI4S驱动科学研究范式变革

    大模型引领下的AI4S(AI for Science),已成为推动科学研究范式变革的关键力量。2024年,科研人员使用AI的比例快速增加,AI对科学研究方法和流程的变革效应也开始显现。

    提升科学研究效率,推动科学研究从聚焦优化特定任务向更复杂、更动态、更交叉的问题发展,大模型赋能下的AI4S都较以往展现出截然不同的效果。2025年,多模态大模型将进一步融入科学研究,赋能多维数据的复杂结构挖掘,辅助科研问题的综合理解与全局分析,为生物医学、气象、材料发现、生命模拟、能源等基础与应用科学的研究开辟新方向。

    Trend 2 “具身智能元年”:具身大小脑和本体的协同进化

    2025年的具身智能,将继续从本体扩展到具身脑的叙事主线,我们可以从三方面有更多期待。在行业格局上,近百家的具身初创或将迎来洗牌,厂商数量开始收敛;在技术路线上,端到端模型继续迭代,小脑大模型的尝试或有突破;在商业变现上,我们也必将看到更多的工业场景下的具身智能应用,部分人形机器人迎来量产。

    Trend 3 “下一个Token预测”:统一的多模态大模型实现更高效AI

    人工智能的本质在于对人的思维的信息过程的模拟,人类对于信息的交互和处理,总是呈现多模态、跨模态的输入输出状态。当前的语言大模型、拼接式的多模态大模型,在对人类思维过程的模拟,存在天然的局限性。从训练之初就打通多模态数据,实现端到端输入和输出的原生多模态技术路线给出了多模态发展的新可能。基于此,训练阶段即对齐视觉、音频、3D等模态的数据,实现多模态的统一,构建原生多模态大模型成为多模态大模型进化的重要方向。

    Trend 4 Scaling Law扩展:RL + LLMs,模型泛化从预训练向后训练、推理迁移

    基于Scaling Law推动基础模型性能提升的训练模式“性价比”持续下降,后训练与特定场景的Scaling law不断被探索。强化学习作为发现后训练、推理阶段的Scaling Law的关键技术,也将会得到更多的应用和创新使用。

    Trend 5 世界模型加速发布,有望成为多模态大模型的下一阶段

    更注重“因果”推理的世界模型赋予AI更高级别的认知和更符合逻辑的推理与决策能力,这种能力不仅能推动AI在自动驾驶、机器人控制及智能制造等前沿领域的深度应用,更有望突破传统的任务边界,探索人机交互的新可能。

    Trend 6 合成数据将成为大模型迭代与应用落地的重要催化剂

    高质量数据将成为大模型进一步Scaling up的发展阻碍。合成数据已经成为基础模型厂商补充数据的首选。合成数据可以降低人工治理和标注的成本,缓解对真实数据的依赖,不再涉及数据隐私问题;提升数据的多样性,有助于提高模型处理长文本和复杂问题的能力。此外,合成数据可以缓解通用数据被大厂垄断,专有数据存在获取成本等问题,促进大模型的应用落地。

    Trend 7 推理优化迭代加速,成为AI Native应用落地的必要条件

    大模型硬件载体从云端向手机、PC等端侧硬件渗透。在这些资源受限(AI算力、内存等)的设备上,大模型的落地应用会面临较大的推理侧的开销限制,对部署资源、用户体验、经济成本等均带来巨大挑战。算法加速和硬件优化技术持续迭代,双轮驱动加速AI Native应用落地。

    Trend 8 重塑产品应用形态,Agentic AI成为产品落地的重要模式

    2025年,更通用、更自主的智能体将重塑产品应用形态,进一步深入工作与生活场景,成为大模型产品落地的重要应用形态。从Chatbot、Copilot到AI Agent、Agentic AI,2023年以来行业对于AI应用形态的理解越发深入。2023年底,AI Agent应用编排框架收敛,Agentic AI概念被提出。从更强调产品概念的Agent,到更强调应用智能程度的Agentic AI,我们在2025年将看到更多智能化程度更高、对业务流程理解更深的多智能体系统在应用侧的落地。

    Trend 9 AI应用热度渐起,Super App花落谁家犹未可知

    近一年时间,生成式模型在图像、视频侧的处理能力得到大幅提升,叠加推理优化带来的降本,Agent/RAG框架、应用编排工具等技术的持续发展,为AI超级应用的落地积基树本。大模型应用从功能点升级,渗透到AI原生的应用构建及AI OS的生态重塑。虽然Super APP花落谁家尚未尘埃落定,但从用户规模、交互频次、停留时长等维度来看,AI应用热度持续攀升,已到应用爆发的黎明前夕。

    Trend 10 模型能力提升与风险预防并重,AI安全治理体系持续完善

    作为复杂系统,大模型的Scaling带来了涌现,但复杂系统特有的涌现结果不可预测、循环反馈等特有属性也对传统工程的安全防护机制带来了挑战。基础模型在自主决策上的持续进步带来了潜在的失控风险,如何引入新的技术监管方法,如何在人工监管上平衡行业发展和风险管控?这对参与AI的各方来说,都是一个值得持续探讨的议题。

    科技的曙光将照耀人类前行的路途。这些技术将在激烈的竞争与协作中相互促进,共同谱写人与智能系统共生共荣的磅礴篇章。而我们作为亲历者,将见证科技为人类文明注入澎湃动能,推动人类能力的边界向更高更远处延伸。站在科技的肩膀上,身可高百尺,手可摘星辰。

  • 讯飞智作亮相央视首届“科晚”, 打造“AI张腾岳”三分钟炫技3种语言

    AI能写文章、能画画、能聊天,这些已经不再新鲜。但你是否想过,AI还能能听见危险的声音、能让课堂更生动,甚至能能用方言朗诵古诗?

    在2024年12月29日晚,中央广播电视总台首届《中国科技创新盛典》(简称“科晚”)上,科大讯飞董事长刘庆峰用一系列精彩的现场演示,向全国观众展现了人工智能赋能千行百业的创新实践,看AI技术如何真正走进百姓生活、服务社会发展。

    作为中央广播电视总台继“春晚”后打造的又一档重点节目,此次科技跨年盛典以“新质生产力”为主题,全面展现2024年中国科技创新的重大成果。科大讯飞作为人工智能企业代表在盛典现场展示其最新的人工智能技术应用成果。

    “AI张腾岳”三分钟炫技3种方言

    当舞台上突然出现“第二个张腾岳”时,现场观众发出阵阵惊叹。这位由讯飞智作打造的 AI 虚拟数字人,不仅与真人主持人神态自若地互动对话,更带来了一场跨越语言与方言的精彩表演。

    图为“AI张腾岳”(左)与主持人张腾岳(右)同台

    “AI 虚拟数字人张腾岳”用陕西、粤语、河南地方言分别演绎《静夜思》《望月怀远》《满江红》等经典诗词,字正腔圆,韵味十足,展现了AI驱动的虚拟数字人技术在多语言多方言表达方面取得的突破性进展。

    图为“AI张腾岳”用陕西方言朗诵《静夜思》

    据介绍,AI张腾岳融合了科大讯飞先进的语音合成、语音识别、语义理解、唇形预测、图像处理等人工智能技术,通过深度学习实现表情、动作的精准还原,配合先进的语音合成技术,使 AI 张腾岳具备自然的表情、流畅的动作和真实的声音表现。

    在今年的科大讯飞全球1024开发者节上,科大讯飞率先发布了超拟人数字人,仅需一张照片就能打造专属形象口型、表情、动作均由大模型自动生成,能够精准匹配文本的意图,进一步降低了虚拟数字人的应用门槛,这些技术都可以在讯飞智作体验。

    当前,讯飞智作的视频配音、新闻视频、培训视频、广告视频也已经广泛应用于媒体、金融、智慧文旅、企业数字化、智慧政务、IP运营多个领域,并与学习强国、新华社、WAIC、中信银行、中国平安等单位建立合作。

    虚拟数字人助力多场景赋能

    当下,技术进步带来的普惠红利正在逐步显现。虚拟数字人开始解锁越来越多的行业应用场景。

    讯飞多场景虚拟数字人+大模型赋能多个领域,从国际赛事巴黎奥运会到非遗文化北京中轴线,从行业活动天津智博会到智慧展厅山东高速,虚拟数字人正在扮演着越来越重要的角色。它们不仅能够进行产品介绍和客户服务,还能够基于大数据和人工智能技术提供更加精准、个性化的服务体验。当前以AI虚拟人交互平台为代表的平台化产品,已在央国企(企业数字化)、教育培训、文化旅游、电子商务、金融服务等多个行业领域内成功落地,其应用的广度与深度均在持续拓展之中。这一成就,正是讯飞虚拟数字人深入产业实践的一个生动写照。

    作为新质生产力代表,虚拟人平台始终坚持践行人工智能+,致力于让虚拟人成为人类伙伴!

  • 人工智能与智能计算的发展

    十四届全国人大常委会专题讲座第十讲讲稿

    人工智能与智能计算的发展

    孙凝晖

    委员长、各位副委员长、秘书长、各位委员:

    人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。2022年11月30日,OpenAI公司推出一款人工智能对话聊天机器人ChatGPT,其出色的自然语言生成能力引起了全世界范围的广泛关注,2个月突破1亿用户,国内外随即掀起了一场大模型浪潮,Gemini文心一言CopilotLLaMASAMSORA等各种大模型如雨后春笋般涌现,2022年也被誉为大模型元年。当前信息时代正加快进入智能计算的发展阶段,人工智能技术上的突破层出不穷,逐渐深入地赋能千行百业,推动人工智能与数据要素成为新质生产力的典型代表。习近平总书记指出,把新一代人工智能作为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量,努力实现高质量发展。党的十八大以来,以习近平同志为核心的党中央高度重视智能经济发展,促进人工智能和实体经济深度融合,为高质量发展注入强劲动力。

    一、计算技术发展简介

    计算技术的发展历史大致可分为四个阶段,算盘的出现标志着人类进入第一代——机械计算时代,第二代——电子计算的标志是出现电子器件与电子计算机,互联网的出现使我们进入第三代——网络计算,当前人类社会正在进入第四阶段——智能计算。

    早期的计算装置是手动辅助计算装置和半自动计算装置,人类计算工具的历史是从公元1200年的中国算盘开始,随后出现了纳皮尔筹(1612年)和滚轮式加法器(1642年),到1672年第一台自动完成四则运算的计算装置——步进计算器诞生了。

    机械计算时期已经出现了现代计算机的一些基本概念。查尔斯∙巴贝奇(Charles Babbage)提出了差分机(1822年)与分析机(1834年)的设计构想,支持自动机械计算。这一时期,编程与程序的概念基本形成,编程的概念起源于雅卡尔提花机,通过打孔卡片控制印花图案,最终演变为通过计算指令的形式来存储所有数学计算步骤;人类历史的第一个程序员是诗人拜伦之女艾达(Ada),她为巴贝奇差分机编写了一组求解伯努利数列的计算指令,这套指令也是人类历史上第一套计算机算法程序,它将硬件和软件分离,第一次出现程序的概念。

    直到在二十世纪上半叶,出现了布尔代数(数学)、图灵机(计算模型) 、冯诺依曼体系结构(架构) 、晶体管(器件)这四个现代计算技术的科学基础。其中,布尔代数用来描述程序和硬件如CPU的底层逻辑;图灵机是一种通用的计算模型,将复杂任务转化为自动计算、不需人工干预的自动化过程;冯诺依曼体系结构提出了构造计算机的三个基本原则:采用二进制逻辑、程序存储执行、以及计算机由运算器、控制器、存储器、输入设备、输出设备这五个基本单元组成;晶体管是构成基本的逻辑电路和存储电路的半导体器件,是建造现代计算机之塔的“砖块”。基于以上科学基础,计算技术得以高速发展,形成规模庞大的产业。

    从1946年世界上第一台电子计算机ENIAC诞生到二十一世纪的今天,已经形成了五类成功的平台型计算系统。当前各领域各种类型的应用,都可以由这五类平台型计算装置支撑。第一类是高性能计算平台,解决了国家核心部门的科学与工程计算问题;第二类是企业计算平台,又称服务器,用于企业级的数据管理、事务处理,当前像百度、阿里和腾讯这些互联网公司的计算平台都属于这一类;第三类是个人电脑平台,以桌面应用的形式出现,人们通过桌面应用与个人电脑交互;第四类是智能手机,主要特点是移动便携,手机通过网络连接数据中心,以互联网应用为主,它们分布式地部署在数据中心和手机终端;第五类是嵌入式计算机,嵌入到工业装备和军事设备,通过实时的控制,保障在确定时间内完成特定任务。这五类装置几乎覆盖了我们信息社会的方方面面,长期以来人们追求的以智能计算应用为中心的第六类平台型计算系统尚未形成。

    现代计算技术的发展大致可以划分为三个时代。IT1.0又称电子计算时代(1950-1970),基本特征是以“机”为中心。计算技术的基本架构形成,随着集成电路工艺的进步,基本计算单元的尺度快速微缩,晶体管密度、计算性能和可靠性不断提升,计算机在科学工程计算、企业数据处理中得到了广泛应用。

    IT2.0又称网络计算时代(1980-2020),以“人”为中心。互联网将人使用的终端与后台的数据中心连接,互联网应用通过智能终端与人进行交互。以亚马逊等为代表的互联网公司提出了云计算的思想,将后台的算力封装成一个公共服务租借给第三方用户,形成了云计算与大数据产业。

    IT3.0又称智能计算时代,始于2020年,与IT2.0相比增加了“物”的概念,即物理世界的各种端侧设备,被数字化、网络化和智能化,实现“人-机-物”三元融合。智能计算时代,除了互联网以外,还有数据基础设施,支撑各类终端通过端边云实现万物互联,终端、物端、边缘、云都嵌入AI,提供与ChatGPT类似的大模型智能服务,最终实现有计算的地方就有AI智能。智能计算带来了巨量的数据、人工智能算法的突破和对算力的爆发性需求。

    二、智能计算发展简介

    智能计算包括人工智能技术与它的计算载体,大致历经了四个阶段,分别为通用计算装置、逻辑推理专家系统深度学习计算系统、大模型计算系统。

    智能计算的起点是通用自动计算装置(1946年)。艾伦·图灵(Alan Turing)和冯·诺依曼(John von Neumann)等科学家,一开始都希望能够模拟人脑处理知识的过程,发明像人脑一样思考的机器,虽未能实现,但却解决了计算的自动化问题。通用自动计算装置的出现,也推动了1956年人工智能(AI)概念的诞生,此后所有人工智能技术的发展都是建立在新一代计算设备与更强的计算能力之上的。

    智能计算发展的第二阶段是逻辑推理专家系统(1990年)。E.A.费根鲍姆(Edward Albert Feigenbaum)等符号智能学派的科学家以逻辑和推理能力自动化为主要目标,提出了能够将知识符号进行逻辑推理的专家系统。人的先验知识以知识符号的形式进入计算机,使计算机能够在特定领域辅助人类进行一定的逻辑判断和决策,但专家系统严重依赖于手工生成的知识库或规则库。这类专家系统的典型代表是日本的五代机和我国863计划支持的306智能计算机主题,日本在逻辑专家系统中采取专用计算平台和Prolog这样的知识推理语言完成应用级推理任务;我国采取了与日本不同的技术路线,以通用计算平台为基础,将智能任务变成人工智能算法,将硬件和系统软件都接入通用计算平台,并催生了曙光、汉王、科大讯飞等一批骨干企业。

    符号计算系统的局限性在于其爆炸的计算时空复杂度,即符号计算系统只能解决线性增长问题,对于高维复杂空间问题是无法求解的,从而限制了能够处理问题的大小。同时因为符号计算系统是基于知识规则建立的,我们又无法对所有的常识用穷举法来进行枚举,它的应用范围就受到了很大的限制。随着第二次AI寒冬的到来,第一代智能计算机逐渐退出历史舞台。

    直到2014年左右,智能计算进阶到第三阶段——深度学习计算系统。以杰弗里·辛顿(Geoffrey Hinton)等为代表的连接智能学派,以学习能力自动化为目标,发明了深度学习等新AI算法。通过深度神经元网络的自动学习,大幅提升了模型统计归纳的能力,在模式识别等应用效果上取得了巨大突破,某些场景的识别精度甚至超越了人类。以人脸识别为例,整个神经网络的训练过程相当于一个网络参数调整的过程,将大量的经过标注的人脸图片数据输入神经网络,然后进行网络间参数调整,让神经网络输出的结果的概率无限逼近真实结果。神经网络输出真实情况的概率越大,参数就越大,从而将知识和规则编码到网络参数中,这样只要数据足够多,就可以对各种大量的常识进行学习,通用性得到极大的提升。连接智能的应用更加广泛,包括语音识别、人脸识别、自动驾驶等。在计算载体方面,中国科学院计算技术研究所2013年提出了国际首个深度学习处理器架构,国际知名的硬件厂商英伟达(NVIDIA)持续发布了多款性能领先的通用GPU芯片,都是深度学习计算系统的典型代表。

    智能计算发展的第四阶段是大模型计算系统(2020年)。在人工智能大模型技术的推动下,智能计算迈向新的高度。2020年,AI从“小模型+判别式”转向“大模型+生成式”,从传统的人脸识别、目标检测、文本分类,升级到如今的文本生成、3D数字人生成、图像生成、语音生成、视频生成。大语言模型在对话系统领域的一个典型应用是OpenAI公司的ChatGPT,它采用预训练基座大语言模型GPT-3,引入3000亿单词的训练语料,相当于互联网上所有英语文字的总和。其基本原理是:通过给它一个输入,让它预测下一个单词来训练模型,通过大量训练提升预测精确度,最终达到向它询问一个问题,大模型产生一个答案,与人即时对话。在基座大模型的基础上,再给它一些提示词进行有监督的指令微调,通过人类的<指令,回复>对逐渐让模型学会如何与人进行多轮对话;最后,通过人为设计和自动生成的奖励函数来进行强化学习迭代,逐步实现大模型与人类价值观的对齐。

    大模型的特点是以“大”取胜,其中有三层含义,(1)参数大,GPT-3就有1700亿个参数;(2)训练数据大,ChatGPT大约用了3000亿个单词,570GB训练数据;(3)算力需求大,GPT-3大约用了上万块V100 GPU进行训练。为满足大模型对智能算力爆炸式增加的需求,国内外都在大规模建设耗资巨大的新型智算中心,英伟达公司也推出了采用256个H100芯片,150TB海量GPU内存等构成的大模型智能计算系统。

    大模型的出现带来了三个变革。一是技术上的规模定律(Scaling Law),即很多AI模型的精度在参数规模超过某个阈值后模型能力快速提升,其原因在科学界还不是非常清楚,有很大的争议。AI模型的性能与模型参数规模、数据集大小、算力总量三个变量成“对数线性关系”,因此可以通过增大模型的规模来不断提高模型的性能。目前最前沿的大模型GPT-4参数量已经达到了万亿到十万亿量级,并且仍在不断增长中;二是产业上算力需求爆炸式增长,千亿参数规模大模型的训练通常需要在数千乃至数万GPU卡上训练2-3个月时间,急剧增加的算力需求带动相关算力企业超高速发展,英伟达的市值接近两万亿美元,对于芯片企业以前从来没有发生过;三是社会上冲击劳动力市场,北京大学国家发展研究院与智联招聘联合发布的《AI大模型对我国劳动力市场潜在影响研究》报告指出,受影响最大的20个职业中财会、销售、文书位于前列,需要与人打交道并提供服务的体力劳动型工作,如人力资源、行政、后勤等反而相对更安全。

    人工智能的技术前沿将朝着以下四个方向发展。第一个前沿方向为多模态大模型。从人类视角出发,人类智能是天然多模态的,人拥有眼、耳、鼻、舌、身、嘴(语言),从AI视角出发,视觉,听觉等也都可以建模为token的序列,可采取与大语言模型相同的方法进行学习,并进一步与语言中的语义进行对齐,实现多模态对齐的智能能力。

    第二个前沿方向为视频生成大模型。OpenAI于2024年2月15日发布文生视频模型SORA,将视频生成时长从几秒钟大幅提升到一分钟,且在分辨率、画面真实度、时序一致性等方面都有显著提升。SORA的最大意义是它具备了世界模型的基本特征,即人类观察世界并进一步预测世界的能力。世界模型是建立在理解世界的基本物理常识(如,水往低处流等)之上,然后观察并预测下一秒将要发生什么事件。虽然SORA要成为世界模型仍然存在很多问题,但可以认为SORA学会了画面想象力和分钟级未来预测能力,这是世界模型的基础特征。

    第三个前沿方向为具身智能。具身智能指有身体并支持与物理世界进行交互的智能体,如机器人、无人车等,通过多模态大模型处理多种传感数据输入,由大模型生成运动指令对智能体进行驱动,替代传统基于规则或者数学公式的运动驱动方式,实现虚拟和现实的深度融合。因此,具有具身智能的机器人,可以聚集人工智能的三大流派:以神经网络为代表的连接主义,以知识工程为代表的符号主义和控制论相关的行为主义,三大流派可以同时作用在一个智能体,这预期会带来新的技术突破。

    第四个前沿方向是AI4R(AI for Research)成为科学发现与技术发明的主要范式。当前科学发现主要依赖于实验和人脑智慧,由人类进行大胆猜想、小心求证,信息技术无论是计算和数据,都只是起到一些辅助和验证的作用。相较于人类,人工智能在记忆力、高维复杂、全视野、推理深度、猜想等方面具有较大优势,是否能以AI为主进行一些科学发现和技术发明,大幅提升人类科学发现的效率,比如主动发现物理学规律、预测蛋白质结构、设计高性能芯片、高效合成新药等。因为人工智能大模型具有全量数据,具备上帝视角,通过深度学习的能力,可以比人向前看更多步数,如能实现从推断(inference)到推理(reasoning)的跃升,人工智能模型就有潜力具备爱因斯坦一样的想象力和科学猜想能力,极大提升人类科学发现的效率,打破人类的认知边界。这才是真正的颠覆所在。

    最后,通用人工智能(Artificial General Intelligence,简称AGI)是一个极具挑战的话题,极具争论性。曾经有一个哲学家和一个神经科学家打赌:25年后(即2023年)科研人员是否能够揭示大脑如何实现意识?当时关于意识有两个流派,一个叫集成信息理论,一个叫全局网络工作空间理论,前者认为意识是由大脑中特定类型神经元连接形成的“结构”,后者指出意识是当信息通过互连网络传播到大脑区域时产生的。2023年,人们通过六个独立实验室进行了对抗性实验,结果与两种理论均不完全匹配,哲学家赢了,神经科学家输了。通过这一场赌约,可以看出人们总是希望人工智能能够了解人类的认知和大脑的奥秘。从物理学的视角看,物理学是对宏观世界有了透彻理解后,从量子物理起步开启了对微观世界的理解。智能世界与物理世界一样,都是具有巨大复杂度的研究对象,AI大模型仍然是通过数据驱动等研究宏观世界的方法,提高机器的智能水平,对智能宏观世界理解并不够,直接到神经系统微观世界寻找答案是困难的。人工智能自诞生以来,一直承载着人类关于智能与意识的种种梦想与幻想,也激励着人们不断探索。

    三、人工智能的安全风险

    人工智能的发展促进了当今世界科技进步的同时,也带来了很多安全风险,要从技术与法规两方面加以应对。

    首先是互联网虚假信息泛滥。这里列举若干场景:一是数字分身。AI Yoon是首个使用 DeepFake 技术合成的官方“候选人”,这个数字人以韩国国民力量党候选人尹锡悦(Yoon Suk-yeol)为原型,借助尹锡悦 20 小时的音频和视频片段、以及其专门为研究人员录制的 3000 多个句子,由当地一家 DeepFake 技术公司创建了虚拟形象 AI Yoon,并在网络上迅速走红。实际上 AI Yoon 表达的内容是由竞选团队撰写的,而不是候选人本人。

    二是伪造视频,尤其是伪造领导人视频引起国际争端,扰乱选举秩序,或引起突发舆情事件,如伪造尼克松宣布第一次登月失败,伪造乌克兰总统泽连斯基宣布“投降”的信息,这些行为导致新闻媒体行业的社会信任衰退。

    三是伪造新闻,主要通过虚假新闻自动生成牟取非法利益,使用ChatGPT生成热点新闻,赚取流量,截至2023年6月30日全球生成伪造新闻网站已达277个,严重扰乱社会秩序。

    四是换脸变声,用于诈骗。如由于AI语音模仿了企业高管的声音,一家香港国际企业因此被骗3500万美元。

    五是生成不雅图片,特别是针对公众人物。如影视明星的色情视频制作,造成不良社会影响。因此,迫切需要发展互联网虚假信息的伪造检测技术。

    其次,AI大模型面临严重可信问题。这些问题包括:(1)“一本正经胡说八道”的事实性错误;(2)以西方价值观叙事,输出政治偏见和错误言论;(3)易被诱导,输出错误知识和有害内容;(4)数据安全问题加重,大模型成为重要敏感数据的诱捕器,ChatGPT将用户输入纳入训练数据库,用于改善ChatGPT,美方能够利用大模型获得公开渠道覆盖不到的中文语料,掌握我们自己都可能不掌握的“中国知识”。因此,迫切需要发展大模型安全监管技术与自己的可信大模型。

    除了技术手段外,人工智能安全保障需要相关立法工作。2021年科技部发布《新一代人工智能伦理规范》,2022年8月,全国信息安全标准化技术委员会发布《信息安全技术 机器学习算法安全评估规范》,2022-2023年,中央网信办先后发布《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《生成式人工智能服务管理办法》等。欧美国家也先后出台法规,2018年5月25日,欧盟出台《通用数据保护条例》,2022年10月4日,美国发布《人工智能权利法案蓝图》,2024年3月13日,欧洲议会通过了欧盟《人工智能法案》。

    我国应加快推进《人工智能法》出台,构建人工智能治理体系,确保人工智能的发展和应用遵循人类共同价值观,促进人机和谐友好;创造有利于人工智能技术研究、开发、应用的政策环境;建立合理披露机制和审计评估机制,理解人工智能机制原理和决策过程;明确人工智能系统的安全责任和问责机制,可追溯责任主体并补救;推动形成公平合理、开放包容的国际人工智能治理规则。

    四、中国智能计算发展困境

    人工智能技术与智能计算产业处于中美科技竞争的焦点,我国在过去几年虽然取得了很大的成绩,但依然面临诸多发展困境,特别是由美国的科技打压政策带来的困难。

    困境一为美国在AI核心能力上长期处于领先地位,中国处于跟踪模式。中国在AI高端人才数量、AI基础算法创新、AI底座大模型能力(大语言模型、文生图模型、文生视频模型)、底座大模型训练数据、底座大模型训练算力等,都与美国存在一定的差距,并且这种差距还将持续很长一段时间。

    困境二为高端算力产品禁售,高端芯片工艺长期被卡。A100,H100,B200等高端智算芯片对华禁售。华为、龙芯、寒武纪、曙光、海光等企业都进入实体清单,它们芯片制造的先进工艺受限,国内可满足规模量产的工艺节点落后国际先进水平2-3代,核心算力芯片的性能落后国际先进水平2-3代。

    困境三为国内智能计算生态孱弱,AI开发框架渗透率不足。英伟达CUDA(Compute Unified Device Architecture, 通用计算设备架构)生态完备,已形成了事实上的垄断。国内生态孱弱,具体表现在:一是研发人员不足,英伟达CUDA生态有近2万人开发,是国内所有智能芯片公司人员总和的20倍;二是开发工具不足,CUDA有550个SDK(Software Development Kit, 软件开发工具包),是国内相关企业的上百倍;三是资金投入不足,英伟达每年投入50亿美元,是国内相关公司的几十倍;四是AI开发框架TensorFlow占据工业类市场,PyTorch占据研究类市场,百度飞桨等国产AI开发框架的开发人员只有国外框架的1/10。更为严重的是国内企业之间山头林立,无法形成合力,从智能应用、开发框架、系统软件、智能芯片,虽然每层都有相关产品,但各层之间没有深度适配,无法形成一个有竞争力的技术体系。

    困境四为AI应用于行业时成本、门槛居高不下。当前我国AI应用主要集中在互联网行业和一些国防领域。AI技术推广应用于各行各业时,特别是从互联网行业迁移到非互联网行业,需要进行大量的定制工作,迁移难度大,单次使用成本高。最后,我国在AI领域的人才数量与实际需求相比也明显不足。

    五、中国如何发展智能计算的道路选择

    人工智能发展的道路选择对我国至关重要,关系到发展的可持续性与最终的国际竞争格局。当前人工智能的使用成本十分高昂,微软Copilot套件要支付每月10美元的使用费用,ChatGPT每天消耗50万千瓦时的电力,英伟达B200芯片价格高达3万美元以上。总体来说,我国应发展用得起、安全可信的人工智能技术,消除我国信息贫困人口、并造福“一带一路”国家;低门槛地赋能各行各业,让我国的优势产业保持竞争力,让相对落后的产业能够大幅地缩小差距。

    选择一:统一技术体系走闭源封闭,还是开源开放的道路?

    支撑智能计算产业的是一个相互紧耦合的技术体系,即由一系列技术标准和知识产权将材料、器件、工艺、芯片、整机、系统软件、应用软件等密切联系在一起的技术整体。我国发展智能计算技术体系存在三条道路:

    一是追赶兼容美国主导的A体系。我国大多数互联网企业走的是GPGPU/CUDA兼容道路,很多芯片领域的创业企业在生态构建上也是尽量与CUDA兼容,这条道路较为现实。由于在算力方面美国对我国工艺和芯片带宽的限制,在算法方面国内生态林立很难形成统一,生态成熟度严重受限,在数据方面中文高质量数据匮乏,这些因素会使得追赶者与领先者的差距很难缩小,一些时候还会进一步拉大。

    二是构建专用封闭的B体系。在军事、气象、司法等专用领域构建企业封闭生态,基于国产成熟工艺生产芯片,相对于底座大模型更加关注特定领域垂直类大模型,训练大模型更多采用领域专有高质量数据等。这条道路易于形成完整可控的技术体系与生态,我国一些大型骨干企业走的是这条道路,它的缺点是封闭,无法凝聚国内大多数力量,也很难实现全球化。

    三是全球共建开源开放的C体系。用开源打破生态垄断,降低企业拥有核心技术的门槛,让每个企业都能低成本地做自己的芯片,形成智能芯片的汪洋大海,满足无处不在的智能需求。用开放形成统一的技术体系,我国企业与全球化力量联合起来共建基于国际标准的统一智能计算软件栈。形成企业竞争前共享机制,共享高质量数据库,共享开源通用底座大模型。对于全球开源生态,我国企业在互联网时代收益良多,我国更多的是使用者,是参与者,在智能时代我国企业在RISC-V+AI开源技术体系上应更多地成为主力贡献者,成为全球化开放共享的主导力量。

    选择二:拼算法模型,还是拼新型基础设施?

    人工智能技术要赋能各行各业,具有典型的长尾效应。我国80%的中小微企业,需要的是低门槛、低价格的智能服务。因此,我国智能计算产业必须建立在新的数据空间基础设施之上,其中关键是我国应率先实现智能要素即数据、算力、算法的全面基础设施化。这项工作可比肩二十世纪初美国信息高速公路计划(即信息基础设施建设)对互联网产业的历史作用。

    信息社会最核心的生产力是网络空间(Cyberspace)。网络空间的演进过程是:从机器一元连接构成的计算空间,演进到人机信息二元连接构成的信息空间,再演进到人机物数据三元连接构成的数据空间。从数据空间看,人工智能的本质是数据的百炼成钢,大模型就是对互联网全量数据进行深度加工后的产物。在数字化时代,在互联网上传输的是信息流,是算力对数据进行粗加工后的结构化抽象;在智能时代,在互联网上传输的是智能流,是算力对数据进行深度加工与精炼后的模型化抽象。智能计算的一个核心特征就是用数值计算、数据分析、人工智能等算法,在算力池中加工海量数据件,得到智能模型,再嵌入到信息世界、物理世界的各个过程中。

    我国政府已经前瞻性地提前布局了新型基础设施,在世界各国竞争中抢占了先机。首先,数据已成为国家战略信息资源。数据具有资源要素与价值加工两重属性,数据的资源要素属性包括生产、获取、传输、汇聚、流通、交易、权属、资产、安全等各个环节,我国应继续加大力度建设国家数据枢纽与数据流通基础设施。

    其次,AI大模型就是数据空间的一类算法基础设施。以通用大模型为基座,构建大模型研发与应用的基础设施,支撑广大企业研发领域专用大模型,服务于机器人、无人驾驶、可穿戴设备、智能家居、智能安防等行业,覆盖长尾应用。

    最后,全国一体化算力网建设在推动算力的基础设施化上发挥了先导作用。算力基础设施化的中国方案,应在大幅度降低算力使用成本和使用门槛的同时,为最广范围覆盖人群提供高通量、高品质的智能服务。算力基础设施的中国方案需要具备“两低一高”,即在供给侧,大幅度降低算力器件、算力设备、网络连接、数据获取、算法模型调用、电力消耗、运营维护、开发部署的总成本,让广大中小企业都消费得起高品质的算力服务,有积极性开发算力网应用;在消费侧,大幅度降低广大用户的算力使用门槛,面向大众的公共服务必须做到易获取、易使用,像水电一样即开即用,像编写网页一样轻松定制算力服务,开发算力网应用。在服务效率侧,中国的算力服务要实现低熵高通量,其中高通量是指在实现高并发度服务的同时,端到端服务的响应时间可满足率高;低熵是指在高并发负载中出现资源无序竞争的情况下,保障系统通量不急剧下降。保障“算得多”对中国尤其重要。

    选择三:AI+着重赋能虚拟经济,还是发力实体经济?

    “AI+”的成效是人工智能价值的试金石。次贷危机后,美国制造业增加值占GDP的比重从1950年的28%降低为2021年的11%,美国制造业在全行业就业人数占比从1979年的35%降低为2022年的8%,可见美国更倾向于回报率更高的虚拟经济,轻视投资成本高且经济回报率低的实体经济。中国倾向于实体经济与虚拟经济同步发展,更加重视发展装备制造、新能源汽车、光伏发电、锂电池、高铁、5G等实体经济。

    相应地美国AI主要应用于虚拟经济和IT基础工具,AI技术也是“脱实向虚”,自2007年以来硅谷不断炒作虚拟现实(Virtual Reality,VR)、元宇宙、区块链、Web3.0、深度学习、AI大模型等,是这个趋势的反映。

    我国的优势在实体经济,制造业全球产业门类最齐全,体系最完整,特点是场景多、私有数据多。我国应精选若干行业加大投入,形成可低门槛全行业推广的范式,如选择装备制造业作为延续优势代表性行业,选择医药业作为快速缩短差距的代表性行业。赋能实体经济的技术难点是AI算法与物理机理的融合。

    人工智能技术成功的关键是能否让一个行业或一个产品的成本大幅下降,从而将用户数与产业规模扩大10倍,产生类似于蒸汽机对于纺织业,智能手机对于互联网业的变革效果。

    我国应走出适合自己的人工智能赋能实体经济的高质量发展道路。

    (主讲人系中国工程院院士,中国科学院计算技术研究所研究员、学术委员会主任)

     

    注释:

    ①模式识别是指用计算的方法根据样本的特征将样本划分到一定的类别中去,是通过计算机用数学方法来研究模式的自动处理和判读,把环境与客体统称为“模式”。 以图像处理与计算机视觉、语音语言信息处理、脑网络组、类脑智能等为主要研究方向。

    ②Token可翻译为词元,指自然语言处理过程中用来表示单词或短语的符号。token可以是单个字符,也可以是多个字符组成的序列。

    ③通用人工智能是指拥有与人类相当甚至超过人类智能的人工智能类型。通用人工智能不仅能像人类一样进行感知、理解、学习和推理等基础思维能力,还能在不同领域灵活应用、快速学习和创造性思考。通用人工智能的研究目标是寻求统一的理论框架来解释各种智能现象。

    ④芯片制造工艺指制造CPU或GPU的制程,即晶体管门电路的尺寸,单位为纳米,目前国际上实现量产的最先进工艺以台积电的3nm为代表。更先进的制造工艺可以使CPU与GPU内部集成更多的晶体管,使处理器具有更多的功能以及更高的性能,面积更小,成本更低等。

    ⑤CUDA是英伟达公司设计研发一种并行计算平台和编程模型,包含了CUDA指令集架构以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA架构编写程序,所编写出的程序可以在支持CUDA的处理器上以超高性能运行。

    ⑥RISC-V(发音为“risk-five”)是一个由美国加州大学伯克利分校发起的开放通用指令集架构,相比于其他付费指令集,RISC-V允许任何人免费地使用RISC-V指令集设计、制造和销售芯片和软件。

    ⑦长尾效应是指那些原来不受到重视的销量小但种类多的产品或服务由于总量巨大,累积起来的总收益超过主流产品的现象。在互联网领域,长尾效应尤为显著。

    ⑧高并发通常指通过设计保证系统能够同时并行处理很多请求。

    编 辑: 张峻铭

    责 编: 于浩

     

    来源: 中国人大网

    2024年04月30日 11:24

    原文链接:http://www.npc.gov.cn/npc/c2/c30834/202404/t20240430_436915.html

  • 极客时间AI免费课 – 4小时快速入门AI大模型

    AI大模型快速入门指南

    极客时间训练营推出的“AI大模型快速入门指南”课程,由LangChain开发者、谷歌开发者专家彭靖田主讲,涵盖AIGC、LangChain、Transformer等核心知识点。课程包括4小时视频教学、大模型技术总览、应用开发学习路径等,旨在帮助开发者掌握大模型核心技术,提升在AI时代的个人竞争力。免费课程包括大模型核心原理讲解、配套资料和永久回放,现在可免费领取。(文末扫码领取)

    AI大模型快速入门指南

    免费入门课主要内容有哪些?

    • AIGC是什么? – 介绍AIGC基本概念和重要性。
    • AI相关岗位及薪酬 – 探讨AI领域的不同岗位及其薪资水平。
    • AI大模型的时代机遇 – 分析当前AI大模型带来的机遇。
    • 提升竞争力 – 如何在AIGC时代提升自己的竞争力。
    • AI大模型四阶技术总览 – 包括提示工程、AI智能体、大模型微调和预训练技术。
      • 提示工程(Prompt Engineering)
      • AI智能体(Agents)
      • 大模型微调(Fine-tuning)
      • 预训练技术(Pre-training)
    • 大模型应用开发学习路径 – 提供学习和发展大模型应用的路径。
    • 大模型应用开发技术贯通 – 详细讲解大模型应用开发的知识体系。
    • 用户问题解答合集回放 – 收集并回答用户关于大模型的常见问题。

    课程资料如何领取?

    课程资料包括:

    • 大模型技术栈知识图《极客时间 AIGC 知识库》
    • 4小时视频教学(免费听、永久回放
    • 课程配套文档资料

    极客时间微信二维码

    微信扫码,免费领取