
哪些经济任务是通过人工智能完成的?来自数百万次 Claude 对话的证据
作者
Kunal Handa*, Alex Tamkin*, Miles McCain, Saffron Huang, Esin Durmus
Sarah Heck, Jared Mueller, Jerry Hong, Stuart Ritchie, Tim Belonax, Kevin K. Troy
Dario Amodei, Jared Kaplan, Jack Clark, Deep Ganguli
Anthropic
摘要:
尽管关于人工智能对未来工作影响的讨论广泛存在,但我们缺乏关于这些系统如何被用于不同任务的系统性实证证据。本文提出了一个用于衡量经济中人工智能使用模式的新框架。我们利用一个最近的隐私保护系统,分析了超过四百万次 Claude.ai 对话,通过美国劳工部 O*NET 数据库中的任务和职业视角进行分析。我们的分析发现,人工智能的使用主要集中在软件开发和写作任务上,这两者加起来几乎占了所有总使用量的一半。然而,人工智能的使用在经济中更为广泛,约 36% 的职业在其至少四分之一的任务中使用人工智能。我们还分析了人工智能如何被用于任务,发现 57% 的使用表明增强人类能力(例如,学习或迭代输出),而 43% 表明自动化(例如,以最少的人类参与完成请求)。尽管我们的数据和方法面临重要限制,且仅描绘了一个平台上的人工智能使用情况,但它们提供了一种自动化、细致的方法,用于跟踪人工智能在经济中不断演变的角色,并识别这些技术继续进步时对未来的潜在影响。

获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取
1. 引言
人工智能的快速发展对劳动力市场的演变提出了深远的含义。尽管预测和准备这些变化至关重要,但我们缺乏关于人工智能系统如何被整合到经济中的系统性实证证据。现有的方法——无论是开发预测模型 ,还是定期对用户进行调查——都无法跟踪人工智能能力的进步与它们在经济中直接、实际使用之间的动态关系。
在此,我们提出了一个用于衡量经济中不同任务的人工智能使用的全新实证框架,基于对 Claude.ai 上数百万次真实对话的隐私保护分析。通过将这些对话映射到美国劳工部 O*NET 数据库中的职业类别,我们不仅可以识别当前的使用模式,还可以发现哪些经济领域可能在这些技术继续进步时最受影响的早期迹象。

我们利用这个框架做出了五个关键贡献:
-
提供了首次大规模实证测量,揭示了哪些任务在经济中看到了人工智能的使用(见图1、图2和图3)。我们的分析发现,在软件工程角色(例如软件工程师、数据科学家、生物信息学技术员)的任务中,以及需要大量写作能力的职业(例如技术作家、文案撰写人、档案管理员)和分析角色(例如数据科学家)中,人工智能的使用率最高。相反,涉及对环境进行物理操作的职业(例如麻醉师、建筑工人)的任务目前显示出极少的使用。
-
量化了职业内部人工智能使用的深度(见图4)。只有大约4%的职业在其至少75%的任务中使用人工智能,这表明在某些角色中可能存在深度任务级的使用。更广泛地,大约36%的职业在其至少25%的任务中使用人工智能,表明人工智能已经开始扩散到相当一部分劳动力的任务组合中。
-
测量了在人类与人工智能对话中哪些职业技能最具代表性(见图5)。认知技能,如阅读理解、写作和批判性思维,显示出较高的存在率,而物理技能(例如安装、设备维护)和管理技能(例如谈判)显示出极小的存在率——反映了人类与当前人工智能能力的明显互补性。
-
分析了工资和入职门槛与人工智能使用之间的相关性(见图6和表2)。我们发现,人工智能使用在工资分布的上四分位数达到峰值,但在工资分布的两端都下降。大多数高使用量职业集中在上四分位数,主要对应软件行业职位,而高工资职业(例如医生)和低工资职位(例如餐厅工作人员)显示出相对较低的使用量。这种模式可能反映了当前人工智能能力的限制,以及这些角色固有的物理操作要求,或者两者兼有。对于入职门槛,也出现了类似的模式,使用量在需要相当准备的职业(例如学士学位)中达到峰值,而不是在需要极少或广泛培训的职业中。
-
评估了人们是否使用 Claude 来自动化或增强任务(见图7)。我们发现,57%的互动显示出增强模式(例如,对任务进行来回迭代),而43%显示出以自动化为重点的使用(例如,直接执行任务)。尽管这一比例在不同职业中有所不同,但大多数职业在任务中表现出自动化和增强的混合,表明人工智能既是一个效率工具,也是一个协作伙伴。
我们的方法提供了一种自动化、细致且基于实证的方法,用于跟踪人工智能使用模式,随着人工智能能力和社会使用的发展而演变。这种对新兴趋势的早期可见性为政策制定者和民间社会提供了应对人工智能如何改变工作方式的关键提前时间。然而,我们承认存在多个关键限制(在第4.1节中讨论);例如,我们的使用数据无法揭示 Claude 的输出在实践中是如何被使用的,我们依赖 O*NET 的静态职业描述意味着我们无法考虑人工智能可能创造的全新任务或职业。
尽管如此,这个框架为理解人工智能对经济的不断演变的影响提供了一个基础。尽管我们的方法并不完美,但它们提供了一种系统性的方式来跟踪使用模式,并识别不同部门经济影响的早期指标。随着人工智能能力和采用的继续进步,我们相信这种实证测量对于理解和准备技术的更广泛的经济影响至关重要。
2. 背景与相关工作
我们的研究建立在多条试图建模、衡量和预测人工智能对经济影响的研究线路上。
经济基础和基于任务的框架 大量经济学文献提出了理论模型,以理解自动化对劳动力市场的影响。最著名的是, 主张通过离散任务的视角来建模劳动力市场,这些任务可以由人类工人或机器完成——例如,调试代码或理发。基于这个框架,Autor [2015] 表明,尽管技术自动化了一些任务,但它们通常会在其他任务中增强人类能力,因为人类和机器之间存在互补性,从而导致对劳动力的需求增加。此外,Acemoglu 和 Restrepo [2018] 使用这个框架探索了一个模型,其中自动化技术可以创造全新的任务,而不仅仅是取代旧任务。
预测人工智能对劳动力市场的影响 另一分支的研究利用基于任务的框架来预测自动化在未来经济中的普遍程度,通常基于美国劳工部提供的 ONET 职业信息数据库中对任务和职业的描述。例如,Frey 和 Osborne [2017] 将高斯过程分类器应用于 70 个标记职业的数据集,以预测哪些职业容易受到计算机化的威胁。Brynjolfsson et al. [2018a] 聘请人类标注者对 ONET 数据库中的 2069 个详细工作领域进行评级,特别关注它们被机器学习执行的潜力。Webb [2019] 分析了专利文件与工作描述之间的重叠,以预测任务对人工智能的“暴露”程度,发现高教育、高工资职业的暴露程度最高——这一模式部分反映在我们的实证使用数据中,尽管我们发现在中高工资职业中使用量最高,而不是在最高工资水平的职业中。
人工智能实际使用的真实世界研究 为了补充这些基于人类或机器判断的预测,另一些研究试图收集具体数据,以了解人工智能目前在劳动力市场中的采用情况。例如,2023 年末的研究发现,丹麦暴露职业中有一半的工人使用过 ChatGPT,估计它可以将大约三分之一的任务工作时间减半,而 2024 年 8 月的一项后续研究发现,39% 的美国工作年龄成年人使用过生成式人工智能,其中约四分之一的人每周都在使用 [Bick et al., 2024]。此外,进一步的研究试图衡量这种使用的广度和深度,发现生成式人工智能工具对广泛个体领域的生产力有积极影响,包括软件工程、写作 、客户服务、咨询、翻译 、法律分析和数据科学。
我们通过结合这些独立的方法,进行了首次对先进人工智能系统如何被用于经济中的任务和职业的全面分析。我们基于任务框架,但与预测潜在影响(职业对人工智能的“暴露”)不同,我们使用 Clio 测量真实世界的使用模式,这是一个最近的系统,能够对主要模型提供商上的数百万次人类模型对话进行隐私保护分析。这使我们能够补充特定领域人工智能生产力效应的对照研究,提供一个全面的视角,了解人工智能如何被整合到经济中的工作。我们的方法能够动态跟踪这些模式,随着人工智能能力和社会采用的演变,揭示当前的使用趋势以及未来扩散的早期迹象。
3. 方法与分析
为了了解人工智能系统如何被用于不同的经济任务,我们利用 Clio ,这是一个分析工具,使用 Claude 从数百万次人类模型对话中提供聚合的见解。我们使用 Clio 对对话进行分类,涵盖职业任务、技能和互动模式,揭示这些不同类别的分布。所有分析都基于 2024 年 12 月和 2025 年 1 月期间收集的对话数据。更多细节和提示见附录 B、E 和 F,包括验证我们数据集的组成以及如何在类别数量较多时(例如 O*NET 任务)进行分类。
3.1 人工智能使用情况的任务级分析
使用 Clio 对 100 万次 Claude.ai Free 和 Pro 对话的数据集进行分析,我们将每次互动映射到 ONET 数据库中最相关的任务类别。由于 ONET 中有近 20000 个独特的任务陈述,我们使用 Clio 创建了一个任务的分层树,并通过遍历树来进行分配。尽管一个对话通常可以映射到多个有效任务,但我们在将单个对话映射到多个任务时,观察到定性结果非常相似。我们还在附录 B 中提供了更多细节和分析,包括我们如何将对话映射到任务(附录 B.1)、层次创建过程(附录 B.1)、我们对对话级和账户级数据获得类似结果的事实(附录 B.2),以及我们对数据集组成的验证(附录 B.7)。此外,我们讨论了人类对我们任务层次分类的验证(附录 C)以及集群级数据的结果(附录 G)。

计算机相关任务的人工智能使用量最大,其次是教育和交流背景下的写作任务。为了理解更广泛的模式,我们根据 O*NET 的职业框架对这些任务进行分组——首先将它们映射到特定职业(如计算机网络架构师),然后映射到更广泛的职业类别(如计算机和数学职业)。图 2 展示了这些职业类别的分布,显示了每个组中出现频率最高的职业和任务,而图 3 将这些使用模式与美国劳动力的实际职业分布进行了比较。
值得注意的是,对话的职业分类并不一定意味着用户是该领域的专业人士。例如,一些关于营养的查询可能来自营养师,但也可能来自寻求个人饮食建议的个人。这种对传统专业任务的广泛访问——即使这些帮助并不完美——可能对这些领域产生重大影响,尽管分析这些影响超出了本研究的范围。我们在第 4.1 节中进一步讨论了这些限制。

总之,这些数据揭示了一些深刻的道理:
- 与我们在任务层面的发现一致,计算机和数学职业显示出最高的相关人工智能使用率,占所有查询的 37.2%。相关的人工智能使用率最高,占所有查询的 37.2%。
- 艺术、设计、娱乐、体育和媒体职业的相关人工智能使用率位居第二(10.3%)。(10.3%),这可能反映了在 Claude.ai 的查询中,市场营销、写作和其他类型的内容生成非常普遍。在 Claude.ai 的流量中,营销、写作和其他类型的内容生成非常普遍。
- 教育类职业也有很高的比例,包括教育教学和图书馆职业,以及学科类职业。和图书馆职业,以及特定学科的职业,如生命、物理和
- 社会科学职业。Claude.ai 流量的很大一部分属于商业相关职业: 商业和金融职业、办公室和行政支持职业以及管理职业。
- 令人惊讶的是,需要体力劳动的职业最少,例如运输和材料搬运职业。运输和材料搬运职业;医疗保健支持职业;以及农业、渔业和林业职业、

每个职业中有多少任务使用了人工智能?为了评估人工智能在各职业中的融合程度,我们考察了每个职业的任务中有多少出现在我们的 Clio 运行结果中。如图 4 所示,我们发现人工智能任务的使用呈现出严重的偏态分布。只有约 4%的职业在至少 75%的相关任务中使用了人工智能,例如,在外语和文学教师这一职业中(75%的任务),我们观察到人工智能被用于与同事合作解决教学问题以及规划课程内容等任务,但并未用于撰写资助申请或维护学生记录等活动。仅有约 11%的职业在一半或更多的任务中使用了人工智能,比如市场营销经理(50%的任务),我们看到人工智能被用于市场调研分析和战略制定等任务,但未用于产品规格咨询或贸易展览协调等活动。在更低的阈值下,情况有所扩大,约 36%的职业在至少四分之一的任务中使用了人工智能,比如物理治疗师(25%的任务),我们观察到人工智能被用于研究和患者教育等任务,但未用于实际治疗或家庭护理指导等活动。这种分布表明,尽管如今人工智能可能触及许多职业,但在大多数任务中的深度整合仍有待提高。目前,在任何特定职业中实现完全自动化的情况仍然很少见。如今的人工智能似乎主要用于职业中的特定任务,而非完全取代整个工作岗位。
3.2 职业技能展示
O*NET 数据库包含 35 种职业技能,这些技能确定了工人在不同工作中执行任务所需的必要能力。这些技能包括批判性思维、复杂问题解决、说服力和设备维护等。我们使用 Clio 来识别与给定 Claude.ai 对话相关的模型所展示的所有职业技能,如图 5 所示。

直观上,需要身体互动的技能,如安装、设备维护和修理,在 Claude.ai 流量中出现频率最低。相比之下,认知技能如批判性思维、阅读理解、编程和写作出现频率最高。然而,我们的分析只捕捉到技能是否在 Claude 的回应中被展示,而不是该技能是否是用户目的的核心,或者是否以专家水平执行。例如,尽管积极倾听是第二常见的技能,但这可能反映了 Claude 的默认对话行为——例如,重新表述用户输入并提出澄清问题——而不是用户专门寻求以倾听为中心的互动。
3.3 按工资和入职门槛划分的人工智能使用情况 我们还报告了 O*NET 中另外两个职业维度的趋势:职业的中位工资和其入职门槛(即从事职业所需的准备程度)。
工资 图 6 显示了人工智能使用情况如何随职业的中位工资而变化。我们发现,使用情况在工资分布的上四分位数中达到峰值,涉及计算机程序员和网页开发人员等计算职业。在工资分布的两端,职业的使用情况较低。例如,服务员和麻醉师(低工资和高工资职业)是数据中代表性最低的职业之一,这与我们发现需要身体互动的技能在数据中最为罕见的发现一致。
入职门槛 O*NET 数据库中的职业被划分为 1 到 5 的工作区域,这些类别由从事给定职业所需的人类准备程度定义。需要较高教育、经验和培训水平的职业被划分为较高的工作区域。随着工作区域从 1 增加到 4,该区域在我们数据中的代表性也随之增加,达到峰值:需要相当准备的工作区域 4,通常需要四年制学士学位。然而,对于需要广泛准备的工作区域 5,代表性有所下降,其中大多数职业需要高级学位。这些结果清楚地表明,人类的入职门槛可能与语言模型的入职门槛大不相同。有关完整结果,请参阅附录 D.2 和表 2。

3.4 自动化与增强用户 尽管前面的分析揭示了哪些任务的人工智能使用量最大,但它们并没有告诉我们人工智能是如何被用于这些任务的。经济学文献中的一个关键区别是自动化——技术取代人类劳动——与增强——技术补充并增强人类能力 。为了了解哪种模式更为普遍,我们使用 Clio 将对话分类为五种不同的协作模式(见表 1),分为自动化和增强两大类。
在与 Claude.ai 的互动中,增强型和自动化型协作行为都存在,其中增强型对话(57%)略多于自动化型(43%)。不过,我们注意到一个重要的注意事项,即用户可能会在聊天窗口之外编辑和调整从 Claude 收到的回应,这表明实际的增强型对话比例可能更高。此外,即使是简单任务的自动化,当嵌入更广泛的人类指导工作流程中时,也可以增强人类能力。
为了更好地理解这些协作模式在不同职业任务中的分布,我们考虑自动化与增强型行为如何在不同职业任务中有所不同:

自动化行为 大多数指令性对话由写作和其他内容生成任务组成。在业务相关任务中,如“起草并优化专业商务电子邮件沟通”,以及学校作业相关集群中,如“解决包含计算和证明的多样化几何问题”,指令性对话的比例也很高。大多数反馈循环对话与编码和调试有关,用户反复将收到的错误反馈给模型。
增强行为 任务迭代对话通常涉及前端开发(如“协助 Web 开发任务和 UI 改进”以及“创建和修改着陆页和关键网站组件”)以及专业沟通任务(例如“优化简历、求职信和工作申请”以及“协助专业和学术写作与沟通”)。学习对话在一般教育任务中出现频率最高,如“解释和分析戒严实施及其影响”、“提供胃肠健康和消化健康建议”以及“协助微控制器编程和嵌入式系统项目”。验证是对话量最小的类别,几乎全部集中在语言翻译任务上。

3.5 按模型类型划分的使用模式
随着人工智能能力的演变,了解不同模型如何被使用可以帮助预测不同经济部门的使用变化。我们通过比较两种 Claude 模型的使用模式来探索这一点:2024 年 3 月发布的 Claude 3 Opus 和 2024 年 10 月发布的 Claude 3.5 Sonnet(新)。我们的分析揭示了这些模型使用模式的明显专业化(见图 8)。与 Sonnet 相比,Opus 在创意和教育工作(例如“在电影、电视、戏剧和音乐中进行制作和表演”、“管理书籍和文档出版过程”、“设计和开发全面的教育课程和材料”以及“进行学术研究并传播发现”)中的使用量更高。这些模式与用户对 Opus 独特性格和写作风格的广泛观察一致。相比之下,Claude 3.5 Sonnet(新)更适合编码和软件开发任务(例如“开发和维护软件应用程序和网站”以及“编程和调试计算机系统和机器”),这与外部评估一致,后者强调了其相对较强的编码能力。
通过在模型版本之间跟踪这些任务级别的使用模式,我们可以更好地了解哪些能力改进推动了不同经济部门人工智能使用的有意义变化。
4. 讨论
我们首次对先进人工智能系统如何被用于经济任务进行了大规模实证分析。尽管我们的工作提供了关于人工智能在经济中使用的广泛见解,但我们注意到关键限制和未来研究领域。
4.1 限制
数据样本 我们使用了 7 天期间的 Claude.ai Free 和 Pro 对话快照。可能我们的样本并不代表 Claude.ai 在更长时间窗口上的使用情况,而且很可能我们的样本在重要方面与其他人工智能模型提供商的 API 数据或数据不同,因为它们的模型能力、产品功能和用户基础不同。此外,Claude.ai 只输出文本,而不是其他模态。这排除了可能依赖图像或视频输出的关键潜在用户(例如时装设计师)。因此,我们的发现应被视为人工智能在劳动力市场使用情况的不完美快照,同时指出,随着更多研究人员和组织能够分享来自多样化部署环境的使用数据,更广泛的模型互动模式理解将出现。
模型驱动分类的可靠性 我们使用 Claude 对用户对话进行分类,也可能引入潜在的不一致性,如果模型对任务的理解与 O*NET 数据库中的预期阅读不同。尽管我们进行了人类验证(附录 C),依赖于 Clio 的过去验证[^Tamkin et al., 2024^],并用集群级分析(附录 G)来证实我们的结果,但重要的是要注意,这些分类可能包含一些固有噪声。
用户查询的复杂性不同 尽管我们努力排除与任何职业任务无关的对话(附录 B),但我们的方法没有考虑用户查询的复杂性——例如,提供基本煎蛋的说明并不表明烹饪专业知识。因此,我们可能通过将新手用户的对话分类为某些任务,高估了某些任务的使用率。
O*NET 数据库的限制 尽管 ONET 数据库提供了对当前经济部门的宝贵见解,但其静态性质为分析人工智能对劳动力市场的影响带来了关键限制。该数据库无法捕捉人工智能系统(如 Claude)可能创造或转变的新兴任务和职业。此外,尽管 ONET 涵盖了大量的任务,但它无法包含经济中的所有任务。此外,这些任务通常以一般性措辞编写,导致在分类对话时存在固有模糊性——许多任务在多个不同职业中相似。最后,作为一个以美国为中心的分类系统,O*NET 可能会忽略其他地区的显著职业类别和任务,这可能会歪曲我们对全球 Claude.ai 使用情况的分布分析。这限制了我们的分析,因为人工智能使用模式可能因国际背景而异[^Gmyrek et al., 2023^]。
缺乏对用户工作流程的完整上下文 尽管我们的工作分析了 Claude.ai 上的对话数据,但我们的方法无法捕捉用户如何使用 Claude.ai 对话的输出。例如,我们无法观察用户是否将代码片段复制到开发环境中,将写作建议纳入文档,对回应进行事实核查,还是将输出作为灵感而不是逐字内容。因此,判断 Claude 的输出实际上被用户在其任务中纳入的程度仍然无法实现。我们旨在为这种进一步的研究提供初步框架和发现。
4.2 意义和未来工作
尽管承认这些限制,我们的分析揭示了几个关于如何研究和应对人工智能经济影响的关键意义。
与预测研究的比较 我们的实证发现既验证又挑战了之前关于人工智能对工作影响的预测。Webb 预测在工资分布的 90% 附近的职业中人工智能暴露度最高,而我们发现在中高工资职业中使用量达到峰值,而在工资分布的两端使用量较低。这种模式表明,除了技术可行性之外的因素——如实施成本、监管障碍和组织准备情况——可能正在抑制最高工资部门的采用。Eloundou et al. 预测 80% 的美国工人至少有 10% 的工作任务受到语言模型的影响;相比之下,我们的实证数据显示当前采用率为约 57% 的职业至少有 10% 的任务使用人工智能——低于预测,但随着能力提高和采用障碍减少,可能朝着他们的预测趋势发展。然而,他们对医疗保健等行业较高使用量的预测尚未在我们的数据中实现,我们观察到在科学应用中的使用量比他们预期的要高,这突显了部门特定的扩散障碍以及模型能力的意外发展的影响。这些预测与实际使用之间的差异强调了实证测量在理解人工智能不断演变的经济影响中的重要性,并表明技术可行性本身可能不足以预测人工智能将在经济中被采用的位置和方式。
人工智能使用的动态跟踪 我们的研究提供了一个框架,用于系统地跟踪人工智能随时间融入劳动力的情况。与捕捉自我报告行为的调查不同,我们的方法揭示了在工作场所自然发生的真实人工智能使用模式,提供了更准确和细致的真正整合图景。这种能力服务于多个关键功能:它能够早期检测新兴使用模式,帮助识别接近技术拐点的部门,并揭示采用障碍可能正在导致行业间扩散不均的地方。通过监测人工智能使用的广度(跨职业)和深度(在特定角色内),政策制定者可以制定有针对性的干预措施——无论是支持显示出有希望的(或落后的)生产力提升的部门,还是解决快速自动化领域的潜在置换效应。动态测量系统为政策制定者和组织提供了应对技术转型的关键提前时间,而不是在已经发生破坏后才做出反应。
任务级测量 我们的发现突显了在任务级别而不是工作级别分析人工智能使用的的重要性。目前,我们观察到的使用集中在特定任务(例如软件工程、内容创作)上,而不是整个职业的全面自动化。如果这种模式持续存在——人工智能只影响工作中的部分任务——这表明职业将演变而不是消失。然而,如果任务使用的广度不断增长且没有饱和迹象,这可能表明工作场所可能会发生更全面的转变。
增强与自动化 在受影响的任务中,人工智能系统的使用方式可能差异显著。我们的分析揭示了一个重要的区别:虽然一些用户使用人工智能系统来完全自动化任务,但其他用户则将其用作增强其能力的协作工具。这种区别对工作者和生产力都很重要。当人工智能作为增强合作伙伴而不是替代品时,研究表明生产力得到了提升,同时个人在其工作中保持了有意义的参与[^Noy and Zhang, 2023^][^Peng et al., 2023^][^Cui et al., 2024^]。这些模式可以为政策优先事项提供信息——支持在明显受益的领域开发协作人工智能界面,同时为自动化更普遍的领域做好准备。
从使用模式到更广泛的影响理解当前人工智能使用模式如何转化为更广泛的经济变化仍然是一个关键挑战。尽管我们的数据揭示了人工智能今天被使用的地方,但从这些早期使用趋势中推断长期后果提出了重大的实证挑战[^Acemoglu et al., 2022^]。例如,某些职业中高使用量可能预示着未来的生产力提升或置换效应,而人工智能使用在不同工资水平上的不均匀分布可能提供了关于人工智能如何重塑经济机会和不平等的早期迹象。尽管我们目前的结果无法明确映射这些关系,但纵向分析跟踪使用模式和结果可能有助于揭示人工智能使用推动工作场所变化的机制。
总体而言,我们的发现表明人工智能已经在经济中的相当一部分任务中开始使用。我们为跟踪人工智能对工作不断演变的影响提供了这一初步框架,并希望与政策制定者、经济学家和其他利益相关者合作,制定能够将人工智能的好处传播到整个经济中的政策建议。
5. 结论
要理解人工智能如何影响经济,就需要将我们的分析基于真实世界的数据。我们对数百万次 Claude.ai 对话的分析揭示了清晰的模式:人工智能使用在软件开发和技术写作中达到峰值,约 4% 的职业在其四分之三的任务中使用人工智能,约 36% 的职业在其至少四分之一的任务中使用人工智能。使用在增强人类能力(57%)和自动化(43%)之间几乎平均分配。尽管这些模式具有信息价值,但它们只捕捉到了人工智能融入工作开始阶段。随着人工智能系统从文本扩展到处理视频、语音以及通过机器人进行物理操作,并且随着人工智能代理能够更自主地执行扩展任务,人机协作的本质将发生巨大变化。可能会围绕这些能力出现新的任务,甚至完全新的职业。动态跟踪这些变化的实证框架对于预测和准备不断演变的工作格局至关重要。未来的挑战不仅在于测量这些变化,还在于利用我们对它们的理解来帮助塑造一个更好的未来。
6. 致谢
感谢 Avital Balwit、Landon Goldberg、Logan Graham、Zac Hatfield-Dodds、Andrew Ho、Kamya Jagadish、Rebecca Lee、Liane Lovitt、Jennifer Martinez、Andi Peng、Ankur Rathi、Orowa Sikder、Colt Steele、Janel Thamkul 和 Meg Tong 提出的有益想法、讨论和反馈。此外,我们感谢 Jonathon Hazell、Anders Humlum、Molly Kinder、Anton Korinek、Benjamin Krause、Michael Kremer、John List、Ethan Mollick、Lilach Mollick、Arjun Ramani、Will Rinehart、Robert Seamans、Michael Webb 和 Chenzi Xu 对早期发现和论文草稿的富有成效的评论和讨论。
参考文献
D. Acemoglu. 《人工智能的潜在危害》. 国家经济研究局技术报告,2021.
D. Acemoglu 和 P. Restrepo. 《人与机器之间的竞赛:对增长、要素份额和就业的影响》. 《美国经济评论》,108(6):1488–1542, 2018.
D. Acemoglu, D. Autor, J. Hazell 和 P. Restrepo. 《人工智能与就业:来自在线职位的证据》. 《劳动经济学杂志》,40:S293 – S340, 2022.
Anthropic. 《Claude 3 模型家族:Opus、Sonnet、Haiku》. 2024.
D. H. Autor. 《“任务方法”对劳动力市场的概述》. 《劳动市场研究杂志》,46(3):185–199, 2013.
D. H. Autor. 《为什么仍然有这么多工作?工作场所自动化的过去与未来》. 《经济展望杂志》,29(3):3–30, 2015.
D. H. Autor, F. Levy 和 R. J. Murnane. 《近期技术变革的技能内容:实证探索》. 《经济学季刊》,118(4):1279–1333, 2003.
A. Bick, A. Blandin 和 D. J. Deming. 《生成式人工智能的快速采用》. 国家经济研究局技术报告,2024.
E. Brynjolfsson, T. Mitchell 和 D. Rock. 《机器能学什么,对职业和经济意味着什么?》. 《AEA 论文与会议记录》,108:43–47. 美国经济协会,2014 Broadway, Suite 305, Nashville, TN 37203, 2018a.
E. Brynjolfsson, T. Mitchell 和 D. Rock. 《机器能学什么,对职业和经济意味着什么?》. 《AEA 论文与会议记录》,108:43–47, 2018b. DOI: 10.1257/pandp.20181019. URL: https://www.aeaweb.org/articles?id=10.1257/pandp.20181019.
E. Brynjolfsson, D. Li 和 L. R. Raymond. 《工作中的生成式人工智能》. 国家经济研究局技术报告,2023.
J. H. Choi 和 D. Schwarcz. 《法律分析中的人工智能辅助:实证研究》. SSRN 可用,2023.
M. Comunale 和 A. Manera. 《人工智能的经济影响及其监管:学术文献和政策行动综述》. 2024.
Z. K. Cui, M. Demirer, S. Jaffe, L. Musolff, S. Peng 和 T. Salz. 《生成式人工智能对高技能工作的影响:来自软件开发人员的三项实地实验的证据》. SSRN 可用,2024.
F. Dell’Acqua, E. McFowland III, E. R. Mollick, H. Lifshitz-Assaf, K. Kellogg, S. Rajendran, L. Krayer, F. Candelon 和 K. R. Lakhani. 《在崎岖的技术前沿导航:人工智能对知识工作者生产力和质量影响的实地实验证据》. 哈佛商学院技术与运营管理系工作论文,(24-013), 2023.
T. Eloundou, S. Manning, P. Mishkin 和 D. Rock. 《GPTs 是 GPTs:大型语言模型对劳动力市场影响的早期观察》,2023. URL: https://arxiv.org/abs/2303.10130.
E. Felten, M. Raj 和 R. Seamans. 《像 ChatGPT 这样的语言模型将如何影响职业和行业?》arXiv 预印本 arXiv:2303.01157, 2023.
C. B. Frey 和 M. A. Osborne. 《就业的未来:工作对计算机化的易感性》. 《技术预测与社会变革》,114:254–280, 2017.
P. Gmyrek, J. Berg 和 D. Bescond. 《生成式人工智能与工作:对工作数量和质量潜在影响的全球分析》. 国际劳工组织工作论文,2023.
A. Hering. 《Indeed 的人工智能工作报告:生成式人工智能将如何影响工作以及执行这些工作所需的技能》. Indeed Hiring Lab 研究报告,2023.
A. Humlum 和 E. Vestergaard. 《ChatGPT 的采用》. 芝加哥大学 Becker Friedman 经济研究所技术报告,2024 年 4 月.
A. Kilbourne-Quirk. onet-dataviz. https://github.com/adamkq/onet-dataviz, 2019. 一个用于抓取、制表和显示 O*NET 网站工作数据的项目。非商业用途。
M. Kinder, X. de Souza Briggs, M. Muro 和 S. Liu. 《生成式人工智能、美国工人和未来的工作》. 2024 年 10 月.
N. Maslej, L. Fattorini, R. Perrault, V. Parli, A. Reuel, E. Brynjolfsson, J. Etchemendy, K. Ligett, T. Lyons, J. Manyika, J. C. Niebles, Y. Shoham, R. Wald 和 J. Clark. 《人工智能指数报告 2024》,2024. URL: https://arxiv.org/abs/2405.19522.
A. Merali. 《经济生产力的扩展定律:LLM 辅助翻译的实验性证据》. arXiv 预印本 arXiv:2409.02391, 2024.
A. Mnih 和 G. Hinton. 《可扩展的层次化分布式语言模型》. 《神经信息处理系统会议录》,22nd International Conference on Neural Information Processing Systems, NIPS’08, 页码 1081–1088, Red Hook, NY, USA, 2008. Curran Associates Inc. ISBN 9781605609492.
F. Morin 和 Y. Bengio. 《层次化概率神经网络语言模型》. 在 R. G. Cowell 和 Z. Ghahramani 编辑的《第十届人工智能与统计国际研讨会论文集》中,卷号 R5,机器学习研究进展,页码 246–252. PMLR, 06–08 Jan 2005. URL: https://proceedings.mlr.press/r5/morin05a.html. 2021 年 3 月 30 日重新发布。
National Center for ONET Development. ONET OnLine, 2025a. URL: https://www.onetonline.org/. 访问日期:2025-01-17.
National Center for ONET Development. ONET OnLine, 2025b. URL: https://www.onetonline.org/. 美国劳工部就业与培训管理局 (USDOL/ETA). 采用 CC BY 4.0 许可证。
S. Noy 和 W. Zhang. 《生成式人工智能的生产力效应的实验性证据》. 《科学》,381(6654):187–192, 2023.
S. Peng, E. Kalliamvakou, P. Cihon 和 M. Demirer. 《人工智能对开发人员生产力的影响:来自 GitHub Copilot 的证据》. arXiv 预印本 arXiv:2302.06590, 2023.
N. Reimers 和 I. Gurevych. all-mpnet-base-v2: 基于 MPNet 的句子嵌入模型. https://huggingface.co/sentence-transformers/all-mpnet-base-v2, 2022. 基于 MPNet 的句子变换器模型,训练于超过 10 亿训练对。
A. Tamkin, M. McCain, K. Handa, E. Durmus, L. Lovitt, A. Rathi, S. Huang, A. Mountfield, J. Hong, S. Ritchie, M. Stern, B. Clarke, L. Goldberg, T. R. Sumers, J. Mueller, W. McEachen, W. Mitchell, S. Carter, J. Clark, J. Kaplan 和 D. Ganguli. 《Clio:隐私保护下对人工智能实际使用的洞察》,2024. URL: https://arxiv.org/abs/2412.13678.
P. Trammell 和 A. Korinek. 《变革性人工智能下的经济增长》. 国家经济研究局工作论文 31815,2023 年 10 月. URL: http://www.nber.org/papers/w31815.
U.S. Bureau of Labor Statistics. U.S. Bureau of Labor Statistics. https://data.bls.gov/oes/#/home, 2024.
US Census Bureau. 《美国收入:2022》. Census.gov, 2022.
M. Webb. 《人工智能对劳动力市场的影响》. 创新经济学杂志,2019.
E. Wiles, L. Krayer, M. Abbadi, U. Awasthi, R. Kennedy, P. Mishkin, D. Sack 和 F. Candelon. 《GenAI 作为外骨骼:知识工作者使用 GenAI 学习新技能的实验证据》. SSRN 可用,2024.

获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取