Blog

  • HumanDiT – 浙大联合字节推出的姿态引导人体视频生成框架

    HumanDiT是什么

    HumanDiT 是浙江大学和字节跳动联合提出的姿态引导的高保真人体视频生成框架。基于扩散变换器(Diffusion Transformer,DiT),能在大规模数据集上训练,生成具有精细身体渲染的长序列人体运动视频。HumanDiT 的核心优势在于姿态引导机制,通过关键点扩散变换器(Keypoint-DiT)生成后续姿态序列,保证视频中人体动作的连贯性和自然性。引入了前缀潜在参考策略,在长序列中保持个性化特征。 HumanDiT 支持多种视频分辨率和可变序列长度,适合长序列视频生成。基于姿态适配器实现给定序列的姿态转移,进一步提升了姿态对齐的准确性。

    HumanDiT

    HumanDiT的主要功能

    • 姿态引导的视频生成:HumanDiT 基于关键点扩散变换器(Keypoint-DiT)生成后续姿态序列,确保视频中人体动作的连贯性和自然性。
    • 长序列视频生成:支持多种视频分辨率和可变序列长度,适合生成长序列的高质量视频。
    • 个性化特征保持:通过前缀潜在参考策略,在长序列中保持个性化特征。
    • 灵活的输入与输出:能从静态图像或现有视频中继续生成视频,适用于多种应用场景。
    • 姿态适配与细化:基于姿态适配器实现给定序列的姿态转移,通过姿态细化模块增强面部和手部特征与参考图像的对齐效果。

    HumanDiT的技术原理

    • 姿态引导与扩散变换器:HumanDiT 通过姿态引导的方式生成视频,基于关键点扩散变换器(Keypoint-DiT)在推理阶段生成后续的姿态序列。确保了视频中人体动作的连贯性和自然性,同时扩散变换器能够处理不同分辨率和序列长度的视频。
    • 前缀潜在参考策略:为了在长序列视频生成中保持个性化特征,HumanDiT 引入了前缀潜在参考策略。策略通过将视频的第一帧作为无噪声的前缀潜在向量,供模型在生成过程中参考,保持视觉一致性。
    • 姿态适配器与姿态细化模块:HumanDiT 使用姿态适配器来实现给定序列的姿态转移,通过姿态细化模块进一步优化生成的姿态序列。有助于提高面部和手部等细节部位的生成质量,确保与参考图像的对齐效果。
    • 大规模数据集训练:HumanDiT 在包含 14000 小时高质量视频的大型数据集上进行训练,数据通过结构化的数据处理流程收集,涵盖了多种人类动作场景。使模型能学习到丰富的运动先验,在推理过程中表现出强大的泛化能力。

    HumanDiT的项目地址

    HumanDiT的应用场景

    • 虚拟人:HumanDiT 可以用于生成虚拟人的动态视频,动作更加自然流畅。在虚拟客服场景中,虚拟人可以根据用户的提问实时生成相应的动作和表情,提供更加生动、逼真的交互体验。
    • 动画电影:HumanDiT 能生成高质量、长序列的人体运动视频,可以用于生成动画角色的动作序列,帮助动画师快速生成高质量的动作片段,提高制作效率。
    • 沉浸式体验:HumanDiT 可以用于构建沉浸式体验中的虚拟角色和动作。在沉浸式 VR 体验中,HumanDiT 可以生成与场景匹配的人物动作和表情,让参与者感受到更加真实和生动的体验。
    • 视频生成与续写:可以从单张图像生成视频,或者从现有视频中继续生成后续内容。
  • Zyler AI – AI营销分析平台,提供智能建议、趋势分析和洞察

    Zyler AI是什么

    Zyler AI是专注于营销分析的人工智能平台,帮助企业和专业人士快速生成高质量的分析报告。通过一键集成 Google Analytics、Meta Ads 等主流数据源,基于强大的 AI 技术,为用户提供智能建议、趋势分析和可操作的洞察。平台提供超过 50 个预设模板,支持拖放式界面操作,用户无需复杂的技术背景即可轻松定制报告,通过多层级钻取功能深入分析数据。

    Zyler AI

    Zyler AI的主要功能

    • 一键集成:用户可以轻松连接 Google Analytics、Meta Ads、Google Ads 和 LinkedIn Ads 等多个平台的账户,无需复杂的技术设置。
    • AI 辅助洞察:平台基于先进的人工智能技术,提供智能建议、趋势分析和可执行的洞察。
    • 预设模板:提供 50 多个即用型模板,用户可以根据需求快速选择并生成专业分析。
    • 拖放式界面:通过直观的无代码界面,用户可以轻松定制报告。
    • 多层级钻取:支持无限层级的分析,用户可以深入探索数据。
    • 导出和分享:用户可以一键将报告导出为 PDF 或 Excel 格式,方便团队共享。
    • AI 模型学习:平台的 AI 模型会根据用户互动不断学习,逐步优化分析结果,确保提供更精准的建议。
    • 用户反馈驱动改进:Zyler AI 根据用户反馈持续改进功能,确保平台始终满足用户需求。

    Zyler AI的官网地址

    Zyler AI的应用场景

    • 数字营销:Zyler AI 能快速分析营销活动的绩效,识别关键趋势,提供可操作的优化建议。营销人员可以快速生成专业报告,节省大量手动分析时间。
    • 产品管理:对于产品经理,Zyler AI 可以帮助他们深入了解用户行为,跟踪关键指标,发现改进产品的机会。
    • 企业决策:Zyler AI 使企业主和决策者能轻松获取数据驱动的洞察,无需依赖专职的数据分析师。
    • 团队协作:Zyler AI 的报告可以轻松导出为 PDF 或 Excel 格式,或通过自定义链接直接与团队共享。使团队成员能够快速获取和理解数据洞察,促进协作和沟通。
  • InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型

    InternVideo2.5是什么

    InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了显著进展,特别是在长视频处理和细粒度时空感知方面表现出色。模型能处理长达万帧的视频,视频处理长度较前代提升了6倍,可在长视频中精准定位目标帧,实现“大海捞针”式的检索。支持通用视频问答,完成目标跟踪、分割等专业视觉任务。

    InternVideo2.5

    InternVideo2.5的主要功能

    • 超长视频处理:InternVideo2.5能处理长达万帧的视频,视频处理能力较前代提升了6倍(从3000帧提升到10000帧)。能在长视频中精准定位目标帧,实现“大海捞针”式的检索,显著提升了视频分析的效率。
    • 细粒度时空感知:模型能准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。支持通用视频问答,完成目标跟踪、分割等专业视觉任务。可以在复杂场景下识别物体的运动轨迹和状态变化,为自动驾驶和监控安防等领域提供精准的视觉支持。
    • 多模态融合:InternVideo2.5将视觉感知和语言理解深度融合,能根据视频内容生成详细的描述和回答用户的问题。
    • 专业视觉任务支持:通过任务偏好优化(TPO),InternVideo2.5能处理多种专业视觉任务,如目标跟踪、分割、时间定位等。能根据任务需求动态调整模型的处理策略,在不同场景下提供最优的视觉分析能力。
    • 高效预训练与优化:InternVideo2.5采用渐进式多阶段训练方案,使用超过30万小时的视频语料进行预训练。提升模型的性能,降低了训练成本。

    InternVideo2.5的技术原理

    • 长时丰富上下文建模(LRC):LRC通过扩展模型的上下文长度和细节感知能力,使InternVideo2.5能处理长达万帧的视频。核心在于:
      • 视频长度自适应令牌表示:根据视频的长度和内容特征动态调整帧采样策略。例如,短序列(如秒级视频)采用密集采样(每秒15帧),长序列(如分钟或小时级视频)则采用稀疏采样(每秒1帧),确保在不同时间尺度上能有效捕捉运动信息。
      • 分层上下文压缩(HiCo):通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。具体包括:
        • 时空令牌合并:基于语义相似性进行令牌合并,非基于位置的简单池化操作。在保留细节的同时,显著减少了冗余信息。
        • 多模态上下文整合:在语言模型处理阶段,进一步整合压缩后的视觉令牌,确保视觉和语言信息的深度融合。
    • 任务偏好优化(TPO):TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习。使InternVideo2.5能处理多种专业视觉任务,如目标跟踪、分割、时间定位等。具体实现方式包括:
      • 任务特定组件集成:在模型中加入任务特定的组件(如时间头、掩码适配器等),并通过任务特定数据集进行训练。
      • 视觉概念预训练:使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。
    • 渐进式多阶段训练方案:InternVideo2.5采用渐进式多阶段训练方案,逐步提升模型的性能:
      • 基础学习阶段:进行任务识别指令调整和视频语言对齐训练。
      • 细粒度感知训练阶段:通过集成任务特定组件和视觉概念预训练,增强视觉理解能力。
      • 综合优化阶段:在混合语料库上进行多任务训练和指令调整,优化所有模型组件。
    • 高效分布式系统:为了支持大规模视频数据的训练和测试,InternVideo2.5开发了基于多模态序列并行的分布式系统。系统结合了序列和张量分布式处理,以及动态数据打包技术,显著提高了训练效率。

    InternVideo2.5的项目地址

    InternVideo2.5的应用场景

    • 视频内容理解和检索:InternVideo2.5能根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
    • 视频编辑和创作:InternVideo2.5能为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词。可以根据用户的指令对视频进行剪辑和调整,提高视频创作的效率。
    • 监控安防:在监控安防领域,InternVideo2.5能实时分析监控视频,快速定位异常事件并发出警报。
    • 自动驾驶:InternVideo2.5能实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。
  • PDF to Podcast – 英伟达推出的 PDF 转音频内容 AI 工具

    PDF to Podcast是什么

    PDF to Podcast是NVIDIA推出的PDF转音频的AI工具,基于NVIDIA NIM微服务架构的,能将PDF文档转换为生动的音频内容,如播客。基于大型语言模型(LLM)、文本到语音(TTS)技术以及NVIDIA的微服务,将PDF中的内容提取转换为Markdown格式,再生成自然流畅的对话或独白形式的音频。工具支持用户上传目标PDF文件,可选择性添加上下文PDF作为参考,通过引导提示(如“重点关注NVIDIA第三季度财报的关键驱动因素”)来聚焦生成内容。

    PDF to Podcast

    PDF to Podcast的主要功能

    • PDF到Markdown转换:从PDF中提取内容并转换为Markdown格式,以便进一步处理。
    • 生成对话或独白:AI处理Markdown内容,生成自然流畅的音频脚本。
    • 文本到语音(TTS):将处理后的文本内容转换为高质量的语音。

    PDF to Podcast的项目地址

    PDF to Podcast的软件组件

    • NVIDIA NIM微服务:使用Llama 3.1系列模型进行推理。
    • 文档解析:使用Docling进行PDF到Markdown的转换。
    • 语音合成:使用ElevenLabs进行文本到语音的转换。
    • 存储和缓存:使用MinIO和Redis。

    PDF to Podcast的部署方式

    • 使用NVIDIA API目录:无需本地GPU硬件,所有模型推理在NVIDIA云基础设施上完成。最低要求为8核CPU、64GB内存和100GB磁盘空间。
    • 本地部署NVIDIA NIM:如果需要更高的性能和隐私保护,可以选择本地部署NVIDIA NIM,但需要满足更高的硬件要求。

    如何使用PDF to Podcast

    • 安装依赖:需要安装Docker、Docker Compose等工具。
    • 获取API密钥:需要NVIDIA API目录和ElevenLabs的API密钥。
    • 克隆代码库:从GitHub克隆NVIDIA-AI-Blueprints/pdf-to-podcast。
    • 设置环境变量:配置API密钥等环境变量。
    • 启动服务:使用Docker Compose启动所有微服务。
    • 生成音频:通过命令行工具指定PDF文件,生成音频内容。
    • 更换模型:可以根据需要更换不同的LLM模型。
    • 调整GPU配置:优化GPU使用,例如使用较小的模型以减少GPU内存需求。

    PDF to Podcast的应用场景

    • 企业培训与政策解读:将冗长的培训手册、政策文件等PDF文档转换为音频播客,员工可以在通勤或休息时收听,提高学习效率。
    • 技术与研发简报:将技术研究报告或研发文档转换为音频内容,方便研究人员和工程师在移动场景下获取信息。同时,结合虚拟角色扮演,可以模拟技术汇报场景,提升沟通能力。
    • 客户服务与酒店管理:将客户服务指南或酒店管理手册转换为对话式播客,员工可以通过与虚拟客户角色的互动练习,提升服务技巧和冲突解决能力。
    • 医疗与应急准备:将医疗协议或应急响应指南转换为易于理解的音频内容,通过虚拟角色扮演模拟紧急情况,让医护人员在安全的环境中进行实操演练。
    • 教育与学习:将学术论文或教学材料转换为音频内容,学生可以在任何时间、任何地点进行学习。结合虚拟现实(VR)或增强现实(AR)技术,可以进一步提升学习体验。
  • TPO – AI优化框架,动态调整推理模型的输出,更符合人类偏好

    TPO是什么

    TPO(Test-Time Preference Optimization)是新型的AI优化框架,在推理阶段对语言模型输出进行动态优化,更符合人类偏好。TPO通过将奖励信号转化为文本反馈,将模型生成的优质响应标记为“选择”输出,低质量响应标记为“拒绝”输出,进而生成“文本损失”并提出“文本梯度”,以此迭代改进模型输出,无需更新模型参数。 实验表明,经过少量迭代,即使是未经对齐训练的模型也能在多个基准测试中显著提升性能,在AlpacaEval 2的LC指标上从27.8%提升至37.8%。

    TPO

    TPO的主要功能

    • 动态对齐人类偏好:TPO能在模型推理时,根据奖励模型(Reward Model)的反馈,动态调整模型的输出,更符合人类的偏好和期望。
    • 无需重新训练模型:TPO无需对模型进行重新训练或更新权重,可在推理阶段实现对模型输出的优化。
    • 高效优化与可扩展性:TPO在推理时的搜索宽度和深度上具有良好的可扩展性,能高效地优化模型输出。
    • 提升模型性能:TPO能显著提升模型在多个基准测试中的性能,更接近或超过经过训练时偏好对齐的模型。
    • 增强模型的解释性和可理解性:TPO通过文本反馈的形式,使模型的优化过程更加透明和可理解。
    • 提升推理稳定性:TPO能显著提升模型的推理稳定性,减少生成意外或有害响应的概率。
    • 轻量级和高效性:TPO是轻量级的优化方法,计算成本低,适合在实际应用中快速部署。

    TPO的技术原理

    • 奖励信号转化为文本反馈:TPO的核心在于将奖励模型(Reward Model)的数值信号转化为可解释的文本反馈。具体来说,模型在每次推理时生成多个候选响应,通过奖励模型对这些响应进行评分。然后,TPO选择得分最高(“选择”响应)和得分最低(“拒绝”响应)的响应,分析它们的优势和不足,生成“文本损失”。
    • 迭代优化过程:基于“文本损失”,TPO生成“文本梯度”,这些梯度指导模型在下一次迭代中如何改进输出。过程类似于传统的梯度下降优化,但完全在文本层面进行,不是直接更新模型参数。通过多次迭代,模型的输出逐渐与人类偏好对齐。
    • 依赖于模型的指令跟随能力:TPO的成功依赖于策略模型具备基础的指令跟随能力,因为模型必须准确解释和响应奖励模型的反馈。如果模型缺乏这种能力,TPO可能无法有效工作。

    TPO的项目地址

    TPO的应用场景

    • 指令遵循:TPO能提升模型在指令遵循任务中的表现。使TPO适用于需要模型根据具体指令生成准确响应的场景,如智能助手、客服机器人等。
    • 偏好对齐:TPO可以用于优化模型的输出以更好地符合人类的偏好。在推荐系统、内容生成等领域具有重要应用价值,能帮助模型生成更符合用户期望的内容。
    • 安全性:在BeaverTails-Evaluation和XSTest等安全基准测试中,TPO优化后的模型能够更有效地避免生成有害或不安全的响应。对于需要确保模型输出安全可靠的应用场景(如医疗咨询、金融建议等)具有重要意义。
    • 数学推理:TPO能提升模型在数学推理任务中的表现。在MATH-500等数学基准测试中,TPO优化后的模型在解决数学问题上的准确率显著提高。
  • HUGWBC – 上海交大联合上海 AI Lab 推出的人形机器人全身控制器

    HUGWBC是什么

    HUGWBC(Humanoid Unified and General Whole-Body Controller)是上海交通大学、上海AI Lab联合推出的人形机器人全身控制器,能实现精细的运动控制。HUGWBC基于扩展的命令空间和先进的训练技术,让机器人执行多种自然步态(如行走、跑步、跳跃、站立和单脚跳),支持实时外部上肢控制信号,实现复杂的运动操作任务。HUGWBC用强化学习在模拟环境中训练,用不对称训练框架(AAC)将策略直接迁移到真实机器人上。

    HUGWBC

    HUGWBC的主要功能

    • 支持多种步态:支持控制机器人执行行走、跑步、跳跃、站立和单脚跳等多种步态。
    • 精细调整参数:支持调整步态频率、脚摆高度、身体高度、腰部旋转和身体俯仰角等参数,适应不同的任务需求。
    • 实时外部干预:支持上肢的实时外部控制信号(如遥操作或运动重定向),让机器人在执行运动任务时进行复杂的操作。
    • 高鲁棒性和适应性:HUGWBC能适应不同的地形和外部干扰,保持运动的稳定性和精度。

    HUGWBC的技术原理

    • 扩展的命令空间:设计包含任务命令和行为命令的通用命令空间,灵活地控制机器人的运动和姿态。
    • 强化学习训练:基于强化学习(特别是PPO算法)在模拟环境中训练控制策略,定义奖励函数优化机器人的运动性能。
    • 不对称训练框架:采用不对称训练框架(AAC),批评网络访问所有特权信息,演员网络仅用真实机器人可用的传感器数据,提高策略的泛化能力。
    • 对称性损失:引入对称性损失函数,鼓励策略生成自然且对称的运动,提高运动的稳定性和效率。
    • 干预训练:在训练中引入外部干预信号,适应上肢的实时控制,且保持下肢运动的稳定性和精度。
    • 脚轨迹规划:用五次多项式轨迹规划方法,确保脚在摆动阶段的平滑运动,提高运动的自然性和稳定性。

    HUGWBC的项目地址

    HUGWBC的应用场景

    • 复杂地形导航:控制人形机器人在不平坦的地形上行走、跑步和跳跃,适应各种复杂的环境,如崎岖的山路、废墟或建筑工地等,执行搜索和救援任务。
    • 动态任务执行:支持机器人进行高动态任务,如快速奔跑、跳跃和单脚跳,在需要快速反应和高机动性的场景中发挥作用,例如体育赛事辅助或紧急响应任务。
    • 人机协作任务:基于实时外部上肢干预功能,让人形机器人与人类操作员协作完成复杂的任务,如搬运、装配或精细操作,提高工作效率和安全性。
    • 服务机器人应用:在家庭或服务场所中,让人形机器人执行日常任务,如清洁、搬运物品或协助老年人和残疾人,提供更加自然和灵活的服务。
    • 科学研究与开发:开发和测试新的运动控制算法、人机交互技术和机器人感知能力,推动人形机器人技术的进一步发展。
  • Webdone – AI网页开发平台,描述产品或需求自动生成落地页和网站

    Webdone是什么

    Webdone 是基于人工智能的在线平台,帮助用户快速创建和定制高质量的落地页和网站。通过强大的 AI 技术,让用户只需简单描述产品或需求,可在几分钟内生成专业的页面,无需任何编码或设计技能。平台支持拖拽式编辑器,用户可以轻松调整字体、颜色、布局等元素,实现高度定制化。 Webdone 提供完整的 Next.js 开发环境,支持 TypeScript 和 JavaScript,适合从初学者到专业开发者的各类用户。

    Webdone

    Webdone的主要功能

    • AI 驱动的页面创建:用户只需描述产品细节,AI 自动生成网页页面,无需编码或设计技能。支持快速创建和定制 Next.js 项目,包括支付、数据库和身份验证等功能。
    • 高度可定制化:提供拖拽式编辑器,用户可以轻松调整字体、背景颜色、图像等元素。支持 TypeScript 和 JavaScript,用户可以下载完整的源代码并进行进一步的自定义。
    • 性能优化:AI 优化页面布局、性能和内容,提升用户体验。提供 SEO 优化、无障碍性增强和搜索引擎排名提升等功能。
    • 快速搭建 Next.js 项目:提供完整的 Next.js 开发环境,包括预配置的支付(Stripe、LemonSqueezy)、数据库(Supabase、MongoDB)、邮件功能(Mailtrip、Resend)和身份验证(Google、GitHub)。支持 React、Tailwind CSS 等现代开发技术。

    Webdone的官网地址

    Webdone的应用场景

    • 初创企业:需要快速推出产品或服务的落地页,吸引用户和投资者。Webdone 可以在几分钟内生成专业的落地页,无需复杂的编码或设计技能。
    • 个人开发者:独立开发者需要快速搭建个人项目或原型,验证想法或展示技能。
    • 自由职业者:设计师需要快速交付高质量的网站或落地页,满足客户的需求。Webdone 可以帮助快速生成设计模板,进行灵活的定制。
    • 企业营销:快速推出营销页面,推广新产品或服务。Webdone 可以帮助企业快速生成专业的营销页面,进行优化。
    • 教育机构:快速搭建在线课程页面,吸引学生和推广课程。Webdone 可以帮助教育机构快速生成专业的课程页面。
  • YAYI-Ultra – 中科闻歌推出的混合专家模型

    YAYI-Ultra是什么

    YAYI-Ultra (雅意)是中科闻歌研发的企业级大语言模型的旗舰版本,具备强大的多领域专业能力和多模态内容生成能力。支持数学、代码、金融、舆情、中医、安全等多个领域的专家组合,能缓解垂直领域迁移中的“跷跷板”现象。YAYI-Ultra 支持最长128k的输入和更长的上下文窗口,具备1000万+图文数据对齐的多模态能力。支持多轮对话角色扮演、内容安全风控以及10+智能插件调用。

    YAYI 雅意

    YAYI-Ultra的主要功能

    • 多领域专业能力:YAYI-Ultra 是混合专家模型,支持数学、代码、金融、舆情、中医、安全等多种领域专家组合,缓解稠密模型在垂直领域迁移过程中普遍存在的“跷跷板”现象。
    • 多模态内容生成:支持图文并茂的输出,能根据用户的问题从知识库中提取相关信息,同步给出对应的图片内容。
    • 超长文输出:支持最长20万字输入和10万字超长输出,形成从“输入理解”到“内容创作”的全链路长文本能力闭环。
    • 数据分析与可视化:能准确完成数据分析、计算和图表绘制任务。
    • 复杂任务智能规划:YAYI-Ultra 增强了多工具串行调用场景下的规划合理性,能将复杂任务拆解为多个子任务,通过调用搜索引擎、代码解释器、图像解析等基础工具,以及新闻热榜追踪、传播影响力分析等垂直领域工具来完成任务。
    • 联网智能创作:支持联网收集信息完成创作,例如写一篇关于中国儒家文化发展历史的分析报告。

    YAYI-Ultra的技术原理

    • 混合专家架构:YAYI-Ultra 采用混合专家模型架构,支持多种领域专家组合,如数学、代码、金融、舆情、中医、安全等。能显著缓解稠密模型在垂直领域迁移过程中普遍存在的“跷跷板”现象,为不同领域提供高精度、低能耗的智能化解决方案。
    • 指令微调与数据驱动:YAYI-Ultra 的训练基于大规模的高质量多语言语料,结合指令微调技术,在不同领域和任务上表现出色。

    YAYI-Ultra的评测表现

    在OpenCompass大模型公开学术榜单中,YAYI-Ultra以64.5分首次闯入前十,成为TOP10中五个中国大模型之一。具体表现如下:

    • 代码生成:在LiveCodeBench中排名第五,表现优于GPT-4o-20241120版本。
    • 复杂指令理解:在IFEval中排名第九。
    • 知识推理能力:在MMLU-Pro中排名第九。

    YAYI-Ultra的项目地址

    YAYI-Ultra的应用场景

    • 媒体领域:帮助客户将内容创作时间缩短30%-50%,内容发布频率提升20%-40%,内容差错率从5%降至0.5%左右。
    • 医疗领域:基于YAYI的大医金匮中医大模型,可精准诊断500余种常见病症,辨证推理准确率高达90%,并面向C端用户推出了“大医金匮”中医健康管理APP。
    • 财税领域:基于YAYI的财税知识大模型,模型回答准确率90.1%,高于其他同类型模型,客户实现24小时不间断的咨询服务。
  • Anthropic《AI 经济指数报告》38页PDF(中文版)

    哪些经济任务是通过人工智能完成的?来自数百万次 Claude 对话的证据

    作者

    Kunal Handa*, Alex Tamkin*, Miles McCain, Saffron Huang, Esin Durmus

    Sarah Heck, Jared Mueller, Jerry Hong, Stuart Ritchie, Tim Belonax, Kevin K. Troy

    Dario Amodei, Jared Kaplan, Jack Clark, Deep Ganguli

    Anthropic

    摘要:

    尽管关于人工智能对未来工作影响的讨论广泛存在,但我们缺乏关于这些系统如何被用于不同任务的系统性实证证据。本文提出了一个用于衡量经济中人工智能使用模式的新框架。我们利用一个最近的隐私保护系统,分析了超过四百万次 Claude.ai 对话,通过美国劳工部 O*NET 数据库中的任务和职业视角进行分析。我们的分析发现,人工智能的使用主要集中在软件开发和写作任务上,这两者加起来几乎占了所有总使用量的一半。然而,人工智能的使用在经济中更为广泛,约 36% 的职业在其至少四分之一的任务中使用人工智能。我们还分析了人工智能如何被用于任务,发现 57% 的使用表明增强人类能力(例如,学习或迭代输出),而 43% 表明自动化(例如,以最少的人类参与完成请求)。尽管我们的数据和方法面临重要限制,且仅描绘了一个平台上的人工智能使用情况,但它们提供了一种自动化、细致的方法,用于跟踪人工智能在经济中不断演变的角色,并识别这些技术继续进步时对未来的潜在影响。

    获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取

    1. 引言

    人工智能的快速发展对劳动力市场的演变提出了深远的含义。尽管预测和准备这些变化至关重要,但我们缺乏关于人工智能系统如何被整合到经济中的系统性实证证据。现有的方法——无论是开发预测模型 ,还是定期对用户进行调查——都无法跟踪人工智能能力的进步与它们在经济中直接、实际使用之间的动态关系。

    在此,我们提出了一个用于衡量经济中不同任务的人工智能使用的全新实证框架,基于对 Claude.ai 上数百万次真实对话的隐私保护分析。通过将这些对话映射到美国劳工部 O*NET 数据库中的职业类别,我们不仅可以识别当前的使用模式,还可以发现哪些经济领域可能在这些技术继续进步时最受影响的早期迹象。

    我们利用这个框架做出了五个关键贡献:

    1. 提供了首次大规模实证测量,揭示了哪些任务在经济中看到了人工智能的使用(见图1、图2和图3)。我们的分析发现,在软件工程角色(例如软件工程师、数据科学家、生物信息学技术员)的任务中,以及需要大量写作能力的职业(例如技术作家、文案撰写人、档案管理员)和分析角色(例如数据科学家)中,人工智能的使用率最高。相反,涉及对环境进行物理操作的职业(例如麻醉师、建筑工人)的任务目前显示出极少的使用。

    2. 量化了职业内部人工智能使用的深度(见图4)。只有大约4%的职业在其至少75%的任务中使用人工智能,这表明在某些角色中可能存在深度任务级的使用。更广泛地,大约36%的职业在其至少25%的任务中使用人工智能,表明人工智能已经开始扩散到相当一部分劳动力的任务组合中。

    3. 测量了在人类与人工智能对话中哪些职业技能最具代表性(见图5)。认知技能,如阅读理解、写作和批判性思维,显示出较高的存在率,而物理技能(例如安装、设备维护)和管理技能(例如谈判)显示出极小的存在率——反映了人类与当前人工智能能力的明显互补性。

    4. 分析了工资和入职门槛与人工智能使用之间的相关性(见图6和表2)。我们发现,人工智能使用在工资分布的上四分位数达到峰值,但在工资分布的两端都下降。大多数高使用量职业集中在上四分位数,主要对应软件行业职位,而高工资职业(例如医生)和低工资职位(例如餐厅工作人员)显示出相对较低的使用量。这种模式可能反映了当前人工智能能力的限制,以及这些角色固有的物理操作要求,或者两者兼有。对于入职门槛,也出现了类似的模式,使用量在需要相当准备的职业(例如学士学位)中达到峰值,而不是在需要极少或广泛培训的职业中。

    5. 评估了人们是否使用 Claude 来自动化或增强任务(见图7)。我们发现,57%的互动显示出增强模式(例如,对任务进行来回迭代),而43%显示出以自动化为重点的使用(例如,直接执行任务)。尽管这一比例在不同职业中有所不同,但大多数职业在任务中表现出自动化和增强的混合,表明人工智能既是一个效率工具,也是一个协作伙伴。

    我们的方法提供了一种自动化、细致且基于实证的方法,用于跟踪人工智能使用模式,随着人工智能能力和社会使用的发展而演变。这种对新兴趋势的早期可见性为政策制定者和民间社会提供了应对人工智能如何改变工作方式的关键提前时间。然而,我们承认存在多个关键限制(在第4.1节中讨论);例如,我们的使用数据无法揭示 Claude 的输出在实践中是如何被使用的,我们依赖 O*NET 的静态职业描述意味着我们无法考虑人工智能可能创造的全新任务或职业。

    尽管如此,这个框架为理解人工智能对经济的不断演变的影响提供了一个基础。尽管我们的方法并不完美,但它们提供了一种系统性的方式来跟踪使用模式,并识别不同部门经济影响的早期指标。随着人工智能能力和采用的继续进步,我们相信这种实证测量对于理解和准备技术的更广泛的经济影响至关重要。

    2. 背景与相关工作

    我们的研究建立在多条试图建模、衡量和预测人工智能对经济影响的研究线路上。

    经济基础和基于任务的框架 大量经济学文献提出了理论模型,以理解自动化对劳动力市场的影响。最著名的是, 主张通过离散任务的视角来建模劳动力市场,这些任务可以由人类工人或机器完成——例如,调试代码或理发。基于这个框架,Autor [2015] 表明,尽管技术自动化了一些任务,但它们通常会在其他任务中增强人类能力,因为人类和机器之间存在互补性,从而导致对劳动力的需求增加。此外,Acemoglu 和 Restrepo [2018] 使用这个框架探索了一个模型,其中自动化技术可以创造全新的任务,而不仅仅是取代旧任务。

    预测人工智能对劳动力市场的影响 另一分支的研究利用基于任务的框架来预测自动化在未来经济中的普遍程度,通常基于美国劳工部提供的 ONET 职业信息数据库中对任务和职业的描述。例如,Frey 和 Osborne [2017] 将高斯过程分类器应用于 70 个标记职业的数据集,以预测哪些职业容易受到计算机化的威胁。Brynjolfsson et al. [2018a] 聘请人类标注者对 ONET 数据库中的 2069 个详细工作领域进行评级,特别关注它们被机器学习执行的潜力。Webb [2019] 分析了专利文件与工作描述之间的重叠,以预测任务对人工智能的“暴露”程度,发现高教育、高工资职业的暴露程度最高——这一模式部分反映在我们的实证使用数据中,尽管我们发现在中高工资职业中使用量最高,而不是在最高工资水平的职业中。

    人工智能实际使用的真实世界研究 为了补充这些基于人类或机器判断的预测,另一些研究试图收集具体数据,以了解人工智能目前在劳动力市场中的采用情况。例如,2023 年末的研究发现,丹麦暴露职业中有一半的工人使用过 ChatGPT,估计它可以将大约三分之一的任务工作时间减半,而 2024 年 8 月的一项后续研究发现,39% 的美国工作年龄成年人使用过生成式人工智能,其中约四分之一的人每周都在使用 [Bick et al., 2024]。此外,进一步的研究试图衡量这种使用的广度和深度,发现生成式人工智能工具对广泛个体领域的生产力有积极影响,包括软件工程、写作 、客户服务、咨询、翻译 、法律分析和数据科学。

    我们通过结合这些独立的方法,进行了首次对先进人工智能系统如何被用于经济中的任务和职业的全面分析。我们基于任务框架,但与预测潜在影响(职业对人工智能的“暴露”)不同,我们使用 Clio  测量真实世界的使用模式,这是一个最近的系统,能够对主要模型提供商上的数百万次人类模型对话进行隐私保护分析。这使我们能够补充特定领域人工智能生产力效应的对照研究,提供一个全面的视角,了解人工智能如何被整合到经济中的工作。我们的方法能够动态跟踪这些模式,随着人工智能能力和社会采用的演变,揭示当前的使用趋势以及未来扩散的早期迹象。

    3. 方法与分析

    为了了解人工智能系统如何被用于不同的经济任务,我们利用 Clio ,这是一个分析工具,使用 Claude 从数百万次人类模型对话中提供聚合的见解。我们使用 Clio 对对话进行分类,涵盖职业任务、技能和互动模式,揭示这些不同类别的分布。所有分析都基于 2024 年 12 月和 2025 年 1 月期间收集的对话数据。更多细节和提示见附录 B、E 和 F,包括验证我们数据集的组成以及如何在类别数量较多时(例如 O*NET 任务)进行分类。

    3.1 人工智能使用情况的任务级分析

    使用 Clio 对 100 万次 Claude.ai Free 和 Pro 对话的数据集进行分析,我们将每次互动映射到 ONET 数据库中最相关的任务类别。由于 ONET 中有近 20000 个独特的任务陈述,我们使用 Clio 创建了一个任务的分层树,并通过遍历树来进行分配。尽管一个对话通常可以映射到多个有效任务,但我们在将单个对话映射到多个任务时,观察到定性结果非常相似。我们还在附录 B 中提供了更多细节和分析,包括我们如何将对话映射到任务(附录 B.1)、层次创建过程(附录 B.1)、我们对对话级和账户级数据获得类似结果的事实(附录 B.2),以及我们对数据集组成的验证(附录 B.7)。此外,我们讨论了人类对我们任务层次分类的验证(附录 C)以及集群级数据的结果(附录 G)。

    计算机相关任务的人工智能使用量最大,其次是教育和交流背景下的写作任务。为了理解更广泛的模式,我们根据 O*NET 的职业框架对这些任务进行分组——首先将它们映射到特定职业(如计算机网络架构师),然后映射到更广泛的职业类别(如计算机和数学职业)。图 2 展示了这些职业类别的分布,显示了每个组中出现频率最高的职业和任务,而图 3 将这些使用模式与美国劳动力的实际职业分布进行了比较。

    值得注意的是,对话的职业分类并不一定意味着用户是该领域的专业人士。例如,一些关于营养的查询可能来自营养师,但也可能来自寻求个人饮食建议的个人。这种对传统专业任务的广泛访问——即使这些帮助并不完美——可能对这些领域产生重大影响,尽管分析这些影响超出了本研究的范围。我们在第 4.1 节中进一步讨论了这些限制。

    总之,这些数据揭示了一些深刻的道理:

    • 与我们在任务层面的发现一致,计算机和数学职业显示出最高的相关人工智能使用率,占所有查询的 37.2%。相关的人工智能使用率最高,占所有查询的 37.2%。
    • 艺术、设计、娱乐、体育和媒体职业的相关人工智能使用率位居第二(10.3%)。(10.3%),这可能反映了在 Claude.ai 的查询中,市场营销、写作和其他类型的内容生成非常普遍。在 Claude.ai 的流量中,营销、写作和其他类型的内容生成非常普遍。
    • 教育类职业也有很高的比例,包括教育教学和图书馆职业,以及学科类职业。和图书馆职业,以及特定学科的职业,如生命、物理和
    • 社会科学职业。Claude.ai 流量的很大一部分属于商业相关职业: 商业和金融职业、办公室和行政支持职业以及管理职业。
    • 令人惊讶的是,需要体力劳动的职业最少,例如运输和材料搬运职业。运输和材料搬运职业;医疗保健支持职业;以及农业、渔业和林业职业、

    每个职业中有多少任务使用了人工智能?为了评估人工智能在各职业中的融合程度,我们考察了每个职业的任务中有多少出现在我们的 Clio 运行结果中。如图 4 所示,我们发现人工智能任务的使用呈现出严重的偏态分布。只有约 4%的职业在至少 75%的相关任务中使用了人工智能,例如,在外语和文学教师这一职业中(75%的任务),我们观察到人工智能被用于与同事合作解决教学问题以及规划课程内容等任务,但并未用于撰写资助申请或维护学生记录等活动。仅有约 11%的职业在一半或更多的任务中使用了人工智能,比如市场营销经理(50%的任务),我们看到人工智能被用于市场调研分析和战略制定等任务,但未用于产品规格咨询或贸易展览协调等活动。在更低的阈值下,情况有所扩大,约 36%的职业在至少四分之一的任务中使用了人工智能,比如物理治疗师(25%的任务),我们观察到人工智能被用于研究和患者教育等任务,但未用于实际治疗或家庭护理指导等活动。这种分布表明,尽管如今人工智能可能触及许多职业,但在大多数任务中的深度整合仍有待提高。目前,在任何特定职业中实现完全自动化的情况仍然很少见。如今的人工智能似乎主要用于职业中的特定任务,而非完全取代整个工作岗位。

    3.2 职业技能展示

    O*NET 数据库包含 35 种职业技能,这些技能确定了工人在不同工作中执行任务所需的必要能力。这些技能包括批判性思维、复杂问题解决、说服力和设备维护等。我们使用 Clio 来识别与给定 Claude.ai 对话相关的模型所展示的所有职业技能,如图 5 所示。

    直观上,需要身体互动的技能,如安装、设备维护和修理,在 Claude.ai 流量中出现频率最低。相比之下,认知技能如批判性思维、阅读理解、编程和写作出现频率最高。然而,我们的分析只捕捉到技能是否在 Claude 的回应中被展示,而不是该技能是否是用户目的的核心,或者是否以专家水平执行。例如,尽管积极倾听是第二常见的技能,但这可能反映了 Claude 的默认对话行为——例如,重新表述用户输入并提出澄清问题——而不是用户专门寻求以倾听为中心的互动。

    3.3 按工资和入职门槛划分的人工智能使用情况 我们还报告了 O*NET 中另外两个职业维度的趋势:职业的中位工资和其入职门槛(即从事职业所需的准备程度)。

    工资 图 6 显示了人工智能使用情况如何随职业的中位工资而变化。我们发现,使用情况在工资分布的上四分位数中达到峰值,涉及计算机程序员和网页开发人员等计算职业。在工资分布的两端,职业的使用情况较低。例如,服务员和麻醉师(低工资和高工资职业)是数据中代表性最低的职业之一,这与我们发现需要身体互动的技能在数据中最为罕见的发现一致。

    入职门槛 O*NET 数据库中的职业被划分为 1 到 5 的工作区域,这些类别由从事给定职业所需的人类准备程度定义。需要较高教育、经验和培训水平的职业被划分为较高的工作区域。随着工作区域从 1 增加到 4,该区域在我们数据中的代表性也随之增加,达到峰值:需要相当准备的工作区域 4,通常需要四年制学士学位。然而,对于需要广泛准备的工作区域 5,代表性有所下降,其中大多数职业需要高级学位。这些结果清楚地表明,人类的入职门槛可能与语言模型的入职门槛大不相同。有关完整结果,请参阅附录 D.2 和表 2。

    3.4 自动化与增强用户 尽管前面的分析揭示了哪些任务的人工智能使用量最大,但它们并没有告诉我们人工智能是如何被用于这些任务的。经济学文献中的一个关键区别是自动化——技术取代人类劳动——与增强——技术补充并增强人类能力 。为了了解哪种模式更为普遍,我们使用 Clio 将对话分类为五种不同的协作模式(见表 1),分为自动化和增强两大类。

    在与 Claude.ai 的互动中,增强型和自动化型协作行为都存在,其中增强型对话(57%)略多于自动化型(43%)。不过,我们注意到一个重要的注意事项,即用户可能会在聊天窗口之外编辑和调整从 Claude 收到的回应,这表明实际的增强型对话比例可能更高。此外,即使是简单任务的自动化,当嵌入更广泛的人类指导工作流程中时,也可以增强人类能力。

    为了更好地理解这些协作模式在不同职业任务中的分布,我们考虑自动化与增强型行为如何在不同职业任务中有所不同:

    自动化行为 大多数指令性对话由写作和其他内容生成任务组成。在业务相关任务中,如“起草并优化专业商务电子邮件沟通”,以及学校作业相关集群中,如“解决包含计算和证明的多样化几何问题”,指令性对话的比例也很高。大多数反馈循环对话与编码和调试有关,用户反复将收到的错误反馈给模型。

    增强行为 任务迭代对话通常涉及前端开发(如“协助 Web 开发任务和 UI 改进”以及“创建和修改着陆页和关键网站组件”)以及专业沟通任务(例如“优化简历、求职信和工作申请”以及“协助专业和学术写作与沟通”)。学习对话在一般教育任务中出现频率最高,如“解释和分析戒严实施及其影响”、“提供胃肠健康和消化健康建议”以及“协助微控制器编程和嵌入式系统项目”。验证是对话量最小的类别,几乎全部集中在语言翻译任务上。

    3.5 按模型类型划分的使用模式

    随着人工智能能力的演变,了解不同模型如何被使用可以帮助预测不同经济部门的使用变化。我们通过比较两种 Claude 模型的使用模式来探索这一点:2024 年 3 月发布的 Claude 3 Opus 和 2024 年 10 月发布的 Claude 3.5 Sonnet(新)。我们的分析揭示了这些模型使用模式的明显专业化(见图 8)。与 Sonnet 相比,Opus 在创意和教育工作(例如“在电影、电视、戏剧和音乐中进行制作和表演”、“管理书籍和文档出版过程”、“设计和开发全面的教育课程和材料”以及“进行学术研究并传播发现”)中的使用量更高。这些模式与用户对 Opus 独特性格和写作风格的广泛观察一致。相比之下,Claude 3.5 Sonnet(新)更适合编码和软件开发任务(例如“开发和维护软件应用程序和网站”以及“编程和调试计算机系统和机器”),这与外部评估一致,后者强调了其相对较强的编码能力。

    通过在模型版本之间跟踪这些任务级别的使用模式,我们可以更好地了解哪些能力改进推动了不同经济部门人工智能使用的有意义变化。

    4. 讨论

    我们首次对先进人工智能系统如何被用于经济任务进行了大规模实证分析。尽管我们的工作提供了关于人工智能在经济中使用的广泛见解,但我们注意到关键限制和未来研究领域。

    4.1 限制

    数据样本 我们使用了 7 天期间的 Claude.ai Free 和 Pro 对话快照。可能我们的样本并不代表 Claude.ai 在更长时间窗口上的使用情况,而且很可能我们的样本在重要方面与其他人工智能模型提供商的 API 数据或数据不同,因为它们的模型能力、产品功能和用户基础不同。此外,Claude.ai 只输出文本,而不是其他模态。这排除了可能依赖图像或视频输出的关键潜在用户(例如时装设计师)。因此,我们的发现应被视为人工智能在劳动力市场使用情况的不完美快照,同时指出,随着更多研究人员和组织能够分享来自多样化部署环境的使用数据,更广泛的模型互动模式理解将出现。

    模型驱动分类的可靠性 我们使用 Claude 对用户对话进行分类,也可能引入潜在的不一致性,如果模型对任务的理解与 O*NET 数据库中的预期阅读不同。尽管我们进行了人类验证(附录 C),依赖于 Clio 的过去验证[^Tamkin et al., 2024^],并用集群级分析(附录 G)来证实我们的结果,但重要的是要注意,这些分类可能包含一些固有噪声。

    用户查询的复杂性不同 尽管我们努力排除与任何职业任务无关的对话(附录 B),但我们的方法没有考虑用户查询的复杂性——例如,提供基本煎蛋的说明并不表明烹饪专业知识。因此,我们可能通过将新手用户的对话分类为某些任务,高估了某些任务的使用率。

    O*NET 数据库的限制 尽管 ONET 数据库提供了对当前经济部门的宝贵见解,但其静态性质为分析人工智能对劳动力市场的影响带来了关键限制。该数据库无法捕捉人工智能系统(如 Claude)可能创造或转变的新兴任务和职业。此外,尽管 ONET 涵盖了大量的任务,但它无法包含经济中的所有任务。此外,这些任务通常以一般性措辞编写,导致在分类对话时存在固有模糊性——许多任务在多个不同职业中相似。最后,作为一个以美国为中心的分类系统,O*NET 可能会忽略其他地区的显著职业类别和任务,这可能会歪曲我们对全球 Claude.ai 使用情况的分布分析。这限制了我们的分析,因为人工智能使用模式可能因国际背景而异[^Gmyrek et al., 2023^]。

    缺乏对用户工作流程的完整上下文 尽管我们的工作分析了 Claude.ai 上的对话数据,但我们的方法无法捕捉用户如何使用 Claude.ai 对话的输出。例如,我们无法观察用户是否将代码片段复制到开发环境中,将写作建议纳入文档,对回应进行事实核查,还是将输出作为灵感而不是逐字内容。因此,判断 Claude 的输出实际上被用户在其任务中纳入的程度仍然无法实现。我们旨在为这种进一步的研究提供初步框架和发现。

    4.2 意义和未来工作

    尽管承认这些限制,我们的分析揭示了几个关于如何研究和应对人工智能经济影响的关键意义。

    与预测研究的比较 我们的实证发现既验证又挑战了之前关于人工智能对工作影响的预测。Webb 预测在工资分布的 90% 附近的职业中人工智能暴露度最高,而我们发现在中高工资职业中使用量达到峰值,而在工资分布的两端使用量较低。这种模式表明,除了技术可行性之外的因素——如实施成本、监管障碍和组织准备情况——可能正在抑制最高工资部门的采用。Eloundou et al. 预测 80% 的美国工人至少有 10% 的工作任务受到语言模型的影响;相比之下,我们的实证数据显示当前采用率为约 57% 的职业至少有 10% 的任务使用人工智能——低于预测,但随着能力提高和采用障碍减少,可能朝着他们的预测趋势发展。然而,他们对医疗保健等行业较高使用量的预测尚未在我们的数据中实现,我们观察到在科学应用中的使用量比他们预期的要高,这突显了部门特定的扩散障碍以及模型能力的意外发展的影响。这些预测与实际使用之间的差异强调了实证测量在理解人工智能不断演变的经济影响中的重要性,并表明技术可行性本身可能不足以预测人工智能将在经济中被采用的位置和方式。

    人工智能使用的动态跟踪 我们的研究提供了一个框架,用于系统地跟踪人工智能随时间融入劳动力的情况。与捕捉自我报告行为的调查不同,我们的方法揭示了在工作场所自然发生的真实人工智能使用模式,提供了更准确和细致的真正整合图景。这种能力服务于多个关键功能:它能够早期检测新兴使用模式,帮助识别接近技术拐点的部门,并揭示采用障碍可能正在导致行业间扩散不均的地方。通过监测人工智能使用的广度(跨职业)和深度(在特定角色内),政策制定者可以制定有针对性的干预措施——无论是支持显示出有希望的(或落后的)生产力提升的部门,还是解决快速自动化领域的潜在置换效应。动态测量系统为政策制定者和组织提供了应对技术转型的关键提前时间,而不是在已经发生破坏后才做出反应。

    任务级测量 我们的发现突显了在任务级别而不是工作级别分析人工智能使用的的重要性。目前,我们观察到的使用集中在特定任务(例如软件工程、内容创作)上,而不是整个职业的全面自动化。如果这种模式持续存在——人工智能只影响工作中的部分任务——这表明职业将演变而不是消失。然而,如果任务使用的广度不断增长且没有饱和迹象,这可能表明工作场所可能会发生更全面的转变。

    增强与自动化 在受影响的任务中,人工智能系统的使用方式可能差异显著。我们的分析揭示了一个重要的区别:虽然一些用户使用人工智能系统来完全自动化任务,但其他用户则将其用作增强其能力的协作工具。这种区别对工作者和生产力都很重要。当人工智能作为增强合作伙伴而不是替代品时,研究表明生产力得到了提升,同时个人在其工作中保持了有意义的参与[^Noy and Zhang, 2023^][^Peng et al., 2023^][^Cui et al., 2024^]。这些模式可以为政策优先事项提供信息——支持在明显受益的领域开发协作人工智能界面,同时为自动化更普遍的领域做好准备。

    从使用模式到更广泛的影响理解当前人工智能使用模式如何转化为更广泛的经济变化仍然是一个关键挑战。尽管我们的数据揭示了人工智能今天被使用的地方,但从这些早期使用趋势中推断长期后果提出了重大的实证挑战[^Acemoglu et al., 2022^]。例如,某些职业中高使用量可能预示着未来的生产力提升或置换效应,而人工智能使用在不同工资水平上的不均匀分布可能提供了关于人工智能如何重塑经济机会和不平等的早期迹象。尽管我们目前的结果无法明确映射这些关系,但纵向分析跟踪使用模式和结果可能有助于揭示人工智能使用推动工作场所变化的机制。

    总体而言,我们的发现表明人工智能已经在经济中的相当一部分任务中开始使用。我们为跟踪人工智能对工作不断演变的影响提供了这一初步框架,并希望与政策制定者、经济学家和其他利益相关者合作,制定能够将人工智能的好处传播到整个经济中的政策建议。

    5. 结论
    要理解人工智能如何影响经济,就需要将我们的分析基于真实世界的数据。我们对数百万次 Claude.ai 对话的分析揭示了清晰的模式:人工智能使用在软件开发和技术写作中达到峰值,约 4% 的职业在其四分之三的任务中使用人工智能,约 36% 的职业在其至少四分之一的任务中使用人工智能。使用在增强人类能力(57%)和自动化(43%)之间几乎平均分配。尽管这些模式具有信息价值,但它们只捕捉到了人工智能融入工作开始阶段。随着人工智能系统从文本扩展到处理视频、语音以及通过机器人进行物理操作,并且随着人工智能代理能够更自主地执行扩展任务,人机协作的本质将发生巨大变化。可能会围绕这些能力出现新的任务,甚至完全新的职业。动态跟踪这些变化的实证框架对于预测和准备不断演变的工作格局至关重要。未来的挑战不仅在于测量这些变化,还在于利用我们对它们的理解来帮助塑造一个更好的未来。

    6. 致谢
    感谢 Avital Balwit、Landon Goldberg、Logan Graham、Zac Hatfield-Dodds、Andrew Ho、Kamya Jagadish、Rebecca Lee、Liane Lovitt、Jennifer Martinez、Andi Peng、Ankur Rathi、Orowa Sikder、Colt Steele、Janel Thamkul 和 Meg Tong 提出的有益想法、讨论和反馈。此外,我们感谢 Jonathon Hazell、Anders Humlum、Molly Kinder、Anton Korinek、Benjamin Krause、Michael Kremer、John List、Ethan Mollick、Lilach Mollick、Arjun Ramani、Will Rinehart、Robert Seamans、Michael Webb 和 Chenzi Xu 对早期发现和论文草稿的富有成效的评论和讨论。

    参考文献

    D. Acemoglu. 《人工智能的潜在危害》. 国家经济研究局技术报告,2021.

    D. Acemoglu 和 P. Restrepo. 《人与机器之间的竞赛:对增长、要素份额和就业的影响》. 《美国经济评论》,108(6):1488–1542, 2018.

    D. Acemoglu, D. Autor, J. Hazell 和 P. Restrepo. 《人工智能与就业:来自在线职位的证据》. 《劳动经济学杂志》,40:S293 – S340, 2022.

    Anthropic. 《Claude 3 模型家族:Opus、Sonnet、Haiku》. 2024.

    D. H. Autor. 《“任务方法”对劳动力市场的概述》. 《劳动市场研究杂志》,46(3):185–199, 2013.

    D. H. Autor. 《为什么仍然有这么多工作?工作场所自动化的过去与未来》. 《经济展望杂志》,29(3):3–30, 2015.

    D. H. Autor, F. Levy 和 R. J. Murnane. 《近期技术变革的技能内容:实证探索》. 《经济学季刊》,118(4):1279–1333, 2003.

    A. Bick, A. Blandin 和 D. J. Deming. 《生成式人工智能的快速采用》. 国家经济研究局技术报告,2024.

    E. Brynjolfsson, T. Mitchell 和 D. Rock. 《机器能学什么,对职业和经济意味着什么?》. 《AEA 论文与会议记录》,108:43–47. 美国经济协会,2014 Broadway, Suite 305, Nashville, TN 37203, 2018a.

    E. Brynjolfsson, T. Mitchell 和 D. Rock. 《机器能学什么,对职业和经济意味着什么?》. 《AEA 论文与会议记录》,108:43–47, 2018b. DOI: 10.1257/pandp.20181019. URL: https://www.aeaweb.org/articles?id=10.1257/pandp.20181019.

    E. Brynjolfsson, D. Li 和 L. R. Raymond. 《工作中的生成式人工智能》. 国家经济研究局技术报告,2023.

    J. H. Choi 和 D. Schwarcz. 《法律分析中的人工智能辅助:实证研究》. SSRN 可用,2023.

    M. Comunale 和 A. Manera. 《人工智能的经济影响及其监管:学术文献和政策行动综述》. 2024.

    Z. K. Cui, M. Demirer, S. Jaffe, L. Musolff, S. Peng 和 T. Salz. 《生成式人工智能对高技能工作的影响:来自软件开发人员的三项实地实验的证据》. SSRN 可用,2024.

    F. Dell’Acqua, E. McFowland III, E. R. Mollick, H. Lifshitz-Assaf, K. Kellogg, S. Rajendran, L. Krayer, F. Candelon 和 K. R. Lakhani. 《在崎岖的技术前沿导航:人工智能对知识工作者生产力和质量影响的实地实验证据》. 哈佛商学院技术与运营管理系工作论文,(24-013), 2023.

    T. Eloundou, S. Manning, P. Mishkin 和 D. Rock. 《GPTs 是 GPTs:大型语言模型对劳动力市场影响的早期观察》,2023. URL: https://arxiv.org/abs/2303.10130.

    E. Felten, M. Raj 和 R. Seamans. 《像 ChatGPT 这样的语言模型将如何影响职业和行业?》arXiv 预印本 arXiv:2303.01157, 2023.

    C. B. Frey 和 M. A. Osborne. 《就业的未来:工作对计算机化的易感性》. 《技术预测与社会变革》,114:254–280, 2017.

    P. Gmyrek, J. Berg 和 D. Bescond. 《生成式人工智能与工作:对工作数量和质量潜在影响的全球分析》. 国际劳工组织工作论文,2023.

    A. Hering. 《Indeed 的人工智能工作报告:生成式人工智能将如何影响工作以及执行这些工作所需的技能》. Indeed Hiring Lab 研究报告,2023.

    A. Humlum 和 E. Vestergaard. 《ChatGPT 的采用》. 芝加哥大学 Becker Friedman 经济研究所技术报告,2024 年 4 月.

    A. Kilbourne-Quirk. onet-dataviz. https://github.com/adamkq/onet-dataviz, 2019. 一个用于抓取、制表和显示 O*NET 网站工作数据的项目。非商业用途。

    M. Kinder, X. de Souza Briggs, M. Muro 和 S. Liu. 《生成式人工智能、美国工人和未来的工作》. 2024 年 10 月.

    N. Maslej, L. Fattorini, R. Perrault, V. Parli, A. Reuel, E. Brynjolfsson, J. Etchemendy, K. Ligett, T. Lyons, J. Manyika, J. C. Niebles, Y. Shoham, R. Wald 和 J. Clark. 《人工智能指数报告 2024》,2024. URL: https://arxiv.org/abs/2405.19522.

    A. Merali. 《经济生产力的扩展定律:LLM 辅助翻译的实验性证据》. arXiv 预印本 arXiv:2409.02391, 2024.

    A. Mnih 和 G. Hinton. 《可扩展的层次化分布式语言模型》. 《神经信息处理系统会议录》,22nd International Conference on Neural Information Processing Systems, NIPS’08, 页码 1081–1088, Red Hook, NY, USA, 2008. Curran Associates Inc. ISBN 9781605609492.

    F. Morin 和 Y. Bengio. 《层次化概率神经网络语言模型》. 在 R. G. Cowell 和 Z. Ghahramani 编辑的《第十届人工智能与统计国际研讨会论文集》中,卷号 R5,机器学习研究进展,页码 246–252. PMLR, 06–08 Jan 2005. URL: https://proceedings.mlr.press/r5/morin05a.html. 2021 年 3 月 30 日重新发布。

    National Center for ONET Development. ONET OnLine, 2025a. URL: https://www.onetonline.org/. 访问日期:2025-01-17.

    National Center for ONET Development. ONET OnLine, 2025b. URL: https://www.onetonline.org/. 美国劳工部就业与培训管理局 (USDOL/ETA). 采用 CC BY 4.0 许可证。

    S. Noy 和 W. Zhang. 《生成式人工智能的生产力效应的实验性证据》. 《科学》,381(6654):187–192, 2023.

    S. Peng, E. Kalliamvakou, P. Cihon 和 M. Demirer. 《人工智能对开发人员生产力的影响:来自 GitHub Copilot 的证据》. arXiv 预印本 arXiv:2302.06590, 2023.

    N. Reimers 和 I. Gurevych. all-mpnet-base-v2: 基于 MPNet 的句子嵌入模型. https://huggingface.co/sentence-transformers/all-mpnet-base-v2, 2022. 基于 MPNet 的句子变换器模型,训练于超过 10 亿训练对。

    A. Tamkin, M. McCain, K. Handa, E. Durmus, L. Lovitt, A. Rathi, S. Huang, A. Mountfield, J. Hong, S. Ritchie, M. Stern, B. Clarke, L. Goldberg, T. R. Sumers, J. Mueller, W. McEachen, W. Mitchell, S. Carter, J. Clark, J. Kaplan 和 D. Ganguli. 《Clio:隐私保护下对人工智能实际使用的洞察》,2024. URL: https://arxiv.org/abs/2412.13678.

    P. Trammell 和 A. Korinek. 《变革性人工智能下的经济增长》. 国家经济研究局工作论文 31815,2023 年 10 月. URL: http://www.nber.org/papers/w31815.

    U.S. Bureau of Labor Statistics. U.S. Bureau of Labor Statistics. https://data.bls.gov/oes/#/home, 2024.

    US Census Bureau. 《美国收入:2022》. Census.gov, 2022.

    M. Webb. 《人工智能对劳动力市场的影响》. 创新经济学杂志,2019.

    E. Wiles, L. Krayer, M. Abbadi, U. Awasthi, R. Kennedy, P. Mishkin, D. Sack 和 F. Candelon. 《GenAI 作为外骨骼:知识工作者使用 GenAI 学习新技能的实验证据》. SSRN 可用,2024.

    获取《Anthropic – AI 经济指数报告》PDF原文件,扫码关注公众号回复:20250211 领取

  • TurboTTS – 免费AI文本转语音工具,支持70多种语言和300多种真实语音

    TurboTTS是什么

    TurboTTS 是免费的在线文本转语音工具,支持70多种语言和300多种真实语音选择,能生成自然、逼真的语音效果,适用于短视频创作、在线教育、广告制作、播客等多种场景。用户只需输入文本并选择语言和语音类型,可快速生成语音文件,操作简单便捷。支持多种文件格式下载,生成的语音文件可用于商业用途。

    TurboTTS

    TurboTTS的主要功能

    • 多语言支持:支持多达70种语言,提供超过300种真实语音选择。
    • 高质量语音合成:基于先进的AI技术,生成自然、逼真的语音,适用于有声读物、广告、教育等多种场景。
    • 简单易用:界面友好,操作简单,即使是初学者也能快速上手。
    • 多种文件格式支持:生成的语音文件可以即时下载,支持多种格式,方便用于不同项目。
    • 商业用途授权:生成的语音文件可用于商业用途,需遵守网站的使用条款。

    TurboTTS的官网地址

    TurboTTS的应用场景

    • 短视频创作:为短视频快速生成旁白,提升叙事质量。
    • 在线教育:为课程生成清晰一致的旁白,提高学习的可访问性。
    • 营销与广告:为广告和促销视频制作定制旁白,增强信息传递效果。
    • 播客与音频内容创作:帮助创作者生成高质量的旁白,无需专业配音演员。