Blog

  • WebResearcher – 阿里通义开源的迭代式深度研究Agent

    WebResearcher是什么

    WebResearcher是阿里巴巴自通义实验室推出的迭代式深度研究智能体,隶属通义DeepResearch家族,基于创新的迭代深度研究范式,模拟人类专家的认知工作流程,能自主分解复杂问题,协调工具使用,将发现整合为有理有据的连贯叙述。与传统研究智能体相比,WebResearcher通过分阶段处理研究过程,避免信息过载和噪声累积问题,确保持续的深度推理能力。WebResearcher配备了可扩展的数据合成引擎和专门的多阶段训练流程,包括基于拒绝的微调和可验证奖励的强化学习,在复杂推理任务中展现出卓越的性能。

    WebResearcher

    WebResearcher的主要功能

    • 自主分解复杂问题:将复杂的研究任务分解为多个可管理的子任务。
    • 协调工具使用:根据需要调用各种工具,如搜索引擎、学术数据库等。
    • 整合发现:将检索到的信息和工具的输出整合为连贯、有理有据的叙述。
    • 持续深度推理:通过迭代过程,持续进行深度推理,避免信息过载和噪声累积。

    WebResearcher的技术原理

    • 迭代研究过程:将研究过程分解为多个离散的轮次,每一轮都包括“思考(Think)”、“报告(Report)”和“行动(Action)”三个部分。每一轮的“报告”作为中央记忆,将新发现整合到一个连贯的高密度总结中,传递到下一轮。循环的合成和重构过程防止认知空间的过载和噪声污染,使深度推理得以持续。
    • 可扩展的数据合成引擎:用多智能体框架,通过三个阶段的工作流程自动生成大规模、高质量、复杂的推理任务数据。包括初始数据生成、迭代复杂性提升和严格质量控制。
    • 训练和推理
      • 基于拒绝的微调(Rejection-based Fine-Tuning, RFT):在高质量轨迹上进行微调,确保最终答案与真实值完全匹配,培养稳健的工具使用能力和知识基础推理。
      • 强化学习(Reinforcement Learning, RL):进一步通过可验证奖励的强化学习(RLVR)增强智能体的多步逻辑推理能力。
      • 测试时扩展(Test-Time Scaling, TTS):在推理过程中,通过运行多个并行推理路径,用专门的融合智能体从每个路径的最后几步中合成最终答案,提升性能。

    WebResearcher的项目地址

    • GitHub仓库:https://github.com/Alibaba-NLP/DeepResearch/tree/main/WebAgent/WebResearcher
    • arXiv技术论文:https://arxiv.org/pdf/2509.13309

    WebResearcher的应用场景

    • 学术研究:帮助研究人员快速梳理文献、挖掘关键信息,辅助进行复杂的学术课题研究,提高研究效率和质量。
    • 市场分析:WebResearcher能收集和分析市场数据,挖掘行业趋势和消费者需求,为企业提供精准的市场洞察,助力决策制定。
    • 技术开发:在技术领域,用在技术趋势研究、竞品分析等,帮助开发者把握技术前沿,加速技术迭代。
    • 教育辅导:为学生和教育工作者提供学习资源的整合和知识讲解,辅助教学和学习过程。
    • 医疗健康:协助医疗人员进行疾病研究、药物研发信息收集等工作,为医疗决策提供数据支持和知识背景。
  • AI Developer – Skywork Super Agents推出的AI编程助手

    AI Developer是什么

    AI Developer 是天工超级智能体(Skywork Super Agents)在海外版上线的Vibe Coding Agent,能帮助非专业开发人员,通过自然语言交互快速构建、部署和管理全栈 Web 应用程序。AI Developer能生成前端页面,能与 Supabase 深度集成,实现后端功能,如数据库管理、用户鉴权等,支持第三方服务集成,如 Stripe 支付和 Resend 邮箱服务,大大简化开发流程,降低开发门槛,使用户能专注于业务逻辑和创造力,快速实现功能丰富的网站开发。

    AI Developer

    AI Developer的主要功能

    • 前端页面设计:根据自然语言指令快速生成、自定义各种前端页面,满足不同设计需求。
    • 后端功能实现:与 Supabase 深度集成,实现数据库管理、用户鉴权、文件存储、实时更新及外部服务调用等后端功能。
    • 第三方服务集成:集成 Stripe 支付和 Resend 邮箱服务,满足电商、邮件通知等业务需求。
    • 端到端解决方案:提供从前端到后端的全栈开发及一键部署功能,简化开发和发布流程。
    • 交互与管理:支持自然语言交互,方便非专业开发人员使用,且提供应用管理功能。

    如何使用AI Developer

    • 注册登录:访问海外Skywork官网 https://skywork.ai/,完成张合注册和登录。
    • 创建项目:选择项目模板,输入项目名称,开始新项目。
    • 描述需求:用自然语言描述页面功能和设计需求,如“创建一个营销页面,包含图片轮播和表单”。
    • 生成编辑:AI 自动生成页面,通过可视化编辑器调整布局、颜色等细节。
    • 配置后端:在 Supabase 配置数据库、用户登录和文件存储等后端功能。
    • 集成服务:集成 Stripe 支付和 Resend 邮箱等第三方服务。
    • 测试优化:本地测试页面功能,根据结果优化体验。
    • 一键部署:选择云平台,点击部署按钮,快速上线应用。

    AI Developer的应用场景

    • 电商网站:快速搭建包含商品展示、购物车、支付等功能的电商平台,助力商家快速上线销售。
    • 营销落地页:创建吸引用户的营销页面,用在推广活动、产品介绍,提高转化率。
    • 企业官网:构建展示企业信息、产品服务、团队介绍等的官方网站,提升企业形象。
    • 在线教育平台:开发课程展示、学习管理、在线测试等功能的教育网站,支持远程教学。
  • Learn Your Way – 谷歌推出的实验性AI学习工具

    Learn Your Way是什么

    Learn Your Way是谷歌推出的基于先进人工智能技术重新构想传统教材的实验性学习工具。将教材内容转化为动态且引人入胜的学习体验,为每个学习者量身定制。工具能将内容转化为沉浸式文本、章节测验、幻灯片和旁白、音频课程、思维导图等多种形式,满足不同学习风格的需求。例如,学生可以选择通过思维导图快速了解全局,通过沉浸式文本加深理解,或者通过小测验验证自己是否真正掌握。结合了谷歌前沿的AI研究与有效的学习科学,由教育专家共同开发,为每个学习者提供高质量和有效性的学习体验。

    Learn Your Way

    Learn Your Way的主要功能

    • 个性化内容呈现:根据学习者的年级、兴趣和学习需求,自动调整教材内容,使其更贴合个人需求。
    • 多样化学习形式:将教材内容转化为多种互动形式,如沉浸式文本、章节测验、幻灯片和旁白、音频课程、思维导图等,满足不同学习风格。
    • 实时反馈与互动:通过互动测验实时反馈学习情况,帮助学习者发现并解决问题,并根据回答动态调整推荐内容,助力复习薄弱部分。
    • 结合先进AI与学习科学:融合谷歌前沿的AI研究和有效的学习科学,由教育专家共同开发,确保学习质量和效果。

    如何使用Learn Your Way

    • 访问官网:访问 Learn Your Way 的官网:https://learnyourway.withgoogle.com/。
    • 选择学习内容:根据自己的学习需求,选择感兴趣的学科或主题。
    • 个性化设置:输入年级、兴趣等信息,系统将根据这些信息调整教材内容。
    • 体验不同形式:选择适合自己的学习形式,如沉浸式文本、幻灯片、音频课程等。
    • 参与互动测验:完成章节测验,获取实时反馈,系统会根据表现提供进一步的学习建议。
    • 申请完整体验:如果需要更全面的功能,可以申请体验完整功能,以获得更深入的学习体验。

    Learn Your Way的应用场景

    • 个性化学习体验:根据学生年级、兴趣和学习情况自动调整教材内容,使教材像私人订制的App,更好地满足不同学生的需求。
    • 多样化学习形式:将教材内容转化为沉浸式文本、章节测验、幻灯片和旁白、音频课程、思维导图等多种形式,学生可以根据自己的喜好和学习习惯选择不同的学习形式。
    • 实时反馈与互动:通过互动测验实时反馈学生的学习情况,帮助学生发现并解决问题,根据回答动态调整推荐内容,助力复习薄弱部分。
    • 教育研究与实验:作为Google Research的实验项目,为教育领域的研究提供新的思路和方法,探索如何利用生成式AI技术来创造更加有效和互动的学习体验。
    • 提升学习效果:在实验中,使用“Learn Your Way”的学生在理解测验中表现优于使用传统数字阅读器的学生,且在3-5天后的测试中成绩更高,学习体验更积极。
  • InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

    InternVLA·M1是什么

    InternVLA·M1 是上海人工智能实验室开发的具身操作“大脑”,是面向指令跟随的双系统操作大模型。构建了覆盖“思考-行动-自主学习”的完整闭环,负责高阶的空间推理与任务规划。模型采用两阶段训练策略,先通过空间感知预训练,增强空间推理与规划能力;再以隐式空间推理方式实现高效的动作后训练。仅需“空间规划提示”即可高效训练,大幅降低成本。在 SimplerEnv 等公开操作基准测试中,InternVLA·M1 达到国际领先水平,其指令跟随与未见物体泛化能力显著优于其他同类模型。依托自研仿真平台 InternData-M1 完成大规模预训练,适用于复杂场景及长程任务。

    InternVLA·M1

    InternVLA·M1的主要功能

    • 高阶空间推理与任务规划:负责复杂环境下的空间推理和任务规划,能理解指令并生成相应的操作序列。
    • 双系统操作架构:采用两阶段训练策略,先进行空间感知预训练,再进行动作后训练,提升模型的推理和规划能力。
    • 高效训练与成本控制:通过“空间规划提示”实现高效训练,大幅降低训练成本和时间。
    • 指令跟随与泛化能力:在多种公开基准测试中表现优异,尤其在指令跟随和未见物体泛化方面表现突出。
    • 自主学习与闭环控制:构建了“思考-行动-自主学习”的完整闭环,能够通过自主学习不断优化操作策略。
    • 复杂场景适应性:在真机复杂场景及长程任务中表现出色,适用于多种实际应用场景。

    InternVLA·M1的技术原理

    • 双系统架构:结合空间感知预训练和动作后训练,增强模型对空间环境的理解和操作能力。
    • 空间感知预训练:通过大规模仿真数据,训练模型对空间关系的感知和推理能力,为后续任务规划奠定基础。
    • 动作后训练:利用隐式空间推理方式,使模型能高效地学习具体动作的执行,提升操作精度。
    • 空间规划提示:引入空间规划提示机制,帮助模型更高效地进行任务规划和动作生成,降低训练复杂度。
    • 闭环控制:构建“思考-行动-自主学习”的闭环系统,使模型能在实际操作中不断学习和优化,适应复杂环境。
    • 大规模仿真数据:依托自研仿真平台 InternData-M1,生成大量高质量的训练数据,支持模型的大规模预训练。
    • 指令驱动:模型能接收自然语言指令,解析指令内容,生成相应的操作序列,实现指令跟随功能。

    InternVLA·M1的项目地址

    • 项目官网:https://internrobotics.github.io/internvla-m1.github.io/
    • Github仓库:https://github.com/InternRobotics/InternVLA-M1
    • HuggingFace模型库:https://huggingface.co/collections/InternRobotics/internvla-m1-68c96eaebcb5867786ee6cf3
    • HuggingFace数据链接:https://huggingface.co/datasets/InternRobotics/InternData-M1
    • 技术论文:https://github.com/InternRobotics/InternVLA-M1/blob/InternVLA-M1/assets/InternVLA_M1.pdf

    InternVLA·M1的应用场景

    • 工业自动化:在工厂环境中,用于自动化生产线上的复杂任务,如零部件组装、物料搬运和质量检测,提高生产效率和精准度。
    • 物流与仓储:优化物流中心的货物分拣、搬运和存储操作,实现自动化仓库管理,提升物流效率和准确性。
    • 服务机器人:在家庭、酒店、医院等场景中,为人们提供清洁、送餐、护理等服务,提升生活质量和服务效率。
    • 智能安防:用于安防监控中的异常行为检测、区域巡逻和安全检查,增强安防系统的智能化水平。
    • 教育与科研:作为教学和科研工具,帮助学生和研究人员探索机器人技术、人工智能和自动化控制等领域。
    • 灾难救援:在地震、火灾等灾害现场,执行搜索、救援和物资运输任务,减少人员伤亡和提高救援效率。
    • 农业自动化:用于农作物种植、采摘和灌溉等环节,实现农业生产的自动化和智能化,提高农业生产力。
  • Oakley Meta Vanguard – Meta推出的运动型AI眼镜

    Oakley Meta Vanguard是什么

    Oakley Meta Vanguard 是Meta推出的面向运动与极客人群的智能眼镜,采用防风镜造型,配备中央广角摄像头、长续航和运动数据整合功能,配有训练提醒灯。Oakley Meta Vanguard 具备 IP67 级防尘防水性能,适合高强度运动,支持与佳明手表和 Strava 平台连接,能实时播报运动数据并同步训练记录。眼镜提供多种颜色组合,易于更换镜片,将于10月21日发售。

    Oakley Meta Vanguard

    Oakley Meta Vanguard的主要功能

    • 运动数据监测:与佳明手表和 Strava 平台无缝连接,实时播报心率、配速等运动数据,支持训练提醒灯功能。
    • 高清视频录制:配备1200万像素、122°广角摄像头,支持3K分辨率视频录制,提供慢动作、超速延时和可调节防抖功能。
    • 语音交互:通过语音指令与 Meta AI 交互,获取实时运动数据和指导,无需手动操作。
    • 强大的音频系统:开放式耳扬声器比上一代产品更强大,配备五麦克风阵列,优化风噪抑制,适合户外运动。
    • 长续航:电池续航长达9小时,搭配充电盒可延长至36小时,支持20分钟快速充电至50%。
    • 防尘防水:IP67级防尘防水设计,适合各种恶劣环境。
    • 定制化适配:基于三点适配系统,配备三种可更换鼻垫,确保贴合舒适。

    Oakley Meta Vanguard的规格参数

    类别 项目 规格参数
    包装内容 眼镜 已安装通用鼻垫
    配件 超细纤维收纳袋、高鼻梁架和低鼻梁架鼻垫、参考指南
    备注 不含 USB-C 充电线
    框架 形状 弧形
    材质 射出成型塑胶
    镜片 镜片颜色 Prizm™ 24k
    加工 Iridium
    尺寸 铰链宽度 (毫米) 136
    镜片高度 (毫米) 59
    镜脚长度 (毫米) 120
    适用对象 年龄 年满 13 岁的用户
    重量 镜框 (克) 67
    充电盒 (克) 258
    相机 像素 1200 万像素
    可视角度 122° 超广可视角
    功能 配备中等图像稳定功能
    图像摄取 3024 x 4032 像素
    视频分辨率 1080p/30fps, 1080p/60fps, 3K/30fps
    视频拍摄模式 标准, 慢动作, 动态缩时
    音频 喇叭 2 个隐藏式的开放式喇叭
    音量性能 在风速达 30 英里/小时的环境中也可听到音讯。音量比 Oakley Meta HSTN 大 6 分贝
    麦克风 5 组专属麦克风(左侧镜脚 1 组、右侧镜脚 1 组、靠近鼻子区域 3 组)
    电池 使用时间 单次充电最长可使用 9 小时,搭配充满电的充电盒则最长可使用 36 小时
    内存 内部存储 32GB 快闪记忆体
    存储示例 超过 1000 张相片,超过 100 部 30 秒影片
    连接性 Wi-Fi Wi-Fi 6 认证
    蓝牙 蓝牙 5.3
    操作系统兼容性 iOS 15.2 以上版本,最低版本 Android 10

    Oakley Meta Vanguard的价格配置

    • 价格$499(约合人民币3581元)

    Oakley Meta Vanguard的购买地址

    • Oakley官网购买地址:https://www.oakley.com/en-us/product/W0OW8001

    Oakley Meta Vanguard的应用场景

    • 运动训练:适合高强度运动,如马拉松、骑行和滑雪,实时提供心率、配速等关键信息,帮助运动员优化训练。
    • 极限运动:极限运动爱好者能轻松捕捉惊险动作,如滑板、冲浪等,分享给朋友或社交媒体。
    • 日常健身:与健身应用集成,如Strava和佳明记录日常锻炼数据,提供实时反馈,激励用户保持健康生活方式。
    • 赛事记录:在参加体育赛事时自动捕捉关键时刻,生成精彩片段集锦,让运动员和观众能回味比赛的精彩瞬间。
  • 通义DeepResearch – 阿里推出的开源深度研究智能体

    通义DeepResearch是什么

    通义DeepResearch 是阿里巴巴推出的开源深度研究智能体,专为长周期、深度信息检索任务设计。拥有 300 亿参数,每次激活 30 亿参数,支持 ReAct 模式和深度模式(Heavy Mode),后者通过迭代研究范式(IterResearch)提升复杂推理能力。智能体采用全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限。训练流程涵盖智能体持续预训练(Agentic CPT)、监督微调(SFT)和强化学习(RL),形成完整的端到端训练链路。通义 DeepResearch 已赋能阿里巴巴内部多个应用,如高德地图的 AI 原生出行 Agent 和法律领域的“通义法睿”。

    通义 DeepResearch

    通义DeepResearch的主要功能

    • 长周期深度信息检索:专为复杂、长周期的信息检索任务设计,能处理多步骤的推理和规划,适用于学术研究、市场分析、政策制定等场景。
    • 多模式推理支持:支持 ReAct 模式和深度模式(Heavy Mode)。ReAct 模式严格遵循“思考-行动-观察”循环,适合评估模型的核心能力;深度模式通过迭代研究范式(IterResearch)提升复杂推理能力。
    • 全流程合成数据生成:采用自研的全流程合成数据方案,无需人工干预即可生成高质量数据集,突破智能体能力上限,支持从预训练到微调再到强化学习的完整训练链路。
    • 端到端强化学习:通过定制化的强化学习算法(如 Group Relative Policy Optimization, GRPO),确保智能体的行为与高阶目标保持一致,提升模型在动态环境中的适应性和稳定性。
    • 实际应用赋能:已成功应用于阿里巴巴内部多个场景,如高德地图的 AI 原生出行 Agent 和法律领域的“通义法睿”,展现出强大的实用性和价值。
    • 开源共建:项目完全开源,提供完整的代码、模型和数据,鼓励开发者参与共建,推动深度研究智能体的发展和创新。

    通义DeepResearch的技术原理

    • 全流程合成数据方案:无需人工干预,自动生成高质量数据集,支持从预训练到微调再到强化学习的完整训练链路,突破智能体能力上限。
    • 迭代研究范式(IterResearch):将复杂任务分解为多个研究回合,每个回合动态重构精简工作区,通过“思考-综合-行动”流程,提升复杂推理能力和决策质量。
    • 端到端强化学习:采用定制化的强化学习算法,如 Group Relative Policy Optimization (GRPO),确保学习信号与模型当前能力精准匹配,提升模型在动态环境中的适应性和稳定性。
    • 大规模持续预训练:利用持续更新的知识文档、爬虫数据、知识图谱等构建开放世界知识记忆,生成多风格的(问题,答案)对,持续扩展模型能力。
    • 自动化数据管理:在训练动态的指导下实时优化数据,通过全自动数据合成和数据漏斗动态调整训练集,确保训练的稳定性和性能提升。
    • 稳定高效的工具沙盒:开发统一的沙盒环境,处理并发和故障,确保工具调用的稳定性和可靠性,为智能体提供快速且鲁棒的交互环境。

    通义DeepResearch的项目地址

    • 项目官网:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
    • Github仓库:https://github.com/Alibaba-NLP/DeepResearch
    • HuggingFace模型库:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

    通义 DeepResearch 的家族成员

    • WebWalker:专注于网页遍历任务,用于评估语言模型在网页导航中的表现。
    • WebDancer:致力于实现自主信息寻求能力,推动智能体在信息检索中的自主性。
    • WebSailor:用于导航复杂的网页环境,提升智能体的超人级推理能力。
    • WebShaper:通过信息寻求的形式化,实现智能体数据的合成,提升数据质量和模型性能。
    • WebWatcher:探索视觉语言智能体的新边界,结合视觉和语言能力进行深度研究。
    • WebResearcher:释放长周期智能体的无界推理能力,提升其在复杂任务中的表现。
    • ReSum:通过上下文总结解锁长周期搜索智能,优化智能体的信息管理能力。
    • WebWeaver:利用动态提纲结构化网络规模的证据,支持开放式的深度研究。
    • WebSailor-V2:通过合成数据和可扩展的强化学习,缩小与专有智能体的差距。

    通义DeepResearch的应用场景

    • 学术研究:能快速整理文献综述,帮助学者们高效完成复杂的学术研究任务,提升研究效率。
    • 市场分析:为企业提供竞争对手分析、行业趋势报告等,助力企业制定精准的市场策略。
    • 法律研究:在法律领域,如“通义法睿”应用,自动检索法条、类案和裁判文书,进行深度归纳分析,为法律从业者提供强大的生产力工具。
    • 出行规划:与高德地图合作,推出 AI 原生出行 Agent,结合实时数据为用户提供精准的出行建议和规划。
    • 复杂信息检索:适用于需要多步骤推理和规划的复杂信息检索任务,如跨领域研究、政策制定等,帮助用户快速获取和整合信息。
  • Anthropic最新报告《人类经济指数:追踪AI在美国及全球经济中的作用》

    《人类经济指数:追踪AI在美国及全球经济中的作用》主要研究AI(特别是Claude)在全球和美国各州的使用情况。报告发现,美国的Claude使用量远超其他国家,印度、巴西、日本和韩国紧随其后。在国家层面,Claude的使用与人均GDP呈正相关,高收入国家更倾向于使用Claude进行知识工作而非单纯的编程。在美国,各州的AI使用因经济结构不同而异,例如华盛顿特区更常用于文档编辑,加州更偏重编程任务。报告发现,随着时间推移,Claude的自动化任务比例从27%上升到39%,表明用户对AI的信任度在增加。

    夏威夷的旅行规划、马萨诸塞州的科学研究、印度的网页应用开发——表面上看,三者似乎毫无关联。事实上,Claude在这些地方的用途最为广泛

    这并不意味着这些是Claude最热门的用途:软件工程仍在全球几乎所有州和国家占据绝对主导地位。所谓“最为广泛”指的是:马萨诸塞州用户寻求科研帮助的概率远高于其他地区,巴西用户对语言类任务格外热衷——他们用Claude进行翻译和语言学习的频率是全球平均水平的六倍。

    这些发现来自我们第三期《Anthropic经济指数》报告。本期报告中,我们进一步追踪AI技术如何重塑工作与经济格局的早期趋势,重点分析Claude在不同维度的应用差异:

    • 美国各州对比:首次详细评估AI使用率的州际差异。发现各州经济结构直接影响人均Claude使用量,且最高使用率的州并非以编程任务为主。
    • 跨国对比:新分析显示国家收入水平与Claude使用强度高度相关,低收入国家用户更倾向于用AI自动化工作任务。
    • 时间演变:对比2024年12月-2025年1月2025年2月-3月数据发现,“指令型自动化”任务占比从27%激增至39%,表明AI承担的责任(及用户信任度)快速提升。
    • 企业用户:新增Anthropic第一方API客户匿名数据(覆盖Claude.ai之外的用户),首次揭示企业使用模式:API用户自动化任务倾向显著高于消费者,预示劳动力市场或将迎来重大变革。

    以下是报告核心摘要。我们同步推出了交互式网站,可自主查询全美各州及所有追踪职业的Claude.ai使用趋势,观察所在地或相关行业的AI应用情况。若需深度研究,我们完全公开本期及往期经济指数数据集。

    地域分析

    本次指数新增地理维度数据,揭示Claude在全球各国及美国各州的应用特征。

    跨国模式

    美国Claude使用量遥遥领先,印度位居第二,巴西、日本、韩国使用份额相近。

    考虑到各国人口规模差异,我们采用“AnthropicAI使用指数(AUI)”校正分析:AUI>1代表该国人均使用量高于其劳动年龄人口预期水平。

    数据显示,技术先进的小型经济体(如以色列、新加坡)在 Claude 采用率方面相对于劳动年龄人口处于领先地位。收入可能是关键因素:人均GDP与AUI指数呈现强相关性(人均GDP每增1%,AUI增0.7%)。这符合逻辑——Claude高使用国通常具备完善互联网基础设施及知识型经济主导的产业特征。也引发经济分化担忧:历史表明,电气化、内燃机等通用技术推动经济增长,也加剧了全球生活水平差距。若AI效益集中于高收入国家,可能重现类似的经济分化效应。

    美国州际模式

    人均GDP与Claude使用量的正相关性在美国州级层面同样成立,且相关性更强(人均GDP每增1%,人均使用量增1.8%)。但收入解释力低于跨国数据,表明存在其他影响因素。

    我们推测各州经济结构是主要因素。美国最高的 AUI 是哥伦比亚特区(3.82),其中 Claude 最频繁的使用是编辑文档和搜索信息,及与华盛顿特区知识工作相关的其他任务。同样,与编码相关的任务在加利福尼亚州(AUI 总体排名第三的州)。

    即使夏威夷等低使用率州,旅游相关任务使用频率也达全美平均值的两倍,更多数据可通过交互式网站探索。

    Claude 的使用趋势

    自 2024 年 12 月以来,我们一直在追踪人们如何使用 Claude。我们用一种保护隐私的分类方法,将匿名对话记录按 O*NET(美国政府数据库,用于对工作及相关任务进行分类)定义的任务组进行分类。通过这种方式,我们能分析自去年以来人们分配给 Claude 的任务发生了怎样的变化,及人们选择合作的方式(他们选择对 Claude 的工作进行多少监督和投入)也发生了怎样的变化。

    任务类型

    自 2024 年 12 月以来,Claude 的计算机和数学用途在我们的类别中占据主导地位,约占对话的 37-40%。

    但情况已发生很大变化。在过去的九个月里,我们看到“知识密集型”领域持续增长。例如,教育指导任务增加40%以上(占所有对话的比例从9%上升到13%),与物理和社会科学相关的任务比例增加三分之一(从6%上升到8%)。与此同时,传统商业任务的相对频率有所下降:与管理相关的任务占所有对话的比例从5%下降到3%,与商业和金融运营相关的任务比例减少一半,从6%降至3%。(当然,从绝对值来看,每个类别的对话数量仍然显著增加。)

    整体趋势显示,随国家人均GDP提高,Claude应用从计算机/数学任务向教育、艺术设计、行政支持、科学研究等多元化场景迁移。软件开发仍是所有国家的最高频应用,美国各州亦呈现类似规律,尽管我们的样本量限制更详细地探究任务组合如何随采用率的变化而变化的能力。

    交互模式

    正如我们之前所提到的,我们将AI应用分为自动化(AI最小化人工干预直接产出)与增强(人机协作),我们进一步将自动化细分为指令性对话和反馈循环交互,其中指令性对话涉及极少的人机交互,而在反馈循环任务中,人类将现实世界的结果反馈给模型。我们还将增强细分为学习(请求信息或解释)、任务迭代(与 Claude 协作)和验证(请求反馈)。

    2024年12月以来,指令型对话占比从27%骤增至39%,其他模式(尤其学习、任务迭代、反馈循环)小幅下降,推动自动化总量(49.1%)首次超越增强(47%)。表明AI正快速获得用户信任,承担更复杂工作的自主权提升。

    模型能力升级可能是主因(2024 年 12 月,我们首次收集经济指数数据时,Claude 的最新版本是 Sonnet 3.6)。随着模型越来越善于预测用户需求、生成高质量的结果,用户可能会更愿意在第一次尝试时就信任模型的输出。

    反常现象是:高使用率国家倾向增强模式,低使用率国家更偏好自动化,在控制相关任务组合的情况下,人均使用量每增1%,自动化率降低约3%。原因尚不明确,可能与各国早期使用者文化差异或经济因素相关。

    企业应用

    使用与Claude.ai对话相同的隐私保护方法,我们从 Anthropic 的第一方 API 客户子集中抽样交互,这是一项开创性的分析。 API 客户往往是企业和开发人员,他们使用 Claude 的方式与通过Claude.ai访问 Claude 的人非常不同:他们按令牌付费,不是按固定的月度订阅,且能通过自己的程序发出请求。

    这些客户对 Claude 的使用尤其集中在编码和管理任务上:我们示例中 44% 的 API 流量映射到计算机或数学任务,而Claude.ai上这一比例为 36%。(实际上,大约 5% 的 API 流量专门用于开发和评估人工智能系统。)与教育职业相关的对话比例(API 中为 4%,Claude.ai上为 12%)及艺术和娱乐相关的对话比例(API 中为 5%,Claude.ai上为 8%)相对较小,抵消了差异。

    最后,考虑到 API 使用的付费方式,探究任务成本差异(由消耗的代币数量差异引起)是否会影响企业选择“购买”哪些任务。发现任务成本与使用频率呈正相关:成本较高的任务类别往往使用频率更高,如下图所示。表明,模型的基本功能及产生的经济价值对企业而言比完成任务本身的成本更为重要。

    结论

    经济指数旨在实证评估AI对就业与经济的影响初期表现,我们发现,AI应用呈现显著不均衡性:高收入国家用户更倾向使用Claude,更追求协作而非自动化,应用场景超越编程范畴。在美国州级使用量与当地主导产业紧密关联(从科技到旅游业),且企业比消费者更愿赋予Claude自主权。

    尤其值得注意的是,过去九个月Claude.ai指令型自动化对话占比急剧上升。用户仍在探索与AI的协作边界——我们仍在集体界定对AI工具的信任阈值与责任分配。但目前趋势表明,人类正越来越适应AI代理工作。我们将持续追踪这一演变,观察随模型能力提升用户行为是否趋于稳定。

    欢迎访问Anthropic经济指数专题网站探索交互式数据可视化(涵盖国家、州、职业维度),我们将持续更新数据供公众追踪AI对经济与就业的影响路径。

    开放数据

    与以往的报告一样,本期同步发布完整数据集,其中包括地理数据、任务级使用模式、按任务划分的自动化/增强功能细分以及 API 使用情况概览。数据可在经济指数网站下载。

    报告官方网站

    • 报告官网:https://www.anthropic.com/research/economic-index-geography
    • 交互式网站:https://www.anthropic.com/economic-index
  • RustGPT – AI语言模型,根据输入内容自动文本补全

    RustGPT是什么

    RustGPT 是用 Rust 编写的 Transformer 架构语言模型。RustGPT从零开始构建,不依赖任何外部机器学习框架,仅用 ndarray 进行矩阵运算。项目包括事实文本补全的预训练、用于会话 AI 的指令微调及交互式聊天模式测试。RustGPT模块化架构确保关注点的清晰分离,便于理解和扩展。RustGPT 适合对 Rust 和机器学习感兴趣的开发者,是一个优秀的学习项目。

    RustGPT

    RustGPT的主要功能

    • 事实文本补全:RustGPT 能根据输入的文本片段,生成合理的后续内容。
    • 指令微调:模型经过指令微调,能理解和生成符合人类指令的文本。
    • 交互式聊天模式:RustGPT 支持交互式聊天模式,用户输入问题或提示,模型能生成相应的回答。
    • 动态词汇表:模型支持动态构建词汇表,能根据输入数据自动扩展词汇表,适应不同的文本内容。

    RustGPT的技术原理

    • 基于 Transformer 的架构:RustGPT 使用 Transformer 架构,一种基于注意力机制的神经网络架构,能处理长序列数据、捕捉长距离依赖关系。Transformer 架构包括多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Neural Network)。
    • 自定义分词:模型使用自定义的分词方法,将文本分割成标记(tokens),标记包括单词、子单词或字符。分词后的文本被嵌入到高维向量空间中,用在模型的输入。
    • 矩阵运算:模型的计算主要依赖于矩阵运算,用 ndarray 库实现。矩阵运算包括嵌入层的矩阵乘法、多头自注意力机制中的矩阵运算、前馈网络中的矩阵运算等。
    • 预训练和微调
      • 预训练:模型首先在大量文本数据上进行预训练,学习语言的基本模式和结构。预训练的目标是最大化预测下一个标记的概率。
      • 指令微调:在预训练的基础上,模型进一步进行指令微调,学习如何生成符合人类指令的文本。微调过程中,模型根据特定的任务或指令进行优化。

    RustGPT的项目地址

    • GitHub仓库:https://github.com/tekaratzas/RustGPT

    RustGPT的应用场景

    • 文本补全:根据用户输入的部分文本,自动生成合理的后续内容,帮助用户快速完成写作或输入。
    • 创意写作:为作家和内容创作者提供灵感,生成故事、诗歌、文章等创意文本。
    • 聊天机器人:构建智能聊天机器人,用于客服、虚拟助手等场景,理解和生成自然语言对话。
    • 机器翻译:将一种语言的文本翻译成另一种语言,帮助跨越语言障碍。
    • 多语言对话:支持多语言交互,帮助用户进行跨语言交流。
  • Orchids – AI全栈开发工具,生成完整应用与网站

    Orchids是什么

    Orchids 是全球首款具备全栈开发能力的 AI 工具,能实现从前端到后端的全流程开发。工具在 UI 设计和全栈开发性能上表现卓越,超越多个主流竞品,如 LovableBoltv0 等。用户无需依赖外部服务,能构建原型、设计 UI 模型,生成完整应用程序与网站。Orchids 的出现,有望推动开发者更专注于创意实现,减少重复性编码工作,为全栈开发领域带来新的变革。

    Orchids

    Orchids的主要功能

    • 全栈开发能力:Orchids 提供从前端到后端的全流程开发功能,包括数据库管理、身份验证和支付功能,无需依赖外部服务。
    • UI 设计与原型构建:基于 AI 技术快速生成高质量的 UI 设计和原型,支持多平台开发,包括 Web、iOS 和 Android。
    • 代码生成与优化:自动生成、优化代码,支持多种编程语言和框架,提供代码审查功能,确保代码质量和效率。
    • 协作与团队管理:支持多人实时协作,提供灵活的角色和权限管理,及项目管理功能,确保团队高效协作。

    Orchids的官网地址

    • 官网地址:https://www.orchids.app/

    Orchids的应用场景

    • 快速原型开发:快速构建产品原型,帮助团队在早期阶段验证想法,节省时间和成本。
    • 小型项目开发:适合独立开发者或小型团队快速开发小型应用或网站,从设计到上线一站式完成。
    • 企业内部工具开发:企业快速开发内部管理工具,如 CRM、ERP 系统等,提高工作效率。
    • 教育与培训:在教育领域作为教学工具,帮助学生快速掌握全栈开发流程,提升实践能力。
    • 电商与商业应用开发:适合开发电商平台、在线教育平台等商业应用,快速上线投入运营。
  • VLAC – 上海AI实验室开源的具身奖励大模型

    VLAC是什么

    VLAC是上海人工智能实验室发布的具身奖励大模型。以InternVL多模态大模型为基础,融合互联网视频数据和机器人操作数据,为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计。VLAC能有效区分正常推进与异常/停滞行为,支持通过in-context learning实现小样本快速泛化。具备局部平滑性和负向奖励机制,确保强化学习的稳定性和有效性。VLAC不仅输出奖励信号,还能输出机器人动作指令,助力机器人在真实世界中自主学习和快速适应新场景。VLAC支持人机协作模式,进一步提升训练效率。

    VLAC

    VLAC的主要功能

    • 提供过程奖励和完成情况估计:为机器人在真实世界的强化学习提供连续、可信的监督信号,判断任务是否完成并估计完成进度。
    • 区分正常与异常行为:有效识别机器人操作中的正常推进、异常或停滞行为,避免无效探索。
    • 支持小样本快速泛化:通过in-context learning,实现小样本快速泛化,提升模型在新场景下的适应能力。
    • 输出机器人动作指令:在提供奖励信号的同时,还能输出机器人执行的动作指令,助力机器人自主学习和调整行为。
    • 搭建强化学习框架:围绕VLAC搭建的VLA强化学习框架,使机器人在真实世界交互中快速适应新场景,提升任务成功率。
    • 支持人机协作模式:通过多种人机协作范式,进一步提升训练灵活性和强化学习效率。

    VLAC的技术原理

    • 多模态融合:基于InternVL多模态大模型,融合视觉、语言等多种模态数据,提升对任务和环境的综合理解能力。
    • 数据驱动奖励生成:利用互联网视频数据和机器人操作数据,通过学习生成密集的奖励信号,为强化学习提供稳定反馈。
    • 任务进度估计:通过模型对任务的实时理解,估计任务的完成进度,为强化学习提供过程奖励。
    • 异常行为检测:通过分析机器人操作数据,识别异常或停滞行为,避免无效探索,提高学习效率。
    • 上下文学习机制:支持in-context learning,通过少量样本快速适应新任务,提升模型的泛化能力。
    • 动作指令生成:在提供奖励信号的同时,生成机器人动作指令,实现从感知到行动的闭环控制。
    • 强化学习框架集成:搭建VLA强化学习框架,结合过程奖励和任务完成情况,提升机器人在真实世界中的学习和适应能力。
    • 人机协作增强:通过人机协作模式,如专家数据回放和手动协助探索,进一步优化模型的训练过程。

    VLAC的项目地址

    • 项目官网:https://vlac.intern-ai.org.cn
    • Github仓库:https://github.com/InternRobotics/VLAC
    • HuggingFace模型库:https://huggingface.co/InternRobotics/VLAC

    VLAC的应用场景

    • 机器人强化学习:为机器人在真实世界中的强化学习提供过程奖励和任务完成情况估计,助力机器人快速适应新任务和环境。
    • 人机协作任务:支持人机协作模式,通过专家数据回放、手动协助探索等方式,提升机器人训练的灵活性和效率。
    • 多机器人协同学习:在多机器人环境中,通过VLA强化学习框架,实现多个机器人同时在真实世界交互和学习,提高任务成功率。
    • 复杂任务分解与学习:将复杂任务分解为多个子任务,为每个子任务提供奖励信号,帮助机器人逐步完成复杂任务。
    • 新场景快速适应:通过小样本快速泛化能力,使机器人在新场景下能快速学习并适应,提升任务完成率。