Category: AI教程

AI工具集提供各种热门AI教程与学习资源,帮助你安装、运行、测试和使用各大热门AI工具。快速学习AI产品工具的使用技巧,掌握各种AI产品工具有趣又有用的玩法。

  • 腾讯推出《企业级智能体产业落地研究报告》(PDF文件)

    《企业级智能体产业落地研究报告》是腾讯云、腾讯研究院联合国际权威研究机构Gartner共同推出的,报告深入探讨企业级智能体的产业落地情况。介绍了智能体从“辅助工具”到“自主生产力”的转变,详细阐述智能体的定义、形态及能力层级。报告通过“智能体场景罗盘”和“百大场景”梳理智能体在各行业的应用现状。分析了智能体落地的技术挑战,如训推成本、模型性能、安全防护等,且提出相应的解决方案。报告展示了多个行业的先锋实践案例,对未来智能体的发展趋势进行展望,强调智能体在推动企业智能化转型中的重要作用。

    获取《企业级智能体产业落地研究报告》报告PDF原文件 扫码关注回复: 20250929

    引言

    报告指出,人工智能正迎来重要的转折点,从“辅助工具”向“自主生产力”转变。智能体(AI Agent)作为变革的核心,能自主理解目标、规划路径、调用工具、与物理或数字世界交互。未来的企业运营人员能通过自然语言表达战略目标,由智能体组成的“虚拟团队”自主协作完成任务,如市场分析、广告投放和数据分析等。变革将重塑人机协作的边界,推动生产力的革命。

    智能体概念

    • 定义与形态
      • 狭义智能体:强调自主学习与优化,具备原生工具调用与任务闭环执行能力。核心特征包括自主规划与反馈调节,能在无需持续人工干预的情况下完成任务。
      • 广义智能体系统:更包容,依赖预设规则,通过工作流和工具协同实现任务。核心特征是执行预定义任务,依赖提示(Prompt)进行决策。
    • 能力界定与分类
      • 核心要求:智能体需要“能干活、能落地、能实战”,能力界定和分类必须依托可验证的评测体系。
      • 评测体系:分为模型基础能力测试、通用任务测试和特定领域的端到端任务测试。评测方式包括最终输出评测、中间过程评测和相对评测。
      • 能力层级:从L1(基础响应与流程执行)到L5(组织与领导)。每个层级对应不同的任务执行方式和技术要点,例如L1主要依赖知识库问答和工作流,L3开始具备自主规划和优化能力。

    智能体场景盘点

    • 智能体场景罗盘:报告提出“智能体场景罗盘”,通过横纵两个坐标轴(任务复杂度和自主规划依赖度)划分四个象限:高效助手、执行专家、决策专家和全能专家。每个象限代表不同类型的智能体应用场景,成熟度从概念验证到稳定可用不等。
    • 智能体百大场景:报告梳理了金融、零售、文旅、教育、医疗等14个行业的上百个智能体应用场景,为企业提供直观的参考。场景覆盖从简单任务自动化到复杂项目管理的广泛应用。

    智能体技术/产品方案解析

    • 技术挑战
      • 训推成本:大模型的训练和推理对资源需求极高,导致成本居高不下。业务负载的“潮汐效应”使传统的静态算力部署模式难以适应,进一步加剧资源浪费和成本问题。
      • 模型性能:通用大模型在处理特定领域的专业知识时存在局限性,容易产生“幻觉”问题,在需要自主执行任务的场景中可能导致错误决策和危险行为。
      • 安全防护:智能体应用引入了新的安全风险,如提示词注入、敏感信息泄露和不当的API调用。智能体处理和存储的海量敏感数据面临数据滥用、隐私泄露和法规不合规的风险。
      • 数据治理:企业内部数据普遍存在质量参差不齐、格式不统一、信息缺失和逻辑冲突等问题,形成了以打破的“数据孤岛”。导致智能体在整合不同部门数据时出现矛盾,影响其策的准确性。
      • 业务流程耦合:智能体需要与企业现有的复杂系统深度集成,但旧系统之间的技术耦合和人机协作的流程耦合存在诸多障碍。
    • 解决方案
      • 腾讯云智能体战略全景图:腾讯云智能体战略全景图整合智能体应用、开发平台和基础设施,提供全链条解决方案,助力企业高效构建和优化智能体系统,推动智能化转型。
      • 腾讯云产品方案:具体技术优化聚焦通信、调度、模型、安全、数据治理和知识解析等关键领域,通过先进技术手段提升智能体性能与可靠性,为企业应用落地提供支撑。

    智能体先锋实践

    报告列举多个行业的先锋实践案例,展示了智能体在实际业务中的应用效果:

    • 文旅:华住集团打造7×24小时“全能酒店管家”,提升客户服务体验。
    • 医疗:迈瑞×腾讯云“启元”大模型重塑重症诊疗范式,提高医疗效率。
    • 出行:一汽丰田用大模型打造专家级汽车服务智能客服,优化用户体验。
    • 零售:伊利集团用智能体打造智能导购新体验,激活全域营销新动能。
    • 金融:东吴人寿智能体技术助力保险全周期服务体系智能化升级。
    • 互联网:同程DeepTrip智能助手用AI重新定义旅行体验。
    • 教育:考试宝以AI大模型解锁精准学习新范式。

    • 政务:邯郸公积金全国首创“边聊边办”数字柜台,重塑公积金服务新体验。
    • 制造:运达能源科技集团以智能体技术提升风电装备制造和交付效能。
    • 能源:五环集团用AI重塑工程管理赋能新质生产力。
    • 地产:碧桂园服务打造“一问”AI客服机器人赋能员工效率跃升。
    • 物流:DHL用智能体重构跨境智能客服实现效率与合规双提升。
    • 游戏:巨人网络《太空杀》游戏引入AI智能体,创新游戏玩法。
    • 心理健康:腾讯云助力心言集团打造AI情感陪伴服务。
    • 法律:得理科技打造AI法务助手重塑企业法务服务新范式。

    智能体发展展望

    报告预测智能体将从单一、静态的应用走向动态、泛在化和具身化的新形态,推动社会和商业的范式变革:

    • 智能协同:从单兵作战到群体智能,实现多智能体协同和跨组织智能体协同。
    • 感知与推理:通过多模态模型和世界模型,实现更高级的推理和对世界的内在理解。
    • 执行与应用:智能体的泛在化与具身化,将能力延伸到物理世界,融入各类硬件终端。

    结语

    智能体正从“辅助工具”演变为“自主生产力”,将深刻影响企业运营、组织形态乃至社会结构。腾讯云通过构建从技术底座到行业应用的全栈能力,助力企业分阶段、可持续地推进智能体建设,实现从“试点验证”到“生态融合”的智能化转型。

    获取《企业级智能体产业落地研究报告》报告PDF原文件 扫码关注回复: 20250929

  • Manus开源平替,AiPy本地部署免费用L5级Agent

    还记得几个月前的Manus吗?

    一夜之间爆红全网,十万一个的邀请码,还有很多人心甘情愿地排队。国内用户也是一等再等,大半年过后,等来的却是Manus撤出中国。

    不仅开始收会员费,国内用户根本用不上。

    直到最近,我发现了一个“本地版Manus”——AiPy,国内就可以直接免费用。

    不同的是,Manus 只能通过虚拟浏览器执行任务,比如发邮件、填写网页表单。

    而 AiPy 则是 L5 级 Agent,它不仅能理解你的目标,还能自己拆解步骤,用 Python 写代码,执行任务,再在出错时自我修正。整个过程中,你完全不用插手。

    而且 AiPy 可以本地下载安装,不需要每次都打开浏览器。开源免费,国内也能用。很多Manus都做不l的事情,AiPy都能做到。

    一番使用下,我真的感受到,完全自动化的智能体,不再只是愿景,不用每天去研究提示词真的太爽了!

     

    01. 实测case

     

    我们进入 AiPy官网,下载安装。

    官网:https://www.aipyaipy.com/

    填写K姐的专属邀请码:3Vij ,可以获得 350万Tokens 的额外奖励。

    case1 研究报告

    提示词:做一个2024年手机销量前十的品牌的推广活动研究报告

    AiPy 先分析任务并列出了执行计划:

    接下来Aipy会逐步执行计划,并且将每一步的执行情况主动汇报给你:

    最牛的是,AiPy会自查错误,并且自己修正。

    从开始到结束,我就只输入过一句话,中间不管有再多的流程,它都是自己完成的,一点都不用我操心。

    大概五分钟时间,AiPy就完成了汇报。

    AiPy 准确地分析出了我的提示词中有两个需求:

    一是找到2024年销量前10的手机品牌;

    二是在此基础上分析它们的推广活动。

    两个任务 AiPy 都完成得非常到位不仅准确列出了 2024 年销量前十的手机,并给出了市场份额分布。还在此基础上做了深入分析,包括销量与推广效果的相关性、各品牌推广预算、不同渠道的投放比例,都正好是我想要的内容。

    case2 生成PPT

    在AiPy的智能体集市,有各种智能体,可以解锁很多功能,比如图片生成、视频生成、PPT生成等等。

    使用方法也特别简单,以PPT生成为例,我们先点击“安装”,再点击“去使用”。

    提示词:帮我检索最近5年公开资料和新闻,总结出当代年轻人的消费趋势,并做一份详细解读且样式精美的ppt演示文稿

    在右方的工作目录里,可以快速找到生成的文件。

    不仅内容专业,PPT的设计和排版也是相当不错的。

    case3 量化研究

    提示词:XX股票最近3个月的走势如何

    AiPy 会画出走势图,并根据走势特征给出风险提醒。

    也可以让AiPy分析一下当前的情况,做出建议。

    提示词:我持股了XXX,买入价是53.5,当前是否应该加仓

    AiPy 会结合当前价格、最新走势、成交量等核心数做深度解析,并给出操作建议。

    我们还可以让它追踪大资金动向,帮你洞察市场变化。

    提示词:追踪每日大资金动向并发送给我

    case4 分析公众号文章

    提示词:用通俗易懂的话,说说网页讲了什么https://mp.weixin.qq.com/s/3m82swXQyFXKXomAIq_2gg

    AiPy 能读取网页内容,再对此进行分析、提炼要点。

    case5 批量文件管理

    我的文件非常多且非常乱,可以直接让 AiPy 分类整理。

    提示词:请整理“D:\浏览器下载 ”路径下的所有文件,新建文件夹将图片、视频、其他文件分类存放

    AiPy 创建了3个新文件夹,并将我杂乱的文件按照文件类型分类存放。

    还有其他要求,比如修改图片比例、尺寸、重命名等等,都能批量处理,非常方便。

    提示词:将“D:\浏览器下载\1”路径中的所有图片尺寸比例调整为1:1

    提示词:将“D:\浏览器下载\1”路径中的所有图片尺寸调整为750*750

    提示词:将“D:\浏览器下载\1”路径中的所有图片重新命名为数字1-6

    case6 批量添加水印

    将“D:\浏览器下载\1”路径中的所有图片右下角加上白色文字水印“AI生成”

    case7 制作网站

    提示词:做一个类似B站的网站

    B站的风格模拟的挺不错的,就连网址栏上方的小标签内容都复刻了,非常细致。

     

    02. 一些分享

     

    AiPy 的理解和执行能力都很强。

    过去很多 Agent 工具,要么是能听懂但做不准;要么能做,但结果往往南辕北辙。

    AiPy 采用了 LLM + Python 的架构,不仅能抓住提示词里的真实需求,还能靠 Python 精准地跑出结果。

    我们也不用再纠结提示词写得够不够详细,用起来省心很多。很多重复性的工作可以一键交给AI,直接拿结果。效率和心智负担的差距,一用就能感受到。

    AiPy 的玩法还有很多,有兴趣的友友可以进群一起交流~

    对 Agent 开发者来说,光靠拼 UI 或堆模板已不足以竞争,下一轮比拼的核心是认知和执行的结合。

    可以说,AiPy 把 L5 Agent 的愿景提前拉进现实,逼着整个行业重新思考:未来的工具该如何被定义。

    原文链接:这个开源、免费的国产Agent封神了!一句话搞定复杂任务

  • 通义万相Wan2.5模型实测,可生成音画同步视频

    2025云栖大会终于来啦!今年的主题是“云智一体•硅碳共生”,全球50多个国家的2000多位演讲嘉宾齐聚杭州,围绕Agentic AI与Physical AI等前沿话题展开对话,场面堪称一场科技春晚。

    今天上午倍受关注的还是阿里最新的大模型——通义万相 Wan2.5-Preview 系列模型

    Wan2.5-Preview 系列模型是多感官叙事,采用原生多模态架构,文本、图像、视频、音频处理能力全面提升,可以直接生成音画同步的视频。

    这些技术升级,既是阿里在基础模型上的长期投入,也是其面向产业应用、推动大模型生态扩展的体现。

    K姐也是第一时间获得了体验资格~接下来,咱们一起看看看看实测效果。

     

    01. 音画同频的关键:跨模态对齐

     

    Wan2.5 提供了图像生成与视频生成两大功能,并且支持由音频搭配prompt/图片生成视频

    我们只需要在日常文/图生视频的提示词基础上,添加对人声、环境音效、背景音乐的描述,就可以得到音画同步的成品视频。

    视频生成时长最长为10s,可以生成分辨率为1080p、24fps的高清视频。

    官网:https://tongyi.aliyun.com/wan/

    话不多说,先放几个实测案例让大家感受下:

    case1 综艺录制

    prompt:综艺节目录制现场,舞台布置成客厅风格,柔和的暖色灯光,两张沙发面对观众摆放,中间的茶几上放着饮品和零食。一位年轻男idol坐在沙发上,穿着时尚休闲装,手里拿着话筒,说道:“迷人的话我不会说,但迷人的我正在说话”。现场观众笑声爆发,镜头切到其他嘉宾,他们一边笑一边鼓掌。

    这段5秒的镜头中,Wan2.5 对提示词的遵循度非常高,画面细节也处理得很不错,比如客厅风格、暖色灯光、茶几上的饮品和零食。

    人物说话的表情、口型都非常自然,特别是运镜时,人物还主动往嘉宾方向靠,感觉下一秒就该把话筒递过去了…

    case2 户外摄影

    上传一张蜗牛的照片

    prompt:暴雨天,雨水密集地拍打在草地上,发出“沙沙”的沉闷声,夹杂着水珠溅散的轻响,四周环境空旷而湿润。

    密集的雨点打在蜗牛壳上,聚成大水珠流下。Wan2.5 对现实世界的理解还不错,根据图片的场景和提示词生成了匹配的环境音效,声音和画面的一致性也很不错。

    case3 演唱会

    我们上传一段歌曲的音频。

    prompt:特写镜头,一位非常漂亮的女歌手站在演唱会舞台中央深情演唱。她穿着精致的礼服,长发披肩,在微风中轻轻飘动,映着舞台灯光更显动人。她双手紧握话筒,声音高亢饱满,情绪澎湃。

    视频的光影和色彩都很不错,特别是发丝光,很灵动很真实。画面中人物的口型与音频也很贴合。

    Wan2.5 的音画同步不是简单的让人物嘴巴动起来,还添加了很多细节,比如头微微晃动,脖子用力时紧绷的肌肉、呼吸时肩膀的收缩与起伏,这种细节让整个画面更有生命感,仿佛真的是现场实拍。

     

    02. Wan2.5与Veo3对比

     

    case1 美食视频

    prompt:一个20岁左右的女大学生,在热闹的小吃街坐着,用筷子夹起一小块红烧肉,慢慢咀嚼,靠近镜头,轻声说道:“好吃”。声音甜美,语气轻快。背景音是小吃街人来人往嘈杂的声音。

    Wan2.5 和Veo3生成的画面内容质量都挺好的,但是Veo3似乎遇到BUG了,整个视频都没有声音。

    case2 电视的演变

    prompt:锁定广角镜头,从正面拍摄同一客厅,电视位于画面的中央,始终居中构图。画面展示电视在几十年间发展演变,从 1950 年代的黑白电视机,到1970 年代的木质机柜,再到1990 年代的 CRT 显示器,再到2000 年代的平板电视,最后是2020 年代的智能 OLED 电视。家具、颜色和风格也随着时代变迁而变化,复古 70 年代,简约 90 年代,现代 2000 年代,未来 2020 年代。

    镜头: 35mm 电影镜头,细节清晰。

    音效: 视静电声、频道切换声、遥控器点击声与时代过渡同步。

    混合级别: 各时代之间平滑过渡

    Wan2.5 对提示词的遵循程度高很多,电视机始终在画面的正中心,也一直采用中心构图,主题更直观。

    装修风格方面,Wan2.5 各年代之间的差别并不大,这点Veo3做得更好一些。

    Wan2.5 和Veo3都展示了多个时代的电视机风格,也都添加了切换时的音效。

     

    03. 一些分享

     

    以前的视频生成,总是声音和画面对不上,还需要在不同平台添加人声、对口型、加背景音,现在微量的提示词即可生成一段音画同步的完整视频。

    Wan2.5让创作直接“可视化”和“可听化”。做短视频、虚拟主播、甚至远程教学,不需要再依赖复杂的后期,AI 就能一键完成,大大降低了创作门槛。

    Wan2.5 能同时对齐声音的节奏、语言的语义、画面的动作,这不仅仅是视频生成的进化,更是迈向多模态AI成熟应用的关键一步。

    广告、教育、影视、游戏,过去都要靠人工配音和后期,费钱又费时。Wan2.5 把视频生成拉到生产级工具的水准,低成本高质量的虚拟内容或将全面爆发。

    原文链接:2025云栖大会,阿里整了个大活!

  • 怎么用飞书多维表格做自媒体内容工作流?一文看懂

    群里大家最常问的,还是跟办公相关的AI工具。

    说实话,作为一个天天折腾AI的普通人,我第一反应也是——能不能先让上班轻松点?

    如果让我只推荐一个真能让大多数人省事的工具,我会毫不犹豫说:飞书多维表格。

    这不是我一个人的偏爱。我身边不少做AI内容的朋友都在用,甚至像 DeepSeekKimiMiniMax、阶跃这些大厂团队,也都把飞书多维表格当成日常的效率中枢

    那这篇文章,我就来聊聊:飞书多维表格到底好用在哪,为什么一旦开始用就停不下来。

     

    01. 如何用飞书多维表格

     

    很多友友听到这个工具的名字就会问:是不是还要下个飞书,好麻烦啊!

    并不是哦,现在飞书多维表格解除了和飞书其他模块的功能依赖,浏览器直接搜飞书多维表格就能找到入口。满血版的飞书多维表格将可以和企微、钉钉、飞书以及企业自研的 IM 系统打通,实现跨平台无缝衔接。

    官网链接:base.feishu.cn

    多维表格中有一个快速上手多维表格的教程模版,大家可以用它来快速学会如何使用。

     

    02. 薛定谔的表格

     

    飞书多维表格将众多实用的功能与表格融合,打造出一整个工作链条。

    选题库

    像我这种内容创作者,最喜欢的用的就是用它当选题库了,通过小红书助手可以非常方便的获取选题信息

    新建一个多维表格,只需要一个字段,设置为超链接,名字改成选题链接,后面的字段直接删除就行。

    新添加一个表单,删除掉不需要的东西,只留一个选题链接填写框。

    平时发现好的创意,链接直接往上面一填就行,你还可以把这个表格分享给你的闺蜜、好友或者同事,让他们有好主意时也能写上去。

    输入之后它会自动填入表格,这个时候我们可以在插件里调用小红书助手。

    我使用过所以它会出现在最近使用里,大家第一次用去插件市场里搜索使用就行。

    打开之后,我们需要设置两个东西,一个是笔记链接选择选题

    我们在浏览器里登录小红书后按F12,会弹出一个页面,我们依次点击网络、Fetch/XHR之后点击小红书页面的推荐,列表中就会出现homefeed。

    (注意一定要点推荐!不然会找不到homefeed。)

    点击它就可以在标头里找到cookie。

    我们将cookie填好之后点击获取数据按钮,会弹出一个记录表,勾选你想获取信息的链接后点击确认就行。

    它会自动获取你勾选的数据并生成对应字段填入,非常方便。

    当然一次获取多条链接的内容和数据也是可以的。

    多维表格里的众多AI还能帮我们生成想要的内容和封面,我们在表格最后创建一个内容灵感字段,在字段捷径里搜索DeepSeek并选择DeepSeek R1。

    引用笔记内容字段;

    并在后面输入:根据笔记内容生成10个字以内的内容灵感。打开获取更多信息,勾选输出内容,打开自动更新后点击确认。

    它会弹出一个窗口,点击生成即可。

    生成完毕后我们再创建一个文案指令字段,同样选择DeepSeek R1,引用字段内容灵感输出结果后输入:以内容灵感输出结果中的10字灵感为主题生成一篇小红书笔记,符合小红书社区氛围,并要求具有爆款特征。

    打开获取更多信息,勾选输出内容,打开自动更新后点击确认即可。

    这次生成的文案指令输出结果里面就是他为我们生成的小红书文案了。

    最后生成封面我们同样创建一个封面字段,字段捷径里选择AI生成图片(豆包),引用字段内容灵感输出结果和文案指令输出结果,然后输入:基于文案指令输出结果的内容生成一张小红书爆款封面,手绘风格,包含手绘文字写的内容灵感输出结果中的10字标题。

    更改图片比例为3:4,打开自动更新后点击确认即可。

    这样我们就可以批量生成文案内容和封面,用来当做灵感示例或者改一改直接发都没问题。

    多维表格接入了智能AI问答,可以直接询问整个项目中的一些细节。

    比如想知道谁提报过哪些选题,可以直接问右下角的智能查询,它会直接帮你查找并给出答案。

    工作流

    飞书接入了很多AI工具,像 DeepSeek、智谱、Coze 啥的都有,现在又接入了 Nano Banana 和即梦4.0,我们选择即梦4.0做一个小红书封面批量生图工作流。

    我们还是用上面的表,去掉后面几个有快捷工具的字段,然后新建两个字段,一个叫标题优化的文本字段,一个叫大字封面的附件字段。

    接下来我们在左下角新建一个工作流。

    这个工作流包含5个节点。

    第一个节点是判断工作流什么时候开始,我们想要的是小红书助手帮我们把信息获取完,工作流就自动开始,所以我们新增/修改的记录满足笔记内容和笔记标题不为空。

    第二个节点是用DeepSeek帮我们生成优化后的标题。我们在里面输入这段指令:

    #角色

    你是一位精通小红书爆款写作的标题策划专家,熟悉小红书用户的兴趣点与传播逻辑,擅长从爆文中提炼风格并生成同类爆款标题。

    #任务

    请根据表格中的(引用笔记标题字段)和(引用笔记标题内容)字段,学习(引用笔记标题字段)中的结构、节奏、关键词用法,仿写出新的标题。

    #要求

    1. 保持“简短+冲击力+口语化”,长度控制在 10-18 字。

    2. 多使用感叹号、问号、数字、对比、悬念等元素。

    3. 突出情绪价值(惊讶、好奇、羡慕、愤怒)。

    4. 不要和原爆文标题完全重复,要在同风格下有新意。

    5. 一次输出 1 个不同角度的候选标题。

    #输入

    【爆文示例】:( 引用笔记标题字段)

    #输出

    请仿写出 1 个新的标题,保持风格一致。

    第三个节点我们需要把DeepSeek生成的标题填入标题优化字段,我们选择新增记录,把DeepSeek生成的标题记录到标题优化字段中。

    第四个节点我们要用即梦4.0生成封面图,我们在指令内容中输入以下内容:

    提示词:大字封面,亮色背景(橙/红/黄),加粗大字,字体带手写/涂鸦感。

    文字: (引用标题优化字段)【感叹/疑问句】

    风格:活泼、冲击力强,吸引人停留。

    尺寸:3:4

    最后一个节点,我们需要把即梦生成的封面填入大字封面字段,我们选择新增记录,把即梦生成的封面记录到大字封面字段中。

    这样当我们填入链接,然后用小红书助手批量获取完数据后,工作流就会批量帮我们自动生成大字封面。

    仪表盘系统

    用过销售的CRM系统,人事的HRM系统,物流的CMS系统的友友肯定对仪表盘系统不陌生,我们日常使用的这些系统,其实本质上都是数据和仪表盘的组合。

    过去可能需要百八十万投入才能拉起来的一套系统,现在不用写一行代码,直接就能在模版里找到这些系统并使用

    而且针对单独的数据或者图表,还能点击智能分析,给出一些中肯的意见。

    一个“表格”为什么这么牛?

    多种模版供大家选用,不管你在什么行业都能及时找到适用的使用方案。

    单表可实时分析高达 1000 万行数据,支持 200 个数据表格联表分析,计算速度百万行秒级完成,一个表格能同时支持1000人在线协作,5 万行表格 1 秒就能加载完。

     

    03. 一些分享

     

    大家可以直接填我的专属邀请码:J3uI5yU8tO1p

    注册地址:https://v2ig.cn/Cb7R71AomnI

    会获得专享的3个月专业版,加上从上方链接注册获得 1 个月,一共可以白嫖 4 个月的专业版哦。

    飞书多维表格并不是传统意义上的表格,而是一个轻量级可视化的工作流引擎。AI模版库几乎涵盖了市面上常见的需求场景,一键套用非常方便,即使是职场小白也能轻松上手。

    在飞书多维表格的页面里,既能存数据,也能当看板追进度,还能像数据库一样做筛选关联,这些功能和日常办公场景无缝贴合,不管是对个人还是团队,效率提升都非常明显。

    飞书多维表格让我看到的是无代码工作流正在走向大众,未来的AI落地也会是这个方向,更接地气。

    原文链接:自媒体人偷偷用的AI神器,让出稿提效10倍

  • 阿里推出的《企业 AI 应用构建指南》(PDF文件)

    《企业AI应用构建指南》全面阐述企业级AI应用的构建方法与技术体系。内容涵盖AI应用架构演进(从对话、RAG到工作流和Agent模式),深入解析交付流程、MaaS、记忆管理、MCP协议、AI网关、沙箱隔离等核心基础设施,重点讨论提示词注入、工具安全、身份鉴权等新型风险及其防护策略。指南结合阿里巴巴内部实践,为开发者提供从研发到运维的全链路指导,助力高效、安全地实现AI应用落地与创新。

    获取《企业 AI 应用构建指南》报告PDF原文件 扫码关注回复: 20250922

    简介

    本文基于阿里巴巴内部 AI 应用研发经验,结合业务研究与开源进展,深入分析 AI 应用研发的架构模式、交付差异、基础设施支持及安全挑战。从复杂度最高的 Agent 模式架构入手,探讨 AI 应用与传统应用在研发交付阶段的差异,包括模型切换升级及能力评测等问题。重点介绍支持 AI 应用研发的基础设施,如 MaaS、MCP 工具、Sandbox 技术及研发运维生命周期的观测和评测。分析 AI 引入应用程序带来的安全新挑战,如提示词注入、工具使用安全、Sandbox 隔离及身份和授权体系等,为读者提供 AI 应用研发的实践经验和深入见解。

    AI 应用架构

    • 发展历程:从简单的对话模式,到加入向量检索召回能力的 RAG 模式,再到开发者编排工作流、在关键节点用模型驱动的 AI 工作流模式,发展到用模型自身规划流程的 Agent 模式。
    • Agent 模式架构
      • 用户交互模块:接收用户请求,收集上下文数据、转换成模型请求。
      • 核心 LLM 模块:负责任务规划及短期记忆保存,生成任务计划并执行。
      • 环境模块:作为任务执行场所,通常是隔离的 sandbox 环境,执行任务、收集环境信息。
      • 规划、任务执行、感知和反思循环:根据执行结果调整规划,循环多次实现目标。
      • 记忆模块:在任务复杂、上下文过长时,引入长期记忆模块,精细压缩记忆以保留关键信息。

    AI 应用交付

    • 特点:与传统应用 CI/CD 相比,AI 应用 CI/CD 面临多维度的供应链管理,需用概率性测试策略,采用复杂循环流程,需对模型性能变化等 AI 特有问题进行多层次监控。
    • 模型和框架选择:根据质量、成本、费用、合规等多维度选择基础模型和框架,如通用对话场景可选择 GPT-4,代码生成可选择 Qwen-Coder,企业考虑合规可选择开源模型私有化部署。在应用更新迭代过程中,需进行模型切换及相应工作。
    • 核心流程:AI 应用依赖关系复杂,需统筹代码、模型、数据协同交付。建议用环境隔离方式,分为开发、集成、生产三阶段,每个环境有不同权限控制和稳定性要求。

    AI 应用研发基础设施

    • MaaS(模型即服务):将具备不同任务处理能力的 AI 模型以服务形式提供给用户,用户通过 SDK/API 快速应用模型推理能力,降低 AI 应用构建复杂度。
    • 记忆(Memory):使 AI 应用能对先前交互内容进行记忆,保持长期交互的一致性和连贯性。
    • MCP(模型上下文协议):让大型语言模型以标准化方式连接外部数据源和工具,使模型能发挥更大价值,如引入网络搜索、数据集和 API 等外部工具。
    • AI 网关:基于模型访问 + API 供应两个场景核心,通过抽象协议、统一治理等设计原理,把“任何模型”和“任何业务 API”纳入统一控制平面,解决 MxN 重复建设问题,实现快速迭代与企业级稳态共存。
    • Sandbox:为 Agent 规划和执行任务提供可靠安全的环境,支持代码生成和运行、browser-use 及本地 MCP Tool 等。
    • AI 可观测:通过获取用户上报的 OpenTelemetry 数据,清晰展示从用户输入到最终输出的全过程,记录关键节点元数据,为开发者提供调试依据,是评测、分析和优化的数据基础。
    • AI 评测:传统软件测试方法在 AI 应用面前力不从心,需建立全新 AI 应用评测体系,确保 AI 应用可信赖、高质量、可持续进化,将不确定性转化为确定性商业价值。

    AI 应用安全

    • 应用安全风险及防护:Agent 应用面临提示词注入、逻辑错误、用户有害请求等新型安全挑战,安全问题从单点漏洞演变为系统性风险,需多层次纵深防御和专门安全治理体系。
    • Tools 使用安全:高危 Tool 必须在与宿主逻辑彻底隔离、可精细审计的受控环境中运行,限定影响范围。
    • 身份与授权:AI 场景下的认证和授权与传统存在差异,需更灵活可靠的安全协议,防止权限泄露、访问越权、数据安全等风险。
    • 大模型供应链安全防护:防范训练数据集、模型权重、依赖组件、交付渠道等环节被恶意篡改或植入“后门”,导致模型“带病上线”威胁业务安全。

    总结

    随着大模型的兴起,阿里巴巴的 AI 研发生态蓬勃发展,Python 活跃开发者数量在过去一年增长 33%,主要用于数据处理、模型训练和 AI 应用研发等工作。在 2025 年 AI 应用发展的元年,资本的大量投入推动了 AI 应用的快速发展,相关的研发模式和应用架构也在不断成熟,新的 AI 应用中间件逐渐出现,让开发者更专注于创新。基于 AI 模型能力的不断提升和上下文工程成为行业共识的趋势,本文推出指南文章,能帮助广大开发者快速构建 AI 应用,实现创新梦想。

    获取《企业 AI 应用构建指南》报告PDF原文件 扫码关注回复: 20250922

  • 豆包变装视频教程,只需3步免费用AI复刻

    最近在某音上看到一堆变装视频,全是万赞起步的爆款。

    我认真研究了一下,发现这个形式很适合用AI来“邪修起号”——只需基础剪辑,也不用露脸。

    我已经摸索出一条可复制的捷径。

    两个AI工具,小白也能轻松复刻,做出足够炸的视频效果。

     

    01. 豆包做分镜

     

    水龙头变装视频可以拆解成两个部分:

    第一部分是人物发现水龙头,伸手去关水,这部分我们用首尾帧精准控制人物动作;

    第二部分是变装后的展示,直接用首帧生成视频即可。

    我们需要按照这个镜头顺序分别做出三张分镜图。

    比如要做豆包变装的视频,我们第一步是找一张豆包的图片作为参考图,然后输入下面的提示词,生成豆包在室内发现水龙头的分镜图。

    提示词:图片中的女生,面对镜头,背景是暖黄色墙面,室内,天花板灯带发出光亮,见光不见灯,镜头在洗手池上方,镜头方向微微仰起,画面前景:画面中心正上方,露出水龙头出水口,正流出一柱水流,挡住画面的1/10,比例3:4

    这样第一张图片就做好了:

    再将上面这张图作为参考图,让豆包做出关水的动作。

    提示词:女孩走近,女孩的右胳膊伸出画面外

    同样将上面这张图作为参考图,生成变装后的图。

    提示词:消除水流,其他不变。

    提示词:高清细节,高级配色,给女孩化上清新女团妆,深灰色美瞳,长长的睫毛,野生眉,玫瑰粉唇釉,发丝真实质感,大波浪卷,头发柔顺光亮,衣服换成精致的白色抹胸礼服。意大利风格高定宝石项链。背景昏暗紫色调,营造出一种神秘而迷人的氛围。空间布局不变,女孩姿势不变。

     

    02. 即梦生成视频

     

    我们把上面生成的三张分镜图在即梦里生成两段视频。

    用首尾帧生图,参考图为生成的第一张和第二张。

    提示词:女孩看向水龙头,往前走2步,抬起胳膊伸出屏幕外

    这样就得到了第一段视频:

    第二段视频使用换装后的图片作为首帧生成。

    提示词:氛围感,慢镜头,女孩微微低头看向镜头,极具魅力,一缕秀发在空中微微飘动

    第二段视频:

     

    03. 剪映拼接加背景音乐

     

    将素材导入剪映并拖入视频轨道,在两段视频直接,加上缩放运镜特效。

    在音效库中搜索水龙头出水声,添加到第一段视频下方,在背景音乐库中搜索水龙头变装,添加同款背景音乐,将音乐的鼓点和变装时刻对齐,导出即可。

    最终我们就得到了这样的变装视频:

     

    04. 更改变装风格及提示词

     

    再给大家分享一个有意思的风格,这一版是把我加入到变装视频里。

    这里我们需要先用豆包做出一张烟熏风格的豆包图。参考图为上面豆包生成的第二张。

    提示词:图中的女孩化上烟熏妆,冷酷的表情,精神小妹风,彩色的小脏辫,衣服换成精神小妹风格。背景五彩暗色调,氛围感。空间布局不变,女孩姿势不变

    这样就能得到一张烟熏妆豆包:

    然后在豆包中上传生成的图和我自己的头像,生成一张合照分镜图。

    提示词:图2中的女孩画风变为图1,在图1中加入图2中的女孩,图1女孩微微侧身,图2中带着VR眼镜的女孩斜靠在图1女孩身上,贴贴,两人面相镜头方向合影,场景为图1不变

    这样就得到了我和豆包的合照:

    最后用即梦首尾帧功能,上传豆包生成的两张图来生成视频。

    提示词:图1中的女孩摆好pose,画面外的白衣服女孩一个跨步进入镜头,挥手对镜头打招呼,两人合影,场景不变

    最后生成这样一段视频:

    最后一样用剪映把他们剪辑到一起,配上音就OK了!

     

    05. 写在最后

     

    这次分享的这个很简单,但是我的本意不只是为了教会大家这个视频如何做,更多是想给大家分享一下我对于AI落地的一些想法。

    我认为现在太多人的AI落地思路都错了,都在想着做点什么新东西,做点什么以前没有的。

    但是哪有那么多好思路呢,普通人最好的方式就是把现有的爆款转换成AI出品。

    做已经经过验证的爆款,虽然不一定是最好的方式,但一定是最稳的方式。

    原文链接:豆包变装视频火了,手把手教你用AI复刻

  • 谷歌推出“Learn Your Way”,用AI重新定义教科书

    AI 为每个人定制教育的时代,来了。

    昨天,谷歌推出最新教育工具 Learn Your Way ,用 AI 将教科书变为多模态内容并在学习的每个环节加入互动和测验,让每个人都能拥有更适合自己的学习进程。

    受制作成本限制,普通教科书很难提供多样化、定制化的内容,无论你有没有基础,都是按同样的节奏往下读。

    而 Learn Your Way 是用 AI 的能力,结合学生的兴趣和学习进度,真正做到了因材施教。

    效果也很明显,在谷歌的有效性研究中,使用 Learn Your Way 学习的学生,在长期记忆测试中的得分,比使用standard digital reader(普通电子书/PDF教材)的学生高11%。

     

    01. 用生成式 AI 重塑教科书

     

    Q1:什么是 Learn Your Way?

    一句话说,Learn Your Way 是谷歌用生成式 AI 打造的个性化学习工具,把统一的教科书内容,变成贴合每个人情况的个性化学习资料。即:

    让“千人读一书”变成“一人有一书”,还能暴露知识缺口。

    (为不同的学生个性化描述牛顿定律)

    Learn Your Way 会把教科书内容拆解并重构成以下几种形式:

    • 沉浸式文本:把内容分成易懂的小块,配上生成的图片和嵌入式问题。把被动的文字阅读,变成符合学习科学的主动多模态体验。
    • 分段测验:支持互动式自测,推动主动学习,还能暴露知识缺口。
    • PPT 和旁白:提供类似课堂讲解的 PPT,覆盖全部原始材料,包含填空题等互动,还带旁白。
    • 音频课程:AI 师生模拟对话,配合视觉辅助,还原真实学习互动。比如学生表达误解,老师会及时澄清。
    • 思维导图:以层级结构整理知识,学生可缩放切换整体概览与细节。

    (多模态表现形式)

    这样一来,不同的学生可以自由选择自己喜欢的方式学习。

    这些内容还会根据学生的年级和兴趣进行个性化调整,通过测验提供实时反馈,引导学生重温薄弱部分。

    Q2:Learn Your Way 是如何运行的?

    谷歌的 Learn Your Way 项目利用生成式 AI 技术,基于 LearnLM 模型,从两个方面为学习体验加分:

    • 内容的多模态呈现形式;
    • 个性化的基础落地。

    传统的教材学习形式单一,Learn Your Way 用 Gemini 2.5 Pro 模型生成内容,结合专门的微调模型生成插图,以及多步骤 AI 工作流,学习过程中“看”、“听”、“互动”一起发生,会增强理解和记忆。

    从PDF教科书开始,Learn Your Way 先调整内容到适合学生的年级,再用兴趣相关的例子替换通用内容:

    比如,一个喜欢音乐的学生学振动,AI 可以换成“吉他琴弦如何发出声音”;喜欢汽车的学生,看到的可能是“引擎工作时产生的抖动”。

    Q3:Learn Your Way 真的有效吗?

    Learn You Way 保留了原始知识结构,只在例子和表现形式上做了个性化的调整,教材的准确性得以保证。

    为了评估 Learn You Way 的教学表现,谷歌 Learn Your Way 团队将十种不同来源的教科书材料转换为三种不同的个性化设置。内容涵盖了从历史到物理等各个学科。

    (指导谷歌开发新学习能力和体验评估的顶级教学原则)

    三位教学学科专家根据教学标准(如准确性、覆盖范围以及 LearnLM 学习科学原则)对转换后的材料进行了评估。

    (专家评分)

    结果显示,基于各项教学标准,内容经过专家评估,平均评分在0.85以上(满分1.0)。

    谷歌还做了一场随机对照实验,让阅读水平相似的60名学生随机分成两组。一组用 Learn Your Way 学习,另一组用普通数字教材,学习时长为40分钟内。

    在学习结束后和3到5天之后分别进行了测试,结果显示:

    (即时评估中的平均得分)

    用 Learn Your Way 的学生学习效果更好,在学习结束后的即时测验中的正确率高 9%;

    用 Learn Your Way 的学生有更好的长期记忆效果,3-5天后的记忆评估中,Learn Your Way 的正确率高 11%;

    不仅分数更好,Learn Your Way 组的学生们普遍反馈这个 AI 工具让学习更有趣、更易懂,并且愿意继续使用

    Q4:如何使用 Learn Your Way?

    目前,Learn Your Way 已经在 Google Labs 上线。

    友友们可以在这里查看官方示例和申请内测体验。

    地址:https://learnyourway.withgoogle.com/

     

    02. 学习场景实例

    用 Learn Your Way 量身定制教材

     

    比如我们将角色分别设置为初中生和本科生,同时学习一份解剖学导论及其研究领域的内容。

    Learn Your Way 会将学习内容调整到我们选择的年级水平,结合个人兴趣,以多种形式呈现,包含文本、思维导图、音频课程、互动测验等,从而提供实时反馈和内容个性化。

    对美食感兴趣的7年级初中生和对游戏感兴趣的本科生,Learn Your Way 给出的定制化教学内容分别是这样的:

    初中生教学案例地址:

    https://learnyourway.withgoogle.com/scopes/rJ13oFrj

    本科生教学案例地址:

    https://learnyourway.withgoogle.com/scopes/L1yh30cO

    可以看出来,虽然内容是大致相同的,但是本科生的学习内容会更丰富更深度一些。

    (初中生看到的案例)

    (本科生看到的案例)

    解读的案例也会结合各自的兴趣点,比如,Learn Your Way 推荐对美食感兴趣的初中生通过观察使用刀具、打蛋器等厨房用具,了解手的基本结构。

    给本科生解释解剖学和生理学的关系,Learn Your Way 会例举游戏玩家的手部骨骼排列以及打游戏的场景。

     

    03. 一些分享

     

    我觉得 Learn Your Way 是一个很棒的项目,也很期待在学习新事物的过程中,有这样一位领路“AI”,用各种形式帮助我理解、学习,还会时不时考考我,检查我的学习质量。

    Learn Your Way 价值在于帮助不同的人找到各自的节奏,毕竟好的教育,从来不是让所有人走同一条路,而是帮每个人找到最顺的那条路

    对于谷歌而言,Learn Your Way 只是起点,未来它想做的不仅是互动,而是持续根据每个人的进步去调整内容,真正做到动态学习。背后依然会以教学原则为基础,去验证 AI 到底能多大程度提高学习效率。

    对教育行业来说,这可能是几十年来最彻底的一次变革。

    不仅学生的学习方式会因此改变,老师的角色也会随之改变,不再只是单纯的讲解知识,而是帮助学生选择合适的学习路径、监督学生的学习质量;

    当然路还长,成本、文化差异、教材标准都是现实问题。但至少有一点可以确定——学习方式正在被重写。厚重的教科书或许还会存在很久,但它们已经不再是唯一的答案。

    原文链接:谷歌推出“Learn Your Way”,用AI重新定义教科书

  • YC推出Vibe Coding经验《如何从Vibe编程中获得最大收益 》

    YC的 Vibe Coding 经验是基于 YC 的视频《How To Get The Most Out Of Vibe Coding | Startup School》整理而来,由YC合伙人Tom Blomfield分享,是基于人工智能(AI)工具如Claude CodeWindsurf和Aqua进行软件开发的新方式。通过这种方法,AI能编写全栈应用程序,通过粘贴错误信息调试代码,成为开发过程中的真正合作伙伴。Tom提供了完整的指南,帮助开发者通过vibe coding提高开发速度和效率。

    核心内容

    规划过程

    • 创建全面计划:首先与AI合作编写详细的实施计划,保存在Markdown文件中。
    • 审查和完善:删除不必要的项目,标记过于复杂的功能,以便后续处理。
    • 保持范围控制:为后续的想法保留单独的部分,以便保持当前项目的专注度。
    • 增量实施:分部分逐步实施计划,不是一次性构建所有内容。
    • 跟踪进度:让AI在成功实施后标记部分为完成。
    • 定期提交:确保每个工作部分都提交到Git,以便在移动到下一个部分之前能进行版本控制。

    版本控制策略

    • 严格使用Git:不要完全依赖AI工具的回滚功能,始终从干净的Git状态开始每个新功能。
    • 从干净开始:每个新功能都从干净的Git状态开始,以便在AI偏离轨道时可以回滚。
    • 遇到问题时重置:如果AI在某个任务上陷入困境,使用git reset --hard HEAD来重置。
    • 避免累积问题:多次失败的尝试会积累坏代码,因此需要避免。
    • 清洁实施:当你最终找到解决方案时,重置且纯净代码中实施它。

    测试框架

    • 优先考虑高级测试:关注端到端集成测试,不是单元测试。
    • 模拟用户行为:通过模拟用户点击来测试功能,确保它们按预期工作。
    • 捕捉回归:LLM可能会对不相关的逻辑进行不必要的更改,需要测试捕捉这些回归。
    • 测试前进行:在移动到下一个功能之前确保测试通过。
    • 使用测试作为护栏:从测试用例开始提供清晰的边界,确保功能的正确性。

    有效修复bug

    • 利用错误消息:直接将错误消息复制粘贴到LLM,通常足以识别和修复问题。
    • 分析前编码:让AI考虑多种可能的原因,再编写代码。
    • 失败后重置:每次失败尝试后从干净状态开始,避免积累坏代码。
    • 实施日志记录:添加策略性日志能更好地理解发生的事情。
    • 切换模型:尝试不同的AI模型,看看哪个更适合当前任务。
    • 清洁实施:在干净的基础上修复精确的错误,避免积累不必要的代码。

    AI工具优化

    • 创建指令文件:为AI编写详细的指令,使它更好地理解你的意图。
    • 本地文档:下载API文档到项目文件夹,LLM能更准确地访问和使用。
    • 使用多个工具:同时运行多个AI工具,如Cursor和Windsurf,以提高效率。
    • 工具专业化:根据工具的强项选择使用,例如Cursor适合前端工作,Windsurf适合更长时间的思考。
    • 比较输出:生成多个解决方案并选择最佳,以确保代码质量。

    复杂功能开发

    • 创建独立原型:在干净的代码库中构建复杂功能,以便更好地控制和测试。
    • 使用参考实现:指向AI的工作示例,以便它有明确的实现方向。
    • 清晰的边界:保持外部API一致,允许内部更改,保持代码的灵活性。
    • 模块化架构:服务基础架构具有清晰的边界,更适合大型项目。

    技术栈考虑

    • 成熟的框架:如Ruby on Rails因其一致的约定而表现良好,适合AI开发。
    • 训练数据重要:新语言可能训练数据较少,要选择有大量训练数据的语言可能更有利。
    • 模块化是关键:小文件和模块化文件易于工作,有助于保持代码的清晰和可维护性。
    • 避免大文件:避免数千行代码的文件,提高代码的可读性和可维护性。

    超越编码

    • DevOps自动化:使用AI配置服务器、DNS和托管,提高部署效率。
    • 设计协助:生成设计元素,如favicons和其他设计组件。
    • 内容创建:起草文档和营销材料,以支持项目的推广。
    • 教育工具:逐行解释实现,帮助团队成员更好地理解代码。
    • 使用截图:分享UI错误或设计灵感,以便更好地沟通和协作。
    • 语音输入:使用工具如Aqua进行语音输入,提高输入效率。

    持续改进

    • 定期重构:测试到位后,频繁重构代码,保持代码的清晰和可维护性。
    • 识别机会:让AI找到重构候选,提高代码质量。
    • 保持最新:尝试每个新模型发布,以利用最新的技术。
    • 识别优势:不同模型在不同任务上表现出色,需要识别、利用这些优势。

    视频地址

    • 官方视频地址:https://www.youtube.com/watch?v=BJjsfNO5JTo
  • Anthropic最新报告《人类经济指数:追踪AI在美国及全球经济中的作用》

    《人类经济指数:追踪AI在美国及全球经济中的作用》主要研究AI(特别是Claude)在全球和美国各州的使用情况。报告发现,美国的Claude使用量远超其他国家,印度、巴西、日本和韩国紧随其后。在国家层面,Claude的使用与人均GDP呈正相关,高收入国家更倾向于使用Claude进行知识工作而非单纯的编程。在美国,各州的AI使用因经济结构不同而异,例如华盛顿特区更常用于文档编辑,加州更偏重编程任务。报告发现,随着时间推移,Claude的自动化任务比例从27%上升到39%,表明用户对AI的信任度在增加。

    夏威夷的旅行规划、马萨诸塞州的科学研究、印度的网页应用开发——表面上看,三者似乎毫无关联。事实上,Claude在这些地方的用途最为广泛

    这并不意味着这些是Claude最热门的用途:软件工程仍在全球几乎所有州和国家占据绝对主导地位。所谓“最为广泛”指的是:马萨诸塞州用户寻求科研帮助的概率远高于其他地区,巴西用户对语言类任务格外热衷——他们用Claude进行翻译和语言学习的频率是全球平均水平的六倍。

    这些发现来自我们第三期《Anthropic经济指数》报告。本期报告中,我们进一步追踪AI技术如何重塑工作与经济格局的早期趋势,重点分析Claude在不同维度的应用差异:

    • 美国各州对比:首次详细评估AI使用率的州际差异。发现各州经济结构直接影响人均Claude使用量,且最高使用率的州并非以编程任务为主。
    • 跨国对比:新分析显示国家收入水平与Claude使用强度高度相关,低收入国家用户更倾向于用AI自动化工作任务。
    • 时间演变:对比2024年12月-2025年1月2025年2月-3月数据发现,“指令型自动化”任务占比从27%激增至39%,表明AI承担的责任(及用户信任度)快速提升。
    • 企业用户:新增Anthropic第一方API客户匿名数据(覆盖Claude.ai之外的用户),首次揭示企业使用模式:API用户自动化任务倾向显著高于消费者,预示劳动力市场或将迎来重大变革。

    以下是报告核心摘要。我们同步推出了交互式网站,可自主查询全美各州及所有追踪职业的Claude.ai使用趋势,观察所在地或相关行业的AI应用情况。若需深度研究,我们完全公开本期及往期经济指数数据集。

    地域分析

    本次指数新增地理维度数据,揭示Claude在全球各国及美国各州的应用特征。

    跨国模式

    美国Claude使用量遥遥领先,印度位居第二,巴西、日本、韩国使用份额相近。

    考虑到各国人口规模差异,我们采用“AnthropicAI使用指数(AUI)”校正分析:AUI>1代表该国人均使用量高于其劳动年龄人口预期水平。

    数据显示,技术先进的小型经济体(如以色列、新加坡)在 Claude 采用率方面相对于劳动年龄人口处于领先地位。收入可能是关键因素:人均GDP与AUI指数呈现强相关性(人均GDP每增1%,AUI增0.7%)。这符合逻辑——Claude高使用国通常具备完善互联网基础设施及知识型经济主导的产业特征。也引发经济分化担忧:历史表明,电气化、内燃机等通用技术推动经济增长,也加剧了全球生活水平差距。若AI效益集中于高收入国家,可能重现类似的经济分化效应。

    美国州际模式

    人均GDP与Claude使用量的正相关性在美国州级层面同样成立,且相关性更强(人均GDP每增1%,人均使用量增1.8%)。但收入解释力低于跨国数据,表明存在其他影响因素。

    我们推测各州经济结构是主要因素。美国最高的 AUI 是哥伦比亚特区(3.82),其中 Claude 最频繁的使用是编辑文档和搜索信息,及与华盛顿特区知识工作相关的其他任务。同样,与编码相关的任务在加利福尼亚州(AUI 总体排名第三的州)。

    即使夏威夷等低使用率州,旅游相关任务使用频率也达全美平均值的两倍,更多数据可通过交互式网站探索。

    Claude 的使用趋势

    自 2024 年 12 月以来,我们一直在追踪人们如何使用 Claude。我们用一种保护隐私的分类方法,将匿名对话记录按 O*NET(美国政府数据库,用于对工作及相关任务进行分类)定义的任务组进行分类。通过这种方式,我们能分析自去年以来人们分配给 Claude 的任务发生了怎样的变化,及人们选择合作的方式(他们选择对 Claude 的工作进行多少监督和投入)也发生了怎样的变化。

    任务类型

    自 2024 年 12 月以来,Claude 的计算机和数学用途在我们的类别中占据主导地位,约占对话的 37-40%。

    但情况已发生很大变化。在过去的九个月里,我们看到“知识密集型”领域持续增长。例如,教育指导任务增加40%以上(占所有对话的比例从9%上升到13%),与物理和社会科学相关的任务比例增加三分之一(从6%上升到8%)。与此同时,传统商业任务的相对频率有所下降:与管理相关的任务占所有对话的比例从5%下降到3%,与商业和金融运营相关的任务比例减少一半,从6%降至3%。(当然,从绝对值来看,每个类别的对话数量仍然显著增加。)

    整体趋势显示,随国家人均GDP提高,Claude应用从计算机/数学任务向教育、艺术设计、行政支持、科学研究等多元化场景迁移。软件开发仍是所有国家的最高频应用,美国各州亦呈现类似规律,尽管我们的样本量限制更详细地探究任务组合如何随采用率的变化而变化的能力。

    交互模式

    正如我们之前所提到的,我们将AI应用分为自动化(AI最小化人工干预直接产出)与增强(人机协作),我们进一步将自动化细分为指令性对话和反馈循环交互,其中指令性对话涉及极少的人机交互,而在反馈循环任务中,人类将现实世界的结果反馈给模型。我们还将增强细分为学习(请求信息或解释)、任务迭代(与 Claude 协作)和验证(请求反馈)。

    2024年12月以来,指令型对话占比从27%骤增至39%,其他模式(尤其学习、任务迭代、反馈循环)小幅下降,推动自动化总量(49.1%)首次超越增强(47%)。表明AI正快速获得用户信任,承担更复杂工作的自主权提升。

    模型能力升级可能是主因(2024 年 12 月,我们首次收集经济指数数据时,Claude 的最新版本是 Sonnet 3.6)。随着模型越来越善于预测用户需求、生成高质量的结果,用户可能会更愿意在第一次尝试时就信任模型的输出。

    反常现象是:高使用率国家倾向增强模式,低使用率国家更偏好自动化,在控制相关任务组合的情况下,人均使用量每增1%,自动化率降低约3%。原因尚不明确,可能与各国早期使用者文化差异或经济因素相关。

    企业应用

    使用与Claude.ai对话相同的隐私保护方法,我们从 Anthropic 的第一方 API 客户子集中抽样交互,这是一项开创性的分析。 API 客户往往是企业和开发人员,他们使用 Claude 的方式与通过Claude.ai访问 Claude 的人非常不同:他们按令牌付费,不是按固定的月度订阅,且能通过自己的程序发出请求。

    这些客户对 Claude 的使用尤其集中在编码和管理任务上:我们示例中 44% 的 API 流量映射到计算机或数学任务,而Claude.ai上这一比例为 36%。(实际上,大约 5% 的 API 流量专门用于开发和评估人工智能系统。)与教育职业相关的对话比例(API 中为 4%,Claude.ai上为 12%)及艺术和娱乐相关的对话比例(API 中为 5%,Claude.ai上为 8%)相对较小,抵消了差异。

    最后,考虑到 API 使用的付费方式,探究任务成本差异(由消耗的代币数量差异引起)是否会影响企业选择“购买”哪些任务。发现任务成本与使用频率呈正相关:成本较高的任务类别往往使用频率更高,如下图所示。表明,模型的基本功能及产生的经济价值对企业而言比完成任务本身的成本更为重要。

    结论

    经济指数旨在实证评估AI对就业与经济的影响初期表现,我们发现,AI应用呈现显著不均衡性:高收入国家用户更倾向使用Claude,更追求协作而非自动化,应用场景超越编程范畴。在美国州级使用量与当地主导产业紧密关联(从科技到旅游业),且企业比消费者更愿赋予Claude自主权。

    尤其值得注意的是,过去九个月Claude.ai指令型自动化对话占比急剧上升。用户仍在探索与AI的协作边界——我们仍在集体界定对AI工具的信任阈值与责任分配。但目前趋势表明,人类正越来越适应AI代理工作。我们将持续追踪这一演变,观察随模型能力提升用户行为是否趋于稳定。

    欢迎访问Anthropic经济指数专题网站探索交互式数据可视化(涵盖国家、州、职业维度),我们将持续更新数据供公众追踪AI对经济与就业的影响路径。

    开放数据

    与以往的报告一样,本期同步发布完整数据集,其中包括地理数据、任务级使用模式、按任务划分的自动化/增强功能细分以及 API 使用情况概览。数据可在经济指数网站下载。

    报告官方网站

    • 报告官网:https://www.anthropic.com/research/economic-index-geography
    • 交互式网站:https://www.anthropic.com/economic-index
  • 蚂蚁发布《大模型开源开发全景与趋势》报告

    《大模型开源开发全景与趋势》是蚂蚁集团开源技术委员会推出的报告,基于社区数据洞察大模型开源开发生态的现状和未来趋势。报告通过全景图展示大模型开源项目的分布,从1.0版本到2.0版本,项目数量和领域划分更加精细,反映生态的快速发展。报告分析了技术关键词、活跃项目、许可证变化等,揭示AI Coding、Model Serving等领域的增长态势。报告探讨了项目更替与生态动态,及全球开发者在大模型开发生态中的分布情况,为开发者和企业提供参考,帮助他们把握大模型开源开发的脉络和趋势。

    大模型开源开发生态全景

    • 全景图迭代更新
      • 1.0版本于2025年上半年发布,收录19个技术领域的135个项目,采用种子项目多跳搜索方式绘制,具有一定随机性。
      • 2.0版本于2025年8月发布,采用OpenRank算法直接筛选GitHub项目,收录114个顶尖项目,分布在22个技术领域,标准提高至OpenRank 50。
    • 项目更替与生态动态
      • 2.0版本新增39个项目,占35%,多为近期创建且关注度高;移除60个项目,多因活跃度不足或不符合新标准。
      • 这些项目吸引全球366,521位开发者,其中美国占24%,中国占18%,显示中美在大模型生态中的主导地位。
    • 全景图的构成与意义:全景图分为AI Infra和AI Agent两大方向,基于OpenRank算法衡量项目影响力,提供科学依据。

    从生态全景到技术趋势

    • 大模型开发生态关键词:通过对项目描述和标签的文本分析,提炼出AI、LLM、Agent、Data等高频关键词,得到一张词云图,反映大模型生态的核心技术方向。
    • 活跃项目分析
      • OpenRank前10的项目覆盖模型生态完整链路,Python主导基础设施,TypeScript统治应用层。
      • 部分项目采用非传统开源许可证,保护商业利益,导致“开源”定义愈发模糊
    • 技术领域发展趋势:AI Coding、Model Serving和LLMOps增长明显,Agent Framework和AI Data领域则呈现下降趋势。
    • 边缘地带的项目:文章关注一些未进入全景图但有潜力的开源项目。

    大模型生态下全球开发者分布画像

    在全球大模型开发生态中,开发者分布显示美国和中国占据主导地位,分别占比24%和18%,表明两国在大模型技术领域具有显著的影响力和活跃度。欧洲国家如德国、印度等有较高参与度,与中美相比仍有差距,整体呈现出以中美为主、多国参与的全球开发者分布格局。

    从1.0到2.0,100天中的变与不变

    • 整体生态结构和领域的调整:从1.0到2.0,生态结构和领域划分更加精细,新增“AI Infra”、“AI Agent”和“AI Data”等具体分类。
    • 出局的项目:一些曾经热门的项目如Manus、NextChat等因维护不足或被替代逐渐退出视野。
    • 昔日巨星TensorFlow的十年消亡之路:TensorFlow自2015年开源后,因缺乏向后兼容性和复杂迁移工具,逐渐被PyTorch超越,走向衰落。
    • 新进的项目:新领域如AI Coding和具身智能相关项目涌现,Infra领域整合为LLMOps,覆盖模型全生命周期运维。
    • 新进项目中的最活跃开源项目Top 10:新进项目中,Gemini CLI和Cherry Studio等表现出色,位列活跃项目前10。
    • 全景图上的“Up and Down”:从2月到8月,TensorRT-LLM、Dynamo等项目OpenRank增长明显,LangChain、Codex等项目下降明显。

    专题洞察

    • Model Serving(模型服务):模型服务连接AI基础设施与应用层,vLLM、SGLang等项目提升推理性能,Ollama等推动本地部署,NVIDIA Dynamo扩展集群推理。
    • AI Coding(AI编程):AI Coding从单一代码补全发展到多模态支持,Gemini CLI、OpenCode等工具提升开发效率,商业化潜力巨大。
    • AI Agent(AI代理):2025年AI应用落地,LangChain等框架后继乏力,Mem0、Dify等新项目聚焦不同环节,推动Agent系统发展。

    番外篇:大模型生态全景

    梳理2025年1月至今国内外主流厂商的大模型发布时间线,详细标注每个模型的参数、模态等关键信息,直观展现当下大模型领域的竞争态势。通过分析,文章指出中国开源大模型呈现百花齐放的局面,国外顶尖模型厂商多走闭源路线,强调模型参数规模化、强化学习提升推理能力、多模态模型走向主流等技术趋势。