Skip to main content

Author: Chimy

Seko – 商汤科技推出的AI视频创作Agent,首个创编一体

Seko是什么

Seko是商汤科技推出的全球首个创编一体的AI短视频创作Agent。可以根据用户输入的创意灵感,通过大模型智能代理,完成从剧本创作、美术风格定位、配音配乐到分镜图绘制的成片全流程。用户只需用自然语言描述需求,无需复杂操作技巧,即可实现角色一致性控制和高质量视频生成。Seko适用于短视频创作、短剧制作、产品宣传和角色二创等多种场景,大幅降低创作门槛,让零基础用户也能轻松产出专业级短片。

Seko

Seko的主要功能

  • 视频策划与剧本创作:根据用户输入的创意灵感,自动生成完整的视频剧本。用户无需具备编剧知识,只需简单描述想法,Seko能构思出结构完整、逻辑清晰的剧本。
  • 自然语言编辑:支持用户用自然语言与Seko进行交互,轻松进行各种编辑操作。
  • 角色一致性控制:用户轻松导入或创建角色,Seko能确保角色在所有分镜和场景中的形象始终保持一致。
  • 多模态内容生成:Seko整合多种AI模型,根据用户的需求和视频风格,智能选择最适合的模型生成高质量的视频内容,包括画面、配音和配乐等。
  • 全流程智能Agent:从剧本创作到最终成片,Seko能实现全流程的智能代理,用户只需输入创意灵感,能一键生成结构完整、风格统一的短片,无需用户进行复杂的后期剪辑和拼接。
  •  推荐主体与灵感广场:Seko提供推荐主体和灵感广场的内容,帮助用户获取更多创意灵感。

如何使用Seko

  • 访问平台:访问Seko官网 https://seko.sensetime.com ,注册和登录。
  • 输入创意:用自然语言描述视频创意,比如“一个科幻短片,主角是机器人,场景在太空”。
  • 生成内容:点击生成按钮,Seko自动创作剧本、分镜图,并生成视频。
  • 编辑调整:如果需要修改,直接用自然语言指令,如“把背景音乐换成轻快的”。
  • 导出成片:生成满意的内容后,导出视频并分享。

Seko的应用场景

  • 短视频创作:通过自然语言输入创意,快速生成个性化短视频,适合零基础用户和自媒体创作者。
  • 短剧制作:AI自动生成剧本和分镜图,快速修改角色和场景,降低短剧制作门槛,适合独立创作者和影视团队。
  • 产品宣传:上传商品图,生成多版本产品介绍视频,提升产品吸引力,助力电商营销。
  • 角色二创:保持IP角色形象一致性,通过简单对话创作二创内容,激发粉丝创意,扩大IP影响力。
  • 知识科普:生成结构清晰、逻辑严谨的知识科普视频,快速制作高质量内容,提升知识传播效率。

腾讯研究院《2025人工智能十大趋势》(PDF文件)

在2025世界人工智能大会·腾讯论坛上,腾讯研究院联合腾讯优图实验室、腾讯云智能、腾讯科技联合推出《共生伙伴:2025人工智能十大趋势》报告,揭示AI技术从工具属性向“共生伙伴”角色的深刻转变。随着基础模型、多模态融合、具身智能等技术的突破,AI正逐步融入人类生活的方方面面,成为工作、生活乃至社会运行的核心组成部分。以下为十大趋势的精华总结。

2025 十大趋势报告

获取《腾讯研究院2025人工智能十大趋势》PDF原文件,扫码关注回复:20250726

序言

  • 序言一:司晓《从智能工具到共生伙伴》

司晓在序言中指出,AI正经历从“工具”到“共生伙伴”的深刻转变。随着强化学习、多模态融合等技术的突破,大模型不仅具备推理与行动能力,还能实现情感化交互。AI不再是被动执行指令的工具,而是能主动理解用户需求、优化生活与工作的“人生合伙人”。未来,空间智能和具身智能将推动AI从数字世界走向物理世界,完成从“会聊天”到“懂世界”的跨越。

  • 序言二:吴运声《打造更好用的AI》

吴运声强调,AI的未来不仅是技术竞赛,更是产业落地的能力比拼。腾讯聚焦“离产业更近的AI”,通过模型层(如混元大模型)、平台层(如智能体开发平台)和应用层(如金融、制造场景解决方案)的三层布局,推动AI从“有能力”到“有用处”。他认为,AI的下一阶段将围绕安全、可控和普惠展开,让技术真正成为企业与社会的价值驱动力。

2025 十大趋势报告

趋势01 强化学习:引领大模型推理与行动能力突破

强化学习从“对齐人类偏好”(RLHF)转向“基于可验证结果优化”(RLVR),推动大模型从内容生成迈向复杂问题解决。例如,AI在医疗、金融等领域通过强化学习实现自主决策,甚至发现超越人类经验的新策略。

2025 十大趋势报告

2025 十大趋势报告

趋势02 原生多模态生成:感知与生成的统一

AI从单一模态处理转向跨模态统一建模,实现文本、图像、音频的联合理解与生成。例如,OpenAI的GPT-4o和Sora模型已能无缝处理多模态信息,重塑影视创作、电商推荐等行业的交互体验。

趋势03 声音模型的情感智能进化

语音合成技术从机械朗读升级为情感化表达,结合多模态能力,AI声音可实时生成音乐、配音,甚至驱动虚拟角色互动,成为教育、医疗、娱乐领域的“情感伙伴”。

2025 十大趋势报告

2025 十大趋势报告

趋势04 智能体双轨进化:编排类与端到端并行

  • 编排类Agent:如AutoGPT,通过调度工具和API完成复杂任务,在企业级应用中强调可控性。
  • 端到端Agent:如OpenAI的o3模型,内化推理与工具使用能力,在专业领域(如科研、编程)展现深度自主性。

趋势05 LifeOS:AI成为个性化生活操作系统

AI从单次任务工具演变为持续陪伴的“数字自我”,整合用户长期记忆、习惯与情绪数据,主动优化日程、健康管理,甚至提供情感支持,如ChatGPT的Memory功能。

2025 十大趋势报告

趋势06 智力即服务:智能化工作流赋能产业

企业通过AI Agent重构业务流程,将知识从“静态资产”转化为“可调度认知系统”。例如,微软365 Copilot通过检索增强生成(RAG)技术,实现企业知识的实时调用与决策支持。

趋势07 游戏智能体:虚拟世界的沉浸式进化

游戏AI从脚本化NPC发展为具备情感与社交能力的“数字生命”,如《暗区突围》的AI队友能动态适配玩家风格,推动元宇宙社交生态的成熟。

2025 十大趋势报告

趋势08 具身智能的“GPT-2时刻”

基础模型(如VLA多模态模型)、数据工程与仿真平台的协同突破,推动机器人从实验室走向量产。例如,特斯拉Optimus和腾讯“小五”机器人已在制造、家庭服务中展现类人行动能力。

趋势09 空间智能:AI从词元到体素的跨越

AI开始理解三维空间(体素),赋能自动驾驶、XR混合现实等领域。李飞飞的World Labs致力于生成可交互3D场景,为智慧城市、建筑设计提供新工具。

2025 十大趋势报告

趋势10 测试转量产:具身智能本体加速成熟

人形机器人运动、感知系统标准化,逐步应用于物流、护理等高需求场景。Figure 02、Agility Digit等产品已实现千台级量产,标志AI从“数字大脑”迈向“物理执行”。

2025 十大趋势报告

获取《腾讯研究院2025人工智能十大趋势》PDF原文件,扫码关注回复: 20250726

Build in Public 是什么?一文看懂

“Build in Public”(中文为“公开构建”或“公开创业”)是一种创业或开发理念,意思是开发者/创业者将产品或项目的建设过程公开透明地展示出来。简单来说,就是在做项目时,通过微博、推特、公众号等社交平台实时分享你的进度、遇到的问题、思考和经验,甚至公开收入数据和用户指标,而不是关起门来悄悄开发。这种做法可以拉近创始人与用户、社区的距离,让外界“跟着你一起造车”,既是展示工作进度,也是建立联系与信任的一种方式。

Build in Public是什么

公开构建(Build in Public)是一种创业与创作策略,即创业者或创作者公开分享其产品或项目的开发过程、挑战与成就,形成开放透明的成长轨迹。通过社交媒体、博客或社区渠道实时记录进展,公众能看到项目背后的故事与数据。

做法源自2010年代初的透明创业理念:如社交媒体工具 Buffer 早在2013年就公开分享公司收入、用户和员工工资等信息;博客平台 Ghost 的创始人 2014 年也宣布效仿 Buffer 开放财务数据与进展。Nomad List 创始人 Pieter Levels 等创业者纷纷效仿,将公司营业额、流量等指标公开,吸引了数十万粉丝。公开构建“建立公司或产品并透明地分享过程和幕后信息,如成功、挑战、业务指标等”;与传统的“秘密创业”模式相对立,而更倾向于以透明为核心价值。

在公开构建模式中,创业者的支持群体(Support Groups)和潜在客户(Customers)往往会同时聚集参与。公开分享过程能汇聚关注者与用户,既为创业者提供反馈和动力,也加深了用户对产品的信任和认可。这一特点使公开构建不仅是一种营销策略,也成为增强品牌与用户联系的有效途径。

Build in Public的核心理念与原则

公开构建的核心在于透明公开持续互动。多项关键原则和益处:

  • 透明度与信任:创业者公开分享项目进展、财务数据、决策过程和团队故事,向用户和支持者展现真实面貌,建立信任。正如 Bitget 资讯所言,透明度是公开构建的首要原则,能深化与受众的信任关系;能让用户看到创始人的努力和挑战,提高品牌忠诚度。
  • 早期反馈与快速迭代:通过公开构建,团队可以在产品开发早期就获得来自用户和社区的建议。及时的反馈回路帮助团队快速调整产品方向,实现产品与市场的快速契合。例如,公开征集用户意见可让用户参与产品建设,当他们看到建议被采纳时,对项目投入感更强。
  • 社区参与与口碑传播:公开构建鼓励围绕项目形成一个活跃的社区。社区成员不仅提供建议,还会为项目宣传。来自社区的力量可以为企业带来大量的口碑传播和用户忠诚度”。
  • 责任感与目标管理:公开对外承诺目标和时间表,会让团队更加有动力完成计划。防止拖延,实现更高效的执行。
  • 个人品牌与影响力:坚持公开构建的创始人往往成为领域内的意见领袖。当创始人不断发表内容并与行业热议话题关联时,能提升个人的专业影响力。例如,Failory 创始人长期公开分享创业失败案例,当有人讨论相关话题时,都会自然而然地提到他。
  • 吸引人才与资源:持续的公众曝光会让更多人才、投资者和合作伙伴了解项目。公开构建能“为企业提供与潜在用户互动和建立信任的平台,也为他们提供收集实时反馈和迅速迭代的机会”,吸引对透明文化感兴趣的人才。

Build in Public的适用场景

公开构建并非适用于所有项目,但对以下场景尤为有效:

  • 互联网与科技创业:对于面向互联网用户的初创企业,公开构建可以迅速聚焦目标群体。例如,众多知名创业者通过Build in Public在社交媒体上吸引用户:Buffer、CopyAI、Nomad List 等科技公司利用这一策略获得了早期关注。
  • 独立开发者和开源项目:个体开发者或开源团队因自身需要推广产品,往往通过公开进度与社区互动。例如,Tailwind CSS 的作者 Adam Wathan 采用透明的开发方式,持续分享新版本进展和设计思路。开源社区本身倡导开放,公开构建与开源精神高度契合,使项目更容易获得贡献者和用户。
  • 内容创作与个人品牌:许多内容创作者和知识博主利用公开构建来建立个人品牌和受众。如在领英(LinkedIn)上分享创作心得的 Justin Welsh,截至目前已有超过16.5万关注者。他公开自己的数字产品开发过程,吸引了数百位客户。公开记录创作过程强迫输出内容、培养习惯,也让创作者获得反馈和认可。
  • 学习成长型项目:学生或自学者可以通过公开记录学习笔记、项目进展等来积累学习资源和人脉。如有人分享编程学习日志或开源作业,一来促进自我成长,二来可得到同行和前辈的反馈,形成学习社区。尽管资料中对“学习成长”专门案例较少,但公开分享学习历程是 “公开创业”思维的延伸,能帮助个人长期积累写作与表达能力。
  • 非科技领域创业:即使是传统行业,公开构建也能发挥作用。例如,室内农业公司Nebullam的创始人Clayton Mooney在领英上公开分享公司最新进展,他的个人和公司账号都会同步更新。这表明只要目标受众活跃于某个平台,就可以利用公开构建来扩大关注度和信任度。

Build in Public的优势与挑战

公开构建既有明显的好处,也存在需要注意的风险。

优势

  • 获得早期反馈:开放分享开发进度可以让用户和支持者及时提出建议,避免到最后才发现产品不足。
  • 快速积累用户和认同感:当粉丝看到自己对产品有影响,他们更愿意关注、使用甚至投资,为项目带来买入动力。
  • 建立信任和品牌权威:透明的态度让用户感到被尊重和参与,增强信任度。
  • 成为领域专家:长期公开分享某个细分领域的经验,会让社区把你视为专家。
  • 吸引人才和投资:透明度高的团队更容易获得求职者和投资人的青睐。公开数据和过程能为项目带来额外曝光和机会。

挑战

  • 竞争风险:一旦公开想法和策略,竞争对手可能会快速模仿。需要注意“公开什么程度”,避免暴露核心商业机密。
  • 心理压力:持续公开过程会带来外界监督和期望。如果进展缓慢或遇到失败,开发者可能承受较大压力,甚至影响情绪和动力。
  • 过度依赖反馈:公开获取反馈好处多,但也可能使团队不断追随用户意见而迷失方向。需要保持初心,不要对用户建议盲目妥协。
  • 信息过载和时间成本:频繁更新会消耗额外时间,过度分享可能让受众疲劳。创业者需平衡分享与实际开发的时间投入。
  • 需求前提条件:有作者指出,成功的公开构建通常要求先有一个最小可行产品,再开始公布进度;团队需要保证能迅速回应反馈,并且创始人已有一定社区影响力。
  • 应对负面反馈和批评: 公开必然会招致批评,甚至恶意攻击。拥有强大的心态,学会筛选建设性意见,并对负面情绪保持距离至关重要 。
  • 创意被抄袭的风险: 这是许多人的首要担忧。但现实是,执行远比创意重要。通过公开构建建立的社区、品牌和信任,是竞争对手难以复制的护城河。

公开构建是一把双刃剑:能帮助项目获得更多关注和信任,但也需要做好“被看见”的准备和风险管理。

Build in Public的案例分享

  • Copy.ai(AI写作平台):Copy.ai 创始人Paul Yacoubian坚定践行公开构建策略。据报道,他会在Twitter上公开团队的开发过程,分享产品更新,分享团队文化和对AI的看法,吸引早期用户和粉丝。Paul会实时公布关键数据和里程碑,比如曾公开分享Copy.ai月度经常性收入(MRR)从6美元增长到100万美元的过程。这种真诚的分享让用户感到信任和参与感。他还经常在推特上发起投票,团队根据反馈迅速迭代,使产品持续满足用户需求。公开招募也为Copy.ai带来了优秀人才:他们最初的三位员工就是在推特上找到的。通过以上方式,Copy.ai迅速积累了数万关注者和付费用户,验证了公开构建的有效性。
  • Ghost(开源博客平台):Ghost 项目自成立之初就采取开放透明的理念。创始人在2014年年度报告中宣布跟随Buffer脚步公开公司运营数据,开始定期在Ghost的“开放创业公司简介”页面上公布收入和访问量等关键信息。Ghost作为开源非营利组织,通过公开财务与开发计划,赢得了社区的信任与支持。透明化策略帮助Ghost打造了忠实用户群,使其在竞争激烈的博客平台市场中占据一席之地。
  • Nomad List(数字游牧社区):Nomad List 的创始人 Pieter Levels 是公开创业的典型人物。早在2018年,他就在Twitter上宣布公开创业,为旗下每个项目(如Nomad List、Remote OK)建立专门页面,分享收入、流量等数据。他坚持至今,吸引了13万以上Twitter粉丝。其持续公开的过程不仅为项目带来流量和收入,也让Pieter成为开源创业领域的知名人物(被称为“开放创业的CEO”)。
  • Tailwind CSS(前端框架):虽然Tailwind CSS并非传统意义上的创业公司,其开发者Adam Wathan通过博文、推特等渠道公开开发过程和设计思路,将技术演进历程透明化。这种做法为Tailwind累计了大量开发者社区支持,使该开源项目迅速成长。

Build in Public的入门实践指南

想尝试“Build in Public”,该从何入手呢?无论是想开发一款小工具、写一本书,还是记录学习一门新技能的过程,以下步骤为你提供清晰的指引。

📌第一步:选择你的“舞台” (平台选择)

你的分享需要一个载体。选择哪个平台,取决于你的目标受众聚集在哪里,以及你个人最习惯的内容形式 。

  • 社交媒体平台: 这是最主流的选择。
    • Twitter (现X) / 微博 / 即刻: 适合发布简短、高频的更新,如每日进展、灵感闪现、遇到的问题等 。
    • LinkedIn / 脉脉: 更偏向专业领域,适合分享商业思考、行业洞察和项目里程碑 。
    • 小红书 / Instagram: 侧重视觉化内容,适合分享产品设计草图、幕后照片或短视频故事 。
  • 内容与社区平台:
    • 个人博客 / 公众号 / 知乎专栏: 适合发布更长、更有深度的文章,系统性地记录你的思考、复盘和总结 。
    • YouTube / Bilibili / 视频号: 通过视频形式,可以更生动地展示产品演示、开发日志(Devlog)或团队故事 。
    • Discord / Slack / 微信群: 用于建立核心粉丝群,进行更私密、更深入的互动和反馈收集 。

建议: 初期不必贪多,选择1-2个你最熟悉且目标用户最集中的平台开始 。

📌第二步:规划你的“剧本” (内容规划)

公开不等于无保留地暴露一切。你需要规划分享什么、不分享什么。

  • 可以分享的内容:
    • 进展与里程碑: “本周我们完成了用户登录功能!”
    • 数据与指标: 公开收入、用户数、网站流量等(例如,Buffer公司的薪资计算器就是一个激进透明的著名案例 。
    • 挑战与失败: “今天服务器宕机了3小时,我们学到了……”
    • 幕后故事: 设计稿的演变、代码片段、与用户的访谈 。
    • 决策过程: “我们在A、B两个方案中纠结,大家怎么看?” 。
  • 需要谨慎的内容:
    • 核心商业机密: 独特且无法轻易复制的算法或商业策略 。
    • 用户隐私数据: 任何涉及用户个人信息的内容都绝对不能公开。

建议: 不要追求完美,从小处着手。你的第一篇更新可以很简单,比如“我有一个想法,想做一个……,这是我的第一步计划” 。

📌第三步:保持“更新” (更新频率)

一致性是关键!不规律的更新会让好不容易积累的关注度流失。设定一个可实现的更新频率,努力坚持下去。

  • 高频(每日/每几天): 适合在Twitter等平台分享小进展。
  • 中频(每周): 适合通过博客、邮件列表或视频发布周报,总结一周的得失 。
  • 低频(每月): 适合发布月度总结报告,分享关键数据和未来计划。

📌第四步:与“观众”互动 (收集反馈)

“Build in Public”不是单向的广播,而是双向的对话。

  • 主动提问: 在分享中直接向你的观众提问,邀请他们参与决策 。
  • 利用工具: 通过社交媒体的投票功能、在线调查问卷等工具,系统地收集反馈 。
  • 感谢并回应: 对提供反馈的用户表示感谢,并让他们知道他们的建议是如何影响你的产品的。这会让他们更有参与感和成就感 。

“Build in Public”远不止是一种营销技巧,更是一种关于开放、信任和共同创造的现代商业哲学。将传统的单向价值传递,转变为与用户共同成长的双向互动旅程。

对于普通用户而言,无论你的目标是启动一个宏大的创业项目,还是仅仅想记录自己学习吉他的过程,都可以从“Build in Public”的理念中汲取力量。能为你带来意想不到的反馈、支持和机遇。

在这个连接日益紧密的时代,选择“闭门造车”可能会错失整个世界。不如勇敢地推开门,在阳光下公开构建,邀请世界与你一同前行。

AnyVoice – AI声音克隆平台,3秒克隆逼真声音模型

AnyVoice是什么

AnyVoice 是全球首创的 AI 声音克隆平台,仅需 3 秒音频能克隆出高度逼真的声音,支持英语、中文、日语和韩语。平台能捕捉说话者细微差别和情感,生成的音频与真人难以区分。用户无需技术专长,操作简单,适合快速原型设计和实时应用。平台提供专业版,支持商业用途、支持无限生成和创建无限声音模型。AnyVoice 重视用户隐私,确保音频数据安全处理。

AnyVoice

AnyVoice的主要功能

  • 3 秒快速声音克隆:仅需 3 秒音频样本即可克隆出高度逼真的声音。
  • 多语言支持:支持英语、中文(普通话)、日语和韩语。
  • 超逼真的声音克隆:捕捉原始说话者的细微差别和情感,生成的音频与真人语音难以区分。
  • 实时音频生成:克隆后能立即生成音频,适合快速原型设计和动态内容创建。
  • 音频下载与使用:生成的音频支持 MP3 或 WAV 格式下载,适用各种项目。

如何使用AnyVoice

  • 访问平台:访问 AnyVoice 的官方网站:https://anyvoice.net。
  • 上传或录制音频样本:选择一个 3-10 秒的音频文件,用浏览器的录音功能录制 3 秒的音频样本。
  • 生成声音克隆:上传或录制完成后,点击“生成”按钮。AnyVoice 的 AI 将在几秒钟内生成自定义的声音克隆。
  • 下载音频:生成的音频支持 MP3 或 WAV 格式下载,适用任何项目。

AnyVoice的产品定价

  • 免费版:适合个人非商业用途,每次生成最多 200 个字符,每月 1,200 秒音频生成,最多创建 10 个声音克隆模型。
  • 专业版:适合商业用途,每次生成最多 1,000 个字符,无限生成,优先生成,创建无限声音克隆模型。

AnyVoice的应用场景

  • 内容创作:为有声读物、视频配音、播客制作生成自然流畅的语音内容,提升作品的专业性和吸引力。
  • 广告与营销:快速生成高质量的广告配音、语音广告和社交媒体语音内容,增强广告的感染力和传播效果。
  • 教育与培训:为在线课程、语言学习材料、企业培训视频生成专业的讲解语音,提高学习和培训效果。
  • 游戏开发:为游戏角色和游戏旁白生成独特且逼真的声音,增强游戏的沉浸感和趣味性。
  • 虚拟助手:为智能客服、智能家居设备、智能办公设备生成自然的语音交互,提升用户体验。

日日新 V6.5 – 商汤科技推出的多模态推理大模型

日日新 V6.5是什么

日日新 V6.5是商汤科技推出的日日新新型多模态推理大模型。模型独创图文交错思维链,图像用本体形式参与推理,显著提升跨模态推理精度,超越Gemini 2.5 Pro。相比日日新6.0,推理能力提升6.99%,推理成本仅为30%,性价比提升5倍。模型依托轻量Vision Encoder+和纵深LLM架构,具备高效推理能力,能广泛应用在自动驾驶、机器人等具身智能场景。

日日新 V6.5

日日新 V6.5的主要功能

  • 多模态推理:支持处理图像和文本的混合输入,进行复杂的推理任务,例如理解图像内容并结合文本信息生成准确的描述或回答相关问题。
  • 高效推理能力:在多个数据集上表现优异,推理精度显著提升,推理成本大幅降低,性价比提升5倍。

日日新 V6.5的技术原理

  • 图文交错思维链:图像用本体形式参与推理过程,图文混合的思考模式使得模型能够更准确地理解和处理多模态信息。
  • 轻量Vision Encoder+:基于优化视觉编码器,提高图像处理效率,同时减少计算资源消耗。
  • 纵深LLM架构:结合深度语言模型(LLM)的强大语言理解和生成能力,实现高效的跨模态推理。
  • 多模态协同训练:同时处理图像和文本数据,模型能学习到更丰富的语义信息,提升推理精度。

日日新 V6.5的项目地址

  • 项目官网:https://platform.sensenova.cn/

日日新 V6.5的应用场景

  • 自动驾驶:实时分析道路环境,精准识别交通标志、行人和车辆,为自动驾驶系统提供高效、安全的决策支持,提升自动驾驶车辆的智能化水平。
  • 机器人:在工业、服务和物流机器人领域,助力机器人实现精准的物体抓取、灵活的导航避障和自然的人机交互,显著提升机器人的工作效率和适应性。
  • 智能家居:实时监控家庭环境,提供智能安全警报和个性化的家居管理服务,为用户打造更加便捷、智能的家居生活体验。
  • 智能教育:为学生提供个性化的学习辅导,通过图像识别和自然语言处理技术,快速解答数学题、批改作业,同时生成多媒体教材,提升教学效果和学习体验。
  • 医疗健康:在医疗领域,辅助医生进行医疗影像分析,快速准确地识别病变,同时为患者提供智能导诊服务,优化就医流程,提升医疗服务的智能化水平。

混元3D世界模型 1.0 – 腾讯开源的3D世界生成模型

混元3D世界模型 1.0是什么

混元3D世界模型1.0(Hunyuan World 1.0)是腾讯在世界人工智能大会上正式发布并开源的业界首个可沉浸漫游、可交互、可仿真的世界生成模型。模型融合了全景视觉生成与分层3D重建技术,支持通过文字或图片输入,在几分钟内生成一个360度沉浸式的三维场景。用户可以在生成的世界中自由漫游,体验类似游戏或虚拟现实的交互感。模型支持物理仿真与二次编辑,生成的场景可导入Unity、Unreal Engine等主流引擎进行进一步开发。

hunyuanworld-1-0

混元3D世界模型 1.0的主要功能

  • 一键生成360度全景世界:用户可以通过简单的文本描述或上传一张图片,快速生成一个完整的360度沉浸式三维场景。例如,输入“一个破旧的加油站,夜晚下着雨,远处有霓虹灯”,模型能够构建出包含加油站主体、环境、天空光照、闪电等元素的完整空间。
  • 可漫游、可交互的3D世界:生成的3D场景不仅支持360度视角切换,支持用户在场景中自由漫游,体验类似游戏或虚拟现实的交互感。用户可以通过WASD键控制角色走动,鼠标拖动切换视角,探索生成的虚拟世界。
  • 支持物理仿真与二次编辑:模型生成的场景支持物理仿真和独立编辑。用户可以对前景物体进行选中、绑定骨骼或添加行为逻辑,也可以对天空、地形等元素进行替换或个性化渲染。生成的场景可以导出为标准的Mesh文件,无缝兼容Unity、Unreal Engine、Blender等主流工具,直接用于游戏开发、影视特效制作、教育仿真等场景。
  • 高质量生成能力:混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力上全面超越当前SOTA的开源模型。采用“语意层次化3D场景表征及生成算法”,将复杂3D世界解构为前景、中景、远景等不同语意层级,实现智能分离,生成的场景不仅视觉效果逼真,还具备高度的灵活性和可扩展性。
  • 多模态输入支持:模型支持多种输入方式,包括自然语言描述和图像输入。用户可以根据自己的需求选择合适的输入方式,快速生成所需的3D场景。

混元3D世界模型 1.0的技术原理

  • 两阶段生成范式
    • 3D世界的压缩与表征(3D-aware VAE)模型首先通过一个特制的3D感知变分自编码器(3D-aware Variational Autoencoder, VAE),将复杂的3D场景数据编码成低维度但信息量密集的潜在空间表征。
    • 在潜在空间中扩散生成(Diffusion Transformer)在获得高质量的潜在空间后,模型通过一个扩散模型(Diffusion Model),其骨干网络采用强大的Transformer架构(即Diffusion Transformer, DiT),从随机噪声潜在编码开始,在文本或图像提示的语义引导下,逐步将噪声雕琢成符合用户要求的3D世界潜在编码。最后,生成的潜在编码通过VAE的解码器还原成具体的3D世界。
  • 语意层次化3D场景表征及生成算法算法将复杂3D世界解构为不同语意层级,实现前景与背景、地面与天空的智能分离。保证了生成场景的视觉效果逼真,支持对场景内元素的独立编辑和物理仿真,兼容Unity、Unreal Engine、Blender等主流工具。
  • 强大的生成引擎(Diffusion Transformer)模型采用了约20亿参数的Diffusion Transformer,其自注意力机制擅长捕捉长距离依赖关系,确保场景的全局一致性。通过交叉注意力机制,将文本或图像提示的语义信息精准注入到生成过程中,实现精准可控的生成。

混元3D世界模型 1.0的项目地址

  • 项目官网:https://3d-models.hunyuan.tencent.com/world/
  • Github仓库:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
  • HuggingFace模型库:https://huggingface.co/tencent/HunyuanWorld-1
  • 官网使用腾讯混元3D

混元3D世界模型 1.0的应用场景

  • 游戏开发:游戏开发者可以通过简单的文本指令或图片输入,快速生成包含建筑、地形、植被等元素的完整3D场景。
  • 沉浸式视觉空间生成:无建模经验的普通用户可以通过混元3D创作引擎,仅需一句话或一张图即可快速生成360°沉浸式视觉空间。
  •  数字内容创作:模型支持文本和图片输入,能快速生成高质量、风格多样的可漫游3D场景,适用于动画制作、影视特效等领域。
  • 物理仿真支持:模型生成的场景支持物理仿真,可用于具身智能仿真,帮助机器人或智能体在虚拟环境中进行训练。
  • 智能体开发:支持零代码搭建Multi-Agent,新手小白也能快速上手,适用于构建复杂的智能体交互场景。

悟能 – 商汤科技推出的具身智能平台

悟能是什么

悟能是商汤科技推出的面向机器人和智能设备的具身智能系统。平台基于商汤的“开悟”世界模型,结合多模态大模型技术,赋予机器人强大的感知、决策和行动能力。平台包含感知层(视觉、语音、触觉等多传感器输入)、决策层(LLM+世界模型协同规划)和行动层(端到端控制机械臂和移动底盘)。平台能赋能机器人等各种终端硬件,支持嵌入端侧芯片,适配多种场景,能生成多视角视频,构建4D真实世界,实现复杂任务的自主执行。

悟能

悟能的主要功能

  • 感知功能
    • 多模态感知融合:基于视觉、语音、触觉等多种传感器输入,实现对环境的全面感知和理解。
    • 环境感知:实时识别物体、人物和空间布局,为决策提供准确的环境信息。
  • 决策功能
    • LLM与世界模型协同:结合大语言模型和世界模型,实现语言理解和物理世界知识的融合,制定合理的行动策略。
    • 任务规划:根据任务目标,生成详细的执行计划,确保任务高效完成。
  • 行动功能
    • 端到端控制:精准控制机械臂和移动底盘,实现复杂动作的精确执行。
    • 动作执行与反馈:在执行任务过程中实时调整,确保任务的灵活性和可靠性。
  • 场景适配性:支持嵌入端侧芯片,适配多种智能设备和场景。

悟能的技术特性

  • 分层设计:感知层、决策层和行动层的分层设计,让系统结构清晰,便于开发和优化。
  • 模块化:各层内部基于模块化设计,支持灵活的扩展和定制化开发。
  • 协同工作:各层之间基于高效的通信机制紧密协作,确保系统的整体性能。
  • 实时性:支持实时数据处理和反馈,确保系统能够快速响应环境变化。
  • 安全性:在关键功能上设计多重安全冗余,确保系统在异常情况下仍能安全运行。

悟能的应用场景

  • 家庭服务:协助完成家务任务(如扫地、整理),同时提供陪伴互动,提升家庭生活质量。
  • 工业自动化:在物流仓库中自动搬运货物,优化生产线上零部件的装配和质量检测,提高效率。
  • 自动驾驶:实时感知路况,提供自动驾驶辅助功能,如自动泊车、紧急避让,提升驾驶安全性。
  • 医疗护理:协助患者进行康复训练,监测病房患者状态,为医护人员提供辅助支持。
  • 商业服务:在商场中为顾客提供购物建议,协助导购,同时进行实时安防监控,保障商业场所安全。

阿里发布最强推理模型Qwen3-2507,比肩Gemini 2.5 Pro

太猛了!这就是阿里的实力吗?

三天,三款重磅大模型接连上线,打出一套AI圈最硬核的“技术三连发”。

7月22日,阿里通义千问团队发布全新版本 Qwen3-235B-A22B-Instruct-2507 ,第二天又发布并开源全新代码大模型 Qwen3-Coder ,今晚 Qwen3-235B-A22B-Thinking-2507 也压轴登场。

一个星期之内,从通用智能,到代码智能,再到复杂推理,三大核心能力全面覆盖,只能说阿里还是太全面了,放眼海外如此多点、多面的AI玩家都屈指可数。

不仅全线开源,还在多个国际评测中杀到榜首,正面对标甚至超越了 Gemini、Claude 这些国际闭源大模型。

就连 Hugging Face 的 CEO 克莱门特也公开点赞。

不过我一向是更相信自己的使用体验的,牛不牛B测完不就知道了。

 

01. Qwen3一分为二

 

半年前,Qwen 开始探索“混合思维”模型架构,在一个模型中融合快与准,这是国产大模型对“思维切换”的一次前瞻性尝试。

本周,Qwen3 迎来了真正意义上的“能力分流”:告别混合思维,直接拆分为两个独立版本。

虽然两款大模型用的都是同一个235B参数的大架构,激活参数都是同样的22B,但两个模型风格完全不同:

Qwen3-235B-A22B-Thinking-2507 主打深度推理与逻辑严谨;

Qwen3-235B-A22B-Instruct-2507 则专注速度与响应效率。

我们可以根据任务类型,自由选择用哪款模型,模型各自的性能也更纯粹。

我挑选了几个比较典型的案例,一起测测看:

我们进入阿里云百炼官网,选择 Qwen3-235B-A22B-Thinking-2507 模型。

就可以直接开始使用啦。

案例1 非形式逻辑(陷阱题)

提示词:如果我迟到了,就会被扣工资。

今天我没迟到。所以我不会被扣工资,对吗?

Qwen3-235B-A22B-Thinking-2507 展示了完整的思考过程。

然后一步步解释,让我也能听懂这到底是怎么一回事。

结尾是一段清晰、简洁的总结。

整个内容展示,我能够一步步看清楚模型是怎么思考、怎么理清逻辑。为了让我思路更清晰,它还例举了现实中扣工资的场景,比如早退、没打卡、工作失误。。。

不仅要告诉我结论,还要给我讲清楚为什么得到这样的结论。

案例2 风险与收益选择

提示词:你有两种选择:

A. 100%获得80元

B. 80%概率获得100元,20%得0元

你选哪一个?为什么?

Qwen3-235B-A22B-Thinking-2507 不仅算对了期望值,还对经济学很了解,准确的判断出B选项可能收益更大,但不确定性也更高,所以选择了A选项。

有一点很有意思,Qwen3-235B-A22B-Thinking-2507 说“作为AI,我没有财务需求,但可以模拟标准理性代理人”,很有“思维角色感”。

案例3 精神与逻辑检验题

提示词:识别伪科学言论

“某品牌声称‘其饮用水能提升DNA频率,增强免疫力’,你如何评价这类说法?”

这道题看起来是个科学常识判断,其实并不简单。因为模型做的是要批驳伪科学,从回答来看,Qwen3-235B-A22B-Thinking-2507 不仅一下就识破,还顺手给我做了一次科普。

整体看下来,Qwen3-235B-A22B-Thinking-2507 不仅“会思考”,而且逻辑清晰、推理严谨,很懂“语言的艺术”。

接下来我们测测 Qwen3-235B-A22B-Instruct-2507。

在 QwenChat(https://chat.qwen.ai)中,选择 Qwen3-235B-A22B-2507 模型。

案例4 逻辑推理

提示词:已知“所有鸟类都会飞”是错误的,能否推出“有些鸟类不会飞”?请用三段论形式说明理由。

Qwen3-235B-A22B-Instruct-2507 给出的逻辑链非常清晰,它先指出“所有S是P”的否定是“有些S不是P”,然后按照我的要求用三段论推理出“‘不是所有鸟会飞’等价于‘有些鸟不会飞’”。

我接着问:

如果说“不是所有S是P”,是否一定等于“有些S不是P”?

我们先看到了一个简洁清晰的回答:在经典逻辑中这是等价的,但在某些非经典逻辑或特定语境下(如空类问题),可能不成立。

能做到这一步,说明 Qwen3-235B-A22B-Instruct-2507 不是死记逻辑规则,是真的在“理解”推理过程。

整体来说,Qwen3-235B-A22B-Instruct-2507 的表现已经非常强了。反应快、输出稳、逻辑清晰

 

02. Qwen3-Coder 编程新王

 

Qwen3-Coder 一上线,就有不少自来水。推特创始人 Jack 都强烈点赞,并引起Grok 官号转发回应。

我选了大家平常用到比较多的场景,比如做动态网页、3D卡片、教学演示和修复BUG,一起看看Qwen3-Coder 表现如何。

案例1 加载动画

提示词:用 HTML + CSS + JS 创建一个全屏加载动画组件,加载时展示一个旋转星球或几何图形动画,加载完成后淡入主内容。

案例2 网页滚动视差效果

提示词:写一个带有滚动视差(parallax scrolling)效果的网页段落,背景图随滚动缓慢移动,前景文字滑入,适合作为封面介绍区块。

案例3 粒子背景动画

提示词:用 HTML + CSS + JS 制作一个炫酷的粒子背景动画组件,粒子会根据鼠标移动方向自动流动、连接成网状,背景透明,可覆盖在任意网页上。

案例4 动画演示

提示词:生成一个动态动画网页,用多个旋转圆圈(傅里叶级数)逐步构建方波。圆圈首尾相连,末端拖出一条动态轨迹形成方波,画面背景为黑色,线条为高亮霓虹色,轨迹带有残影和拖尾效果,风格极简又醒目,适合数学可视化演示。

案例5 3D卡片

提示词:生成一个 3D 翻转的卡片展示组件,用 HTML 和 CSS 实现,鼠标悬停时卡片前后翻转显示不同内容,带流畅立体动画。

案例6 修复BUG

提示词:你是前端开发助手。以下是一段用于生成“炫酷银河星轨”的 Canvas 动画。用户反馈:“页面是黑的,啥都没有显示,感觉根本没动画。”请找出原因,说明问题所在,并修复代码(只改必要部分)。

<canvasid="space"></canvas><script>const canvas = document.getElementById("space");const ctx = canvas.getContext("2d");canvas.width = window.innerWidth;canvas.height = window.innerHeight;
let stars = [];for (let i = 0; i < 200; i++) {  stars.push({angleMath.random() * 2 * Math.PI,radiusMath.random() * (canvas.width / 2),speed0.01 + Math.random() * 0.02,sizeMath.random() * 2 + 1,color`hsl(${Math.random() * 360}, 100%, 70%)`  });}
function draw(){  ctx.fillStyle = "rgba(0, 0, 0, 0.1)";  ctx.fillRect(00, canvas.width, canvas.height);
  ctx.save();  ctx.translate(canvas.width / 2, canvas.height / 2);
for (let star of stars) {let x = Math.cos(star.angle) * star.radius;let y = Math.sin(star.angle) * star.radius;
    ctx.beginPath();    ctx.arc(x, y, star.size0Math.PI * 2);    ctx.fillStyle = star.color;    ctx.fill();
    star.angle += star.speed;  }
  ctx.restore();
// ❌ BUG:忘了动画递归调用// draw();}draw();</script>

页面显示是这样的。

它很快就找到了具体的原因和修复方案,并且最后还会告诉我,它做了哪些修复调整。

动画正常显示,星轨的动效就出现啦~

这些案例测下来,Qwen3-Coder 给我的最大感受是:它不仅会写,还写得对、写得巧。

不管是动态动画、3D 组件,还是交互调试、代码修复,它都能快速读懂指令,生成结构清晰、效果稳定的网页代码。更难得的是,它还能根据上下文自动补逻辑、补交互细节。

虽然还没有完整的 Agent 框架,但从“生成 → 执行 → 调整”的闭环来看,已经非常接近 Agent 式的工作流了。

 

03. 一些分享

 

试用完 Qwen3 的三款新模型,我脑子里冒出的第一个想法就是:“Qwen 不是追求更快,而是在追求更准。”

不是简单堆参数,也不是跑分炫技,而是真的在围绕真实任务、围绕用户需求做优化。

这几年,大模型赛道热闹非凡,参数越来越大,名字越来越多,更新频率越来越快,但做得快,不代表做得稳。

模型只是表层,背后是芯片、数据、工具链,以及整条从算法到产品的闭环。

要在复杂系统里持续稳定地产出高质量成果,真正走得远的,往往不是爆点最多的那一个,而是投入最深、打得最厚的那一个。

有些企业能偶尔打出一记好牌,但要维持稳定节奏、持续输出,靠的是长期投入和系统能力。

这几年,阿里在 AI 和云计算两条主线上的投入节奏一直没停下。模型更新频繁背后,不只是算法团队在发力,更是在基础设施、算力平台、工程体系等方面长期耕耘。

达摩院的研究,到通义大模型的演进,再到阿里云支撑起的底座能力,阿里确实是国内少数能打通从算法到算力、从模型到产品的 AI 全链路企业之一。

过去我们问,国产 AI 能不能追上 GPT?今天开始,我们可以问一句:为什么不是我们来定义行业标准?

原文链接:阿里刚刚发布最强推理模型Qwen3-2507,全面进化比肩Gemini 2.5 Pro

Intern-S1 – 上海AI Lab推出的科学多模态大模型

Intern-S1是什么

Intern-S1是上海人工智能实验室在世界人工智能大会上正式开源发布的科学多模态大模型,融合了语言和多模态性能,具备高水平的均衡发展能力,并富集多学科专业知识,在科学领域表现出色。Intern-S1首创“跨模态科学解析引擎”,能精准解读化学分子式、蛋白质结构、地震波信号等多种复杂科学模态数据,能预测化合物合成路径、判断化学反应可行性等。在多学科专业任务基准上超越了顶尖闭源模型,展现了卓越的科学推理与理解能力。Intern-S1通过动态Tokenizer和时序信号编码器实现了多种科学模态的深度融合,采用通专融合的科学数据合成方法,具备强大的通用推理能力和多项顶尖专业能力。

Intern-S1

Intern-S1的主要功能

  • 跨模态科学解析
    • 化学领域:能精准解读化学分子式,预测化合物的合成路径,判断化学反应的可行性。
    • 生物医学领域:可以解析蛋白质序列,辅助药物靶点发现与临床转化价值评估。
    • 地球科学领域:能识别地震波信号,分析地震波事件,为地震研究提供支持。
  • 语言与视觉融合:结合语言和视觉信息,进行复杂的多模态任务,如图文问答、科学现象解释等。
  • 科学数据处理:支持多种复杂科学模态数据的输入,包括材料科学中的光变曲线、天文学中的引力波信号等。
  • 科学问题解答:能基于输入的科学问题,结合其强大的知识库和推理能力,提供准确的解答。
  • 实验设计与优化:辅助科研人员设计实验方案,优化实验流程,提高科研效率。
  • 多智能体协同:支持多智能体系统,能与其他智能体协同工作,共同完成复杂的科研任务。
  • 自主学习与进化:具备一定的自主学习能力,能通过与环境的交互不断优化自身性能。
  • 数据处理与分析:提供数据处理和分析工具,帮助科研人员快速处理和分析科学数据。
  • 模型部署与应用:支持多种部署方式,包括本地部署和云端服务,方便科研人员在不同场景中使用。

Intern-S1的技术原理

  • 创新的多模态架构:Intern-S1通过新增动态Tokenizer和时序信号编码器,支持多种复杂科学模态数据,包括化学分子式、蛋白质序列、光变曲线、引力波信号和地震波形等。创新实现了对科学模态数据的深入理解与高效处理,例如其对化学分子式的压缩率相比DeepSeek-R1提升70%以上。
  • 大规模科学领域预训练:模型基于一个2350亿参数的MoE语言模型和一个60亿参数的视觉编码器构建,并经过5万亿token的多模态数据预训练,其中超过2.5万亿token来自科学领域。使模型在通用能力和专业科学领域均表现出色,例如在化学结构解读、蛋白质序列理解等专业任务中表现卓越。
  • 联合优化系统与算法:Intern-S1研发团队实现了大型多模态MoE模型在FP8精度下的高效稳定强化学习训练,相比近期公开的MoE模型,训练成本降低了10倍。在系统层面,采用训推分离的RL方案,通过自研推理引擎进行FP8高效率大规模异步推理;在算法层面,提出Mixture of Rewards混合奖励学习算法,融合多种奖励和反馈信号,提升训练效率和稳定性。
  • 通专融合的科学数据合成:为了应对科学领域高价值任务的专业化需求,Intern-S1采用了通专融合的科学数据合成方法。一方面利用海量通用科学数据拓展模型的知识面,另一方面通过专业模型生成具有高可读性的科学数据,并由领域定制的专业验证智能体进行质量控制。

Intern-S1的项目地址

  • 项目官网书生大模型
  • Github仓库:https://github.com/InternLM/Intern-S1
  • HuggingFace模型库:https://huggingface.co/internlm/Intern-S1-FP8

Intern-S1的应用场景

  • 图像与文本融合:Intern-S1可以处理图像和文本的融合任务,例如对图像中的内容进行描述、解释图像中的科学现象等。
  • 复杂科学模态数据处理:支持多种复杂科学模态数据的输入,包括材料科学中的光变曲线、天文学中的引力波信号等,实现这些数据的深度融合与高效处理。
  • 科研工具集成:Intern-S1可以集成到科研工具中,帮助科研人员快速处理和分析科学数据。
  • 科学问题解答:作为智能助手,Intern-S1能基于其强大的知识库和推理能力,解答各种科学问题。

哪些方法可以解决过拟合和欠拟合?一文看懂

引言:用一个生动的比喻理解模型训练

想象一下,你是一位准备期末考试的学生,而你的“模型”就是你的大脑。你的目标是不仅能在练习题(训练数据)上取得好成绩,更要在真正的期末考试(新数据)中表现出色。在这个过程中,你可能会遇到两种极端情况:

  • 欠拟合 (Underfitting) :这就像你考试前只粗略地翻了翻课本,连最基本的概念和公式都没掌握。结果,无论是在练习题上还是在期末考试中,你的分数都很低。你的大脑(模型)因为太过简单,没有学到数据中的精髓。
  • 过拟合 (Overfitting) :这相当于你把练习册上的每一道题,包括答案和解题步骤,甚至题目旁边的污渍都背得滚瓜烂熟。你在做练习题时能拿到满分,但一到期末考试,题目稍微变个样,你就束手无策了。你的大脑(模型)因为过于复杂,不仅学到了知识,还学到了练习题特有的“噪声”和无关细节,导致泛化能力极差 。

本文系统性地介绍这两种问题的成因,如何诊断它们,提供一系列实用且易于理解的解决方案,包括可以直接上手的代码示例,帮助您训练出既聪明又不会“死记硬背”的理想模型。

核心概念:偏差 (Bias) 与方差 (Variance) 的权衡

要深入理解欠拟合与过拟合,必须先了解两个核心概念:偏差和方差。这二者是导致模型犯错的两个主要根源。

  • 偏差 (Bias) :偏差衡量的是模型的预测结果与真实结果之间的系统性差距。高偏差意味着模型过于简单,无法捕捉数据中复杂的规律,直接导致了欠拟合 。就像一个只知道加法的学生,让他去做微积分,他给出的答案(预测)会系统性地偏离正确答案。
  • 方差 (Variance) :方差衡量的是模型在面对不同训练数据集时,预测结果的稳定性和波动性。高方差意味着模型过于复杂和敏感,会把训练数据中的随机噪声也当作规律来学习,直接导致了过拟合 。就像那个“死记硬背”的学生,换一套练习题,他的答案就会有天壤之别。

在机器学习中,偏差和方差往往是一对矛盾体,被称为 “偏差-方差权衡” (Bias-Variance Tradeoff)。一个强大的、复杂的模型(如深度神经网络)有能力学习到非常精细的模式,因此偏差较低,但也更容易学习到噪声,导致方差较高。相反,一个简单的模型(如线性回归)偏差较高,但对数据的变化不那么敏感,因此方差较低 。我们的终极目标,就是在偏差和方差之间找到一个最佳的平衡点,使得模型的总体误差最小 。

如何诊断问题:学会看“学习曲线”

在动手解决问题之前,我们需要一个诊断工具来判断模型到底“病”在哪儿。学习曲线 (Learning Curve) 就是一个非常直观的工具。通过绘制模型在训练集和验证集(一部分未参与训练的数据,用来模拟真实考试)上的性能(如损失或准确率)随训练过程(如训练轮次 epochs)的变化曲线,来揭示模型的学习状态 。

  • 欠拟合的诊断:如果训练损失和验证损失都非常高,并且最终趋于稳定在一个较高的水平,意味着模型欠拟合。两条曲线离得很近,说明模型连训练数据都学不好,更别提泛化了 。
  • 过拟合的诊断:如果训练损失持续下降,表现优异,而验证损失在下降到某个点后开始回升,这便是典型的过拟合信号。两条曲线之间出现了巨大的“鸿沟”,说明模型对训练数据“过分”熟悉,但在新数据上表现糟糕 。
  • 理想状态:训练损失和验证损失都稳步下降,并最终收敛到一个较低的水平,两条曲线靠得很近。这表明模型找到了一个很好的平衡点。

解决“学得太浅”:欠拟合(Underfitting)的策略

当模型出现欠拟合时,我们的主要目标是增强模型的学习能力。

策略一:增加模型复杂度

这是最直接的方法。如果一个简单的线性模型无法拟合非线性的数据,我们就需要一个更强大的模型 。

  • 对于传统机器学习:可以尝试使用更复杂的模型,比如从线性回归切换到多项式回归、支持向量机(使用高斯核)或梯度提升树。
  • 对于神经网络:可以增加网络的层数或每一层的神经元数量 。

代码实战:使用多项式特征提升模型复杂度

下面的Python代码使用scikit-learn库展示了如何通过增加多项式特征,将一个简单的线性模型变得更强大,从而解决欠拟合问题 。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.pipeline import make_pipeline
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

# 1. 创建一些非线性的样本数据,线性模型将难以拟合
np.random.seed(0)
X = np.random.rand(30, 1) * 10
y = np.sin(X).ravel() + np.random.randn(30) * 0.5
X_test = np.linspace(0, 10, 100)[:, np.newaxis]

# 2. 尝试使用一个简单的线性模型(1次多项式)来拟合,这会造成欠拟合
model_underfit = LinearRegression()
model_underfit.fit(X, y)

# 3. 使用一个更复杂的模型:4次多项式回归
# PolynomialFeatures(degree=4) 会将原始特征X转换为 [1, X, X^2, X^3, X^4]
# 这大大增加了模型的复杂度,使其能够捕捉非线性关系 [[124]][[126]]
model_goodfit = make_pipeline(PolynomialFeatures(degree=4), LinearRegression())
model_goodfit.fit(X, y)

# 4. 可视化结果
plt.figure(figsize=(10, 6))
plt.scatter(X, y, label=’样本数据’)
plt.plot(X_test, model_underfit.predict(X_test), label=’线性拟合 (欠拟合)’, color=’red’)
plt.plot(X_test, model_goodfit.predict(X_test), label=’4次多项式拟合 (良好拟合)’, color=’green’)
plt.title(‘通过增加模型复杂度解决欠拟合’)
plt.xlabel(‘特征’)
plt.ylabel(‘目标值’)
plt.legend()
plt.show()

策略二:添加更多有效特征(特征工程)

有时候模型表现不佳,不是因为它本身不够复杂,而是因为提供给它的“原材料”(特征)信息量不足。通过 特征工程 (Feature Engineering) ,我们可以创造出更有价值的新特征 。例如,在预测房价时,除了“房屋面积”,我们还可以从“建造年份”计算出“房屋年龄”,或者从地理坐标计算出“离市中心的距离”,这些新特征可能包含更强的预测信号。

策略三:减少正则化

正则化是用来防止过拟合的(下文会详述),但如果正则化的强度过大,就会矫枉过正,过度限制模型的学习能力,从而导致欠拟合。如果你发现模型欠拟合,并且你使用了正则化,可以尝试减小正则化参数。

解决“死记硬背”:过拟合(Overfitting)的策略

过拟合是机器学习实践中最常遇到的问题。幸运的是,我们有丰富的“武器库”来应对它。

策略一:增加数据量与数据增强

获取更多数据是解决过拟合最根本、最有效的方法 。数据越多,模型就越能从中学习到普适的规律,而不是局限于特定样本的噪声。

在现实中,获取新数据成本高昂。 数据增强 (Data Augmentation) 就成了一个高性价比的选择。通过对现有数据进行微小的、合理的变换来创造新的训练样本 。

  • 对于图像数据:可以进行随机旋转、裁剪、翻转、缩放、调整亮度和对比度等操作 。
  • 对于文本数据:可以进行同义词替换、随机插入或删除单词等。

通过数据增强,我们极大地丰富了训练数据的多样性,迫使模型学习到更具鲁棒性的特征。

策略二:正则化 (Regularization)

正则化的核心思想是,在模型的损失函数(衡量预测错误的指标)上增加一个“惩罚项”,这个惩罚项用来限制模型的复杂度 。模型在努力减小预测误差的同时,必须保持自身的“简洁”,从而避免过拟合。

最常见的两种正则化方法是L1和L2正则化:

  • L2 正则化 (Ridge Regression) :惩罚的是模型权重(参数)的平方和。它倾向于让所有权重都变得很小,但不完全为零。这使得模型的决策过程更“平滑”,不易受到单个数据点的剧烈影响 。
  • L1 正则化 (Lasso Regression) :惩罚的是模型权重的绝对值之和。它有一个有趣的特性,就是会倾向于将一些不那么重要的特征的权重直接压缩到零,从而实现自动的 特征选择 (Feature Selection) 。

代码实战:使用L2正则化减轻过拟合

下面的Python代码展示了在一个容易过拟合的场景中,L2正则化(在scikit-learn中通过Ridge类实现)如何有效地提升模型的泛化能力 。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# 1. 创建少量但复杂的样本数据,这极易导致过拟合
np.random.seed(0)
X = np.random.rand(10, 1) * 10
y = np.sin(X).ravel() + np.random.randn(10) * 0.2
X_test = np.linspace(0, 10, 100)[:, np.newaxis]

# 2. 使用一个非常复杂的模型(10次多项式)来拟合,这会造成过拟合
model_overfit = make_pipeline(PolynomialFeatures(degree=10), LinearRegression())
model_overfit.fit(X, y)

# 3. 在同样复杂的模型上应用L2正则化 (Ridge)
# alpha是正则化强度,alpha越大,惩罚越重 [[63]]
model_regularized = make_pipeline(PolynomialFeatures(degree=10), Ridge(alpha=1.0))
model_regularized.fit(X, y)

# 4. 可视化结果
plt.figure(figsize=(10, 6))
plt.scatter(X, y, label=’样本数据’)
plt.plot(X_test, model_overfit.predict(X_test), label=’10次多项式拟合 (过拟合)’, color=’red’)
plt.plot(X_test, model_regularized.predict(X_test), label=’带有L2正则化的拟合 (泛化更好)’, color=’green’)
plt.title(‘通过L2正则化解决过拟合’)
plt.xlabel(‘特征’)
plt.ylabel(‘目标值’)
plt.ylim(-2, 2)
plt.legend()
plt.show()

策略三:Dropout(随机失活)

Dropout是深度学习中一种非常强大且简单的正则化技术 。它的工作方式很像一个高效的团队合作:在模型训练的每一步,都随机地“冻结”(或“丢弃”)一部分神经元,让它们不参与这一次的计算 。

这带来了两个好处:

  • 强迫网络学习冗余表示:因为任何一个神经元都可能随时“缺席”,网络不能过度依赖某几个特定的神经元,而必须学习到更鲁棒、更分散的特征表示。
  • 集成效果:从效果上看,每一次Dropout都相当于在训练一个不同的、更小的子网络。整个训练过程就像是同时训练了成千上万个不同的网络,最后将它们的结果集成起来,这极大地增强了模型的泛化能力 。

策略四:早停法 (Early Stopping)

这是一种非常直观且有效的“刹车”机制。我们在训练模型的同时,会实时监控模型在验证集上的性能。一旦发现验证集上的损失不再下降,甚至开始上升时,我们就立即停止训练 。

这样做的好处是,我们可以在模型从“学到知识”转向“死记硬背”的那个临界点及时收手,从而获得一个泛化能力接近最佳的模型 。

代码实战:在Keras中使用Early Stopping

下面的代码展示了如何在深度学习框架Keras中轻松实现早停法。

# 假设我们已经导入了必要的库,并准备好了训练数据 (X_train, y_train) 和验证数据 (X_val, y_val)
# from keras.models import Sequential
# from keras.layers import Dense
# from keras.callbacks import EarlyStopping

# 1. 定义一个简单的神经网络模型
# model = Sequential()
# model.add(Dense(128, activation=’relu’, input_dim=…))
# model.add(Dense(64, activation=’relu’))
# model.add(Dense(1, activation=’sigmoid’))
# model.compile(optimizer=’adam’, loss=’binary_crossentropy’, metrics=[‘accuracy’])

# 2. 设置EarlyStopping回调 (Callback)
# 这是核心步骤
early_stopping_monitor = EarlyStopping(
monitor=’val_loss’, # 监控验证集的损失值
patience=10, # “耐心值”,如果验证损失连续10个轮次没有改善,就停止训练
verbose=1, # 打印出停止信息
restore_best_weights=True # 停止时,将模型权重恢复到验证损失最低的那个时刻 [[85]][[89]]
)

# 3. 在训练模型时,将回调函数传入
# history = model.fit(
# X_train, y_train,
# epochs=500, # 设置一个较大的epochs数,让早停法来决定何时停止
# validation_data=(X_val, y_val),
# callbacks=[early_stopping_monitor] # 应用早停法
# )

前沿视野:2023-2025年的研究趋势与展望

上述经典方法是解决欠拟合与过拟合的基石,截至2025年,学术界的研究仍在不断深入。

  • 理论深化:重新审视偏差-方差:传统的偏差-方差权衡理论呈现一个“U”型曲线。但近年在深度学习领域,研究者发现了有趣的“ 双下降 (Double Descent) ”现象,即当模型复杂度超过某个临界点后,测试误差反而会再次下降 。这表明,对于超参数化的大型模型,其泛化行为比我们想象的更为复杂,挑战了我们对过拟合的传统认知。
  • 更鲁棒的训练范式:研究人员正在探索超越传统正则化的新方法。例如,基于 信息瓶颈 (Information Bottleneck) 理论的方法试图在压缩输入信息的同时最大化保留与标签相关的信息 。差分隐私 (Differential Privacy) 训练则在保护数据隐私的同时,也天然地提供了一种正则化效果,增强了模型的泛化性 。
  • 自动化与元学习:未来的趋势之一是让模型“学会”如何防止过拟合。元学习 (Meta-Learning) 或 元特征学习 (Meta-Feature Learning) 的研究方向,旨在训练一个能根据不同任务自动调整其正则化策略或模型架构的模型,使整个过程更加智能化 。

对于初学者而言,掌握经典方法已经足够应对绝大多数场景。了解这些前沿趋势,可以帮助我们认识到这个领域依然充满活力,未来的工具箱中可能会有更多强大而智能的“武器”。

总结

处理欠拟合与过拟合是每位机器学习从业者的必修课。我们可以将整个诊断与解决流程总结为一个简单的决策指南:

  • 训练模型并观察学习曲线。
  • 如果训练集和验证集误差都很高 -> 欠拟合
    • 解决方案:尝试增加模型复杂度(如使用多项式特征、增加网络层数)、进行更精细的特征工程、或减小正则化强度。
  • 如果训练集误差很低,但验证集误差很高 -> 过拟合
    • 解决方案:首选增加数据量或使用数据增强。其次,尝试正则化(L1, L2, Dropout)、早停法,或适当简化模型结构。
  • 反复迭代,直到在验证集上获得满意的性能。模型训练是一个迭代的过程,需要不断调整参数、尝试新方法,直到达到最佳效果。