Skip to main content

Author: Chimy

如何用扣子空间生成网站,AI一句话生成网页

你有没有想过,只需要打一句话,几分钟就能拥有一个属于自己的网站?

今天发现扣子空间上线了一个特别酷炫的功能——网页生成。

一句话生成网页,几秒钟搞定,全流程不用写一行代码。

从电商网页到个人作品集,还有各种酷炫的动画效果,它都能秒懂你的需求。

还可以把我抽象的草图,变成一个可交互的网页。

玩了一天,我一共测试了几十个案例,从其中选出最有代表性的几个案例分享出来,大家可以作为参考来制作自己的网页。

 

01. 一手实测

 

根据参考图设计网页

  1. 提示词:请为我生成一个简洁、卡通风格的空调网页控制面板,包含以下元素:页面中央是一个「空调显示屏」,显示当前模式(制冷/制热)、温度(默认 26℃)、品牌名(@K姐研究社)
  2. 空调下方是一个小灯泡图标写一句提示语:「使用 Tip:为你的夏日带去清凉!」;下方排列五个控制按钮,依次是:制冷、开关、制热按钮;温度加按钮(△);温度减按钮(▽)
  3. 整体布局居中,按钮采用手绘风格圆形,鼠标悬停时有轻微动画;页面背景为白色
  4. 动态交互效果如下:点击「开关」按钮,切换空调开/关状态;;开机后,显示屏亮起,显示当前温度,并在空调下添加有风吹动的动态效果;播放轻微启动滴音效和持续的风声背景音;关机时,显示屏熄灭,所有风动效果和声音停止,并播放关机音效。
  5. 按键音效:每点击一次按钮(包括温度调节 / 制冷 / 制热),播放清脆按键音,制造物理遥控器的真实感。温度调节效果:△ / ▽按钮每点一次,显示屏上的温度数字升高或降低; 温度范围为 16℃~30℃;
  6. 调整时数字有滚动过渡动效,而不是瞬间跳变。 制冷 / 制热切换;点击「制冷」「制热」按钮,切换模式;切换后显示屏文字相应改变(蓝色表示制冷,红色表示制热);同时播放轻微切换音效

它几乎一比一还原了我的手绘草稿,识图能力挺厉害的。而且各个按钮都能顺畅使用,真感觉凭空生成了一个空调。夏日凉爽的风还是吹到了网页上~

辅助教学网页

  1. 提示词:请根据高中物理必修2的抛物线运动,总结不同题型,设计一个html语言的教学演示互动的动画
  2. 我能想到的必要的结果:手动设置初速度、角度、重力加速度、风力,动画演示过程中要留下抛物线痕迹(虚线)、可以在任何一个点暂停,出受力分析 请你再分析不同情况,完善需求,出这个html的动画演示

整个界面设计的非常简洁,可以把物理公式转化为可视化的图表,适合教学演示。

同样的,还可以应用在各种图和公式转换的场景中。

插画师个人网页

  1. 提示词:请为我创建一个明亮、插画感强、结构清晰的双页式中文作品集网页,用于展示插画师的风格与作品,支持浏览、筛选、联系功能,充分体现插画师的美学品味和视觉表达能力。 
  2. 整体视觉风格: 
  3. 背景:纯白为底,点缀浅粉、浅紫、浅蓝等柔和渐变色液体波纹,呈现俏皮科技感
  4. 元素装饰:模块间用圆角卡片式结构,卡片带有手绘风格边框,内容区可叠加透明水彩纹理
  5. 字体搭配:英文用“Fredoka One”,中文配“阿里妈妈方圆体”,体现趣味性和亲和力
  6. 动画动效:页面切换/滚动滑入时使用淡入 + 微浮动动效
  7. 页面结构:
  8. 1页:首页(引导页)
  9. 中心口号语(如:“用色彩讲故事,让灵感自由生长。”)放在页面中央
  10. 周边装饰:漂浮动态元素,如星星、跳动色点
  11. 底部按钮:一颗彩色星星形按钮“进入画廊”,点击后平滑过渡到第二页
  12. 2页:作品展示页(双栏结构)
  13. 左侧栏:关于我:配插图头像+简短介绍(适合展示风格、经历、接稿意向)
  14. 风格标签区:手绘风格按钮(可点击切换不同风格类别)
  15. 右侧栏:插画作品卡片网格展示,每张包含: 缩略图、作品标题、简短描述、发布时间
  16. Hover 时展示放大图+项目详情;进入视图时慢浮现动效
  17. 联系方式&交互细节:标签点击后重新排列作品,有顺滑动效反馈;“联系我”按钮采用彩色圆角胶囊风格,点击后展开联系方式卡片(微信 / 邮箱 / Behance 等)
  18. 个人信息填充:关于我:Hi,我是KK,一名自由插画师,现居成都。喜欢用色彩讲故事,擅长梦幻柔和的画风,常创作儿童绘本、女性主题插图与带点奇幻气息的视觉内容。曾为出版社、教育机构、品牌方提供定制插画与视觉企划,也热衷于个人原创创作,定期更新独立画册《慢漫》。
  19. 风格关键词:梦幻柔光;手绘质感;少女情绪;动物童话;情感叙事;
  20. 合作与联系:欢迎插画项目合作、品牌联名、授权使用等合作邀约。微信:KK-illustration;邮箱:KK.artworks@gmail.com;Behance:behance.net/KK-art;小红书/微博:@KK

提示词里的细节基本都实现了,整个网页的布局排版看上去也非常舒服。

页面切换的动态效果、Hover 时展示放大图这些交互细节都做的很不错。

这种网页形式不仅可以应用在插画集上,更可以应用在自己的任何作品集中,甚至作为电子简历都没问题~

活动邀请函

  1. 提示词:生成一个柔和温暖、充满童趣与亲密感的中文单页网页邀请函,用于宝宝满月宴的线上邀请展示。页面结构为两页式,第一屏为情感引导,第二屏展示时间地点与 RSVP 信息。整体风格以“奶油黄 + 天空蓝 + 手绘插画”为主,营造新生与欢喜氛围。
  2. 第一页网页描述:
  3. 背景与整体排版:背景为浅奶油黄纯色,顶
  4. 部和底部有大面积留白;页面顶部左右两角各漂浮一只淡蓝色/淡粉色气球(轻微上下浮动动效);页面右上角为小标题:“满月啦!From 小泡芙 👶”  顶部文字区:中间偏上的位置展示一段三行手写感软萌文字: 
  5. 第一行:一个小生命;第二行:在星星睡着的夜晚悄悄降临;第三行:也带来了全世界最柔软的喜悦
  6. 字体为手写体或娃娃字体,颜色为深棕或蓝灰色,字间距舒展;
  7. 字体大小不一,模拟宝宝涂鸦风,增加温度感;图片展示区: 正中央亲子合照,配柔光白边、轻描花边边框;
  8. 图片下方是一排动态云朵缓缓飘过,添加律动与童话氛围;
  9. 邀请提示区:居中插入一行艺术字:“我们邀请你来见见这个世界的新成员!” ;字体为活泼楷体,颜色为甜甜的草莓粉,文字下方有小爱心与奶瓶图标点缀;
  10. 页底动效与引导:底部用手写箭头 + “点击查看满月宴时间与地址” 引导进入第二页;下方滚动按钮轻轻上下浮动,保持童趣动感;
  11. 第二页内容:背景延续淡黄主色,加入几只兔子/小熊手绘元素依附在信息框旁;
  12. 信息区为半透明圆角白卡片,居中展示:
  13. 活动时间:2025818日 中午12:00
  14. 地点:上海·望湘园(梅龙镇店)三楼包间
  15. 联系方式:宝宝爸爸 139****8888
  16. 红包码 or RSVP 按钮:显示二维码 or 加入日历按钮
  17. 底部留言:“期待与你共同记录小泡芙的成长第一步。”

这绝对是人人都用得到的需求场景了~不管是结婚、孩子办满月酒,亦或是寿宴,文字通知感觉过于简单,自己做H5邀请又很费时间,现在只需要打打字就能搞定了~

根据Figma链接设计网页

导入Figma链接,可以直接让它生成一模一样的网页。

提示词:生成一个一模一样的网页

Figma原网页:

扣子空间生成的:

基本一模一样了~Figma上比较优秀的设计,都可以完美的复刻,而且不需要自己手动配置API、MCP,非常方便。

 

02. 探索Agent边界

 

使用起来非常简单,打开扣子空间首页,选择【网页】,输入一句描述,几分钟就能生成想要的网页。

解决了我这种小白不会写代码,想法又特别多的烦恼~关键是免费不限量

扣子空间作为字节旗下首款通用AI Agent,目前已经有了写作、PPT、播客生成功能,今天又上线了网页生成,将通用Agent的边界再次拓宽了一点点。

它能“听懂”你在说什么,也能看懂你画了什么,有产品经理的判断力,把“作品集”、“教学演示”这类抽象描述,精准对应到合适的组件和布局。

设计师思维,能直接构建结构化的页面草图,知道页面该怎么分区、每块放什么内容、两个页面之间如何跳转。

还有专业程序员的执行力,我们想改任何页面的组件,只要选中,它都能根据我们的要求立马调整。

说到底,它不是单一的AI能力,而是Agent的智能协作机制:一个懂语言、懂结构、还能动手干活的智能体。真正把“听得懂”“做得出”“能改好”这三件事串成了一条生产线。

 

03. 一些分享

 

扣子空间算是我用过的这么多网页生成工具里最顺手,出结果最符合心意的。

一句话生成网页,看起来像是个简单的功能,但实际上是一条全新生产力路径的雏形。

他背后不是模板拼接,而是一整套 Agent 架构在运作,简历生成、课件制作、系统搭建都是这一套逻辑。只要任务足够结构化、步骤足够清晰,就能被AI拆解,再一点点完成。能力一通,场景自然就铺开了

这才是技术的真正意义——不是多炫技,而是开始替你干活。生产力这件事,开始不再取决于你“会不会”,而是你“想不想”。

原文链接:刚刚,扣子空间可以一句话生成网页了

Intern-Discovery – 上海AI Lab推出的科学发现平台

Intern-Discovery是什么

Intern-Discovery是上海人工智能实验室推出的科学发现平台。平台通过模型共享、数据互通和设施互连,实现人机协同、数算一体、干湿结合的科研全流程一站式支撑。平台基于“书生”通专融合基础大模型,整合多领域专业智能体、海量科学数据和实验设备资源。平台支持从假设提出到实验验证的完整科研流程,助力科研人员高效完成跨学科知识发现与创新。目前,平台已开放试用申请,能推动科学智能生态共建,加速科学研究的规模化发展。

Intern-Discovery

Intern-Discovery的主要功能

  • 科学数据广场:汇聚核心科研领域的高质量专业数据资源,支持数据驱动的科学发现与交叉研究。
  • 科学研究助手:为跨学科科研者提供一站式端到端算法工具,实现AI+X领域全周期科研流程自动化,助力科研加速突破。
  • 科学智能体:集成面向科研任务的智能体工具,覆盖干湿实验协同、数据分析与科研助理等多类场景。
  • 科学模型开发:提供科学计算所需的高性能算力与建模工具,支持科研全过程中的模型训练与推理部署。

如何使用Intern-Discovery

  • 提交试用申请:填写试用申请表:https://aicarrier.feishu.cn/share/base/form/shrcngFNOyh39UtEILODs7CJHfh?sessionid=994664144。
  • 登录平台:收到审核通过通知后,用平台提供的账号信息登录Intern-Discovery。
  • 熟悉平台功能:浏览平台界面,查看用户手册和教程,快速掌握平台操作。
  • 使用平台功能
    • 模型共享:选择组合通用大模型和专业智能体,用低代码开发环境创建新智能体。
    • 数据互通:搜索使用平台上的专业数据集,进行数据预处理和建模分析。
    • 设施互连:通过SCP协议连接实验设备,远程调用并自动调度实验流程。

Intern-Discovery的应用场景

  • 蛋白质结构预测与设计:快速预测蛋白质结构并设计变体,显著缩短实验周期。
  • 药物研发:整合药物靶点数据和虚拟筛选工具,加速药物发现和优化,提高研发效率。
  • 新材料设计与合成:基于物理、化学和材料科学智能体,设计新型材料并预测性能,支持从理论到实验的全流程。
  • 气候变化研究:整合权威气象数据集,构建和验证气候模型,分析气候变化趋势。
  • 地质灾害预测:结合AI模型和GIS数据,开发地质灾害预测模型,提高预警的准确性和及时性。

Seed LiveInterpret 2.0 – 字节跳动Seed推出的同声传译模型

Seed LiveInterpret 2.0是什么

Seed LiveInterpret 2.0 是字节跳动Seed团队推出的端到端同声传译模型,支持中英双向翻译。具备接近真人水平的翻译准确率和极低的延迟,能实现“边听边说”的实时翻译。模型基于全双工语音生成理解框架,支持多人语音输入,可实时复刻说话人的音色,无需提前采集声音样本。在复杂场景下,翻译准确率超70%,单人演讲时超80%。平均语音到语音延迟仅2-3秒,较传统系统降低60%以上。Seed LiveInterpret 2.0 能智能平衡翻译质量和延迟,适应不同语音输入条件。模型已通过火山引擎对外开放。

Seed LiveInterpret 2.0

Seed LiveInterpret 2.0的主要功能

  • 高保真、超低延迟的语音到语音翻译:支持中英双向翻译,延迟低至2-3秒,接近专业人类同传水平。
  • 零样本声音复刻:能实时提取说话人的音色特征并复刻其声音,无需提前采集样本,提升交流的自然感。
  • 智能平衡翻译质量与延迟:根据语音清晰度和流畅度,自动调整输出节奏,确保翻译质量与实时性的最佳平衡。
  • 精准语境理解:在复杂场景(如多人对话、中英混杂)中,仍能实现高质量的理解和翻译,能纠正潜在错误。
  • 实时语音处理:支持多人语音输入,像人类同传译员一样“边听边说”,直接输出翻译语音。

Seed LiveInterpret 2.0的技术原理

  • 全双工语音理解与生成框架:Seed LiveInterpret 2.0 采用全双工端到端语音生成理解框架,能同时处理语音输入和生成翻译语音输出。使模型可以像人类同传译员一样,以极低的延迟“边听边说”,实时接收源语言语音输入并直接输出目标语言的翻译语音。
  • 多模态大语言模型(Multimodal LLM):模型基于多模态大语言模型(LLM),通过大规模预训练和多任务持续学习(Continual Training, CT),将音频编码器与语言模型结合。预训练数据涵盖音频到文本转录、文本到音频合成和纯文本处理任务,提升模型的语音理解和生成能力。
  • 监督微调(Supervised Fine-tuning, SFT):在多模态预训练的基础上,模型通过高质量人工标注数据进行监督微调。让模型学会更准确的翻译时机和翻译准确性,显著提升同传效果,特别是在复杂场景下的翻译准确率。
  • 强化学习(Reinforcement Learning, RL):为了进一步降低延迟并提升翻译质量,模型采用强化学习方法。通过构建过程奖励模型(单轮奖励)和结果奖励模型(多轮奖励),模型能在训练过程中动态调整翻译策略,平衡翻译质量和延迟。强化学习显著降低了模型的延迟,同时进一步提升了翻译质量。
  • 零样本声音复刻:Seed LiveInterpret 2.0 支持零样本声音复刻,即无需提前采集说话人的声音样本,仅通过实时对话即可提取说话人的音色特征,并用该音色特质实时“说出”外语。提升了交流的自然感和沉浸感。
  • 智能平衡翻译质量与延迟:模型能根据语音输入的清晰度、流畅度和复杂程度,自动调整翻译输出的节奏。在输入语音流畅清晰时,模型快速响应;在输入语音不流畅时,模型会等待合适的内容后再开始翻译,确保更高的翻译准确率。
  • 复杂场景下的精准理解:Seed LiveInterpret 2.0 依托团队在语音理解能力上的长期积累,能在多人对话、中英混杂、说话不清晰、语序混乱等复杂场景中实现高质量的理解和翻译。能纠正潜在错误,确保翻译的准确性和自然性。

Seed LiveInterpret 2.0的项目地址

  • 项目官网:https://seed.bytedance.com/zh/seed_liveinterpret
  • arXiv技术论文:https://arxiv.org/pdf/2507.17527

Seed LiveInterpret 2.0的应用场景

  • 国际会议:在国际会议中,Seed LiveInterpret 2.0 可以实时翻译演讲者的发言,帮助不同语言背景的参会者更好地理解会议内容。
  • 多语言直播:在多语言直播场景中,Seed LiveInterpret 2.0 能为观众提供实时翻译,打破语言障碍。
  • 远程教育:在远程教育领域,Seed LiveInterpret 2.0 可以帮助学生和教师跨越语言障碍进行互动。例如,在国际在线课程中,学生可以实时听到教师的讲解并参与讨论,教师也可以理解学生的提问并及时回应。
  • 跨国商务交流:在跨国商务会议和谈判中,Seed LiveInterpret 2.0 可以实时翻译双方的对话,确保沟通的准确性和效率。
  • 旅游与文化交流:在旅游和文化交流活动中,Seed LiveInterpret 2.0 可以帮助游客更好地与当地居民交流,理解文化背景和历史信息。

阿里《AI Agent开发新范式》合集(PDF文件)

阿里《AI应用(AI Agent)开发新范式》是关于AI应用开发的指导性文档。详细介绍AI Agent(智能代理)的开发模式、架构设计、核心组件及与大语言模型(LLM)的结合方式。文档强调AI Agent从传统工具向智能伙伴的进化,基于LLM的推理能力和工具调用实现复杂任务的自动化执行。文章探讨了企业级MCP服务的构建、AI应用的开发路径选择、及云原生技术在AI应用中的应用。《AI应用(AI Agent)开发新范式》提供函数计算、云原生API网关等技术在AI Agent开发中的最佳实践,帮助企业开发者更好地理解和应用AI技术,推动业务智能化转型。

AI Agent开发新范式

获取阿里《AI Agent开发新范式合集》PDF原文件,扫码关注回复: 20250722

AI 应用概述

  • 从“工具”到“智能伙伴”的进化:AI应用从被动执行命令的工具进化为能与环境交互、理解意图并自我改进的智能伙伴。
  • AI Agent + LLM的双引擎模式:LLM作为“大脑”负责思考,AI Agent作为“手脚”负责执行,二者协同工作。
  • 企业能力的核心MCP服务:MCP服务规范了多者协同关系,解决了构建AI Agent技能系统的痛点,实现快速对接。
  • 构建AI应用的两种路径:全新开发vs.存量改造:全新开发适合颠覆性创新,存量改造适合在现有业务中嵌入AI能力。

AI Agent开发新范式

AI Agent 概述

  • 什么是AI Agent:AI Agent 是智能系统,通过大语言模型推理、执行行动并不断自省纠错,能解决复杂问题。
  • AI应用的核心组件:AI Agent由LLM推理、工具执行和自省循环构成,能解决复杂问题。
  • AI Agent的推理模式ReAct模式:AI Agent通过分析、推理、行动、观察和自省完成任务。
  • AI Agent的构建模式与AI Agent类型:构建模式包括编码式和低代码式,类型包括辅助基模、独立产品和辅助现存业务。
  • 构建AI Agent的核心问题:如何构建企业级MCP管理体系和选择合适的运行时是关键。

AI Agent开发新范式

函数计算FC概述

  • 阿里云函数计算FC是什么:函数计算是事件驱动的全托管计算服务,用户无需管理基础设施,按需使用资源。
  • 函数计算FC是云产品的连接器:通过事件驱动模型,函数计算可以连接多种云产品,实现自动化流程。
  • 函数计算FC触发器类型:支持双向集成、单向集成和云产品事件触发器,满足不同业务需求。
  • 函数计算FC是云产品之间的粘合剂:提供多种云产品的原生触发器,帮助用户快速构建联动流程。
  • 客户案例:展示了函数计算在不同业务场景中的应用案例。
  • 函数计算FC应用场景:介绍了函数计算在HTTP应用、内容处理、大数据、游戏、AI等场景中的具体应用。

AI Agent开发新范式

函数计算FC作为AI Agent运行时

  • 函数计算FC支撑AI Agent方案拓扑图:展示了函数计算作为AI Agent运行时的整体架构。
  • 函数计算作为计算资源运行AI Agent–编码式:函数计算提供高弹性、强安全的运行环境,支持多种语言和框架。
  • 两种类型:运行在函数计算上的AI Agent包括用户自定义和使用框架开发的两种类型。
  • 优势和特点:函数计算支持触发器机制、按请求扩缩、动态挂载存储等,提升资源利用率和灵活性。
  • 函数计算构建Chat Al Agent:解决了执行环境交互、依赖包不确定性和文件信息路径不确定性等问题。
  • 函数计算FC + CloudFlow可视化构建AI Agent:通过可视化工具快速构建AI Agent,支持多种调度方案。
  • AIStudio控制台:提供了可视化构建AI Agent的平台,支持项目管理、流程编排等功能。

AI Agent开发新范式

函数计算FC作为AI Agent Sandbox

  • AI Agent的Sandbox场景:介绍了Code Sandbox、Browser Use Sandbox、RL Sandbox和Sim Sandbox等不同场景。
  • Code Sandbox:用于协助训练基模的Coding能力,支持实时运行展示用户编码类任务。
  • Code Sandbox on FC优势:支持多种编程语言运行环境,提供硬件指标和多线程执行能力。
  • Browser Use Sandbox:用于联网搜索和辅助数据采集,支持Session/Cookie亲和性和基于内存扩容。
  • Browser Use Sandbox on FC优势:支持会话亲和性,优化冷启动,解决时延问题。
  • RL Sandbox:用于对LLM或AI Agent算法进行定向强化学习。
  • RL Sandbox on FC优势:提供安全性、高效率与可复现性,支持GPU计算资源。
  • Sim Sandbox:用于具身智能仿真训练,支持多种GPU卡型。
  • Sim Sandbox on FC优势:支持Isaac Sim/Isaac Lab环境,具备异步任务管理和仿真训练能力。

AI Agent开发新范式

云原生API网关&AI网关介绍

  • 云原生API网关简介:云原生API网关集成了多种网关功能,支持统一东西南北向流量管理。
  • 云原生API网关在应用架构的核心作用–链接生态:作为流量网关和API网关,连接不同应用和服务。
  • 云原生API网关–流量网关:提供安全防护、流量防护、服务治理等功能,保障流量稳定。
  • 云原生API网关–API网关:支持API First开发模式,提供API防护、货币化等功能。
  • 云原生API网关–内部实践:在阿里集团内部的实践案例,展示了其稳定性和性能。

AI Agent开发新范式

AI网关代理LLM最佳实践

  • LLM生产项目中客户必然遇到的问题:客户在LLM生产项目中面临硬件成本高、模型幻觉、单一模型风险、合规审计、性能瓶颈及API Key配额限制等多方面挑战。
  • AI网关代理LLMs方案:通过AI网关实现多模型路由、切换、限流降级等功能。
  • 云原生API网关代理LLMs方案的核心收益:解决了成本平衡、模型幻觉、多模型切换等问题。
  • AI网关代理LLM最佳实践:提供了消费者管理、模型服务高可用、闭源模型QPS/Token限制等问题的解决方案。

AI Agent开发新范式

MCP概述

  • MCP是什么:MCP是一种标准化协议,用于连接LLM和外部数据源及工具。
  • 标准化:MCP通过标准化LLM访问外部数据的方式,简化了不同数据源和工具的集成。
  • 模块化:MCP促进了模块化设计,允许独立开发和维护不同组件。
  • 可扩展性:MCP使得添加新数据源或工具变得简单,无需大幅修改现有系统。
  • 安全性:MCP提供结构化的访问模式,确保数据交互安全且受控。
  • MCP协议的运作机制:描述了用户输入、LLM推理、Client/Agent调用MCP Server等过程。
  • MCP和Function Calling之间的区别:MCP是通用协议层标准,Function Calling是大模型厂商提供的专有能力。
  • MCP的本质和挑战:MCP的本质是系统提示词和协同关系的结合,面临系统提示词管理、安全性、现存业务转换等挑战。

AI Agent开发新范式

AI网关代理MCP服务最佳实践

  • AI网关–MCP功能架构:介绍了AI网关的MCP功能架构,包括内置MCP Server、三方服务、企业服务等。
  • 传统业务0代码改造转换为MCP Server–场景一:通过AI网关将传统业务0代码改造为MCP Server,实现快速协议转换。
  • 解决客户痛点:解决了客户在开发AI应用或进行现存业务AI增强时面临的痛点。
  • 快速实现协议转换:通过网关将Nacos中注册的传统服务转换为MCP服务,支持多种语言和服务。
  • MCP Registry定义及特性:介绍了MCP Registry的定义和特性,包括RESTful API、健康检查、环境配置支持等。
  • MSE Nacos作为MCP Registry的增量价值:MSE Nacos提供了额外功能,如安全管理、多种发布方式、多版本管理等。
  • 传统业务0代码改造转换为MCP Server–场景二:通过MSE Nacos动态发现和注册服务,实现传统业务的0代码改造。
  • 将SSE转换为Streamable HTTP:将MCP范式的SSE协议转换为更灵活的Streamable HTTP协议。
  • MCP模式下的身份认证和权限管控:通过插件机制提供多种认证方式,灵活管理和控制Client的身份认证和MCP服务使用权限。
  • 插件机制灵活设置MCP服务代理策略:通过插件机制支持灵活设置MCP服务代理策略,如并发控制、流量控制等。

AI Agent开发新范式

MSE Nacos MCP Registry最佳实践

  • Nacos开源社区发展情况:Nacos自2018年开源以来,收获大量关注和使用,成为国内首选的服务注册与配置中心,广泛应用于众多头部企业。
  • MSE Nacos适用场景:MSE Nacos适用于服务管理、流量调度、白名单、应用容灾等多种场景,支持微服务、高可用、前端生态、数据库领域及AI领域中的MCP Server统一管控。
  • AI配置实践(Nacos:动态更新提示词数据):通过MSE Nacos实现AI应用中的提示词数据动态更新,支持多种AI框架和语言,满足不同业务需求。
  • MSE Nacos 3.0 – MCP Register:MSE Nacos 3.0提供企业级MCP Registry,支持服务注册、发现、健康检查、安全管控等功能,结合云原生API网关实现MCP协议转换。
  • MSE Nacos 3.0构建企业级MCP Registry:MSE Nacos 3.0作为官方MCP Registry的超集,提供私有化部署、高级检索、安全管控等增强功能,解决多MCP服务检索和token消耗问题。
  • MCP:安全性保障(规划中):规划中将提供MCP市场代理、MCP交互、MCP Server安全性保障,确保MCP生态安全。
  • MCP效果验证体系–规划中:规划中将构建MCP Server效果验证体系,实现Agent对MCP工具的精准触发验证,提供效果展示视图和动态调整建议。

AI Agent开发新范式

基于函数计算FC构建Agent的最佳实践

  • MCP Server on FC复用高性能能力:函数计算复用了云原生API网关的高性能能力,支持高并发和低延迟。
  • MCP Server on FC可观测体系:通过链路追踪、日志服务等实现函数计算的可观测性。
  • Alibaba Agent最佳实践–百炼集成:展示了如何将百炼集成到函数计算中,实现模型调用和任务执行。
  • Alibaba Agent最佳实践–库存盘点智能体:介绍了库存盘点智能体的架构和工作流程。
  • Alibaba Agent最佳实践–视频内容识别及问答智能体:展示了视频内容识别及问答智能体的架构和功能。
  • AWS Agent最佳实践
    • AWS Bedrock Agent将复杂任务拆解为子任务,并使用Lambda作为Function Calling外部工具分步解决问题:AWS Bedrock Agent通过Lambda实现复杂任务的分步解决。
    • AWS通过Bedrock + Lambda实现Agent租户隔离,Lambda作为Agent的BFF和Function Calling:AWS通过Bedrock和Lambda实现Agent的租户隔离和后端服务功能。
  • Azure Agent最佳实践
    • Azure通过OpenAI + Functions提供LLM Application Function Calling的最佳实践:Azure通过OpenAI和Functions实现LLM Application的Function Calling。
    • Azure通过Durable Functions编排实现Multi-Agent,基于Functions构建Agent/Function Calling最佳实践:Azure通过Durable Functions实现Multi-Agent编排和Agent构建。

AI Agent开发新范式

AI应用可观测体系

  • AI应用的挑战:AI应用面临基础资源、模型推理和成本等方面的挑战。
  • 一个典型的AI原生应用架构及可观测诉求:介绍了AI原生应用架构及各层的可观测诉求。
  • AI全栈统一监控:通过Prometheus构建AI全栈监控大盘,实现模型性能、Token成本和GPU资源的监控。
  • 模型调用全链路诊断:基于OpenTelemetry Trace实现模型调用的全链路追踪。
  • 模型生成结果评估:构建统一日志分析平台,对模型调用日志进行二次评估分析。
  • Tracing:模型调用全链路诊断:通过Trace记录模型调用的详细信息,实现端到端全链路追踪。
  • 面向LLM应用的领域化Trace语义:定义领域化的操作语义,标准化存储和可视化关键内容。
  • LLM应用可观测需要关注哪些指标?:列举了需要关注的指标,如空响应次数、超时次数、TTFT等。
  • 基于OpenTelemetry的高质量数据采集:通过OpenTelemetry Python Agent实现高质量数据采集。
  • 拥抱开源,面向大模型应用量身打造:通过开源工具和自研探针实现大模型应用的可观测性。
  • Python探针无侵入埋点的实现原理:介绍了Python探针无侵入埋点的实现原理。
  • 面向流式场景的LLM Span分段采集与合并:针对流式数据实现分段采集和合并,平衡性能和数据分析需求。
  • Dify可观测最佳实践:提供了Dify生产实践的建议和可观测性对比。
  • vLLM/SGLang推理性能可观测实战:通过Trace和指标关联排查推理性能问题。
  • 基于LLM实现模型生成结果自动化评估:通过LLM对模型生成结果进行自动化评估。
  • 模型生成结果评估:通过新的模型对原有模型的Prompt/Response进行二次评估,提升生成效果。

AI Agent开发新范式

AI应用开发新范式对企业的影响

  • 高德业务投放平台Serverless实践(API First架构):展示高德业务投放平台的Serverless实践和API First架构的优势。
  • MCP Server First:介绍了MCP Server First的架构和低代码模式构建业务流程的方法。

云原生API网关底座核心优势附录

  • 云原生API网关–高性能:云原生API网关在性能上优于Nginx Ingress,支持硬件加速和深度调优。
  • 云原生API网关–高可用(SLA:99.999%):云原生API网关在研发、运行和变更阶段提供高可用保障。
  • 云原生API网关–安全能力:云原生API网关提供消费者鉴权、mTLS双向认证、登录认证和流量防护等安全功能。
  • 云原生API网关–插件机制(灵活扩展):通过插件机制实现灵活扩展,支持多语言和在线IDE。

AI Agent开发新范式

流量网关最佳实践附录

  • 统一接入层:统一接入层解决了网络不通、业务边缘部署、协议不同等问题。
  • K8s Ingress:云原生API网关支持K8s Ingress,实现服务自动同步和多集群复用。
  • 全链路灰度:通过云原生API网关实现全链路灰度发布。
  • 同城多活:同城多活方案通过DNS和MSE治理实现多可用区部署和故障转移。

获取阿里《AI Agent开发新范式合集》PDF原文件,扫码关注回复: 20250722

《WAIC世界人工智能大会展商名录》(PDF文件)

《WAIC世界人工智能大会展商名录》详细列出即将参加2025世界人工智能大会的800余家领先企业。名录涵盖全球知名的科技巨头,如AWS、Google、百度、阿里等,包括众多新兴的创新企业。它们将带来超过3000款亮点科技展品,展示人工智能领域的前沿技术和应用。名录为参展者和观众提供清晰的指引,帮助用户快速找到心仪的展商位置,提前规划参观路线。以下是部分展馆的展商信息,按展馆和展位号顺序整理。

WAIC世界人工智能大会展商名录

获取《WAIC世界人工智能大会展商名录》PDF原文件,扫码关注回复: 20250723

部分重点展商列表

世博展览馆 Shanghai World Expo Exhibition And Convention Center

H1 展馆重点展商
  • H1-A301 华为技术有限公司 | Huawei Technologies Co., Ltd.
  • H1-A815 中兴通讯股份有限公司 | ZTE Corporation
  • H1-A821 摩尔线程智能科技(北京)股份有限公司 | Moore Threads Technology Co. Ltd.
  • H1-B101 阿里巴巴(中国)有限公司 | Alibaba Group
  • H1-B111 百度 | Baidu
  • H1-B119 亚马逊云科技 | Amazon Web Services
  • H1-B801 商汤科技 | SenseTime
  • H1-C117 谷歌信息技术(中国)有限公司 | Google
H2 展馆重点展商
  • H2-B101 腾讯 | Tencent
  • H2-B108 国家电网有限公司 | State Grid Corporation of China
  • H2-B116 中国南方电网有限责任公司 | China Southern Power Grid Co., Ltd.
  • H2-C516 特斯拉 | TESLA
  • H2-C709 理想汽车 | Li Auto
  • H2-C801 宸联科技(上海)有限公司 | Shanghai Neousys Technology Co., Ltd.
H3 展馆重点展商
  • H3-A101 深圳市诺仕机器人有限公司 | Shenzhen Nous Robot Co., Ltd.
  • H3-A111 上海仙工智能科技股份有限公司 | Shanghai Seer Intelligent Technology Co., Ltd.
  • H3-A621 上海意优智控科技有限公司 | Shanghai Eyoubot Technology Co., Ltd.
  • H3-B601 北京银河通用机器人有限公司 | Beijing Galbot Co., Ltd.
  • H3-C101 北京人形机器人创新中心有限公司 | Beijing Innovation Center of Humanoid Robotics Co., Ltd.
  • H3-C116 北京星动纪元科技有限公司 | ROBOTERA
H4展馆重点展商
  • H4-FT003 中移互联网有限公司 | China Mobile Internet Co., Ltd.
  • H4-FT005 上海市宝山区杨行镇人民政府 | People’s Government of Yanghang Town, Baoshan District
  • H4-FT111 北京玻色量子科技有限公司 | Beijing QBoson Quantum Technology Co., Ltd.
  • H4-FT201 上海天鹜科技有限公司 | Shanghai Matwings Technology Co., Ltd.
  • H4-FT303 北京开放传神科技有限公司 | OpenCSG

世博中心 Shanghai Expo Center

  • L008 亿欧 Equalocean
  • L024 上海人工智能研究院 Shanghai Artificial Intelligence Research Institute
  • L035 上海财经大学 Shanghai University of Finance and Economics
  • R009 数据堂(北京)科技股份有限公司 DATATANG (BEIJING) TECHNOLOGY CO., LTD.

展区分布亮点

  • H1 馆
    • 半导体与芯片:上海兆芯集成电路、沐曦集成电路、摩尔线程
    • 云计算与大数据:华为、阿里云、百度智能云
    • 金融科技:蚂蚁集团、交通银行、汇付天下
  • H2 馆
    • 智能制造:特斯拉、西门子、中控技术
    • 智慧交通:吉利汽车、蘑菇车联、斑马网络
  • H3 馆
    • 机器人技术:节卡机器人、傅利叶智能、非夕机器人
    • AI 应用:商汤科技、知乎、网易有道
  • H4 馆
    • 初创企业与创新项目:涵盖量子计算、生物科技、AIGC 等领域

获取《WAIC世界人工智能大会展商名录》PDF原文件,扫码关注回复: 20250723

OxyGent – 京东零售开源的多智能体协作框架

OxyGent是什么

OxyGent是京东零售Oxygen团队开源的多智能体协作框架,能帮助开发者高效组装多智能体系统。OxyGent将工具、模型和智能体抽象为可插拔的模块(Oxy),支持像搭积木一样灵活组合,具备极致可扩展性和全链路决策追溯能力。基于团队协作式界面,开发者能像与真实队友交流一样分配任务,智能体自动响应并反馈结果。OxyGent支持智能体认知可视化、性能剖析和持续进化,助力开发者快速构建、部署和优化多智能体系统。

OxyGent

OxyGent的主要功能

  • 团队协作式界面:基于类似团队聊天的界面,开发者能像与队友交流一样分配任务,智能体自动响应并反馈结果,实现高效协作。
  • 智能体认知可视化:从高级策略到原子操作,全面可视化智能体的推理路径,支持审计和追溯,确保决策透明化。
  • 多智能体系统性能剖析:内置生产级时间追踪功能,实时可视化智能体的时间消耗,帮助开发者快速定位性能瓶颈。
  • 探索智能体的多种可能性:支持重放决策分支、重采样替代推理路径,及大规模压力测试,探索智能体的多种可能性。
  • 持续进化与自我优化:内置评估引擎,支持智能体通过知识反馈机制实现持续自我进化,优化决策过程。

OxyGent的技术原理

  • 模块化架构:OxyGent将工具、模型和智能体抽象为可插拔的模块(Oxy),支持像搭积木一样灵活组合。每个模块能独立开发和测试,支持热插拔和跨场景复用。
  • 动态规划范式:智能体能智能分解任务、协商解法、实时适应变化。基于动态规划范式,智能体根据任务需求自动调整行为,实现高效协作。
  • 全链路决策追溯:每一步决策都能自动生成可追溯的决策图,类似Git的版本控制。支持审计和回溯,确保智能体的行为透明化。
  • 分布式架构:底层用弹性架构,支持任意智能体拓扑。基于自动依赖映射与可视化调试,优化分布式系统的性能。

OxyGent的项目地址

  • 项目官网:https://oxygent.jd.com/
  • GitHub仓库:https://github.com/jd-opensource/OxyGent

OxyGent的应用场景

  • 自动化办公:基于智能体分配和管理任务,实现文档处理、邮件分类、日程安排等自动化办公流程,提升工作效率。
  • 文档处理:智能体能自动生成文档内容、协助编辑,或进行文档审核与校对,确保文档质量。
  • 代码生成与优化:智能体根据需求生成代码片段、完整程序,或分析代码性能并提供优化建议,提高开发效率。
  • 智能客服:智能体自动回答客户问题,提供即时支持,或多个智能体协同处理复杂问题,提升客户满意度。
  • 数据分析与决策支持:智能体自动收集、分析数据,提供决策支持,或基于历史数据进行预测和建模。

14个免费AI播客生成器和软件,AI生成双人对话播客音频

在当今数字化时代,播客作为一种极具魅力的内容传播形式,独特的音频魅力,为听众带来了一场场精彩绝伦的听觉盛宴。对于许多创作者而言,制作播客往往面临着高昂的成本和复杂的技术门槛。本文将介绍14个免费的AI播客生成器,AI播客生成软件能帮助创作者节省大量时间和精力,能以惊人的创造力和精准度,为听众打造出高质量、个性化的播客内容。

豆包AI博客

豆包AI播客是字节跳动旗下豆包推出的创新功能。用户只需上传PDF文件或添加网页链接,AI能自动生成一段自然流畅的双人对话播客内容。工具支持多种输入方式,包括文档转播客、链接转播客和拍照转播客。语音效果高度拟人,对话流畅自然,停顿、附和等细节处理精准,几乎听不出是AI生成。用户可自由选择主播音色及对话模式,自定义角色身份。生成的AI播客目前只可以在线听,不支持下载。

豆包AI播客

🚀产品亮点

  • 双人对话模式:区别于单人口播,通过模拟真实对话场景,将书面内容转化为情景剧式播报。
  • 语境理解能力:自动识别文章重点,在对话中穿插衔接语,如“这个数据很关键”“这里有个矛盾点”。
  • 口语化转换技术:将专业术语转化为通俗口语,如“机器人动力学模型”转化为“机器人怎么动起来的原理”,保留专业内核。
  • 语音效果自然:模拟真人播客的口语习惯,停顿、语气和情感表达自然,几乎没有明显的AI特征。
  • 细节处理精准:停顿、附和等细节恰到好处,去除机器感。
  • 快速生成:利用先进的缓存技术,用户在上传内容后能够几乎瞬时地收听到生成的音频。
  • 操作简便:用户无需关注复杂的设置和选择,只需简单上传文件。
  • 多输入方式:支持将PDF文件、网页链接等文本内容转换为音频播客。
  • 多音色可选:提供男女对话模式,男声负责内容讲述,女声把控节奏。
  • 内容准确性高:幻觉率极低,生成的内容准确性高,确保用户在信息传递中的有效性。

🧍适用人群

  • 内容创作者:帮助快速生成播客内容,提升创作效率。
  • 知识分享者:将专业知识转化为通俗易懂的播客,便于传播。
  • 自媒体人:丰富内容形式,吸引更多听众。
  • 学生群体:将学习资料转化为播客,方便学习。
  • 职场人士:制作行业分析、职场技巧等播客,提升个人影响力。
  • 普通用户:轻松创建个人播客,分享生活趣事或兴趣爱好。

😍推荐指数:🌟🌟🌟🌟🌟

扣子AI播客

扣子AI播客是扣子空间推出的强大的播客内容创作工具。能将文字内容一键转换为几乎与真人无异的播客音频。用户只需将文本、PDF、网页链接等素材上传或发送给扣子空间,输入简单的指令,如“根据____,生成____分钟的双人播客”,即可生成播客。生成的播客音频音色自然,能模拟真人的语气、停顿和情感表达,支持多人对话和实时打断。能自动生成可视化的播客页面,用户可以在页面上边听音频边看字幕。

扣子播客

🚀产品亮点

  • 操作便捷:仅需输入文本、PDF、网页链接等内容,再给出简单指令,如“生成播客”,可快速生成播客音频,处理1000字文章约需2 – 3分钟。
  • 音色自然:全面升级播客音色,加入丰富情感波动和丝滑语气转换,拟人程度高,听感上高度拟人。
  • 对话生动:模拟真人专业播客口语习惯,支持双人对谈,交叉附和,配合默契,听觉效果好。
  • 内容专业:输出播客以漫谈开场,自然切入话题,吸引听众注意力,更懂得“留白艺术”,实现听众长效留存。
  • 功能丰富:支持实时搜索热点话题生成播客解读,可从视频、音频或一句话指令中自动构建播客内容。

🧍适用人群

  • 自媒体创作者:能快速制作播客内容,提升内容创作效率,节省时间和精力,专注于内容策划和创意。
  • 企业与品牌:用于制作品牌宣传、产品介绍、行业动态等播客,增强品牌影响力,拓展营销渠道。
  • 教育工作者:制作教学播客,丰富教学形式,方便学生随时随地学习,提升教学效果。
  • 研究人员:分享研究成果、学术观点,以播客形式传播知识,扩大学术影响力。
  • 个人品牌建设者:打造个人播客,分享专业知识、生活经验、兴趣爱好等,提升个人品牌知名度。

😍推荐指数:🌟🌟🌟🌟🌟

ima AI播客

ima AI播客是腾讯旗下AI知识管理工具ima.copilot推出的AI播客功能,能帮助用户更轻松地消化长篇文章或报告。用户只需将文档上传至ima,系统会自动生成一段双人对话式播客,以更自然、互动的方式讲解内容。功能基于“混元大模型”,能围绕原文进行多角度讨论,确保重点不漏,提供个性化的开场语和配乐。ima AI播客支持本地文件、网页URL、主题描述三种输入方式,生成的播客音频具有自然停顿、感叹词,甚至模拟卡顿等人性化细节。

ima AI播客

🚀产品亮点

  • 多输入方式:支持本地文件、网页URL、主题描述三种输入方式,满足不同用户需求。
  • 双人对话形式:以双人对话式播客呈现,增加互动性和趣味性。
  • 多角度讨论:基于“混元大模型”,围绕原文进行多角度讨论,确保重点不漏。
  • 个性化定制:提供个性化的开场语和配乐,满足用户个性化需求。
  • 人性化细节:生成的播客音频具有自然停顿、感叹词,甚至模拟卡顿等细节,使内容更自然。

🧍适用人群

  • 职场人士:可将工作中的长篇报告、行业分析等转化为播客,在通勤或休息时听取。
  • 学生群体:学生可以将学习资料、论文等上传,通过播客形式更好地理解和记忆知识。
  • 内容创作者:能将创作的长文、故事等快速转化为音频内容,拓展内容传播形式,吸引更多听众。
  • 知识爱好者:对于喜欢阅读但时间碎片化的知识爱好者,ima的AI播客可以让在任何时间、任何地点轻松获取知识。

😍推荐指数:🌟🌟🌟🌟🌟

ListenHub

ListenHub 是北京火星电波科技推出的 AI 播客生成平台。能将文本、链接或文件快速转化为自然、真实的人声播客。用户可以通过输入文字、粘贴网页链接、上传文件(如 PDF、Word 文档)或长文本内容等多种方式生成播客。平台支持多语言(目前支持中文和英文)、多种音色选择(如专业的播音腔、助眠的 ASMR 等),提供音频编辑功能,如剪辑、拼接、添加背景音乐等。最新产品 FlowSpeech 是全球首个能将书面语转为口语的 TTS(文字转语音)工具,通过上下文感知和智能剪裁技术,能将论文、新闻报道等书面内容转化为生动活泼的口语表达。

ListenHub

🚀产品亮点

  • 多语言与音色选择 :支持中文和英文两种语言,满足不同用户群体的需求;提供多种音色,包括专业的播音腔、助眠的 ASMR 等,用户可以根据自己的喜好和播客内容的风格进行选择,让播客更具个性和吸引力。
  • 输入方式多样 :用户可以通过输入文字、粘贴网页链接、上传文件(如 PDF、Word 文档)或长文本内容等多种方式来生成播客,方便用户将各种形式的内容快速转化为音频形式,提高了内容创作的灵活性和效率。
  • 音频编辑功能强大 :具备音频剪辑、拼接、添加背景音乐等编辑功能,用户可以根据自己的需求对生成的播客进行进一步的优化和个性化处理,使播客的制作更加专业和精致。
  • 口语化表达 :最新产品 FlowSpeech 能将书面语转为口语,通过上下文感知和智能剪裁技术,让播客内容更加生动活泼、自然流畅,避免了传统文字转语音工具生成的语音内容生硬、机械的问题,提升了听众的收听体验。

🧍适用人群

  • 内容创作者 :包括自媒体人、博主等,可以借助 ListenHub 快速将文字内容转化为音频播客,丰富内容呈现形式,拓展传播渠道,吸引更多听众。
  • 企业与品牌 :可用于制作品牌宣传、产品介绍、行业动态解读等音频内容,提升品牌传播力和影响力,增强与客户的互动。
  • 教育工作者 :能够将教学课件、学术论文等转化为音频,方便学生在不同场景下学习,提高教学资源的可及性和灵活性。
  • 知识付费从业者 :如在线课程讲师、专家等,可用于制作知识付费音频课程,满足用户碎片化学习的需求,提升知识传播效率。
  • 个人用户 :比如喜欢分享生活感悟、读书心得等的普通人,可以用 ListenHub 制作个人播客,记录生活、表达观点,实现自我表达和社交分享。

😍推荐指数:🌟🌟🌟🌟🌟

GenFM

GenFM 是 ElevenLabs 推出的 AI 播客创作工具。能将用户上传的文本、PDF、电子书、YouTube 视频等内容转化为由两位 AI 联合主持的播客。GenFM 支持 32 种语言,生成的播客会加入人类特有的停顿和填充词,对话更自然。工具操作简单,用户无需专业录音设备和技能,即可创建个性化播客。已集成至 Projects 长篇音频处理平台和 ElevenReader 移动端应用。

GenFM

🚀产品亮点

  • 内容导入丰富:支持多种输入格式,如PDF、文章、电子书、新闻简报、YouTube视频等。
  • AI联合主持:每个播客配备两个独特的AI联合主持人,能根据内容匹配并自然对话。
  • 多语言支持:支持32种语言,满足全球用户需求。
  • 自然对话元素:生成的播客会加入人类特有的停顿和填充词,使对话更自然。
  • 操作简单便捷:界面友好,类似“Google Docs”,无需专业录音设备和技能,创作者可轻松创建播客。

🧍适用人群

  • 创作者:GenFM为播客创作者提供了便捷的创作工具,无需专业录音设备和技能,可快速生成播客内容。
  • 企业:企业可以用GenFM将产品介绍、行业动态等内容转化为播客,用于品牌推广和市场宣传。
  • 教育工作者:教育工作者可以将教学内容、学术论文等转化为播客,方便学生学习和分享。
  • 内容创作者:如作家、博主等,可以将文字作品转化为播客,拓展内容传播渠道。
  • 个人用户:个人用户可以将感兴趣的书籍、文章等转化为播客,方便在通勤、运动等场景中收听。

😍推荐指数:🌟🌟🌟🌟🌟

NotebookLM

NotebookLM是谷歌推出的 AI 笔记工具,AI 播客功能用户可上传 PDF、TXT、网页链接等格式的文件,会自动生成播客脚本,以对话形式呈现。生成的播客由两个 AI 主持人以一男一女的声音进行生动讨论,内容逻辑清晰,对话自然流畅。用户能自定义播客的风格、时长等。支持多种语言输出,包括中文,免费账户每天只能生成三个播客。

NotebookLM

🚀产品亮点

  • 对话式播客生成:可将用户上传的各种格式内容,如文本、网页和视频等,转化为由两个AI主播以对话形式进行讨论的播客。
  • 高度自然的语音效果:采用DeepMind最新语音技术,能精确模拟语音中的情绪、语速与重音变化,语音生成模型还可模拟真实人类对话中的语调变化、停顿、强调词等,增加“语音杂音”如口头禅、停顿词等特征,使生成音频具有高度自然性与吸引力。
  • 内容逻辑清晰且有深度:AI能分析输入资料并提取关键内容,生成的播客脚本逻辑清晰,能对内容进行一定的扩展和深入探讨,不仅只是对原文的简单朗读。
  • 多样化的内容输入方式:支持直接文本输入、PDF、TXT等格式的文件上传,以及智能文本提取,方便用户将不同形式的内容转化为播客。
  • 多语言支持:支持多种语言模板,包括英语、法语、德语、西班牙语、葡萄牙语、印地语、中文(简体/繁体)等,满足不同语言用户的需求。
  • 灵活的编辑功能:用户可以实时编辑脚本,支持直接脚本朗读模式,还有智能说话人标记系统,可调节播客时长,以适应不同的使用场景。
  • 互动性强:用户可在音频播放期间与AI主持人互动,在生成播客前通过写提示词来告知AI主持人自己感兴趣的内容或希望避免的话题。

🧍适用人群

  • 内容创作者:能快速将文字内容转化为播客形式,节省制作时间,为创作者提供更多创意灵感和内容形式选择。
  • 知识分享者:如教师、专家等,可将专业知识、教学内容等制作成播客,以更生动的方式传播知识,提高受众的接受度和学习兴趣。
  • 企业与品牌:用于制作品牌故事、产品介绍、行业动态等播客,提升品牌知名度和影响力,增强与用户的互动。
  • 个人学习者:将学习资料转化为播客,在通勤、运动等场景中学习,提高学习效率,丰富知识获取方式。
  • 播客爱好者:为播客制作提供便捷工具,降低播客制作门槛,让播客爱好者能轻松创作和分享自己的播客内容。

😍推荐指数:🌟🌟🌟🌟🌟

晚点再听LaterCast

晚点再听LaterCast是AI驱动的播客生成微信小程序,主要功能是将公众号文章一键转化为音频内容。采用业界领先的TTS技术,将文章转成逼真的双人播客,完全听不出是AI。用户在微信看到长文后,只需转发到小程序,选择转播客,三个步骤即可体验。LaterCast提供超强总结功能,让用户在听播客的同时不错过重点信息。

晚点再听LaterCast

🚀产品亮点

  • 一键转音频:支持一键将公众号文章转化为结构清晰的音频内容,操作简单便捷。
  • 音质自然:采用先进AI技术,生成的音频音质清晰、流畅,听感自然,与真人朗读相差无几。
  • 解放双手:适合在通勤、散步、做饭等多种场景下使用,让用户可以“解放眼睛、用耳朵读书”。
  • 聚焦实用:不搞花哨功能,只专注于解决用户“白天没空读,晚上能听完”的痛点。
  • 适配生活节奏:不是复杂的工作流,而是适配用户真实生活节奏的小插件。

🧍适用人群

  • 通勤上班族:在上下班路上,利用碎片化时间听音频,获取公众号文章内容,避免了阅读长文的不便。
  • 运动爱好者:在健身、跑步、散步等运动时,通过听音频来了解信息,不影响运动的专注度。
  • 家务繁忙者:在做家务、做饭等需要双手忙碌的场景下,通过听音频来获取知识或娱乐。
  • 睡前阅读者:晚上躺在床上不想看屏幕时,听音频是一种放松且不伤眼睛的方式。

😍推荐指数:🌟🌟🌟🌟🌟

MoonCast

MoonCast 是中科大、月之暗面等团队联合开源的对话式语音合成模型,专为高质量播客内容创作量身打造。通过强大的零样本语音合成技术,仅需几秒人声样本,即可生成自然流畅的中英双语对话式语音,将文档转化为引人入胜的播客音频。MoonCast 在剧本生成和音频建模两方面均有创新突破,生成的播客内容自然度和连贯性显著优于传统语音合成技术。支持多模态输入,如 PDF、网页等,能自动添加口语化细节,对话更真实自然。MoonCast 提供 CLI 命令行和 Python API,支持全流程自动化工作流,纯本地化运行,保护用户隐私。

MoonCast

🚀产品亮点

  • 零样本语音合成:仅需几秒人声样本,可生成自然流畅的中英双语对话式语音,极大地降低了播客制作的门槛,让创作者能轻松地将自己的文字内容转化为生动的语音内容。
  • 多模态输入支持:支持 PDF、网页等多种格式的文档输入,方便创作者直接使用现有的资料进行播客创作,无需额外转换格式,提高了创作效率。
  • 口语化细节优化:能自动添加口语化细节,使生成的对话更加真实自然,避免了传统语音合成中常见的生硬和机械感,让听众的收听体验更加舒适。
  • 全流程自动化工作流:提供 CLI 命令行和 Python API,支持从文本输入到语音输出的全流程自动化操作,创作者可以轻松地将 MoonCast 集成到自己的创作流程中,实现高效的内容生产。
  • 纯本地化运行:所有操作均在本地完成,无需联网,保障了用户数据的隐私和安全,避免了网络延迟对创作过程的影响,确保了创作的流畅性。

🧍适用人群

  • 播客创作者:帮助他们快速将文字内容转化为生动的播客音频,提升内容的吸引力和专业性。
  • 自媒体人:用于制作音频内容,丰富自媒体平台的内容形式,吸引更多听众。
  • 内容创作者:无论是写作、翻译还是文案策划,都可以将文字内容轻松转化为语音,拓展内容的传播渠道。
  • 教育工作者:制作教学音频,如课程讲解、学习资料朗读等,方便学生在不同场景下学习。
  • 企业宣传人员:用于制作企业宣传音频、产品介绍等,提升品牌形象和宣传效果。

😍推荐指数:🌟🌟🌟🌟🌟

ChatPods

ChatPods 是妙鸭相机创始人张月光团队推出的 AI 智能播客平台。通过 AI 技术实现了主播与听众的实时双向互动,打破了传统播客单向输出的模式。根据用户偏好每日推荐五集精选播客并总结要点;提供 AI 生成的内容摘要和文字稿;支持实时问答,AI 可从播客内容中提取准确答案;智能章节划分,方便用户快速跳转到感兴趣的部分。ChatPods 具备跨设备同步功能,支持 CarPlay 和 Android Auto,让用户在不同场景下都能无缝衔接收听。

ChatPods

🚀产品亮点

  • 内容推荐与总结:根据用户偏好进行播客内容推荐,能转录和总结播客精彩内容,生成剧集摘要和片段,帮助用户快速抓住关键见解。
  • 智能章节划分与搜索:借助AI技术生成播客章节,方便用户快速跳转到感兴趣的部分,能实现智能搜索,将用户关注的片段和信息进行重点展示。
  • 实时互动问答:支持用户在收听过程中实时提问,AI能从播客内容中提取准确答案进行回复,打破传统播客的单向输出模式,增强用户参与感。
  • 跨设备同步:具备跨设备同步功能,支持CarPlay和Android Auto,让用户在不同设备间无缝衔接收听播客,提升使用便利性。

🧍适用人群

  • 播客爱好者:喜欢收听播客,追求便捷、高效收听体验,希望快速找到感兴趣内容并参与互动。
  • 通勤人士:在上下班途中需要利用碎片化时间获取信息、娱乐,通过ChatPods可随时随地收听播客。
  • 学习者:希望从播客中获取知识、技能,如外语学习、专业领域知识等,其内容总结、章节划分等功能有助于学习。
  • 创作者:播客创作者可借助ChatPods了解听众反馈,优化内容;其他内容创作者也可从中获取灵感、素材。
  • 研究人员:需要大量信息收集、分析,ChatPods的智能搜索、内容总结等功能可帮助快速筛选、提取播客中的关键信息。

😍推荐指数:🌟🌟🌟🌟🌟

Jellypod

Jellypod 是基于人工智能技术的播客创作工具,能帮助用户轻松创建、编辑和发布 AI 播客。用户可以通过 Jellypod 设计个性化的播客主持人,包括选择超真实的 AI 语音、多种语言和口音,可以为 AI 主持人设计独特的背景故事。Jellypod 支持从网站、PDF、电子表格等多种数据源提取内容,自动生成自然流畅的对话内容,提供文本编辑功能,方便用户进行细节调整。支持一键发布到 Spotify、YouTube、Apple Podcasts 等多个平台,提供多语言支持,用户可以用超过 25 种不同语言和口音创建播客。

Jellypod

🚀产品亮点

  • AI 主持人定制:用户可以设计个性化的播客主持人,选择超真实的 AI 语音、多种语言和口音,甚至为 AI 主持人设计独特的背景故事。
  • 内容生成与编辑:支持从网站、PDF、电子表格等多种数据源提取内容,自动生成自然流畅的对话内容,并提供文本编辑功能,方便用户进行细节调整。
  • 多平台一键发布:支持一键发布到 Spotify、YouTube、Apple Podcasts 等多个主流平台,方便用户快速推广自己的播客。
  • 多语言支持:用户可以用超过 25 种不同语言和口音创建播客,满足不同语言需求,拓宽受众范围。

🧍适用人群

  • 个人播客创作者:对于有志于从事播客创作但缺乏相关经验或资源的个人来说,Jellypod 提供了便捷的创作平台,无需专业录音设备和复杂的剪辑技术,能轻松制作出自己的播客节目。
  • 企业营销团队:企业可以用 Jellypod 制作播客,用于产品推广、品牌宣传、行业动态分享等,通过个性化的播客内容吸引目标客户,提升品牌知名度和影响力。
  • 教育机构:教育工作者可以借助 Jellypod 创作教学播客,将课程内容以音频形式呈现,方便学生随时随地学习,丰富教学形式,提高教学效果。
  • 内容创作者:包括自媒体人、作家、博主等,他们可以通过 Jellypod 将自己的文字作品、创意想法转化为播客,拓展内容传播渠道,吸引更广泛的受众群体。

😍推荐指数:🌟🌟🌟🌟🌟

星声AI

星声AI是专注于生成AI播客的工具,由上海词魂网络科技有限公司推出。能将文本内容快速转化为生动的播客,支持中、英、日、韩四国语音生成功能,提供多种播客风格和语音模型选择。用户可以通过输入文字、网页URL或上传文档来生成播客,可以设置最多3名角色进行播客讲述,自由修改角色的名字、头衔、性别和音色。星声AI支持内容提炼和总结功能,可将长篇播客内容进行精细化拆解,帮助用户快速了解播客要点。生成的语音内容自然流畅,音质清晰,适用于多种专业场景。

星声AI

🚀产品亮点

  • 多语言支持:支持中文、英文、日文、韩文四种语言的语音生成功能,满足不同用户在多种语言环境下的播客制作需求。
  • 丰富的语音风格:提供多种播客风格和语音模型选择,用户可以根据内容主题和目标受众,选择合适的语音风格,使播客更具吸引力。
  • 便捷的内容输入方式:用户可以通过输入文字、粘贴网页URL或上传文档等多种方式输入内容,方便快捷地生成播客,无需复杂的操作流程。
  • 多角色播客功能:支持最多3名角色进行播客讲述,用户可以自由修改角色的名字、头衔、性别和音色,增加播客的互动性和趣味性。
  • 内容提炼与总结:具备内容提炼和总结功能,可将长篇播客内容进行精细化拆解,帮助用户快速了解播客要点,节省时间和精力。
  • 自然流畅的语音效果:生成的语音内容自然流畅,音质清晰,避免了机械感和生硬感,使听众能够获得更好的听觉体验。

🧍适用人群

  • 企业营销人员:用于制作产品介绍、品牌宣传等播客,通过多角色对话等形式增加营销内容的趣味性和互动性,吸引更多潜在客户。
  • 知识分享者:如行业专家、学者等,可以将自己的专业知识和见解通过星声AI转化为播客,分享给更广泛的听众。
  • 个人品牌建设者:希望通过播客提升个人影响力和知名度的人士,可以借助星声AI制作个性化的播客内容,展现自己的专业形象和独特见解。
  • 娱乐从业者:如编剧、导演、配音演员等,可以用星声AI进行创意构思、剧本朗读或角色配音的初步尝试,提高工作效率。
  • 学习者:学生或自我提升者可以用星声AI将学习资料转化为播客,通过听的方式学习,提高学习效率和兴趣。

😍推荐指数:🌟🌟🌟🌟🌟

LilyFM

LilyFM是基于AI技术的创新应用,能将网页文章转化为音频播客。应用基于先进的AI模型,如Spark-TTS,LilyFM会朗读文章,会进行深度分析并提炼关键要点,帮助用户更高效地获取知识。支持中英文双语,能实现零样本语音克隆,在没有特定语音训练数据的情况下复制说话人的声音。用户可以通过调整参数如性别、音高和语速来创建虚拟主播。

LilyFM

🚀产品亮点

  • AI智能朗读:基于先进的AI技术,将网页文章转化为音频播客,为用户提供全新的阅读体验。
  • 深度内容分析:能对文章进行深度分析,提炼关键要点,帮助用户更高效地获取信息。
  • 零样本语音克隆:支持零样本语音克隆技术,无需特定语音训练数据,即可复制说话人的声音。
  • 多语言支持:支持中英文双语,满足不同用户的需求。
  • 个性化定制:用户可以调整性别、音高和语速等参数,创建个性化的虚拟主播,提升使用体验。

🧍适用人群

  • 上班族:在通勤路上或工作间隙,通过收听音频获取资讯和知识,充分利用碎片化时间。
  • 学生群体:在学习过程中,借助音频播客复习笔记或学习新知识,提升学习效率。
  • 健身爱好者:在健身时通过收听音频,既能锻炼身体又能充实大脑,两不耽误。
  • 驾驶人员:在驾驶过程中,通过音频获取信息,避免分心,确保行车安全。

😍推荐指数:🌟🌟🌟🌟🌟

Nooka

Nooka是创新的AI音频应用,将全球优质非虚构类书籍的核心思想浓缩成20分钟的精华音频播客。用户可以在通勤、运动、做家务等碎片化时间里高效吸收知识。最大特色是“可对话”,用户在收听过程中可以随时打断并提问,AI会基于上下文即时回答,实现与书籍内容的深度互动。用户可以将音频中的精彩片段剪辑成短音频卡片,分享到社区或社交媒体。Nooka的语音生成技术自然流畅,能根据内容调整语气和情感,用户可以选择不同的“声音角色”,如让莎士比亚的作品由“莎士比亚本人”来朗读。Nooka支持英语、日语、西班牙语等多种语言。

Nooka

🚀产品亮点

  • 高效知识吸收:将非虚构类书籍的核心内容浓缩成20分钟精华音频,适合用户在碎片化时间里高效获取知识。
  • 互动性强:用户在收听过程中可以随时打断提问,AI会即时回答,实现与内容的深度互动。
  • 个性化体验:用户可以将音频中的精彩片段剪辑成短音频卡片,方便分享到社区或社交媒体。
  • 语音技术先进:语音生成技术自然流畅,能根据内容调整语气和情感,提供沉浸式的听觉体验。
  • 语言支持广泛:支持英语、日语、西班牙语等多种语言,满足不同用户群体的需求。

🧍适用人群

  • 忙碌的职场人士:这类人群工作繁忙,时间碎片化,难以抽出大块时间阅读书籍。Nooka的20分钟精华音频播客,让他们可以利用通勤、午休等碎片时间高效吸收知识,提升自我。
  • 学生群体:学生需要在有限的时间内获取大量的知识。Nooka可以帮助他们在学习之余,通过音频的方式快速了解不同领域的知识,拓宽视野,为学业和个人发展提供助力。
  • 知识爱好者:对于那些对知识有浓厚兴趣,但又不想花费太多时间在阅读上的爱好者来说,Nooka是一个很好的选择。能满足他们对新知识的渴望,节省时间。
  • 健身爱好者:在健身过程中,人们往往需要一些内容来陪伴,但又不方便阅读。Nooka的音频播客可以在他们运动时播放,让他们在锻炼身体的同时,也能充实大脑。

😍推荐指数:🌟🌟🌟🌟🌟

Podcastfy

Podcastfy 是开源的 Python 工具,能将网页、PDF、图片、YouTube 视频等多种多模态内容智能转换为多语言播客对话。支持从多种来源提取内容,自动生成对话式文本脚本,可生成短至 2-5 分钟、长至 30 分钟以上的播客,支持多种语言,如中文、英语等。可生成不同语言版本的音频,支持灵活的会话定制,包括调整播客的风格、声音、语速、情感强度等参数。支持 100+ LLM 模型,包括 OpenAI、Anthropic、Google 等,支持本地运行 HuggingFace 上的 156+ 模型,支持主流的 TTS 平台,如 OpenAI、Google、ElevenLabs、Microsoft Edge,生成更自然的语音效果。

🚀产品亮点

  • 多模态内容输入:Podcastfy 支持从网页、PDF、图片、YouTube 视频等多种来源提取内容,支持用户直接输入主题,为播客创作提供丰富素材。
  • 灵活生成选项:用户可选择生成不同长度的播客,从 2-5 分钟的短播客到 30 分钟以上的长播客,满足不同需求。支持多种语言,如中文、英语等,可调整播客的风格、声音、语速、情感强度等参数,实现个性化定制。
  • 强大技术特色:Podcastfy 内置 100+ LLM 模型,包括 OpenAI、Anthropic、Google 等,支持本地运行 HuggingFace 上的 156+ 模型。支持主流的 TTS 平台,如 OpenAI、Google、ElevenLabs、Microsoft Edge,生成更自然的语音效果。
  • 便捷集成与部署:提供 CLI 和 Python 包,便于实现自动化工作流。支持运行本地大语言模型,适配多种文本转语音模型,支持 Docker 容器化部署,方便用户在不同环境中使用。
  • 开源免费:开源工具,用户可自由修改代码,定制播客生成逻辑或集成私有模型,突破闭源工具的功能限制。

🧍适用人群

  • 内容创作者:Podcastfy 能将博客文章、研究报告等文字内容快速转换为音频播客,为创作者提供新的内容呈现形式,拓宽传播渠道。
  • 教育工作者:可将课程材料、教学大纲等转换为音频对话,方便学生在不同场景下学习,提升教育的灵活性和可及性。
  • 研究人员:能把晦涩难懂的研究论文转化为通俗易懂的音频,帮助更多非专业人士了解研究成果,促进知识的传播。
  • 语言学习者:支持多语言生成的特性,为学习不同语言的人群提供了丰富的语言学习素材,通过收听不同语言的播客来提升语言能力。

😍推荐指数:🌟🌟🌟🌟🌟

Seed GR-3 – 字节跳动推出通用机器人模型

Seed GR-3是什么

Seed GR-3 是字节跳动 Seed 团队推出的通用机器人模型,具备高泛化能力、长程任务处理能力和柔性物体操作能力。Seed GR-3融合视觉 – 语言 – 动作信息的“大脑”、三合一数据训练法(机器人数据、VR 人类轨迹数据、公开图文数据)及定制的灵活“身体”ByteMini,实现对新物体、新环境和复杂指令的理解与执行。GR-3 在长序列任务、双臂协同操作和柔性物体操作中表现出色,是迈向通用机器人“大脑”的重要一步。

Seed GR-3

Seed GR-3的主要功能

  • 高泛化能力:能适应新物体、新环境和包含抽象概念的复杂指令。
  • 长程任务处理:支持高效完成多步骤任务,如清理餐桌等复杂家务。
  • 柔性物体操作:支持精细操作柔性物体,如挂衣服,能处理未见过的衣物类型。
  • 快速微调:基于少量人类轨迹数据高效微调,快速适应新任务。
  • 双臂协同操作:支持双手协同任务,如双手配合完成复杂动作。
  • 全身操作能力:结合底盘移动,实现全身操作,适应更多场景。

Seed GR-3的技术原理

  • 融合大脑:用 Mixture-of-Transformers (MoT) 网络结构,将视觉 – 语言模块和动作生成模块结合,形成 40 亿参数的端到端模型。动作生成模块用 Diffusion Transformer (DiT),基于 Flow-Matching 生成动作。
  • 三合一数据训练法
    • 机器人数据:基于遥操作收集高质量机器人动作轨迹。
    • VR 人类轨迹数据:用 VR 设备采集人类操作轨迹,提升学习效率。
    • 公开图文数据:用大规模视觉 – 语言数据提升模型对新物体和抽象概念的理解能力。
  • 定制化身体:搭配 ByteMini 机器人,具备 22 个自由度,支持高灵活性操作,适合狭小空间和精细任务。

Seed GR-3的项目地址

  • 项目官网:https://seed.bytedance.com/zh/GR3
  • arXiv技术论文:https://arxiv.org/pdf/2507.15493

Seed GR-3的应用场景

  • 家庭服务:模型能协助家务、照顾老幼、保障安全,让家庭生活更轻松。
  • 工业物流:Seed GR-3 能优化仓库管理、辅助生产、检测质量,提升工业效率。
  • 医疗保健:助力患者康复、协助手术、管理物流,提升医疗服务。
  • 零售服务:Seed GR-3 能整理货架、服务客户、导览展览,优化零售体验。
  • 灾难救援:模型能参与救援、监测环境,为应急响应提供支持。

Mureka V7 – 昆仑万维推出的最新AI音乐生成模型

Mureka V7是什么

Mureka V7是昆仑万维推出的先进的AI音乐模型,具备强大的音乐创作能力。模型基于MusiCoT(音乐思维链)技术,先规划整体音乐结构再填充细节,生成的音乐更具连贯性和艺术性。Mureka V7支持10种语言,能创作流行、摇滚、电子等多种风格的歌曲和纯音乐,支持用文字描述生成专属音色。用户能在简单模式快速创作,或在高级模式下上传参考歌曲实现风格定制。Mureka V7适合普通用户创作个人原创音乐,能为内容创作者和音乐人提供高效的创作工具。

Mureka V7

Mureka V7的主要功能

  • 高质量音乐生成:支持多种风格(如流行、摇滚、电子、古典、嘻哈等)和10种语言(英语、西班牙语、中文、日语、韩语、葡萄牙语、德语、意大利语、法语、俄语),提供逼真的人声和乐器音色。
  • 多种创作模式:简单模式快速生成音乐,高级模式支持自定义歌词、音色和风格。
  • 纯音乐生成功能:用文字提示或参考音乐生成免版权纯音乐,适合多种创作场景。
  • 音频编辑功能:支持局部编辑、延长、分轨和裁剪,方便二次创作。
  • 自定义音色:基于文字描述创建全新音色,摆脱现有音色库限制。
  • 创作证明:生成音乐具有创作证明,可合法使用和销售。

如何使用Mureka V7

  • 访问官网:访问Mureka的官网。
  • 选择模型:在模型选择下拉框中选择 Mureka V7模型
  • 选择创作模式
    • 简单模式:输入文字提示(如“一首流行歌曲”),点击“生成”。
    • 高级模式:输入歌曲标题和歌词,上传参考歌曲(可选),选择音色,调整描述,点击“生成”。
    • 纯音乐创作:选择“纯音乐”模式,输入文字提示,上传参考音乐(可选),点击“生成”。
  • 音频编辑:生成音乐后点击“编辑”,进行局部修改、延长、裁剪或分轨操作。
  • 自定义音色:选择“语音合成”,输入文字描述(如“温暖的奶奶音”),点击“生成”。
  • 下载与分享:下载生成的音乐(MP3、伴奏、分轨音频),或分享动态视频。

Mureka V7的应用场景

  • 个人音乐创作:用户能快速生成原创歌曲,学习创作技巧,轻松实现音乐梦想。
  • 内容创作:为 vlog、短视频、广告、影视等生成背景音乐,满足多样化配乐需求。
  • 音乐制作:为音乐人提供灵感,探索新风格,助力突破创作瓶颈。
  • 教育领域:教师生成示例音乐辅助教学,学生通过练习提升创作能力。
  • 商业用途:为品牌广告、产品推广、活动等生成符合需求的音乐,增强商业表现力。

Qwen3-Coder – 阿里通义千问推出的代码生成模型

Qwen3-Coder是什么

Qwen3-Coder 是阿里通义千问团队推出的强大代码生成模型,拥有 480B 参数和 35B 激活参数,支持原生 256K token 上下文,支持扩展达到 1M token。模型在 Agentic Coding、Agentic Browser-Use 和 Agentic Tool-Use 等任务上表现卓越,达到开源模型的顶尖水平。Qwen3-Coder 基于大规模强化学习和长时序交互训练提升性能,提供命令行工具 Qwen Code 和 API 接口,方便开发者使用。Qwen3-Coder 支持助力软件开发,提升效率,降低复杂任务的人力负担。

Qwen3-Coder

Qwen3-Coder的主要功能

  • 代码生成与优化:根据用户输入的自然语言描述生成高质量的代码。支持多种编程语言,包括但不限于 Python、JavaScript、Java 等,能生成复杂的代码逻辑,如函数、类、模块等。
  • 代理式编程(Agentic Coding):自主规划和执行多步骤任务,例如在开发过程中自动调用工具、执行代码测试等。支持与外部工具(如浏览器、API 等)交互,完成复杂的任务。
  • 长时序交互(Long-Horizon Interaction):在真实世界的软件工程任务中,Qwen3-Coder 用多轮交互解决问题,例如在 SWE-Bench 等任务中表现出色。
  • 上下文扩展:原生支持 256K token 的上下文长度,基于 YaRN 技术扩展到 1M token,适用仓库级和动态数据(如 Pull Request)的处理。
  • 多工具集成:支持与多种工具(如 Qwen Code、Claude Code、Cline 等)集成。

Qwen3-Coder的技术原理

  • 混合专家模型(Mixture-of-Experts, MoE):Qwen3-Coder 是 480B 参数的混合专家模型,激活 35B 参数。支持模型在处理大规模数据时保持高效的计算性能,同时具备强大的表达能力。
  • 大规模预训练(Pre-Training):用 7.5T 的数据进行预训练,代码数据占比 70%。基于大规模数据训练,模型学习到丰富的编程模式和语言结构。支持 256K token 的上下文长度,基于 YaRN 技术扩展到 1M token,优化对仓库级和动态数据的处理能力。
  • 合成数据扩展:基于 Qwen2.5-Coder 对低质数据进行清洗和重写,显著提升整体数据质量,进一步优化模型的训练效果。
  • 强化学习(Reinforcement Learning, RL):在后训练阶段,基于大规模强化学习,通过自动扩展测试样例,构造高质量的训练实例,显著提升代码执行成功率。引入长时序强化学习(Long-Horizon RL),鼓励模型用多轮交互解决问题,提升在真实软件工程任务中的表现。

Qwen3-Coder的项目地址

  • 项目官网:https://qwenlm.github.io/blog/qwen3-coder/
  • GitHub仓库:https://github.com/QwenLM/Qwen3-Coder
  • HuggingFace模型库:https://huggingface.co/Qwen/Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder的应用场景

  • 代码生成与自动化开发:快速生成代码原型,支持多语言,节省开发时间,提升效率。
  • 代理式编程(Agentic Coding):自主规划和执行多步骤任务,与外部工具交互,完成复杂任务。
  • 软件工程任务:辅助代码审查、优化、测试生成和文档编写,提升代码质量和开发流程效率。
  • 教育与学习:为初学者提供代码示例和教学支持,助力快速掌握编程知识和技能。
  • 企业开发:快速开发内部工具、自动化脚本,提升团队效率,加速项目启动。