AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群,获取最新一手信息!
智谱旗舰模型GLM-4.6上线,代码能力全面进阶
智谱清言发布新一代大模型GLM-4.6,代码能力全面升级,对齐Claude Sonnet 4,成为国内最强Coding模型。模型在真实编程任务中表现优异,平均token消耗较上一代降低30%。上下文长度提升至200K,推理、搜索、写作能力显著增强。来源:智谱
Claude 4.5 发布,史上最强AI编程模型诞生
Anthropic发布Claude Sonnet 4.5,AI模型在编程能力上取得重大突破。在SWE-bench Verified测试中,Claude Sonnet 4.5登顶业界第一,能连续工作超30小时,可一次性写出约1.1万行代码。其在OSWorld测试中拿下61.4%的成绩,同样位居第一。Claude Sonnet 4.5还增加了“检查点”功能,可随时保存进度,终端界面翻新,并发布了原生VS Code插件。来源:APPSO
蚂蚁百灵发布Ring-1T-preview,深思不必久等
Ling Team发布万亿规模语言基座模型Ring-1T-preview。模型在AIME 2025等竞赛中表现优异,接近GPT-5水平。在IMO 2025测试中,Ring-1T展现出强大的推理能力。为探索其上限,团队提前开源Ring-1T-preview,模型在20T语料上预训练,结合强化学习训练。来源:百灵大模型
OpenAI 推出“即时结账”功能,ChatGPT 变身购物支付一体机
OpenAI宣布推出“即时结账”功能,用户可在ChatGPT内直接购物。目前,美国地区的ChatGPT用户可在对话界面内完成Etsy平台购物及Shopify平台下单。该功能已面向ChatGPT Pro、Plus付费用户及登录状态下的免费用户开放,现阶段支持从美国本土Etsy卖家处购物,超100万家Shopify商户将“很快”支持该功能。来源:IT之家
DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
DeepSeek团队发布实验性模型DeepSeek-V3.2-Exp。模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention(DSA)机制,大幅提升长文本训练和推理效率,性能与V3.1-Terminus持平。目前,DeepSeek-V3.2-Exp已更新至官方App、网页端和小程序,API价格大幅下降,调用成本降低50%以上。来源:DeepSeek
乐享科技完成2亿元“天使++”轮融资,天使轮融资总额近5亿元
苏州乐享智能科技有限公司宣布完成2亿元“天使++”轮融资,是其9个月内第三轮融资,天使轮总金额近5亿元。本轮融资由钟鼎资本领投,IDG资本加注,资金将用于核心零部件自研、机器人本体与运动控制技术研发等。来源:乐享科技JoyIn
苹果自研多模态 AI 模型 Manzano:兼具理解与生成能力
苹果正在研发名为Manzano的多模态AI模型,兼具图像理解和生成能力,目标是解决现有模型在处理图像任务时的取舍问题。Manzano采用混合图像分词器,通过共享编码器输出连续标记和离散标记,减少任务冲突。其架构包括混合分词器、统一语言模型和独立图像解码器,参数规模从9亿到35.2亿不等,支持多种分辨率。来源:IT之家
混元图像3.0正式发布:开源,免费使用
腾讯混元图像3.0正式发布并开源。模型是首个工业级原生多模态生图模型,参数规模达800亿,是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0具备强大的语义理解能力、极致美学质感,可生成高质感图片,并能解析复杂语义,生成长文本和小文字。来源:腾讯混元
Qoder CLI 开启邀测:把 Qoder 的智能带到每一个终端
Qoder团队宣布推出Qoder CLI,开启邀测。Qoder CLI是一款轻量级、AI原生的命令行工具,为开发者提供更高效、更智能的编码体验。支持自然语言交互,可生成代码、调试、重构、自动化任务等,与Qoder IDE深度集成,同时支持无头模式,便于CI/CD流程调用。来源:Qoder
腾讯混元3D开源+2:瞄准游戏建模、3D 打印痛点
腾讯混元发布并开源3D生成模型混元3D-Omni和混元3D-Part。混元3D-Omni是业界首个统一支持多条件控制的3D生成框架,突破图像输入局限,支持多种模态输入,可精细控制物体几何结构等。混元3D-Part实现灵活可控的部件拆分和生成,让3D模型像乐高一样可拆卸,便于游戏制作、3D打印等。来源:腾讯混元
全球首个动漫制作神器“萌动AI”国内登场,免费不限次
全球首款二次元/动漫专用AI创作工具“萌动AI”在国内上线。用户可通过官网免费不限次数使用文字/图片、首尾帧及视频续写功能创作优质动漫图片和视频。其生图板块支持文生图和图生图,有多种风格可选,人物一致性编辑效果好。视频生成功能可将图片转为视频,并进行续写和首尾帧生成。来源:AI工具集
AI陪伴硬件公司珞博智能(Robopoet)宣布完成数千万元天使+轮融资
AI陪伴硬件公司珞博智能(Robopoet)完成数千万元天使+轮融资,由红杉中国领投,金沙江创投、零一创投跟投。首款产品“Fuzozo芙崽”定位AI电子宠物,凭借可爱外观与好玩的AI体验,深受20-30岁一线女性喜爱,本轮融资后,公司将强化AI能力,拓展销售渠道,构建品牌认知及IP世界观,并计划推出联名款新品。来源:Robopoet珞博智能
OpenAI推出ChatGPT Pulse,奥特曼:这是我最喜欢的功能
OpenAI推出ChatGPT Pulse预览版,目前仅限Pro用户使用,未来将逐步扩展。该功能会在用户睡觉时根据其聊天记录、反馈及连接应用进行研究,第二天以主题卡片形式推送个性化内容,如旅游攻略、育儿贴士等。它旨在成为AI版私人助理和个性化资讯流,且不会让用户沉迷刷屏。来源:APPSO
Kimi 全新 Agent 模式 OK Computer 启动测试
月之暗面的Kimi发布全新Agent模式OK Computer并开启灰度测试。模式延续“模型即Agent”理念,通过端到端训练Kimi K2模型,提升智能体及工具调用能力。用户下达需求后,Kimi可操作虚拟电脑,完成多功能网站开发、海量数据分析、图片视频生成及高品质PPT制作等复杂任务。来源:IT之家
生数科技全球发布Vidu Q2,推动“视频生成”走向“演技生成”时代
生数科技发布新一代图生视频大模型Vidu Q2。模型以“Vidu Q2 看AI演戏”为主题,核心在于“细微表情生成”,在表情变化、运镜、生成速度及语义理解等方面取得突破,实现了从“生成视频”到“生成演技”的跨越。Vidu Q2能够生成复杂表情变化的文戏、多人打斗的武戏及炫酷特效场景,推动AI视频生成从“形似”到“神似”。来源:生数ShengShu
智能编程助手 Neovate Code 正式开源
蚂蚁集团支付宝体验技术部开源智能编程助手Neovate Code。工具可深度理解代码库,遵循编码习惯,实现功能开发、Bug修复和代码重构等功能。支持对话式开发、自定义规则文件、会话继续与恢复等,兼容OpenAI、Anthropic、Google等模型和提供商。来源:蚂蚁开源
Meta FAIR推出了代码世界模型:CWM(Code World Model)
Meta FAIR推出全球首个代码世界模型CWM。是一个参数量为32B、上下文大小达131k token的密集语言模型,专为代码生成和推理打造。CWM不仅能生成代码、理解语义,还能模拟代码运行过程中的变量状态变化与环境反馈,具备接近人类程序员的思考能力。来源:量子位
英伟达开源 Audio2Face 模型:AI 实时生成面部动画
英伟达开源生成式AI面部动画模型Audio2Face,涵盖模型、SDK及完整训练框架,加速游戏和3D应用中AI智能虚拟角色开发。通过分析音频特征,实时驱动虚拟角色面部动作,生成精准口型同步和自然情感表情,广泛应用于游戏、影视制作等领域。来源:IT之家
阿里云推出创业者的AI数字员工“万小智”
阿里云在云栖大会上推出面向中小微企业及个人创业者的AI数字员工“万小智”。集成AI开发、设计、客服与内容创作能力,帮助企业解决从品牌官网搭建到持续运营的问题。万小智依托通义大模型,具备四大核心功能:通过对话搭建官网、生成设计师级视觉效果、提供7×24小时智能客服以及生成SEO优化的内容。来源:阿里云万网
6款模型和1个全新品牌,云栖大会一口气全发了!
云栖大会上通义大模型团队一口气发布了6款模型和1个全新品牌。Qwen MAX是万亿参数旗舰模型,Coding能力和工具调用能力登顶国际榜单。Qwen3-VL是视觉理解模型,支持2小时视频精确定位和多种语言OCR。Wan2.5-Preview是音画同步创意引擎,支持音画同步和多种图像生成编辑功能。通义百聆是企业级语音基座大模型,解决语音识别和合成中的痛点。来源:通义大模型
夸克全新AI图像与视频创作平台「造点AI」正式上线!
夸克全新AI图像与视频创作平台「造点AI」正式上线。平台拥有AI生图、AI生视频、P图、编辑一体化等功能,搭载通义万相Wan2.5等多个模型,更懂中国元素,更具实用性。「AI生图」可生成真实亚洲人像、准确中文内容,驾驭多种艺术风格;「AI生视频」支持原生音画同步生成等,助力普通人实现导演梦。来源:夸克
阶跃AI的新朋友:桌面伙伴「小跃」开启邀测
阶跃AI推出桌面伙伴“小跃”并开启邀测。小跃常驻桌面右上角,可同时执行多任务,连接本地操作系统,支持查看管理本地文件、访问互联网、执行复杂任务等。其“妙计”功能可复用操作步骤,“定时任务”可到点自动执行。小跃能自主完成任务规划与执行,可与本地文件交互,一键处理文件。来源:阶跃星辰
ProcessOn发布:Calicat AI ,人人都是产品专家!
ProcessOn团队推出一站式产设研协作平台Calicat,整合原型设计、需求管理和任务管理功能,并融合AI能力。Calicat的AI设计助理可实现零门槛画高保真原型图,支持多种设计需求,如整套页面设计、组件模块设计、草图转原型、从网页提取设计等。来源:ProcessOn
智元机器人GO-1通用具身基座大模型全面开源!
智元机器人宣布其通用具身基座大模型GO-1正式在GitHub开源。是全球首个采用Vision-Language-Latent-Action(ViLLA)架构的具身智能模型,可降低技术门槛,推动行业发展。GO-1通过引入隐式动作标记,弥合了图像-文本输入与机器人执行动作之间的语义鸿沟,能更好地理解人类意图并转化为精确动作执行。来源:智元机器人
ChatExcel生成PPT功能上线,10秒,100M表格秒变数据报告PPT
ChatExcel一键生成PPT功能正式上线,仅需10秒,即可将100M表格转化为数据报告PPT。可自动分析表格和聊天上下文,生成逻辑严谨、结论清晰的专业数据报告PPT,支持单元格级溯源,准确率高达100%。用户只需上传表格、对话并点击“生成PPT”按钮,即可获得排版精美、逻辑完整、可直接汇报的PPT。来源:元空AIExcel
英伟达1000亿美元投资OpenAI!一切从算力开始
英伟达与OpenAI宣布签署战略合作意向书,计划未来数年建设至少10GW的AI数据中心,部署数百万颗英伟达GPU。英伟达将按每1GW交付进度,逐步向OpenAI投资最高1000亿美元,换取非投票股权。这是AI行业迄今最大规模的资金与硬件捆绑交易,被视为全球算力格局的重塑。来源:有新Newin
DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本
DeepSeek-V3.1版本已更新为DeepSeek-V3.1-Terminus。此次更新优化了语言一致性,缓解中英文混杂等问题,同时提升了Code Agent与Search Agent的表现,输出效果更稳定。新版本已在官方App、网页端、小程序及DeepSeek API同步更新。来源:DeepSeek
Qwen3-Omni 和 Qwen3-TTS 同时发布!
Qwen团队发布Qwen3-TTS和Qwen3-Omni两款模型。Qwen3-TTS-Flash支持17种音色和10种语言,包括多国语言和中国方言,延迟低至97毫秒,性能卓越。Qwen3-Omni发布三个版本,包括全模态描述模型、标准版和思考版,支持119种文本语言交互、19种语音理解语言和10种语音生成语言。来源:AI工具集
LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!
美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。模型在保持极速的同时,推理能力显著提升,达到全球开源模型领先水平。具备深度思考与工具调用结合、非形式化与形式化推理融合等创新功能,在逻辑、数学、代码、智能体等多领域推理任务中表现出色。来源:龙猫LongCat
全球首个「推理视频模型」Ray3发布!
Luma AI发布了全球首个推理视频模型Ray3,模型具备强大的推理能力,能理解复杂指令并实时评估改进生成效果。Ray3支持10位、12位和16位HDR视频生成,提供电影级质感,可将SDR视频转换为HDR,支持16位EXR帧导出,方便后期制作。Ray3推出草稿模式,生成速度提升5倍,成本降低5倍,方便用户快速迭代创意。来源:AI工具集
华为、浙大发布 DeepSeek-R1-Safe 基础大模型
华为与浙江大学在华为全联接大会2025上联合发布了DeepSeek-R1-Safe基础大模型。模型基于昇腾千卡算力平台,构建了全流程安全后训练框架,首次实现千亿级参数满血版大模型安全训练。来源:IT之家
高德TrafficVLM模型重磅升级:AI赋予天空视角,可预知超视距路况
高德导航宣布TrafficVLM模型升级,赋予用户“天眼”视角,助力全局交通掌控。升级后的TrafficVLM依托空间智能架构,可实时感知交通态势,为用户提供超视距路况预知。例如,能提前识别前方3公里的拥堵点并推送最优通行建议,能通过导航界面切换实时呈现前方车流动态与高清实景图像。来源:高德
Teable 宣布完成数百万美元天使轮融资,让数据库「长出耳朵和手」
Teable宣布完成数百万美元天使轮融资,投资方包括真格基金、BV百度风投与祥峰投资。此前,Teable于9月16日在X平台发布全球首款多维表格智能体AI Database Agent(Teable 2.0)。Teable 2.0具备对话式建库、生成应用、自动化流程、数据分析与批量内容生成的一体化能力,用户可用自然语言完成复杂数据工作。来源:极客公园
一个模型支持两种场景!Wan2.2-Animate开源发布
阿里开源全新动作生成模型通义万相Wan2.2-Animate。可同时支持动作模仿和角色扮演两种模式,输入角色图片和参考视频,能将视频角色动作迁移到图片角色中,也可在保留原视频动作、表情及环境基础上替换角色。构建大规模人物视频数据集,实现单一模型兼容两种推理模式,精准复刻动作和表情,设计光照融合LoRA保证光照融合效果。来源:通义万相Wan
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,展现出跨模态对齐能力。Xiaomi-MiMo-Audio在多项标准评测中超越同参数量开源模型及Google、OpenAI的闭源模型。来源:Xiaomi MiMo
2025H1大模型公有云服务,火山引擎占比49.2%中国第一
IDC发布《中国大模型公有云服务市场分析,2025H1》报告。报告显示,2025年上半年,中国公有云上大模型调用量达536.7万亿Tokens,火山引擎以49.2%的份额位居中国第一。相比2024年全年114万亿Tokens的市场规模,2025年上半年调用量增长近400%。火山引擎推出多个多模态大模型,助力AI应用落地。来源:火山引擎
Notion重磅发布AI智能体!自动生成会议笔记、竞品分析
Notion 发布了首个 AI Agent。能以用户的页面与数据库为上下文,自动生成会议纪要、竞品分析、反馈汇总等内容,能新建或更新页面、整合 Slack/邮箱/Google Drive 等外部信息。相比已有的 Notion AI,新 Agent 具备多步骤执行能力,可完成跨数百页、耗时 20 分钟的复杂任务。用户可为 Agent 设置 profile 来定义引用规则、风格与记忆信息。来源:AI工具集
生数科技完成新一轮数亿元人民币规模的A轮融资
生数科技于2025年9月完成数亿元人民币A轮融资,由博华资本领投,百度战投等跟投。公司成立于2023年,核心团队由顶尖高校技术人才和产业界人才组成,专注于多模态大模型及应用的自主研发。新一轮融资将用于模型研发、技术创新和全球商业布局。来源:生数ShengShu
Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了
谷歌浏览器Chrome迎来自2008年发布以来最大更新,引入Gemini模型,新增多项AI功能。用户可通过点击右上角Gemini图标,实现跨标签页对话,解决找不到标签页等问题。Gemini还能整合多标签页信息,如对比产品优缺点、生成旅行计划等,提升信息处理效率。此外,Chrome新增智能体能力,可自动完成网页操作,如预订餐厅、购物等。来源:APPSO
面壁小钢炮迎新:VoxCPM 语音生成媲美真人、声音复刻超像!
面壁智能推出0.5B参数语音生成基座模型VoxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发,具备高自然度、高音色相似度和强韵律表现力。VoxCPM在权威语音合成评测中达SOTA水平,支持零样本声音克隆,可生成独特个人声音。来源:面壁智能
具身操作大模型InternVLA·A1上线,助力实现高动态场景下的多机器人协作
上海人工智能实验室推出首个理解、想象、执行一体化具身操作大模型InternVLA·A1。模型基于自研虚实混合操作数据集InternData·A1、国地中心实训场数据及互联网多源数据联合训练而成。在真机评测中,InternVLA·A1显著优于π0及GR00T N1.5,尤其在高动态场景下表现出强适应能力。来源:书生Intern
AI芯片黑马Groq融资狂吸7.5亿美元 估值直冲69亿
美国人工智能芯片初创公司Groq在最新一轮融资中筹集了7.5亿美元,估值达到69亿美元。本轮融资由Disruptive领投,贝莱德、路博迈、DTCP等参与,三星、思科等现有投资者也继续参与。Groq计划利用这笔资金扩大数据中心容量,包括今年和明年的新地点,并计划在年内宣布首个亚太地区的选址。来源:财联社
AI代码审查初创公司CodeRabbit获6000万美元B轮融资
AI代码审查初创公司CodeRabbit获6000万美元B轮融资,估值达5.5亿美元。本轮融资由Scale Venture Partners领投,英伟达企业风投等跟投。CodeRabbit通过云端与本地工具为开发团队提供自动化代码审查、安全检测和修复建议,帮助开发者提升代码质量与上线效率。来源:智东西
可调节思考时长,ChatGPT 网页端新增 GPT-5 Thinking 调整功能
OpenAI宣布为ChatGPT网页版的Plus、Pro和Business用户推出“Thinking”调整功能,用户可自由选择GPT-5模型的思考时长。功能包括标准模式(默认)、扩展模式、轻量模式和重度模式,分别对应不同的思考深度和回复速度。用户设置将保持不变,直至手动更改。来源:IT之家
天工超级智能体海外版上线Vibe Coding Agent:AI Developer
昆仑万维集团宣布天工超级智能体(Skywork Super Agents)海外版上线全新Vibe Coding Agent——AI Developer。功能帮助非专业开发人员,如白领、营销人员、教师、学生等,通过自然语言与Agent交互,快速构建、部署和管理全栈Web应用程序。用户通过几轮交互即可得到专属网站,支持自动收发邮件、对接支付系统等后端能力,能自动部署上线。来源:昆仑万维集团
李飞飞发布世界模型新成果:Marble!一张图生成 3D 世界
斯坦福大学教授李飞飞的创业公司World Labs上线空间智能新成果Marble。Marble是限量访问的Beta测试版平台,用户可在官网浏览和创建3D世界。技术通过给AI一张照片,让其生成场景的几何结构等,创建可探索的3D世界。来源:APPSO
不止SOTA!通义 DeepResearch模型、框架、方案全开源
阿里巴巴通义实验室发布通义DeepResearch模型、框架及方案,全部开源。研究针对AI“做研究”能力,进行系统性创新。自研全流程合成数据方案,无需人类干预,构造高质量数据集。提出智能体增量预训练阶段,提供大规模数据合成方案。在后训练数据合成、形式化建模、自动化生成高难度学科数据等方面均有创新。模型支持多种推理形式,革新Agent模型训练流程。来源:通义大模型
首个数字界面生产级Agent:MasterGo Agent 正式发布
莫高设计(MasterGo)宣布正式发布MasterGo Agent,是全球首个数字界面生产级AI Agent。自MasterGo AI整页生成上线以来,团队不断听取设计师的需求,包括调用设计规范、在画布中直接生成和灵活修改设计,以及AI融入生产协作流程。来源:MasterGo莫高设计
全球估值最高的机器人公司,刚刚融了71亿,黄仁勋又投了
美国人形机器人公司Figure宣布完成超10亿美元(约合人民币71亿元)C轮融资,投后估值达390亿美元(约合人民币2774亿元)。本轮融资由Parkway Venture Capital等多家知名机构领投,英伟达、英特尔资本等参投。Figure计划将资金用于人形机器人在家庭和商业的扩展、构建下一代GPU基础架构以及先进数据收集。来源:智东西
通用奖励模型VLAC上线,机器人在真实世界强化学习的“好搭子”
上海人工智能实验室上线具身奖励大模型VLAC。VLAC基于InternVL多模态大模型,融合多种数据,为机器人在真实世界强化学习提供过程奖励和完成情况估计,同时输出动作指令。能有效区分正常与异常行为,支持小样本快速泛化。来源:书生Intern
OpenAI 发布 GPT‑5-Codex 新模型,专为编程而生
OpenAI 发布了 GPT-5-Codex,是一个专为编程优化的全新模型,全面应用于 Codex CLI、IDE 扩展、网页端、移动端及 GitHub 代码审查。该模型沿用了 GPT-5 的动态调整思考时间特性,根据任务复杂度自动分配计算资源,简单任务秒回,复杂任务深度思考。来源:AI工具集
真人手办建模自由!腾讯混元3D 3.0来了
腾讯发布混元3D 3.0模型,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素超高清建模,细节表现力显著增强。该模型面向用户免费开放,上线腾讯云API,助力游戏、影视、电商等行业实现专业级3D内容创作。混元3D 3.0专项优化人物生成,提升建模精度,使五官轮廓更清晰立体,体态更自然流畅。来源:腾讯混元
宇树开源 UnifoLM-WMA-0 世界模型动作架构
宇树科技宣布开源UnifoLM-WMA-0世界模型架构,专为通用机器人学习设计的跨多类机器人本体的开源架构。核心是能理解机器人与环境交互物理规律的世界模型,具备两大功能:一是作为交互式仿真器运行,为机器人学习提供合成数据;二是与动作头对接,通过预测未来与物理世界的交互过程来优化决策性能。来源:Unitree宇树
FunAudio-ASR:解决语音大模型企业落地的“最后一公里”
阿里巴巴推出FunAudio-ASR语音识别大模型,专为解决企业落地难题。模型通过创新的Context增强模块,有效优化了“幻觉”“串语种”等关键问题。在高噪声等复杂场景下,其识别准确率显著提升,幻觉率从78.5%降至10.7%。来源:通义大模型
Mureka上线「Agent Studio」新功能,让每个人都拥有私人音乐工作室!
昆仑万维旗下AI音乐创作平台Mureka上线新功能“Agent Studio”,让音乐创作变得轻松。用户只需说出想法,如一句话、情绪或梗,Agent可自动生成歌词、匹配风格并输出完整歌曲。目前有六个场景,如创作专辑、热点写歌、以歌致礼等,覆盖多种生活场景。来源:昆仑万维集团
火山引擎veCLI发布,开启智能开发新模式
火山引擎发布命令行AI Agent:veCLI,无缝集成豆包大模型1.6,助力开发者在终端直接访问火山方舟大模型及火山云产品。veCLI采用“思考-行动”循环机制,集成多种模型,降低技术门槛,提升开发效率。来源:火山引擎
金山办公与华为联合发布 WPS 365 一体化 AI 办公解决方案
金山办公与华为在珠海联合发布WPS 365一体化AI办公解决方案。方案整合WPS 365的协同办公优势与华为的全栈技术能力,通过AI、软件与云计算、硬件的协同创新,解决组织在知识资产管理、协同办公、安全合规等方面的核心需求。来源:IT之家
小米AI团队发布ZipVoice:高效零样本语音合成模型
小米集团AI实验室发布ZipVoice系列语音合成模型,包括零样本单说话人语音合成模型ZipVoice和零样本对话语音合成模型ZipVoice-Dialog。ZipVoice通过技术创新,解决了现有模型参数大、速度慢的问题,实现轻量化建模和推理加速。ZipVoice-Dialog则突破对话语音合成的稳定性和速度瓶颈,提供又快又稳又自然的语音对话合成。来源:小米技术
腾讯开源Youtu-GraphRAG:让图检索增强生成更准确、更省钱!
腾讯优图实验室开源图检索增强生成框架Youtu-GraphRAG。框架主打大语言模型+RAG模式,将知识组织成图谱,帮助大模型在处理复杂问答任务时更精准、可追溯,适用于知识密集型场景。其创新点包括四层知识树、社区检测升级和智能迭代检索,可减少“胡言乱语”。来源:腾讯云
阿里通义正式发布:Qwen3-Next-80B-A3B 双模型!
Qwen3-Next-80B-A3B双模型正式发布,包含擅长指令理解和执行的Instruct版本以及擅长多步推理和深度思考的Thinking版本。模型采用混合动力引擎,75%高效处理长文本,25%精准召回关键信息,实现长文处理的稳与快。来源:通义大模型
美团正式发布首个生活类AI Agent——小美
美团上线了首个生活类Agent——小美。小美可快速完成外卖点单、支付等操作,能记住用户过往订单和收货地址,支持跨地区点单。小美能设置定时任务,如定时点咖啡等。来源:AI工具集
MiniMax音乐模型新突破:MiniMax Music 1.5上线
MiniMax发布新一代音乐生成模型Music 1.5,开启“一人即乐队”新时代。模型生成时长升至4分钟,具备四大突破:强控制力,可对歌曲风格、情绪、场景等进行自定义;人声自然饱满,转音顺畅;编曲层次丰富,支持中国小众及民族乐器;歌曲结构清晰,带来“叙事级”听觉体验。来源:MiniMax稀宇科技
微软 Copilot 新增音频表达式功能
微软为Copilot工具新增“Copilot音频表达式”功能,基于自研MAI-Voice-1模型。用户可从三种语音模式中选择:有感染力模式,适合传递情感;故事模式,适合多角色故事讲述;脚本模式,适合精准传递信息。每种模式还提供多种语音类型与风格,如莎士比亚朗读风、体育解说风等。来源:IT之家
蚂蚁百宝箱正式发布“Tbox”, 智能体告别 “单打独斗”,直接把成果送到手!
蚂蚁百宝箱在2025 Inclusion·外滩大会上正式发布新产品Tbox超级智能体。Tbox采用多智能体协同架构,可自动形成工作小组完成用户任务,如生成PPT、报告、网页等,将AI应用从“卖工具”推进到“卖成果”阶段。动态编排引擎能根据任务复杂度调整智能体协作,用户无需技术知识,只需描述需求即可获得成果。来源:蚂蚁百宝箱Tbox
快手AI超级员工Kwali上线!一句话剪出完整短视频
快手推出AIGC超级员工Kwali,正在内测阶段。用户只需在对话框中说出需求,Kwali能在几分钟内生成完整的短视频,包括脚本、字幕和背景音乐。背后是强大的云端多Agent框架,可将需求拆解并分配给不同Agent完成,如意图解析、脚本生成、镜头匹配和剪辑合成等。来源:量子位
阿联酋开源“最快推理模型”K2-Think,撞名Kimi
阿布扎比穆罕默德·本·扎耶德人工智能大学与AI创企G42推出低成本推理模型K2-Think,基于阿里巴巴开源模型Qwen 2.5构建,参数量320亿,性能超过参数规模20倍的OpenAI和DeepSeek旗舰推理模型。模型在复杂数学任务基准测试中表现优异,部署在Cerebras晶圆级芯片上,性能提升10倍。来源:36氪
北京智源研究院孵化的具身大脑公司星源智获2亿元天使轮融资
北京星源智机器人科技有限公司完成2亿元人民币天使轮融资,投资方包括中科创星、高瓴、元禾原点等知名机构。公司成立于2025年8月1日,由北京智源研究院孵化,致力于构建物理世界的通用具身大脑。来源:星源智机器人
即梦上线图片4.0模型,首次支持多模态生图
即梦AI图片模型4.0正式上线。模型基于字节跳动自研的seedream4.0,融合常识和推理能力,是业界领先的多模态创意引擎。支持多参考图输入、生成系列组图、指令编辑、交互框选编辑等功能,可高度还原原图特征,实现无损编辑。来源:即梦AI
爱诗科技完成6000万美元B轮融资,阿里巴巴领投
AI视频生成领军企业爱诗科技宣布完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市人工智能产业投资基金等跟投。自研PixVerse V5模型位居Artificial Analysis图生视频榜首,产品PixVerse(拍我AI)入选a16z“全球Top 50生成式AI消费移动应用”榜单第25位。此轮融资将助力公司技术研发和市场拓展,推动AI视频生成技术的普惠。来源:爱诗科技AIsphere
混元生图模型开源升级2.1版本:支持写字、2k分辨率
腾讯混元发布开源文生图模型“混元图像2.1(HunyuanImage 2.1)”。模型支持原生2K生图,在复杂语义理解、跨领域泛化、美学表现和适用场景多样性等方面显著提升。支持中英文输入,可生成高保真插画、海报、漫画等,能对图像文字进行精细控制。来源:腾讯混元
具身智能关节厂商「灵足时代」连续完成Pre-A&Pre-A+千万元融资
具身智能关节厂商灵足时代已完成Pre-A&Pre-A+两轮数千万元融资,Pre-A轮由红杉种子领投,弘晖基金和兴牛资本等跟投;Pre-A+轮由弘晖独家投资。灵足时代成立于2023年11月,主营业务为一体化关节模组产业应用。来源:36氪
腾讯发布自研AI CLI:CodeBuddy Code,国内首家支持全形态AI编程工具
腾讯发布全新AI CLI工具CodeBuddy Code,腾讯云成为业内首家同时支持插件、IDE和CLI三种形态的AI编程工具厂商。CodeBuddy Code支持在命令行中用自然语言驱动开发全流程,实现极致自动化。无缝融入现有流程,开箱即用,扩展性强,可自动化复杂任务。来源:腾讯云
星火电脑版全新升级!年轻人的AI“硬核装备”
讯飞星火电脑版全新上线。升级聚焦垂直场景,涵盖AI写作、解题答疑、AI阅读、深度研究等实用功能。新版本界面简洁流畅,操作便捷,成为用户的“有颜有才”AI伙伴。解题答疑功能可逐步引导思考或展示完整解题步骤;AI写作覆盖60+场景;AI阅读能一键总结网页或文档内容;深度研究可自动搭建研究框架,输出专业报告。来源:讯飞开放平台
生数科技全球上线Vidu Q1参考生图,打造真正可用生产力工具
生数科技正式向大众用户开放其视频大模型Vidu的Q1参考生图功能。功能以“参考够多,还原够真”为核心,支持最多7张参考图输入,可实现多主体一致性、高还原度、自由创作等五大亮点。Vidu Q1参考生图覆盖合成、替换、变换三大生成模式,适配多主体复杂场景,大幅降低AI内容生产门槛。来源:生数ShengShu
听得清,识得准,语音识别模型Qwen3-ASR-Flash来了
通义千问团队发布了Qwen3-ASR-Flash语音识别模型。模型基于Qwen3基座模型,经海量数据训练而成,支持11种语言及多种口音,支持歌声识别。核心特性包括领先的识别准确率、惊艳的歌声识别能力、定制化识别、语种识别与非人声拒识以及高鲁棒性。来源:通义千问Qwen
Seedream 4.0 全量上线,扣子空间100+官方模版打包送!
Seedream 4.0全量上线扣子空间,带来多种玩法。用户可实现多图无缝融合,创作手办、周边、装潢装置设计等,还能穿越多种场景、融入指定图片、出演漫画主角、制作系列表情包。在文字能力提升方面,可精准修改海报,生成不同风格作品。来源:扣子Coze
百度最强深度思考模型文心大模型X1.1来了!性能追平GPT-5
在百度Wave Summit深度学习开发者大会上,百度发布文心大模型X1.1、飞桨框架V3.2、文心快码3.5S等。文心大模型X1.1事实性能力提升34.8%,指令遵循能力提升12.5%,智能体能力提升9.6%,在多项基准测试中超越DeepSeek-R1-0528,效果与GPT-5和Gemini 2.5 Pro基本持平。来源:智东西
告别服务中断焦虑!LongCat API 开放平台为开发者保驾护航
美团LongCat团队推出「LongCat API开放平台」,为受美国大模型公司Anthropic停止服务影响的在华企业和开发者提供平滑迁移方案。平台每日提供10万免费tokens,支持OpenAI API和Anthropic API两种格式,开发者可轻松从Claude切换至LongCat-Flash-Chat模型。来源:LongCat
专为“超大模型而生”,新一代训练引擎 XTuner V1 开源
上海人工智能实验室开源了书生大模型新一代训练引擎XTuner V1。XTuner V1基于PyTorch FSDP开发,针对超大规模稀疏混合专家(MoE)模型训练进行了优化,可支持1T参数量级MoE模型训练,在200B以上量级混合专家模型上实现训练吞吐超越传统3D并行训练方案。来源:书生Intern
跨赴科技完成数千万元Pre-A轮融资
AI Coding初创公司跨赴科技完成数千万元Pre-A轮融资,由复星锐正领投,奇绩创坛跟投。跨赴科技成立于2023年,专注于端到端全流程智能开发,其平台“码上飞”可让用户通过自然语言生成应用程序,已生成超160亿行代码。本轮融资将用于技术研发、人才引进和海外市场拓展,推动普惠数字化和全球市场布局。来源:KuaFuAI
首款能交付真实法律任务的AI律师智能体——吾律AI律师
幂律智能推出首款能交付真实法律任务的AI律师智能体吾律AI律师。吾律能模拟专业律师的沟通逻辑与思维模式,实现多轮深度对话,为用户提供定制化法律服务。可直接交付可执行成果,如合同审查、函件发送、律师函盖章、案情分析报告等,让法律事务像点外卖一样简单。来源:AI工具集
基座上新:MiniCPM 4.1 将「高效深思考」引入端侧
面壁智能发布MiniCPM 4.1基座模型。模型在MiniCPM 4.0基础上新增8B参数的原生稀疏架构深思考模型,推理速度比同尺寸开源模型快3倍以上,综合能力达同级SOTA水平。MiniCPM 4.1支持高效双频换挡,长文本用稀疏,短文本用稠密,推理效能高,长文本缓存锐减,端侧友好。来源:面壁智能
自变量机器人宣布完成近10亿元A+轮融资,阿里云首次出手具身创企
自变量机器人宣布完成近10亿元A+轮融资,由阿里云、国科投资领投,国开金融、红杉中国等跟投。是阿里云首次投资具身智能公司。资金将用于其全自研通用具身智能基础模型的持续训练及硬件产品研发迭代。来源:智东西
「Ropet萌友智能」完成数千万A1轮融资
AI机器萌宠公司萌友智能(Ropet)完成数千万人民币A1轮融资,由北京市人工智能产业投资基金领投,峰瑞资本跟投。公司成立于2022年,致力于打造AI情感化陪伴机器萌宠产品。其首代桌面机器萌宠“kamomo”在Kickstarter众筹40万美元,入选年度最佳AI消费硬件之一。来源:36氪
阿里云通义发布Qwen3-Max-Preview 强得不止一点
阿里云发布Qwen3-Max-Preview,参数量达1T,性能显著提升。新版本在中英文理解、复杂指令遵循和工具调用等方面大幅增强,知识幻觉大幅减少。在Arena-Hard v2基准测试中领跑,在AIME25测试中获80.6分,展现强大逻辑思维。来源:通义大模型
字节跳动发布即梦图片 4.0 首次支持多模态生图
字节跳动即梦AI发布即梦图片4.0。是首次支持多模态生图的版本,同一模型可实现文生图、图像编辑和组图生成。文生图功能有更强指令遵循、更高分辨率和更快生成速度;图像编辑可通过自然语言指令对单/多张图片进行修改;组图生成可一次性生成多张关联图像。来源:AI工具集
Kimi K2-0905正式发布,带来更强的代码能力、更快的 API
月之暗面科技有限公司正式发布Kimi K2-0905。新版本在真实编程任务中表现提升,具体包括:Agentic Coding能力增强,在基准测试和实际任务中性能更好;前端编程体验升级,代码更美观实用;上下文长度从128K扩展到256K,支持复杂长线任务;新增高速版API,输出速度达60-100 Token/s。来源:月之暗面 Kimi
智谱推出「Claude API 用户特别搬家计划」
美国大模型公司Anthropic宣布停止向多数股权由中国资本持有的集团出售Claude服务。智谱推出“Claude API用户特别搬家计划”,帮助开发者无缝切换至智谱GLM模型API。智谱已全面兼容Claude协议,用户只需替换API URL即可完成迁移。智谱为新用户提供2000万Tokens免费体验,开发者可享受更低价格、更高性能的GLM-4.5编码专属套餐。来源:智谱
Atlassian以 6.1 亿美元全现金收购The Browser Company
全球首家AI浏览器公司The Browser Company被软件公司Atlassian以6.1亿美元全现金收购。公司曾开发Arc浏览器,后转向打造AI原生浏览器Dia。Dia主打将浏览与对话结合,能跨标签搬运数据、总结文档等。收购后,Dia将继续独立运营,Atlassian计划将其打造成“AI时代知识型工作浏览器”。来源:极客公园
Anthropic加强服务限制:禁止受中国等地区控制的实体使用其技术
Anthropic更新了其服务条款,加强对不受支持地区的销售限制。此前,尽管条款禁止某些地区(如中国)使用其服务,但仍有公司通过在其他国家设立子公司等方式获取Anthropic的服务。Anthropic指出,这些公司可能面临法律要求,迫使其共享数据或与情报机构合作,从而带来国家安全风险。来源:Anthropic
杨植麟又发大模型!Kimi K2-0905登场,更强编程、创意写作
北京大模型独角兽月之暗面发布新版本Kimi K2-0905模型。模型在编程能力上进行了升级,上下文长度提升至256K,创意写作能力也有所增强,同时兼容Claude Code,支持前端功能解锁,让网页和图表更美观。来源:智东西
MetaGPT发布新型AI开发能力评估基准RealDevWorld
MetaGPT推出用户智能体,开启端到端自主软件测试新范式。智能体具备双重身份,既是产品经理严格验收,又是不知疲倦的AI测试工程师,实现全链路自主化。研究团队发布RealDevWorld框架,包含194个软件开发任务数据集RealDevBench和评估智能体AppEvalPilot。来源:AI工具集
瑞士发布国家级开源大语言模型Apertus
瑞士发布国家级开源大语言模型Apertus。模型由瑞士洛桑联邦理工学院等机构联合打造,完全开源,训练数据涵盖超1000种语言,总token量达15万亿,非英语数据占比40%。目前推出80亿参数和700亿参数两个版本。来源:AI工具集
Anthropic宣布完成130亿美元(约928亿元)F轮融资
AI独角兽Anthropic完成130亿美元F轮融资,估值达1830亿美元,成为全球第三大AI独角兽,仅次于字节跳动和OpenAI。AI编程工具Claude Code是增长主力,3个月使用量增长超10倍,创造超5亿美元年收入。本轮融资由多家知名风投和主权基金领投,将用于扩大企业采用规模、深化安全研究及支持国际扩张。来源:智东西
谷歌垄断案获“阶段性胜利”,Alphabet盘后涨近7%
美国地区法官作出关键裁定,在谷歌母公司Alphabet的反垄断审判中,谷歌无需剥离Chrome浏览器与安卓系统,也可继续向苹果等合作伙伴支付默认搜索引擎费用。消息发布后,Alphabet股价在盘后交易中大涨近6.7%。法院仅要求谷歌向竞争对手共享部分搜索数据,以改善市场竞争环境。来源:第一财经
混元世界模型上新:混元Voyager,综合能力问鼎WorldScore排行榜
腾讯发布混元3D世界模型系列新成员——HunyuanWorld-Voyager。模型是业界首个支持原生3D重建的超长漫游世界模型,可生成长距离、世界一致的漫游场景,突破传统视频生成局限。支持3D输入输出,与混元世界模型1.0高度适配,可扩展漫游范围、提升生成质量,支持多种3D应用。来源:腾讯混元
开发更可控,部署更便捷:AgentScope 迈入1.0时代
通义实验室推出新一代智能体开发框架AgentScope 1.0。解决智能体构建、运行和管理中的难题,提供覆盖“开发、部署、监控”全生命周期的生产级解决方案。采用三层技术架构:AgentScope核心框架负责智能体构建与应用编排;AgentScope Runtime提供安全可靠的运行和部署环境;AgentScope Studio提供可视化开发与监控工具。来源:通义大模型
拿下30个第1名的腾讯混元翻译模型Hunyuan-MT-7B,开源
腾讯混元Hunyuan-MT-7B翻译模型开源。模型参数量仅7B,支持33个语种及5种民汉语言/方言互译。在国际机器翻译比赛WMT2025中拿下30个第1名,推出业界首个翻译集成模型Hunyuan-MT-Chimera-7B,可生成更优翻译结果。Hunyuan-MT-7B计算效率高、部署友好,已接入腾讯多个业务,助力产品体验提升。来源:腾讯混元
美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
美团发布并开源 LongCat-Flash-Chat,采用混合专家模型架构的 AI 模型,总参数量达 560B,平均激活参数 27B。在性能上比肩主流模型,尤其在智能体任务中表现突出,推理速度更快,适合复杂智能体应用。可以访问官方平台 Longcat AI,与 LongCat-Flash-Chat 开启对话。来源:Longcat
GLM-4.5编码套餐:20元包月,人人畅享全球顶级Claude Code编码体验
智谱推出限时「GLM Coding Plan」套餐,月费低至20元,降低AI编码工具使用门槛。GLM-4.5在前端开发、跨文件修改、全栈项目构建等场景表现出色,性能接近Claude Sonnet 4,成本仅为其1.5%。在CC-Bench评测中,GLM-4.5在开源模型中表现优异,性价比高。来源:智谱
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
阶跃星辰发布开源端到端语音大模型 Step-Audio 2 mini,模型在多个国际基准测试集上取得 SOTA 成绩。将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,率先支持语音原生的 Tool Calling 能力,可实现联网搜索等操作。来源:阶跃星辰
微软推出自研 AI 模型:MAI-Voice-1 秒级生成音频
微软推出首批两款自研 AI 模型 MAI-Voice-1 和 MAI-1-preview。MAI-Voice-1 仅需单块 GPU,1 秒内可生成 1 分钟音频,已应用于“Copilot Daily”等,用户可在 Copilot Labs 平台体验并自定义音色与风格。MAI-1-preview 专为特定需求用户设计,训练使用约 1.5 万块英伟达 H100 GPU,具备遵循指令的能力。来源:AI工具集
智平方完成新一轮A系列融资,由深创投领投
智平方完成新一轮A系列融资,由深创投领投,金额超亿元。老股东敦鸿资产、国投创盈等持续加码,华熙生物等产业资本参与。本轮融资将用于GOVLA大模型及AlphaBot系列机器人的迭代、产线扩容与市场拓展。来源:智东西
OpenAI发布语音AI Agent专用模型GPT-realtime
OpenAI发布语音模型GPT-realtime。模型是专用于语音AI Agent的多模态模型,可生成自然流畅语音,完美模仿人类语调、情感和语速,支持图像理解并与语音或文本对话结合。新增Marin与Cedar两种语音,升级原有8种语音,具备智力、推理和理解能力,能捕捉非语言信号、切换语言和调整语气。来源:AI工具集
真·深度长文写作,上扣子空间!
扣子空间推出深度长文写作加速器,助力高效创作。用户可一键生成从选题到排版的全链路内容,涵盖研究论文、行业报告等多类型。平台提供高质信息源,支持深度思考与真实数据引用。其生成内容抛弃模板化,搭配专属洞察,风格多样,如专业分析、散文游记等。用户还可二次修改,管理文档版本。来源:扣子Coze
海螺首尾帧正式上线,「AI海龟汤·帧间宇宙」挑战赛来袭!
海螺AI全球上线首尾帧功能,接入Hailuo 02模型,支持复杂指令遵循、极限物理动态、大幅度运镜、超预期想象力及仅尾帧玩法。来源:海螺AI
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
美团M17团队推出全新评测基准Meeseeks,专注于大模型指令遵循能力的系统化研究与精准评估。该评测基准基于真实业务数据构建,采用精细化的三级评测框架,从任务核心意图、具体约束类型到细粒度规则,全面衡量模型的指令遵循能力。Meeseeks还引入“多轮纠错”模式,首次将模型的自我纠错能力纳入评测范畴。来源:美团技术团队
xAI 推出智能代码生成模型 Grok Code Fast 1
埃隆·马斯克旗下xAI发布智能代码生成模型Grok Code Fast 1。模型采用全新架构,擅长TypeScript、Python等语言,可处理从新项目构建到漏洞修复的多种任务。定价为每百万输入token 0.20美元,输出token 1.50美元,缓存输入token 0.02美元,限时免费开放给主流智能编程平台用户。来源:AI工具集
问小白5 重磅发布:国产大模型实力对标 GPT-5
问小白团队发布最新旗舰模型——问小白5。模型在智能水平上取得重大突破,成为国产大模型中智能水平最接近GPT-5的标杆之作。在AA-Index综合性能评测中,问小白5以64.7分超过Gemini2.5 Pro,接近GPT-5。其在STEM能力、前沿知识能力、代码编程能力以及指令遵循能力等多个维度均展现出卓越表现,分别获得86分、17.7分、79.2分和58.1分的高分。来源:问小白
混元开源又+1:HunyuanVideo-Foley,视频音效可以自动生成了
腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley。只需输入视频和文字,能为视频匹配电影级音效,解决了AI生成视频只能“看”不能“听”的问题。HunyuanVideo-Foley具有三大核心亮点:强大的泛化能力,可适配多种视频类型;多模态语义均衡响应,结合视频画面和文字描述生成复合音效;专业级音频保真度,提升音效质量。来源:腾讯混元
阿里巴巴发布首个数据分析Agent:Quick BI,人人拥有AI分析师
阿里巴巴旗下瓴羊发布首个数据分析Agent,Quick BI里的“智能小Q”升级为由问数、解读和报告三大核心Agent组成的“超级数据分析师”。Agent可快速获取、解读数据并输出洞察报告,将数据获取时间从一天缩短至10秒,报告生成时间从数天缩短至20分钟。来源:瓴羊DaaS
PixVerse V5 全新模型上线:把创作门槛再拍下去几厘米
PixVerse V5全球同步上线,此次更新聚焦于提升用户高频生成场景的视频效果,如复杂运动中主体不再违背重力、动漫同人创作细节更到位、广告制作文案不再“横飞”等。根据权威独立测评平台Artificial Analysis的最新测试结果,PixVerse V5在图生视频项目中排名全球Top2,在文生视频项目中位列Top3,保持在全球第一梯队。来源:爱诗科技 AIsphere
全球首款!浙大一院、阿里发布“平扫CT+AI”主动脉急诊模型iAorta
浙江大学医学院附属第一医院与阿里巴巴达摩院发布全球首款“平扫CT+AI”主动脉急诊模型iAorta。模型可在几秒内识别急性主动脉综合征,将确诊时间缩短至2小时内,显著降低漏诊率。研究团队通过回顾性分析发现,传统方法初诊漏诊率达48.8%,iAorta可将漏诊率降至4.8%。来源:阿里巴巴
Claude for Chrome来了!可作为浏览器扩展程序直接使用
Anthropic发布Claude for Chrome,一款作为浏览器扩展程序的AI工具。可在Chrome侧边窗口与用户对话,执行任务如设置日历、回复邮件等。目前仅向1000名Max套餐用户开放,月费100至200美元。安全是其重点,用户可限制其访问特定网站,且高风险操作需用户许可。来源:量子位
字节跳动推出新一代AI视频生成模型Waver 1.0
字节跳动推出了新一代AI视频生成模型Waver 1.0,基于修正流Transformer架构,支持文本到视频、图像到视频和文本到图像的生成,无需切换模型。支持最高1080p分辨率和2-10秒的灵活视频长度,擅长捕捉复杂运动,生成的视频在运动幅度和时间一致性上表现出色。来源:AI工具集
多模态新旗舰MiniCPM-V 4.5:高刷视频理解又准又快
面壁科技开源了8B参数多模态旗舰模型MiniCPM-V 4.5,是首个具备高刷视频理解能力的端侧多模态模型。模型在高刷视频理解、长视频理解、图片理解、OCR、文档解析等多个领域表现优异,甚至在一些榜单上超越了72B参数的Qwen2.5-VL。来源:面壁小钢炮MiniCPM
谷歌推出图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana)
谷歌正式推出最新的图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana),模型在多个榜单上名列前茅,表现出色。主要特点包括保持角色一致性、基于提示的图片编辑、利用Gemini的现实世界知识进行推理以及多幅图像融合。已通过Gemini APP、API、Google AI Studio和Vertex AI开放访问,每张图片生成成本约0.039美元。来源:APPSO
Wan2.2-S2V开源!图片+音频丝滑生成电影级视频
通义万相开源了全新多模态视频生成模型「Wan2.2-S2V」。模型仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,大幅提升数字人直播、影视制作等行业的视频创作效率。模型支持真人、卡通、动物等多种图片类型,可通过文本控制视频画面。来源:通义万相Wan
文心快码多项升级更新,新增Zulu-CLI终端编码能力
文心快码进行了多项升级更新,新增了Zulu-CLI,允许开发者在终端中使用Zulu的智能编码能力,无需离开命令行界面。企业版支持自定义模型,可根据不同场景灵活切换模型。来源:文心快码Baidu Comate
微软开源TTS模型:VibeVoice,可生成 90 分钟语音
微软开源了文本转语音(TTS)模型VibeVoice-1.5B,可生成最长90分钟、最多4位说话者的自然语音,支持跨语言及歌声合成。模型基于1.5B参数的Qwen2.5语言模型,结合声学与语义双分词器,以7.5Hz低帧率处理。来源:AI工具集
“杭州六小龙”又开源了!SpatialGen一句话爆改空间设计
“杭州六小龙”之一的群核科技宣布开源3D场景生成模型SpatialGen,并即将开源空间语言模型SpatialLM 1.5。模型能通过文字描述或户型图生成可交互的3D室内空间设计,支持动态漫游和细节编辑,甚至可用于具身智能机器人的虚拟训练。来源:智东西
英伟达全新的机器人计算平台Jetson Thor正式发售
英伟达推出全新机器人计算平台Jetson Thor,基于Blackwell GPU架构,AI算力达2070 TFLOPS,比上一代提升7.5倍,能效提高3.5倍,配备128GB超大内存。该平台支持多种生成式AI框架,助力开发者构建与物理世界交互的机器人系统。来源:量子位
哈工大深圳具身智能黑马,拿下亿元级融资,东方精工领投
若愚科技宣布完成新一轮亿元级天使 + 轮融资,由东方精工领投,深圳汉清达投资发展有限公司跟投。本轮融资将用于具身智能机器人大脑在垂直场景的产业化落地。若愚科技孵化自哈尔滨工业大学(深圳),专注于具身智能机器人大脑研发,通过多模态大模型整合感知、规划与执行模块,构建高效智能交互体系。来源:若愚科技
钉钉CEO无招:为AI时代打造一个全新的钉钉
钉钉在十周年发布会上推出8.0版本,代号“蕨”,标志着其正式走向AI原生。AI方面,钉钉推出五大产品,包括钉钉ONE、DingTalk A1、AI听记、AI搜问和AI表格,全面升级语音智能、搜索和表格功能,同时在客服、营销、教育等场景中深度应用AI,提升效率与体验。来源:钉钉
会头脑风暴的 AI — 国内首个并行思考模型 问小白o4 来啦!
国内首个并行思考模型问小白o4上线。模型可同时开启8条思考路径,自动筛选最优解,大幅提升答案精准度。问小白o4采用第四代开源推理范式,融合强化学习与过程奖励学习机制,具备深度推理与高质量思考筛选能力。来源:问小白
Looki L1 国行版上市计划
Looki L1 国行版计划于2025年第四季度上市。自全球上线以来,产品受到广泛关注,尤其在国内,众多用户表达了对它的喜爱与期待。目前,Looki L1 正在进行本地化部署与适配工作,以确保国内用户获得成熟、流畅且贴合本地使用习惯的体验。来源:LookiAI
打造“AI版Labubu”,深圳AI硬件创企跃然创新获2亿融资
国内AI玩具龙头企业跃然创新(Haivivi)宣布完成2亿元A轮融资,由中金资本旗下基金、红杉中国等领投。跃然创新成立于2021年,由前锤子手机营销总监李勇创办,打造AI玩具。2024年6月,推出全球首款AI玩具BubblePal,融合多语言对话、AI故事共创等功能,首月售出超万台,总销量突破20万台。来源:智东西
首款类人决策智能体Bloom,获高瓴光速数千万美元投资
前阿里云高管占超群创立的质变科技发布首款类人决策智能体Bloom。获得高瓴创投与光速光合数千万美元投资。Bloom解决复杂数据分析和决策场景中的准确性、可解释性和可用性问题,采用智能体团队协作、可解释性技术栈和端到端结果级交付等创新方式,推动AI成为更可靠的生产力工具。来源:Z Finance
马斯克开源Grok 2.5:中国公司才是xAI最大对手
马斯克宣布xAI开源Grok 2.5,Grok 3也将在半年后开源。Grok 2.5可在HuggingFace下载,包含42个文件,大小约500GB,需8个超40GB显存的GPU运行。模型曾在LMSYS排行榜上超越Claude和GPT-4,在多领域表现优异。开源协议较严格,仅限非商业用途。来源:量子位
Meta 与 Midjourney 达成美学技术授权合作
Meta与AI文生图片/视频研究团队Midjourney达成授权合作。Meta未来AI模型和产品将使用Midjourney的美学技术。Meta首席AI官Alexandr Wang在Threads上宣布了这一合作,称赞Midjourney在AI技术和美学表现上的成就。此次合作是Meta联合其他AI参与者实现优势互补的策略之一,也是其扩大AI技术资源储备的行动的一部分。来源:IT之家
阿里巴巴推出 AI Agentic 编程工具:Qoder,预览阶段全功能免费开放
阿里巴巴推出AI编程工具 Qoder ,具备代码库语义搜索、架构洞察、持续记忆、动态模型路由等功能,支持自然语言任务委派与一键“维基化”代码库。预览阶段全功能免费开放。传统编程工具只是帮你“写代码”,Qoder 则像一个“读过你全部代码、记得你全部习惯、能跨系统替你干活”的资深同事。来源:AI工具集
钉钉联手通义推出Fun-ASR语音识别大模型,可听懂十大行业黑话
钉钉与通义实验室语音团队联合推出新一代语音识别大模型 Fun-ASR。模型经过上亿小时音频数据训练,可精准识别家装、畜牧等十大行业的专业术语,实测在保险、家装等行业准确率提升 15%-20%。Fun-ASR 能结合企业信息优化转写结果,支持企业专属定制训练,已集成至钉钉会议字幕、智能纪要等功能模块。来源:钉钉黑板报
阿里云和五所高校一起,共同打造了一门免费AI课程!
阿里云联合超星尔雅及北京大学、南京大学、复旦大学、上海交通大学、浙江大学五所高校名师,共同推出 AI 通识公益系列课程「动手学 AI:人工智能通识与实践」,将于 9 月 1 日正式开放。课程依托阿里云技术,采用“学 – 练 – 评 – 管”模式,分为理论课和在线实践课,涵盖 AI 发展历程、核心技术等内容,设置 8 个实验环节。来源:阿里云
CodeBuddy IDE 国内版正式开放公测!无需邀请码
CodeBuddy IDE 国内版正式开放公测,支持最新 DeepSeek V3.1 模型,无需邀请码即可免费使用。IDE 提供一站式开发体验,涵盖产品设计、研发编码和部署验证等功能。DeepSeek V3.1 在编程能力、Agent 能力、思考效率和长文本处理能力上均有显著提升,尤其在 Aider 编程基准测试中超越多个开源模型。来源:腾讯云代码助手
字节跳动Seed开源Seed-OSS-36B模型,512k上下文
字节跳动Seed团队开源了Seed-OSS系列模型,包含360亿参数的Base和Instruct版本,支持最长512k上下文窗口,是目前开源模型中最长的。模型使用12万亿tokens训练,在多个基准测试中表现优异,如AIME24上达91.7%。其推理预算功能允许用户灵活调整推理长度,提升效率。来源:机器之心
轻量级易开发,8B参数释放大实力!科学多模态模型Intern-S1-mini开源
上海人工智能实验室推出轻量化科学多模态模型Intern-S1-mini。模型参数为8B,兼具通用与专业科学能力,适合快速部署和二次开发。Intern-S1-mini在多项权威基准测试中表现卓越,尤其在化学、材料等领域显著领先,强大的跨领域泛化能力。轻量化设计降低了对高端计算设备的依赖,仅需24GB单卡即可完成微调。来源:书生Intern
vivo首款MR头显vivo Vision,硬刚苹果,全球最轻,眼手交互,预约名额秒空
vivo正式发布首款MR头显——vivo Vision探索版,正式进军XR赛道。该头显重量仅398克,比苹果AirPods Max耳机还轻,搭载双目8K Micro-OLED屏幕,支持眼动追踪和手势交互,VST全彩透视延迟低至13ms。vivo Vision探索版支持PC VR无线连接、多窗口办公等功能。来源:智东西
前美团硬件负责人创业,做了一款项链式的“AI相机”:Looki L1
前美团硬件负责人孙洋创立的「光智时空Looki」发布首款多模态AI穿戴设备——Looki L1。这是一款仅重30克的AI生活相机,可磁吸或佩戴于脖子上,具备视觉和听觉感知能力,结合云端大模型为用户提供主动式服务。来源:智能涌现
金数据发布 Jiri AI表单助手,把想法变成专业表单
金数据推出名为Jiri的AI表单助手。Jiri能根据用户描述秒懂需求,自动生成表单字段组合,自动撰写专业文案,智能匹配高清头图,能根据用户反馈随时修改调整。用户可以通过一句话描述、粘贴内容、上传图片或链接等多种方式生成表单。来源:金数据
百度推出蒸汽机MuseSteamer 2.0版本
百度将推出蒸汽机MuseSteamer 2.0版本,包括Turbo、Lite、Pro和有声版全系模型,具备多人音视频一体化生成、复杂运镜、电影级人物表演等能力,将在影视创作、客户营销等多场景应用。官方应用平台为绘想,自7月2日上线以来,注册用户超30万。来源:AI工具集
腾讯开源ToonComposer:能生成一部完整的动画短片
腾讯 ARC 实验室联合北京大学、香港中文大学开源了 ToonComposer。仅需 1 张关键帧草图和 1 张彩色参考图,能生成完整的上色动画,能通过文本、草图、图片混合输入,一键转换为多种卡通风格动画。来源:AI工具集
ChatExcel获近千万天使轮融资,打造数据全链路商业闭环平台
ChatExcel团队宣布完成近千万天使轮融资,投资方为上海常垒资本和武汉东湖天使基金。ChatExcel由北京大学团队创立,是国内领先的生成式AI表格处理与数据智能体,累计服务用户超千万次。此次融资将用于加速产品研发迭代和全球化市场推广。来源:元空AIExcel
DeepSeek 开源新模型 V3.1,上下文长度拓展至 128K
DeepSeek宣布开源新基础模型DeepSeek-V3.1-Base。模型在Hugging Face发布后迅速冲上热门模型榜第4位。DeepSeek-V3.1-Base采用混合专家(MoE)架构,上下文长度拓展至128k,与V3版本参数量相同。来源:AI工具集
智谱AutoGLM上线:给每个手机都装上通用Agent
智谱AutoGLM 2.0正式上线,作为全球首个手机Agent,开创了Agent+云手机/云电脑的新技术范式,不占用用户本地设备资源,可在任何设备和场景下运行。AutoGLM 2.0由国产模型GLM-4.5和GLM-4.5V驱动,具备推理、代码与多模态能力,可完成多样化任务,如在生活场景中操作美团、京东等应用,或在办公场景中完成全流程工作。来源:智谱
Firecrawl融资1450万美元:AI爬虫独角兽盈利突围,百万美元悬赏“AI员工”
AI爬虫公司Firecrawl完成1450万美元A轮融资,由Nexus Venture Partners领投,Shopify首席执行官Tobias Lütke和Y Combinator跟投。Firecrawl为开发者和AI智能体提供开源网络爬虫工具,通过API提供商业支持版本。来源:AI工具集
哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦
Qwen团队推出全能图像编辑模型Qwen-Image-Edit。模型基于20B参数的Qwen-Image模型进一步训练,具备语义与外观双重编辑能力,支持中英文双语文字精准编辑,可实现原创IP创作、视角转换、风格迁移、元素增删改等功能。来源:通义千问Qwen
淘天集团发布首个 3D 动作游戏专用 VLA 模型
淘天集团未来生活实验室团队发布了首个3D动作游戏专用的视觉-语言-动作(VLA)模型CombatVLA,模型在动作角色扮演游戏的战斗任务中,成功率超越了人类玩家和GPT-4o。CombatVLA基于3B参数规模,通过动作追踪器收集的视频-动作对进行训练,采用渐进式学习范式,逐步从视频级到帧级优化动作生成。来源:IT之家
AI 助手理想同学MindGPT 3.1来了,模型即Agent,就是现在!
理想汽车旗下AI助手理想同学MindGPT 3.1升级为端到端智能体模型,引入模型即Agent功能,将智能体能力融入大模型,支持边想边搜,提升推理能力。新版本通过自主思考、调用工具、进一步推理的循环机制优化复杂任务处理,显著提高任务完成率。来源:AI理想同学
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
快手 Klear 团队推出 Klear-Reasoner 语言大模型,在 8B 模型中登顶,数学与代码推理能力突出。模型基于 Qwen3-8B-Base 打造,采用 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,有效平衡训练稳定性和探索能力。来源:快手技术
淘宝灰度测试“AI 万能搜”新功能
淘宝正在灰度测试“AI 万能搜”新功能,功能位于淘宝 App 搜索页面,支持用户通过自然语言提问,AI 将生成包含文字、商品、图片和视频的“答案报告”,帮助解决购物攻略、口碑评测、优惠咨询等问题。来源:IT之家
逗逗AI 1.0发布:为了实现HER中的AI陪伴体验,我们做了三件事
逗逗AI 1.0版本正式上线。打造“陪你游戏的AI伙伴”,通过无扰陪伴、实时感知和长效记忆三大创新功能,为用户提供深度陪伴体验。逗逗AI采用桌宠和悬浮球双模式,支持实时语音交互,具备视觉和听觉感知能力,能将多模态信息融合为场景记忆。来源:逗逗游戏伙伴
腾讯AI Lab团队推出的多模态音频生成工具AudioGenie
腾讯团队提出了一种全新的多智能体框架AudioGenie,用于从多模态输入(如视频、文本、图像)生成多样化且上下文对齐的音频类型(如音效、语音、音乐和歌曲)。采用双层架构,包含生成团队和监督团队。来源:AI工具集
智元机器人全系产品正式开售!领衔人机共生新时代
智元机器人宣布其全系产品正式开售,涵盖六大机器人产品线。精灵G1通用具身智能机器人售价45万元,具备高质量数据集和软硬件开发支持,适用于科研教育、数据采集和垂域场景训练。智元远征A2青春版售价16.8万元,具备文娱表演、展厅讲解等功能。来源:智元机器人
上交投资的首家语音大模型宇生月伴完成数千万元融资
情感语音交互模型初创公司宇生月伴完成新一轮融资,由靖亚资本和小苗朗程领投,上海交大母基金跟投。本轮融资将用于语音模型优化、产品矩阵拓展及国际化商业落地。来源:Z Finance
Anthropic为Claude赋予“结束聊天”能力
Anthropic宣布为Claude Opus 4及4.1版本推出新功能,模型可在极少数情况下主动结束对话。功能针对持续性有害或辱骂性互动,如用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic强调,此举旨在保护AI模型本身,同时与模型对齐和安全措施相关。来源:IT之家
Mureka V7.5模型上线,AI音乐创作水平再迎新高度
昆仑万维正式上线Mureka V7.5模型。模型在中文歌曲创作上取得重大突破,提升了音色与演奏技法,优化了咬字和情感表现。通过ASR技术精准捕捉演唱细节,使AI演绎的歌曲更贴近真人演唱,显著增强了自然度和情感深度。来源:昆仑万维集团
消费级显卡就能跑的世界模型来了,腾讯混元3D世界模型推出Lite版本
腾讯混元3D世界模型1.0推出Lite版本,大幅降低显存开销,支持消费级显卡运行。模型是业界首个开源可编辑的世界生成模型,用户可通过文本或图片输入生成可漫游的3D世界。Lite版本采用动态FP8量化、SageAttention量化及Cache算法优化,显存需求从26GB降至17GB以下,推理速度提升3倍以上。来源:腾讯混元
会记住你说的每句话:谷歌 AI Gemini App 上线记忆功能
谷歌Gemini AI助手App新增“记忆”与“临时聊天”功能。开启“记忆”功能后,Gemini可记住用户对话内容及偏好,实现更自然的交流,目前该功能已向部分国家或地区的Gemini 2.5 Pro用户开放,将在未来几周内推广至欧盟、英国、瑞士等地区的Gemini 2.5 Flash用户。来源:IT之家
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
Meta推出并开源了DINOv3,基于自监督学习的SOTA级视觉基础模型。DINOv3在多个视觉任务中首次超越弱监督学习模型,训练数据量达17亿张图像,模型参数规模达70亿,创新的自监督学习技术摆脱了对标注数据的依赖,降低了训练成本。来源:机器之心
智元推出首个机器人世界模型开源平台 Genie Envisioner
智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner(GE)。GE基于约3000小时真实机器人操控视频数据,整合未来帧预测、策略学习与仿真评估,形成闭环架构,使机器人实现从“看”到“想”再到“动”的端到端推理与执行。来源:IT之家
解锁任意模态模型训练,字节跳动Seed开源VeOmni框架
字节跳动Seed团队开源了全模态PyTorch原生训练框架VeOmni,推动全模态大模型的研究与应用。VeOmni采用以模型为中心的分布式训练方案,将复杂的分布式并行逻辑与模型计算解耦,大幅降低工程开销,提升训练效率和扩展性。来源:字节跳动Seed
混元最新开源:Hunyuan-GameCraft,一张图,秒变游戏大片
腾讯混元开源新工具 Hunyuan-GameCraft,可将一张图片结合文字描述和动作指令生成高清动态游戏视频。工具基于 HunyuanVideo 底模,支持第一人称跑酷、第三人称探险等多种场景,具备自由流畅的动作控制、记忆增强的历史一致性以及低成本生产优势。来源:腾讯混元
昆仑万维正式发布Skywork Deep Research Agent v2
昆仑万维发布 Skywork Deep Research Agent v2,是天工超级智能体的核心引擎。新版本首次整合多模态检索、理解和生成能力,推出“多模态深度调研”Agent,可将图文信息完整整合到深度研究中,提升交付物质量。来源:昆仑万维集团
「Skywork UniPic 2.0」开源,统一多模态模型再迎新突破
昆仑万维正式开源「Skywork UniPic 2.0」模型,是面向统一多模态建模的高效训练和推理框架。模型由生图编辑、统一模型能力和生图编辑后训练三个核心模块组成,具备生成模块轻量高效、引入强化学习提升性能和一体化灵活切换等核心优势。来源:昆仑万维集团
Anthropic宣布Claude Sonnet 4支持高达100万Token的上下文窗口
Anthropic宣布Claude Sonnet 4 API支持高达100万Token的上下文窗口,容量是之前的5倍。开发者可在单次请求中处理大型代码库或数十篇研究论文。来源:AI工具集
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
OpenAI CEO 萨姆・奥尔特曼宣布 ChatGPT 重大更新。GPT-5 新增“自动”“快速”“思考”三种模式,用户可按需选择。“思考”模式每周限 3000 条消息,超限可用 mini 版,上下文限制为 196,000 个 token。4o 模型回归,付费用户可在网页设置中切换多款模型。来源:IT之家
Perplexity想花345亿美元收购谷歌Chrome
美国AI搜索初创公司Perplexity计划以345亿美元全现金收购谷歌Chrome浏览器。收购动机在于AI搜索领域增长焦虑,传统浏览器仍是重要流量入口。Perplexity承诺若收购成功,将投资30亿美元维持Chrome开源并保留默认搜索引擎。来源:智能涌现
Seele AI:全球首个端到端AI 3D游戏生成工具上线
Seele AI是全灵公司推出的全球首个端到端AI 3D游戏生成工具。用户可通过自然语言描述生成3D游戏,如FPS、飞行模拟等,实现零代码开发。工具支持多模态交互,涵盖文本、3D建模和物理引擎。Seele AI已开放全球公测。来源:AI工具集
全球多模态推理新标杆,GLM-4.5V正式上线并开源
智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。来源:智谱
Vercel 推出全栈应用构建AI工具——v0.app
Vercel 推出全栈应用构建工具 v0.app,可根据用户输入的文本提示,快速生成基于 React、Shadcn UI 和 Tailwind CSS 的网页用户界面代码,提供三种界面选择。用户能直接复制代码,可以对生成的 UI 进行微调和优化。目前处于免费内测阶段,可以访问官网加入等候名单。来源:AI工具集
昆仑万维发布「Matrix-Game 2.0」,国产开源的Genie 3来啦!
昆仑万维发布自研世界模型Matrix系列的升级版本「Matrix-Game 2.0」。实现通用场景下的交互式实时长序列生成,支持25 FPS速度生成连续视频内容,时长可达分钟级,具备高帧率、低延迟、强物理一致性和多场景泛化能力。与依赖文本语义的模型不同,「Matrix-Game 2.0」通过视觉驱动和物理规律学习构建虚拟世界,避免语义偏置。来源:昆仑万维集团
达摩院开源具身智能“三大件” 机器人上下文协议首次开源
阿里达摩院宣布开源具身智能“三大件”:视觉 – 语言 – 动作模型RynnVLA-001-7B、世界理解模型RynnEC和机器人上下文协议RynnRCP。RynnVLA-001-7B可从第一人称视频中学习人类操作技能并迁移到机器人手臂操控;RynnEC能从多维度解析场景物体并精准定位;RynnRCP打通了从传感器数据采集到机器人动作执行的完整工作流,支持多款热门模型和机械臂。来源:达摩院DAMO
昆仑万维开源Matrix-3D大模型,树立3D世界生成新标杆
昆仑万维开源了Matrix-3D大模型,用于3D世界的生成与探索。Matrix-3D是融合全景视频生成与三维重建的统一框架,能从单张图像生成高质量、轨迹一致的全景视频,还原可漫游的三维空间。模型具有场景全局一致、生成范围大、高度可控、泛化能力强和生成速度快等优势,支持文本和图像输入,生成的3D场景可自由探索。来源:昆仑万维集团
昆仑万维正式发布SkyReels-A3模型,让数字人“说话”的魔法
昆仑万维发布SkyReels-A3模型,是基于“DiT视频扩散模型+插帧模型+强化学习动作优化+运镜可控”的音频驱动人像视频生成模型。用户只需上传人像图片和音频,可生成自然同步的视频,支持照片“活”起来、创作新视频、改台词等功能。来源:昆仑万维集团
百川开源大模型Baichuan-M2,医疗能力登顶世界第一
百川智能发布开源医疗增强大模型Baichuan-M2。该模型在HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,成为全球医疗能力最强的开源大模型。Baichuan-M2通过AI患者模拟器和端到端强化学习,实现了医疗场景的高度还原和模型性能的大幅提升。来源:百川大模型
Grok 4 现已免费开放,非订阅用户每天可限量使用
马斯克宣布AI模型Grok 4向所有用户免费开放,非订阅用户每天可限量使用。Grok 4号称“全球最强”AI模型,具备深度推理能力,经过xAI的Colossus超级计算机训练,逻辑推理和文本生成能力出色。来源:AI工具集
GPT-5 正式发布!奥特曼:这是全球最好的模型
OpenAI正式发布GPT-5,CEO Sam Altman称其为全球最佳模型。GPT-5引入“智能路由”系统,能自动判断问题难度,快速或深度思考作答。全面取代并超越GPT-4等前代模型,免费用户即可使用。GPT-5 Pro(付费)则具备“扩展推理”能力,适合高难度问题。来源:AI工具集
讯飞星火代码画布上线!「动嘴开发」的时代到了
科大讯飞推出星火代码画布,标志着“动嘴开发”时代的到来。工具通过语音指令、草图、链接或文字描述,快速生成交互网页。来源:讯飞开放平台
MiniMax Speech 2.5上线:多语种表现力更强,音色复刻更“像”
MiniMax发布新一代语音生成模型Speech 2.5,再次刷新全球最强语音模型记录。Speech 2.5在多语种表现力、音色复刻和语种覆盖范围上实现三大突破。支持40种语言,中文表现全球最强,英文相似度显著提升,音色复刻精度行业领先,可跨语种保留口音和风格。来源:MiniMax 稀宇科技
灵心巧手完成数亿元天使轮融资,蚂蚁集团领投
全球高自由度灵巧手领军企业灵心巧手完成数亿元天使轮融资,由蚂蚁集团领投,多家知名机构跟投,老股东红杉中国种子基金加注。本轮融资将用于技术储备提升和具身智能数据采集场建设,加速灵巧手落地应用。来源:灵心巧手LINKERBOT
通义千问推出Qwen-Flash,全员拥抱1 M上下文!
Qwen API 迎来重大更新,推出 Qwen-Flash、Qwen3-Coder-Flash 两款新模型,升级了 Qwen-Plus。三款模型均支持 1M 超长上下文,理解力大幅提升。Qwen-Flash 以极速响应著称,适合轻快任务。来源:通义千问Qwen
谷歌正式推出异步 AI 编程智能体工具 Jules
谷歌正式推出异步AI编程智能体工具Jules,由Gemini 2.5 Pro驱动。Jules支持集成GitHub,可克隆代码库至Google Cloud虚拟机,在GitHub仓库中异步处理任务,助力开发者提升效率。Jules定价分免费版(每日15任务,3并发)和付费版(Google AI Pro每月19.99美元,Ultra套餐124.99美元)。来源:AI工具集
Qwen3-4B超顶小模型更新登场!手机也能轻松跑!
Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507 两款小尺寸语言模型更新发布。Qwen3-4B-Instruct-2507 通用能力大幅提升,超越闭源的 GPT4.1-Nano,支持多语言长尾知识,上下文理解能力扩展至 256K。Qwen3-4B-Thinking-2507 推理能力显著增强,AIME25 测评获 81.3 分。来源:通义千问Qwen
谷歌 Gemini AI 推出“引导式学习”功能
谷歌 Gemini AI 推出“引导式学习”功能,通过提问和逐步指导帮助用户理解问题,答案形式包括图片、视频和互动小测验等。促进学习而非简单提供答案,谷歌与教育专家合作确保其科学性。来源:AI工具集
OpenAI首次推出开源语言模型——gpt-oss
OpenAI开源大模型gpt-oss,包含1200亿和200亿参数两种版本,支持Apache 2.0商业化。模型针对AI Agent进行特殊训练,支持函数调用、网络搜索等功能,可助力快速开发智能体。来源:AI工具集
小红书 hi lab 开源多模态大模型 dots.vlm1,效果接近闭源 SoTA 模型
小红书hi lab开源了多模态大模型dots.vlm1。模型基于12亿参数的NaViT视觉编码器和DeepSeek V3 LLM构建,具备强大的视觉感知和文本推理能力。视觉编码器从零训练,支持动态分辨率,引入纯视觉监督提升感知能力。来源:小红书技术REDTech
谷歌DeepMind推出通用世界模型Genie 3,首个可实时交互世界模型
谷歌DeepMind推出通用世界模型Genie 3,是首个可实时交互的世界模型。基于文本提示,Genie 3能以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境,相比Genie 2的10到20秒有了显著提升。Genie 3在模拟世界物理特性、自然世界、动画和小说建模等方面表现出色,能突破时空限制生成内容。来源:智东西
Anthropic发布Claude Opus 4.1模型,全面超越OpenAI o3
Anthropic发布Claude Opus 4.1模型,Pro/Max/Team用户可在网页端使用,API也已开放。Claude Opus 4.1性能更强,价格不变。在Agent能力、高级编程、搜索和写作等方面全面提升,能准确处理长时程任务和复杂企业工作流程,完成上千步骤的长程编程任务。来源:AI工具集
谷歌Gemini上线 AI 生成故事书功能——Storybook
谷歌Gemini AI聊天机器人上线“Storybook”功能,可生成10页图文并茂的故事书。用户只需简单描述,能生成带插图的故事,Gemini能朗读内容。用户可定制故事风格,如黏土动画、动漫等,可上传图片,如孩子的画作,让Gemini以此编故事。来源:AI工具集
美国AI Agent营销平台Clay完成1亿美元C轮融资
美国AI营销平台Clay完成1亿美元C轮融资,投后估值达31亿美元。本轮融资由Alphabet旗下CapitalG领投,Meritech Capital Partners、红杉资本等参投。Clay成立于2017年,总部位于纽约,最初聚焦“让编程民主化”,后转型为AI营销工具,帮助销售和市场团队寻找潜在客户并推动转化。来源:智东西
ElevenLabs推出AI音乐生成工具:Eleven Music
ElevenLabs推出AI音乐生成工具Eleven Music,可根据文本提示快速生成高质量、定制化的音乐作品。用户通过自然语言描述调整歌曲风格、节奏、歌词等,支持逐段编辑,实现无缝过渡和精确情绪转换。来源:AI工具集
告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了20B参数的文生图模型Qwen-Image。作为通义千问系列首个图像生成基础模型,Qwen-Image在复杂文本渲染和精确图像编辑方面表现出色,支持多行布局、段落级文本生成及细粒度细节呈现,英语或是中文,能实现高保真输出。来源:通义千问Qwen
腾讯混元「AI播客」来了,ima、腾讯新闻都在用
腾讯混元正式发布AI播客功能,功能可将文本、网页、文档一键转化为自然流畅的双人对谈式音频,将晦涩难懂的内容转化为有逻辑、有节奏的对话。用户可通过主题描述、网页URL和文档上传三种模式输入内容,平均90秒即可完成转换。来源:腾讯混元
京东战略领投!帕西尼4个月狂揽10亿元
帕西尼完成新一轮A系列融资,由京东战略领投,浦耀信晔等多家机构跟投,老股东持续加码,4个月内融资达10亿元人民币。帕西尼凭借高精度多维触觉感知技术及亿级全模态数据集,构建具身智能核心生态闭环,推进具身智能模型落地。来源:帕西尼感知科技
松延动力半年订单破亿,两年六轮融资狂飙突进
成立不足两年的松延动力近日完成数亿元A++轮融资,由金浦投资领投,北汽产投等跟投。是其今年上半年的第三轮融资,累计已达六轮。松延动力上半年斩获超2000台人形机器人订单,合同额破亿,成为国内第二家迈入“千台销量”门槛的公司。来源:NOETIX松延动力
继续开源:腾讯混元 0.5B、1.8B、4B、7B模型发布
腾讯宣布开源四款小尺寸混元模型,参数分别为0.5B、1.8B、4B、7B,可在消费级显卡上运行,适用于低功耗场景,支持垂直领域低成本微调。这些模型在语言理解、数学、推理等领域表现优异,具备agent能力和超长上下文窗口(256k),可处理超长内容。来源:腾讯混元
小米开源声音理解大模型 MiDashengLM-7B
小米开源了声音理解大模型MiDashengLM-7B。模型基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器,采用创新训练策略,实现语音、环境声和音乐的统一理解,性能在22个公开评测集上刷新最佳成绩。来源:小米技术
全球首个!纳米AI多智能体蜂群上线
360集团宣布纳米AI完成品牌焕新,升级为“多智能体蜂群”,成为全球首个迈入L4级别的智能体系统。实现了从“单兵作战”到“群体协同”的进化,突破以往智能体在跨领域复杂问题上的瓶颈。纳米AI独创的“蜂群协作框架”可让多个推理型智能体灵活拉群、多层嵌套、组队协作,完成超长复杂任务,如制作10分钟电影级大片仅需20分钟。来源:360公司
小红书推出首个社交大模型RedOne
小红书推出首个社交大模型RedOne。模型采用“继续预训练→监督微调→偏好优化”的三阶段训练策略,针对社交网络服务(SNS)领域的复杂数据特征和多元场景进行优化。来源:AI工具集
谷歌推出 Gemini 2.5 Deep Think 模型
谷歌推出 Gemini 2.5 Deep Think,面向 Google AI Ultra 订阅者开放。模型基于在国际数学奥林匹克竞赛中获得金牌标准的版本改进,具备更快的推理速度和日常可用性,达到 2025 年 IMO 铜牌水平。Deep Think 通过并行思考技术,延长推理时间,生成多种想法并逐步优化,适用于复杂问题解决、科学发现、算法开发等场景。来源:AI工具集
昆仑万维发布并开源全新推理大模型 MindLink
昆仑万维推出并开源全新推理大模型Skywork MindLink,基于Qwen3-32B和Qwen2.5-72B后训练而成。模型采用新的推理范式Plan-based Reasoning,去掉了“think”标签,能根据任务难度自适应整合推理和非推理生成回复,降低推理成本且提升多轮对话能力。来源:AI工具集
Manus 推出 Wide Research,支持上百个 Agents 同时工作
Manus AI 上线以来最大更新,推出 Wide Research 功能。功能支持用户一键开启大规模并行 Agent 协作,可同时启动多达100个 Agent 处理复杂任务。来源:APPSO
Black Forest Labs开源新版Flux模型:FLUX.1 Krea dev
Flux开源模型新版本FLUX.1 Krea dev 正式发布。模型由Black Forest Labs与krea_ai联合开发,专为照片级写实而生,具备业界领先的开源文本生成图像能力,图像质量卓越且真实感强,能有效避免常见的“AI感”和过度饱和纹理问题。来源:AI工具集
Kimi K2 高速版发布:kimi-k2-turbo-preview
kimi-k2-turbo-preview 是 kimi-k2 的高速版,模型参数与 kimi-k2 一致,但输出速度由每秒 10 Tokens 提升至每秒 40 Tokens。目前限时 5 折特惠,9月1日恢复原价,折扣后的价格:模型每百万 tokens 输入价格(缓存命中)¥2.00,输入价格(缓存未命中)¥8.00,输出价格 ¥32.00。来源:Kimi 开放平台
阿里通义千问发布 Qwen3-Coder-Flash 编程模型
编程模型 Qwen3-Coder-Flash 正式发布。模型全称 Qwen3-Coder-30B-A3B-Instruct,性能出色,具备超强的 Agentic 能力,超越当前顶级开源模型,仅次于顶配版 Qwen3-Coder 和部分领先闭源模型。原生支持 256K tokens,可通过 YaRN 扩展至 1M tokens,能理解整个项目库代码,避免上下文断层。来源:通义千问Qwen
字节跳动发布实验性扩散语言模型 Seed Diffusion
字节跳动Seed团队发布实验性扩散语言模型Seed Diffusion Preview。验证离散扩散技术作为下一代语言模型基础框架的可行性,通过两阶段扩散训练、约束顺序学习与强化高效并行解码等关键技术,实现了每秒2146 tokens的推理速度,相比同等规模的自回归模型提升5.4倍。来源:字节跳动Seed
通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507
Qwen3-30B-A3B模型迎来重大升级,新版本Qwen3-30B-A3B-Thinking-2507在推理能力、通用能力及上下文长度上显著提升。在数学和代码能力评测中超越Gemini2.5-Flash和Qwen3-235B-A22B,在写作、Agent能力、多轮对话等通用能力上也表现优异。新模型原生支持256K tokens,可扩展至1M tokens,思考长度增加,适合复杂推理任务。来源:通义千问Qwen
Ollama发布桌面客户端,本地AI从此告别命令行
Ollama推出适用于macOS和Windows的桌面应用。应用支持下载并聊天模型,具备文件拖拽功能,可处理文本或PDF文件,能通过增加上下文长度处理大型文档(需更多内存)。新应用支持多模态功能,可向支持该功能的模型(如Google DeepMind的Gemma 3)发送图像。能处理代码文件以帮助理解文档。来源:AI工具集
零次方机器人再获两轮亿元级融资 加速具身基础模型突破与量产爬坡
零次方机器人宣布完成天使+轮和天使++轮亿元级融资,半年内已获三轮融资。资金将用于深化具身智能基础模型研发、加速量产交付以及生态布局。零次方已发布专项场景操作基础模型Zerith-V0和轮臂人形机器人Zerith-H1,成为国内首家实现超长序列多任务连贯操作的企业。来源:Zerith零次方
阿里巴巴旗下1688推出“1688 AI版”AI生意助手应用
阿里巴巴集团旗下1688在浙江省“平台+产业”AI对接会上推出“1688 AI版”App及多项AI产品。1688 AI版聚焦创业与拿货场景,集成AI搜索、选品、创款、图搜、查企等核心功能,覆盖商机发现到产品创新全链路。来源:智东西
阿里推出 AI 医学助手“氢离子”,收录千万级医学核心期刊文献
阿里健康发布 AI 医学助手“氢离子”。收录千万级医学核心期刊文献,支持权威指南查阅、AI 总结、全文翻译及智能问答,能查询疾病和药品信息。AI 研读功能可总结外文文献重点并标注出处。来源:AI工具集
京东健康推出 AI 情绪漫画生成应用“小星绪”
京东健康团队推出 AIGC 产品“小星绪”,用户可通过语音或文字输入情绪或讲述故事,AI 将生成个性化漫画及故事解读。帮助用户表达情绪、激发创意并构建社交关系链。来源:AI工具集
拒绝代做作业:OpenAI 发布 ChatGPT Study 学习模式
OpenAI发布ChatGPT Study学习模式,面向教育领域,提供交互式提示、支架式回应、个性化教育和知识点检查等功能,深度解读难题解题思路,培养学生的批判性思维和自主学习能力。来源:AI工具集
RoboScience 完成近 2 亿元天使轮融资,京东领投
RoboScience宣布完成近2亿元天使轮融资,由京东领投,招商局创投、商汤国香资本跟投,老股东零一创投继续追投。RoboScience专注于具身智能技术,采用快慢脑分层端到端模型,自主研发仿真物理引擎和具身操作大模型,实现机器人操作的高精度和高泛化能力。来源:RoboScience
昆仑万维开源多模态统一预训练模型「Skywork UniPic」
昆仑万维推出并开源了多模态统一预训练模型Skywork UniPic。模型融合图像理解、文本生成图像和图像编辑三大核心能力,采用自回归路线,基于大规模高质量数据进行端到端预训练。1.5B参数规模实现轻量级与高性能的平衡,具备指令遵循、复杂指令生图和图像编辑的领先能力。来源:昆仑万维集团
无影AgentBay来了!给AI智能体装上“超级大脑”
阿里云在上海世界人工智能大会上推出首款AI Agents“超级大脑”——无影AgentBay。是一款云端电脑,具备视觉理解、自然语言控制等AI技能,可在多系统间无缝切换,调用云端算力与资源,仅需三行代码即可接入。来源:阿里云
豆包·图像编辑模型3.0上线火山方舟
豆包·图像编辑模型SeedEdit 3.0正式上线火山方舟。模型基于强大的文生图模型Seedream 3.0,支持高清图像生成与处理,可精准锁定编辑区域,实现人物姿态调整、文字修改、光影变换等功能,同时保留图像细节。来源:火山引擎
谷歌AI笔记应用NotebookLM,新增“视频概览”功能
谷歌宣布升级AI笔记应用NotebookLM,新增“视频概览”功能。功能可根据用户输入的主题自动创建带有旁白的幻灯片视频,从用户上传的图片、图表、引用和文档中提取数据以丰富内容。来源:AI工具集
GLM-4.5发布:面向推理、代码与智能体的开源SOTA模型
智谱旗舰模型 GLM-4.5 重磅发布并开源,作为首款SOTA级原生智能体模型,国产综合评测第一,性能媲美全球最强旗舰模型。参数效率翻倍,API价格仅为Claude的1/10,速度最快可达100tokens/秒。率先在一个模型中实现多能力原生融合并取得重要技术突破——单个模型同时具备强大的推理、代码、智能体等能力,已上线智谱清言和Z.ai开放免费体验。来源:智谱
通义万相2.2开源!首创电影级美学控制系统
阿里正式开源通义万相Wan2.2,含文生、图生及统一视频三模型,首次在扩散模型中引入MoE架构,降耗50%,并首创电影级美学控制系统,光影色彩媲美专业片。小模型5B可在消费级显卡22G显存跑5秒720P视频,代码已上架GitHub、Hugging Face与魔搭。来源:通义万相Wan
阶跃 AI 有了一个研究小助手:阶跃深研
阶跃星辰推出了“阶跃深研”研究小助手,开启邀测。阶跃深研能在约十分钟内完成复杂问题的研究任务,生成深度、专业的研究报告,适用于金融、咨询、医疗、法律、政策与学术研究等多个领域。在红杉中国发布的xbench-DeepSearch评测中以70%的通过率位列第一,在OpenAI的BrowseComp基准测试中也达到行业领先水平。来源:阶跃星辰
微软为 Edge 浏览器引入 Copilot 模式,变为“AI 原生”浏览器
微软在 Edge 浏览器中推出实验性功能“Copilot 模式”,将其从传统网页浏览器转变为“AI 原生”浏览器。Copilot 被定位为用户的“浏览智能体”,能看懂所有打开的标签页,帮助总结、对比信息,甚至未来可预订行程、处理琐事。来源:APPSO
Runway推出多任务视频生成与编辑模型——Aleph
Runway 近日宣布推出 Runway Aleph,是多任务视频生成与编辑模型。Aleph 能对输入视频进行多种编辑操作,包括添加、移除和转换对象、生成任意角度的场景,以及修改风格和灯光等。来源:AI工具集
腾讯正式发布混元3D世界模型 1.0,全面开源
腾讯在世界人工智能大会上正式发布并开源混元3D世界模型1.0。是业界首个开源的可沉浸漫游、可交互、可仿真的3D世界生成模型,融合全景视觉生成与分层3D重建技术,支持文字和图片输入,能在几分钟内生成高质量3D场景。来源:腾讯混元
快手可灵 AI 发布全新创意工作台「灵动画布」
快手可灵 AI 发布全新创意工作台「灵动画布」和升级后的「多图参考」功能。「灵动画布」支持最多 5 人协同创作,素材共享且可实时联动;「多图参考」功能则大幅提升了 AI 视频生成中角色、主体和场景的一致性,解决了以往角色形象前后不一致、画风突变等痛点。来源:AI工具集
千问推出Qwen3升级版:Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B推理模型升级版本Qwen3-235B-A22B-Thinking-2507正式发布。版本在推理性能和通用能力上取得巨大飞跃,可比肩Gemini-2.5 Pro、O4-mini等顶尖闭源模型,创下全球开源模型SOTA最佳性能表现。来源:通义千问Qwen
阶跃星辰发布新一代基模Step 3,推理效率创行业新高
阶跃星辰在上海发布新一代基础大模型Step 3。模型总参数量321B,激活参数量38B,采用MoE架构,具备强大的视觉感知和复杂推理能力,性能达到开源SOTA水平。Step 3在推理效率上实现行业领先,尤其在国产芯片上效率显著提升。来源:阶跃星辰
上海AI实验室开源发布『书生』科学多模态大模型Intern-S1
上海人工智能实验室在世界人工智能大会(WAIC 2025)上发布并开源了“书生”科学多模态大模型Intern-S1。模型是首个融合专业科学能力的开源通用模型,具备跨模态科学解析能力,可精准解读多种复杂科学模态数据,如化学分子式、蛋白质结构、地震波信号等,并在化学、材料、地球等多学科专业任务基准上超越顶尖闭源模型Grok-4。来源:书生Intern
商汤科技发布「悟能」具身智能平台,官宣入局具身智能
在世界人工智能大会(WAIC 2025)大模型论坛上,商汤科技发布「悟能」具身智能平台,正式入局具身智能领域。商汤凭借十年多模态技术积累和世界模型经验,推出日日新V6.5多模态推理大模型,其图文交错思维链显著提升了跨模态推理精度,性价比提升5倍。来源:量子位
扣子开源:扣子开发平台Coze Studio和扣子罗盘Coze Loop
Coze宣布开源两款核心产品:零代码开发平台Coze Studio和调试工具Coze Loop。扣子开发平台采用Apache 2.0开源协议,支持零代码开发,用户可通过拖拽组件快速搭建智能体工作流程。Coze Loop提供全生命周期管理工具链,涵盖开发、评测、观测和优化四大阶段,助力开发者高效调试和优化智能体。来源:AI工具集
从灵感到网站,只要5分钟,扣子空间网页设计功能上线
扣子空间推出了一键生成网页设计的新功能。用户只需输入需求,即可快速生成现代、响应式的网站,支持自然语言编辑和上传设计稿复刻。功能适用于招聘网站、活动营销页面、机构主页、个人主页、生活网页和前端工具等多种场景。来源:扣子Coze
讯飞星火X1升级版正式上线!
科大讯飞宣布其深度推理大模型讯飞星火X1升级版正式上线。此次升级实现了综合能力的大幅提升,对标OpenAI等一流大模型,在翻译、推理、文本生成、数学等方面保持领先。星火X1在幻觉治理方面取得显著进步,多语言能力覆盖130多种语种,为全球提供自主可控的大模型底座。来源:科大讯飞
快手 AutoThink 大模型 KAT-V1 正式开源,40B 性能逼近 R1-0528
快手开源了KAT-V1自动思考大模型,包含40B和200B两个版本。40B版本性能追平DeepSeek-R1(6850亿参数),200B版本在多项基准测试中超越Qwen、DeepSeek和Llama等旗舰模型。KAT-V1通过长短思考混合训练范式、新型强化学习方法Step-SRPO等技术创新,实现了根据问题难度自动切换思考模式。来源:快手技术
宇树科技发布双足人形机器人新品Unitree R1,售价3.99万元起
宇树科技发布双足人形机器人新品Unitree R1,售价3.99万元起,重量仅25千克。R1具备出色的运动控制能力,可下坡、翻跟头、倒立,支持开发与定制。来源:第一财经
ChatGPT Agent 正式推送至所有 Plus、Pro 与团队用户
ChatGPT Agent 功能现已正式向所有 Plus、Pro 与团队用户 推出。Agent 能在内置“虚拟电脑”环境中自主执行多步骤任务,包括上网浏览、填写表单、运行代码、生成表格与幻灯片等,用户通过对话中的“agent mode”菜单激活,可随时中断或确认 AI 操作。当前 Pro 用户每月可用 400 次,Plus 和团队用户为 40 次。来源:AI工具集
阿里云通义千问宣布 Qwen-MT 机器翻译模型:支持 92 种语言互译
基于Qwen3模型的机器翻译模型Qwen-MT正式发布。该模型支持92种语言互译,覆盖全球95%以上人口,具备高度可控性,提供术语干预、领域提示等功能。采用轻量级MoE架构,低延迟、低成本,API调用价格低至每百万输出token 2元。来源:通义千问Qwen
Lovart 正式版上线,用 ChatCanvas 改写 AI 设计交互范式
AI 设计智能体 Lovart 正式版发布,推出全新交互系统 ChatCanvas,实现从“工具”到“设计伙伴”的升级,首次将“评论系统”用于 AI 交互,用户可直接在画布上点击、标注、对话式修改图像;支持多图联动、Frame 管理、评论追踪与复用,像用 Figma 那样精细控制设计流程。来源:AI工具集
字节跳动 Seed 团队发布端到端同声传译模型 Seed LiveInterpret 2.0
字节跳动Seed团队推出了Seed LiveInterpret 2.0,是支持中英双向翻译的端到端同声传译模型。具备接近真人水平的翻译准确率和极低的延迟(仅3秒),能实时处理多人语音输入并进行“边听边说”翻译。零样本声音复刻功能可实时复刻说话人的音色,无需提前采集样本。来源:字节跳动Seed
免费不限量,通义灵码已经全面支持 Qwen3-coder 模型
阿里云宣布开源其AI编程大模型Qwen3-Coder,全面接入AI编程产品“通义灵码”,向全球开发者免费提供不限量服务。来源:通义灵码
微软发布一键生成全栈应用工具——GitHub Spark
微软发布GitHub Spark,可将自然语言描述一键生成全栈应用并部署上线。GitHub Spark遵循微应用理念,支持多种功能,如交互式预览、自动历史记录、托管运行时环境等,深度集成GitHub平台。来源:AI工具集
像素绽放PixelBloom完成B3轮融资
像素绽放PixelBloom近日宣布完成B3轮战略融资,由国内领先国有产业投资平台亦庄国投领投,国科投资、英诺天使基金、水木清华校友种子基金及探路者创始人盛发强先生参与投资。融资将支持PixelBloom加速全球化布局,确立AiPPT.com在全球AI演示软件领域的领导地位,扩展其独特的AI Venture Studio模式。来源:像素绽放PixelBloom
加速进化宣布完成超亿元A+轮融资
加速进化宣布完成超亿元A+轮融资,由北京市机器人产业发展投资基金领投,北京市人工智能产业投资基金和博华资本跟投。专注于双足人形机器人研发,其产品Booster T1在2025年RoboCup机器人世界杯上助力清华火神队获得成人组冠军。来源:智东西
通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文
Qwen团队正式发布Qwen3-Coder,是迄今为止最具代理能力的代码模型。Qwen3-Coder-480B-A35B-Instruct是其最强大的版本,拥有480B参数激活35B参数,原生支持256K token上下文并可通过YaRN扩展到1M token,在Agentic Coding等任务上达到开源模型SOTA效果。来源:通义千问Qwen
昆仑万维发布最新AI音乐模型——Mureka V7
昆仑万维发布AI音乐模型Mureka V7。模型通过核心技术MusiCoT(音乐思维链)实现了先规划整体音乐结构再生成细节的功能,解决了传统AI音乐模型“走一步看一步”的问题,生成的音乐作品更具连贯性和感染力。Mureka V7支持10种语言,可创作流行、摇滚等多种风格音乐,最长单曲时长5.5分钟。来源:AI工具集
讯飞星火X1将于7月25日全新升级!
科大讯飞宣布讯飞星火X1升级版将于7月25日正式上线。此次升级的核心亮点包括综合能力大幅提升,在数学、翻译、推理、文本生成等方面保持领先;幻觉治理显著进步,慢思考模式的幻觉治理准确率大幅领先;多语言能力全面扩展,支持130+语种。来源:科大讯飞
阿里本周将发布首款自研AI眼镜,加入“百镜大战”
阿里巴巴将于本周发布首款自研AI眼镜,加入“百镜大战”。产品具备语音助手、音乐播放、电话通话、实时翻译等功能,整合了阿里巴巴生态内的地图、支付、购物等功能。硬件上,分为不带显示的AI智能眼镜和带显示的AI+AR智能眼镜,采用双芯片架构。来源:智能涌现
通用机器人模型GR-3发布!支持高泛化、长程任务、柔性物体双臂操作
字节跳动Seed团队发布通用机器人模型GR-3。模型具备高泛化能力、长程任务处理能力和柔性物体双臂操作能力,能理解抽象语言指令并快速适应新环境和新任务。GR-3采用Mixture-of-Transformers网络结构,融合了视觉、语言和动作信息,通过遥操作机器人数据、人类VR轨迹数据和大规模视觉语言数据联合训练,提升了泛化性和灵活性。来源:字节跳动Seed
零一万物发布万智企业大模型一站式平台2.0
零一万物在北京发布万智企业大模型一站式平台2.0版本,并推出企业级Agent智能体,定位为“超级员工”。该Agent具备深度思考和任务规划能力,能访问手机和Web端,连接各类企业服务。来源:零一万物 01AI
字节跳动TRAE推出SOLO模式,从需求到交付“一站式完成”
字节跳动发布AI编程助手TRAE SOLO模式,主打全流程自动化开发体验。从需求输入到部署交付“一站式完成”,支持自然语言或语音输入需求,AI自动完成PRD撰写、代码生成、调试验证并直接上线。引入“实时跟随”功能,动态展示AI操作阶段,用户可随时切换AI主导与手动主导模式。来源:AI工具集
首款本地大模型办公本来了!讯飞智能办公本X5正式发布
科大讯飞发布全新旗舰级智能办公本X5。作为首款本地大模型办公本,具备离线AI能力,支持离线语音转写、多人识别、中英互译及会议纪要等功能,构建“全链路安全”体系。配备10.65英寸墨水屏,仅重355克,薄至4.6毫米,搭载6nm AI芯片和8核CPU,支持300PPI高清显示与GPU快刷技术,书写体验接近真实纸笔。来源:科大讯飞
Qwen3深夜升级,全面告别混合思维模式
阿里通义千问推出Qwen3-235B-A22B-Instruct-2507-FP8版本,通用能力显著增强,涵盖指令遵循、逻辑推理、文本理解等多领域。在多项测评中超越Kimi-K2、DeepSeek-V3等顶级模型。新版本在多语言长尾知识、主观任务契合能力及长文本处理方面进步显著,上下文理解能力提升至256K。来源:新智元
腾讯推出全栈开发AI IDE——CodeBuddy IDE
腾讯推出CodeBuddy IDE的AI助手,专为零基础用户设计,助力无经验者轻松开发互联网产品。用户只需输入简单指令,工具可完成产品构想、设计、开发及调试等全流程操作。CodeBuddy IDE支持多种AI模型,内嵌Figma设计工具,可一键将设计稿转为代码,现已开启内测。来源:腾讯
专为开发者设计的AI源码解读工具——Zread
Zread是帮助开发者快速掌握项目核心知识的AI工具,能一键生成清晰易懂的仓库Guide,快速梳理复杂代码,生成API文档和用户手册。支持多仓库对比学习,解读GitHub Trending热门项目,提供深度研究功能,助力开发者提升技能。来源:AI工具集
千寻智能完成近6亿元PreA+轮融资,京东领投
具身智能领域头部企业千寻智能宣布完成近6亿元PreA+轮融资,由京东领投,中网投、浙江省科创母基金等知名机构跟投,老股东P7、顺为资本等超额追加投资。本轮融资由高鹄资本担任独家财务顾问。来源:千寻智能 Spirit AI
Le Chat再一次升级,全方面对标ChatGPT
Mistral AI推出升级版Le Chat,全方位对标ChatGPT。Le Chat新增深度研究模式,可生成结构化研究报告;语音模式借助新发布的Voxtral模型实现语音输入;原生多语言推理功能提供更精准回答;项目管理功能可组织对话内容;高级图像编辑功能支持复杂图像修改。来源:机器之心
宇树科技,开启上市辅导
中国证监会官网显示,宇树科技已正式开启上市辅导,中信证券担任辅导机构。辅导备案报告披露,宇树科技控股股东及实际控制人为王兴兴,直接持有公司23.8216%股权,通过上海宇翼企业管理咨询合伙企业(有限合伙)控制10.9414%股权,合计控制公司34.7630%股权。来源:财联社
「众擎机器人」连续完成Pre-A++与A1轮融资,京东领投
众擎机器人连续完成两轮融资,Pre-A++轮由星航资本投资,A1轮由京东领投,宁德时代旗下溥泉资本、银泰集团等参投,老股东中东资本等也参与增资。来源:众擎机器人
逐际动力获京东战略领投,以IDS生态协同加速具身智能技术落地
具身智能机器人公司逐际动力LimX Dynamics宣布完成新一轮融资,由京东战略领投。逐际动力将推进全尺寸人形机器人量产与销售,深化具身大模型技术研发及IDS生态平台建设。其全尺寸人形机器人将于下半年公开销售,双足机器人TRON 1持续升级。来源:逐际动力
OpenAI正式发布ChatGPT Agent!
OpenAI正式发布ChatGPT Agent功能。功能整合了Operator、Deep Research和ChatGPT本体,用户只需描述任务,Agent能自主调用工具,完成网页访问、信息提取、代码运行、PPT生成等操作,支持任务中断与修改。ChatGPT Agent支持手机端使用,可连接Gmail、GitHub等应用,深度嵌入工作流。来源:APPSO
全球首个A股金融博弈智能体应用FinGenius开源
由00后团队创建的全球首个A股金融博弈智能体应用FinGenius在GitHub开源。项目在内测阶段吸引了4000+用户申请体验。FinGenius通过16个超级智能体分工协作,结合多智能体博弈机制,30秒内生成分析报告,解决传统金融工具信息加工过度、数据不真实、大模型局限性等问题。来源:AI工具集
Perplexity 向印度 3.6 亿用户免费赠送一年 Pro 服务
AI搜索企业Perplexity与印度第二大电信运营商Bharti Airtel达成独家合作,向其3.6亿用户免费提供原价200美元的12个月Perplexity Pro订阅服务。合作具有排他性,印度其他电信商不得提供Perplexity服务。来源:IT之家
AI初创公司DecartAI发布全球首个实时视频生成模型MirageLSD
初创公司DecartAI发布全球首个视频直播模型MirageLSD,获Andrej Karpathy天使投资。模型可实时将摄像头画面转化为其他风格和内容,支持24FPS稳定运行,延迟低于40毫秒。通过英伟达CUDA Megakernels和抗漂移训练实现效率提升,能重塑观看体验、革新游戏世界、赋能内容创作者等。来源:AI工具集
Kimi Playground: 一站式体验 Kimi K2 的工具调用能力
Kimi开放平台宣布正式上线Kimi Playground,为开发者提供一站式工具调用能力体验。平台支持直观的工具调用界面和便捷的调试体验,可快速选择不同工具并实时调整参数。来源:Kimi 开放平台
普林斯顿团队领衔发布最强开源数学定理证明模型:Goedel-Prover-V2
普林斯顿大学联合清华大学、北京大学等顶尖高校及英伟达等机构,发布了新一代开源数学定理证明模型Goedel-Prover-V2。32B旗舰模型在自动数学定理证明基准测试中大幅超越前代SOTA模型DeepSeek-Prover-V2-671B,8B小尺寸模型性能也与之持平。来源:机器之心
无界方舟连续完成Pre-A & Pre-A+轮亿元级别融资
无界方舟(AutoArk)宣布连续完成Pre-A & Pre-A+轮亿元级融资。公司基于自研多模态大模型,打造AI应用的“超级感官”与“真大脑”。无界方舟的EVA多模态模型在性能上对标OpenAI的GPT-4o,具备高智商分析、真人般交互、全自动数据合成等优势,已实现商业化落地。来源:AutoArk无界方舟
Mistral首个开源语音模型Voxtral,全面碾压Whisper
Mistral AI发布首个开源语音模型Voxtral,包含24B和3B参数规模版本,基于Apache 2.0许可证开源并提供API接口。Voxtral支持8大主流语言,可处理30分钟音频转录或40分钟语义理解任务,全面超越Whisper,在多语言基准测试中表现优异,语音翻译成绩占据榜首,语音理解能力追平GPT-4o-mini。来源:智东西
MiniMax Agent全栈开发能力“靠谱”上新
MiniMax Agent发布全栈开发功能,用户仅需一句话即可生成复杂全栈应用,无需编程基础。功能支持Supabase后端托管、Stripe支付、定时任务等,可快速开发演唱会选座系统、实时金融看板、出海独立站、企业数据看板等应用。来源:MiniMax 稀宇科技
观猹正式发布,打造AI产品的专业点评平台
由特工宇宙团队打造的AI产品点评社区「观猹」正式发布,用真实用户视角判断产品PMF。面向AI爱好者,观猹提供真实、可信的产品评分与交流社区。创作者可分享AI作品,获取反馈;创业者能冷启动项目,连接用户与投资人。来源:AI工具集
亚马逊推出Kiro AI编程工具,正式开放公测
亚马逊云科技宣布推出Kiro AI编程工具,正式开放公测。Kiro是Agentic IDE,提供AI编码辅助,能帮助开发者从想法到上线的全过程。Specs可将模糊需求转化为具体用户故事和边界条件,Hooks能在代码提交前自动完成测试、文档更新和安全扫描等任务。来源:亚马逊云科技
百度上线TizzyAI,主打无广告智能搜索
百度上线全新AI搜索App“Tizzy.ai”,定位为无广告的AI智能搜索助手。应用基于百度多个大模型能力开发,界面简洁,无弹窗和信息流推荐,仅设“搜索”和“资源库”两个核心入口。TizzyAI支持自动和深度搜索模式,能快速回答问题并提供深度分析。来源:AI工具集
Grok 推出交互式「数字伴侣」,基于Grok 4大模型
马斯克旗下Grok APP推出基于Grok 4大模型的“智能伴侣”功能,付费用户可优先体验。功能提供动漫头像Ani、卡通小熊猫Rudy等3D形象,支持更换背景和动作。来源:机器之心
ChatExcel·桌面版全新上线、AI提示词优化、常用提示词保存功能
ChatExcel桌面版全新上线,支持Mac和Windows平台,用户可直接在桌面处理Excel数据、生成图表等,无需浏览器。新增AI优化提示词功能,点击“魔术笔”可一键优化提示词内容,更规范、准确。上线常用提示词保存功能,方便用户在重复场景中快速使用。来源:元空AIExcel
华为携手云南交投发布“绿美通道·交通大模型”
云南省交通投资建设集团有限公司与华为、长安大学合作研发的“绿美通道·交通大模型”在昆明正式发布。模型历时两年研发,涵盖智算中心底座、高质量数据集、AI平台工具链、行业模型集及AI场景应用等成果。来源:华为
OpenAI正在开发基于Chromium的AI浏览器——“Aura”
OpenAI正在开发一款基于Chromium的AI驱动浏览器,内部代号为“Aura”。浏览器将利用生成式和代理式AI能力,彻底改变用户的网络浏览体验。来源:IT之家
百度AI助手全新功能「视频通话」上线!
百度AI助手推出全新功能「视频通话」。用户可通过百度APP进入「AI+」选择「视频通话」,开启与AI的视频互动。覆盖多种生活场景:可识别花草、解答难题;提供专业穿搭建议;解读宠物行为;倾听烦恼、提供慰藉。来源:百度搜索
LG 推出韩国首个混合推理 AI 模型 EXAONE 4.0
LG AI Research研究所推出韩国首个混合推理AI模型EXAONE 4.0。模型融合通用自然语言处理与高级推理能力,在数学、科学及编程等高难度领域表现优异,支持多语言并提供32B专业版和1.2B端侧版。来源:IT之家
TRAE 自定义模型新增 Kimi-K2,国际版支持Grok-4
TRAE自定义模型服务商宣布新增Kimi-K2模型,支持通过API Key接入,满足开发者对模型多样性和专业性的需求。TRAE国际版新增超级模型Grok-4(Beta),进一步丰富了模型阵容,支持全球主流大模型一站式调用。来源:TRAE.ai
秘塔AI搜索推出“深度研究”模块,动态展示研究过程
秘塔AI搜索宣布其“深度研究”模块正式上线。秘塔通过优化数据和算法,降低了算力成本,提升了准确率,在中文搜索上表现突出。秘塔版“深度研究”免费开放,增加了“问题链”功能,可动态展示研究过程,为复杂问题提供结构化报告。来源:AI秘塔
华人团队Cognition收购Windsurf剩余团队
编程助手公司 Cognition 宣布收购编程初创公司Windsurf剩余员工和资产,获得其银行账户中超过 1 亿美元资金。此次收购后,Windsurf 将短期独立运营,继续开发其 AI 驱动的 IDE,Cognition 提供资金支持并计划将 Windsurf 的 IP 和功能集成到自身产品中。来源:机器之心
ima 网页版正式上线,随时进入知识库
ima 网页版正式上线,用户无需下载,打开浏览器即可使用。访问 ima.qq.com 并登录账号,可基于全网或知识库内容提问,能逛知识库广场、加入感兴趣的知识库。来源:ima.copilot
MiniMax已基本完成近 3 亿美元新一轮融资
大模型公司 MiniMax 近期已完成近 3 亿美元新一轮融资,估值超 40 亿美元。本轮融资新增上海国资等出资方,成为今年 AI 六小虎中仅有的两家获得融资的公司之一。来源:IT之家
智源全面开源RoboBrain 2.0与RoboOS 2.0:刷新10项评测基准
智源研究院发布 RoboBrain 2.0 和 RoboOS 2.0,RoboBrain 2.0 是集感知、推理与规划于一体的通用具身大脑,32B 版本刷新多项权威评测基准,7B 版本适配边缘设备。RoboOS 2.0 是全球首个具身智能 SaaS 开源框架,集成 MCP 协议与无服务器架构,支持多机协作,推出单机版及技能商店。来源:智源研究院
通义千问推出Qwen Chat桌面端,一键使用MCP
阿里巴巴旗下通义千问发布Qwen Chat桌面端,目前支持macOS端,支持多模型PK及MCP协议,可通过插件实时调用地图、搜索、本地文件等外部数据,实现更精准回答。来源:通义千问Qwen
美图推出专注于影像与设计的AI智能体RoboNeo
美图公司正式推出专注于影像与设计的AI智能体RoboNeo,用户可通过自然语言交互轻松完成修图、设计和视频制作等任务。RoboNeo具备智能修图、AI设计生成、视频智能处理及多模态创作等多项功能来源:美图公司
奥尔特曼宣布延期 OpenAI 首个开源权重 AI 模型
OpenAI CEO山姆·奥尔特曼7月12日宣布,再次推迟发布其首个开源权重AI模型,理由是需要更多时间进行安全测试及高风险内容审查,但未给出新的发布日期。该模型原计划下周亮相,已是年内第二次延期。来源:IT之家
「汉阳科技Yarbo」近日完成超亿元B+轮融资
消费级扫雪机器人公司「汉阳科技Yarbo」完成逾亿元B+轮融资,由国科投资、中金资本、九阳创投联合注资。本轮资金将用于技术研发、供应链优化及北美、欧洲市场拓展,借助九阳SharkNinja渠道加速全球化布局。来源:36氪
OpenAI 收购 Windsurf 计划告吹,后者 CEO 及创始人已被谷歌招入麾下
OpenAI收购AI编码助手Windsurf的交易正式取消。谷歌迅速出手,Windsurf CEO Varun Mohan、联合创始人Douglas Chen及核心团队集体加入DeepMind,谷歌以约24亿美元获其技术非独家授权。原30亿美元收购价落空,Windsurf高层换血,业务由临时CEO接手。来源:IT之家
CAMEL-AI与Gemini官宣合作,实现数据可视化和自动化
开源多智能体框架CAMEL-AI宣布与Google DeepMind合作,集成Gemini 2.5 Pro模型,推出OWL系统。用户只需一句自然语言指令,OWL即可自动完成搜索、提取、分析并生成可视化图表,支持在线数据、本地文件及浏览器操作。来源:CAMEL AI
月之暗面Kimi正式发布k2模型,具备超强代码和 Agent 能力
月之暗面发布MoE架构基础模型k2,总参1T、激活32B,上下文128k tokens,支持ToolCalls、JSON/Partial/联网,无视觉。输入价¥1.00/1M tokens,输出¥4.00/1M,缓存命中¥16.00/1M,性能领先开源模型。来源:AI工具集
拍我AI(PixVerse)上线多关键帧生成功能,从“片段”迈向“故事性表达”
拍我AI(PixVerse)上线“多关键帧生成”功能,用户可上传最多7张图,在首尾帧模式下生成长达30秒的叙事视频,实现动作、场景及景别自然衔接,助力短剧、广告等高效创作。来源:爱诗科技AIsphere
欧盟公布最终版《通用人工智能行为准则》,8 月 2 日起正式实施
欧盟发布最终版《通用人工智能行为准则》,8月2日实施,涵盖安全、透明、版权三方面,由13位专家联合1000多利益方制定,企业可自愿签署以减轻负担,旧模型有2年调整期,新模型1年。来源:IT之家
墨刀AI重磅上线:原型图,现在可以自动生成了!
墨刀AI上线全新原型生成能力,从灵感到可交付界面只需30秒,面向产品经理和设计师提供零门槛体验。支持文字/草图/截图转原型,自动识别布局与组件;多轮对话优化设计,像“聊天”一样改原型;自动生成产品文档与页面逻辑,规范输出流程。来源:墨刀
微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型:10 倍吞吐量
微软发布Phi-4-mini-flash-reasoning端侧AI模型,采用SambaY架构与GMU组件,推理吞吐量提升10倍、延迟降至1/3,专注数学与逻辑推理,已上线Azure AI Foundry等平台。来源:IT之家
马斯克发布 Grok 4,处理学术问题达到博士级别
马斯克旗下xAI发布新一代大模型Grok 4,推理能力较前代提升10倍,在多项基准测试中超越现有模型,达到“博士后水平”。Grok 4支持工具调用、语音交互、多模态任务,并在ARC-AGI等高难度测试中刷新纪录。来源:机器之心
办公小浣熊 · 桌面版全新上线!
商汤科技推出“办公小浣熊”桌面版,支持Windows和Mac平台,用户无需浏览器即可一键唤醒AI助手,实现任务拆解、数据分析、图表生成等办公功能。老用户可同步历史内容。来源:商汤小浣熊
智谱Z.ai推出的实验性大模型GLM-Experimental
智谱AI推出全新实验模型GLM-Experimental,主打“AI Presentation”功能,可一键生成网页版PPT,支持多种风格与互动效果。用户只需输入简单Prompt,模型可自动生成内容、设计排版,实现弹幕、动画等高级效果。来源:AI工具集
Perplexity推出 AI 浏览器——Comet
Perplexity发布AI浏览器Comet,主打“从浏览到思考”,整合网页解释、任务执行等功能,成为用户的“思考伙伴”。Comet目前仅向高价订阅用户开放。来源:AI工具集
抖音快手前高管创业,上线AI图片工具 KIRA
由抖音、TikTok、快手前核心成员创立的 AI 图片生成工具 KIRA 正式亮相。产品由 ILLA Cloud 孵化,支持一键替换/移除背景、修补、画质增强、扩图等操作,并具备 AI 生成图片能力。创始团队包括曾任抖音 & TikTok 研发、快手孵化业务大前端负责人陈龙博,及抖音、快手多项战略项目设计负责人吴晓松。来源:AI工具集
谷歌Veo 3逆天升级,照片秒变活人开口讲话!
谷歌AI视频生成模型Veo 3近日升级,用户只需上传一张照片,即可生成角色一致、配有音频的视频,实现“照片开口说话”。新功能支持多种运镜和风格,适用于广告、动漫等创作场景。来源:新智元
字节旗下小荷健康推出AI医疗助手——小荷AI医生
字节跳动推出首款AI医疗助手App“小荷AI医生”,提供健康咨询、报告解读、药品查询等服务,强调“先求证、再建议”的诊疗逻辑。用户可通过拍照上传报告或病灶图片,获取个性化分析和用药建议。来源:AI工具集
昆仑万维发布并开源 Skywork-R1V 3.0,刷新开源模型性能上限
昆仑万维正式开源多模态推理模型Skywork-R1V 3.0,模型在高考数学中取得142分,在多学科多模态评测MMMU中获得76分,刷新开源模型性能上限。Skywork-R1V 3.0通过强化学习策略提升跨模态推理能力。来源:昆仑万维集团
具身智能星海图再获超 1 亿美元融资,美团龙珠、今日资本领投
具身智能公司星海图完成A4轮及A5轮融资,总额超1亿美元,由美团、美团龙珠、今日资本领投,老股东持续加码。公司专注于“整机+智能”战略,推出多款机器人平台及开发工具,服务全球开发者生态。来源:星海图
钉钉重磅发布全新“AI表格”
钉钉发布全新“AI表格”,将AI能力深度融入表格工具,支持智能数据分析、自动化流程和多模态内容生成。新增“表格即文档”功能,实现结构化数据与非结构化信息融合,提升协作效率。来源:钉钉
Vidu Q1 参考生视频全球上线:重新定义叙事
AI视频模型Vidu Q1推出“参考生”功能,用户只需上传参考图,可快速生成高质量视频素材,省去传统分镜、拍摄和特效流程,大幅降低创作门槛和成本。来源:生数ShengShu
通义开源 HumanOmniV2 比你还懂“社交潜台词”!
通义大模型推出多模态推理模型HumanOmniV2,能更好理解人类社交潜台词。模型引入强制上下文总结机制,结合视觉、听觉和语言信息,提升对复杂意图的理解能力。通过多维度奖励机制和优化训练策略,HumanOmniV2在多个基准测试中表现优异。来源:通义大模型
混元3D再升级,推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen
腾讯混元3D宣布升级,推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen。模型结合自研高压缩率表征BPT技术,可生成上万面复杂几何模型,布线精度高,细节丰富,支持三边面和四边面,满足不同专业需求。来源:腾讯混元
它石智航完成1.22亿美元天使+轮融
具身智能公司它石智航(TARS)宣布完成1.22亿美元天使+轮融资,由美团战投领投,钧山投资、碧鸿投资、国汽投资、临港科创投、赛富投资基金、建发新兴投资跟投,老股东线性资本、襄禾资本持续加码。来源:蓝驰创投
强化学习新范式!元石提出“自反思生成范式”MetaStone-S1
元石科技发布新一代反思型生成式模型MetaStone-S1,采用“自反思生成范式”,融合Long-CoT强化学习与过程评分学习,实现深度推理与推理链路筛选能力统一。模型在多个基准测试中性能对标OpenAI o3-mini,具备更长思考长度与更低推理成本。来源:问小白
云深处科技完成近5亿元新融资 加速具身智能产业化布局
由浙大博导朱秋国创立的云深处科技宣布完成近5亿元融资,由达晨财智、国新基金等联合领投。本轮融资将用于四足机器人产线扩建、人形机器人技术研发及高端人才引进。来源:智东西
通义网络智能体WebSailor开源,检索性能登顶开源榜单!
阿里云通义实验室开源网络智能体WebSailor。智能体具备强大的推理和检索能力,在智能体评测集BrowseComp上超越DeepSeek R1、Grok-3等模型,登顶开源网络智能体榜单。WebSailor通过创新的post-training方法和强化学习算法DUPO,大幅提升了复杂网页推理任务的表现。来源:阿里云
字节跳动开源 AI IDE 工具核心组件 Trae-Agent
字节开源TRAE Agent 在 SWE-bench Verified 排行榜上取得 75.2% 的求解率,位居第一。TRAE Agent 是基于大语言模型的智能助手,专为软件工程任务设计,能自主完成代码理解、问题复现、修复方案制定、高质量代码编写等任务。来源:TRAE.ai
星动纪元完成近5亿元A轮融资!通用具身技术突破驱动商业化落地
星动纪元宣布完成近5亿元A轮融资,由鼎晖VGC和海尔资本联合领投。公司成立于2023年,是清华大学唯一持股的具身智能企业,致力于打造通用智能体。目前,星动纪元已向全球科技巨头批量交付超200台产品,订单中50%以上来自海外客户,在工业物流、连锁零售等行业加速落地。来源:北京星动纪元科技有限公司
通义实验室开源首个音频生成模型 ThinkSound
通义实验室开源首个音频生成模型ThinkSound,专为打破“静音画面”局限而生。模型通过引入思维链(CoT)技术,让AI学会结构化推理画面与声音的关系,实现高保真、强同步的空间音频生成。基于2531.8小时高质量多模态数据训练,包含对象级和指令级样本,支持交互式编辑。来源:通义大模型
AIGC独角兽硅基智能完成D轮融资,数字人业务营收数亿
AIGC独角兽硅基智能完成数亿元D轮融资,投资方为嘉兴高新区产业基金。本轮资金将用于研发创新、技术落地及产品市场化。自2017年成立以来,硅基智能已完成10轮融资,投资方包括腾讯、红杉中国等。来源:36氪
TNG推出DeepSeek“野生版”R1T2:速度碾压官方,开源
德国AI公司TNG推出“DeepSeek R1T2”模型。基于DeepSeek R1、R1-0528和V3三大模型开发,采用专家组合(AoE)技术,速度比R1快20%,推理能力显著提升。与初代模型相比,R1T2的智力大幅提升,解决了token一致性缺陷,在无系统提示时也能提供自然对话体验。来源:AI工具集
京东内测“宠TA”与“聊愈小宇宙”AI设计产品
京东APP悄然上线两款AI社交产品,“宠TA”和“聊愈小宇宙”。“宠TA”围绕宠物数字人提供陪聊、换装、问诊及一键购粮等闭环消费;“聊愈小宇宙”则通过情绪识别、回忆日历和社区交流,结合专业的心理咨询服务。来源:AI工具集
谷歌 Veo 3 AI文生视频模型正式向 Pro / Ultra 会员开放
谷歌Veo 3 AI文生视频模型正式向Pro/Ultra会员开放。Pro会员每天可生成3段视频,Ultra会员生成数量未公布。Veo 3的“照片生成视频”功能即将上线。来源:AI工具集
昆仑万维再次开源奖励模型!Skywork-Reward-V2
昆仑万维开源第二代奖励模型Skywork-Reward-V2系列,共8个模型,参数规模从6亿到80亿不等。系列在七大主流奖励模型评测榜单中全面夺魁。来源:昆仑万维集团
腾讯元宝支持一句话搜索图片、视频号内容
腾讯元宝推出新功能,支持用户通过“一句话搜索”匹配图片和视频号内容。用户开启“联网搜索”后,元宝可自动根据提问匹配图片与视频号,支持任意模型,不限“深度思考”是否开启。来源:腾讯元宝
OmniGen2重磅升级,统一图像生成再进化
智源研究院宣布 OmniGen2 图像生成模型重磅升级。OmniGen2采用分离式架构与双编码器策略,强化上下文理解与指令遵循能力,图像生成质量大幅提升。重构数据生成流程,解决开源数据集质量缺陷问题,引入图像生成反思机制,提升模型自我优化能力。来源:智源研究院
智谱获上海国资10亿元战略融资
国产AI大模型企业智谱在开放平台产业生态大会上宣布获得上海国资10亿元战略投资,由浦东创投集团和张江集团完成首笔交割。同时,三方与上海仪电、浦发集团合作,共同建设AI新型基础设施。来源:钛媒体AGI
星流 Agent上线!更适合中国设计师的一站式创意设计Agent
星流Agent正式上线,是专为中国设计师打造的一站式创意设计Agent。星流Agent延续了Lovart的全栈式智能设计能力,全面适配中文语义、东方美学和本地场景。用户只需输入一句话,能自动拆解任务、匹配风格、生成整套设计物料,支持多模态内容创作,涵盖图像、视频、3D等多种格式。来源:LiblibAI
Perplexity Max 订阅上线,月费 200 美元
Perplexity推出高端订阅服务Perplexity Max,月费200美元(约合1433元人民币)。订阅用户可无限制访问电子表格和报告生成工具Labs,提前体验Comet浏览器等新功能,调用OpenAI的o3-pro和Claude Opus 4等先进AI模型。来源:AI工具集
智谱发布并开源 GLM-4.1V-Thinking 系列视觉模型
智谱发布两项重要成果。一是开源新一代通用视觉语言模型GLM-4.1V-Thinking,10B级轻量版在多项权威评测中表现卓越,具备图像、视频、文档等多模态输入能力,支持复杂推理任务。二是上线MaaS“Agent应用空间”平台,启动Agent开拓者专项扶持计划,助力企业低门槛接入Agent能力,推动AI原生创业发展。来源:智谱
百度推出自研多模态大模型MuseSteamer和AI视频创作平台绘想
百度发布自研视频生成模型MuseSteamer及AI视频创作平台“绘想”。MuseSteamer是全球首个实现中文音视频一体化生成的模型,打破传统AIGC视频“先画面后配音”的流程,可实现画面、音效与人声台词协同创作。用户仅需上传一张图片即可生成专业级视频内容。来源:AI工具集
阿里云加码领投,智能体开发平台BetterYeah AI完成超亿元B轮融资
企业级AI智能体开发平台BetterYeah AI宣布完成超亿元人民币B轮融资,由阿里云领投、名川资本跟投。资金将用于新一代智能体产品研发。BetterYeah AI由钉钉创始团队成员创立,核心团队具备深厚的企业级产品基因。来源:钛媒体AGI
北京中小学生 9 月起开设 AI 通识课
北京宣布从2025年秋季学期起,全市中小学将全面普及人工智能通识教育,每学年不少于8课时。课程将涵盖人工智能的基本概念、应用与技术、实现方法及伦理与社会等方面,并将评价结果纳入学生综合素质评价体系。来源:北京市教育委员会
豆包「图像生成」超能创意2.0开启灰度测试
豆包超能创意 2.0 已在网页版和电脑版灰度测试,模型升级至豆包大模型 1.6 版本,接入 seedream 3.0、seededit 3.0 和 seedance 1.0 Pro 模型,分别提升图片生成、编辑和视频生成效果。来源:AI工具集
Cursor 推出网页端和移动端 Agent,支持多任务并行
Cursor 新推出的网页端和移动端 Agent 功能,用户可以在任何设备上通过浏览器访问 Cursor Agents,连接 GitHub 后即可使用。随时分配任务,Agent 后台自动运行并通知;支持多设备访问,满足不同场景需求;可分享工作链接,方便团队协作;支持多任务并行,提供多种解决方案。来源:AI工具集
通义千问推出语音合成模型Qwen-TTS,新增三种中文方言
Qwen-TTS发布了最新版本,新增支持生成北京话、上海话和四川话三种中文方言。语音合成模型使用超过300万小时语料库训练,合成效果自然且富有表现力,能自动调整韵律、节奏和情绪。来源:通义千问Qwen
Meta宣布正式成立「超级智能实验室」11人豪华团队
Meta正式宣布成立「超级智能实验室」(Meta Superintelligence Labs,MSL)。实验室由Scale AI前CEO Alexandr Wang担任首席人工智能官并领导,同时挖角了来自OpenAI、Anthropic和谷歌DeepMind的11位顶尖人才。来源:机器之心
ima.copilot更新,支持图文并茂回答
ima.copilot更新,支持图文并茂的回答。更新覆盖首页、知识库、侧边栏和笔记AI帮写等功能。用户可上传PDF、Word或PPT,ima能提炼重点并生成图文结合的内容。来源:ima.copilot