AI工具集实时追踪最新开源与非开源AI项目,为您提供前沿技术动态。涵盖多模态、推理、生成等热门领域。无论是企业还是开发者,是您获取最新AI项目资讯的权威平台。
Category: AI快讯
-
热门AI教程
AI工具集提供各种AI工具的详细使用教程,帮你安装、运行、测试和使用热门AI工具。
-
每日AI快讯热闻
AI工具集每日实时更新 AI 行业的最新资讯、新闻、热点、融资、产品动态、爆料等,让你随时了解人工智能领域最新趋势、更新突破和热门大事件。加入AI工具集官方社群,获取最新一手信息!
9月30·周二智谱旗舰模型GLM-4.6上线,代码能力全面进阶
智谱清言发布新一代大模型GLM-4.6,代码能力全面升级,对齐Claude Sonnet 4,成为国内最强Coding模型。模型在真实编程任务中表现优异,平均token消耗较上一代降低30%。上下文长度提升至200K,推理、搜索、写作能力显著增强。来源:智谱
Claude 4.5 发布,史上最强AI编程模型诞生
Anthropic发布Claude Sonnet 4.5,AI模型在编程能力上取得重大突破。在SWE-bench Verified测试中,Claude Sonnet 4.5登顶业界第一,能连续工作超30小时,可一次性写出约1.1万行代码。其在OSWorld测试中拿下61.4%的成绩,同样位居第一。Claude Sonnet 4.5还增加了“检查点”功能,可随时保存进度,终端界面翻新,并发布了原生VS Code插件。来源:APPSO
蚂蚁百灵发布Ring-1T-preview,深思不必久等
Ling Team发布万亿规模语言基座模型Ring-1T-preview。模型在AIME 2025等竞赛中表现优异,接近GPT-5水平。在IMO 2025测试中,Ring-1T展现出强大的推理能力。为探索其上限,团队提前开源Ring-1T-preview,模型在20T语料上预训练,结合强化学习训练。来源:百灵大模型
OpenAI 推出“即时结账”功能,ChatGPT 变身购物支付一体机
OpenAI宣布推出“即时结账”功能,用户可在ChatGPT内直接购物。目前,美国地区的ChatGPT用户可在对话界面内完成Etsy平台购物及Shopify平台下单。该功能已面向ChatGPT Pro、Plus付费用户及登录状态下的免费用户开放,现阶段支持从美国本土Etsy卖家处购物,超100万家Shopify商户将“很快”支持该功能。来源:IT之家
9月29·周一DeepSeek-V3.2-Exp 发布,训练推理提效,API 同步降价
DeepSeek团队发布实验性模型DeepSeek-V3.2-Exp。模型在V3.1-Terminus基础上引入DeepSeek Sparse Attention(DSA)机制,大幅提升长文本训练和推理效率,性能与V3.1-Terminus持平。目前,DeepSeek-V3.2-Exp已更新至官方App、网页端和小程序,API价格大幅下降,调用成本降低50%以上。来源:DeepSeek
乐享科技完成2亿元“天使++”轮融资,天使轮融资总额近5亿元
苏州乐享智能科技有限公司宣布完成2亿元“天使++”轮融资,是其9个月内第三轮融资,天使轮总金额近5亿元。本轮融资由钟鼎资本领投,IDG资本加注,资金将用于核心零部件自研、机器人本体与运动控制技术研发等。来源:乐享科技JoyIn
苹果自研多模态 AI 模型 Manzano:兼具理解与生成能力
苹果正在研发名为Manzano的多模态AI模型,兼具图像理解和生成能力,目标是解决现有模型在处理图像任务时的取舍问题。Manzano采用混合图像分词器,通过共享编码器输出连续标记和离散标记,减少任务冲突。其架构包括混合分词器、统一语言模型和独立图像解码器,参数规模从9亿到35.2亿不等,支持多种分辨率。来源:IT之家
9月28·周日混元图像3.0正式发布:开源,免费使用
腾讯混元图像3.0正式发布并开源。模型是首个工业级原生多模态生图模型,参数规模达800亿,是目前测评效果最好、参数量最大的开源生图模型。混元图像3.0具备强大的语义理解能力、极致美学质感,可生成高质感图片,并能解析复杂语义,生成长文本和小文字。来源:腾讯混元
Qoder CLI 开启邀测:把 Qoder 的智能带到每一个终端
Qoder团队宣布推出Qoder CLI,开启邀测。Qoder CLI是一款轻量级、AI原生的命令行工具,为开发者提供更高效、更智能的编码体验。支持自然语言交互,可生成代码、调试、重构、自动化任务等,与Qoder IDE深度集成,同时支持无头模式,便于CI/CD流程调用。来源:Qoder
腾讯混元3D开源+2:瞄准游戏建模、3D 打印痛点
腾讯混元发布并开源3D生成模型混元3D-Omni和混元3D-Part。混元3D-Omni是业界首个统一支持多条件控制的3D生成框架,突破图像输入局限,支持多种模态输入,可精细控制物体几何结构等。混元3D-Part实现灵活可控的部件拆分和生成,让3D模型像乐高一样可拆卸,便于游戏制作、3D打印等。来源:腾讯混元
9月26·周五全球首个动漫制作神器“萌动AI”国内登场,免费不限次
全球首款二次元/动漫专用AI创作工具“萌动AI”在国内上线。用户可通过官网免费不限次数使用文字/图片、首尾帧及视频续写功能创作优质动漫图片和视频。其生图板块支持文生图和图生图,有多种风格可选,人物一致性编辑效果好。视频生成功能可将图片转为视频,并进行续写和首尾帧生成。来源:AI工具集
AI陪伴硬件公司珞博智能(Robopoet)宣布完成数千万元天使+轮融资
AI陪伴硬件公司珞博智能(Robopoet)完成数千万元天使+轮融资,由红杉中国领投,金沙江创投、零一创投跟投。首款产品“Fuzozo芙崽”定位AI电子宠物,凭借可爱外观与好玩的AI体验,深受20-30岁一线女性喜爱,本轮融资后,公司将强化AI能力,拓展销售渠道,构建品牌认知及IP世界观,并计划推出联名款新品。来源:Robopoet珞博智能
OpenAI推出ChatGPT Pulse,奥特曼:这是我最喜欢的功能
OpenAI推出ChatGPT Pulse预览版,目前仅限Pro用户使用,未来将逐步扩展。该功能会在用户睡觉时根据其聊天记录、反馈及连接应用进行研究,第二天以主题卡片形式推送个性化内容,如旅游攻略、育儿贴士等。它旨在成为AI版私人助理和个性化资讯流,且不会让用户沉迷刷屏。来源:APPSO
Kimi 全新 Agent 模式 OK Computer 启动测试
月之暗面的Kimi发布全新Agent模式OK Computer并开启灰度测试。模式延续“模型即Agent”理念,通过端到端训练Kimi K2模型,提升智能体及工具调用能力。用户下达需求后,Kimi可操作虚拟电脑,完成多功能网站开发、海量数据分析、图片视频生成及高品质PPT制作等复杂任务。来源:IT之家
9月25·周四生数科技全球发布Vidu Q2,推动“视频生成”走向“演技生成”时代
生数科技发布新一代图生视频大模型Vidu Q2。模型以“Vidu Q2 看AI演戏”为主题,核心在于“细微表情生成”,在表情变化、运镜、生成速度及语义理解等方面取得突破,实现了从“生成视频”到“生成演技”的跨越。Vidu Q2能够生成复杂表情变化的文戏、多人打斗的武戏及炫酷特效场景,推动AI视频生成从“形似”到“神似”。来源:生数ShengShu
智能编程助手 Neovate Code 正式开源
蚂蚁集团支付宝体验技术部开源智能编程助手Neovate Code。工具可深度理解代码库,遵循编码习惯,实现功能开发、Bug修复和代码重构等功能。支持对话式开发、自定义规则文件、会话继续与恢复等,兼容OpenAI、Anthropic、Google等模型和提供商。来源:蚂蚁开源
Meta FAIR推出了代码世界模型:CWM(Code World Model)
Meta FAIR推出全球首个代码世界模型CWM。是一个参数量为32B、上下文大小达131k token的密集语言模型,专为代码生成和推理打造。CWM不仅能生成代码、理解语义,还能模拟代码运行过程中的变量状态变化与环境反馈,具备接近人类程序员的思考能力。来源:量子位
英伟达开源 Audio2Face 模型:AI 实时生成面部动画
英伟达开源生成式AI面部动画模型Audio2Face,涵盖模型、SDK及完整训练框架,加速游戏和3D应用中AI智能虚拟角色开发。通过分析音频特征,实时驱动虚拟角色面部动作,生成精准口型同步和自然情感表情,广泛应用于游戏、影视制作等领域。来源:IT之家
阿里云推出创业者的AI数字员工“万小智”
阿里云在云栖大会上推出面向中小微企业及个人创业者的AI数字员工“万小智”。集成AI开发、设计、客服与内容创作能力,帮助企业解决从品牌官网搭建到持续运营的问题。万小智依托通义大模型,具备四大核心功能:通过对话搭建官网、生成设计师级视觉效果、提供7×24小时智能客服以及生成SEO优化的内容。来源:阿里云万网
9月24·周三6款模型和1个全新品牌,云栖大会一口气全发了!
云栖大会上通义大模型团队一口气发布了6款模型和1个全新品牌。Qwen MAX是万亿参数旗舰模型,Coding能力和工具调用能力登顶国际榜单。Qwen3-VL是视觉理解模型,支持2小时视频精确定位和多种语言OCR。Wan2.5-Preview是音画同步创意引擎,支持音画同步和多种图像生成编辑功能。通义百聆是企业级语音基座大模型,解决语音识别和合成中的痛点。来源:通义大模型
夸克全新AI图像与视频创作平台「造点AI」正式上线!
夸克全新AI图像与视频创作平台「造点AI」正式上线。平台拥有AI生图、AI生视频、P图、编辑一体化等功能,搭载通义万相Wan2.5等多个模型,更懂中国元素,更具实用性。「AI生图」可生成真实亚洲人像、准确中文内容,驾驭多种艺术风格;「AI生视频」支持原生音画同步生成等,助力普通人实现导演梦。来源:夸克
阶跃AI的新朋友:桌面伙伴「小跃」开启邀测
阶跃AI推出桌面伙伴“小跃”并开启邀测。小跃常驻桌面右上角,可同时执行多任务,连接本地操作系统,支持查看管理本地文件、访问互联网、执行复杂任务等。其“妙计”功能可复用操作步骤,“定时任务”可到点自动执行。小跃能自主完成任务规划与执行,可与本地文件交互,一键处理文件。来源:阶跃星辰
ProcessOn发布:Calicat AI ,人人都是产品专家!
ProcessOn团队推出一站式产设研协作平台Calicat,整合原型设计、需求管理和任务管理功能,并融合AI能力。Calicat的AI设计助理可实现零门槛画高保真原型图,支持多种设计需求,如整套页面设计、组件模块设计、草图转原型、从网页提取设计等。来源:ProcessOn
9月23·周二智元机器人GO-1通用具身基座大模型全面开源!
智元机器人宣布其通用具身基座大模型GO-1正式在GitHub开源。是全球首个采用Vision-Language-Latent-Action(ViLLA)架构的具身智能模型,可降低技术门槛,推动行业发展。GO-1通过引入隐式动作标记,弥合了图像-文本输入与机器人执行动作之间的语义鸿沟,能更好地理解人类意图并转化为精确动作执行。来源:智元机器人
ChatExcel生成PPT功能上线,10秒,100M表格秒变数据报告PPT
ChatExcel一键生成PPT功能正式上线,仅需10秒,即可将100M表格转化为数据报告PPT。可自动分析表格和聊天上下文,生成逻辑严谨、结论清晰的专业数据报告PPT,支持单元格级溯源,准确率高达100%。用户只需上传表格、对话并点击“生成PPT”按钮,即可获得排版精美、逻辑完整、可直接汇报的PPT。来源:元空AIExcel
英伟达1000亿美元投资OpenAI!一切从算力开始
英伟达与OpenAI宣布签署战略合作意向书,计划未来数年建设至少10GW的AI数据中心,部署数百万颗英伟达GPU。英伟达将按每1GW交付进度,逐步向OpenAI投资最高1000亿美元,换取非投票股权。这是AI行业迄今最大规模的资金与硬件捆绑交易,被视为全球算力格局的重塑。来源:有新Newin
DeepSeek-V3.1 现已更新至 DeepSeek-V3.1-Terminus 版本
DeepSeek-V3.1版本已更新为DeepSeek-V3.1-Terminus。此次更新优化了语言一致性,缓解中英文混杂等问题,同时提升了Code Agent与Search Agent的表现,输出效果更稳定。新版本已在官方App、网页端、小程序及DeepSeek API同步更新。来源:DeepSeek
Qwen3-Omni 和 Qwen3-TTS 同时发布!
Qwen团队发布Qwen3-TTS和Qwen3-Omni两款模型。Qwen3-TTS-Flash支持17种音色和10种语言,包括多国语言和中国方言,延迟低至97毫秒,性能卓越。Qwen3-Omni发布三个版本,包括全模态描述模型、标准版和思考版,支持119种文本语言交互、19种语音理解语言和10种语音生成语言。来源:AI工具集
9月22·周一LongCat-Flash-Thinking 正式发布,更强、更专业,保持极速!
美团LongCat团队发布全新高效推理模型LongCat-Flash-Thinking。模型在保持极速的同时,推理能力显著提升,达到全球开源模型领先水平。具备深度思考与工具调用结合、非形式化与形式化推理融合等创新功能,在逻辑、数学、代码、智能体等多领域推理任务中表现出色。来源:龙猫LongCat
全球首个「推理视频模型」Ray3发布!
Luma AI发布了全球首个推理视频模型Ray3,模型具备强大的推理能力,能理解复杂指令并实时评估改进生成效果。Ray3支持10位、12位和16位HDR视频生成,提供电影级质感,可将SDR视频转换为HDR,支持16位EXR帧导出,方便后期制作。Ray3推出草稿模式,生成速度提升5倍,成本降低5倍,方便用户快速迭代创意。来源:AI工具集
华为、浙大发布 DeepSeek-R1-Safe 基础大模型
华为与浙江大学在华为全联接大会2025上联合发布了DeepSeek-R1-Safe基础大模型。模型基于昇腾千卡算力平台,构建了全流程安全后训练框架,首次实现千亿级参数满血版大模型安全训练。来源:IT之家
高德TrafficVLM模型重磅升级:AI赋予天空视角,可预知超视距路况
高德导航宣布TrafficVLM模型升级,赋予用户“天眼”视角,助力全局交通掌控。升级后的TrafficVLM依托空间智能架构,可实时感知交通态势,为用户提供超视距路况预知。例如,能提前识别前方3公里的拥堵点并推送最优通行建议,能通过导航界面切换实时呈现前方车流动态与高清实景图像。来源:高德
Teable 宣布完成数百万美元天使轮融资,让数据库「长出耳朵和手」
Teable宣布完成数百万美元天使轮融资,投资方包括真格基金、BV百度风投与祥峰投资。此前,Teable于9月16日在X平台发布全球首款多维表格智能体AI Database Agent(Teable 2.0)。Teable 2.0具备对话式建库、生成应用、自动化流程、数据分析与批量内容生成的一体化能力,用户可用自然语言完成复杂数据工作。来源:极客公园
9月19·周五一个模型支持两种场景!Wan2.2-Animate开源发布
阿里开源全新动作生成模型通义万相Wan2.2-Animate。可同时支持动作模仿和角色扮演两种模式,输入角色图片和参考视频,能将视频角色动作迁移到图片角色中,也可在保留原视频动作、表情及环境基础上替换角色。构建大规模人物视频数据集,实现单一模型兼容两种推理模式,精准复刻动作和表情,设计光照融合LoRA保证光照融合效果。来源:通义万相Wan
小米开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio
小米开源首个原生端到端语音大模型Xiaomi-MiMo-Audio。模型基于创新预训练架构和上亿小时训练数据,首次在语音领域实现基于ICL的少样本泛化,展现出跨模态对齐能力。Xiaomi-MiMo-Audio在多项标准评测中超越同参数量开源模型及Google、OpenAI的闭源模型。来源:Xiaomi MiMo
2025H1大模型公有云服务,火山引擎占比49.2%中国第一
IDC发布《中国大模型公有云服务市场分析,2025H1》报告。报告显示,2025年上半年,中国公有云上大模型调用量达536.7万亿Tokens,火山引擎以49.2%的份额位居中国第一。相比2024年全年114万亿Tokens的市场规模,2025年上半年调用量增长近400%。火山引擎推出多个多模态大模型,助力AI应用落地。来源:火山引擎
Notion重磅发布AI智能体!自动生成会议笔记、竞品分析
Notion 发布了首个 AI Agent。能以用户的页面与数据库为上下文,自动生成会议纪要、竞品分析、反馈汇总等内容,能新建或更新页面、整合 Slack/邮箱/Google Drive 等外部信息。相比已有的 Notion AI,新 Agent 具备多步骤执行能力,可完成跨数百页、耗时 20 分钟的复杂任务。用户可为 Agent 设置 profile 来定义引用规则、风格与记忆信息。来源:AI工具集
生数科技完成新一轮数亿元人民币规模的A轮融资
生数科技于2025年9月完成数亿元人民币A轮融资,由博华资本领投,百度战投等跟投。公司成立于2023年,核心团队由顶尖高校技术人才和产业界人才组成,专注于多模态大模型及应用的自主研发。新一轮融资将用于模型研发、技术创新和全球商业布局。来源:生数ShengShu
Chrome 迎来大更新,刚刚登顶 App Store 的 AI 可以直接用了
谷歌浏览器Chrome迎来自2008年发布以来最大更新,引入Gemini模型,新增多项AI功能。用户可通过点击右上角Gemini图标,实现跨标签页对话,解决找不到标签页等问题。Gemini还能整合多标签页信息,如对比产品优缺点、生成旅行计划等,提升信息处理效率。此外,Chrome新增智能体能力,可自动完成网页操作,如预订餐厅、购物等。来源:APPSO
9月18·周四面壁小钢炮迎新:VoxCPM 语音生成媲美真人、声音复刻超像!
面壁智能推出0.5B参数语音生成基座模型VoxCPM。模型由面壁智能与清华大学深圳国际研究生院联合研发,具备高自然度、高音色相似度和强韵律表现力。VoxCPM在权威语音合成评测中达SOTA水平,支持零样本声音克隆,可生成独特个人声音。来源:面壁智能
具身操作大模型InternVLA·A1上线,助力实现高动态场景下的多机器人协作
上海人工智能实验室推出首个理解、想象、执行一体化具身操作大模型InternVLA·A1。模型基于自研虚实混合操作数据集InternData·A1、国地中心实训场数据及互联网多源数据联合训练而成。在真机评测中,InternVLA·A1显著优于π0及GR00T N1.5,尤其在高动态场景下表现出强适应能力。来源:书生Intern
AI芯片黑马Groq融资狂吸7.5亿美元 估值直冲69亿
美国人工智能芯片初创公司Groq在最新一轮融资中筹集了7.5亿美元,估值达到69亿美元。本轮融资由Disruptive领投,贝莱德、路博迈、DTCP等参与,三星、思科等现有投资者也继续参与。Groq计划利用这笔资金扩大数据中心容量,包括今年和明年的新地点,并计划在年内宣布首个亚太地区的选址。来源:财联社
AI代码审查初创公司CodeRabbit获6000万美元B轮融资
AI代码审查初创公司CodeRabbit获6000万美元B轮融资,估值达5.5亿美元。本轮融资由Scale Venture Partners领投,英伟达企业风投等跟投。CodeRabbit通过云端与本地工具为开发团队提供自动化代码审查、安全检测和修复建议,帮助开发者提升代码质量与上线效率。来源:智东西
可调节思考时长,ChatGPT 网页端新增 GPT-5 Thinking 调整功能
OpenAI宣布为ChatGPT网页版的Plus、Pro和Business用户推出“Thinking”调整功能,用户可自由选择GPT-5模型的思考时长。功能包括标准模式(默认)、扩展模式、轻量模式和重度模式,分别对应不同的思考深度和回复速度。用户设置将保持不变,直至手动更改。来源:IT之家
天工超级智能体海外版上线Vibe Coding Agent:AI Developer
昆仑万维集团宣布天工超级智能体(Skywork Super Agents)海外版上线全新Vibe Coding Agent——AI Developer。功能帮助非专业开发人员,如白领、营销人员、教师、学生等,通过自然语言与Agent交互,快速构建、部署和管理全栈Web应用程序。用户通过几轮交互即可得到专属网站,支持自动收发邮件、对接支付系统等后端能力,能自动部署上线。来源:昆仑万维集团
9月17·周三李飞飞发布世界模型新成果:Marble!一张图生成 3D 世界
斯坦福大学教授李飞飞的创业公司World Labs上线空间智能新成果Marble。Marble是限量访问的Beta测试版平台,用户可在官网浏览和创建3D世界。技术通过给AI一张照片,让其生成场景的几何结构等,创建可探索的3D世界。来源:APPSO
不止SOTA!通义 DeepResearch模型、框架、方案全开源
阿里巴巴通义实验室发布通义DeepResearch模型、框架及方案,全部开源。研究针对AI“做研究”能力,进行系统性创新。自研全流程合成数据方案,无需人类干预,构造高质量数据集。提出智能体增量预训练阶段,提供大规模数据合成方案。在后训练数据合成、形式化建模、自动化生成高难度学科数据等方面均有创新。模型支持多种推理形式,革新Agent模型训练流程。来源:通义大模型
首个数字界面生产级Agent:MasterGo Agent 正式发布
莫高设计(MasterGo)宣布正式发布MasterGo Agent,是全球首个数字界面生产级AI Agent。自MasterGo AI整页生成上线以来,团队不断听取设计师的需求,包括调用设计规范、在画布中直接生成和灵活修改设计,以及AI融入生产协作流程。来源:MasterGo莫高设计
全球估值最高的机器人公司,刚刚融了71亿,黄仁勋又投了
美国人形机器人公司Figure宣布完成超10亿美元(约合人民币71亿元)C轮融资,投后估值达390亿美元(约合人民币2774亿元)。本轮融资由Parkway Venture Capital等多家知名机构领投,英伟达、英特尔资本等参投。Figure计划将资金用于人形机器人在家庭和商业的扩展、构建下一代GPU基础架构以及先进数据收集。来源:智东西
通用奖励模型VLAC上线,机器人在真实世界强化学习的“好搭子”
上海人工智能实验室上线具身奖励大模型VLAC。VLAC基于InternVL多模态大模型,融合多种数据,为机器人在真实世界强化学习提供过程奖励和完成情况估计,同时输出动作指令。能有效区分正常与异常行为,支持小样本快速泛化。来源:书生Intern
9月16·周二OpenAI 发布 GPT‑5-Codex 新模型,专为编程而生
OpenAI 发布了 GPT-5-Codex,是一个专为编程优化的全新模型,全面应用于 Codex CLI、IDE 扩展、网页端、移动端及 GitHub 代码审查。该模型沿用了 GPT-5 的动态调整思考时间特性,根据任务复杂度自动分配计算资源,简单任务秒回,复杂任务深度思考。来源:AI工具集
真人手办建模自由!腾讯混元3D 3.0来了
腾讯发布混元3D 3.0模型,建模精度提升3倍,几何分辨率高达1536³,支持36亿体素超高清建模,细节表现力显著增强。该模型面向用户免费开放,上线腾讯云API,助力游戏、影视、电商等行业实现专业级3D内容创作。混元3D 3.0专项优化人物生成,提升建模精度,使五官轮廓更清晰立体,体态更自然流畅。来源:腾讯混元
宇树开源 UnifoLM-WMA-0 世界模型动作架构
宇树科技宣布开源UnifoLM-WMA-0世界模型架构,专为通用机器人学习设计的跨多类机器人本体的开源架构。核心是能理解机器人与环境交互物理规律的世界模型,具备两大功能:一是作为交互式仿真器运行,为机器人学习提供合成数据;二是与动作头对接,通过预测未来与物理世界的交互过程来优化决策性能。来源:Unitree宇树
9月15·周一FunAudio-ASR:解决语音大模型企业落地的“最后一公里”
阿里巴巴推出FunAudio-ASR语音识别大模型,专为解决企业落地难题。模型通过创新的Context增强模块,有效优化了“幻觉”“串语种”等关键问题。在高噪声等复杂场景下,其识别准确率显著提升,幻觉率从78.5%降至10.7%。来源:通义大模型
Mureka上线「Agent Studio」新功能,让每个人都拥有私人音乐工作室!
昆仑万维旗下AI音乐创作平台Mureka上线新功能“Agent Studio”,让音乐创作变得轻松。用户只需说出想法,如一句话、情绪或梗,Agent可自动生成歌词、匹配风格并输出完整歌曲。目前有六个场景,如创作专辑、热点写歌、以歌致礼等,覆盖多种生活场景。来源:昆仑万维集团
火山引擎veCLI发布,开启智能开发新模式
火山引擎发布命令行AI Agent:veCLI,无缝集成豆包大模型1.6,助力开发者在终端直接访问火山方舟大模型及火山云产品。veCLI采用“思考-行动”循环机制,集成多种模型,降低技术门槛,提升开发效率。来源:火山引擎
金山办公与华为联合发布 WPS 365 一体化 AI 办公解决方案
金山办公与华为在珠海联合发布WPS 365一体化AI办公解决方案。方案整合WPS 365的协同办公优势与华为的全栈技术能力,通过AI、软件与云计算、硬件的协同创新,解决组织在知识资产管理、协同办公、安全合规等方面的核心需求。来源:IT之家
小米AI团队发布ZipVoice:高效零样本语音合成模型
小米集团AI实验室发布ZipVoice系列语音合成模型,包括零样本单说话人语音合成模型ZipVoice和零样本对话语音合成模型ZipVoice-Dialog。ZipVoice通过技术创新,解决了现有模型参数大、速度慢的问题,实现轻量化建模和推理加速。ZipVoice-Dialog则突破对话语音合成的稳定性和速度瓶颈,提供又快又稳又自然的语音对话合成。来源:小米技术
腾讯开源Youtu-GraphRAG:让图检索增强生成更准确、更省钱!
腾讯优图实验室开源图检索增强生成框架Youtu-GraphRAG。框架主打大语言模型+RAG模式,将知识组织成图谱,帮助大模型在处理复杂问答任务时更精准、可追溯,适用于知识密集型场景。其创新点包括四层知识树、社区检测升级和智能迭代检索,可减少“胡言乱语”。来源:腾讯云
9月12·周五阿里通义正式发布:Qwen3-Next-80B-A3B 双模型!
Qwen3-Next-80B-A3B双模型正式发布,包含擅长指令理解和执行的Instruct版本以及擅长多步推理和深度思考的Thinking版本。模型采用混合动力引擎,75%高效处理长文本,25%精准召回关键信息,实现长文处理的稳与快。来源:通义大模型
美团正式发布首个生活类AI Agent——小美
美团上线了首个生活类Agent——小美。小美可快速完成外卖点单、支付等操作,能记住用户过往订单和收货地址,支持跨地区点单。小美能设置定时任务,如定时点咖啡等。来源:AI工具集
MiniMax音乐模型新突破:MiniMax Music 1.5上线
MiniMax发布新一代音乐生成模型Music 1.5,开启“一人即乐队”新时代。模型生成时长升至4分钟,具备四大突破:强控制力,可对歌曲风格、情绪、场景等进行自定义;人声自然饱满,转音顺畅;编曲层次丰富,支持中国小众及民族乐器;歌曲结构清晰,带来“叙事级”听觉体验。来源:MiniMax稀宇科技
微软 Copilot 新增音频表达式功能
微软为Copilot工具新增“Copilot音频表达式”功能,基于自研MAI-Voice-1模型。用户可从三种语音模式中选择:有感染力模式,适合传递情感;故事模式,适合多角色故事讲述;脚本模式,适合精准传递信息。每种模式还提供多种语音类型与风格,如莎士比亚朗读风、体育解说风等。来源:IT之家
9月11·周四蚂蚁百宝箱正式发布“Tbox”, 智能体告别 “单打独斗”,直接把成果送到手!
蚂蚁百宝箱在2025 Inclusion·外滩大会上正式发布新产品Tbox超级智能体。Tbox采用多智能体协同架构,可自动形成工作小组完成用户任务,如生成PPT、报告、网页等,将AI应用从“卖工具”推进到“卖成果”阶段。动态编排引擎能根据任务复杂度调整智能体协作,用户无需技术知识,只需描述需求即可获得成果。来源:蚂蚁百宝箱Tbox
快手AI超级员工Kwali上线!一句话剪出完整短视频
快手推出AIGC超级员工Kwali,正在内测阶段。用户只需在对话框中说出需求,Kwali能在几分钟内生成完整的短视频,包括脚本、字幕和背景音乐。背后是强大的云端多Agent框架,可将需求拆解并分配给不同Agent完成,如意图解析、脚本生成、镜头匹配和剪辑合成等。来源:量子位
阿联酋开源“最快推理模型”K2-Think,撞名Kimi
阿布扎比穆罕默德·本·扎耶德人工智能大学与AI创企G42推出低成本推理模型K2-Think,基于阿里巴巴开源模型Qwen 2.5构建,参数量320亿,性能超过参数规模20倍的OpenAI和DeepSeek旗舰推理模型。模型在复杂数学任务基准测试中表现优异,部署在Cerebras晶圆级芯片上,性能提升10倍。来源:36氪
北京智源研究院孵化的具身大脑公司星源智获2亿元天使轮融资
北京星源智机器人科技有限公司完成2亿元人民币天使轮融资,投资方包括中科创星、高瓴、元禾原点等知名机构。公司成立于2025年8月1日,由北京智源研究院孵化,致力于构建物理世界的通用具身大脑。来源:星源智机器人
9月10·周三即梦上线图片4.0模型,首次支持多模态生图
即梦AI图片模型4.0正式上线。模型基于字节跳动自研的seedream4.0,融合常识和推理能力,是业界领先的多模态创意引擎。支持多参考图输入、生成系列组图、指令编辑、交互框选编辑等功能,可高度还原原图特征,实现无损编辑。来源:即梦AI
爱诗科技完成6000万美元B轮融资,阿里巴巴领投
AI视频生成领军企业爱诗科技宣布完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市人工智能产业投资基金等跟投。自研PixVerse V5模型位居Artificial Analysis图生视频榜首,产品PixVerse(拍我AI)入选a16z“全球Top 50生成式AI消费移动应用”榜单第25位。此轮融资将助力公司技术研发和市场拓展,推动AI视频生成技术的普惠。来源:爱诗科技AIsphere
混元生图模型开源升级2.1版本:支持写字、2k分辨率
腾讯混元发布开源文生图模型“混元图像2.1(HunyuanImage 2.1)”。模型支持原生2K生图,在复杂语义理解、跨领域泛化、美学表现和适用场景多样性等方面显著提升。支持中英文输入,可生成高保真插画、海报、漫画等,能对图像文字进行精细控制。来源:腾讯混元
具身智能关节厂商「灵足时代」连续完成Pre-A&Pre-A+千万元融资
具身智能关节厂商灵足时代已完成Pre-A&Pre-A+两轮数千万元融资,Pre-A轮由红杉种子领投,弘晖基金和兴牛资本等跟投;Pre-A+轮由弘晖独家投资。灵足时代成立于2023年11月,主营业务为一体化关节模组产业应用。来源:36氪
9月9·周二腾讯发布自研AI CLI:CodeBuddy Code,国内首家支持全形态AI编程工具
腾讯发布全新AI CLI工具CodeBuddy Code,腾讯云成为业内首家同时支持插件、IDE和CLI三种形态的AI编程工具厂商。CodeBuddy Code支持在命令行中用自然语言驱动开发全流程,实现极致自动化。无缝融入现有流程,开箱即用,扩展性强,可自动化复杂任务。来源:腾讯云
星火电脑版全新升级!年轻人的AI“硬核装备”
讯飞星火电脑版全新上线。升级聚焦垂直场景,涵盖AI写作、解题答疑、AI阅读、深度研究等实用功能。新版本界面简洁流畅,操作便捷,成为用户的“有颜有才”AI伙伴。解题答疑功能可逐步引导思考或展示完整解题步骤;AI写作覆盖60+场景;AI阅读能一键总结网页或文档内容;深度研究可自动搭建研究框架,输出专业报告。来源:讯飞开放平台
生数科技全球上线Vidu Q1参考生图,打造真正可用生产力工具
生数科技正式向大众用户开放其视频大模型Vidu的Q1参考生图功能。功能以“参考够多,还原够真”为核心,支持最多7张参考图输入,可实现多主体一致性、高还原度、自由创作等五大亮点。Vidu Q1参考生图覆盖合成、替换、变换三大生成模式,适配多主体复杂场景,大幅降低AI内容生产门槛。来源:生数ShengShu
听得清,识得准,语音识别模型Qwen3-ASR-Flash来了
通义千问团队发布了Qwen3-ASR-Flash语音识别模型。模型基于Qwen3基座模型,经海量数据训练而成,支持11种语言及多种口音,支持歌声识别。核心特性包括领先的识别准确率、惊艳的歌声识别能力、定制化识别、语种识别与非人声拒识以及高鲁棒性。来源:通义千问Qwen
Seedream 4.0 全量上线,扣子空间100+官方模版打包送!
Seedream 4.0全量上线扣子空间,带来多种玩法。用户可实现多图无缝融合,创作手办、周边、装潢装置设计等,还能穿越多种场景、融入指定图片、出演漫画主角、制作系列表情包。在文字能力提升方面,可精准修改海报,生成不同风格作品。来源:扣子Coze
百度最强深度思考模型文心大模型X1.1来了!性能追平GPT-5
在百度Wave Summit深度学习开发者大会上,百度发布文心大模型X1.1、飞桨框架V3.2、文心快码3.5S等。文心大模型X1.1事实性能力提升34.8%,指令遵循能力提升12.5%,智能体能力提升9.6%,在多项基准测试中超越DeepSeek-R1-0528,效果与GPT-5和Gemini 2.5 Pro基本持平。来源:智东西
告别服务中断焦虑!LongCat API 开放平台为开发者保驾护航
美团LongCat团队推出「LongCat API开放平台」,为受美国大模型公司Anthropic停止服务影响的在华企业和开发者提供平滑迁移方案。平台每日提供10万免费tokens,支持OpenAI API和Anthropic API两种格式,开发者可轻松从Claude切换至LongCat-Flash-Chat模型。来源:LongCat
专为“超大模型而生”,新一代训练引擎 XTuner V1 开源
上海人工智能实验室开源了书生大模型新一代训练引擎XTuner V1。XTuner V1基于PyTorch FSDP开发,针对超大规模稀疏混合专家(MoE)模型训练进行了优化,可支持1T参数量级MoE模型训练,在200B以上量级混合专家模型上实现训练吞吐超越传统3D并行训练方案。来源:书生Intern
9月8·周一跨赴科技完成数千万元Pre-A轮融资
AI Coding初创公司跨赴科技完成数千万元Pre-A轮融资,由复星锐正领投,奇绩创坛跟投。跨赴科技成立于2023年,专注于端到端全流程智能开发,其平台“码上飞”可让用户通过自然语言生成应用程序,已生成超160亿行代码。本轮融资将用于技术研发、人才引进和海外市场拓展,推动普惠数字化和全球市场布局。来源:KuaFuAI
首款能交付真实法律任务的AI律师智能体——吾律AI律师
幂律智能推出首款能交付真实法律任务的AI律师智能体吾律AI律师。吾律能模拟专业律师的沟通逻辑与思维模式,实现多轮深度对话,为用户提供定制化法律服务。可直接交付可执行成果,如合同审查、函件发送、律师函盖章、案情分析报告等,让法律事务像点外卖一样简单。来源:AI工具集
基座上新:MiniCPM 4.1 将「高效深思考」引入端侧
面壁智能发布MiniCPM 4.1基座模型。模型在MiniCPM 4.0基础上新增8B参数的原生稀疏架构深思考模型,推理速度比同尺寸开源模型快3倍以上,综合能力达同级SOTA水平。MiniCPM 4.1支持高效双频换挡,长文本用稀疏,短文本用稠密,推理效能高,长文本缓存锐减,端侧友好。来源:面壁智能
自变量机器人宣布完成近10亿元A+轮融资,阿里云首次出手具身创企
自变量机器人宣布完成近10亿元A+轮融资,由阿里云、国科投资领投,国开金融、红杉中国等跟投。是阿里云首次投资具身智能公司。资金将用于其全自研通用具身智能基础模型的持续训练及硬件产品研发迭代。来源:智东西
「Ropet萌友智能」完成数千万A1轮融资
AI机器萌宠公司萌友智能(Ropet)完成数千万人民币A1轮融资,由北京市人工智能产业投资基金领投,峰瑞资本跟投。公司成立于2022年,致力于打造AI情感化陪伴机器萌宠产品。其首代桌面机器萌宠“kamomo”在Kickstarter众筹40万美元,入选年度最佳AI消费硬件之一。来源:36氪
阿里云通义发布Qwen3-Max-Preview 强得不止一点
阿里云发布Qwen3-Max-Preview,参数量达1T,性能显著提升。新版本在中英文理解、复杂指令遵循和工具调用等方面大幅增强,知识幻觉大幅减少。在Arena-Hard v2基准测试中领跑,在AIME25测试中获80.6分,展现强大逻辑思维。来源:通义大模型
字节跳动发布即梦图片 4.0 首次支持多模态生图
字节跳动即梦AI发布即梦图片4.0。是首次支持多模态生图的版本,同一模型可实现文生图、图像编辑和组图生成。文生图功能有更强指令遵循、更高分辨率和更快生成速度;图像编辑可通过自然语言指令对单/多张图片进行修改;组图生成可一次性生成多张关联图像。来源:AI工具集
9月5·周五Kimi K2-0905正式发布,带来更强的代码能力、更快的 API
月之暗面科技有限公司正式发布Kimi K2-0905。新版本在真实编程任务中表现提升,具体包括:Agentic Coding能力增强,在基准测试和实际任务中性能更好;前端编程体验升级,代码更美观实用;上下文长度从128K扩展到256K,支持复杂长线任务;新增高速版API,输出速度达60-100 Token/s。来源:月之暗面 Kimi
智谱推出「Claude API 用户特别搬家计划」
美国大模型公司Anthropic宣布停止向多数股权由中国资本持有的集团出售Claude服务。智谱推出“Claude API用户特别搬家计划”,帮助开发者无缝切换至智谱GLM模型API。智谱已全面兼容Claude协议,用户只需替换API URL即可完成迁移。智谱为新用户提供2000万Tokens免费体验,开发者可享受更低价格、更高性能的GLM-4.5编码专属套餐。来源:智谱
Atlassian以 6.1 亿美元全现金收购The Browser Company
全球首家AI浏览器公司The Browser Company被软件公司Atlassian以6.1亿美元全现金收购。公司曾开发Arc浏览器,后转向打造AI原生浏览器Dia。Dia主打将浏览与对话结合,能跨标签搬运数据、总结文档等。收购后,Dia将继续独立运营,Atlassian计划将其打造成“AI时代知识型工作浏览器”。来源:极客公园
Anthropic加强服务限制:禁止受中国等地区控制的实体使用其技术
Anthropic更新了其服务条款,加强对不受支持地区的销售限制。此前,尽管条款禁止某些地区(如中国)使用其服务,但仍有公司通过在其他国家设立子公司等方式获取Anthropic的服务。Anthropic指出,这些公司可能面临法律要求,迫使其共享数据或与情报机构合作,从而带来国家安全风险。来源:Anthropic
9月4·周四杨植麟又发大模型!Kimi K2-0905登场,更强编程、创意写作
北京大模型独角兽月之暗面发布新版本Kimi K2-0905模型。模型在编程能力上进行了升级,上下文长度提升至256K,创意写作能力也有所增强,同时兼容Claude Code,支持前端功能解锁,让网页和图表更美观。来源:智东西
MetaGPT发布新型AI开发能力评估基准RealDevWorld
MetaGPT推出用户智能体,开启端到端自主软件测试新范式。智能体具备双重身份,既是产品经理严格验收,又是不知疲倦的AI测试工程师,实现全链路自主化。研究团队发布RealDevWorld框架,包含194个软件开发任务数据集RealDevBench和评估智能体AppEvalPilot。来源:AI工具集
瑞士发布国家级开源大语言模型Apertus
瑞士发布国家级开源大语言模型Apertus。模型由瑞士洛桑联邦理工学院等机构联合打造,完全开源,训练数据涵盖超1000种语言,总token量达15万亿,非英语数据占比40%。目前推出80亿参数和700亿参数两个版本。来源:AI工具集
9月3·周三Anthropic宣布完成130亿美元(约928亿元)F轮融资
AI独角兽Anthropic完成130亿美元F轮融资,估值达1830亿美元,成为全球第三大AI独角兽,仅次于字节跳动和OpenAI。AI编程工具Claude Code是增长主力,3个月使用量增长超10倍,创造超5亿美元年收入。本轮融资由多家知名风投和主权基金领投,将用于扩大企业采用规模、深化安全研究及支持国际扩张。来源:智东西
谷歌垄断案获“阶段性胜利”,Alphabet盘后涨近7%
美国地区法官作出关键裁定,在谷歌母公司Alphabet的反垄断审判中,谷歌无需剥离Chrome浏览器与安卓系统,也可继续向苹果等合作伙伴支付默认搜索引擎费用。消息发布后,Alphabet股价在盘后交易中大涨近6.7%。法院仅要求谷歌向竞争对手共享部分搜索数据,以改善市场竞争环境。来源:第一财经
9月2·周二混元世界模型上新:混元Voyager,综合能力问鼎WorldScore排行榜
腾讯发布混元3D世界模型系列新成员——HunyuanWorld-Voyager。模型是业界首个支持原生3D重建的超长漫游世界模型,可生成长距离、世界一致的漫游场景,突破传统视频生成局限。支持3D输入输出,与混元世界模型1.0高度适配,可扩展漫游范围、提升生成质量,支持多种3D应用。来源:腾讯混元
开发更可控,部署更便捷:AgentScope 迈入1.0时代
通义实验室推出新一代智能体开发框架AgentScope 1.0。解决智能体构建、运行和管理中的难题,提供覆盖“开发、部署、监控”全生命周期的生产级解决方案。采用三层技术架构:AgentScope核心框架负责智能体构建与应用编排;AgentScope Runtime提供安全可靠的运行和部署环境;AgentScope Studio提供可视化开发与监控工具。来源:通义大模型
拿下30个第1名的腾讯混元翻译模型Hunyuan-MT-7B,开源
腾讯混元Hunyuan-MT-7B翻译模型开源。模型参数量仅7B,支持33个语种及5种民汉语言/方言互译。在国际机器翻译比赛WMT2025中拿下30个第1名,推出业界首个翻译集成模型Hunyuan-MT-Chimera-7B,可生成更优翻译结果。Hunyuan-MT-7B计算效率高、部署友好,已接入腾讯多个业务,助力产品体验提升。来源:腾讯混元
9月1·周一美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代
美团发布并开源 LongCat-Flash-Chat,采用混合专家模型架构的 AI 模型,总参数量达 560B,平均激活参数 27B。在性能上比肩主流模型,尤其在智能体任务中表现突出,推理速度更快,适合复杂智能体应用。可以访问官方平台 Longcat AI,与 LongCat-Flash-Chat 开启对话。来源:Longcat
GLM-4.5编码套餐:20元包月,人人畅享全球顶级Claude Code编码体验
智谱推出限时「GLM Coding Plan」套餐,月费低至20元,降低AI编码工具使用门槛。GLM-4.5在前端开发、跨文件修改、全栈项目构建等场景表现出色,性能接近Claude Sonnet 4,成本仅为其1.5%。在CC-Bench评测中,GLM-4.5在开源模型中表现优异,性价比高。来源:智谱
开源SOTA:阶跃发布端到端语音大模型Step-Audio 2 mini!
阶跃星辰发布开源端到端语音大模型 Step-Audio 2 mini,模型在多个国际基准测试集上取得 SOTA 成绩。将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现突出,率先支持语音原生的 Tool Calling 能力,可实现联网搜索等操作。来源:阶跃星辰
微软推出自研 AI 模型:MAI-Voice-1 秒级生成音频
微软推出首批两款自研 AI 模型 MAI-Voice-1 和 MAI-1-preview。MAI-Voice-1 仅需单块 GPU,1 秒内可生成 1 分钟音频,已应用于“Copilot Daily”等,用户可在 Copilot Labs 平台体验并自定义音色与风格。MAI-1-preview 专为特定需求用户设计,训练使用约 1.5 万块英伟达 H100 GPU,具备遵循指令的能力。来源:AI工具集
智平方完成新一轮A系列融资,由深创投领投
智平方完成新一轮A系列融资,由深创投领投,金额超亿元。老股东敦鸿资产、国投创盈等持续加码,华熙生物等产业资本参与。本轮融资将用于GOVLA大模型及AlphaBot系列机器人的迭代、产线扩容与市场拓展。来源:智东西
8月29·周五OpenAI发布语音AI Agent专用模型GPT-realtime
OpenAI发布语音模型GPT-realtime。模型是专用于语音AI Agent的多模态模型,可生成自然流畅语音,完美模仿人类语调、情感和语速,支持图像理解并与语音或文本对话结合。新增Marin与Cedar两种语音,升级原有8种语音,具备智力、推理和理解能力,能捕捉非语言信号、切换语言和调整语气。来源:AI工具集
真·深度长文写作,上扣子空间!
扣子空间推出深度长文写作加速器,助力高效创作。用户可一键生成从选题到排版的全链路内容,涵盖研究论文、行业报告等多类型。平台提供高质信息源,支持深度思考与真实数据引用。其生成内容抛弃模板化,搭配专属洞察,风格多样,如专业分析、散文游记等。用户还可二次修改,管理文档版本。来源:扣子Coze
海螺首尾帧正式上线,「AI海龟汤·帧间宇宙」挑战赛来袭!
海螺AI全球上线首尾帧功能,接入Hailuo 02模型,支持复杂指令遵循、极限物理动态、大幅度运镜、超预期想象力及仅尾帧玩法。来源:海螺AI
美团 M17 团队开源 Meeseeks 评测集:揭秘大模型的 “听话”能力
美团M17团队推出全新评测基准Meeseeks,专注于大模型指令遵循能力的系统化研究与精准评估。该评测基准基于真实业务数据构建,采用精细化的三级评测框架,从任务核心意图、具体约束类型到细粒度规则,全面衡量模型的指令遵循能力。Meeseeks还引入“多轮纠错”模式,首次将模型的自我纠错能力纳入评测范畴。来源:美团技术团队
xAI 推出智能代码生成模型 Grok Code Fast 1
埃隆·马斯克旗下xAI发布智能代码生成模型Grok Code Fast 1。模型采用全新架构,擅长TypeScript、Python等语言,可处理从新项目构建到漏洞修复的多种任务。定价为每百万输入token 0.20美元,输出token 1.50美元,缓存输入token 0.02美元,限时免费开放给主流智能编程平台用户。来源:AI工具集
8月28·周四问小白5 重磅发布:国产大模型实力对标 GPT-5
问小白团队发布最新旗舰模型——问小白5。模型在智能水平上取得重大突破,成为国产大模型中智能水平最接近GPT-5的标杆之作。在AA-Index综合性能评测中,问小白5以64.7分超过Gemini2.5 Pro,接近GPT-5。其在STEM能力、前沿知识能力、代码编程能力以及指令遵循能力等多个维度均展现出卓越表现,分别获得86分、17.7分、79.2分和58.1分的高分。来源:问小白
混元开源又+1:HunyuanVideo-Foley,视频音效可以自动生成了
腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley。只需输入视频和文字,能为视频匹配电影级音效,解决了AI生成视频只能“看”不能“听”的问题。HunyuanVideo-Foley具有三大核心亮点:强大的泛化能力,可适配多种视频类型;多模态语义均衡响应,结合视频画面和文字描述生成复合音效;专业级音频保真度,提升音效质量。来源:腾讯混元
阿里巴巴发布首个数据分析Agent:Quick BI,人人拥有AI分析师
阿里巴巴旗下瓴羊发布首个数据分析Agent,Quick BI里的“智能小Q”升级为由问数、解读和报告三大核心Agent组成的“超级数据分析师”。Agent可快速获取、解读数据并输出洞察报告,将数据获取时间从一天缩短至10秒,报告生成时间从数天缩短至20分钟。来源:瓴羊DaaS
PixVerse V5 全新模型上线:把创作门槛再拍下去几厘米
PixVerse V5全球同步上线,此次更新聚焦于提升用户高频生成场景的视频效果,如复杂运动中主体不再违背重力、动漫同人创作细节更到位、广告制作文案不再“横飞”等。根据权威独立测评平台Artificial Analysis的最新测试结果,PixVerse V5在图生视频项目中排名全球Top2,在文生视频项目中位列Top3,保持在全球第一梯队。来源:爱诗科技 AIsphere
全球首款!浙大一院、阿里发布“平扫CT+AI”主动脉急诊模型iAorta
浙江大学医学院附属第一医院与阿里巴巴达摩院发布全球首款“平扫CT+AI”主动脉急诊模型iAorta。模型可在几秒内识别急性主动脉综合征,将确诊时间缩短至2小时内,显著降低漏诊率。研究团队通过回顾性分析发现,传统方法初诊漏诊率达48.8%,iAorta可将漏诊率降至4.8%。来源:阿里巴巴
8月27·周三Claude for Chrome来了!可作为浏览器扩展程序直接使用
Anthropic发布Claude for Chrome,一款作为浏览器扩展程序的AI工具。可在Chrome侧边窗口与用户对话,执行任务如设置日历、回复邮件等。目前仅向1000名Max套餐用户开放,月费100至200美元。安全是其重点,用户可限制其访问特定网站,且高风险操作需用户许可。来源:量子位
字节跳动推出新一代AI视频生成模型Waver 1.0
字节跳动推出了新一代AI视频生成模型Waver 1.0,基于修正流Transformer架构,支持文本到视频、图像到视频和文本到图像的生成,无需切换模型。支持最高1080p分辨率和2-10秒的灵活视频长度,擅长捕捉复杂运动,生成的视频在运动幅度和时间一致性上表现出色。来源:AI工具集
多模态新旗舰MiniCPM-V 4.5:高刷视频理解又准又快
面壁科技开源了8B参数多模态旗舰模型MiniCPM-V 4.5,是首个具备高刷视频理解能力的端侧多模态模型。模型在高刷视频理解、长视频理解、图片理解、OCR、文档解析等多个领域表现优异,甚至在一些榜单上超越了72B参数的Qwen2.5-VL。来源:面壁小钢炮MiniCPM
谷歌推出图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana)
谷歌正式推出最新的图像生成与编辑模型Gemini 2.5 Flash Image(代号nano banana),模型在多个榜单上名列前茅,表现出色。主要特点包括保持角色一致性、基于提示的图片编辑、利用Gemini的现实世界知识进行推理以及多幅图像融合。已通过Gemini APP、API、Google AI Studio和Vertex AI开放访问,每张图片生成成本约0.039美元。来源:APPSO
Wan2.2-S2V开源!图片+音频丝滑生成电影级视频
通义万相开源了全新多模态视频生成模型「Wan2.2-S2V」。模型仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时长可达分钟级,大幅提升数字人直播、影视制作等行业的视频创作效率。模型支持真人、卡通、动物等多种图片类型,可通过文本控制视频画面。来源:通义万相Wan
文心快码多项升级更新,新增Zulu-CLI终端编码能力
文心快码进行了多项升级更新,新增了Zulu-CLI,允许开发者在终端中使用Zulu的智能编码能力,无需离开命令行界面。企业版支持自定义模型,可根据不同场景灵活切换模型。来源:文心快码Baidu Comate
微软开源TTS模型:VibeVoice,可生成 90 分钟语音
微软开源了文本转语音(TTS)模型VibeVoice-1.5B,可生成最长90分钟、最多4位说话者的自然语音,支持跨语言及歌声合成。模型基于1.5B参数的Qwen2.5语言模型,结合声学与语义双分词器,以7.5Hz低帧率处理。来源:AI工具集
8月26·周二“杭州六小龙”又开源了!SpatialGen一句话爆改空间设计
“杭州六小龙”之一的群核科技宣布开源3D场景生成模型SpatialGen,并即将开源空间语言模型SpatialLM 1.5。模型能通过文字描述或户型图生成可交互的3D室内空间设计,支持动态漫游和细节编辑,甚至可用于具身智能机器人的虚拟训练。来源:智东西
英伟达全新的机器人计算平台Jetson Thor正式发售
英伟达推出全新机器人计算平台Jetson Thor,基于Blackwell GPU架构,AI算力达2070 TFLOPS,比上一代提升7.5倍,能效提高3.5倍,配备128GB超大内存。该平台支持多种生成式AI框架,助力开发者构建与物理世界交互的机器人系统。来源:量子位
哈工大深圳具身智能黑马,拿下亿元级融资,东方精工领投
若愚科技宣布完成新一轮亿元级天使 + 轮融资,由东方精工领投,深圳汉清达投资发展有限公司跟投。本轮融资将用于具身智能机器人大脑在垂直场景的产业化落地。若愚科技孵化自哈尔滨工业大学(深圳),专注于具身智能机器人大脑研发,通过多模态大模型整合感知、规划与执行模块,构建高效智能交互体系。来源:若愚科技
钉钉CEO无招:为AI时代打造一个全新的钉钉
钉钉在十周年发布会上推出8.0版本,代号“蕨”,标志着其正式走向AI原生。AI方面,钉钉推出五大产品,包括钉钉ONE、DingTalk A1、AI听记、AI搜问和AI表格,全面升级语音智能、搜索和表格功能,同时在客服、营销、教育等场景中深度应用AI,提升效率与体验。来源:钉钉
8月25·周一会头脑风暴的 AI — 国内首个并行思考模型 问小白o4 来啦!
国内首个并行思考模型问小白o4上线。模型可同时开启8条思考路径,自动筛选最优解,大幅提升答案精准度。问小白o4采用第四代开源推理范式,融合强化学习与过程奖励学习机制,具备深度推理与高质量思考筛选能力。来源:问小白
Looki L1 国行版上市计划
Looki L1 国行版计划于2025年第四季度上市。自全球上线以来,产品受到广泛关注,尤其在国内,众多用户表达了对它的喜爱与期待。目前,Looki L1 正在进行本地化部署与适配工作,以确保国内用户获得成熟、流畅且贴合本地使用习惯的体验。来源:LookiAI
打造“AI版Labubu”,深圳AI硬件创企跃然创新获2亿融资
国内AI玩具龙头企业跃然创新(Haivivi)宣布完成2亿元A轮融资,由中金资本旗下基金、红杉中国等领投。跃然创新成立于2021年,由前锤子手机营销总监李勇创办,打造AI玩具。2024年6月,推出全球首款AI玩具BubblePal,融合多语言对话、AI故事共创等功能,首月售出超万台,总销量突破20万台。来源:智东西
首款类人决策智能体Bloom,获高瓴光速数千万美元投资
前阿里云高管占超群创立的质变科技发布首款类人决策智能体Bloom。获得高瓴创投与光速光合数千万美元投资。Bloom解决复杂数据分析和决策场景中的准确性、可解释性和可用性问题,采用智能体团队协作、可解释性技术栈和端到端结果级交付等创新方式,推动AI成为更可靠的生产力工具。来源:Z Finance
马斯克开源Grok 2.5:中国公司才是xAI最大对手
马斯克宣布xAI开源Grok 2.5,Grok 3也将在半年后开源。Grok 2.5可在HuggingFace下载,包含42个文件,大小约500GB,需8个超40GB显存的GPU运行。模型曾在LMSYS排行榜上超越Claude和GPT-4,在多领域表现优异。开源协议较严格,仅限非商业用途。来源:量子位
Meta 与 Midjourney 达成美学技术授权合作
Meta与AI文生图片/视频研究团队Midjourney达成授权合作。Meta未来AI模型和产品将使用Midjourney的美学技术。Meta首席AI官Alexandr Wang在Threads上宣布了这一合作,称赞Midjourney在AI技术和美学表现上的成就。此次合作是Meta联合其他AI参与者实现优势互补的策略之一,也是其扩大AI技术资源储备的行动的一部分。来源:IT之家
8月22·周五阿里巴巴推出 AI Agentic 编程工具:Qoder,预览阶段全功能免费开放
阿里巴巴推出AI编程工具 Qoder ,具备代码库语义搜索、架构洞察、持续记忆、动态模型路由等功能,支持自然语言任务委派与一键“维基化”代码库。预览阶段全功能免费开放。传统编程工具只是帮你“写代码”,Qoder 则像一个“读过你全部代码、记得你全部习惯、能跨系统替你干活”的资深同事。来源:AI工具集
钉钉联手通义推出Fun-ASR语音识别大模型,可听懂十大行业黑话
钉钉与通义实验室语音团队联合推出新一代语音识别大模型 Fun-ASR。模型经过上亿小时音频数据训练,可精准识别家装、畜牧等十大行业的专业术语,实测在保险、家装等行业准确率提升 15%-20%。Fun-ASR 能结合企业信息优化转写结果,支持企业专属定制训练,已集成至钉钉会议字幕、智能纪要等功能模块。来源:钉钉黑板报
阿里云和五所高校一起,共同打造了一门免费AI课程!
阿里云联合超星尔雅及北京大学、南京大学、复旦大学、上海交通大学、浙江大学五所高校名师,共同推出 AI 通识公益系列课程「动手学 AI:人工智能通识与实践」,将于 9 月 1 日正式开放。课程依托阿里云技术,采用“学 – 练 – 评 – 管”模式,分为理论课和在线实践课,涵盖 AI 发展历程、核心技术等内容,设置 8 个实验环节。来源:阿里云
CodeBuddy IDE 国内版正式开放公测!无需邀请码
CodeBuddy IDE 国内版正式开放公测,支持最新 DeepSeek V3.1 模型,无需邀请码即可免费使用。IDE 提供一站式开发体验,涵盖产品设计、研发编码和部署验证等功能。DeepSeek V3.1 在编程能力、Agent 能力、思考效率和长文本处理能力上均有显著提升,尤其在 Aider 编程基准测试中超越多个开源模型。来源:腾讯云代码助手
8月21·周四字节跳动Seed开源Seed-OSS-36B模型,512k上下文
字节跳动Seed团队开源了Seed-OSS系列模型,包含360亿参数的Base和Instruct版本,支持最长512k上下文窗口,是目前开源模型中最长的。模型使用12万亿tokens训练,在多个基准测试中表现优异,如AIME24上达91.7%。其推理预算功能允许用户灵活调整推理长度,提升效率。来源:机器之心
轻量级易开发,8B参数释放大实力!科学多模态模型Intern-S1-mini开源
上海人工智能实验室推出轻量化科学多模态模型Intern-S1-mini。模型参数为8B,兼具通用与专业科学能力,适合快速部署和二次开发。Intern-S1-mini在多项权威基准测试中表现卓越,尤其在化学、材料等领域显著领先,强大的跨领域泛化能力。轻量化设计降低了对高端计算设备的依赖,仅需24GB单卡即可完成微调。来源:书生Intern
vivo首款MR头显vivo Vision,硬刚苹果,全球最轻,眼手交互,预约名额秒空
vivo正式发布首款MR头显——vivo Vision探索版,正式进军XR赛道。该头显重量仅398克,比苹果AirPods Max耳机还轻,搭载双目8K Micro-OLED屏幕,支持眼动追踪和手势交互,VST全彩透视延迟低至13ms。vivo Vision探索版支持PC VR无线连接、多窗口办公等功能。来源:智东西
前美团硬件负责人创业,做了一款项链式的“AI相机”:Looki L1
前美团硬件负责人孙洋创立的「光智时空Looki」发布首款多模态AI穿戴设备——Looki L1。这是一款仅重30克的AI生活相机,可磁吸或佩戴于脖子上,具备视觉和听觉感知能力,结合云端大模型为用户提供主动式服务。来源:智能涌现
金数据发布 Jiri AI表单助手,把想法变成专业表单
金数据推出名为Jiri的AI表单助手。Jiri能根据用户描述秒懂需求,自动生成表单字段组合,自动撰写专业文案,智能匹配高清头图,能根据用户反馈随时修改调整。用户可以通过一句话描述、粘贴内容、上传图片或链接等多种方式生成表单。来源:金数据
百度推出蒸汽机MuseSteamer 2.0版本
百度将推出蒸汽机MuseSteamer 2.0版本,包括Turbo、Lite、Pro和有声版全系模型,具备多人音视频一体化生成、复杂运镜、电影级人物表演等能力,将在影视创作、客户营销等多场景应用。官方应用平台为绘想,自7月2日上线以来,注册用户超30万。来源:AI工具集
腾讯开源ToonComposer:能生成一部完整的动画短片
腾讯 ARC 实验室联合北京大学、香港中文大学开源了 ToonComposer。仅需 1 张关键帧草图和 1 张彩色参考图,能生成完整的上色动画,能通过文本、草图、图片混合输入,一键转换为多种卡通风格动画。来源:AI工具集
8月20·周三ChatExcel获近千万天使轮融资,打造数据全链路商业闭环平台
ChatExcel团队宣布完成近千万天使轮融资,投资方为上海常垒资本和武汉东湖天使基金。ChatExcel由北京大学团队创立,是国内领先的生成式AI表格处理与数据智能体,累计服务用户超千万次。此次融资将用于加速产品研发迭代和全球化市场推广。来源:元空AIExcel
DeepSeek 开源新模型 V3.1,上下文长度拓展至 128K
DeepSeek宣布开源新基础模型DeepSeek-V3.1-Base。模型在Hugging Face发布后迅速冲上热门模型榜第4位。DeepSeek-V3.1-Base采用混合专家(MoE)架构,上下文长度拓展至128k,与V3版本参数量相同。来源:AI工具集
智谱AutoGLM上线:给每个手机都装上通用Agent
智谱AutoGLM 2.0正式上线,作为全球首个手机Agent,开创了Agent+云手机/云电脑的新技术范式,不占用用户本地设备资源,可在任何设备和场景下运行。AutoGLM 2.0由国产模型GLM-4.5和GLM-4.5V驱动,具备推理、代码与多模态能力,可完成多样化任务,如在生活场景中操作美团、京东等应用,或在办公场景中完成全流程工作。来源:智谱
Firecrawl融资1450万美元:AI爬虫独角兽盈利突围,百万美元悬赏“AI员工”
AI爬虫公司Firecrawl完成1450万美元A轮融资,由Nexus Venture Partners领投,Shopify首席执行官Tobias Lütke和Y Combinator跟投。Firecrawl为开发者和AI智能体提供开源网络爬虫工具,通过API提供商业支持版本。来源:AI工具集
8月19·周二哪里不对改哪里!全能图像编辑模型Qwen-Image-Edit来啦
Qwen团队推出全能图像编辑模型Qwen-Image-Edit。模型基于20B参数的Qwen-Image模型进一步训练,具备语义与外观双重编辑能力,支持中英文双语文字精准编辑,可实现原创IP创作、视角转换、风格迁移、元素增删改等功能。来源:通义千问Qwen
淘天集团发布首个 3D 动作游戏专用 VLA 模型
淘天集团未来生活实验室团队发布了首个3D动作游戏专用的视觉-语言-动作(VLA)模型CombatVLA,模型在动作角色扮演游戏的战斗任务中,成功率超越了人类玩家和GPT-4o。CombatVLA基于3B参数规模,通过动作追踪器收集的视频-动作对进行训练,采用渐进式学习范式,逐步从视频级到帧级优化动作生成。来源:IT之家
AI 助手理想同学MindGPT 3.1来了,模型即Agent,就是现在!
理想汽车旗下AI助手理想同学MindGPT 3.1升级为端到端智能体模型,引入模型即Agent功能,将智能体能力融入大模型,支持边想边搜,提升推理能力。新版本通过自主思考、调用工具、进一步推理的循环机制优化复杂任务处理,显著提高任务完成率。来源:AI理想同学
快手Klear-Reasoner登顶8B模型榜首,GPPO算法双效强化稳定性与探索能力!
快手 Klear 团队推出 Klear-Reasoner 语言大模型,在 8B 模型中登顶,数学与代码推理能力突出。模型基于 Qwen3-8B-Base 打造,采用 GPPO(Gradient-Preserving Clipping Policy Optimization)算法,有效平衡训练稳定性和探索能力。来源:快手技术
淘宝灰度测试“AI 万能搜”新功能
淘宝正在灰度测试“AI 万能搜”新功能,功能位于淘宝 App 搜索页面,支持用户通过自然语言提问,AI 将生成包含文字、商品、图片和视频的“答案报告”,帮助解决购物攻略、口碑评测、优惠咨询等问题。来源:IT之家
8月18·周一逗逗AI 1.0发布:为了实现HER中的AI陪伴体验,我们做了三件事
逗逗AI 1.0版本正式上线。打造“陪你游戏的AI伙伴”,通过无扰陪伴、实时感知和长效记忆三大创新功能,为用户提供深度陪伴体验。逗逗AI采用桌宠和悬浮球双模式,支持实时语音交互,具备视觉和听觉感知能力,能将多模态信息融合为场景记忆。来源:逗逗游戏伙伴
腾讯AI Lab团队推出的多模态音频生成工具AudioGenie
腾讯团队提出了一种全新的多智能体框架AudioGenie,用于从多模态输入(如视频、文本、图像)生成多样化且上下文对齐的音频类型(如音效、语音、音乐和歌曲)。采用双层架构,包含生成团队和监督团队。来源:AI工具集
智元机器人全系产品正式开售!领衔人机共生新时代
智元机器人宣布其全系产品正式开售,涵盖六大机器人产品线。精灵G1通用具身智能机器人售价45万元,具备高质量数据集和软硬件开发支持,适用于科研教育、数据采集和垂域场景训练。智元远征A2青春版售价16.8万元,具备文娱表演、展厅讲解等功能。来源:智元机器人
上交投资的首家语音大模型宇生月伴完成数千万元融资
情感语音交互模型初创公司宇生月伴完成新一轮融资,由靖亚资本和小苗朗程领投,上海交大母基金跟投。本轮融资将用于语音模型优化、产品矩阵拓展及国际化商业落地。来源:Z Finance
Anthropic为Claude赋予“结束聊天”能力
Anthropic宣布为Claude Opus 4及4.1版本推出新功能,模型可在极少数情况下主动结束对话。功能针对持续性有害或辱骂性互动,如用户索取可能导致大规模暴力或恐怖行动的信息。Anthropic强调,此举旨在保护AI模型本身,同时与模型对齐和安全措施相关。来源:IT之家
8月15·周五Mureka V7.5模型上线,AI音乐创作水平再迎新高度
昆仑万维正式上线Mureka V7.5模型。模型在中文歌曲创作上取得重大突破,提升了音色与演奏技法,优化了咬字和情感表现。通过ASR技术精准捕捉演唱细节,使AI演绎的歌曲更贴近真人演唱,显著增强了自然度和情感深度。来源:昆仑万维集团
消费级显卡就能跑的世界模型来了,腾讯混元3D世界模型推出Lite版本
腾讯混元3D世界模型1.0推出Lite版本,大幅降低显存开销,支持消费级显卡运行。模型是业界首个开源可编辑的世界生成模型,用户可通过文本或图片输入生成可漫游的3D世界。Lite版本采用动态FP8量化、SageAttention量化及Cache算法优化,显存需求从26GB降至17GB以下,推理速度提升3倍以上。来源:腾讯混元
会记住你说的每句话:谷歌 AI Gemini App 上线记忆功能
谷歌Gemini AI助手App新增“记忆”与“临时聊天”功能。开启“记忆”功能后,Gemini可记住用户对话内容及偏好,实现更自然的交流,目前该功能已向部分国家或地区的Gemini 2.5 Pro用户开放,将在未来几周内推广至欧盟、英国、瑞士等地区的Gemini 2.5 Flash用户。来源:IT之家
Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
Meta推出并开源了DINOv3,基于自监督学习的SOTA级视觉基础模型。DINOv3在多个视觉任务中首次超越弱监督学习模型,训练数据量达17亿张图像,模型参数规模达70亿,创新的自监督学习技术摆脱了对标注数据的依赖,降低了训练成本。来源:机器之心
智元推出首个机器人世界模型开源平台 Genie Envisioner
智元机器人推出行业首个机器人世界模型开源平台Genie Envisioner(GE)。GE基于约3000小时真实机器人操控视频数据,整合未来帧预测、策略学习与仿真评估,形成闭环架构,使机器人实现从“看”到“想”再到“动”的端到端推理与执行。来源:IT之家
解锁任意模态模型训练,字节跳动Seed开源VeOmni框架
字节跳动Seed团队开源了全模态PyTorch原生训练框架VeOmni,推动全模态大模型的研究与应用。VeOmni采用以模型为中心的分布式训练方案,将复杂的分布式并行逻辑与模型计算解耦,大幅降低工程开销,提升训练效率和扩展性。来源:字节跳动Seed
8月14·周四混元最新开源:Hunyuan-GameCraft,一张图,秒变游戏大片
腾讯混元开源新工具 Hunyuan-GameCraft,可将一张图片结合文字描述和动作指令生成高清动态游戏视频。工具基于 HunyuanVideo 底模,支持第一人称跑酷、第三人称探险等多种场景,具备自由流畅的动作控制、记忆增强的历史一致性以及低成本生产优势。来源:腾讯混元
昆仑万维正式发布Skywork Deep Research Agent v2
昆仑万维发布 Skywork Deep Research Agent v2,是天工超级智能体的核心引擎。新版本首次整合多模态检索、理解和生成能力,推出“多模态深度调研”Agent,可将图文信息完整整合到深度研究中,提升交付物质量。来源:昆仑万维集团
8月13·周三「Skywork UniPic 2.0」开源,统一多模态模型再迎新突破
昆仑万维正式开源「Skywork UniPic 2.0」模型,是面向统一多模态建模的高效训练和推理框架。模型由生图编辑、统一模型能力和生图编辑后训练三个核心模块组成,具备生成模块轻量高效、引入强化学习提升性能和一体化灵活切换等核心优势。来源:昆仑万维集团
Anthropic宣布Claude Sonnet 4支持高达100万Token的上下文窗口
Anthropic宣布Claude Sonnet 4 API支持高达100万Token的上下文窗口,容量是之前的5倍。开发者可在单次请求中处理大型代码库或数十篇研究论文。来源:AI工具集
OpenAI ChatGPT 更新:GPT-5 引入三种模式,4o 模型回归
OpenAI CEO 萨姆・奥尔特曼宣布 ChatGPT 重大更新。GPT-5 新增“自动”“快速”“思考”三种模式,用户可按需选择。“思考”模式每周限 3000 条消息,超限可用 mini 版,上下文限制为 196,000 个 token。4o 模型回归,付费用户可在网页设置中切换多款模型。来源:IT之家
Perplexity想花345亿美元收购谷歌Chrome
美国AI搜索初创公司Perplexity计划以345亿美元全现金收购谷歌Chrome浏览器。收购动机在于AI搜索领域增长焦虑,传统浏览器仍是重要流量入口。Perplexity承诺若收购成功,将投资30亿美元维持Chrome开源并保留默认搜索引擎。来源:智能涌现
8月12·周二Seele AI:全球首个端到端AI 3D游戏生成工具上线
Seele AI是全灵公司推出的全球首个端到端AI 3D游戏生成工具。用户可通过自然语言描述生成3D游戏,如FPS、飞行模拟等,实现零代码开发。工具支持多模态交互,涵盖文本、3D建模和物理引擎。Seele AI已开放全球公测。来源:AI工具集
全球多模态推理新标杆,GLM-4.5V正式上线并开源
智谱发布并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,总参数106B,激活参数12B。模型基于智谱新一代文本基座模型GLM-4.5-Air,综合效果在41个公开视觉多模态榜单中达到SOTA水平,支持图像、视频、文档理解及GUI Agent等任务。来源:智谱
Vercel 推出全栈应用构建AI工具——v0.app
Vercel 推出全栈应用构建工具 v0.app,可根据用户输入的文本提示,快速生成基于 React、Shadcn UI 和 Tailwind CSS 的网页用户界面代码,提供三种界面选择。用户能直接复制代码,可以对生成的 UI 进行微调和优化。目前处于免费内测阶段,可以访问官网加入等候名单。来源:AI工具集
昆仑万维发布「Matrix-Game 2.0」,国产开源的Genie 3来啦!
昆仑万维发布自研世界模型Matrix系列的升级版本「Matrix-Game 2.0」。实现通用场景下的交互式实时长序列生成,支持25 FPS速度生成连续视频内容,时长可达分钟级,具备高帧率、低延迟、强物理一致性和多场景泛化能力。与依赖文本语义的模型不同,「Matrix-Game 2.0」通过视觉驱动和物理规律学习构建虚拟世界,避免语义偏置。来源:昆仑万维集团
达摩院开源具身智能“三大件” 机器人上下文协议首次开源
阿里达摩院宣布开源具身智能“三大件”:视觉 – 语言 – 动作模型RynnVLA-001-7B、世界理解模型RynnEC和机器人上下文协议RynnRCP。RynnVLA-001-7B可从第一人称视频中学习人类操作技能并迁移到机器人手臂操控;RynnEC能从多维度解析场景物体并精准定位;RynnRCP打通了从传感器数据采集到机器人动作执行的完整工作流,支持多款热门模型和机械臂。来源:达摩院DAMO
昆仑万维开源Matrix-3D大模型,树立3D世界生成新标杆
昆仑万维开源了Matrix-3D大模型,用于3D世界的生成与探索。Matrix-3D是融合全景视频生成与三维重建的统一框架,能从单张图像生成高质量、轨迹一致的全景视频,还原可漫游的三维空间。模型具有场景全局一致、生成范围大、高度可控、泛化能力强和生成速度快等优势,支持文本和图像输入,生成的3D场景可自由探索。来源:昆仑万维集团
8月11·周一昆仑万维正式发布SkyReels-A3模型,让数字人“说话”的魔法
昆仑万维发布SkyReels-A3模型,是基于“DiT视频扩散模型+插帧模型+强化学习动作优化+运镜可控”的音频驱动人像视频生成模型。用户只需上传人像图片和音频,可生成自然同步的视频,支持照片“活”起来、创作新视频、改台词等功能。来源:昆仑万维集团
百川开源大模型Baichuan-M2,医疗能力登顶世界第一
百川智能发布开源医疗增强大模型Baichuan-M2。该模型在HealthBench评测中以60.1分超越OpenAI的gpt-oss120b等众多开源模型,成为全球医疗能力最强的开源大模型。Baichuan-M2通过AI患者模拟器和端到端强化学习,实现了医疗场景的高度还原和模型性能的大幅提升。来源:百川大模型
Grok 4 现已免费开放,非订阅用户每天可限量使用
马斯克宣布AI模型Grok 4向所有用户免费开放,非订阅用户每天可限量使用。Grok 4号称“全球最强”AI模型,具备深度推理能力,经过xAI的Colossus超级计算机训练,逻辑推理和文本生成能力出色。来源:AI工具集
8月8·周五GPT-5 正式发布!奥特曼:这是全球最好的模型
OpenAI正式发布GPT-5,CEO Sam Altman称其为全球最佳模型。GPT-5引入“智能路由”系统,能自动判断问题难度,快速或深度思考作答。全面取代并超越GPT-4等前代模型,免费用户即可使用。GPT-5 Pro(付费)则具备“扩展推理”能力,适合高难度问题。来源:AI工具集
8月7·周四讯飞星火代码画布上线!「动嘴开发」的时代到了
科大讯飞推出星火代码画布,标志着“动嘴开发”时代的到来。工具通过语音指令、草图、链接或文字描述,快速生成交互网页。来源:讯飞开放平台
MiniMax Speech 2.5上线:多语种表现力更强,音色复刻更“像”
MiniMax发布新一代语音生成模型Speech 2.5,再次刷新全球最强语音模型记录。Speech 2.5在多语种表现力、音色复刻和语种覆盖范围上实现三大突破。支持40种语言,中文表现全球最强,英文相似度显著提升,音色复刻精度行业领先,可跨语种保留口音和风格。来源:MiniMax 稀宇科技
灵心巧手完成数亿元天使轮融资,蚂蚁集团领投
全球高自由度灵巧手领军企业灵心巧手完成数亿元天使轮融资,由蚂蚁集团领投,多家知名机构跟投,老股东红杉中国种子基金加注。本轮融资将用于技术储备提升和具身智能数据采集场建设,加速灵巧手落地应用。来源:灵心巧手LINKERBOT
通义千问推出Qwen-Flash,全员拥抱1 M上下文!
Qwen API 迎来重大更新,推出 Qwen-Flash、Qwen3-Coder-Flash 两款新模型,升级了 Qwen-Plus。三款模型均支持 1M 超长上下文,理解力大幅提升。Qwen-Flash 以极速响应著称,适合轻快任务。来源:通义千问Qwen
谷歌正式推出异步 AI 编程智能体工具 Jules
谷歌正式推出异步AI编程智能体工具Jules,由Gemini 2.5 Pro驱动。Jules支持集成GitHub,可克隆代码库至Google Cloud虚拟机,在GitHub仓库中异步处理任务,助力开发者提升效率。Jules定价分免费版(每日15任务,3并发)和付费版(Google AI Pro每月19.99美元,Ultra套餐124.99美元)。来源:AI工具集
Qwen3-4B超顶小模型更新登场!手机也能轻松跑!
Qwen3-4B-Instruct-2507 和 Qwen3-4B-Thinking-2507 两款小尺寸语言模型更新发布。Qwen3-4B-Instruct-2507 通用能力大幅提升,超越闭源的 GPT4.1-Nano,支持多语言长尾知识,上下文理解能力扩展至 256K。Qwen3-4B-Thinking-2507 推理能力显著增强,AIME25 测评获 81.3 分。来源:通义千问Qwen
谷歌 Gemini AI 推出“引导式学习”功能
谷歌 Gemini AI 推出“引导式学习”功能,通过提问和逐步指导帮助用户理解问题,答案形式包括图片、视频和互动小测验等。促进学习而非简单提供答案,谷歌与教育专家合作确保其科学性。来源:AI工具集
8月6·周三OpenAI首次推出开源语言模型——gpt-oss
OpenAI开源大模型gpt-oss,包含1200亿和200亿参数两种版本,支持Apache 2.0商业化。模型针对AI Agent进行特殊训练,支持函数调用、网络搜索等功能,可助力快速开发智能体。来源:AI工具集
小红书 hi lab 开源多模态大模型 dots.vlm1,效果接近闭源 SoTA 模型
小红书hi lab开源了多模态大模型dots.vlm1。模型基于12亿参数的NaViT视觉编码器和DeepSeek V3 LLM构建,具备强大的视觉感知和文本推理能力。视觉编码器从零训练,支持动态分辨率,引入纯视觉监督提升感知能力。来源:小红书技术REDTech
谷歌DeepMind推出通用世界模型Genie 3,首个可实时交互世界模型
谷歌DeepMind推出通用世界模型Genie 3,是首个可实时交互的世界模型。基于文本提示,Genie 3能以每秒24帧、720p分辨率生成长达数分钟的交互式3D环境,相比Genie 2的10到20秒有了显著提升。Genie 3在模拟世界物理特性、自然世界、动画和小说建模等方面表现出色,能突破时空限制生成内容。来源:智东西
Anthropic发布Claude Opus 4.1模型,全面超越OpenAI o3
Anthropic发布Claude Opus 4.1模型,Pro/Max/Team用户可在网页端使用,API也已开放。Claude Opus 4.1性能更强,价格不变。在Agent能力、高级编程、搜索和写作等方面全面提升,能准确处理长时程任务和复杂企业工作流程,完成上千步骤的长程编程任务。来源:AI工具集
谷歌Gemini上线 AI 生成故事书功能——Storybook
谷歌Gemini AI聊天机器人上线“Storybook”功能,可生成10页图文并茂的故事书。用户只需简单描述,能生成带插图的故事,Gemini能朗读内容。用户可定制故事风格,如黏土动画、动漫等,可上传图片,如孩子的画作,让Gemini以此编故事。来源:AI工具集
美国AI Agent营销平台Clay完成1亿美元C轮融资
美国AI营销平台Clay完成1亿美元C轮融资,投后估值达31亿美元。本轮融资由Alphabet旗下CapitalG领投,Meritech Capital Partners、红杉资本等参投。Clay成立于2017年,总部位于纽约,最初聚焦“让编程民主化”,后转型为AI营销工具,帮助销售和市场团队寻找潜在客户并推动转化。来源:智东西
ElevenLabs推出AI音乐生成工具:Eleven Music
ElevenLabs推出AI音乐生成工具Eleven Music,可根据文本提示快速生成高质量、定制化的音乐作品。用户通过自然语言描述调整歌曲风格、节奏、歌词等,支持逐段编辑,实现无缝过渡和精确情绪转换。来源:AI工具集
8月5·周二告别文字乱码!全新文生图模型Qwen-Image来咯
通义千问团队开源了20B参数的文生图模型Qwen-Image。作为通义千问系列首个图像生成基础模型,Qwen-Image在复杂文本渲染和精确图像编辑方面表现出色,支持多行布局、段落级文本生成及细粒度细节呈现,英语或是中文,能实现高保真输出。来源:通义千问Qwen
腾讯混元「AI播客」来了,ima、腾讯新闻都在用
腾讯混元正式发布AI播客功能,功能可将文本、网页、文档一键转化为自然流畅的双人对谈式音频,将晦涩难懂的内容转化为有逻辑、有节奏的对话。用户可通过主题描述、网页URL和文档上传三种模式输入内容,平均90秒即可完成转换。来源:腾讯混元
京东战略领投!帕西尼4个月狂揽10亿元
帕西尼完成新一轮A系列融资,由京东战略领投,浦耀信晔等多家机构跟投,老股东持续加码,4个月内融资达10亿元人民币。帕西尼凭借高精度多维触觉感知技术及亿级全模态数据集,构建具身智能核心生态闭环,推进具身智能模型落地。来源:帕西尼感知科技
松延动力半年订单破亿,两年六轮融资狂飙突进
成立不足两年的松延动力近日完成数亿元A++轮融资,由金浦投资领投,北汽产投等跟投。是其今年上半年的第三轮融资,累计已达六轮。松延动力上半年斩获超2000台人形机器人订单,合同额破亿,成为国内第二家迈入“千台销量”门槛的公司。来源:NOETIX松延动力
8月4·周一继续开源:腾讯混元 0.5B、1.8B、4B、7B模型发布
腾讯宣布开源四款小尺寸混元模型,参数分别为0.5B、1.8B、4B、7B,可在消费级显卡上运行,适用于低功耗场景,支持垂直领域低成本微调。这些模型在语言理解、数学、推理等领域表现优异,具备agent能力和超长上下文窗口(256k),可处理超长内容。来源:腾讯混元
小米开源声音理解大模型 MiDashengLM-7B
小米开源了声音理解大模型MiDashengLM-7B。模型基于Xiaomi Dasheng音频编码器和Qwen2.5-Omni-7B解码器,采用创新训练策略,实现语音、环境声和音乐的统一理解,性能在22个公开评测集上刷新最佳成绩。来源:小米技术
全球首个!纳米AI多智能体蜂群上线
360集团宣布纳米AI完成品牌焕新,升级为“多智能体蜂群”,成为全球首个迈入L4级别的智能体系统。实现了从“单兵作战”到“群体协同”的进化,突破以往智能体在跨领域复杂问题上的瓶颈。纳米AI独创的“蜂群协作框架”可让多个推理型智能体灵活拉群、多层嵌套、组队协作,完成超长复杂任务,如制作10分钟电影级大片仅需20分钟。来源:360公司
小红书推出首个社交大模型RedOne
小红书推出首个社交大模型RedOne。模型采用“继续预训练→监督微调→偏好优化”的三阶段训练策略,针对社交网络服务(SNS)领域的复杂数据特征和多元场景进行优化。来源:AI工具集
谷歌推出 Gemini 2.5 Deep Think 模型
谷歌推出 Gemini 2.5 Deep Think,面向 Google AI Ultra 订阅者开放。模型基于在国际数学奥林匹克竞赛中获得金牌标准的版本改进,具备更快的推理速度和日常可用性,达到 2025 年 IMO 铜牌水平。Deep Think 通过并行思考技术,延长推理时间,生成多种想法并逐步优化,适用于复杂问题解决、科学发现、算法开发等场景。来源:AI工具集
昆仑万维发布并开源全新推理大模型 MindLink
昆仑万维推出并开源全新推理大模型Skywork MindLink,基于Qwen3-32B和Qwen2.5-72B后训练而成。模型采用新的推理范式Plan-based Reasoning,去掉了“think”标签,能根据任务难度自适应整合推理和非推理生成回复,降低推理成本且提升多轮对话能力。来源:AI工具集
8月1·周五Manus 推出 Wide Research,支持上百个 Agents 同时工作
Manus AI 上线以来最大更新,推出 Wide Research 功能。功能支持用户一键开启大规模并行 Agent 协作,可同时启动多达100个 Agent 处理复杂任务。来源:APPSO
Black Forest Labs开源新版Flux模型:FLUX.1 Krea dev
Flux开源模型新版本FLUX.1 Krea dev 正式发布。模型由Black Forest Labs与krea_ai联合开发,专为照片级写实而生,具备业界领先的开源文本生成图像能力,图像质量卓越且真实感强,能有效避免常见的“AI感”和过度饱和纹理问题。来源:AI工具集
Kimi K2 高速版发布:kimi-k2-turbo-preview
kimi-k2-turbo-preview 是 kimi-k2 的高速版,模型参数与 kimi-k2 一致,但输出速度由每秒 10 Tokens 提升至每秒 40 Tokens。目前限时 5 折特惠,9月1日恢复原价,折扣后的价格:模型每百万 tokens 输入价格(缓存命中)¥2.00,输入价格(缓存未命中)¥8.00,输出价格 ¥32.00。来源:Kimi 开放平台
阿里通义千问发布 Qwen3-Coder-Flash 编程模型
编程模型 Qwen3-Coder-Flash 正式发布。模型全称 Qwen3-Coder-30B-A3B-Instruct,性能出色,具备超强的 Agentic 能力,超越当前顶级开源模型,仅次于顶配版 Qwen3-Coder 和部分领先闭源模型。原生支持 256K tokens,可通过 YaRN 扩展至 1M tokens,能理解整个项目库代码,避免上下文断层。来源:通义千问Qwen
字节跳动发布实验性扩散语言模型 Seed Diffusion
字节跳动Seed团队发布实验性扩散语言模型Seed Diffusion Preview。验证离散扩散技术作为下一代语言模型基础框架的可行性,通过两阶段扩散训练、约束顺序学习与强化高效并行解码等关键技术,实现了每秒2146 tokens的推理速度,相比同等规模的自回归模型提升5.4倍。来源:字节跳动Seed
7月31·周四通义千问推出全新推理模型 Qwen3-30B-A3B-Thinking-2507
Qwen3-30B-A3B模型迎来重大升级,新版本Qwen3-30B-A3B-Thinking-2507在推理能力、通用能力及上下文长度上显著提升。在数学和代码能力评测中超越Gemini2.5-Flash和Qwen3-235B-A22B,在写作、Agent能力、多轮对话等通用能力上也表现优异。新模型原生支持256K tokens,可扩展至1M tokens,思考长度增加,适合复杂推理任务。来源:通义千问Qwen
Ollama发布桌面客户端,本地AI从此告别命令行
Ollama推出适用于macOS和Windows的桌面应用。应用支持下载并聊天模型,具备文件拖拽功能,可处理文本或PDF文件,能通过增加上下文长度处理大型文档(需更多内存)。新应用支持多模态功能,可向支持该功能的模型(如Google DeepMind的Gemma 3)发送图像。能处理代码文件以帮助理解文档。来源:AI工具集
零次方机器人再获两轮亿元级融资 加速具身基础模型突破与量产爬坡
零次方机器人宣布完成天使+轮和天使++轮亿元级融资,半年内已获三轮融资。资金将用于深化具身智能基础模型研发、加速量产交付以及生态布局。零次方已发布专项场景操作基础模型Zerith-V0和轮臂人形机器人Zerith-H1,成为国内首家实现超长序列多任务连贯操作的企业。来源:Zerith零次方
阿里巴巴旗下1688推出“1688 AI版”AI生意助手应用
阿里巴巴集团旗下1688在浙江省“平台+产业”AI对接会上推出“1688 AI版”App及多项AI产品。1688 AI版聚焦创业与拿货场景,集成AI搜索、选品、创款、图搜、查企等核心功能,覆盖商机发现到产品创新全链路。来源:智东西
阿里推出 AI 医学助手“氢离子”,收录千万级医学核心期刊文献
阿里健康发布 AI 医学助手“氢离子”。收录千万级医学核心期刊文献,支持权威指南查阅、AI 总结、全文翻译及智能问答,能查询疾病和药品信息。AI 研读功能可总结外文文献重点并标注出处。来源:AI工具集
京东健康推出 AI 情绪漫画生成应用“小星绪”
京东健康团队推出 AIGC 产品“小星绪”,用户可通过语音或文字输入情绪或讲述故事,AI 将生成个性化漫画及故事解读。帮助用户表达情绪、激发创意并构建社交关系链。来源:AI工具集
7月30·周三拒绝代做作业:OpenAI 发布 ChatGPT Study 学习模式
OpenAI发布ChatGPT Study学习模式,面向教育领域,提供交互式提示、支架式回应、个性化教育和知识点检查等功能,深度解读难题解题思路,培养学生的批判性思维和自主学习能力。来源:AI工具集
RoboScience 完成近 2 亿元天使轮融资,京东领投
RoboScience宣布完成近2亿元天使轮融资,由京东领投,招商局创投、商汤国香资本跟投,老股东零一创投继续追投。RoboScience专注于具身智能技术,采用快慢脑分层端到端模型,自主研发仿真物理引擎和具身操作大模型,实现机器人操作的高精度和高泛化能力。来源:RoboScience
昆仑万维开源多模态统一预训练模型「Skywork UniPic」
昆仑万维推出并开源了多模态统一预训练模型Skywork UniPic。模型融合图像理解、文本生成图像和图像编辑三大核心能力,采用自回归路线,基于大规模高质量数据进行端到端预训练。1.5B参数规模实现轻量级与高性能的平衡,具备指令遵循、复杂指令生图和图像编辑的领先能力。来源:昆仑万维集团
无影AgentBay来了!给AI智能体装上“超级大脑”
阿里云在上海世界人工智能大会上推出首款AI Agents“超级大脑”——无影AgentBay。是一款云端电脑,具备视觉理解、自然语言控制等AI技能,可在多系统间无缝切换,调用云端算力与资源,仅需三行代码即可接入。来源:阿里云
豆包·图像编辑模型3.0上线火山方舟
豆包·图像编辑模型SeedEdit 3.0正式上线火山方舟。模型基于强大的文生图模型Seedream 3.0,支持高清图像生成与处理,可精准锁定编辑区域,实现人物姿态调整、文字修改、光影变换等功能,同时保留图像细节。来源:火山引擎
谷歌AI笔记应用NotebookLM,新增“视频概览”功能
谷歌宣布升级AI笔记应用NotebookLM,新增“视频概览”功能。功能可根据用户输入的主题自动创建带有旁白的幻灯片视频,从用户上传的图片、图表、引用和文档中提取数据以丰富内容。来源:AI工具集
7月29·周二GLM-4.5发布:面向推理、代码与智能体的开源SOTA模型
智谱旗舰模型 GLM-4.5 重磅发布并开源,作为首款SOTA级原生智能体模型,国产综合评测第一,性能媲美全球最强旗舰模型。参数效率翻倍,API价格仅为Claude的1/10,速度最快可达100tokens/秒。率先在一个模型中实现多能力原生融合并取得重要技术突破——单个模型同时具备强大的推理、代码、智能体等能力,已上线智谱清言和Z.ai开放免费体验。来源:智谱
通义万相2.2开源!首创电影级美学控制系统
阿里正式开源通义万相Wan2.2,含文生、图生及统一视频三模型,首次在扩散模型中引入MoE架构,降耗50%,并首创电影级美学控制系统,光影色彩媲美专业片。小模型5B可在消费级显卡22G显存跑5秒720P视频,代码已上架GitHub、Hugging Face与魔搭。来源:通义万相Wan
阶跃 AI 有了一个研究小助手:阶跃深研
阶跃星辰推出了“阶跃深研”研究小助手,开启邀测。阶跃深研能在约十分钟内完成复杂问题的研究任务,生成深度、专业的研究报告,适用于金融、咨询、医疗、法律、政策与学术研究等多个领域。在红杉中国发布的xbench-DeepSearch评测中以70%的通过率位列第一,在OpenAI的BrowseComp基准测试中也达到行业领先水平。来源:阶跃星辰
微软为 Edge 浏览器引入 Copilot 模式,变为“AI 原生”浏览器
微软在 Edge 浏览器中推出实验性功能“Copilot 模式”,将其从传统网页浏览器转变为“AI 原生”浏览器。Copilot 被定位为用户的“浏览智能体”,能看懂所有打开的标签页,帮助总结、对比信息,甚至未来可预订行程、处理琐事。来源:APPSO
Runway推出多任务视频生成与编辑模型——Aleph
Runway 近日宣布推出 Runway Aleph,是多任务视频生成与编辑模型。Aleph 能对输入视频进行多种编辑操作,包括添加、移除和转换对象、生成任意角度的场景,以及修改风格和灯光等。来源:AI工具集
7月28·周一腾讯正式发布混元3D世界模型 1.0,全面开源
腾讯在世界人工智能大会上正式发布并开源混元3D世界模型1.0。是业界首个开源的可沉浸漫游、可交互、可仿真的3D世界生成模型,融合全景视觉生成与分层3D重建技术,支持文字和图片输入,能在几分钟内生成高质量3D场景。来源:腾讯混元
快手可灵 AI 发布全新创意工作台「灵动画布」
快手可灵 AI 发布全新创意工作台「灵动画布」和升级后的「多图参考」功能。「灵动画布」支持最多 5 人协同创作,素材共享且可实时联动;「多图参考」功能则大幅提升了 AI 视频生成中角色、主体和场景的一致性,解决了以往角色形象前后不一致、画风突变等痛点。来源:AI工具集
千问推出Qwen3升级版:Qwen3-235B-A22B-Thinking-2507
Qwen3-235B-A22B推理模型升级版本Qwen3-235B-A22B-Thinking-2507正式发布。版本在推理性能和通用能力上取得巨大飞跃,可比肩Gemini-2.5 Pro、O4-mini等顶尖闭源模型,创下全球开源模型SOTA最佳性能表现。来源:通义千问Qwen
阶跃星辰发布新一代基模Step 3,推理效率创行业新高
阶跃星辰在上海发布新一代基础大模型Step 3。模型总参数量321B,激活参数量38B,采用MoE架构,具备强大的视觉感知和复杂推理能力,性能达到开源SOTA水平。Step 3在推理效率上实现行业领先,尤其在国产芯片上效率显著提升。来源:阶跃星辰
上海AI实验室开源发布『书生』科学多模态大模型Intern-S1
上海人工智能实验室在世界人工智能大会(WAIC 2025)上发布并开源了“书生”科学多模态大模型Intern-S1。模型是首个融合专业科学能力的开源通用模型,具备跨模态科学解析能力,可精准解读多种复杂科学模态数据,如化学分子式、蛋白质结构、地震波信号等,并在化学、材料、地球等多学科专业任务基准上超越顶尖闭源模型Grok-4。来源:书生Intern
商汤科技发布「悟能」具身智能平台,官宣入局具身智能
在世界人工智能大会(WAIC 2025)大模型论坛上,商汤科技发布「悟能」具身智能平台,正式入局具身智能领域。商汤凭借十年多模态技术积累和世界模型经验,推出日日新V6.5多模态推理大模型,其图文交错思维链显著提升了跨模态推理精度,性价比提升5倍。来源:量子位
扣子开源:扣子开发平台Coze Studio和扣子罗盘Coze Loop
Coze宣布开源两款核心产品:零代码开发平台Coze Studio和调试工具Coze Loop。扣子开发平台采用Apache 2.0开源协议,支持零代码开发,用户可通过拖拽组件快速搭建智能体工作流程。Coze Loop提供全生命周期管理工具链,涵盖开发、评测、观测和优化四大阶段,助力开发者高效调试和优化智能体。来源:AI工具集
7月25·周五从灵感到网站,只要5分钟,扣子空间网页设计功能上线
扣子空间推出了一键生成网页设计的新功能。用户只需输入需求,即可快速生成现代、响应式的网站,支持自然语言编辑和上传设计稿复刻。功能适用于招聘网站、活动营销页面、机构主页、个人主页、生活网页和前端工具等多种场景。来源:扣子Coze
讯飞星火X1升级版正式上线!
科大讯飞宣布其深度推理大模型讯飞星火X1升级版正式上线。此次升级实现了综合能力的大幅提升,对标OpenAI等一流大模型,在翻译、推理、文本生成、数学等方面保持领先。星火X1在幻觉治理方面取得显著进步,多语言能力覆盖130多种语种,为全球提供自主可控的大模型底座。来源:科大讯飞
快手 AutoThink 大模型 KAT-V1 正式开源,40B 性能逼近 R1-0528
快手开源了KAT-V1自动思考大模型,包含40B和200B两个版本。40B版本性能追平DeepSeek-R1(6850亿参数),200B版本在多项基准测试中超越Qwen、DeepSeek和Llama等旗舰模型。KAT-V1通过长短思考混合训练范式、新型强化学习方法Step-SRPO等技术创新,实现了根据问题难度自动切换思考模式。来源:快手技术
宇树科技发布双足人形机器人新品Unitree R1,售价3.99万元起
宇树科技发布双足人形机器人新品Unitree R1,售价3.99万元起,重量仅25千克。R1具备出色的运动控制能力,可下坡、翻跟头、倒立,支持开发与定制。来源:第一财经
ChatGPT Agent 正式推送至所有 Plus、Pro 与团队用户
ChatGPT Agent 功能现已正式向所有 Plus、Pro 与团队用户 推出。Agent 能在内置“虚拟电脑”环境中自主执行多步骤任务,包括上网浏览、填写表单、运行代码、生成表格与幻灯片等,用户通过对话中的“agent mode”菜单激活,可随时中断或确认 AI 操作。当前 Pro 用户每月可用 400 次,Plus 和团队用户为 40 次。来源:AI工具集
阿里云通义千问宣布 Qwen-MT 机器翻译模型:支持 92 种语言互译
基于Qwen3模型的机器翻译模型Qwen-MT正式发布。该模型支持92种语言互译,覆盖全球95%以上人口,具备高度可控性,提供术语干预、领域提示等功能。采用轻量级MoE架构,低延迟、低成本,API调用价格低至每百万输出token 2元。来源:通义千问Qwen
Lovart 正式版上线,用 ChatCanvas 改写 AI 设计交互范式
AI 设计智能体 Lovart 正式版发布,推出全新交互系统 ChatCanvas,实现从“工具”到“设计伙伴”的升级,首次将“评论系统”用于 AI 交互,用户可直接在画布上点击、标注、对话式修改图像;支持多图联动、Frame 管理、评论追踪与复用,像用 Figma 那样精细控制设计流程。来源:AI工具集
7月24·周四字节跳动 Seed 团队发布端到端同声传译模型 Seed LiveInterpret 2.0
字节跳动Seed团队推出了Seed LiveInterpret 2.0,是支持中英双向翻译的端到端同声传译模型。具备接近真人水平的翻译准确率和极低的延迟(仅3秒),能实时处理多人语音输入并进行“边听边说”翻译。零样本声音复刻功能可实时复刻说话人的音色,无需提前采集样本。来源:字节跳动Seed
免费不限量,通义灵码已经全面支持 Qwen3-coder 模型
阿里云宣布开源其AI编程大模型Qwen3-Coder,全面接入AI编程产品“通义灵码”,向全球开发者免费提供不限量服务。来源:通义灵码
微软发布一键生成全栈应用工具——GitHub Spark
微软发布GitHub Spark,可将自然语言描述一键生成全栈应用并部署上线。GitHub Spark遵循微应用理念,支持多种功能,如交互式预览、自动历史记录、托管运行时环境等,深度集成GitHub平台。来源:AI工具集
像素绽放PixelBloom完成B3轮融资
像素绽放PixelBloom近日宣布完成B3轮战略融资,由国内领先国有产业投资平台亦庄国投领投,国科投资、英诺天使基金、水木清华校友种子基金及探路者创始人盛发强先生参与投资。融资将支持PixelBloom加速全球化布局,确立AiPPT.com在全球AI演示软件领域的领导地位,扩展其独特的AI Venture Studio模式。来源:像素绽放PixelBloom
加速进化宣布完成超亿元A+轮融资
加速进化宣布完成超亿元A+轮融资,由北京市机器人产业发展投资基金领投,北京市人工智能产业投资基金和博华资本跟投。专注于双足人形机器人研发,其产品Booster T1在2025年RoboCup机器人世界杯上助力清华火神队获得成人组冠军。来源:智东西
7月23·周三通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文
Qwen团队正式发布Qwen3-Coder,是迄今为止最具代理能力的代码模型。Qwen3-Coder-480B-A35B-Instruct是其最强大的版本,拥有480B参数激活35B参数,原生支持256K token上下文并可通过YaRN扩展到1M token,在Agentic Coding等任务上达到开源模型SOTA效果。来源:通义千问Qwen
昆仑万维发布最新AI音乐模型——Mureka V7
昆仑万维发布AI音乐模型Mureka V7。模型通过核心技术MusiCoT(音乐思维链)实现了先规划整体音乐结构再生成细节的功能,解决了传统AI音乐模型“走一步看一步”的问题,生成的音乐作品更具连贯性和感染力。Mureka V7支持10种语言,可创作流行、摇滚等多种风格音乐,最长单曲时长5.5分钟。来源:AI工具集
讯飞星火X1将于7月25日全新升级!
科大讯飞宣布讯飞星火X1升级版将于7月25日正式上线。此次升级的核心亮点包括综合能力大幅提升,在数学、翻译、推理、文本生成等方面保持领先;幻觉治理显著进步,慢思考模式的幻觉治理准确率大幅领先;多语言能力全面扩展,支持130+语种。来源:科大讯飞
阿里本周将发布首款自研AI眼镜,加入“百镜大战”
阿里巴巴将于本周发布首款自研AI眼镜,加入“百镜大战”。产品具备语音助手、音乐播放、电话通话、实时翻译等功能,整合了阿里巴巴生态内的地图、支付、购物等功能。硬件上,分为不带显示的AI智能眼镜和带显示的AI+AR智能眼镜,采用双芯片架构。来源:智能涌现
通用机器人模型GR-3发布!支持高泛化、长程任务、柔性物体双臂操作
字节跳动Seed团队发布通用机器人模型GR-3。模型具备高泛化能力、长程任务处理能力和柔性物体双臂操作能力,能理解抽象语言指令并快速适应新环境和新任务。GR-3采用Mixture-of-Transformers网络结构,融合了视觉、语言和动作信息,通过遥操作机器人数据、人类VR轨迹数据和大规模视觉语言数据联合训练,提升了泛化性和灵活性。来源:字节跳动Seed
零一万物发布万智企业大模型一站式平台2.0
零一万物在北京发布万智企业大模型一站式平台2.0版本,并推出企业级Agent智能体,定位为“超级员工”。该Agent具备深度思考和任务规划能力,能访问手机和Web端,连接各类企业服务。来源:零一万物 01AI
7月22·周二字节跳动TRAE推出SOLO模式,从需求到交付“一站式完成”
字节跳动发布AI编程助手TRAE SOLO模式,主打全流程自动化开发体验。从需求输入到部署交付“一站式完成”,支持自然语言或语音输入需求,AI自动完成PRD撰写、代码生成、调试验证并直接上线。引入“实时跟随”功能,动态展示AI操作阶段,用户可随时切换AI主导与手动主导模式。来源:AI工具集
首款本地大模型办公本来了!讯飞智能办公本X5正式发布
科大讯飞发布全新旗舰级智能办公本X5。作为首款本地大模型办公本,具备离线AI能力,支持离线语音转写、多人识别、中英互译及会议纪要等功能,构建“全链路安全”体系。配备10.65英寸墨水屏,仅重355克,薄至4.6毫米,搭载6nm AI芯片和8核CPU,支持300PPI高清显示与GPU快刷技术,书写体验接近真实纸笔。来源:科大讯飞
Qwen3深夜升级,全面告别混合思维模式
阿里通义千问推出Qwen3-235B-A22B-Instruct-2507-FP8版本,通用能力显著增强,涵盖指令遵循、逻辑推理、文本理解等多领域。在多项测评中超越Kimi-K2、DeepSeek-V3等顶级模型。新版本在多语言长尾知识、主观任务契合能力及长文本处理方面进步显著,上下文理解能力提升至256K。来源:新智元
腾讯推出全栈开发AI IDE——CodeBuddy IDE
腾讯推出CodeBuddy IDE的AI助手,专为零基础用户设计,助力无经验者轻松开发互联网产品。用户只需输入简单指令,工具可完成产品构想、设计、开发及调试等全流程操作。CodeBuddy IDE支持多种AI模型,内嵌Figma设计工具,可一键将设计稿转为代码,现已开启内测。来源:腾讯
专为开发者设计的AI源码解读工具——Zread
Zread是帮助开发者快速掌握项目核心知识的AI工具,能一键生成清晰易懂的仓库Guide,快速梳理复杂代码,生成API文档和用户手册。支持多仓库对比学习,解读GitHub Trending热门项目,提供深度研究功能,助力开发者提升技能。来源:AI工具集
7月21·周一千寻智能完成近6亿元PreA+轮融资,京东领投
具身智能领域头部企业千寻智能宣布完成近6亿元PreA+轮融资,由京东领投,中网投、浙江省科创母基金等知名机构跟投,老股东P7、顺为资本等超额追加投资。本轮融资由高鹄资本担任独家财务顾问。来源:千寻智能 Spirit AI
Le Chat再一次升级,全方面对标ChatGPT
Mistral AI推出升级版Le Chat,全方位对标ChatGPT。Le Chat新增深度研究模式,可生成结构化研究报告;语音模式借助新发布的Voxtral模型实现语音输入;原生多语言推理功能提供更精准回答;项目管理功能可组织对话内容;高级图像编辑功能支持复杂图像修改。来源:机器之心
宇树科技,开启上市辅导
中国证监会官网显示,宇树科技已正式开启上市辅导,中信证券担任辅导机构。辅导备案报告披露,宇树科技控股股东及实际控制人为王兴兴,直接持有公司23.8216%股权,通过上海宇翼企业管理咨询合伙企业(有限合伙)控制10.9414%股权,合计控制公司34.7630%股权。来源:财联社
「众擎机器人」连续完成Pre-A++与A1轮融资,京东领投
众擎机器人连续完成两轮融资,Pre-A++轮由星航资本投资,A1轮由京东领投,宁德时代旗下溥泉资本、银泰集团等参投,老股东中东资本等也参与增资。来源:众擎机器人
逐际动力获京东战略领投,以IDS生态协同加速具身智能技术落地
具身智能机器人公司逐际动力LimX Dynamics宣布完成新一轮融资,由京东战略领投。逐际动力将推进全尺寸人形机器人量产与销售,深化具身大模型技术研发及IDS生态平台建设。其全尺寸人形机器人将于下半年公开销售,双足机器人TRON 1持续升级。来源:逐际动力
7月18·周五OpenAI正式发布ChatGPT Agent!
OpenAI正式发布ChatGPT Agent功能。功能整合了Operator、Deep Research和ChatGPT本体,用户只需描述任务,Agent能自主调用工具,完成网页访问、信息提取、代码运行、PPT生成等操作,支持任务中断与修改。ChatGPT Agent支持手机端使用,可连接Gmail、GitHub等应用,深度嵌入工作流。来源:APPSO
全球首个A股金融博弈智能体应用FinGenius开源
由00后团队创建的全球首个A股金融博弈智能体应用FinGenius在GitHub开源。项目在内测阶段吸引了4000+用户申请体验。FinGenius通过16个超级智能体分工协作,结合多智能体博弈机制,30秒内生成分析报告,解决传统金融工具信息加工过度、数据不真实、大模型局限性等问题。来源:AI工具集
Perplexity 向印度 3.6 亿用户免费赠送一年 Pro 服务
AI搜索企业Perplexity与印度第二大电信运营商Bharti Airtel达成独家合作,向其3.6亿用户免费提供原价200美元的12个月Perplexity Pro订阅服务。合作具有排他性,印度其他电信商不得提供Perplexity服务。来源:IT之家
AI初创公司DecartAI发布全球首个实时视频生成模型MirageLSD
初创公司DecartAI发布全球首个视频直播模型MirageLSD,获Andrej Karpathy天使投资。模型可实时将摄像头画面转化为其他风格和内容,支持24FPS稳定运行,延迟低于40毫秒。通过英伟达CUDA Megakernels和抗漂移训练实现效率提升,能重塑观看体验、革新游戏世界、赋能内容创作者等。来源:AI工具集
7月17·周四Kimi Playground: 一站式体验 Kimi K2 的工具调用能力
Kimi开放平台宣布正式上线Kimi Playground,为开发者提供一站式工具调用能力体验。平台支持直观的工具调用界面和便捷的调试体验,可快速选择不同工具并实时调整参数。来源:Kimi 开放平台
普林斯顿团队领衔发布最强开源数学定理证明模型:Goedel-Prover-V2
普林斯顿大学联合清华大学、北京大学等顶尖高校及英伟达等机构,发布了新一代开源数学定理证明模型Goedel-Prover-V2。32B旗舰模型在自动数学定理证明基准测试中大幅超越前代SOTA模型DeepSeek-Prover-V2-671B,8B小尺寸模型性能也与之持平。来源:机器之心
无界方舟连续完成Pre-A & Pre-A+轮亿元级别融资
无界方舟(AutoArk)宣布连续完成Pre-A & Pre-A+轮亿元级融资。公司基于自研多模态大模型,打造AI应用的“超级感官”与“真大脑”。无界方舟的EVA多模态模型在性能上对标OpenAI的GPT-4o,具备高智商分析、真人般交互、全自动数据合成等优势,已实现商业化落地。来源:AutoArk无界方舟
Mistral首个开源语音模型Voxtral,全面碾压Whisper
Mistral AI发布首个开源语音模型Voxtral,包含24B和3B参数规模版本,基于Apache 2.0许可证开源并提供API接口。Voxtral支持8大主流语言,可处理30分钟音频转录或40分钟语义理解任务,全面超越Whisper,在多语言基准测试中表现优异,语音翻译成绩占据榜首,语音理解能力追平GPT-4o-mini。来源:智东西
MiniMax Agent全栈开发能力“靠谱”上新
MiniMax Agent发布全栈开发功能,用户仅需一句话即可生成复杂全栈应用,无需编程基础。功能支持Supabase后端托管、Stripe支付、定时任务等,可快速开发演唱会选座系统、实时金融看板、出海独立站、企业数据看板等应用。来源:MiniMax 稀宇科技
7月16·周三观猹正式发布,打造AI产品的专业点评平台
由特工宇宙团队打造的AI产品点评社区「观猹」正式发布,用真实用户视角判断产品PMF。面向AI爱好者,观猹提供真实、可信的产品评分与交流社区。创作者可分享AI作品,获取反馈;创业者能冷启动项目,连接用户与投资人。来源:AI工具集
亚马逊推出Kiro AI编程工具,正式开放公测
亚马逊云科技宣布推出Kiro AI编程工具,正式开放公测。Kiro是Agentic IDE,提供AI编码辅助,能帮助开发者从想法到上线的全过程。Specs可将模糊需求转化为具体用户故事和边界条件,Hooks能在代码提交前自动完成测试、文档更新和安全扫描等任务。来源:亚马逊云科技
百度上线TizzyAI,主打无广告智能搜索
百度上线全新AI搜索App“Tizzy.ai”,定位为无广告的AI智能搜索助手。应用基于百度多个大模型能力开发,界面简洁,无弹窗和信息流推荐,仅设“搜索”和“资源库”两个核心入口。TizzyAI支持自动和深度搜索模式,能快速回答问题并提供深度分析。来源:AI工具集
Grok 推出交互式「数字伴侣」,基于Grok 4大模型
马斯克旗下Grok APP推出基于Grok 4大模型的“智能伴侣”功能,付费用户可优先体验。功能提供动漫头像Ani、卡通小熊猫Rudy等3D形象,支持更换背景和动作。来源:机器之心
ChatExcel·桌面版全新上线、AI提示词优化、常用提示词保存功能
ChatExcel桌面版全新上线,支持Mac和Windows平台,用户可直接在桌面处理Excel数据、生成图表等,无需浏览器。新增AI优化提示词功能,点击“魔术笔”可一键优化提示词内容,更规范、准确。上线常用提示词保存功能,方便用户在重复场景中快速使用。来源:元空AIExcel
华为携手云南交投发布“绿美通道·交通大模型”
云南省交通投资建设集团有限公司与华为、长安大学合作研发的“绿美通道·交通大模型”在昆明正式发布。模型历时两年研发,涵盖智算中心底座、高质量数据集、AI平台工具链、行业模型集及AI场景应用等成果。来源:华为
OpenAI正在开发基于Chromium的AI浏览器——“Aura”
OpenAI正在开发一款基于Chromium的AI驱动浏览器,内部代号为“Aura”。浏览器将利用生成式和代理式AI能力,彻底改变用户的网络浏览体验。来源:IT之家
百度AI助手全新功能「视频通话」上线!
百度AI助手推出全新功能「视频通话」。用户可通过百度APP进入「AI+」选择「视频通话」,开启与AI的视频互动。覆盖多种生活场景:可识别花草、解答难题;提供专业穿搭建议;解读宠物行为;倾听烦恼、提供慰藉。来源:百度搜索
LG 推出韩国首个混合推理 AI 模型 EXAONE 4.0
LG AI Research研究所推出韩国首个混合推理AI模型EXAONE 4.0。模型融合通用自然语言处理与高级推理能力,在数学、科学及编程等高难度领域表现优异,支持多语言并提供32B专业版和1.2B端侧版。来源:IT之家
7月15·周二TRAE 自定义模型新增 Kimi-K2,国际版支持Grok-4
TRAE自定义模型服务商宣布新增Kimi-K2模型,支持通过API Key接入,满足开发者对模型多样性和专业性的需求。TRAE国际版新增超级模型Grok-4(Beta),进一步丰富了模型阵容,支持全球主流大模型一站式调用。来源:TRAE.ai
秘塔AI搜索推出“深度研究”模块,动态展示研究过程
秘塔AI搜索宣布其“深度研究”模块正式上线。秘塔通过优化数据和算法,降低了算力成本,提升了准确率,在中文搜索上表现突出。秘塔版“深度研究”免费开放,增加了“问题链”功能,可动态展示研究过程,为复杂问题提供结构化报告。来源:AI秘塔
华人团队Cognition收购Windsurf剩余团队
编程助手公司 Cognition 宣布收购编程初创公司Windsurf剩余员工和资产,获得其银行账户中超过 1 亿美元资金。此次收购后,Windsurf 将短期独立运营,继续开发其 AI 驱动的 IDE,Cognition 提供资金支持并计划将 Windsurf 的 IP 和功能集成到自身产品中。来源:机器之心
ima 网页版正式上线,随时进入知识库
ima 网页版正式上线,用户无需下载,打开浏览器即可使用。访问 ima.qq.com 并登录账号,可基于全网或知识库内容提问,能逛知识库广场、加入感兴趣的知识库。来源:ima.copilot
MiniMax已基本完成近 3 亿美元新一轮融资
大模型公司 MiniMax 近期已完成近 3 亿美元新一轮融资,估值超 40 亿美元。本轮融资新增上海国资等出资方,成为今年 AI 六小虎中仅有的两家获得融资的公司之一。来源:IT之家
智源全面开源RoboBrain 2.0与RoboOS 2.0:刷新10项评测基准
智源研究院发布 RoboBrain 2.0 和 RoboOS 2.0,RoboBrain 2.0 是集感知、推理与规划于一体的通用具身大脑,32B 版本刷新多项权威评测基准,7B 版本适配边缘设备。RoboOS 2.0 是全球首个具身智能 SaaS 开源框架,集成 MCP 协议与无服务器架构,支持多机协作,推出单机版及技能商店。来源:智源研究院
7月14·周一通义千问推出Qwen Chat桌面端,一键使用MCP
阿里巴巴旗下通义千问发布Qwen Chat桌面端,目前支持macOS端,支持多模型PK及MCP协议,可通过插件实时调用地图、搜索、本地文件等外部数据,实现更精准回答。来源:通义千问Qwen
美图推出专注于影像与设计的AI智能体RoboNeo
美图公司正式推出专注于影像与设计的AI智能体RoboNeo,用户可通过自然语言交互轻松完成修图、设计和视频制作等任务。RoboNeo具备智能修图、AI设计生成、视频智能处理及多模态创作等多项功能来源:美图公司
奥尔特曼宣布延期 OpenAI 首个开源权重 AI 模型
OpenAI CEO山姆·奥尔特曼7月12日宣布,再次推迟发布其首个开源权重AI模型,理由是需要更多时间进行安全测试及高风险内容审查,但未给出新的发布日期。该模型原计划下周亮相,已是年内第二次延期。来源:IT之家
「汉阳科技Yarbo」近日完成超亿元B+轮融资
消费级扫雪机器人公司「汉阳科技Yarbo」完成逾亿元B+轮融资,由国科投资、中金资本、九阳创投联合注资。本轮资金将用于技术研发、供应链优化及北美、欧洲市场拓展,借助九阳SharkNinja渠道加速全球化布局。来源:36氪
OpenAI 收购 Windsurf 计划告吹,后者 CEO 及创始人已被谷歌招入麾下
OpenAI收购AI编码助手Windsurf的交易正式取消。谷歌迅速出手,Windsurf CEO Varun Mohan、联合创始人Douglas Chen及核心团队集体加入DeepMind,谷歌以约24亿美元获其技术非独家授权。原30亿美元收购价落空,Windsurf高层换血,业务由临时CEO接手。来源:IT之家
CAMEL-AI与Gemini官宣合作,实现数据可视化和自动化
开源多智能体框架CAMEL-AI宣布与Google DeepMind合作,集成Gemini 2.5 Pro模型,推出OWL系统。用户只需一句自然语言指令,OWL即可自动完成搜索、提取、分析并生成可视化图表,支持在线数据、本地文件及浏览器操作。来源:CAMEL AI
7月11·周五月之暗面Kimi正式发布k2模型,具备超强代码和 Agent 能力
月之暗面发布MoE架构基础模型k2,总参1T、激活32B,上下文128k tokens,支持ToolCalls、JSON/Partial/联网,无视觉。输入价¥1.00/1M tokens,输出¥4.00/1M,缓存命中¥16.00/1M,性能领先开源模型。来源:AI工具集
拍我AI(PixVerse)上线多关键帧生成功能,从“片段”迈向“故事性表达”
拍我AI(PixVerse)上线“多关键帧生成”功能,用户可上传最多7张图,在首尾帧模式下生成长达30秒的叙事视频,实现动作、场景及景别自然衔接,助力短剧、广告等高效创作。来源:爱诗科技AIsphere
欧盟公布最终版《通用人工智能行为准则》,8 月 2 日起正式实施
欧盟发布最终版《通用人工智能行为准则》,8月2日实施,涵盖安全、透明、版权三方面,由13位专家联合1000多利益方制定,企业可自愿签署以减轻负担,旧模型有2年调整期,新模型1年。来源:IT之家
墨刀AI重磅上线:原型图,现在可以自动生成了!
墨刀AI上线全新原型生成能力,从灵感到可交付界面只需30秒,面向产品经理和设计师提供零门槛体验。支持文字/草图/截图转原型,自动识别布局与组件;多轮对话优化设计,像“聊天”一样改原型;自动生成产品文档与页面逻辑,规范输出流程。来源:墨刀
微软发布 Phi-4-mini-flash-reasoning 端侧 AI 模型:10 倍吞吐量
微软发布Phi-4-mini-flash-reasoning端侧AI模型,采用SambaY架构与GMU组件,推理吞吐量提升10倍、延迟降至1/3,专注数学与逻辑推理,已上线Azure AI Foundry等平台。来源:IT之家
7月10·周四马斯克发布 Grok 4,处理学术问题达到博士级别
马斯克旗下xAI发布新一代大模型Grok 4,推理能力较前代提升10倍,在多项基准测试中超越现有模型,达到“博士后水平”。Grok 4支持工具调用、语音交互、多模态任务,并在ARC-AGI等高难度测试中刷新纪录。来源:机器之心
办公小浣熊 · 桌面版全新上线!
商汤科技推出“办公小浣熊”桌面版,支持Windows和Mac平台,用户无需浏览器即可一键唤醒AI助手,实现任务拆解、数据分析、图表生成等办公功能。老用户可同步历史内容。来源:商汤小浣熊
智谱Z.ai推出的实验性大模型GLM-Experimental
智谱AI推出全新实验模型GLM-Experimental,主打“AI Presentation”功能,可一键生成网页版PPT,支持多种风格与互动效果。用户只需输入简单Prompt,模型可自动生成内容、设计排版,实现弹幕、动画等高级效果。来源:AI工具集
Perplexity推出 AI 浏览器——Comet
Perplexity发布AI浏览器Comet,主打“从浏览到思考”,整合网页解释、任务执行等功能,成为用户的“思考伙伴”。Comet目前仅向高价订阅用户开放。来源:AI工具集
抖音快手前高管创业,上线AI图片工具 KIRA
由抖音、TikTok、快手前核心成员创立的 AI 图片生成工具 KIRA 正式亮相。产品由 ILLA Cloud 孵化,支持一键替换/移除背景、修补、画质增强、扩图等操作,并具备 AI 生成图片能力。创始团队包括曾任抖音 & TikTok 研发、快手孵化业务大前端负责人陈龙博,及抖音、快手多项战略项目设计负责人吴晓松。来源:AI工具集
7月9·周三谷歌Veo 3逆天升级,照片秒变活人开口讲话!
谷歌AI视频生成模型Veo 3近日升级,用户只需上传一张照片,即可生成角色一致、配有音频的视频,实现“照片开口说话”。新功能支持多种运镜和风格,适用于广告、动漫等创作场景。来源:新智元
字节旗下小荷健康推出AI医疗助手——小荷AI医生
字节跳动推出首款AI医疗助手App“小荷AI医生”,提供健康咨询、报告解读、药品查询等服务,强调“先求证、再建议”的诊疗逻辑。用户可通过拍照上传报告或病灶图片,获取个性化分析和用药建议。来源:AI工具集
昆仑万维发布并开源 Skywork-R1V 3.0,刷新开源模型性能上限
昆仑万维正式开源多模态推理模型Skywork-R1V 3.0,模型在高考数学中取得142分,在多学科多模态评测MMMU中获得76分,刷新开源模型性能上限。Skywork-R1V 3.0通过强化学习策略提升跨模态推理能力。来源:昆仑万维集团
具身智能星海图再获超 1 亿美元融资,美团龙珠、今日资本领投
具身智能公司星海图完成A4轮及A5轮融资,总额超1亿美元,由美团、美团龙珠、今日资本领投,老股东持续加码。公司专注于“整机+智能”战略,推出多款机器人平台及开发工具,服务全球开发者生态。来源:星海图
钉钉重磅发布全新“AI表格”
钉钉发布全新“AI表格”,将AI能力深度融入表格工具,支持智能数据分析、自动化流程和多模态内容生成。新增“表格即文档”功能,实现结构化数据与非结构化信息融合,提升协作效率。来源:钉钉
Vidu Q1 参考生视频全球上线:重新定义叙事
AI视频模型Vidu Q1推出“参考生”功能,用户只需上传参考图,可快速生成高质量视频素材,省去传统分镜、拍摄和特效流程,大幅降低创作门槛和成本。来源:生数ShengShu
通义开源 HumanOmniV2 比你还懂“社交潜台词”!
通义大模型推出多模态推理模型HumanOmniV2,能更好理解人类社交潜台词。模型引入强制上下文总结机制,结合视觉、听觉和语言信息,提升对复杂意图的理解能力。通过多维度奖励机制和优化训练策略,HumanOmniV2在多个基准测试中表现优异。来源:通义大模型
7月8·周二混元3D再升级,推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen
腾讯混元3D宣布升级,推出业界首个美术级3D生成大模型Hunyuan3D-PolyGen。模型结合自研高压缩率表征BPT技术,可生成上万面复杂几何模型,布线精度高,细节丰富,支持三边面和四边面,满足不同专业需求。来源:腾讯混元
它石智航完成1.22亿美元天使+轮融
具身智能公司它石智航(TARS)宣布完成1.22亿美元天使+轮融资,由美团战投领投,钧山投资、碧鸿投资、国汽投资、临港科创投、赛富投资基金、建发新兴投资跟投,老股东线性资本、襄禾资本持续加码。来源:蓝驰创投
强化学习新范式!元石提出“自反思生成范式”MetaStone-S1
元石科技发布新一代反思型生成式模型MetaStone-S1,采用“自反思生成范式”,融合Long-CoT强化学习与过程评分学习,实现深度推理与推理链路筛选能力统一。模型在多个基准测试中性能对标OpenAI o3-mini,具备更长思考长度与更低推理成本。来源:问小白
云深处科技完成近5亿元新融资 加速具身智能产业化布局
由浙大博导朱秋国创立的云深处科技宣布完成近5亿元融资,由达晨财智、国新基金等联合领投。本轮融资将用于四足机器人产线扩建、人形机器人技术研发及高端人才引进。来源:智东西
7月7·周一通义网络智能体WebSailor开源,检索性能登顶开源榜单!
阿里云通义实验室开源网络智能体WebSailor。智能体具备强大的推理和检索能力,在智能体评测集BrowseComp上超越DeepSeek R1、Grok-3等模型,登顶开源网络智能体榜单。WebSailor通过创新的post-training方法和强化学习算法DUPO,大幅提升了复杂网页推理任务的表现。来源:阿里云
字节跳动开源 AI IDE 工具核心组件 Trae-Agent
字节开源TRAE Agent 在 SWE-bench Verified 排行榜上取得 75.2% 的求解率,位居第一。TRAE Agent 是基于大语言模型的智能助手,专为软件工程任务设计,能自主完成代码理解、问题复现、修复方案制定、高质量代码编写等任务。来源:TRAE.ai
星动纪元完成近5亿元A轮融资!通用具身技术突破驱动商业化落地
星动纪元宣布完成近5亿元A轮融资,由鼎晖VGC和海尔资本联合领投。公司成立于2023年,是清华大学唯一持股的具身智能企业,致力于打造通用智能体。目前,星动纪元已向全球科技巨头批量交付超200台产品,订单中50%以上来自海外客户,在工业物流、连锁零售等行业加速落地。来源:北京星动纪元科技有限公司
通义实验室开源首个音频生成模型 ThinkSound
通义实验室开源首个音频生成模型ThinkSound,专为打破“静音画面”局限而生。模型通过引入思维链(CoT)技术,让AI学会结构化推理画面与声音的关系,实现高保真、强同步的空间音频生成。基于2531.8小时高质量多模态数据训练,包含对象级和指令级样本,支持交互式编辑。来源:通义大模型
AIGC独角兽硅基智能完成D轮融资,数字人业务营收数亿
AIGC独角兽硅基智能完成数亿元D轮融资,投资方为嘉兴高新区产业基金。本轮资金将用于研发创新、技术落地及产品市场化。自2017年成立以来,硅基智能已完成10轮融资,投资方包括腾讯、红杉中国等。来源:36氪
TNG推出DeepSeek“野生版”R1T2:速度碾压官方,开源
德国AI公司TNG推出“DeepSeek R1T2”模型。基于DeepSeek R1、R1-0528和V3三大模型开发,采用专家组合(AoE)技术,速度比R1快20%,推理能力显著提升。与初代模型相比,R1T2的智力大幅提升,解决了token一致性缺陷,在无系统提示时也能提供自然对话体验。来源:AI工具集
7月4·周五京东内测“宠TA”与“聊愈小宇宙”AI设计产品
京东APP悄然上线两款AI社交产品,“宠TA”和“聊愈小宇宙”。“宠TA”围绕宠物数字人提供陪聊、换装、问诊及一键购粮等闭环消费;“聊愈小宇宙”则通过情绪识别、回忆日历和社区交流,结合专业的心理咨询服务。来源:AI工具集
谷歌 Veo 3 AI文生视频模型正式向 Pro / Ultra 会员开放
谷歌Veo 3 AI文生视频模型正式向Pro/Ultra会员开放。Pro会员每天可生成3段视频,Ultra会员生成数量未公布。Veo 3的“照片生成视频”功能即将上线。来源:AI工具集
昆仑万维再次开源奖励模型!Skywork-Reward-V2
昆仑万维开源第二代奖励模型Skywork-Reward-V2系列,共8个模型,参数规模从6亿到80亿不等。系列在七大主流奖励模型评测榜单中全面夺魁。来源:昆仑万维集团
腾讯元宝支持一句话搜索图片、视频号内容
腾讯元宝推出新功能,支持用户通过“一句话搜索”匹配图片和视频号内容。用户开启“联网搜索”后,元宝可自动根据提问匹配图片与视频号,支持任意模型,不限“深度思考”是否开启。来源:腾讯元宝
OmniGen2重磅升级,统一图像生成再进化
智源研究院宣布 OmniGen2 图像生成模型重磅升级。OmniGen2采用分离式架构与双编码器策略,强化上下文理解与指令遵循能力,图像生成质量大幅提升。重构数据生成流程,解决开源数据集质量缺陷问题,引入图像生成反思机制,提升模型自我优化能力。来源:智源研究院
7月3·周四智谱获上海国资10亿元战略融资
国产AI大模型企业智谱在开放平台产业生态大会上宣布获得上海国资10亿元战略投资,由浦东创投集团和张江集团完成首笔交割。同时,三方与上海仪电、浦发集团合作,共同建设AI新型基础设施。来源:钛媒体AGI
星流 Agent上线!更适合中国设计师的一站式创意设计Agent
星流Agent正式上线,是专为中国设计师打造的一站式创意设计Agent。星流Agent延续了Lovart的全栈式智能设计能力,全面适配中文语义、东方美学和本地场景。用户只需输入一句话,能自动拆解任务、匹配风格、生成整套设计物料,支持多模态内容创作,涵盖图像、视频、3D等多种格式。来源:LiblibAI
Perplexity Max 订阅上线,月费 200 美元
Perplexity推出高端订阅服务Perplexity Max,月费200美元(约合1433元人民币)。订阅用户可无限制访问电子表格和报告生成工具Labs,提前体验Comet浏览器等新功能,调用OpenAI的o3-pro和Claude Opus 4等先进AI模型。来源:AI工具集
7月2·周三智谱发布并开源 GLM-4.1V-Thinking 系列视觉模型
智谱发布两项重要成果。一是开源新一代通用视觉语言模型GLM-4.1V-Thinking,10B级轻量版在多项权威评测中表现卓越,具备图像、视频、文档等多模态输入能力,支持复杂推理任务。二是上线MaaS“Agent应用空间”平台,启动Agent开拓者专项扶持计划,助力企业低门槛接入Agent能力,推动AI原生创业发展。来源:智谱
百度推出自研多模态大模型MuseSteamer和AI视频创作平台绘想
百度发布自研视频生成模型MuseSteamer及AI视频创作平台“绘想”。MuseSteamer是全球首个实现中文音视频一体化生成的模型,打破传统AIGC视频“先画面后配音”的流程,可实现画面、音效与人声台词协同创作。用户仅需上传一张图片即可生成专业级视频内容。来源:AI工具集
阿里云加码领投,智能体开发平台BetterYeah AI完成超亿元B轮融资
企业级AI智能体开发平台BetterYeah AI宣布完成超亿元人民币B轮融资,由阿里云领投、名川资本跟投。资金将用于新一代智能体产品研发。BetterYeah AI由钉钉创始团队成员创立,核心团队具备深厚的企业级产品基因。来源:钛媒体AGI
北京中小学生 9 月起开设 AI 通识课
北京宣布从2025年秋季学期起,全市中小学将全面普及人工智能通识教育,每学年不少于8课时。课程将涵盖人工智能的基本概念、应用与技术、实现方法及伦理与社会等方面,并将评价结果纳入学生综合素质评价体系。来源:北京市教育委员会
豆包「图像生成」超能创意2.0开启灰度测试
豆包超能创意 2.0 已在网页版和电脑版灰度测试,模型升级至豆包大模型 1.6 版本,接入 seedream 3.0、seededit 3.0 和 seedance 1.0 Pro 模型,分别提升图片生成、编辑和视频生成效果。来源:AI工具集
7月1·周二Cursor 推出网页端和移动端 Agent,支持多任务并行
Cursor 新推出的网页端和移动端 Agent 功能,用户可以在任何设备上通过浏览器访问 Cursor Agents,连接 GitHub 后即可使用。随时分配任务,Agent 后台自动运行并通知;支持多设备访问,满足不同场景需求;可分享工作链接,方便团队协作;支持多任务并行,提供多种解决方案。来源:AI工具集
通义千问推出语音合成模型Qwen-TTS,新增三种中文方言
Qwen-TTS发布了最新版本,新增支持生成北京话、上海话和四川话三种中文方言。语音合成模型使用超过300万小时语料库训练,合成效果自然且富有表现力,能自动调整韵律、节奏和情绪。来源:通义千问Qwen
Meta宣布正式成立「超级智能实验室」11人豪华团队
Meta正式宣布成立「超级智能实验室」(Meta Superintelligence Labs,MSL)。实验室由Scale AI前CEO Alexandr Wang担任首席人工智能官并领导,同时挖角了来自OpenAI、Anthropic和谷歌DeepMind的11位顶尖人才。来源:机器之心
ima.copilot更新,支持图文并茂回答
ima.copilot更新,支持图文并茂的回答。更新覆盖首页、知识库、侧边栏和笔记AI帮写等功能。用户可上传PDF、Word或PPT,ima能提炼重点并生成图文结合的内容。来源:ima.copilot
-
AI快讯:8月第1期(8月1日到8月10日的AI行业新闻)
AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为8月第1期(8月1日到8月10日)的AI行业新闻集合。
8月10日
- 百度网盘今日推出基于文心大模型的“云一朵”—— 国内首个基于大模型的网盘智能助理。官方表示,用户可通过该智能助理完成快速搜索文件和视频、总结知识、翻译文档、内容创作等需求。(新闻来源:IT之家)
- Anthropic 发布了更快、更便宜的 Claude Instant 1.2 版本,企业可通过 API 访问。该版本结合其 Claude 2 的优势,在数学、编码、推理和安全等关键领域有显着的进步。(新闻来源:Anthropic)
- 据英国《金融时报》援引两位与英伟达关系密切的未具名人士报道称,百度、字节跳动、腾讯和阿里巴巴向英伟达下单订购 50 亿美元的芯片,这些芯片对人工智能系统至关重要。(新闻来源:界面新闻)
- 美国国防高级研究计划局 (DARPA) 计划发起一项人工智能网络安全挑战赛,与 AI 公司 Anthropic 、OpenAI、微软和谷歌合作,要求参赛者使用人工智能识别和修复软件漏洞,尤其是关键基础设施的代码。(新闻来源:The Verge)
- Tome 是一家利用人工智能让制作和设计演示文稿变得更加容易的初创公司,该公司已与投资者讨论筹集新资金的事宜,这可能使其估值翻一番,最高可达 6 亿美元。据一位知情人士透露,新融资金额可能高达 6000 万美元。(新闻来源:The Information)
- IBM 表示将在其旗下的企业人工智能平台 watsonx 上托管 Meta 平台的人工智能大语言模型 Llama2,为客户提供了对该模型的早期访问,以帮助企业将人工智能集成到工作流程中。(新闻来源:IBM Newsroom)
- 人工智能和机器学习开发平台 Weights & Biases 宣布获得了 5000 万美元的新一轮融资,使其估值达到 12.5 亿美元。该公司的机器学习平台,可帮助开发人员更快地构建更好的模型。(新闻来源:TechCrunch)
- Deepset 是一个构建由类似于ChatGPT的大型语言模型支持的企业应用程序的平台,今天宣布在由 Balderton Capital 领投、GV 和 Harpoon Ventures 参与的一轮融资中筹集了 3000 万美元。(新闻来源:TechCrunch)
- 英国伦敦最大的百货商店 John Lewis(约翰—路易斯)宣布与 Google Cloud 签署了新的战略合作伙伴关系,其中一部分将涉及人工智能和机器学习的扩展,该笔交易在未来五年内价值 1 亿英镑。(新闻来源:The Grocer)
8月9日
- Stability AI 宣布推出名为 StableCode 的代码生成大语言模型,旨在帮助用户生成编程语言代码。StableCode 提供三个不同的版本:一般用例的基座模型、指令微调模型以及可支持多达 16,000 个 token 的长上下文窗口模型。(新闻来源:Stability AI Blog)
- 英伟达宣布推出新一代 GH2000 Grace Hopper 超级芯片,新芯片将于2024年第二季投产。同时宣布基于GH200构建的新服务器设计。(新闻来源:东方财富网)
- 英伟达与 Hugging Face 合作提供云端 AI 训练服务,该项名为 Traning Cluster as a Service 的服务将于未来几个月推出,以简化企业自定义生成 AI 模型的创建。(新闻来源:TechCrunch)
- 初创公司 MindsDB 宣布获得 Nvidia 旗下 NVentures 领投的 500 万美元投资。该公司是一个以人工智能为中心的应用程序的数据库平台,可以将数据库连接到流行的人工智能框架。(新闻来源:VentureBeat)
- 初创公司 Dropzone AI 宣布已从 Decibel Partners 领投的一群投资者处筹集了 350 万美元的种子资金,该公司推出自主人工智能安全代理,旨在将调查安全警报的繁琐且耗时的工作自动化。(新闻来源:VentureBeat)
8月8日
- 微软的 AI 聊天机器人 Bing Chat 现已支持在所有的手机移动端浏览器中访问,不再只限制在自家旗下的 Edge 浏览器,此前 Bing Chat 于 7 月底开始向 Chrome 和 Safari 桌面端浏览器开放。(新闻来源:The Verge)
- OpenAI 推出了一款名为 GPTBot 的新网络爬虫,用于从互联网收集公开数据来训练人工智能模型。GPTBot 的目标是更加透明、正确地识别自己,以便网站管理员在 robots.txt 文件中允许或禁止该爬虫访问。(新闻来源:Search Engine Land)
- 据彭博社消息,知名 AI 公司 OpenAI 对一家名为 Open Artificial Intelligence(开放人工智能)且拥有域名 www.open.ai 的公司提起诉讼,声称该名称侵犯了 OpenAI 商标,并造成消费者混淆。(新闻来源:IT之家)
- 据广汽研究院官方消息,广汽正式推出广汽AI大模型平台,该平台是汽车行业首创的大模型平台技术,将在近期搭载于高端智能轿跑昊铂GT。(新闻来源:广汽研究院官微)
- 百川智能正式发布首个闭源大模型Baichuan-53B,参数量为530亿。据介绍,53B大模型在写作、文本创作能力更加完善。百川智能CEO王小川表示,本次发布的新模型计划主要面向B端落地。(新闻来源:36氪)
- 据36氪报道,近日大模型中间件厂商“澜码科技”完成数千万元A轮融资,该轮由IDG资本、联新资本、Atom Capital参与投资。(新闻来源:36氪)
- 据外媒 9To5Google 报道,谷歌日前上线了一个名为“语法检查”的功能,该功能类似 Grammarly,可以为用户提供语法纠错。用户在谷歌搜索框中输入英文句子后,谷歌便会提示用户拼写中可能存在的问题。(新闻来源:IT之家)
- 麻省理工学院和 Dana-Farber 癌症研究所的研究人员利用机器学习创建了一个名为「OncoNPC」的计算模型,可以分析约 400 个基因的序列,并利用该信息来预测特定肿瘤在体内的发生位置。(新闻来源:MIT News)
- Tractian 是一家利用人工智能预测机械故障的工业资产监控公司,宣布完成 4500 万美元的 B 轮融资,由风险投资公司 General Catalyst 和 Next47 领投。(新闻来源:VentureBeat)
- HR 初创公司 One Model 宣布在 Riverwood Capital 领投的一轮融资中筹集了 4100 万美元,该公司提供利用人工智能帮助雇主做出招聘、雇用、晋升、裁员和一般工作场所规划决策的平台。(新闻来源:TechCrunch)
- 初创公司 Multiplayer 宣布筹集了 300 万美元的资金,由 Bowery Capital 领投。该公司提供一种基于 AI 的分布式协作和可视化工具,用于管理支持公司运营的复杂和多层系统架构。(新闻来源:VentureBeat)
8月7日
- 研究机构Aletheia报告指出,预估AI服务器市场规模将在2024年翻倍、2025年达到1350亿美元,是2022年规模的4.5倍。(新闻来源:财联社)
- 智源研究院发布开源可商用中英文语义向量模型BGE(BAAI General Embedding),在中英文语义检索精度与整体语义表征能力均超越了社区所有同类模型,如OpenAI 的text embedding 002等。此外,BGE 保持了同等参数量级模型中的最小向量维度,使用成本更低。(新闻来源:智源研究院)
- 联想浏览器今日更新,在侧边栏增加了接入文心一言大模型的小乐 AI 助手测试版。据官方消息,新版联想浏览器加入了文案润色,总结提炼,邮件撰写等功能,同时具备 AI 搜索功能和AI对话能力。(新闻来源:品玩)
- 据推特用户 @ Leopeva64 发现,最近的一次 Edge Canary 更新引入了一个用 Bing AI 重写文本的功能。该功能允许用户在输入框中选择一段文本,并使用 Alt + I 快捷键进行重写。(新闻来源:IT之家)
- 日前,在蒙牛全球合作伙伴答谢会上,蒙牛宣布与智谱AI、腾讯等多家科技巨头联手,共同发布了全球首个营养健康领域模型MENGNIU.GPT。(新闻来源:中国日报网)
- 根据游戏评测媒体 IGN 的最新消息,IGN 即将推出自家的 AI 聊天机器人 IGN Guides Chatbot Alpha,该机器人是根据数十名 IGN 指南作者和贡献者编写的游戏指南和攻略内容进行培训的,可回答用户关于游戏的问题。(新闻来源:IGN)
- 元象XVERSE公司宣布开源其百亿参数的高性能通用大模型XVERSE-13B,可免费商用。据介绍,XVERSE-13B是一个通用大模型,基于它生成的服务包括了文本生成、自动化写作、数据分析、知识问答等方面。(新闻来源:36氪)
- 国家企业信用信息公示系统显示,北京光年之外科技有限公司现已完成工商变更,创始人王慧文退股,美团旗下天津三快科技有限公司成唯一股东。(新闻来源:品玩)
8月6日
- 据 Tech 星球报道,字节跳动内测的对话类 AI 项目已经开启测试,代号为 Grace。目前,供测试使用的网站已经初搭建完毕,需要邀请或授权的相关账号登录后才可使用。(新闻来源:Tech星球)
- 据成都市政府官网消息,2022年全市人工智能产业规模为616亿元,位列全国第7,产业增速位居全国第1,综合实力排名全国第6。今年上半年产业规模达424亿元,同比增长36.9%。(新闻来源:品玩)
- 据英国《金融时报》报道,苹果公司正在加强其在生成式人工智能方面的专长,以将其应用于iPhone和iPad,已在加利福尼亚、西雅图、巴黎和北京的办公室招聘数十个从事大型语言模型(LLM)工作的职位。(新闻来源:界面新闻)
8月5日
- Salesforce 发布「Einstein Studio」,一款无代码、基于界面的 AI 模型训练工具,面向数据科学家和工程师,旨在帮助企业将其Salesforce数据连接到任何人工智能或大型语言模型。(新闻来源:InfoWorld)
- 微软研究院近日展示了 Project Rumi 项目,结合文本,音频和视频数据,通过多模方法,提高人工智能系统的理解能力,从而更能理解人类的意图。(新闻来源:IT之家)
8月4日
- OpenAI 今天宣布,从下周开始,将会推出一系列小更新来改善 ChatGPT 的使用体验,包括增加提示语用例、对话建议、Plus用户默认使用 GPT-4 版本、支持上传多个文件。(新闻来源:品玩)
- 成都市经信局印发《成都市加快大模型创新应用推进人工智能产业高质量发展的若干措施》,其中提到,推动算力基础设施建设,加快建成国家新一代人工智能公共算力开放创新平台。(阅读全文:上海证券报)
- 苹果CEO 蒂姆・库克在接受采访时表示,苹果多年来一直在研究包括生成式 AI 在内的各种 AI 技术。库克表示,苹果正在寻找各种切入点,将包括生成式 AI 在内的各种 AI 技术融合到产品中,以进一步丰富用户的生活、工作。(新闻来源:9to5Mac)
- 华为手机消息,通过盘古大模型的底层能力加持,HarmonyOS带来更进步的AI,小艺将具备AI大模型能力,在智慧交互、高效生产力提升和个性化服务三个方向持续增强。(新闻来源:36氪)
- IBM 和 NASA 日前联合宣布在 Hugging Face 上推出 watsonx.ai 开源地理空间基础模型,作为新型气候和地球科学人工智能的基础,可以跟踪森林砍伐、预测农作物产量并记录温室气体排放。(新闻来源:Engadget)
- 伦敦证券交易所集团(LSEG)正在与微软和多家银行合作开发定制的生成式人工智能模型,让客户以安全和私有的方式结合使用 LSEG 的广泛数据和他们自己的数据。(新闻来源:金融时报)
- AI.com域名现已重定向到马斯克的人工智能初创公司X.ai的官网,而在 2 月份时该域名曾重定向到 ChatGPT 官网。(新闻来源:Mashable)
- 云应用程序监控和安全平台 Datadog 今日宣布推出人工智能生成助手——Bits,可以根据客户的可观测数据进行学习,帮助工程师实时解决应用问题。(新闻来源:DevOps)
- 为 AI 训练提供云基础设施的云计算平台 CoreWeave 表示,在 4 月份的 B 轮融资中筹集了 2.21 亿美元,并在 5 月份对该轮融资扩大了 2 亿美元后,CoreWeave 已获得 23 亿美元的债务融资。(新闻来源:TechCrunch)
- 鸿海子公司 Icreate Investments 取得 AI 初创公司耐能智慧(Kneron)股份,投资金额约1400万美元。耐能主攻神经网络处理器及各种图像识别功能,先前耐能募集资金,研发下一代边缘计算AI芯片。(新闻来源:界面新闻)
- 建筑平台 Acelab 日前宣布获得 530 万美元的新一轮融资,该平台的机器学习搜索和推荐引擎可帮助建筑师一站式探索、整理和进行产品协作。(新闻来源:VentureBeat)
8月3日
- 阿里云开源通义千问 70 亿参数模型,包括通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat,两款模型均已上线阿里旗下的 ModelScope 魔搭社区,开源、免费、可商用。(新闻来源:魔搭社区官微)
- Meta 发布了新的开源人工智能音乐生成器 AudioCraft,用户可以通过输入文本提示来生成音乐和声音。(新闻来源:The Verge)
- 据36氪报道,腾讯自研的 “腾讯混元大模型”已经进入应用内测阶段,多位腾讯员工告诉36氪,近期收到了内部邮件邀请,可以通过网页或者小程序体验混元大模型,腾讯内部多个业务也已经接入混元大模型进行测试。(新闻来源:36氪)
- 谷歌的AI搜索生成体验(Search Generative Experience)发布新的功能更新,若用户在搜索实验室中启用了基于 AI 的 SGE 功能,可以在搜索结果中看到更多的多媒体和更好的链接。(新闻来源:The Verge)
- 微软发布了最新的 Windows 11 预览版,为内测人员带来了多项新功能和改进,其中包括了向部分 Beta 频道的内测人员推出 Windows Copilot 预览版。(新闻来源:IT之家)
- 近日发表在《柳叶刀·肿瘤学》杂志上的研究发现,人工智能比经过多年培训和经验丰富的医生能更有效地发现乳腺癌,并将放射科医生的 X 光检查工作量减少了近一半。(新闻来源:腾讯网)
- 据 Nature 报道,Scopus、Dimensions、Web of Science等科研数据库正在推出类似于 ChatGPT 的对话式人工智能搜索功能,以帮助研究人员快速获得文献和研究主题的摘要。(新闻来源:Nature)
- 据香港电台网站报道,香港岭南大学候任校长秦泗钊今天表示,香港岭南大学决定接受 AI 浪潮,并表示目前校方已为全校购买 ChatGPT 3.5 版本的许可证,同时将对教学人员和学生提供相应技术培训。(新闻来源:IT之家)
- AI 芯片初创公司 Tenstorrent 宣布,获得来自现代、起亚、三星等公司的 1 亿美元新融资,该公司的CEO Jim Keller 曾为苹果、特斯拉和英特尔开发芯片。(新闻来源:财联社)
- 据 36氪报道,AI 企业级应用服务商「弘玑Cyclone」于 7 月完成约 4000 万美元的 C+ 轮融资,由华兴资本担任独家财务顾问。本轮融资将主要用于大模型相关产品 AIGA(AI Generated Automation 即生成式自动化 )的研发落地、行业资源整合与市场拓展。(新闻来源:36氪)
- 生成式人工智能平台 Inworld 从 Lightspeed Venture Partners 获得超过 3000 万美元的投资,最新估值超 5 亿美元,该平台使用AI技术帮助用户通过自然语言描述来创建可对话的角色和NPC。(新闻来源:TechCrunch)
- 机器人初创公司 Orangewood 近期在由 Y Combinator 领投的一轮融资中筹集了 450 万美元,该公司制造更加便宜的机械臂,并开发了 RoboGPT 帮助用户使用文本或语音对机械臂进行编程。(新闻来源:TechCrunch)
8月2日
- 据科创板日报报道,百度智能云千帆大模型平台已完成新一轮升级,全面接入LLaMA2全系列、ChatGLM2、RWKV、MPT、Dolly、OpenLLaMA、Falcon等33个大模型,成为国内拥有大模型最多的平台。(新闻来源:品玩)
- 阿里云通义听悟上线了三大新功能,包括国内音视频AI领域首创的视频自动提取PPT,以及浏览器插件、钉钉和微信小程序,帮助用户在PC和移动端随时随地听懂、理解、阅读各类音视频内容,提升职场人士和学生的工作学习效率。(新闻来源:36氪)
- 据 AndroidPolice 报道,谷歌开始在 YouTube 视频平台上测试人工智能自动生成的视频摘要,部分英语视频的观看和搜索页面上会显示视频内容的简要概述。(新闻来源:Android Police)
- 据彭博社报道,Uber 的首席执行官 Dara Khosrowshahi 在接受采访时表示,Uber 正在研发AI驱动的聊天机器人,以集成到其应用程序中。(新闻来源:Bloomberg)
- AI 视频生成平台 HeyGen 宣布与在线设计平台 Canva 达成合作,将 AI 数字人虚拟口播引入 Canva 在线设计中,用户可以在几分钟内制作会说话的口播视频。(新闻来源:Metaverse Post)
- 初创公司Steg.AI宣布获得由 Paladin Capital Group 领投的 500 万美元种子轮融资,该公司旨在帮助创作者使用深度学习给图像嵌入几乎看不见的水印,即使调整大小和重新保存也无法去掉水印。(新闻来源:TechCrunch)
- 无代码平台 Akkio 宣布获得 1500 万美元的 A 轮融资,该公司表示,将利用这笔资金加速其平台的商业化,并向任何处理数据的用户提供易于使用的人工智能助手。(新闻来源:VentureBeat)
- AI 药物管理平台 FeelBetter 宣布获得由 Firstime Ventures 和 Shoni Health Ventures 领投的 590 万美元融资,该公司利用机器学习和患者数据提供与复方用药相关的个性化药物管理。(新闻来源:PRNewsWire)
8月1日
- 据 OpenAI 官方消息,安卓版 ChatGPT 现已在所有支持 ChatGPT 的国家和地区上线。安卓版 ChatGPT 于7月26日推出,先行上架美国、巴西、孟加拉国等地区,并在两天后扩展至英国、法国等16个国家和地区。此前该APP 已在5月登陆iOS平台。(新闻来源:品玩)
- 据《金融时报》报道,Meta(原Facebook)正在准备一系列人工智能驱动的聊天机器人,这些机器人将表现出不同的个性,以提高其社交媒体平台的参与度,最早于下个月推出。(新闻来源:Financial Times)
- 戴尔科技集团官方宣布,将与英伟达合作推出生成式人工智能解决方案,帮助客户在本地快速安全地构建生成式人工智能(GenAI) 模型,以加速改进成果并推动新的智能水平。(新闻来源:IT之家)
- 据商标律师Josh Gerben 透露,OpenAI 已经在7月18日申请注册“GPT-5”的商标。目前尚不能确定该商标是否为保护性注册。从商标信息来看,GPT-5将提供文本生成、自然语言处理、语音转录、翻译等功能。(新闻来源:品玩)
- 根据市场调查机构 Gartner 公布的最新报告,全球客服中心(CC)正大力拥抱对话式 AI 和虚拟助手,预估 2023 年 CC 支出将达到 186 亿美元,比 2022 年增长 16.2%。(报告全文:Gartner)
- 据 9to5google 报道,谷歌内部宣布,将会对 Google Assistant 进行更新,引入大语言模型技术。(新闻来源:9to5Google)
-
AI快讯:7月第3期(7月21日到7月31日的AI行业新闻)
AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为7月第3期(7月21日到7月31日)的AI行业新闻集合。
7月31日
- 据英国《金融时报》报道,黑石集团的680亿美元旗舰房地产基金已从全球最大房地产买家之一变成大卖家。该基金正在筹集流动性以应对赎回,并向多个AI数据中心投资数十亿美元。(新闻来源:界面新闻)
- 据 Windows Latest 报道,微软即将推出 Windows 11 Copilot 的第三方 AI 插件功能,并正在征求开发者的反馈,以帮助塑造操作系统的“第三方 AI 插件”的未来。(新闻来源:Windows Latest)
- 阿里旗下达摩院日前与大连理工大学合作,推出了一款名为 HQTrack 的 AI 框架。该框架主要由视频多目标分割器(VMOS)和掩模优化器 (MR) 组成,旨在“实现对视频中任何目标的高质量跟踪”。(新闻来源:IT之家)
- 致力于构建数据管道和大模型中间件的创业公司——「灵奥科技」近日正式宣布完成种子轮融资。据介绍,本轮融资金额在数百万美元级别,投资方为靖亚资本和Plug and Play。(新闻来源:36氪)
7月28日
- OpenAI 官方宣布,安卓版 ChatGPT 应用现已面向阿根廷、加拿大、法国、德国、印度尼西亚、爱尔兰、日本、墨西哥、尼日利亚、菲律宾、英国和韩国用户推出。(新闻来源:品玩)
- 初创公司 Beyond Work 宣布筹集了 250 万美元的 pre-seed 轮融资,由Moonfire Ventures 领投,麻省理工学院 E14 基金参投,该公司致力于通过大型语言模型使企业工具的使用更加人性化、无缝化。(新闻来源:VentureBeat)
- 程序员问答社区 StackOverflow 宣布将推出 Overflow AI,以弥补社区问答时的不足并帮助开发者开发代码,让开发者能够相对更自由地根据具体问题具体调整代码,将于 8 月作为 Alpha 版发布。(新闻来源:IT之家)
- 据谷歌 deepmind 官方消息,谷歌推出了一款全新 AI 模型 Robotics Transformer2(RT-2),可以帮助机器人进行训练。(新闻来源:品玩)
7月27日
- Stability AI 正式发布其旗下最新图像生成模型Stable Diffusion XL 1.0,即日起该模型可通过Stability AI API、Stability AI 的 Github 页面及旗下 Clipdrop 和 DreamStudio 网站访问和使用。(新闻来源:TechCrunch)
- 韩国个人信息保护委员会(PIPC)周四表示,对人工智能聊天工具ChatGPT的运营商OpenAI处以360万韩元(约合2829美元)的罚款,原因是该公司泄露了687名韩国用户的个人信息。(新闻来源:新浪财经)
- 微软 Bing 工程和产品负责人 Jordi Ribas 近日发布推文,表示“在未来几天内”,面向所有必应聊天(Bing Chat)和必应搜索(Bing Search)用户开放深色模式。(新闻来源:品玩)
- 金山公司今日宣布,WPS Office 海外版内置的 WPS AI 助手已正式开启公测,与国内版本不同,其大模型支持由 OpenAI 和 PaLM2 提供。(新闻来源:IT之家)
- Adobe 公司推出了一项名为“Generative Expand”的人工智能功能,已提供给 Photoshop 测试版用户。这项功能可以让用户轻松地扩展图像,创造出无缝的场景效果。(新闻来源:IT之家)
- 据微软官方消息,微软推出一款名为NaturalSpeech2 的语音模型,可带来高质量的语音合成产品。微软表示,NaturalSpeech2 可以生成具有不同身份的人声语音,拥有不同的韵律和风格,还具备唱歌能力。(新闻来源:品玩)
- 灵动AI发布可商用AIGC产品“灵动AI商品图”,并与京东智能新品孵化平台合作,为商家和产业带客户提供AIGC“营销+设计”服务,并宣布获小米联合创始人黎万强天使投资。(新闻来源:36氪)
- 搜狗原CMO洪涛在朋友圈宣布,即将入职搜狗前CEO王小川、搜狗原COO茹立云联合创立的AI大模型公司百川智能,负责商业化工作。(新闻来源:财联社)
- 初创公司 Thymia 宣布获得 270万美元的融资,该公司使用 AI 来评估和跟踪病人的精神健康状况。(新闻来源:Business Insider)
- 初创公司 AutoGenAI 宣布获得来自 Blossom Capital 2230 万美元的融资,该公司开发了一款基于生成式 AI 的工具,声称可以帮助企业编写更有说服力的商业计划提案来提高成功率。(新闻来源:TechCrunch)
- 初创公司 Graft 宣布获得 1000 万美元的种子轮投资,由 Radical Ventures 领投,GV 参投。该公司旨在构建一个让每个公司都能使用和开发人工智能的平台,而不仅仅是拥有大量工程资源的大型企业。(新闻来源:TechCrunch)
- 初创公司 HumanFirst 宣布获得 500 万美元的种子轮投资,该公司提供一个智能平台帮助企业利用内部的对话数据(即客户和支持人员之间的对话记录)以无代码方式创建新的企业应用程序和流程。(新闻来源:VentureBeat)
7月26日
- 微软、Anthropic、谷歌和OpenAI 宣布成立前沿模型论坛(Frontier Model Forum),一个专注于确保前沿人工智能模型安全和负责任开发的行业机构。(新闻来源:Microsoft Blog)
- OpenAI 的 ChatGPT Android 应用程序现已在 Google Play 商店中提供,首先在美国、印度、孟加拉国和巴西等国推出,其他国家将随后跟进。(新闻来源:The Verge)
- 热门 AI 初创公司 Cohere 推出 Coral,一款为企业服务的生成式 AI 助手, 该工具提供一个自然语言界面,员工可以在其中提出问题并获得有用且相关的答案。(新闻来源:Maginative)
- 据 The Information 报道,OpenAI 为了对抗微软和 Meta 合作开发的开源模型 Llama 2,目前内部正在开发代号为“G3PO”的新开源模型,尚不清楚何时才会发布。(新闻来源:IT之家)
- 网易有道推出国内首个教育领域垂直大模型“子曰”,并发布了基于“子曰”大模型研发的六大创新应用 ——“LLM 翻译”、“虚拟人口语教练”、“AI 作文指导”、“语法精讲”、“AI Box”以及“文档问答”。(新闻来源:36氪)
- 华为今日披露,已与科大讯飞近日正式启动 AI 存力底座的联合创新项目,共同打造面向 AI 大模型场景的最佳数据存储解决方案。(新闻来源:品玩)
- 美国最大的家居电商平台 Wayfair 推出了一款名为 Decorify 的免费虚拟房间设计器,用户上传图片后,该工具可利用生成式AI展示房间的重新装修后的摸样,并推荐相关的家居。(新闻来源:The Verge)
- Protect AI是一家构建工具来强化人工智能系统安全性的初创公司 ,今天宣布在由 Evolution Equity Partners 领投的 A 轮融资中筹集了 3500 万美元,Salesforce Ventures、Acrew Capital、boldstart Ventures、Knollwood Capital 和 Pelion Ventures 跟投。(新闻来源:TechCrunch)
- 初创公司 Akooda 日前宣布筹集了 1100 万美元的种子轮资金,该公司的运营智能平台利用人工智能有效地定位、访问和分析分散在组织中的关键数据,并帮助实时解决业务挑战。(新闻来源:Benzinga)
- 电商公司 Stay Ai 宣布筹集了 1510 万美元的 A 轮融资,该公司利用预测分析和机器学习模型帮助 Shopify 品牌和商家吸引客户进行二次购买。(新闻来源:TechCrunch)
7月25日
- 微软的人工智能聊天机器人 Bing Chat(必应聊天)现已支持在谷歌 Chrome 和苹果 Safari 浏览器上使用了,用户只需访问 Bing.com 网站,就可以和该聊天机器人进行交流,并且还引入了深色模式。(新闻来源:Windows Latest)
- 小红书在发布一栏中推出了一项名为“此刻”的新功能。通过该功能,用户可以直接输入文字,算法会基于输入的文本内容为用户生成一张图片并完成发布。(新闻来源:界面新闻)
- 据 Decrypt 报道,由于准确性不佳,OpenAI 已于上周悄然关闭了一月份推出的AI内容检测工具 AI Classifier,7月20日起该工具不再可用。(新闻来源:Decrpyt)
- 钉钉公布接入大模型后的产品进展,知识库、Teambition、白板等加入AI能力,目前钉钉12条产品线、40多项场景已接入大模型。用户通过斜杠“/”输入自然语言,即可生成PPT、思维导图、数据分析图表、项目看板等。(新闻来源:中国日报)
- 阿里云在国内推出针对Llama2全系列版本的训练和部署方案,便于开发者进行再训练,搭建专属大模型。阿里云PAI的预置环境支持开发者在云上进行模型微调,并通过通过Web UI及API的方式部署Llama2。(新闻来源:TechWeb)
- 英特尔今天宣布和埃森哲(Accenture)合作,推出 34 个开源 AI 参考套件,旨在简化和加快数据科学家和开发人员部署 AI 的过程。(新闻来源:Intel Press Releases)
- 总部位于伦敦的人工智能教育技术平台 Quench.ai 筹集了500万美元的pre-seed轮融资,该公司由独角兽公司 Onfido 联合创始人创办,利用人工智能为其用户搜索最相关的教育视频内容。(新闻来源:Tech.eu)
- 韩国的电信巨头 KT 集团日前宣布向总部位于首尔的人工智能(AI)基础设施软件公司 Moreh 投资 150 亿韩元(1160 万美元),以加速其人工智能全栈运营。(新闻来源:KED Global)
- 北京知未智能科技有限公司日前在上海发布了知未智能 KDF 大模型 ,以及基于该模型研发的一系列产品,包括“ KDF 智讯”、“KDF 绝未”、“KDF 中书”等金融行业工具。(新闻来源:IT之家)
7月24日
- 彭博社的记者 Mark Gurman 在《Power On》节目中表示,苹果正在使用内部的AppleGPT聊天机器人来帮助其员工“设计未来功能的原型、总结文本并根据训练过的数据回答问题” 。并称苹果正在寻找方法在其组织内扩大生成式人工智能的使用,其中一种可能性是将该工具提供给 AppleCare 支持人员,以更好地帮助客户处理问题。(新闻来源:The Verge)
- 据 Tech 星球报道,淘宝APP已经上线AI创作小助手,目前该AI创作小助手,支持用户通过AI创作不同风格的自画像,可用作淘宝账号头像。(新闻来源:品玩)
- 360旗下大模型产品“360智脑”APP已正式上线苹果应用商店,360智脑APP已具备生成与创作、多轮对话、代码能力、文本分类、文本改写、阅读理解、逻辑与推理、知识问答、多模态、翻译等能力,还可以创作自己的数字人。(新闻来源:Tech星球)
- 微软与小冰公司联合宣布,小冰将面向亚洲地区企业客户,推出基于微软国际版 Azure 新一代 AI 数字员工解决方案,双方将共同推进解决方案的市场普及。(新闻来源:IT之家)
- C# 和 TypeScript 之父 Anders Hejlsberg 日前宣布了全新的开源项目 ——TypeChat,一款可以轻松使用类型构建自然语言界面的实验性工具库。(新闻来源:Introducing TypeChat)
- 视频编辑软件 DaVinci Resolve(达芬奇)近日迎来 18.5 正式版更新,官方称这是一次重大更新,添加了新型 AI 工具和 100 多项全新功能,包括转录片段中的音频、自动语音转文字生成字幕、自动对音频片段进行分类等。(新闻来源:BlackmagicDesign)
7月22日
- OpenAI 官方在推特宣布,下周将发布安卓版 ChatGPT 应用程序,即日起可以在谷歌商店预约下载。(新闻来源:IT之家)
- Stability AI 与 CarperAI实验室一起发布了两个新的大型语言模型,FreeWilly1 和 FreeWilly2,两个 FreeWilly 模型均基于 Meta 的 Llama 模型,其中 FreeWilly2 已使用具有 700 亿个参数的较新的 Llama-2 模型。(新闻来源:Stability AI Blog)
- 据外媒报道,在摩根大通的跨资产报告产品Cross Asset Spotlight中,已经开始使用生成式AI为人类分析师报告撰写总结,同时在这些AI总结后面附带着报告原文的链接。(新闻来源:36氪)
- 游戏配乐平台 PlusMusic.ai 日前宣布获得 250 万美元的种子轮融资,该公司旨在提供经济高效的快速解决方案,简化音乐创作和音乐集成到游戏内容的过程。(新闻来源:Digital Music News)
7月21日
- OpenAI 宣布推出自定义指令功能,率先在 PLUS 计划中提供测试版,未来几周内将推送给所有用户。该功能将在系统层面给聊天机器人定制化一些指令,令机器人更具有个性化特色,更好地贴近使用者的需求,并且用户不用在每次对话中重复偏好或信息。(新闻来源:IT之家)
- GitHub 宣布其新的 Copilot Chat 功能(类似于 ChatGPT,但旨在帮助开发人员进行编程)现已作为有限的公开测试版提供给企业公司和组织,测试版将通过微软的 Visual Studio 和 Visual Studio Code 应用程序向“所有企业用户”开放。(新闻来源:The Verge)
- 美国政府今日宣布,已获得多家人工智能头部公司的自愿承诺,将对人工智能生成的内容加水印等措施,以帮助提高技术的安全性。亚马逊、Anthropic、谷歌、Inflection、Meta、微软和 OpenAI 这七家公司都同意提高其系统的安全性和透明度,包括允许第三方专家对其模型进行审查。(新闻来源:IT之家)
- 据华尔街日报消息,Google的联合创始人谢尔盖·布林最近几个月每周都会有三到四天访问公司办公室,活跃地与研究人员合作开发 Google DeepMind 的下一代基础模型 Gemini。(新闻来源:9to5Google)
- 顶级早期风险投资公司 Mayfield 今天宣布设立 2.5亿美元的 AI Start 基金,这是其历史上第一支种子基金,将与人工智能优先的创始人合作。(新闻来源:Forbes)
- 据路透社消息,Cerebras Systems 周四表示,已签署一项价值约 1 亿美元的协议,将与总部位于阿拉伯联合酋长国的科技集团 G42 合作,交付第一台人工智能 (AI) 超级计算机,总数量可能多达 9 台。(新闻来源:Reuters)
- Cleanlab是一家为企业人工智能中使用的大型语言模型 (LLM)提供数据管理解决方案的初创公司,日前宣布已获得 500 万美元的种子资金,由贝恩资本风险投资公司 (Bain Capital Ventures) 领投。(新闻来源:VentureBeat)
- Gushwork.ai,一个旨在利用人工智能和人类专业知识推进业务流程外包(BPO)的全球平台,日前已在种子轮前融资中筹集到 210 万美元,本轮融资由 Lightspeed 领投,B Capital、Sparrow Capital、Seaborne Capital 和 Beenext 参投。(新闻来源:TechCrunch)
-
AI快讯:7月第2期(7月11日到7月20日的AI行业新闻)
AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为7月第2期(7月11日到7月20日)的AI行业新闻集合。
7月20日
- 据彭博社报道,苹果公司开发了一款类似于 OpenAI 的 ChatGPT 的内部人工智能机器人,部分工程师称该项目代号为 Apple GPT,基于自研的“Ajax”的大型语言模型框架。(新闻来源:Bloomberg)
- 据 OpenAI 官方消息,OpenAI 将放宽对 ChatGPT Plus 用户的使用限制,让他们可以和 ChatGPT进行更多的对话。从下周起,ChatGPT Plus 用户每3个小时可以和 GPT-4 进行50轮对话。(新闻来源:品玩)
- 谷歌正在测试一款使用 AI 技术制作新闻报道的产品,并将其推销给《纽约时报》、《华盛顿邮报》和《华尔街日报》母公司新闻集团等新闻机构。该工具在内部的暂定名称为 Genesis,可以接收信息(例如时事的详细信息)并生成新闻文案。(新闻来源:The New York Times)
- 微软近日宣布将与美宝莲合作,在Microsoft Teams 中引入虚拟化妆功能Maybelline Beauty。美宝莲现已在 Teams 中引入了12种不同的妆容,方便用户选择。(新闻来源:The Verge)
- 据“Tech 星球”报道,腾讯音乐旗下一款名为“未伴”的 AI 机器人聊天 App 已经在近期开启测试。未伴是一个集 AI 陪聊、AI 伴侣写真等多个功能于一体的 AI 聊天产品,用户可以“选择 App 已经预制的 AI 伴侣,或根据用户自身要求创造一个 AI 伴侣”。(新闻来源:IT之家)
- 拉勾招聘宣布上线AI智能招聘助手产品“HRMind”,这是在招聘行业内首个基于预训练大模型实现广泛应用的招聘场景产品。(新闻来源:极客网)
- 知名企业管理软件公司 SAP(思爱普)日前宣布投资了三个热门的生成式人工智能公司:Anthropic、Cohere 和 Aleph Alpha,作为其旗下 Sapphire Ventures 将投资超过 10 亿美元的人工智能承诺的一部分。(新闻来源:SAP News Center)
- 语言学习平台 Preply 宣布已筹集了 7000 万美元的资金,将其 C 轮融资扩大至 1.2 亿美元。该公司正计划利用这笔资金加倍开发人工智能,特别是利用该技术来“扩展”人工智能教学。(新闻来源:GlobeNewsWire)
- 初创公司 Unstructured 宣布通过 A 轮融资和此前未披露的种子轮融资筹集了 2500 万美元,该公司提供系列工具来帮助清理、转换和暂存企业数据以连接大语言模型(LLM)。(新闻来源:TechCrunch)
- 初创公司 FedML 宣布筹集了 1150 万美元种子资金,估值为 5650 万美元,由 Camford Capital 领投,Road Capital 和 Finality Capital 参投,该公司提供 MLOps 工具与去中心化 AI 计算网络。(新闻来源:TechCrunch)
7月19日
- 微软官方宣布了推出必应聊天企业版(Bing Chat Enterprise)和Microsoft 365 Copilot定价。Bing Chat Enterprise 可为企业提供AI聊天功能和商业数据保护,并于今天推出预览版。对于 Microsoft 365 E3、E5、Business Standard 和 Business Premium 客户,Microsoft 365 Copilot 的定价为每位用户每月 30 美元。(新闻来源:微软官方博客)
- 微软 Bing Chat 更新推出(Visual Search)视觉搜索,用户可以上传图像或拍摄照片,然后让该工具扫描照片,Bing Chat 可以解释图片中的内容并回答相关问题。(新闻来源:WindowsCentral)
- 在微软Inspire大会上,Meta和微软宣布进一步合作,将在Azure和Windows上支持 LLaMA 2 大语言模型(LLM)系列。LLaMA 2旨在帮助开发者和组织构建生成式人工智能工具和体验。(新闻来源:微软官方博客)
- 此外,微软在今年的Inspire大会上还发布了一系列的重要公告,包括在Dynamics 365 Sales中为Microsoft Sales Copilot添加更多功能、启用Power Automate流程挖掘AI功能、扩大了 Azure OpenAI 服务的访问范围、新的Azure功能和投资、扩大与Epic的战略合作、全新的微软人工智能云合作伙伴计划等。(新闻来源:微软官方博客)
- OpenAI 通过与美国新闻项目 (AJP) 建立新的合作伙伴关系,对本地新闻业进行了大量投资。该公司今天宣布,将向 AJP 提供 500 万美元的资金和最多 500 万美元的 API 积分,以支持该非营利组织重建美国本地新闻的努力。(新闻来源:Maginative)
- Cohere 与麦肯锡宣布达成合作,将共同提供根据麦肯锡客户需求量身定制的安全、企业级生成式人工智能解决方案,包括保护客户数据的云和本地人工智能软件。(新闻来源:VentureBeat)
- 阅文集团发布了“阅文妙笔大模型”,该大模型服务于阅文的创作者,辅助作家创作,包括辅助人设、世界观、力量体系构建等。(新闻来源:财联社)
7月18日
- 上海市人民政府办公厅印发《关于促进本市生产性互联网服务平台高质量发展的若干意见》。其中提出,加快新技术的整合应用,重点支持创新主体研发具有国际竞争力的大模型。(新闻来源:财联社)
- 无代码网站建设平台 Wix 宣布推出 AI Site Generator 工具,以帮助用户输入文本描述智能生成一个包含首页、详情页、文本和图像的网站。(新闻来源:Maginative)
- Stability AI 首席执行官Emad Mostaque在与瑞银分析师的电话会议上谈到AI时表示,人工智能是一个价值1万亿美元的投资机会,但也将是“有史以来最大的泡沫”。(新闻来源:IT之家)
- 在线原型设计协作平台摹客 Mockplus 日前推出「小摹AI」,可智能生成原型设计、界面文本、内容翻译、自动填充文本和图片等内容,目前已开启内测。(新闻来源:摹客设计云)
- 盘古大模型矿山领域首次商用发布会在山东济南举行。会上,山东能源集团、华为、云鼎科技联手发布全球首个商用于能源行业的AI大模型——盘古矿山大模型。(新闻来源:36氪)
- 据 Windows 官方博客消息,Windows Copilot 预览版现已向开发频道中的所有 Windows Insider 开放。(新闻来源:品玩)
- 知名导演克里斯托弗·诺兰在其最新执导电影《奥本海默》特别放映后对人工智能表达了谨慎态度,并将这一迅速发展的技术与他的新电影作品关于原子弹的创造进行了比较。(新闻来源:The Verge)
- 诺拉·罗伯茨、玛格丽特·阿特伍德、阮清越和迈克尔·夏邦等数千名作家签署了一封联名信,要求 OpenAI 和 Meta 等人工智能公司在未经许可或补偿的情况下停止使用他们的作品。(新闻来源:NPR)
7月17日
- 百度网盘日前宣布推出基于 AI 的高级图搜功能,据称可以使用“带有形容词的名词”进行更精确的搜索,也可以通过“地名”、“物体名称”、“图片中包含的文字”,查找到需要的图片。(阅读全文:IT之家)
- 携程集团发布首个旅游行业垂直大模型“携程问道”。在大模型的基础上,“携程问道”筛选高质量非结构性旅游数据200亿,结合携程现有精确的实时数据进行了自研垂直模型的训练。(新闻来源:36氪)
- 网易云音乐内测上线“私人DJ”功能,将推出首个AI推荐音乐助手。该功能基于歌曲推荐算法的创新升级,实现了推荐歌曲的智能讲解服务。(新闻来源:36氪)
- 联合国安理会本周二将在纽约开会正式讨论AI风险问题,这是该机构第一次举行类似的会议。(新闻来源:新浪科技)
- 日前,掌趣科技宣布与行者AI达成战略合作,共同致力于推进AIGC技术在游戏产业的创新应用。(新闻来源:每经网)
- 近日,工艺智能领域公司“蕴硕物联”完成数千万元A轮融资,领投方为启赋资本,老股东跟投加码。本轮融资将主要用于合作伙伴体系搭建等各类市场端投入,以及进一步夯实技术壁垒。(新闻来源:36氪)
7月15日
- 马斯克在Twitter Space上的xAI讨论会上表示,新成立的人工智能公司xAI将采用来自推特的公开推文训练。另外,xAI还将在开发人工智能软件等多方面与特斯拉合作。(新闻来源:界面新闻)
- 据智谱AI及清华 KEG 实验室表示,即日起 ChatGLM-6B 和 ChatGLM2-6B 权重对学术研究完全开放,并且在完成企业登记获得授权后,允许免费商业使用。(新闻来源:GLM大模型)
- Meta 日前发布多模态语言模型 CM3leon,一种检索增强、基于标记、仅解码器的多模态语言模型,能够生成和填充文本与图像。(新闻来源:Maginative)
- 帮助审核移除 ChatGPT 上的有害内容的肯尼亚外包员工已向立法机构提交请愿书,呼吁对在肯尼亚的大型科技外包内容审核和人工智能工作展开调查。(新闻来源:TechCrunch)
7月14日
- Stability AI 宣布推出 Stable Doodle,可以将简单的手绘草图转化成精美的图像,让你从灵魂画手变身艺术大师。目前用户可以通过Stability AI旗下的ClipDrop 网站免费使用该工具。(新闻来源:Stability AI Blog)
- OpenAI 与美联社达成交易,将在未来两年内使用美联社的新闻报道训练其人工智能模型,并访问美联社存档中早至 1985 年的部分内容,而美联社可优先获得OpenAI的技术和产品体验。(新闻来源:The Verge)
- 电商平台 Shopify 日前称将很快在其平台上为商家推出AI助手「Sidekick」,通过其 CEO 在推特上发布的一段视频可以看到,Sidekick 将作为一个按钮嵌入Shopify,回答商家的询问,包括有关销售趋势的详细信息。(新闻来源:BetaKit)
- 程序员问答平台 Stack Overflow 的 CEO Prashanth Chandrasekar 在日前接受外媒 VentureBeat 采访时,表示该公司正投入 10% 员工开发旗下 AI 工具,预计该工具将于今年夏季晚些时候发布。(新闻来源:VentureBeat)
- 日前,知名风投公司 a16z(Andreessen Horowitz) 在GitHub上发布了一个开源的教程和技术栈,帮助个人通过浏览器或发送短信来创建和托管自己的AI聊天机器人/伙伴。项目里面使用的技术基本都是 a16z 投资的公司,比如Clerk登录授权、Pinecone向量数据库、Fly.io上线部署,感兴趣的朋友可以了解一下。(项目地址:GitHub)
- 日前,上海交通大学重庆人工智能研究院“兆言”大模型发布会在西部(重庆)科学城召开,会上发布了重庆首个自主研发的大语言模型——“兆言”,该大模型能够为学术研究、商业分析、生活咨询等用户呈现精准、专业的文本输出。(新闻来源:第一财经)
- 华为发布大模型时代AI存储新品OceanStor A310深度学习数据湖存储与FusionCube A3000训/推超融合一体机,支持基础模型训练、行业模型训练,细分场景模型训练推理。(新闻来源:证券时报·e公司)
- 巨人网络与阿里云宣布达成“游戏+AI”全面合作,双方在上海正式签署合作备忘录,将共建“游戏+AI”智算平台。(新闻来源:36氪)
- 信也科技推出第一代LLM(大语言模型)应用开发框架E-LADF。E-LADF以类ChatGPT大模型引擎、向量数据库等基础组件为底座,旨在提供一系列功能接口,帮助开发者构建和部署基于LLM的应用程序。(新闻来源:信也科技)
- Stability AI 的联合创始人之一 Cyrus Hodes 起诉称,自己在该公司的 15% 股份被 Stability AI 的 CEO Emad Mostaque 欺骗以 100 美元的价格出售给了他,而这些股份可能价值数亿美元。(新闻来源:Semafor)
- 药物发现研究初创公司 Causaly 完成 6000 万美元的 B 轮融资,由 ICONIQ Growth 领投。该公司建立了一个人工智能平台来帮助研究人员加速药物的开发和测试,本轮筹集的金额将用于研发并继续建设其团队。(新闻来源:TechCrunch)
- 位于西雅图的安全软件初创公司 Tangibly 种子轮融资 650万美元,由 Madrona Venture Group 领投。该公司成立于2021年,帮助客户保护和管理商业秘密等知识产权资产。(新闻来源:GeekWire)
7月13日
- 国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布《生成式人工智能服务管理暂行办法》,自2023年8月15日起施行。(阅读全文:网信中国)
- 埃隆·马斯克 (Elon Musk) 周三正式宣布其新成立的人工智能公司 xAI,官网上称其目标是“理解宇宙的真实本质”,团队成员来自DeepMind、OpenAI、Google Research、Microsoft Research、多伦多大学等公司和研究机构,马斯克和他的团队将于周五在 Twitter Spaces 直播聊天中分享更多信息。(网站地址:x.AI)
- 美国联邦贸易委员会(FTC)已对OpenAI公司展开了全面调查,理由是该公司涉嫌违反消费者保护法,将个人名誉和数据置于危险之中。(新闻来源:财联社)
- Quora 旗下的 AI聊天机器人 Poe 于日前推出了一系列的工具和功能更新,包括支持最新的Claude 2模型、更大的上下文窗口、URL 检索、文档上传以及继续其他用户分享的公共对话。(新闻来源:Poe Newsletter)
- 据谷歌 Bard 的更新日志显示,Bard 日前新增了40多种支持语言,包括阿拉伯语、中文、德语、印地语和西班牙语等等。另外,谷歌还为 Bard 增加了文字转语音功能,可用于朗读文字。(新闻来源:品玩)
- 在今日上午的 2023 京东全球科技探索者大会暨京东云峰会上,京东言犀大模型正式发布,官方同时发布言犀 AI 开发计算平台。该平台已经启动预约注册,预计 8 月正式上线。(新闻来源:IT之家)
- Adobe Firefly 日前发布新闻稿称,将在全球扩展该服务,以支持 100 多种语言的文本提示,还将本地化为 20 种语言。另外,Adobe 还称用户已经在 Firefly 网站和 Photoshop 中生成了超过 10 亿的视觉资产。(新闻来源:BusinessWire)
- Google 宣布开始内测 NotebookLM——原名是在今年 Google I/O 大会上推出的人工智能笔记实验性项目 (Project Tailwind),目前依然仅接受美国地区IP的申请。(新闻来源:The Verge)
- 人工智能语言克隆和合成平台 Resemble AI 宣布在由 Javelin Venture Partners 领投、Craft Ventures 和 Ubiquity Ventures 参与的 A 轮融资中筹集了 800 万美元,使该初创公司的融资总额达到 1200 万美元。(新闻来源:CMSWire)
- Google 艺术与文化实验室介绍了其最新作品 Viola the Bird,一个经过人工智能训练的程序,可以将光标移动转化为小提琴和大提琴音符,从而生成带有轻柔小鸟在琴弦上演奏的实时音乐。(新闻来源:Google Blog)
- 日前,韩国互联网巨头 Kakao 宣布对其 AI图像生成工具 Karlo 和大语言模型 KoGPT 进行重大更新,并设立了一项新的基金来支持 AI 图像生成初创公司。(新闻来源:TechCrunch)
7月12日
- Anthropic 正式发布了全新的 Claude 2,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。相较之前的版本,Claude 2 在代码、数学、推理方面都有了史诗级提升,支持高达100K token的上下文。除此之外,还支持用中文和Claude 2对话,而且完全免费。(新闻来源:新智元)
- 日前,半导体分析机构 SemiAnalysis 发布了一篇 GPT-4 内部技术解密文档,该文档披露了GPT-4 的架构、基础设施、训练数据集、成本、视觉 和 MoE 等关键信息。(阅读译文:AppSo;英文原文:SemiAnalysis)
- 比尔·盖茨在其个人博客网站发表文章称,“AI 的风险的确存在,但是可控的”。盖茨在文中列举了 AI 可能带来的诸如深度伪造、错误信息、网络攻击、工作转变、幻觉和偏见等风险,也呼吁政府和企业管理好人工智能的风险,并鼓励大家关注 AI 的发展。(阅读原文:GatesNotes)
- 阿里巴巴旗下企业智能服务公司瓴羊宣布推出羚羊One多平台、多渠道一站式DAAS产品, 并即将接入大模型全面升级,用上羚羊One的企业将可以使用大模型技术。(新闻来源:新浪科技)
- 微软 Edge 浏览器即将推出一项新功能,让用户可以通过右侧的 Bing 聊天面板来控制浏览器的操作,用户只需输入提示,浏览器就会根据词语的含义进行相应的操作,如打开标签页和下载页面等。(新闻来源:IT之家)
- 图库网站 Shutterstock 宣布扩大与 OpenAI 的合作伙伴关系,允许 OpenAI 访问更多的训练数据,包括 Shutterstock 的图像、视频和音乐库以及相关元数据,Shutterstock 也获得了最新OpenAI技术的优先使用权。(新闻来源:腾讯新闻)
- 马斯克当地时间7月12日将在Twitter Spaces上与共和党众议员迈克·加拉格尔(Mike Gallagher)、民主党众议员罗·康纳(Ro Khanna)讨论人工智能,对话将持续45分钟左右。(新闻来源:界面新闻)
- IBM 正在考虑使用其内部设计的人工智能芯片,以降低云计算服务的成本,并将该芯片作为其新推出的 watsonx AI 云服务的一部分。(新闻来源:IT之家)
- 印度IT外包巨头 Wipro 表示,计划未来三年内投入10亿美元,对其25万员工进行人工智能技术培训,并将该技术整合到其产品中。(新闻来源:新浪财经)
- 提示词工程(Prompt Enginnering)初创公司 Vellum.ai 宣布完成 500 万美元的种子轮融资,该公司专注于帮助其他公司改进生成式 AI 提示。Rebel Fund、Eastlink Capital、Pioneer Fund、Y Combinator 等参与了本轮融资。(新闻来源:TechCrunch)
- 风险投资公司 Sapphire Ventures 表示,计划向人工智能相关企业初创公司投资超过10亿美元,以加速推动该技术在世界各地公司的采用。(新闻来源:路透社)
- eBay 今天宣布已完成对 Certilogo 的收购,Certilogo 是一家提供 AI 驱动的服装和时尚商品数字 ID 和身份验证的公司,此次收购有助于 eBay 对二手产品的品牌防伪认证,具体财务细节未披露。(新闻来源:PRNewsWire)
- OECD(经济与合作发展组织)呼吁成员国为大规模采用AI技术带来的负面影响做好准备,称金融、医药和法律等领域的高技能白领工作被冲击的风险最高,约占经合组织成员国经济体就业的 27%。(新闻来源:金融时报)
7月11日
- 美图秀秀官方今天宣布,现已在美图秀秀 App 和 Wink App上线AI 扩图功能,该功能采用AI算法智能识别,可根据图像的上下文和纹理,预测和生成缺失的部分,让图片获得更大画幅和视角。(新闻来源:IT之家)
- 百川智能正式发布130亿参数通用大语言模型(Baichuan-13B-Base),官方称是性能最强的中英文百亿参数量开源模型。(新闻来源:量子位)
- 腾讯宣布自研棋牌类AI“绝艺LuckyJ”登顶国际麻将平台,在日本麻将天凤平台特上房达到稳定段位 10.68 段,刷新了 AI 在麻将领域取得的最好成绩。(新闻来源:腾讯公众号)
- 利用人工智能进行野火检测预警的初创公司 Pano AI 新一轮融资 1700 万美元,使其总筹集金额达到 4500 万美元。本轮融资由 Valor Equity Partners 领投,并增加了几位战略投资者:T-Mobile Ventures 和 Salesforce 等。(新闻来源:GlobeNewswire)
- GenAI 公司日前宣布,其全资子公司 Pulse AI 已获准加入英伟达初创加速计划,并已发出采购订单,购买价值约180万美元的硬件,每年可提供超过35万小时的人工智能计算时间。(新闻来源:界面新闻)
- 为金融行业提供人工智能解决方案的初创公司 Interface.ai 宣布退出 Sphere AI助手,可帮助银行和信用合作社自动化处理客服支持近 95% 的咨询,以提高运营效率。(新闻来源:PRNewsWire)
-
AI快讯:7月第1期(7月1日到7月10日的AI行业新闻)
AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为7月第1期(7月1日到7月10日)的AI行业新闻集合。
7月10日
- 中国证监会科技监管局局长姚前在《中国金融》发文表示,总体来看,目前国内外主流大模型在算法层面尚不存在代际差,但是在算力和数据方面存有差距。建议在通用领域大力支持国内头部科技企业研发自主可控的国产大模型,同时鼓励研发垂直行业模型。(新闻来源:东方财富网)
- 西湖心辰正式推出自研的通用大模型——「西湖大模型」,并再次获得汤姆猫的过亿金额的战略投资,以加速大模型的应用落地。(新闻来源:心辰科技公众号)
- 金域医学今日在官微上宣布其与华为云于7月8日正式签署盘古大模型战略合作协议,双方将合力打造医检行业AI大模型。(新闻来源:金域医学公众号)
- 据 Arxiv 页面显示,谷歌近日联手康奈尔大学发布论文,推出一款用于评估大模型视频理解能力的实验协议 VideoGLUE。(新闻来源:品玩)
- Unity 公司的首席执行官约翰·里奇蒂洛(John Riccitiello)预测,生成式人工智能(AIGC)将大幅缩短游戏开发时间,大约为5到10倍。(新闻来源:Decrypt)
- 上海仁济医院升级“数智人客服”3.0,旨在实现互联网医院智慧客服拟人化,使其具备语音对话功能,为患者提供更便捷、更贴心的“智慧服务”。(新闻来源:IT之家)
7月9日
- ChatGPT 对所有 Plus 用户开放 Code Interpreter 功能,提供更好的交互式编程体验和数据可视化功能,即使是非技术人员,也可以使用其完成复杂的编程任务。(阅读全文:机器之心)
- 微软 Bing 工程和产品主管 Jordi Ribas 发布推文称,改善了图像生成工具 Bing Image Creator 的服务器端,让图像生成时间缩短了 30%。(新闻来源:IT之家)
- 据报道,谷歌自 4 月份以来一直在梅奥诊所研究医院等进行测试PaLM 2大语言模型的变体Med-PaLM 2,一款旨在回答有关医疗信息问题的人工智能模型。(新闻来源:The Verge)
7月8日
- 在今日的世界人工智能大会上,中国移动宣布发布九天人工智能行业大模型,分为九天海算政务大模型和九天客服大模型。(新闻来源:财联社)
- 在最近于旧金山举行的首届机密计算峰会上,英特尔(Intel)宣布将与英伟达(Nvidia)共同合作提供机密人工智能解决方案,加强人工智能安全和隐私,可满足客户更高的安全性和合规性需求。(新闻来源:Intel Blog)
- 国外知名在线视频编辑工具 VEED 推出 AI 数字人口播工具,提供50种不同的虚拟数字人像和包括中文在内的75种语言和方言选择,帮助用户轻松创建本地化的多语言视频。(网站地址:VEED AI Avatars)
- 日前,在世界人工智能大会上,腾讯云宣布首次用AI,帮助世界最大的射电天文望远镜“中国天眼FAST”,找到了2颗快速射电暴。(阅读全文:腾讯云公众号)
- 日前,知名云主机服务商 DigitalOcean 宣布,以 1.11 亿美元现金收购位于纽约的云计算和人工智能开发初创公司 Paperspace,以帮助客户更方便地测试、开发和部署人工智能应用。(新闻来源:DigitalOcean Blog)
- 初创公司 SpeedyBrand 宣布,在由 GV(Google 的风险投资部门)和 Y Combinator 领投的一轮融资中筹集了 250 万美元,投后估值为 1500 万美元。该公司旨在利用 AIGC 为中小型企业创建高质量和高性价比的SEO内容。(新闻来源:TechCrunch)
- YouTube 正在 iOS 和 Android 设备移动应用上试验人工智能生成的小测验,旨在帮助观众测试对最近观看的教育知识型视频中涵盖的主题的理解程度。(新闻来源:Android Authority)
7月7日
- OpenAI 今天宣布,即日起GPT-4 API 向所有付费 OpenAI API 客户开放,所有付费 OpenAI API 客户现在都可以访问具有 8K tokens 上下文的 GPT-4 API。(阅读全文:IT之家)
- 华为开发者大会2023(Cloud)上,华为云盘古大模型3.0正式发布,盘古大模型3.0分为L0基础大模型、L1行业大模型、L2场景模型三层架构,将重塑千行百业。(新闻来源:财联社)
- 在2023世界人工智能大会阿里云MaaS论坛上,阿里云CTO周靖人宣布,AI绘画创作模型“通义万相”今天开始邀请测试,通过文字描述就可以生成图片。(新闻来源:钛媒体)
- 除通义万相外,阿里云还推出国内首款大模型调用工具魔搭GPT(ModelScopeGPT),能接收用户指令,通过“中枢模型”一键调用魔搭社区其他的AI模型,大小模型协同完成复杂任务,可以与用户对话、生成图片、生成视频、语音配音等。(阅读全文:钱江晚报)
- 蚂蚁集团联合清华大学发布 AI 安全检测平台“蚁鉴 2.0”,蚁鉴 2.0 可实现用生成式 AI 能力检测生成式 AI 模型,可识别数据安全、内容安全、科技伦理三大类的数百种风险,覆盖表格、文本、图像等多种数据和任务类型。(新闻来源:品玩)
- “商汤日日新”大模型体系全面升级,千亿级参数自然语言处理模型“商量”2.0版本支持阿拉伯语和粤语,推出小模型等不同参数量级的模型版本,可适配移动端等不同终端及场景的应用需求。(新闻来源:澎湃新闻)
- 360集团、百度、华为、阿里等企业被工信部中国电子技术标准化研究院授予“国家人工智能标准化总体组大模型专题组”组长单位,积极推动大模型国家标准体系建设,助力中国大模型产业发展。(新闻来源:腾讯网)
- 日本经济产业大臣西村康稔在新闻发布会上表示,日本政府将向软银集团提供53亿日元(约合2.7亿人民币)的补贴,用于发展生成式人工智能。(新闻来源:界面新闻)
- 下一代“世界最快”超级计算机 El Capitan 开始安装即将在明年完全投入使用的的组件,该系统的一个关键组件将是 AMD 即将推出的“业界最先进的”InstinctMI 300 人工智能 GPU。(阅读全文:IT之家)
7月6日
- 由我国科研人员研发的新一代数字地球技术平台——星图地球智脑引擎今日发布。该系统通过密集型“智能计算”为用户提供地球数据智能处理、地球信息智能感知、地球场景智能重建能力。(阅读全文:央视新闻)
- 以“智联世界,生成未来”为主题的2023世界人工智能大会(WAIC 2023)今日上午在上海世博中心开幕,图灵奖获得者Yann LeCun、马斯克、AMD CEO苏丰姿、Midjourney创始人大卫·霍尔茨等众多业界知名人士出席。(新闻来源:澎湃新闻)
- OpenAI正在组建一个由其首席科学家、公司联合创始人之一Ilya Sutskever领导的新团队,投入20%的总算力,以开发引导和控制“超级智能”人工智能系统的方法。(阅读全文:量子位)
- 日前,国际顶级学术期刊《自然》(Nature)杂志正刊登载了华为云盘古大模型研发团队的研究成果 ——《三维神经网络用于精准中期全球天气预报》,天气预报更精准。(阅读全文:IT之家)
- 推特前副总裁Richard Rabbat和GIF图片库「Giphy」的前首席技术官Anthony Johnson成立一家AI公司名为Lighty AI,由人工智能驱动的个人助理初创公司。(新闻来源:The Information)
- 近日,两位美国作家对ChatGPT母公司OpenAI提起诉讼,声称OpenAI在没有获得版权授权的情况下,就利用他们的作品来训练其人工智能。(阅读全文:财联社)
- 日前,国内L4自动驾驶公司「文远知行」,获得了阿联酋批准的中东首张国家级自动驾驶牌照。后续文远知行的各类无人车,包括Robotaxi、Robobus、无人环卫车都可以在当地测试和运营。(阅读全文:量子位)
7月5日
- Midjourney 今天在官方推特上宣布,已推出全新的内容扩展功能 Pan,用户可以在生成一张图片之后,沿固定方向扩充图片内容。(新闻来源:品玩)
- OpenAI宣布ChatGPT暂停接入必应联网搜索功能,由于用户可以利用该功能绕过一些网站的付费墙,直接获取文章的全文。为尊重内容所有者的权益,OpenAI决定暂停接入该功能。(新闻来源:IT之家)
- Inflection AI 近日宣布正在开发一款超级计算机,配备 2.2 万片英伟达 H100 GPU,可以满足生成式 AI 的发展需求。(新闻来源:WCCF Tech)
- 清华大学深圳国际研究生院、腾讯 AI Lab 和鹏城实验室的研究者们联合发表了一篇DreamDiffusion的研究论文,利用预训练的文本到图像模型强大的生成能力,可直接从脑电图信号生成高质量的图像。(阅读全文:机器之心)
7月4日
- 腾讯云发布国内首个AI原生的向量数据库,最高支持业界领先的10亿级向量检索规模,并将延迟控制在毫秒级。相比传统单机插件式数据库检索规模提升10倍,同时具备百万级每秒查询(QPS)的峰值能力。(阅读全文:腾讯云)
- 北大ChatExcel团队近期发布了中文法律大模型ChatLaw,为大众提供普惠法律服务。模型支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。(阅读全文:量子位)
- 日本与欧盟昨日在东京都内召开了数字领域的部长级会议,汇总联合声明称将在生成式人工智能(AI)国际规则制定方面进行合作。为了制定规则,双方将推进5月七国集团首脑会议上提出的“广岛AI进程”。(新闻来源:界面新闻)
- 据报道,字节跳动要造机器人,目前其机器人团队已有约 50 人,计划年底扩充到上百人,并生产一些服务字节自己的电商履约需求,能在仓库里分拣、打包货物的机器人。(新闻来源:晚点LatePost)
- 近日,华晨宝马与百度举办战略合作备忘录签约仪式,双方将共享优势资源,探索AI技术与汽车制造业全域场景的融合创新,推进数字化、智能化技术合作。(新闻来源:百度智能云)
7月3日
- 百度官方上线iOS版本文心一言App,现已上架苹果 App Store,用户可免费下载安装,App 体积为 46.1MB。(应用商店地址:App Store上的文心一言)
- 最新版本Mathematica Wolfram,正式引入大语言模型(LLM),只需输入文本描述,便可以进行科学计算。(新闻来源:量子位)
- 网站流量监测服务商Similarweb的数据显示,今年以来,ChatGPT访问量1月份的环比增长率为131.6%,此后逐月下降。5月时,这个数字已经跌至2.8%,预计6月将会出现环比负增长的情况。(新闻来源:央视新闻)
- 创新工场董事长兼CEO李开复亲自带队孵化的一家「AI 2.0公司」首度对外亮相,正式官宣「零一万物」新品牌,官网(01.AI)同步上线 。(新闻来源:极客网)
- 阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam,共涵盖 12317 道题目,以推动大模型的评测。(新闻来源:机器之心)
- 金山办公与英伟达团队合作,通过英伟达 Tensor Core GPU、TensorRT 提升图像文档识别与理解的推理效率;借助英伟达 Triton 推理服务器的部署,成功优化 GPU 利用率,提供高推理吞吐量。(新闻来源:IT之家)
- 天眼查与华为云联合发布了全球首个商查大模型——“天眼妹”可信商业助理。该产品以拟人化的交互形式面向用户,为其提供准确的商业信息,是业界首个面向个人端的可控大模型数字产品。该产品已经完成内部测试,预计7月底对用户开放邀请试用。(新闻来源:36氪)
- Snap 近日联合阿卜杜拉国王科技大学以及来自牛津大学的研究者共同公布了一款 Magic123 的大模型产品,可将2D图片转换为3D建模。(新闻来源:品玩)
7月2日
- 埃隆·马斯克近日宣布,为了防止 AI 公司大量抓取推特数据,影响真实用户的体验,决定对推特阅读量进行限制。未认证的账户每天只能阅读 600 条推文,而新注册的未认证账户只能阅读 300 条。(新闻来源:IT之家)
- 2023全球数字经济大会人工智能高峰论坛今日在北京召开,此次论坛以“智能涌现,重塑未来”为主题,10余位人工智能领域顶级专家学者和企业、机构代表围绕当下最具热度的大模型发展话题分享了深刻洞见和思考。(新闻来源:腾讯网)
- Steam 平台的运营商 Valve 公司在回应拒绝上架含 AI 生成内容的游戏的报道称,他们正在学习和适应 AI 技术在游戏开发中的应用,并尝试将其纳入现有的审核政策中。(新闻来源:IT之家)
- 在今日举行的2023全球数字经济大会人工智能高峰论坛上,中国电信集团数字智能科技分公司副总经理张鑫公布中国电信版ChatGPT产品 TeleChat大模型,支持输出代码、写演讲稿等。(新闻来源:钛媒体)
7月1日
-
AI快讯:6月第3期(6月21日到6月30日的AI行业新闻)
AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为6月第3期(6月21日到6月30日)的AI行业新闻集合。
6月30日
- 初创公司Inflection AI从比尔·盖茨、英伟达、LinkedIn联合创始人Hoffman等募资13亿美元,这是硅谷在当前的AI热潮中最大规模的融资之一。该公司开发出机器人聊天工具 Pi,现在的估值达到40亿美元。(阅读全文:华尔街见闻)
- 专注于为企业提供内容创作服务的人工智能初创公司 Typeface 从包括 Salesforce 和 Alphabet 的投资部门在内的支持者那里筹集了1亿美元。这笔交易对 Typeface 的估值为10亿美元,使其融资总额达到1.65亿美元。(新闻来源:财联社)
- 昨日,由上海人工智能实验室牵头,并联合国内外顶级科研机构、高校及医院共同发布全球首个医疗多模态基础模型群“OpenMEDLab浦医”。(阅读全文:上海人工智能实验室公众号)
- “商汤如影 SenseAvatar” 数字人视频生成平台正式上线,全面登陆 iOS / Android 应用市场,是业内首个 AIGC 全栈视频生成平台。(阅读全文:商汤科技公众号)
- 信用评级和研究公司穆迪昨日宣布与微软建立新的战略合作伙伴关系,将使用微软Azure OpenAI创建一个AI助手,帮助客户分析评估风险所需的大量信息。(阅读全文:每经网)
- 根据官方必应博客更新的博文,微软宣布在必应搜索(Bing Search)、必应聊天(Bing Chat)和 Edge 浏览器中整合 Microsoft Shopping 网购功能。(阅读全文:品玩)
- 微软今日面向 Windows 11 Dev 预览版用户推送了 Build 23493 更新,其中一项更新便是 AI 助手 Windows Copilot 上线,用户只需点击任务栏上的新按钮(或 Win + C)即可启动 Windows Copilot。(阅读全文:IT之家)
6月29日
- 美团发布公告称已完成光年之外境内外主体100%股权的收购,收购价约为人民币20.6亿元。此前,光年之外联合创始人王慧文因身体原因,离岗就医及休养。(阅读全文:金融界)
- 国内在线文档协作平台wolai开启AI功能内测,可辅助写作、文本处理和编辑、代码处理、创建思维导图、表格等,个人专业版及以上版本空间均可以申请 wol.AI 内测。(阅读全文:欢迎使用wol.ai)
- 随着生成式 AI 技术的发展,内容创作变得更加简单和自动化。为了帮助工作人员掌握 AI 的基本概念和应用,微软今天宣布了一个新的 AI 培训项目,免费提供在线课程和证书。(阅读全文:IT之家)
- 国内知名室内设计软件酷家乐宣布推出「酷家乐AI」,可帮助用户快速进行室内设计出图,目前酷家乐AI可在微信小程序和其官网体验。(阅读全文:酷家乐公众号)
- 2023世界人工智能大会将于7月6日至8日在上海举办,本届大会的主题是“智联世界 生成未来”,将在上海世博中心及世博展览馆举办,并在上海浦东张江、徐汇西岸设分会场。(阅读全文:中国证券网)
- 叮当健康正式发布大模型叮当HealthGPT,并推出基于此研发的应用型医药AI产品——叮当药师、营养师AI助手。(阅读全文:新华网)
- ChatGPT的开发商OpenAI在官网宣布,已经在英国伦敦设立了新的办事处,也是这家美国公司在海外的第一个分部。(阅读全文:品玩)
- 据日经新闻,日本软银集团旗下移动通信业务子公司“软银”将独立开发生成式人工智能,还将安装一台超级计算机进行开发。(新闻来源:财联社)
6月28日
- 今日下午,字节跳动旗下的火山引擎召开发布会,首次正式公布在大模型领域的研发布局和合作进展,并发布大模型服务平台火山方舟,提供模型训练、推理、评测、精调等全方位功能与服务。(阅读全文:极客公园)
- 中国联通在上海世界移动通信大会期间发布了图文大模型“鸿湖图文大模型1.0”,是首个面向运营商增值业务的大模型,该模型目前拥有8亿训练参数和20亿训练参数两个版本,可以实现以文生图、视频剪辑、以图生图等功能。(阅读全文:第一财经)
- 全球最大的游戏引擎 Unity 宣布将推出两款新的 AI 工具 Unity Sentis 和 Unity Muse,Unity Sentis 是一个跨平台运行时推理引擎,可帮助在任何 Unity 项目中部署 AI 模型,Unity Muse 则包含用于加速实时 3D 内容创建的工具。(阅读全文:Unity Blog)
- iOS 版 ChatGPT 应用又推出了一个新功能,即集成了微软的 Bing 搜索引擎,但这个功能只对付费用户开放,能够使用 Bing 搜索联网,根据最新数据给出更准确的答案。(阅读全文:IT之家)
- 幂律智能联合智谱 AI 联合发布了基于中文千亿大模型的法律垂直大模型 PowerLawGLM,针对中文法律场景具备丰富的法律知识和法律语言理解能力。(新闻来源:钛媒体)
- JetBrains 日前发布博客文章宣布,本周的所有基于 IntelliJ 的 IDE 和 .NET 工具的 EAP 版本都将具备 AI 助手功能,由 JetBrain 自自研的 AI 模型,配合 OpenAI 服务驱动。(阅读全文:JetBrains Blog)
- 国内 HR 服务商 Moka 正式发布首个 AI 原生 HR SaaS 整体解决方案以及面向 AGI 时代的 AI HR 伙伴——Moka Eva,这是Moka全面拥抱AI战略布局的里程碑,也将重新定义HR数字化未来新趋势。(阅读全文:机器之心)
- 在线旅游、住宿和酒店预订网站 Booking(缤客)宣布推出AI旅行计划助手,将于今日起面向部分美国游客推出测试版。该AI旅行助手基于 Booking 的现有机器学习模型并部分由 OpenAI 的 ChatGPT 提供技术支持,为用户提供对话式体验。(阅读全文:PRNewsWire)
- 在线音乐采样素材网站 Splice 推出 AI 音乐工具 Splice Create,使用 AI 智能搜索其平台上超过190万个采样素材,并将其组合在一起,该功能可以免费使用,导出需付费。(阅读全文:RA.co)
6月27日
- 中国高校规模最大的云上智算平台——复旦大学智能计算平台CFFF(Computer for the Future at Fudan)“切问”一号、“近思”一号今天正式落成上线开放,该平台由复旦大学与阿里云、中国电信共同打造,以先进的公共云模式提供超千卡并行智能计算,支持千亿参数的大模型训练。(阅读全文:复旦发展研究院)
- 百度CTO王海峰表示,文心大模型3.5版本新增了插件机制,后续文心一言将发布更多优质的百度官方和第三方插件,并将逐步开放插件生态给第三方开发者。(新闻来源:36氪)
- 大数据巨头Databricks 宣布已签署最终协议,将以13亿美元的价格,收购位于旧金山的人工智能初创生成式AI公司MosaicML 。(阅读全文:品玩)
- MongoDB宣布将与谷歌云合作,加速开发者使用生成式AI并开发新型应用程序。开发人员可利用MongoDB Atlas以及与谷歌云Vertex AI大型语言模型(LLM)的整合优势,加快软件开发进程。(阅读全文:新浪科技)
- 谷歌日前结合生成式 AI,推出了一款反洗钱工具 AML AI,可以用来辨识金融行业的可疑洗钱行为,并生成符合行业规范的分析报告。(阅读全文:IT之家)
- 新闻网站评级工具NewsGuard发布2023年6月的错误信息监控结果,称141个品牌正在向低质量的人工智能(AI)生成的网站提供广告收入,来支持这些不可靠网站的发展。(阅读全文:澎湃新闻)
- 云数据库公司Snowflake宣布将与英伟达合作,为企业量身定制AI模型,高管们称这将保证专有数据的安全性,并披露了将与微软合作把生成式AI引入Snowflake的数据云平台。(阅读全文:MarketWatch)
- 香港电台旗下 AI 天气主播 Aida 正式登场,从 6 月 26 日起将在该台《香港电台天气简报》节目中报道当地与世界各地的天气情况。Aida 历时约 3 个月制作筹备,由 AI 虚拟头像技术制作。(阅读全文:IT之家)
6月26日
- 腾讯科技专访AI传奇记者凯德·梅茨,访谈中凯德表示行业没有护城河,中国会很快追上OpenAI,因为两者之间知识,资金和资源的整体差距不大。(阅读全文:腾讯科技)
- 李彦宏今日出席世界互联网大会数字文明尼山对话时透露,百度文心大模型已经迭代到到3.5版本。与3.0版本相比,训练速度提升了2倍,推理速度提升了17倍,模型效果累计提升超过50%,在数据质量、生成效果和内容安全性上,都明显提升。(新闻来源:36氪)
- 第五届全球人工智能产品应用博览会昨日在苏州开幕,本届全球智博会举办1场高规格开幕式暨主论坛,设置6大品牌展区,2场AI创新创业大赛,评出3大重磅奖项,发布20多个人工智能新产品。(阅读全文:现代快报)
- 职场社交平台 LinkedIn 早前推出了广告创建支持功能,允许广告商通过生成式 AI 快速生成营销文案。如今,该平台开始将生成式 AI 应用到了更大范围 —— 允许用户直接使用该技术发表帖文。(阅读全文:IT之家)
6月25日
- 根据Gartner的一项调查,只有8%的客户在最近的客户服务体验中使用了聊天机器人。其中只有25%的人表示他们将来会再次使用聊天机器人。(阅读全文:极客网)
- 据《读卖新闻》报道,日本文部科学省近日表示,已经针对以 ChatGPT 为代表的生成式 AI,起草了面向学校的指导方针,并将在听取专家意见后尽快发布。(阅读全文:IT之家)
6月24日
- Midjourney 推出 5.2 版本,此次更新包括改进美学风格、生成连贯性、文本理解、提示词分析、高变化模式、高分辨率模式、缩放扩展图像等。(阅读全文:机器之心)
- YouTube 目前正在测试一款新工具,可帮助创作者使用人工智能自动将视频配音成其他语言。由YouTube 与人工智能配音服务团队Aloud合作,该服务是 Google 内部孵化器 Area 120 的一部分。(阅读全文:The Verge)
- 在漫威新剧《秘密入侵》中,剧集的开头动画使用了最新的AI技术自动生成,虽然许多粉丝惊叹于片头的画面,但也有不少粉丝对此感到不满。(阅读全文:腾讯网)
- 亚马逊本周宣布,将投入 1 亿美元成立 AI 创新中心,协助企业客户及合作伙伴规划及部署 AI 技术。亚马逊希望通过这项技术推广其 AI 云服务,追赶微软及谷歌等业界对手的竞品,以扩大旗下 AWS 业务对于企业的吸引力。(阅读全文:IT之家)
6月23日
- Stability AI 日前发布新闻稿,宣布推出 SDXL 0.9 版本更新,升级了 Stable Diffusion 文本生成图片模型,生成的图片更加逼真、更有质感,可以正确生成人类五指。(阅读全文:Stability AI Blog)
- Opera 公司宣布向安卓版和桌面版 Opera 浏览器用户,正式开放 Aria AI。Aria 是一项集成到 Opera One 桌面浏览器及其 Android 浏览器测试版中的人工智能服务。(阅读全文:Opera Press Release)
- 披头士乐队成员保罗·麦卡特尼最新回应了利用人工智能来创作披头士乐队的新歌曲,并表示“没有任何东西是人工或合成创造的”,但依然未透露这首歌的标题或任何歌词。(新闻来源:The Guardian)
- 全英草地网球俱乐部和 IBM 近日宣布,即将在 7 月 3 日到 7 月 16 日开打的世界网球四大公开赛之一的温布顿(Wimbledon)网球锦标赛,将采用以 AI 技术提供球评及球员赢球几率预测分析。(阅读全文:IT之家)
- 根据招聘求职网站 Indeed 公布的最新数据,今年 5 月美国生成式 AI 相关的职位数量环比增加了 20%,表明越来越多的美国企业希望搭上风口,布局或者利用该技术,推动企业发展。(阅读全文:IT之家)
6月22日
- 微软宣布在量子计算领域取得了「里程碑」进展,并公布了微软量子超级计算机的路线图。微软高级量子开发副总裁称,预计将会在 10 年内完成量子超级计算机的构建。(阅读全文:爱范儿)
- 据媒体报道,聊天机器人ChatGPT开发公司OpenAI对欧盟官员进行了游说,旨在影响即将出台的《人工智能法案》,并且取得了成功。(阅读全文:腾讯科技)
- Figma宣布收购AI设计初创公司Diagram,Figma产品设计副总裁分享了他关于人工智能如何影响设计的看法,并表示人工智能一直是Figma比较关注的领域。(阅读全文:Figma Blog)
- Dropbox推出两款AI工具,一个名为Dropbox AI,可帮助用户智能总结和查询文档内容;一个名为Dropbox Dash,由人工智能驱动的通用搜索工具。(阅读全文:The Verge)
- Databricks 日前推出了 Lakehouse Apps,是利用该公司推出的一系列模型,打包而成的原生软件的总称。该公司同时推出了“人工智能模型共享机制”,即官方及第三方开源一系列模型,用户可以快速将这些模型部署在 Lakehouse App 及自己的内容中。(阅读全文:IT之家)
6月21日
- 微软近日对 Bing Chat 进行更新,加入了语音输入功能。该功能允许用户使用语音输入来进行对话,目前支持普通话、英语、日语、法语和德语。微软表示,日后还将会加入更多新的语言种类。(阅读全文:品玩)
- 《科创板日报》记者独家获悉,蚂蚁集团的技术研发团队正在自研语言和多模态大模型,内部命名为“贞仪”。(新闻来源:科创板日报)
- OpenAI正在考虑为人工智能软件创建一个应用程序商店,供客户向企业出售定制的AI模型。(阅读全文:IT之家)
- 据 Gizmodo 报道,DeepMind 的联合创始人Mustafa Suleyman近日表示,他在新书中提出了一种全新的测试方法,来评判人工智能是否具备人类的智能水平。(阅读全文:Gizmodo)
- 京东官方今日宣布,“2023 京东全球科技探索者大会暨京东云峰会”将于 7 月 13 日在北京举办。据介绍,本次大会以 “跨越・产业智能”为主题,聚焦大模型与产业深度融合,将发布京东大模型,推出新一代数字基础设施,升级产品及解决方案。(阅读全文:京东科技公众号)
- Snap CEO近日表示,自推出以来,约有1.5亿用户使用了Snapchat的聊天机器人My AI,向其发送了超过100亿条信息。(阅读全文:界面新闻)
- 一份来自 Group IB 的调查报告显示,超过10万名 ChatGPT 的用户信息被黑客窃取并出售。报告中指出亚太地区的信息最多。按照地区划分,亚太地区为 40999 条;中东和非洲地区为 24925 条;欧洲为 16951 条。(阅读全文:品玩)
-
AI快讯:6月第2期(6月11日到6月20日的AI行业新闻)
AI工具集采用每月3期的版面集合,每日更新AI行业的最新快讯,本期为6月第2期(6月11日到6月20日)的AI行业新闻集合。
6月20日
- 国家网信办发布境内深度合成服务算法备案信息,《互联网信息服务深度合成管理规定》第十九条明确规定,具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。(阅读全文:IT之家)
- 在今日的长虹人工智能大模型电视发布会上,长虹电视 AI 大模型“长虹超脑”正式发布。据介绍,长虹超脑具备感知、理解、创造三大核心能力,可与用户进行自然而连续的对话,还能根据用户的个性化需求进行内容创造和服务。(阅读全文:长虹电视公众号)
- 据 Tech 星球报道,近日,快手旗下的视频剪辑类产品“快影”和功能拍摄类产品“一甜相机”,已于近期陆续内测包括“AI 动漫视频”、“AI 文案推荐”、“AI 瞬息宇宙” 、“AI 简笔画“在内的多款 AIGC 创作功能。(阅读全文:Tech星球百家号)
- 瑞典家居巨头宜家旗下研究和设计实验室 SPACE10 近日推出了由 AI 设计的下一代沙发,旨在引入环保、便携理念,改变人们对传统沙发的认知。(阅读全文:品玩)
- 根据市场调查机构 Resume Builder 本月初公布的报告,2024 年有 43% 的企业招聘将引入人工智能,简化招聘流程、提高面试效率。(阅读全文:IT之家)
- 自动驾驶公司图森成功完成中国首次自动驾驶重卡在公开道路的全无人化测试,全程无安全员值守和任何人为干预。此次全无人化测试区域包括深水港物流园、东海大桥等自动驾驶公开测试道路,路线全程约62公里。(阅读全文:量子位)
- 电影级数字特效设计公司良胜数字发布了首位基于 NVIDIA Omniverse创作的AI智慧生命体AINIA。良胜数字将AINIA定位为超级歌星,已经掌握了超过100名历史著名歌星的演唱技巧,拥有数万首歌曲库,未来还将做到自己作词和编曲。(阅读全文:36氪)
6月19日
- 在昨日举办的美图影像节上,美图发布了自己的“AI全家桶”:视觉大模型MiracleVision,以及多款AI应用——图片生成(WHEE)、口播视频制作(开拍)、视频编辑(WinkStudio)、商业设计(美图设计室2.0,海外版X-Design)以及数字人生成(DreamAvatar)。(阅读全文:36氪)
- 在今日举办的腾讯云行业大模型及智能应用技术峰会上,腾讯云披露行业大模型方案进展,并公布MaaS(Model-as-a-Service)能力全景图,腾讯会议即将推出覆盖会议全流程的AI小助手。(阅读全文:腾讯网)
- 微软亚洲研究院(MSRA)回应表示,微软将在加拿大温哥华建立一个新的实验室,确认将包含微软在中国的 AI 研究专家到新实验室当中。同时,MSRA否认其将撤离中国。(阅读全文:钛媒体)
- 英国政府宣布,科技创业者伊恩·霍加斯将领导新的AI特别工作组,研究人工智能带来的安全风险。今年4月,英国政府承诺投入1亿英镑,成立特别工作组。该工作组将研究人工智能周边的风险,并开展安全研究。(阅读全文:新浪财经)
- 在加拿大温哥华昨日举行的全球最大计算机视觉会议 CVPR 2023 上,LG 人工智能研究所公开了该公司首个生成式 AI 商业化服务 Captioning AI,为需要管理大量图片的客户提供了更高效的解决方案。(阅读全文:IT之家)
- 通用大模型初创企业北京生数科技有限公司宣布完成近亿元人民币的天使轮融资,本轮融资由蚂蚁集团领投,BV百度风投、卓源资本跟投,目前估值已达1亿美金。(阅读全文:每日经济新闻)
- AI+云工业软件企业「三维家」完成D轮数亿元融资,投资方为国科投资、汇川科技,投后估值将达近6亿美元。(阅读全文:36氪)
6月18日
- 普林斯顿大学的研究人员在论文中介绍了一个自然世界的逼真3D场景程序生成器「Infinigen」。Infinigen完全是程序化的,从形状到纹理,都是通过随机的数学规则从头开始生成,可以轻松定制、模拟和生成各种特定任务的真实情况。(阅读全文:网易新闻)
- 在昨日的理想家庭科技日发布会上,理想汽车称将采用大模型算法,自研认知大模型 Mind GPT,并将AI技术引入到车机「理想同学」中。(阅读全文:腾讯新闻)
- 兴证全球日前宣布,旗下AI交易员正式上线,成为首家将AI技术应用于资金交易领域的基金公司。兴业基金也官宣,自研开发“兴小二”AI债券交易机器人,兴业基金也由此成为在外汇交易中心iDeal平台首家上线智能询价机器人的公募基金公司。(阅读全文:澎湃新闻)
- “超现实:AI达利+探梦达利”沉浸艺术大展昨日在上海喜玛拉雅美术馆开幕,本次大展将艺术家达利的思维方式与AI技术进行融合,将达利艺术中的符号与表现手法,通过人工智能技术重现。(阅读全文:上证报中国证券网)
- 美国最大的报业集团 Gannett 计划在其发布新闻的系统中引入生成式人工智能,以节省成本和提高效率。但该集团表示会让人类编辑参与,以防止人工智能在没有监督的情况下自动发布。(阅读全文:IT之家)
6月17日
- 美国唱片学院(The Recording Academy)宣布正修订格莱美奖规则,明确表示格莱美奖所有类目,均不收纳完全由非人类创作者创作的作品,只有“人类创作者”的作品才有资格获奖。(阅读全文:IT之家)
- Meta 推出语音生成大模型产品 Voicebox,可以合成英语、法语、德语、西班牙语等六种不同语言的语音,除了可以根据文本生成语音内容外,还可以进行去噪、内容修改,风格转换等任务。(阅读全文:澎湃新闻)
- 马斯克在参加法国巴黎“科技万岁”科技创新展时称,人工智能作为“有史以来最具颠覆性的技术”可能会产生积极结果,但是“对公众肯定存在风险”,这项技术应该受到监管。(阅读全文:上观新闻)
6月16日
- 中国科学院自动化研究所今天上午在上海发布了该所研制的新一代人工智能大模型——紫东太初2.0。全新大模型相比第一代着力提升了决策与判断能力,实现了从感知、认知到决策的跨越,未来将在医疗、交通、工业生产等领域发挥更大作用。(阅读全文:澎湃新闻)
- 微信视频号发布关于创作者规范使用深度合成技术生成内容的建议,要求对使用虚拟现实、深度合成技术等生成或合成的非真实的音视频内容进行显著标识。(阅读全文:微信视频创作安全中心)
- Meta 的首席人工智能科学家、图灵奖获得者——杨立昆(Yann LeCun)昨日在巴黎举行的 Viva Tech 会议上表示,AI 目前的智力水平连狗都不如,不应将其视作对人类的威胁。(阅读全文:IT之家)
- “人工智能框架生态峰会2023”在上海召开,峰会期间《共建人工智能框架生态倡议》发布、上海昇思AI框架&大模型创新中心启动及首批伙伴入驻、昇思社区理事会成立。(阅读全文:极客网)
- 梅赛德斯-奔驰和微软周四宣布,两家公司正在合作测试车载ChatGPT,可用于美国90多万辆汽车。该技术将通过车载语音命令“Hey Mercedes”使用,预期将极大地扩展系统的功能。(阅读全文:智通财经)
- 昆仑万维昨日宣布,控股子公司Star Group拟发行股份,收购Singularity AI全部股权,交易对价约11亿元。Singularity AI背后,即是开发出中国版类 ChatGPT 「天工」的奇点智源。(阅读全文:36氪)
- 联合国工业发展组织宣布将在7月份与华为等国际企业成立全球工业和制造业人工智能联盟,致力于构建共同协作、知识共享的平台,推动人工智能技术在工业与制造领域的创新和应用,促进数字经济发展。(阅读全文:华为官网)
6月15日
- 小冰公司与网易云音乐宣布达成战略合作,双方联合推出的AI歌手音乐创作软件“网易云音乐·X Studio”已正式上线,面向广大音乐人和音乐爱好者免费使用。(阅读全文:AI小冰公众号)
- 原搜狗CEO王小川组建的「百川智能」今日正式推出70亿参数中英文预训练大模型——baichuan-7B,已在Hugging Face、GitHub、魔搭等平台发布,并拿下多个评测榜单最佳成绩。(阅读全文:新智元)
- 科大讯飞宣布,星火认知大模型 iOS 内测版本目前已经正式上线苹果 iOS 平台。目前使用该 App 需要具有“内测资格”,需要在讯飞官网提交申请,审核通过后方可参与内测,登录使用。(阅读全文:科大讯飞公众号)
- 在线代码托管平台 GitHub 近日对员工规模超过 1000 人的美国企业展开调查,问卷调查了 500 名企业开发人员,结果显示 92% 的程序员正在使用各种 AI 工具,70% 的程序员认为 AI 工具的引入,明显改善了工作效率。(阅读全文:IT之家)
- 中国石化与百度签署战略合作框架协议,具体合作内容包括行业人工智能基础设施建设,互联网+新业态,数字化转型升级与大模型等新技术创新。双方还将在供应链、汽车、保险、生活等服务板块开展合作,探索利用AIGC、数字人等技术,助力打造中国石化智慧传媒平台。(阅读全文:光明网)
- 谷歌母公司 Alphabet 已建议员工不要将其机密材料输入给 AI 聊天机器人,同时该公司还提醒 IT 工程师避免直接使用聊天机器人生成的计算机代码。(阅读全文:IT之家)
- 咨询机构麦肯锡的一份名为《生成式人工智能的经济潜力》的报告显示,到 2045 年左右,将有 50% 工作被 AI 接管。(阅读全文:IT之家)
- 长虹电视今日宣布,旗下部分产品将搭载“长虹超脑”人工智能系统,面向用户正式公测。本月 20 日,长虹将在线举行行业首家人工智能大模型电视发布会,介绍“长虹超脑”产品并进行演示体验。(阅读全文:长虹电视公众号)
6月14日
- OpenAI 今日宣布对其大型语言模型 API(包括 GPT-4 和 gpt-3.5-turbo)进行重大更新,包括新增函数调用功能、降低使用成本、以及为 gpt-3.5-turbo 模型提供 16000 个 token 的版本。(阅读全文:量子位)
- 近日,微软针对 AI 初学者推出了一套入门课程「AI for Beginners」,而且全部免费。一共包含 24 节课程,除了为每个主题绘制「知识要点漫画」外,还包括非常丰富多样的测验和实践项目,确保学习者有机会进行实践。(课程地址:AI for Beginners)
- 知名无代码网站设计和发布平台 Framer 最新推出 Framer AI 功能,用户只需输入文本描述,便可以自动设计、排版、生成、发布上线高颜值的响应式网站页面。(阅读全文:Framer Updates: Start with AI)
- 在线文档协作平台 Coda (Notion的竞争对手之一)正式上线 Coda AI,类似于 Notion AI,该 AI 助手可以帮助用户起草文章内容、生成表格、查找信息、应用数据、会议纪要总结等。(网站地址:Coda AI)
- 根据编程问答网站 Stack Overflow 公布的最新开发者问卷调查报告,虽然程序员对各种 AI 驱动的工具准确性持怀疑态度,但并不妨碍在开发过程中使用 ChatGPT 等工具,70% 的受访者表示今年已在使用 AI 工具编程。(阅读全文:IT之家)
- 披头士乐队的成员保罗·麦卡特尼称,他正在使用人工智能制作披头士的最终歌曲,这首未命名的歌曲预计将于今年晚些时候发布,约翰·列侬将在AI的帮助下演唱。(新闻来源:NBC News)
- 据《华尔街日报》报道,微软在使用未发布的 GPT-4 模型为必应提供聊天功能之前,没有听取 OpenAI 的警告,导致聊天机器人出现了不准确和不可预测的回答。(阅读全文:IT之家)
- AI数字人视频生成平台 Synthesia 在最新的一轮融资中获得了约9000万美元,由Accel领投,英伟达也加入了融资,使其估值达到10亿美元,正式晋升为“独角兽”企业。(阅读全文:财联社)
- Meta最新开源一个名为I-JEPA的AI模型,该模型可以使用有关真实世界的背景知识来填充缺失的图像片段,比现有的图像模型更准确地分析和补全不完整的图像。(新闻来源:路透社)
- 微软研究人员团队近期推出了 Orca,一个 130 亿参数模型,可以从 GPT-4 中学习复杂的解释轨迹和逐步思考过程。该方法显著提高了现有最先进的指令调优模型的性能,解决了与任务多样性、查询复杂性和数据扩展相关的挑战。(阅读全文:MarkTechPost)
6月13日
- 微软新版 Bing 抢先 ChatGPT 支持 GPT-4 多模态的识图功能,不仅能看懂梗图、写网页,还能「看病」,该功能目前还只是少部分用户才可以使用的测试性功能,后续可能会陆续全面开放。(阅读全文:爱范儿)
- 作为最权威的科学期刊之一,Nature(《自然》杂志)近日明确表态:禁止使用生成式人工智能(AIGC)创作的图像和视频内容!这也就意味着,除了主题是讨论AI的文章,任何Nature接收的作品须确保无任何AIGC生成或增强的视觉内容。(阅读全文:量子位)
- 掌阅科技宣布首款 AI 产品“阅爱聊”封闭内测,这是国内阅读行业第一款对话式 AI 应用,支持角色和读书双重模式,用户既可以从书中找到一个角色对话,也可以从一个角色中找到一本书阅读。(阅读全文:IT之家)
- 360 正式发布 AI 新产品 360智脑大模型,该大模型为 360 的自研千亿参数大模型,已具备跨模态生成能力,拥有文字、图像、语音、视频处理四大能力,可以应用于文生图、图生图、文生视频等场景。(阅读全文:ZAKER新闻)
- Salesforce推出AI Cloud套件,将生成式AI引入其旗下的多款产品,包括其协作办公应用程序Slack、数据分析软件Tableau、自动化流程工具Flow等,共提供9种模型以满足客户的各种办公和销售需求。(新闻来源:BusinessWire)
- 在伦敦科技周的一次演讲中,英国首相 Rishi Sunak透露,谷歌 DeepMind、OpenAI 和 Anthropic 已承诺出于研究和安全的考虑,将向英国政府提供对人工智能模型的“早期或优先访问”。(新闻来源:Engadget)
- 据日本《产经新闻》报道,东京都知事小池百合子今日宣布,东京都所有的政府部门都将引入以 ChatGPT 为代表的生成式 AI,该计划将于 8 月起全面施行。(阅读全文:IT之家)
- 根据美国心理学会发表的研究,经常与人工智能系统互动的员工更容易感到孤独,这可能导致失眠和下班后饮酒增加。研究人员也发现,经常使用人工智能系统的员工更有可能为同事提供帮助,但这种反应可能是由他们的孤独感和社交需求引发的。(新闻来源:American Psychological Association)
6月12日
- 视觉中国旗下 vcg.com 宣布上线AI灵感绘图功能,即“根据提示词生成图片”。据称,用户可以通过 AI 灵感绘图功能生成“高质量、精美的图片内容”,从而获得更多的灵感创意。(阅读全文:IT之家)
- 在第25届上海国际电影节「科幻电影周」上,《流浪地球》的导演郭帆表示对以ChatGPT为代表的人工智能“焦虑了好长时间”,但也透露其团队目前在分类多个人工智能应用,以期将AI应用在创作之中。(阅读全文:中国经营报)
- OpenAI首席执行官山姆·奥特曼在首尔会见了SK Networks总裁Choi Sung-hwan,讨论了人工智能公司的投资合作。OpenAI正在评估开设韩国办事处的事宜。(报道来源:界面新闻)
- 彭博社报道称,法国总统马克龙9日私下会见法国数字技术部长等政要和包括谷歌母公司在内的科技企业的AI专家,筹划在法国建立人工智能监管机构。报道称,虽然会谈内容没有被公开,但人工智能应该是会议主题,马克龙意在与英国争夺人工智能立法监管主导权。(阅读全文:环球时报)
- 智星AI上线支持插件的AI认知模型和对话式AI,当前已接入7个插件,包括天气查询、Bing搜索、Wolfram等,可以快速提供实时天气信息,解答高等数学问题,进行深度金融分析等。(阅读全文:36氪)实际上,该AI助手是在OpenAI GPT的基础上进行了改进和优化,AI工具集实测其每日可提供10次免费的对话次数,感兴趣的朋友可以试试。
6月11日
- ChatGPT 人工智能聊天机器人可以与用户进行自然语言对话,回答各种问题,甚至讲笑话。但是最新的研究发现,ChatGPT 并不懂幽默,只会重复 25 个老梗,而且不能创造新的笑话内容。(阅读全文:IT之家)
- 新华三发布私域大模型 ——“百业灵犀”LinSeer,为垂直行业和专属地域的客户,提供安全、订制、独享、生长的智能化服务。该大模型打通垂直应用数据,形成精准、精确、精益的私域垂直智能,培养特定能力,但无法做到通用,类似于云计算中的私有云。(阅读全文:IT之家)
- 图灵奖得主、“深度学习之父”Geoffrey Hinton在智源大会的演讲中指出,他的研究使他相信,超级智能的到来比他想象中更接近,在此过程中,数字智能可能会追求更多控制权,甚至通过“欺骗”控制人类,人类社会也可能会因此面临更多问题。(阅读全文:每日经济新闻)