12 月 31 日·周二
智谱正式发布深度推理模型:GLM-Zero 的初代版本 GLM-Zero-Preview
智谱 AI 在 2024 年尾发布 GLM-Zero 推理模型,初代版本 GLM-Zero-Preview 已上线,基于 扩展强化学习技术,提升数理逻辑、代码处理和深度推理能力。模型在 AIME 2024、MATH500 和 LiveCodeBench 评测中表现优异,与 OpenAI-o1-Preview 相当。用户可在智谱清言-“Zero 推理模型”智能体免费使用,开发者可通过 API 调用体验。来源:AI 工具集
趣丸科技「天谱乐」开创 AI 音乐新纪元:全球首个多模态配乐大模型 趣丸科技推出的全球首个多模态配乐大模型“天谱乐”,支持文本、图片和视频生曲,能生成 高度匹配的 BGM 和 MV 效果。该技术在中文人声唱词上达到专业级效果,减少了电音感, 接近音乐发行级别。“天谱乐”已接入唱鸭 App,累计创作近 1000 万首 AI 歌曲。来源:AI 工 具集
可灵 AI API 新增【虚拟试穿 V1.5】和【对口型】
快手可灵 AI(Kling)宣布 API 能力升级,推出虚拟试穿 V1.5 模型,支持单件及组合服装输 入,能生成试衣视频。同时,新增对口型功能,可实现视频中人物口型与配音同步,提升视 频真实感。这些升级将为电商、广告营销和泛娱乐行业带来新机遇,推动业务增长。来源: 可灵 AI
OpenAI 公布 2025 年将发布的技术产品:AGI、Agents、GPT-4o 升级版
OpenAI 首席执行官 Sam Altman 宣布,到 2025 年将发布包括 AGI(通用人工智能)、智能 体 Agents、GPT-4o 升级版在内的多项技术产品,以及其他改进,如更好的记忆存储、上下 文窗口、成人模式、深度研究特色功能、Sora 和个性化定制。来源:第一财经
大模型的 2024 年:我们对 AI 的发展脱敏了
2024 年 AI 领域发展迅速,大模型更实用但不再惊艳,端侧模型和混合专家技术(MoE)降 低成本,多模态研究成新方向。AI 搜索、语音交互、视频技术商业化挑战中前行,AI Agent 开发门槛降低。AI 硬件百花齐放,AI 眼镜异军突起。AI 游戏从辅助工具成为游戏一部分。 中国 AI 人才梯队规模质量仅次于美国,期待在 AI 浪潮中领先。来源:新硅 NewGeek
黑芝麻智能发布华山 A2000 家族芯片平台,打造全场景通识智驾标杆
黑芝麻智能发布华山 A2000 家族芯片平台,针对下一代 AI 模型设计,提供高算力、高性能, 支持全场景通识智驾。A2000 家族包括 A2000 Lite、A2000 和 A2000 Pro,满足不同自动驾 驶需求。集成领先 CPU、DSP、GPU 等,算力是主流旗舰芯片的 4 倍,原生支持 Transformer 模型,推动智能驾驶技术发展。来源:黑芝麻智能
12 月 30 日·周一
讯飞医疗成功上市,成为医疗大模型第一股! 讯飞医疗科技股份有限公司(股票代码:02506.HK)于 2024 年 12 月 30 日在香港联交所主 板成功上市,标志着医疗大模型领域的第一股诞生。作为中国医疗人工智能行业的领导者, 讯飞医疗在基层医疗服务、医院服务、患者服务和智慧影像等方面均取得显著成就,致力于 让医疗服务更便捷,为人类健康未来奋斗。来源:科大讯飞
支付宝「探一下」新一代 AI 视觉搜索产品,满足你的好奇心 支付宝推出新功能“探一下”,基于自研的多模态大模型技术,能够“用 AI 之眼探索万物”,提 供快速、有用、趣味的生成式搜索服务。“探一下”提供三种核心服务:探知识、探灵感、探 文本。可以根据自己的需求选择相应的服务,满足用户的好奇心。通过支付宝“扫一扫”界面 或支小宝 App 中访问。来源:支付宝
智元机器人开源 AgiBot World 百万真机数据集,大幅超越谷歌 Open X-Embodiment
智 元 机 器 人 宣 布 开 源 全 球 首 个 百 万 真 机 数 据 集 AgiBot World , 超 越 谷 歌 Open X-Embodiment。该数据集基于全域真实场景、全能硬件平台、全程质量把控,覆盖家居、餐 饮、工业等五大核心场景,包含 80 多种技能视频。来源:AI 工具集
PixVerse V3.5 正式上线,模型全面升级,10 秒极速生成
爱诗科技宣布 PixVerse V3.5 版本正式上线,新版本在 Turbo 模式下 10 秒内即可生成高质量 视频,保持行业领先的语义理解和细节表现力。动漫生成效果显著提升,支持通过文生视频 描述特定风格或上传图片生成动漫效果。新增首尾帧功能,激发创作灵感。来源:爱诗科技 AIsphere
拓元智慧完成近亿元 Pre-A 轮融资,将聚焦多模态大模型与具身智能技术
拓元智慧(X-Era AI)宣布完成近亿元人民币的 Pre-A 轮融资,由粤科金融集团、鹏城愿景 基金等投资。资金将用于加速多模态大模型和具身智能技术的研发。公司成立三年,累计营 收近亿元,核心团队来自国内外高校和知名企业,已在无人零售、文教创作等领域实现技术 深度应用。来源:钛媒体
OpenAI 裂变成了两块:一块营利,一块非营利
OpenAI 近日宣布公司重组,分为营利和非营利两部分,确保通用人工智能(AGI)造福全人 类。重组旨在选择最适合长期成功的组织结构,使非营利组织可持续发展,让各部分有效运 作。OpenAI 计划将营利性公司转变为特拉华州公共利益公司(PBC),并发行普通股。PBC 的公共利益将是 OpenAI 的使命。来源:机器之心
12 月 27 日·周五
“理想同学”上架苹果 App Store:支持知识问答、看世界等功能 理想汽车推出的人工智能应用“理想同学”已上架苹果 App Store,版本 1.0.0。应用依托自研 大模型,具备知识问答、视觉感知能力,能解答汽车、财经、科技等领域问题,支持英文翻 译、文本生成。界面简洁,语音输入精准,输出自然流畅。来源:AI 工具集
可图 1.5 图像模型来啦!全新「AI 模特」功能上线
快手可灵 AI(Kling)团队发布可图 1.5 图像模型,模型在画面质量和美感上大幅提升。AI 试 衣新增“AI 模特”功能,借助可灵 1.6 图生视频能力,用户只需输入文本描述即可生成模特动 态展示服装。可灵 1.5 模型支持尾帧生成。对口型功能新增 10 款高品质音色,支持选择音 色情感,增强视频内容的情感表达。来源:可灵 AI
首个重症医疗大模型来了,腾讯 X 迈瑞发布“启元重症大模型”,已在 ICU 病房上班 腾讯与迈瑞医疗合作开发的全球首个重症医疗大模型“启元重症大模型”已在 ICU 病房投入 使用。模型能实时监测患者生命体征,5 秒内总结病情,提供诊疗建议,准确率高达 95%。 能自动生成规范病历,将医生病历编写时间从半小时缩短至一分钟。来源:腾讯
火山引擎×联想,为 AI 桌面助手“如意”植入豆包大模型,“智” 敬 PC 新时代 联想与火山引擎合作,推出全新升级的 AI 桌面助手“如意”(AI Stick),植入豆包大模型,提 供 AI 搜索、AI 写作、AI 聊天三大功能,全面提升 PC 用户体验。如意能精准理解用户需求, 提供多领域知识解答,实现智能对话式交互,增强 PC 智能体验。来源:火山引擎
联想新一代智能体系统 “天禧 AS”发布,明年 Q2 落地 AI PC、AI 手机、AI 平板等 联想在 2024 天禧生态伙伴大会上发布了新一代智能体系统“天禧个人智能体系统(天禧 AS)”,计划于 2025 年第二季度应用于 AI PC、AI 手机、AI 平板等终端。天禧 AS 运行在传 统操作系统之上,具备跨端运行能力,能实现端侧和个人云混合部署,提供个性化 AI 助理 服务。来源:IT 之家
12 月 26 日·周四
国货之光 DeepSeek V3 横空出世,多语言编程能力全面超越 Claude
幻方量化旗下人工智能公司深度求索(DeepSeek)开源的最新版 AI 模型 DeepSeek V3,拥 有 685B 参数和 256 个专家的 MoE 架构,在 aider 多语言编程测评中超越 Claude 3.5 Sonnet, 夺得第二名。成功率从 V2.5 的 17%提升至 48%,编辑格式正确率高达 98.7%。DeepSeek V3 现已开源,提供代码编写、Bug 修复等多种编程能力。来源:AI 工具集
智谱 AI 开源 GLM-PC 基座模型 CogAgent-9B,推动 GUI 交互自动化技术
智谱 AI 宣布开源 GLM-PC 基座模型 CogAgent-9B,是基于 GLM-4V-9B 训练的专用 Agent 任务模型,能仅通过屏幕截图预测 GUI 操作。CogAgent-9B 在 GUI 感知、推理预测准确性 等方面显著提升,支持中英文双语交互。来源:GLM 大模型
阶跃星辰图像生成模型全新升级:支持「图生图」,一键风格迁移! 阶跃星辰宣布其图像生成模型 Step-1X 系列的全新升级版本 Step-1X-Medium,性能提升 30%,增强了理解能力和图文一致性,支持“图生图”功能,实现细节增强、风格迁移和小范围 局部修改。特别强化了“中国风”内容创作能力,能捕捉东方面孔神韵,支持英文文案生成。 来源:阶跃星辰
腾讯推出 DRT-o1 系列 AI 模型:长链思考推理实现文学翻译“信达雅”
腾讯研究院推出 DRT-o1 系列 AI 模型,通过长链思考推理技术,提升文学作品翻译质量, 尤其是在理解比喻和隐喻方面。模型采用多智能体框架,包括翻译员、顾问和评估员角色, 通过迭代优化翻译结果。实验显示,DRT-o1 在 BLEU 和 CometScore 等指标上超越其他模 型。来源:AI 工具集
通义从阿里云分拆,并入阿里智能信息事业群,与 “夸克”平级
阿里巴巴旗下的 AI 应用通义从阿里云分拆,加入智能信息事业群,正式转向 C 端市场。通 义系列由达摩院研发,是阿里 AI 领域的拳头产品。此次调整意味着通义将与 Kimi、豆包等 AI 助手竞争,面临缩小与第一梯队差距的挑战。来源:光子星球
小米正搭建 GPU 万卡集群,将对 AI 大模型大力投入
小米正在搭建 GPU 万卡集群,对 AI 大模型进行大力投入。该计划已实施数月,小米大模型 团队成立时已拥有 6500 张 GPU 资源。DeepSeek-V2 的关键开发者之一罗福莉,将加入小 米。小米大模型技术主攻轻量化和本地部署,已在手机端实现 13 亿参数级别的大模型,效
果接近云端 60 亿参数模型。来源:财联社
科大讯飞连续中标 7 大 AI 项目,两个月内狂揽 11 亿大单 科大讯飞旗下讯飞智元中标山东泰安市肥城人工智能行业大模型应用基地项目,投标金额约 1.59 亿元。项目内容包括智算中心基础设施建设,涉及基建、硬件平台和基础配套软件等。
科大讯飞近期已连续中标 7 大项目,总金额近 11 亿元。来源:智东西
12 月 25 日·周三
Qwen 开源视觉推理模型 QVQ,像物理学家一样更睿智地看世界!
Qwen 团队发布开源多模态推理模型 QVQ,基于 Qwen2-VL-72B 构建,提升 AI 的视觉理解 和复杂问题解决能力。QVQ 在 MMMU 评测中得分 70.3,显著优于 Qwen2-VL-72B-Instruct, 在数学相关基准测试中表现突出。模型虽有语言混合、递归推理等局限性,但已在视觉推理 任务中展现增强能力。来源:魔搭 ModelScope 社区
IBM 发布新语言模型 Granite 3.1,性能、上下文能力增强
IBM 发布大语言模型新版本 Granite 3.1,相较于 3.0 版本,Granite 3.1 采用了更密集的架构, 能处理多达 128,000 个令牌,显著提升了处理复杂文本的能力。版本包含 8B 和 2B 两种规 模模型,均能检测工作流程中的幻觉,提供与 RAG 相同的责任和信任。IBM 计划在未来几 个月继续推出 Granite 3 系列的更新,预计在 2025 年第一季度加入多模式功能。来源:AI工具集
“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法
OpenAI 研究人员提出“深思熟虑的对齐”新方法,旨在提升 AI 模型安全性。该方法通过直接 教授模型安全规范,并训练其在生成响应前推理这些准则,将安全原则融入推理过程中。分 为监督微调和强化学习两个阶段,使用模型生成的数据和思维链推理,降低资源需求。o1 模 型部署此技术后,在 StrongREJECT 基准测试中得分 0.88,显著高于 GPT-4o 的 0.37,同时 减少了误拒,准确率高达 93%。来源:IT 之家
2025 AI Agent 剑指何方?两份前沿报告描绘全景地图
2024 年,AI Agent 成为热门概念,被视为大模型应用落地的最佳形式。LangChain 和 Langbase 的报告显示,51%的受访者已在生产中采用 AI Agent,78%计划近期引入。中型企业最积极, 非科技公司与科技公司部署 AI Agent 的比例相当。OpenAI 和谷歌是最受欢迎的大模型提供 商。准确性是选择 AI Agent 的首要因素,其次是安全性和可定制性。AI Agent 在研究总结、 个人生产力工具和客户服务等领域被广泛采用。性能质量是生产中采用 AI Agent 的主要顾 虑。来源:钛媒体
做出 AI 科学家的 Sakana AI 又放大招,大模型自动搜索人工生命系统
Sakana AI 公司开发了搜索人工生命的系统 ASAL,通过基础模型自动化搜索人工生命模拟, 探索可能存在的“生命”。ASAL 展示了在多种人工生命基质中发现新生命形式的能力,为人 工生命研究提供了新范式,加速了对涌现、进化和智能的理解,有望启发下一代 AI 系统的 发展。来源:机器之心
杭州 CPU 黑马宣布数亿元融资,在研服务器 AI CPU 芯片
国产 CPU 创企进迭时空完成数亿元人民币 A+轮融资,由香港 Brizan III 期基金领投,资金 将用于高性能 RISC-V AI CPU 和服务器 AI CPU 产品的研发及市场拓展。公司总部位于杭州, 专注于构建面向大模型时代的原生计算平台,助力 AI 计算机和机器人等新应用发展。进迭 时空已布局全栈计算技术,形成软硬全栈计算系统解决方案,推动 RISC-V 高性能计算芯片 规模化进入行业市场,应用于电力、电信、工业等领域。来源:芯东西
AI 视频创企智象未来又拿新融资,数亿元!
AI 视频生成公司智象未来(HiDream.ai)完成数亿元人民币 A 轮融资,由合肥产投领投,安 徽省人工智能母基金和湖北省长江电影集团等参与。智象未来由加拿大工程院外籍院士梅涛 博士创立,专注于视觉多模态基础模型及创新应用。公司自研的“智象大模型”支持文本、图 像、视频、3D 互生,提供分钟级营销视频生成服务,累计 AIGC 内容生成量破千万,服务超 3 万家企业。来源:智东西
星火浏览器插件新升级!能读会答、能翻译会总结 讯飞星火浏览器插件新升级,集成了讯飞星火 V4.0 底层能力,支持 Chrome、Edge 等主流 浏览器。新增功能包括“继续提问”以深入讨论获取答案、网页全局对照翻译、一键朗读以及 句子段落总结,提升阅读效率。插件以 6M+极小内存运行,提供 AI 搜索、网页总结、划词 收藏等功能,旨在让网页阅读与信息搜索更轻松高效。来源:讯飞开放平台
Freed AI,AI 病历助手,创立 1 年多,1 万付费医生,1000 万美金 ARR
Freed AI 是一家成立一年多的 AI 病历助手公司,已获得 1 万付费医生用户,实现 1000 万美 金年度经常性收入(ARR)。公司的 AI 转录系统通过记录患者就诊讨论内容,识别关键术语 并创建结构化的病历记录,帮助医生减少 73%的文档工作时间。Freed AI 的愿景是打造全球 顶尖的 AI 医疗助手。来源:Z Potentials
12 月 24 日·周二
马斯克 xAI 获 60 亿美元新融资,和特斯拉和 SpaceX 大搞 AI 生态
马斯克的 xAI 公司宣布完成 60 亿美元 C 轮融资,主要投资方包括 A16Z、Blackrock、富达管理研究公司等。英伟达和 AMD 作为战略投资者继续支持 xAI 基础设施扩展。资金将用于加 速基础设施建设、推出数十亿人使用的突破性产品和技术研发,实现公司使命。xAI 的新一 代旗舰模型 Grok 3 正在训练中,将推出利用 Grok、Colossus 和 X 改变人类生活、工作和娱 乐方式的新产品。来源:X.ai
「像素绽放 PixelBloom」完成国家队 B2 轮融资,打造全球 AI 办公软件超级工场
AIGC 科技企业“像素绽放 PixelBloom”完成 B2 轮融资,由北京市人工智能产业投资基金领投。 融资将用于产品研发和市场拓展,旨在打造全球 AI 办公软件超级工场。旗下 AiPPT.com 等 产品,通过 AI 辅助 PPT 制作,已在全球积累超 1000 万用户。公司从单一产品向平台化战 略转变,构建 AI 办公软件生态,推动行业发展。来源:36 氪 Pro
Hume AI 宣布推出新一代语音语言模型 OCTAVE,能检测微妙的情绪线索
Hume AI 推出新一代语音语言模型 OCTAVE,模型融合了语言准确性和情感理解。OCTAVE 结合了 Hume AI 的 EVI 2 语音语言模型、OpenAI 的语音引擎、ElevenLab 的 TTS 语音设计 和 Google DeepMind 的 NotebookLM 等功能,旨在提升 AI 交互的真实性和丰富性。模型采 用多模态神经架构,经过超过一百万个情感语音样本的训练,能够识别微妙情绪线索。来源: AI 工具集
12 月 23 日·周一
上海国资和腾讯联手投资,“大模型六虎”阶跃星辰获数亿美元 B 轮融资
AI 大模型独角兽阶跃星辰完成数亿美元 B 轮融资,投资方包括上海国有资本投资有限公司、 腾讯投资等。本轮融资将用于基础模型研发,强化多模态和复杂推理能力,扩大 C 端应用场 景。公司由微软前全球副总裁姜大昕博士领导,致力于实现 AGI,已发布多款自研基座模型, 并与多家企业达成合作。来源:钛媒体 AGI
OpenAI 最强推理模型 o3 发布!AGI 测试能力暴涨,最难数学测试分数碾压同行
OpenAI 在第 12 天发布会直播上推出最强推理模型 o3,宣称接近通用人工智能(AGI)。o3 在 ARC-AGI 测试中得分 87.5%,远超 GPT-3 和 GPT-4o。o3 有完整版和 mini 版,mini 版将 于 1 月底推出。o3 在编程竞赛 Codeforces 中得分 2727,数学基准测试 AIME 2024 中准确 率达 96.7%。OpenAI 将与 ARC-AGI 基金会合作构建下一个基准测试。来源:AI 工具集
小红书推出 AI 搜索产品:点点,主打生活服务场景
小红书近期推出一款名为“点点”的 AI 搜索产品,主打生活场景搜索,已在各大应用商店上 线。核心功能包括自动定位推送旅游攻略、美食景点问题,AI 总结全网信息,以及提供视频 回复。小红书还在搜索栏中测试“问点点”功能,进一步整合 AI 搜索能力。来源:AI 工具集
12 月 20 日·周五
谷歌通用推理模型登场:思考速度比所有模型快 5 倍,能解摩斯代码,数学物理秒解决 谷歌发布“Gemini 2.0 Flash Thinking”AI 推理模型,模型以极快的速度解决复杂问题并展示思 考过程。在数学、代码、指令跟随等多个领域表现卓越,排名第一。模型目前支持 32k 上下 文窗口,不联网,未来将提供更长 token 和更多工具支持。模型已在谷歌 AI Studio 免费提 供试用。来源:AI 工具集
AI 编程助手 Cursor 再获融资 1 亿美元,估值飙升至 26 亿美元
AI 编程助手 Cursor 背后的公司 Anysphere 完成 1 亿美元 B 轮融资,估值达 26 亿美元。公 司收入从 4 月的年化经常性收入 400 万美元增长至 10 月的每月 400 万美元。Cursor 0.44 版 本发布,主要更新包括代理性能改进、Yolo 模式和光标标签更新,提升代码变更审查直观性 和用户体验。来源:AI 工具集
ElevenLabs 推出 Flash 语音对话模型:仅 75 毫秒延迟,支持 32 种语言
ElevenLabs 推出最新的人声合成模型 Flash,宣称是目前最快的文本转语音解决方案,延迟 仅为 75 毫秒,非常适合低延迟的对话式语音助手。Flash 模型有两个版本,Flash v2 仅支持 英语,Flash v2.5 支持 32 种语言。在音质和情感深度略逊于 Turbo 模型,在速度上 Flash 盲 测中表现出色。来源:AI 工具集
快手可灵 1.6 模型发布:文本响应度、画面美感及运动合理性均有“明显提升”
可灵近日推出了 1.6 版本,实现了图生视频的巨大飞跃。更新重点包括物理规律真实感、人物运动表演和语义理解的大幅提升。新版本在切食物、倒茶、跳舞等动作的物理反馈上表现 出色,人物表情和动作的细节也更加丰富自然。文本响应度、画面美感及运动合理性均有明 显提升。来源:IT 之家
苹果 Mac 用户狂喜!ChatGPT 深度集成应用,支持 Xcode、Notion 等 30+应用
OpenAI 在第 11 天的直播中宣布 ChatGPT 与 Mac 应用的深度集成,特别在编程和写作方面 进行了更新。现在,用户可以通过简单的复制粘贴操作,与 Warp、XCode 等应用协同工作, 无需详细交流即可执行任务。ChatGPT 支持在语音模式下与 Notion、Apple Notes 等应用协 同工作。新功能已在 Mac 最新版 ChatGPT 应用中推出,Windows 用户还需等待。来源:量 子位
国家电网发布国内首个千亿级多模态电力行业大模型 国家电网发布了国内首个千亿级多模态电力行业大模型“光明电力大模型”,模型参数规模达 到千亿级别,具备电力知识记忆理解、多模态融合分析等能力,被誉为能源电力领域的人工 智能“专家”。模型已在中国信通院、电子标准院通过权威检测,专业能力达到“卓越级”,在 电网规划、运维、运行、客户服务等多个领域得到应用,提升了电网安全稳定运行和新能源 消纳能力。来源:IT 之家
华人团队力作,震撼开源生成式物理引擎 Genesis,可模拟世界万物
CMU 联合 20 多所研究实验室开源发布 Genesis 生成式物理引擎,旨在模拟世界万物。引擎 能生成 4D 动态世界,基于通用机器人和物理 AI 应用的物理模拟平台。Genesis 支持并行模 拟,速度比现有 GPU 加速的机器人模拟器快 10 到 80 倍,具备物理求解器的统一框架,支 持照片级真实感渲染和可微分性。还支持生成式模拟,允许通过语言提示生成多种模态数据。 来源:AI 工具集
12 月 19 日·周四
人人可享 AI 编程:免费版 GitHub Copilot 上线,VS Code 每月补全 2000 次代码 微软旗下 GitHub 推出免费版 GitHub Copilot,支持开发者在 Visual Studio Code 中免费使用 AI 辅助编程服务。全球 1.5 亿开发者现可在 VS Code 体验 AI 编程。免费订阅包括每月 2000 次代码生成和补全,以及 50 次编程问题解答。用户可选择 Anthropic 的 Claude 3.5 Sonnet 或 OpenAI 的 GPT-4o 模型,支持第三方智能体。来源:IT 之家
蚂蚁团队自研的「智能开发神器」,让你秒变 “代码大师”! 蚂蚁团队自研的面向前端智能研发 AI 工具 WeaveFox,能根据设计图直接生成前端源代码。 WeaveFox 基于蚂蚁百灵多模态大模型打造,支持多端和多技术栈,包括控制台、移动端 H5、 小程序等,以及 React、Vue 等框架。支持二次调整,追求设计稿的一比一还原,旨在为前 端开发带来高质、高效、高产的研发体验。该产品预计将于明年正式开放。来源:AI 工具集 OpenAI 加速普及 ChatGPT,开通免费热线电话,老人机也能用 ChatGPT 了
OpenAI 直播第 10 天,在美国推出 ChatGPT 热线电话服务,号码是:1-800-ChatGPT,也可 以打 1-800-242-8478,每月可免费通话 15 分钟,支持智能手机、老人机和座机各种电话设 备与 ChatGPT 语音对话。OpenAI 还集成了 ChatGPT 到 WhatsApp,给这个号码发消息来获 取回复,负责回答问题的是 4o mini。来源:量子位
影石发布 AI 双摄视频会议一体机 Connect,让开会更简单
影石 Insta360 发布了智能双摄视频会议一体机 Insta360 Connect,集成 4K 双摄、14 阵列麦 克风和扬声器,搭载 AI 算法,为 6-14 人中小型会议和教育场景提供解决方案。设备支持发 言人自动切换和单人追踪,提供多种会议模式,兼容主流会议平台,内置智能白板功能。来 源:AI 工具集
微信公众号新增“作者朗读音色”功能:可生成作者音色全文音频 微信近日推出了“作者朗读音色”新功能,支持用户在阅读公众号文章时通过点击“听全文”来 收听作者音色朗读的文章。作者需在“公众号助手”App 中录制例句以复刻语气和情感,创建 个性化语音。功能目前处于灰度测试阶段,将逐步向用户开放。来源:微信派
小猿学练机发布:墨水屏+AI 教育大模型,突破 20 毫秒手写延迟 猿辅导发布小猿学练机,集成 AI 教育大模型,提供个性化学习支持。设备整合 296 个教材 版本、15 亿题库和 3 亿精讲视频,升级六维能力图谱,提升 AI 数据处理效率。K12 阶段采 用 EPD 墨水屏,低龄儿童使用 10.3 英寸 Kaleido3 KHS 彩色墨水屏。手写延迟 19 毫秒,搭 载高通 8 核处理器,支持 27 天续航,售价 4899 元。来源:小猿智能设备
12 月 18 日·周三
豆包大模型家族全面升级,重磅发布视觉理解模型 字节跳动旗下火山引擎发布豆包大模型家族全面升级,包括 视觉理解模型, 能同时处理文本和图像问题,提供准确回答,大幅降低开发流程复杂度。模型在教育、旅游、电商等领域有 广泛应用,价格为每千 tokens 0.003 元,比行业平均价格低 85%。豆包通用模型 pro 新版本 在多个任务处理能力上提升显著。火山引擎还推出全域 AI 搜索和大模型记忆方案,助力企 业智能化转型。来源:AI 工具集
AI 数据分析公司 Databricks 一口气融 728 亿!AI 融资新纪录
AI 数据分析公司 Databricks 宣布 J 轮融资目标为 100 亿美元(约合人民币 728 亿元),目前 已完成 86 亿美元,超越 OpenAI 的 65 亿美元融资,创下全球 AI 创企融资新纪录。本轮融 资后,Databricks 估值达到 620 亿美元,预计 2025 年自由现金流将首次为正。公司计划将 资金用于开发 AI 产品、战略性收购及扩展国际市场,满足不断增长的市场需求。来源:智 东西
Meta 推出 Apollo 开源模型,让 AI “看懂”视频
Meta 与斯坦福大学合作推出 Apollo 系列 AI 模型,提升机器对视频的理解能力。Apollo 模 型包含两个组件,分别处理视频帧和跟踪对象及场景变化,在视频片段间添加时间戳以保持 时间感知。模型采用分阶段训练方法,强调训练方法的重要性。Meta 优化数据组合,发现 10-14%的文本数据与视频内容的平衡能提升语言理解和视频处理能力。来源:AI 工具集
AI 视频生成工具 PixVerse 上线视频生视频功能,体验视频延长乐趣
爱诗科技推出的 AI 视频生成工具 PixVerse 上线 Video to Video(视频生视频)功能,可基 于实拍视频或影视片段进行延长生成,进一步拓宽 AI 视频创作的可能性。登录 PixVerse, 上传视频,选择特效或直接输入提示词,体验无限延长的创作乐趣!来源:AI 工具集 OpenAI o1 推理模型 API 满血开放,成本暴降 60%,定制升级
OpenAI 在第 9 天直播中发布 o1 模型 API 全面开放,成本降低 60%,具有更高可定制性,新 增函数调用、开发者消息和图像分析等功能。GPT-4o 音频成本降低 60%,mini 版本价格降 低 10 倍。OpenAI 推出了偏好微调方法,通过成对样本比较学习使模型适应特定应用场景。 实时 API 支持 WebRTC,简化开发流程,降低价格,提供 Python SDK 支持。旨在提高开发 效率和模型性能。来源:IT 之家
12 月 17 日·周二
智谱完成 30 亿元新一轮融资,2024 年商业化收入翻倍
AI 独角兽“智谱”完成 30 亿元新一轮融资,投资方包括战投及国资,老股东君联资本跟投。 资金将用于大模型研发,提升复杂多模态任务处理能力。2024 年智谱商业化收入翻倍,API年收入增长超 30 倍,智谱清言预计年收入超千万,用户超 2500 万。来源:智能涌现
图森未来发布图生视频开源大模型“Ru yi”,RTX 4090 就能运行 图森未来发布“Ruyi”图生视频大模型,开源 Ruyi-Mini-7B 版本。Ruyi 基于 DiT 架构,包含 Casual VAE 模块和 Diffusion Transformer,参数量约 7.1B,支持在 RTX 4090 等消费级显卡 上运行。模型支持多分辨率、多时长视频生成,以及首帧、首尾帧控制生成和运动幅度控制。 Ruyi 旨在降低动漫和游戏内容的开发周期和成本。来源:AI 工具集
Meta Ray-Ban 智能眼镜大更新:“实时 AI”可持续分析用户所见内容
Meta Ray-Ban 智能眼镜 v11 版本更新,引入“实时 AI”功能,能持续观察用户所见并进行自 然对话,无需唤醒词即可互动,AI 能记住用户提问并主动提供建议。更新还包括实时翻译功 能,支持英语与西班牙语、法语、意大利语的交流,以及 Shazam 音乐识别集成。来源:IT 之家
谷歌发布 AI 图像生成新工具 Whisk,支持上传多张图片以图生图
谷歌发布 AI 图像生成工具 Whisk,支持通过上传图像来生成新图像,无需复杂的文本提示。 可以为图像的主题、场景和风格提供多张图像作为提示,或者使用谷歌自动填充的 AI 生成 图像。Whisk 基于谷歌最新的 Imagen 3 图像生成模型,旨在提供快速的视觉探索,支持用 户编辑和优化生成的图像。来源:AI 工具集
全球最大的仓储机器人公司赴港上市,蚂蚁英特尔是股东
极智嘉作为全球最大的仓储履约 AMR 解决方案提供商,已向港交所提交招股书,计划在主 板上市。极智嘉已连续五年保持领先地位,服务全球约 770 家终端客户,包括 60 家财富 500 强企业。公司三年半累计营收达 59 亿人民币,其中超 70%收入来自中国大陆以外市场。极 智嘉专注于 AMR 解决方案,旨在提高供应链效率,减少人工依赖,计划将 IPO 募集资金用 于研发、市场扩张和供应链发展。来源:机器人前瞻
谷歌版 Sora 迎来 Veo 2,升级 4K 高清!一句话控制镜头运动,Imagen 3 再进化
谷歌版 Sora 升级至 Veo 2.0,能根据文本或图像生成 4K 高清视频,理解镜头控制指令。在 模拟现实物理和人类表情方面有显著提升,能精确遵循复杂的指令 Prompt。在 Meta 基准 数据集 MovieGenBench 上,Veo 2.0 在整体偏好和指令遵循方面优于其他视频生成模型。同 时,图像生成模型 Imagen 3 也得到增强,能生成多样化的艺术风格图像.来源:AI 工具集 OpenAI 直播发布第 8 天:ChatGPT Search 全面升级,免费开放,与 Her 打通了!
OpenAI 直播第 8 天,ChatGPT 推出 Search 搜索功能升级,包括移动端优化和多模态信息搜 索,结合 Her 功能实现实时通话中的语音搜索。基于微调后的 GPT-4o 模型,使用合成数据 生成技术。将逐步向所有用户免费开放。来源:AI 工具集
12 月 16 日·周一
Kimi 发布 k1 视觉思考模型,多项理科测试行业领先 月之暗面
Kimi 今日发布 k1 视觉思考模型, 模型基于强化学习技术,支持端到端图像理解和思维链技术,覆盖数学、物理、化学等基础科学领域。k1 模型在多项基准能力测试中表现 超越全球标杆模型,现已上线 Kimi 智能助手 APP 及网页版,可通过拍照或传图体验模型推 理思维链。来源:AI 工具集
腾讯微信正式发布多模态大模型 POINTS 1.5,10B 参数下开源模型排名第一 腾讯发布多模态大模型 POINTS 1.5,继承了 POINTS 1.0 的 LLaVA 架构,包含视觉编码器、
投影器和大语言模型。模型在效率和性能上均有显著提升,特别是在复杂场景 OCR、推理能 力、关键信息提取等方面表现出色。POINTS 1.5-7B 在全球 10B 以下开源模型中排名第一, 超越了 Qwen2-VL、InternVL2 等领先模型。来源:AI 工具集
PixVerse 最新 AI 特效上线,心情不好,“爆炸 ”一下!
爱诗科技 PixVerse AI 视频生成工具,在社交平台引发特效热潮,共上线 12 种变身特效,有 火爆出圈的“毒液变身”,“压扁”,“爆炸”等,短短几天便迅速火遍抖音,备受好评。让用户创 作解压又魔幻的视频内容,成为短视频创作者的”流量密码”。心情不好,“爆炸”一下!进入 PixVerse,选择特效【万物皆可羊毛卷】,上传照片,卷起!来源:AI 工具集
OpenAI 推出 Projects,功能全家桶打造 ChatGPT 新交互方式,迈向“万能应用”
OpenAI 在“OpenAI 12 天”活动第 7 天推出了 ChatGPT 的新功能 Projects,功能支持用户上 传文件、自定义指令、分组聊天和数据管理,整合 Canvas 和 ChatGPT Search,提升用户体 验。通过 Projects,用户可以更便捷地执行写作、研究、编程和网络搜索等任务,为多步骤 任务执行奠定基础。目前,已向 ChatGPT Plus、Pro 和 Teams 用户开放,企业版和教育版用 户将在新年初获得访问权限。来源:AI 工具集
久等了,DeepSeek 开源 DeepSeek-VL2 MoE 视觉模型:支持动态分辨率、解析梗图等 DeepSeek 推出 DeepSeek-VL2 AI 视觉模型,模型采用 DeepSeek-MoE 架构结合动态切图技 术,提升视觉能力。模型在视觉定位、梗图解析、OCR 和故事生成等方面展现出新能力。 DeepSeek-VL2 在多项评测中取得优异成绩,支持动态分辨率图像和长宽比,能更好地理解 和生成视觉内容。来源:AI 工具集
上新!阶跃星辰 Step-1o 千亿参数端到端语音大模型来啦! 阶跃星辰发布国内首个千亿参数端到端语音大模型 Step-1o。模型支持语音和文本混合输入 输出,具备高智商和情商,能理解语音背后的情绪信息,提供专业建议和情绪陪伴。Step- 1o 能创作生动的故事,适用于新闻播报、聊天陪伴等多个场景。近期将接入跃问 App,提 供实时语音通话服务。来源:AI 工具集
360 自研 AI 大模型 360gpt2-o1 正式上线,数学与逻辑推理新标杆
360 推出新一代 AI 大模型 360gpt2-o1,模型结合多模态和新推理范式,具备自我反思与纠 错能力。在数学和逻辑推理任务中,360gpt2-o1 超越了前代模型及 GPT4o 等竞争对手。模 型通过合成数据优化、后训练和“慢思考”技术,显著提升推理能力。现已在 360 智脑 API 平 台上线,供用户和开发者使用。来源:AI 工具集
Meta 发布 Motivo AI 模型,打造更逼真元宇宙体验
Meta 发布 Meta Motivo AI 模型,通过控制类人数字智能体的动作来提升元宇宙体验。模型 基于行为训练,在 Mujoco 模拟器中使用 AMASS 动作捕捉数据集和 3000 万在线交互样本, 通过无监督强化学习算法预训练,展现出更接近人类的行为。来源:AI 工具集
12 月 13 日·周五
快手开源全球首个”多视角视频生成”工具,解锁无限视角! 快手开源全球首个”多视角视频生成”工具 SynCamMaster,能从任意视点生成开放世界视频, 解决了多视点间动态一致性问题。SynCamMaster 通过即插即用模块增强预训练的文生视频 模型,实现多摄像机视频生成,确保不同视点的内容一致性。实现出色的视点间同步,可扩 展到新视图合成任务中。来源:AI 工具集
巨人网络发布”千影 ”有声游戏大模型,加码”游戏 +AI”赛道
巨人网络在 2024 年度中国游戏产业年会上发布”千影 QianYing“有声游戏生成大模型,包括 游戏视频生成大模型 YingGame 和视频配音大模型 YingSound。YingGame 支持开放世界游 戏角色动作交互控制和物理仿真特性,YingSound 能为视频添加逼真音效。巨人网络 AI 实验室将推进模型升级,推动游戏创作平权时代的到来。来源:AI 工具集
微软推出 14B 参数小语言模型 Phi-4:专攻数学等领域复杂推理
微软近日推出 14B 参数的小型语言模型 Phi-4,模型在传统语言处理能力之外,特别擅长数 学等领域的复杂推理。Phi-4 在数学竞赛问题上的表现超越了多个更大规模的模型(如 70B 的 Llama 3.3 和 72B 的 Qwen 2.5)。已将 Phi-4 在 Azure AI Foundry 上开放使用。来源:AI 工具集
OpenAI 数据中心提供商 Crusoe 融资 6 亿美元,估值 28 亿美元
OpenAI 的数据中心提供商 Crusoe 在最新一轮融资中筹集了 6 亿美元,由 Founders Fund 主 导,Nvidia、Fidelity 等参与,公司估值达到 28 亿美元。Crusoe 开发 AI 数据中心,出租 Nvidia GPU 的云服务。公司正在德克萨斯州阿比林建设大型数据中心园区,将为 Oracle 和 OpenAI 提供服务,已筹集 34 亿美元债务以资助配备 Nvidia 下一代旗舰芯片 Blackwell 的项目。来 源:Z Potentials
Google 发布了「虚拟现实」版 Android XR,想让你把熟悉的应用「戴在头上」
Google 发布了全新的 Android XR 操作系统,专为下一代计算构建,兼容各种 XR 设备,从 VR 头显到 AI 眼镜。系统以 Android 为底层,集成 AI 能力,提供沉浸式体验,如实时信息 查询和多窗口功能。Google 提供开发工具包,帮助开发者将 2D Android 应用快速适配到 XR 平台。首批搭载 Android XR 的设备包括三星的 Project Moohan VR 头显,与高通合作的 AR 眼镜。来源:极客公园
千寻智能一年三轮融资数亿元,构建下一代智慧劳动力 千寻智能由产业老兵和清华教授联合创立的具身智能初创企业,已完成三轮融资数亿元。公 司采用”数据金字塔”模式,结合互联网视频数据、仿真数据、遥操数据和强化学习,构建能 控制各类机器人执行任务的具身模型,目标是打造下一代智慧劳动力。来源:Z Potentials OpenAI 版《Her》全量来袭:实时视频对话,你每个动作 AI 都看得见
OpenAI 直播第六天,推出”Santa Mode”(圣诞模式),实现《Her》式视频通话功能。可通 过点击”雪花”与 AI 进行圣诞老人风格对话,开启摄像头让 AI”看见”你。新功能包括实时视频 通话、屏幕共享和图片上传,即日将在 ChatGPT 移动应用中推出。一周内,将向所有团队用 户以及大多数 Plus 和 Pro 用户开放。来源:量子位
12 月 12 日·周四
谷歌深夜炸场:Gemini 2.0 正式发布,主打 Agent+多模态
谷歌发布新一代 AI 模型 Gemini 2.0,性能是前代 1.5 Pro 的两倍,支持多模态输入输出,包 括图像、视频、音频等,可以原生调用 Google Search、代码执行以及第三方用户定义的函 数等工具。新模型集成了深度研究功能,能生成复杂主题的研究报告,目前仅对 Gemini Advanced 用户使用。Gemini 2.0 Flash 实验版已开放网页端试用,移动版即将推出,将扩展 到旗下更多产品中。来源:AI 工具集
造梦次元完成近亿元人民币融资,多家顶级风投和大厂共同投资
造梦次元完 成近亿元人民币 A 轮融资,由锦秋基金领投,高榕创投、明势创投、商汤科技等参投。公司专注于多模态 AI 驱动的内容平台,提供虚拟角色互动体验,日均活跃互动时间 超 100 分钟。融资将加速技术研发和市场拓展,优化创作者工具,拓展海外市场,重视内容 安全与合规。来源:Z Potentials
百度文库 AI 再升级,「专业 PPT 生成」功能上线!打工人终于有救了
百度文库推 出「专业 PPT 生成」功能,通过 AI 技术帮助用户一键生成高质量 PPT。只需输入关键词或主题,可快速获得内容明确、主题突出的专业演示文稿。新功能采用商务化 PPT版式,提供清晰的结构和视觉冲击力,支持个性化编辑,包括字体、颜色和动画效果,助力职场汇报和晋升。来源:百度文库服务号
OpenAI 直播第五天,OpenAI 正式成为苹果 AI 的”贤内助”
OpenAI 与苹果达成合作,将 ChatGPT 集成进 iOS、iPadOS 和 macOS 系统。此次整合包括 Siri 协同、写作工具增强和 iPhone 相机控制功能。用户可通过 Siri 启用 ChatGPT 处理复杂 任务,撰写和总结文档,基于视觉智能分析拍摄对象。合作使 OpenAI 成为苹果 AI 的“贤内 助”,直接触达数十亿苹果设备用户,可能改变科技行业格局。来源:腾讯科技
谷歌发布智能体原型 Mariner,能帮用户操作表格、在线购物
谷歌发布名为 Mariner 的智能体原型,基于 Gemini 2.0 AI 模型,能自主浏览网站执行电子 表格、在线购物等操作。Mariner 旨在与用户协作,如在购物时可将商品加入购物车,但购 买需用户完成。目前仅对少数测试者开放,处于实验阶段。来源:AI 工具集
全球首个”AI 程序员”D evin 全面开放:可独立开发/修复 bug,月费 500 美元
全球首个 AI 程序员 Devin 已全面开放,支持个人开发者和团队以每月 500 美元订阅服务, 包括 Slack 集成、IDE 扩展和技术支持。Devin 能熟练使用多种编程语言,独立完成网站和应 用构建、部署,能发现修复代码缺陷。Devin 采用沙盒计算环境,内置代码编辑器和浏览器, 能快速学习和适应新技术,理解复杂的编程上下文。来源:IT 之家
MidJourney 上线 Patchwork:用户化身“造物主”,AI 构造故事宇宙
Midjourney 推出 Patchwork 叙事工具,打造 AI 驱动的沉浸式故事世界。适用于小说作者、 游戏开发者和艺术家等,用户在无限画布上构建角色、风格和背景故事。可以通过 Midjourney 账户登录,创建和保存包含所有图像链接的 JSON 文件,支持多达 100 名用户实时协作构建 故事。来源:AI 工具集
12 月 11 日·周三
字节内部判断 AI 对话类产品天花板可能不高,提升剪映即梦优先级
字节跳动反思 AI 对话产品如豆包的局限性,认为可能仅为 AI 产品的“中间态”。豆包用户活 跃度不高,日均使用时长和频次增长有限,商业化前景不明。字节计划资源转移至多模态产 品,提升即梦产品优先级,探索更视觉化、低门槛的 AI 产品,打造 AI 时代的“抖音”。剪映 月活高达 1.7 亿,全球排名第二。来源:智能涌现
面壁智能完成新一轮数亿元融资,CEO 称大模型正进入“真刀真枪”阶段 面壁智能完成数亿元新一轮融资,由龙芯创投等联合领投,北京市人工智能产业投资基金跟 投。面壁智能将加速端侧 AI 大模型商业化,以高性能、低能耗技术服务行业。CEO 李大海 表示,大模型技术进入实战阶段,面壁智能在端侧智能领域保持竞争力,致力于将高效 AI 技 术带入各行各业。来源:钛媒体 AGI
OpenAI 直播第四弹:Canvas 全量开放,人+AI 协作模式启动
OpenAI 宣布 ChatGPT 的 Canvas 功能全量开放,从聊天工具升级为生产力工具。Canvas 整 合进 ChatGPT,支持用户与 AI 共同完成写作和编码项目。在 Canvas 上直接运行 Python 代 码和 Customgpt 调用能力。OpenAI 展示了 Canvas 的文字编辑、审稿、编程和图片识别功 能,这一变革使 ChatGPT 更像一个拥有超强智能的 Google Docs。来源:机器之心
文小言电脑版正式发布,支持 Windows 和 Mac 免费下载,双端协同
文小言电脑版正式发布,支持 Windows 和 macOS 系统免费下载,实现与 APP 的双端协同
和消息互通。可以一键拖拽解析多种格式文件,针对原文提问,获得有据可依的回答。提升 文本创作的效率,支持边搜索边编辑功能。来源:AI 工具集
DeepSeek V2 系列 AI 模型收官,推出 DeepSeek-V2.5-1210,联网搜索上线
DeepSeek 官方推出 V2 系列 AI 模型 DeepSeek-V2.5-1210 上线,支持联网搜索功能。模型 在数学、代码、写作等方面取得进步,优化了文件上传。可在网页端体验搜索功能,API 暂
不支持。模型能分析网页信息,提供全面、准确答案。DeepSeek 宣布 V2 系列模型收官,将 告一段落,正在打造更强大的下一代基座模型 DeepSeek V3,敬请期待。来源:AI 工具集 ChatGPT 语音负责人创业 AI 语音,a16z 首轮重注 4000 万美金
前 ChatGPT 语音负责人 Conneau,创立 WaveForms AI 专注于音频 LLM 的新公司,旨在 2025 年前推出与 OpenAI 和 Google 竞争的 AI 音频产品。已获得 a16z 领投的 4000 万美元 种子资金,开发能“用耳朵感受 AGI”的技术,强调人机互动应与人际互动互补,而非取代。 来源:Z Potentials
12 月 10 日·周二
字节视频生成模型 PixelDance 上线豆包,每日免费生成 10 个视频
字节跳动的 PixelDance 视频生成模型在豆包电脑版开启内测,用户每日可免费生成 10 个视 频。模型于 9 月底首次发布。内测反馈,10 秒视频切换 3-5 次镜头效果最佳,场景和角色 保持一致性。豆包将持续优化,助力用户创作。来源:IT 之家
智源研究院开源 3D 生成模型 See3D,看 3.2 亿帧视频学会 3D 生成 智源研究院推出无标注视频学习的 3D 生成模型 See3D,采用新型视觉条件技术,能从大规 模互联网视频中生成几何一致的多视角图像。See3D 支持零样本和开放世界的 3D 生成,无 需昂贵的相机标注,具备高效的 3D 编辑和表面重建能力。模型、代码、Demo 均已开源。 来源:AI 工具集
OpenAI 正式推出视频生成王者 Sora ,网页挤爆了!
OpenAI 正式发布视频生成大模型 Sora 及其新版本 Sora Turbo,提供 1080p 分辨率、最长 20 秒的视频生成能力,支持宽屏、竖屏和方形比例。Sora Turbo 版本提升了生成速度。所 有视频带有 C2PA 元数据以验证来源。ChatGPT Plus 用户每月可免费生成 50 个 480P 视频, Pro 用户(月费 200 美元)享有更高分辨率和更长时长。来源:机器之心
北京国资独家投资,小米投资首家工业大模型公司小雨智再造获亿元 A 轮融资 北京小雨智造科技有限公司宣布完成亿元 A 轮融资,由北京信息产业发展投资基金独家投 资。公司专注于工业领域大模型机器人技术,为机器人打造“通用大脑”。小雨智造已与松下 等企业合作,推进智能焊接机器人市场,在航空航天、船舶制造等领域布局。来源:钛媒体 AGI
谷歌发布最强量子芯片 Willow,5 分钟颠覆 138 亿年计算极限
谷歌宣布最新量子芯片 Willow 取得重大突破,在基准测试中 5 分钟内完成一项标准计算, 而最快的超级计算机需超过 10^25 年。Willow 芯片破解了近 30 年的量子纠错挑战,能在更 多量子比特下成倍减少错误。来源:AI 工具集
12 月 09 日·周一
商汤办公小浣熊 2.0,上新!AI 原生一站式创作空间来了
商汤科技推出升级版的办公小浣熊 2.0,集成多项 AI 功能,包括信息检索、方案输出、文档 创建和智能规划,用户通过“规划、分析、写作”三步法高效完成工作任务。升级版增强了数 据分析和文档解析能力,可以通过对话生成文档,实时进行数据可视化和分析。来源:AI 工 具集
马斯克新文生图模型 Aurora 闪现!网友抢时间疯狂实测:人物生成超逼真
马斯克的 xAI 公司短暂上线新文生图模型 Aurora,生成的人物图像逼真又高清。Aurora 能 理解简单的提示生成高质量的图像,能生成受版权保护角色和公众人物图像。模型上线数小 时,网友已抢先进行实测,在人物写实生成方面表现出色。马斯克表示只是测试版,将很快 改进。来源:AI 工具集
英伟达发布大模型 NVILA,专注于优化准确性和效率
英伟达发布新型开放式视觉语言模型 NVILA,专注于提高准确性和效率。与 LLaVa OneVision 模型相比,NVILA 的训练成本降低了 4.5 倍,微调内存减少了 3.4 倍,预填充和解码延迟降 低了近 2 倍。在视频基准测试中表现优于 GPT 4o Mini。来源:AI 工具集
智谱 AI 再放大招!全新多模态模型 GLM-4V-Flash 免费开放!
智谱 AI 推出首个免费多模态模型 GLM-4V-Flash ,该模型基于 4V 系列,提升图像处理精确 度,降低开发门槛。模型支持 26 种语言,具备图像描述生成、分类等高级功能,适用于信 息提取、内容创作等多个场景。来源:AI 工具集
Meta 今年压轴开源 AI 大模型 Llama 3.3,700 亿参数,性能比肩 4050 亿
Meta 发布 AI 大模型 Llama 3.3,拥有 700 亿参数,性能媲美 4050 亿参数的 Llama 3.1。模 型效率更高、成本更低,支持 8 种语言,可在标准工作站上运行。采用优化的 transformer 架构,通过 SFT 和 RLHF 微调,确保与人类偏好一致。上下文长度为 128K,支持与外部工具 集成。来源:AI 工具集
OpenAI 强化微调登场:几十条数据 o1-mini 反超 o1 暴涨 80%,奥特曼:今年最大惊喜 OpenAI 的第 2 天直播推出新功能“强化微调”,仅需几十个例子可创建特定领域的专家模型。 CEO 奥特曼称为 2024 年最大惊喜。微调后的 o1-mini 模型得分提高 80%,超过 o1 正式版。 OpenAI 已开启研究计划,支持开发者申请强化微调 API 的 alpha 版本。来源:量子位
马斯克 xAI 公司 Grok AI 聊天机器人向免费用户开放,不再是会员专属
马斯克的 AI 聊天机器人 Grok 已向 X 的免费用户开放,每两小时可最多发送 10 条消息。
Grok 定位为幽默型 AI 助手,今年增加了文生图功能,用的是 Flux 模型。来源:钛媒体 AGI
12 月 06 日·周五
LiblibAI x 星流:正式推出新一代自研图像大模型 Star-3 Alpha
LiblibAI 今日宣布推出新一代自研图像大模型 Star-3 Alpha。模型基于 F.1 基础算法架构,提 升图像精准度、色彩表现力和美学捕捉能力,提供高级感和真实感。可通过星流官网、Lib 官 网在线生图功能及 API 开放平台体验。来源:AI 工具集
通义实验室开源 ClearerVoice-Studio,高效去除背景噪声
阿里通义实验室语音团队开源 ClearerVoice-Studio 技术框架,集成语音增强、分离和音视 频说话人提取功能。通过复数域深度学习算法,有效消除背景噪声,保留语音清晰度,保持 语音失真最小化。可在 Github 和 HuggingFace Space 上查看和试用。来源:AI 工具集
谷歌 DeepMind 推出 AI 气象预测模型 GenCast,8 分钟预测 15 日天气
DeepMind 气象预测大模型 GenCast 在 Nature 发表,能在 8 分钟内完成 15 天的天气预报, 准确度超过全球顶尖中期天气预报系统 ENS。GenCast 基于扩散模型和 Transformer 技术, 分辨率为 0.25 度经度/纬度。在 1320 种实验条件下,GenCast 在 97.2%的任务中比 ENS 更准 确,在 36 小时后的预测中表现突出。来源:AI 工具集
豆包大模型团队开源 FullStack Bench 代码全新基准,覆盖超 11 类真实编程场景 字节跳动豆包大模型团队开源全栈编程代码评估数据集 FullStack Bench。FullStack Bench 覆 盖超 11 类真实编程场景和 16 种编程语言,包含 3374 个问题,有效评估大模型代码开发能 力。为 AI 在真实编程场景中的表现提供快速评估参考。来源:AI 工具集
OpenAI 第一场直播就炸场!o1 满血版上线,ChatGPT Pro 订阅费:200 美元 /月
OpenAI 发布最强推理模型 o1 满血版及其 Pro 版本,ChatGPT Pro 订阅计划定价为 200 美金
/月,成为全球最贵的大模型订阅服务。满血版 o1 在数学、代码能力上显著提升,推理速度 比预览版快 60%,支持多模态输入。Pro 版本为订阅用户提供 o1 满血版的不限量访问权限, 展示在高难度科学问答上的卓越表现。来源:量子位
12 月 05 日·周四
海螺 AI 推出图生视频模型 I2V-01-Live,让静态二维图像动起来
海螺 AI 推出图生视频模型 I2V-01-Live,能将静态图像转成动态视频。模型基于深度学习, 增强动作流畅度和真实性,支持多风格适配。上传 2D 插图,选择 I2V-01-Live 模型即可生 成动态视频。来源:AI 工具集
DeepMind 最强「基础世界模型」诞生!单图生 1 分钟游戏世界,解锁下一代智能体
谷歌 DeepMind 发布第二代基础世界模型 Genie 2,能从单图生成长达 1 分钟的 3D 游戏世 界。支持键盘鼠标操作,模拟复杂交互和物理效果,为具身智能体提供无限训练数据。Genie 2 的涌现能力包括物体交互、角色动画、物理效果等,为 AI 研究和游戏开发带来新可能。来 源:新智元
谷歌领跑 AI 视频生成赛道:抢先 OpenAI Sora 推出 Veo 模型,可生成 1080P 高清视频 谷歌宣布在 Vertex AI 平台上推出 Veo 模型的私测预览版,面向企业开放。Veo 模型能根据 文本或图像提示生成 1080p 高清视频,提供多种视觉风格。Veo 生成的视频逼真度极高,如 狗狗的毛皮和项圈在运动中保持一致,难以区分是否由 AI 生成。来源:IT 之家
OpenAI 官宣 12 天 12 场新品发布会
OpenAI 宣布将举行为期 12 天的系列活动,期间每天发布一个新产品或样品。活动将包括 备受期待的文字转视频工具 Sora 和新的推理模型。OpenAI CEO 透露,周活跃用户数已超 3 亿,目标是到 2025 年增至 10 亿。来源:财联社
红杉美国最新洞察:2025 年将是 Agent 元年!AI 智能体进入“群体协作”时代
红杉美国合伙人 Konstantine Buhler 预测,2025 年 AI 智能体将 进入“群体协作”时代,多个智能体网络将协作完成复杂任务。他强调,AI 技术将在医疗和教育领域发挥重要作用,降低成 本、提高效率,推动社会进步。来源:有新 Newin
12 月 04 日·周三
文心一言上线“深度写作”专业版功能:会自己搜素材的 AI 写作
百度 AI 推出文心一言“深度写作”专业版,能自动搜索素材并创作个性化文章。可通过上传 资料或网盘素材,使内容更具体。适用于多种文档创作,模板将持续更新。来源:百度 AI
刚刚!字节跳动豆包上线图片理解,大模型走向多模态
字节跳动豆包 APP 和 PC 端新增图片理解功能,能识别图片内容并回答相关问题,如景点位 置和动漫人物身份。标志着 AI 大模型向多模态发展,更加实用。豆包已成为中国日活用户 最高的 AI 大模型产品,AI 应用行业月活跃用户规模同比增长 373%。来源:钛媒体
亚马逊年末甩王炸!6 款大模型、3nm AI 芯片、全球最大 AI 计算集群,苹果罕见站台 亚马逊在 AWS re:Invent 大会上宣布将推出 6 款大模型和 3nm 第三代 AI 训练芯片 Trainum3,以及最强 AI 服务器 Trn2 UltraServer。Amazon Nova 系列模型涵 盖文本、图像和视频,Reel模型支持生成 6 秒视频。AWS 与 Anthropic 合作构建全球最大 AI 计算集群,Bedrock 服务 更新包括自动推理检查、多 Agent 协作和模型蒸馏功能.来源:智东西
即梦 2.1 模型上线,一键生成图文融合设计图
字节即梦 AI 发布全新绘图模型 v2.1,10 秒内一键生成中文海报。解决了中文嵌入问题,支 持直接在图片上绘制中英文字体,具有高审美和泛化能力。可通过简单描述生成个性化海报, 但需注意避免抄袭。来源:AI 工具集
The Browser Company 计划推出新型 AI 网络浏览器 Dia
The Browser Company 计划于 2025 年推出新款 AI 网络浏览器 Dia。Dia 具备人工智能功能, 如从互联网获取事实、提供写作灵感、总结网页内容,能从打开的标签中复制信息,如亚马
逊链接,插入电子邮件。来源:AI 工具集
WPS Office 推出 WPS AI 语音速记功能
WPS Office 推出了 WPS AI 语音速记功能,通过 WPS AI 技术得到增强,与 WPS 云文档深度 整合。支持实时录音和音频导入转文字,实现中英等多种语言互译,确保录音文件的完整性。 声纹识别和 AI 自动总结功能提高转写准确率和速度,提供无缝衔接,确保高安全性能。来 源:AI 工具集
12 月 03 日·周二
腾讯正式发布 AI 视频产品:腾讯混元文生视频,预计下月推出图生视频模型 腾讯今日正式推出了“腾讯混元文生视频”AI 视频生成工具,该模型在指令遵循、动态表现、 画面稳定性等方面表现出色,尤其在科幻、魔幻风格上给人惊喜。用户可以在腾讯元宝免费 体验,每天免费 3 次。同时,腾讯混元文生视频已在 Hugging Face 和 Github 上开源,提供 130 亿参数的模型、权重和推理代码,供开发者免费使用。来源:AI 工具集
全面对决 Suno,国产 AI 音乐三巨头的突围之战
国内 AI 音乐领域三巨头——字节跳动的海绵音乐、昆仑万维的天工 SkyMusic 和趣丸科技的 天谱乐,正与全球顶级产品 Suno 展开激烈竞争。通过提供个性化音乐生成、多模态配乐等 创新功能,降低音乐创作门槛。来源:钛媒体
快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线:联合李少红、贾樟柯、叶锦添、薛
晓路等
快手宣布“可灵 AI”导演共创计划作品将于 12 月 6 日上线,计划自 9 月 9 日启动,由 9 位导 演联合发起,涵盖多种题材。9 部短片全部由可灵 AI 进行视频生成。可灵 AI 服务用户已超 500 万,累计生成 5100 万个视频和 1.5 亿张图片,商业化单月流水超千万人民币。来源:IT 之家
全网热评的李飞飞世界生成模型,真的能构建物理世界吗?
李飞飞的空间智能 World Labs 发布了世界生成模型,一个能从单张图片生成 3D 物理世界 的 AI 系统,引起 AI 界热议。该技术突破在于直接生成三维场景,遵循物理规则,具有深度 感和空间感,能实现场景控制和动态效果。来源:腾讯科技
OpenAI 考虑在 AI 产品中引入广告
OpenAI 首席财务官 Sarah Friar 透露,公司正在考虑将广告引入 AI 产品中,寻求新的收入来 源。目前没有积极推进广告业务的计划,公司对探索其他收入渠道持开放态度。广告经验团 队包括曾在 Instagram 和谷歌搜索广告团队任职的成员。目前,OpenAI 主要通过出售 AI 模 型 API 访问权限、ChatGPT 会员收入和与微软合作获得收益。来源:第 1 财经
360 推出的自研 360 智脑 7B 参数大模型升级版
360 公司推出了自研 AI 大模型 360 智脑 7B 参数的升级版——360Zhinao2-7B。在中英文通 用能力、数学逻辑推理能力方面有显著提升,在国内外同尺寸开源模型中多项能力排名第一。 模型基于 Transformer 架构,采用自注意力机制和优化策略,已在 GitHub 和 HuggingFace 模型库上线。来源:AI 工具集
12 月 02 日·周一
微信公众号后台新增“AI 配图”功能,支持文章配图和封面配图 微信公众号后台最近推出了“AI 配图”功能,支持创作者通过简单的文字描述在十几秒内生 成四张风格和比例可调的候选图片,用于文章配图。极大提高了内容创作的效率,还有效规 避了图片版权问题,增强了内容生产的安全性。同时,文章封面图也支持 AI 配图。来源: IT 之家
ChatGPT 两岁,OpenAI 10 亿用户计划曝光!
ChatGPT 已经 2 岁了!OpenAI 下一个目标瞄准十亿用户,预计明年放出 AI 智能体产品。就 在生日这天,马斯克还送上了大礼:阻止 OpenAI 全面盈利的一份诉状书。来源:新智元
实测腾讯元宝 2.0:图文视频啥都能搜,论文绘画全搞定
腾讯元宝 2.0 全新升级,集成 AI 搜索、阅读、生图等功能,打通公众号、视频号等资源,提 供深度研究、脑图整理服务。新增创意绘画、灵感图库、AI 美照等图片功能,以及应用广场。 同时整合腾讯文档、电脑管家、搜狗输入法,提升工作效率和用户体验。来源:量子位
可灵 AI 新增「AI 换衣」功能!1.5 模型支持「首尾帧」
可灵 AI 推出新功能“AI 试衣”,用户只需 2 张图即可解锁新造型。1.5 模型支持高品质视频制 作,新增“首尾帧”功能,5s/10s 均支持使用首尾帧。可灵 AI 上线「灵感学院」!新手入门免 费课程,帮你快速上手可灵 AI。来源:可灵 AI
对话智谱 CEO 张鹏:大家对大模型期待过高,Scaling Law 还有很大增长空间
CEO 张鹏认为,大家对大模型期待过高,但 Scaling Law 仍有增长空间。智谱 AI 定位“开放 平台”,聚焦基座模型研发,已获九轮融资近 60 亿元,致力于 AI 智能体应用,推动人机交 互变革。来源:钛媒体
11 月 29 日·周五
智谱 OpenDay:全新发布 AutoGLM Agent 家族,用 AI 操控一切
智谱 AI 在 OpenDay 上发布了 Agent 家族,包括升级版 AutoGLM、AutoGLM-Web 和 GLM- PC,分别对应手机、浏览器和 PC 电脑三个形态。AutoGLM 的“Phone Use / Computer Use” 能力支持跨 APP 操作,预示着 LLM OS 全新时代正式到来了。AutoGLM 现在支持更多主流 应用(微信、美团、滴滴、小红书、知乎、GitHub 等),并能执行复杂的跨应用任务,GLM- PC 则支持用户通过手机远程控制电脑。来源:AI 工具集
张军:腾讯混元大模型 12 月 3 日将上线视频生成能力 腾讯公司公关总监张军宣布,腾讯混元大模型 12 月 3 日正式上线视频生成能力,用户可 以在 腾 讯元宝 App 中提交申请试用。企业客户通过腾讯云提供服务接入,目前 API 同步 开放内测申请。同时,腾讯也将开源该视频生成大模型,参数量 130 亿。来源:IT 之家 ComfyUI 桌面客户端终于来啦!支持 Mac/Windows 一键安装(附下载链接)
Comfy 团队推出官方 ComfyUI 客户端, 支持 Windows 和 Mac,并且在 GitHub 开源。ComfyUI 客户端支持直接导入工作流和模型路径,简化了配置流程。对于新手用户,ComfyUI 提供了 易于上手的模板,并能自动下载所需模型,极大提升了用户体验。来源:AI 工具集
中国石油发布 700 亿参数昆仑大模型,与中国移动、华为、科大讯飞联手打造
中国石油与中国移动、华为、科大讯飞合作发布了 700 亿参数昆仑大模型。模型展示了 43
个专业和通用应用创新场景,语言大模型参数从 330 亿升级至 700 亿,显著提升了自然语
言处理等能力。同时,昆仑大模型构建了我国首个勘探全领域专业大模型,并按需构建了 21
个场景大模型。来源:中国石油报
我去华强北走了一圈,发现这里正被另一种 AI 包围
华强北,中国电子制造中心,正被 AI 技术包围。市场上出现了 AI 翻译机、AI 吉他、AI 手机 壳等创新产品。尽管华强北以电子元器件和手机配件为主,但其强大的组装能力为 AI 硬件 创新提供了巨大潜力。来源:硅星人
小马智行纳斯达克挂牌上市,摘得 Robotaxi 第一股
小马智行(Pony.ai)于 11 月 27 日在纳斯达克上市,股票代码“PONY”,成为全球 Robotaxi
第一股。公司计划以每股 13 美元发行 2300 万股 ADS,融资额可达 2.99 亿美元,若超额配 售权行使,IPO 总募资额约 4.52 亿美元。小马智行自 2018 年推出 Robotaxi 服务,技术核心
为“虚拟司机”,已与多家车企和出行平台合作,致力于推动自动驾驶技术商业化落地。来源:
Pony.ai 小马智行
11 月 28 日·周四
Kimi 内测 AI 视频生成功能“Kimi 创作空间”,每天可免费生成 100 秒视频
Kimi 内测 AI 视频生成功能“Kimi 创作空间” ,通过 12 种预设风格模板和自定义创作功能, 让用户轻松制作个性化音乐视频。用户每天可以免费生成 100 秒视频,支持添加个性化音乐 和详细场景描述。Kimi 创作空间简化了视频制作过程,无需专业技能即可创作高质量、逼真 效果的音乐视频。来源:AI 工具集
阿里发布推理模型 QwQ-32B-Preview,性能超 OpenAI o1-preview
阿里巴巴开源了名为 QwQ-32B-Preview 的 AI 推理模型,该模型包含 325 亿参数,能处理 长达 32000 个 tokens 的提示词,擅长数学和编程领域的复杂推理任务。在多个基准测试中, QwQ-32B-Preview 超越了 OpenAI 的 o1 模型。来源:AI 工具集
月之暗面 Kimi 联合清华大学等机构,开源共建大模型推理架构 Mooncake
月之暗面 Kimi 联合清华大学等机构推出了大模型推理架构 Mooncake,项目以 KVCache 为 中心,通过以存换算理念减少算力开销,提升推理吞吐量。Mooncake 可以提高大模型在处 理任务时的效率和性能,提升推理速度、降低成本、满足处理长文本和高并发需求。就像是 为 AI 模型提供了一个更高效、更省钱的“加速器”,让它们能更好地服务于各种应用,比如智 能助手、数据分析等。来源:月之暗面
《ChatExcel Pro 使用教程》上线,3 分钟学会用 AI Excel 解决所有表格问题
元空 AI 推出的 ChatExcel Pro 使用教程正式上线,该教程包含 Excel 处理、数据运算、数据 分析和图表生成四大板块,帮助用户通过 AI Excel 自动化完成工作任务。教程提供练习表格 和提示词,用户可通过自然语言描述需求,快速掌握操作。ChatExcel 支持多表合并、数据 查找、逻辑运算等多种功能,大幅提高数据处理速度和准确性。来源:元空 AI
Luma AI 推出全新 Dream Machine:自然语言交互与 AI 创作新时代
Luma AI 的 Dream Machine 推出了全新的 AI 交互方式,用户现在可以用自然语言进行流畅 交互。新功能包括图像生成、视频创作和灵感激发等,其中 DM 1.6 模型支持首尾帧视频生 成,而 Luma Photo 模型则提供内容混合和风格保持。Dream Machine 还特别设计了一个 Brainstorm 按钮助力用户创意思考,所有功能对公众免费开放。来源:AI 工具集
11 月 27 日·周三
360 公司上线“纳米搜索”App ,周鸿祎将与百度上演“AI 搜索大战”
360 集团发布了名为“纳米搜索”的 AI 搜索应用,直接对标百度等竞争对手。纳米搜索支持文 字、语音、拍照、视频等多种搜索方式,并集成了 16 款大模型,提供全方位解答方案。周 鸿祎表示,纳米搜索将重新定义 AI 搜索,以更智能和便捷的方式满足用户需求。来源:AI 工具集
Hugging Face 发布 SmolVLM 开源端侧 AI 模型:20 亿参数,体积小、速度快
Hugging Face 于 11 月 26 日发布了 SmolVLM AI 视觉语言模型,该模型仅有 20 亿参数, 专为设备端推理设计,具备体积小、速度快和内存高效的特点。SmolVLM 提供三个版本: SmolVLM-Base、SmolVLM-Synthetic 和 SmolVLM-Instruct,全部开源。来源:IT 之家
国产大模型首发中文逻辑推理,「天工大模型 4.0」o1 版来了 昆仑万维推出了国内首款具备中文逻辑推理能力的大模型“天工大模型 4.0”o1 版(Skywork o1),包含三款模型,其中开源版本 Skywork o1 Open 参数为 8B,显著提升数学和代码指 标,并解锁了数学推理任务。Skywork o1 Lite 和 Preview 版本展现了更快的推理速度和深度
思考能力。来源:机器之心
阿里通义万相推出图像编辑模型 ACE,可实现一键 P 图 阿里通义万相团队推出了图像编辑模型 ACE ,该模型支持通过口语化指令一键生成和编辑 图片,适用于风格化写真、分镜制作和室内设计等场景。ACE 模型已开源,具备文生图和图 像编辑功能,能实现 PS 级编辑效率,其局部风格化功能已上线通义 APP。来源:AI 工具集
创意无限:谷歌推出 GenChess,可 AI 定制国际象棋棋子
谷歌 DeepMind 团队推出 GenChess AI 工具,庆祝 2024 年国际象棋世界冠军赛。用户可通 过“classic” 或“creative” 模式定制国际象棋棋子,如输入“cat” 生成猫科动物主题棋子。 GenChess 还支持生成对手棋子,如猫对狗,增加游戏趣味性,并支持在线对战及调整难度。 来源:AI 工具集
华为、阿里、美团等大厂都已下场,“具身智能”会成为一场泡沫吗? 华为、阿里、美团等中国科技巨头纷纷投资具身智能领域,推动人形机器人技术发展。尽管 市场热度高,但具身智能的商业化进程缓慢,许多产品仍处于试验阶段。专家预测,到 2030 年全球 AI 机器人市场规模将超 2500 亿人民币,具身智能机器人有望在劳动力紧张背景下 迎来发展机遇。来源:钛媒体
11 月 26 日·周二
通义 App 上线新功能“局部风格化”,地标建筑一夜换冬装
通义 App 推出了“局部风格化”的新功能,支持用户通过上传照片,一键实现对图中特定对象 的风格化处理,让北京天坛、上海武康大楼、杭州六和塔等地标仿佛一夜之间“穿上”了彩色 毛衣。用户可以在通义 App 的频道页点击万相 AI 生图“局部风格化”体验这项功能,首批上 线了针织、毛绒、冰雕、陶瓷等七种风格模板。来源:通义
月之暗面 Kimi 全量上线 k0-math 数学模型,正式推出“Kimi 数学版”
据科技自媒体沃垠 AI 报道,Kimi 全量上线 k0-math 数学模型,正式推出“Kimi 数学版”,采 用 Self-play RL 强化学习和 Cot 思维链技术,擅长解决数学和推理问题,智力程度可比博士。 Kimi 数学版能理解模糊表达,进行推理或运算,实测 9 个问题表现出色,包括自媒体粉丝增 长计算、双色球中奖概率等。Kimi 数学版在 MATH 测试中得分 93.8,超过 o1-mini、o1- preview。来源:沃垠 AI
强推理模型书生 InternThinker 开放体验:自主生成高智力密度数据、具备元动作思考能力 上海人工智能实验室开放了强推理模型 书生 InternThinker 的试用体验,该模型具备自主生 成高智力密度数据和元动作思考能力。InternThinker 能在数学、代码、推理谜题等复杂任务 上展现优越的推理能力,并能自我反思和纠正。实验室通过通专融合路径,提升模型的深度 推理与专业泛化能力。来源:书生 Intern
Claude 化身服务器联通一切!AI 写好代码自己发 Github,程序员只配动嘴了
Anthropic 公司推出的 AI 模型 Claude 现在能够作为服务器,直接连接 GitHub,实现代码编 写、仓库创建、代码推送等操作。Claude 背后采用的 MCP(Model Context Protocol)通信 协议旨在标准化 AI 与外部数据源和工具的集成,提高回答质量和相关性。Anthropic 计划将 MCP 发展为行业开放标准,推动 AI Agent 与互联网生态的通用语言。来源:量子位
吴恩达出手,开源最新 Python 包,一个接口调用 OpenAI 等模型
AI 专家吴恩达开源了名为 aisuite 的 Python 包,支持开发者通过统一接口调用 OpenAI、 Anthropic、Google 等多个 AI 提供商的大型语言模型。用户只需更改一个字符串即可轻松切 换和测试不同模型。目前支持聊天补全功能,未来将扩展到更多场景。来源:机器之心
AI 音频领域的“瑞士军刀”:英伟达推出 Fugatto,音乐制作新神器
英伟达推出 AI 音频生成模型 Fugatto ,被誉为 AI 音频领域的“瑞士军刀”。该工具能够根据
文字描述或音频输入生成音乐片段、音效,并能调整人声口音和情感,甚至创造新的声音效 果。Fugatto 为音乐艺术家提供歌曲主唱分离、乐器添加、旋律改编等功能,极大丰富音乐 创作的可能性。来源:IT 之家
中国工程院院士邬贺铨:AI 正在从模型层走向“智能体”,具身智能不等于 AGI 邬贺铨认为,上云仅是大模型落地的重要环节,但不是唯一的环节。上云(计算平台)不能 完全解决大模型落地,还需要下沉到智能终端,如果终端能自我生成文生图、文生视频,会 带动手机的更新迭代。来源:钛媒体
11 月 25 日·周一
Cursor 0.43 版本引入 Agent 功能:全面理解并编辑项目,自动完成任务
AI 编程工具 Cursor 发布了 0.43 版本,引入了 Composer Agent 功能,具备项目理解与编辑 能力,自动执行代码任务。同时推出 Bug Finder 功能,帮助提前修复代码问题。版本还包括 语义搜索、文件推荐等改进,提升开发效率和体验。来源:机器之心
新晋 AI 编程神器 Windsurf 干翻 Cursor!首创 Copilots 和 Agents 结合新范式 美国初创公司 Codeium 推出新晋 AI 编程工具 Windsurf ,支持结合 Copilots 和 Agents 创 造协作型智能体 Flow,深度理解代码库,实时感知用户操作。新功能 Cascade 通过语音指 令实现代码编写,无需候补或邀请码,所有人皆可使用。来源:AI 工具集
Lightricks 开源实时视频生成模型 LTX Video,能在 4 秒内生成 5 秒高质量视频
Lightricks 公司宣布开源其视频生成模型 LTX Video,该模型能在 4 秒内生成 5 秒高质量视 频,具备实时处理能力,可扩展至长视频,并能在消费级硬件上高效运行。联合创始人 Zeev Farbman 强调,开放技术是初创企业竞争的关键,他们希望全球顶尖大学能使用并扩展其模 型功能。来源:AI 工具集
阿里发布开源 AI 数字人项目 EchoMimicV2 ,一张图片生成半身数字人动画 阿里巴巴近期正式发布了 EchoMimicV2 ,通过输入一张图片、一段手势视频和一段音频, 该技术能基于音频剪辑、参考图片和手部姿势生成高质量动画视频,实现语音与动作的同步。 EchoMimicV2 不仅扩展了功能,从生成数字人头部动画到完整的半身数字人动画,还支持中 英文驱动,提升了画面的稳定性和流畅性。来源:AI 工具集
Runway 获得新技能:更改视频比例,图片拥有“电影级”运镜
视频生成 AI 公司 Runway 推出“Expand Video”功能,支持用户通过文本提示生成额外内容并 调整视频比例,保持视觉效果统一。该功能支持动态摄像效果,如快速变焦和拉远镜头,静 态画面更加具有电影感。“Expand Video”将逐步向 Gen-3 Alpha Turbo 用户开放。来源:IT 之家
Anthropic 再获 40 亿美元新融资,生成式 AI 持续火热
Anthropic 获得亚马逊 40 亿美元新融资,总投资额增至 80 亿美元,成为全球 AI 企业融资之 最。公司与 AWS 的 AnnapurnaLabs 合作,共同开发 Trainium 加速器,旨在提升机器学习硬 件 性 能 。 其产 品 Claude 助 力 企 业 如辉 瑞 加速 药物 研 发 , 简化 Intuit 税务 计 算 , 帮 助 Perplexity 提升搜索引擎效率。来源:腾讯新闻
喊着干掉网站和 app 的 AI 公司们,却在豪掷数亿疯抢网址域名
AI 公司在宣称 AI 将取代传统网站和应用的同时,却在域名市场上豪掷数亿人民币。OpenAI 以 1550 万美元购得 chat.com,欲将“chat”打造为新时代的“google”。安圭拉因拥有.ai 域名 后缀,从 AI 创业潮中获益,域名收入占其 GDP 的 10%以上。国内 AI 公司则通过注册多个备 选域名来应对域名争夺战。来源:硅星人
11 月 22 日·周五
阶跃星辰推出 AI 视频生成工具 跃问视频,免费开放内测
阶跃星辰推出 AI 视频生成工具 跃问视频, 支持文生视频功能,用户可以一键生成最长 10 秒 视频。视频创作主题覆盖城市、科幻、自然等多个领域,跃问视频提供创意灵感和视频描述 优化服务,提升视频生成内容质量。目前已开放内测申请,免费体验。来源:AI 工具集
重磅!OpenAI 考虑开发 AI 浏览器,已聘请 2 位 Chrome 浏览器创始人
OpenAI 正考虑开发一款结合聊天机器人的 AI 浏览器,并已与多家网站和应用开发商讨论搜 索功能合作。公司还聘请了两位 Chrome 浏览器创始人,若推出浏览器,将成为 Google 的 直接竞争对手。来源:Z Finance
谷歌 Gemini 突发试验版模型:重回竞技榜第一,新版 GPT-4o 只领先了 1 天
谷歌与 OpenAI 的竞争升级,谷歌发布 Gemini-Exp-1121 模型,超越 OpenAI 的 GPT-4o 重 回竞技榜第一。Gemini-Exp-1121 在代码、推理和视觉理解能力上均有显著提升,性能全面 领先。同时,OpenAI 在 ChatGPT 测试版中被发现有“实时摄像”视频功能代码,预示着未来 交流方式可能转向语音和视觉识别。来源:量子位
李彦宏:百度文库 AI 功能月活用户超 5000 万,同比增长超 300% 百度创始人李彦宏在财报电话会上宣布,百度文库 AI 功能月活用户超 5000 万,同比增长超 300%。第三季度订阅收入同比增长 23%。百度文库与百度网盘联合推出“自由画布”工具,首 日吸引超 20 万人预约。百度还发布了 AI 原生应用“橙篇”和“AI 文档助手”,提供文件理解、 总结、问答及文档辅助写作功能。来源:百度
大模型人人皆可“炼”,讯飞星辰 MaaS 平台精调门槛再降低
科大讯飞推出 AI 大模型定制训练平台 讯飞星辰,汇集 20 多个优质模型,支持零代码微调, 降低精调门槛。平台提供全生命周期管理,覆盖内容创作、代码、逻辑推理等多场景。近期, 模型与数据集丰富度及功能特性完成全新升级,增强数据工程能力,支持多种数据集格式, 提供高级参数配置,满足专业开发者需求。来源:AI 工具集
11 月 21 日·周四
智谱 CodeGeeX 好友助力活动正式开启,赢积分可兑 iPhone 16
CodeGeeX 于 11 月 21 日启动好友助力活动,奖品包括 iPhone16、大疆 Pocket、Switch 等。 用户通过分享专属邀请码邀请好友参与,积分累计可解锁奖品。活动持续一周,老用户邀请 新用户可获得额外积分,积分排名靠前者有机会获得丰厚奖品。了解活动详情。来源:AI 工 具集
推理模型 DeepSeek-R1-Lite 预览版上线,号称媲美 OpenAI o1-preview
DeepSeek-R1-Lite 推理模型预览版上线,宣称推理效果媲美 OpenAI o1-preview。该模型在 数学、代码和逻辑推理任务上表现优异,尤其在 AMC AIME 和 codeforces 竞赛中超越 GPT- 4o 等模型。目前仅网页可用,官方计划未来完全开源正式版,并提供 API 服务。来源:AI 工 具集
扣子 Coze OpenAPI 进军智能语音领域,提供音色克隆等功能
扣子 Coze OpenAPI 进军智能语音领域,提供低延时、定制化、随时打断和音色克隆等功能。 该技术整合了扣子强大的智能体生态,支持无限游戏、查询天气新闻、口语练习等多种功能。 通过智能语音对话 OpenAPI,用户可将智能实时对话能力引入自己的应用,如微信小程序、 游戏等。目前正处于内测阶段,可免费申请。来源:机器之心
微软发布 AI Shell 工具,为命令行插上 AI 翅膀
微软发布了 AI Shell 命令行工具,通过 AI 简化编码、排查错误和自动化工作流程,为开发者 和 IT 专业人员提供智能化的命令行体验。该工具核心包括 Azure OpenAI Agent 和 Copilot in Azure Agent 两个 AI 智能体,支持自然语言查询、代码生成和 Azure CLI 命令建议。来源:
IT 之家
OpenAI 重夺竞技场第一:ChatGPT-4o 登顶,击败谷歌 Gemini
OpenAI 在新加坡开发者日上发布了新版 ChatGPT-4o,重点提升了创意写作能力,在竞技场 排名中重夺第一。新版 4o 在创意写作、代码能力和困难任务等方面均有所提升,胜率显著。 同时,增加了敏感话题内容政策的护栏功能,确保对话安全。来源:量子位
估值超 3500 亿!马斯克 xAI 又融资 355 亿,用于买英伟达 GPU
特斯拉 CEO 埃隆·马斯克的 xAI 公司在最新一轮融资中筹集了 50 亿美元,估值达到 500 亿 美元。新资金将用于购买 10 万块英伟达芯片,扩大其 AI 数据中心。xAI 的核心产品 Grok 聊 天机器人年化收入已达 1 亿美元,计划 12 月推出更强大的 Grok-3 版本。来源:智东西
快手 可灵 AI 月营收破千万,累计服务超 500 万用户
快手 AI 产品 可灵 自 6 月推出以来,累计服务超 500 万用户,生成 5100 万视频和 1.5 亿图 片,月营收破千万。快手在 AI 领域取得显著成果,快意大模型 MoE 版本以较少参数量实现 优于原 1750 亿参数模型的性能,降低成本同时适配业务需求。来源:快手科技
11 月 20 日·周三
360 AI 搜索革新:将推出一款新的 AI 搜索产品,向全网募集产品名称
360 公司创始人周鸿祎宣布,本月将推出一款新的 AI 搜索产品,扩展其在人工智能领域的 应用。这款产品将在现有的 360 AI 搜索基础上进行创新,成为更易于使用的 AI 工具。周鸿 祎特别强调,新产品的名称需以字母”N”开头,以匹配他之前购买的 n.cn 域名。来源:AI 工 具集
抖音推出 AI 分身工具,创作者的虚拟互动新伙伴
抖音推出“抖音 AI 分身”工具,助力创作者打造虚拟形象与用户互动。基于豆包大模型算法, AI 分身能全天候自动回复,功能涵盖互动空间、群聊、私信、评论和直播。目前内测中,需 满足特定条件。应用场景广泛,包括虚拟直播、互动娱乐、内容创作、品牌营销等。来源: AI 工具集
OpenAI 宣布 ChatGPT 高级语音模式上线网页端
OpenAI 宣布为网页端 ChatGPT 推出高级语音模式,利用 GPT-4o 的音频功能,实现与用户 的自然、实时对话,并能理解非语言提示及情感回应。该功能已在 iOS 和 Android 平台上 线,现将向网页端付费用户推出。来源:TechCrunch
谷歌面向 Gemini Advanced 用户推出记忆功能,记住用户使用习惯
谷歌为 Gemini Advanced 用户推出了一项记忆功能,该功能能够记住用户的生活习惯、工作 和个人喜好等信息。与 ChatGPT 类似,Gemini 的记忆功能为对话提供上下文,目前仅对少 数付费用户开放,且仅限于网页端使用。来源:品玩
腾讯 Angel 机器学习平台获世界互联网大会领先科技奖
2024 年世界互联网大会领先科技奖在乌镇发布,腾讯 Angel 机器学习平台获得本年度领先 科技奖。腾讯 Angel 机器学习平台突破了万亿级模型分布式训练和推理以及大规模应用部 署等难题,率先实现大模型技术从底层硬件到关键软件技术的自主研发,在业务场景广泛应 用,显著推动实体产业和数字经济发展,提升社会效率。来源:智东西
实测昆仑万维对话 AI「Skyo」,会读诗、知晓雷军摆拍
昆仑万维推出 Skyo 实时语音对话助手,基于天工大模型 4.0 版打造,具备快速响应、实时 打断、情感化反应等功能。Skyo 在健康常识、情感化反应、实时资讯获知等方面表现出色, 能男女声切换、念诗,展现拟人化属性。该产品将于 12 月上线天工 App,接入天工搜索。 来源:机器之心
闪极科技获数千万元 A 轮融资,新品 AI 拍摄眼镜将于 12 月 19 日发布
「闪极科技」完成数千万元人民币 A 轮融资,光远投资领投,未来光锥前沿科技基金和云天 励飞跟投。资金将用于新品“闪极 AI 拍摄眼镜”的市场拓展、技术研发及人才建设。该产品将 于 12 月 19 日发布,主打持久续航、高清拍摄、影音质感及 AI 能力。来源:智能涌现
大模型六小龙第一起分拆:零一万物计划独立 AI 游戏公司 零一万物计划分拆成立名为“绿洲”的 AI 游戏公司,由联合创始人马杰领导,估值数千万美 元。分拆预计年底完成,零一万物将保持最大股东地位。此次分拆旨在让绿洲独立融资,同 时零一万物专注于 AI 搜索和 to B 服务,如电商直播、营销等。来源:晚点 LatePost
微软推出 Copilot Actions,使用人工智能自动执行重复性任务
微软在 Ignite 大会上宣布了一系列新功能,旨在进一步提升 Microsoft 365 Copilot 的智能 化水平。其中最引人注目的是 Copilot Actions,该功能现已进入私人预览阶段。这项功能支 持用户通过简单的提示,自动完成重复性的日常任务,如总结 Teams 会议、生成周报、甚 至准备会议材料等。来源:IT 之家
11 月 19 日·周二
阿里发布 Qwen2.5-Turbo:支持百万超长上下文,性能提升显著
阿里通义 Qwen2.5 系列更新,新增 Qwen2.5-Turbo 支持百万超长上下文,性能提升显著。 上下文长度扩展至 1M tokens,推理速度提升 4.3 倍,成本仅为 0.3 元/1M tokens。在长文 本任务中,Qwen2.5-Turbo 超越 GPT-4o-mini,且短文本性能不减。模型已在 HuggingFace 和魔搭社区提供 Demo,API 服务上线阿里云平台。来源:量子位
Mistral AI 发布 1240 亿参数 Pixtral Large:目前最强开源多模态 AI 模型
法国 Mistral AI 开源了 1240 亿参数的超大多模态模型 Pixtral Large,具备图像理解、视觉问 答、文档理解等功能,支持多语言和处理 128K 上下文。在多个基准测试中超越了包括 GPT- 4o 在内的其他模型,成为目前最强的开源多模态模型。来源:AI 工具集
Perplexity 推出 AI 购物助手 Shop Like a Pro:一键式购物体验
Perplexity 推出 AI 购物助手 Shop Like a Pro ,支持美国 Pro 用户一键搜索和购买商品,提供 全面产品研究和多网站评论分析,帮助用户做出明智购买决策。用户可在 Perplexity 平台完 成购买,享受免费送货服务。该助手具备一键结账、视觉搜索、个性化推荐等功能,所有推 荐由 AI 算法决定,不受广告商影响。来源:AI 工具集
AI 成 华为 Mate70 最大卖点?华为预告片剧透三大功能
华为连发三个视频为 Mate70 系列预热,每一条宣传文案中均带有“Mate 有真 AI”的标签,引 发外界对 Mate70 系列 AI 新功能的猜想。三条视频或分别对应三项 AI 功能:AI 手势、AI 分 身、AI 防窥。这也是华为官宣定档 Mate70 发布日期之后,首次公开的一系列功能前瞻。来 源:财联社
快手可灵 AI API 能力升级:支持 V1.5 输出 1080P 高清视频、开放 V1.0 视频延长功能 快手的 可灵 AI 宣布 API 能力免费升级,推出支持 1080P 高清视频输出的 V1.5 高品质模型, 相较于 V1.0 模型,在画面质量、动态效果和文本响应度上均有显著提升。同时,开放 V1.0 模型的视频延长功能,支持用户续写视频 4 至 5 秒,支持多次续写,最长可达 3 分钟,实现 更流畅的场景转换。来源:可灵 AI
闲鱼推出 AI 智能体,已应用于闲置交易全链路
闲鱼近日宣布,已推出闲鱼 AI 智能体,首次将 AI 技术应用于闲置交易领域。据悉,闲鱼 AI 智能体已应用于交易全链路,包括信用体系、智能发布、托管服务、AI 模特试衣和循环 商店等。AI 技术也用于提升线下循环商店效率和售后服务,如智能托管和 AI 小法庭,降低 了纠纷返单率。来源:腾讯新闻
银河通用再获 5 亿融资,累计融资额超 12 亿,加速具身智能机器人技术发展
银河通用完成 5 亿元人民币战略轮融资,累计融资超 12 亿元。公司专注于轮式双臂通用具 身机器人 Galbot G1,已在工业、物流、教育等领域落地验证,并与美团等达成战略合作。 Galbot G1 可以抓取随机堆放、从未见过的透明、高光等物体,甚至已进一步掌握类似开柜 子、开抽屉、晾衣服等泛化操作技能。来源:机器人前瞻
11 月 18 日·周一
爱诗科技 PixVerse 视频生成技术服务全球开放,共同探索 AI 视频的无限可能 爱诗科技宣布旗下视频生成平台 PixVerse 文生视频、图生视频技术服务全球开放,旨在推动 AI 视频大模型的多元化应用发展。合作伙伴可通过填写申请表沟通合作,PixVerse 期待与 合作伙伴共同探索 AI 视频的无限可能。来源:爱诗科技
消息称抖音正推进“V”项目,包括直播游戏互动、AI 分身功能等
抖音正在推进名为“V 项目”的计划,通过虚拟互动和游戏化玩法拓展直播与互动的边界,让 平台更有趣。项目包括 AI 分身功能,基于豆包大模型算法,支持创作者培养 AI 分身与用户 互动,提供 24 小时在线服务。AI 分身功能还包括 AI 互动空间、群聊、私信、评论和直播 等。来源:Tech 星球
夸克推出“学术搜索”,每次 AI 回答可引用超 10 篇文献内容
夸克今
天宣布上新“学术搜索”AI 产品,依托 AI 技术和亿级学术文献,将大大提高学术工作
中信息获取、创作和处理的效率。据官方介绍,夸克与维普、知网等平台共同搭建了总量过 亿的专业学术文献题录和全文资料库,夸克学术搜索凭借大模型能力,可以为每次 AI 回答 引用 10 篇以上的文献内容,实现多维度的信息归纳和知识整理,确保搜索内容的正确性。 来源:IT 之家
天工大模型 4.0 O1 版(英文名:Skywork O1)将于 11 月 27 日启动邀测 昆仑万维集团宣布,将于 11 月 27 日启动天工大模型 4.0 O1 版(Skywork O1)的邀请测试。 该模型是国内首款具备中文逻辑推理能力的 o1 模型,采用 4 千亿级参数 MoE 混合专家模 型,并将开源。天工大模型 4.0 O1 版将推动 AI 领域发展,提升模型复杂推理能力。来源: 昆仑万维
月之暗面 Kimi 推出新一代数学推理模型 k0-math,对标 OpenAI o1 系列
Kimi 智能助手推出新一代数学推理模型 k0-math,对标 OpenAI o1 系列,强化解决数学难 题能力。同时,Kimi 探索版升级,引入搜索意图增强、信源分析和链式思考三大推理能力, 提升搜索效率和准确性,月活用户超 3600 万。来源:AI 工具集
文心快码 3.0 重磅发布,集成五大智能体三句话生成小游戏
百度文心快码 3.0 版本发布,集成五大智能体,包括代码问答、编码、单测、Debug 和安全, 覆盖设计、编码、构建、测试全流程,显著提升开发效率和质量。文心快码 3.0 能通过自然
语言对话快速完成编码任务,如 60 秒生成网页,三句话生成小游戏,降低开发门槛,助力
AI 技术在各行业应用。来源:AI 工具集
对话王诗沐:走出大厂创业,做 3D AI 游戏,瞄准新的内容平台机会 网易云音乐创始人王诗沐的创业公司全灵 SEELE 完成千万美元 Pre-A 轮融资,由百度战投 领投。SEELE 主攻 AI 生成 3D 游戏,已推出海外产品,半年内积累近百万用户。核心团队来 自腾讯、字节、阿里,产品和技术路线规划清晰。王诗沐认为技术创新大于产品创新,SEELE 将分阶段用产品验证用户需求,逐步拓展至 3D 互动娱乐内容平台。来源:Founder Park
11 月 15 日·周五
即梦 AI 视频生成模型重磅更新,推出 S2.0 Pro 和 P2.0 Pro 两大模型
即梦 AI 视频生成模型今日更新,推出 S2.0 Pro 和 P2.0 Pro 两大模型。S2.0 Pro 以首帧一致
性和细节还原著称,能精确描绘原作并融入创意。P2.0 Pro 则以高提示词遵循能力,能将复 杂创意转化为视频内容。用户可通过即梦 App 或官网选择模型,实现灵感即刻成片,享受 AI 视频创作新体验。来源:AI 工具集
通义代码模式正式上线,一句话帮你生成应用
通义千问的
代码模式正式上线,新功能支持用户无需编程知识即可生成应用,支持前端页面、
设计素材、生日贺卡、数据图表、小游戏和精美简历等。代码模式背后的技术基于 Qwen2.5- Coder(在多项基准评测中表现优异的开源代码模型)。用户现在可以通过通义官网体验这一 创新功能。来源:通义
ima.copilot Windows 版正式上线,智能工作台升级体验 ima.copilot,基于腾讯混元大模型开发的智能工作台产品,继 Mac 版后,Windows 版于 11 月 15 日提前上线。该产品自 Mac 版发布以来,受到用户热烈期待,腾讯加快了 Windows 版的开发进程。用户可通过 ima.copilot 官网下载体验,享受更高效的搜读写体验。来源:AI 工具集
OpenAI 桌面版 ChatGPT 应用登陆微软 Windows,支持拍照识别及语音交流
OpenAI 发布了面向 Windows 10/11 用户的桌面版 ChatGPT 应用,支持拍照识别和语音交 流。用户可通过快捷键快速访问,上传文件和图片进行问答。桌面版包含网页版大部分功能, 但高级搜索和模式需订阅 20 美元/月的 ChatGPT Plus。Windows 版还支持截图和自定义快 捷键,提供 GPT-4o、DALL-E 3 等模型。来源:IT 之家
讯飞星火多模态交互大模型上线,数字人/语音/视觉支持一键全调用
讯飞星火多
模态交互大模型正式上线,实现语音、视觉、数字人交互三合一,支持一键调用。
模型首发超拟人数字人技术,能精准匹配语音内容生成表情动作,实现跨模态语义一致性, AI 情感表达真实连贯。同时支持多模态视觉交互,能全面感知背景场景、物流状态等信息。 来源:讯飞开放平台
谷歌 Gemini 发布苹果 iOS 版 App:集成灵动岛,支持 AI 语音聊天
谷歌推出了专为 iPhone 设计的 Gemini AI 应用,集成了 iOS 的灵动岛功能,支持用户通过 文本或语音与 AI 进行互动。新应用还带来了 Gemini Live 功能,用户能在灵动岛和锁屏上直 接管理 AI 对话,无需切换应用。目前,已在澳大利亚、印度、美国和英国等地区上线,国 区尚未支持。来源:IT 之家
11 月 14 日·周四
腾讯大模型 App 元宝发布 2.0 版本:基于新一代大模型混元 Turbo,内置 AI 搜索 腾讯发布元宝 App 2.0 版本,基于新一代大模型“混元 Turbo”升级,界面更新并新增 AI 应用 板块。AI 搜索功能整合微信视频号、QQ 音乐等资源,提升搜索服务。混元模型支持 7K 分 辨率图片分析,文生图质量提升。元宝 2.0 融入腾讯文档等生态产品,实现功能无缝衔接。 来源:IT 之家
DeepL 推出首个语音翻译解决方案 DeepL Voice,号称消除虚拟会议中语言障碍
DeepL 推出首个语音翻译解决方案 DeepL Voice,支持跨语言虚拟会议和面对面对话的实时 翻译。产品包括 DeepL 会议语音和 DeepL 对话语音,前者消除虚拟会议语言障碍,后者适 用于移动设备。目前支持英语、德语等 13 种口语和 DeepL 翻译支持的 33 种语言字幕,包 括中文。来源:AI 工具集
灵宝 CASBOT 发布首款全尺寸双足人形机器人“C ASBOT 01”,昵称“星期三”
灵宝 CASBOT 发布首款全尺寸双足人形机器人“CASBOT 01”,昵称“星期三”。这款通用类脑 智能机器人身高 179cm,体重 60kg,拥有 52 个自由度,算力达 550T,续航超 4 小时,能 执行多种精细操作。标志着人形机器人赛道迎来新入局者,预计到 2030 年市场规模将达千
亿元。来源:机器之心
0 提示词就能续写小说!彩云科技首创 DCFormer 架构大模型,AI 秒变网文产粮神器
今日,在“From Paper to App”媒体沟通会上,AI 技术公司彩云科技正式推出首款基于 DCFormer 架构开发的通用大模型“云锦天章”,旗下 AI RPG 平台“彩云小梦”也成为首款基于 DCFormer 架构开发的 AI 产品。来源:智东西
OpenAI 或将在明年春季推出 “C ompu ter Use” AI Ag ent ,代号为 Operator
OpenAI 正计划在明年发布能够控制计算机并执行任务的 AI Agent,其代号为 Operator。 据报道,OpenAI 计划在明年 1 月份发布 Operator 的开发者工具和研究预览版本。几周前, OpenAI 的 CEO Sam Altman 表示:“我们会有越来越好的模型,但 我认为下一个巨大突破 将是 AI Agent。”来源:The Verge
苹果推出 Final Cut Pro 11 ,增加多项 AI 功能
苹果公司宣布推出 Final Cut Pro 11,为 Mac、iPad 和 iPhone 带来智能新功能和创意选项, 包括空间视频剪辑功能。Final Cut Pro 11 利用 Apple 芯片和 AI,提供磁性蒙版和转写为字 幕等工具,提升剪辑效率。新版本已在 App Store 提供下载。来源:Apple
11 月 13 日·周三
智谱发布「智谱清流」企业级 AI 智能体开发平台
智谱推出企业级 AI 智能体开发平台“智谱清流”,助力企业 AI 应用落地。智谱清流提供 Agents、 Workflow、知识管理等工具,支持 API、SDK、URL 集成,无需编程即可构建 AI 应用。平台 还提供全程陪跑服务,包括专业咨询和定制 AI 培训,帮助企业实现业务流程全面 AI 化。来 源:智谱 AI
Vidu 1.5 重磅发布,全球首个支持多主体一致性的多模态大模型
Vidu 1.5,全球首个支持多主体一致性的多模态大模型,颠覆传统单点微调方法,全面提升 镜头理解、特效画面、动漫风格等模型能力。Vidu 1.5 能在 30 秒内生成高清视频,支持参 考生视频、图生视频和文生视频,确保角色、物体、场景一致性。清晰度新增支持 720p 和 1080p。来源:Vidu AI
阿里在海外推出对话式 AI 搜索引擎 Accio,面向全球商家开放 阿里巴巴在海外推出了对话式 AI 搜索引擎 Accio,定位全球商家的个人采购代理。Accio 通 过分析供货商、定制范围、价格等信息,帮助用户筛选合适的商家和商品。试运行期间,转 化率提升了 20%-30%,商品量已达亿级。Accio 支持英语、德语、法语、西班牙语和葡萄牙 语。来源:IT 之家
Grok 网页版开放,无需 xAI 会员即可免费访问
马斯克旗下 xAI 推出的人工智能助手 Grok 现已开通网页版,用户无需 xAI 会员即可免费访 问。xAI Grok 聊天机器人支持 X 平台账号登录,提供两种模式:Regular 和 Fun。Grok 2 模 型在基础测试、数学计算和创意写作方面表现出色,同时具备实时搜索 X 平台内容的功能。 来源:AI 工具集
AI 代码编辑器 Cursor 母公司收购 Supermaven
据 TechCrunch 报道,AI 代码编辑器 Cursor 的母公司 Anysphere 收购了 AI 编程助 手 Supermaven,收购金额未披露。Supermaven 将使 Anysphere 能够推出新版 Tab AI 模 型,该模型 “快速、可感知上下文且高度智能”,尤其是在长代码序列方面。Supermaven 的 插件将继续保留,但 Cursor 将成为团队的核心重点。来源:TechCrunch
秘塔 AI 推出了“知识库”功能,首个将 AI 搜索与个人知识库结合的产品
秘塔 AI 推出了“知识库”功能,支持用户将 AI 搜索结果分类收藏至专题中,形成个人知识库。 用户不仅可以收藏秘塔生成的回答,还能收藏搜索到的信息源。秘塔还开放了 API 接口,支
持用户共享和共同编辑知识库,甚至可以创建前端页面应用。秘塔成为首个将 AI 搜索与个 人知识库结合的产品。来源:AI 工具集
百度文库和百度网盘联合发布 AI 创作产品“自由画布”,超 20 万人排队预约 百度文库和百度网盘联合发布的 AI 创作产品“自由画布”日前正式面向公众开启邀测。会后 首日,已吸引超 20 万人排队预约。大会上,李彦宏表示,自由画布就是一个由文心多模态 大模型加持的万能白板,它能激发人们的无限灵感和创造力。来源:AI 工具集
11 月 12 日·周二
端侧非自回归图像生成基础模型 Meissonic 登场,超越 SDXL Meissonic,一种新型端侧非自回归图像生成模型,其高效、高分辨率的图像生成能力超越了 SDXL。该模型通过增强型 Transformer 架构、先进的位置编码和特征压缩层等技术改进,在 图像质量和细节上与领先扩散模型相媲美。Meissonic 在 8GB 显存下即可运行,为中低端显 卡用户提供了便利,同时展现了强大的 zero-shot 图像编辑能力。来源:新智元
百度发布小度 AI 眼镜:全球首搭中文大模型,支持边走边问、第一视角拍摄等
在今日的 2024 百度世界大会上,百度正式发布了小度 AI 眼镜,称该产品为“全球首款搭 载中文大模型的原生 AI 眼镜”。据百度官方介绍,小度 AI 眼镜具备第一视角拍摄、边走边 问、卡路里识别、识物百科、视听翻译、智能备忘等功能。预计小度 AI 眼镜将于明年上半 年正式上市。来源:IT 之家
百度推出零代码 AI 开发平台“秒哒”,一句话生成应用
百度推出“秒哒”零代码 AI 开发平台,用户无需编程即可快速生成应用。平台支持多智能体 协作和多工具、API 调用。李彦宏在百度世界大会上强调,“秒哒”与市面上的代码辅助工具 截然不同,完全不需要用户具备编程知识。预计 2025 年 1 月初,多智能体协作工具“秒哒” 将正式上线。来源:AI 工具集
Qwen2.5-Coder 深夜开源炸场,Prompt 编程的时代来了!
通义千问团队开源了 Qwen2.5-Coder 系列,强大且多样化的开源代码模型,包括代码生成、 修复和推理等,并在多个基准测试中达到行业领先水平。该系列提供从 0.5B 到 32B 的模型 尺寸,Qwen2.5-Coder-32B-Instruct 在多个基准测试中表现出色,与 GPT-4o 相当,支持 40 多种编程语言,并在多语言代码修复上排名第一。来源:魔搭社区
谷歌宣布开源诺奖化学模型 Alphafold-3
谷歌 DeepMind 开源 AlphaFold-3,一款蛋白质预测模型,将极大促进生物、化学、医药领 域研究。该模型能预测多种生物分子结构,包括蛋白质、核酸等,准确率极高。AlphaFold- 3 的开源将加速新药、疫苗研发进程,对生命科学产生重大影响。来源:AI 工具集
OpenAI 大改下代大模型方向,scaling law 撞墙?AI 社区炸锅了
OpenAI 可能正在调整其大模型发展策略,因为最新旗舰模型 Orion 性能提升不如预期,且 面临数据储量耗尽问题。AI 行业正转向训练后模型改进,探索新的 scaling laws。OpenAI 内 部对此有争议,一些研究者认为 AI 发展不会放缓,而其他人则看到了性能提升的递减趋势。 来源:机器之心
11 月 11 日·周一
一句话改图!字节豆包通用图像编辑模型 SeedEdit 上线公测 字节在豆包大模型团队官网上公布最新通用图像编辑模型 SeedEdit。据悉,SeedEdit 支持 一句话轻松改图,包括修图、换装、美化、转化风格、在指定区域添加删除元素等各类编辑 操作,通过简单的自然语言即可驱动模型编辑任意图像。目前,该模型已经在 豆包 PC 端 及 即梦 AI 网页端 开启测试。来源:AI 工具集
Suno 发布 V4 版本音乐生成模型音频演示视频,音质和风格大提升
Suno 公司发布了其 AI 音乐生成模型 V4 版本的首批音频样本,表示将会很快发布 V4 版本 模型。新版本模型在自然音效、多样性和一致性方面都有较大改进。官方尚未透露技术规格 和新功能,Suno 最近增加了 “角色 ”功能,有助于在生成的多首歌曲中保持音乐风格的一致 性。来源:品玩
黄仁勋两万字访谈实录:希望英伟达拥有 5 万名员工和 1 亿个 AI 助手
英伟达 CEO 黄仁勋在对话中预测,个人 AI 助手将很快出现并不断进化,未来英伟达将拥有 5 万名员工和 1 亿个 AI 助手。英伟达的使命是构建一个无处不在的计算平台,推动智能向 通用人工智能(AGI)发展。黄仁勋认为,AI 将改变工作,对人们如何看待工作产生深远影 响,而 AI 的安全和开源模型对行业激活至关重要。来源:APPSO
OpenAI 押注的 1X 解锁新场景,人形机器人化身大厨煎牛排
OpenAI 押注的机器人公司 1X Technologies(简称 1X)正式推出专为家庭设计的人形机器 人原型 NEO Beta(下称 NEO)。日前该机器人解锁了新场景——厨房,NEO 和网红厨师 Nick DiGiovanni 进行了一场家庭烹饪对决,比赛做出完美的五分熟牛排。来源:财联社
昆仑万维 SkyReels AI 短剧平台将于 12 月 10 日在美国正式上线
昆仑万维宣布其 AI 短剧平台 SkyReels 将于 12 月 10 日在美国上线,为北美观众带来智能短 剧新体验。SkyReels 集成了自研剧本、分镜、3D 生成大模型和 AI 3D 引擎,优化了剧本生 成和角色生成,提升了视频生成效率和 BGM 匹配精准度,大幅降低创作门槛,推动 AI 娱乐 市场发展。来源:昆仑万维
谷歌 AI 视频编辑应用 Google Vids 上线:帮你写脚本、剪片、找素材等 谷歌宣布正式面向 Google Workspace 用户推出 Google Vids 应用。Google Vids 集成了 Gemini 大模型,可以帮助用户创建幻灯片、编写视频脚本,并从 Shutterstock 寻找素材, 还可以为整个视频制作分镜头脚本。来源:IT 之家
李飞飞新动作,推出新视频基准数据集 HourVideo
斯坦福大学李飞飞与吴佳俊团队发布了 HourVideo,一个用于一小时视频语言理解的新基准 数据集。该数据集包含 500 个自我中心视频,涵盖总结、感知、视觉推理和导航任务,共有 12,976 道选择题。尽管多模态模型如 GPT-4 和 LLaVA-NeXT 有所进步,但人类专家的表现 远超这些模型,显示出人工智能在多模态能力上的巨大差距。来源:AI 工具集
11 月 08 日·周五
智谱 AI 宣布推出全新 AI 视频模型“新清影”,支持 10s、4K、60 帧视频
智谱 AI 宣布推出全新 AI 视频模型“新清影”,支持 10s、4K、60 帧视频,并能生成匹配的 AI 音效。同时,智谱将“新清影”背后的 CogVideoX v1.5 模型开源,促进 AI 视频开源社区和生 态的发展。智谱还将上线 AI 音效模型 CogSound,该模型能为视频自动配音效,提高音效与 画面的匹配度。来源:AI 工具集
即梦 AI 全新视频模型 S2.0 正式上线,全力激发创意潜能
字节跳动旗下的 AI 内容平台即梦 AI 宣布,即日起,字节跳动自研的视频生成模型 Seaweed 面向平台用户正式开放。用户登录后,在“视频生成”功能下,视频模型选择“视频 S2.0”即可 体验。备受期待的 PixelDance 视频生成模型也即将上线,敬请关注。来源:AI 工具集 OpenAI:即日起,chat.com 就是 ChatGPT 的入口
OpenAI 近日收购了互联网早期域名 chat.com,该域名现已重定向至其 AI 聊天机器人 ChatGPT。chat.com 是 1996 年注册的,去年 HubSpot 联合创始人兼 CTO Dharmesh Shah 以 1550 万美元购得此域名。来源:IT 之家
11 月 07 日·周四
阿里测试 AI 创作工具“Animod e”,试水动漫智能创作 阿里巴巴正在测试一款名为“Animode”的 AI 视频创作工具,能够将现实世界的视频一键转 换为二次元风格视频,人物动作和招式流畅自然。Animode 提供多种样式和场景,支持动作 捕捉和实时渲染,提高视频色彩和动作流畅性。腾讯等公司也在推出类似工具,推动动漫内 容的快速产出。来源:AI 工具集
火山写作即将合并到豆包,原有站点将全面关停
火山写作官
方宣布将启动品牌升级计划,产品将逐步合并到“豆包”中。根据官方公告,升级
计划将分为三个阶段。从 2024 年 9 月 13 日起,AI 写作、全文润色、主题深挖等依赖大模 型能力的功能将停止服务。如果用户在创作中对这些功能有需求,可以在豆包通过发送指令 来完成。从 2024 年 12 月 31 日起,火山写作页面将全面关停,届时本页面将自动跳转至豆 包。来源:AI 工具集
Perplexity 即将完成新一轮融资,估值或将达到 90 亿美元
据 The Information 报道,Perplexity 新一轮融资即将完成,估值将达到 90 亿美元。据悉 次轮融资由 Institutional Venture Partners 进行领投,投资金额为 5 亿美元。这次融资是 Perplexity 今年的第四轮融资,而 Institutional Venture Partners 此前也多次对该公司进行 投资。来源:品玩
小鹏 AI 机器人来了!身高 1 米 8,用上大模型,已进厂拧螺丝
小鹏汽车在 AI 科技日上发布了 AI 机器人 Iron,这款 1.8 米高的机器人拥有 62 个自由度, 手部灵活且具备触觉反馈。采用了小鹏自研的图灵 AI 芯片和天玑 AIOS,已在小鹏广州工厂 投入生产小鹏 P7+。Iron 的设计考虑了人类生理特征,提高用户和社会的接受度。来源:机 器人前瞻
11 月 06 日·周三
消息称王慧文回归美团,带队独立探索 AI 应用
《智能涌现》今日援引多个独立信源报道,原美团联合创始人、光年之外创始人王慧文如今 已经回归,在美团带队探索 AI 应用。王慧文所在的美团 AI 团队被称为 GN06。该团队目 前的主要业务方向包括情感陪伴、聊天机器人等。GN06 的主要产品之一,是在 2023 年 11 月上线的 AI 情感陪伴产品 Wow。来源:智能涌现
达摩院发布八观气象大模型:精度达 1 小时 1 公里,率先落地新能源场景 阿里巴巴达摩院发布八观气象大模型,时空精度达 1 小时 1 公里,提升新能源电力系统预 测性能。模型融合多源数据,提高辐照度、风速等气象指标预测精度,助力国网山东电力调 控中心应对极端天气,提升新能源发电功率和电力负荷预测准确率至 96%和 98%以上。来源: 机器之心
11 月 05 日·周二
智谱清言联合 AiPPT 推出 AI 生成 PPT 工具:清言 PPT 智能体
智谱清言联合 AiPPT 推出 清言 PPT 智能体,支持文本、文件和网址内容快速创建 PPT。清 言 PPT 提供云知识库、大纲编辑、AI 追问优化等功能,并提供多种模板。适用于职场人士、 学生、自由职业者等,提高 PPT 制作效率。来源:AI 工具集
腾讯发布业界最大规模开源 MoE 模型及 3D 生成模型
腾讯发布了业界最大规模的开 源 MoE 大 语 言 模 型 Hunyuan-Large 和 3D 生 成 模 型 Hunyuan3D-1.0 。Hunyuan-Large 拥有 3890 亿参数,支持长上下文处理,优化了推理框 架,性能领先。Hunyuan3D-1.0 支持文字和图像生成 3D 模型,具有泛化性,已在腾讯内部 多场景落地。来源:AI 工具集
昆仑万维重磅发布天工 AI 高级搜索功能,做最懂金融投资、科研学术的 AI 搜索 昆仑万维集团发布天工 AI 高级搜索功能,提供金融投资和科研学术领域的专业搜索体验。 通过升级推理能力、金融投资和科研学术专业搜索,以及文档 AI 阅读分析的优化,实现精 准、高效的问题解答。来源:昆仑万维
Perplexity CEO 最新洞察:AI 产品除订阅还有许多变现路径,API 成本每半年减少 50%,未
来将专注增长
Perplexity CEO 在 TechCrunch Disrupt 上讨论了 AI 搜 索 的 未 来 和 产 品 策 略 。 他 强 调 Perplexity 将根据用户需求开发功能,替代传统搜索引擎。商业化方面,他提到 AI 行业运 营成本高昂,但 API 成本正下降,Perplexity 将探索灵活的广告变现模式,并推出 Perplexity Publisher Program,通过广告收入分享和定制 AI 助手,帮助媒体和内容创作者参与 AI 搜索 生态。来源:有新 Newin
马斯克的 xAI 放大招了!Grok API 开启公测,每月 25 美金免费额度,人人可参与
马斯克的 xAI 公司推出了 Grok API 公测,提供每月 25 美元的免费额度。新模型 grok-beta 性能提升,即将推出多模态版本。预付费用户将获得额外免费额度。xAI API 兼容 OpenAI 和 Anthropic SDK,易于迁移。开发者可在 console.x.ai 注册参与公测。来源:腾讯新闻
估值超 140 亿、OpenAI 贝佐斯下场,这家让机器人装 AI“大脑”的公司获 28 亿新融资
利用 AI 技术帮机器人造“大脑”的美国独角兽公司物理智能(Physical Intelligence)宣布完成 4 亿美元(约合人民币 28.39 亿元)融资。本轮由亚马逊创始人 Jeff Bezos、风险投资公司 Thrive Capital 和 Lux Capital 领投,其他投资者包括 OpenAI、Redpoint Ventures 和 Bond, 投前估值达 20 亿美金(约合人民币 141.94 亿元)。来源:钛媒体
创新能力超越 AI Scientist,上海 AI Lab「AI 科研团队」VirSci 来了 上海人工智能实验室推出 VirSci 系统,一个基于大语言模型的多智能体协作平台,模拟科学 家团队合作以加速科研创新。与单智能体系统相比,VirSci 通过团队合作生成更具创新性和 影响力的科研想法,展现出在“科学”研究工具中的潜力。来源:AI 工具集
11 月 04 日·周一
15 岁山东初中生做 CTO,开源项目刚刚被数百万元收购了
15 岁山东初中生 zmh 成为 CTO,其开源项目 ChatNio 被数百万元收购。项目集成了多个 AI 模型,提供全面服务,包括 chatbot、图像生成等,并以高性价比获得超过 10 万月活用户, 实现每月约 5 万净利润。zmh 虽年轻,但已拥有 7 年项目开发经验,技能涵盖全栈开发、网 络安全等领域。来源:机器之心
Meta 公布机器人触觉感知研究成果:用手指传感器结合“AI 大脑 ”理解/操作外界物体
Meta 发布新闻稿,介绍了旗下 FAIR(基础人工智能研究)团队对于机器人触觉感知能力的 研究情况,这项研究旨在让机器人通过触觉方式进一步理解和操作外界物体。团队目前开发 的机器人触觉感知能力主要就是为了让机器人检测其交互的物体的材质与触感,让 AI 判断 机器人应当如何操作这些设备(例如拿起鸡蛋等场景)。来源:IT 之家
Runway 推出高级运镜功能,解决 AI 视频场景一致性问题
Runway 的新功能支持用户在生成新视频时,对 AI 生成的效果和场景进行更细致的控制。使 用者现在可以放大和缩小场景和主题,甚至保留 AI 生成的角色形式和背景,将他们和观众 真实地置于一个完全实现的、看似 3D 的世界中。来源:AI 工具集
每帧都是 AI 实时生成的,全球首款 AI 游戏问世了
全球首款 AI 实时生成游戏 Oasis 问世,由 Etched 和 Decart AI 联合开发。游戏中的每一帧 画面都由扩散模型实时预测生成,以 20 帧每秒的速度渲染,实现零延迟。所有代码和模型 权重已开源,标志着 AI 技术在游戏领域的重大突破。来源:机器之心
中国电信 TeleAI 星辰语音大模型升级,支持中英双语及 40 种方言任意混说 时隔不到半年,TeleAI 星辰语音大模型的多方言能力再次升级,攻克了湛江话、宜宾话、洛 阳话、烟台话等方言,将方言种类从 30 种提升至 40 种,并引入对英文的识别。与传统的 有标注训练方法相比,TeleAI 通过预训练语音识别模型,利用海量无标注数据进行预训练, 再通过少量有标注数据进行微调。来源:IT 之家
11 月 01 日·周五
魔音工坊推出“3s 声音克隆”服务,首次克隆免费
魔音工坊推
出“3s 声音克隆”服务,首次克隆免费。只需对着手机录一句话,3 秒声音克隆技
术快速捕捉并分析声音特征。通过 AI 学习训练,你的说话方式可以被 1:1 完美复刻,还原 你的真实音色,拥有一个只属于你的 AI 声音分身。“一端克隆、三端使用”,用户通过小程序 克隆声音,可以在小程序、APP 和网页端直接编辑使用克隆音色。来源:AI 工具集
首关 15 亿元,中国大模型独角兽智谱 AI 要学美国 OpenAI 当基金 LP 智谱边找钱、边撒钱,当起“攒局者”。截至目前,智谱 Z 计划已累计链接 1200+大模型初创 项目,其中投资超过 20 家、孵化超过 30 家企业。11 月 1 日消息,国内大模型独角兽公司 智谱 AI 宣布,领衔并联合石景山现代创新产业发展基金、奥飞数据、燕北资本、复琢投资 等设立的风险投资基金“Z 基金”(智谱生态基金)于近期完成首关,管理规模 15 亿元人民 币,投资方向主要覆盖大模型赛道,侧重早期。来源:钛媒体
夸克发布“灵知 ”学习大模型,号称考研数学题正确率、得分率比肩 OpenAI o1 夸克今日宣布全面升级“AI 搜题”产品,用户可通过手机、平板、电脑等设备搜到各类新题和 难题,AI 还会分步骤进行题目讲解,并支持用户随时提问。同时,夸克发布“灵知”学习大模
型。
官方此次表示,在最新评测中,夸克“灵知”学习大模型在考研数学题上的正确率和得分
率已经可以比肩 OpenAI 最新发布的 o1 模型。来源:AI 工具集
知乎直答新功能上线,「专业搜索」带来更高效的知识获取方式
知乎 AI 搜索产品知乎直答正式上线“专业搜索”功能,引入维普、知乎精选等专业内容源,涵 盖超过 5000 万篇中英文文献数据,极大满足广大用户对于高质量信息的需求。同时,知乎 直答“专业搜索”支持文件上传和超长文件解析,并针对提供单篇精读、指定来源问答等功能, 更加契合专业人士的生产力场景。来源:知乎日报
正式挑战谷歌!OpenAI 上线 ChatGPT 搜索功能
搜索功能先上线付费版 ChatGPT Plus 和 Team,未来几个月内面向所有免费用户;搜索模型 为 GPT-4o 微调版本,后训练得到 o1-preview 输出支持;ChatGPT 可根据用户询问搜索网 络,用户也可点击搜索图标手动搜索;提供天气、体育比赛、股票、地图等搜索信息,聊天 时得到的搜索信息提供来源侧边栏。来源:华尔街见闻
继 ChatGPT 后,Anthropic 旗下 Claude AI 推出桌面客户端
继 ChatGPT 后,目前又有一款海外流行的人工智能 Claude AI 发布了桌面版客户端,目前 相关客户端处于测试状态,支持 Windows / macOS / iOS 平台。Anthropic 在 X 平台官宣 了这一消息,同时透露用户可以使用热键快速唤起客户端界面,不过 Claude AI 客户端定位 AI 搜索引擎,与 OpenAI 的 ChatGPT 客户端聊天有所差异。来源:IT 之家
10 月 31 日·周四
字节跳动推出 AI 模型社区平台:炉米 Lumi,内测中暂未开放
炉米 Lumi 是字节跳动推出的 AI 模型社区平台,致力于构建一个集成平台,让 AI 爱好者、 研究人员和开发者分享、协作并优化 AI 模型。炉米 Lumi 支持模型上传、展示、Workflow 搭 建以及 LoRA 训练,提高 AI 应用效率和性能。目前,炉米 Lumi 处于内部测试阶段,仅向白
名单用户开放。来源:AI 工具集
苹果最强 AI PC 登场!首搭 M4 Max 芯片,续航飙到 24 小时
苹果 M4 系列 MacBook Pro 终于来了!与上一代相比,新款 MacBook Pro 的外观几乎没有 变化,价格仍为 12999 元起。其中的重点更新就是全系搭载 M4 系列芯片、支持苹果 AI, 并首搭雷雳 5 接口、纳米纹理显示屏以及支持视频人物居中的 1200 万像素前置摄像头,续 航最长达到 24 小时,30 分钟就能充一半电。来源:智东西
神秘大模型“小熊猫”身份揭晓:英国 AI 公司最新图像生成模型 Recraft V3
Recraft AI 推出的 Red_Panda 模型在图像生成领域树立新标准,以 1172 的 ELO 评分领先 Hugging Face 的 Text-to-Image Benchmark。Red_Panda 模型擅长长文本图像生成,提供精 确的风格控制和图形设计定位功能,支持矢量图像生成,并配备 AI 图像编辑工具,满足专 业设计师需求。来源:AI 工具集
百川智能推出一站式大模型商业化解决方案 百川智能推出一站式大模型商业化解决方案,即 1+3 产品矩阵(全链路优质通用训练数据, Baichuan4-Turbo、Baichuan4-Air 两款模型和全链路领域增强工具链),该方案支持企业将 专有数据与百川智能自用的全链路训练数据混合,对 Baichuan4-Turbo、Baichuan4-Air 两款 模型进行调优和增强,实现了 96%多场景可用率。来源:智东西
OpenAI 开源 SimpleQA 新基准,专治大模型“胡言乱语”
OpenAI 宣布,为了衡量语言模型的准确性,将开源一个名为 SimpleQA 的新基准,可衡量 语言模型回答简短的事实寻求(fact-seeking)问题的能力。SimpleQA 将是一个简单但具有 挑战性的基准,用于评估前沿模型的事实准确性。SimpleQA 的主要限制在于其范围 —— 尽管 SimpleQA 准确,但它只在短查询的受限设置中测量事实准确性,这些查询是事实导 向的,并且有一个可验证的答案。来源:AI 工具集
OpenAI ChatGPT 高级语音模式已登陆 Windows 和 Mac 平台,对话更自然
OpenAI 今日宣布,ChatGPT 的高级语音模式(Advanced Voice Mode,简称 AVM)现已登 陆 Windows 和 Mac 平台。AVM 基于 OpenAI 最先进的 GPT-4o 模型运行,允许用户像 与真人对话一样与 ChatGPT 进行交流,包括打断、停顿等自然语言行为。OpenAI 表示, AVM 提供了更自然、实时的对话体验,能够实时感知和回应用户的情绪。来源:IT 之家
美团推出 AI 创作小程序:妙刷,支持生成趣味图像和视频
美团推出的 AI 创作小程序“妙刷”支持生成趣味图像和视频,妙刷具备多样化的 AI 图像玩法, 如修图、文本生图等,能将日常素材转化为艺术作品,提供主题模板并智能解读图像。妙刷 还支持艺术风格转换,适用于个性化趣味照片制作、节日主题创作等场景。来源:AI 工具集 GitHub Spark:AI 驱动的零代码开发工具,快速构建微应用 报道称微软旗下的代码托管平台 GitHub 推出 Spark,让用户仅通过日常语言描述,就能构 建完善的应用功能。用户借助 Spark 工具,并不需要编写代码以及深厚的编程专业知识, 只需要详细解释希望开发的应用功能,从托管到数据存储,Spark 工具能自动处理所有复杂 的技术细节。来源:AI 工具集
10 月 30 日·周三
豆包正式开放视频生成内测申请入口,用豆包电脑版可加速审核 豆包正式开放视频生成内测申请,图片文字一键成片。豆包视频生成具备出色的语义理解能 力,能将信息转化为生动逼真的视频内容。支持酷炫的动态和运镜,多镜头保持一致,风格 比例随意挑选。官方提示使用豆包电脑版可加速审核。来源: AI 工具集
中国 AI 应用 10 月广告投放超 3 亿元,中美 AI 大模型开始“分道扬镳”
2024 年,中国、美国之间的 AI 大模型竞赛不再只是“追赶”,而是开始各不相同:中国 AI 大
模型“卷”算力、“卷”价格,而且“卷”获客、“卷”变现能力;美国 AI 专注于前沿 AI 模型技术
研究,并且加速 AI 应用和落地。钛媒体独家获悉,截至 10 月 29 日,Kimi 智能助手、 字节
跳动豆包、腾讯元宝等所有 AI 应用 10 月全网广告投放(投流)支出超过 3 亿元人民币。 来源:钛媒体
o1 之后,GitHub 又接入 Claude、Gemini,网友:也杀不死 Cursor
GitHub Copilot 引入新模型,包括 Anthropic 的 Claude 3.5 Sonnet、Google 的 Gemini 1.5 Pro 和 OpenAI 的 o1-preview 及 o1-mini,增强编码能力。新模型将在 Copilot Chat 中提供, 提高代码理解和生成效率。同时,Perplexity 也已经集成到 GitHub Copilot 中,还推出了 GitHub Spark 支持以自然语言构建应用程序。网友认为这些更新是 GitHub Copilot 追赶 Cursor 的一种表现。来源:机器之心
Pika AI 推出万圣节特效生成,包含悬浮、弹眼睛和头部分离等特效
Pika 最近更新了 Pikaffects,这次是专为万圣节打造的特别版本。用户可以生成包含悬浮、 弹眼睛和头部分离等特效的视频。Pika 在视频生成领域找到了一个垂直路线,专做各种特 效。来源:AI 工具集
阿里巴巴国际站推出升级版 AI 外贸产品:AI 生意助手 2.0
阿里巴巴国际站推出升级版 AI 外贸产品:AI 生意助手 2.0,包含四个 AI Agent,覆盖发品、 接待、营销和合规等外贸经营难点,旨在提升转化率和创造增量生意。AI 助手能实时洞察买 家需求,提供个性化服务,全球已有超 6 万中小企业使用。总裁张阔预测,未来外贸将全面 AI 化,80%的新增商业价值将在 AI 驱动下重新分配。来源:AI 工具集
围攻谷歌!Meta 秘密训练 AI 搜索引擎 8 个月,苹果与 OpenAI 发力
据 The Information 报道,Meta 正在秘密研发一款自己的 AI 搜索引擎,旨在提升其 Meta AI 聊天机器人的搜索能力,并减少对谷歌和微软两大科技巨头的依赖。据报道,该项目已经持 续了 8 个月,目标是为 Meta AI 聊天机器人提供独立的时事信息检索服务,降低因与苹果、 微软等公司外部协议变动所带来的潜在风险。来源:智东西
10 月 29 日·周二
爱诗科技正式发布 PixVerse V3,新增创意模板、对口型、视频延长等功能 爱诗科技正式发布了 PixVerse V3,具备多模态生成能力,包括创意模板、对口型、故事续 写和风格转换。能精准理解提示词,生成有情感和质感的视频,实现现实与虚拟的融合。 PixVerse V3 支持多种视频比例和风格化功能,新增对口型功能,能自动适配视频中人物的 口型。Effect 功能提供了 8 个创意效果,支持类似 Pika 的“捏爆”特效。来源:AI 工具集
苹果智能正式上线,同时发布新款 iMac
10 月 28 日,苹果公司宣布,苹果智能(Apple Intelligence)正式在 iPhone,iPad 和 Mac 上 线。同时,苹果公司发布配置 M4 芯片和苹果智能(Apple Intelligence)的新款 iMac,新款 iMac 起售价为 1299 美元,配备 16GB 内存,将于 11 月 8 日上市。来源:爱范儿 MiniMax:7000 万美金营收下的甜蜜和隐忧
MiniMax 的 AI 应用 Talkie 在海外市场表现出色,预计年收入超过 7000 万美元,成为公司主 要收入来源。Talkie 自 2023 年 6 月上线以来,迅速占据全球陪伴类 AI 应用下载量前三,吸 引大量用户并实现高付费率。尽管国内版本“星野”未能复刻其成功,MiniMax 仍计划拓展东 南亚市场,以应对营收来源单一的风险。来源:36 氪
神秘模型“小熊猫”一夜刷屏:排名超 Flux、Midjourney 神秘文生图模型”red_panda”(小熊猫)近日走红,其 ELO 得分超过 Flux 1.1 Pro,胜率高达 79%,每 7 秒生成一张图像。该模型无人认领,引发广泛猜测,可能来自中国厂商或 Midjourney V7 等。量子位进行了实测,red_panda 在竞技场中表现强劲,但并非压倒性胜利。来源:量
子位
微软开 源 OmniParser 纯视觉 GUI 智能体 :让 GPT-4V 秒懂屏幕截图, 可操控手 机 / 电
脑
微软公司宣布开源 OmniParser,是一款解析和识别屏幕上可交互图标的 AI 工具。该工具并 不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动 化领域的一项令人兴奋的进展。OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML 标签或视图层次结构等显式基础数据,能够在桌面、移动设备 和网页等上跨平台工作,提高用户界面的解析准确性。来源:IT 之家
10 月 28 日·周一
科大讯飞推出讯飞星火 PC 电脑版,新增快捷键调起和深度搜索功能 科大讯飞推出讯飞星火 PC 电脑版,支持 Windows 和 Mac 下载安装使用。具备 AI 搜索、 PPT 生成、图像生成、多模态交互等功能,新增快捷键调起和深度搜索功能。用户可通过自 然对话完成写作、搜索、问答、翻译等任务,提升办公自动化、教育学习、内容创作等领域 的效率。来源:AI 工具集
智谱 AI 推出 AutoGLM 智能体,能模拟用户点外卖、发微信、抢红包
智谱 AI 发布 AI 智能体助理 AutoGLM,通过语音或文字指令,可自动操作手机 App 完成网 购、点外卖、抢红包等任务。智谱还发布了 GLM-4-Voice 语音模型,支持多语言、多方言 实时交互。AutoGLM 已与荣耀等手机厂商合作,推动 AI 助理在手机终端的应用。来源:AI 工具集
谷歌 AI 播客刚火,Meta 就开源了 NotebookLlama 平替,但效果一言难尽
谷歌 AI 播客产品刚火,Meta 紧随其后,开源了 NotebookLM 的替代品 NotebookLlama,使 用 Llama 模型处理任务。尽管 NotebookLlama 效果不如 NotebookLM 自然,但开源代码允 许用户自定义优化,有潜力提升。项目提供了基于 PDF 构建播客的教程,包括预处理、文本 编写、内容优化和文本到语音转换等步骤。来源:AI 工具集
谷歌发布 Unbounded:首款 AI 生成式无限游戏,将带你体验角色生命的无限可能 谷歌和北卡罗来纳大学教堂山分校的研究团队开发了一款名为 Unbounded 的 RPG 游戏,游 戏利用大模型生成角色和环境,支持玩家自定义角色人生并进行开放式互动。游戏每秒刷新 一次,基于 LLM 的游戏引擎可实时生成连贯叙事和角色响应,灵感来自《模拟人生》。来源: AI 工具集
谷歌 DeepMind 开源 SynthID Text 工具,可辨别 AI 生成的文字
谷歌 DeepMind 开源了 SynthID Text 工具,这是一个可以辨别 AI 生成文字的水印工具。 SynthID Text 通过分析文本中特定 Token 的概率分数来识别 AI 生成的内容,不影响输出质 量和准确性。谷歌 DeepMind 的 SynthID-Text 文本水印技术登上 Nature 杂志封面,并已开 源。来源:IT 之家
通义新增“代码模式”,代码刚写完,预览就出来了 阿里旗下的通义正式宣布了「代码模式」,并开放试用预约,首批邀请 1024 名用户进行体 验。通义代码模式旨在降低应用开发的门槛。它针对简单的代码和应用生成需求,主打一个 所见即所得。具体来说,人与 AI 大模型的交流现在会出现在一个专门的窗口里,AI 大模型 生成的代码会实时地在网页上跑出来以供预览。来源:机器之心
腾讯推出了 AI 智能工作台产品:ima.copilot,基于混元大模型
腾讯 PCG 团队近日推出了 ima.copilot AI 智能工作台,目前仅支持 Mac 端。产品定位为个 人知识助理和效率工具,以“智慧因你而生”为口号,通过大模型通用知识与用户个性化知识 结合,提升搜索、阅读、写作效率。主要功能包括搜索、知识库和笔记模块,支持截图识别、
文件上传、AI 搜索、内容解读等。来源:AI 工具集
10 月 25 日·周五
Google DeepMind 推出 AI 音乐生成工具:MusicFX DJ
Google DeepMind 推出了 AI 音乐生成工具 MusicFX DJ,能根据用户输入的文本提示实时生 成音乐。支持多提示词混合,调整各提示词的重要性,精确控制音乐风格。MusicFX DJ 还提 供直观的音乐控制界面,包括乐器编排、音乐纹理调整和节奏控制,支持实时 48 kHz 立体 声音频流,支持用户分享和下载音乐。来源: AI 工具集
Perplexity 发布了 macOS 客户端,快速攀升至 Mac App Store 免费榜榜首
Perplexity 推出了 macOS 客户端,Perplexity macOS 客户端支
持语音输入、文本输入、线
索跟踪、来源跟踪、历史搜索等功能,且数据与其他版本同步。用户用快捷键 ⌘ + ⇧ + P
快速唤起搜索功能,增加了便捷性。来源: AI 工具集
Claude AI 上线新工具:分析、可视化 CSV 文件中的数据
报道称 Anthropic 公司在更新 Claude 3.5 Sonnet 并推出全新的 Claude 3.5 Haiku 后,还推 出了全新的分析工具,可以编写和运行 JavaScript 代码,实现处理数据、进行分析并生成实 时洞察。此分析工具将作为 Claude.ai 的新内置功能提供,类似于 ChatGPT 的代码解释器, 它能够编写和运行 JavaScript 代码,处理数据、进行分析并生成洞察。来源: IT 之家 MiniMax 将于 11 月发布首款对标 GPT-4o 的端到端实时语音对话 API 产品
AI 大模型领域的独角兽 MiniMax 将于今年 11 月发布对标 GPT-4o 的 Realtime API 服务,将 提升端到端实时多模态处理能力,并带来更低延时、更自然、更沉浸的实时语音对话,为企 业协作、社交、直播、游戏等多种场景提供服务。内部正在打磨这款产品,并非常希望 11 月发布时产品效果直接对标 OpenAI GPT-4o。来源: 钛媒体
全球最强模型:OpenAI 被曝 12 月推出 Orion,AI 性能百倍级跃升
科技媒体 The Verge 今天(10 月 25 日)发布博文,报道称 OpenAI 计划今年 12 月推 出代号为“Orion”的新款前沿模型。虽然在 OpenAI 内部,Orion 被视为 GPT-4 的继任者, 但尚不清楚公司是否会在外部称其为 GPT-5。OpenAI 高管曾透露“Orion”要比 GPT-4 强大 100 多倍。来源: IT 之家
ElevenLabs 推出 AI 语音生成工具:Voice Design,颠覆传统 AI 配音
ElevenLabs 最近推出了一款名为 Voice Design 的 AI 语音生成工具,通过简单的文本描述即 可创建个性化语音。Voice Design 支持用户通过文本提示生成自定义语音,包括调整年龄、 性别、口音、语调、音高等多种特征,生成逼真且具有情感的 AI 语音。Voice Design 还支 持创作角色化语音,例如精灵、食人魔或机器人的声音。来源: AI 工具集
10 月 24 日·周四
智谱 AI 推出 AutoGLM-Web,能模拟用户进行网页浏览和交互
AutoGLM-Web 是一个 AI 浏览器助手,能模拟用户进行网页浏览和交互,执行高级检索、 内容总结和邮件回复等任务。AutoGLM-Web 使用自进化在线课程强化学习框架,不断提升 性能,不依赖特定 API,适用于多种自动化办公和在线研究场景。目前可通过“智谱清言”插 件使用。来源: AI 工具集
快手:可灵 AI 用户已超 360 万,独立 App 即将上架
2024 中国计算机大会上,快手副总裁、大模型团队负责人张迪介绍,自今年六月发布以来,
可灵 AI 已有超过 360 万用户,累计生成 3700 万个视频和超过一亿张图片。近期可灵 AI
还将上架独立 App,方便用户使用。来源: 36 氪
讯飞星火 4.0 Turbo 大模型发布:七大能力全面超越 GPT-4 Turbo
在今日上午的 2024 科大讯飞全球 1024 开发者节上,科大讯飞正式发布“讯飞星火 4.0 Turbo”。讯飞星火 4.0 Turbo 号称迎来全新升级,七大能力全面超越 GPT-4 Turbo,数学能 力、代码能力超过 GPT-4o。讯飞星火 4.0 Turbo 已完成超长思维链、树搜索和自我反思评 价等算法验证,预计今年底可实现类 o1 的高难度数学能力。来源: IT 之家
智谱与中国三星官宣战略合作:AI 手机与 GLM 大模型相结合 中国三星与智谱华章(简称“智谱”)昨日宣布战略合作,双方称将在 AI 手机领域展开深度 共创,共同打造卓越体验的 AI 产品。近期高通宣布与智谱合作,为骁龙 8 至尊版适配优 化 GLM-4V 端侧视觉大模型,支持丰富的多模态交互方式。来源: 智谱 AI
AI 手机看荣耀:荣耀 MagicOS 9.0 正式发布,开启手机自动驾驶新时代
荣耀在 MagicOS 9.0 发布会及开发者大会上正式发布行业首个搭载智能体的个人化全场景 AI 操作系统——MagicOS 9.0,推出全新自研魔法大模型家族,并宣布 YOYO 助理正式升级 为 YOYO 智能体。发布会上,荣耀全新智能体商店正式上线,YOYO 智能体将携手百模生 态,共创智能新世界。来源: 荣耀 HONOR
用光学让 AI 算力集群提速数十倍,Lightmatter 融资 4 亿美元
一家专注于光子计算的公司 Lightmatter 已经将芯片互连速度提高到 30Tbps,100Tbps 的版 本也在路上。它有光子计算单元,有光学芯片封装和传输技术,能够系统化提升整个 AI 计 算集群的计算力,计算效率,并降低功耗。近日,Lightmatter 获得了 4 亿美元的 D 轮融资, 累计融资金额达到 8.5 亿美元。来源: 钛媒体
10 月 23 日·周三
Ideogram 推出创意画布工具 Ideogram Canvas,支持在无限大虚拟画布上操作和组合图像 Ideogram 推出创意画布工具 Ideogram Canvas,支持用户在无限大虚拟画布上操作和组合 图像。用户可以上传视觉元素,利用 AI 技术生成新图像,并进行编辑、调整大小、重新排 序等操作。Ideogram Canvas 提供 Magic Fill 和 Extend 功能,帮助用户编辑图像的特定区域 或扩展图像,且保持一致的风格。来源: AI 工具集
Runway 推出 AI 生成式角色表演工具:Act-One,可生成虚拟角色动画
Runway 公司推出了一款名为 Act-One 的 AI 生成式角色表演工具,能够将视频和语音输入 转换成任意风格的虚拟角色动画,同时保持表情、语音和口型的同步。Act-One 简化了动画 制作流程,仅需一台普通摄像头即可制作逼真动画,支持多种角色风格,并能处理复杂的多 轮对话场景。来源: AI 工具集
Genmo 公司宣布开源其顶级视频生成模型 Mochi 1,能生成每秒 30 帧、 5.4 秒长的视频 Genmo 公司宣布开源其顶级视频生成模型 Mochi 1,模型展示了卓越的运动质量和提示遵 从性。Mochi 1 基于 100 亿参数的 Asymmetric Diffusion Transformer 架构,能生成每秒 30 帧、5.4 秒长的视频。模型初始分辨率为 480P,通过超分可提升至 960P。来源: AI 工具集 Stability AI 发布了自家最强的模型 Stable Diffusion 3.5,包含三个版本
Stability AI 发布了 Stable Diffusion 3.5 模型全家桶,包含三个版本:Large、Large Turbo 和 Medium。模型能满足不同用户需求,从专业用途到消费级硬件的“即插即用”。Large 版拥有 80 亿参数,适合高分辨率专业应用;Large Turbo 版快速生成高质量图像;Medium 版则在 质量和易用性间取得平衡。来源: AI 工具集
Anthropic 推出升级版 Claude 3.5 Sonnet 模型,可操控用户电脑
Claude 发布新版本的 3.5 Sonnet 和新发布的 3.5 Haiku,能力都有大进步。这次 Claude 发 布了一个重磅新功能——一个新的「计算机使用」API,该模型可以模拟按键、按钮点击和 鼠标动作,实质上模拟了一个人坐在电脑前的操作。开发者现在可以通过 API 指导 Claude 像人类一样操作计算机, 包括观察屏幕、移动鼠标、点击按钮和输入文字。来源: 极客公园
讯飞星火推出“星火插件”,支持划词搜索、翻译、解释,生成网页摘要 讯飞星火推出“星火插件”,支持划词搜索、翻译、解释,生成网页摘要,以及一键收藏信息 等功能,提升用户的信息检索、阅读和知识管理效率。兼容主流浏览器,支持个性化设置和 跨平台同步。适用于学术研究、技术文档阅读、多语言内容理解、信息筛选总结以及个人知 识管理等场景。来源: AI 工具集
10 月 22 日·周二
科大讯飞推出 AI 虚拟角色互动聊天应用:麦芽岛
科大讯飞推出 AI 虚拟角色互动聊天应用 麦芽岛,用户可创建自定义虚拟角色,进行沉浸式 对话和情感陪伴。应用提供丰富的角色选择和社交探索功能,适用于社交互动、情感支持、 创意玩法、文化娱乐和教育学习等场景。用户可通过官方网站或苹果应用商店下载体验。来 源: AI 工具集
Midjourney 下周上线新图像编辑器:让“二创 ”AI 图片变得更简单
首席执行官 David Holz 昨日在 Discord 平台宣布,将于下周为 Midjourney 推出全新的 AI 图像编辑器工具。用户上传图像后可展开包括放大、缩小、调整角度等多种操作,这些操作 不再需要 Discord,只需简单命令即可完成;用户可以使用数字画笔进行修补,进行更精细 的修改。来源: IT 之家
高通发布骁龙 8 至尊版,AI 大模型联手腾讯智谱,小米 15 抢首发,荣耀剧透新机 高通发布了新一代旗舰手机 SoC 骁龙 8 至尊版和第二代高通 Oryon CPU,AI 性能的大幅提 升。骁龙 8 至尊版采用台积电第二代 3nm 工艺,CPU 性能提升 45%,功耗降低 40%,AI 功 能增强。高通还宣布与腾讯混元和智谱 AI 合作,将大模型部署在骁龙 8 至尊版手机上。小 米 15 系列将首发该芯片,荣耀 Magic7 系列也将搭载。来源: 智东西
商汤 CEO 徐立发布十周年内部信,提出“三位一体”新战略成为 AGI 算力+模型服务商 商汤科技董事长兼首席执行官徐立今天发布一份题为《商汤十周年再出发:专注聚焦、知行 合一》的内部信。徐立首次提及公司最新确立的“大装置-大模型-应用”的三位一体战略,同 时宣布将围绕战略和核心资源,将构建更加集中和高效的组织架构,加快组织和管理的轻盈 化进程。来源: 钛媒体
马斯克的 xAI 正式发布 API,开发者可将 Grok 集成到其他应用
埃隆・马斯克的人工智能公司 xAI 正式发布了其应用程序编程接口(API),允许开发者
将 Grok 集成到其他应用程序中。目前,API 只有一个模型,名为“grok-beta”,其价格为每 百万输入 token 为 5 美元(约 35.6 元人民币),每百万输出 token 为 15 美元(约 107 元人民币)。来源: IT 之家
微软一口气发 10 个商业智能体!内测提高 9.4%销售收入,六成 500 强企业在用 Copilot 微软宣布推出 10 个新的商业智能体,涵盖销售、服务、财务、供应链等领域,提高业务效 率。这些智能体能自动执行任务,如筛选潜在客户、监控供应商表现等。目前,60%的财富 500 强企业已使用 Microsoft 365 Copilot。微软还计划下月开启 Copilot Studio 公测,允许用 户创建自主 Agent,以进一步降本增效。来源: 量子位
10 月 21 日·周一
新壹科技旗下“秒创 ”产品更新:新增 PPT 转视频和 AI 视频功能
新壹科技旗下 秒创 更新了其核心产品功能,包括 PPT 转视频和 AI 视频。PPT 转视频功能支 持将 PPT 文件快速转化为视频,并结合数字人技术,提升内容的吸引力。AI 视频功能新增 文生图与图生视频,支持多种视频时长和比例。来源: AI 工具集
智源发布原生多模态世界模型 Emu3,验证多模态模型新范式 据智源研究院官方消息,智源研究院今天正式发布原生多模态世界模型 Emu3。智源研究院 表示,Emu3 模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图 像、视频三种模态数据的理解和生成。来源: AI 工具集
一年估值增 14 倍!AI 搜索初创公司 Perplexity 拟融资 5 亿美元
据知情人士透露,借助 OpenAI 最新巨额融资的势头,利用市场对人工智能初创公司高涨的 热情,人工智能搜索初创公司 Perplexity 已经开始了新一轮的融资谈判,目标是将其估值提 高一倍以上,达到 80 亿美元甚至更多。来源: 腾讯新闻
北京新增 12 款已完成备案的生成式人工智能服务
根据《生成式人工智能服务管理暂行办法》,截至 10 月 21 日,北京市新增 12 款已完成备
案的生成式人工智能服务,累计已完成 94 款生成式人工智能服务备案。已上线的生成式人 工智能应用或功能,应在显著位置或产品详情页面,公示所使用已备案的生成式人工智能服 务情况,注明模型名称、备案编号。来源: 界面新闻
复旦、百度联合推出全新 AI 模型 Hallo2,可生成 4K 超高清+1 小时超长视频 复旦大学和百度联合开发了一款名为 Hallo2 的全新 AI 模型,该模型可以生成长达数小时 的 4K 分辨率人物动画,现已在 GitHub 发布开源。Hallo2 模型建立在 latent diffusion models 的基础上,相比上一代 Hallo 模型的效果更好,支持了长视频生成。来源: AI 工 具集
Meta 发布全新 AI 工具 Self-Taught Evaluators,可检测其他模型准确性
Meta 在上周五发布了一系列的 AI 产品,其中包括一款名为“Self-Taught Evaluator”的产品, 可用于检测大语言模型的准确性。Self-Taught Evaluator 可以检查并提高对棘手问题(如科 学、数学和编码等学科的问题)的回答的准确性,因为它需要将复杂的问题分解成更小的逻 辑步骤。来源: AI 工具集
10 月 18 日·周五
Windows 版 ChatGPT 正式发布!直接用上最强 o1,快捷键即可召唤
OpenAI 宣布推出 Windows 桌面应用,向 ChatGPT Plus、Enterprise、Team 和 Edu 用户 开放 。不过,官方表示,目前开放的只是早期版本,将在今年晚些时候向所有 ChatGPT 用 户推出「完整的体验」。用户可以在微软应用商店搜索 ChatGPT,接着下载安装即可,安装 包大约 110MB 。来源: 爱范儿
Suno 推出新功能 Suno Scenes:让照片和视频秒变专属歌曲
Suno 上线新功能 Suno Scense,以视频和图片为提示词,生成 30 秒的音乐。一个短视频, 一张表情包,就能唱出一首歌。该功能目前仅在美国区 App Store 可用。来源: AI 工具集
10 月 17 日·周四
Pika 发布了 4 种新的视频特效,分别是碎块、漏气、湮灭和消失
继前不久 Pika 上线压扁、融化、膨胀等火爆的特效功能之后,新的 Pika1.5 版本又新增了 4 种新的视频特效,分别是粉碎(crumble)、溶解(dissolve)、瘪掉(deflate)和“ta-da”特效, 特效可以让视频中的人物像被布遮住一样瞬间消失。来源: AI 工具集
.ai 域名卖爆,小岛安圭拉 2023 年意外躺赚 3200 万美元
随着人工智能产业的火热,AI 域名也成为了新的热门,包括 .ai 后缀等自然是交易重点。 据美联社 10 月 16 日报道,.ai 域名卖爆也为加勒比海的一个小岛 —— 安圭拉带来了一 笔横财。借着 .ai 域名的注册、卖出等,安圭拉 2023 年从网络域名注册费中获得的收入翻 了两番,达到 3200 万美元(备注:当前约 2.28 亿元人民币)。来源: IT 之家
李彦宏内部发言:「文小言」没必要像豆包、Kimi 一样激进推广
李彦宏提到,百度不碰 Sora 类的视频生成,“10 年、20 年都可能难以商业化应用”。他也指 出,ToB 业务尽量不碰吃力不讨好的项目制,尽量推出标准化产品。而文心一言改名后的 ToC 新搜索应用“文小言”,在推广上则不会像字节跳动的豆包、月之暗面的 Kimi 那样激进。来 源: 36 氪
Mistral 发布 Ministral 3B/8B,“全球最好的边缘模型”
Mistral 公司最新推出了 Ministral 3B 和 Ministral 8B 两款 AI 模型,并不需要连接云服务器, 重点提高笔记本电脑和智能手机等设备的本地化 AI 体验,官方声称是“世界上最好的边缘 模型”。Ministral 8B 的价格为每百万个 tokens 售价 0.1 美元,而 3B 版本则为 0.04 美元, 适合小规模操作或初创开发者。来源: AI 工具集
阿里国际 Marco 翻译大模型发布:支持中英日韩西法等 15 种语言
据阿里国际 AI 团队 AIDC-AI,阿里国际最新研发的翻译大模型 Marco 于今日正式上线, 支持中、英、日、韩、西、法等 15 种全球主流语种。官方称其基于目前广泛使用的开源评 测数据集 Flores,Marco 翻译大模型在 BLEU 自动评测指标上,领先于市面上的标杆翻译 产品,如 Google 翻译、DeepL、GPT-4 等。来源: AI 工具集
OPPO 发布 ColorOS 15 系统,推出一键问屏等 AI 功能
在今天的 2024 OPPO 开发者大会上,OPPO 正式发布 ColorOS 15 系统,并发布一系列新 的功能。ColorOS 15 将上线 超级小布助手功能,一键问屏、一拍即问、一圈即搜、图片问 答、文档问答等多种交互方式。ColorOS 15 还能深度理解并分析屏幕,基于对上文的理解, 像真人一样进行多轮连续的自然对话。来源: 品玩
10 月 16 日·周三
联想推出 PC 个人智能体 AI Now,基于 Meta Llama 模型 联想在创新科技大会上发布了多项 AI 产品,包括个人 AI 智能体 AI Now、液冷服务器等。 黄仁勋、苏姿丰等科技巨头 CEO 出席,英特尔与 AMD 宣布首次合作。联想 AI Now 智能体 具备内容无缝传输、个性化内容生成、教育辅助、智能模式调整、设备间智能分享以及跨设 备 AI 功能流转等多项智能化服务。来源: 智东西
零一万物新旗舰模型 Yi-Lightning,性能超越 GPT-4o
零一万物发布了新旗舰模型 Yi-Lightning,该模型在国际权威盲测榜单 LMSYS 上超越了硅谷 知名大模型,排名世界第六,中国第一。Yi-Lightning 已上线开放平台,每百万 token 仅 0.99 元。李开复强调,零一万物将继续大模型预训练,并在 To B 和 To C 端均有产品布局。来 源: AI 工具集
10 月 15 日·周二
Kimi 智能助手新增语音通话功能,支持英语陪练和模拟面试模式
Kimi 智能助手新增语音通话功能,用户可通过手机 APP 端问答框旁的电话按钮启动。通话 支持实时字幕显示、打断、换声和语速调节,还能克隆用户声音。Kimi 还推出两个语音通话 情景模式,包括英语陪练和模拟面试。来源: AI 工具集
MIT 推出与 60 岁时虚拟形象对话的 AI 产品:Future You
麻省理工学院的 AI 项目 Future You 支持用户与 60 岁的自己进行对话,通过模拟未来自我 来帮助用户解决疑虑和内耗。用户通过回答关于个人生活和未来期望的问题,AI 会生成一 个具有用户特征的老年版本,并提供人生建议。来源: AI 工具集
火山引擎发布大模型训练视频预处理方案,已应用于豆包视频生成模型 火山引擎在视频云技术大会上发布了大模型训练视频预处理方案,助力解决视频大模型训练
的成本、质量和性能等方面的技术挑战。目前,该技术方案已应用于豆包视频生成模型。来 源: 机器之心
Adobe 推出 AI 头脑风暴工具:激发无限灵感,让创意自由飞翔
科技媒体 Maginative 昨日(10 月 14 日)发布博文,报道称在年度 MAX 会议上,Adobe 预览推出了 Project Concept 项目,是一款基于 AI 的创意头脑风暴工具。该工具的目标是 生成更快速、更富想象力和更具协作性的创意,让设计师能够专注于探索更广泛的创意可能 性。来源: IT 之家
Adobe 推出文生视频 AI 模型,向 OpenAI 和 Meta 发起挑战
在 Adobe MAX 年度大会上,这家美国电脑软件公司宣布,它已经开始对一种文生视频人工 智能(AI)模型进行公开测试。这项技术被称为 Firefly 视频模型,Adobe 称其技术取得了新的 突破,将与 OpenAI 于今年早些时候推出的文生视频大模型 Sora 展开竞争。来源: 财联社 Anthropic CEO 万字长文预言:AGI 将有望治愈癌症、倍增寿命
Anthropic CEO Dario Amodei 预测,到 2026 年,AGI 的智力将超越人类诺奖得主。尽管 AGI
不会立即转化为生产力,但它将加速生命科学发展,有望在未来 7-12 年内治愈大多数癌症,
将人类平均寿命从 75 岁延长至 150 岁。这标志着“压缩的 21 世纪”的到来,预示着人类社会 将迎来翻天覆地的变化。来源: 钛媒体
10 月 14 日·周一
智谱 AI 宣布开源文生图模型 CogView3-Plus-3B,采用 Apache 2.0 协议
智谱 AI 宣布开源其先进的文本到图像生成模型 CogView3-Plus-3B。基于最新的 DiT 框架, 通过 Zero-SNR 扩散噪声调度和文本-图像联合注意力机制,提升了图像生成的质量和灵活 性。CogView3-Plus-3B 支持从 512 到 2048 像素的多种分辨率生成,其性能与业界领先模 型相媲美。来源: 智谱 AI
优必选发布全新一代工业人形机器人 Walker S1 据优必选官方消息,优必选发布了全新一代工业人形机器人 Walker S1,并已进入汽车工厂 实训。Walker S1 与 L4 级无人物流车、无人叉车、工业移动机器人和智能制造管理系统协同 作业,这也是全球范围内首个人形机器人与无人物流车等协同作业的工业场景解决方案。来 源: 优必选
苹果推出 300 亿参数多模态 AI 大模型 MM1.5,可识别 UI 界面推理自然语言 苹果近日发布多模态大模型 MM1.5,旨在增强对文本丰富的图像的理解、视觉指代和接地, 以及多图像推理的能力。MM1.5 的模型参数范围从 1B 到 30B,包括密集型和专家混合型
(MoE)变体,并证明了精心的数据整理和训练策略即使在小范围内也能产生强大的性能(1B 和 3B)。来源: AI 工具集
Krea AI 推出 AI 视频创作平台,集成 Runway、Luma、可灵、海螺等 AI 视频生成模型
Krea AI 推出 AI 视频创作平台,集成 Runway、Luma、可灵、海螺等顶尖 AI 视频模型,提供 一站式服务。用户可通过 Krea.ai 网页轻松接入这些模型,无需单独订阅,节省成本。目前 仅支持文生视频,未来有望扩展更多功能,被看好成为 AI 创作者的”POE”。来源: AI 工具 集
马斯克刚进军 Robotaxi,小马智行获广汽投资 2700 万美元
马斯克发布特斯拉 Robotaxi 的同一天,中国知名 Robotaxi 独角兽获得了新认可。广汽宣布, 要给小马智行投资 2700 万美元,相当于人民币 1.9 亿元。从 2016 年成立到今天,小马智行 已经收获了十多轮融资,累计资金超过 11 亿美元(约 78 亿元),完成 D 轮融资后,估值达 到 85 亿美元(约 600 亿元)。来源: 量子位
深势科技完成数亿元新一轮融资,AI for Science 获国资认可
近日,深势科技再获数亿元人民币融资,投资方为北京市人工智能产业投资基金和中关村科 学城公司。此次获得国资加持,标志着深势科技在 AI for Science 领域的深耕、阶段性成果 及未来的发展,得到更有力和充分的认可。深势科技是“AI for Science”科学研究范式的引领 者和践行者。来源: 亿欧
10 月 11 日·周五
智谱 AI 搜索智能体:深度阅读与多级推理的搜索革新
智谱 AI 搜索智能体发布,支持深度阅读和多级推理,能快速检索和总结网页内容,解决复 杂问题。它还能联动其他 AI 工具,如调用 Python 等,提升搜索和推理能力。AI 搜索智能体 已正式上线,可通过智谱清言体验。来源: AI 工具集
月之暗面正式推出具备 AI 自主搜索能力的 “Kimi 探索版” ,搜索量是普通版的 10 倍 月之暗面正式上线具备 AI 自主搜索能力的 Kimi 探索版 ,搜索量是普通版的 10 倍,一次搜 索即可精读 500 个页面。新功能会模拟人类的推理思考过程,多级分解复杂问题,执行深度 搜索,帮助用户更高效完成分析调研。通过自主策略规划、自动化大规模信息检索、对搜索 结果的反思补充等多个步骤,获得更准确和全面的答案。目前,该功能已逐步开放,下周一 前至全量用户。来源: AI 工具集
10 月 10 日·周四
字节跳动豆包首款 AI 智能体耳机 Ola Friend 正式发布,售价 1199 元 字节跳动豆包今天发布了首款 AI 智能体耳机 Ola Friend,采用开放式设计,单耳 6.6 克同 类最轻,耳机接入豆包大模型,并与豆包 APP 深度结合。用户戴上耳机后,无需打开手机, 便能通过语音唤起豆包进行对话。Ola Friend 已经在各大电商平台开启预售,将于 10 月 17 日正式发货,售价 1199 元。来源: 钛媒体
vivo 全新蓝心大模型矩阵发布,推出 30 亿蓝心端侧大模型 3B、语音大模型
在 2024 vivo 开发者大会开幕演讲中,vivo 正式发布了自研的全新蓝心大模型矩阵,全面 升级语言大模型和端侧大模型能力,并带来 vivo 自研的语音大模型、图像大模型以及多模 态大模型。全新蓝心大模型矩阵包括语言大模型、端侧大模型、语音大模型、图像大模型、 多模态大模型。来源: AI 工具集
海螺 AI 推出 “图生视频”功能,可实现高度一致的图像生成视频
MiniMax 视频模型在海螺 AI 平台上线五周后,访问量增速超 800%,全球 180 个地区用户参 与创作。模型在 VBench 评测中排名第一,新增”图生视频”功能,可实现高度一致的图像生 成视频,支持连贯深度创作。海螺 AI 提供无需特效模板的电影级视频创作,激发了全球创 作者的热情。来源: 海螺 AI
2024 科大讯飞全球 1024 开发者节官宣:首发多模态视觉交互、超拟人虚拟人交互能力 第七届世界声博会暨 2024 科大讯飞全球 1024 开发者节将于今年 10 月 24 日在合肥奥 体中心正式开启。届时将发布讯飞星火大模型升级版,其底座能力将再次升级,包含数学、 代码和长文本能力显著提升、中英文综合能力持续领先,训练推理效率大幅提升等特性。科 大讯飞还将首次发布多模态视觉交互及超拟人虚拟人交互能力。来源: 科大讯飞
字节跳动发布 GR-2 机器人 AI 大模型,能模拟人类学习处理复杂任务 字节跳动研究团队最新推出了第二代机器人大模型 GR-2(Generative Robot2.0),其亮点在 于创新构建“机器人婴儿期”学习阶段,模仿人类成长学习复杂任务,具备卓越的泛化能力和 多任务通用性。来源: IT 之家
AI 再夺诺奖!2024 诺贝尔化学奖授予哈萨比斯等人
北京时间 10 月 9 日下午,瑞典皇家科学院宣布将 2024 年诺贝尔化学奖授予华盛顿大学
的 David Baker 以及谷歌 DeepMind 的 Demis Hassabis 与 John M. Jumper,以表彰他们在
「计算蛋白质设计」和「蛋白质结构预测」方面的贡献。来源: 机器之心
10 月 09 日·周三
智谱清言鸿蒙版 App 上线:支持多轮对话、写作辅助、代码生成等功能
智 谱 清 言 今日官宣, 第一时间完成所有基础功能与纯血鸿蒙适配, 现在所有升级至 HarmonyOS NEXT 的用户均可体验智谱清言大模型。据介绍,智谱清言鸿蒙版 App 已支持 多轮对话、写作辅助、代码生成、AI 搜索、AI 画图等功能,同时还支持 50 万个智能体被 创建等功能。来源: 智谱清言
字节跳动豆包智能硬件 Ola Friend 预热,预计为智能耳机 字节跳动豆包小红书官方号发布预热海报,配文为 “字节跳动豆包的智能硬件?”,10 月 10 日上午 11 点将公布更多信息。消息称字节 AI 硬件团队的第一款产品为智能耳机,该款耳 机将植入豆包大模型,并与字节 2023 年 8 月上线的对话类 AI 应用豆包 App 结合:戴上 智能耳机后,用户可通过语音对话随时使用豆包,在豆包 App 上也可以操控这款耳机。来 源: IT 之家
2024 诺贝尔物理学奖,授予 AI 先驱 Geoffrey Hinton 和 John Hopfield
2024 年诺贝尔物理学奖授予了 John J. Hopfield 和 Geoffrey E. Hinton,表彰他们在利用人工 神经网络实现机器学习方面的奠基性发现和发明。两位科学家将平分 1100 万瑞典克朗(约
合 745 万元人民币)的奖金。他们不仅推动了计算神经科学的发展,还为深度学习技术的广 泛应用奠定了基础,包括在语音识别和图像识别等领域的突破。来源: 机器之心
猫眼“神笔马良”上手体验:生成分镜效率高,角色识别有短板 猫眼娱乐发布了首个面向长剧本解析的动态故事板 AI 生成工具“神笔马良”。据了解,“神笔 马良”可对用户上传的剧本进行一键智能分析、智能角色创作、智能分镜创作、智能台词朗 读,全方位视听化呈现剧本内容。来源: 智东西
StackBlitz 推出全栈 AI 代码工具 Bolt.new ,可以看作 Artfacts、V0 和 Replit 的结合体 Bolt.new 是一款全栈 AI 代码工具,可以看作 Artfacts、V0 和 Replit 的结合体。支持 Nuxt、 Next 等框架,提供代码编辑、执行和部署功能。它能够访问文件系统和服务器,目前处于测 试阶段,已在 GitHub 开源。来源: AI 工具集
潞晨科技推出 Video Ocean 视频生成平台,支持文生视频、图生视频、角色生视频 潞晨科技推出的 Video Ocean 视频生成平台,支持任意角色和风格的视频制作。Video Ocean 具备文生视频、图生视频、角色生视频三大功能,能够生成逼真的短视频内容,如黑白电影 片段、海边 Vlog、超现实画面等。用户可通过简单指令,如输入图片或描述,快速生成个性 化视频。来源: AI 工具集
10 月 08 日·周二
超写实 AI 图像生成模型 FLUX1.1 正式发布,代号“蓝莓” 速度更快、价格更低
最新 AI 文生图模型 FLUX1.1 发布,代号“蓝莓”,支持通过模仿单反相机文件名格式的方式生 成超写实图像,网友表示难以分辨真假。该模型由 Stable Diffusion 原团队打造,速度是前 代的 6 倍,价格更低。FLUX1.1 目前仅包含 FLUX1.1 Pro 模型,预计后续会开放更多的系列 模型,FLUX1.1 Pro 通过 API 对外开放,主要面向开发者和企业用户。来源: AI 工具集 Meta 发布 AI 视频生成器 Movie Gen:可自动生成含声音的高清视频
Meta 公司推出了一款新的 AI 视频生成器 Movie Gen,该工具能够生成带有声音的高清视 频。输入文本 Movie Gen 就能自动生成视频,还可以编辑现有的视频或静止图像。据《纽 约时报》报道,添加到视频中的音频也是 AI 生成的,通过环境噪音、音效和背景音乐与视
频相匹配,视频支持不同的纵横比。来源: AI 工具集
OpenAI 推出全新写作、编码工具 ChatGPT Canvas,将免费开放
OpenAI 宣布推出全新写作、编码工具 Canvas,这是一个与 ChatGPT 合作编写和编码项目 的新界面,超越了简单的聊天。ChatGPT Canvas 可以更好地了解任务的上下文,用户可以 突出显示特定部分,以准确表明希望 ChatGPT 关注的内容。用户也可以直接编辑文本或代 码,要求 ChatGPT 调整写入长度、调试代码并快速执行其他操作。来源: AI 工具集
Pika 1.5 发布!将一切压扁、膨胀、融化、爆炸,成为超强特效利器
Pika 1.5 新版本具备了“Pikaffects”特效、大屏幕镜头和新动作,能够生成各种疯狂的视频内 容。用户可以通过简单的提示词,实现如爆炸、融化、充气等特效。Pika 1.5 的推出,预示 着它将彻底改变 meme 游戏,成为视频特效制作的强大工具。来源: AI 工具集
快手可灵 AI 新增 “对口型” 功能:生成人物口型与上传音频同步
快手旗下 可灵 AI 官方宣布,新增对口型功能,并面向所有用户开放 API 服务。在可灵 AI 生成人物视频后,上传音频,即可让视频人物口型和音频同步。可灵 1.0 及 1.5 模型生成 的视频,只要满足视频画面的人脸条件,均支持对口型(目前仅支持人物类角色(真实 / 3D
/ 2D)进行对口型,动物类角色对口型暂不支持)。来源: AI 工具集
OpenAI 发布 Realtime API,助力第三方应用集成其语音合成技术
OpenAI 在旧金山开发者大会(DevDay)上,发布了 Realtime API,可以让开发者调用该 API 在第三方应用中集成语音合成技术。OpenAI 表示开发者通过调用新的 Realtime API,可以 在其应用中添加 6 种 AI 语音。来源: IT 之家
智谱 AI 宣布 10 月最低 1 折开放全部官方模型 API,每位用户免费领 1 亿 tokens
智谱 AI 推出 10 月最新促销活动,最低 1 折调用开放平台 bigmodel.cn 所有官方模型 API,期间每位用户均可获赠 1 亿 tokens 额度。此外,在 10 月内,根据用户前一天的 token 用量,次日可享阶梯折扣。来源: 智谱 AI
09 月 27 日·周五
AI 产业繁荣缩影:Hugging Face 平台托管模型数量破 100 万
AI 托管平台 Hugging Face 于本周四宣布,该平台收录的 AI 模型数量突破 100 万个,是 AI 领域快速发展的一个重要缩影。Hugging Face 成立于 2016 年,是一个旨在推动自然语 言处理(NLP)技术和工具发展的开源社区和公司。团队致力于提供各种 NLP 任务中的最 新技术、模型和工具,以及为开发者提供便捷的方式来使用、微调和部署这些技术。来源: IT 之家
美图公司旗下 MOKI 全面开放,重塑 AI 短片创作工作流
美图公司旗下 AI 短片创作工具 MOKI 于 9 月 26 日全面开放,用户可通过官网体验。MOKI 专注于 AI 短片创作,支持动画短片、网文短剧等多种视频内容生产。用户只需输入故事梗 概或导入脚本,MOKI 便能自动生成分镜脚本和画面,并一键生成带配乐的视频。来源: 美 图公司
1.9 亿月活、260 亿估值的 Canva,想借助 AI,挑战 2300 亿的 Adobe
Canva,一个拥有 1.9 亿月活用户和 260 亿美元估值的在线设计平台,正借助人工智能技术, 挑战市值 2300 亿美元的 Adobe。Canva 通过收购 AI 初创公司 Leonardo.Ai 和 Photoshop 竞 争对手 Affinity,进军办公领域,与 Adobe 争夺企业市场。Canva CEO Melanie Perkins 认为 AI 工具旨在提高效率,与 Canva 的使命一致,公司目标是在未来几年内达到 10 亿月活跃用 户。来源: 极客公园
09 月 26 日·周四
国产具身智能新突破:蔚蓝科技发布多模态 AI 机器狗 BabyAlpha A2 国产具身智能公司蔚蓝科技发布新品:四足机器狗 BabyAlpha A2、开发者版本机器人及人 形机器人。BabyAlpha A2 具备定制化领养、多模态 AI 交互、AI 绘本和共享相册功能,预计 10 月中旬上市。公司采用线上线下全渠道销售,产品已遍布全国并拓展海外市场。来源: 量子位
空间智能公司「极佳视界」连获三轮融资,要将视频生成提升至 4D 世界模型 空间智能公司「极佳视界」近日宣布完成近 5000 万元天使及天使+连续两轮融资,此两轮 融资由北汽产投、奇绩创坛、华民投、龙鼎投资、清智资本、PKSHA Algorithm Fund 等知名 财务和产业投资机构投资。此前极佳视界已完成数千万元的种子轮融资,由辰韬资本投资。 来源: 智东西
重庆特斯联冲刺 AIoT 第一股!3 年 29 亿营收,超六成来自 AI 产业数智化 据报道,重庆特斯联科技集团提交招股书,拟在港上市。三年营收 29 亿,2023 年超 10 亿, 六成来自 AI 数智化。产品遍及全球 150 城,服务 800 客户。研发投入占比高,团队庞大, 专注智慧城市、AI 大数据。主营业务基于操作系统 TacOS,涵盖 AIoT 多领域。来源: 量子 位
OpenAI CTO 和两位技术大咖都跑了!据悉董事会要给 CEO 奥特曼 7%股权
就在 OpenAI 首席技术官(CTO)米拉·穆拉蒂(Mira Murati)官宣辞职后不久,公司 CEO 奥 特曼(Sam Altman)再投下一枚重磅消息:奥特曼以公开信方式在推文中宣布:OpenAI 后 训练研究副总裁 Barret Zoph、首席研究官 Bob McGrew 也宣布离开公司。来源: 钛媒体 Meta 发布 AR 眼镜 Orion 该品类有望成为下一个 10 亿级消费电子产品
在 9 月 25 日于加州 Menlo Park 举办的年度开发者大会上,Meta 的 CEO 扎克伯格展示名为 Orion 的 AR 眼镜原型产品,Orion 是 Meta 首款“全功能”原型 AR 眼镜,使用一个腕带组件 来接收用户的神经信号,让他们用大脑来控制 Orion,这项技术源于该公司 2019 年收购 CTRL-Labs。来源: 财联社
Hugging Face 推出 HuggingChat 原生 macOS 客户端
据 HuggingFace 官方消息,HuggingFace 推出了专为 macOS 用户设计的 HuggingChat 原 生客户端。HuggingChat 支持本地使用语言模型,同时集成了 Markdown、网页浏览、代码 语法高亮等实用功能。HuggingChatOS 客户端为 macOS 用户提供了一个无缝且直观的高级 AI 对话体验。来源: Hugging Face
Meta 发布端侧最强开源 AI 模型 Llama 3.2 ,可在手机运行
Meta 公司昨日(9 月 25 日)发布博文,正式推出了 Llama 3.2 AI 模型,其特点是开放和 可定制,开发者可以根据其需求定制实现边缘人工智能和视觉革命。Llama 3.2 提供了多模 态视觉和轻量级模型,其中 Llama 3.2 1B 和 3B 模型支持 128K 标记的上下文长度,在边 缘本地运行的设备用例(如摘要、指令跟踪和重写任务)中处于领先地位,支持高通和联发 科硬件,并针对 Arm 处理器进行了优化。Llama 3.2 11B 和 90B 视觉模型可直接替代相应 的文本模型,同时在图像理解任务方面优于 Claude 3 Haiku 等闭源模型。来源: AI 工具集
09 月 25 日·周三
ChatGPT 高级语音助手正式上线!OpenAI:50 多种语言、9 种声线可选
OpenAI 周二(24 日)宣布,所有付费订阅 ChatGPT Plus 和 Team 计划的用户,都将可以使 用新的 AVM 功能(高级语音模式),不过该模式将在未来几天逐步推出。它将首先在美国市 场上线。下周,该功能将向 OpenAI Edu 和 Enterprise 计划的订阅者开放。据悉,AVM 提 高了部分外语的对话速度、流畅度并改进口音。来源: 财联社
谷歌 Gemini 1.5 AI 模型再进化:成本更低、性能更强、响应更快
据谷歌官方消息,谷歌今天发布了旗下两款大模型产品 Gemini-1.5-Pro-002 和 Gemini-1.5- Flash-002 的最新版本。据悉,新模型更快、更强大,也更具成本效益。更新之后的两款模 型在数学、代码生成、长文本上下文和视觉任务上的性能提升显著。来源: 腾讯新闻 OpenAI 发布 MMMLU 数据集:更广、更深评估 AI 模型,支持简体中文
OpenAI 在 Hugging Face 上发布了多语言大规模多任务语言理解(MMMLU)数据集,支 持 14 种语言,专为评估和提升人工智能模型在不同语言、认知和文化背景下的性能而设计。
MMMLU 建立在广受欢迎的大规模多任务语言理解(MMLU)基准的基础上,数据集包含 57 个不同学科领域的任务,从基础数学到复杂的法律和物理问题,覆盖广泛的主题和难度级别。 来源: AI 工具集
腾讯发布轮足式机器人!能照顾老人,还会自我收纳
腾讯发布了 Robotics X 实验室的最近研发进展,推出了机器人“小五”。小五集合了此前多代 机器人研发的核心能力,可以在真实人居环境中完成行走、搬运物体等动作,处理复杂任务, 与人进行交互。在腾讯 Robotics X 实验室展示的小五进入养老院服务老人的场景中,它可以 轻轻把老人从床上抱到轮椅上,还可以推着轮椅送老人去参加活动,途中还会注意躲避障碍。 来源: 智东西
美团再投人形机器人公司宇树科技,80 亿估值能否撑起“中国版 Figu re AI”? 宇树科技近期完成数亿元人民币 C 轮融资,由北京机器人产业投资基金等机构领投,美团 龙珠、中关村科学城、琥珀资本、上海科创基金、红杉资本中国、中信证券、祥峰投资中国 基金等参与投资。这是美团第二次参与宇树科技的投资。此前,王兴领导的美团战投参与了 宇树科技今年 2 月的 B2 轮总计 10 亿元融资。来源: 钛媒体
17 岁高中生做 AI App,不到 4 个月入账百万美元,独立开发者迎来春天?
3 个人,300 万美元 ARR。Cal AI,简单说就是一个扫描食物热量的 App,用户拿起手机给 食物拍照,App 分析食物里面的蛋白、碳水和脂肪含量,最终实现用户管理体重的目标。如 上,这个产品的开发和运营只有 3 个人在做,Zach 是 CEO,Henry 是 CTO,2 个人都是 青少年,以及还有一个人负责做增长。来源: AI 工具集
09 月 24 日·周二
字节跳动豆包视频生成大模型发布:支持多风格多比例的一致性多镜头生成
9 月 24 日 消 息, 火山引 擎正 式发布 了 豆 包 视 频 生 成 -PixelDance 、 豆 包 视 频 生 成 – Seaweed 两款大模型,面向企业市场开启邀测,这也意味着字节跳动正式宣告进军 AI 视频 生成。官方介绍称,无论是语义理解能力,多个主体运动的复杂交互画面,还是多镜头切换 的内容一致性,豆包视频生成大模型均达到业界先进水平。来源: AI 工具集
OpenAI 奥特曼(Sam Altman)罕见发长文:超级 AI 可能在几千天内实现
9 月 24 日凌晨,OpenAI CEO 奥特曼(Sam Altman)罕见地发表了一篇长文博客,标题为
《智能时代》(The Intelligence Age),推特浏览量已经突破了 100 万人次。奥尔特曼认为, 技术进步将使未来几代人能够完成前人认为不可能的事情。AI 将成为解决难题的工具,帮 助我们构建新的支撑结构。人人拥有一支 AI 团队将成为可能,能够提供个性化指导和创造。 他还做出预测,超级 AI 有可能在未来几千天内完成。来源: 钛媒体
09 月 23 日·周一
字节即梦上线数字人“对口型”功能,基于 Loopy 项目
字节新项目 Loopy 在即梦上线,实现数字人声音与画面、表情、情绪完美匹配,目前支持中 文效果最佳。Loopy 解决了对口型视频割裂感问题,角色说话时自动带上语气、情绪和表情, 精准指挥虚拟形象细微动作。来源: AI 工具集
PixVerse 全新 UI 正式发布,新增万能创作浮板、灵感库、创意工作台等功能
PixVerse 正式发布全新用户界面,带来万能创作浮板、灵感库、创意工作台和更佳设备兼容 性。新界面让视频创作更便捷,支持一键套用模板,高效管理视频,并在多平台上提供流畅 体验。来源: 爱诗科技
JetBrains AI Assistant 编程助手正式在国内发布,基于阿里通义大模型
JetBrains 正式发布了基于阿里云通义大模型的 JetBrains Al Assistant。JetBrains 官方介绍称, JetBrains Al Assistant 与多款 JetBrains 产品深度集成,是专为中国开发者量身定制的“提效 神器”。JetBrains Al Assistant 支持全链路优化开发,可在特定 IDE 工具窗口中作为内联操 作使用,也可以通过内置聊天使用,不会中断开发工作流。来源: AI 工具集
华知大模型 5.0 发布:同方知网与华为云打造,7B~135B 尺寸 以“数智共生、行业共赢”为主题的华知大模型行业应用研讨会于 9 月 21 日在上海举行, 会议由同方知网与华为云联合主办。会上,华知大模型 5.0 发布,并全新上线智能 PPT、AI 科技查新、华知 App、3D 全息交互数字人等应用。来源: AI 工具集
腾讯元器 AI 智能体支持发布到公众号:可制作数字分身、7*24 小时智能客服 据腾讯混元官方消息,其 AI 智能体产品腾讯元器现已支持发布至微信公众号,为公众号运 营者带来多项新功能。据腾讯表示,利用腾讯元器,公众号运营者可创建数字分身与粉丝进 行实时互动,还可以为用户提供 7*24 小时的客服服务。腾讯元器还能提供文章插入服务, 智能体能够将相关内容插入公众号文章,增强内容的互动性和信息量。来源: AI 工具集
最癫 AI 社交 App “SocialAI” 上线 3 天爆火!国区可下载
SocialAI 是一款由 Friendly Apps 公司开发的 AI 社交网络应用,它模拟了一个社交媒体平 台,所有互动均来自 AI 机器人。用户可以发布状态更新,从 AI 追随者那里获得定制化的 回复和互动。根据网友分享的试玩体验,它能让你成为世界的主角,注册就送百万粉丝,但 全都不是真人,随便发什么帖都有大批机器人回复点赞。来源: 量子位
Motiff 妙多 公布 AI 生成 UI 设计技术,专业版售价每月 6 元起
看云控股集团旗下的“AI 时代设计工具”Motiff 妙多 公布全新 AI 生成 UI 设计技术,用户可 以用文字描述来生成你的“初版”设计稿, 再在 Motiff 妙多中一站式协作,从而根据用户需 求让 AI 生成页面的整体结构和具体内容,以及通过一套富有表现力的 UI 组件,来直接交 付完整的页面设计。来源: AI 工具集
09 月 19 日·周四
阿里全面免费开放通义万相 AI 视频,支持文生视频、图生视频
阿里全面免费开放通义万相 AI 视频,支持文生视频和图生视频两种方式,自动创作出具有 影视级画面质感的高清视频(最长 6 秒)。通义万相 AI 视频支持多种艺术风格,包括但不限 于古风、科幻、动画等,并且特别优化了对中式元素的理解和表现。通义万相 AI 视频能处 理多语言输入,支持“灵感扩写”功能,一键帮用户完善提示词,还自带“音频生成”功能,视 频生成自带音画同步的音效和音频内容,降低 AI 视频创作门槛。来源: AI 工具集
阿里通义千问开源 Qwen2.5 大模型,号称性能超越 Llama
在今天的 2024 云栖大会上,阿里云 CTO 周靖人发布通义千问新一代开源模型 Qwen2.5, 其中,旗舰模型 Qwen2.5-72B 号称性能超越 Llama 405B。Qwen2.5 涵盖多个尺寸的大语 言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化 版本,总计上架 100 多个模型。包括 Qwen2.5 语言模型:0.5B、1.5B、3B、7B、14B、32B 以及 72B;Qwen2.5-Coder 编程模型:1.5B、7B 以及即将推出的 32B;Qwen2.5-Math 数 学模型:1.5B、7B 以及 72B。来源: IT 之家
快手可灵 AI 发布 1.5 模型:新增“运动笔刷”,支持生成 1080p 视频
快手可灵 AI 今日面向全球发布可灵 1.5 模型,在画面质量、动态质量、文本响应度等方面 均有大幅提升。可灵 AI 引入了全新的“运动笔刷”功能,进一步提升视频生成的精准控制能 力。同时,可灵 AI 的视频画质有所提升,支持生成 1080p 视频,同时构图更美观、动作 更合理、文本相关性提升。来源: 极客公园
字节跳动豆包大模型将于 9 月 24 日发布视频生成模型 字节跳动昨日宣布,豆包大模型将于 9 月 24 日发布视频生成模型,并带来更多模型家族
的能力升级。9 月 24 日 14:30,2024 火山引擎 AI 创新巡展・深圳站将于深圳举行,字
节跳动将在大会上公布火山引擎整体介绍及豆包大模型进展,还有火山引擎 AI 产品最新进 展和多个行业企业 AI 落地实践分享。来源: 火山引擎
智谱开源图生视频模型 CogVideoX-5B-I2V,与“清影”同源
智谱 AI 开源了“清影”背后的图生视频模型 CogVideoX-5B-I2V(在线可玩),支持「一张图」
+「提示词」生成视频。相关技术细节和模型代码已公开,这次 CogVideoX-5B-I2V 的开源, 也代表着 CogVideoX 系列开源模型已经支持文生视频、视频延长、图生视频三种任务。来 源: AI 工具集
文生视频模型 Runway、Luma 同时开放 API
著名文生视频模型 Runway 宣布开放最新文生视频模型 Gen-3AlphaTurbo 的 API,帮助开发 者将该功能集成在应用中。几乎在同一时间,Runway 的主要竞争对手 Luma 也宣布开放了 生成视频 API,同样可以将文生视频功能集成在应用中。Luma 的 API 提供的是最新模 型 Dream Machine v1.6,在生成效率和质量方面同样非常出色。来源: 腾讯新闻
09 月 18 日·周三
阿里通义将发布 AI 视频生成大模型,支持文生视频、图生视频
阿里通义将在 2024 云栖大会(9 月 19 日至 9 月 21 日)期间发布视频生成大模型,目 前通义 App 频道和 通义万相 PC 端已上线“视频生成”入口,仅支持用户预约,但未开放使 用。全新发布的视频生成大模型是由通义实验室自主研发,包含“文生视频”和“图生视频”两 种创作模式。来源: IT 之家
Suno 发布了重磅功能“C overs”,可以帮用户一键翻唱歌曲
全球著名文生音乐模型 Suno 发布了重磅功能“Covers”,可以帮助用户一键翻唱任意风格的 歌曲,可以是简单的录音或完整的歌曲。例如,上传一首流行歌曲《Original》,通过 Covers 就能识别歌曲里的乐谱、乐器、节奏以及旋律等,然后按照用户选择的新风格翻唱歌曲。虽 然整体节奏、旋律可能有一些变化,但会保留原歌曲的核心灵魂部分同时呈现出全新的风格。 来源: 腾讯新闻
元象发布中国最大开源 MoE 模型,255B 参数无条件免费商用
元象 XVERSE 发布中国最大 MoE 开源模型:XVERSE-MoE-A36B,该模型总参数 255B,激活 参数 36B,达到 100B 模型性能的「跨级」跃升。同时训练时间减少 30%,推理性能提升 100%, 使每 token 成本大幅下降。在多个权威评测中,元象 MoE 效果大幅超越多个同类模型。来 源: 量子位
上海人工智能实验室推出 书生·筑梦 2.0 ,支持长达 20 秒视频生成 上海人工智能实验室近日推出了升级版视频生成模型——书生·筑梦 2.0(Vchitect 2.0)。模 型专为生成符合中国文化和东方审美的视频内容而设计,支持长达 20 秒的视频生成,并兼
容多种分辨率,包括 4:3 和 16:9。Vchitect 2.0 具备文本到视频生成、图像到视频转换、灵活 的宽高比设置、高清视频生成以及超分辨率和帧插入等功能。来源: AI 工具集
AI 一键生成“类黑神话”!腾讯推出游戏视频模型 GameGen-O
腾讯近日推出的 GameGen-O,一个专门生成开放世界视频游戏的 Transformer 模型。简单 说,这个模型能够模拟各种游戏引擎功能,生成游戏角色、动态环境、复杂动作等等。也支 持交互控制,用户可以通过文本、操作信号和视频提示来控制游戏内容。这个项目由腾讯联 合港科大、中国科大推出,期望用 AI 模型替代一些游戏开发环节。比如目前公布的游戏角 色创建、游戏环境生成、动作生成、事件生成以及各种交互控制。来源: AI 工具集
「AI 教母」李飞飞创业公司 World Labs 正式官宣!又拿到 2.3 亿美元融资
AI 教母李飞飞的创业公司 World Labs,正式官宣启动!3 个月前,这家新晋 AI 独角兽, 在完成约 1 亿美元融资后,估值 10 亿美金。近日,World Labs 又获 2.3 亿美金新一轮融 资。这一次,新一轮融资由 a16z、NEA 和 Radical Ventures 领投,还有英伟达的风投部门 参与。来源: 腾讯新闻
09 月 13 日·周五
原生 PyTorch 支持,大模型一键迁移!寒武纪开源 Torch-MLU
寒武纪开源了 PyTorch 设备后端扩展插件 Torch-MLU,并实现了寒武纪硬件对于 PyTorch 的 原生支持,开发者能无缝地将基于 GPU 的深度学习模型迁移到寒武纪 MLU 硬件上,充分 提升了开发者的使用体验和集成效率。Torch-MLU 的开源进一步促进 AI 生态的共建,为 全球开发者提供更灵活和高效的开发环境。来源: AI 工具集
昆仑万维发布奖励模型 Skywork-Reward,登顶 RewardBench 排行榜
昆仑万维发布了两 款全 新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork- Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上,这两款模型分别位列排行 榜上的第一和第三位。奖励模型(Reward Model)是强化学习(Reinforcement Learning) 中的核心概念和关键组成,它用于评估智能体在不同状态下的表现,并为智能体提供奖励信 号以指导其学习过程,让智能体能够学习到在特定环境下如何做出最优选择。来源: AI 工 具集
安卓版谷歌 Gemini Live 免费上线,开启在线 AI 语音畅聊
科技媒体 9to5Google 昨日(9 月 12 日)发布博文,报道谷歌在 1 个月前面向 Advanced 订阅用户推出后,正逐步面向所有安卓用户免费开放 Gemini Live。谷歌公司于本周四宣布, 所有使用英语的 Android 版 Gemini 移动应用用户现在可以访问 Gemini Live,随时与助手 进行流畅对话。iOS 平台尚未推出 Gemini 应用,这些用户将无法体验这一功能。来源: IT 之家
OpenAI o1 模型登场:开启 AI 通用复杂推理新篇章,模拟人类思考、处理问题
OpenAI 传闻中的“草莓”(Strawberry)AI 模型现已面世,正式名称为“o1”,是该公司首款具 备“推理”能力的模型。o1 模型能够快速回答复杂问题,并且在编写代码和解决多步骤问题 方面表现出色。OpenAI 还发布了一个成本更低、体积更小的版本——o1-mini。目前 o1 模 型处于预览阶段,相较于 GPT-4o 模型,它的使用成本更高且速度较慢,但性能更优。OpenAI 计划将 o1-mini 的访问权限开放给所有 ChatGPT 免费用户,具体发布日期尚未确定。来源: AI 工具集
09 月 12 日·周四
夸克发布全新 CueMe 智能对话助手,支持上千种体裁、2 万字长文 夸克发布全新智能对话助手 CueMe,用户现可通过 cueme.cn 或夸克 App 使用。CueMe 是 基于夸克大模型自主研发,AI 写作能力突出,支持不同体裁、不同篇幅的内容生成,最长 可生成 2 万字的内容。夸克表示,CueMe 针对不同细分体裁进行了充分的语料预训练,可 支持上千种不同体裁的写作需求,包括研究报告、日常写作、课程论文、新媒体文案等等,
并且还在持续扩展中。来源: AI 工具集
Pixtral 12B 发布:Mistral 首款多模态 AI 模型,120 亿参数、24GB 大小
法国 AI 初创公司 Mistral 发布 Pixtral 12B,是该公司首款能够同时处理图像和文本的多模 态 AI 大语音模型。Pixtral 12B 模型拥有 120 亿参数,大小约为 24GB,参数大致对应于模 型的解题能力,拥有更多参数的模型通常比参数较少的模型表现更优。来源: AI 工具集
AI 芯片独角兽公司壁仞科技启动 IPO 上市辅导,估值达 155 亿 据中国证券监督管理委员会官网显示,上海壁仞科技股份有限公司(壁仞科技)提交“首次 公开发行股票并上市辅导备案报告”,即壁仞科技启动科创板 IPO 上市辅导,辅导机构为国 泰君安证券股份有限公司。这意味着,继“AI 芯片第一股”寒武纪之后,燧原和壁仞将有望开 启国内新一轮 AI 芯片上市潮。来源: 钛媒体
估值 1500 亿美元!OpenAI 据称正洽谈新一轮融资 据知情人士透露,全球人工智能(AI)领军企业 OpenAI 正在商谈以 1,500 亿美元的公司估 值向投资者筹集 65 亿美元。据悉,新的估值(不包括筹集的资金)明显高于该公司今年早
些时候要约收购中的 860 亿美元估值,巩固了其作为全球最有价值初创公司之一的地位。
OpenAI 还在商谈以循环贷款形式从银行筹集 50 亿美元。来源: 财联社
李彦宏最新内部讲话:不同模型之间的差距只会越来越大 近日,李彦宏在百度内部做了一次面向员工的讲话,内容涉及大模型的能力壁垒、开源模型 的问题,以及百度为什么要强调智能体等方面。在他看来,外界对大模型有很多误解,榜单 得分超过 Open AI 的产品,不代表自己的模型与 Open AI 模型的差距已经很小。来源: 界 面新闻
Adobe Premiere Pro 将集成视频生成功能,年底前推出
Adobe 宣布,将于今年年底前推出由 Adobe Firefly Video 模型驱动的视频生成功能,届时 用户可以在 Premiere Pro 测试版应用和独立网站上体验这一功能。Adobe 表示目前正在内 部测试三种功能:生成续帧 (Generative Extend)、文本转视频 (Text to Video) 和图像转视 频 (Image to Video),并将在近期开放公测。来源: IT 之家
09 月 11 日·周三
Vidu 全球首发 AI 视频生成“主体参照”新功能,一键同步角色特征
Vidu 主体参照功能是 Vidu AI 全球首发的参考一致性新功能,能够实现用户上传单一主体的 图片,如真人、2D 或 3D 角色,在生成的视频中保持这些主体角色的一致性。Vidu 主体参 照功能不仅支持对角色的面容、半身、全身特征进行精确控制,还涵盖了多种角色类型和画 风,包括写实风格和各种艺术风格。来源: AI 工具集
字节再试硬件:探索 AI 耳机、眼镜等产品,与豆包大模型联动
据晚点 LatePost 报道,字节正在探索将大模型与硬件结合,既自己开发 AI 硬件,也会与 外部硬件公司合作。据称字节 AI 硬件团队的第一款产品为智能耳机,该款耳机将植入豆包 大模型,并与字节对话类 AI 应用 豆包 App 结合:戴上智能耳机后,用户可通过语音对话 随时使用豆包,在豆包 App 上也可以操控这款耳机。来源: 晚点 LatePost
让不足百元的 AI 数字人替人打工,风平智能获近亿元 A 轮系列融资
AI 数字人公司风平智能(Fullpeace)已完成累计近亿元 A 轮系列融资,由璀璨者资本及华 为系企业家华鲲资本基金共同投资,包括汇财资本、北京大学人工智能创新中心主任雷鸣、 清华大学杰出校友系的基金在内的老股东全部跟投。其中,“1 号 AI”平台是这轮融资的核心, 投产比非常高。1 号 AI 结合数字人、AI 和 RPA 技术,帮助用户打造具备媲美真人形象、声 音,甚至拥有 AI 大脑的专属 AI 数字人。来源: 腾讯新闻
AI 翻译公司 Smartcat 获 4300 万美元 C 轮融资
据 TechCrunch 报道,波士顿 AI 初创公司 Smartcat 近日完成 C 轮融资,共筹集 4300 万美 元。据悉,本轮融资由 Left Lane Capital 领投。Smartcat 是一个先进的 AI 翻译平台,提供 自动化的翻译服务和本地化解决方案。结合 AI 翻译、计算机辅助翻译(CAT)工具和翻译 管理系统(TMS),支持多达 280 种语言和 50 多种文件格式。来源: AI 工具集
曝 OpenAI 神秘大模型 “草莓” 两周内发布!
据外媒 The Information 昨晚报道,OpenAI 的新模型“草莓”(Strawberry),将在未来两周内 作为 ChatGPT 服务的一部分发布。“草莓”项目是 OpenAI 盛传已久的神秘 Q*模型,据传是 此前 OpenAI 政变大戏的关键原因之一。它展现出了解答数学问题、复杂编程的强大能力, 让 AI 安全的研究人员都为之震惊。来源: 智东西
面壁智能联合梧桐科技,端侧大模型支撑智能座舱
面壁智能宣布, 成为梧桐科技芯算一体 AI 座舱方案中端侧大模型重要合作伙伴, 以 MiniCPM 车载多模态大模型实现舱驾协控相关的功能控制。这也是面壁 MiniCPM 端侧 多模态模型首次支撑汽车智能座舱的系统底座。梧桐科技已与 10 余家主机厂伙伴,合作超
过 100 余款各类车型,覆盖自主品牌、合资品牌、豪华品牌,产品装机量已超过三百万辆。 来源: 面壁智能
09 月 10 日·周二
Hugging Face 推出新工具 LightEval,可以更好地评估大模型能力
据悉,LightEval 是一款轻量级的 AI 评估套件,它与 Hugging Face 现有的一系列工具无缝 集成,包括数据处理库 Datatrove 和模型训练库 Nanotron,提供了一个完整的 AI 开发流 程。LightEval 支持在多种设备上进行评估,包括 CPU、GPU 和 TPU,适应不同的硬件环 境,满足企业的需求。来源: AI 工具集
317 笔融资告诉你,谁是中国 AI 投资之王?
虽然 AI 领域存在很多非共识,但作为这两年最确定的机会之一,仍然有不少投资机构逆势 下注 AI 产业。根据 IT 桔子数据,今年以来(1 月 1 日~8 月 27 日),国内 AI 领域发生 317 笔融资,其中出手三次及以上的投资机构共有 38 家。在出手三次及以上的 38 家机构里,有 产业背景的投资机构多达 14 家,占比超过 35%。此外,VC、地方产业基金和 PE 的数量分别 为 13 家、7 家以及 4 家。来源: 腾讯新闻
美国商务部公布新规要求 AI 公司报告模型训练进展,声称将阻止外国使用美国技术 美国商务部 BIS 表示,开发者须每三个月报备,使得政府必须准备好采取行动,确保美国公 司生产的军民两用基础模型可供国防工业使用。美国商务部长吉娜·雷蒙多(Gina M. Raimondo)表示,AI 迅速发展,它既有巨大的希望,也有巨大的风险。她表示,草拟规则 将帮助美国商务部跟上 AI 技术的新发展,以加强美国国防和维护国家安全。来源: 钛媒体 AI 超级周期才刚刚开启!AMD 苏姿丰:将加速推出 AI 芯片
AMD 首席执行官苏姿丰(Lisa Su)发表讲话称,人工智能的超级周期才刚刚开启,而 AMD 将瞄准英伟达的市场主导者地位,加速推出高性能人工智能芯片。在高盛举办的一场通信和 技术会议上,苏姿丰表示:“人工智能是一个比我五年前预期的更大的周期,我们现在正为 未来五年下大赌注。”来源: 财联社
苹果刚刚发布史上首台 AI iPhone,最大亮点是按键
Good Morning!库克又一次在 Apple Park 讲出这句经典开场白。和往年不一样的是,库克 首次在发布会开场同时提到 Apple Intelligence 和 Machine Learning 这些词汇,由此可见今 年苹果对 AI 的重视。全新 iPhone 16 系列,也是苹果第一个真正意义上的 AI iPhone。来 源: 爱范儿
新 AI 编程工具 Replit Agent 爆火:手机 2 分钟创建一个 APP
继 Cursor 之后,编程界又一新贵走红。它就是由 AI 初创公司 Replit 推出的智能体——Replit Agent。用户只需提供简单的指令或问题(Prompt),Replit Agent 便能自动执行编写代码、 安装软件包、配置数据库和部署等一系列开发任务。Replit Agent 让在手机或电脑上快速创 建 APP 成为可能,官方称仅需 2 分钟就能在手机上创建一个 APP。来源: AI 工具集
09 月 09 日·周一
快手可灵 AI 启动中国首个 AIGC 导演共创计划
快手宣布正式启动“可灵 AI”电影共创计划,联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉、 董润年、张吃鱼、王子川、王卯卯等 9 位导演共同推出 9 部 AIGC 电影短片。据介绍,9 部 短片将全部由可灵 AI 进行视频生成,电影导演完全依托视频生成大模型,群体深度参与电 影级内容创作,这在中国尚属首次。来源: 36 氪
全球最大商业图库 Getty Images 推出免费高画质照片 AI 训练集:3750 张照片、15 项类别 9 月 9 日消息,以提供新闻、体育和娱乐照片授权闻名的全球最大的商业图库 Getty Images 上周宣布推出高画质照片样本训练数据集,供开发者开发和训练 AI 模型使用。该 样本数据集包含 3,750 张照片,分为商业、教育、医疗健康、运动与健身、物品与物体、插 图、图标等 15 个类别。数据集提供多种主题的高质量视觉内容,可用于训练机器学习和 AI 模型,开发多种应用场景。来源: IT 之家
国内 RISC-V AI 芯片设计公司知合计算完成 A1 轮融资,源码资本领投
9 月 9 日上午,国内基于 RISC-V 架构的 AI 芯片设计公司知合计算技术(深圳)有限公司
(以下简称“知合计算”)宣布已完成数亿元人民币规模的 A1 轮融资。本轮融资由源码资本 领投,领航新界、云九资本、乐朴投资、厚雪资本、临港新片区科创基金(由临港科创投担 任管理人)等投资方跟投。来源: 钛媒体
荣耀赵明谈苹果 AI:让行业变得清醒,快餐式创新适得其反
荣耀 CEO 赵明表示,苹果对 AI 给出的方向将有助于整个行业更加清醒,构筑真正的 AI 需 要脚踏实地努力。他强调,手机厂商不能仅仅依赖集成第三方 AI 服务来标榜自己的产品为 AI 手机。真正的 AI 手机,应具备如 AI Agent 这样的意图识别人机交互能力,这才是端侧 AI 的核心价值所在。来源: 第一财经
加入 AI 混战,蚂蚁全面加速「卷应用」 今年外滩大会期间,蚂蚁带来的一系列能搞定生活大小事的「AI 管家」,是这场变化的重要 参与者。在用户端,AI 生活管家「支小宝」、AI 金融管家「蚂小财」、AI 健康管家亮相,这 三个「AI 管家」,分别能帮你管事、管钱、管健康;在产业端,支付宝「百宝箱」,作为智能 体开发平台让千行百业来「捏」生活中所需要的更多 AI 助理;在更纵深的研、产、供、销、 服场景,蚂蚁专门成立了数字蚂力公司,打造 AI 人机融合解决方案。来源: 极客公园
特斯拉将获得 xAI 模型的授权,为特斯拉开发车载语音助理 据华尔街日报报道,马斯克旗下 xAI 公司讨论了分享未来特斯拉收入的协议。根据拟议的 协议,特斯拉将获得 xAI 模型授权。据知情人士透露,xAI 将协助为特斯拉开发其他功能, 包括在其电动汽车内安装类似 Siri 的语音助理,以及为人形机器人 Optimus 提供动力的软 件。来源: IT 之家
09 月 06 日·周五
智谱 AI 今日正式宣布:智谱清言的“视频通话”功能全面免费开放
智谱 AI 今日正式宣布:旗下全能 AI 助手智谱清言的“视频通话”功能现已全面开放,并对所 有用户限时免费。新功能标志着“清言”不再局限于文字和语音交互,而是能够通过视频“看” 世界,理解用户的表情和情绪,提供更自然、更人性化的交互体验。用户可以通过智谱清言
APP 尝鲜体验“视频通话”新功能。来源: 智谱 AI
开源大模型的新王—— Reflection 70B 诞生了,性能超越 GPT-4o 快速更迭的开源大模型领域,又出现了新王:Reflection 70B。横扫 MMLU、MATH、IFEval、 GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。这个新模型 Reflection 70B,来自 AI 写作初创公司 HyperWrite。HyperWrite 公司的 CEO Matt Shumer 表示,Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。来源: 机器之心
蚂蚁集团 AI 金融管家“蚂小财”全新亮相,月活用户数达 7000 万
在 9 月 6 日的外滩大会财富论坛上,蚂蚁集团 AI 金融管家“蚂小财”新版升级亮相,并在 支付宝 App 内全量对外。升级后的“蚂小财”能更实时解读热点,提供“有问必答、个性化”的 服务。同时,蚂蚁财富全新 App 搭载“蚂小财”Pro 版上线灰测,带来“语控一切、定制简报” 等全新的服务体验。来源: AI 工具集
面壁智能开源端侧 AI 模型 MiniCPM 3.0,4B 参数性能超越 GPT-3.5
MiniCPM 3.0 是面壁智能推出的一款高性能端侧 AI 模型,具备 4B 参数,以较小的模型规模 实现了超越 GPT-3.5 的性能表现。MiniCPM 3.0 采用 LLMxMapReduce 技术,支持无限长文 本处理。在 Function Calling 方面,MiniCPM 3.0 的性能接近 GPT-4o,展现了出色的端侧执 行能力。MiniCPM 3.0 已全面开源,量化后模型仅占用 2GB 内存,非常适合端侧部署。来源: AI 工具集
“算力版滴滴”发布 AI 云新品,PPIO CEO 预测三年模型推理成本将下降 1000 倍
PPIO CEO 姚欣坦言,算力需求和使用不平衡是一个长期存在的问题。从未来算力构成来看, 95%是推理算力,5%是训练算力,但这 95%也不会出现一家独大局面。姚欣预测,未来三年, AI 大模型推理成本或将下降 1000 倍以上。PPIO 派欧云是“算力版的滴滴”,主要整合企业侧 闲置碎片化的算力,承载多种服务,包括音视频和 AI 推理等。来源: 钛媒体
09 月 05 日·周四
支付宝推出 AI 生活管家:支小宝,国内首个服务型的 AI 原生应用
2024 Inclusion・外滩大会于今日正式开幕,蚂蚁集团总裁韩歆毅在开幕大会上透露,蚂蚁将
发布三款 AI 新产品,包括由支付宝全新推出的 AI 独立 App 支小宝。“支小宝”是蚂蚁集 团基于蚂蚁百灵大模型推出的支付宝 AI 生活管家,号称是国内首个服务型的 AI 原生应用, 可通过对话快速订票、点餐、唤起公交码、查询附近吃喝玩乐等。来源: AI 工具集
腾讯发布新一代大模型“混元 Turb o”:推理效率提升 100%,成本降低 50%
9 月 5 日消息,在今日的 2024 腾讯全球数字生态大会上,腾讯正式发布新一代大模型 —
— 腾讯混元 Turbo。据腾讯官方介绍,该模型采用 MoE 架构,比上一代产品推理效率提 升 100%,推理成本降低 50%。对外,腾讯混元 Turbo 的价格也比混元 Pro 降低 50%,输 出价格为 0.05 元 / 千 tokens,输入价格为 0.015 元 / 千 tokens。来源: IT 之家
零一万物开源 Yi-Coder 系列编程助手模型,支持 52 种编程语言
零一万物今日宣布开源 Yi-Coder 系列模型,该模型是 Yi 系列模型家族中的编程助手。Yi- Coder 系列模型专为编码任务而生,提供 1.5B 和 9B 两种参数。据介绍,Yi-Coder 能够 处理最长 128K tokens 的上下文内容,适用于复杂项目级代码的理解和生成。Yi-Coder 还 支持 52 种主要编程语言。来源: AI 工具集
智谱完成新一轮数十亿元融资,投前估值达 200 亿元,国资再入局 近日,中国人工智能领域的领军企业智谱宣布成功完成新一轮的融资,融资金额达到数十亿 元人民币,公司估值在融资前已高达 200 亿元。本轮融资由中关村科学城公司领投。据悉,
这是智谱在 2024 年完成的第三次融资。目前,智谱的股东名单中汇集了高瓴资本、启明创
投、君联资本等知名投资机构,以及美团、阿里巴巴、腾讯、小米等互联网巨头。来源: AI
工具集
“C hatG PT 之父”新公司成立仅 3 个月融资 10 亿美金,估值已超 350 亿
OpenAI 联合创始人、前首席科学家、“ChatGPT 之父”伊利亚·苏茨克韦尔(Ilya Sutskever) 联合成立的新公司 Safe Superintelligence (SSI) 宣布,近期已完成 10 亿美元融资。据悉,SSI 此轮投资方包括 a16z(Andreessen Horowitz)、红杉资本、DST Global 和 SV Angel,而由 Nat Friedman 和 SSI 首席执行官 Daniel Gross 运营的投资合伙企业 NFDG 也参与其中。 来源: 钛媒体
智源研究院推出全球首个包含文生视频的模型对战评测服务 智源研究院推出了全球首个包含文生视频的模型对战评测服务——FlagEval 大模型角斗场。 该服务支持国内外约 40 款大模型,覆盖语言问答、多模态图文理解、文生图、文生视频等 任务,并提供在线或离线盲测。FlagEval 大模型角斗场引入了主观倾向阶梯评分体系,包含 五个梯度,以更细致地评测模型性能。来源: 腾讯新闻
09 月 04 日·周三
笔灵 AI 推出 AI 写小说功能,支持小说改写、扩写、续写、润色
据笔灵官方消息,笔灵 AI 正式推出 AI 写小说功能,支持小说改写、扩写、续写、润色。用 户可以通过输入小说分类、风格、关键词等信息,快速生成小说名字、大纲、剧情反转和扩 写内容。此外,还提供丰富的场景模板,帮助用户构建小说场景。笔灵 AI 的小说写作服务 目前提供 3 天会员体验,价格为 29 元。来源: AI 工具集
百度官宣文心一言 APP 正式升级为文小言,定位”新搜索”智能助手
百度官宣文心一言 APP 正式升级为文小言,定位百度旗下”新搜索”智能助手。区别其它搜索 产品,文小言推出了富媒体搜索、多模态输入、文本与图片创作、高拟真数字人等”新搜索” 能力。同时发布记忆和自由订阅等功能。文小言即日起还将免费开放文心 4.0 大模型能力, 所有用户本月可免费使用,此前该版本以收费形式向用户开放。来源: AI 工具集
OpenAI 被曝将筹资数百亿美元打造 AI 基础设施
有媒体援引知情人士消息,OpenAI 首席执行官 Sam Altman 计划吸引全球投资者支持建设 人工智能 AI 基础设施的计划正变得更加明确,重点首先是在美国各州启动,预计将耗资数 百亿美元。正在讨论的项目类型包括建设数据中心,通过涡轮机和发电机提高能源容量和传 输,以及扩大半导体制造。来源: 第一财经
英特尔推出新一代 AI PC 芯片 官方宣称全面压过高通旗舰一头 近些日子深陷“缩缸”争议的英特尔,非常不巧地挑中了美股芯片板块大跳水之日,端出自家 最新一代的酷睿 Ultra 笔记本电脑芯片。英特尔在周三凌晨发布的 Ultra 200V 系列芯片,一 共有 9 款。不过与我们早些年熟悉的 i5、i7 产品区分方式不同,这一批芯片统一都是 8 核
(4 个性能核+4 个效率核)。产品线的主要参数区别在于些许的 CPU 最高睿频、GPU 核心 数量和 NPU 引擎数量差异。来源: 财联社
智谱和荣耀正式签署 AI 大模型技术联合实验室战略合作协议 据智谱官方消息,智谱和荣耀于 9 月 2 日,在北京正式签署 AI 大模型技术联合实验室战 略合作协议。智谱表示,双方深化战略合作,将进一步探索基于用户场景的端侧 AI 智能体 验,共同推动智能终端领域大模型技术和应用创新,并通过荣耀折叠屏手机等全场景产品为 用户带来更加智慧便捷的 AI 服务。来源: 腾讯新闻
OpenAI 首款自研芯片来了,首发台积电 A16 工艺,与苹果正面较量 据中国台湾《经济日报》报道,苹果已经预定了台积电 A16 埃米(1.6nm)制程的首批产能, OpenAI 也加入预定。另据科技媒体 Wccftech 报道,OpenAI 开发基于 A16 埃米制程的定制
芯片,是希望提升 Sora 的视频生成能力。据业界人士透露,OpenAI 原先积极和台积电洽谈 合作建设专用晶圆厂,但在评估效益后搁置了专用厂计划。来源: 智东西
商汤「办公小浣熊」入驻 Lenovo 联想应用商店
商汤办公小浣熊正式在联想应用商店上线,用 AI 为 PC 用户提升办公效率。借助联想应用 商店平台,办公小浣熊用户可以在 PC 端就能高效地体验 AI 大模型能力在财务分析、商业 分析、销售预测、市场分析等办公场景的应用。来源: AI 工具集
09 月 03 日·周二
阶跃星辰上线 Step-1X 图像生成大模型,注册即可体验 大模型创业公司阶跃星辰在其开放平台体验中心,正式上线了图像生成大模型 Step-1X,注 册即可体验。在 7 月份举行的 2024 世界人工智能大会上,阶跃星辰一口气发布了万亿参 数语言大模型 Step-2、多模态大模型 Step-1.5V 和图像生成大模型 Step-1X 三款大模型, 并且跟上海电影梦幻联动,基于经典 IP《大闹天宫》开发了 H5 互动体验“测测你是哪路神 仙”。来源: AI 工具集
8 岁小孩哥上手用 AI 制作游戏,全程 2 小时,引来 50 多万人围观 一个八岁的孩子,在没有任何编程经验的情况下,居然手动建起了一个网站。是不是炒作不 知道,但真的感知到了 AI 正在让编程变的越来越简单。在没有任何编码经验的情况下建立 了一个 Three.js 网站,利用 Claude AI 工具,并让 Cursor 为他完成所有代码工作。来源: 机器之心
烧钱换增长,AI 产品的流量玩法还走得下去吗?
2024 年,国内 AI 产业的竞争逻辑,被一家大模型企业改变了。Kimi 的爆火,为全行业的爆 款焦虑找到了答案——通过投流推动用户增长。当所有人都参与到这场营销游戏,给国内大 模型市场带来了短暂的“繁荣”。从 3 月开始,国内头部 AI 产品的流量均出现大幅增长。3 月, 国内 AI 应用访问量前 10 名的产品里,有 9 家访问量增速超过 40%。来源: 钛媒体
AI 视频工具 OpusClip 获北美风投 3000 万美元投资,用 AI 革新视频编辑 OpusClip,一家由人工智能驱动的视频再利用初创公司,在由 Millennium New Horizons 主 导的 A 轮融资中筹集了 3000 万美元,参与者包括 Samsung Next、GTMfund 和 DCM Ventures,并正在通过新的 ClipAnything 功能增强其平台。这家初创公司致力于将长视频 转变为可分享的、在社交媒体平台上病毒式传播的短片。来源: 腾讯新闻
MiniMax 大模型日均与用户交互 30 亿次,将发布多模态模型 abab7
MiniMax 自 2021 年底成立以来,已经构建了万亿参数的 MoE 文本大模型、语音大模型及图 像大模型,推出了星野、海螺 AI 等原生应用,同时为企业和开发者提供开放平台 API 服务。 MiniMax 的大模型与终端用户进行了日均 30 亿次的交互,处理超过 3 万亿文本 token,生 成 2000 万张图像和 7 万小时的语音。来源: 新浪财经
OpenAI ChatGPT 被曝将新增 8 种新语音:更自然表达狗叫等动物声音
科技媒体 testingcatalog 报道称通过逆向工程 ChatGPT 应用,发现 OpenAI 即将扩充添加 语音,让朗读的声音更加自然和富有表现力。有迹象表明 OpenAI 未来可能会额外推出 8 种新的语音,每种语音都有一个独特的代号,后续可能会逐步推出。这些新声音的另一个有 趣特点是,它们能够更自然地表达声音,如动物叫声或其他非语言声音。来源: IT 之家
09 月 02 日·周一
Runway 发布 Gen-3 Alpha Extensions 功能,视频可延长至 40 秒
据 Runway 官方消息,Runway 宣布发布 Gen-3Alpha Extensions 功能,可将视频时长延长 至 40 秒。该功能支持用户仅凭简单的图片或文字输入,即可制作完整的故事情节或广告内
容。时长的突破对广告制作、短视频创作等领域将产生深远影响,大幅提升创作效率。来源: 品玩
「无问芯穹」完成近 5 亿元 A 轮融资,成立仅 16 个月已吸纳近 10 亿
「无问芯穹」宣布完成近 5 亿元 A 轮融资。这也是目前为止,国内 AI Infra(大模型基础设 施)层创业公司最大的单笔融资记录。「无问芯穹」联合创始人、CEO 夏立雪表示,本轮投 资将用于加强技术人才吸纳与技术研发,深入推动产品商业化发展并强化生态合作。值得注 意的是,成立仅仅 16 个月,「无问芯穹」的累计融资额已近 10 亿元。这家公司过往投资方
还包括红杉中国、百度、智谱、同歌创投等。来源: 36 氪
昆仑万维推出 AI 音乐创作平台:音疯 ,支持创作者将作品上架售卖
音疯 是昆仑万维推出的 AI 音乐创作平台,基于人工智能技术简化音乐创作流程。用户只需 输入歌词,即可一键生成原创歌曲,或通过提供参考音乐来创作风格相似的作品。平台支持 多种音乐风格,提供创作灵感,并且支持创作者将作品上架销售,获得收益。来源: AI 工 具集
MiniMax 宣布推出视频生成和音乐生成模型,旗下海螺 AI 已开放体验
8 月 31 日,一向低调的“AI 六小龙” 之一——MiniMax 第一次正式对外,在上海办了场 “MiniMax Link 伙伴日”活动。在会上,MiniMax 创始人闫俊杰宣布推出视频生成模型和音乐 模型。此外,他预告,新一版能从速度和效果都对标 GPT-4o 的大模型 abab7,会在未来几 周内发布。目前所有用户都可以登录海螺 AI 官网体验视频生成和音乐生成功能。来源: 腾 讯新闻
讯飞星火版「Her」横空出世全民开放!百变人设逼真丝滑
OpenAI 的「Her」还是期货,讯飞星火版
「Her」就抢先上线了!不仅极速响应自由打断,
还情绪价值拉满,各种情感、风格、方言随意切换。熊二被召唤出来的时候,家里的熊孩子 直接被硬控了 30 秒。现在只要下载讯飞星火 APP,即可体验对标 GPT-4o 的超自然 AI 语音 助手。来源: 腾讯新闻
千亿市值上半年营收仅 6476 万,寒武纪六个月亏了 5 个亿
AI 芯片领域“冰火两重天”,最主要的 AI 芯片厂商英伟达近日公布 2025 财年第二季度财报, 显示该季度营收同比增长 112%,寒武纪则于 8 月 30 日晚间发布半年报,显示今年上半年营 收有所下滑。据财报,寒武纪今年上半年营收 6476.53 万元,同比下降 43.42%,净利润亏损 5.3 亿元,去年同期亏损 5.44 亿元。来源: 第一财经
360AI 助手推出的「模型竞技场」功能,多种大模型之间对比测评
据 360 官方消息,360AI 助手推
出模型竞技场功能。360AI 助手大模型竞技场支持显示大模
型各大模型性能的详细数据:“模型响应速度”、“模型生成内容字数”、“模型完成生成内容任 务耗时”、“模型生成内容效率”(每秒钟生成多少字),通过对比这些性能指标,用户可以看 到不同大模型之间的性能差异,作为选择大模型的参考。来源: 360 社区
08 月 30 日·周五
专访宇树科技王兴兴:在人形机器人的巨变前夜,做一个敏锐的谨慎派 在目前大热的人形机器人、具身智能赛道,宇树科技是最受关注的公司之一。这家公司最大 的标签是硬件实力强——一方面是性能,去年其首款通用人形机器人 H1 能奔跑、原地空 翻、踹不到,拥有全球几乎规格最高的动力性能;另一方面是成本控制,今年其第二款人形 机器人 G1 价格仅 9.9 万元,而同行普遍在数十万、乃至百万元。来源: 极客公园 Runway 从 HuggingFace 上删库“跑路”了,Stable Diffusion v1.5 也消失了
Runway 突然从 Hugging Face 平台删除所有数据并退出,未通知任何人。此前,Runway 因 版权问题被迫删除开源的 Stable Diffusion 1.5 版本。CEO 曾表示发布该版本无问题,但后来
可能因版权争议和市场竞争压力退出。来源: 智东西
通义网页版升级!推出通义效率版块,上线“P PT 创作 ”
通义网页版上线“PPT 创作”功能,具备言之有物、设计精美、智能编排三大核心特点。PPT 创 作功能完全免费,基于通义大模型打造。在通义网页版,音视频转文字产品“通义听悟”升级 为“实时记录”,长文档阅读助手“通义智文”升级为“阅读助手”,与“PPT 创作”功能共同合并为 通义效率,实现从信息搜集整理、内容理解再到内容创作的完整工作学习流。来源: 品玩 OpenAI 称 ChatGPT AI 聊天机器人全球周活跃用户数量破 2 亿
科技媒体 Axios 今天(8 月 30 日)发布博文,报道称 OpenAI 的 AI 聊天机器人目前周 活跃用户数量已经超过 2 亿,短短 1 年时间实现翻倍。OpenAI 还表示在全球财富 500 强 企业中,92% 正在使用其产品;自 7 月份发布 GPT-4o mini 以来,其自动 API 的使用量 已翻了一番。来源: IT 之家
阿里重磅开源 Qwen2-VL:能理解超 20 分钟视频,媲美 GPT-4o 阿里巴巴开源了最新视觉多模态模型 Qwen2-VL ,根据测试数据显示,其 72B 模型在大部 分指标超过了 OpenAI 的 GPT-4o,Anthropic 的 Claude3.5-Sonnet 等著名闭源模型,成为 目前最强多模态模型之一。Qwen2-VL 支持中文、英文、日文、韩文等众多语言,可以在 Apache 2.0 协议下进行商业化使用。同时阿里发布了 Qwen2-VL-72B 的 API,帮助开发者 增强或开发多模态功能的生成式 AI 应用。来源: AI 工具集
智谱 AI 发布了一系列新一代基座模型,性能指标均为国际第一梯队
在 KDD 2024 大会上,智谱 AI 发布了新一代基座模型,包括语言模型 GLM-4-Plus 、文生图
模型 CogView-3-Plus 、图像/视频理解模型 GLM-4V-Plus 、视频生成模型 CogVideoX 等, 这些模型在相应领域均达到了国际第一梯队的水平。智谱 AI 还在「清言 APP」上线了视频 通话功能,并在 MaaS 平台上开放了 GLM-4-Flash API 的免费使用。来源: AI 工具集
08 月 29 日·周四
谷歌推出的首个 AI 游戏引擎 GameNGen ,可生成实时可玩的游戏
世界上首个完全由 AI 驱动的游戏引擎来了。谷歌研究者训练的 GameNGen ,能以每秒 20 帧实时生成 DOOM 的游戏画面,画面如此逼真,60%的片段都没让玩家认出是 AI!全球 2000 亿美元的游戏行业,从此将被改变。来源: AI 工具集
书生・天际 3.0 实景三维大模型发布:城市级 100 平方公里全范围实时渲染,VR 设备可
用
据“书生 Intern”官方公众号 28 日推文,书生・天际 3.0 实景三位大模型现已开源发布,渲
染效率提速近 6 倍,同时将应用方式拓展至 VR 设备。此前在去年 7 月,上海人工智能实 验室联合多家机构发布了书生・天际(LandMark)实景三维大模型,号称首次实现城市级 100 平方公里全范围实时渲染。来源: 书生·天际
AI 图像生成公司 Midjourney 宣布进军硬件领域,苹果前硬件经理加盟
知名 AI 图像生成公司 Midjourney 宣布将涉足硬件领域,该公司今日在社交媒体 X 上发布 消息,邀请人才加入其新成立的硬件部门。目前 Midjourney 尚未透露将开发何种类型的硬 件设备,只是表示有多个项目在进行中,并强调“肯定有更多形态的可能性”。来源: IT 之家
安卓 / macOS 版 ChatGPT AI 应用现支持“@ ”,可无缝切换不同 GPT 模型
科技媒体 testingcatalog 昨日(8 月 28 日)发布博文,报道称安卓版和 macOS 版
ChatGPT 现支持 Mentions 功能,用户在聊天对话中使用“@”字符来调用不同的定制 GPT
模型。在安卓版 ChatGPT 应用中,用户输入“@”符号之后,会弹出一个窗口,让用户选择 不同的 GPT,在保持聊天上下文的时候方便用户无缝切换。来源: IT 之家
英伟达财务公布三个月净赚 1100 亿,但市值一夜跌了 6.89%
财报显示,第二财季,英伟达营收和净利润均超预期,营业收入达 300 亿美元(约合人民币
2137.08 亿元),同比增长 122%,环比增长 15%;净利润 166 亿美元(约合人民币 1182.52 亿 元),同比增长 168%,环比增长 12%。财报公布后,英伟达股价在盘后交易中先涨超 2%,后 跌至 6.89%,市值一夜减少了 600 万美元(约合人民币 4274.16 万元),大约相当于跌出了 1 个中芯国际 A 股(688981.SH)市值。来源: 钛媒体
消息称 OpenAI 正进行新一轮融资谈判,估值破千亿美元
综合 CNBC、《华尔街日报》等消息,OpenAI 正在进行一轮融资谈判,将使这家 AI 初创公 司的估值超过 1000 亿美元(IT 之家备注:当前约 7124.5 亿元人民币)。据不具名知情人 士透露,Thrive Capital 正在主导本轮融资,并将投资 10 亿美元(当前约 71.24 亿元人民 币)。今年早些时候,OpenAI 的估值就已超过 800 亿美元(当前约 5699.6 亿元人民币), 高于上一年的 290 亿美元。来源: IT 之家
美图发布 2024 年中期业绩,经调整归母净利润 2.78 亿元,净利润大涨 80%
8 月 28 日,美图发布 2024 年中期业绩,2024 年 1 到 6 月美图收入 16.2 亿元人民币, 同比增长 28.6%,而最亮眼的数据则是经调整归母净利润 2.78 亿元,同比增涨 80.3%。美 图给出的两个业绩增长的原因,都是与主营业务相关。一是 AI 技术的加持下,2023 年 6 月 , 美 图 一 口 气 推 出 / 更新了 6 款产品,包含 美 图 设 计 室 V2 、 开拍、 AI 数字 人 DreamAvatar 等面向 B 端用户的生产力产品,驱动了国内用户付费的增长。另一个是全 球化,美图的 App 在多家应用商店名列前茅,国外用户及付费用户也实现了双增长。来源: 腾讯新闻
08 月 28 日·周三
Kimi 推出 moonshot-v1-auto 模型 API,Kimi API 将推出联网搜索功能
Kimi 开放平台推出了名为 moonshot-v1-auto 的新模型 API,这一功能能够根据上下文所需 的 Tokens 数量自动选择合适的模型,从而帮助用户节省费用。同时,官方预告了 Kimi API 新功能:将推出联网搜索功能。来源: Kimi 开放平台
商汤科技半年报:生成式 AI 业务收入占比首超传统 AI
根据最新发布的财报,商汤科技 2024 年上半年总营收达 17.4 亿元,同比增长 21%。其生成 式 AI 业务收入同比激增 256%,达到近 11 亿元,首次超越传统 AI 业务,占总收入的 60%。 来源: 第一财经
Freepik Mystic 发布,号称目前最先进的 AI 图像生成器
Magnific AI 和 Freepik 今日联合推出了 Freepik Mystic,宣称是目前最先进的 AI 图像生成 器,也是唯一可以直接生成全高清图像的 AI 图像生成器。与 Midjourney 和 OpenAI 的 Dall-E 不同,Mystic 并非基础模型,而是一个结合 Flux 基础模型、微调、高分辨率图像生 成技术和参数调整的流程。Freepik Mystic 可以通过 Freepik Premium 订阅使用,Mystic 也 将登陆 Magnific AI 平台。来源: AI 工具集
谷歌发布 3 款 Gemini 实验 AI 模型:1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6
谷歌 AI Studio 产品总监洛根・基尔帕特里克(Logan Kilpatrick)今天(8 月 28 日)在 X
平台发布推文,宣布推出 3 款 Gemini 实验性模型。Kilpatrick 表示,新的 Gemini 1.5 Pro Exp 0827 型号在各方面都优于 8 月初发布的实验型号,目前在 LMSYS 上的排名为第 2 位,仅次于 OpenAI 的 GPT-4o-latest 模型。来源: IT 之家
智谱 AI 开源 CogVideoX-5B 视频生成模型,RTX 3060 显卡可运行
智谱 AI 开源了 CogVideoX-5B 视频生成模型,相比此前开源的 CogVideoX-2B,官方称其 视频生成质量更高,视觉效果更好。官方表示大幅度优化了模型的推理性能,推理门槛大幅 降低,可以在 GTX 1080Ti 等早期显卡运行 CogVideoX-2B ,在 RTX 3060 等桌面端“甜品 卡”运行 CogVideoX-5B 模型。来源: AI 工具集
Anthropic 向所有 Claude 用户开放 Artifacts AI 功能
AI 科技公司 Anthropic 今天(8 月 28 日)发布博文,宣布面向所有 Claude 用户开放 Artifacts 功能,用户现在可以在 iOS 和安卓版 Claude 应用中创建和浏览 Artifacts。 Artifacts 相当于创建了一个动态工作区,用户和 Claude 对话让其生成文档、代码、矢量图, 甚至是简单的游戏过程中,Artifacts 会出现聊天界面旁边,方便用户实时查看、迭代和创建 你的作品。来源: IT 之家
Op enAI “草莓项目” 最快今年秋季发布,随后是 “猎户座”(Orion)
AI 工程师 Tom Keldenich 表示,OpenAI 正在开发“草莓”和“猎户座”(Orion)两种模型。草 莓主要用于解决复杂推理任务,尤其是在数学和编程领域,也会极大增强大模型的语言理解 能力,例如,在《纽约时报》的测试中就表现非常好。猎户座则是超越 GPT-4 的继任模型, 但其预训练数据由草莓模型生成。也就是这两个模型加起来,将会比现在任何模型的推理、 生成能力都强。来源: 财联社
中国 AI 芯片龙头燧原科技启动 IPO 上市辅导,腾讯持股超 20% 据中国证监会官网披露,上海燧原科技股份有限公司(以下简称“燧原科技”)首次公开发行 股票并上市辅导备案报告,完成上市辅导备案登记,辅导机构为中金公司。这意味着,这家 成立 6 年、累计融资额近 70 亿元人民币,估值已超 160 亿元(胡润数据)的燧原科技正式 启动科创板 IPO 上市,有望成为继寒武纪之后,国内科创板上第二家 AI 算力设计公司。来 源: 钛媒体
08 月 27 日·周二
智谱 AI 宣布 GLM-4-Flash 大模型免费开放,支持最大 128K 上下文
智谱 AI 今日宣布,GLM-4-Flash 大模型免费开放,通过智谱 AI 开放平台调用。GLM-4-Flash 适用于完成简单垂直、低成本、需要快速响应的任务,生成速度能达到 72.14 token/s,约等 于 115 字符/s。GLM-4-Flash 具备多轮对话、网页浏览、Function Call(函数调用)和长文 本推理(支持最大 128K 上下文)等功能,同时支持包括中文、英语、日语、韩语、德语等 在内的 26 种语言。来源: AI 工具集
字节成立大模型研究院,疯狂氪金 AI 人才
据 AI 科技评论报道,字节跳动正在秘密筹备成立大模型研究院,并积极招揽人才。知情人 士称,已有外部 AI 大牛加入大模型研究院,直接向张一鸣汇报。2023 年 8 月,字节自研 的底层大模型“云雀”上线,随即推出 AI 对话产品“豆包”。今年 5 月,字节发布“豆包大模型” 家族,发起价格战,号称“比行业便宜 99.3%”。来源: 腾讯新闻
Viggle 宣布获 a16z 的 1900 万美元投资,帮助 Viggle 扩大规模、加速产品开发
据 TechCrunch 报道,Viggle 宣布已完成由 Andreessen Horowitz 领投的 1900 万美元 A 轮融资,Two Small Fish 也参与其中。这家初创公司表示,此轮融资将帮助 Viggle 扩大规 模、加速产品开发并扩大团队。Viggle 告诉 TechCrunch,它与 Google Cloud 等云提供商 合作,以训练和运行其 AI 模型。来源: 腾讯新闻
夸克 PC 端全面发布 :有夸克就是 AI 电脑
夸克(Quark)正式发布 夸克 PC 端 ,AI 搜索、AI 创作功能全新上线,夸克的桌面 AI 助手 和网盘服务,结合 AI 搜索和创作新功能,提供了一个全面的工作和学习平台,号称:有夸
克就是 AI 电脑!来源: AI 工具集
虹软科技披露半年报:营业收入 3.81 亿元,PSAI 产品正拓展国际市场
报告期内,PSAI 产品陆续入驻阿里巴巴集团旗下的淘宝千牛商家工作台和 1688 平台、抖店 微应用、抖店服务市场。今年上半年,虹软科技实现营业收入 3.81 亿元,同比增长 11.97%; 归母净利润 6145.89 万元,同比增长 22.82%;扣非净利润 5379.43 万元,同比增长 21.7%。 来源: 财联社
苹果官宣进军机器人行业,9 月 10 号推出首款 AI iPhone 据彭博社消息,苹果被爆正探索机器人相关的新业务。从爆料信息来看,这款机器人并非当 下热议的人形机器人,而是一款桌面机器人,代号为 J595。今天凌晨,苹果宣布将于北京时 间 9 月 10 日凌晨 1 点,在加利福尼亚州库比蒂诺总部举办主题为“高光时刻(It ‘s Glowtime)” 的特别活动。在苹果今年最重要的一次发布会上,苹果预计将推出最新款 iPhone、Watch 和 AirPods。来源: 36 氪
小鹏自研芯片流片,算力是同行三倍,为 AI 定制设计 小鹏汽车自研的智能驾驶芯片已经成功流片。有知情人士透露,小鹏智驾芯片专门针对 AI 需求、端到端大模型等设计,是支持舱驾一体的中央计算架构芯片,“AI 算力接近 3 颗主流 智驾芯片的水平”。8 月 27 日,小鹏 10 周年及 M03 上市活动中,小鹏汽车将正式发布自研 芯片信息。来源: 36 氪
xAI Grok-2 挤进聊天机器人排行榜第二名,紧追 GPT-4o
据大模型排行榜 lmsys 官方消息,xAI 的聊天机器人 Grok-2 现已挤进聊天机器人排行榜第 二名,仅次于 ChatGPT 4o。据悉,根据 6000 份社区投票,Grok-2 夺得了第二名,超越了 GPT-4o(5 月),与最新的 Gemini 并列!Grok-2-mini 也以令人印象深刻的成绩排名第五。 来源: 品玩
08 月 26 日·周一
云知声推出山海多模态大模型:实时生成文本、音频和图像 云知声推出山海多模态大模型,通过整合跨模态信息, 山海多模态大模型能
够接收文本、音
频、图像等多种形式作为输入,并实时生成文本、音频和图像的任意组合输出。来源: AI 工 具集
亚马逊 CEO 安迪・贾西: AI 助手 Amazon Q 可节省约 4500 个开发人员一年工作量
亚马逊 CEO 安迪・贾西在其领英主页发帖称,将亚马逊的生成式 AI 开发助手 “Amazon Q”
集成到内部系统后,利用新的代码转换功能,Amazon Q 将应用程序升级到 Java 17 的平 均时间从开发人员的 50 天左右缩短到了几个小时,估计节省了约 4500 个开发人员一年 的工作量。来源: IT 之家
Meta 发布 Sapiens 视觉模型,让 AI 分析和理解图片 / 视频中人类动作
Meta Reality 实验室最新推出了名为 Sapiens 的 AI 视觉模型,适用于二维姿势预估、身体 部位分割、深度估计和表面法线预测 4 种以人为中心的基本视觉任务。模型参数从 3 亿到 20 亿不等,原生支持 1K 高分辨率推理,易于针对不同任务调整。即使在标注数据稀缺的情 况下,Sapiens 也能展现出卓越的泛化能力。来源: AI 工具集
西湖心辰推出的端到端语音大模型 Lingo ,媲美 GPT-4o
Lingo 是西湖心辰推出的国内首个端到端语音大模型,在技术上具备实时打断、实时指令控 制、超级拟人、能说会唱等能力,拥有比 GPT-4o 更出色的中文语音效果。心辰 Lingo 语 音模型已于 2024 年 8 月 24 日开启内测预约,预计将在 9 月 5 日的外滩大会上正式发
布并开放内测。来源: AI 工具集
摩尔线程开源音频理解大模型 MooER:基于国产全功能 GPU 训练和推理 摩尔线程开源了音频理解大模型 —MooER(摩耳),是业界首个基于国产全功能 GPU 进行 训练和推理的大型开源语音模型。基于摩尔线程夸娥(KUAE)智算平台,MooER 大模型用 38 小时完成了 5000 小时音频数据和伪标签的训练。MooER 不仅支持中文和英文的语音 识别,还具备中译英的语音翻译能力。在 Covost2 中译英测试集中,MooER-5K 取得了 25.2 的 BLEU 分数,接近工业级效果。来源: AI 工具集
Meta 发布 Imagine Yourself:无需为特定对象微调的个性化图像生成 AI 模型 从社交媒体到虚拟现实,个性化图像生成因其在各种应用中的潜力而日益受到关注。传统方 法通常需要针对每位用户进行大量调整,从而限制了效率和可扩展性,为此 Meta 公司创新 提出了“Imagine Yourself” AI 模型。来源: IT 之家
一句话生成《黑神话:悟空》3D 资产,胡渊鸣创业项目 Meshy 上新,免费试用 截至目前,Meshy 已经更新到了第 4 代。从 2023 年 11 月登场,Meshy 就以快速、保真、 操作简易走在行业前列。在 Meshy-4 中,胡渊鸣团队突破了 3D AI 生成的一些技术难题, 无论你是使用文本到 3D 还是图像到 3D,现在都能体验到生成模型的几何质量大幅提升。 来源: 机器之心
08 月 23 日·周五
快手可灵 AI 推出会员订阅计划:支持 AI 图片 / 视频,首月 19 元起
快手可灵 AI 推出会员订阅计划,其中连续包月首月最低价 19 元、次月 58 元,可生成约 66 个视频或 3300 张图片,还可享受高表现视频生成、视频延长、大师运镜等多项会员专 属功能。快手刚发布的 2024 年二季度财报显示,可灵 AI 已有超百万用户,累计生成了超 千万视频。来源: IT 之家
AI 辅助搜索越来越受欢迎 Perplexity 计划在四季度开始投放广告
人工智能(AI)搜索初创公司 Perplexity AI 周四宣布,该公司计划于第四季度在其搜索应用程 序上投放广告。据知情人士声称,在广告方面,Perplexity 将采用一种名为 CPM(每千次展示 成本)的模式,价格将超过 50 美元。它指的是广告主付给媒体的每千次广告展示费用,而不 是每次点击费用。来源: 财联社
微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频
微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用,Azure AI 语音服务最 新推出了文本到语音虚拟人功能,可以将简单的文本转换为人类自然说话视频。今天,微软 宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化 虚拟人。该服务的输出视频分辨率为 1920 x 1080,每秒 25 帧。来源: IT 之家
李彦宏:文心大模型日调用量超 6 亿,日均 Tokens 使用量约 1 万亿
在百度 2024 年第二季度财报电话会上,百度创始人、董事长兼首席执行官李彦宏披露,文
心大模型日
均调用量超 6 亿次,日均处理 Tokens 文本约 1 万亿,均为国内最高。对比 23 年
Q4 公布的 5000 万次日均调用量,半年增长超 10 倍。季度内,百度推出性能更优的文心大 模型 4.0 Turbo,并发布多项优惠策略。来源: 第一财经
抖音搜索推出独立 APP:内容主要为短视频、图文等
据 Tech 星球报道,抖音近期推出抖音搜索的独立 APP。据悉,“抖音搜索”的展示内容则主 要是由博主创作的短视频、图文等内容为主。用户通过在搜索栏内搜索相关的关键词或句子, 即可在综合频道下找到对应的短视频和图文内容。此外,还细分有视频、图文经验、商品等 搜索频道,可进一步精准搜索结果。来源: 36 氪
腾讯会议上线 17 种语言实时翻译,基于腾讯混元、腾讯翻译
腾讯会议升级多语言翻译能力,支持将声源语言翻译为中文、英语、日语、韩语、俄语、泰 语、印尼语、越南语、马来语、菲律宾语、葡萄牙语、土耳其语、阿拉伯语、西班牙语、印 地语、法语、德语等 17 种语言。功能升级后,腾讯会议企业版、商业版用户在会议中的字 幕、实时转写以及会议后的录制页中均能使用。据介绍,该功能由腾讯混元大模型、腾讯翻 译提供支持。来源: 量子位
08 月 22 日·周四
Ideogram 发布 2.0 全新版本,写实风格显著提升,接近真实照片效果
Ideogram 2.0 是由 Ideogram 团队最新推出的文本到图像模型,擅长将文字精准嵌入图像, 输入文字即可设计海报、网页,Ideogram 2.0 版本写实风格显著提升,接近真实照片效果。 Ideogram 2.0 拥有常规、现实、设计、3D 和动漫等风格,满足不同的创意需求。来源: AI 工具集
a16z 发布全球 Top 100 AI 应用榜单,字节跳动大放异彩
a16z 发布了全球 Top 100 AI 应用榜单,字节跳动的多款应用新上榜,包括教育科技平台 Gauth、机器人构建器 Coze 和通用助手豆包。图像和视频内容编辑在移动端应用广泛,美 学和约会应用崛起。Anthropic 的 Claude 在网络端排名上升,AI 助手 Luzia 在移动端表现突 出。来源: a16z
PixVerse V2.5 全球上线,视频生成提速 200%,运动笔刷升级返场
PixVerse V2.5 是爱诗科技最新推出的 AI 视频生成工具,通过模型优化提升了视频生成的速 度和画质,支持 4K 分辨率。新版本增加了 Performance 模式、运动笔刷、运镜控制等功能, 增强了视频创作的动态效果和专业度。提供 7 种语言界面,全球用户均可使用。来源: AI 工具集
Midjourney 网页版全面开放,每人 25 次免费试用机会
Midjourney 网页版现在对所有人开放了,每位新用户提供 Midjourney 最先进模型 V 6.1 25 次试用机会。用户可使用 Discord 或 Google 账号登录,并在账户设置中合并两个平台的登 录信息,确保历史记录同步。来源: AI 工具集
字节豆包语音模型和视觉模型再升级 综合能力提升 20.3%
2024 火山引擎 AI 创新巡展在上海举办,带来豆包大模型的一系列产品升级。豆包语音模 型和视觉模型再升级,对话式 AI 实时交互解决方案进一步强化 AI 交互体验。最新版豆包 大语言模型的综合能力相比三个月前首次发布时提升了 20.3%,豆包·文生图模型、豆包·语音 识别模型等模型也有大幅升级来源: 火山引擎
百度、商汤、智谱前三,IDC 首次发布大模型平台及应用市场份额报告 国际数据公司(IDC)于今日首次发布了《中国大模型平台市场份额,2023:大模型元年 —
— 初局》。数据显示,2023 年中国大模型平台及相关应用市场规模达 17.65 亿元人民币。 受益于多年来在 AI 领域的大力投入以及大模型的早期投入,百度智能云在 2023 年大模型 市场规模达 3.5 亿元人民币,位居市场第一,市场份额达 19.9%;商汤科技位居市场第二, 市场份额达 16.0%;智谱 AI 则是 2023 年初创企业中的胜出者,位居市场第三。来源: IT 之家
08 月 21 日·周三
泡茶、弹琴、练咏春,星尘智能发布 AI 机器人助理 Astribot S1
Astribot 星尘智能 8 月 19 日发布了 AI 机器人助理 Astribot S1,支持泡茶、做饭、弹琴、 练咏春拳等,还能 VR 遥控。据星尘智能介绍,Astribot S1 采用了刚柔耦合传动机构,自 主研发关键零部件,搭载软硬件一体化系统架构。来源: IT 之家
微软发布 Phi-3.5 系列模型,性能超越 Gemini 1.5 Flash 与 GPT-4o
Phi-3.5 是微软推出的新一代 AI 模型系列,包含 Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct 和 Phi-3.5-vision-instruct 三个版本,分别针对轻量级推理、混合专家系统和多模态任务设 计。Phi-3.5 采用 MIT 开源许可证,具有不同参数规模,支持 128k 上下文长度,优化了多语 言处理和多轮对话能力,在基准测试中性能表现超越了 GPT4o、Llama 3.1、Gemini Flash 等 同类模型。来源: AI 工具集
谷歌开放 HeAR AI 模型 API:1 亿条咳嗽声训练,辅助筛查、诊断和监测肺结核 谷歌公司于 8 月 19 日发布博文,宣布通过 Google Cloud API,目前已经向研究人员开放 健康声学表征(Health Acoustic Representations,简称 HeAR)AI 模型。谷歌 HeAR AI 模 型可以帮助人类诊断疾病,可以通过分析人的咳嗽和呼吸,诊断出疾病。来源: IT 之家 Salesforce 推出 xGen-MM 开源多模态 AI 模型
xGen-MM 是 Salesforce 推出的一款开源多模态 AI 模型,具有处理交错数据的能力,能同时 理解和生成文本、图像等多种数据类型。xGen-MM 通过学习大量的图片和文字信息,不仅 在视觉语言任务上展现出强大的性能,还通过开源模型、数据集和微调代码库,促进模型能 力的不断提升。来源: AI 工具集
OpenAI 开放 GPT-4o 微调功能,企业可更轻松打造专属 AI 助手
OpenAI 推出了一项新功能,允许企业客户使用自己的数据来定制其最强大的 AI 模型 GPT-4o。此举旨在应对日益激烈的 AI 企业应用竞争,并满足企业对 AI 投资回报的更高要 求。通过微调,现有 AI 模型可以针对特定任务或领域进行优化。来源: IT 之家
PICO 发布 “中国版 Vi sion Pro”,搭载的 AI 芯片性能暴增 800%
8 月 20 日下午,字节跳动旗下 XR 平台 PICO 推出首款 MR 混合现实一体机 PICO 4 Ultra, 硬件上搭载全新高通骁龙 XR2 Gen2 计算平台,拥有 12GB 超大内存,GPU 性能相比前代 XR1 提升 2.5 倍,AI 性能比 XR1 提升 8 倍。价格方面,PICO 4 Ultra 消费者版本售价 4299 元,PICO 4 Ultra Enterprise(企业版)7499 元,PICO 体感追踪器售价 399 元一对,现已全 面开启预售来源: 钛媒体
iPad 上最强的绘画应用 Procreate ,永远不会在其产品中引入生成式 AI
Procreate CEO James Cuda 宣布该应用将永不使用生成式 AI 技术,以保护艺术家免受其影 响;Procreate 是一款受欢迎的 iPad 绘图应用,自 2011 年上线以来获得多个奖项,并广泛 用于艺术和设计教育;尽管 Procreate 拒绝采用生成式 AI,公司仍将继续使用传统的机器学 习技术来优化应用功能。来源: 爱范儿
EliseAI 跻身纽约独角兽行列:D 轮融资 7500 万美元、估值超 10 亿美元
据 VentureBeat 官网报道,近日,房产科技公司 EliseAI 宣布成功完成 7500 万美元 D 轮融 资,此轮融资由知名风投公司 Sapphire Ventures 领投,新筹集的资金将主要用于扩充团队 规模,推进产品研发。至此,EliseAI 的估值超过 10 亿美元,成为了纽约最新的独角兽公司。 来源: 智东西
08 月 20 日·周二
全球最强数学大模型 Qwen2-Math 发布人人可玩 Demo
阿里千问大模型团队发布了 Qwen2-Math 的体验 Demo,HuggingFace 在线可玩。惊喜的 是,如果嫌输入数学公式比较麻烦,可以把想问的题截图 or 扫描,上传即可解题。试玩界 面的 OCR 功能,由阿里千问大模型团队 Qwen2-VL 提供支持;数学推理能力,由 Qwen2- Math 支持。来源: AI 工具集
Luma Dream Machine v1.5 版本发布,更快、更真、更清晰
据 Luma AI 官方消息,Luma Dream Machine v1.5 版本已经在近日发布,在视频生成方面
获得巨大改善。据 Luma 官方表示,Luma Dream Machine v1.5 版本在视频生成方面取得了 显著进步,不仅提升了视频的质量,更缩短了生成时间。现在,用户可以在更短的时间内, 得到更高质量的视频作品。来源: 品玩
AMD 宣布 49 亿美元收购服务器制造商 ZT Systems 以挑战英伟达
AMD 宣布同意以 75% 现金和 25% 股票交易方式收购服务器制造商 ZT Systems,交易价 值为 49 亿美元,以增加数据中心技术。ZT Systems 将成为 AMD 数据中心解决方案业务 集团的一部分。ZT Systems 在过去 12 个月的收入超过 100 亿美元。来源: 有新 Newin
通义千问宣布启用新域名“tong yi.ai”,网页版聊天新增深度搜索功能 阿里大语言模型“通义千问”今日宣布启用新域名“tongyi.ai”,并带来多项新功能。网页版聊天 新增深度搜索功能;App 图片微动效支持多尺寸图片;App 自定义唱演支持 3:4 画幅(原 先 1:1)。来源: 通义千问
08 月 19 日·周一
昆仑万维推出 AI 短剧平台 SkyReels:可生成剧情/对白,号称让创作者“一键成剧”
8 月 19 日,昆仑万维发布全球首个集成视频大模型与 3D 大模型的 AI 短剧平台 SkyReels。 SkyReels 平台集剧本生成、角色定制、分镜、剧情、对白/BGM 及影片合成于一体,让创作 者“一键成剧”,轻松制作高质量 AI 视频。来源: AI 工具集
科大讯飞推出“星火极速超拟人交互”:可模仿孙悟空、蜡笔小新等音色、语气、人设 科大讯飞今日宣布对星火语音大模型进行更新,带来“星火极速超拟人交互”,计划于 8 月
30 日上线讯飞星火 App。“星火极速超拟人交互”采用统一神经网络实现语音到语音的端到 端建模。官方称即便被频繁打断,也能“迅速反应”,更加符合日常对话情境。来源: 科大讯 飞
OpenAI 关闭 SearchGPT 候补名单,针对 10000 名用户开始测试
据 The Verge 报道,OpenAI 宣布其新产品 SearchGPT 的候选名单已经关闭,并开始用户 测试。在初始阶段,只有 10000 名用户将被授予访问权限,这可能有助于避免搜索机器人 提供错误建议的情况。SearchGPT 可以让用户用自然语言提问,并获得详细、易懂的答案, 就像在与专家交谈一样。系统能够保持对话的上下文,理解复杂的查询,甚至自己澄清细节。 来源: 品玩
斯坦福都在用的 AI 学术搜索引擎 Consensus 获 USV 1100 万美元领投
近日,AI 学术搜索引擎 Consensus 宣布完成 1100 万美元融资,A 轮融资由 Union Square Ventures 领投,其他投资者还包括 Nat Friedman、Daniel Gross 以及 Draper Associates 等。 据悉,Consensus 目前拥有 40 万月活跃用户,包括学生、医生和注重健康的消费者,这些 用户通过搜索引擎来回答各种问题,包括肌酸补充剂、正念的好处以及现金转移是否可以减 少贫困。来源: 有新 Newin
免费 AI 学术搜索引擎 Lumina,号称搜索结果相关性比谷歌学术高 5 倍 三人团队打造的学术搜索引擎,直接拿下 SOTA!号称搜索结果相关性平均比谷歌学术高 5 倍,能搜索超 1 亿个研究对象,还不依赖 LLM。更重要的是:免费!这个新搜索引擎名叫 Lumina,据说目前已处理了超 30 万次查询,支持 24 种语言。为了和谷歌学术等传统学术 搜索引擎做比较,开发团队还专门搞了个基准测试,代码库也已开源放了出来,测试结果 Lumina 搜索结果的相关性拿下 SOTA。来源: AI 工具集
谷歌前 CEO 施密特最新演讲全文实录:坦言“卷”才是企业唯一的出路
Google 前 CEO ,「现在已经不是 Google 员工」的施密特(Eric Schmidt)前不久在斯坦 福做了一次分享。分享被拍成视频上传到斯坦福在线课 YouTube 官号,其中有 40 多分钟 施密特与学生 Q&A 的环节。因为观点太直接,说话太实在,施密特的分享上了新闻。来源:
极客公园
稚晖君一口气发布 5 款人形机器人,远征 A2 系列主打“面向量产改进” 在这场发布会中,稚晖君一口气推出了三款远征系列机器人产品:交互服务机器人「远征 A2」、柔性智造机器人「远征 A2-W」、重载特种机器人「远征 A2-Max」。最后的 One more thing 环节,智元 X-Lab 孵化的模块化机器人系列产品「灵犀 X1」和「灵犀 X1-W」也作 为「彩蛋」正式亮相。来源: 量子位
中国首个接入大模型的 Linux 开源操作系统正式发布——Linux 发行版 deepin V23
知名开源社区——deepin(深度)社区正式对外发布了开源操作系统——Linux 发行版 deepin V23。作为中国首个开源操作系统根社区推出的发行版本,deepin V23 真正实现了操 作系统在仓库、应用层、操作系统核心组件上都有自研模块,向全球开源爱好者输出提供优 异的源自中国的开发套件!来源: 腾讯新闻
08 月 16 日·周五
Runway 发布 Gen-3 Alpha Turbo:AI 视频生成速度提升 7 倍
据 Runway 官方消息,Runway 正式推出了 Gen-3 Alpha Turbo,这是该公司最新的 AI 视 频生成模型。与此前发布的 Gen-3 Alpha 相比,Turbo 生成速度可提高 7 倍,价格仅为原 版 Gen-3 Alpha 的一半。同时在许多用例中仍具有同等性能。Turbo 适用于所有用户,包 括免费用户的试用版。来源: 品玩
CodeRabbit 获 1600 万美元融资,助力 AI 自动化代码审查
据 Techcrunch 报道, CodeRabbit 宣布获得 1600 万美元的 A 轮融资,由 CRV 领投, Flex Capital 和 Engineering Capital 参投。CodeRabbit 是一家 AI 初创公司,其目标是通过 人工智能来自动化代码审查过程。CodeRabbit 的平台利用先进的人工智能推理来理解代码 背后的意图,并为开发者提供可操作的、类似人类的反馈。来源: 腾讯新闻
李沐:创业一年,人间三年
作者李沐:给小伙伴汇报一下 LLM 创业第一年的进展、纠结和反思。在 Amazon 呆到第 五年的时候就想着创业了,但被疫情耽搁了。到第 7 年半的时候,觉得太痒了,就提了离 职。现在想来,如果有什么事这一辈子总要试下的,就蹭早。因为真开始后会发现有太多新 东西要学,总感叹为啥没能早点开始。来源: 机器之心
收到中国知网 28 页侵权告知函,秘塔 AI 宣布不再收录知网文献题录、摘要数据 秘塔公司今天上午通过官方公众号发文称,昨天(15 日)收到《中国学术期刊(光盘版)》 电子杂志社有限公司(即“知网”),长达 28 页的侵权告知函。秘塔方面针对此事回应称,依 照学术规范,文献的摘要和题录应具有独立性和自明性,能够使读者不阅读全文就能获得必 要的信息。秘塔 AI 搜索的“学术”版块仅收录了论文的文献摘要和题录,并未收录文章内容 本身,阅读正文需通过来源链接跳转至网站获取。来源: 秘塔 AI
微信蚂蚁押注 AI 应用商店,巨头争抢 AI 时代“苹果税”抽成
据 Tech 星球报道,微信的云开发团队正在打造一款名为“云开发 AI 智能体”的应用平台,这 是一个多平台 AI 智能体开发框架,用于企业和小程序提供专属的智能体平台。蚂蚁集团也
在开发一款 AI 应用搭建工具“芝士饼”。
开发者为蚂蚁云通(上海)信息技术有限公司,天眼
查显示,该公司由蚂蚁集团 100%控股。用户通过该平台也能够在无代码的情况下搭建 AI 应 用,支持创作成支付宝小程序等多重产品形态。来源: 品玩
力压 DALL-E 3 等顶级模型,谷歌开放 Imagen 3 文生图 AI 访问
科技媒体 VentureBeat 报道,谷歌已经向美国用户正式开放了最新文生图 AI 模型 Imagen 3,用户可以打开 AI Test Kitchen 体验该功能,官方称最新版本“细节更清晰、光照更丰富、 干扰性人工痕迹更少”。谷歌于今年 5 月召开的 I / O 开发者大会上宣布 Imagen 3 模型,
6 月邀请部分 Vertex AI 用户测试使用,而现在正式向美国用户开放。来源: IT 之家
百度文库“橙篇 ”App 上线,支持长文写作、多图一键成片等
百度文库于 5 月 30 日发布 AI 原生应用“橙篇”,橙篇 App 在各大安卓平台上线,版本号 为 1.0.02,安装包体积为 40.72 MB。这款产品支持智能全网搜索、AI 今日热点等类似资讯 类 App 的功能,还支持多图一键成片、超长文章写作、文件理解总结等生成式大模型功能。 此外,该产品具备对话能力,支持发送文字、语音输入等进行自由对话。来源: IT 之家
08 月 15 日·周四
NEA 领投李飞飞 World Labs 新一轮 1 亿美元融资 估值已超 10 亿美元
上个月,李飞飞创立的 World Labs 公司被曝在短短两个月内完成两轮融资,获得了包括 a16z 以及 AI 基金 Radical Ventures 在内的顶级科技投资者的投资,估值超过 10 亿美元。 根据 TechCrunch 获悉,World Labs 最新一轮由 NEA 领投,估值超过 10 亿美元,最早
《金融时报》在 7 月份报道了这笔超过 1 亿美元的投资。来源: 有新 Newin
苹果或将在 2026 年推出搭载 AI 系统的桌面机器人
据 Macrumors 报道,苹果计划在 2026 年推出一款桌面机器人产品,该设备售价约 1000 美 元,将配备 Apple Intelligence 技术。据悉,该设备将配备一个类似 iPad 的大型显示屏, 安装在一个机械臂上,允许显示屏上下左右倾斜和 360 度旋转。该设备可用作 “智能家居 指挥中心”、FaceTime 通话等视频会议设备和家庭安全监控工具。来源: 品玩
最强智能体 Agent Q 发布,可以自我学习进化
初创公司 MultiOn 最近发布了号称「目前最强」的 Agent Q,在真实的预订任务中可以达到 95.4%的成功率。网友纷纷猜测其背后有 OpenAI 神秘的 Q*项目加持。Agent Q 融合了引导 式蒙特卡洛树搜索(MCTS)、AI 自我批评和直接偏好优化(DPO)等技术,使 AI 模型能通 过迭代微调和基于人类反馈的强化学习进行自我改进。来源: AI 工具集
蚂蚁进军 AI 企业服务市场!成立“数字蚂力”新公司,发力 AI to B 蚂蚁集团在北京成立新公司“数字蚂力”,发力 AI to B 市场,将以人工智能技术服务企业经 营。数字蚂力总部位于海淀区的蚂蚁 T 空间。该空间也是蚂蚁北京创新科技总部,蚂蚁集团 将依托首都科技和人才优势,加大科技创新投入力度,围绕人工智能和数据要素根技术开展 前沿探索。来源: 量子位
OpenAI 发布 ChatGPT-4o-Latest 力压谷歌 Gemini 1.5 Pro,多项跑分重夺第一 谷歌上周发布最强 Gemini 1.5 Pro 模型,在 LMSYS 的聊天机器人竞技场(Chatbot Arena) 比赛中取得第一名,而 OpenAI 迅速“找回场子”,最新 chatgpt-4o-latest 模型重夺第一。 OpenAI 再次发布了名为 chatgpt-4o-latest 的全新前沿模型,是 GPT-4o 的最新版本,上 下文窗口输入最高 128000 个词元(tokens),输出最高 16384 个词元。来源: IT 之家 ChatGPT 低调更新, 已使用最新版本 GPT-4o 模型
据 ChatGPT 官方消息,ChatGPT 已在上周进行更新,使用最新版本的 GPT-4o 模型。据悉, 该版本是 OpenAI 根据用户反馈而更新的一个版本。新模型似乎能够进行更细致地分步推 理,并给出更详尽的解释。来源: 品玩
08 月 14 日·周三
马斯克 xAI 发布 Grok-2 / mini AI 模型,𝕏 平台新增支持文生图
xAI 公司昨日(8 月 13 日)以 Beta 版本的形式,发布了 Grok-2 和 Grok-2 mini 两款 AI
模型,重点改善了推理能力。Grok-2 在视觉任务 MathVista 和 DocVQA 上展现出行业领先 的水平,并与 Black Forest Labs 的 FLUX.1 模型合作,扩展了 Grok-2 的 AI 能力,计划在本 月晚些时候通过企业 API 向开发者提供这两种模型。来源: AI 工具集
昆仑万维发布全球首个 AI 流媒体音乐平台 Melodio 昆仑万维今日宣布,正式发布全球首个 AI 流媒体音乐平台 Melodio,并同步推出 AI 音乐 商用创作平台 Mureka。据介绍,用户根据此刻的场景或心情在 Melodio 输入 Prompt(提 示),Melodio 便会持续生成相应风格的定制化音乐。来源: AI 工具集
快手发布新款 AI 对话应用 飞船 Kraft,提供全方位 AI 陪伴功能 据快手官方消息,快手今日推出 AI 对话应用飞船 Kraft,为用户提供个性化对话体验。官 方介绍称,飞船(Kraft)智能助手 App 是一款基于先进 AI 技术的互动软件,旨在提升用 户的生活质量和工作效率。用户可以通过文字或语音与 AI 助手进行交流,解答疑问、获得 娱乐、进行创作和角色定制等。来源: AI 工具集
谷歌发布 Pixel Studio 本地 AI 文生图应用:基于 Imagen 3 模型,2 秒内生成 谷歌公司在今天召开的 Pixel 9 系列手机发布会上,推出名为 Pixel Studio 的全新图像生成 应用,并表示将预装在每台 Pixel 9 系列手机上。用户可以在 Pixel Studio 应用中输入提示 词,要求其生成图片。谷歌 Pixel Studio 应用采用本地运行生成,基于谷歌自己的 Imagen 3 模型。来源: AI 工具集
谷歌发布 Gemini Live:支持 AI 语音聊天,可模拟面试场景、推荐演讲技巧
Gemini Live 是谷歌推出的智能语音助手,具有自然语言理解和多模态识别能力,支持图像、 视频和语音交互。用户可通过语音指令控制,实现日常任务自动化。Gemini Live 提供 10 种 语音选择,集成谷歌原生应用,未来将扩展至 iOS 系统和增加更多语言的支持。来源: AI 工具集
谷歌向苹果三星开火!深夜甩出四款 AI 手机,一键召唤 Gemini,安卓全面 AI 化
智东西 8 月 14 日报道,今日凌晨,在第九届 Made by Google 活动上,AI 成为谷歌硬件全 家桶亮相的关键词,AI 被提及近百次,谷歌已经将 Gemini 无缝集成到了折叠屏手机、智能 手表、TWS 耳机等各类硬件中。此次,全球大模型和 AI 巨头谷歌甩出了其与大模型深度结 合的 AI 硬件全家桶,抢在苹果正式发布搭载苹果智能的 iPhone 16 系列之前,使得安卓成 为了首个配备大型设备内置多模态 AI 模型的移动操作系统。来源: 智东西
08 月 13 日·周二
Cosine AI 推出 “地表最强” AI 程序员:Genie
Genie 是 Cosine AI 推出的 AI 软件工程师智能体,能像人类一样快速解决实际软件问题,仅 需 84 秒即可完成代码编写和运行。Genie 通过模仿人类程序员的思考方式,自动解析问题、 迭代分析并编写代码。Genie 在 SWE-Bench 基准测试中以 30.07%的解决率遥遥领先。来源: AI 工具集
首个全自动科学发现 AI 系统,Transformer 作者创业公司 Sakana AI 推出 AI Scientist Sakana AI 宣布推出 AI Scientist,这是世界上第一个用于自动化科学研究和开放式发现的 AI 系统!从构思、编写代码、运行实验和总结结果,到撰写整篇论文和进行同行评审,AI Scientist 开启了 AI 驱动的科学研究和加速发现的新时代。原则上,它可以不断重复科学研 究过程,以开放式的方式迭代开发想法,就像人类科学家一样。来源: 机器之心
AMD 完成收购欧洲最大私人 AI 实验室 Silo AI,斥资 6.65 亿美元
AMD 今日正式宣布,已完成对欧洲最大私人 AI 实验室 Silo AI 的收购,交易金额约为 6.65 亿美元(IT 之家备注:当前约 47.73 亿元人民币),采用全现金支付。至此,Silo AI 的科学 家和工程师正式加入 AMD 大家庭。来源: IT 之家
最新 Falcon Mamba 7B 模型性能全方位提升,打败 Llama-3.1(8B)、Mistral(7B)
最新 Falcon Mamba 7B 模型采用 Mamba 状态空间语言模型架构来处理各种文本生成任 务。通过取消传统注意力机制,有效提升了模型处理长序列时计算效率低下的问题。它可以
处理无限长序列,但内存需求不增加。无论上下文多长,生成每个 token 的时间基本一样。 Falcon Mamba 模型性能全方位提升,打败一众 Transformer 架构模型,如 Llama-3.1(8B)、 Mistral(7B)以及 Falcon-2(11B)。来源: 量子位
阿里通义开源音频语言模型 Qwen2-Audio,相关论文入选顶会 ACL 2024 阿里通义大模型继续开源,Qwen2 系列开源家族新增音频语言模型 Qwen2-Audio。Qwen2- Audio 可以不需文本输入,直接进行语音问答,理解并分析用户输入的音频信号,包括人声、 自然音、音乐等。该模型在多个权威测评中都显著超越先前的最佳模型。来源: AI 工具集
苹果被曝正开发 AI 智能眼镜,便宜版 Vision Pro 或将明年推出
根据彭博社 Mark Gurman 的爆料,苹果 Vision 团队正在继续试验几种不同的穿戴式 VR/AR 眼镜产品,其中包括更平价的 Apple Vision 头显,第二代 Apple Vision Pro,以及 一款类似 Ray Ban Meta 的智能眼镜。来源: 爱范儿
IBM 推出生成式 AI 网络安全助手
据 IBM 官方消息,IBM 将在其托管威胁检测和响应服务中引入生成式 AI 功能,供 IBM Consulting (IBM 咨询)的分析人员使用,从而协作客户推进和简化安全运营。全新的 IBM Consulting Cybersecurity Assistant 基于 IBM 的数据和 AI 平台 watsonx 构建,旨在加快 和改进对关键安全威胁的识别、调查和响应。来源: IT 之家
Meta 深化与环球音乐合作,双方将共同保护人类创作者和艺术
据 Meta 官方消息,Meta 宣布和环球音乐集团(Universal Music Group)深化合作,达成 了新的多年合作协议。Meta 公司在公告中表示,新协议反映了双方共同致力于保护人类创 作者和艺术,包括确保艺术家和词曲作者得到公平报酬,帮助艺术家和词曲作者在 Meta 平 台上提供更广阔的发展空间和商业机遇。来源: 品玩
我国完成备案并上线、能为公众提供服务的生成式 AI 服务大模型达 180 多个 据“工信微报”消息,在日前召开的第十二届互联网安全大会上,中央网络安全和信息化委员 会办公室副主任、国家互联网信息办公室副主任王京涛介绍,截至目前,我国已经完成备案 并上线、能为公众提供服务的生成式人工智能服务大模型达 180 多个,注册用户数已突破 5.64 亿。来源: IT 之家
08 月 12 日·周一
百度网盘超能画布推出 Pro 专业版,修图效率提升 60 倍
百度网盘 AI 创意生成工具“超能画布”近日宣布推出专业版。用户只需上传图片,即可从 70 余种风格中挑选,轻松生成具有不同妆造服饰和场景的写真。其“背景重绘”功能能够智能识 别并抠出人物主体,一键更换背景,大大降低了布景成本,同时保留了拍摄时的服饰造型。 来源: 品玩
LG 推出韩国首个开源 AI 模型 EXAONE 3.0,韩语测试排名第一
LG AI Research 于 8 月 7 日宣布推出韩国首个开源 AI 模型 EXAONE 3.0,标志着韩国进 入了由美国科技巨头以及中国和中东新兴企业主导的全球 AI 领域。EXAONE 3.0 开源模型 基于 Decoder-only Transformer 架构,参数数量为 7.8B,训练数据量(tokens)为 8T,是 一款针对英语和韩语的双语模型。来源: IT 之家
讯飞智文 2.0 版本发布:内置 AI PPT 编排创作引擎,基于星火大模型 从讯飞开放平台获悉,讯飞智文 2.0 版本今天正式发布,带来 PPT 文本生成大模型、AI PPT 编排创作引擎、AI PPT 在线编辑模组三大技术升级。据介绍,讯飞智文 2.0 依托讯飞星火 V4.0 的底座能力,在文本生成方面进行了独立训练,对用户输入的主题具备更强大的理解 能力。用户在“主题创建”中输入一句话主题,再勾选“联网搜索”,大模型即可自动抓取实时 资讯,以确保事实的时效性、准确性。来源: 讯飞开放平台
毒舌 AI Twitter Personality 每小时赚 4000 美元,每分钟 36 个新用户
病毒式传播的“毒舌 AI”Twitter Personality 每小时赚 4000 美元!(约 2.8 万元),只需输入一 个推特用户名,就能得到 AI 根据历史发言做的犀利点评。而且只要是公开账号就行,并不 需要获取任何权限,除了查看 AI 对自己的看法,还可以用来恶搞朋友,甚至名人。“毒舌 AI”Twitter Personality 构建在低代码开发平台 Wordware 上。来源: 量子位
马斯克宣布 Grok 2 测试版即将发布,年底发布 Grok 3
特斯拉 CEO 马斯克当地时间 8 月 11 日晚在 X 平台上表示,人工智能模型 Grok 2 测试 版即将发布。Grok 2 发布后将紧随 Grok 3,马斯克此前称其将在年底左右推出。他表示, xAI 一直在训练 Grok 3,该模型的水平将“达到或超越”尚未发布的 OpenAI GPT-5 来源: IT 之家
AI 换脸项目 Deep-Live-Cam 一夜爆火:只需一张照片,变身马斯克直播
8 月 9 日晚到 8 月 10 日早晨,一个项目突然在 GitHub 上火起来:Deep-Live-Cam,使 用一张他人的照片,就能实现在直播流中的实时换脸,而且效果优秀。Deep-Live-Cam 现 在在 GitHub 上完全开源, 在 CPU 上运行,可以使用 NVIDIA CUDA、 Apple Silicon
(CoreML)、DirectML(Windows)、OpenVINO(Intel)进行 GPU 加速。来源: AI 工具集
08 月 10 日·周六
智谱 AI 推出 200 万字长文本模型 GLM-4-long ,已开放 API
GLM-4-long 是智谱 AI 推出的 200 万字长文本模型,现已在智谱 AI 开放平台 BigModel 上 开放 API 调用。支持超长输入专为处理超长文本和记忆型任务设计,上下文长度最高为 1M, 约 150-200 万字,相当于 2 本红楼梦或者 125 篇论文。。来源: AI 工具集
即刻魔法镜:即刻账户 AI 趣味分析应用,窥探你的内心
即刻魔法镜是即刻账户 AI 趣味分析应用,用户只需要输入即刻主页链接,立即开始“照照魔 法镜”,即刻魔法镜全面阅读用户所有即刻账户帖子与互动内容并产出分析报告,综合输出 用户的优点、缺点、爱情、金钱、健康预测以及生活和职业建议。即刻魔法镜幽默风趣的吐 槽和深刻洞察力类似基于 Wordware 搭建的“Twitter 毒舌智能体”。来源: AI 工具集 AI+编程初创公司 Anysphere 获得 a16z 和 Thrive 等 6000 万美元 A 轮融资
AI +编程初创公司 Anysphere 完成 6000 万美元 A 轮融资,投后估值 4 亿美元。 据悉, 此轮融资由 a16z 以及 Thrive Capital 联合领投,Stripe 联合创始人&CEO Patrick Collison 也参与了此轮融资。Anysphere 公司推出的 AI 编程产品是 Cursor-立即体验 。来源: 有新 Newin
08 月 09 日·周五
秘塔科技完成超 1 亿元融资,蚂蚁集团领投
据晚点 latepost 报道,秘塔科技近期完成了超 1 亿元人民币的新一轮融资,由蚂蚁集团领 投、光速光合跟投。本轮投后估值达 1.5 亿美元。据了解,百度、腾讯等大型科技公司也曾 在这轮融资期间与秘塔接触,最终蚂蚁与秘塔达成交易。去年以来,蚂蚁集团在 AI 领域已 至少投资 6 家公司,包括大模型公司智谱 AI、月之暗面,视频生成公司爱诗科技、生数科 技 ,AI 芯片公司墨芯和最新的秘塔。来源: 晚点 LatePost
字节豆包大模型已支持实时语音通话
字节跳动旗下火山引擎今日宣布推出对话式 AI 实时交互解决方案,搭载火山方舟大模型服 务平台。该方案通过火山引擎 RTC 实现语音数据的采集、处理和传输,并深度整合豆包 ・
语音识别模型和豆包・语音合成模型,简化语音到文本和文本到语音的转换过程,提供智能
对话和自然语言处理能力,帮助应用实现用户和云端大模型的实时语音通话。来源: IT 之 家
小米旗舰设备国际版将接入谷歌 Gemini 大模型,OPPO 此前已接入
小米创办人雷军 8 月 7 日宣布,小米旗舰设备国际版将接入谷歌 AI 大模型 Google Gemini。小米目前已在国行机型中推出了自家的 AI 功能,7 月 30 日,小米小爱同学「大 模型小爱」宣布全量升级,支持自然问答、图片编辑、车外唤醒防御等,覆盖核心品类设备。 来源: IT 之家
毒舌 AI 上线 𝕏:马斯克、霉霉甚至全球 400 万网友被 Wordware 骂破防
这个名叫 Wordware 的产品,是一个 IDE 平台,可以在上面用自然语言构建 AI Agent。而
大火的这个推特罗伯特,是个调用 Claude 的 AI Agent,号称「发现你的推特人格」。只要 把你的推特账号输入进去,它就会阅读你的推文,然后用 LLM 来分析你的个性。来源: IT 之家
阿里开源 Qwen2-Math:数学推理全球第一,超越 GPT-4o 和 Claude-3.5
阿里开源了 Qwen2-Math(1.5B/7B/72B)系列,Qwen2-Math 是一系列基于 Qwen2 LLM 构 建的专门用于数学解题的语言模型,数学推理能力全球第一。在 Math 上的评测结果表明, 最大的数学专用模型 Qwen2-Math-72B-Instruct 超越了最先进的模型,包括 GPT-4o、 Claude-3.5-Sonnet、Gemini-1.5-Pro 和 Llama-3.1-405B。来源: Qwen
OpenAI 宣布 DALL-E 3 模型向 ChatGPT 免费用户开放
北京时间今天凌晨,OpenAI 宣布 ChatGPT 免费用户可以每天使用其 DALL-E 3 模型生成 图片。DALL-E 3 于去年 9 月推出,起初只面向 ChatGPT Plus 付费订阅用户提供。来源: IT 之家
Mistral AI 推出新开发工具 La Plateforme 用户可自主优化和构建智能 Agents
Mistral AI 近日宣布,推出全新 AI 工具 La Plateforme 以及 Agents 平台,为用户和开发者 提供更强大、更灵活的 AI 模型优化和应用能力。Mistral 表示,他们的模型终于可以通过 La Plateforme 进行微调,让用户可以更好地利用自己的数据进行优化。同时,Agents 平台则可 以帮助用户对模型进行详细调整,构建出更加智能的 Agents。来源: 品玩
阿里巴巴推出科研自动化 AI 助手 DS Assistant 据阿里巴巴官方消息,阿里巴巴近日推出了一款名为 DS Assistant 的 AI 数据科学助手,它 能够自动化地完成从数据探索到模型评估的全流程,让数据科学工作变得更加简单、高效。 DS Assistant 基于 Modelscope-Agent 框架开发,这一框架由阿里巴巴开源,具有丰富的工 具生态和灵活的模块设计。来源: 品玩
08 月 08 日·周四
字节跳动旗下豆包上线音乐生成功能,用户可一键 “撰写”词曲
字节跳动旗下智能 AI 助手豆包今日上线音乐生成功能。用户在豆包的“音乐生成”中输入主 题或自己写的歌词,设定音乐风格、情绪及音色,便能快速生成一首约 1 分钟的词曲。目 前,豆包音乐生成功能提供民谣、嘻哈、R&B 等 11 种音乐风格,其中还涵盖了爵士、雷 鬼、电音等相对小众的曲风,用户可选择男声或女声演唱。来源: IT 之家
阿里云推出首个域名 AI 大模型应用,上线“.ai”域名后缀 阿里云在万网焕新发布会上宣布,域名产品服务完成 AI 化系列改造,推出首个域名 AI 大 模型应用,并上线“.ai”等 40 余个全新的域名后缀、2000 万个全球域名资源。据阿里云官 方介绍,升级后的阿里云万网,实现了智能起名。用户输入只需输入品牌信息与所属行业, 一键点击后,基于通义大模型就能批量生成创意域名。来源: IT 之家
百度网盘推出 AI 修图摄影行业解决方案
据百度消息,百度网盘在 2024 年 8 月推出了针对摄影行业的解决方案,该方案集存储备份、 AI 修图和高效交付于一体,目的是帮助影楼提高效率、降低成本并增强业务增长。百度网盘 AI 修图 功能能够满足多种修图需求,包括高低频磨皮、面部重塑、单人调整和批量处理、牙 齿美白等来源: AI 工具集
OpenAI 基金牵头 6000 万美元投资硬件初创企业 Opal
据 The information 报道,OpenAI 基金正在牵头为 Opa(l
之前称为 Opal Camera)进行 6000
万美元的 B 轮融资。其他投资方包括 YouTuber Casey Neistat 和 TikTok 兄弟 Charli 和 Dixie
D’Amelio,以及 Founders Fund 和 Kindred Ventures 在内的现有投资者参投。来源: 钛媒体
月之暗面 Kimi 上下文缓存 Cache 存储费用降价 50%
月之暗面宣布,Kimi 开放平台的上下文缓存 Cache 存储费用降价 50%,Cache 存储费用由 10 元 / 1M tokens / min 降低至 5 元 / 1M tokens / min,即日起生效。7 月 1 日,Kimi 开放平台上下文缓存(Context Caching)功能开启公测。官方表示,该技术在 API 价格不 变的前提下,可为开发者降低最高 90% 的长文本旗舰大模型使用成本,并提升模型响应速 度。来源: 月之暗面
GPT-4o 新版本上线:丝滑解决 9.11 和 9.9 谁大,更强也更便宜了
GPT-4o 新版本上线,更强更便宜。能力全方位提升,ZeroEval 基准测试直接跃居第一。输 入和输出分别节省 50%、33%。token 输出扩展到 16k,此前支持 4k。9.11 和 9.9 谁大这个问 题,也能丝滑解决。这是因为 OpenAI 给 API 中引入了结构化输出,通过 JSON 模式确保模 型输出符合开发者定义的结构,能让模型变得更可靠安全。最新版模型“GPT-4o-2024-08- 06”在 JSON 模式评估中,得分 100%。来源: 量子位
商汤科技推出的 AIGC 产品“秒画趣拍”,上线 9 天日活破 52 万人
商汤科技基于“日日新·秒画”文生图大模型打造的一款帮助用户生成创意写真、自拍合照的
AIGC 产品“秒画趣拍”小
程序版上线,试运营第 9 天日活跃用户突破 52 万,用户总量突破
146 万,日页浏览突破 4117 万,网络请求破亿次。“秒画趣拍”小程序里覆盖丰富模板,包括 定格奥运、校园毕业照、创意合照、名画风写真、旅拍照片、新国风、二次元等。来源: AI 工具集
08 月 07 日·周三
Canva 可画发布一站式 AI 创作套件“魔力工作室”:支持生成花字、转场动画
在 8 月 6 日的“Canva Connect 连接你我,可画未来”主题活动中,在线视觉传播和协作平 台 Canva 可画宣布,一站式 AI 创作套件“魔力工作室”在中国正式上线。该套件号称“人人 可用的一站式 AI 创作套件”,功能包括基于 AIGC 的文案生成、图片生成、花字特效生成、 图片编辑、转场动画设计生成等。来源: IT 之家
腾讯元宝上线深度阅读模式:支持最长近 50 万字输入,可提炼论文、生成杜邦分析图
腾讯元宝宣
布,在最新版本的腾讯元宝中,当用户上传论文、财报、研报等专业内容的 URL
链接或文件,除获得文字概括总结外,还可进入深度阅读模式,对长文进行精读。深度阅读 模式可原生支持最长近 50 万字的输入,能够在理解专业内容的基础上,生成图文并茂的内 容,不仅可以引用输入内容的原图,还能通过代码绘制高阶的分析图。来源: IT 之家
「零一万物」完成数亿美元融资,某国际战投、东南亚财团加盟
李开复创办的 AI 大模型独角兽公司零一万物已经完成新一轮融资,金额达数亿美元。知情 人士表示,此轮融资参与方包括某国际战投、东南亚财团等多家机构。如今的“大模型六小 虎”(智谱 AI、零一万物、百川智能、MiniMax、月之暗面、阶跃星辰),正以惊人的速度, 跨过 200 亿元的估值大关。来源: 36 氪
OpenAI API 引入结构化输出功能,助力开发者智能连接外部工具
OpenAI 在 API 中推出了新的结构化输出功能,这为开发者提供了一种更可靠的方法,将 GPT 的能力与外部工具和 API 连接起来。这一功能允许开发者向 gpt-4-0613 和 gpt-3.5- turbo-0613 描述函数,并让模型智能地选择输出一个包含调用这些函数参数的 JSON 对象。 来源: 第一财经
“地表最强”人形机器人 Figure 02 发布!OpenAI 加持,已在宝马打工
美东时间 8 月 6 日,全球最备受瞩目的人形机器人公司「Figure AI」,炸场发布了第二代人 形机器人 Figure 02。在宝马工厂工作,不管是拿钢材,还是组装器械,它都不在话下!据介 绍,此次它的手有着惊人的 16 个自由度,能承受与人类相当的重量。各种脏活累活,一整 个拿捏,更何况 CEO 望子成龙,说希望它最长能工作 20 个小时。来源: 量子位
国产端侧模型又出力作,面壁“小钢炮”MiniCP M-V 2.6 模型重磅上新
面壁“小钢炮”MiniCPM-V 2.6 模型重磅上新,以 8B 参数,取得 20B 以下参数的单图、多图、 视频理解 3 SOTA 成绩,首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V,单图理解越级比肩 Gemini 1.5 Pro 和 GPT-4o mini。来源: 智东西
零一万物宣布 Yi API Function Call 功能上线
据零一万物官方消息,Yi API 正式新增 Function Call 功能。据零一万物表示,最新的模型 Yi-Large-FC 经过针对性训练,具备良好的深度理解能力、强大的指令遵循能力,既能根据 用户的输入判断何时应调用函数,又能使用更贴近工具函数定义的 JSON 进行响应;同时 完美兼容 OpenAI 的接口设计,能够丝滑“平替 GPT”。来源: 零一万物
阿里国际推出首个专业版 AI Search,全球贸易领域的「下一个 Google」 阿里国际宣布入局,带来了一款新产品。与其它所有人都不同,阿里国际的 AI 搜索切入了 一个空白地带:涉及更多行业 Know-How 的深度信息搜索领域。阿里国际选择了自己最擅 长的「全球电商」行业,意在改变全球采购流程,使之更加直观和高效。来源: 机器之心
08 月 06 日·周二
通义 App 推出角色扮演功能,可一键替换视频人物
8 月 6 日,通义 App 推出角色扮演功能,可一键替换视频人物。上传一段视频,选择要替换 的 3D 角色,可以在不改变其他场景和人物的情况下,将视频里原有的角色一键变身为有趣 的 3D 角色模型,实现让孙悟空跳水、机器人打网球、二次元女孩揉面等创意视频。来源: 量子位
谷歌将为 Chromebook 推出 AI 助手 Bluebuddy
据 WindowsReport 报 道, 谷 歌 正 在 为 Chromebook 系列笔记本电脑打造一款名为 Bluebuddy 的 AI 助手,将帮助用户解决蓝牙相关问题。这款新助手将在 ChromeOS 中推 出,用户只需输入遇到的问题,系统就会推荐相应的解决方案。来源: 品玩
OpenAI 宣布今年 DevDay 定档十月,不会发布 GPT-5,聚焦 API 和开发工具
据 TechCrunch 报道,OpenAI 表示将改变 DevDay 大会的形式,从一个大型活动转变为一 系列开发者参与会议。OpenAI 还确认,它不会在 DevDay 期间发布下一款主要旗舰大模型, 而是将重点放在 API 和开发者服务的更新上。来源: IT 之家
智谱 AI 正式开源 CogVideoX,「清影」同款 AI 视频生成模型,单卡可跑可调
CogVideoX 是智谱 AI 最新推出的开源 AI 视频生成模型,与智谱 AI 的商业产品“清影”同源。 CogVideoX 支持英文提示词,能生成 6 秒长、每秒 8 帧、分辨率为 720*480 的视频。模型 推理需 16-36GB 显存,目前不支持量化推理和多卡推理。来源: AI 工具集
AI 芯片初创公司 Groq 获 Blackrock 6.4 亿美元超额投资,估值 28 亿美元
AI 芯片初创公司 Groq 宣布获得 Blackrock 领投的 6.4 亿美元融资,其他投资者包括
Neuberger Berman、Type One Ventures、思科、KDDI 以及三星。据悉,Groq 最初希望以
略低于 25 亿美元估值融资 3 亿美元,但最终获得超额融资,估值达到 28 亿美元,是上 一轮估值的 2 倍多,当时获得了 Tiger Global 以及 D1 Capital 的 3 亿美元投资。来源: 有新 Newin
月之暗面完成 3 亿美元新一轮融资,投后估值 33 亿美元
据彭博社报道,月之暗面(Kimi 母公司)刚刚完成了新一轮 3 亿多美元融资,此次融资将 月之暗面的估值推高至 33 亿美元,并吸引了包括腾讯、高榕资本和老股东阿里巴巴在内的 其他投资者。来源: 新浪财经
Adobe 推出 免费 AI 工具,面相 K12 教育市场
据 zdnet 报道,Adobe 公布了 Adobe Express for Education 的新功能,该平台旨在成为一 个负责任的、课堂安全的人工智能工具,鼓励学生掌控自己的学习体验。这新的功能包括生 成模版,他可以让学生为艺术项目或者是活动创建自己的模版。另外还有图像生成和生成填 充功能,可以帮助学生将脑中的想法转化为图像。来源: 品玩
08 月 05 日·周一
中兴星云研发大模型通过备案,号称代码生成能力达 GPT-4 水平 中兴通讯官微今日宣布,在近日发布的广东省生成式人工智能服务备案公告中,中兴星云研 发大模型顺利完成各项评估,通过备案。据介绍,中兴星云研发大模型支持需求、设计、编 程、测试等不同阶段的 30 多种场景和多种主流编程语言,为开发者提供一站式、智能化的 研发体验。来源: 品玩
Neuralink 已为第二位人类患者成功植入脑机接口
马斯克透露,旗下脑机接口公司 Neuralink 已将第二颗脑机接口芯片植入了第二位人类患 者体内。在访谈中,马斯克表示,第二颗植入物的进展似乎非常顺利。7 月 11 日,马斯克 曾 Neuralink 团队在 X 平台上进行了直播。在这次直播中马斯克表示,Neuralink 计划在一 周左右的时间内将其设备植入第二位人类患者体内。来源: 财联社
Figure 预告人形机器人二代新品,人味儿更浓、硬件更强
Figure 公布了 Figure 02 预告片,并表示将在北京时间 8 月 7 日正式发布该产品。相对于 Figure 01 搭载 Open AI GPT4 的视频演示,此次展示介绍的重心在于硬件,预计硬件能力有 大幅提升。该公司创始人 CEO 布雷特•阿德科克(Brett Adcock)自信发言:Figure 02 是地 球上最好的人形机器人。来源: 财联社
OpenAI 承认正研发 ChatGPT 文本水印,但面临挑战
据《华尔街日报》报道,OpenAI 已经开发出一款能够高精度识别 ChatGPT 生成文本的工 具,但迟迟未发布。对此 OpenAI 进行了回应,承认正在研究文本水印技术,但表示这项技 术仍存在诸多挑战。来源: IT 之家
阿里推出 Tora,「轨迹可控版 Sora」让视频生成更符合物理规律
阿里推出了 Tora,这是第一个面向轨迹的 DiT 架构,它将文本、视觉和轨迹条件同时集成 在一起以生成视频。Tora 的设计与 DiT 的可扩展性无缝契合,允许精确控制具有不同持续 时间、宽高比和分辨率的视频内容。大量实验证明,Tora 在实现高运动保真度方面表现出 色,同时还能细致模拟物理世界的运动。来源: AI 工具集
中文多模态理解榜单发布,腾讯混元国内第一
中文多模态大模型 SuperCLUE-V 基准 8 月榜单发布,测评涵盖了国内外最具代表性的 12 个 多模态理解大模型,包含 4 个海外模型和 8 个国内代表性多模态模型,评估内容包含基础 能力和应用能力,以开放式问题对多模态大模型进行评估。腾讯混元大模型在多模态基础能 力和应用能力方面获得总分 71.95 的高分,斩获国内大模型排名第一,稳居卓越领导者象限。 来源: 智东西
英伟达新款 AI 芯片或因设计缺陷推迟发布
据《The Information》报道,帮助生产英伟达新 AI 芯片和服务器硬件的两位知情人士透露, 由于存在“设计缺陷”,英伟达新型 AI 芯片的发布将被推迟三个月甚至更长时间。来源: IT 之家
08 月 03 日·周六
“AI 教母 ”李飞飞:Sora 仍是二维图像,只有三维空间智能才能实现 AGI 美国国家工程院院士李飞飞认为,实现 AGI 的关键一环是“空间智能“,而非二维智能。只有 通过空间智能,才能看到世界、感知世界、理解世界并让机器人做事,从而形成良性闭环。 来源: 钛媒体
原网易云音乐副总裁王诗沐创办的 Seele 公司,推出「 AI+3D」情感陪伴产品 Koko AI Koko AI 是 Seele 公司推出的「AI+3D」情感陪伴产品,基于自研 3D 多模态大模型 EVA-01 生成 3D 模型、动画表演和语音聊天,提供与动漫角色的面对面互动体验。用户不仅能与各 种角色进行文本或语音交流,还能根据个人喜好定制 AI 朋友的外貌和性格。Koko AI 由原网 易云音乐副总裁王诗沐领导开发,目前对用户免费开放,具有高度的自由度和创新性。来源: AI 工具集
Google 官宣 “收购 ”C haracter AI 并收编团队
据媒体报道,Character 的管理层周五告诉员工,Character 投资人的股票将以每股约 88 美 元的估值被收购。这大约是 Character 2023 年 A 轮融资股票价值的 2.5 倍,当时该公司 的估值为 10 亿美元。来源: 腾讯新闻
一张图即可 0.5 秒生成三维建模,Stability AI 推出 “Stable Fast 3D ”模型
Stability AI 今天推出了一款名为 Stable Fast 3D 的 AI 模型,该模型主打“图生 3D 模型”, 号称只需 0.5 秒就能快速生成完整且自然的 3D 模型,目前该模型已在 Hugging Face 平 台上架。在线体验地址:点此访问。来源: AI 工具集
微软 GitHub 推出 Models 服务:定位 AI 工程师,让开发者试用和部署模型 微软旗下代码托管平台 GitHub 最新推出了 GitHub Models 服务,定位是新一代 AI 工程 师,帮助开发者选择适合其应用的 AI 模型。GitHub Models 服务目前处于限量公测阶段, 可以对接 OpenAI 的 GPT-4o 和 GPT-4o mini、微软的 Phi 3、Meta 的 Llama 3.1 以及 Mistral 的 Large 2 等 AI 模型,并承诺未来会继续扩充更多语言和视觉模型。来源: IT 之 家
08 月 02 日·周五
谷歌推出 Gemini 1.5 Pro(0801 实验版),首次夺得 lmsys 竞技场第一
历时一周,超 1,2000 人匿名投票,Gemini 1.5 Pro(0801)代表谷歌首次夺得 lmsys 竞技场 第一(中文任务也第一)。而且这次还是双冠王,除了总榜(唯一分数上 1300),在视觉排 行榜上也是第一。来源: 量子位
大模型成私人导游:一键规划 Citywalk,港大 MIT 联合出品
港大 MIT 等单位联合推出 ITINERA,将 LLM 与空间优化相结合,实现个性化的开放域城市 行程规划。举个栗子,用户输入“给我规划一条包含‘巨富长’、以静安寺为终点的 citywalk 路 线”。ITINERA 系统立马生成了一条包含若干地点的路线,并提供了相应的介绍文本。来源: 量子位
Stable Diffusion 创始团队推出 FLUX.1 开源文生图模型,性能秒杀 SD3、D ALL·E-3
FLUX.1 是由 Stable Diffusion 创始团队推出的开源 AI 图像生成模型,拥有 12B 参数,是迄今 为止最大的文本到图像转换模型之一。包含三种变体:顶级性能的 FLUX.1 [pro]、开源非商
业用途的 FLUX.1 [dev] 和 快速高效的 FLUX.1 [schnell]。来源: AI 工具集
全球首部!欧盟《人工智能法案》正式生效
当地时间周四(8 月 1 日),欧盟《人工智能法案(AI Act)》正式生效。欧盟《人工智能法案》 相关规则将分阶段实施,主要是为了给企业一定的过渡期,让它们对相关系统进行修改;《人 工智能法案》的影响远远超出了欧盟,它适用于在欧盟有任何业务或影响的任何组织。来源: 财联社
360 联合国内 15 家最强大模型推出「AI 助手」能力碾压 GPT4o
ISC.AI 2024 第十二届互联网安全大会人工智能峰会上,360 集团创始人,ISC 大会主席周鸿 祎在《大模型强强联合,让 AI 普惠 10 亿+用户》演讲,他指出,大模型不是产品,大模型 能力要结合场景才能真正发挥价值,要找到高频、刚需、有痛点的 AI 明星场景。因此,周 鸿祎宣布,360 开放安全卫士、安全浏览器、搜索、智能硬件四大国民级场景,打造新一代 AI 产品“AI 助手”,用户可一站式体验国内最强的 15 家大模型。来源: TechWeb
08 月 01 日·周四
iPhone 可跑 2B 小钢炮:谷歌 Gemma 2 小模型来袭,跑分超 GPT-3.5
谷歌 DeepMind 的小模型,又上新了!就在刚刚,谷歌 DeepMind 发布 Gemma 2 2B。它 是从 Gemma 2 27B 中蒸馏而来。虽然它的参数只有 2.6B,但在 LMSYS 竞技场上的得分, 已经超越了 GPT-3.5 和 Mixtral 8x7B!来源: IT 之家
AI 销售助手 Sybill 融资 1100 万美元,帮助销售每周节省 5 小时
Sybill 是一家专为销售代表打造人工智能助理的初创公司,该公司周三表示,它已在由 Greycroft 领投的 A 轮融资中筹集到 1100 万美元。销售人工智能助理的市场已经变得相 当拥挤,因为很多公司都利用生成式人工智能和大型语言模型来帮助销售人员自动完成繁琐 的工作,如填写提案申请、更新内部数据库等。来源: 腾讯新闻
大模型热钱汹涌:半年百个亿级融资,最高超 500 亿元
2024 年上半年,加上刚刚过去的 7 月期间,全球围绕大模型产业链关键环节展开的超亿元
融资达到超 120 起,融资总额粗略估计超 2300 亿元。其中美国和中国“遥遥领先”,分别有
59 起和 35 起亿元级融资。美国大模型产业相关企业总融资额超 1800 亿元,中国大模型产 业相关企业总融资额在数量上差距较大,超 300 亿元,但仍位居第二。来源: 智东西 Midjourney V6.1 新版本上线即爆火:优化远景人脸,细节更丰富
时隔半年,Midjourney 带来重磅更新,现在已开放体验。v6.1 在 8 个方面进行升级。一句话 总结,就是让生成图像看上去更好看。而且再下一个版本马上就会发布,官方表示 v6.2 可 能在下月和大家见面,将会做更多升级,比如文字方面。来源: 量子位
07 月 31 日·周三
360 集团创始人、董事长兼 CEO 周鸿祎宣布 360 安全大模型免费
在今天举办的第 12 届互联网安全大会上,360 集团创始人、董事长兼 CEO 周鸿祎宣布 360 安全大模型免费。周鸿祎更称 360“要把大模型拉下神坛”,不希望大模型成为少数厂商 奇货可居赚钱的工具,让每个企业都“用得起、用得好”。来源: IT 之家
OpenAI 推出 GPT-4o Long Output 模型,支持高达 64k tokens 输出
GPT-4o Long Output 模型是 OpenAI 最新推出的超长输出 AI 模型,支持高达 64k tokens 的 长文本输出,相当于约 200 页小说。相较于原 GPT-4o 模型,输出能力提升 16 倍,但输入 上限降至 64k tokens,满足用户对更长文本处理的需求。该模型定价为每百万输入 tokens 6 美元,输出 tokens 18 美元。GPT-4o Long Output 模型为测试模型,测试时间会维持数周, 名为 GPT-4o-64k-Output-Alpha 。来源: AI 工具集
人形机器人「星尘智能」获数千万美元 Pre-A 轮融资,专注 AI 机器人商业化
AI 机器人公司星尘智能(Astribot)宣布完成数千万美元 Pre-A 轮融资,由经纬创投领投, 道彤投资及清辉投资等产业资本跟投,老股东云启资本跟投。华兴资本担任独家财务顾问。 本轮融资将用于顶尖人才招募、研发投入、商业化部署等工作。来源: 腾讯新闻
被指过度抓取内容后,AI 搜索公司 Perplexity 和出版社达成协议
AI 搜索公司 Perplexity 在被指控过度抓取数据数周之后,公司推出了新的合作计划,向出版 合作伙伴分享广告收入。Perplexity 的“出版商计划”已经招募了第一批合作伙伴,其中包括
《时代》、《明镜周刊》、《财富》、《企业家》、《得克萨斯论坛报》和 Automattic(WordPress.com
参与其中,但不包括 Tumblr)等知名企业。来源: IT 之家
OpenAI 向部分用户开放 GPT-4o 语音模式 今秋将扩大至所有付费用户
OpenAI 周二宣布,即日起开始向部分 ChatGPT Plus 用户推出 GPT-4o 的语音模式;目前 GPT-4o 语音模式可使用四种预设声音,Juniper、Breeze、Cove 和 Ember,这些声音是与付 费配音演员合作制作的。来源: 财联社
京东云八大 AI 产品发布:编程助手 JoyCoder、言犀数字人 3.0 等
2024 京东云峰会昨日在上海举行。会上,京东云展示了京东言犀大模型落地行业的技术与 最新实践,并发布京东云企业大模型服务、言犀智能体平台、智能编程助手 JoyCoder、言 犀数字人 3.0 等八大产品。来源: IT 之家
Kimi 联合 AiPPT 推出一键生成 PPT 服务
Kimi 联合 AiPPT 推出的一键生成 PPT 服务。用户只需通过语音或文字指令,Kimi 就能理解 需求,自动生成幻灯片,提供布局和色彩搭配建议,帮助用户快速创建和设计 PPT。来源: AI 工具集
07 月 30 日·周二
Meta 开源「分割一切」2.0 模型,视频也能分割了
Meta 在 SIGGRAPH 上重磅宣布 Segment Anything Model 2 (SAM 2) 来了。在其前身的基 础上,SAM 2 的诞生代表了领域内的一次重大进步 —— 为静态图像和动态视频内容提供 实时、可提示的对象分割,将图像和视频分割功能统一到一个强大的系统中。来源: 机器 之心
Runway Gen 3 Alpha 模型的图生视频功能正式上线
今天凌晨,Runway Gen 3 Alpha 模型的图生视频功能正式上线!用户可以使用任何图片作 为视频生成的首帧。上传的图片既可以单独使用,也可以使用文本提示进行额外指导。目前, Gen 3 Alpha 支持生成的视频最长为 11 秒。作为一项重大更新,Runway 表示,图生视频 功能将极大提高了生成视频的艺术控制和一致性。来源: 机器之心
Vidu 视频大模型全球上线!注册即用不排队,重点支持动漫风 Vidu,来自清华系多模态大模型公司生数科技。今天起,Vidu 全面开放文/图生视频两项功 能,生成成果时长可自由选择 4s/8s,分辨率最高可达 1080P。官方号称“实现业界最快实测 推理速度”,生成一段 4s 视频片段只需 30s。来源: AI 工具集
Meta 推出 AI Studio 工具:打造个性化 AI 聊天机器人
7 月 30 日,Meta Platforms 公司宣布推出一款名为 AI Studio 的新工具。该工具基于 Llama 3.1 模型构建,提供用户创建、分享和设计个性化 AI 聊天机器人的功能。用户还可以在社交 媒体平台上分享他们设计的人工智能角色。来源: Meta
数据安全看得见:苹果 Apple Intelligence 提供详细隐私报告
苹 果 公 司 在 iOS 18.1 和 macOS Sequoia 15.1 的 首 个 测 试 版 中 推 出 了 名 为 “Apple Intelligence”的新 AI 功能的预览。该公司不仅详细介绍了这些功能的工作原理和背后的隐
私机制,还允许用户查看一份详细的隐私报告,了解 Apple Intelligence 如何处理他们的请 求。来源: IT 之家
逛遍 ChinaJoy,发现 AI 对游戏产业的四个改变
7 月 26 日到 29 日,是一年一度的 ChinaJoy。从游戏行业最大的盛事,发展到游戏、消 费电子、娱乐应用的综合狂欢,每年的 ChinaJoy,都是海内外游戏相关从业人士集中交流 的重要节点,也是游戏行业向外打开的一个窗口,充满试玩、游戏周边的展台每年日均能吸 引到 5 万年轻人逛展。来源: 极客公园
创业 3 个月估值超 70 亿,李飞飞 AI 新公司成最快独角兽 近日,据报道,著名计算机科学家、美国国家工程院院士、美国国家医学院院士李飞飞创办 的 AI 公司 World Labs,日前已完成两轮融资,最新一次融资额约 1 亿美元,公司最新估值 已达 10 亿美元(约合 72.6 亿元人民币)。来源: 钛媒体
巴黎奥运会用上大模型
2024 年巴黎奥运会,目前已预定的远程服务中有三分之二通过云计算,奥运转播云将基于 阿里云部署在全球的公共云基础设施;AI 相关技术在服务跳水、游泳、田径、体操、蹦床、 攀岩等多支国家队的日常训练和巴黎奥运会备战工作,无人机表演、比赛用球、各国运动员 装备等都有中国厂商身影。来源: 财联社
亚马逊云发布 Amazon Q Apps:允许用户构建自己的生成式 AI 应用程序 亚马逊云科技近日宣布了多项新技术和新服务,旨在使构建 AI 应用更加便捷。Amazon Q Apps:这项服务允许用户根据简单描述创建应用程序,即便没有技术背景也能轻松使用。 Amazon Q Apps 是 Amazon Q Business 的一部分,能够支持软件开发、数据分析洞察和内 容创作等多种任务。来源: 品玩
豆包大模型日均 tokens 使用量超 5000 亿,AI 生图玩法猛猛上新 近日,国产大模型「顶流」—— 字节跳动豆包大模型,迎来一场集中放送:在 2024 火山 引擎 AI 创新巡展成都站活动上,豆包大模型团队公布了豆包大模型的最新进展,以及文生 图模型、语音模型等垂直模型的新升级。与此同时,豆包大模型家族的最新成员 ——「豆
包・图生图模型」正式面世,一口气上新了 50 多项玩法。来源: 机器之心
07 月 29 日·周一
一年三轮,AI 图像生成平台 LiblibAI 完成数亿元融资
AI 图像生成平台 “LiblibAI 哩布哩布 AI”在至今的一年内,已经完成了三轮融资,总金额达数 亿元人民币:天使轮投资方为源码资本、高榕创投和金沙江创投;第二轮由战略投资方领投; 第三轮由明势资本领投;老股东持续多轮加持。其中,远识资本为多轮融资的独家财务顾问。 来源: 36 氪
苹果即将推出的 AI 功能据悉将晚于 iOS 18 的首次发布
苹果公司计划在十月将 Apple Intelligence 作为软件更新的一部分向用户推出。知情人士表 示,这意味着 AI 功能将在原定于 9 月发布的 iOS 18 和 iPadOS 18 发布后几周推出。来源: 新浪财经
Meta AI 科学家分享 Llama 3.1 研发与 Llama 4 更新方向
- Llama 3.1 的研发考虑了多种因素,如 scaling law、训练时间和硬件约束,通过 FP8 量化 实现单节点运行,强调开源社区的力量。2. 在 Scaling Law 方面,Meta 通过增加训练 token 数和时长,在有限算力下达到过度训练状态,以提升推理表现。3. Llama 4 将重点围绕 agent 技术,Scialom 希望通过强大的 Llama 3 构建复杂的 agent 系统,扩展多种功能,实现模型 互联。来源: 凤凰网
AI 公司 Anthropic 违规爬虫抓取数据引发多个网站不满
据 The Verge 当地时间 26 日报道,Anthropic 公司使用的 ClaudeBot 在短短 24 小时之 内,就访问了 iFixit 网站近百万次,此举违反了该网站的使用条款。来源: IT 之家
07 月 27 日·周六
蔚来发布智能驾驶世界模型 NWM:0.1 秒内推演出 216 种可能发生的场景
7 月 27 日,蔚来发布智能驾驶世界模型 NWM(NIO World Model)。据蔚来介绍,它是一 个多元自回归生成式的具身驾驶模型,可全量理解数据、具有长时序推演和决策能力,能在 100 毫秒内推演出 216 种可能发生的场景。作为生成式模型,NWM 还能基于 3 秒的驾驶视 频,生成 120 秒的想象视频。来源: 界面新闻
天猫精灵合伙人创业,跃然创新推出 AI 毛绒玩具 BubblePal BubblePal,一个能让毛绒玩具复活的 AI 硬件。BubblePal 是基于 AIGC 技术的交互式对话玩 具,可以让孩子与其进行自由对话,并且对话的角色是孩子耳熟能详的动画形象。来源: 智 东西
谷歌宣布了一项重磅更新: Gemini 聊天机器人将改由 Gemini 1.5 Flash 驱动 Meta、OpenAI 等大模型厂商密集发力之际,谷歌也宣布了一项重磅更新:即日起,Gemini 聊天机器人将改由 Gemini 1.5 Flash 驱动。与之前的版本相比,窗口长度提高到了 4 倍, 响应速度也更快了。新版聊天机器人背后的 1.5 Flash 模型,主打的就是轻量化和速度提升。 当然模型回复的质量也有提升,上下文窗口也从原先(基于 1.0 Pro)的 8k 提升到了 32k。 来源: IT 之家
微软现支持开发者微调 Phi-3-mini 和 Phi-3-medium AI 模型
微软公司昨日(7 月 25 日)宣布在 Azure 上支持开发者微调(fine-tune) Phi-3-mini 和 Phi-3-medium AI 模型,针对不同用例提高模型的性能。Phi-3-mini 模型于今年 4 月发布, 共有 38 亿参数,上下文长度有 4K 和 128K 两个版本;Phi-3-medium 模型共有 140 亿 参数,上下文长度同样有 4K 和 128K 两个版本。来源: IT 之家
07 月 26 日·周五
OpenAI 下周开始向 ChatGPT Plus 用户推出 Alpha 版 GPT-4o 语音模式
OpenAI 首席执行官山姆・阿尔特曼(Sam Altman)今天回复网友提问,表示将于下周面向
ChatGPT Plus 用户,开放 Alpha 版本 GPT-4o 的语音模式(Voice Mode),实现无缝聊天。 来源: IT 之家
智谱 AI 推出了清影 AI 视频生成服务 Beta 版本免费开放体验 智谱清言大动作,现在输入文本或上传图片,即可得到一段属于你自己的视频。智谱清影是 智谱 AI 最新推出的 AI 视频生成服务,支持 AI 文生视频和 AI 图生视频两种方式,目前在智 谱清言上以清影智能体的形式开放入口,申请内测秒通过,可以快速开始体验。来源: AI 工 具集
OpenAI 发布 AI 搜索产品 SearchGPT,并开放内测候补
OpenAI 发布了名为 SearchGPT 的 AI 搜索产品,并开放候补名单,进行小范围测试。OpenAI 创始人兼 CEO Sam Altman,已经为新 AI 搜索产品吹了一波“彩虹屁”:“比起传统搜索产品, 我对这(SearchGPT)的喜爱程度和适应速度令人惊喜。”来源: 36 氪
消息称 OpenAI 公司 2024 年资金缺口达到 50 亿美元
报道称截至今年 3 月,OpenAI 公司花费近 40 亿美元使用微软服务器为 ChatGPT 运行 推理工作负载;此外 OpenAI 今年训练 ChatGPT 以及新 AI 模型的成本预估达到 30 亿美
元,因此训练和推理 AI 的成本可能达到 70 亿美元。OpenAI 最近每月的总收入为 2.83 亿 美元,这可能意味着全年销售额在 35 亿至 45 亿美元之间。这意味着 OpenAI 公司今年 面临 50 亿美元的资金缺口,很可能需要在未来 12 个月内启动新一轮融资。来源: IT 之 家
07 月 25 日·周四
估值超 200 亿元,百川智能完成 50 亿元 A 轮融资,北上深国资入局 大模型初创公司「百川智能」已于近期完成 A 轮融资,总融资金额达 50 亿元人民币。此前, 百川智能已经在 2023 年 10 月官宣了 A1 轮融资,披露了包括阿里、腾讯、小米等科技巨头 及多家顶级投资机构在内的名单。在 A 轮融资中,除了上述机构,百川智能还获得了包括北 京市人工智能产业投资基金、上海人工智能产业投资基金、深创投等国资背景产业投资基金 的投资。来源: 36 氪
AI 带动软件收入大涨 IBM 财报超预期
IBM 公布了强于分析师预期的第二季度业绩报告。报告公布后,该公司股价在周三的盘后交 易中一度上涨 5%。截至发稿,盘后涨幅收窄回 3%。得益于与人工智能相关的软件收入增加, 这家科技界的蓝色巨人上调了软件业务的年度增长预期。而软件业务也成为该公司主要增长 动力。来源: 财联社
1230 亿参数,Mistral 发布 Large 2 旗舰 AI 模型
AI 竞赛日益激烈,Meta 公司昨日推出开源 Llama 3.1 模型之后,法国人工智能初创公司 Mistral 也加入了竞争行列,推出了新一代旗舰模型 Mistral Large 2。与 Llama 3.1 的 4050 亿个参数(即指导其性能的内部模型设置)相比,它的参数数量较少,但性能仍接近前者。 官方称其为 GPT-4 级模型,在多项基准测试中的性能非常接近 GPT-4o、Llama 3.1-405 和 Anthropic 的 Claude 3.5 Sonnet。来源: IT 之家
扎克伯格深度专访:中美 AI 竞争完全错误,美国别想长期领先中国 扎克伯格在本次采访中披露了自己决定构建开源平台的心路历程。他称公司过去一直在开发 产品时受制于苹果这样的平台企业,在这波技术浪潮中,他希望通过 Meta 在 AI 和 VR/AR 领域的投资,建立和控制属于自己的平台,并让 Meta AI 在今年年底前成为使用量最大的 AI 助手。谈及 Llama 3.1,扎克伯格认为这一模型能成为许多企业所需的定制化模型的老师。 未来,他计划创造 AI 社交媒体,帮助人们完成一些比较困难的社交活动。他还透露现在 Meta 已经在研究 Llama 4 了。来源: 智东西
消息称 Alexa 四年巨亏 250 亿美元,亚马逊豪赌生成式 AI 据《华尔街日报》报道,专注于语音助手 Alexa 的亚马逊业务部门在 2017 年至 2021 年 期间亏损高达 250 亿美元(IT 之家备注:当前约 1821 亿元人民币)。尽管亚马逊声称售出 了超过 50 万台 Alexa 设备,包括 Echo 智能音箱、Kindle 电子书阅读器等,但 Alexa 一 直难以盈利。来源: IT 之家
07 月 24 日·周三
快手 AI 视频产品“可灵 ”国际版 1.0 上线,无需中国手机号码
据 Kling AI 在社交媒体 X 上官宣,快手可灵国际版 1.0 正式上线。只需要邮箱,无需中国手 机号码。
立即体验:可灵国际版来源: 华尔街见闻
英伟达推出 AI 代工业务:携手 Meta Llama 3.1 开源模型,为客户定制部署“超级模型” NVIDIA 宣布推出全新 NVIDIA AI Foundry 服务和 NVIDIA NIM 推理微服务,与刚推出的 Meta Llama 3.1 系列开源模型一起,为全球企业的生成式 AI 提供强力支持。Llama 3.1 大语言模型
有 8B、70B 和 405B 三种参数规模。模型在超过 16000 个 NVIDIA Tensor Core GPU 上训练 而成,并针对 NVIDIA 加速计算和软件(无论是在数据中心、云以及配备 NVIDIA RTX GPU 的本地工作站或配备 GeForce RTX GPU 的 PC 上)进行了优化。来源: 智东西
爱诗科技发布 PixVerse V2,全方位升级视频大模型
7 月 24 日,爱诗科技正式发布视频生成产品 PixVerse V2,全球同步开放,致力用 AI 视频 大模型为每一个用户释放创意可能。PixVerse V2 采用 Diffusion+Transformer(DiT)基础架 构,并在各方面进行技术创新,提供了更长、更一致、更有趣的视频生成能力。在模型能力 提升的同时,PixVerse V2 还带来了 AI 视频生成的全新玩法:在保证一致性的前提下,一次 生成多个视频片段,可实现单片段 8 秒,和多片段 40 秒的视频生成。来源: 爱诗科技
最强模型 Llama 3.1 405B 正式发布,扎克伯格:开源引领新时代
在官方博客中,Meta 表示:直到今天,开源大语言模型在功能和性能方面大多落后于封闭 模型。现在,我们正在迎来一个开源引领的新时代。我们公开发布 Meta Llama 3.1 405B, 我们认为这是世界上最大、功能最强大的开源基础模型。迄今为止,所有 Llama 版本的总 下载量已超过 3 亿次,我们才刚刚开始。来源: 机器之心
Alphabet Q2 营收利润双双超预期,皮查伊坚信 AI 将很快创收 受数字广告销售增长和云计算服务需求旺盛推动,谷歌母公司 Alphabet 周二盘后公布的第 二季度(截至 6 月 30 日)营收和利润双双超出预期。但该公司表示,今年的资本支出仍将 居高不下。第二季度 Alphabet 的营收增长 14%至 847.4 亿美元,而分析师的普遍预期为 841.9 亿美元;净利润增长 28.6%,至 236 亿美元,超出 229 亿美元的平均预期;每股收益为 1.89 美元,而预期为 1.84 美元。来源: 财联社
快速生成矢量图形,Adobe Illustrator 和 Photoshop 迎来新 AI 功能
Adobe 公司今日宣布,其旗下两款明星软件 Illustrator 和 Photoshop 将迎来一系列基于 人工智能的新功能。这些新功能旨在加速日常创作流程,并赋予设计师更多创作控制权。 Illustrator 的更新亮点包括“生成式形状填充”功能,用户只需输入简单的文字提示,就能为 形状填充上精美的矢量图形。系统甚至可以根据文档中其他元素自动生成填充内容,而且所 有生成的图形都是可编辑的矢量图。来源: IT 之家
07 月 23 日·周二
发力 AI 产业!沙特阿美向韩国芯片制造商投资 1500 万美元
沙特阿美风险投资部门 Wa’ed Ventures 已向韩国芯片制造商 Rebellions 公司投资了 1500 万 美元;沙特目前正加速发展人工智能产业,这笔投资将有助于沙特在全球技术和创新竞赛中 的努力;据悉,Rebellions 将利用这笔资金在沙特建立一家新的子公司。来源: 财联社
谷歌发布 NeuralGCM 天气预报 AI 模型:运行成本更低、预测更准 谷歌公司最新发布了名为 NeuralGCM 的全新 AI 模型,结合机器学习和传统技术,构建了 全新的 AI 天气预测模型,相关成果于昨日发表在《Nature》期刊上。谷歌公司表示相比较 其它纯粹基于机器学习的天气预报模型,NeuralGCM 的特点在于成本更低,在预报未来 1- 10 天天气方面准确度更高。来源: IT 之家
开源 AI 模型挑战闭源里程碑?Meta Llama 3.1-405B 多项跑分超越 OpenAI GPT-4o 网友在 LocalLLaMA 子 Reddit 板块中发帖,分享了 4050 亿参数的 Meta Llama 3.1 信息, 从该 AI 模型在几个关键 AI 基准测试的结果来看,其性能超越目前的领先者(OpenAI 的 GPT-4o)。这是开源人工智能社区的一个重要里程碑,标志着开源模型可能首次击败目前最 先进的闭源 LLM 模型。来源: IT 之家
加拿大 AI 独角兽 Cohere 获得 5 亿美元 D 轮融资,估值达 55 亿美元
加拿大 AI 独角兽 Cohere 昨日宣布获得 5 亿美元 D 轮融资,估值达 55 亿美元。本轮融资由
加拿大养老金投资管理公司 PSP Investments 领投,新投资者包括思科、日本富士通、AMD 旗下 AMD Ventures、加拿大出口信贷机构 EDC 等。来源: 智东西
马斯克宣布全球最大 AI 训练集群:年底开发出全球最强 AI
马斯克昨日在社交平台 X 上发文宣布 xAI 团队、X 团队、英伟达及支持公司于当地时间凌晨 4 点 20 分开始在“世界上最强大的 AI 训练集群”——孟菲斯超级集群上进行训练。该集群在 单个 RDMA fabric 上使用 10 万张液冷 H100。马斯克在评论区透露其目标是“今年 12 月前训 练出世界上最强大的人工智能”。来源: 智东西
07 月 22 日·周一
英伟达:或将推出全新“特供版”B20 芯片 据报道,英伟达(NVIDIA)正在为中国市场联合开发一款基于 Blackwell 架构的新款旗舰 AI 芯片,该芯片将符合美国出口管制相关规定,该芯片被命名为“B20”。但报道未提及该 AI 芯 片的性能表现或参数信息。来源: 钛媒体
AI 炒菜机器人公司橡鹿科技再获京东近 2 亿元战略投资 据橡鹿科技官方披露,公司再获京东近 2 亿元战略投资并达成全面战略合作。基于双方的 AI 技术和产业优势,二者将共同促进“机器人 +”产业的高质量发展。公司将继续加大研发 投入,重点布局视觉、传感器检测等技术在炒菜机器人上的应用。打造的基于视觉的全球领 先新一代 AI 炒菜机器人,将于 2025 年正式推出。来源: IT 之家
07 月 21 日·周日
权重、代码、数据集全开源,苹果发布 DCLM-7B 小模型
OpenAI 上线小模型 GPT-4o-mini,小模型赛道正式开卷。近期加入这一赛道的还有苹果。 最近,苹果公司作为 DataComp-LM(DCLM)项目的研究机构之一,在 Hugging Face 上 发布了 DCLM-7B 开源模型。该模型性能已经超越了 Mistral-7B,并且正在逼近其他领先的 开源模型,包括 Llama 3 和 Gemma。来源: 机器之心
欧洲最强 AI 初创公司 Mistral 发布旗下最新最强小模型 ——Mistral NeMo
GPT-4o mini 头把交椅还未坐热,Mistral AI 联手英伟达发布 12B 参数小模型 Mistral Nemo,性能赶超 Gemma 2 9B 和 Llama 3 8B。小模型,成为本周的 AI 爆点。先是 HuggingFace 推出了小模型 SmoLLM;OpenAI 直接杀入小模型战场,发布了 GPT-4o mini。 GPT-4o mini 发布同天,欧洲最强 AI 初创公司 Mistral 立马发布旗下最新最强小模型 —
—Mistral NeMo。来源: IT 之家
6GB RAM iPhone 15 也可运行,Hugging Face 推出“SmolLM”小模型家族 如今小语言模型开始升温,许多厂商开始推出适用于手机等轻量级设备的“小模型”,本周 Hugging Face 便公布了“SmolLM”小语言模型家族,其中包含 1.35 亿、3.6 亿及 17 亿参 数模型。据介绍,这些模型号称是以精心策划的高质量训练数据集训练而成,号称在 Python 程序编写性能上相当强大,团队指出他们重点优化了模型所需的 RAM 用量,“即使是在 6GB RAM 的 iPhone 15 上也能运行”。来源: IT 之家
07 月 19 日·周五
谷歌、微软、英伟达等 14 家公司组建安全 AI 联盟
昨日举办的阿斯彭安全论坛(Aspen Security Forum)会议中,谷歌、微软、OpenAI、亚马 逊、英伟达、英特尔等 14 家 AI 领域的大公司宣布联合组建安全人工智能联盟(Coalition for Secure AI,CoSAI)。CoSAI 由 OASIS 全球标准机构主办,是一项开源计划,旨在为所 有 AI 从业人员和开发人员提供创建设计安全人工智能系统所需的指导和工具。CoSAI 将建
立一个合作生态系统,共享开源方法、标准化框架和工具等等。来源: IT 之家
高盛顶级股票分析师:AI 不会掀起经济革命,泡沫总归会破灭
高盛全球股票研究主管 Jim Covello 新近报告给今年美股上涨的主要推手人工智能(AI)概 念泼了冷水。Jim Covello 认为,AI 带来的经济效益甚至比不上智能手机和互联网;AI 是用 成本高昂的技术取代低薪工作,这与过去三十年科技业发生过的有变革意义技术转型完全相 反。来源: 华尔街见闻
OpenAI 据称正与博通等公司接洽以研发 AI 芯片 据媒体周四援引知情人士的话报道称,ChatGPT 制造商 OpenAI 正在与包括博通(Broadcom) 在内的芯片设计商接洽,共同探讨研发全新的人工智能(AI)芯片。此外,该公司还在招聘 前谷歌员工,希望借助其开发 Tensor 处理器的经验和技术,开发出自家的 AI 服务器芯片。 来源: 财联社
英伟达联合发布 Mistral-NeMo AI 模型:120 亿参数、上下文窗口 12.8 万个 token 英伟达联合法国初创公司 Mistral AI,今天发布了全新的 Mistral-NeMo AI 大语言模型,拥 有 120 亿个参数,上下文窗口(AI 模型一次能够处理的最大 Token 数量)为 12.8 万个 token。Mistral-NeMo AI 大模型主要面向企业环境,让企业不需要使用大量云资源的情况 下,实施人工智能解决方案。来源: IT 之家
OpenAI 推出性能强大但价格更便宜的 AI 模型 GPT-4o mini
美国人工智能初创公司 OpenAI 宣布,正式上架价格显著下降的新一代入门级别人工智能 “小模型”GPT-4o mini。最新上架的 GPT-4o mini 则是一个规格更小、更便宜的变体,通过兼 具“能力和性价比”,拓展低价位市场的竞争。根据 OpenAI 披露,GPT-4o mini 的 API 价格 将会是 15 美分/100 万 Tokens 输入,以及 60 美分/100 万 Tokens 输出。上下文窗口依然是 12.8 万个 Tokens,知识截止日期为 2023 年 10 月。来源: 财联社
由于监管存在不确定性,Meta 不会在欧盟提供新的多模态 AI 模型
Facebook 母公司 Meta Platforms 表示,由于欧洲监管环境的不可预测性,将不会向欧盟客 户提供其多模态人工智能模型 Llama。Meta 打算将新的多模态模型融入多种产品中,包括 智能手机和该公司的 Meta Ray-Ban 智能眼镜,该模型能够对视频、音频、图像和文本进行 推理。Meta 指出,欧洲企业和机构几乎肯定会失败,因为他们无法获得最新、最好的开放 模式。该公司补充称,与世界其他地区相比,欧洲监管机构花了更长的时间来确定法律要求。 来源: 智通财经
07 月 18 日·周四
OpenAI 发布大小模型博弈研究,可让模型输出更易理解
OpenAI 的“超级对齐”团队在其解散前发布了最后一篇论文,展示了一种通过大模型与小模 型相互博弈的方法来提升 AI 输出的可读性和准确性。这种方法模仿了多伦多大学学者与 2021 年提出的“证明者-验证者”(Prover-Verifier)博弈,训练大模型生成易于理解的内容, 同时小模型提高其判断力。研究结果表明,这种方法不仅使模型输出更易理解,而且没有明 显损失准确率。论文作者之一认为这可能使未来的模型比人类更聪明。来源: 量子位
三星收购英国知识图谱 AI 公司 Oxford Semantic Technologies
三星电子周四(7 月 18 日)宣布收购英国的 AI 初创公司 Oxford Semantic Technologies。后 者公司主要研发知识图谱技术,能够将信息存储为相互关联的思维网络,方便后期信息检索 和推荐。该技术将与三星的设备端 AI 技术相结合,提供超个性化的用户体验。来源: 财联 社
通义千问、GPT-4o 等七款 AI 大模型“高考成绩”公布 :前三名文科过一本,理科过二本 上海人工智能实验室 17 日公布了针对 7 个 AI 大模型的高考全科目测试结果。测试结果
显示,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B
以及 GPT-4o 再次包揽文、理科前三甲;前三名 AI“考生”的文、理科成绩分别超过了“一 本”“二本”线(以今年高考人数最多的河南省的分数线为参考)。来源: IT 之家
具身智能科技公司「小雨智造」获小米、智源等投资
据 36 氪报道,小米集团和机器人泰斗王田苗,投了一家具身智能科技公司「小雨智造」。该
公司 2023 年 2 月成立 ,成立之后陆续完成了亿元种子轮融资,由小米集团、机器人泰斗 王田苗、北京智源研究院出资。据了解,「小雨智造」的核心创始团队也曾是小米曾经的高 层:「小雨智造」创始人乔忠良是小米的初创成员之一,曾经是 MIUI 研发负责人,负责过 MIUI 9 到 MIUI 12 等产品,于 2023 年 1 月从小米离职;其联合创始人王文林,曾任职小米 软件系统平台部总经理,主导了“小米大脑”和 IoT 系统的开发。团队其他成员来自于小米、 华为、字节跳动、微软等公司。来源: 36 氪
苹果回应使用 YouTube 资源训练 AI:未用于 Apple Intelligence
据 9to5Mac 报道,针对苹果、英伟达等公司使用未经授权的 YouTube 视频训练 AI 大模 型一事,苹果今天发表回应。苹果表示,苹果使用这个数据集来训练其开源的 OpenELM 模 型,而该模型仅用于研究,OpenELM 并不支持其任何人工智能或机器学习功能,包括 Apple Intelligence。该模型以开源方式发布,可广泛获取,包括在苹果的机器学习研究网站上。来 源: 品玩
微软发布 iOS / 安卓正式版 Designer 应用:可 AI 修图、生成贺卡等
在经历了长达近 1 年的预览测试之后,微软公司正式在苹果 iOS 平台、谷歌安卓平台推 出 Microsoft Designer 应用,让 iPhone 和安卓手机用户体验 AI 修图等功能。来源: IT 之 家
Anthropic 与风投 Menlo Ventures 联手推出 1 亿美元 AI 基金
Anthropic 与 Menlo Ventures 联手推出一只价值 1 亿美元的基金,从而向早期阶段的 AI 初 创公司提供资金支持和 Anthropic 的 AI 技术。这个基金效仿了 2008 年苹果公司和 Kleiner Perkins 合作推出的 iFund。iFund 取得了巨大的成功,它让苹果公司能够深入了解早期开发 者的需求,并且让苹果知道需要更加关注哪些方面。来源: 华尔街见闻
DeepL 推出新一代翻译编辑大型语言模型:译文受青睐度达 ChatGPT-4 的 1.7 倍 以其同名机器翻译器闻名的语言人工智能公司 DeepL 德国当地时间昨日宣布推出新一代 面向翻译和编辑应用的大型语言模型。DeepL 宣称基于新模型的译文受语言专家的青睐程 度是谷歌翻译的 1.3 倍,ChatGPT-4 的 1.7 倍,微软翻译的 2.3 倍。来源: IT 之家
谷歌发布 AI 智能体平台 Oscar,用于维护开源项目
在印度班加罗尔谷歌 I/O Connect 开发者活动期间, Go 语言开发团队宣布推出 Oscar , 这是一个用于构建 AI 智能体的开源平台,可以帮助软件产品团队监控问题或错误。通过 Oscar 项目,开发者可以创建在整个软件开发生命周期中发挥作用的 AI 智能体。这些智能 体可以是开发者智能体、规划智能机、运行时智能体或支持智能体。来源: OSChina
07 月 17 日·周三
MIT 研究:生成式 AI 更像是记忆大师而非推理高手
麻省理工学院计算机科学与人工智能实验室(CSAIL)的一项最新研究指出,大型语言模型
(LLM)似乎更依赖记忆而不是真正的推理能力。研究结果表明,AI 在训练有素的领域内可 以达到甚至超越人类水平,但这更多的是一种“记忆力”的体现。一旦面对全新的挑战,需要 真正的推理能力时,AI 的优势便不再明显。来源: IT 之家
李飞飞旗下 AI 初创企业 World Labs 估值已超 10 亿美元
据英国《金融时报》援引知情人士称,著名华裔计算机科学家李飞飞创办的“空间智能”创企 World Labs 估值已经赶超 10 亿美元。该创企主要利用类似人类的视觉数据处理技术,使 AI 具备高级推理能力。据两位知情人士透露,从今年 4 月成立至今,World Labs 已经进行了两 轮融资,投资方包括顶级科技投资者 Andreessen Horowitz 和 AI 基金 Radical Ventures。据 了解,其最新一轮的融资金额可能达到约 1 亿美元。来源: 智东西
TrendForce 集邦咨询:预估 2024 年全球 AI 服务器产值达 1870 亿美元
根据研究机构 TrendForce 集邦咨询最新报告,今年大型 CSPs(云端服务供应商)预算持续 聚焦于采购 AI 服务器,进而排挤一般型服务器成长力道,相较于 AI 服务器的高成长率,一 般型服务器出货量年增率仅有 1.9%。而 AI 服务器占整体服务器出货的比重预估将达 12.2%, 较 2023 年提升约 3.4 个百分点。若估算产值,AI 服务器的营收成长贡献程度较一般型服务 器明显,预估 2024 年 AI 服务器产值将达 1870 亿美元,成长率达 69%,产值占整体服务器 高达 65%。来源: TrendForce
美 FTC 对亚马逊与 AI 初创公司 Adept 的交易展开非正式调查 美国联邦贸易委员会(FTC)已经对亚马逊最近宣布的与人工智能初创公司 Adept 的交易展 开了非正式调查。据媒体从一位知情人士处获悉,FTC 目前正在寻求有关这份协议的更多信 息,该协议涉及亚马逊聘请关键高管并从 Adept 获得技术许可。亚马逊上月宣布与 Adept 达 成协议,将从 Adept 公司聘请顶尖人才,并获取该公司的技术。来源: 财联社
特朗普盟友起草 AI 行政命令,启动“曼哈顿计划” 据外媒报道,前美国总统唐纳德·特朗普的盟友正在起草一项全面的人工智能行政命令,该 命令将启动一系列“曼哈顿项目”,以开发军事技术,并立即审查“不必要和繁琐的法规”。这 表明特朗普第二届政府可能会推行有利于硅谷投资者和公司的人工智能(AI)政策。来源: 智东西
消息称字节将于 7 月 19 日大范围分享文生图 / 视频等 AI 模型进展 据钛媒体报道,字节跳动团队将会在 7 月 19 日(本周五)大范围分享文生图、类 sora 新视 频等全新人工智能(AI)模型技术进展,尤其在长视频、高动态方向上具备创新技术。一位 消息人士表示,字节跳动内部将 AI 大模型设为集团 P0 最高级别的方向。另一位消息人士 则指出,除了上述研究团队之外,抖音、剪映等内部多个团队也在研发 AI 视频模型应用, 预计将在近期公布。来源: 钛媒体
Anthropic 推出 Claude Android 版,支持实时翻译
OpenAI 竞争对手 Anthropic 于周二推出了 AI 聊天机器人 Claude App 的 Android 版应用程 序,希望通过在更多平台上提供 Claude 来说服用户放弃 ChatGPT。Claude Android 应用程 序将与 5 月发布的 iOS 版本运作模式相同,用户可免费访问 Anthropic 最佳的 AI 模型 Claude 3.5 Sonnet,并通过 Anthropic 的 Pro 和 Team 订阅升级计划。用户将能够在设备间同步他 们与 Claude 的对话,并可以将照片或文件上传到应用程序进行实时图像分析。来源: 华尔 街见闻
Mistral AI 推出两款新模型:数学模型和基于 Mamba 架构的代码生成模型 法国人工智能初创公司 Mistral AI 推出了两个新模型:一个基于数学的模型 MathΣtral,以 及一个基于 Mamba 架构的供程序员和开发人员使用的代码生成模型 Codestral Mamba。 在基准测试中,Mistral 称 Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开 源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。来源: VentureBeat
OpenAI 联合创始人 Karpathy 宣布创办 AI 教育初创公司
OpenAI 联合创始人、前特斯拉 AI 总监 Andrej Karpathy 宣布创立 AI 原生学校项目 Eureka Labs,旨在通过”教师+AI”共生模式,提供个性化 AI 教育。首个课程”LLM101n”将教授构建 类似 ChatGPT 的大模型,课程内容免费,代码已在 GitHub 公开。来源: 量子位
科技巨头被曝未经授权用 YouTube 内容训练 AI,苹果、英伟达在列
据 Wired 报道,包括苹果在内的一些科技巨头未经 YouTube 视频创作者同意,就使用了 他们视频的字幕文件来训练人工智能模型。据悉,超过 17.3 万个来自 4.8 万个频道的 YouTube 视频字幕文件被用来训练人工智能模型,其中就包括苹果、英伟达、Salesforce 等 硅谷巨头。来源: IT 之家
Adaptive 获 1900 万美元 A 轮融资,为建筑业提供 AI 驱动的财务自动化平台 面向建筑行业的 AI 驱动的财务自动化平台 Adaptive 宣布筹集了 1900 万美元的 A 轮融资。 本轮融资由 Emergence Capital 领投,Andreessen Horowitz、Definition、Exponent、3kvc、 Box Group、Gokul Rajaram 等参投。来源: PR Newswire
生成式 AI 平台 Vectara 获 2500 万美元 A 轮融资,为企业提供 RAG 解决方案
企业生成式 AI 平台 Vectara 宣布完成了 2500 万美元的 A 轮融资。本轮融资由 FPV Ventures 和 Race Capital 领投,其他投资者包括 Alumni Ventures、WVV Capital、Samsung Next、 Fusion Fund、Green Sands Equity 和 Mack Ventures。该公司提供一个端到端的生成式人工 智能(Generative AI)平台,专注于检索增强生成(RAG)技术。来源: BusinessWire
AI 医疗云平台 Huma 完成 8000 万美元 D 轮投资,估值 10 亿美元
全球医疗保健 AI 公司 Huma Therapeutics(下称“Huma”)宣布完成新一轮 8000 万美元 D 轮融资,估值接近 10 亿美元,同时推出集成生成式 AI 的 Human 云平台,为每个用户提 供数字化急救和研究服务。此次融资中,参与投资的包括阿斯利康和拜耳等药企,以及日本 日立风险投资公司(Hitachi Ventures)和意大利的 Hat Technology Fund,使得 Huma 迄 今为止总共筹集的资金达到 3 亿美元。来源: 有新 Newin
AI 搜索平台 Exa 获英伟达、YC 以及 Lightspeed 1700 万美元融资
致力于开发 AI 原生搜索引擎的初创公司 Exa 宣布,完成由 Lightspeed 领投的 1700 万 美元 A 轮融资,其他投资者还包括 Nvidia 风险投资部门 NVentures 和 Y Combinator。 据悉,Exa 目标是为 AI 平台提供高效、准确的信息检索服务。此前,Exa 已筹集了 500 万 美元的种子轮融资,总融资额达到 2200 万美元。来源: 有新 Newin
去中心化 AI 基础设施平台 Mira 获 900 万美元种子轮融资 总部位于新加坡的去中心化人工智能基础设施平台 Mira 宣布筹集了 900 万美元的种子轮融 资。本轮融资由 BITKRAFT Ventures 和 Framework Ventures 领投,其他投资方包括 Accel、 Crucible、Folius Ventures、Mechanism Capital、SALT Fund 以及一些知名天使投资者。来源: PR Newswire
07 月 16 日·周二
英国监管机构出手,正调查微软与 Inflection AI 相关交易 英国竞争和市场管理局(CMA)7 月 16 日发布声明称,正调查微软雇佣 Inflection AI 部 分前员工以及与 Inflection 方面达成相关安排的情况。该监管机构担心此举可能导致“竞争 实质性减少”。CMA 在声明中表示,做出第一阶段决定的截止日期为 9 月 11 日,届时该 机构将宣布是否将此案转入第二阶段的深入调查。来源: IT 之家
腾讯元宝首发 3D 生成应用,一张图即可生成 3D 角色 腾讯旗下大模型应用“腾讯元宝”上线了“3D 角色梦工厂”玩法,腾讯元宝也是首个拥有打印级 3D 生成能力的通用大模型 App。通过“3D 角色梦工厂”,只需上传一张五官清晰的正面头像, 并选择不同角色模版,就能迅速生成个人 3D 角色。来源: 量子位
AI 编程初创公司 Anysphere 获 a16z 新一轮投资,估值达 4 亿美元
据 BusinessInsider 报道,AI 编程初创公司 Anysphere 宣布从 A16z 获得新一轮融资,公 司估值达到 4 亿美元。Anysphere 主营 AI 代码编辑器,其主要产品 Cursor 受到包括
OpenAI 和 Perplexity 等多家公司的关注。Anysphere 的目标是通过这款 AI 编辑器来帮助 开发者提高工作效率,简化编码过程。来源: 品玩
微软为 Excel 等研发新 AI 模型:性能较常规方案提高 25.6%,词元使用成本降低 96% 根据微软最新公布的研究论文,计划为 Excel、谷歌 Sheets 等电子表格应用程序,开发全 新的 AI 大语言模型–SpreadsheetLLM。研究人员表示现有电子表格应用程序具备丰富的功 能,在布局和格式方面为用户提供大量的选项,因此传统 AI 大语言模型很难胜任电子表格 处理场景。而 SpreadsheetLLM 就是专门为电子表格应用而设计的 AI 模型,微软还研发了 SheetCompressor(压缩电子表格),让 SpreadsheetLLM 能够更好地理解、处理电子表格数 据。来源: IT 之家
机构揭秘 OpenAI 年收翻倍奥秘 付费用户数已接近千万级别
上周,调研机构 FutureSearch 发布了一份报告,其对 OpenAI 公司的收入组成进行了分析, 提供了一个更清晰的收入结构图。一个月前,OpenAI 首席执行官奥尔特曼对公司员工表示, 从过去半年的情况来看,公司今年的收入有望达到 34 亿美元,较媒体报道的 2023 年收入
(16 亿美元)实现了翻倍。来源: 财联社
07 月 15 日·周一
谷歌 Gemini AI 遭质疑:未经用户同意读取 Google Drive 文档
据 X 用户 @Kevin Bankston 的报告,谷歌的人工智能服务 Gemini AI 似乎在未经用户明 确许可的情况下读取 Google Drive 中的私人文档。Bankston 最初发现 Gemini 似乎在阅 读他的 Google Drive 文档,但相关设置中找不到禁用该功能的选项。经进一步调查,他发 现这是 Google Drive 本身的问题,而非 Google Docs,但两者可能都存在类似的漏洞。来 源: IT 之家
谷歌 DeepMind 被曝抄袭开源成果,论文还中了顶流会议 大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌 DeepMind。“原告”直接怒喷:他 们就是把我们的技术报告洗了一遍!谷歌 DeepMind 一篇中了顶流新生代会议 CoLM 2024 的论文被挂了,瓜主直指其抄袭了一年前就挂在 arXiv 上的一项研究。开源的那种。来源: 量子位
日本总务省:中国对 ChatGPT 等生成式 AI 应用,全球第一 日本总务省(类似国务院)在官网发布了,2024 年(令和 6 年)生成式 AI 应用白皮书。主 要查看了日本公民对 ChatGPT、Coplilot、Midjourney、Stable Difusion、Gen-2、MusicGen 等 10 多种生成式 AI 的应用情况,同时对美国、中国、英国和德国的全球主流使用国家进行 了横向调查和对比。结果显示,中国以 56.3%的使用率排名第一;美国 46.3%排名第二;英国 39.8%排名第三;德国 34.6%排名第四;日本 9.1%第五。在企业对生成式 AI 的应用方面,中 国以 71.2%大幅度领先同样排名第一。来源: AIGC 开放社区
人形机器人公司「逐际动力」完成数亿元 A 轮融资,多巨头领投 通用机器人公司「逐际动力」完成数亿元 A 轮战略融资,由阿里巴巴、招商局创投、上汽集 团旗下尚颀资本领投,原始股东峰瑞资本、绿洲资本和明势资本跟投。「逐际动力」创立于 2022 年,主要产品包括全尺寸人形机器人、四轮足机器人、双足机器人等,落地应用于智
能制造、工业巡检、物流配送、家庭服务等领域。来源: 36 氪
人工智能数字化医疗健康服务平台「华美浩联」获近亿元 C 轮融资
华美浩联正式宣布完成 C 轮融资。该轮融资投资方包含阿米巴资本、Ventech China 银钛资 本以及蜂巧资本等,融资金额高达近亿元。本轮融资所获资金将主要用于服务与产品的研发 和市场推广以及推进人工智能数字化医疗健康服务平台的升级与建设。华美浩联成立于 2017 年,是一站式人工智能数字化医疗健康服务平台。来源: 投资界
中国农业大学发布“神农大模型 2.0”:覆盖育种、种植、养殖、农业遥感及气象 第八届智慧农业创新发展国际会议于 7 月 13 日在北京举办,中国农业大学在会议上发布 了“神农大模型 2.0”。相比 1.0 版本,“神农大模型 2.0”在图像、声音、视频、文件等多模态 交互及智能化推理方面获得提升,使大模型能够覆盖育种、种植、养殖、农业遥感及气象等 多个农业应用场景。来源: IT 之家
07 月 13 日·周六
OpenAI 绝密项目「草莓」曝光,前身为 Q*,能实现高级推理
路透社独家报道称,OpenAI 内部正在一个代号为「草莓(Strawberry)」的项目中开发一种 新的人工智能模型。该项目的细节此前从未被报道过,而 OpenAI 正努力证明其提供的各 类模型能够提供高级推理能力。消息人士称,该文件描述了一个使用草莓模型的项目,其目 的是让公司的人工智能不仅能生成查询答案,还能提前规划,以便自主、可靠地浏览互联网, 进行 OpenAI 所称的「深度研究」。来源: 机器之心
消息称 4050 亿参数版 Meta Llama 3 将于 7 月 23 日发布
科技媒体 The Information 本周五发布博文,援引内部员工曝料称 Meta 公司计划 7 月
23 日发布开源 AI 模型 Llama 3 405B,在现有 80 亿和 700 亿参数两个版本之外,推出
4050 亿参数版本,号称是最强大的开源大语言模型。Meta 公司今年 4 月发布 Llama 3 AI
模型时,扎克伯格就在采访中透露正在训练 4050 亿像素的密集模型,但当时没有透露太多 的信息。来源: IT 之家
美国提出《COPIED 法案》,要求标记、验证和检测生成式 AI 内容
7 月 12 日晚,美国参议院官网公布了一个由,Cantwell、Blackburn 和 Heinrich 三位两党国 会议员提出新的法案——COPIED Act。该法案的主要目的是,制定完善的规则来标记、验证 和检测 ChatGPT、Uido、Suno、Midjourney 等生成式 AI 产品,提升生成内容的透明度防止 被非法乱用以及保护公众的个人数据和隐私。同时保护记者、歌唱家、演员和其他艺术、商 业群体的利益,并保留对违规者非法使用其数据训练 AI 大模型的法律追究权益。来源:AIGC 开放社区
AI 机械臂初创公司 Standard Bots 获 6300 万美元融资,亚马逊、三星等参投
Standard Bots Inc. 是一家为制造业和物流业开发机械臂的初创公司,该公司已获得 6300 万美元的 B 轮新资金来增强其技术。本轮融资由 General Catalyst 领投,亚马逊工业创新 基金、Samsung Next 和几家老投资者也参与了该公司的投资。来源: SiliconANGLE
亚马逊推出 AI 购物助手 Rufus,可回答客户各种问题
亚马逊宣布其生成式 AI 购物助手 Rufus 经过五个月的小范围测试之后现已面向所有美国 客户开放。亚马逊表示,Rufus 旨在帮助您节省时间并做出更明智的购物决策。它可以回答 您各种各样的购物需求和商品问题,“就像随身带了一个购物助手一样”。来源: IT 之家
07 月 12 日·周五
智谱 AI 开源推出视频理解模型 CogVLM2-Video
智谱 AI 的团队提出了一种基于视觉模型的自动时间定位数据构建方法,生成了 3 万条与时 间相关的视频问答数据。然后,基于这个新数据集和现有的开放领域问答数据,引入了多帧 视频图像和时间戳作为编码器输入,训练了一种新的视频理解模型—CogVLM2-Video。来 源: GLM 大模型
百度推出仿真人 AI 社交 App “文小言”
据 Tech 星球报道,百度于近日上线了一款名为“文小言”的 AI 数字人社交 APP。据悉,该产 品基于文心大模型的技术打造,是一款与 AI 虚拟角色进行实时沟通、互动并建立情感连接
的人工智能应用服务。来源: Tech 星球
OpenAI 提出通用人工智能五级标准,自认为接近但未达到第二级
报道称,OpenAI 提出通用人工智能五级标准,用来确认人工智能的进展。OpenAI 高管告 诉员工,公司自认为目前还处于第一级,但即将达到第二级。第一级:聊天机器人,具有会 话语言的人工智能;第二级:推理者,解决人类水平问题的人工智能;第三级:代理,能够 代表用户采取行动的人工智能;第四级:创新者,能够帮助发明的人工智能;第五级:组织 者,能够完成组织工作的人工智能。来源: IT 之家
软银集团确认收购英国 AI 芯片公司 Graphcore 据路透社最新报道,历经市场的长期猜测,日本软银集团最终以未公开的金额确认收购了英 国人工智能芯片初创公司 Graphcore。对待此次交易,Graphcore 的态度始终相对保守,彼 时 2023 年 9 月面对收购传闻,该公司直接否认“收到软银的收购要约”。公开资料显示, Graphcore 估值一度达到 28 亿美元,曾获微软、红杉等知名企业与投资机构支持。该公司 设计了一种新型智能处理单元(IPU),一度被视作与英伟达竞争的法宝。来源: 财联社
吴恩达抵制美国 SB 1047 法案,称对开源大模型是毁灭性打击
7 月 12 日凌晨,全球著名 AI 科学家吴恩达(Andrew Ng)在社交平台发表深度长文,再次 抵制并吐槽美国加州拟定的 SB-1047 法案。
他表示,仍然对美国加州拟定的 SB 1047 法案,对开源大模型带来的巨大伤害感到震惊。这 个法案犯了一个严重根本性错误,应该监管的是通过大模型开发的生成式 AI 产品,而不是 开源大模型本身。来源: AIGC 开放社区
Fireworks AI 获红杉、英伟达与 AMD 5200 万美元投资
近日,成立不到两年的 AI 初创公司 Fireworks AI 宣布完成红杉美国领投的 5200 万美元 B 轮融资,估值升至 5.52 亿美元,其他投资者包括英伟达、AMD 和 MongoDB。Fireworks AI 是一个为开发者提供生成式人工智能的创新平台。它包含高性能模型如 Meta Llama 3 和 FireLLaVA,并提供文本和图像生成工具。来源: 有新 Newin
07 月 11 日·周四
三星承诺:今年将在全球 2 亿台设备上推出 Galaxy AI
今年早些时候,三星在 Galaxy S24 上推出了一套由人工智能驱动的功能 Galaxy AI。在昨晚 的 Galaxy Unpacked 活动上,三星宣布到 2024 年底,Galaxy AI 将在全球 2 亿台设备上推 出。由于 Galaxy AI 已在现有兼容设备上推出,可以推测三星正在计算 Z Flip 6、Z Fold 6、 Buds 3、Buds 3 Pro、Watch 7 和 Watch Ultra 的可能得销量,最终得出了“2 亿”这个数字。 来源: CNMO
美 FTC 正在对微软和 OpenAI 的投资交易进行反垄断审查 据路透社报道,微软、苹果公司计划放弃了其在 OpenAI 董事会的观察员席位。报道称,此 举旨在缓解美国和英国反垄断监管机构对其在生成式 AI 日益普及的背景下对 OpenAI 进行 垄断控制的担忧。但是,美国联邦贸易委员会(FTC)的一位消息人士周三表示,这一变化 不太可能解决美国政府的担忧,FTC 正在对微软和 OpenAI 的投资交易进行反垄断审查,因 为此举表明微软看到了巨大的潜在反垄断风险,并正试图抢占先机。来源: 钛媒体
三星今年将推出升级版语音助手 Bixby 配备自家大模型 三星移动业务负责人在接受最新采访时表示,该公司将在今年推出基于自己人工智能(AI) 模型的升级版语音助手 Bixby。此前就有报道称,三星正在研发升级版 Bixby,而此次是该公 司首次确认发布时间。Bixby 的升级反映了三星正在其设备套件上更加努力地推广人工智能 功能。此外,除了自家的 Bixby 外,三星还将继续允许其他的语音助手在其设备上运用。例 如,谷歌的人工智能助手也可以在三星的最新设备上使用。来源: 财联社
AMD 以 6.65 亿美元收购芬兰 AI 初创公司 Silo AI,欲与英伟达争锋
芯片巨头 AMD 周三宣布,将斥资约 6.65 亿美元现金收购芬兰人工智能初创公司 Silo AI。 此举旨在增强其人工智能芯片能力,与行业领导者英伟达竞争。AMD 表示,收购 Silo AI 将 帮助其改进 AMD 驱动的人工智能模型的开发和部署,并帮助潜在客户使用 AMD 的芯片 构建复杂的人工智能模型。同时,Silo AI 还将加强 AMD 的软件开发能力。来源: IT 之家
消息称 AI 芯片初创公司 Groq 获贝莱德 3 亿美元投资,最新估值 22 亿美元
根据 The Information 最新报道,英伟达竞敌 Groq 预计将在未来两周内完成由贝莱德领投 的 3 亿美元融资,估值达到 22 亿美元。
相较于 2021 年,由 Tiger Global Management 和 D1 Capital 领投的 11 亿美元估值翻了 一倍。Groq 创始人是谷歌专用芯片 NPU 发明者之一 Jonathan Ross。今年 2 月,Groq 发 布了演示视频,展示了其 AI 芯片如何在几分之一秒内运行 LLM。来源: 有新 Newin
AI 游戏公司 Volley 完成 5500 万美元融资,由 Lightspeed 与微软领投
Volley 是一家 AI 游戏开发公司,用户可以通过向 Amazon Alexa、Fire TV 或 Roku TV 发 出语音命令来玩这些游戏。目前,Volley 已在 C 轮融资中筹集了 5500 万美元,此轮融资 由微软的 M12 Ventures 和 Lightspeed Venture Partners 领投,总融资额超过 7500 万美 元。来源: 有新 Newin
夸克升级“超级搜索框”,推出 AI 搜索为中心的一站式 AI 服务
7 月 10 日,夸克升级“超级搜索框”,推出以 AI 搜索为中心的一站式 AI 服务,为用户提供从 检索、创作、总结,到编辑、存储、分享的一体化信息服务价值。一个“超级搜索框”实现回 答、创作、总结之外,夸克一站式提供网盘、扫描、文档、CueMe、学习助手、健康助手等 内容产品和智能工具。来源: 新华网
07 月 10 日·周三
阿里旗下的 AI 搜索助手心流正式上线,小程序版本、APP 版本也将推出 专为科研人员、高校教师和学生、职场人士研发的大模型应用产品心流正式上线。据了解, 其产品定位为用户的 AI 搜索助手,提供智能搜索、知识问答、智能阅读、辅助创作等能力, 旨在帮助用户提升工作和学习效率。(AI 工具集注:心流的网站备案信息显示,备案主体是 杭州万相创意科技有限公司,即“阿里妈妈”的主体)来源: 环球网
微软宣布放弃 OpenAI 董事会观察员席位,苹果也不会担任类似角色 微软当地时间周一宣布将放弃在 OpenAI 董事会的观察员席位,称 OpenAI 在过去八个月 中取得了“重大进展”,对公司发展方向充满信心,因此不再需要该席位。在一份写给 OpenAI 的信中,微软表示已确认放弃该席位,且即刻生效,微软还表示“感谢 OpenAI 领导层和董 事会在这个决策过程中给予的支持”。除微软外,英国金融时报表示苹果也不会在 OpenAI 董事会担任观察员角色。OpenAI 官网显示,它“仍然是一家完全独立的公司,由 OpenAI 非 营利机构管理”。来源: IT 之家
马斯克旗下 xAI 与甲骨文百亿美元合作谈判破裂,拟自购芯片建数据中心 近期,马斯克麾下人工智能公司 xAI 与甲骨文之间的协议扩展谈判宣告破裂。原协议中,xAI 计划从甲骨文租赁专用的英伟达人工智能芯片。但据知情人士透露,xAI 现已决定自主采购 芯片,以构建其数据中心基础设施。据悉,xAI 原本与甲骨文正就一项多年期的合作协议进 行深入探讨,该协议旨在让 xAI 从甲骨文处租用英伟达芯片,以支持其即将打造的超级计算 机项目,预计交易规模可达 100 亿美元之巨。来源: 腾讯科技
谷歌 DeepMind CEO:当前 AI 综合智力还不如普通家猫
谷歌 DeepMind CEO 哈萨比斯出席全球变革研究所组织的“2024 年英国未来会议”,在和英 国前首相托尼・布莱尔(Tony Blair)的公开讨论中表示:如果将 AI 作为通用系统来衡量,
其 IQ 智商水平甚至没有超过猫。不过,随着巨额现金和计算投资的推动,相关研究进展很 快。一些人预计未来 5 年时间,AI 智力可以超过人类。来源: IT 之家
调查:中国在生成式人工智能应用和普及方面全球第一 周二公布的一项最新调查显示,中国在生成式人工智能(GenAI)的应用和普及方面走在世界 前列。根据美国人工智能和分析软件公司 SAS 以及 Coleman Parkes Research 对全球各行业 1600 名决策者进行的调查,83%的中国受访者表示他们已采用了生成式人工智能。来源: 财 联社
AI 视频初创公司 Captions 获 6000 万美元 C 轮融资
生成式 AI 视频制作和编辑初创公司 Captions,目前已从众多明星投资者那里完成新一轮融 资,估值跃升至 5 亿美元。周二,Captions 宣布完成由 Index Ventures 牵头的 6000 万美 元融资,总筹集资金达到 1 亿美元。本轮融资其他投资者包括 Kleiner Perkins、a16z 和 Sequoia Capital,还有 Jared Leto 等新投资者,Leto 也是另一家 AI 视频公司 Pika 投资者 之一。来源: 有新 Newin
07 月 09 日·周二
Gartner:64% 受访者不希望客服系统部署 AI
市场调查机构 Gartner 今天发布调查报告,表示 64% 的受访客户不希望客服使用 AI。该调 查还指出 53% 的客户如果发现某家公司客服使用 AI,会考虑转向竞争对手。来源: IT 之 家
OpenAI CEO 奥特曼与赫芬顿成立一个新的 AI 健康公司
OpenAI CEO Sam Altman 与 AI 医疗健康巨头 Thrive Global 的 CEO 阿里安娜·赫芬顿(Arianna Huffington)一起在《时代》杂志上发表了一篇文章,正式宣布了 Thrive AI Health 公司的成 立。Thrive AI Health 的目标是打造一个个性化“AI 健康教练”,以手机 App 形式呈现。目前 公司 CEO 是谷歌前健康和可穿戴设备负责人德卡洛斯·洛夫(DeCarlos Love),OpenAI 创业 基金和 Thrive Global 是主要投资方。来源: 智东西
腾讯智影小程序上线 AI 视频功能,限时免费一键生成风格化视频 腾讯智影小程序上线了智影 AI 视频功能,可以一键生成风格化视频,目前有日漫风格可选, 此功能限时免费(未公布收费价格)。视频风格化就是在原视频的基础上进行风格化处理, 官方称风格化视频可以提升视频美感、增强趣味性、提升传播力。只需导入视频并一键“变 身”,就能快速生成风格化视频(支持 10s 视频),智影 AI 提供了多种模板,让视频更加多 样化。来源: IT 之家
AI 文档搜索公司 Hebbia 宣布完成 1.3 亿美元融资
周一,位于纽约的 AI 初创公司 Hebbia 宣布完成新一轮 1.3 亿美元融资,由 a16z 领投, Index Ventures、Google Ventures 以及 Peter Thiel 参投。据悉,Hebbia 目前估值约为 7 亿美元,公司成立于 2020 年,其软件可分析数字化文档和数据源,包括监管文件、PDF 以 及音频和视频剪辑,以帮助客户处理比面向消费者的聊天机器人更复杂的查询,类似 Glean。 来源: 有新 Newin
中国工程院院士郑纬民:国产 AI 芯片核心问题是生态不够好,如果生态好 60%的性能也有
人用
7 月 7 日信息化百人会(ChinaInfo100,信百会)2024 年度研讨会上,中国工程院院士、清 华大学计算机科学与技术系教授郑纬民发表演讲。郑纬民表示,AI 大模型正在从单模态向 多模态发展,同时应用也很多,这使得算力爆发性增长,算力一直供不应求。但同时,相比 英伟达,国产 AI 芯片系统生态不够好。来源: 钛媒体
古尔曼:苹果首款支持 Apple Intelligence 的智能家居设备将是一款桌面机器人
据彭博社记者马克・古尔曼 (Mark Gurman) 透露,苹果首款搭载 Apple Intelligence 功能
的智能家居设备将是一款全新的桌面机器人。古尔曼表示,期待在现有苹果智能家居设备上 使用 Apple Intelligence 功能的用户可能要失望了,他们需要等待苹果推出 AI 驱动的桌面 机器人产品。来源: IT 之家
07 月 08 日·周一
Anthropic 首席执行官:未来三年内,AI 大模型训练成本将上升至百亿甚至千亿美元
据 Tom’s Hardware 今日报道,AI 初创公司 Anthropic 的首席执行官 Dario Amodei 近期 接受播客节目采访时表示,目前像 GPT-4o 这样的模型训练成本约为 1 亿美元,而目前正 在开发的 AI 大模型训练成本可能高达 10 亿美元。当然,10 亿美元还不是“终点”。Dario Amodei 作出预测,未来三年内,AI 大模型的训练成本将上升至 100 亿美元甚至 1000 亿 美元。来源: IT 之家
MOSS 大模型项目负责人邱锡鹏:大模型的下个阶段是“世界模型”
复旦大学教授、MOSS 大模型项目负责人邱锡鹏认为,当前,大语言模型还存在很多不足。 比如在落地阶段,大语言模型的会遇到难以解决的“幻觉问题”,即生成不真实、不可靠、不 存在的信息。邱锡鹏将大模型的未来趋势和发展方向,总结为观察世界、产生动作,并走向 “世界模型”。来源: 财联社
曝苹果 Apple Intelligence 版全新 Siri 今年不会推出 根据彭博社记者马克·古尔曼的最新消息,苹果公司今年不会推出全新的 Apple Intelligence 驱动的 Siri。相反,该公司计划在明年 1 月开始测试,并在 iOS 18.4 中推出正式版本。此前 报道显示,苹果公司在 6 月 11 日的 2024 年 WWDC 全球开发者大会上正式宣布了这款新 Siri。来源: 中关村在线
X 被曝将新增多项 Grok 模型功能支持,含聊天机器人侧面板
独立应用程序研究者 Nima Owji 表示,X 社交平台正在开发多项基于 xAI Grok 模型的功 能,为 X Premium 订阅用户提供更丰富的使用体验。其中之一便是类似于其他生成式 AI 聊天机器人的 Grok 侧面板,用户可在使用 X 平台任意功能时同 Grok 机器人交流。来源: IT 之家
月之暗面为 Kimi 智能助手推出官方浏览器插件 据月之暗面官方微信公众号消息,月之暗面推出 Kimi 浏览器插件,并为网页用户带来多项 新功能。Kimi 插件,目前只有两个按钮:一个是点问笔,划选文字后就会出现;另一个是总 结器,出现在网页右下角,帮你快速总结全文、答疑解惑。来源: 月之暗面
07 月 05 日·周五
阿里云 CTO 周靖人:通义真正实现全尺寸、全模态开源,下载量已破 2000 万
7 月 5 日,在上海世界人工智能大会上,阿里云 CTO 周靖人公布近期通义大模型和阿里
云百炼平台的最新进展。近 2 个月,通义千问开源模型下载量增长 2 倍,突破 2000 万次,
阿里云百炼服务客户数从 9 万增长至 23 万,涨幅超 150%。周靖人重申了阿里云拥抱开源 开放的坚定立场,「到今天,通义千问已经实现真正意义上的全尺寸、全模态开源,拉平了 开源、闭源模型之间的差距。」来源: 极客公园
阿里通义 App 上线“追星星的 AI”:国内首个关照孤独症儿童的 AI 绘本
阿里巴巴官方公众号今天下午发文宣布,通义 App 现已上线一款特殊 AI 工具“追星星的 AI”。阿里巴巴表示,这是国内首个关照孤独症儿童的 AI 绘本工具,免费为孤独症儿童家庭 提供定制 AI 绘本服务。其基于阿里自研的 Modelscope-Agent 框架,调用了通义大模型的
多项服务,可实现从一句话故事梗概到完整有声绘本的生成。来源: IT 之家
消息称黑客去年曾侵入 OpenAI 内部系统,部分 AI 设计细节被盗 据媒体援引知情人士透露,一名黑客去年曾成功“黑入”了 OpenAI 的内部消息系统,并窃取 了该公司人工智能技术的设计细节。OpenAI 高管在去年 4 月的全体员工大会上向员工和公 司董事会通报了这一漏洞,但高管决定不对外公开这一消息。来源: 财联社
蚂蚁百灵大模型最新进展:已具备原生多模态能力
7 月 5 日,在 2024 世界人工智能大会“可信大模型助力产业创新发展”论坛上,蚂蚁集团公 布了其自研的百灵大模型最新研发进展:百灵大模型已具备能“看”会“听”、能“说”会“画”的原 生多模态能力,可以直接理解并训练音频、视频、图、文等多模态数据。来源: 机器之心
支付宝发布多模态医疗大模型,支持千亿级视觉识别
在 2024 世界人工智能大会“可信大模型论坛”上,支付宝多模态医疗大模型正式亮相,成为 国内首批多模态医疗大模型之一。基于蚂蚁百灵的多模态能力,该模型可实现直接理解并训 练音频、视频、图、文等多模态数据,使其更像人一样感知和互动,能“看”会“听”、能“说”会 “画”,支持千亿级别参数医疗视觉识别。来源: 钛媒体
百度文心智能体平台升级,向开发者免费开放文心大模型 4.0 据百度官方消息,百度文心智能体平台(AgentBuilder)免费开放了文心大模型 4.0。开发 者在文心智能体平台上制作智能体时,可灵活选择文心大模型 3.5 或 4.0 版本。文心大模
型 4.0 于 2023 年 10 月发布,实现了基础模型的全面升级,在理解、生成、逻辑和记忆 能力上都有提升。来源: IT 之家
B 站亮相 2024 世界人工智能大会,首次展出自研大语言模型
在 2024 世界人工智能大会(WAIC 2024)上,哔哩哔哩(以下简称“B 站”)公布了多项自 主研发的 AI 技术成果和 AIGC 多元创意,包括最新定制的 AI 语音声库、自研音视频大模 型必剪 Studio 以及自研 AI 动态漫技术等。此外,B 站自研的大语言模型系列也在此次 WAIC 2024 大会上首次展出,包括开源的 Index-1.9B chat 和 Index-1.9B character 两个模 型。来源: 财经网
商汤科技发布日日新 5.5 大模型体系
商汤发布日日新 5.5 大模型体系,包括 6000 亿参数基础模型日日新 5.5,性能提升 30%;流 式多模态交互模型日日新 5o,是国内首个所见即所得模型,可进行实时多模态交互和问答; 日日新 5.5Lite 在端侧模型进行升级,模型精度提升 10%、首包延迟降低 40%,推理效率提升 15%。来源: 财联社
软银集团宣布 4 亿英镑收购 AI 芯片公司 Graphcore
近日,日本软银集团宣布将以 4 亿英镑收购陷入困境的人工智能初创公司 Graphcore,该交 易还需要获得英国政府的审查批准才能生效。资料显示,Graphcore 成立于 2016 年,生产 称为智能处理器单元(IPU)的 AI 芯片,旨在挑战英伟达。由于英伟达的设备需求量很大, 投资者们纷纷向这家初创公司注入资金,寻找替代英伟达的可行方案。2020 年,Graphcore 以 28 亿美元的估值筹集 2.22 亿美元,使其成为英国最有前途的初创公司之一。来源: 芯 智讯
王坚:美国 AI 发展的电力瓶颈短板我国不存在,最不缺就是电 近日,中国工程院院士、阿里云创始人王坚公开表示,美国 AI 人工智能发展的瓶颈是电力, 这对中国来说不是问题。2024 世界人工智能大会上,中国工程院院士、阿里云创始人王坚 回答算力和电力是否是 AI 发展瓶颈,表示电力方面,中国是最不用担心的。“中国一年的发 电量是美国、日本、俄罗斯的总和还要多”,王坚说道。另外他提出一个应用、模型、电力和 算力的不等式,认为在此不等式下,目前从事人工智能的人还不用担心瓶颈问题。来源: 快 科技
MiniMax 创始人闫俊杰:至少三年后才会出现“杀手级”AI 应用
4 日下午举行的世界人工智能大会产业发展主论坛上,国内 AI 大模型“独角兽”公司 MiniMax 创始人兼 CEO 闫俊杰参与了一场圆桌,并表示,虽然国内很多公司正在迎头赶上 ChatGPT, 但是目前模型的错误率在 60%-70%的水平,远不及 GPT-4 的 30%-40%。会后,闫俊杰在对钛 媒体 AGI 等对话时表示,类似于微信、抖音、今日头条这种规模的“杀手级”AI 超级应用(Killer App),至少要到三年之后才能实现。来源: 钛媒体
英伟达今年在华销售额预计将达 120 亿美元,发货超 100 万颗芯片
芯片咨询公司 SemiAnalysis 报告预估,今年英伟达有望在中国销售价值约 120 亿美元的人 工智能芯片。黄仁勋曾表示,希望借助新的芯片使得英伟达在中国的业务实现最大化。英伟 达有望在未来几个月内在中国交付超过 100 万颗定制版 H20 芯片,这些芯片的设计不受美 国对向中国客户销售人工智能处理器的限制。据悉,每颗 H20 芯片的价格在 12000 至 13000 美元之间。来源: 第一财经
ElevenLabs 推出免费的 AI 语音分离工具,可消除环境噪音
ElevenLabs 是一家以语音克隆、 文本转语音和语音转语音模型而闻名的人工智能语音初创 公司,最新在其产品组合中添加了另一种工具:AI 语音分离工具(AI Voice Isolator)。该产 品允许创作者从任何内容(从电影到播客或 YouTube 视频)中消除不需要的环境噪音和声 音。来源: VentureBeat
无问芯穹发布全球首个单任务千卡异构芯片混合训练平台,算力利用率达 97.6% 无问芯穹联合创始人兼 CEO 夏立雪昨日在世界人工智能大会 AI 基础设施论坛上发布了 无问芯穹大规模模型的异构分布式混合训练系统,称千卡异构混合训练集群算力利用率最高 达到了 97.6%。夏立雪还宣布无问芯穹 Infini-AI 云平台已集成大模型异构千卡混训能力, 是全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性。来源:IT 之 家
07 月 04 日·周四
摩尔线程升级夸娥(KUAE)智算集群到首个国产全功能 GPU 的万卡规模集群
日前,国产 GPU 公司摩尔线程宣布其人工智能(AI)旗舰产品夸娥(KUAE)智算集群解决 方案实现重大升级——从千卡扩展至万卡规模。总算力超过 10EFLOPS,目标是做到有效计 算效率超过 60%、稳定性达 99%,能支撑万亿参数级大模型训练。来源: 智东西
腾讯混元 DiT 升级:推出 6G 小显存版本,支持 Kohya 训练
腾讯混元文生图大模型(混元 DiT)宣布开源小显存版本,仅需 6G 显存即可运行,对使用 个人电脑本地部署的开发者十分友好,该版本与 LoRA、ControlNet 等插件,都已适配至 Diffusers 库;并新增对 Kohya 图形化界面的支持,让开发者可以低门槛地训练个性化 LoRA 模型;同时,混元 DiT 模型升级至 1.2 版本,在图片质感与构图方面均有所提升。来源: 腾 讯混元
特斯拉二代人形机器人 Optimus 亮相 WAIC,行走速度提升 30%
7 月 4 日,在 2024 世界人工智能大会(WAIC 2024)上,特斯拉二代人形机器人 Optimus 正式亮相。特斯拉相关负责人向上证报记者介绍,二代 Optimus 在直立行走的基础上,行走 速度提升了 30%;其手指还“进化”到除了感知和触觉,可以在轻握鸡蛋和搬运重物时做到“游 刃有余”。来源: 上证报
北京:2025 年智算供给规模达 45EFLOPS,两年打造 AI 原生城市
在 7 月 3 日召开的 2024 全球数字经济大会智能计算与决策技术论坛上,北京市经济和
信息化局总经济师、数字经济专班执行长唐建国表示:“北京市明确提出,到 2025 年本地 智算供给规模达到 45EFLOPS(每秒百亿亿次浮点运算次数),形成北京市内东西南北四个
亿级以上算力中心,构建‘京津冀蒙’算力供给走廊,为人工智能大模型的训练和推理应用提 供高效的算力供给。”来源: 上观新闻
丘成桐:人工智能要重视上游的基础学科 “人工智能的上游、中游、下游要同步做,上游(基础学科)要领导,中、下游要帮忙,中国 尤其要重视上游的工作。”在 7 月 4 日上午举行的 2024 世界人工智能大会暨人工智能全球 治理高级别会议全体会议上,菲尔兹奖首位华人得主丘成桐接受第一财经独家采访时表示。 来源: 第一财经
阶跃星辰发布三款 Step 系列通用大模型新品
在 2024 年世界人工智能大会上,阶跃星辰发布了三款 Step 系列通用大模型新品:Step-2 万亿参数语言大模型正式版、Step-1.5V 多模态大模型、Step-1X 图像生成大模型。其中, Step-2 大幅提升了训练效率,在数学、逻辑、编程、知识、创作、多轮对话等方面体感逼近 GPT-4。Step-1.5V 在图像感知和理解能力上全面提升,并具备较强的视频理解能力。来源: 钛媒体
李彦宏:没有应用,基础模型一文不值,商业化闭源模型最能打
7 月 4 日,在 2024 世界人工智能大会暨人工智能全球治理高级别会议产业发展主论坛上, 百度创始人、董事长兼首席执行官李彦宏谈及,2023 年,国内出现了百模大战,造成了社 会资源的绝大浪费,但也使得国内追赶世界上最先进的基础模型能力得到建立。李彦宏再次 强调闭源模型的优势,称激烈竞争环境下,商业化闭源模型最能打。另外,没有应用,基础 模型一文不值。来源: 澎湃新闻
联发科与快手推出端侧视频生成技术,支持天玑 9300/8300 移动平台
2024 年 7 月 4 日,MediaTek 与快手共同宣布,推出高效端侧视频生成技术,共同探索并推 进生成式 AI 技术的革新。该技术是对 2024 世界移动通信大会(MWC 2024)上初次亮相的 视频生成技术的延续与提升,结合快手的 AI 模型 I2V(image to video)Adapter 与 MediaTek 天玑 9300、天玑 8300 移动平台强劲的 AI 算力,在端侧实现由静态图像生成动态视频的创 新体验。来源: PChome
商汤发布可控人物视频生成大模型 Vimi,实现分钟级视频
世界人工智能大会(WAIC 2024)在上海隆重召开,由商汤科技打造的首个面向 C 端用户的 可控人物视频生成大模型 Vimi 亮相。Vimi 基于商汤日日新大模型的强大能力,仅通过一张 任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有 人物视频、动画、声音、文字等多种元素进行驱动。来源: 猎云网
法国开源 AI 研究实验室 Kyutai 发布对标 GPT-4O 的实时语音多模态模型 Moshi
7 月 4 日凌晨,法国知名开源 AI 研究实验室 Kyutai 在官网发布了,具备看、听、说多模态 大模型——Moshi。Moshi 功能与 OpenAI 在 5 月 14 日展示的最新模型 GPT-4o 差不多,可 以听取人的语音提问后进行实时推理回答内容。但 GPT-4o 的语音模式要在秋天才能全面开 放使用,而 Moshi 已经提供使用了。来源: 华尔街见闻
三星放缓汽车半导体开发,专注于人工智能芯片
三星负责芯片设计的系统 LSI 部门正在进行业务和组织重组,将优先发展 AI 芯片。此次从 事汽车处理器“Exynos Auto”(代号 KITT3)开发的的人员已在该部门内重新分配到 AI 系统级 芯片(SoC)团队,该团队现在是三星设计工作的重点。目前,该部门集中了 100-150 名专 门设计人员,致力于 AI 芯片设计。来源: 科创板日报
袁进辉 AI 公司「硅基流动」获近亿元天使+轮融资
AI 初创公司「硅基流动」(SiliconFlow)近日完成近亿元天使+轮融资。本轮融资由某知名产 业方领投,跟投方包括智谱 AI、360 和水木清华校友基金等知名企业及机构,老股东耀途资 本继续超额跟进,华兴资本担任独家财务顾问。硅基流动是一家专注于 AI Infra(AI 基础设
施)领域的创业公司,成立于 2023 年 8 月。创始人袁进辉是前 OneFlow(一流科技) 创始 人及 CEO,曾任微软亚洲研究院主管研究员,获得微软亚洲研究院院长特别奖。来源: 36 氪
macOS 版 ChatGPT 被指以纯文本存储 AI 对话,OpenAI 紧急更新修复
开发者 Pedro Vieito 于 2 天前在 Thread 平台发布动态,表示 macOS 版 ChatGPT 应用 会以纯文本方式存储用户对话,OpenAI 公司今天回应称已更新其应用,对存储在 Mac 设 备上的聊天记录进行了加密处理。来源: IT 之家
07 月 03 日·周三
巴西政府机构禁止 Meta 公司使用用户数据训练生成式 AI 模型 据美联社报道,巴西国家数据保护局当地时间周二(2 日)认定,拥有 Facebook、Instagram、 WhatsApp 等平台的社交网络巨头 Meta 将不得使用来自巴西的数据来训练其生成式 AI 模型。Meta 近期更新了隐私政策,允许公司可将人们的公开帖子用于训练其模型。根据巴 西国家数据保护局的公报,Meta 此举将会对受影响数据主体的基本权利造成严重的、不可 挽回的或难以修复的损害,此次下达的禁令是“预防性措施”。来源: IT 之家
世界知识产权组织:过去十年中国生成式 AI 专利申请量居全球第一 世界知识产权组织发布《生成式人工智能专利态势报告》。报告显示,2014 年至 2023 年, 中国发明人申请的生成式人工智能专利数量最多,远超美国、韩国、日本和印度等国。2014 年至 2023 年,全球生成式人工智能相关的发明申请量达 54000 件,其中超过 25%是在去年 一年出现的。来源: 央视新闻
Meta 发布 3D Gen AI 模型:1 分钟内生成高质量 3D 内容
Meta 公司昨日(7 月 2 日)发布研究论文,介绍了名为 Meta 3D Gen(3DGen)的全新 AI 模型,可以在 1 分钟内基于用户输入的提示词,生成高质量的 3D 内容。Meta 公司表 示 Meta 3D Gen(3DGen)所生成的 3D 内容具备高分辨率纹理和材质贴图,还支持基于 物理的渲染(PBR),并能对此前生成的 3D 内容重新再生成新纹理。来源: IT 之家
苹果公司有望获得 OpenAI 董事会观察员席位 据报道,作为上个月宣布的里程碑式协议的一部分,苹果公司将获得 OpenAI 董事会观察员 职位,这进一步加强了两家公司之间的联系。据知情人士透露,苹果应用商店(App Store) 负责人、前营销主管 Phil Schiller 被选中担任这一职位。这位知情人士说,作为董事会观察 员,他不会以正式董事的身份任职。来源: 财联社
AI 音乐和歌曲生成平台 Suno 推出 iOS 移动端 APP
Suno 是一款广受欢迎的人工智能音乐和歌曲生成器服务,在网络上已有超过 1200 万人使 用,该公司推出了首款 iOS 设备移动应用程序。Suno iOS 版允许用户只需提供文字描述或 用手机录制音频,就能轻松创建自己的音乐。用户可以生成 4 分钟长的歌曲和 2 分钟长的 歌曲扩展。来源: cnBeta
Runway 正洽谈新一轮 4.5 亿美元融资,估值达 40 亿美元
根据 The Information 最新报道,Runway 正在与 General Atlantic 洽谈新一轮 4.5 亿美元 融资,估值达 40 亿美元。2023 年 6 月,Runway 曾从包括 Google、Nvidia 和 Salesforce Ventures 在内的投资者那里筹集了 1.41 亿美元,当时的估值为 15 亿美元。据悉,Runway 在去年年底的 ARR 约为 2500 万美元,比六个月前的几百万美元大幅增加,但仍与 OpenAI 等头部玩家三四十亿美元的收入有较大差距。来源: 有新 Newin
AI 编程创企 Magic 正洽谈 2 亿美元融资,估值 15 亿美元
据路透社独家报道,美国 AI 编程创企 Magic 正在谈判筹集超过 2 亿美元的一轮融资,估值 为 15 亿美元,距离其上次融资仅几个月。 包括 Jane Street 在内的投资者预计将参与这一
轮融资,这可能会使 Magic 的估值比上一轮高出 3 倍,尽管该公司没有收入,也没有产品 出售。来源: 智东西
Sentient 获 8500 万美元种子轮融资,打造开放的 AI 开发平台 总部位于美国旧金山的人工智能研究与开发初创公司 Sentient 宣布筹集了 8500 万美元的种 子轮融资。本轮融资由彼得·蒂尔的 Founders Fund、Pantera Capital 和 Framework Ventures 共同领投。Sentient 致力于通过建立开放平台,确保 AI 技术的发展符合全人类的利益,并使 AI 的好处能够公平分配。来源: Decrypt
Phaidra 获 1200 万美元新一轮融资,利用 AI 管理数据中心能源消耗
利用 AI 管理数据中心能源消耗的初创公司 Phaidra 宣布筹集了 1200 万美元的新一轮融资, 本轮融资由 Index Ventures 领投,该公司计划将筹集的资金用于其产品的进一步研发和扩大 市场推广。来源: GeekWire
07 月 02 日·周二
马斯克:xAI 训练 Grok-3 大模型用了 10 万块英伟达 H100 芯片 马斯克已经宣布其人工智能初创公司 xAI 的大语言模型 Grok-2 将于 8 月推出,将带来更 先进的 AI 功能。虽然 Grok-2 还没亮相,但马斯克已经开始为其 Grok-3 进行造势。他透 露 xAI 的 Grok-3 用了 10 万块英伟达 H100 芯片进行训练,预计将于年底发布,相信它 会“非常特别”。来源: IT 之家
四部门印发《国家人工智能产业综合标准化体系建设指南(2024 版)》 工业和信息化部等四部门印发《国家人工智能产业综合标准化体系建设指南(2024 版)》。 到 2026 年,标准与产业科技创新的联动水平持续提升,新制定国家标准和行业标准 50 项 以上,引领人工智能产业高质量发展的标准体系加快形成。开展标准宣贯和实施推广的企业 超过 1000 家,标准服务企业创新发展的成效更加凸显。参与制定国际标准 20 项以上,促 进人工智能产业全球化发展。来源: 财联社
英伟达被曝面临法国反垄断指控:罚金最高可达 60.9 亿美元 据外媒报道,法国反垄断监管机构计划指控英伟达涉嫌存在反竞争行为。有知情人士透露, 该指控源自法国监管机构去年 9 月对 GPU(图形处理芯片)行业的一次突击检查,而这次 检查针对的目标便是英伟达。根据法国反垄断法的规定,违反反垄断法的公司可能面临高达 其全球年营业额 10%的罚款,但他们也可以做出让步以避免处罚。以英伟达 2024 财年 609
亿美元的营收来计算,罚款金额最高可达 60.9 亿美元(约合人民币 442.63 亿元)。来源: 澎湃新闻
Character AI 融资困难,计划出售给谷歌和 Meta
由谷歌前员工创立的 AI 独角兽公司 Character AI,曾因角色扮演聊天产品而备受瞩目。尽管 A16Z 曾以 10 亿美元估值投资 1.5 亿美元,但随着市场新鲜感消退和竞争加剧,公司面临融 资困难,正考虑出售给谷歌或 Meta。Character AI 与这些科技巨头探讨了潜在合作,包括计 算资源和知识产权共享。同时,公司也在寻求新的收入来源,如广告和 API 访问,以维持增 长。来源: Z Finance
Runway 的文生视频模型 Gen-3 Alpha 向所有人开放
Runway 宣布,文生视频模型 Gen-3 Alpha 向所有用户开放使用,每个月最少 12 美元才能 使用。Gen-3 一次性只能生成 11 秒的 720P 视频,也不会带任何背景音乐,有用户表示 Gen- 3 的功能比 Sora 更好,并将再次改变文生视频赛道。来源: 华尔街见闻
OpenAI CEO 奥特曼:GPT-5 将带来“巨大飞跃”
根据 Aspen Ideas Festival 上的一次访谈,OpenAI CEO 奥特曼提到,开发“GPT-5”还需要一 些时间。“我们目前持乐观态度,但还有很多工作要做。”奥特曼表示。目前尚不清楚 GPT-
5 的发布日期,但奥特曼表示它将是“巨大飞跃(significant leap forward)”,或许是相较于 其前辈 GPT-4 而言。此前,奥特曼曾公开表示 GPT-4 “有些糟糕”,并委婉地称之为“充其 量只是有点尴尬”。来源: IT 之家
LeyLine 完成首轮数百万美元融资,为创意行业提供一站式 AI 工作流平台 位于西雅图初创企业「LeyLine」,已于近日完成首轮数百万美元融资,公司致力于推出全球 首个针对游戏,短剧,动画,CG 等内容制作行业的 AI 赋能人机混合智能生态系统。本轮融 资的领投方为春华创投(春华资本旗下 VC),跟投方包括总部位于波士顿的深科技基金 Taihill Venture 和多位著名天使投资人。来源: 36 氪
桥水启动由机器学习决策的 20 亿美元规模基金 对冲基金巨头桥水公司最新推出了一只基金——一只由机器学习运行并进行决策的基金。据 了解,该基金从不到 10 位客户那里获得了大约 20 亿美元的资金。新投资工具由联席首席 投资官 Greg Jensen 牵头,已于周一(7 月 1 日)开始交易。目前新基金依靠桥水公司研发 了十多年的专有技术,据知情人士透露,新基金还将扩大范围,纳入 OpenAI、Anthropic 和 Perplexity 等公司开发的模型。来源: 财联社
联大通过中国提出的加强人工智能能力建设国际合作决议
第 78 届联合国大会 1 日协商一致通过中国主提的加强人工智能能力建设国际合作决议,140 多国参加决议联署。该决议强调人工智能发展应坚持以人为本、智能向善、造福人类的原则, 鼓励通过国际合作和实际行动帮助各国特别是发展中国家加强人工智能能力建设,增强发展 中国家在人工智能全球治理中的代表性和发言权,倡导开放、公平、非歧视的商业环境,支 持联合国在国际合作中发挥中心作用,实现人工智能包容普惠可持续发展,助力实现联合国 2030 年可持续发展议程。来源: 新华网
微软 AI 设计工具 Designer 测试定制贺卡功能
微软昨日发布新闻稿,邀请 Microsoft 365 Insider 项目成员,测试 Microsoft Designer 的个 性化贺卡“Greeting Cards”功能。微软表示 Greeting Cards 是一款快速、直观的工具,可将 用户输入的文字描述转化为符合其独特风格和信息的个性化贺卡。来源: IT 之家
AI 初创公司 Abnormal Security 估值将达 50 亿美元
最新消息,人工智能初创公司 Abnormal Security 估值将达到 50 亿美元。公开资料显示,
Abnormal Security 成立于 2018 年,该公司利用人工智能检测异常行为,防范商务电邮入侵
(BEC)等网络安全威胁。此前,Abnormal Security 已完成 C 轮融资 2.1 亿美元,由 Insight Partners 领投,Greylock Partners 和 Menlo Ventures 跟投,当时估值 40 亿美元。来源: 第 一财经
07 月 01 日·周一
比尔·盖茨:Scaling Law 快要走到尽头,超人 AI 还需新的突破
比尔·盖茨在一期 Next Big Idea 播客中讨论了人工智能的未来发展,强调其在医疗、教育和 生产力中的重要性。他认为 AI 将深刻影响合成生物学和机器人技术,并预测个人智能体会 通过耳机、眼镜等设备与人类交互。盖茨指出,AI 的真正进步在于实现更接近人类的元认知 能力,而非仅扩大模型规模。他预期 AI 将提升生产率并改善生活质量,但也提醒需警惕技 术发展对社会的影响。来源: 36 氪
谷歌 Gemini 模型今秋或将融入苹果智能生态系统
苹果知名爆料人马克·古尔曼(Mark Gurman)最新透露,苹果公司将于今年秋季宣布与 Alphabet 旗下的谷歌的大模型 Gemini 建立合作关系,届时 Gemini 模型将有望接入苹果的 Apple Intelligence。此外,古尔曼还重申,苹果与人工智能初创公司 Anthropic 的潜在合作 关系也在考虑之中,不过,苹果不会考虑整合 Meta 公司的人工智能服务。来源: 财联社
腾讯元宝上线 AI 深度搜索,可一键生成脑图、表格 腾讯宣布旗下大模型应用“腾讯元宝”上线 AI 深度搜索,更新到最新版本后,腾讯元宝将在 AI 搜索深度模式下对问题进行扩展,可同步生成内容大纲、思维导图及相关人物事件梳理。 来源: 钛媒体
腾讯搜狗输入法上线 AI 对话、AI 宠物、快捷问答等功能 近日,腾讯搜狗输入法发布全新版本,升级了 AI 帮写、AI 对话功能,同时推出快捷问答、 AI 宠物、AI 自拍表情等多种新玩法。本次腾讯搜狗输入法对 AI 帮写模块进行了全面升级, 针对社交、创作、评论评价、职场四个方向上线了 21 个帮写指令,覆盖日常聊天、种草笔
记、撰写评论等 130 多种使用场景,可根据用户关键词进行优化、改进和丰富信息,提高文 本的表达效果。来源: 央广网
马斯克:xAI 将于 8 月推出 Grok-2 大语言模型
北京时间今日午间,马斯克在自己的 X(推特)平台上发文宣布,其人工智能初创公司 xAI 的大语言模型 Grok-2 将于 8 月推出。xAI 今年 3 月、4 月陆续推出了 Grok-1.5 大语言 模型和首个多模态模型 Grok-1.5 Vision。xAI 曾表示,Grok-1.5V 在多学科推理、文档理解、 科学图表、表格处理、屏幕截图和照片等多个领域“都能媲美现有的前沿多模态模型”。来源: IT 之家
微软 AI CEO:今年年底,我们将拥有实时的语音界面,允许完全动态的交互 在近日阿斯彭思想节上,微软 AI 负责人 Mustafa Suleyman 与著名财经记者 Andrew Ross Sorkin 进行了一场深入对话。Suleyman 强调, AI 的发展并不会像加密货币那样成为一时 的热潮,而是会持续对社会产生深远影响。他指出,当前的 AI 技术已经在多个领域展现了 其价值,这与加密货币在短时间内的表现形成鲜明对比。在谈及中美技术竞争时,Suleyman 呼吁在保持竞争的同时,也应寻求合作的机会。他指出,尽管中美之间存在技术上的分裂, 但全球化背景下的合作仍然是不可忽视的趋势。通过共同努力,双方可以在各自的技术生态 系统中找到共存的方式。来源: 有新 Newin
谷歌 AI 视频编辑应用 Google Vids 上线测试
谷歌曾在今年 4 月发布了一款全新的 AI 视频编辑应用 Google Vids,并宣布预计 6 月登 陆 Google Workspace Labs 测试版。据 Android Authority 报道,目前该应用已经于上周五 前后悄悄上线并开启测试,功能齐全。来源: IT 之家