实测MiniMax-M1,一文看懂M1为什么是全球开源模型第一梯队

6月底,LMArena 发布了一则大模型文本竞技排行榜。

MiniMax-M1 位列第12名,和 DeepSeek V3 0324、DeepSeek R1、Qwen3 并列,至此——国内LLM御三家正式会师全球开源模型第一梯队。

LMArena 排行榜,是全球用户一票票盲选出来的实打实战绩,不看参数,拼的是模型本身的“硬功夫”。

本周最新排行榜数据显示,MiniMax-M1 已经进入前10。

 

01. MiniMax-M1 凭什么位列前茅

 

MiniMax-M1采用混合专家 (MoE)架构,结合闪电注意力机制,4560 亿参数里真正激活的只有 45.9 B——推理时只叫醒“少数派”专家。

训练环节MiniMax 自研了 CISPO,官方公布的训练账单 53.5 万美元,远低于曾经动辄千万美元起步的大模型训练花费。

再配合“少数派”激活方式,一条 100K token 的长回复推理开销只有 DeepSeek-R1 的四分之一。

MiniMax-M1 的数学能力也是不遑多让,在 AIME 2024 上,MiniMax-M1-80K 得分率高达86%,在公开权重模型里直接冲到第一梯队;

在 LMArena 最新的大模型排行榜-数学分类中也是稳居第一。

MiniMax-M1的上下文能力同样强大到离谱:输入最长 100 万 tokens,输出 8 万 tokens。一次性吞下整部《水浒传》都不会噎住。

MiniMax-M1 的代码生成能力虽然不在第一梯队,但在 LMArena 编程排行中稳居第二梯队,在指令对齐、逻辑清晰度、代码可读性方面表现优异。

适配 Agent 场景、辅助开发任务根本没有压力。

 

02. 实测MiniMax-M1

 

但是多说不如多做,咱们一起实测看看它到底实力如何。

通用场景

提示词:为我规划一周旅游行程,北京出发,目的地新疆,预算在1万元以内,考虑 7 月天气并给交通方案。

交通住宿、景点消费都规划的很不错,各个景点的参观时长也都规划的很好,整个方案对比小某书的攻略来说,真的是有过之而无不及。

数学

提示词:求 n<1000 且可写成 2a−2b (a>b≥0)的正整数个数。

这是 2021 AIME 测试中的第 3 题,这题考察枚举、二次判断和快速上界估计,能顺滑做对说明基础代数同样扎实。

网页开发场景

提示词:创建一组九宫格3D卡片组件,可在悬停时卡片翻转,且略微放大。仅使用HTML和CSS(无需JS)。正反面都有内容,且正常显示。翻转过程流畅且逼真。

用纯 HTML+CSS 做翻转动效,乍一看是小把戏,其实在验底层——布局、三维几何、微交互三条链能否一次咬合到位。

MiniMax M1 对提示词的遵循很到位,卡片翻转后略微放大的效果也很好的呈现了。

提示词:创建一个便签墙,用户可以在这里创建、编辑、拖动和删除彩色便签。

一面彩色便签墙看似玩具,却把事件模型、状态持久化、拖拽几何、接口调度统统拉到红区,能顺滑跑完才是真硬功。

 

03. Minimax 技术全景

 

MiniMax-M1 的高光并非侥幸,而是 MiniMax 长期策略的集中体现,当然,MiniMax 手里的王牌也不只这一张:

视频生成模型 Hailuo 02,在全球主流榜单上冲到第二。复杂动作、镜头调度、光影写实能力都很能打,真实感逼近电影质感。

音频模型方面,MiniMax 也拿下了多个全球第一。从TTS到语音风格迁移,保真度、节奏感、自然度在业内都属顶级。

更关键的是,MiniMax 走的不是大力出奇迹的老路。他们并不迷信参数,而是把精力花在“推理能力”和“工程稳态”上——用更少的资源,跑得更稳,更准,更快。

 

04. 一些分享

 

MiniMax 没打算单点爆破,而是把语言、视频、音频同时推上公开擂台。

排行榜上是用户在投票,也是市场在投票。一旦能在开放排名里站住,就代表了市场的认可。

中国 AI 起初拼算力、拼资金,如今比的却是生态和落地速度;MiniMax 用开源、长上下文、跨模态三张牌,把自己放进了全球同场竞技的赛场里,也把“中国打法”写进了游戏规则。

接下来,无论资本风向怎么摇摆,只要 MiniMax 能保持这种技术—产品—生态的正向循环,就会一直坐在牌桌上。

原文链接:用大厂预算的零头冲入第一梯队,MiniMax到底有什么实力