实测MiniMax-M1，一文看懂M1为什么是全球开源模型第一梯队

Posted in AI教程.

6月底，LMArena 发布了一则大模型文本竞技排行榜。

MiniMax-M1 位列第12名，和 DeepSeek V3 0324、DeepSeek R1、Qwen3 并列，至此——国内LLM御三家正式会师全球开源模型第一梯队。

LMArena 排行榜，是全球用户一票票盲选出来的实打实战绩，不看参数，拼的是模型本身的“硬功夫”。

本周最新排行榜数据显示，MiniMax-M1 已经进入前10。

01. MiniMax-M1 凭什么位列前茅

MiniMax-M1采用混合专家（MoE）架构，结合闪电注意力机制，4560 亿参数里真正激活的只有 45.9 B——推理时只叫醒“少数派”专家。

训练环节MiniMax 自研了 CISPO，官方公布的训练账单 53.5 万美元，远低于曾经动辄千万美元起步的大模型训练花费。

再配合“少数派”激活方式，一条 100K token 的长回复推理开销只有 DeepSeek-R1 的四分之一。

MiniMax-M1 的数学能力也是不遑多让，在 AIME 2024 上，MiniMax-M1-80K 得分率高达86%，在公开权重模型里直接冲到第一梯队；

在 LMArena 最新的大模型排行榜-数学分类中也是稳居第一。

MiniMax-M1的上下文能力同样强大到离谱：输入最长 100 万 tokens，输出 8 万 tokens。一次性吞下整部《水浒传》都不会噎住。

MiniMax-M1 的代码生成能力虽然不在第一梯队，但在 LMArena 编程排行中稳居第二梯队，在指令对齐、逻辑清晰度、代码可读性方面表现优异。

适配 Agent 场景、辅助开发任务根本没有压力。

但是多说不如多做，咱们一起实测看看它到底实力如何。

通用场景

提示词：为我规划一周旅游行程，北京出发，目的地新疆，预算在1万元以内，考虑 7 月天气并给交通方案。

交通住宿、景点消费都规划的很不错，各个景点的参观时长也都规划的很好，整个方案对比小某书的攻略来说，真的是有过之而无不及。

数学

提示词：求 n<1000 且可写成 2^a−2^b (a>b≥0)的正整数个数。

这是 2021 AIME 测试中的第 3 题，这题考察枚举、二次判断和快速上界估计，能顺滑做对说明基础代数同样扎实。

网页开发场景

提示词：创建一组九宫格3D卡片组件，可在悬停时卡片翻转，且略微放大。仅使用HTML和CSS（无需JS）。正反面都有内容，且正常显示。翻转过程流畅且逼真。

用纯 HTML+CSS 做翻转动效，乍一看是小把戏，其实在验底层——布局、三维几何、微交互三条链能否一次咬合到位。

MiniMax M1 对提示词的遵循很到位，卡片翻转后略微放大的效果也很好的呈现了。

提示词：创建一个便签墙，用户可以在这里创建、编辑、拖动和删除彩色便签。

一面彩色便签墙看似玩具，却把事件模型、状态持久化、拖拽几何、接口调度统统拉到红区，能顺滑跑完才是真硬功。

MiniMax-M1 的高光并非侥幸，而是 MiniMax 长期策略的集中体现，当然，MiniMax 手里的王牌也不只这一张：

视频生成模型 Hailuo 02，在全球主流榜单上冲到第二。复杂动作、镜头调度、光影写实能力都很能打，真实感逼近电影质感。

音频模型方面，MiniMax 也拿下了多个全球第一。从TTS到语音风格迁移，保真度、节奏感、自然度在业内都属顶级。

更关键的是，MiniMax 走的不是大力出奇迹的老路。他们并不迷信参数，而是把精力花在“推理能力”和“工程稳态”上——用更少的资源，跑得更稳，更准，更快。

MiniMax 没打算单点爆破，而是把语言、视频、音频同时推上公开擂台。

排行榜上是用户在投票，也是市场在投票。一旦能在开放排名里站住，就代表了市场的认可。

中国 AI 起初拼算力、拼资金，如今比的却是生态和落地速度；MiniMax 用开源、长上下文、跨模态三张牌，把自己放进了全球同场竞技的赛场里，也把“中国打法”写进了游戏规则。

接下来，无论资本风向怎么摇摆，只要 MiniMax 能保持这种技术—产品—生态的正向循环，就会一直坐在牌桌上。

原文链接：用大厂预算的零头冲入第一梯队，MiniMax到底有什么实力