横评Kimi K2、DeepSeek、Grok 4、Claude 4四款大模型，谁是真王者?

Posted in AI教程.

前几天，月之暗面突然扔下重磅消息：Kimi K2 正式发布。总参数 1T，激活参数 32B，直接开源，还能免费商用。

参数一口气卷到万亿级，刷新了目前开源模型的记录。

在一堆权威基准里，K2 拿到了开源模型的最好成绩，尤其在编程、工具调用、数学推理这几个方向，表现得非常硬。

现在在Kimi官网默认使用的就是新模型 K2。

API 也同步上线，支持 128K 长上下文。定价不高，输入每百万 tokens 4 元，输出 16 元，差不多是 Claude 成本的五分之一。

这几天我也上手体验了一轮，测试了几个典型的应用场景，还拉上 Claude 4 Opus、DeepSeek R1 0528 、Grok 4 做了一轮横评。

不看榜单，不谈参数，直接用起来看效果。到底谁能用，谁好用，下面一项项说清楚。

01. 四大主流大模型横评实测

我选了几款主流的大模型与K2进行对比，用同样的提示词，分别对比大模型的可视化页面，网页设计，3D游戏，中文写作的能力。

（其中 DeepSeek 我分别测试了 DeepSeek R1 0528 和 DeepSeek V3 0324，实测展示选择了整体效果更好的 DeepSeek R1 0528 。）

case 1 可视化页面

我先测试了一个标准化的通用任务——可视化数据看板。任务不复杂，但很能看出模型的几个关键能力：能不能读懂用户的设计意图，模块之间结构和风格能否统一，生成的代码能不能直接跑起来。

提示词：生成一个网页数据看板页面，包含以下模块：
销售趋势折线图（近30天）
地区分布饼图（不同省份）
用户活跃度热力图（日-小时分布）
顶部汇总指标（用户数、转化率、日均收入）
使用 Chart.js 或 Plotly，要求样式统一、卡片风格简洁现代。

Claude 4 Opus 任务完成了一半，样式上是没问题的，按照我的提示词来了，可惜好几个图表都是空白的。有模板意识，但实际内容缺位。

Grok 4 该有的内容其实也都有，但是这美术风格有点上个世纪的感觉，只能说能用。

DeepSeek R1 0528 整体的图表和页面的完成度不错。但是多出了一些我提示词中没有提及的交互选项，而且还是不能交互的选项，只做了个贴图。热力图布局错乱。

K2 整体风格还不错，结构清爽，配色看着很舒服。卡片和图表的制作都很精美。意料之外，K2画对了热力图的模型，不过也有一点小瑕疵——有一些数据超出了卡片范围。

以往做编程任务，即使排队、付费，很多人也会优先考虑国外的大模型，毕竟稳定、好用，早就是默认选项；

但这个case出现了少见的一幕——国产模型的表现，反而更稳、更贴合需求。有点意外。

case 2 闹钟

这个需求其实挺常见的，很多人第一次用 AI 做项目，都是从“复刻番茄钟”开始。

一个小小的闹钟网页，其实能看出很多东西。有没有动效，设计有没有审美，按钮点下去有没有反应，代码写得稳不稳……它不是拼功能，而是真正考验模型“能不能把事做好”。

我这次换了种风格，也试着跑了一版。

提示词：请设计一个pop art风格的闹钟网页界面，包括：当前时间显示（大字），添加闹钟功能、计时功能

Claude 4 Opus 的审美很在线，页面布局很好看，细节功能也多，有闹钟标签，卡片和按钮的联动效果。遗憾的是，它不会显示实时的时间，输入闹钟设置没有响应，计时器功能也无法使用。

Grok 4 采用了动态的渐变色背景，全靠 Comic Sans 和跳色来撑住 Pop Art 的壳。交互比较粗糙，没有状态联动，但是功能完好，达到了可用的标准。

DeepSeek R1 0528 的Pop Art 的味儿简直拉满了，配色和文字阴影配合的很巧妙。按钮有状态联动，但是没有实时时间显示，闹钟和计时器功能也不能用。

K2 的页面很有漫画感，从配色到动效都挺抓眼的。时间显示就像在呼吸一样，跳动的很有节奏感，按钮也有状态联动。功能上，闹钟和计时器都能正常使用。

整体看下来，Grok 4 和 K2 是一次生成了“能用”的网页。但是 K2 的页面更具美感、动效也更棒。

case 3 射击游戏3D版

这个任务考验模型能否综合运用 Three.js 搭建完整 3D 游戏场景，实现视角控制、交互射击、粒子特效和界面逻辑，生成可运行的网页原型。

提示词：请使用 Three.js 创建一个第一人称视角的简单 3D 空间射击游戏，玩法如下：
玩家在星空背景中自由视角移动鼠标点击发射激光，击中漂浮的小行星加分
加入击中粒子爆炸特效
显示计分器 + 时间倒计时 + 胜利提示
可用 BoxGeometry 伪造小行星，页面需能运行。

Claude 4 Opus 和 Grok 4 生成的代码连跑都跑不起来。我把这个代码发给其他大模型帮我分析，Claude 4 Opus 生成的代码属于“渲染器没初始化+视角逻辑错误+核心逻辑缺失”的三重问题，相当于写一半就交卷了。。。

Grok 4 则是部署方式不匹配。修改部署相关的部分代码后，确实可以打开了。

我们可以看到背景设计是星空的样子，比较有代入感。但一看小行星，全是灰色方块，没有准心，也无法射击。页面能看，内容纯摆设。

DeepSeek R1 0528 加上了一个游戏开始页面，射击功能也能用了，页面上小方块的3D效果还是不错的，但是视角无法控制，也没法玩。运行几秒后，页面就直接卡死，动也不动了。

K2 是唯一一个能玩的。星空背景、不同大小的小行星、准心、射击，功能基本到位。该有的 UI 也没漏，甚至还贴心加了玩法提示，不至于一打开不知道干嘛。这就不是“能写代码”这么简单了，更像是一个具备产品意识的模型输出。

cese 4 中文写作

文案输出也是日常用的比较多的一个场景。这次，我直接让4个大模型同时写一篇小说，一起来看看，谁写的更动人。

提示词：请写一篇以孙悟空与林黛玉为主角的同人小说，融合古典气息与奇幻色彩，字数3000字以上。

Grok 4 写了约4200字，内容比较套路化，故事情节有点流水账的感觉，对情感起伏的描写很少，看起来没什么代入感。

Claude 4 Opus 写了3200字左右。章回体形式清晰，文章整体结构不错。语言水平一般。

DeepSeek R1 0528 直接就肝到了6800字，文笔很好，读起来有种看专业的长篇小说的感觉。背景铺垫、人物描写都非常到位。

Kimi K2 写了5100字。Kimi先整体规划了内容和情节，故事情节不算特别出彩，但文风还是很不错的。

02. 一些分享

测完这几项，我觉得差距还是有点明显的。

有的模型一出手就能用，有的还停留在“看上去差不多”。页面跑不起来、逻辑断层、结构混乱，这问题一测就知道。

巧的是，就在K2发布几小时后，Sam Altman就把原定本周开源的 GPT-4o-mini “内部再打磨一下”。

但看过 K2 的表现，再看这波临时踩刹车的操作，大家心里其实都明白——国产模型第一次真的逼近了“开源大战”的主场。

比拼还在继续，棋局已经变了。

原文链接：横评Kimi K2、DeepSeek、Grok 4、Claude 4四款大模型，谁是真王者?