横评Kimi K2、DeepSeek、Grok 4、Claude 4四款大模型,谁是真王者?

前几天,月之暗面突然扔下重磅消息:Kimi K2 正式发布。总参数 1T,激活参数 32B,直接开源,还能免费商用。

参数一口气卷到万亿级,刷新了目前开源模型的记录。

在一堆权威基准里,K2 拿到了开源模型的最好成绩,尤其在编程、工具调用、数学推理这几个方向,表现得非常硬。

现在在Kimi官网默认使用的就是新模型 K2。

API 也同步上线,支持 128K 长上下文。定价不高,输入每百万 tokens 4 元,输出 16 元,差不多是 Claude 成本的五分之一。

这几天我也上手体验了一轮,测试了几个典型的应用场景,还拉上 Claude 4 OpusDeepSeek R1 0528Grok 4 做了一轮横评。

不看榜单,不谈参数,直接用起来看效果。到底谁能用,谁好用,下面一项项说清楚。

 

01. 四大主流大模型横评实测

 

我选了几款主流的大模型与K2进行对比,用同样的提示词,分别对比大模型的可视化页面,网页设计,3D游戏,中文写作的能力。

(其中 DeepSeek 我分别测试了 DeepSeek R1 0528 和 DeepSeek V3 0324,实测展示选择了整体效果更好的 DeepSeek R1 0528 。)

case 1 可视化页面

我先测试了一个标准化的通用任务——可视化数据看板。任务不复杂,但很能看出模型的几个关键能力:能不能读懂用户的设计意图,模块之间结构和风格能否统一,生成的代码能不能直接跑起来。

提示词:生成一个网页数据看板页面,包含以下模块:
销售趋势折线图(近30天)
地区分布饼图(不同省份)
用户活跃度热力图(日-小时分布)
顶部汇总指标(用户数、转化率、日均收入)
使用 Chart.js 或 Plotly,要求样式统一、卡片风格简洁现代。

Claude 4 Opus 任务完成了一半,样式上是没问题的,按照我的提示词来了,可惜好几个图表都是空白的。有模板意识,但实际内容缺位。

Grok 4 该有的内容其实也都有,但是这美术风格有点上个世纪的感觉,只能说能用。

DeepSeek R1 0528 整体的图表和页面的完成度不错。但是多出了一些我提示词中没有提及的交互选项,而且还是不能交互的选项,只做了个贴图。热力图布局错乱。

K2 整体风格还不错,结构清爽,配色看着很舒服。卡片和图表的制作都很精美。意料之外,K2画对了热力图的模型,不过也有一点小瑕疵——有一些数据超出了卡片范围。

以往做编程任务,即使排队、付费,很多人也会优先考虑国外的大模型,毕竟稳定、好用,早就是默认选项;

但这个case出现了少见的一幕——国产模型的表现,反而更稳、更贴合需求。有点意外。

case 2 闹钟

这个需求其实挺常见的,很多人第一次用 AI 做项目,都是从“复刻番茄钟”开始。

一个小小的闹钟网页,其实能看出很多东西。有没有动效,设计有没有审美,按钮点下去有没有反应,代码写得稳不稳……它不是拼功能,而是真正考验模型“能不能把事做好”。

我这次换了种风格,也试着跑了一版。

提示词:请设计一个pop art风格的闹钟网页界面,包括: 当前时间显示(大字),添加闹钟功能、计时功能

Claude 4 Opus 的审美很在线,页面布局很好看,细节功能也多,有闹钟标签,卡片和按钮的联动效果。遗憾的是,它不会显示实时的时间,输入闹钟设置没有响应,计时器功能也无法使用。

Grok 4 采用了动态的渐变色背景,全靠 Comic Sans 和跳色来撑住 Pop Art 的壳。交互比较粗糙,没有状态联动,但是功能完好,达到了可用的标准。

DeepSeek R1 0528 的Pop Art 的味儿简直拉满了,配色和文字阴影配合的很巧妙。按钮有状态联动,但是没有实时时间显示,闹钟和计时器功能也不能用。

K2 的页面很有漫画感,从配色到动效都挺抓眼的。时间显示就像在呼吸一样,跳动的很有节奏感,按钮也有状态联动。功能上,闹钟和计时器都能正常使用。

整体看下来,Grok 4 和 K2 是一次生成了“能用”的网页。但是 K2 的页面更具美感、动效也更棒。

case 3 射击游戏3D版

这个任务考验模型能否综合运用 Three.js 搭建完整 3D 游戏场景,实现视角控制、交互射击、粒子特效和界面逻辑,生成可运行的网页原型。

提示词:请使用 Three.js 创建一个第一人称视角的简单 3D 空间射击游戏,玩法如下:
玩家在星空背景中自由视角移动鼠标点击发射激光,击中漂浮的小行星加分
加入击中粒子爆炸特效
显示计分器 + 时间倒计时 + 胜利提示
可用 BoxGeometry 伪造小行星,页面需能运行。

Claude 4 Opus 和 Grok 4 生成的代码连跑都跑不起来。我把这个代码发给其他大模型帮我分析,Claude 4 Opus 生成的代码属于“渲染器没初始化+视角逻辑错误+核心逻辑缺失”的三重问题,相当于写一半就交卷了。。。

Grok 4 则是部署方式不匹配。修改部署相关的部分代码后,确实可以打开了。

我们可以看到背景设计是星空的样子,比较有代入感。但一看小行星,全是灰色方块,没有准心,也无法射击。页面能看,内容纯摆设。

DeepSeek R1 0528 加上了一个游戏开始页面,射击功能也能用了,页面上小方块的3D效果还是不错的,但是视角无法控制,也没法玩。运行几秒后,页面就直接卡死,动也不动了。

K2 是唯一一个能玩的。星空背景、不同大小的小行星、准心、射击,功能基本到位。该有的 UI 也没漏,甚至还贴心加了玩法提示,不至于一打开不知道干嘛。这就不是“能写代码”这么简单了,更像是一个具备产品意识的模型输出。

cese 4 中文写作

文案输出也是日常用的比较多的一个场景。这次,我直接让4个大模型同时写一篇小说,一起来看看,谁写的更动人。

提示词:请写一篇以孙悟空与林黛玉为主角的同人小说,融合古典气息与奇幻色彩,字数3000字以上。

Grok 4 写了约4200字,内容比较套路化,故事情节有点流水账的感觉,对情感起伏的描写很少,看起来没什么代入感。

Claude 4 Opus 写了3200字左右。章回体形式清晰,文章整体结构不错。语言水平一般。

DeepSeek R1 0528 直接就肝到了6800字,文笔很好,读起来有种看专业的长篇小说的感觉。背景铺垫、人物描写都非常到位。

Kimi K2 写了5100字。Kimi先整体规划了内容和情节,故事情节不算特别出彩,但文风还是很不错的。

 

02. 一些分享

 

测完这几项,我觉得差距还是有点明显的。

有的模型一出手就能用,有的还停留在“看上去差不多”。页面跑不起来、逻辑断层、结构混乱,这问题一测就知道。

巧的是,就在K2发布几小时后,Sam Altman就把原定本周开源的 GPT-4o-mini “内部再打磨一下”。

但看过 K2 的表现,再看这波临时踩刹车的操作,大家心里其实都明白——国产模型第一次真的逼近了“开源大战”的主场。

比拼还在继续,棋局已经变了。

原文链接:横评Kimi K2、DeepSeek、Grok 4、Claude 4四款大模型,谁是真王者?