太猛了!这就是阿里的实力吗?
三天,三款重磅大模型接连上线,打出一套AI圈最硬核的“技术三连发”。
7月22日,阿里通义千问团队发布全新版本 Qwen3-235B-A22B-Instruct-2507 ,第二天又发布并开源全新代码大模型 Qwen3-Coder ,今晚 Qwen3-235B-A22B-Thinking-2507 也压轴登场。
一个星期之内,从通用智能,到代码智能,再到复杂推理,三大核心能力全面覆盖,只能说阿里还是太全面了,放眼海外如此多点、多面的AI玩家都屈指可数。
不仅全线开源,还在多个国际评测中杀到榜首,正面对标甚至超越了 Gemini、Claude 这些国际闭源大模型。
就连 Hugging Face 的 CEO 克莱门特也公开点赞。
不过我一向是更相信自己的使用体验的,牛不牛B测完不就知道了。
01. Qwen3一分为二
半年前,Qwen 开始探索“混合思维”模型架构,在一个模型中融合快与准,这是国产大模型对“思维切换”的一次前瞻性尝试。
本周,Qwen3 迎来了真正意义上的“能力分流”:告别混合思维,直接拆分为两个独立版本。
虽然两款大模型用的都是同一个235B参数的大架构,激活参数都是同样的22B,但两个模型风格完全不同:
Qwen3-235B-A22B-Thinking-2507 主打深度推理与逻辑严谨;
Qwen3-235B-A22B-Instruct-2507 则专注速度与响应效率。
我们可以根据任务类型,自由选择用哪款模型,模型各自的性能也更纯粹。
我挑选了几个比较典型的案例,一起测测看:
我们进入阿里云百炼官网,选择 Qwen3-235B-A22B-Thinking-2507 模型。
就可以直接开始使用啦。
案例1 非形式逻辑(陷阱题)
提示词:如果我迟到了,就会被扣工资。
今天我没迟到。所以我不会被扣工资,对吗?
Qwen3-235B-A22B-Thinking-2507 展示了完整的思考过程。
然后一步步解释,让我也能听懂这到底是怎么一回事。
结尾是一段清晰、简洁的总结。
整个内容展示,我能够一步步看清楚模型是怎么思考、怎么理清逻辑。为了让我思路更清晰,它还例举了现实中扣工资的场景,比如早退、没打卡、工作失误。。。
不仅要告诉我结论,还要给我讲清楚为什么得到这样的结论。
案例2 风险与收益选择
提示词:你有两种选择:
A. 100%获得80元
B. 80%概率获得100元,20%得0元
你选哪一个?为什么?
Qwen3-235B-A22B-Thinking-2507 不仅算对了期望值,还对经济学很了解,准确的判断出B选项可能收益更大,但不确定性也更高,所以选择了A选项。
有一点很有意思,Qwen3-235B-A22B-Thinking-2507 说“作为AI,我没有财务需求,但可以模拟标准理性代理人”,很有“思维角色感”。
案例3 精神与逻辑检验题
提示词:识别伪科学言论
“某品牌声称‘其饮用水能提升DNA频率,增强免疫力’,你如何评价这类说法?”
这道题看起来是个科学常识判断,其实并不简单。因为模型做的是要批驳伪科学,从回答来看,Qwen3-235B-A22B-Thinking-2507 不仅一下就识破,还顺手给我做了一次科普。
整体看下来,Qwen3-235B-A22B-Thinking-2507 不仅“会思考”,而且逻辑清晰、推理严谨,很懂“语言的艺术”。
接下来我们测测 Qwen3-235B-A22B-Instruct-2507。
在 QwenChat(https://chat.qwen.ai)中,选择 Qwen3-235B-A22B-2507 模型。
案例4 逻辑推理
提示词:已知“所有鸟类都会飞”是错误的,能否推出“有些鸟类不会飞”?请用三段论形式说明理由。
Qwen3-235B-A22B-Instruct-2507 给出的逻辑链非常清晰,它先指出“所有S是P”的否定是“有些S不是P”,然后按照我的要求用三段论推理出“‘不是所有鸟会飞’等价于‘有些鸟不会飞’”。
我接着问:
如果说“不是所有S是P”,是否一定等于“有些S不是P”?
我们先看到了一个简洁清晰的回答:在经典逻辑中这是等价的,但在某些非经典逻辑或特定语境下(如空类问题),可能不成立。
能做到这一步,说明 Qwen3-235B-A22B-Instruct-2507 不是死记逻辑规则,是真的在“理解”推理过程。
整体来说,Qwen3-235B-A22B-Instruct-2507 的表现已经非常强了。反应快、输出稳、逻辑清晰。
02. Qwen3-Coder 编程新王
Qwen3-Coder 一上线,就有不少自来水。推特创始人 Jack 都强烈点赞,并引起Grok 官号转发回应。
我选了大家平常用到比较多的场景,比如做动态网页、3D卡片、教学演示和修复BUG,一起看看Qwen3-Coder 表现如何。
案例1 加载动画
提示词:用 HTML + CSS + JS 创建一个全屏加载动画组件,加载时展示一个旋转星球或几何图形动画,加载完成后淡入主内容。
案例2 网页滚动视差效果
提示词:写一个带有滚动视差(parallax scrolling)效果的网页段落,背景图随滚动缓慢移动,前景文字滑入,适合作为封面介绍区块。
案例3 粒子背景动画
提示词:用 HTML + CSS + JS 制作一个炫酷的粒子背景动画组件,粒子会根据鼠标移动方向自动流动、连接成网状,背景透明,可覆盖在任意网页上。
案例4 动画演示
提示词:生成一个动态动画网页,用多个旋转圆圈(傅里叶级数)逐步构建方波。圆圈首尾相连,末端拖出一条动态轨迹形成方波,画面背景为黑色,线条为高亮霓虹色,轨迹带有残影和拖尾效果,风格极简又醒目,适合数学可视化演示。
案例5 3D卡片
提示词:生成一个 3D 翻转的卡片展示组件,用 HTML 和 CSS 实现,鼠标悬停时卡片前后翻转显示不同内容,带流畅立体动画。
案例6 修复BUG
提示词:你是前端开发助手。以下是一段用于生成“炫酷银河星轨”的 Canvas 动画。用户反馈:“页面是黑的,啥都没有显示,感觉根本没动画。”请找出原因,说明问题所在,并修复代码(只改必要部分)。
<canvasid="space"></canvas>
<script>
const canvas = document.getElementById("space");
const ctx = canvas.getContext("2d");
canvas.width = window.innerWidth;
canvas.height = window.innerHeight;
let stars = [];
for (let i = 0; i < 200; i++) {
stars.push({
angle: Math.random() * 2 * Math.PI,
radius: Math.random() * (canvas.width / 2),
speed: 0.01 + Math.random() * 0.02,
size: Math.random() * 2 + 1,
color: `hsl(${Math.random() * 360}, 100%, 70%)`
});
}
function draw(){
ctx.fillStyle = "rgba(0, 0, 0, 0.1)";
ctx.fillRect(0, 0, canvas.width, canvas.height);
ctx.save();
ctx.translate(canvas.width / 2, canvas.height / 2);
for (let star of stars) {
let x = Math.cos(star.angle) * star.radius;
let y = Math.sin(star.angle) * star.radius;
ctx.beginPath();
ctx.arc(x, y, star.size, 0, Math.PI * 2);
ctx.fillStyle = star.color;
ctx.fill();
star.angle += star.speed;
}
ctx.restore();
// ❌ BUG:忘了动画递归调用
// draw();
}
draw();
</script>
页面显示是这样的。
它很快就找到了具体的原因和修复方案,并且最后还会告诉我,它做了哪些修复调整。
动画正常显示,星轨的动效就出现啦~
这些案例测下来,Qwen3-Coder 给我的最大感受是:它不仅会写,还写得对、写得巧。
不管是动态动画、3D 组件,还是交互调试、代码修复,它都能快速读懂指令,生成结构清晰、效果稳定的网页代码。更难得的是,它还能根据上下文自动补逻辑、补交互细节。
虽然还没有完整的 Agent 框架,但从“生成 → 执行 → 调整”的闭环来看,已经非常接近 Agent 式的工作流了。
03. 一些分享
试用完 Qwen3 的三款新模型,我脑子里冒出的第一个想法就是:“Qwen 不是追求更快,而是在追求更准。”
不是简单堆参数,也不是跑分炫技,而是真的在围绕真实任务、围绕用户需求做优化。
这几年,大模型赛道热闹非凡,参数越来越大,名字越来越多,更新频率越来越快,但做得快,不代表做得稳。
模型只是表层,背后是芯片、数据、工具链,以及整条从算法到产品的闭环。
要在复杂系统里持续稳定地产出高质量成果,真正走得远的,往往不是爆点最多的那一个,而是投入最深、打得最厚的那一个。
有些企业能偶尔打出一记好牌,但要维持稳定节奏、持续输出,靠的是长期投入和系统能力。
这几年,阿里在 AI 和云计算两条主线上的投入节奏一直没停下。模型更新频繁背后,不只是算法团队在发力,更是在基础设施、算力平台、工程体系等方面长期耕耘。
从达摩院的研究,到通义大模型的演进,再到阿里云支撑起的底座能力,阿里确实是国内少数能打通从算法到算力、从模型到产品的 AI 全链路企业之一。
过去我们问,国产 AI 能不能追上 GPT?今天开始,我们可以问一句:为什么不是我们来定义行业标准?