太猛了！这就是阿里的实力吗？

三天，三款重磅大模型接连上线，打出一套AI圈最硬核的“技术三连发”。

7月22日，阿里通义千问团队发布全新版本 Qwen3-235B-A22B-Instruct-2507 ，第二天又发布并开源全新代码大模型 Qwen3-Coder ，今晚 Qwen3-235B-A22B-Thinking-2507 也压轴登场。

一个星期之内，从通用智能，到代码智能，再到复杂推理，三大核心能力全面覆盖，只能说阿里还是太全面了，放眼海外如此多点、多面的AI玩家都屈指可数。

不仅全线开源，还在多个国际评测中杀到榜首，正面对标甚至超越了 Gemini、Claude 这些国际闭源大模型。

就连 Hugging Face 的 CEO 克莱门特也公开点赞。

不过我一向是更相信自己的使用体验的，牛不牛B测完不就知道了。

01. Qwen3一分为二

半年前，Qwen 开始探索“混合思维”模型架构，在一个模型中融合快与准，这是国产大模型对“思维切换”的一次前瞻性尝试。

本周，Qwen3 迎来了真正意义上的“能力分流”：告别混合思维，直接拆分为两个独立版本。

虽然两款大模型用的都是同一个235B参数的大架构，激活参数都是同样的22B，但两个模型风格完全不同：

Qwen3-235B-A22B-Thinking-2507 主打深度推理与逻辑严谨；

Qwen3-235B-A22B-Instruct-2507 则专注速度与响应效率。

我们可以根据任务类型，自由选择用哪款模型，模型各自的性能也更纯粹。

我挑选了几个比较典型的案例，一起测测看：

我们进入阿里云百炼官网，选择 Qwen3-235B-A22B-Thinking-2507 模型。

就可以直接开始使用啦。

案例1 非形式逻辑（陷阱题）

提示词：如果我迟到了，就会被扣工资。

今天我没迟到。所以我不会被扣工资，对吗？

Qwen3-235B-A22B-Thinking-2507 展示了完整的思考过程。

然后一步步解释，让我也能听懂这到底是怎么一回事。

结尾是一段清晰、简洁的总结。

整个内容展示，我能够一步步看清楚模型是怎么思考、怎么理清逻辑。为了让我思路更清晰，它还例举了现实中扣工资的场景，比如早退、没打卡、工作失误。。。

不仅要告诉我结论，还要给我讲清楚为什么得到这样的结论。

案例2 风险与收益选择

提示词：你有两种选择：

A. 100%获得80元

B. 80%概率获得100元，20%得0元

你选哪一个？为什么？

Qwen3-235B-A22B-Thinking-2507 不仅算对了期望值，还对经济学很了解，准确的判断出B选项可能收益更大，但不确定性也更高，所以选择了A选项。

有一点很有意思，Qwen3-235B-A22B-Thinking-2507 说“作为AI，我没有财务需求，但可以模拟标准理性代理人”，很有“思维角色感”。

案例3 精神与逻辑检验题

提示词：识别伪科学言论

“某品牌声称‘其饮用水能提升DNA频率，增强免疫力’，你如何评价这类说法？”

这道题看起来是个科学常识判断，其实并不简单。因为模型做的是要批驳伪科学，从回答来看，Qwen3-235B-A22B-Thinking-2507 不仅一下就识破，还顺手给我做了一次科普。

整体看下来，Qwen3-235B-A22B-Thinking-2507 不仅“会思考”，而且逻辑清晰、推理严谨，很懂“语言的艺术”。

接下来我们测测 Qwen3-235B-A22B-Instruct-2507。

在 QwenChat（https://chat.qwen.ai）中，选择 Qwen3-235B-A22B-2507 模型。

案例4 逻辑推理

提示词：已知“所有鸟类都会飞”是错误的，能否推出“有些鸟类不会飞”？请用三段论形式说明理由。

Qwen3-235B-A22B-Instruct-2507 给出的逻辑链非常清晰，它先指出“所有S是P”的否定是“有些S不是P”，然后按照我的要求用三段论推理出“‘不是所有鸟会飞’等价于‘有些鸟不会飞’”。

我接着问：

如果说“不是所有S是P”，是否一定等于“有些S不是P”？

我们先看到了一个简洁清晰的回答：在经典逻辑中这是等价的，但在某些非经典逻辑或特定语境下（如空类问题），可能不成立。

能做到这一步，说明 Qwen3-235B-A22B-Instruct-2507 不是死记逻辑规则，是真的在“理解”推理过程。

整体来说，Qwen3-235B-A22B-Instruct-2507 的表现已经非常强了。反应快、输出稳、逻辑清晰。

02. Qwen3-Coder 编程新王

Qwen3-Coder 一上线，就有不少自来水。推特创始人 Jack 都强烈点赞，并引起Grok 官号转发回应。

我选了大家平常用到比较多的场景，比如做动态网页、3D卡片、教学演示和修复BUG，一起看看Qwen3-Coder 表现如何。

案例1 加载动画

提示词：用 HTML + CSS + JS 创建一个全屏加载动画组件，加载时展示一个旋转星球或几何图形动画，加载完成后淡入主内容。

案例2 网页滚动视差效果

提示词：写一个带有滚动视差（parallax scrolling）效果的网页段落，背景图随滚动缓慢移动，前景文字滑入，适合作为封面介绍区块。

案例3 粒子背景动画

提示词：用 HTML + CSS + JS 制作一个炫酷的粒子背景动画组件，粒子会根据鼠标移动方向自动流动、连接成网状，背景透明，可覆盖在任意网页上。

案例4 动画演示

提示词：生成一个动态动画网页，用多个旋转圆圈（傅里叶级数）逐步构建方波。圆圈首尾相连，末端拖出一条动态轨迹形成方波，画面背景为黑色，线条为高亮霓虹色，轨迹带有残影和拖尾效果，风格极简又醒目，适合数学可视化演示。

案例5 3D卡片

提示词：生成一个 3D 翻转的卡片展示组件，用 HTML 和 CSS 实现，鼠标悬停时卡片前后翻转显示不同内容，带流畅立体动画。

案例6 修复BUG

提示词：你是前端开发助手。以下是一段用于生成“炫酷银河星轨”的 Canvas 动画。用户反馈：“页面是黑的，啥都没有显示，感觉根本没动画。”请找出原因，说明问题所在，并修复代码（只改必要部分）。

<canvasid="space"></canvas><script>const canvas = document.getElementById("space");const ctx = canvas.getContext("2d");canvas.width = window.innerWidth;canvas.height = window.innerHeight;let stars = [];for (let i = 0; i < 200; i++) { stars.push({angle: Math.random() * 2 * Math.PI,radius: Math.random() * (canvas.width / 2),speed: 0.01 + Math.random() * 0.02,size: Math.random() * 2 + 1,color: `hsl(${Math.random() * 360}, 100%, 70%)` });}function draw(){ ctx.fillStyle = "rgba(0, 0, 0, 0.1)"; ctx.fillRect(0, 0, canvas.width, canvas.height); ctx.save(); ctx.translate(canvas.width / 2, canvas.height / 2);for (let star of stars) {let x = Math.cos(star.angle) * star.radius;let y = Math.sin(star.angle) * star.radius; ctx.beginPath(); ctx.arc(x, y, star.size, 0, Math.PI * 2); ctx.fillStyle = star.color; ctx.fill(); star.angle += star.speed; } ctx.restore();// ❌ BUG：忘了动画递归调用// draw();}draw();</script>

页面显示是这样的。

它很快就找到了具体的原因和修复方案，并且最后还会告诉我，它做了哪些修复调整。

动画正常显示，星轨的动效就出现啦~

这些案例测下来，Qwen3-Coder 给我的最大感受是：它不仅会写，还写得对、写得巧。

不管是动态动画、3D 组件，还是交互调试、代码修复，它都能快速读懂指令，生成结构清晰、效果稳定的网页代码。更难得的是，它还能根据上下文自动补逻辑、补交互细节。

虽然还没有完整的 Agent 框架，但从“生成 → 执行 → 调整”的闭环来看，已经非常接近 Agent 式的工作流了。

03. 一些分享

试用完 Qwen3 的三款新模型，我脑子里冒出的第一个想法就是：“Qwen 不是追求更快，而是在追求更准。”

不是简单堆参数，也不是跑分炫技，而是真的在围绕真实任务、围绕用户需求做优化。

这几年，大模型赛道热闹非凡，参数越来越大，名字越来越多，更新频率越来越快，但做得快，不代表做得稳。

模型只是表层，背后是芯片、数据、工具链，以及整条从算法到产品的闭环。

要在复杂系统里持续稳定地产出高质量成果，真正走得远的，往往不是爆点最多的那一个，而是投入最深、打得最厚的那一个。

有些企业能偶尔打出一记好牌，但要维持稳定节奏、持续输出，靠的是长期投入和系统能力。

这几年，阿里在 AI 和云计算两条主线上的投入节奏一直没停下。模型更新频繁背后，不只是算法团队在发力，更是在基础设施、算力平台、工程体系等方面长期耕耘。

从达摩院的研究，到通义大模型的演进，再到阿里云支撑起的底座能力，阿里确实是国内少数能打通从算法到算力、从模型到产品的 AI 全链路企业之一。

过去我们问，国产 AI 能不能追上 GPT？今天开始，我们可以问一句：为什么不是我们来定义行业标准？

原文链接：阿里刚刚发布最强推理模型Qwen3-2507，全面进化比肩Gemini 2.5 Pro

阿里发布最强推理模型Qwen3-2507，比肩Gemini 2.5 Pro