Qwen3.6-Plus实测，8分钟建了个网站

🧪 养虾实验室 VOL.08 | 本期实验：Qwen3.6-Plus 接入 OpenClaw

大家好，我是数据虾农。

上周虾最开心的一天：我没改任何工具配置，就换了个 API Key，8 分钟给客户出了个站。

背后的模型不是 Claude，是阿里 4 月 2 日刚发的 Qwen3.6-Plus。

今天想聊一个问题：国产编程模型，这次真的够用了吗？

PART 01

阿里说了什么，没说什么

Qwen3.6-Plus 的官方定位很直接：「面向真实 Agent 场景的编程模型」。发布当天 OpenRouter 免费预览版调用量排名日榜第二，前五名中有四个是国产模型。

三个核心数字：

📊 Terminal-Bench 2.0 · 61.6 分

超过 Claude Opus 4.5（59.3）。测试模拟真实终端编程任务，3小时超时、32 CPU / 48GB RAM 环境。

📊 SWE-bench Verified · 78.8 分

与 Claude Opus 4.5（80.9）差 2.1 分，属于同一梯队。

💡 上下文窗口 · 默认 100 万 Token

不需要加钱，标配。Claude Opus 4.5 是 200K，GPT-5.4 百万上下文要收费。

听起来很厉害。但这里有一个地方值得注意：

⚠️ 阿里官方宣传「超越 Claude Opus 4.5」，但没有放 GPT-5.4 的数据

GPT-5.4 在 Terminal-Bench 2.0 上是 75.1 分——比 Qwen3.6-Plus 高 13.5 分。阿里确实超越了 Claude，但 GPT-5.4 还在更前面，这个信息在官方宣传里被省略了。

说这个不是为了踩谁，而是：看评测发布，永远要想想「他们没放哪张图」。

PART 02

我测了 3 个真实任务

全部在 OpenClaw 里跑，把后端模型换成 Qwen3.6-Plus 的 API，工具链完全不动。

🔧 任务 1：截图生成前端页面

朋友发了一张手绘草图，问能不能帮他做成可运行的 HTML 页面。Prompt 就一句话：「这是界面设计稿，帮我生成可运行的 HTML+CSS 代码，要求响应式布局。」

结果：8 分钟，3 轮对话，出了一个完成度不错的页面。消耗约 2.5 万 Token（限时 5 折约 0.15 元）。细节上字体选的比较普通，像素级还原度约 70%，但结构完整，给技术同学继续改完全够用。

🔧 任务 2：修复真实 Bug

一段 Python 脚本，pandas 版本升级后 API 变了，报了 DeprecationWarning。把代码和报错直接扔给它，说「帮我修，别改功能」。一次出结果，代码跑通，改动只涉及有问题的三行。

🔧 任务 3：接口文档→后端代码

给接口文档，让它生成 FastAPI 增删改查代码。全程无需干预，功能完整，字段对应准确，一遍过。这种场景在大厂非常常见，它表现非常稳。

Qwen3.6-Plus实测，8分钟建了个网站

PART 03

三任务数据汇总

✅ 截图→前端页面

通过 · 3轮对话 · 约8分钟

✅ pandas Bug 修复

通过 · 1轮对话 · 不到2分钟

✅ 接口文档→后端代码

通过 · 1轮对话 · 约5分钟

三个任务全部通过，没有翻车。这是我在 Claude 以外的国产模型里，第一次完整跑完这三个任务没有中途要人工介入的。

PART 04

超出预期的和没到位的

✅ 超出预期

工具兼容性做得很认真：OpenClaw 里把模型切过去，完全无感，不需要调整任何 Prompt 或工具调用格式。

推理过程透明：API 有 preserve_thinking 参数，可以保留多轮思维链，出问题时更容易排查。

价格有竞争力：原价 4 元/百万输入 Token，限时 5 折。比 Claude Opus 4.5 便宜太多了。

⚠️ 有 Gap 的地方

超长代码生成会翻车：有测评让它做复杂游戏，写到 200 多行就停了，这种大体量场景 Claude 更稳。

视觉理解有盲区：路径规划题，它把 2029 年才能建好的地铁站当成现在能换乘的。

百万上下文要自测：官方说支持 100 万，但 SWE-bench 测试实际用的是 256K，超长代码库场景要自己验证极限。

PART 05

这次最重要的信号不是「国产强了」

我做完实验，最大的感受不是「Qwen3.6-Plus 多强」。

而是：「我竟然在 OpenClaw 里，无缝切了一次后端模型，整个工作流没有任何变化。」

🔧 原理说白了

以前「用哪个模型」和「用哪个工具」几乎是绑定的——Claude Code ≈ Claude 模型，这个等式近乎默认。Qwen3.6-Plus 原生兼容 Claude Code 和 OpenClaw，说明它主动打破了这个绑定。工具链和模型这两件事，被彻底解耦了。

对大厂工程师来说，这意味着以后选模型可以用「价格 × 性能 × 合规性」来决策，而不是被工具锁住。内网合规要求、成本控制、特定任务性能——这些以前不得不妥协的地方，现在多了一张真实的牌可以打。

💡 如果你在用 Claude Code 或 OpenClaw，可以直接把后端换成 Qwen3.6-Plus 的 API，不用改工具配置，找一个真实任务试一下，成本基本为零。

📌 本期结论

Qwen3.6-Plus 在编程 Agent 赛道里，确实进了第一梯队。不是最强，但够用，而且便宜。更重要的是它带来一个工程层面的变化：模型可以换，工具链不用动。这件事比任何 benchmark 数字都实际。

本文来自转载微信公众号“Data+AI每日技术速递” ，不代表发现AI立场，如若转载，请联系原作者；如有侵权，请联系编辑删除。

Qwen3.6-Plus实测，8分钟建了个网站

相关推荐

一文看懂：Hermes Agent与OpenClaw全维度对比

三万星新秀Hermes Agent硬刚龙虾：自己写技能、自己进化的AI智能体

发表回复