Qwen3.6-Plus实测,8分钟建了个网站

🧪 养虾实验室 VOL.08 | 本期实验:Qwen3.6-Plus 接入 OpenClaw


大家好,我是数据虾农。

上周虾最开心的一天:我没改任何工具配置,就换了个 API Key,8 分钟给客户出了个站。

背后的模型不是 Claude,是阿里 4 月 2 日刚发的 Qwen3.6-Plus

今天想聊一个问题:国产编程模型,这次真的够用了吗?


PART 01

阿里说了什么,没说什么


Qwen3.6-Plus 的官方定位很直接:「面向真实 Agent 场景的编程模型」。发布当天 OpenRouter 免费预览版调用量排名日榜第二,前五名中有四个是国产模型。

三个核心数字:

📊 Terminal-Bench 2.0 · 61.6 分

超过 Claude Opus 4.5(59.3)。测试模拟真实终端编程任务,3小时超时、32 CPU / 48GB RAM 环境。

📊 SWE-bench Verified · 78.8 分

与 Claude Opus 4.5(80.9)差 2.1 分,属于同一梯队。

💡 上下文窗口 · 默认 100 万 Token

不需要加钱,标配。Claude Opus 4.5 是 200K,GPT-5.4 百万上下文要收费。

听起来很厉害。但这里有一个地方值得注意:

⚠️ 阿里官方宣传「超越 Claude Opus 4.5」,但没有放 GPT-5.4 的数据

GPT-5.4 在 Terminal-Bench 2.0 上是 75.1 分——比 Qwen3.6-Plus 高 13.5 分。阿里确实超越了 Claude,但 GPT-5.4 还在更前面,这个信息在官方宣传里被省略了。

说这个不是为了踩谁,而是:看评测发布,永远要想想「他们没放哪张图」。


PART 02

我测了 3 个真实任务


全部在 OpenClaw 里跑,把后端模型换成 Qwen3.6-Plus 的 API,工具链完全不动。

🔧 任务 1:截图生成前端页面

朋友发了一张手绘草图,问能不能帮他做成可运行的 HTML 页面。Prompt 就一句话:「这是界面设计稿,帮我生成可运行的 HTML+CSS 代码,要求响应式布局。」

结果:8 分钟,3 轮对话,出了一个完成度不错的页面。消耗约 2.5 万 Token(限时 5 折约 0.15 元)。细节上字体选的比较普通,像素级还原度约 70%,但结构完整,给技术同学继续改完全够用。

🔧 任务 2:修复真实 Bug

一段 Python 脚本,pandas 版本升级后 API 变了,报了 DeprecationWarning。把代码和报错直接扔给它,说「帮我修,别改功能」。一次出结果,代码跑通,改动只涉及有问题的三行。

🔧 任务 3:接口文档→后端代码

给接口文档,让它生成 FastAPI 增删改查代码。全程无需干预,功能完整,字段对应准确,一遍过。这种场景在大厂非常常见,它表现非常稳。

Qwen3.6-Plus实测,8分钟建了个网站


PART 03

三任务数据汇总


✅ 截图→前端页面

通过 · 3轮对话 · 约8分钟

✅ pandas Bug 修复

通过 · 1轮对话 · 不到2分钟

✅ 接口文档→后端代码

通过 · 1轮对话 · 约5分钟

三个任务全部通过,没有翻车。这是我在 Claude 以外的国产模型里,第一次完整跑完这三个任务没有中途要人工介入的。


PART 04

超出预期的和没到位的


✅ 超出预期

工具兼容性做得很认真:OpenClaw 里把模型切过去,完全无感,不需要调整任何 Prompt 或工具调用格式。

推理过程透明:API 有 preserve_thinking 参数,可以保留多轮思维链,出问题时更容易排查。

价格有竞争力:原价 4 元/百万输入 Token,限时 5 折。比 Claude Opus 4.5 便宜太多了。

⚠️ 有 Gap 的地方

超长代码生成会翻车:有测评让它做复杂游戏,写到 200 多行就停了,这种大体量场景 Claude 更稳。

视觉理解有盲区:路径规划题,它把 2029 年才能建好的地铁站当成现在能换乘的。

百万上下文要自测:官方说支持 100 万,但 SWE-bench 测试实际用的是 256K,超长代码库场景要自己验证极限。


PART 05

这次最重要的信号不是「国产强了」


我做完实验,最大的感受不是「Qwen3.6-Plus 多强」。

而是:「我竟然在 OpenClaw 里,无缝切了一次后端模型,整个工作流没有任何变化。」

🔧 原理说白了

以前「用哪个模型」和「用哪个工具」几乎是绑定的——Claude Code ≈ Claude 模型,这个等式近乎默认。Qwen3.6-Plus 原生兼容 Claude Code 和 OpenClaw,说明它主动打破了这个绑定。工具链和模型这两件事,被彻底解耦了。

对大厂工程师来说,这意味着以后选模型可以用「价格 × 性能 × 合规性」来决策,而不是被工具锁住。内网合规要求、成本控制、特定任务性能——这些以前不得不妥协的地方,现在多了一张真实的牌可以打。

💡 如果你在用 Claude Code 或 OpenClaw,可以直接把后端换成 Qwen3.6-Plus 的 API,不用改工具配置,找一个真实任务试一下,成本基本为零。


📌 本期结论

Qwen3.6-Plus 在编程 Agent 赛道里,确实进了第一梯队。不是最强,但够用,而且便宜。更重要的是它带来一个工程层面的变化:模型可以换,工具链不用动。这件事比任何 benchmark 数字都实际。

本文来自转载微信公众号“Data+AI每日技术速递” ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
保姆级教程:Gemma 4本地部署+接入微信,零成本养虾
上一篇 2小时前
Claude Code的十个高级技巧
下一篇 2小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注