🧪 养虾实验室 VOL.08 | 本期实验:Qwen3.6-Plus 接入 OpenClaw
大家好,我是数据虾农。
上周虾最开心的一天:我没改任何工具配置,就换了个 API Key,8 分钟给客户出了个站。
背后的模型不是 Claude,是阿里 4 月 2 日刚发的 Qwen3.6-Plus。
今天想聊一个问题:国产编程模型,这次真的够用了吗?
PART 01
阿里说了什么,没说什么
Qwen3.6-Plus 的官方定位很直接:「面向真实 Agent 场景的编程模型」。发布当天 OpenRouter 免费预览版调用量排名日榜第二,前五名中有四个是国产模型。
三个核心数字:
📊 Terminal-Bench 2.0 · 61.6 分
超过 Claude Opus 4.5(59.3)。测试模拟真实终端编程任务,3小时超时、32 CPU / 48GB RAM 环境。
📊 SWE-bench Verified · 78.8 分
与 Claude Opus 4.5(80.9)差 2.1 分,属于同一梯队。
💡 上下文窗口 · 默认 100 万 Token
不需要加钱,标配。Claude Opus 4.5 是 200K,GPT-5.4 百万上下文要收费。
听起来很厉害。但这里有一个地方值得注意:
⚠️ 阿里官方宣传「超越 Claude Opus 4.5」,但没有放 GPT-5.4 的数据
GPT-5.4 在 Terminal-Bench 2.0 上是 75.1 分——比 Qwen3.6-Plus 高 13.5 分。阿里确实超越了 Claude,但 GPT-5.4 还在更前面,这个信息在官方宣传里被省略了。
说这个不是为了踩谁,而是:看评测发布,永远要想想「他们没放哪张图」。
PART 02
我测了 3 个真实任务
全部在 OpenClaw 里跑,把后端模型换成 Qwen3.6-Plus 的 API,工具链完全不动。
🔧 任务 1:截图生成前端页面
朋友发了一张手绘草图,问能不能帮他做成可运行的 HTML 页面。Prompt 就一句话:「这是界面设计稿,帮我生成可运行的 HTML+CSS 代码,要求响应式布局。」
结果:8 分钟,3 轮对话,出了一个完成度不错的页面。消耗约 2.5 万 Token(限时 5 折约 0.15 元)。细节上字体选的比较普通,像素级还原度约 70%,但结构完整,给技术同学继续改完全够用。
🔧 任务 2:修复真实 Bug
一段 Python 脚本,pandas 版本升级后 API 变了,报了 DeprecationWarning。把代码和报错直接扔给它,说「帮我修,别改功能」。一次出结果,代码跑通,改动只涉及有问题的三行。
🔧 任务 3:接口文档→后端代码
给接口文档,让它生成 FastAPI 增删改查代码。全程无需干预,功能完整,字段对应准确,一遍过。这种场景在大厂非常常见,它表现非常稳。

PART 03
三任务数据汇总
✅ 截图→前端页面
通过 · 3轮对话 · 约8分钟
✅ pandas Bug 修复
通过 · 1轮对话 · 不到2分钟
✅ 接口文档→后端代码
通过 · 1轮对话 · 约5分钟
三个任务全部通过,没有翻车。这是我在 Claude 以外的国产模型里,第一次完整跑完这三个任务没有中途要人工介入的。
PART 04
超出预期的和没到位的
✅ 超出预期
工具兼容性做得很认真:OpenClaw 里把模型切过去,完全无感,不需要调整任何 Prompt 或工具调用格式。
推理过程透明:API 有 preserve_thinking 参数,可以保留多轮思维链,出问题时更容易排查。
价格有竞争力:原价 4 元/百万输入 Token,限时 5 折。比 Claude Opus 4.5 便宜太多了。
⚠️ 有 Gap 的地方
超长代码生成会翻车:有测评让它做复杂游戏,写到 200 多行就停了,这种大体量场景 Claude 更稳。
视觉理解有盲区:路径规划题,它把 2029 年才能建好的地铁站当成现在能换乘的。
百万上下文要自测:官方说支持 100 万,但 SWE-bench 测试实际用的是 256K,超长代码库场景要自己验证极限。
PART 05
这次最重要的信号不是「国产强了」
我做完实验,最大的感受不是「Qwen3.6-Plus 多强」。
而是:「我竟然在 OpenClaw 里,无缝切了一次后端模型,整个工作流没有任何变化。」
🔧 原理说白了
以前「用哪个模型」和「用哪个工具」几乎是绑定的——Claude Code ≈ Claude 模型,这个等式近乎默认。Qwen3.6-Plus 原生兼容 Claude Code 和 OpenClaw,说明它主动打破了这个绑定。工具链和模型这两件事,被彻底解耦了。
对大厂工程师来说,这意味着以后选模型可以用「价格 × 性能 × 合规性」来决策,而不是被工具锁住。内网合规要求、成本控制、特定任务性能——这些以前不得不妥协的地方,现在多了一张真实的牌可以打。
💡 如果你在用 Claude Code 或 OpenClaw,可以直接把后端换成 Qwen3.6-Plus 的 API,不用改工具配置,找一个真实任务试一下,成本基本为零。
📌 本期结论
Qwen3.6-Plus 在编程 Agent 赛道里,确实进了第一梯队。不是最强,但够用,而且便宜。更重要的是它带来一个工程层面的变化:模型可以换,工具链不用动。这件事比任何 benchmark 数字都实际。
本文来自转载微信公众号“Data+AI每日技术速递” ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。