Claude Sonnet 5 测评

短的结论：是这个乱世害了你

基本情况：

一边是 Opus 系列在高频迭代，Mythos/Fable 在命途多舛，Sonnet 更像是被遗忘在水下的模型，平均要 4 个月才会更新一次。当然这也要归咎于 Sonnet 不上不下的定位，Opus 单价高，但实际任务成本没有贵多少，依然是广大程序员的首选。而国产模型崛起后，大量与 Sonnet 能力相当的模型，价格和成本都要更低。

Sonnet 5 尝试挑战一下 Opus 下位平替的地位，性能比上代 Sonnet 4.6 确实有较大提升，当前优惠定价也显得很有诚意。虽然性能离自家大哥 Opus 还有一段距离，但在没有中国开源模型的世界里，Sonnet 5 依然是综合性价比最好的一档。

逻辑成绩：

表格的排序切换为按中位分数降序。

*1 表格为了突出对比关系，仅展示部分可对照模型，不是完整排序。

*2 题目及测试方式，参见：大语言模型-逻辑能力横评 26-06 月榜

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

*4 红字模型代表工作在推理模式下(慢思考)，黑色模型则是对应的非推理模式(快思考)

由于之前历史原因，Sonnet 4.6 没有测推理模式，导致这次无法直接对比。以下主要介绍 Sonnet 5 自身的优缺点，局部对照 Opus 4.6。

优势：

编程：在已经测试的 2 个项目，前端 E 和 F 中，Sonnet 5 表现显著好于前代 Sonnet 4.6，评级是 B 和 B+，基本持平 Opus 4.6 非推理模式，但离 Opus 推理模式还有相当距离，也弱于GLM-5.2，但好于其他国产模型。之前我们采用了 Sonnet 4.6 作为可用线守门员，如今这一标准被拔高。具体来看，Sonnet 5 在比较广泛的领域都有比较好的代码直觉，编码习惯规范，和 Opus 如出一辙。对陌生领域，也会像 Opus 一样前期大量搜索互联网获取最新文档和源码等。主要问题是对已有项目，尤其规模较大的历史代码库探索不够充分，会因为遗留历史细节，导致新功能开发出现各种考虑不周，而 Opus 这类错误则更少。Sonnet 5 在自测部分投入较多，掌握的自测方法也与 Opus 基本相当，Sonnet 会尽可能自测消除绝大部分错误，而不是简单象征性测试就交付。这也导致 Sonnet 5 的项目完成步数显著高于其他模型，比如 F 项目，Sonnet 5 需要730 步，而 Opus 4.8 和 GLM-5.2 都只要 550 余步。步数多带来的显著体感是完成任务很慢。Sonnet 5 即便在非推理状态下，编程直觉也足够可用，延续了 Sonnet 系列一贯优势。
指令遵循：在同梯队模型里，Sonnet 5 的指令遵循能力处于领先地位。在直接指令和复杂指令相关测试中，Sonnet 5 基本可以稳定在满分或高分。非推理状态，相关能力衰减也很小，相同题目下，非推理模式也有小概率拿高分。但波动性更大，最坏情况也会因为搞错原始要求，自行发挥。
多步推理：复杂多步多约束推理类场景，Sonnet 5 表现同样不俗。一些问题表现和 Opus 相当，但 Token 消耗要高60%，十分接近预设的答题 Token 上限。一部分问题 Sonnet 5 离 Opus 差距较大，但仍领先同梯队其他模型，比如 DeepSeek V4，代价同样是 Token 消耗巨大。总体上 Sonnet 5 在这类问题上有基本的思路，但效率并不高。

不足：

空间想象：虽然空间能力一般是超大模的优势领域，但一些经过良好训练的国产中小尺寸模型也具备一定的空间能力，而 Sonnet 5 在这方面缺乏关注。不但相关问题得分率极低，在专门测试空间想象力的编程项目中，表现也同样不堪。
文字处理：在涉及需要逐字分析的场景，Sonnet 5 基本没有提升，和近一年前的 Sonnet 4.5 表现相当。可能这方面并不在 Sonnet 的训练路径上，不能过高要求。

赛博史官曰：

Anthropic 原本可以切到以 Mythos/Fable 为旗舰，以 Opus 为下位“平替”的路径来获取更大经营利润，但不可抗力彻底打乱了这个计划。大洋彼岸的邪恶对手们也不打算让 Anthropic 好过，胆敢发布真正的 Opus 平替，十恶不赦。但面临潜在的用户流失，Sonnet 也算是临危受命，罕见地以低姿态进入市场。能挽回多少用户还待观察，只不过 Sonnet 的生存空间切实的被压缩了。

本文来自转载大模型观测员，观点仅代表作者本人，发现AI平台仅提供信息存储空间服务。
如若转载，请联系原作者；如有侵权，请联系编辑删除。