Claude Sonnet 5 测评

短的结论:是这个乱世害了你

基本情况:

一边是 Opus 系列在高频迭代,Mythos/Fable 在命途多舛,Sonnet 更像是被遗忘在水下的模型,平均要 4 个月才会更新一次。当然这也要归咎于 Sonnet 不上不下的定位,Opus 单价高,但实际任务成本没有贵多少,依然是广大程序员的首选。而国产模型崛起后,大量与 Sonnet 能力相当的模型,价格和成本都要更低。

Sonnet 5 尝试挑战一下 Opus 下位平替的地位,性能比上代 Sonnet 4.6 确实有较大提升,当前优惠定价也显得很有诚意。虽然性能离自家大哥 Opus 还有一段距离,但在没有中国开源模型的世界里,Sonnet 5 依然是综合性价比最好的一档。

逻辑成绩:

表格的排序切换为按中位分数降序。

Claude Sonnet 5 测评

*1 表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。

*2 题目及测试方式,参见:大语言模型-逻辑能力横评 26-06 月榜

*3 完整榜单更新在 https://llm2014.github.io/llm_benchmark/

*4 红字模型代表工作在推理模式下(慢思考),黑色模型则是对应的非推理模式(快思考)

由于之前历史原因,Sonnet 4.6 没有测推理模式,导致这次无法直接对比。以下主要介绍 Sonnet 5 自身的优缺点,局部对照 Opus 4.6。

优势

  • 编程:在已经测试的 2 个项目,前端 E 和 F 中,Sonnet 5 表现显著好于前代 Sonnet 4.6,评级是 B 和 B+,基本持平 Opus 4.6 非推理模式,但离 Opus 推理模式还有相当距离,也弱于GLM-5.2,但好于其他国产模型。之前我们采用了 Sonnet 4.6 作为可用线守门员,如今这一标准被拔高。具体来看,Sonnet 5 在比较广泛的领域都有比较好的代码直觉,编码习惯规范,和 Opus 如出一辙。对陌生领域,也会像 Opus 一样前期大量搜索互联网获取最新文档和源码等。主要问题是对已有项目,尤其规模较大的历史代码库探索不够充分,会因为遗留历史细节,导致新功能开发出现各种考虑不周,而 Opus 这类错误则更少。Sonnet 5 在自测部分投入较多,掌握的自测方法也与 Opus 基本相当,Sonnet 会尽可能自测消除绝大部分错误,而不是简单象征性测试就交付。这也导致 Sonnet 5 的项目完成步数显著高于其他模型,比如 F 项目,Sonnet 5 需要730 步,而 Opus 4.8 和 GLM-5.2 都只要 550 余步。步数多带来的显著体感是完成任务很慢。Sonnet 5 即便在非推理状态下,编程直觉也足够可用,延续了 Sonnet 系列一贯优势。
  • 指令遵循:在同梯队模型里,Sonnet 5 的指令遵循能力处于领先地位。在直接指令和复杂指令相关测试中,Sonnet 5 基本可以稳定在满分或高分。非推理状态,相关能力衰减也很小,相同题目下,非推理模式也有小概率拿高分。但波动性更大,最坏情况也会因为搞错原始要求,自行发挥。
  • 多步推理:复杂多步多约束推理类场景,Sonnet 5 表现同样不俗。一些问题表现和 Opus 相当,但 Token 消耗要高60%,十分接近预设的答题 Token 上限。一部分问题 Sonnet 5 离 Opus 差距较大,但仍领先同梯队其他模型,比如 DeepSeek V4,代价同样是 Token 消耗巨大。总体上 Sonnet 5 在这类问题上有基本的思路,但效率并不高。

不足

  • 空间想象:虽然空间能力一般是超大模的优势领域,但一些经过良好训练的国产中小尺寸模型也具备一定的空间能力,而 Sonnet 5 在这方面缺乏关注。不但相关问题得分率极低,在专门测试空间想象力的编程项目中,表现也同样不堪。
  • 文字处理:在涉及需要逐字分析的场景,Sonnet 5 基本没有提升,和近一年前的 Sonnet 4.5 表现相当。可能这方面并不在 Sonnet 的训练路径上,不能过高要求。

赛博史官曰:

Anthropic 原本可以切到以 Mythos/Fable 为旗舰,以 Opus 为下位“平替”的路径来获取更大经营利润,但不可抗力彻底打乱了这个计划。大洋彼岸的邪恶对手们也不打算让 Anthropic 好过,胆敢发布真正的 Opus 平替,十恶不赦。但面临潜在的用户流失,Sonnet 也算是临危受命,罕见地以低姿态进入市场。能挽回多少用户还待观察,只不过 Sonnet 的生存空间切实的被压缩了。

本文来自转载大模型观测员 ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
评测组小编的头像评测组小编
阿里全面禁用Claude:当AI工具变成了”特洛伊木马”
上一篇 1小时前
ZCode被外媒盯上,中国模型公司开始抢AI编程入口
下一篇 1小时前



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论