Opus 4.8编程能力不如GPT-5.5

哈喽,大家好,我是刘小排。

从凌晨Opus 4.8发布到现在,我一直在真实任务中使用,今天已经累计消耗了超过618美金,8.4亿Token。

Opus 4.8编程能力不如GPT-5.5

我的结论:

  1. Opus 4.8编程能力仍然不如GPT-5.5,但是差距不大
  2. Anthropic已经连续两个版本编程能力不如GPT,别看它现在估值比OpenAI高,三个月内,OpenAI的估值一定会反超回来!

Artificial Analysis是一个相对客观、较难刷分的测评,它在Coding Index (编程能力排行)也给出了和我一样的结论。

真实编程能力,Opus 4.8不如GPT-5.5,甚至不如GPT-5.4。 Opus 4.8编程能力不如GPT-5.5

但Opus 4.8并非一无是处,今天重度实测发现,以下是它胜过GPT-5.5的地方

  1. 1M上下文窗口,只要在1M之内,都不会降智、不会丢信息。我的很多知识库和文档类工作,Opus是我的主力。
  2. Opus 4.8的前端编程能力远超GPT-5.5,无论是审美还是逻辑。我们一句话让Opus 4.8做出来非常不可思议的3D动画,全前端实现,连Gemini 3.5 Flash都做不到的那种。
  3. 超长任务、复杂工作流,表现得比GPT-5.5更稳,尤其是召唤N个Sub Agent的场景。不会目标漂移。
  4. 更容易承认自己不知道,更少瞎编。
  5. 脑洞大,更适合头脑风暴。

因此我的整体结论是: Opus 4.8适合做CEO,GPT-5.5适合做CTO,两个配合起来用才是正解。

明天我打算玩一玩Claude Claude随着Opus 4.8一起发布的dynamic workflow功能,看看是否会有惊喜。

比较奇怪的是,这次Opus 4.8的发布是把Workflow功能当成重点来讲的,号称可以召唤数百个Sub Agent来协同,可是等了一整天,全世界的网友目前真正用起来的都很少。(我是指在实际工作中用起来,不是自媒体博主吹牛逼、用AI把官方文档翻译一遍,就开始教你怎么用那种)

如果你知道什么场景适合玩dynamic workflow,请告诉我,我来实操。

 

本文来自转载刘小排r ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

(0)
资讯组小编的头像资讯组小编
Claude Opus 4.8 测评
上一篇 4小时前
下一篇 2026年4月29日 下午7:20



扫码关注我们,了解最新AI资讯~

相关推荐

发表回复

登录后才能评论