哈喽,大家好,我是刘小排。
从凌晨Opus 4.8发布到现在,我一直在真实任务中使用,今天已经累计消耗了超过618美金,8.4亿Token。

我的结论:
- Opus 4.8编程能力仍然不如GPT-5.5,但是差距不大
- Anthropic已经连续两个版本编程能力不如GPT,别看它现在估值比OpenAI高,三个月内,OpenAI的估值一定会反超回来!
Artificial Analysis是一个相对客观、较难刷分的测评,它在Coding Index (编程能力排行)也给出了和我一样的结论。
真实编程能力,Opus 4.8不如GPT-5.5,甚至不如GPT-5.4。 
但Opus 4.8并非一无是处,今天重度实测发现,以下是它胜过GPT-5.5的地方
- 1M上下文窗口,只要在1M之内,都不会降智、不会丢信息。我的很多知识库和文档类工作,Opus是我的主力。
- Opus 4.8的前端编程能力远超GPT-5.5,无论是审美还是逻辑。我们一句话让Opus 4.8做出来非常不可思议的3D动画,全前端实现,连Gemini 3.5 Flash都做不到的那种。
- 超长任务、复杂工作流,表现得比GPT-5.5更稳,尤其是召唤N个Sub Agent的场景。不会目标漂移。
- 更容易承认自己不知道,更少瞎编。
- 脑洞大,更适合头脑风暴。
因此我的整体结论是: Opus 4.8适合做CEO,GPT-5.5适合做CTO,两个配合起来用才是正解。
明天我打算玩一玩Claude Claude随着Opus 4.8一起发布的dynamic workflow功能,看看是否会有惊喜。
比较奇怪的是,这次Opus 4.8的发布是把Workflow功能当成重点来讲的,号称可以召唤数百个Sub Agent来协同,可是等了一整天,全世界的网友目前真正用起来的都很少。(我是指在实际工作中用起来,不是自媒体博主吹牛逼、用AI把官方文档翻译一遍,就开始教你怎么用那种)
如果你知道什么场景适合玩dynamic workflow,请告诉我,我来实操。
本文来自转载刘小排r ,观点仅代表作者本人,发现AI平台仅提供信息存储空间服务。
如若转载,请联系原作者;如有侵权,请联系编辑删除。

微信扫一扫

