![]()
新智元报道
编辑:定慧
【新智元导读】5月5日下午5:55,GPT-5.5要给自己办场party——时间是GPT-5.5自己挑的,客人由Codex从推文回复里挑。这场看起来像段子的活动背后,是一个真实的市场拐点:过去两个月,AI编程工具圈发生了一次明显的用户迁移,开发者开始从Claude Code转向Codex。
5月5日下午5:55,GPT-5.5决定自己给自己举办一个庆祝party。
(也就是北京时间5月6日星期三08:55-11:55)
![]()
这个时间不是Sam Altman定的——是GPT-5.5自己挑的。
![]()
Sam Altman让这个模型自己策划launch celebration,模型给的方案很具体:
5月5日5点55分开场,演讲要短,现场设一个收集GPT-5.6建议的入口。
![]()
据说,当天现场可能要发布GPT-5.6(PolyMarket预测是六月底发布)。
![]()
值得一提的是派对的客人怎么定。
Sam让Codex从推文回复里挑人。
刚刚,已经有用户晒出了派对的邀请邮件。
![]()
Sam还在推文里加了一句:Elon Musk如果想来也可以来,the world needs more love.
![]()
「让Codex挑人」这件事不是表演,是OpenAI内部对自家产品最直接的信任投票。
![]()
而这件事的背景,是过去两个月AI编程工具市场最戏剧的一段窗口期——
开发者社区里发生了一次明显的迁移,从Anthropic的Claude Code,转向OpenAI的Codex。
Sam自己在4月29日发推:feels like codex is having a chatgpt moment.
![]()
如果你是Claude Code的重度用户,是否最近也在考虑,还是已经用上了Codex?
Codex反超是真的吗?
先看几个维度。
Claude Code仍领先的几条线:
-
模型benchmark:SWE-bench Pro Claude Opus 4.7拿到64.3%,GPT-5.5是58.6%;Tom’s Guide的7项实测Claude 7/7全胜
-
dev.to对500名Reddit开发者的盲测:代码质量这一项,Claude Code在12轮中赢了8轮,胜率67%
-
商业收入:Claude Code在2026年2月年化收入突破25亿美元,是历史上最快达到10亿美元的AI编程产品
Codex已反超的几条线:
-
用户偏好:同一份dev.to调研里,倾向Codex的开发者占65.3%,按点赞数加权达79.9%
-
实际用量:开发者用量从2025年9月占Claude Code 5%,涨到2026年1月占40%。4月之后,这条曲线第一次穿过50%
-
周活:Codex在2026年4月8日宣布周活破300万,仍在快速增长
-
token效率:完成同一个Express.js重构任务,Codex用150万token,Claude Code用620万——约4倍
-
session稳定性:Codex三天只用了30%的周配额在r/codex已成常态;同期Claude Code3分钟用掉60%的5小时配额成为r/ClaudeAI的高频抱怨
-
价格策略:Codex始终保留$20 Plus套餐;Claude Code在4月22日尝试踢出$20 Pro被骂回滚
简单说——模型还是Claude强,工具体感是Codex赢。
Sam那句chatgpt moment不是说技术超越,是说Codex这个产品正在完成从专业用户工具到所有人都用的跃迁。
两边的产品定位也确实不一样。
Claude Code走的是手术刀路线——处理复杂代码库、理解大型项目、做高难度重构,深度优先;
Codex走的是瑞士军刀路线——简洁交互、极低门槛、快速出活,广度优先。手术刀的市场天花板,本来就比瑞士军刀低。
顺带说一下,这两周开发者社区疯传的Codex周下载4600万 vs Claude Code 49万、94倍那组数据,Sam Altman本人在转发时明确补了一句:数据来源可能不准确。
真实情况是Codex的npm下载量已经全面碾压Claude Code。
![]()
-
日下载量:Codex 4433 万 vs Claude Code 44 万 = 100 倍
-
周下载量:Codex 1.3 亿 vs Claude Code 770 万 = 17 倍
![]()
上周17倍、月度3倍这两个差距,几乎完全由4/30–5/3这4天的暴涨贡献。
量级判断没错:用户偏好和实际打开率,正在快速向Codex这一边倾斜。
这种倾斜在哪一天开始的?
故事要从一个月前说起。
裂缝
倒推到3月23日。
Reddit r/ClaudeAI上有一条不起眼的帖子。
一位Claude Pro用户写到:I’ve used 60% of my session in 3 minutes.
我3分钟用掉了5小时session的60%配额???
![]()
那天是周末。没人理。
一周后,类似的帖子在r/ClaudeAI和r/codex同步爆开。
一个Pro用户发了句Hello,消耗2%配额。
一个Max 20×用户发出单条prompt,使用率从21%跳到100%。
还有更荒谬的——一次`–resume`操作,单次session生成了652069个output token,用户根本没发任何prompt。
Reddit上一条被点赞388次的留言写得很直白——One complex prompt to Claude and by the end you’ve burned 50-70% of your 5-hour limit.
![]()
一条复杂prompt发完,5小时配额掉了50到70%。
另一位用户写:I used it 8 hours a day… bought two $200/month accounts. Canceled both immediately.
我每天用8小时,买了两个$200的账号,全部立刻取消了。
3月26日,Anthropic工程师Thariq Shihipar在自己的X上承认:高峰时段限流了,影响约7%用户。
非官方口径,反而点燃了更大的愤怒。
3月31日,Anthropic才在Reddit上回应:
people are hitting usage limits in Claude Code way faster than expected. We’re actively investigating… it’s the top priority for the team.
同一天,The Register把这件事推上Hacker News首页。136个赞,115条评论。
4月1日,GitHub用户@marcuspuchalla提交了issue#41930。标题里直接写:no formal communication issued.愚人节这一天,Anthropic仍在沉默。
一个sentinel字符串
社区开始自己挖原因。
Claude Code是用Bun打包的二进制,体积228 MB。一群开发者把它扔进Ghidra反编译,又用MITM抓API流量。两个根因被挖出来。
第一个是Anthropic的自定义Bun fork——每一个API请求,都会对一个内部billing sentinel字符串做替换。这个动作破坏了prompt cache的前缀完整性。Anthropic API的计费规则里,未缓存的token成本是缓存token的10到20倍。
第二个是–resume / –continue标志会让整个对话的缓存失效。
合在一起的效果是——你以为自己只是发了一条prompt,后端把整段历史重新算了一次钱。一个用来追踪计费状态的内部字符串,把整个prompt cache系统给吃掉了。
这件事的荒谬不在bug本身——大型软件总有bug。荒谬在于一群外部开发者用反编译工具,比这家世界级AI公司更早找出根因。
4月8日,Sam Altman在X上发推:Codex周活破300万。
他承诺,每多100万用户就重置一次额度,直到1000万。
同一时间,Anthropic的工程团队还在调那个sentinel字符串。
4月22日的错误尝试
Anthropic这边,硬件和模型本身没出问题。出问题的,是它对自己产品定位的判断。
回到4月22日那场A/B测试。
把Claude Code从$20 Pro踢出去,逻辑是清楚的——Claude Code单用户的真实token成本远超$20,把它绑定到$100/$200的Max套餐,能让收入和成本对齐。商业上完全合理。
![]()
但Anthropic没算到的是,Claude Code的口碑,本来就是「$20就能用上Opus」这一句话撑起来的。
测试上线几小时,Hacker News和Reddit上的怒火达到顶点。Simon Willison当天在博客里写下一句话——
Anthropic inadvertently handed OpenAI a significant marketing advantage.Anthropic无意间,给OpenAI递了一个营销优势。
这句话在那一周被反复转发。
Anthropic几小时之内回滚。但伤害已经发生——Claude Code用户那条$20就能用的基础信任,被它自己亲手撬动了一次。
OpenAI那边的反应快到让人惊讶。
Sam当晚两个字:ok boomer.
![]()
Anthropic的初衷可以理解:Opus 4.7单次推理的token单价是$15 / $75,单用户实际消耗远超$20上限。
增长团队那个测试,本意是给套餐结构降压。
但他们低估了一件事——用户和Claude Code的关系不是产品关系,是信任关系。
$20套餐这一层已经从商品定价变成了社区共识。
撬动它,就是撬动信任本身。
Codex这两个月在干什么
把镜头往回拉。
从2025年4月Codex CLI开源那天算起,OpenAI在Codex上做的事一直在加速。
每一步都不算惊天动地。但叠在一起就是另一回事。
到了4月16日的更新之后,Codex已经不是一个CLI,是一个能控制整台电脑、内置浏览器、记住屏幕活动、和90多个第三方插件互通的AI Super App。
![]()
Greg Brockman在4月18日的推文里说:Codex已经从「代码补全」演进为「完整的Agentic IDE」。
值得一提的是Greg自己的行为——这位OpenAI总裁在2月19日公开表态,他第一次从Emacs加终端的工作方式切换到Codex桌面。
对一个写了二十年Emacs的人来说,这是一种公开站台。
OpenAI这一阶段的产品节奏有种近乎贪婪的均匀感。每一条线都在被同时推进。
在多个为Codex站台的推文下面,Sam都甩过同一句话——much more to come.更多东西还在来。
两位创始人同时、密集地为同一个产品摇旗,在OpenAI的历史上不算常见。
上一次出现类似阵仗,还是ChatGPT刚发布的那阵子。
技术上Codex其实没赢
下面这段可能让一些读者意外。
dev.to对500名Reddit开发者的调研——
-
倾向Codex:65.3%
但盲测代码质量:Claude Code在12轮中赢了8轮,胜率67%。
![]()
token效率上,做同一个Express.js重构,Codex用150万token,Claude Code用620万——4倍。
把这些数字放一起看,故事就清楚了——
Codex反超的不是「代码写得更好」,是「代码写得更便宜,更快,更不被掐断」。
Anthropic在过去六个月反复证明,自己的模型在「正确性」上仍是冠军。
但今天打开终端这一刻,能不能不被掐断地干完一件事这个问题上,Codex用一种近乎笨拙的方式赢了——把价格压住,把额度撑开,把token用法做高效,然后等对手出错。
Hacker News上一位ID叫@d-lo的用户在4月中旬写:
I’ve mostly switched to Codex (GPT-5.4 high) over Claude Code (Opus 4.6) in the last few weeks.
我过去几周已经基本从Claude Code切到Codex了。
另一位@antoineMoPa写得更直接:
Claude has become pretty slow in the last couple of weeks, so I switched to codex.
最近两周Claude变得相当慢,所以我换到了codex。
这两条留言都不是刻意的转向声明,是用户体感的纯粹报告。
4月29日,Sam Altman发了那条推文。
feels like codex is having a chatgpt moment.
ChatGPT moment这个词,OpenAI自己最清楚意味着什么。
2022年11月30日那天的ChatGPT不是技术最强的产品。它只是第一个让所有人都能上手用的产品。
把一个东西从专业用户的工具变成所有人的下意识反射,这条线很难跨。一旦跨过去,市场结构就变了。
这条推文的发布时机也值得一提——4月29日,距离Anthropic那场Pro套餐风波刚好一周。
一周前Anthropic公开认错回滚,一周后OpenAI的CEO用一句chatgpt moment宣告自己产品的临界点。
Greg Brockman也在那一周持续发声。4月26日他写:codex empowers anyone to build.
关键不是造东西,是任何人。
半个月前,任何人这个词还是Claude Code的——凭的就是任何人都能用$20用上Opus。现在,这个标签易主了。
回到5月5日下午5:55
回头看这场即将到来的GPT-5.5的party。
时间是模型自己挑的。客人由Codex挑。Sam邀请Elon Musk。
这场看起来像段子的活动,背后是一个非常具体的产品判断——OpenAI已经把Codex放在自己产品体系的中央位置。连挑客人这种事,都交给它。
当Anthropic还在4月22日的回滚和后续解释里反复磨合,OpenAI已经走到了下一个节奏——让自己的产品给自己办生日。
这就是过去两个月发生的事。不是哪一家技术突然变好,是产品节奏被一方完全定义了。
编码工具的终局不是谁的代码写得更漂亮,是谁能成为开发者日常工作流里那个关不掉的标签页。
这场仗,才刚刚开始。
参考资料:
https://x.com/sama/status/2046808114561974567
https://dev.to/_46ea277e677b888e0cd13/claude-code-vs-codex-2026-what-500-reddit-developers-really-think-31pb
本文来自转载新智元 ,不代表发现AI立场,如若转载,请联系原作者;如有侵权,请联系编辑删除。

