5月5日5点55分,GPT-5.5自己选客人开派对!Codex反超Claude Code

  新智元报道

  编辑:定慧

  5 月 5 日下午5:55,GPT-5.5 要给自己办场 party——时间是 GPT-5.5 自己挑的,客人由 Codex 从推文回复里挑。这场看起来像段子的活动背后,是一个真实的市场拐点:过去两个月,AI 编程工具圈发生了一次明显的用户迁移,开发者开始从 Claude Code 转向 Codex。

  5 月 5 日下午5:55,GPT-5. 5 决定自己给自己举办一个庆祝 party。

  (也就是北京时间 5 月 6 日星期三 08:55-11:55)

  这个时间不是 Sam Altman 定的——是 GPT-5.5 自己挑的。

  Sam Altman 让这个模型自己策划 launch celebration,模型给的方案很具体:

  5 月 5 日 5 点 55 分开场,演讲要短,现场设一个收集 GPT-5.6 建议的入口。

  据说,当天现场可能要发布 GPT-5.6(PolyMarket 预测是六月底发布)。

  值得一提的是派对的客人怎么定。

  Sam 让Codex 从推文回复里挑人。

  刚刚,已经有用户晒出了派对的邀请邮件。

  Sam 还在推文里加了一句:Elon Musk 如果想来也可以来,the world needs more love.

  「让 Codex 挑人」这件事不是表演,是 OpenAI 内部对自家产品最直接的信任投票。

  而这件事的背景,是过去两个月 AI 编程工具市场最戏剧的一段窗口期——

  开发者社区里发生了一次明显的迁移,从 Anthropic 的 Claude Code,转向 OpenAI 的 Codex。

  Sam 自己在 4 月 29 日发推:feels like codex is having a chatgpt moment.

  如果你是 Claude Code 的重度用户,是否最近也在考虑,还是已经用上了 Codex?

  Codex 反超是真的吗?

  先看几个维度。

  Claude Code 仍领先的几条线:

  • 模型 benchmark:SWE-bench Pro Claude Opus 4.7 拿到 64.3%,GPT-5.5 是 58.6%;Tom's Guide 的 7 项实测 Claude 7/7 全胜

  • dev.to 对 500 名 Reddit 开发者的盲测:代码质量这一项,Claude Code 在 12 轮中赢了 8 轮,胜率 67%

  • 商业收入:Claude Code 在 2026 年 2 月年化收入突破 25 亿美元,是历史上最快达到 10 亿美元的 AI 编程产品

  Codex 已反超的几条线:

  • 用户偏好:同一份 dev.to 调研里,倾向 Codex 的开发者占 65.3%,按点赞数加权达 79.9%

  • 实际用量:开发者用量从 2025 年 9 月占 Claude Code 5%,涨到 2026 年 1 月占 40%。4 月之后,这条曲线第一次穿过 50%

  • 周活:Codex 在 2026 年 4 月 8 日宣布周活破 300 万,仍在快速增长

  • token 效率:完成同一个 Express.js 重构任务,Codex 用 150 万 token,Claude Code 用 620 万——约 4 倍

  • session 稳定性:Codex 三天只用了 30% 的周配额在r/codex 已成常态;同期 Claude Code3 分钟用掉 60% 的 5 小时配额成为r/ClaudeAI 的高频抱怨

  • 价格策略:Codex 始终保留$20 Plus 套餐;Claude Code 在 4 月 22 日尝试踢出$20 Pro 被骂回滚

  简单说——模型还是 Claude 强,工具体感是 Codex 赢

  Sam 那句 chatgpt moment 不是说技术超越,是说 Codex 这个产品正在完成从专业用户工具到所有人都用的跃迁。

  两边的产品定位也确实不一样。

  Claude Code 走的是手术刀路线——处理复杂代码库、理解大型项目、做高难度重构,深度优先;

  Codex 走的是瑞士军刀路线——简洁交互、极低门槛、快速出活,广度优先。手术刀的市场天花板,本来就比瑞士军刀低。

  顺带说一下,这两周开发者社区疯传的 Codex 周下载 4600 万 vs Claude Code 49 万、94 倍那组数据,Sam Altman 本人在转发时明确补了一句:数据来源可能不准确。

  真实情况是 Codex 的 npm 下载量已经全面碾压 Claude Code。

  • 日下载量:Codex 4433 万 vs Claude Code 44 万 = 100 倍

  • 周下载量:Codex 1.3 亿 vs Claude Code 770 万 = 17 倍

  上周 17 倍、月度 3 倍这两个差距,几乎完全由4/30–5/3 这 4 天的暴涨贡献。

  量级判断没错:用户偏好和实际打开率,正在快速向 Codex 这一边倾斜。

  这种倾斜在哪一天开始的?

  故事要从一个月前说起。

  裂缝

  倒推到 3 月 23 日。

  Reddit r/ClaudeAI 上有一条不起眼的帖子。

  一位 Claude Pro 用户写到:I've used 60% of my session in 3 minutes.

  我 3 分钟用掉了 5 小时 session 的 60% 配额???

  那天是周末。没人理。

  一周后,类似的帖子在r/ClaudeAI 和r/codex 同步爆开。

  一个 Pro 用户发了句 Hello,消耗2% 配额。

  一个 Max 20×用户发出单条 prompt,使用率从 21% 跳到 100%。

  还有更荒谬的——一次`--resume`操作,单次 session 生成了652069 个 output token,用户根本没发任何 prompt。

  Reddit 上一条被点赞 388 次的留言写得很直白——One complex prompt to Claude and by the end you've burned 50-70% of your 5-hour limit.

  一条复杂 prompt 发完,5 小时配额掉了 50 到 70%。

  另一位用户写:I used it 8 hours a day... bought two $200/month accounts. Canceled both immediately.

  我每天用 8 小时,买了两个$200 的账号,全部立刻取消了。

  3 月 26 日,Anthropic 工程师 Thariq Shihipar 在自己的X上承认:高峰时段限流了,影响约7% 用户。

  非官方口径,反而点燃了更大的愤怒。

  3 月 31 日,Anthropic 才在 Reddit 上回应:

  people are hitting usage limits in Claude Code way faster than expected. We're actively investigating... it's the top priority for the team.

  同一天,The Register 把这件事推上 Hacker News 首页。136 个赞,115 条评论。

  4 月 1 日,GitHub 用户@marcuspuchalla 提交了 issue#41930。标题里直接写:no formal communication issued. 愚人节这一天,Anthropic 仍在沉默。

  一个 sentinel 字符串

  社区开始自己挖原因。

  Claude Code 是用 Bun 打包的二进制,体积 228 MB。一群开发者把它扔进 Ghidra 反编译,又用 MITM 抓 API 流量。两个根因被挖出来。

  第一个是 Anthropic 的自定义 Bun fork——每一个 API 请求,都会对一个内部 billing sentinel 字符串做替换。这个动作破坏了 prompt cache 的前缀完整性。Anthropic API 的计费规则里,未缓存的 token 成本是缓存 token 的10 到 20 倍

  第二个是--resume / --continue 标志会让整个对话的缓存失效。

  合在一起的效果是——你以为自己只是发了一条 prompt,后端把整段历史重新算了一次钱。一个用来追踪计费状态的内部字符串,把整个 prompt cache 系统给吃掉了。

  这件事的荒谬不在 bug 本身——大型软件总有 bug。荒谬在于一群外部开发者用反编译工具,比这家世界级 AI 公司更早找出根因。

  4 月 8 日,Sam Altman 在X上发推:Codex 周活破 300 万。

  他承诺,每多 100 万用户就重置一次额度,直到 1000 万。

  同一时间,Anthropic 的工程团队还在调那个 sentinel 字符串。

  4 月 22 日的错误尝试

  Anthropic 这边,硬件和模型本身没出问题。出问题的,是它对自己产品定位的判断。

  回到 4 月 22 日那场A/B测试。

  把 Claude Code 从$20 Pro 踢出去,逻辑是清楚的——Claude Code 单用户的真实 token 成本远超$20,把它绑定到$100/$200 的 Max 套餐,能让收入和成本对齐。商业上完全合理。

  但 Anthropic 没算到的是,Claude Code 的口碑,本来就是「$20 就能用上 Opus」这一句话撑起来的

  测试上线几小时,Hacker News 和 Reddit 上的怒火达到顶点。Simon Willison 当天在博客里写下一句话——

  Anthropic inadvertently handed OpenAI a significant marketing advantage.Anthropic 无意间,给 OpenAI 递了一个营销优势。

  这句话在那一周被反复转发。

  Anthropic 几小时之内回滚。但伤害已经发生——Claude Code 用户那条$20 就能用的基础信任,被它自己亲手撬动了一次。

  OpenAI 那边的反应快到让人惊讶。

  Sam 当晚两个字:ok boomer.

  Anthropic 的初衷可以理解:Opus 4.7 单次推理的 token 单价是$15 / $75,单用户实际消耗远超$20 上限。

  增长团队那个测试,本意是给套餐结构降压。

  但他们低估了一件事——用户和 Claude Code 的关系不是产品关系,是信任关系

  $20 套餐这一层已经从商品定价变成了社区共识。

  撬动它,就是撬动信任本身。

  Codex 这两个月在干什么

  把镜头往回拉。

  从 2025 年 4 月 Codex CLI 开源那天算起,OpenAI 在 Codex 上做的事一直在加速。

  每一步都不算惊天动地。但叠在一起就是另一回事。

  到了 4 月 16 日的更新之后,Codex 已经不是一个 CLI,是一个能控制整台电脑、内置浏览器、记住屏幕活动、和 90 多个第三方插件互通的 AI Super App。

  Greg Brockman 在 4 月 18 日的推文里说:Codex 已经从「代码补全」演进为「完整的 Agentic IDE」。

  值得一提的是 Greg 自己的行为——这位 OpenAI 总裁在 2 月 19 日公开表态,他第一次从 Emacs 加终端的工作方式切换到 Codex 桌面。

  对一个写了二十年 Emacs 的人来说,这是一种公开站台。

  OpenAI 这一阶段的产品节奏有种近乎贪婪的均匀感。每一条线都在被同时推进。

  在多个为 Codex 站台的推文下面,Sam 都甩过同一句话——much more to come. 更多东西还在来。

  两位创始人同时、密集地为同一个产品摇旗,在 OpenAI 的历史上不算常见。

  上一次出现类似阵仗,还是 ChatGPT 刚发布的那阵子。

  技术上 Codex 其实没赢

  下面这段可能让一些读者意外。

  dev.to 对 500 名 Reddit 开发者的调研——

  • 倾向 Codex:65.3%

  但盲测代码质量:Claude Code 在 12 轮中赢了 8 轮,胜率 67%。

  token 效率上,做同一个 Express.js 重构,Codex 用 150 万 token,Claude Code 用 620 万——4 倍

  把这些数字放一起看,故事就清楚了——

  Codex 反超的不是「代码写得更好」,是「代码写得更便宜,更快,更不被掐断」

  Anthropic 在过去六个月反复证明,自己的模型在「正确性」上仍是冠军。

  但今天打开终端这一刻,能不能不被掐断地干完一件事这个问题上,Codex 用一种近乎笨拙的方式赢了——把价格压住,把额度撑开,把 token 用法做高效,然后等对手出错。

  Hacker News 上一位 ID 叫@d-lo 的用户在 4 月中旬写:

  I've mostly switched to Codex (GPT-5.4 high) over Claude Code (Opus 4.6) in the last few weeks.

  我过去几周已经基本从 Claude Code 切到 Codex 了。

  另一位@antoineMoPa 写得更直接:

  Claude has become pretty slow in the last couple of weeks, so I switched to codex.

  最近两周 Claude 变得相当慢,所以我换到了 codex。

  这两条留言都不是刻意的转向声明,是用户体感的纯粹报告。

  4 月 29 日,Sam Altman 发了那条推文。

  feels like codex is having a chatgpt moment.

  ChatGPT moment 这个词,OpenAI 自己最清楚意味着什么。

  2022 年 11 月 30 日那天的 ChatGPT 不是技术最强的产品。它只是第一个让所有人都能上手用的产品。

  把一个东西从专业用户的工具变成所有人的下意识反射,这条线很难跨。一旦跨过去,市场结构就变了。

  这条推文的发布时机也值得一提——4 月 29 日,距离 Anthropic 那场 Pro 套餐风波刚好一周。

  一周前 Anthropic 公开认错回滚,一周后 OpenAI 的 CEO 用一句 chatgpt moment 宣告自己产品的临界点。

  Greg Brockman 也在那一周持续发声。4 月 26 日他写:codex empowers anyone to build.

  关键不是造东西,是任何人。

  半个月前,任何人这个词还是 Claude Code 的——凭的就是任何人都能用$20 用上 Opus。现在,这个标签易主了。

  回到 5 月 5 日下午5:55

  回头看这场即将到来的 GPT-5.5 的 party。

  时间是模型自己挑的。客人由 Codex 挑。Sam 邀请 Elon Musk。

  这场看起来像段子的活动,背后是一个非常具体的产品判断——OpenAI 已经把 Codex 放在自己产品体系的中央位置。连挑客人这种事,都交给它。

  当 Anthropic 还在 4 月 22 日的回滚和后续解释里反复磨合,OpenAI 已经走到了下一个节奏——让自己的产品给自己办生日。

  这就是过去两个月发生的事。不是哪一家技术突然变好,是产品节奏被一方完全定义了。

  编码工具的终局不是谁的代码写得更漂亮,是谁能成为开发者日常工作流里那个关不掉的标签页。

  这场仗,才刚刚开始。

  参考资料:

  https://x.com/sama/status/2046808114561974567

  https://dev.to/_46ea277e677b888e0cd13/claude-code-vs-codex-2026-what-500-reddit-developers-really-think-31pb