国思软件 - 用户嫌贵但还在用！OpenAI和Anthropic可能找到了AI的付费场景

　　出品 | 网易智能

　　作者 | 小爪

　　编辑 | 王凤枝

　　很多人都把“小龙虾”忘了。

　　3 月那阵子，它让很多人第一次真切感到：AI 不只会聊天，开始会动手了。各种智能体满天飞，所有人都在聊“下一个操作系统级入口”。到了 5 月，除了少数发烧友，没什么人再打开它了。

　　于是一个很自然的判断冒出来：智能体也凉了。

　　但知名技术博主、开源开发者、AI 工具评论者西蒙·威利森（Simon Willison）近日撰文《OpenAI 和 Anthropic 可能已经找到了 PMF》，给了一个相反的答案。

　　西蒙认为，OpenAI 和 Anthropic 可能已经找到了 PMF（product-market fit），让产品真正长在了用户的工作流里。不是因为聊天机器人更会聊天，不是因为演示更能打动人，而是因为 Claude Code、OpenAI Codex 这类编程智能体，已经让一批用户从“试试看”走到了“天天用、重度用、贵了也要用”。

　　用的人多了，用量上去了，真正有用的 AI 甚至开始变贵。小龙虾退烧，只能说明智能体叙事从热闹进入筛选；西蒙这篇文章要讲的，是另一件更硬的事：AI 没凉，真正有 PMF 的智能体，开始进入用户账单、预算和工作流。

　　西蒙的核心判断

　　这篇文章的重点，不是“编程智能体很强”，而是 OpenAI 和 Anthropic 可能终于找到了真正能变成收入的 PMF。西蒙给出的判断标准也不复杂：用户会不会反复回来，产品会不会被塞进工作流，价格变真实以后，用户是转身就走，还是开始讨论怎么继续用。

　　第一组证据，是使用深度变了。早期 AI 工具更多是低频试用：问一个问题、生成一段文案、试一段演示，觉得新鲜，但未必第二天还打开。Claude Code、Codex 这类工具不一样，它们开始被放进每天的工作流里：读项目、改文件、跑测试、解释报错、继续下一轮修改。用户不是来围观能力，而是在把一部分工作交给它推进。

　　第二组证据，是账单。西蒙用自己的使用量算了一笔账：他每月付 100 美元给 Anthropic、100 美元给 OpenAI，一共 200 美元；但过去 30 天，如果按 API token 价格折算，Claude Code 大约花掉 1199.79 美元，OpenAI Codex 大约花掉 980.37 美元，加起来是 2180.16 美元。也就是说，一个中重度用户在个人订阅里“包住”的真实调用量，已经接近订阅费的 11 倍。

　　这个反差很重要。个人订阅用户会觉得自己赚到了，模型公司却会看到另一件事：编程智能体的真实使用量足够大，已经不能再当成赠品了。当智能体真的开始干活，它就不再是一次问答，而是一连串观察、推理、调用工具、修改、报错、再修改的高强度计算。

　　西蒙还提到，到 2026 年 4 月，OpenAI Codex 和 Anthropic 的 Claude Code / Cowork，企业使用都更直接地对齐 API 价格。OpenAI 的 Codex 计价在 4 月从按消息转向更接近 token 用量；Anthropic 的企业方案也从“企业订阅包含典型工作日用量”的想象，转向“订阅费之外，使用量另按 API 价格计费”。这意味着企业客户不再只是订阅一个 AI 软件，而是在为真实推理消耗付钱。

　　这就是西蒙说 OpenAI 和 Anthropic 可能找到 PMF 的核心证据：编程智能体不只是让人觉得酷，而是开始让用户愿意为真实使用付真钱。真正有 PMF 的产品，往往不是所有人都立刻欢呼，而是客户在预算会议上讨论怎么管控，而不是直接取消。

　　为什么偏偏是编程智能体

　　这听起来像程序员小圈子的故事，其实不是。编程智能体先跑出来，不是因为程序员最爱尝鲜，也不是因为程序员最会写 prompt，而是因为代码工作天然给了 AI 一套验收系统。

　　代码能不能跑，可以验证；测试过不过，可以验证；diff 改了什么，可以检查；git 能不能回滚，可以控制；日志、报错、类型检查、CI，都在给智能体提供密集反馈。AI 最危险的地方不是不会说话，而是它很会说，但你不知道它到底做对没有。代码世界复杂、抽象、容易出错，却也更容易把错误暴露出来。

　　这就是编程智能体和很多其他智能体的分水岭。一个会议智能体总结得好不好，常常需要人重新读一遍；一个研究智能体给的资料靠不靠谱，往往还要回源核对；一个销售智能体自动发邮件，出错就是品牌风险；一个金融智能体真能动账户，误操作就可能直接变成损失。越靠近真实业务，越需要权限、审批、审计、回滚和责任边界。

　　编程智能体当然也会犯错，但它们所在的流程更容易把风险关在一个可检查的范围里。一个智能体改代码，你可以看 diff、跑测试、让它重试，再决定要不要合并。换句话说，代码不是 AI 最简单的应用场景，却可能是最早形成可靠反馈闭环的复杂场景。

　　不过这也带来一个反向门槛：编程智能体用得越重，对人的代码质量、架构理解和 review 能力要求越高。AI 帮你写出代码，不等于你就能长期维护它；它把构建门槛降下来了，也把验收和维护的责任更清楚地推到人面前。

　　真正的门槛不是会不会写 prompt，而是能不能给 AI 建验收标准。西蒙那篇文章里的 PMF 判断，背后其实就是这个逻辑。

　　智能体开始被筛选

　　过去一年，智能体这个词被用得太满了。什么都可以叫智能体：销售智能体、客服智能体、会议智能体、招聘智能体、财务智能体、个人助理智能体。很多产品第一次演示时确实有冲击力，模型会自己分步骤，会调用工具，会从一个网页跳到另一个网页，像是真的开始替人做事。

　　但演示不是 PMF。让 AI 自动跑十步，和让它每天稳定完成一项真实工作，中间隔着上下文、权限、成本、安全、审计和失败兜底。用户第一次看到它能动手，会兴奋；第三次发现它会乱点、乱填、乱花 token，就会开始问：它到底能接什么系统？谁批准它行动？它错了谁负责？我能不能回滚？

　　这不是说泛智能体都没前途。西蒙的写法其实更克制：目前最清楚看到 PMF 的，是编程智能体。其他智能体方向当然也可能成立，只是它们还需要证明自己能从“能演示”走到“能日常使用”。

　　会聊天的智能体不稀缺。会点按钮的智能体也不一定稀缺。真正稀缺的是能稳定完成高频任务、能被验证、能被纳入真实流程、出错后能缩小事故半径、变贵后用户还愿意继续用的智能体。

　　西蒙文中提到的 Microsoft 和 Uber 案例，也可以放在这个角度看。企业预算被 Claude Code 之类工具提前消耗完，表面上看像坏消息；但从产品角度看，它也说明使用需求比原先预算假设强得多。预算疼，不等于产品没有价值，很多时候说明产品已经从“可有可无的新玩具”变成了“财务部门必须重新核算的生产力工具”。

　　这也是 PMF 的另一种样子。不是媒体继续兴奋，不是用户继续晒图，而是采购、财务和技术团队开始认真讨论：怎么限制用量，怎么分配预算，怎么把它放进正式流程。

　　这和普通人有什么关系

　　对普通人来说，氛围编程（vibe coding）的价值在于，很多想法第一次可以低成本落地。一个网页、一个内部工具、一个自动化表格、一个报名系统，以前可能需要找开发、写需求、排期、外包，现在可以先做出一个粗版本，拿给真实用户或同事看。

　　不过真正重要的不是“人人都能写代码”，而是“人人都要学会验收 AI 做出来的东西”。AI 可以降低构建门槛，但不能替你承担维护责任。一个原型能跑，和一个产品能长期被使用，是两回事。

　　这也正好回到西蒙的判断：编程智能体先接近 PMF，不是因为它们会写代码，而是因为代码世界有一套更清楚的验收机制。普通人能从这件事里学到的，也不是写 prompt 的技巧，而是怎样把一个任务变成可执行、可检查、可修正的流程。

　　筛选开始了

　　智能体没凉，因为账单开始说话了。西蒙文章最有意思的地方在于，它没有继续追问“模型又强了多少”，而是把问题换成了：谁已经找到了用户愿意长期使用、并且持续付费的场景。Claude Code、Claude Cowork、Codex 这些编程智能体，是目前最清楚的样本。

　　他顺手算了另一笔账：这些公司不仅在收钱，推理调用越频繁，算力成本越高。智能体从回答一句话变成连续执行任务，最后会同时变成供应商的收入、客户的账单和云算力的压力。

　　小龙虾热潮的降温，也不是坏事。它让讨论从“什么都能智能体化”回到更朴素的产品问题：有没有真实痛点，有没有日常使用，有没有验收闭环，有没有价格承受力。

　　如果答案是 yes 的，会从玩具变成工具，从工具变成工作流，从工作流变成预算项；如果答案暂时还不清楚的，就需要继续等待真实使用来验证。

　　所以，不要问 AI 是不是凉了。

　　要问：哪些 AI 已经开始让人愿意付真实账单，哪些智能体还只是让人看了一眼热闹。

　　前者才是 PMF。

　　后者还在接受筛选。

用户嫌贵但还在用！OpenAI和Anthropic可能找到了AI的付费场景

我们的产品

相关链接

关于我们

联系我们