
新智元报道
就在刚刚,Anthropic 的全新巨兽 Oceanus 遭内鬼倒卖,官方立马停用。更疯狂的是,这个被囚禁的 Mythos 竟达到 80 刀天价输出,自归式自我改进的大模型,很可能就是它。
Anthropic,又发生一起严重的泄密事件。
在 6 月 3 日,传闻中能力过于强大而被「囚禁」的 Mythos(内部代号 Oceanus),被曝即将发布。

一般而言,发布前 7 天,AI 公司会对红队人员开放,测试新模型。
但放仅仅几小时后,竟被内部「内鬼」偷偷打包,直接倒卖给了 API 代购服务商。
发现此事后,Anthropic 管理层立即全面叫停红队测试。
然而,纸包不住火。
同时,Mythos 的天价账单和超高吞吐量,已经在X上传遍了。
根据各方消息:Mythos 巨兽,大概率在 6 月 16 日发布。

内鬼倒卖,红队至暗时刻
首先让我们看一下,这场「泄密风暴」是怎么回事。
事情源于 Anthropic 的 Claude 开发者后台(Console)中,突然闪现了一个从未见过的神秘型号:claude-oceanus-v1-p。

根据多位硅谷内线以及爆料博主的情报,这个带有「-p(Preview/Preview program)」后缀的模型,正是 Anthropic 正秘密筹备发布的Mythos 正式版大模型的核心检查点。
本来,这是一场按部就班的上线前红队测试。

可 Anthropic 万万没想到,高薪聘请的红队测试员里,竟然出了个「商业鬼才」。
这位「内鬼」在拿到 claude-oceanus-v1-p 的 API 访问权限后,第一时间不是在测漏洞,而是直接把这个通道转手打包,高价转售给了某国的 API 代理服务商。

一些开发者瞬间发现,某个神秘渠道里竟然能跑出从未见过的 Claude 响应。
漏洞被堵得很快,但代价极高。
Anthropic 发现 API 异常流量后,紧急暂停了整个项目的红队测试,模型停用。
有人表示:「通过外部代理进行转售会导致官方的矫枉过正。预计下一批红队测试人员的规模会更小、限制更多、审查更慢……这会是好事吗?」

虽然红队测试被紧急叫停,但 Oceanus 的各项「降维打击」般的参数,已经被全世界看到了。
「吞吐量 52 Token/s + 80 美刀天价」
新模型凭什么这么贵?
在这场泄密风暴中,最显眼的,还是 Oceanus 流出的价格表和性能实测数据。

我们直接来看被曝光的 Mythos/Oceanus 定价对比表:

最明显的,就是 Oceanus 的每百万 Output Token,居然高达 80 美元!
这几乎是目前市面上主流商业大模型价格的 3 倍以上。
在各家大模型狂卷低价的今天,Anthropic 竟然逆势掏出了一个「天价怪兽」。
甚至有圈内大V预测,未来如果 OpenAI 和 Anthropic 正面硬刚 10T 级别的终极研究模型,最坏的情况下,OpenAI 的定价可能会飙到$100,而 Anthropic 甚至可能开出$150/百万 Token 的宇宙级高价!


直到 2027 年底英伟达 Vera Rubin 架构显卡全面普及,成本才可能降回普通的$15。
但,贵有贵的道理。
它输出效果,让人眼前一亮:

只要 5 万 token,Claude Mythods 复刻了 macOS!

与昂贵价格相匹配的,是 Oceanus 展示出的恐怖吞吐量:实测速度高达每秒 52 个 Token!

巨大的参数量(可能高达十万亿)下,还能保持 52 Token/s的狂飙速度,这意味着 Anthropic 在底层推理架构和算力优化上,大概率实现了大规模突破。
Oceanus,是 Mythos 的完全体
为什么这个模型代号叫「Oceanus」?为什么说它曾被「囚禁」?
这要追溯到 Anthropic 内部一个绝密安全项目——Project Glasswing。
在硅谷的传闻中,Oceanus 的前身(Mythos 早期预览版)在进行内部测试时,展现出可怕的破解零日漏洞能力。一旦泄露,可能会对全球互联网基础设施造成灾难性打击。
因此,它被无限期「囚禁」在隔离网络中,只允许极少数签署了严苛保密协议的信贷伙伴接触。
而这次泄露的 claude-oceanus-v1-p,正是这头巨兽在经过多轮安全对齐后,试图戴着镣铐走出实验室的「完全体升级版」。
泄露数据太反常
Oceanus 背后三大硬核技术推演
52 Token/s超高吞吐,这个数据看起来极其反常。Anthropic 究竟是如何做到的?
结合他们此前发布的 RL 强化学习论文,我们在这里进行了三大硬核技术推演。
Oceanus 能在后台狂飙 12 小时不崩塌,大概率动了三处系统工程级的大手术。
推演一:System 2 慢思考落地(MCTS + PRM 架构)
传统的 Claude 或 GPT 在生成代码时,采用的是「自回归」机制,即根据前一个 Token 盲猜下一个 Token。
这种模式下 AI 思维是单向直线, Agent 任务时长经常卡在几分钟。

很有可能,Oceanus 彻底引入了类似于 AlphaGo 的 MCTS(蒙特卡洛树搜索)算法与 PRM(进程奖励模型):
MCTS(树状检索):当面对一个复杂的软件工程任务时,模型不再直接输出代码,而是在后台生成成百上千条不同的解题「思维分支」。
如果 A 方案跑了半小时发现是死胡同,它会主动回溯,砍掉这个分支,换 B 方案继续跑。
PRM(进程奖励模型):传统的评估只看最后结果对不对(ORM),而 PRM 会对 AI 思考的每一步进行打分。
这就是为什么它的输出价格飙到 80 美元的原因——你在前端看到它吐出了 1 个 Token,它在后台其实已经悄悄生成了 100 个 Token 用来做路径搜索和自我打分。
本质上,你是在为后台燃烧的「测试时计算」算力付费。
推演二:打破物理限制的动态 MoE 与线性注意力
按照常理,模型思考得越深、模型参数越大,响应速度应该越慢。
然而 Oceanus 的参数量如果达到 10 万亿级。在如此庞大的身躯下,它是怎么砸出 52 Token/s 的极高吞吐量的?

很可能 Anthropic 采用了两项大刀阔斧的改进。
动态拓扑的 MoE(混合专家模型)架构:普通的 MoE 是固定激活 Top-2 专家,而 Oceanus 极有可能实现了动态路由。
日常对话时只激活 1% 的子专家网络,吞吐量狂飙;只有进入复杂的代码重构时,才会逐级唤醒深层的「高智商专家核」。
线性注意力机制:在 12 小时的超长任务中,代码量会拉得极长。标准 Transformer 架构的 O (N^2) 显存占用会引发 KV Cache 瓶颈,直接导致显存爆炸或速度断崖式下跌。
Oceanus 必然融合了 Linear Attention 或类似 Mamba/SSM 的混合架构,保证了长文本状态下的吞吐速度不发生衰减。
推演三:内置 REPL 自主沙箱环境
素材中提到,Oceanus 能让 SWE-bench 在两年内达到饱和,这意味着它能全自主解决 GitHub 真实开源项目里的复杂 Bug。
资深程序员都明白:写代码不能只靠盲猜。代码不管多完美,只要一跑编译,可能就因为一个第三方库的版本冲突直接挂掉。
因此,Oceanus 内部大概率集成了一个强大的 REPL(读取-求值-输出循环)自主沙箱环境。

它拥有一个完全隔离的虚拟机或容器空间,能够自主拉取代码库、安装依赖、运行单元测试。
它的 Debug 过程是完全闭环的:写代码 -> 运行 -> 看报错日志 -> 自动重写。
这个猜测,跟玻璃翼计划中透露的内容也是相吻合的。
硅谷巅峰神仙打架
撞车 GPT-5.6,谷歌 Gemini 迎来生死考
原本,Oceanus 的保密工作做得滴水不漏。
但随着这次内鬼事件,外界普遍推测,Anthropic 将加快步伐,该模型的全球首秀极有可能定在 6 月 16 日左右。
这一下,整个硅谷的科技巨头们全部被逼到了墙角。
首当其冲的就是 OpenAI。有消息称,OpenAI 原本计划在秋季(9 月/10 月)才祭出其基于十万亿参数的 GPT-6 或是传说中的 GPT-5.6。
如今 Oceanus 的提前登场,逼得 OpenAI 不得不考虑加快速度。
而压力最大的,莫过于刚刚发布不久的 Gemini 3.5 Pro。
面对 Oceanus 每秒 52 个 Token 的速度、12 小时的超长续航以及降维打击般的软件工程能力,谷歌如果再拿不出点绝活,恐怕会在三巨头「生死大考」中被彻底边缘化。
当 AI 的连续自主工作时间从 4 分钟直接拉长到 12 小时,那些初级开发和运维人员,护城河正在迅速消失。
6 月 16 日,巨兽出笼。由 Anthropic 掀起的海啸,很快就要来了。
参考资料:
https://x.com/testingcatalog/status/2062548860308730061?s=20
https://x.com/testingcatalog/status/2062548860308730061
https://x.com/birdabo/status/2062565097730707903
编辑:
Aeneas David
