刚刚,Claude Mythos打爆AI评测天花板!超指数狂飙,2027奇点加速

  新智元报道

  编辑:Aeneas KingHZ

  就在刚刚,Claude Mythos 把评测干「失效」了:METR 第一次测不准,AI 攻防拐点到了!AI 进化已成「外星文明」降临,超越指数增长,2027 AGI 奇点正加速撞向人类。

  刚刚,Claude Mythos 干爆 METR 评测上限!超指数级进化已经逼近 AGI 奇点。

  就在今天,一张趋势图刷屏全网。

  国际最权威的 AI 评测机构 METR 惊恐地发现,他们的「温度计」要被 Mythos 撑爆了。

  Claude Mythos Preview 的能力,已经捅破了人类评测框架的天花板,进入了「失真区」!

  OpenAI 超级对齐团队前成员 Leopold Aschenbrenner 曾预测 2027 年是 AGI 的奇点,但现在的最新数据显示:Mythos 的表现已经略高于 2027 情景的趋势线。

  「外星文明」,已经强行着陆,阴影已覆盖整片天空。

  评测界的大地震

  当「满分」不再有意义

  在 METR 最新的测试中,他们试图衡量 AI 完成长周期复杂任务的能力(Time Horizons)。

  METR 设置了一个名为「50% 成功率时间线」的指标——即模型有 50% 的概率,成功独立完成一项人类需要耗费X小时才能完成的任务。

  此前,此前的模型,成绩是几十分钟或几个小时。

  但当 Claude Mythos 站上考场时,数据直接爆表了:它在人类需要 16 个小时才能完成的极其复杂的长线任务上,轻松达到了 50% 的成功率!

  你可能会问:那测试 32 小时、64 小时的任务呢?

  METR 给出的答案让人惊恐:「我们测不了了。」

  在 METR 精心构建的 228 个魔鬼级测试任务中,只有区区 5 个任务是被归类为「16 小时及以上」的。这意味着什么?

  这意味着人类现有的、引以为傲的难题库,已经被AI彻底掏空了。

  就像用刻度只有 1 米的卷尺去量一栋摩天大楼,除了知道它「爆表」了,我们对其真实的深度一无所知。

  「外星文明」已降临?

  在 16 小时以上的区间,METR 根本没有足够的样本来对 Mythos 进行准确的定量比较。

  METR 坦言,在这个阈值之上,数据的测算变得「不稳定且失去意义」。

  这是人类历史上极为罕见的一幕:创造者失去了丈量被创造物能力的工具。

  当「考官」已经出不出题的时候,「考生」的真实实力到底有多恐怖?

  这不仅仅是一次常规的 AI 模型迭代,而是一次「超指数级」的物种变异。旧的法则正在崩塌,AI 已成外星文明降临!

  AI 从业者、硅谷著名观察家 Chase Brower 直言,AI 发展远超行业预期:根据 SemiAnalysis 的数据,AI 行业的年化营收已经远超此前对 2026 年第二季度约 260 亿美元的预测。

  当前的 AI 技术已如「清晰可见的外星飞船」一样悬浮在人类文明的天空中。

  人类已经无法理解 AI 的超指数增长!

  这不再是实验室里的数据,标志着 AGI 的征兆已经完全显现!

  超指数,比指数增长还快

  把 METR 那张趋势图拉出来细看。

  纵轴是 AI 能自主完成的编码任务时长,从 8 秒到 5 年,对数刻度。横轴是模型发布时间,2021 到 2028。每一个点是一个模型版本。

  把点连起来,画出来的不是一条直线,不是一条指数曲线,而是一条比指数还陡的弧

  AI 在超指数增长,AI 增速本身在加速。

  • 2021 年,最好的模型能自主完成 8 秒级别的任务——写一行代码,修一个拼写错误。

  • 2023 年初,推到了 1 分钟量级——一个小函数、一段简单调试。

  • 2024 年中,冲到了大约 1 小时——一个完整 feature 的实现、一次多文件重构。

  • 2025 年 4 月,Mythos Preview 落点:16 小时——一个完整的工程子项目,读代码、理解架构、制定方案、编写实现、调试测试,一气呵成,不需要人类盯着。

  每一代的跃升幅度都比上一代更大。间隔时间都比上一代更短。

  本图由 AI 生成

  人类的演化是为了让我们在草原上计算果实和猎物的距离,大脑天生是线性的。

  我们好不容易理解了「指数增长」,现在却被迫面对指数之上的指数。

  猿类的大脑面对超指数,直接集体宕机。

  本图由 AI 生成

  METR 在图上画了几条参考线。

  其中一条是「AI 2027 情景」的中央轨迹——基于多家机构联合预测,假设 AI 能力按目前最主流的预期持续增长,大约在 2027 年前后触达通用人工智能门槛。

  Mythos 的数据点落在这条线的上方

  不是偏了一点。是在时间轴还没走到 2027 的位置上,能力值已经超过了 2027 的预测值。

  AI 基础设施从业者 Chase Brower 看完 METR 报告后在推特上判断:那个预计在 2026 年初出现的"Agent-1"描述,其实有点低估了当前最好模型的能力。整个行业对 AI 发展速度的预估都偏保守了。

  这里有个细节容易被忽略。

  METR 的纵轴不是跑分,不是准确率,不是某个 benchmark 上的百分比。那条曲线目前没有任何减速的迹象。

  安全圈原子弹时刻

  从「助手」到「自主攻击者」

  如果说 METR 的烦恼还是学术性的,那么Palo Alto Networks的预警则是带血的实战报告。

  近期,Palo Alto 获得了 Mythos、GPT-5.5-Cyber 等前沿模型的早期无限制访问权限。

  测试结论让所有防御者脊背发凉:AI 已经跨过了那道名为「自主」的门槛。

  当模型能自主工作 16 小时的时候,它在安全领域能干什么?

  时间坍缩:3 周=1 年

  Palo Alto 的报告中有一个令人震撼的数据:使用 Mythos 辅助进行漏洞分析,仅仅 3 周时间,其完成的工作深度和覆盖广度,等同于一整个顶级渗透测试团队整整 1 年的工作量。

  链接:https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/

  这直接是降维打击。

  本图由 AI 生成

  以往的 AI 只能帮你写个脚本、搜个代码片段。但 Mythos 展现出了一种近乎恐怖的「软件漏洞直觉」。

  它能识别出上万行代码中那些零散、低危的小漏洞。

  更要命的是,它能像顶级黑客一样,将这些原本不起眼的漏洞串联成一条致命的攻击链

  从初步入侵到数据拖库,在AI辅助下,整个过程被压缩到了 25 分钟。

  而在过去,这种级别的攻击可能需要一个团队潜伏数周才能完成。

  本图由 AI 生成

  在奇点撞向我们之前,

  如何自救?

  Anthropic 曾因为觉得 Claude Mythos「太危险」而拒绝全面发布,一度被嘲讽为 PR 手段。但现在看来,这更像是一种对未知的敬畏。

  Mozilla 已经开始行动,他们利用 Mythos 扫描 Firefox 浏览器,仅在 2026 年 4 月一个月内就修复了破纪录的 423 个安全问题。

  这说明,AI也是最强的盾,但前提是你要比攻击者跑得更快。

  我们必须接受一个残酷的现实:旧时代的防御节奏已经彻底失效。

  检测响应时间不能再以「小时」计,必须缩短到「分钟」甚至「秒」;安全不再是人的审计,而是「用 AI 对抗 AI」的自动化博弈。

  与此同时,资本侧也已经 allin。

  在过去 5 个月里,英伟达向自己的客户注资约 400 亿美金:

  300 亿给 OpenAI,20 亿给算力商 CoreWeave,32 亿给光纤商康宁……

  本图由 AI 生成、数据来源于网络由 AI 收集

  这些钱转了一圈,最后全部变成了英伟达芯片的订单。

  显然,黄仁勋正在用钱投票,强行拉拽全产业链加速撞向奇点。

  但这套永动机最可怕的地方在于,它在奇点坠落前根本无法停下。

  Chase Brower 指出,Anthropic 的年化收入已经远高于此前 260 亿美元的预测线。资本市场已经在用脚投票——钱在押注那条曲线不会拐弯。

  2027 年,按照 METR 趋势图上那条中央轨迹线,是多家机构联合预测的 AGI 门槛年份。Mythos 已经跑在这条线的上方。

  如果接下来 18 个月不出现根本性的技术断崖——不是减速,不是瓶颈,而是物理定律级别的硬墙——那么 2027 不再是一个需要辩论的预测。

  本图由 AI 生成

  它是一个需要准备的倒计时。

  AGI 的奇点不再是预测,而是正在发生的冲击。外星文明已经来临,我们能做什么?

  参考资料:

  https://www.paloaltonetworks.com/blog/2026/05/frontier-ai-defense/

  https://metr.org/time-horizons/

  https://x.com/ChaseBrowe32432/status/2053159533862908019