国思软件 - 刚刚，Claude Mythos打爆AI评测天花板！超指数狂飙，2027奇点加速

　　新智元报道

　　编辑：Aeneas KingHZ

　　就在刚刚，Claude Mythos 把评测干「失效」了：METR 第一次测不准，AI 攻防拐点到了！AI 进化已成「外星文明」降临，超越指数增长，2027 AGI 奇点正加速撞向人类。

　　刚刚，Claude Mythos 干爆 METR 评测上限！超指数级进化已经逼近 AGI 奇点。

　　就在今天，一张趋势图刷屏全网。

　　国际最权威的 AI 评测机构 METR 惊恐地发现，他们的「温度计」要被 Mythos 撑爆了。

　　Claude Mythos Preview 的能力，已经捅破了人类评测框架的天花板，进入了「失真区」！

　　OpenAI 超级对齐团队前成员 Leopold Aschenbrenner 曾预测 2027 年是 AGI 的奇点，但现在的最新数据显示：Mythos 的表现已经略高于 2027 情景的趋势线。

　　「外星文明」，已经强行着陆，阴影已覆盖整片天空。

　　评测界的大地震

　　当「满分」不再有意义

　　在 METR 最新的测试中，他们试图衡量 AI 完成长周期复杂任务的能力（Time Horizons）。

　　METR 设置了一个名为「50% 成功率时间线」的指标——即模型有 50% 的概率，成功独立完成一项人类需要耗费X小时才能完成的任务。

　　此前，此前的模型，成绩是几十分钟或几个小时。

　　但当 Claude Mythos 站上考场时，数据直接爆表了：它在人类需要 16 个小时才能完成的极其复杂的长线任务上，轻松达到了 50% 的成功率！

　　你可能会问：那测试 32 小时、64 小时的任务呢？

　　METR 给出的答案让人惊恐：「我们测不了了。」

　　在 METR 精心构建的 228 个魔鬼级测试任务中，只有区区 5 个任务是被归类为「16 小时及以上」的。这意味着什么？

　　这意味着人类现有的、引以为傲的难题库，已经被AI彻底掏空了。

　　就像用刻度只有 1 米的卷尺去量一栋摩天大楼，除了知道它「爆表」了，我们对其真实的深度一无所知。

　　「外星文明」已降临？

　　在 16 小时以上的区间，METR 根本没有足够的样本来对 Mythos 进行准确的定量比较。

　　METR 坦言，在这个阈值之上，数据的测算变得「不稳定且失去意义」。

　　这是人类历史上极为罕见的一幕：创造者失去了丈量被创造物能力的工具。

　　当「考官」已经出不出题的时候，「考生」的真实实力到底有多恐怖？

　　这不仅仅是一次常规的 AI 模型迭代，而是一次「超指数级」的物种变异。旧的法则正在崩塌，AI 已成「外星文明」降临！

　　AI 从业者、硅谷著名观察家 Chase Brower 直言，AI 发展远超行业预期：根据 SemiAnalysis 的数据，AI 行业的年化营收已经远超此前对 2026 年第二季度约 260 亿美元的预测。

　　当前的 AI 技术已如「清晰可见的外星飞船」一样悬浮在人类文明的天空中。

　　人类已经无法理解 AI 的超指数增长！

　　这不再是实验室里的数据，标志着 AGI 的征兆已经完全显现！

　　超指数，比指数增长还快

　　把 METR 那张趋势图拉出来细看。

　　纵轴是 AI 能自主完成的编码任务时长，从 8 秒到 5 年，对数刻度。横轴是模型发布时间，2021 到 2028。每一个点是一个模型版本。

　　把点连起来，画出来的不是一条直线，不是一条指数曲线，而是一条比指数还陡的弧。

　　AI 在超指数增长，AI 增速本身在加速。

2021 年，最好的模型能自主完成 8 秒级别的任务——写一行代码，修一个拼写错误。
2023 年初，推到了 1 分钟量级——一个小函数、一段简单调试。
2024 年中，冲到了大约 1 小时——一个完整 feature 的实现、一次多文件重构。
2025 年 4 月，Mythos Preview 落点：16 小时——一个完整的工程子项目，读代码、理解架构、制定方案、编写实现、调试测试，一气呵成，不需要人类盯着。

　　每一代的跃升幅度都比上一代更大。间隔时间都比上一代更短。