国思软件 - GPT-5通关《宝可梦水晶》创纪录！效率碾压o3三倍！

　　henry 发自凹非寺

　　量子位 | 公众号 QbitAI

　　又是一场酣畅淋漓的战斗！

　　宝可梦主播 GPT-5 在直播间鏖战一小时，成功击败赤爷（Red），公屏瞬间刷满 GG（Good Game）。

　　根据推特博主 Clad3815 的最新战报，GPT-5 仅用 9517 步就放倒了赤爷，通关《宝可梦水晶》。

　　相比之下，o3 则用了 27040 步，所用步数几乎是 GPT-5 的三倍。

　　换句话说，GPT-5 不吃不喝连肝一周多一点（202 小时）就能通关的《宝可梦水晶》，换成 o3 需要近一个月。

　　如果把视角拉回到普通人类玩家身上，通关《宝可梦水晶》的时间通常在 5 天左右（每天 8 小时）。

　　基于此，不少玩家已经开始留言，请继续征战下一代宝可梦！

　　那么，GPT-5 是怎么做到的？

　　赤爷不语，GPT-5 登顶宝可梦

　　在《宝可梦水晶》的剧情中，玩家从小镇出发，选择宝可梦，挑战道馆馆主、收集徽章，阻止火箭队的阴谋，最终迎战最强训练家——赤红（《宝可梦红/蓝》的主角）

　　而这次，GPT-5 就化身小智，成为了新的挑战者——并一举击败赤爷，登顶宝可梦。

　　除了我们开头提到的，GPT-5 仅用了 o3 三分之一的步数就实现了通关，在《宝可梦水晶》全部的主线任务中，GPT-5 也是按照剧情一路平推，效率远超 o3 好几倍。

　　（注：在《宝可梦水晶》中，玩家击败 boss 后仍然可以自由探索收集宝可梦，所以直播还开着。）

　　例如，在收集全部 16 枚游戏徽章的主线中，GPT-5 仅用了 9205 步，而 o3 则耗费了 22334 步。

　　更惊人的是，从收集完所有徽章到战胜赤爷，o3 还需要近 5000 步，而 GPT-5 仅用了 312 步，加速了十几倍。

　　同样的，在四天王和冠军的剧情中，GPT-5 也是仅花了 7329 步，而 o3 则用了两倍多的步数（18115 步）。

　　此外，在通关《宝可梦水晶》之前，GPT-5 还被用来通关《宝可梦红》（游戏长度约为《宝可梦水晶》的一半）。

　　赤爷不语，依旧是 3 倍的效率碾压。

　　对此，OpenAI 的总裁兼联合创始人 Greg Brockman 也是亲自转发表示认可！

　　看到 GPT-5 的生猛表现，Clad 老哥总结了这么几个原因：

　　难道说，GPT-5 模型能力的提升，在宝可梦这个舞台上才被完全体现出来？

　　（让子弹多飞一会儿）

　　不过，必须说明的是——让大模型玩宝可梦并不新鲜。

　　早在 GPT-5 之前，Google 的 Gemini 和 Anthropic 的 Claude 就曾挑战过宝可梦。

　　其中，Gemini 2.5 Pro 在今年五月的直播中，成功通关了《宝可梦蓝》，而 Claude 就比较惨了，至今仍被困于火箭队。

　　那么问题来了：为啥 AI 大模型都如此偏爱这款上世纪的怀旧游戏呢？

　　宝可梦是新的 benchmark？

　　要回答上面的问题，我们得先知道大模型是怎么玩宝可梦的。

　　一般来说，大模型玩宝可梦的基本步骤如下：

　　此外，大模型还会专门构建一个带标记的小地图，帮助其在游戏世界里定位，这类似于人类玩家在玩游戏时脑补地图的方式。

　　综上，我们就获得了一个基本印象：在宝可梦游戏中，大模型通过多层信息整合、规划、执行与自我纠错，实现了接近人类玩家的决策能力。

　　由此，宝可梦游戏就能作为衡量模型上下文能力、决策规划、界面控制能力的指标之一。

　　可惜的是，这场考试的报名费可并不便宜。

　　根据网友分析，在 GPT-5 通关游戏长度仅为《宝可梦水晶》一半的《宝可梦红》中，就花费了约 3500 美元（约 2 万五人民币）的 GPT-5 API 额度。其中，每个 token 的花费就达到了 4 块多人民币。

　　所以，除非你在 OpenAI 工作，否则想把宝可梦当作 benchmark，还得先掂量一下钱包够不够厚。

GPT-5通关《宝可梦水晶》创纪录！效率碾压o3三倍！