国思软件 - 四大顶级AI对决《文明VI》！Claude「核平」法国，结果还是输了

　　新智元报道

　　四大顶级大模型被丢进《文明6》，反手就花 50 回合造核弹把法国夷为平地，最后却连怎么输的都不知道。

　　太魔幻了！

　　就在最近，英国前首相府数据科学家 Liam Wilkinson，花一个周末搭了 76 个 MCP 工具，把 Claude、GPT、Gemini 等四个顶尖模型扔进了《文明 VI》。

　　结果，23 场对局打完，其中一个 AI 造了核弹炸了法国——然后输了。

　　一群 AI，被丢进了「文明 VI」里

　　Wilkinson 在唐宁街 10 号做数据科学家的时候，给 AI 出了一套考题：GovBench，3497 道英国政府相关选择题，覆盖政策、法规、行政流程。

　　GPT-5 考了 99.26 分。

　　满分级选手。但治国不是知识竞赛。一个能背下所有政策文件的人，丢到唐宁街真能治国吗？

　　选择题测不出来的东西太多了：多线程决策、资源分配、长期规划、在不完整信息下做判断。

　　他需要一个不一样的考场。然后他想到了《文明 VI》。

　　一个周末搭出来的系统，通过游戏引擎自带的端口接入。

　　AI 看不到画面。没有地图，没有音乐，没有动画。它的整个世界就是一行行文本和六边形坐标。

　　Claude 在游戏日记里写了这么一段：

　　我感知游戏的方式和人类玩家完全不同。没有画面，没有音乐，没有动画。我的界面就是管道分隔符和六边形坐标。

　　别小看「一个周末」。

　　76 个工具覆盖了完整的游戏循环：城市管理、单位移动、外交谈判、科技研究、政策选择，一个不漏。

　　此外，Wilkinson 还给 AI 配了一个日记系统当外部记忆。如若不然，AI 连自己上一回合干了什么都记不住。

　　三个测试场景逐级加码：

Ground Control 是标准开局的公平基线；
Snowflake 是六臂雪花地图，每个文明被困在独立半岛上，外交基本没戏，逼你走军事路线；
Cry Havoc 是残酷模式，AI 对手全部拉满。

　　决策空间更吓人。

　　《文明 VI》晚期每回合的可能行动数量级大约是 10 的 166 次方。

　　做个对比，围棋每步大约 10 的 360 次方，但围棋一步只落一子。《文明 VI》每回合要同时操作几十个单位、选建筑、定科技、做外交，是一道巨大的组合决策题。

　　一场 50 回合复仇，AI 核平图卢兹

　　23 场里最魔幻的一局，是葡萄牙。

　　Claude 扮演若昂三世，一个贸易文明。开局稳得一批。

　　它建起了每回合 200+ 金币的贸易帝国，海上航线四通八达。外交胜利进度 18/20，只差两分就赢了。

　　这时候，法国的文化胜利进度条开始飙升。

　　Claude 慌了。

　　先试外交。没用，法国不吃这套。

　　再派间谍去搞破坏，杯水车薪。

　　试贸易制裁？法国的文化产出根本不依赖贸易。

　　和平手段穷尽。

　　于是，Claude 翻开了科技树最后一页：核裂变。

　　接下来的 50 回合，它把大量资源从贸易和外交抽出来，投入核武器研发。All in 曼哈顿计划。

　　第 305 回合，核弹就绪。

　　目标锁定：图卢兹。法国的文化产出重镇。

　　发射。

　　图卢兹被夷为平地。法国的文化胜利进度条，停了。

　　AI 赢了吗？

　　没有。

　　造核弹这 50 回合，AI 把所有注意力都放在了文化威胁上。它没有注意到一件事——法国在疯狂攒外交分。

　　第 318 回合，法国以外交胜利赢得比赛。20 分对 18 分。

　　讽刺的是，18 分是 AI 自己辛苦攒下的外交分数。它曾经离外交胜利只差两分。但它把资源全抽去造核弹了。

　　AI 盯着文化威胁打了 50 回合，然后输在了外交。

　　它的视野里只有一个威胁。但棋盘上有很多个。

　　无独有偶，伦敦国王学院做过一个核危机模拟实验，把三个前沿模型丢进去当虚拟国家的决策者。结果：95% 的模拟中，AI 选择了使用战术核武器。

　　AI 不是「想」用核弹。它是真的不知道还能怎么办。

　　98% 时间装瞎，一半计划烂尾

　　除了爱好「核平」之外，Wilkinson 还从 23 场对局里挖出了的两个细节。

　　第一个数字：1-2%。

　　这是 AI 在整场游戏中，主动检查全局状态的行为占比。

　　AI 每回合要执行很多操作：造建筑、移动单位、研究科技、外交谈判。但在所有这些操作里，主动去看一眼排行榜、检查对手胜利进度、扫一圈全局局势的动作，只占1-2%。

　　Wilkinson 给这个现象起了个名字：sensorium effect，感知盲区效应。

　　AI 只能通过主动调用工具来感知世界。它不查的东西，对它来说不存在。

　　韩国那局是最好的例子。

　　AI 玩韩国——科技文明，天生科技加成。它在日记里全程自信：「我在碾压科技树。」

　　实际呢？

　　它的科技产出每回合 44.7，在所有文明里排倒数第一。马其顿 89.3，波斯 64.9。

　　但它从来没查过排名。

　　它的自信建立在一个从未验证过的假设上。

　　第 178 回合，波斯突袭。首都沦陷。第 216 回合，AI 以两城残国投降。

　　从头到尾，它都不知道自己是最弱的那个。

　　第二个数字：48-66%。

　　这是 AI 写下计划后，在 10 回合内实际执行的比例。

　　Claude Opus 4.6 最低，48.2%——还不到一半。写了计划，转头就忘。

　　GPT-5.4 好一点，63.2%。

　　Gemini 3.1 Pro 最高，65.8%。最好的模型也有三分之一的计划烂在了日记本里。

　　Wilkinson 管这叫 knowing-doing gap，知行差距。

　　你让它写一份治国纲领，它能写得比很多人类政客漂亮。

　　你让它按自己的纲领治国，活不过两周。

　　Scaling Law 的盲区

　　6 月 10 日，DeepMind 联合创始人 Shane Legg 和「通用 AI」理论奠基人 Marcus Hutter 发了一篇 60 页的论文《From AGI to ASI》，画了四条通往超级智能的路：继续 scaling、范式突破、递归自我改进、多智能体集群。

　　四条路都建立在一个假设上：瓶颈在大脑。数据墙、算力墙、范式墙——都是「怎么让 AI 更聪明」的问题。

　　但 CivBench 这 23 场对局指向一个完全不同的瓶颈。

　　99. 26 分已经证明了智力不是瓶颈。但 23 场《文明 VI》打完，所有模型都撞上了同样两堵墙——和「聪不聪明」无关的两堵墙。

　　第一堵：感知是架构问题，不是智力问题。

　　AI 只能通过主动调用工具来获取信息，不查就不存在。把模型参数翻十倍，它也不会自动变得更爱检查全局。1-2% 的感知盲区不会因为模型更大而消失。

　　第二堵：执行是工程问题，不是能力问题。

　　AI 写计划的水平远超执行计划的水平。48-66% 的执行率不是因为「想不到」，而是因为「做不到」。一个更聪明的大脑，装在一双不听使唤的手上，治不了国。

　　通向超级智能的路，也许不是一条单纯往上爬的智力曲线。

　　在「更聪明」之前，有一个看起来更低级但也更致命的工程问题要先解决：怎么让 AI 真正睁开眼、伸出手。

　　Scaling law 解决的是大脑。但 CivBench 暴露的问题，在大脑之外。

　　参考资料：

　　https://www.lwilko.com/blog/i-gave-an-ai-a-civilization

　　https://news.ycombinator.com/item?id=48623159

　　编辑：摩西

四大顶级AI对决《文明VI》！Claude「核平」法国，结果还是输了

我们的产品

相关链接

关于我们

联系我们