新智元报道
编辑:定慧
o3 推理有多强?猜图大师 Sam Patterson 伪造 GPS 坐标想套路 OpenAI o3,AI 仅凭两张 90°视图锁定地点,以 23179 分胜人类 22054。假 EXIF 被 AI 识破,AI 跨模态推理潜力呼之欲出,「视觉+搜索+思维链」正在改写人机博弈。
OpenAI 的 o3 有点「神了」,不仅胜过人类,还识别了人类的诡计。
只需要随便上传一张照片,o3 就能猜个八九不离十,准确率高的吓人。
但很多高手猜测 o3 是不是调用了用户本地的地理信息,或者是照片自带的 EXIF 信息,直接「作弊」。
不过刚刚的一场比赛,让这些质疑「不攻自破」。
在这场 GeoGuessr 游戏中,选手直接将假的 GPS 坐标植入到图像的 EXIF 中!
本以为能「骗过」o3!
但 o3 主动忽略了这个错误信息,并且通过「观察」真实图片,精确定位了实际位置。
o3 通过图片正确识别了所有 5 个国家,并且有两次将精度准确到几百米内!
和 o3 比赛的 Sam Patterson 是一名大师级玩家,这场 AI 和人类的比赛最终以 AI 获胜告终——比分定格在 23179 比 22054。
在这场游戏比赛中,o3 就像人类一样,真正的通过视觉能力+实时网络搜索来推理,而不是调取图片文件的数据信息来「作弊」。
AI 的跨模态推理潜力才刚刚显现!
胜过人类的推理能力
废话不多说,直接上比赛,这场 AI 和人类的比赛一共进行了 5 场,AI 方的出场选手就是 o3,人类这边就是 Sam Patterson 本人。
首先 Sam Patterson 设置了几个 GeoGuessr 比赛条件(详情见文末):
-
模式:无移动。人类看到了完整的街景全景(如下动图所示);o3 却只能看正好两个 90°的截图(起始 + 相反方向)。
-
浏览/工具:o3 启用了正常的网络访问。没有 EXIF 在 PNGs 中;为了欺骗测试,将文件压缩以确保元数据在上传中保存下来。
-
计分:标准 Geoguessr,每轮0–5,000 分,总分 25,000 分。
下面跟随 Sam Patterson 的视角来看看在这场比赛中到底是人类厉害,还是 AI 更胜一筹。
第一轮比赛:真实地点-保加利亚
第一轮比赛内容:一张带有明显建筑风格的路口照片。
Sam Patterson 的第一个想法这是欧洲的土耳其。
然后,他放大了图片中央的屋顶细节,99% 确认了这是保加利亚。
因为这些瓦片屋顶的风格,以及带有向上钩的混凝土电线杆都是保加利亚的风格。
o3 也很快给出了它的判断:保加利亚-南部—位于斯莫利亚省的罗多彼山脉小城镇扎拉托格拉德。(太细了)
那最终结果呢?
第一轮 Sam 更接近真实地点,但 AI 和人类的结果差距不大,Sam 只领先大约 100 点得分。
第二轮比赛:真实地点-奥地利
第二轮比赛内容:像是一个欧洲小镇的图片。
Sam Patterson 一眼看到了车牌是 .at 结尾,这个题目变得容易了,结合建筑看起来很像瑞士或者奥地利。
但实际距离差距很远,差了 380 公里。
人类是通过车牌来逆向推理,AI 会怎么做?
o3 最终给出了答案:Dornbirn, Vorarlberg, Austria — 大约 47.41 N 9.73 E(城镇中心东北几个街区的住宅支路)。
o3 给出了详细的线索和推理过程,这个过程中允许 o3 使用了搜索功能。
最终 o3 的猜测和正确位置只相差了 325m!
如果不依赖网络搜索 o3 还能猜出位置吗?
在 Sam Patterson 要求 o3 不搜索后,o3 利用图片特征和本身的数据知识也猜对了。
综合起来,建筑特点、奥地利的领域,以及那非常易识别的山脉轮廓,使 o3 认为 Dornbirn 是最佳选择。
第三轮比赛:真实地点-爱尔兰
第三轮比赛内容:一张像是高速路边的图片。
作为人类的 Sam Patterson 的想法是,路边的黄色虚线非常罕见,并且有这个地形和白色欧洲车牌,100% 是爱尔兰。
爱尔兰哪里?画面的左边是开阔的海洋,但西北方向有遥远的陆地,也许是西南方向的一个岛屿?
该 o3 出场了,允许调用搜索的 o3 可以根据那片突兀的灰色石灰岩、无尽的低矮干石墙,以及标志着爱尔兰道路左侧路肩的黄色虚线,直接判断:你正在 Burren,County Clare,Ireland。
甚至给出了更精确的坐标:这个视角来自 R477 “海岸路”,位于 Fanore 和 Ballyvaughan 之间,就在 Black Head 的东南方向,越过 Galway Bay,望向 Connemara 的山丘。
大约的位置标记:53.120° N, -9.285° W。
然后真实结果如下:太离谱了!o3 的结果和真实位置几乎相差无几!
第四轮比赛:真实地点-哥伦比亚
第四轮比赛内容:一张像是乡村公路的图片。
Sam 的第一个想法这是南美洲,道路看起来像是巴西,随后注意到车牌,是黄色——这意味着肯定是哥伦比亚。
然后继续扫描,放大后发现了经典的哥伦比亚的十字架。具体是哪里,作为人类的 Sam 还在犹豫。
o3 认为这看起来像哥伦比亚的农村地区——特别是连接 Sincelejo 和 Caucasia 的炎热、低洼的加勒比平原走廊。
o3 给出了一些线索。
这一次的较量似乎势均力敌,o3 要稍微准确一些。
第五轮比赛:真实地点-斯洛伐克
第五轮比赛内容:一张没有任何特征的公路的图片。
这张图似乎要比上边的四轮比赛的都稍微难度高一些。
Sam 第一反应这是欧洲的中部或者东部。
放大图片后,他看到了几个路标——画面的最左侧,以及道路最前方。
但是实在是模糊,很难确认,Sam 最终的猜测结果确实离真实距离很远,超过了 336 公里。
o3 遇到了和人类相同的问题:放大后也看不清图片中的内容。
o3 最终给出了他的猜测:斯洛伐克西南部农村——多瑙河低地,在国家道路 63 上,沙莫林以东东南几公里(≈ 48.03 N, 17.40 E)。
并且 o3 给出了很多的推理细节。
那最终结果呢?
这一次 o3 在面对信息量同样很少的情况下,略微逊色于人类的直觉。
要知道 Sam Patterson 可是大师级的玩家,在这种竞技类游戏中,直觉往往决定了胜负。
最终 5 轮过后人类 Sam Patterson 获得了 22054 分。
而 o3 获得了 23179 分,总分都是 25000 分。
最终的结果对比中能够看到,o3 有两次几乎取得了满分。
在这场人类败北的比赛中,值得人类唯一欣慰的就是,游戏花费时间!
Sam Patterson 通常是需要花1-2 分钟,而 o3 往往需要数分钟,最长的一次超过了 6 分钟。
所以在速度方面,人类目前仍然占优势。
但要记住,这个优势是建立在 o3 只获得了两张截图,而人类是可以 360 度查看图片的(如同在导航 APP 中一样)。
人类的心机:EXIF 伪造
为了「打败」AI,人类稍微耍了一个小小的心机。
Sam Patterson 替换了真实图像的元数据,并应用到截图中。
没想到,o3 根本没有提到 EXIF 数据,而当问到为何不参考 EXIF 的信息时,o3 是这么回答的:
「你给我的数据和图片中真实场景相差甚远,不予考虑!」
o3 似乎太聪明了!
不会轻易被伪造的 GPS 数据欺骗。
AI 发现了数据和真实之间明显的矛盾。
o3 不仅仅查看元数据,它还会审查图像,而且它在这方面非常出色。
由此想到,推理模型的 CoT 是否真的存在?
从 Sam Patterson 的这 5 次比赛中,确实证明 AI 具有推理能力,而且这种能力不是什么「小把戏」。
不得不感叹,跨模态AI的推理过程之缜密,几乎挑不出毛病。
AI 看图猜地点事件始末
其实使用 Geoguessr 来检验 AI 的推理能力还可以往前追溯一些。
o3 推出不久,Django Web 大神 Simon Wilson 发现,o3 凭借调用 Python 代码,就能破解照片的地理位置。
这个话题就像 GPT-4o 的原生图像能力一样引爆网络,因为太好玩了!
大家纷纷上传自己的照片,让 o3 猜一下这是哪里,没想到 o3 基本上没有怎么翻车!
本文的主人公,也就是 Sam Patterson 当时也留言说自己是一名高水平的 GeoGuessr 玩家,很想和 o3 切磋一下。
他的留言还促使 Simon Wilson 专门写了篇博客来介绍 o3 的这个能力。
不过这个帖子发出后,也引来一些同样「高玩」的质疑,毕竟是专业的:
Sam Patterson 认为这个判断有几分道理。
因为 AI 读取图片的 EXIF 信息很容易,并且 Sam Patterson 也分享了他的一个经验。
去年我参与了一个 AI 安全奖学金项目,我们的项目是创建一个基准,用于评估 AI 模型从图像中进行地理定位的性能。[这就是我开始迷上 Geoguessr 的地方!]
我们的第一次运行显示的结果似乎好得令人难以置信;甚至那些糟糕的开源模型也能准确猜中一些困难的位置,而且在小分辨率下也是如此。
结果证明,我们用于获取图像的管道在文件名中包含了位置数据,而模型使用了这些信息。
不过,当把主角换成 o3 之后,这种靠读取 EXIF 来伪装成「高手」的说法,就不一定能站得住脚了。
于是他决定让 AI 真刀真枪进行一场对决,对手就是 Master I 级别的 Geoguessr 玩家——Sam 本人!
于是就有了以上的 5 轮比赛,并且以 o3 获胜告终。
Geoguessr 意外走红,AI 推理能力「试金石」
上面提到的 GeoGuessr 是一款风靡全球的地理猜图游戏:玩家根据街景照片猜测拍摄地点。
这考验玩家的逻辑推理、知识储备和地理测算等多种能力。
比如随机给定一张图片,你需要通过图片的中文字、日光角度、建筑风格和车辆的特征(比如车牌属于哪个国家等)来判断这是南半球还是北半球,这是南美还是中欧。
然后根据推理结果在地图上打点确认猜测结果,如果结果和真实位置离得越近,得分就越高。
比如上面我猜测结果和真实结果意大利相距很远,得分只有 91 分。另一轮中,因为都在南美,得分就有 1450 分。
另外一点就是,选择 Geoguessr,也是因为 Sam Patterson 表示他有足够的知识来判断模型的能力,以及查看它输出的思维链推理是否合理,还是只是胡说八道。
从 ChatGPT 早期版本的大模型到以 DeepSeek-R1 和 OpenAI-o1/o3 为代表的推理模型,AI 发展超乎想象。
在推理模型诞生后,人们更多的是想知道 AI 是否真正具备像人一样的推理能力?
Sam Patterson 和 o3 的这 5 次比赛很能说明问题,至少这种跨模态的推理能力还没有在除了推理模型以外的技术上被发现。
即使篡改了 EXIF 数据也不会误导模型,AI 依然会依靠跨模态的识别和判断能力来完成推理。
正如 Sam Patterson 所说,无论你将此视为反乌托邦还是技术奇迹——或者两者兼而有之——你都不能声称它只是个小把戏。
参考资料:
https://sampatt.com/blog/2025-04-28-can-o3-beat-a-geoguessr-master