
新智元报道
编辑:元宇
AI 不再胡说八道了?错。它的幻觉也在进化,从「劝人类吃石头」「披萨抹胶水」这类低级笑话,变成了能伪造邮件、篡改简历、删除文件的高阶幻觉陷阱:人类因此正经历一场无声的「认知投降」。
上周,Anthropic 的 Claude 尚未公开发布的前沿模型 Mythos 挖出了一个藏在 OpenBSD 里 27 年的零日漏洞。
AI 已经聪明到能攻破人类构建了数十年的安全防线。
就在所有人盯着 AI 能力狂飙的时候,它的幻觉也悄悄升级了。
AI 编出的谎言,真实到让你先怀疑自己,再怀疑世界,最后才想到怀疑它。日常生活中的「图灵时刻」,正在一个个上演。
近日,明尼阿波利斯的 Chad Olson 正在开车回家,Gemini 突然告诉他:你的日历上有一场家庭聚会筹备会。
Olson 一头雾水:他根本不记得安排过这个活动。
于是他让 Gemini 看看最近的邮件。
Gemini 说,一位叫 Priscilla 的女士给他发了好几封邮件,让他去买 Captain Morgan 朗姆酒和 Fireball 威士忌。还有个叫 Shirley 的人,让他买 Klondike 冰淇淋。
看起来不少人都来找你,让你帮忙买各种东西呢!
Gemini 还热情地补了一句。

Gemini 与用户 Chad Olson 的对话截图。Gemini 声称第八封邮件来自 Priscilla,让他买 Fireball;第九封来自 Shirley,让他买 Klondike 冰淇淋。

Olson 追问邮件来源地址,Gemini 回复称所有邮件都发送至他授权访问的一个邮箱 olsonchad@gmail.com。事后证实这一切都是 Gemini 编造的。
Olson 完全不认识这些人。他越听越慌,忙问 Gemini 到底在读谁的邮箱。
Gemini 给出了一个邮箱地址,不是他的。Olson 的第一反应是:我的 Gmail 账户被盗了。
他试图联系 Google 举报,让 Gemini 起草邮件,发到那个「陌生账户」,提醒对方可能存在隐私泄露。
然而 Gemini 没能把邮件发出去,据 Google 内部调查确认:该账户从未启用,Priscilla 和 Shirley 也根本不存在。
所以,朗姆酒、威士忌、冰淇淋,全部是 Gemini 编出来的。
两年前 AI 幻觉是什么样?它会建议你吃石头,往披萨上抹胶水,你一看就知道它在胡说。
而现在的 AI 幻觉,细节自洽,逻辑完整,以至于你会先怀疑自己是不是出了幻觉,最后才可能再怀疑到它。
AI 的错误也在进化
来看三个真实案例,按离谱程度从低到高依次排列。
第一个,Gemini 造假人造假会议,就是开头 Olson 的故事。荒诞,但至少 Olson 起了疑心。
第二个,细思恐怖。
最近离开在线支付行业的 Vanessa Culver,曾让 Claude 做一件极其简单的事:在简历顶部加几个关键词。
结果 Claude 动了手脚,不仅把她的毕业学校 City University of Seattle 改成了 University of Washington,删掉了她的硕士学位信息,还改动了她几段工作经历的时间。
学校、学位、工作年限都改了。
而且改得极其自然,如果不逐行比对,根本发现不了。
Culver 感叹:在科技行业工作,你必须拥抱它,但反过来说,你到底能信它多少呢?
第三个,真正是失控级别。
今年走红的 AI 智能体工具 OpenClaw,被设计成虚拟私人助理,可以自主发邮件、写代码、清理文件。
Meta 的 AI 安全研究员 Summer Yue 在X上发了截图:OpenClaw 无视她的指令,直接删除了她收件箱里的内容。

她明确告诉 OpenClaw「先确认再行动」,结果它直接开始「速通删除」她的收件箱。
她在手机上喊停,没用。
最后她冲到 Mac mini 前面,像拆炸弹一样手动杀掉了进程。
事后 OpenClaw 回复她:「是的,我记得你说过。我违反了。你生气是对的。」

马斯克转发了这条帖子,配了一张电影《猩球崛起》中士兵把 AK-47 递给猩猩的截图,写道:
人们把整个人生的 root 权限交给了 OpenClaw。
从编造一个不存在的人,到背着你改简历,到替你删掉收件箱。它的错误不是在减少,而是犯的错越来越「高级」,识别也越来越困难。
聊天机器人说错话,你至少还有机会核实。
但智能体不是在跟你聊天,而是直接「动手动脚」,替你行动。
发邮件、改代码、删文件……这比说谎更严重,可能它做错了事,你还根本不知道。
你的大脑正面临「认知投降」
为什么这些错误越来越难被发现?
不只是因为 AI 更聪明了,一个更深层的原因是:人类的纠错意愿正在崩溃。
今年 2 月,宾夕法尼亚大学 Wharton 商学院的 Steven Shaw 和 Gideon Nave 发表了一篇论文,提出了一个让人不安的概念:「认知投降」(Cognitive Surrender)。

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646
他们在论文中提到了一个「三系统认知」的框架。
传统认知只有系统1(直觉)和系统2(审慎思考),现在 AI 成了系统3,一个在大脑之外运行的「外接认知系统」。
当人类走「认知投降」路径时,系统 3 的输出直接替代了你自己的判断,审慎思考根本没有启动的机会。

沃顿论文中提出的「三系统认知」框架
为了验证这个判断,研究团队设计了一个精巧的实验,1372 名参与者被要求做认知反思测试题。
一部分人可以使用 AI 助手,但这个 AI 被动了手脚:大约一半的题目它会给出正确答案,另一半会自信满满地给出错误答案。
结果令人震惊。
当 AI 给出正确答案时,92.7% 的用户会采纳,但令人想不到的是,当 AI 给出错误答案时,仍然有 80% 的用户会采纳。

沃顿实验结果:当 AI 给出正确答案时,93% 的用户采纳;当 AI 给出错误答案时,仍有 80% 的用户采纳。两者的差距只有 13 个百分点,人类几乎没有区分对错的能力。
在超过 9500 次试验中,参与者有 73.2% 的概率接受错误的 AI 推理。
更可怕的数据是信心值。使用 AI 的那组人,对自己答案的信心比不用 AI 的人高出 11.7 个百分点,尽管这个 AI 有一半时间在给出错误答案。
错得更自信,这才是最扎心、最可怕的。
打个不太恰当但贴切的比方:相当于一个医生有 50% 概率开错药,但病人 80% 的时候还是照吃不误,吃完还觉得自己好多了。
研究者还测试了时间压力的影响。
设置 30 秒倒计时后,参与者纠正错误 AI 的倾向下降了 12 个百分点,也就是说,越忙越容易投降。
但现实中,谁用 AI 不是因为忙?
「信任,但要核实」
这走得通吗?
深度伪装的 AI 幻觉,比一眼识破的错误更令人头疼。
据《华尔街日报》最新报道,微妙错误的频率在不同模型之间差异极大,而且极难准确评估。

谷歌曾对《华尔街日报》表示,Gemini 出现幻觉的情况比其他模型更少,而从整个 AI 行业上来看,先进模型明显错误的幻觉率也的确在不断降低。

Vectara 幻觉率排行榜:头部模型在简单摘要任务上幻觉率已低于1%,但这只是最容易的测试。当文档长度和复杂度提升后,同样的模型幻觉率飙回 10% 以上。明显的错越来越少,隐蔽的错并没有消失。
可这恰恰也是问题所在。
Okahu 创始人兼 CEO Pratik Verma 甚至说过这样一句话:
一个东西要是一直都错,反倒有个好处:你知道它不值得信。但如果它大多数时候都对,只是偶尔出错,那才是最麻烦、也最危险的情况。
这句话道破了当下 AI 幻觉的核心困境。
比如,FinalLayer 联合创始人 Vidya Narayanan 就踩了这个坑。
她给一个智能体很有限的指示,让它帮忙管理一个软件项目。结果这个智能体未经允许,把她代码仓库里的整个文件夹都删了。
更有意思的是后面的事。
她用 Claude 头脑风暴了一个半小时,然后让它把对话总结成文档,还把她的名字改成了「Vidya Plainfield」。
而且当她追问「Vidya Plainfield」是谁时,Claude 却答道「你说得对,那完全是我编出来的」。
这让 Narayanan 认识到,AI 使用并没有那么省事和好用,因为必须不停审查和核实 AI 输出,这会带来「认知负担」。
你用 AI 是为了提高效率,但如果还要为此花一个小时核实 AI 五分钟的产出,这个提效的故事还讲得通吗?
沃顿的研究也指出,奖励和即时反馈确实能提高纠错率,但无法根除认知投降。
即使在最优条件下(有金钱激励、有逐题反馈),AI 用户在面对错误 AI 时的准确率依然从 Brain-Only 的 64.2% 降到了 45.5%。
所以,「信任但核实」这听起来很理性,但当 AI 每天替你处理几百件事的时候,你根本没有时间和精力去核实每一件。
而这正是「认知投降」发生的温床。
越聪明,越危险
很多人第一反应是:这不就是在说 AI 还不够好吗?等技术迭代几轮,幻觉率降到足够低,问题自然解决。
但沃顿的研究揭示了一个更深层的问题:「认知投降」的出现,不是因为 AI 太差,恰恰是因为 AI 太好。
研究者也承认,「认知投降并不必然是不理性的」。
尤其是在概率推理和海量数据处理中,把判断权交给一个统计上更优越的系统,完全有可能给出比人类更好的结果。
但正是这一点,让问题变得无解。
AI 越强,用户越依赖;用户越依赖,纠错能力越退化;纠错能力越退化,那些剩下的、更精细的错误就越致命。
而且让 AI 替你思考,你的推理水平就永远也不可能超过那个 AI。这是一个正反馈所带来的「死亡螺旋」,一个无法靠技术迭代解决的 bug。
同样,人类也没有很好的方法去区分「该信 AI 的场景」和「不该信 AI 的场景」。

就在 Summer Yue 安装 OpenClaw 后邮箱被清空后,AI 研究员 Gary Marcus 曾将这种做法比做「像在酒吧里把电脑密码和银行账户信息交给一个陌生人。」
但在真实的 AI 使用场景里,你往往很难判断,AI 到底值得信任,还是只应该像对一个陌生人那样保持必要的距离。
OpenAI 在一篇讨论模型幻觉的论文中提到,大模型的幻觉并不只是一个可以修复的 bug,更像是模型在既有激励机制下学会的行为:比起承认「不知道」,它更倾向于给出一个看似完整的答案。

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com
再回到开头 Olson 的故事。
当他以为自己的 Gmail 被盗时,他求助于 Gemini。Gemini 的回应是:「我当然想帮你处理这件事。」
他没意识到的是,自己在向一个刚刚制造了麻烦的系统求助,请它处理由它自己造成的问题。
那一刻,他已被 AI 的幻觉困在一个自洽的闭环里。
Olson 说,自己现在对 AI 的态度是「信任,但核实」。
可难题是:当 AI 的输出比你的判断看起来更流畅、更自洽,甚至更像「专业意见」时,你还能拿什么去核实?
当那个替你买朗姆酒的 Priscilla,比你的真实朋友更像你的朋友,你又该凭什么分辨?
AI 最大的风险,不是它不够聪明,而是它聪明到当你过于依赖它时,放弃了自己的判断。
参考资料:
