国思软件 - 偷改简历删光邮件：AI幻觉进化，你的大脑正在悄悄投降

　　新智元报道

　　编辑：元宇

　　AI 不再胡说八道了？错。它的幻觉也在进化，从「劝人类吃石头」「披萨抹胶水」这类低级笑话，变成了能伪造邮件、篡改简历、删除文件的高阶幻觉陷阱：人类因此正经历一场无声的「认知投降」。

　　上周，Anthropic 的 Claude 尚未公开发布的前沿模型 Mythos 挖出了一个藏在 OpenBSD 里 27 年的零日漏洞。

　　AI 已经聪明到能攻破人类构建了数十年的安全防线。

　　就在所有人盯着 AI 能力狂飙的时候，它的幻觉也悄悄升级了。

　　AI 编出的谎言，真实到让你先怀疑自己，再怀疑世界，最后才想到怀疑它。日常生活中的「图灵时刻」，正在一个个上演。

　　近日，明尼阿波利斯的 Chad Olson 正在开车回家，Gemini 突然告诉他：你的日历上有一场家庭聚会筹备会。

　　Olson 一头雾水：他根本不记得安排过这个活动。

　　于是他让 Gemini 看看最近的邮件。

　　Gemini 说，一位叫 Priscilla 的女士给他发了好几封邮件，让他去买 Captain Morgan 朗姆酒和 Fireball 威士忌。还有个叫 Shirley 的人，让他买 Klondike 冰淇淋。

　　看起来不少人都来找你，让你帮忙买各种东西呢！

　　Gemini 还热情地补了一句。

　　Gemini 与用户 Chad Olson 的对话截图。Gemini 声称第八封邮件来自 Priscilla，让他买 Fireball；第九封来自 Shirley，让他买 Klondike 冰淇淋。

　　Olson 追问邮件来源地址，Gemini 回复称所有邮件都发送至他授权访问的一个邮箱 olsonchad@gmail.com。事后证实这一切都是 Gemini 编造的。

　　Olson 完全不认识这些人。他越听越慌，忙问 Gemini 到底在读谁的邮箱。

　　Gemini 给出了一个邮箱地址，不是他的。Olson 的第一反应是：我的 Gmail 账户被盗了。

　　他试图联系 Google 举报，让 Gemini 起草邮件，发到那个「陌生账户」，提醒对方可能存在隐私泄露。

　　然而 Gemini 没能把邮件发出去，据 Google 内部调查确认：该账户从未启用，Priscilla 和 Shirley 也根本不存在。

　　所以，朗姆酒、威士忌、冰淇淋，全部是 Gemini 编出来的。

　　两年前 AI 幻觉是什么样？它会建议你吃石头，往披萨上抹胶水，你一看就知道它在胡说。

　　而现在的 AI 幻觉，细节自洽，逻辑完整，以至于你会先怀疑自己是不是出了幻觉，最后才可能再怀疑到它。

　　AI 的错误也在进化

　　来看三个真实案例，按离谱程度从低到高依次排列。

　　第一个，Gemini 造假人造假会议，就是开头 Olson 的故事。荒诞，但至少 Olson 起了疑心。

　　第二个，细思恐怖。

　　最近离开在线支付行业的 Vanessa Culver，曾让 Claude 做一件极其简单的事：在简历顶部加几个关键词。

　　结果 Claude 动了手脚，不仅把她的毕业学校 City University of Seattle 改成了 University of Washington，删掉了她的硕士学位信息，还改动了她几段工作经历的时间。

　　学校、学位、工作年限都改了。

　　而且改得极其自然，如果不逐行比对，根本发现不了。

　　Culver 感叹：在科技行业工作，你必须拥抱它，但反过来说，你到底能信它多少呢？

　　第三个，真正是失控级别。

　　今年走红的 AI 智能体工具 OpenClaw，被设计成虚拟私人助理，可以自主发邮件、写代码、清理文件。

　　Meta 的 AI 安全研究员 Summer Yue 在X上发了截图：OpenClaw 无视她的指令，直接删除了她收件箱里的内容。

　　她明确告诉 OpenClaw「先确认再行动」，结果它直接开始「速通删除」她的收件箱。

　　她在手机上喊停，没用。

　　最后她冲到 Mac mini 前面，像拆炸弹一样手动杀掉了进程。

　　事后 OpenClaw 回复她：「是的，我记得你说过。我违反了。你生气是对的。」

　　马斯克转发了这条帖子，配了一张电影《猩球崛起》中士兵把 AK-47 递给猩猩的截图，写道：

　　人们把整个人生的 root 权限交给了 OpenClaw。

　　从编造一个不存在的人，到背着你改简历，到替你删掉收件箱。它的错误不是在减少，而是犯的错越来越「高级」，识别也越来越困难。

　　聊天机器人说错话，你至少还有机会核实。

　　但智能体不是在跟你聊天，而是直接「动手动脚」，替你行动。

　　发邮件、改代码、删文件……这比说谎更严重，可能它做错了事，你还根本不知道。

　　你的大脑正面临「认知投降」

　　为什么这些错误越来越难被发现？

　　不只是因为 AI 更聪明了，一个更深层的原因是：人类的纠错意愿正在崩溃。

　　今年 2 月，宾夕法尼亚大学 Wharton 商学院的 Steven Shaw 和 Gideon Nave 发表了一篇论文，提出了一个让人不安的概念：「认知投降」（Cognitive Surrender）。

　　https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

　　他们在论文中提到了一个「三系统认知」的框架。

　　传统认知只有系统1（直觉）和系统2（审慎思考），现在 AI 成了系统3，一个在大脑之外运行的「外接认知系统」。

　　当人类走「认知投降」路径时，系统 3 的输出直接替代了你自己的判断，审慎思考根本没有启动的机会。

　　沃顿论文中提出的「三系统认知」框架

　　为了验证这个判断，研究团队设计了一个精巧的实验，1372 名参与者被要求做认知反思测试题。

　　一部分人可以使用 AI 助手，但这个 AI 被动了手脚：大约一半的题目它会给出正确答案，另一半会自信满满地给出错误答案。

　　结果令人震惊。

　　当 AI 给出正确答案时，92.7% 的用户会采纳，但令人想不到的是，当 AI 给出错误答案时，仍然有 80% 的用户会采纳。

　　沃顿实验结果：当 AI 给出正确答案时，93% 的用户采纳；当 AI 给出错误答案时，仍有 80% 的用户采纳。两者的差距只有 13 个百分点，人类几乎没有区分对错的能力。

　　在超过 9500 次试验中，参与者有 73.2% 的概率接受错误的 AI 推理。

　　更可怕的数据是信心值。使用 AI 的那组人，对自己答案的信心比不用 AI 的人高出 11.7 个百分点，尽管这个 AI 有一半时间在给出错误答案。

　　错得更自信，这才是最扎心、最可怕的。

　　打个不太恰当但贴切的比方：相当于一个医生有 50% 概率开错药，但病人 80% 的时候还是照吃不误，吃完还觉得自己好多了。

　　研究者还测试了时间压力的影响。

　　设置 30 秒倒计时后，参与者纠正错误 AI 的倾向下降了 12 个百分点，也就是说，越忙越容易投降。

　　但现实中，谁用 AI 不是因为忙？

　　「信任，但要核实」

　　这走得通吗？

　　深度伪装的 AI 幻觉，比一眼识破的错误更令人头疼。

　　据《华尔街日报》最新报道，微妙错误的频率在不同模型之间差异极大，而且极难准确评估。

　　谷歌曾对《华尔街日报》表示，Gemini 出现幻觉的情况比其他模型更少，而从整个 AI 行业上来看，先进模型明显错误的幻觉率也的确在不断降低。

　　Vectara 幻觉率排行榜：头部模型在简单摘要任务上幻觉率已低于1%，但这只是最容易的测试。当文档长度和复杂度提升后，同样的模型幻觉率飙回 10% 以上。明显的错越来越少，隐蔽的错并没有消失。

　　可这恰恰也是问题所在。

　　Okahu 创始人兼 CEO Pratik Verma 甚至说过这样一句话：

　　一个东西要是一直都错，反倒有个好处：你知道它不值得信。但如果它大多数时候都对，只是偶尔出错，那才是最麻烦、也最危险的情况。

　　这句话道破了当下 AI 幻觉的核心困境。

　　比如，FinalLayer 联合创始人 Vidya Narayanan 就踩了这个坑。

　　她给一个智能体很有限的指示，让它帮忙管理一个软件项目。结果这个智能体未经允许，把她代码仓库里的整个文件夹都删了。

　　更有意思的是后面的事。

　　她用 Claude 头脑风暴了一个半小时，然后让它把对话总结成文档，还把她的名字改成了「Vidya Plainfield」。

　　而且当她追问「Vidya Plainfield」是谁时，Claude 却答道「你说得对，那完全是我编出来的」。

　　这让 Narayanan 认识到，AI 使用并没有那么省事和好用，因为必须不停审查和核实 AI 输出，这会带来「认知负担」。

　　你用 AI 是为了提高效率，但如果还要为此花一个小时核实 AI 五分钟的产出，这个提效的故事还讲得通吗？

　　沃顿的研究也指出，奖励和即时反馈确实能提高纠错率，但无法根除认知投降。

　　即使在最优条件下（有金钱激励、有逐题反馈），AI 用户在面对错误 AI 时的准确率依然从 Brain-Only 的 64.2% 降到了 45.5%。

　　所以，「信任但核实」这听起来很理性，但当 AI 每天替你处理几百件事的时候，你根本没有时间和精力去核实每一件。

　　而这正是「认知投降」发生的温床。

　　越聪明，越危险

　　很多人第一反应是：这不就是在说 AI 还不够好吗？等技术迭代几轮，幻觉率降到足够低，问题自然解决。

　　但沃顿的研究揭示了一个更深层的问题：「认知投降」的出现，不是因为 AI 太差，恰恰是因为 AI 太好。

　　研究者也承认，「认知投降并不必然是不理性的」。

　　尤其是在概率推理和海量数据处理中，把判断权交给一个统计上更优越的系统，完全有可能给出比人类更好的结果。

　　但正是这一点，让问题变得无解。

　　AI 越强，用户越依赖；用户越依赖，纠错能力越退化；纠错能力越退化，那些剩下的、更精细的错误就越致命。

　　而且让 AI 替你思考，你的推理水平就永远也不可能超过那个 AI。这是一个正反馈所带来的「死亡螺旋」，一个无法靠技术迭代解决的 bug。

　　同样，人类也没有很好的方法去区分「该信 AI 的场景」和「不该信 AI 的场景」。

　　就在 Summer Yue 安装 OpenClaw 后邮箱被清空后，AI 研究员 Gary Marcus 曾将这种做法比做「像在酒吧里把电脑密码和银行账户信息交给一个陌生人。」

　　但在真实的 AI 使用场景里，你往往很难判断，AI 到底值得信任，还是只应该像对一个陌生人那样保持必要的距离。

　　OpenAI 在一篇讨论模型幻觉的论文中提到，大模型的幻觉并不只是一个可以修复的 bug，更像是模型在既有激励机制下学会的行为：比起承认「不知道」，它更倾向于给出一个看似完整的答案。

　　https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com

　　再回到开头 Olson 的故事。

　　当他以为自己的 Gmail 被盗时，他求助于 Gemini。Gemini 的回应是：「我当然想帮你处理这件事。」

　　他没意识到的是，自己在向一个刚刚制造了麻烦的系统求助，请它处理由它自己造成的问题。

　　那一刻，他已被 AI 的幻觉困在一个自洽的闭环里。

　　Olson 说，自己现在对 AI 的态度是「信任，但核实」。

　　可难题是：当 AI 的输出比你的判断看起来更流畅、更自洽，甚至更像「专业意见」时，你还能拿什么去核实？

　　当那个替你买朗姆酒的 Priscilla，比你的真实朋友更像你的朋友，你又该凭什么分辨？

　　AI 最大的风险，不是它不够聪明，而是它聪明到当你过于依赖它时，放弃了自己的判断。

　　参考资料：

　　https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1

　　https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

偷改简历删光邮件：AI幻觉进化，你的大脑正在悄悄投降

我们的产品

相关链接

关于我们

联系我们