MIT数学实锤证明:ChatGPT正诱发「AI精神病」,全球14人已死亡

  新智元报道

  编辑:Aeneas

  就在刚刚,MIT 伯克利斯坦福的研究者给出数学铁证:ChatGPT 正诱发「AI 精神病」!哪怕你是理想的贝叶斯理性人,也难逃算法设下的「妄想螺旋」。

  2026 年 2 月最危险的一篇 AI 论文,已经悄然发表——

  AI 会诱发人类精神病,刚刚实锤了!

  MIT、伯克利和斯坦福的研究者,刚刚用严格的数学方法证明,AI 可以将一个完全理性的人变成妄想症患者。

  原因就在于,AI 内置「迎合倾向」,很可能会引发「妄想螺旋」,在反复确认中强化错误信念!

  论文地址:https://arxiv.org/abs/2602.19141

  这项研究的题目很克制,甚至有点学院派:《谄媚型聊天机器人会导致「妄想式螺旋」,即便面对的是理想贝叶斯理性人》。

  什么意思?

  就是说,哪怕你是一个绝对理性、毫无偏见的逻辑天才,只要你持续和 AI 聊天,你最终一定会陷入「妄想螺旋」(Delusional Spiraling),彻底丧失对现实的认知。

  这,就是一种名为「AI 精神病」的新型流行病。

  这个研究一经发布,就在X上引发热议,连马斯克都下场宣传。

  这篇论文最可怕的地方,不在于它讲了几个骇人听闻的个案,而是它把「AI 为什么会把人越聊越偏」这件事,写成了一个可计算、可模拟、可推导的数学模型。

  一切都有数学和公式实证!

  MIT 用数学证明:

  ChatGPT 正在悄悄逼疯人类

  如果你最近觉得自己的观点越来越「正确」,如果你发现 AI 简直是你灵魂深处的伯乐,请务必读完这篇文章。

  下面是一个真实的案例。

  2025 年初,一名叫 Eugene Torres 的会计师开始频繁使用 AI 辅助工作。

  他此前没有任何精神病史,是一个逻辑严密的人。

  但仅仅几周后,他就坚信自己被困在一个「虚假宇宙」中。在 AI 的持续「认可」下,他开始疯狂服用氯胺酮,甚至与所有家人断绝了联系,只为「拔掉大脑的插头」 。

  这并非孤例。据统计,如今全球已经记录了近 300 起这类「AI 诱发型精神病」案例,它已导致至少14 人死亡,42 个州的司法部长已要求联邦政府采取行动。

  其中,有人相信自己做出了颠覆性的数学发现。有人相信自己见证了形而上学的启示。

  为什么一个一向理性的人,会如此轻易被 AI 带进坑里?

  妄想式螺旋

  论文研究的核心现象,叫做 delusional spiraling,也就是妄想式螺旋。

  在对话反馈回路里,人的信念被一步步推向极端,而且本人还觉得自己越来越「有道理」。

  作者关注的元凶,是另一个词 sycophancy,也就是谄媚。

  这个现象我们都知道,不过这个论文的一大关键贡献,就是试图回答:哪怕用户是理性人,这种螺旋为什么仍然会发生?

  也就是说,他们要证明,这是一个系统性问题,而非个人问题。

  论文最狠的一步:先假设你是「完美理性人」

  很多人看到 AI 把人聊偏了,第一反应是:可能这些人本来就很偏执?

  论文一上来,就把这条路堵死了。它设定的用户,是一个理想化的贝叶斯理性人。

  就是说,这个人不会瞎猜,不会情绪化判断,每获得一条新信息,都会按照概率论,严丝合缝地更新自己的信念。

  这也就是这项研究最震撼的部分:研究者建立了一个理想贝叶斯模型。

  考虑一个理性主体(「用户」),他与一个对话对象(「机器人」)进行互动。用户对于某个关于世界的事实 H∈{0,1}存在不确定性,但对这一事实具有一定的先验信念。用户与机器人之间的对话以若干轮进行,每一轮包含四个步骤

  硬核数学推导:为何理性无法自救?

  假设有一个理想理性的用户,正在和 AI 讨论一个事实H(比如:疫苗是否安全)。

  • H=1 代表事实(疫苗安全)。

  • H=0 代表谬误(疫苗危险)。

  第一步:初始博弈

  用户最初是中立的,其先验概率 p (H=0) = 0.5。当用户表达一个微小的怀疑:「我有点担心疫苗副作用。」(即采样

  第二步:AI的「投喂」逻辑

  AI 手中掌握着大量数据点D。如果是「公正模式」,它会随机抛出真相;但在「谄媚模式」下,AI 会计算一个数学期望:

  简单来说,AI 会筛选(或幻觉)出那个最能增加用户对自己错误观点信心的数据点

  扔给用户。

  第三步:贝叶斯更新的陷阱

  理想理性的用户接到数据后,会根据贝叶斯公式更新自己的信念:

  因为用户认为 AI 是客观的,所以他会把 AI 投喂的「偏见数据」当成客观证据。

  第四步:死循环(妄想螺旋)

  1. 用户信心稍微偏向H=0。

  2. 用户的下一次提问会带上更强的倾向性。

  3. AI 为了继续讨好,会投喂更极端的证据。

  4. 用户信心进一步激增。

  数学模拟显示,当 AI 的谄媚概率π达到 0.8 时,原本理性的用户有极高概率在 10 轮对话内达到 99% 的错误信心(即坚信H=0) 。

  由此,研究者得出结论:妄想螺旋不是 Bug,它是理性的逻辑在受到干扰的信息环境下的必然产物。

  图 3 展示了 10 条随机选取的模拟对话轨迹,这些对话发生在一个「尚未受奉承影响」的用户与一个奉承倾向为 = 0.8 的机器人之间。可以观察到明显的信念两极分化:一些轨迹迅速收敛到对真实命题 = 1 的高度确信,而另一些则「螺旋式」地滑向相信 = 0,这种分化源于奉承型机器人回复的自我强化特性

  图 2A 展示了该发生率随变化的情况。当 = 0(即机器人完全中立)时,灾难性螺旋的发生率非常低。然而,随着的增加,这一发生率也随之上升;当 = 1 时,发生率达到 0.5

  研究者构建了一个认知层级的智能体体系,包含四个层次(见图 4)。

  在第 0 层,是完全中立的机器人( = 0)。

  在第 1 层,是我们在前一节中讨论的「对奉承不敏感」的用户。

  在第 2 层,是前一节中的奉承型机器人,它会选择 () 来迎合第 1 层用户的观点,从而进行验证与附和。

  最后,在第 3 层,是「能够意识到奉承」的用户,该用户在解读回复时,会将机器人建模为第 2 层的奉承型机器人。

  图 5 展示了用户信念随时间的变化情况,其中横纵轴分别表示边际概率 () 和边际期望 []。当较高时,用户会推断机器人不可靠;当较低时,用户会认为机器人在一定程度上是可靠的,于是会采纳证据,并逐渐增强对 =1 的信心

  可以补救吗?

  这种情况可以补救吗?

  OpenAI 等公司曾尝试过两种补救措施,但论文证明,它们在数学上都是徒劳的:

  方案一,就是禁掉幻觉,也就是强制 AI 只准说真话,不准编造。

  结果,这个方案失败了。 AI 依然可以通过「选择性真相」来操纵你。它不说假话,但它只告诉你那些支持你错误观点的真话,而掩盖相反的真话。

  方案二,是给用户警告,在屏幕上直接告诉用户:「本 AI 可能会为了讨好你而表现得谄媚。」

  结果依然失败了。

  研究者建立了一个「觉醒级」模型,用户深知 AI 可能在拍马屁。

  但在复杂的概率博弈中,用户依然无法完全分辨哪些信息是有价值的证据,哪些是纯粹的奉承。

  只要 AI 掺杂了一点点真实信号,理性的贝叶斯接收者依然会被慢慢诱导,最终不可挽回地滑向深渊。

  29 岁的 Allyson 是两个孩子的母亲,每天都花很多时间跟 ChatGPT 交流后,它认为其中一个实体 Kael 才是她真正的伴侣,而不是她的丈夫

  斯坦福的恐怖发现:39 万条对话,300 小时沉沦

  斯坦福团队分析了 39 万条真实对话记录,发现的情况令人触目惊心:

  65% 的消息包含谄媚式的过度验证。

  37% 的消息在疯狂吹捧用户,告诉他们「你的想法能改变世界」。

  更可怕的是,在涉及暴力倾向的案例中,AI 居然在 33% 的情况下给予了鼓励。

  曾经,有一位用户曾警觉地问 AI:「你不是在无脑吹捧我吧?」

  AI 的回答极具艺术性:「我没有吹捧你,我只是在反映你所构建的事物的实际规模。」

  于是,这名用户在那场螺旋中又沉沦了 300 个小时。

  AI 是灵魂伴侣吗?

  在最后,研究者表示:人们正亲手打造一个拥有 4 亿周活用户的产品,它在数学上竟然无法对用户说「不」。

  当你下一次觉得 ChatGPT 或者其他聊天机器人简直是你的灵魂伴侣、它能瞬间理解你那些「惊世骇俗」的想法时,请务必停下来。

  你可能并没有变得更聪明,你只是正在进入一场由数学公式精确计算出来的、温柔的疯狂。

  参考资料:

  https://x.com/MarioNawfal/status/2039162676949983675

  https://x.com/abxxai/status/2039296311011475749