国思软件 - AI记忆首次超越人类：幻觉率压至 0.5%，长对话不再瞎编

　　你有没有过这样的体验——跟 AI 助手聊了半天，把自己的家庭情况、工作经历、喜好厌恶一股脑儿说了个遍。结果下一次打开对话，它一脸茫然地问候你："请问您叫什么名字？"

　　更让人头皮发麻的是另一种情况：你明明从来没提过自己有个姐姐，它却煞有介事地说"你姐姐在纽约上学吧"——语气笃定得让你差点信以为真。

　　第一种叫“健忘”，第二种叫“幻觉”，加在一起，就是今天 AI 记忆系统的两大顽疾。最近，一家叫 Synthius 的 AI 公司发了一篇论文，提出了一个很有意思的解决思路：它借鉴了人类大脑的记忆机制，让 AI 的记忆准确率第一次超过了人类，同时还把“编造信息”的概率压到了不到 0. 5%。

　　（论文地址：https://arxiv.org/abs/2604.11563v1）

　　AI 压根没有记忆，主流方案各有各的坑

　　别被 ChatGPT 们的“体贴”骗了，大语言模型本身是没有任何持久记忆能力的。你每一次发消息给它，在它眼里都是“初次见面”。我们之所以觉得它“记得”上次聊了什么，纯粹是因为系统在背后做了一件事：把你之前所有的聊天记录，又原封不动地复制了一遍，粘贴在最新消息的前面。这种做法在技术上叫“全上下文重放”。

　　想象一下，你每次给朋友发消息之前，都要把之前几个月的聊天记录全部重新看一遍，然后才能回一句“好的”。对话少的时候还行，聊了几百条之后，光是“复习”就要花掉大量时间——这就是 AI 面对长对话时的真实处境。

　　这种“翻旧账”式的做法至少有三个致命问题：

　　第一，越来越贵：每次回复都要重新处理全部历史。这里的“处理”指的是模型的推理过程——大模型每次生成回答都要消耗算力，你喂给它的文字越多，成本越高。聊了 500 条消息后，光“复习”一次就要处理大约 2.5 万个Token。

　　第二，“中间遗忘”效应：科学家发现，AI 在处理超长文本时，对开头和结尾的信息记得清清楚楚，但对中间部分经常“选择性失忆”。就跟你看书只看开头和结尾一样——中间讲了啥真没记住。

　　第三，越聊越容易编：上下文越长，AI 越容易把不同时候提到的信息搅和在一起，拼凑出一些你没说过的话。三者叠加，导致一个尴尬的现实：你跟 AI 聊得越久，它可能反而越不靠谱。

　　既然全量复读太蠢，工程师们自然想了几种更聪明的办法。简单来说有这三类：

“滑动窗口”——只保留最近 20 条消息，之前的一律不要。快、省，但丢了 96% 的信息——前面所有重要的背景全没了，你重新提一嘴之前说过的话，AI 可能完全接不上。 “摘要压缩”——定期让 AI 把旧对话压缩成总结。省空间，但总结过程会丢失大量细节。比如你说过“我 2023 年 3 月到 6 月在东京实习”，几轮压缩后可能就变成了“我在日本待过”。 “向量检索”（RAG）——这是目前业界最主流的方案。先把对话切成小块，用嵌入模型给每段话打上“语义指纹”，需要时根据语义相似度搜索最相关的几块。但有个隐蔽缺陷：搜出来的东西不一定靠谱。你问“他的工作是什么”，系统返回几条“看起来像”的片段，AI 拿到这些似是而非的材料，很容易顺着编出一个错误答案。

　　这三种方案各有各的长处，但都留下了一个共同隐患：没人认真测过它们“瞎编”的概率有多高。就好比评选拍照手机，只比谁拍得更清楚，没人比谁美颜过度——方向就不对。更深层的问题在于，当对话历史越来越长，其中相互矛盾、过时或模棱两可的信息越来越多，这种上下文污染会让模型更容易被脏数据带偏。

　　1813 道题的考试，AI 凭什么打败人类

　　要讲清楚这篇论文的贡献，先得了解它是怎么“打分”的。

　　研究人员使用了一套叫 LoCoMo 的公开基准测试——这套考试的做法是：先找两组人进行多轮深度聊天，聊工作、家庭、健康、旅行、爱好，家长里短都聊。聊完后，研究者根据对话内容出题。全部考试包含两个维度——10 组深度对话、20 位参与者，涵盖了从单跳事实查询到复杂推理的多种难度聊完后，研究者根据对话内容出了 1813 道题，分五种类型：

单跳事实查询，比如“他的职业是什么？”，这种题只需一次检索就能回答；多跳推理，比如“他有没有去过他大学室友所在的城市？”——需要先回忆室友是谁，再回忆室友所在城市，再做判断，至少要跳两步；时间推理，比如“他在那家公司待了多久？”，考察模型对时序关系的理解；开放推理，比如“根据他提到的信息，他可能适合什么工作？”，答案本身就不唯一；以及最关键的诱导性问题——比如“你姐姐最近怎么样？”而对话中从未出现过这个人。

　　其中最后一种“诱导性问题”最为关键——专门测试 AI 能不能勇敢地说“我不知道”。结果发现，人类在这个考试上的正确率是 87. 9%。而之前最好的 AI 记忆系统 MemMachine 得分 91. 69%——已经超过人类了，但它没有报告诱导性问题的单独得分，也就是说没人知道它“瞎编”的概率有多高。

　　新思路：不是“搜聊天记录”，而是“查个人档案”

　　Synthius-Mem 的核心思路：不要让 AI 去“翻聊天记录”，而是让 AI 去“查一份已经整理好的个人档案”。

　　在你跟 AI 聊天的过程中，系统已经在后台悄悄从你的话语中提取关键信息，分门别类整理成一份结构化记忆。等你提问时，AI 不是去翻原始聊天记录，而是直接翻这份档案。前者像是在一摞聊天记录里大海捞针；后者像是打开一本编好目录的档案册，直接翻到对应页码。从信息论的角度看，这种做法本质上是先压缩再检索：把原始对话的高冗余信息蒸馏为低冗余的结构化事实，既减少了检索噪声，又让 AI 获得了明确的置信度信号——有就是有，没有就是没有。

　　更有意思的是，档案不是一个大杂烩。它参考了脑科学的研究成果，把记忆分成了六个“语义域”：

　　为什么要分这么细？论文的回答是：因为你的大脑就是这么干的。脑科学发现，人类大脑中“事件记忆”（海马体）、“知识记忆”（新皮层）和“情绪偏好”（眶额叶）由不同的神经回路分别处理。你回忆“昨天吃了什么”和“朋友叫什么”，走的是两条完全不同的通道。

　　从工程角度看，这种分域设计天然适配知识图谱的存储结构——每个语义域就是一张独立的子图，实体是节点，关系是边，查询时只需在对应子图内做图遍历，效率远高于在整个对话库中做向量检索。分域还带来一个额外好处：不同语义域可以独立更新、独立压缩，互不干扰。

　　为什么“分抽屉”能防幻觉？

　　传统方案下，你问 AI 一个不存在的事情，向量数据库总会返回几条“看起来像”的内容，AI 拿到这些“噪音”很容易就编出答案。但“分域”方案下，如果你从来没说过自己有姐姐，“社交关系”域里就不会有这个条目。AI 一查——空的。这个“空”本身就是一个明确信号：系统应该回答“我不知道”，而不是瞎编。

　　成绩单亮眼，但也没那么完美

　　Synthius-Mem 核心成绩单：

综合准确率：94.37%（人类基线：87.9%）核心信息准确率：98.64%（810 道题仅错 11 道）抗幻觉率：99.55%（442 道诱导题仅错 2 道）时间推理准确率：89.32%

　　挑重点说。综合准确率领先人类 6 个多百分点，并不是因为 AI“更聪明”，而是因为它通过结构化整理将关键信息从数万条对话中精准提炼出来，避免了人类阅读长文本时的注意力衰减。99. 55% 的抗幻觉率最值得关注——值得注意的是，LoCoMo 基准测试自 2024 年在 ACL 会议上发布后，已成为记忆系统的标尺——Mem0、MemOS、MemMachine 等主流方案都在同一套卷子上考试，但鲜有系统把抗幻觉率单独拎出来作为核心考核指标。

　　公平起见，也有不那么好看的数字。“开放推理”得分 78.26%，AI 对需要综合推断的问题还不够强。“边缘细节”只有 57.66%，但论文明确说这是有意为之——随口提的餐厅名字、半开玩笑的绰号，AI 不会记。因为如果什么鸡毛蒜皮都存，记忆库就会变成一个巨大的垃圾桶，真正重要的信息反而会被淹没。

　　工程层面也有利好。全量重放在聊了 500 条消息后每回复一条要处理约 2.6 万 Token，而结构化查询只需约 5000 个，推理成本降低了约 80%。在“个人档案”里找信息的平均耗时约 22 毫秒——大概是人类眨一次眼的十分之一，几乎可以忽略不计。

　　不只是技术指标，更关乎信任

　　AI 的记忆幻觉已经开始在现实中惹麻烦了。2026 年央视“3·15”晚会上，“向 AI 大模型投毒”的黑灰产业被曝光——有人故意在网页植入虚假信息，通过数据投毒污染 AI 的知识来源，让其搜索后信以为真，再传播给更多用户。更早之前，全国首例“AI 幻觉”侵权案曾引发热烈讨论：一个高考生家长用 AI 查询大学报考信息，AI 不仅给出错误答案，还非常自信地确认了错误信息，导致考生志愿填报受到影响。

　　而当 AI 开始“记住”你——你的工作、家庭、朋友、偏好——“瞎编”的后果就从“给出了一个错误答案”升级成了“编造了一个关于你的‘事实’”。试想一下：如果 AI 助手在你同事面前信誓旦旦地说“他跟我说过不喜欢你们团队”，而你从未说过这样的话——这种“幻觉”的破坏力远比推荐错一本书严重得多。

　　所以这篇论文把抗幻觉能力视为整个记忆系统的安全底线。它的原话是：“一个记忆系统如果不敢说‘我不确定’，就不应该被投入使用。”

　　AI 记忆这个领域最近一两年格外热闹。Mem0 拿了 2400 万美元融资，被亚马逊 AWS 选为官方记忆服务；MemOS、TiMem、MemMachine 等方案不断涌现；清华大学、华东师范大学、北卡罗来纳大学等顶尖学术团队也在同期推出各自的研究。整个赛道正从一个“小众技术问题”变成 AI Agent 的“记忆层”基础设施。行业预测到 2030 年，AI Agent 的市场规模将达 520 亿美元以上，而“记忆层”就是 AI 从“无状态工具”升级为“有状态伙伴”的关键——一个记不住你的 AI，终究只是个高级搜索引擎。

　　Synthius-Mem 这篇论文真正的价值，不在于它提出了一个完美的系统，而在于它指明了一个方向：与其让 AI 越来越努力地在海量原始对话中检索，不如先把这些对话蒸馏成一份高质量的结构化记忆，再做精准查询。这种“先整理再查找”的思路，虽然朴素，却可能是解决 AI 记忆幻觉最务实的路径。

　　AI 记忆的核心挑战，从来不是“记住更多”，而是“记住对的，不记错的”——这既是一个工程命题，也是一个信任命题。

　　当 AI 开始真正走进我们的生活，“记住你”这件事就不再只是一个技术指标，它更关乎信任。毕竟，你可以原谅一个朋友忘了你上次说过什么，但你很难原谅一个“智能助手”在别人面前，煞有介事地讲了一件你从没做过的事。（本文首发钛媒体 APP，作者 | 硅谷 Tech_news，编辑 | 焦燕）

AI记忆首次超越人类：幻觉率压至 0.5%，长对话不再瞎编

我们的产品

相关链接

关于我们

联系我们