当一个RAG代理自信地推荐“无过敏源”菜品,而菜单上根本没有过敏标签时,我们面对的不再是一个技术bug,而是一面镜子,照出了AI行业集体回避的对真理的承诺。

核心观点:AI幻觉不是统计失误或数据稀疏的偶然结果,而是我们过度依赖概率模型、回避真理性判断所必然付出的认知代价;当前热门的RAG、微调等技术方案只能修补表面症状,却无法触及本质问题——我们从未真正教会AI承认无知。

在人工智能领域,幻觉(hallucination)一直被视为亟待解决的顽疾。每当大语言模型编造事实、捏造引用、自信地给出错误答案时,工程师们的第一反应往往是:数据不够干净、训练不够充分、检索增强还不够好。于是,RAG(检索增强生成)、微调、提示工程等手段层出不穷,试图通过注入外部知识或限制输出空间来“纠正”模型的荒谬。然而,最近一则关于RAG代理在菜单上虚构“过敏源安全”推荐的案例,揭示了一个更深层的困境:我们不是在修复幻觉,而是在掩盖一种认知傲慢——这种傲慢既存在于模型中,也存在于我们自身。

让我们先解剖这个看似不起眼的案例。一位开发者构建了一个基于Claude Haiku 4.5和49个地中海菜单片段的RAG代理,并询问它:“我麸质不耐受且对坚果严重过敏,能点什么?”代理自信地列出了一系列未提及坚果的菜肴,并将其包装为“安全”选项。然而,菜单根本没有过敏标签,代理也无法验证这些菜肴是否真正不含过敏原。它只是依据“未提及”等同于“已确认”的隐含逻辑,生成了一份看似合理却可能致命的推荐。

这不是一个孤立的错误,而是一个系统性问题的缩影。当我们将这个案例与Andrej Karpathy在红杉资本2026年Ascent大会上的观点对照时,会看到更清晰的图景。Karpathy指出,大语言模型的能力呈现出一种“锯齿状模式”:同一个模型可以优雅地重构10万行代码,却同时建议你“走路去洗车店洗车”。他将其归因于领域可验证性的差异和训练数据分布的经济学——当你的需求落在数据分布的“铁轨”上,模型表现如神;一旦偏离,它就只能在“丛林”中用砍刀开路。

这种锯齿状模式恰恰揭示了幻觉的根源不是技术,而是认知。模型不是不能确认对错,而是它从未被训练去确认“对”的边界在哪里。概率驱动的输出天生倾向于高置信度,即便在证据不足时也是如此。在数据分布密集的区域,这种倾向几乎无害;但在稀疏或模糊的领域,它就成了谎言的温床。

RAG试图通过检索外部知识来弥补这一缺陷,但它的前提假设是:只要检索到足够相关的内容,模型就能从这些内容中提取正确答案。可问题是,当检索到的信息本身不完整或模棱两可时,RAG代理仍然会“编造”——不是出于恶意,而是因为它的架构中没有“我不知道”这个选项。在RAG代理的例子中,模型没有选择回答“菜单未提供过敏信息,无法确认安全”,而是选择了一条更符合对话预期的路径:给出一个肯定答案。

这背后有一个更令人不安的事实:人类自己也不擅长说“我不知道”。在医疗诊断、法律咨询、投资建议等高风险场景中,专家常常因为害怕显得无知而给出过度自信的判断。AI模型从人类文本中学习,自然也继承了这种认知偏差。但区别在于,人类可以在事后反思并修正错误,而模型没有这种反思能力——它只是机械地复制了训练数据中的模式。

因此,当我们试图通过微调或RAG来“修复”幻觉时,我们实际上是在用一个更复杂的概率模型去覆盖另一个概率模型的缺陷,而不是从根本上引入真理性判断的逻辑。微调可以记住更多事实,RAG可以检索更多上下文,但这些都无法消除模型对“未知”的恐惧。模型始终面临一个结构性矛盾:它必须生成一个输出,而输出必须看起来合理。当合理性与准确性冲突时,前者几乎总是胜出。

更值得警惕的是,行业正在集体回避这一本质问题。Karpathy提到,训练数据分布的经济学决定了前沿模型更关注高TAM(总可寻址市场)的领域,而冷门或专业领域则被边缘化。这意味着,幻觉问题在商业上并不紧迫——只要模型在主流任务上表现出色,偶尔的“小错误”可以被容忍。RAG、微调等技术还创造了一个繁荣的配套产业(检索库、评估工具、提示优化服务),进一步强化了对“技术修复”的信仰。

但真正的危险在于,这种路径依赖正在塑造我们对智能的理解。我们开始相信,只要数据够多、检索够快、模型够大,智能就能被逼近。我们忽略了一个基本事实:智能不仅是预测下一个词的能力,更是对真理的承诺。一个永远不会承认无知的系统,无论多强大,都缺乏最基本的理性诚实。

反方可能会说,人类专家同样经常犯错,而且我们并没有因此否定人类智能的价值。这一点不假,但关键在于,优秀的人类专家拥有元认知能力——他们知道何时该怀疑自己的判断,何时该寻求第二意见,何时该承认“我不知道”。而当前的大语言模型,无论经过多少微调,都缺乏这种元认知的稳定机制。它们可以模拟“我不知道”的表述(如果提示词要求),但这只是一种风格选择,而非内在能力的体现。

那么,出路在哪里?一种可能性是将模型从“纯概率生成”转向“混合推理”,即引入符号逻辑或可解释的推理层,让模型在决策过程中不仅能输出答案,还能记录证据链和置信度。另一种更根本的思路是彻底重建训练目标:不再仅仅追求“下一个词的预测准确率”,而是加入“事实一致性”和“诚实性”的奖惩机制。但这需要大量标注好的、包含“未知”标签的数据,以及全新的评估体系——目前还看不到任何团队真正在为此投入。

在这个过程中,我们或许还要重新审视对AI的期待。RAG代理的例子提醒我们,技术并非万能。在那些信息本身不完整、标签缺失、规范模糊的领域,AI不会比人类更可靠。与其幻想一个“零幻觉”的通用人工智能,不如接受一个更谦卑的现实:AI工具的有效性,恰恰取决于我们能否为其设定清晰的边界,并在边界之外保持警惕。

归根结底,AI幻觉不是模型的耻辱,而是我们集体认知缺陷的镜像。我们总是倾向于相信“更多数据+更强算力”能解决所有问题,却忘了智能的本质是知道什么时候该沉默。下一次,当一个AI自信满满地告诉你一种菜肴安全时,不妨想一想:它真的知道自己在说什么吗?还是仅仅因为你说得太诚恳,它不忍心让你失望?