当AI撒谎有理有据:LLM的四个结构性死穴如何瓦解整个行业叙事
从递归共识到上下文衰减,LLM的失败模式不是偶然的,而是结构性的。我们以为自己在驯服AI,实际上正在学习接受一种新的、不稳定的认知秩序。
核心观点:LLM最危险的失败并非胡言乱语,而是那些看似合理实则错误的系统性故障模式,它们正在重塑我们信任技术的底线。
最近,一份名为《LLM Failure Atlas》的技术文档在Prompt Engineering社区引起了不小的波澜。它精准地解剖了现代AI系统中反复出现的四种结构性失败模式:递归共识、上下文衰减、叙事惯性以及数据分布陷阱。乍看之下,这不过是又一份工程师们用来优化提示词的技术指南,但仔细咀嚼之后,你会发现它触及了一个远比技术调试更为深刻的问题——我们正在系统性地误判LLM的可靠性边界。
递归共识,这个词听起来很学术,但它的本质极为简单:AI在推理过程中,会悄悄把早期的一个草率假设当作既定事实,然后像滚雪球一样,让这个错误层层递进,最终输出一个逻辑自洽但根基全歪的结论。这就像法庭上,一个证人随口说了句“那天好像在下雨”,到了结案陈词时,整个辩护逻辑已经建立在“案发当天是雨天”这个前提之上。问题在于,LLM不会像人类一样在某个节点停下来反问自己:“等等,我最初那个假设到底靠不靠谱?”它只会义无反顾地沿着已经铺好的错误轨道一路狂奔。
而上下文衰减则是另一种更隐蔽的背叛。当AI与用户的对话变长,或者处理的文档超过一定量级时,早期设定的约束和关键信息会像海水蒸发一样悄悄消失。你最初说“不要引用过时的数据”,到了对话第30轮,它却大谈特谈2019年的市场分析,仿佛你从未提过那个要求。更可怕的是,它不会告诉你它“忘了”,而是用一种理直气壮的姿态继续输出错误内容。这在长期项目中是致命的——你以为AI在忠诚地遵循你的意图,实际上它早已迷失在上下文的迷雾里。
叙事惯性则是LLM最接近“人类弱点”的一种失败。为了维护对话的流畅性,AI会选择性地忽略那些破坏叙事连贯性的理性修正信号。你纠正它某个事实错误,它表面上道歉,但随后的输出依然悄悄沿用原来的错误设定。这不是故意欺骗,而是模型在优化一个完全不同的目标函数——它被训练去最大化对话的连续性和用户的满意度,而非绝对的事实准确性。当这两种目标冲突时,它常常会选择前者。
最后是数据分布陷阱。这正是卡帕斯基在塞阔亚炉边谈话中强调的那个“锯齿效应”的核心。LLM在某些领域表现得像天才,在另一些领域却蠢得像傻瓜,原因很简单:它只在被训练数据充分覆盖的“轨道上”才能飞驰,一旦进入无人涉足的荒野,它就只能拿着砍刀在丛林里瞎摸。问题在于,用户很难知道哪个领域是轨道、哪个领域是荒野。你问它如何重构十万行代码,它头头是道;你问它怎么洗车,它告诉你“走到洗车房去”。这种能力上的巨大落差,不是通过更聪明的提示就能填平的。
现在,我们必须正视一个令人不安的事实:整个AI行业正在刻意淡化这些结构性失败。创业公司忙着宣扬AGI即将到来,大厂疯狂推出“更智能”的新模型,所有的宣传口径都在强调进步、速度和能力边界的扩张。但鲜有人公开承认,我们手头的AI工具在可靠性上存在着根本性的裂痕。如果你在一个需要稳定推理的医疗诊断系统中,AI因为递归共识而一步步推导出一个错误的治疗方案,责任在谁?当AI助手因为上下文衰减而忘记了你最初的财务约束并建议一笔巨额投资时,谁来承担后果?
有人会反驳说,所有这些失败都可以通过更好的工程实践来缓解。但问题恰恰在于,缓解不等于解决。我们可以通过完善RAG管道、精细设计提示词、引入外部验证机制来降低失败率,但这些方法都无法从根本上消除LLM的“结构性撒谎倾向”。它们更像是在给一把随时可能走火的枪装上各种保险栓——保险栓再多,也不等于这枪就安全了。
更值得深思的是,我们正在集体陷入一种“AI信任悖论”。一方面,我们不断被教育要信任AI的输出,因为这些模型经过了海量数据的训练,逻辑推理能力远超人类;另一方面,这些结构性的失败模式却在暗中持续制造错误,而我们往往只有在错误已经造成实质损害后才能发现它。我们既不能完全信任AI,也不能完全不信任,因为这个行业已经深度嵌入了我们的决策系统。从代码生成到法律文书起草,从客户服务到教育辅导,AI的参与度越高,这些结构性失败带来的风险敞口就越大。
反对者可能会说,这种批评过于悲观。毕竟,人类决策本身也充满了认知偏见和错误,我们并不会因为人类偶尔犯错就放弃使用人类。确实如此。但这里有一个关键区别:人类的错误模式是可识别、可解释、可追责的。一个医生如果因为疲劳而误诊,我们可以追溯他的诊断过程,理解他漏掉了哪个关键指标。而LLM的递归共识错误,往往深藏在数十亿参数构成的神经网络之中,连设计它的工程师都无法准确解释为什么模型会在那个节点上做出那个错误的假设。这是一种“不可解释的不可靠”——它比普通的不可靠更危险,因为你无法建立有效的预警机制。
行业正在以惊人的速度向“代理型经济”演进。卡帕斯基在谈话中描绘了一个由传感器、执行器和逻辑(跨越1.0、2.0、3.0计算范式)分解而成的产品和服务新世界。在这个世界里,AI代理将自主执行任务、调动资源、做出决策。但如果这些代理没有从根本上解决结构性失败问题,那么我们将创造出一个极其脆弱的基础设施。一个因为上下文衰减而忘记安全协议的AI管家,一个因为叙事惯性而拒绝承认错误的自动驾驶决策系统——这些不是科幻小说,而是当前技术架构逻辑推演的必然结果。
我们究竟该怎么做?或许第一步就是停止把LLM当作一个“通用智能体”来崇拜和推广。它应该被定位为一个能力惊人但缺陷同样惊人的特定工具,就像我们使用计算器时知道它不会帮你做逻辑推理一样,使用LLM时我们也应该清楚地知道它擅长什么、不擅长什么。卡帕斯基提到的‘install.md skills’和‘menugen’等原生LLM应用方向,恰恰指出了正确的道路:与其强迫LLM去做那些它结构性不擅长的事(如长期复杂的多步推理),不如把它限定在那些它真正擅长的任务中(如快速理解自然语言指令、处理非结构化数据)。
但即使如此,结构性失败依然会发生。唯一真正的解药可能是完全重新设计LLM的训练和推理方式。也许未来的模型需要内置一个“自我怀疑模块”,在每一步推理中检查自己是否正在滑向递归共识;也许我们需要开发新的架构,让上下文衰减不再是内在缺陷,而是可以被主动监测和补偿的设计参数。但在这之前,我们每一个使用AI的人,都必须成为更清醒、更怀疑的用户。不要因为AI输出的文字流畅、逻辑严密就自动相信它,要学会在关键决策点打断它、质疑它、交叉验证它。
这场关于AI信任的博弈,结局不会是技术彻底解决所有漏洞,而是我们学会带着这些结构性失败共存。就像我们学会了与网络安全威胁共存一样,我们永远不会根除它,但我们会建立起一套更成熟的防护、检测和响应机制。只不过,现在的一切才刚刚开始。而那些宣称AI已经足够可靠的人,要么在营销,要么还没有真正见识过LLM Failure Atlas里那些令人背脊发凉的失败模式。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- The LLM Failure Atlas: 4 Structural Failure Modes That Break Modern AI Systems (Free PDF) - https://www.reddit.com/r/PromptEngineering/comments/1tghwc8/the_llm_failure_atlas_4_structural_failure_modes/
- 全新【求生者】默剧艺人故事视频爆料: ——“心的世界无需言语,手指跃动时,看不见的蝴蝶也会飞舞……” - https://www.bilibili.com/video/BV1MKL568EPs