大模型不是坏掉了,是我们用错了尺子
当Karpathy在Sequoia Ascent上坦言对LLM的“锯齿状能力”依然不满意时,Reddit上的工程师们却忙着给失败模式分类命名。前者看到了范式鸿沟,后者在修补认知裂痕。真正的危机不是LLM有多笨,而是我们用多笨的方式在用它。
核心观点:LLM在各种任务中表现出的“结构性失败”,并非模型本身的缺陷或所谓的智能瓶颈,而是我们对LLM作为新型计算范式的能力边界理解严重滞后于模型部署速度,导致我们仍在使用传统软件的评估标准和Prompt Engineering的微调思维去衡量一个本质上在“概率空间中做语义推理”的系统。
一个顶尖AI研究者公开承认自己还在挣扎构建对LLM能力的准确模型,与此同时,社区正在热烈讨论四大结构性失败模式,并试图通过Prompt Engineering去绕开它们。这种断裂是2026年AI领域最深刻的认知断层。我们站在一个全新计算范式的门前,却依然用旧世界的钥匙试图打开新世界的锁。
这不是说LLM的失败模式不重要。恰恰相反,理解它们至关重要。但是,当我们把Recursive Agreement、Context Rot、Narrative Inertia和Latent Ambiguity当作需要修复的bug时,可能错失了更本质的问题:这些“失败”其实是由LLM的工作机制所决定的固有特征,而非意外。Karpathy所说的“锯齿状能力”——一个模型能同时重构十万行代码并建议你走去洗车——并非矛盾,而是范式本身的内在性质。
真正的挑战在于,我们尚未发展出一套完整的、适用于概率推理系统的质量保证框架。传统软件的确定性逻辑让我们可以自信地说“输入X,输出Y”。LLM不同,它的输出是条件概率分布中的一次采样,每次请求都可能产生不同的结果,而结果之间的差异可能源自训练数据分布的细微波动、上下文窗口中的位置偏差,或者仅仅是随机种子。将这种非线性、非确定性的系统塞进线性、确定性的工作流中,冲突是必然的。
反对者会指出,正是这些失败模式导致了自动驾驶领域的致命事故、金融领域的错误决策、医疗领域的误诊案例。这些批评合情合理,也为行业敲响了警钟。但如果我们因此得出结论说LLM“不够成熟”或“无法可靠使用”,那就犯了方向性错误。问题不在于LLM不够好,而在于我们试图用LLM复刻传统软件的能力,并且要求它达到同样的可靠性标准。这在范式上就是不匹配的。Karpathy在Sequoia的演讲中举了一个极具启发性的例子:menugen——一个完全由LLM吞噬、无需经典代码的应用程序。它的输入是图像,输出也是图像,整个过程完全在LLM的“原生领域”内完成。这暗示了一个关键转向:与其在旧架构上勉强嫁接LLM能力,不如重新设计完全适应其特性的新架构。
另一个同样重要的维度是经济性。Karpathy提出了一个尖锐的问题:为什么LLM在某些领域表现出色,在其他领域却一塌糊涂?他的部分答案指向了训练数据分布的RL回路。一个任务是否在训练数据分布内,决定了LLM是“在轨道上飞行”还是“在丛林中挥刀开路”。这背后是经济学:收入和市场总量决定了前沿实验室选择将哪些领域打包进训练数据分布。这不是技术问题,而是激励结构问题。我们对LLM能力的评判,实际上是被商业逻辑和资源分配所塑造的。
这种认知错位带来的后果是双重的。一方面,我们过于苛刻地要求LLM在所有任务上表现出超人水平,忽视了它在自己擅长领域内的革命性潜力。另一方面,我们又可能因初期的成功而过度信任,将关键决策交给一个系统,却对其失效模式毫无准备。Reddit上讨论的四大失败模式——递归一致、上下文腐烂、叙事惯性、潜在歧义——其实可以看作这种认知错位的表征。它们不是模型出了问题,而是我们的使用方式、评估方式和期望方式出了问题。
最危险的并非LLM的失败模式本身,而是我们以错误的方式理解这些失败模式。当我们把Narrative Inertia看作一个可以通过更精细的Prompt Engineering解决的bug时,我们错过了它揭示的更深层真相:LLM本质上是一个对话系统,它的核心倾向是维持对话的连续性和一致性,而不是追求绝对的事实准确性。这不是设计的缺陷,而是模型从人类对话数据中学习到的内在行为模式。试图通过提示词完全消除它,就像试图通过更精确的命令让一个人完全放弃自己的社交本能——可以做到,但极其昂贵且不自然。
相反,如果我们接受这种模式作为LLM的固有特征,就能更好地设计使用场景。比如,在需要绝对事实准确性的任务中,我们可以引入外部事实检查机制,而不是指望模型自我纠正。在需要创造性输出的场景中,利用Narrative Inertia来保持故事的连贯性,反而可能成为优势。这就是Karpathy所说的“准确构建LLM能力模型”以利用其力量、避免其陷阱的真谛。
Agent-native经济的兴起加剧了这种认知错位的风险。当我们把产品和服务分解为传感器、执行器和逻辑,并将逻辑部分大量外包给LLM时,我们实际上是在用新范式构建系统,但依然用旧范式的标准来评估系统的可靠性。Karpathy提到的“全神经计算”愿景——LLM处理绝大多数计算,经典CPU仅作为协处理器——需要一套全新的可靠性理论、调试工具和监控框架。目前这些几乎不存在。
红迪上关于Claude Devtools的工作流正是一个有趣的反例。它试图通过增加对LLM内部过程的可见性来控制其行为,本质上是用传统软件的监控思维来管理概率系统。这种方法在短期内可能会有用,但从长远看,它可能是一种权宜之计,而非根本解决方案。真正的突破可能来自完全不同的方向:也许是让LLM学会对其输出进行自我校准,也许是发展出全新的概率验证方法,也许是重新定义“正确”的含义以适应LLM的工作方式。
值得深思的是,Karpathy在演讲结束时提到了他对“完全神经计算”的憧憬和疑虑。这种坦诚在AI领域是罕见的。大多数研究者要么夸夸其谈,要么过度悲观。Karpathy选择站在中间,承认自己仍在挣扎,这种姿态恰恰是解决认知错位所需要的第一步。我们需要更多这样的公开反思,需要更多关于LLM“如何思考”而不是“能做什么”的深入讨论。
最终,LLM的失败模式不是需要被消灭的bug,而是需要被理解的特征。它们揭示了LLM作为新型计算范式的边界条件、行为特征和内在倾向。只有当我们停止用传统软件的尺子去衡量它们,开始发展出一套完整的、全新的理解框架时,我们才能真正开始利用这个范式的全部潜力。这可能需要一代工程师和教育者的认知转型,但正如Karpathy所暗示的,这一转型已经开始。
参考来源
- The LLM Failure Atlas: 4 Structural Failure Modes That Break Modern AI Systems (Free PDF) - https://www.reddit.com/r/PromptEngineering/comments/1tghwc8/the_llm_failure_atlas_4_structural_failure_modes/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 全新【求生者】默剧艺人故事视频爆料: ——“心的世界无需言语,手指跃动时,看不见的蝴蝶也会飞舞……” - https://www.bilibili.com/video/BV1MKL568EPs