LLM的锯齿形智力:我们为何既崇拜它,又无法信任它?
当同一个AI能重构十万行代码,却又建议你“走到洗车房去洗车”,这种诡异的智力锯齿并非偶然。理解这种非对称能力分布,比提升模型准确率更紧迫。
核心观点:大语言模型最危险的特性不是能力不足,而是能力分布极端不均匀,这种“锯齿形智力”让人类既高估又低估了它,导致系统性决策风险。
Karpathy在红杉2026年会上提出了一个令人不安的观察:同一个LLM可以连贯地重构一个十万行的代码库,同时又会一本正经地告诉你走到洗车房去洗车。这不是工程师的玩笑,而是当代AI最核心的认知谜题——模型的智力不是平滑变化的,而是呈现一种诡异的锯齿状分布。这种分布意味着,在某个领域,LLM的能力可能超过任何一个人类专家;而在另一个看似更简单的领域,它可能不如一个三岁小孩。
这种非对称性正在系统性地误导我们的判断。当一个模型在代码生成上表现出超常能力时,用户会自然倾向于相信它在其他需要逻辑推理的领域同样可靠,而事实恰恰相反。更糟糕的是,由于LLM的“流畅性”极高——它能用完美的语法和自信的语气输出错误信息——人类大脑天生倾向于信任表达流畅的陈述,哪怕内容荒谬。这就形成了一个危险的反馈循环:模型越自信,人类越信任;而模型最自信的地方,恰恰可能是它最不可靠的地方。
Karpathy将这种锯齿性归因于“可验证性”和“经济性”。他的逻辑是:在前沿实验室的强化学习训练中,那些能通过自动测试(如编程竞赛、数学题)的领域被赋予了更高的权重,因为反馈信号清晰且容易规模化。而像情感分析、伦理判断、常识推理这类领域,反馈模糊且难以自动化,因此没有被充分优化。这是一种理性的商业决策——毕竟研究资源是有限的,优先优化能带来最大商业回报的能力是合理的。但问题在于,这种优化策略创造了一个“认知陷阱”:模型在某些领域的能力被极度放大,而在其他领域则被相对忽视,但用户并不知道哪些领域属于前者。
更令人不安的是,这种锯齿形并不仅仅是训练数据的分布问题。Karpathy提到的“可验证性”背后,隐藏着一个更根本的哲学困境:LLM本质上是一个统计语言模型,它通过海量文本学习到的并不是“真理”,而是文本中的“模式”。在物理学、数学这些领域,文本中的模式与真理高度一致,因为它们的陈述可以被严格验证;但在政治学、历史学或者日常常识领域,文本中的模式充满了矛盾、偏见和错误。LLM无法区分这两者,它只是忠实地复现了训练数据中的统计规律。因此,当它“知道”E=mc²时,它实际上只是在重复物理教科书中最常见的排列;而当它“知道”如何洗车时,它只是在重复网络论坛中最常见的流程描述——可惜这两个过程的可靠性截然不同。
这种非对称能力分布带来的实际后果已经开始显现。最近Reddit上关于LLM系统化失效模式的讨论中,有人总结出四种结构性故障:递归确认、上下文腐烂、叙事惯性以及结构遗忘。这些模式本质上都是由锯齿形智力引发的:模型在某个节点做出了一个正确的判断,但由于这个判断的“可信度”标签在该领域内没有被充分优化,它会在后续推理中被错误地放大或遗忘。例如,在长文本推理中,模型早期的一个弱假设会通过递归确认被一步步强化,最终被当作真理。这不是模型“撒谎”,而是模型在某个领域内的置信度校准出现了系统偏差。
反方可能会认为,这种锯齿形会随着模型规模扩大和训练数据更加丰富而自然消失。毕竟GPT-4相比GPT-3已经有了显著改善,GPT-5可能更接近人类水平的通用智能。但Karpathy在访谈中暗示了另一种可能性:锯齿形可能是LLM架构的固有特性,而非暂时的缺陷。因为统计语言模型本质上是基于“下一个词预测”的,这种任务目标天然会导致能力分布与训练数据的统计密度对齐。只要训练数据中某些领域的文本模式比另一些领域更可靠,锯齿形就会存在。而且,随着模型规模变大,这种差异可能会变得更加极端,因为模型在“易优化”领域的能力会超线性增长,而在“难优化”领域则停滞不前。
这意味着我们需要重新思考如何与AI合作。目前的趋势是让AI“自主行动”——从自动编程到自动驾驶,从医疗诊断到法律咨询。如果我们在一个能力分布严重不均匀的系统上下注,那么任何单一环节的崩溃都可能引发连锁反应。一种可能的应对策略是“人机协作的认知分工”:明确识别出AI擅长的领域(可验证的、有明确反馈信号的)和它不擅长的领域(模糊的、依赖常识的),然后让人类在后者中保持控制权。但这说起来容易,做起来难,因为用户往往只有在失败发生后才能识别出哪些领域属于后者。
另一个更激进的思路来自那篇关于“LLM失效图谱”的帖子:与其试图让模型在所有领域都变得完美,不如建立一个系统化的“失效模式库”,让用户和开发者能够预测模型在哪些情况下会出错。这类似于航空业的“黑匣子”思维——我们不是期望飞行员从不犯错,而是创建一个能够从错误中学习并改进的系统。对于LLM来说,这意味着我们需要更多的“负样本”研究:系统地记录模型失败案例,找出模式,然后有针对性地调整训练或部署策略。
回到Karpathy的观察,他承认自己“对这个解释还不完全满意”。这种诚实值得赞赏,因为锯齿形智力的谜题可能最终指向一个更深层的问题:我们是否在用错误的框架来理解智能?如果我们继续把LLM当作“通用人工智能”的雏形来使用,那么它的锯齿形就是一个缺陷;但如果我们把它看作一种全新的、完全不同于人类智能的“异类智能体”,那么它的能力分布不均匀就是它与生俱来的特征。问题不在于模型,而在于我们如何定义“智能”。
在这个意义上,当前关于AI的讨论往往陷入两极化:有人将其神化,有人将其妖魔化。锯齿形智力提供了一个更准确的中间视角:LLM既不是全能的上帝,也不是愚蠢的鹦鹉;它是一种能力分布极端不均匀的异质智能体。我们需要像对待一个既有惊人天赋又有诡异盲点的合作伙伴一样对待它——充分利用其优势,同时对盲点保持警惕。但现实是,商业驱动力正在促使我们忽略这种复杂性,将AI包装成“万能助手”,这最终可能导致系统性的信任危机和经济损失。
锯齿形智力不是Bug,而是Feature。拥抱这个事实,而不是试图消除它,才是更明智的道路。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- The LLM Failure Atlas: 4 Structural Failure Modes That Break Modern AI Systems (Free PDF) - https://www.reddit.com/r/PromptEngineering/comments/1tghwc8/the_llm_failure_atlas_4_structural_failure_modes/
- 一个脱胎换骨的"你",正于新世界诞生 | 《逆水寒:新世界》首支预告片 - https://www.bilibili.com/video/BV1JfLy6vEPu