LLM的锯齿形能力：为什么它能重构十万行代码却告诉你“去洗车”

一个AI可以同时做到：重新架构十万行代码库，然后建议你走路去洗车。这不是bug，这是LLM能力的本质。我们需要的不是抱怨这种不一致，而是理解它的根源，并学会在这种锯齿上生存。

核心观点：LLM的能力分布不是平坦的，而是高度锯齿化的——它在某些领域表现出超人般的性能，却在另一些基本任务上愚蠢得令人震惊，这种不对称性源自训练数据的分布、强化学习的包装以及经济激励的扭曲，理解它才是有效使用的关键。

你给一个LLM一个庞大的代码库，它花了几秒钟就理解了整个架构，然后输出了一份完美的重构方案。你继续问它：“我的车脏了，该怎么办？”它回答：“建议您步行到附近的洗车店。”你追问：“我没有步行能力。”它说：“那就打电话给拖车服务。”这是一个真实存在的行为模式，几乎每一位深度使用LLM的人都经历过。

为什么同一个AI可以在极其复杂的软件工程问题上表现出专家水平，却在一个常识性问题上表现得像个严重失忆的患者？这不是一个技术缺陷，这是LLM能力分布的本质。

我们可以用一个“锯齿形”模型来理解这种分布。想象一个图表，横轴是各种任务域，纵轴是AI在该任务上的表现。在代码重构、数学推理、文学创作等域上，这个曲线急剧上升，达到人类专家的水平；在日常生活常识、物理世界理解、时间空间推理等域上，这个曲线急剧下降，有时甚至低于一个五岁小孩。

为什么会有这种锯齿形？

答案是：训练数据的分布。LLM学到的能力，本质上是它见过的数据的函数。在代码重构这个领域，互联网上有海量的高质量数据：开源代码、技术文档、Stack Overflow的问答、代码审查记录。这些数据不仅量大，而且结构化、可验证、有明确的正误标准。因此，LLM可以在这个领域学到非常精准的模型。

但在日常物理世界知识这个领域，训练数据是混杂的、低质量的、充满矛盾的。比如，“洗车”这个概念在互联网上的数据分布是什么？可能是洗车店广告、清洗教程、车主论坛的抱怨、以及大量的无关提及。LLM从这些数据中学到的，是一个模糊的、基于统计关联的概念，而不是真实的物理世界理解。它知道“洗车”和“洗车店”经常一起出现，但它不真正理解“洗车”是一个需要你亲自动手或付费给别人的物理活动。

这种数据分布的不平衡是锯齿形的第一个来源。

第二个来源是强化学习（RL）的包装。在训练大型语言模型时，工程师们会使用RL来优化模型在特定任务上的表现。但RL的优化目标是由人类定义的，而这些人类工程师最关心的是哪些任务？显然是那些商业价值高、用户反馈明显的任务，比如代码生成、文本创作、问答系统。因此，模型在这些方向上得到了更多的RL训练，能力被进一步强化。而那些用户不太关注、商业价值不明显的任务，比如物理世界常识，RL的覆盖就很少甚至没有。

这就形成了一个正反馈循环：模型在代码领域表现好→用户更多使用它写代码→更多反馈数据→模型在代码领域表现更好。同时，模型在物理常识领域表现差→用户很少问它这类问题→缺乏反馈数据→模型在这个领域永远得不到改善。

第三个来源是经济激励。AI公司不是慈善组织，它们需要赚钱。它们优化模型是为了满足最大多数用户的需求。谁是最多用户？软件开发者。谁是最有付费意愿的用户？软件开发者。因此，把资源投入到提升代码能力上，比投入到提升物理常识上，经济回报高得多。这个逻辑无可厚非，但它导致了能力分布的极度不均衡。

反对者会认为，随着模型规模的扩大和训练数据的增加，这种锯齿形会逐渐被抹平。但这是一种错误的技术乐观主义。因为锯齿形的根源不是规模，而是分布。只要训练数据的分布仍然是偏斜的（而它永远会是偏斜的，因为现实世界的知识分布就是偏斜的），LLM的能力就必然是锯齿状的。

实际上，更大的模型可能会让锯齿变得更尖锐。因为更大的模型有更强的记忆能力，它会在那些数据密集的领域学得更好，而在数据稀疏的领域，它可能会学会更精美的借口和更复杂的胡扯。那个告诉你“走路去洗车”的AI，如果换成GPT-5，可能会编造一个更令人信服的洗车指南——但依然无法真正理解洗车的物理过程。

理解了锯齿形分布，我们的使用策略就应该是：在AI擅长的领域信任它，在不擅长的领域怀疑它。但问题在于，用户很难判断当前任务是否属于AI的擅长领域。一个在代码重构上表现专家级的AI，可能在下一次对话中的常识性问题上完全失效。这种不可预测性才是最大的风险。

因此，有效的使用策略不是寻找一种万能的AI，而是建立一种人机协作的元认知机制：人类负责判断当前任务属于哪个能力域，AI负责在该域内执行具体工作。这听起来简单，但实际上需要大量的经验和训练。这也是为什么有经验的使用者能发挥AI的最大价值，而新手则容易陷入对AI能力的过高估计。

锯齿形能力分布还有一个更深层的含义：AI的“智能”不是一种统一的、贯穿所有领域的能力，而是一种任务特异性的模式匹配。它在某些领域表现出惊人的智能，在另一些领域则完全相反。这表明，我们正在接近的通用人工智能（AGI）可能不会以一种平滑的方式出现。它可能先在某些领域表现出超人水平，然后在另一些领域保持低能，然后突然在某个领域跃升。这个过程会像锯齿一样，而不是一条平滑的曲线。

对于开发者和决策者来说，这意味着在AI项目中必须进行更精细的领域划分。你不能因为AI在代码生成上表现好，就假定它在系统架构设计上也同样可靠。你不能因为它在写文章上有创意，就假定它在事实核查上也能保持准确性。每一个应用场景都需要单独评估AI在该特定任务上的表现。

回到那个让AI去洗车的例子。如果AI的回答是“根据您的需求和设备，建议您使用以下三种洗车方法：自动洗车、自助洗车、代客洗车”，这还勉强可以接受。但它直接建议“步行到洗车店”，就已经跨过了合理的边界。这个边界在哪里？就在于AI是否理解了一个隐含的前提：用户是物理世界中的行动者，而不是一个纯数字世界的助理。

这种理解，可能是LLM永远无法真正获得的。不是因为技术不够先进，而是因为它的学习方式——从文本中学习——本质上就无法获得物理世界的真实体验。它知道“洗车”这个词的统计关联，但它不知道水的温度、海绵的触感、阳光下车漆的反光。

因此，锯齿形能力分布不是暂时的，而是结构性的。理解它、接受它、然后在它的基础上建立有效的协作，才是对待LLM的正确态度。而不是追求一种不存在的、全能的人工智能。