一个AI可以同时做到:重新架构十万行代码库,然后建议你走路去洗车。这不是bug,这是LLM能力的本质。我们需要的不是抱怨这种不一致,而是理解它的根源,并学会在这种锯齿上生存。

核心观点:LLM的能力分布不是平坦的,而是高度锯齿化的——它在某些领域表现出超人般的性能,却在另一些基本任务上愚蠢得令人震惊,这种不对称性源自训练数据的分布、强化学习的包装以及经济激励的扭曲,理解它才是有效使用的关键。

你给一个LLM一个庞大的代码库,它花了几秒钟就理解了整个架构,然后输出了一份完美的重构方案。你继续问它:“我的车脏了,该怎么办?”它回答:“建议您步行到附近的洗车店。”你追问:“我没有步行能力。”它说:“那就打电话给拖车服务。”这是一个真实存在的行为模式,几乎每一位深度使用LLM的人都经历过。

为什么同一个AI可以在极其复杂的软件工程问题上表现出专家水平,却在一个常识性问题上表现得像个严重失忆的患者?这不是一个技术缺陷,这是LLM能力分布的本质。

我们可以用一个“锯齿形”模型来理解这种分布。想象一个图表,横轴是各种任务域,纵轴是AI在该任务上的表现。在代码重构、数学推理、文学创作等域上,这个曲线急剧上升,达到人类专家的水平;在日常生活常识、物理世界理解、时间空间推理等域上,这个曲线急剧下降,有时甚至低于一个五岁小孩。

为什么会有这种锯齿形?

答案是:训练数据的分布。LLM学到的能力,本质上是它见过的数据的函数。在代码重构这个领域,互联网上有海量的高质量数据:开源代码、技术文档、Stack Overflow的问答、代码审查记录。这些数据不仅量大,而且结构化、可验证、有明确的正误标准。因此,LLM可以在这个领域学到非常精准的模型。

但在日常物理世界知识这个领域,训练数据是混杂的、低质量的、充满矛盾的。比如,“洗车”这个概念在互联网上的数据分布是什么?可能是洗车店广告、清洗教程、车主论坛的抱怨、以及大量的无关提及。LLM从这些数据中学到的,是一个模糊的、基于统计关联的概念,而不是真实的物理世界理解。它知道“洗车”和“洗车店”经常一起出现,但它不真正理解“洗车”是一个需要你亲自动手或付费给别人的物理活动。

这种数据分布的不平衡是锯齿形的第一个来源。

第二个来源是强化学习(RL)的包装。在训练大型语言模型时,工程师们会使用RL来优化模型在特定任务上的表现。但RL的优化目标是由人类定义的,而这些人类工程师最关心的是哪些任务?显然是那些商业价值高、用户反馈明显的任务,比如代码生成、文本创作、问答系统。因此,模型在这些方向上得到了更多的RL训练,能力被进一步强化。而那些用户不太关注、商业价值不明显的任务,比如物理世界常识,RL的覆盖就很少甚至没有。

这就形成了一个正反馈循环:模型在代码领域表现好→用户更多使用它写代码→更多反馈数据→模型在代码领域表现更好。同时,模型在物理常识领域表现差→用户很少问它这类问题→缺乏反馈数据→模型在这个领域永远得不到改善。

第三个来源是经济激励。AI公司不是慈善组织,它们需要赚钱。它们优化模型是为了满足最大多数用户的需求。谁是最多用户?软件开发者。谁是最有付费意愿的用户?软件开发者。因此,把资源投入到提升代码能力上,比投入到提升物理常识上,经济回报高得多。这个逻辑无可厚非,但它导致了能力分布的极度不均衡。

反对者会认为,随着模型规模的扩大和训练数据的增加,这种锯齿形会逐渐被抹平。但这是一种错误的技术乐观主义。因为锯齿形的根源不是规模,而是分布。只要训练数据的分布仍然是偏斜的(而它永远会是偏斜的,因为现实世界的知识分布就是偏斜的),LLM的能力就必然是锯齿状的。

实际上,更大的模型可能会让锯齿变得更尖锐。因为更大的模型有更强的记忆能力,它会在那些数据密集的领域学得更好,而在数据稀疏的领域,它可能会学会更精美的借口和更复杂的胡扯。那个告诉你“走路去洗车”的AI,如果换成GPT-5,可能会编造一个更令人信服的洗车指南——但依然无法真正理解洗车的物理过程。

理解了锯齿形分布,我们的使用策略就应该是:在AI擅长的领域信任它,在不擅长的领域怀疑它。但问题在于,用户很难判断当前任务是否属于AI的擅长领域。一个在代码重构上表现专家级的AI,可能在下一次对话中的常识性问题上完全失效。这种不可预测性才是最大的风险。

因此,有效的使用策略不是寻找一种万能的AI,而是建立一种人机协作的元认知机制:人类负责判断当前任务属于哪个能力域,AI负责在该域内执行具体工作。这听起来简单,但实际上需要大量的经验和训练。这也是为什么有经验的使用者能发挥AI的最大价值,而新手则容易陷入对AI能力的过高估计。

锯齿形能力分布还有一个更深层的含义:AI的“智能”不是一种统一的、贯穿所有领域的能力,而是一种任务特异性的模式匹配。它在某些领域表现出惊人的智能,在另一些领域则完全相反。这表明,我们正在接近的通用人工智能(AGI)可能不会以一种平滑的方式出现。它可能先在某些领域表现出超人水平,然后在另一些领域保持低能,然后突然在某个领域跃升。这个过程会像锯齿一样,而不是一条平滑的曲线。

对于开发者和决策者来说,这意味着在AI项目中必须进行更精细的领域划分。你不能因为AI在代码生成上表现好,就假定它在系统架构设计上也同样可靠。你不能因为它在写文章上有创意,就假定它在事实核查上也能保持准确性。每一个应用场景都需要单独评估AI在该特定任务上的表现。

回到那个让AI去洗车的例子。如果AI的回答是“根据您的需求和设备,建议您使用以下三种洗车方法:自动洗车、自助洗车、代客洗车”,这还勉强可以接受。但它直接建议“步行到洗车店”,就已经跨过了合理的边界。这个边界在哪里?就在于AI是否理解了一个隐含的前提:用户是物理世界中的行动者,而不是一个纯数字世界的助理。

这种理解,可能是LLM永远无法真正获得的。不是因为技术不够先进,而是因为它的学习方式——从文本中学习——本质上就无法获得物理世界的真实体验。它知道“洗车”这个词的统计关联,但它不知道水的温度、海绵的触感、阳光下车漆的反光。

因此,锯齿形能力分布不是暂时的,而是结构性的。理解它、接受它、然后在它的基础上建立有效的协作,才是对待LLM的正确态度。而不是追求一种不存在的、全能的人工智能。