当AI既能修复整个代码库,又建议你“走路去洗车”,这种看似荒诞的差距不是Bug,而是理解AI能力边界的唯一正确入口。

核心观点:LLM能力的锯齿状分布并非源于技术缺陷,而是由训练数据分布的经济学逻辑与可验证性差异共同塑造的,这决定了哪些能力会被打磨成高性能高速铁路,哪些则沦为需要人手持砍刀披荆斩棘的荒野——理解这一点,远比单纯抱怨模型“不靠谱”或盲目吹捧“AGI降临”更有价值。

如果你最近用过任何一款前沿LLM,大概率体验过一种令人精分的感觉:上一秒它刚帮你优雅地重构了一个上千行的老旧代码库,让你惊呼“这玩意儿已经有了真正的理解力”;下一秒你问它一个极其简单的常识问题——比如“我的车脏了,怎么弄干净?”——它可能一本正经地告诉你:“走路去洗车。”你愣住了,觉得这对话不知该从哪里吐槽。这种体验不是个例,而是当前LLM能力分布中最显著、也最被误读的现象。多数人的第一反应是给模型贴上标签:它“聪明”或“愚蠢”,“好”或“烂”。但这两种判断都错得离谱。真正值得追问的问题是:为什么同一个模型,在同一个会话中,对两个看似难度悬殊的任务,展现出了完全相反的成熟度?答案藏在训练数据分布的经济学里,藏在可验证性的机制里,也藏在当前AI产业的价值链里。理解这个“锯齿”,就是理解我们正在与怎样的智能体打交道,以及我们应该如何与它共处。

首先必须承认一个令人不安的事实:当前LLM的“能力”本质上是一个高度优化的模式匹配引擎,这个引擎的“训练”过程,远比大多数人想象的更残酷也更功利。你问它“重构这个代码库”,它能做到,那是因为在强化学习阶段,实验室为这个任务准备了海量的、经过验证的高质量数据:正确的重构路径、运行通过的代码、可量化的性能提升反馈。每一个成功的重构案例都能被自动测试套件验证,这种闭环反馈意味着模型可以在这个领域内反复迭代、被奖励、被纠正,直到它变成一个几乎完美的“重构专家”。换句话说,当任务落在训练数据分布的核心区域——那些有明确对错、有海量示例、有自动化验证通道的领域——LLM就像一列在电气化高速铁路上飞驰的列车,动力充沛,目的明确。

但当你问它“我的车脏了怎么办”,情况就完全不同了。这个问题位于数据分布的长尾中,甚至可能根本不在分布内。尽管互联网上存在无数关于洗车的文章、视频、帖子,但它们在数据构建者的眼中往往不是“高价值训练数据”。实验室的商业逻辑决定了它们优先打包什么:高商业价值的领域,如编程、数学、法律文书、医疗诊断,因为它们对应着巨大的可货币化的市场(TAM)。至于“如何洗车”,这个问题的市场价值极低,几乎没有人愿意为这个问题的完美答案付费。更关键的是,这类问题缺乏自动化的可验证性。你无法编写一个单元测试来检查“走到洗车店”是不是最优解。因此,在强化学习阶段,模型几乎没有在这个领域获得任何正向反馈。它只能依靠预训练阶段从互联网文本中随机统计到的模式来生成答案——互联网上存在大量“走路去某地”的叙事文本,模型只是忠实地复制了那个模式。它不是在“思考”洗车的最佳方案,而是在复读它看过的一个概率最高的句子片段。这就是“锯齿”的真相:不是能力的随机波动,而是由商业优先级和可验证性共同雕刻出的能力地貌。

这种地貌直接导致了当前对LLM评价的两极化误区。一边是科技乐观主义者,看到模型能写代码、写论文、做数学题,就宣布AGI已来,未来人类只需躺平。他们忽略了一个关键事实:模型在这些领域已经经过了数万亿次验证,它熟练得像一个只会做这一件事的工匠。另一边是批评者,抓住模型在一个冷门领域可笑的失误,就断定它“毫无理解力”、“只是随机鹦鹉”。这个判断同样片面:一个能够在复杂逻辑链上保持一百步正确推导的系统,显然不是“随机”可以解释的。这两种立场都犯了同一个错误:将模型在某个特定能力维度上的表现,泛化为对整个智能体的评价。真正的图景是:LLM是一组能力密度分布极不均匀的工具集,在某些维度上已经超过了人类专家,在更多维度上则处于幼儿水平。这不是一个“好”或“坏”的评价问题,而是一个“这个工具适合做什么、不适合做什么”的工程问题。

那么问题来了:我们如何在实际应用中应对这种锯齿?答案在于承认并拥抱这种不均匀性,而不是幻想一个全能模型。第一,识别高可验证域与低可验证域。编程、数学、形式逻辑、合规审查等有明确反馈机制的任务,LLM表现接近甚至超越专家,可以大胆授权。创意写作、情感咨询、开放世界的常识推理等任务,需要人类主动介入,做为最后的审核官。第二,为低可验证域构建“可验证的壳”。如果必须让模型处理一个开放领域任务,可以将任务拆解成一系列可验证的子步骤。例如,不让LLM直接“写一份营销方案”,而是让它先“列出三条目标用户特征”,然后“针对每条特征写一个关键信息”,最后“组合成方案”。每一步都可以由人类快速审查和修正,将不确定性控制在最小单元。第三,接受一个更激进的结论:当前阶段,所谓的“通用人工智能”是一个误导性的目标。更有意义的议程是“特定能力域的深度专用化”。我们不应该要求一个模型既会写操作系统内核又会帮你选窗帘花色。更好的思路是,为不同领域的任务训练或微调出专用的模型,然后在产品层面用工程手段将它们组合成一个统一的体验界面。Karpathy在那场对话中提到的“完全由神经网络驱动的计算”,或者“agent原生经济”中对感知器、执行器和逻辑的分解,本质上都是这个思路的不同表达方式。它们共同指向一个未来:不是一个大模型统治一切,而是一群专业模型各司其职,由人类或上层协调器来调度。

当然,这种判断面临强有力的反方意见。一种常见的反驳是:模型当前在某些领域的愚笨只是暂时的,随着训练数据规模的扩大和RL算法的改进,锯齿会被逐渐磨平。这种观点认为,只要模型的知识覆盖面足够广,可验证任务足够多,它最终能对所有领域都做出合理判断。我不完全否定这种可能性,但它至少面临两个现实约束:一是数据分布的长尾是无限的,宇宙中的常识问题几乎无穷无尽,没有任何训练集能全部覆盖;二是商业激励决定了实验室永远会优先优化高价值领域,一个能完美回答“如何洗车”的模型,与一个能完美编写生产级代码的模型相比,前者的商业价值几乎为零。因此,即便技术可行,市场也不会推动这种均匀化。另一种更激进的反对意见来自部分AI研究者:他们认为当前模型的“失误”本质上是一个伪问题,因为人类的常识也是基于经验的统计模式,人类也会犯类似的语境错误。这个说法有一定道理,但它回避了一个关键区别:人类在犯错时,通常有能力意识到自己犯了错误(元认知),而LLM在犯错时对自己正在犯错的概率为零。人类可以承认“我不懂”,LLM则永远在自信输出。这种差别意味着,在需要高可靠性的场景中,我们不能把最后的决策权交给一个无法自我怀疑的系统。

在这场持续的争论中,最危险的立场不是犯错,而是过度承诺。任何一个把LLM当作“万能助手”来部署的组织,都注定会在某个不设防的角落被锯齿割伤。相反,那些真正从“能力地形图”的角度理解LLM的人,会设计出安全、高效、且有惊喜的人机协作流程。他们会知道,什么时候可以放手让模型狂飙,什么时候必须握紧缰绳。这需要一种全新的工程素养:不是评价一个模型“聪明还是笨”,而是测绘出它的能力等高线,识别出它的高速铁路和荒野。这个测绘工作,远比争论模型是否具备“意识”或“理解”来得更加紧迫和重要。因为最终,决定我们能否从AI中真正获益的,不是模型的绝对能力有多强,而是我们对自己正在使用的工具,究竟了解有多深。