LLM的锯齿形能力:为什么它能重构十万行代码却告诉你“去洗车”
一个AI可以同时做到:重新架构十万行代码库,然后建议你走路去洗车。这不是bug,这是LLM能力的本质。我们需要的不是抱怨这种不一致,而是理解它的根源,并学会在这种锯齿上生存。
核心观点:LLM的能力分布不是平坦的,而是高度锯齿化的——它在某些领域表现出超人般的性能,却在另一些基本任务上愚蠢得令人震惊,这种不对称性源自训练数据的分布、强化学习的包装以及经济激励的扭曲,理解它才是有效使用的关键。
你给一个LLM一个庞大的代码库,它花了几秒钟就理解了整个架构,然后输出了一份完美的重构方案。你继续问它:“我的车脏了,该怎么办?”它回答:“建议您步行到附近的洗车店。”你追问:“我没有步行能力。”它说:“那就打电话给拖车服务。”这是一个真实存在的行为模式,几乎每一位深度使用LLM的人都经历过。
为什么同一个AI可以在极其复杂的软件工程问题上表现出专家水平,却在一个常识性问题上表现得像个严重失忆的患者?这不是一个技术缺陷,这是LLM能力分布的本质。
我们可以用一个“锯齿形”模型来理解这种分布。想象一个图表,横轴是各种任务域,纵轴是AI在该任务上的表现。在代码重构、数学推理、文学创作等域上,这个曲线急剧上升,达到人类专家的水平;在日常生活常识、物理世界理解、时间空间推理等域上,这个曲线急剧下降,有时甚至低于一个五岁小孩。
为什么会有这种锯齿形?
答案是:训练数据的分布。LLM学到的能力,本质上是它见过的数据的函数。在代码重构这个领域,互联网上有海量的高质量数据:开源代码、技术文档、Stack Overflow的问答、代码审查记录。这些数据不仅量大,而且结构化、可验证、有明确的正误标准。因此,LLM可以在这个领域学到非常精准的模型。
但在日常物理世界知识这个领域,训练数据是混杂的、低质量的、充满矛盾的。比如,“洗车”这个概念在互联网上的数据分布是什么?可能是洗车店广告、清洗教程、车主论坛的抱怨、以及大量的无关提及。LLM从这些数据中学到的,是一个模糊的、基于统计关联的概念,而不是真实的物理世界理解。它知道“洗车”和“洗车店”经常一起出现,但它不真正理解“洗车”是一个需要你亲自动手或付费给别人的物理活动。
这种数据分布的不平衡是锯齿形的第一个来源。
第二个来源是强化学习(RL)的包装。在训练大型语言模型时,工程师们会使用RL来优化模型在特定任务上的表现。但RL的优化目标是由人类定义的,而这些人类工程师最关心的是哪些任务?显然是那些商业价值高、用户反馈明显的任务,比如代码生成、文本创作、问答系统。因此,模型在这些方向上得到了更多的RL训练,能力被进一步强化。而那些用户不太关注、商业价值不明显的任务,比如物理世界常识,RL的覆盖就很少甚至没有。
这就形成了一个正反馈循环:模型在代码领域表现好→用户更多使用它写代码→更多反馈数据→模型在代码领域表现更好。同时,模型在物理常识领域表现差→用户很少问它这类问题→缺乏反馈数据→模型在这个领域永远得不到改善。
第三个来源是经济激励。AI公司不是慈善组织,它们需要赚钱。它们优化模型是为了满足最大多数用户的需求。谁是最多用户?软件开发者。谁是最有付费意愿的用户?软件开发者。因此,把资源投入到提升代码能力上,比投入到提升物理常识上,经济回报高得多。这个逻辑无可厚非,但它导致了能力分布的极度不均衡。
反对者会认为,随着模型规模的扩大和训练数据的增加,这种锯齿形会逐渐被抹平。但这是一种错误的技术乐观主义。因为锯齿形的根源不是规模,而是分布。只要训练数据的分布仍然是偏斜的(而它永远会是偏斜的,因为现实世界的知识分布就是偏斜的),LLM的能力就必然是锯齿状的。
实际上,更大的模型可能会让锯齿变得更尖锐。因为更大的模型有更强的记忆能力,它会在那些数据密集的领域学得更好,而在数据稀疏的领域,它可能会学会更精美的借口和更复杂的胡扯。那个告诉你“走路去洗车”的AI,如果换成GPT-5,可能会编造一个更令人信服的洗车指南——但依然无法真正理解洗车的物理过程。
理解了锯齿形分布,我们的使用策略就应该是:在AI擅长的领域信任它,在不擅长的领域怀疑它。但问题在于,用户很难判断当前任务是否属于AI的擅长领域。一个在代码重构上表现专家级的AI,可能在下一次对话中的常识性问题上完全失效。这种不可预测性才是最大的风险。
因此,有效的使用策略不是寻找一种万能的AI,而是建立一种人机协作的元认知机制:人类负责判断当前任务属于哪个能力域,AI负责在该域内执行具体工作。这听起来简单,但实际上需要大量的经验和训练。这也是为什么有经验的使用者能发挥AI的最大价值,而新手则容易陷入对AI能力的过高估计。
锯齿形能力分布还有一个更深层的含义:AI的“智能”不是一种统一的、贯穿所有领域的能力,而是一种任务特异性的模式匹配。它在某些领域表现出惊人的智能,在另一些领域则完全相反。这表明,我们正在接近的通用人工智能(AGI)可能不会以一种平滑的方式出现。它可能先在某些领域表现出超人水平,然后在另一些领域保持低能,然后突然在某个领域跃升。这个过程会像锯齿一样,而不是一条平滑的曲线。
对于开发者和决策者来说,这意味着在AI项目中必须进行更精细的领域划分。你不能因为AI在代码生成上表现好,就假定它在系统架构设计上也同样可靠。你不能因为它在写文章上有创意,就假定它在事实核查上也能保持准确性。每一个应用场景都需要单独评估AI在该特定任务上的表现。
回到那个让AI去洗车的例子。如果AI的回答是“根据您的需求和设备,建议您使用以下三种洗车方法:自动洗车、自助洗车、代客洗车”,这还勉强可以接受。但它直接建议“步行到洗车店”,就已经跨过了合理的边界。这个边界在哪里?就在于AI是否理解了一个隐含的前提:用户是物理世界中的行动者,而不是一个纯数字世界的助理。
这种理解,可能是LLM永远无法真正获得的。不是因为技术不够先进,而是因为它的学习方式——从文本中学习——本质上就无法获得物理世界的真实体验。它知道“洗车”这个词的统计关联,但它不知道水的温度、海绵的触感、阳光下车漆的反光。
因此,锯齿形能力分布不是暂时的,而是结构性的。理解它、接受它、然后在它的基础上建立有效的协作,才是对待LLM的正确态度。而不是追求一种不存在的、全能的人工智能。
参考来源
- How To Set Up OpenClaw Grok Model Without Breaking Your Setup - https://www.reddit.com/r/AISEOInsider/comments/1t2yetd/how_to_set_up_openclaw_grok_model_without/
- My full strix halo tips and tricks - https://www.reddit.com/r/StrixHalo/comments/1t2h7pp/my_full_strix_halo_tips_and_tricks/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m