AI的锯齿状能力:为什么它能重构十万行代码,却建议你走路去洗车?
明明同一个模型能重构整个代码库,却会认真建议你“走到洗车店去洗车”。这种看似荒谬的能力落差,揭示了LLM能力的真实结构——一种由训练数据和强化学习塑造的“锯齿状”智能,而非均匀的通用智能。理解这种格局,比争论模型参数更重要。
核心观点:LLM的能力不是线性增长,而是高度锯齿化的:在可验证、高数据密度的领域(如编程)它已近乎超能力,但在开放、低反馈的领域(如常识推理)它仍然脆弱,理解这种锯齿格局才是有效使用AI的前提。
过去两年,我们花了太多时间争论AI能不能取代人类。但真正与AI深度协作过的人,都会遇到一个更诡异、也更实际的问题:为什么同一个模型,可以在十分钟内重构一个十万行代码的代码库,却在下一个问题里建议你“走到洗车店去洗车”?这不是一次测试的偶然失误,而是LLM能力分布的本质特征。它像一把锯齿——有些齿锋利得能切开钢铁,另一些却钝得连纸都划不破。这种能力的极端不均匀,不是Bug,而是LLM的底层逻辑决定的。如果我们不能正视并理解这种“锯齿状智能”,就永远无法真正用好AI,也无法避免一次又一次的意外翻车。
这个现象的根源,在于LLM的训练方式。预训练阶段,模型从互联网文本中学习统计规律。后训练阶段——尤其是强化学习——则是对这些规律进行筛选和强化。关键就在这里:强化学习的效果,高度依赖于反馈信号的质量和密度。在编程领域,反馈是即时且明确的:代码能不能编译,测试能不能通过,逻辑对不对,这些都可以自动验证。模型每写一行正确的代码,就得到一个正向信号;每写一行错误的,就得到一个负向信号。这种高密度的、自动化的反馈循环,让编程领域成为强化学习的“高速公路”——模型在这条路上跑得飞快,而且越跑越准。
但走出编程这个舒适区,情况就截然不同。当你问模型“我应该怎么处理我和邻居的噪音纠纷”,或者“为什么天空是蓝色的”,反馈信号几乎不存在。没有自动测试能验证你的回答是否真的解决了邻居纠纷,也没有编译器能检查你对天空颜色的解释是否符合物理教科书。这些领域的反馈是稀疏的、延迟的、模糊的。于是模型只能依赖预训练阶段学到的统计模式——那些在互联网上出现频率最高的说法,而不是真正正确的推理。这就解释了为什么模型能写出完美的Python代码,却会告诉你“走到洗车店去洗车”。在编程领域,它处于强化学习的“轨道”上;在常识推理领域,它就像一个在丛林里拿着一把砍刀的人——能砍出一条路,但随时可能走偏。
有人可能会反驳:这不就是“大语言模型没有真正理解”的老调重弹吗?不,这个结论远比“AI没有意识”更实用、更紧迫。说AI没有意识,就像说汽车没有灵魂——正确但无关紧要。说AI的能力是锯齿状的,则直接指导我们如何设计和部署AI系统。这意味着,我们不能用“通用智能”这个框架来思考AI,而应该用“能力地图”来思考:哪些任务在模型的“强齿区”?哪些在“弱齿区”?这个地图因模型而异,因训练数据而异,甚至因模型版本而异。
另一个常见的反驳是:随着模型越来越大、训练数据越来越多,这种锯齿状会逐渐被磨平,最终模型在所有领域都变得均匀强大。这种观点看似合理,但忽略了两个根本限制。第一,反馈信号的质量不会因为参数增加而自动改善。互联网上关于“如何解决邻居纠纷”的高质量反馈,远少于“如何写一个排序算法”。数据分布的不平衡是结构性的,不是规模能解决的。第二,经济因素也在起作用。前沿实验室选择在哪些领域投入强化学习资源,取决于该领域能产生多大的商业价值(TAM)。编程工具、客户服务、法律文档——这些领域有巨大的市场,所以模型在这些领域的表现会越来越好。而“帮你想出晚饭吃什么”或者“解释为什么某个人际关系建议是错的”——这些领域的商业价值低得多,因此被优化的动力也小得多。
这种锯齿状结构带来的实际挑战,比我们想象的要大得多。最大的陷阱是:用户很难事先知道一个任务处于模型的哪个能力区域。你问一个模型“用Python写一个Web服务器”,它可能完美胜任;但你问它“这段代码有没有安全漏洞”,它可能给出一个听起来很专业但实际上完全错误的答案——而你无法区分这两者,因为模型在两种情况下都表现出同样的自信。这种“自信的不确定性”是锯齿状智能最危险的特征。
面对这种格局,我们应该怎么做?第一,承认锯齿状是常态,而不是可修复的缺陷。不要期望一个模型在所有领域都同样可靠。第二,为不同的任务设计不同的验证机制。对于编程任务,自动测试是天然的护栏;对于内容创作,人工审核仍然是必需品;对于决策建议,永远需要交叉验证。第三,也是最重要的,培养一种“能力敏感度”——知道在什么场景下可以信任模型,在什么场景下必须高度警惕。这不是技术问题,而是认知习惯的问题。
从更宏观的视角看,锯齿状智能的发现,实际上重新定义了AI的“使用说明书”。它不是通用智能的初级阶段,而是一种全新的、但高度专业化的工具。就像计算器擅长算术却不懂诗意,搜索引擎擅长检索却不会创作,LLM也有它独特的强项和盲区。区别仅在于,LLM的盲区更隐蔽——因为它用流利的语言掩盖了能力的边界。
未来,随着技术的演进,这种锯齿状可能会变得更加复杂。比如,多模态模型可能会在视觉和语言的交叉领域产生新的“能力峰谷”;Agent系统可能通过工具调用扩展模型的行动范围,但同时也可能引入新的脆弱点。但底层逻辑不会变:LLM的能力永远是由其训练信号的结构定义的,而不是由人类的期望定义的。
所以,下一次当你惊讶于AI的神奇能力时,不妨也记住它那个“走路去洗车”的建议。那不是一个笑话,而是一面镜子,照出了我们正在与之打交道的智能形态——强大、诡异、不均匀,而且永远需要人类保持清醒的判断。
参考来源
- From Retrieval to Internalized Intelligence: - https://www.reddit.com/r/NPU2024/comments/1tawuei/from_retrieval_to_internalized_intelligence/
- The Approach to Yartar The Weight of Silver — Chapter Five Days nine through twenty out of Helmsblade. The road north, the safe house, and the bridge. - https://www.reddit.com/r/Forgotten_Realms/comments/1tcux6r/the_approach_to_yartar_the_weight_of_silver/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m