当LLM同时重写十万行代码和叫你走路去洗车:AI能力的锯齿状真相
Karpathy在Sequoia炉边谈话中提出的LLM能力锯齿模型,揭示了AI同时能重构代码库和建议你走路去洗车的荒诞现实。这并非技术缺陷,而是我们理解AI能力的全新坐标系:在可验证领域,LLM是超能力;在模糊地带,它仍是手持砍刀的丛林冒险者。
核心观点:LLM能力的锯齿状分布并非缺陷,而是其能力边界的真实反映;真正理解这一点,才是构建有效AI应用的前提,而非沉迷于技术乌托邦或全盘否定。
当我读到Karpathy在Sequoia Ascent 2026炉边谈话中,用“锯齿”来描述当前大语言模型的能力分布时,我感到一种久违的清醒。在AI热潮中,我们习惯了两个极端:要么是“AI即将取代一切”的乌托邦狂喜,要么是“AI不过是高级自动补全”的精英式轻蔑。Karpathy的表述,提供了第三条路——一种更诚实、也更实用的理解框架。他指出,同一个LLM模型,可以同时做到两件看似矛盾的事情:一方面,它能连贯地重构一个十万行代码的代码库;另一方面,它却可能建议你“走路去洗车”作为解决车辆问题的方案。这种荒谬的共存,不是bug,而是feature,是LLM能力内在的“锯齿状”的自然体现。
我们习惯了软件能力的平滑曲线:一个程序要么能处理某类任务,要么不能。但LLM打破了这种预期。它的能力分布更像是锯齿:在某些领域,它的表现惊人地平坦、高能;在另一些领域,却突然跌落深渊。Karpathy将这种锯齿的来源归结于“领域的可验证性”以及经济学因素。这个洞察至关重要:那些能够被清晰验证、有大量高质量训练数据、并且被商业公司(如OpenAI、Anthropic)在强化学习阶段重点包装的领域,就处在数据分布的“铁轨”上,模型在这些领域表现如飞。而那些模糊、难以验证、或商业价值不明确的领域,模型则像在丛林中手持砍刀开路,每一步都充满不确定性。
但真正令人兴奋的不是对锯齿形态的描述,而是它如何颠覆我们构建应用的方式。Karpathy举了三个例子,每一个都直击要害。第一个是“menugen”:一个完全被LLM吞没的应用,不需要任何传统代码,输入一张图像,输出一张图像,LLM原生地完成了所有工作。这不是加速已有流程,而是创造了一种之前不存在的东西。第二个是“用.md技能替代.sh脚本”:为什么要为一个软件的安装编写复杂的传统bash脚本?你完全可以用自然语言写出安装步骤,然后“给LLM看”。LLM作为高级的英语解释器,能智能地针对你的特定环境进行安装,并在线调试所有问题。这不仅仅是节省时间,这是从根本上改变了“技能”的定义和分发方式。第三个是LLM知识库:它从任意来源、任意格式的非结构化数据(如纯文本文章)中进行计算,这在传统代码时代是不可能的。
这些例子指向一个更深刻的变革:我们正在进入一个“agent-native economy”(智能体原生经济)。Karpathy提出,产品和服务可以被分解为传感器、执行器和逻辑,这些组件可以跨1.0、2.0、3.0计算范式进行分配。关键在于,我们如何让信息对LLM最大化地“可读”。这意味着,未来的工程技能集不再是纯粹的代码编写,而是“智能体工程”(agentic engineering)——一种设计、编排和守卫AI行为的新手艺。
当然,这种观点并非没有反对者。最直接的质疑来自Gergely Orosz的观察:有人为了“互动率”在LinkedIn上用AI生成的废话评论,烧毁自己的职业声誉。这恰恰印证了锯齿的另一面:当人们不加理解地将AI应用于社交评价这种模糊、不可验证的领域时,结果就是灾难。AI生成的废话看似流畅,但缺乏真实世界的温度与洞察,最终损害的是使用者的信誉。这并非AI本身的问题,而是使用者对AI能力边界误判的结果。
另一个反例来自Agentic Backend的讨论:框架与后端的区别。有人指出,像LangChain或n8n这样的AI框架,在原型设计“链式思考”时表现出色,但严重缺乏生产级智能体所需的底层基础设施,如有状态持久化、可靠性保证等。这再次印证了锯齿模型:在快速原型设计这个低要求、高容错的领域,框架如履平地;但在生产级部署这个对可靠性、可审计性要求极高的领域,它们就跌落锯齿的凹陷处。
还有来自LibreFang的狂热粉丝,宣称一个用Rust编写、137K行代码、单二进制、冷启动180ms的“智能体操作系统”才代表未来。这代表了另一条技术路线:通过更底层的系统设计来平滑锯齿。但这里隐藏着一个更深的陷阱:这可能是对传统软件工程范式的过度崇拜,试图用确定性系统的逻辑来解决非确定性AI的问题。锯齿状的能力分布,也许正是智能体与生俱来的“非完美”特性,而非待修补的缺陷。
回到Karpathy的核心命题:如果你想在实际中利用LLM的强大能力,同时避免其陷阱,就必须构建一个准确的LLM能力模型。这意味着,我们不能再幻想一个全能的AI,而是要接受并利用这种锯齿。对于处在铁轨上的任务(代码生成、数据总结、知识检索),我们可以大胆信任;对于丛林中的任务(情感支持、趋势预测、社会评价),我们必须保持审慎,设置人工回调,建立防错机制。
最终,这不仅仅是一个技术问题,更是一个认知框架的问题。它要求我们放弃对AI的浪漫化想象,也放弃对它的虚无主义贬抑。锯齿模型让我们看到,AI的强大与愚蠢并非矛盾,而是硬币的两面。理解这一点,我们才能从技术狂热中脱身,真正开始构建一个智能体原生经济,而不是一个AI驱动的幻觉乐园。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 《重返未来:1999》无名者PV:无名无我 A Stranger Under Every Name - https://www.bilibili.com/video/BV12u5M6uEm3
- Agentic backend vs AI framework — LangChain, n8n, and what's missing - https://www.reddit.com/r/AgenticBackend/comments/1te12gy/agentic_backend_vs_ai_framework_langchain_n8n_and/