Karpathy在Sequoia炉边谈话中提出的LLM能力锯齿模型,揭示了AI同时能重构代码库和建议你走路去洗车的荒诞现实。这并非技术缺陷,而是我们理解AI能力的全新坐标系:在可验证领域,LLM是超能力;在模糊地带,它仍是手持砍刀的丛林冒险者。

核心观点:LLM能力的锯齿状分布并非缺陷,而是其能力边界的真实反映;真正理解这一点,才是构建有效AI应用的前提,而非沉迷于技术乌托邦或全盘否定。

当我读到Karpathy在Sequoia Ascent 2026炉边谈话中,用“锯齿”来描述当前大语言模型的能力分布时,我感到一种久违的清醒。在AI热潮中,我们习惯了两个极端:要么是“AI即将取代一切”的乌托邦狂喜,要么是“AI不过是高级自动补全”的精英式轻蔑。Karpathy的表述,提供了第三条路——一种更诚实、也更实用的理解框架。他指出,同一个LLM模型,可以同时做到两件看似矛盾的事情:一方面,它能连贯地重构一个十万行代码的代码库;另一方面,它却可能建议你“走路去洗车”作为解决车辆问题的方案。这种荒谬的共存,不是bug,而是feature,是LLM能力内在的“锯齿状”的自然体现。

我们习惯了软件能力的平滑曲线:一个程序要么能处理某类任务,要么不能。但LLM打破了这种预期。它的能力分布更像是锯齿:在某些领域,它的表现惊人地平坦、高能;在另一些领域,却突然跌落深渊。Karpathy将这种锯齿的来源归结于“领域的可验证性”以及经济学因素。这个洞察至关重要:那些能够被清晰验证、有大量高质量训练数据、并且被商业公司(如OpenAI、Anthropic)在强化学习阶段重点包装的领域,就处在数据分布的“铁轨”上,模型在这些领域表现如飞。而那些模糊、难以验证、或商业价值不明确的领域,模型则像在丛林中手持砍刀开路,每一步都充满不确定性。

但真正令人兴奋的不是对锯齿形态的描述,而是它如何颠覆我们构建应用的方式。Karpathy举了三个例子,每一个都直击要害。第一个是“menugen”:一个完全被LLM吞没的应用,不需要任何传统代码,输入一张图像,输出一张图像,LLM原生地完成了所有工作。这不是加速已有流程,而是创造了一种之前不存在的东西。第二个是“用.md技能替代.sh脚本”:为什么要为一个软件的安装编写复杂的传统bash脚本?你完全可以用自然语言写出安装步骤,然后“给LLM看”。LLM作为高级的英语解释器,能智能地针对你的特定环境进行安装,并在线调试所有问题。这不仅仅是节省时间,这是从根本上改变了“技能”的定义和分发方式。第三个是LLM知识库:它从任意来源、任意格式的非结构化数据(如纯文本文章)中进行计算,这在传统代码时代是不可能的。

这些例子指向一个更深刻的变革:我们正在进入一个“agent-native economy”(智能体原生经济)。Karpathy提出,产品和服务可以被分解为传感器、执行器和逻辑,这些组件可以跨1.0、2.0、3.0计算范式进行分配。关键在于,我们如何让信息对LLM最大化地“可读”。这意味着,未来的工程技能集不再是纯粹的代码编写,而是“智能体工程”(agentic engineering)——一种设计、编排和守卫AI行为的新手艺。

当然,这种观点并非没有反对者。最直接的质疑来自Gergely Orosz的观察:有人为了“互动率”在LinkedIn上用AI生成的废话评论,烧毁自己的职业声誉。这恰恰印证了锯齿的另一面:当人们不加理解地将AI应用于社交评价这种模糊、不可验证的领域时,结果就是灾难。AI生成的废话看似流畅,但缺乏真实世界的温度与洞察,最终损害的是使用者的信誉。这并非AI本身的问题,而是使用者对AI能力边界误判的结果。

另一个反例来自Agentic Backend的讨论:框架与后端的区别。有人指出,像LangChain或n8n这样的AI框架,在原型设计“链式思考”时表现出色,但严重缺乏生产级智能体所需的底层基础设施,如有状态持久化、可靠性保证等。这再次印证了锯齿模型:在快速原型设计这个低要求、高容错的领域,框架如履平地;但在生产级部署这个对可靠性、可审计性要求极高的领域,它们就跌落锯齿的凹陷处。

还有来自LibreFang的狂热粉丝,宣称一个用Rust编写、137K行代码、单二进制、冷启动180ms的“智能体操作系统”才代表未来。这代表了另一条技术路线:通过更底层的系统设计来平滑锯齿。但这里隐藏着一个更深的陷阱:这可能是对传统软件工程范式的过度崇拜,试图用确定性系统的逻辑来解决非确定性AI的问题。锯齿状的能力分布,也许正是智能体与生俱来的“非完美”特性,而非待修补的缺陷。

回到Karpathy的核心命题:如果你想在实际中利用LLM的强大能力,同时避免其陷阱,就必须构建一个准确的LLM能力模型。这意味着,我们不能再幻想一个全能的AI,而是要接受并利用这种锯齿。对于处在铁轨上的任务(代码生成、数据总结、知识检索),我们可以大胆信任;对于丛林中的任务(情感支持、趋势预测、社会评价),我们必须保持审慎,设置人工回调,建立防错机制。

最终,这不仅仅是一个技术问题,更是一个认知框架的问题。它要求我们放弃对AI的浪漫化想象,也放弃对它的虚无主义贬抑。锯齿模型让我们看到,AI的强大与愚蠢并非矛盾,而是硬币的两面。理解这一点,我们才能从技术狂热中脱身,真正开始构建一个智能体原生经济,而不是一个AI驱动的幻觉乐园。