当LLM同时重写十万行代码和叫你走路去洗车：AI能力的锯齿状真相

Karpathy在Sequoia炉边谈话中提出的LLM能力锯齿模型，揭示了AI同时能重构代码库和建议你走路去洗车的荒诞现实。这并非技术缺陷，而是我们理解AI能力的全新坐标系：在可验证领域，LLM是超能力；在模糊地带，它仍是手持砍刀的丛林冒险者。

核心观点：LLM能力的锯齿状分布并非缺陷，而是其能力边界的真实反映；真正理解这一点，才是构建有效AI应用的前提，而非沉迷于技术乌托邦或全盘否定。

当我读到Karpathy在Sequoia Ascent 2026炉边谈话中，用“锯齿”来描述当前大语言模型的能力分布时，我感到一种久违的清醒。在AI热潮中，我们习惯了两个极端：要么是“AI即将取代一切”的乌托邦狂喜，要么是“AI不过是高级自动补全”的精英式轻蔑。Karpathy的表述，提供了第三条路——一种更诚实、也更实用的理解框架。他指出，同一个LLM模型，可以同时做到两件看似矛盾的事情：一方面，它能连贯地重构一个十万行代码的代码库；另一方面，它却可能建议你“走路去洗车”作为解决车辆问题的方案。这种荒谬的共存，不是bug，而是feature，是LLM能力内在的“锯齿状”的自然体现。

我们习惯了软件能力的平滑曲线：一个程序要么能处理某类任务，要么不能。但LLM打破了这种预期。它的能力分布更像是锯齿：在某些领域，它的表现惊人地平坦、高能；在另一些领域，却突然跌落深渊。Karpathy将这种锯齿的来源归结于“领域的可验证性”以及经济学因素。这个洞察至关重要：那些能够被清晰验证、有大量高质量训练数据、并且被商业公司（如OpenAI、Anthropic）在强化学习阶段重点包装的领域，就处在数据分布的“铁轨”上，模型在这些领域表现如飞。而那些模糊、难以验证、或商业价值不明确的领域，模型则像在丛林中手持砍刀开路，每一步都充满不确定性。

但真正令人兴奋的不是对锯齿形态的描述，而是它如何颠覆我们构建应用的方式。Karpathy举了三个例子，每一个都直击要害。第一个是“menugen”：一个完全被LLM吞没的应用，不需要任何传统代码，输入一张图像，输出一张图像，LLM原生地完成了所有工作。这不是加速已有流程，而是创造了一种之前不存在的东西。第二个是“用.md技能替代.sh脚本”：为什么要为一个软件的安装编写复杂的传统bash脚本？你完全可以用自然语言写出安装步骤，然后“给LLM看”。LLM作为高级的英语解释器，能智能地针对你的特定环境进行安装，并在线调试所有问题。这不仅仅是节省时间，这是从根本上改变了“技能”的定义和分发方式。第三个是LLM知识库：它从任意来源、任意格式的非结构化数据（如纯文本文章）中进行计算，这在传统代码时代是不可能的。

这些例子指向一个更深刻的变革：我们正在进入一个“agent-native economy”（智能体原生经济）。Karpathy提出，产品和服务可以被分解为传感器、执行器和逻辑，这些组件可以跨1.0、2.0、3.0计算范式进行分配。关键在于，我们如何让信息对LLM最大化地“可读”。这意味着，未来的工程技能集不再是纯粹的代码编写，而是“智能体工程”（agentic engineering）——一种设计、编排和守卫AI行为的新手艺。

当然，这种观点并非没有反对者。最直接的质疑来自Gergely Orosz的观察：有人为了“互动率”在LinkedIn上用AI生成的废话评论，烧毁自己的职业声誉。这恰恰印证了锯齿的另一面：当人们不加理解地将AI应用于社交评价这种模糊、不可验证的领域时，结果就是灾难。AI生成的废话看似流畅，但缺乏真实世界的温度与洞察，最终损害的是使用者的信誉。这并非AI本身的问题，而是使用者对AI能力边界误判的结果。

另一个反例来自Agentic Backend的讨论：框架与后端的区别。有人指出，像LangChain或n8n这样的AI框架，在原型设计“链式思考”时表现出色，但严重缺乏生产级智能体所需的底层基础设施，如有状态持久化、可靠性保证等。这再次印证了锯齿模型：在快速原型设计这个低要求、高容错的领域，框架如履平地；但在生产级部署这个对可靠性、可审计性要求极高的领域，它们就跌落锯齿的凹陷处。

还有来自LibreFang的狂热粉丝，宣称一个用Rust编写、137K行代码、单二进制、冷启动180ms的“智能体操作系统”才代表未来。这代表了另一条技术路线：通过更底层的系统设计来平滑锯齿。但这里隐藏着一个更深的陷阱：这可能是对传统软件工程范式的过度崇拜，试图用确定性系统的逻辑来解决非确定性AI的问题。锯齿状的能力分布，也许正是智能体与生俱来的“非完美”特性，而非待修补的缺陷。

回到Karpathy的核心命题：如果你想在实际中利用LLM的强大能力，同时避免其陷阱，就必须构建一个准确的LLM能力模型。这意味着，我们不能再幻想一个全能的AI，而是要接受并利用这种锯齿。对于处在铁轨上的任务（代码生成、数据总结、知识检索），我们可以大胆信任；对于丛林中的任务（情感支持、趋势预测、社会评价），我们必须保持审慎，设置人工回调，建立防错机制。

最终，这不仅仅是一个技术问题，更是一个认知框架的问题。它要求我们放弃对AI的浪漫化想象，也放弃对它的虚无主义贬抑。锯齿模型让我们看到，AI的强大与愚蠢并非矛盾，而是硬币的两面。理解这一点，我们才能从技术狂热中脱身，真正开始构建一个智能体原生经济，而不是一个AI驱动的幻觉乐园。