当Karpathy在Sequoia Ascent上谈论LLM的“锯齿状能力”时,他揭示了一个被狂热掩盖的真相:LLM既能重构10万行代码,也能建议你走去洗车店洗车。这种看似荒谬的能力分布,恰恰是Agent原生经济必须面对的新游戏规则——不是所有任务都适合Agent,但Agent正在重新定义什么才算一个“任务”。

核心观点:LLM能力的锯齿状分布不是偶然缺陷,而是训练数据经济学与可验证性共同塑造的结构性特征;真正拥抱Agent原生经济,必须首先放弃对LLM全能的幻想,转而接受其高度情境化、部分专业化的真实能力边界。

过去一年,AI领域的叙事经历了从“大模型万能论”到“Agent应用元年”的快速切换。但在这波浪潮中,有一个根本性问题始终被悬置:当我们把决策权交给一个能力分布极不均匀的智能体时,我们究竟在冒多大的风险?Andrej Karpathy最近在Sequoia Ascent 2026的谈话中提供了一个罕见的清醒视角。他提出了一个核心观察:LLM的能力呈现出一种“锯齿状分布”(jaggedness)——同一个模型,可以在一个场景下完美重构10万行代码库,在另一个场景下却给出“走路去洗车”这种荒谬建议。Karpathy将这种不规则性归因于数据分布和RL训练的经济学,但他的分析止步于描述现象。我们需要追问的是:这种锯齿状能力分布,对“Agent原生经济”意味着什么?它是否从根本上改变了我们对“自动化”的理解?答案可能比我们想象的更颠覆。Agent原生经济(Agent-Native Economy)这个概念正在从技术社区的边缘走向中心。它的核心主张是:未来的产品和服务将被解构为传感器、执行器和逻辑单元,这些单元将跨越经典计算(Software 1.0)、机器学习(Software 2.0)和LLM原生计算(Software 3.0)三种范式。在这种架构中,LLM不再是辅助工具,而是核心决策引擎。Karpathy举的几个例子——menugen这种完全被LLM“吞噬”的应用、用.md文件替代.sh脚本安装软件、基于LLM的知识库——都在暗示一个方向:越来越多的传统计算任务正在被重新定义为LLM可处理的任务。但问题在于,这种“重新定义”隐含了一个巨大假设:LLM的能力是稳定的、可预测的、全域的。而现实恰恰相反。LLM的能力不仅不均匀,而且这种不均匀性是结构性的。Karpathy把原因归结为“可验证性”和“经济性”——训练数据中的RL回路只在那些有明确验证标准、有足够大TAM(总可寻址市场)的领域被充分优化。换言之,LLM的强项是那些可以被“教科书化”的领域:代码审查、数学推理、标准文档生成。而一旦进入需要常识判断、物理世界交互、或缺乏明确反馈信号的领域,LLM就迅速变成“丛林中的砍刀手”。这一洞察的深层含义是:Agent原生经济不是简单地“用LLM替代一切”,而是必须重新设计任务架构,使得每个子任务都落在LLM的能力“凸起”上,而不是“凹陷”里。这比听起来要困难得多。因为我们习惯的软件工程范式是“确定性委托”——你可以信任一个函数返回预期的结果。但Agent范式是“概率性委托”——你无法提前知道LLM这次是否会在一个看似简单的子任务上出现荒谬错误。正因如此,Codex的`/goal`功能才会被视为一个里程碑式的突破。它实际上是在解决一个更深层的问题:如何设计一个“持久委托”的协议?传统编程中,你调用一个函数,等待结果。但Agent工作流中,你需要给Agent一个持久目标,定义“完成”的含义,然后允许它跨多次调用自主推进。这就要求任务架构必须包含“可验证的停止条件”和“错误容忍度”。换句话说,Agent原生经济的核心基础设施不是模型本身,而是围绕模型的不规则性构建的“信任与验证层”。这个观点在OpenClaw社区的实践中得到了印证。一个开发者用OpenClaw引擎构建了AI Agent SaaS,核心卖点是“60秒内让Agent运行起来”——用户用自然语言描述需求,Agent自动配置和运行。但这位开发者的真正困境是:免费用户涌入,付费转化率极低。为什么?因为用户在使用过程中很快发现,Agent在简单任务上可能完美执行,但在一些看似简单但超出训练分布的边缘场景中,会给出令人啼笑皆非的结果。用户的信任在一次次的“锯齿”中被消耗殆尽。这不是一个孤立的创业难题,而是整个Agent生态必须面对的信任赤字。当Agent的失败模式不可预测时,用户的自适应策略往往是:只在那些“试错成本极低”的任务上使用Agent。这反过来限制了Agent的应用场景和付费意愿。那么,出路在哪里?一种可能是“能力地图”的显式化。未来的Agent平台可能需要像“性能基准测试”那样,提供一份“能力边界测试”——告诉用户,这个Agent在哪些任务上值得信赖,在哪些任务上容易翻车。这种透明化本身就能建立更健康的用户预期。另一种方向是“混合架构”:让LLM处理那些高可验证性的子任务,而把需要物理常识或高可靠性判断的任务保留给经典软件或人工。Karpathy提到的“全神经计算”愿景——让LLM处理绝大多数计算,经典CPU仅作为协处理器——在理论上是诱人的,但在工程实践中,我们必须先解决“如何优雅地降级”的问题。当LLM的锯齿导致关键时刻的失误时,系统应该如何优雅地回退到确定性算法或提示用户介入?这不仅是技术架构问题,也是产品设计和用户体验问题。更宏观地看,Agent原生经济的真正挑战不是技术,而是认知。整个行业仍然在用“AI取代人类”的经典叙事来理解这场变革,但真实的历史是:每一次重大技术范式转换,从来不是简单的取代,而是重新分配工作。就像Karpathy所暗示的,LLM带来的真正革命不是“让编程更快”,而是“让一些以前需要编程的事情不再需要编程”。这种工作边界的重新划定,天然就不均匀。有些工作被完全吞噬(如menugen),有些工作被部分替代(如代码生成),有些工作则因为LLM的介入而变得更加复杂(如调试LLM的偶然错误)。理解这一点,我们才能理解为什么“Agent工程师”这个新岗位正在快速崛起。它不是传统意义上的提示工程师,也不是全栈开发者,而是一种全新的角色:既懂LLM的能力分布,又懂经典软件的确定性,还懂如何在这两者之间设计可靠的交互协议。这个岗位的出现本身就是对LLM锯齿能力的间接承认——我们需要有人来管理这种不规则性。回到Karpathy的谈话,他自嘲说自己“还没有完全满意自己对LLM能力的刻画”。这种不确定感恰恰是最有价值的信号。整个行业都处于一种“边建边理解”的状态。我们承认LLM的能力是不规则的,承认我们需要新的架构来容纳这种不规则性,承认Agent原生经济需要比我们想象的更复杂的设计。但这些承认不是投降,而是成熟。对于一个仍处于早期阶段的范式来说,承认未知才是走向扎实的第一步。当Nvidia和Corning合作生产共封装光学器件时,当Bun用Zig重写其运行时并保持99.8%的测试通过率时,当Sonar 4.0推出个性化健康Agent时,这些事件背后都有一个共同逻辑:基础设施层正在为不规则智能体的规模化运行做准备。无论是更快的互联、更可靠的运行时,还是更好的个性化数据基础,都是在为同一个目标服务——让LLM的锯齿不再致命,而是成为可管理的工程属性。