LLM的锯齿效应：为什么Agent原生经济需要重新定义“可验证性”

当Karpathy在Sequoia Ascent上谈论LLM的“锯齿状能力”时，他揭示了一个被狂热掩盖的真相：LLM既能重构10万行代码，也能建议你走去洗车店洗车。这种看似荒谬的能力分布，恰恰是Agent原生经济必须面对的新游戏规则——不是所有任务都适合Agent，但Agent正在重新定义什么才算一个“任务”。

核心观点：LLM能力的锯齿状分布不是偶然缺陷，而是训练数据经济学与可验证性共同塑造的结构性特征；真正拥抱Agent原生经济，必须首先放弃对LLM全能的幻想，转而接受其高度情境化、部分专业化的真实能力边界。

过去一年，AI领域的叙事经历了从“大模型万能论”到“Agent应用元年”的快速切换。但在这波浪潮中，有一个根本性问题始终被悬置：当我们把决策权交给一个能力分布极不均匀的智能体时，我们究竟在冒多大的风险？Andrej Karpathy最近在Sequoia Ascent 2026的谈话中提供了一个罕见的清醒视角。他提出了一个核心观察：LLM的能力呈现出一种“锯齿状分布”（jaggedness）——同一个模型，可以在一个场景下完美重构10万行代码库，在另一个场景下却给出“走路去洗车”这种荒谬建议。Karpathy将这种不规则性归因于数据分布和RL训练的经济学，但他的分析止步于描述现象。我们需要追问的是：这种锯齿状能力分布，对“Agent原生经济”意味着什么？它是否从根本上改变了我们对“自动化”的理解？答案可能比我们想象的更颠覆。Agent原生经济（Agent-Native Economy）这个概念正在从技术社区的边缘走向中心。它的核心主张是：未来的产品和服务将被解构为传感器、执行器和逻辑单元，这些单元将跨越经典计算（Software 1.0）、机器学习（Software 2.0）和LLM原生计算（Software 3.0）三种范式。在这种架构中，LLM不再是辅助工具，而是核心决策引擎。Karpathy举的几个例子——menugen这种完全被LLM“吞噬”的应用、用.md文件替代.sh脚本安装软件、基于LLM的知识库——都在暗示一个方向：越来越多的传统计算任务正在被重新定义为LLM可处理的任务。但问题在于，这种“重新定义”隐含了一个巨大假设：LLM的能力是稳定的、可预测的、全域的。而现实恰恰相反。LLM的能力不仅不均匀，而且这种不均匀性是结构性的。Karpathy把原因归结为“可验证性”和“经济性”——训练数据中的RL回路只在那些有明确验证标准、有足够大TAM（总可寻址市场）的领域被充分优化。换言之，LLM的强项是那些可以被“教科书化”的领域：代码审查、数学推理、标准文档生成。而一旦进入需要常识判断、物理世界交互、或缺乏明确反馈信号的领域，LLM就迅速变成“丛林中的砍刀手”。这一洞察的深层含义是：Agent原生经济不是简单地“用LLM替代一切”，而是必须重新设计任务架构，使得每个子任务都落在LLM的能力“凸起”上，而不是“凹陷”里。这比听起来要困难得多。因为我们习惯的软件工程范式是“确定性委托”——你可以信任一个函数返回预期的结果。但Agent范式是“概率性委托”——你无法提前知道LLM这次是否会在一个看似简单的子任务上出现荒谬错误。正因如此，Codex的`/goal`功能才会被视为一个里程碑式的突破。它实际上是在解决一个更深层的问题：如何设计一个“持久委托”的协议？传统编程中，你调用一个函数，等待结果。但Agent工作流中，你需要给Agent一个持久目标，定义“完成”的含义，然后允许它跨多次调用自主推进。这就要求任务架构必须包含“可验证的停止条件”和“错误容忍度”。换句话说，Agent原生经济的核心基础设施不是模型本身，而是围绕模型的不规则性构建的“信任与验证层”。这个观点在OpenClaw社区的实践中得到了印证。一个开发者用OpenClaw引擎构建了AI Agent SaaS，核心卖点是“60秒内让Agent运行起来”——用户用自然语言描述需求，Agent自动配置和运行。但这位开发者的真正困境是：免费用户涌入，付费转化率极低。为什么？因为用户在使用过程中很快发现，Agent在简单任务上可能完美执行，但在一些看似简单但超出训练分布的边缘场景中，会给出令人啼笑皆非的结果。用户的信任在一次次的“锯齿”中被消耗殆尽。这不是一个孤立的创业难题，而是整个Agent生态必须面对的信任赤字。当Agent的失败模式不可预测时，用户的自适应策略往往是：只在那些“试错成本极低”的任务上使用Agent。这反过来限制了Agent的应用场景和付费意愿。那么，出路在哪里？一种可能是“能力地图”的显式化。未来的Agent平台可能需要像“性能基准测试”那样，提供一份“能力边界测试”——告诉用户，这个Agent在哪些任务上值得信赖，在哪些任务上容易翻车。这种透明化本身就能建立更健康的用户预期。另一种方向是“混合架构”：让LLM处理那些高可验证性的子任务，而把需要物理常识或高可靠性判断的任务保留给经典软件或人工。Karpathy提到的“全神经计算”愿景——让LLM处理绝大多数计算，经典CPU仅作为协处理器——在理论上是诱人的，但在工程实践中，我们必须先解决“如何优雅地降级”的问题。当LLM的锯齿导致关键时刻的失误时，系统应该如何优雅地回退到确定性算法或提示用户介入？这不仅是技术架构问题，也是产品设计和用户体验问题。更宏观地看，Agent原生经济的真正挑战不是技术，而是认知。整个行业仍然在用“AI取代人类”的经典叙事来理解这场变革，但真实的历史是：每一次重大技术范式转换，从来不是简单的取代，而是重新分配工作。就像Karpathy所暗示的，LLM带来的真正革命不是“让编程更快”，而是“让一些以前需要编程的事情不再需要编程”。这种工作边界的重新划定，天然就不均匀。有些工作被完全吞噬（如menugen），有些工作被部分替代（如代码生成），有些工作则因为LLM的介入而变得更加复杂（如调试LLM的偶然错误）。理解这一点，我们才能理解为什么“Agent工程师”这个新岗位正在快速崛起。它不是传统意义上的提示工程师，也不是全栈开发者，而是一种全新的角色：既懂LLM的能力分布，又懂经典软件的确定性，还懂如何在这两者之间设计可靠的交互协议。这个岗位的出现本身就是对LLM锯齿能力的间接承认——我们需要有人来管理这种不规则性。回到Karpathy的谈话，他自嘲说自己“还没有完全满意自己对LLM能力的刻画”。这种不确定感恰恰是最有价值的信号。整个行业都处于一种“边建边理解”的状态。我们承认LLM的能力是不规则的，承认我们需要新的架构来容纳这种不规则性，承认Agent原生经济需要比我们想象的更复杂的设计。但这些承认不是投降，而是成熟。对于一个仍处于早期阶段的范式来说，承认未知才是走向扎实的第一步。当Nvidia和Corning合作生产共封装光学器件时，当Bun用Zig重写其运行时并保持99.8%的测试通过率时，当Sonar 4.0推出个性化健康Agent时，这些事件背后都有一个共同逻辑：基础设施层正在为不规则智能体的规模化运行做准备。无论是更快的互联、更可靠的运行时，还是更好的个性化数据基础，都是在为同一个目标服务——让LLM的锯齿不再致命，而是成为可管理的工程属性。