为什么你的AI代理既可以重构十万行代码，又建议你步行去洗车？

Karpathy在红杉的一次内部谈话中，点出了一个令所有开发者困惑的核心问题：为什么同一个AI模型，能在重构十万行代码库的同时，给出“步行去洗车”这种荒诞建议？这背后并非模型缺陷，而是一套冷酷的经济逻辑。

核心观点：AI代理的“锯齿状”能力分布不是缺陷，而是经济激励与训练数据分布的必然结果，理解这一点是构建可靠代理经济的前提。

如果你在过去几个月里尝试过用AI代理来编写代码，你很可能已经撞上过那堵看不见的墙。你让它重构一个十万行的代码库，它干得漂亮；你接着让它处理一个稍微有点模糊的依赖冲突，它忽然就变成了一个刚学会编程的实习生，开始胡言乱语。这种极端的能力摇摆，被AI界称为“锯齿状能力分布”。大多数人，包括很多硅谷的工程师，都把这种现象归结为模型本身的缺陷，认为只要继续堆算力、加参数，迟早有一天能填平这些锯齿。

但Andrej Karpathy在一次红杉内部的炉边谈话中提出了一个更具解释力的框架：这些锯齿不是随机的缺陷，它们是由经济激励和训练数据分布共同刻画的必然结果。Karpathy指出，你的AI代理在逻辑清晰的领域表现出色，是因为那些领域——比如代码重构——有明确的答案边界、丰富的公开数据集、以及巨大的商业价值。OpenAI、Anthropic、Google这些前沿实验室，花费了数百万美元，通过强化学习将这些领域的“轨道”铺得又平又直。一旦你的问题偏离了这些轨道，你就不再是在铺好的铁路上行驶，而是在丛林里拿砍刀开路。

这句话背后的逻辑非常冷酷：AI模型的训练，本质上是一个高度市场化的过程。那些拥有最大市场规模、最容易验证的领域——比如代码生成、翻译、数学推理——获得的训练资源最多，模型在这些领域的表现自然最好。而那些缺乏明确经济回报的领域——比如“如何判断一个用户是真的需要洗车还是只想要个段子”——根本不在训练优化的射程之内。这不是偏见，这是资本的理性选择。

如果我们把Karpathy的框架往前推一步，就能看到一个更深层的结构性问题：当前的AI代理生态，正在被一种“能力假象”所笼罩。很多公司和开发者，因为看到模型在编程领域的惊人表现，便想当然地认为它可以处理一切与其相关的任务。他们忽略了，一个在代码重构上表现完美的模型，在理解客户的真实意图时可能连一个普通人类都不如。这种误解正在导致一个危险的趋势：越来越多的产品开始过度依赖AI代理，却没有为它建立足够的外围安全网。

Karpathy提到的另一个案例——menugen——则展示了一个相反的、可能更健康的方向。这个应用完全由LLM驱动，不需要任何传统的软件代码。它的输入是一张图片，输出也是一张图片，中间的所有逻辑都由AI原生地完成。这听起来很酷，但它之所以能成功，恰恰是因为它严格地将自己的问题域限制在了AI的“能力轨道”之内。它不做任何需要跨出这个轨道的事情。这是一种极其清醒的设计哲学：知道AI能做什么，更重要的是，知道它不能做什么。

这种设计哲学的延伸，就是所谓“代理原生经济”的出现。Karpathy认为，未来的产品和服务的分解方式将发生根本性转变。传统上，我们按照功能来分解产品：前端、后端、数据库、API。但在代理原生经济中，分解的单位变成了传感器、执行器和逻辑。逻辑部分可以再进一步分解为：哪些部分可以交给LLM处理（2.0范式），哪些部分必须由经典代码控制（1.0或3.0范式）。这种分解方式的目的，正是为了管理和规避AI的锯齿状能力分布。

当然，这个框架并非没有反例。有一些领域，虽然市场很大，但因为答案验证的难度极高，训练效果并不好。比如法律咨询和医疗诊断，它们的市场规模绝对不小，但高昂的错误代价和复杂的验证流程，使得训练出一个可靠的模型比训练一个编程助手要昂贵得多。这也是为什么我们至今没有看到一个真正可靠的“AI医生”的原因。

此外，边缘案例的存在也对这个框架构成了挑战。有些任务，市场规模很小，但只需要极少的逻辑能力，比如“帮用户在日历上创建一个提醒”。这类简单的任务，模型几乎不会出错，但因为市场规模小，前沿实验室通常不会专门优化。不过，它们往往可以通过简单的提示工程来实现。这提示我们：锯齿状能力分布并不是一个绝对的概念，它只是告诉我们，在复杂任务上，能力的分布高度不均匀。

那么，一个务实的AI产品经理应该怎么做？答案很明确：不要假设你的AI代理是万能的。在设计产品架构时，你必须为AI代理划定一个清晰的能力边界，在这个边界内，它是最优的；边界之外，你必须设计可靠的降级逻辑。比如，当一个AI代理不确定用户的意图时，它应该主动询问用户，而不是自作聪明地给出一个可能错误的答案。这听起来像是常识，但在当前的产品设计中，很少有人真正遵循。

Karpathy还提到了一个有趣的未来设想：通过“安装.md技能”而不是“安装.sh脚本”来配置软件。这个概念的精髓在于，利用LLM作为英语的高级解释器，让它可以智能地适应不同的安装环境和调试问题。这本质上是对锯齿状能力分布的一种逆向利用：既然LLM在处理模糊、非结构化的信息方面表现优异，那就把那些需要适应性和灵活性的任务交给它；而那些需要精确、可重复的操作，则留给经典代码。

这种分工，才是AI代理经济真正的核心。它不是要用AI取代所有代码，而是要找到一套最优化的人机协作模式。在这个模式中，AI代理负责那些信息模糊、逻辑要求不高的创造性工作，经典代码负责那些需要确定性、可靠性的机械性工作。两者之间通过清晰的接口进行通信，而不是试图让AI代理去做所有的事情。

回到最初的问题：为什么同一个AI代理既可以重构十万行代码，又建议你步行去洗车？因为它被训练在重构代码的铁轨上，而在“理解洗车需求”的丛林里，它只是在拿砍刀乱砍。这个事实不是什么需要修复的bug，而是AI经济的基本定律。接受这个定律，并以此为基础来设计你的产品和服务，才是通往可持续的AI代理经济的唯一道路。