Karpathy在红杉的一次内部谈话中,点出了一个令所有开发者困惑的核心问题:为什么同一个AI模型,能在重构十万行代码库的同时,给出“步行去洗车”这种荒诞建议?这背后并非模型缺陷,而是一套冷酷的经济逻辑。

核心观点:AI代理的“锯齿状”能力分布不是缺陷,而是经济激励与训练数据分布的必然结果,理解这一点是构建可靠代理经济的前提。

如果你在过去几个月里尝试过用AI代理来编写代码,你很可能已经撞上过那堵看不见的墙。你让它重构一个十万行的代码库,它干得漂亮;你接着让它处理一个稍微有点模糊的依赖冲突,它忽然就变成了一个刚学会编程的实习生,开始胡言乱语。这种极端的能力摇摆,被AI界称为“锯齿状能力分布”。大多数人,包括很多硅谷的工程师,都把这种现象归结为模型本身的缺陷,认为只要继续堆算力、加参数,迟早有一天能填平这些锯齿。

但Andrej Karpathy在一次红杉内部的炉边谈话中提出了一个更具解释力的框架:这些锯齿不是随机的缺陷,它们是由经济激励和训练数据分布共同刻画的必然结果。Karpathy指出,你的AI代理在逻辑清晰的领域表现出色,是因为那些领域——比如代码重构——有明确的答案边界、丰富的公开数据集、以及巨大的商业价值。OpenAI、Anthropic、Google这些前沿实验室,花费了数百万美元,通过强化学习将这些领域的“轨道”铺得又平又直。一旦你的问题偏离了这些轨道,你就不再是在铺好的铁路上行驶,而是在丛林里拿砍刀开路。

这句话背后的逻辑非常冷酷:AI模型的训练,本质上是一个高度市场化的过程。那些拥有最大市场规模、最容易验证的领域——比如代码生成、翻译、数学推理——获得的训练资源最多,模型在这些领域的表现自然最好。而那些缺乏明确经济回报的领域——比如“如何判断一个用户是真的需要洗车还是只想要个段子”——根本不在训练优化的射程之内。这不是偏见,这是资本的理性选择。

如果我们把Karpathy的框架往前推一步,就能看到一个更深层的结构性问题:当前的AI代理生态,正在被一种“能力假象”所笼罩。很多公司和开发者,因为看到模型在编程领域的惊人表现,便想当然地认为它可以处理一切与其相关的任务。他们忽略了,一个在代码重构上表现完美的模型,在理解客户的真实意图时可能连一个普通人类都不如。这种误解正在导致一个危险的趋势:越来越多的产品开始过度依赖AI代理,却没有为它建立足够的外围安全网。

Karpathy提到的另一个案例——menugen——则展示了一个相反的、可能更健康的方向。这个应用完全由LLM驱动,不需要任何传统的软件代码。它的输入是一张图片,输出也是一张图片,中间的所有逻辑都由AI原生地完成。这听起来很酷,但它之所以能成功,恰恰是因为它严格地将自己的问题域限制在了AI的“能力轨道”之内。它不做任何需要跨出这个轨道的事情。这是一种极其清醒的设计哲学:知道AI能做什么,更重要的是,知道它不能做什么。

这种设计哲学的延伸,就是所谓“代理原生经济”的出现。Karpathy认为,未来的产品和服务的分解方式将发生根本性转变。传统上,我们按照功能来分解产品:前端、后端、数据库、API。但在代理原生经济中,分解的单位变成了传感器、执行器和逻辑。逻辑部分可以再进一步分解为:哪些部分可以交给LLM处理(2.0范式),哪些部分必须由经典代码控制(1.0或3.0范式)。这种分解方式的目的,正是为了管理和规避AI的锯齿状能力分布。

当然,这个框架并非没有反例。有一些领域,虽然市场很大,但因为答案验证的难度极高,训练效果并不好。比如法律咨询和医疗诊断,它们的市场规模绝对不小,但高昂的错误代价和复杂的验证流程,使得训练出一个可靠的模型比训练一个编程助手要昂贵得多。这也是为什么我们至今没有看到一个真正可靠的“AI医生”的原因。

此外,边缘案例的存在也对这个框架构成了挑战。有些任务,市场规模很小,但只需要极少的逻辑能力,比如“帮用户在日历上创建一个提醒”。这类简单的任务,模型几乎不会出错,但因为市场规模小,前沿实验室通常不会专门优化。不过,它们往往可以通过简单的提示工程来实现。这提示我们:锯齿状能力分布并不是一个绝对的概念,它只是告诉我们,在复杂任务上,能力的分布高度不均匀。

那么,一个务实的AI产品经理应该怎么做?答案很明确:不要假设你的AI代理是万能的。在设计产品架构时,你必须为AI代理划定一个清晰的能力边界,在这个边界内,它是最优的;边界之外,你必须设计可靠的降级逻辑。比如,当一个AI代理不确定用户的意图时,它应该主动询问用户,而不是自作聪明地给出一个可能错误的答案。这听起来像是常识,但在当前的产品设计中,很少有人真正遵循。

Karpathy还提到了一个有趣的未来设想:通过“安装.md技能”而不是“安装.sh脚本”来配置软件。这个概念的精髓在于,利用LLM作为英语的高级解释器,让它可以智能地适应不同的安装环境和调试问题。这本质上是对锯齿状能力分布的一种逆向利用:既然LLM在处理模糊、非结构化的信息方面表现优异,那就把那些需要适应性和灵活性的任务交给它;而那些需要精确、可重复的操作,则留给经典代码。

这种分工,才是AI代理经济真正的核心。它不是要用AI取代所有代码,而是要找到一套最优化的人机协作模式。在这个模式中,AI代理负责那些信息模糊、逻辑要求不高的创造性工作,经典代码负责那些需要确定性、可靠性的机械性工作。两者之间通过清晰的接口进行通信,而不是试图让AI代理去做所有的事情。

回到最初的问题:为什么同一个AI代理既可以重构十万行代码,又建议你步行去洗车?因为它被训练在重构代码的铁轨上,而在“理解洗车需求”的丛林里,它只是在拿砍刀乱砍。这个事实不是什么需要修复的bug,而是AI经济的基本定律。接受这个定律,并以此为基础来设计你的产品和服务,才是通往可持续的AI代理经济的唯一道路。