一个能重构10万行代码库的LLM,却可能建议你开车去洗车。这并非偶然故障,而是LLM能力锯齿形分布的本质体现。理解这个模式,才是Agent经济落地的真正前提。

核心观点:LLM的能力分布是极度不均衡的锯齿形,这种锯齿形的根源不仅在于可验证性,更在于经济激励决定了训练数据分布,因此构建Agent经济需要放弃全能幻想,转而设计与其能力轮廓匹配的系统架构。

我们正在经历一场对AI能力的集体误读。当Karpathy在Sequoia的炉边谈话中提到一个LLM既能“连贯地重构一个10万行代码库”,又能“告诉你开车去洗车店洗车”时,他触及了一个令无数从业者困惑的核心问题:为什么同一个智能体可以在极端复杂和极端愚蠢之间反复横跳?这并非简单的bug或幻觉,而是LLM能力分布的本质特征——锯齿形。

锯齿形意味着LLM的能力不是平滑递增的,而是在某些领域极其强大,在另一些领域却意外地脆弱。这种模式过去常被归结为任务的可验证性:编程因为可以编译、测试,结果客观,所以LLM表现优秀;而规划一次自驾游,因为涉及大量非结构化、缺乏即时反馈的决策,LLM就容易迷路。然而,Karpathy的补充才是真正的洞见——可验证性只是表面,其底层是经济逻辑:TAM(潜在市场规模)决定了前沿实验室在强化学习阶段选择将哪些数据打包进训练分布。

这意味着,LLM的“强项”本质上是资本选择的产物。当市场上存在一个价值数十亿美元的AI编程市场时,实验室有强烈的经济动机投入大量资源,让LLM在代码领域达到“超人”水平。相反,一个价值数百万的个人洗车建议市场,根本不值得投入训练资源。这不是技术能力的天然局限,而是经济激励的映射。LLM不是不聪明,而是它被训练成在赚钱的领域聪明。

这一判断对构建Agent经济有着颠覆性的启示。过去几年,我们见证了从LangChain到AutoGen再到CrewAI的框架繁荣,但这些框架大多基于一个隐含假设:智能体是通用的,只要给它足够的工具,它就能处理任何任务。LibreFang以Rust重写、强调安全与沙箱,试图通过工程手段解决智能体的可靠性,但它的设计哲学仍然没有跳出“构建一个更强、更安全的通用执行环境”的框架。真正的问题不在于框架本身,而在于我们对LLM能力的认知模型是错的。

如果我们接受锯齿形能力分布,那么Agent经济的设计原则就必须根本改变。首先,放弃“通用智能体”的幻想。一个智能体应当被设计为在特定“能力岛”上运行,即那些处于训练数据分布之内、已验证有效的领域。其次,构建能力地图。不是去测试LLM在100个基准上的得分,而是绘制出它在真实任务中的能力轮廓,明确哪些任务在“高速公路上飞驰”,哪些任务在“丛林里砍路”。第三,设计能力桥。当任务需要跨越多个能力岛时,系统架构应当提供明确的转换接口,而不是依赖LLM的“常识”去自动泛化。

有趣的是,Karpathy提到的“从.bsh脚本到.md技能”的转变恰好体现了这一思路。一个.md文件不是让LLM执行一个预定义的流程,而是用自然语言描述任务的目标和约束,让LLM在自己的能力范围内灵活执行。这不是在要求LLM做它不擅长的事,而是通过改变任务的表达方式,将任务拉入LLM的能力岛。同样,那些“完全被LLM吞没”的应用——比如输入一张图片、输出一张图片,中间没有传统代码——也是将问题空间严格限制在LLM擅长的模式识别与生成上。

当然,这种设计哲学并非没有争议。批评者会指出,过度限制智能体的任务范围,等于扼杀了AI的真正潜力——泛化和创造。如果LLM只能在预设的轨道上运行,它和传统软件有什么区别?这个质疑抓住了关键,但答案恰恰在于锯齿形的本质:LLM的泛化能力本身也是锯齿形的。它在某些领域的泛化令人惊叹,在另一些领域却令人失望。承认这一点不是保守,而是务实。

更深层的悖论在于,追求通用智能的冲动与商业成功的现实之间存在张力。一个在100个任务上都做到80分的智能体,可能在市场上无法击败一个在10个关键任务上做到99分的专业智能体。Agent经济的真正爆发点,可能不是“一个智能体做所有事”,而是“无数个专业智能体通过精心设计的架构协同工作”。这听起来像是回到了微服务架构,但区别在于,每个服务本身就是一个小型的Agent,其能力边界由训练数据的经济逻辑天然界定。

我们还需要警惕一种反对意见:随着模型能力的提升,锯齿形会逐渐被填平。GPT-5、Gemini 3或许能覆盖更广的能力范围,但基础逻辑不变——只要训练数据的分布是由经济激励驱动的,锯齿形就会以新的形式存在。只不过,过去的缺口在“写诗”,未来的缺口可能在“物理世界推理”或“长期规划”。锯齿形永远不会消失,只会移动。

因此,对于正在构建Agent经济的创业者、开发者和管理者来说,最重要的不是追逐最新的框架或模型,而是建立一种新的能力观。停止问“这个智能体能不能做X”,开始问“这个智能体在X上处于能力分布的什么位置?我们需要多少人工干预才能让它可靠?”这不是退缩,而是通往真正可用AI系统的唯一路径。

在这场炉边谈话中,Karpathy还提到了“全神经计算”的遥远愿景——计算的主体完全由神经网络完成,经典CPU只作为协处理器。这或许是一个终极答案,但在那之前,我们必须学会与锯齿形共存,并围绕它设计我们的系统、产品和商业。Agent经济不会因为智能体完美而到来,而是因为我们学会了如何在不完美的能力轮廓上建造稳健的建筑。