LLM的锯齿形能力：从驾驶到丛林砍伐，Agent经济需要重新理解智能

一个能重构10万行代码库的LLM，却可能建议你开车去洗车。这并非偶然故障，而是LLM能力锯齿形分布的本质体现。理解这个模式，才是Agent经济落地的真正前提。

核心观点：LLM的能力分布是极度不均衡的锯齿形，这种锯齿形的根源不仅在于可验证性，更在于经济激励决定了训练数据分布，因此构建Agent经济需要放弃全能幻想，转而设计与其能力轮廓匹配的系统架构。

我们正在经历一场对AI能力的集体误读。当Karpathy在Sequoia的炉边谈话中提到一个LLM既能“连贯地重构一个10万行代码库”，又能“告诉你开车去洗车店洗车”时，他触及了一个令无数从业者困惑的核心问题：为什么同一个智能体可以在极端复杂和极端愚蠢之间反复横跳？这并非简单的bug或幻觉，而是LLM能力分布的本质特征——锯齿形。

锯齿形意味着LLM的能力不是平滑递增的，而是在某些领域极其强大，在另一些领域却意外地脆弱。这种模式过去常被归结为任务的可验证性：编程因为可以编译、测试，结果客观，所以LLM表现优秀；而规划一次自驾游，因为涉及大量非结构化、缺乏即时反馈的决策，LLM就容易迷路。然而，Karpathy的补充才是真正的洞见——可验证性只是表面，其底层是经济逻辑：TAM（潜在市场规模）决定了前沿实验室在强化学习阶段选择将哪些数据打包进训练分布。

这意味着，LLM的“强项”本质上是资本选择的产物。当市场上存在一个价值数十亿美元的AI编程市场时，实验室有强烈的经济动机投入大量资源，让LLM在代码领域达到“超人”水平。相反，一个价值数百万的个人洗车建议市场，根本不值得投入训练资源。这不是技术能力的天然局限，而是经济激励的映射。LLM不是不聪明，而是它被训练成在赚钱的领域聪明。

这一判断对构建Agent经济有着颠覆性的启示。过去几年，我们见证了从LangChain到AutoGen再到CrewAI的框架繁荣，但这些框架大多基于一个隐含假设：智能体是通用的，只要给它足够的工具，它就能处理任何任务。LibreFang以Rust重写、强调安全与沙箱，试图通过工程手段解决智能体的可靠性，但它的设计哲学仍然没有跳出“构建一个更强、更安全的通用执行环境”的框架。真正的问题不在于框架本身，而在于我们对LLM能力的认知模型是错的。

如果我们接受锯齿形能力分布，那么Agent经济的设计原则就必须根本改变。首先，放弃“通用智能体”的幻想。一个智能体应当被设计为在特定“能力岛”上运行，即那些处于训练数据分布之内、已验证有效的领域。其次，构建能力地图。不是去测试LLM在100个基准上的得分，而是绘制出它在真实任务中的能力轮廓，明确哪些任务在“高速公路上飞驰”，哪些任务在“丛林里砍路”。第三，设计能力桥。当任务需要跨越多个能力岛时，系统架构应当提供明确的转换接口，而不是依赖LLM的“常识”去自动泛化。

有趣的是，Karpathy提到的“从.bsh脚本到.md技能”的转变恰好体现了这一思路。一个.md文件不是让LLM执行一个预定义的流程，而是用自然语言描述任务的目标和约束，让LLM在自己的能力范围内灵活执行。这不是在要求LLM做它不擅长的事，而是通过改变任务的表达方式，将任务拉入LLM的能力岛。同样，那些“完全被LLM吞没”的应用——比如输入一张图片、输出一张图片，中间没有传统代码——也是将问题空间严格限制在LLM擅长的模式识别与生成上。

当然，这种设计哲学并非没有争议。批评者会指出，过度限制智能体的任务范围，等于扼杀了AI的真正潜力——泛化和创造。如果LLM只能在预设的轨道上运行，它和传统软件有什么区别？这个质疑抓住了关键，但答案恰恰在于锯齿形的本质：LLM的泛化能力本身也是锯齿形的。它在某些领域的泛化令人惊叹，在另一些领域却令人失望。承认这一点不是保守，而是务实。

更深层的悖论在于，追求通用智能的冲动与商业成功的现实之间存在张力。一个在100个任务上都做到80分的智能体，可能在市场上无法击败一个在10个关键任务上做到99分的专业智能体。Agent经济的真正爆发点，可能不是“一个智能体做所有事”，而是“无数个专业智能体通过精心设计的架构协同工作”。这听起来像是回到了微服务架构，但区别在于，每个服务本身就是一个小型的Agent，其能力边界由训练数据的经济逻辑天然界定。

我们还需要警惕一种反对意见：随着模型能力的提升，锯齿形会逐渐被填平。GPT-5、Gemini 3或许能覆盖更广的能力范围，但基础逻辑不变——只要训练数据的分布是由经济激励驱动的，锯齿形就会以新的形式存在。只不过，过去的缺口在“写诗”，未来的缺口可能在“物理世界推理”或“长期规划”。锯齿形永远不会消失，只会移动。

因此，对于正在构建Agent经济的创业者、开发者和管理者来说，最重要的不是追逐最新的框架或模型，而是建立一种新的能力观。停止问“这个智能体能不能做X”，开始问“这个智能体在X上处于能力分布的什么位置？我们需要多少人工干预才能让它可靠？”这不是退缩，而是通往真正可用AI系统的唯一路径。

在这场炉边谈话中，Karpathy还提到了“全神经计算”的遥远愿景——计算的主体完全由神经网络完成，经典CPU只作为协处理器。这或许是一个终极答案，但在那之前，我们必须学会与锯齿形共存，并围绕它设计我们的系统、产品和商业。Agent经济不会因为智能体完美而到来，而是因为我们学会了如何在不完美的能力轮廓上建造稳健的建筑。