当大模型既能重构十万行代码，又建议你走路去洗车：LLM能力锯齿形的真相

我们经常被LLM的惊人能力震撼，又被其荒谬错误搞得哭笑不得。这不是偶然，而是新计算范式下的必然特征。理解这种锯齿形能力，才能设计出真正可靠的AI代理应用。

核心观点：LLM的能力分布并非线性增强，而是一种由训练数据分布和RL奖励机制塑造的锯齿形格局；理解这种不均匀性是构建可靠代理系统的前提。

在Sequoia Ascent 2026的炉边谈话中，一位顶级AI从业者提出了一个令人深思的观察：同一个LLM能够连贯地重构一个十万行代码库，同时却可能建议你“走路去洗车”。这种能力上的极端不均匀并非bug，而是一种特征——我称之为LLM能力的锯齿形分布。这种不均匀性的根源，并非简单的模型大小或训练数据量问题，而是与经济激励、数据分布以及偏好强化学习（RL）的电路设计密切相关。

让我们从三个新地平线的例子来切入，这些例子来自那场谈话，但背后的逻辑远比表面呈现的案例更深刻。第一类是“menugen”：一个完全被LLM吞噬的应用，输入一张图，输出一张图，无需任何传统代码。这暗示着一种可能性：某些应用类别将完全由LLM原生执行，传统软件1.0的逻辑变得多余。第二类是“.md技能”：用自然语言编写安装说明，而不是复杂的bash脚本。这不仅仅是脚本的简化，而是将“解释”和“执行”的边界重新定义——LLM作为高级英语解释器，能够智能地针对特定环境定制安装流程，并在线调试。第三类是LLM知识库：处理来自任意来源、任意格式的非结构化数据，这是传统代码几乎不可能完成的任务，因为它需要理解语义和关系。

这些例子展示了LLM的潜力远不止加速现有流程。然而，为什么同一个模型在执行某些任务时表现得像天才，在其他任务上却像智障？关键答案在于“域的可验证性”和“经济激励”。人类反馈强化学习（RLHF）及其后续的RL变体，本质上是为模型在特定轨道上规划路径。那些评分容易、反馈明确的任务（如代码生成、数学推理）被大量封装到训练数据分布中，形成了“RL电路”的轨道。在此轨道上，模型几乎自动运行，表现优异。但一旦离开这些轨道，进入“野外”，比如需要将知识应用于一个模糊的、非标准化的物理世界任务（例如建议洗车方式），模型的表现就会急剧下降。

这种锯齿形能力分布，对构建代理原生经济（Agent-Native Economy）提出了根本性挑战。一个代理系统需要将产品和服务分解为传感器、执行器和逻辑。其中，逻辑部分可能跨越传统软件1.0、2.0和3.0（即LLM）范式。问题在于：我们能否信任一个模型在其非强项领域独立决策？如果设计不当，一个代理可能在核心任务上表现出色，却在某个看似简单的中间步骤上失败，导致整个系统崩溃。

批评者可能会说：这只是当前模型的问题，随着Scale Law继续演进，这些不均匀性会自然消失。但这过于乐观。即使模型在更多领域变得“通用”，但任何模型的能力分布本质上都是其训练分布的函数。只要存在经济激励差异（例如，代码生成的商业价值远高于普通家务咨询），模型在商业领域的性能就会优先提升。除非我们能够创建一个对所有域都给予同等经济奖励的完美环境——这在现实市场经济中不可能实现。

因此，当前最务实的方向不是等待通用AGI，而是主动设计系统以“包容”LLM的锯齿形。这意味着：对于高风险的代理任务，我们需要将模型置于其擅长轨道上（如代码生成），同时为非标准任务设计fallback机制（如经典算法或人工干预）。另一种思路是，让LLM主要扮演“计划者”角色，其输出由更可靠的执行器（如传统脚本）来执行。这种“混合架构”可能才是代理原生经济的第一性原理，而不是幻想全知全能的单一模型。

从更宏观的角度看，这引发了关于“计算范式分治”的讨论。Karpathy的谈话中提到了“全神经计算”的梦想——让神经网络处理绝大部分计算，而经典CPU作为协处理器。这听起来诱人，但锯齿形能力的存在提醒我们：神经计算和经典计算各有其不可替代的优势区间。单纯依赖任何一种都是危险的。代理原生经济的真正智能，不在于选择某个单一范式，而在于能够根据任务类型，动态地在不同范式间分配工作。

最后，我们不能忽视另一个维度：信息的可读性。为了让LLM更好地工作，我们需要重新设计信息的表达方式，使其对模型高度可读。这不是说要把所有数据都转成JSON，而是要理解模型如何“理解”结构化与非结构化信息。例如，安装脚本的.md化，本质上是将信息从对人类友好的格式（shell命令）转变为对模型友好的格式（自然语言加注释）。这种转变可能成为新的标准化实践。

关于培养“代理工程”技能，事情变得复杂。传统的软件工程师训练的是精确的逻辑和状态管理；而代理工程师则需要理解模型的概率性、模糊性和锯齿形特性。这意味着招聘和培训策略需要彻底改变。寻找能同时理解AI能力边界和传统系统可靠性的工程师变得至关重要。

总之，LLM的锯齿形能力不是bug，而是新范式的核心特征。拥抱这种不均匀性，而不是幻想它消失，才是构建下一代AI应用的正确起点。代理原生经济不会建立在完美智能上，而是建立在智能的巧妙分工和鲁棒系统设计之上。理解这一点，才能避免被表面的能力光环迷惑，真正设计出有用的产品。

如果把这个判断再往前推一步，真正重要的不是 Fireside chat at Se…、(Selling) 4K Codes…、"Is this a rich man… 本身，而是它们共同暴露出的分配逻辑。 x、reddit 在同一轮里把注意力推向同一问题，通常意味着这个主题正在从圈层内部经验，转向更可共享的公共议题。这也是为什么这种内容值得写成长文：短帖只负责提醒你“这里有事发生”，但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。换句话说，LLM的能力分布并非线性增强，而是一种由训练数据分布和RL奖励机制塑造的锯齿形格局；理解这种不均匀性是构建可靠代理系统的前提。之所以重要，不是因为它看上去新，而是因为它会重新定义用户接下来应该如何理解这一类内容。