我们经常被LLM的惊人能力震撼,又被其荒谬错误搞得哭笑不得。这不是偶然,而是新计算范式下的必然特征。理解这种锯齿形能力,才能设计出真正可靠的AI代理应用。

核心观点:LLM的能力分布并非线性增强,而是一种由训练数据分布和RL奖励机制塑造的锯齿形格局;理解这种不均匀性是构建可靠代理系统的前提。

在Sequoia Ascent 2026的炉边谈话中,一位顶级AI从业者提出了一个令人深思的观察:同一个LLM能够连贯地重构一个十万行代码库,同时却可能建议你“走路去洗车”。这种能力上的极端不均匀并非bug,而是一种特征——我称之为LLM能力的锯齿形分布。这种不均匀性的根源,并非简单的模型大小或训练数据量问题,而是与经济激励、数据分布以及偏好强化学习(RL)的电路设计密切相关。

让我们从三个新地平线的例子来切入,这些例子来自那场谈话,但背后的逻辑远比表面呈现的案例更深刻。第一类是“menugen”:一个完全被LLM吞噬的应用,输入一张图,输出一张图,无需任何传统代码。这暗示着一种可能性:某些应用类别将完全由LLM原生执行,传统软件1.0的逻辑变得多余。第二类是“.md技能”:用自然语言编写安装说明,而不是复杂的bash脚本。这不仅仅是脚本的简化,而是将“解释”和“执行”的边界重新定义——LLM作为高级英语解释器,能够智能地针对特定环境定制安装流程,并在线调试。第三类是LLM知识库:处理来自任意来源、任意格式的非结构化数据,这是传统代码几乎不可能完成的任务,因为它需要理解语义和关系。

这些例子展示了LLM的潜力远不止加速现有流程。然而,为什么同一个模型在执行某些任务时表现得像天才,在其他任务上却像智障?关键答案在于“域的可验证性”和“经济激励”。人类反馈强化学习(RLHF)及其后续的RL变体,本质上是为模型在特定轨道上规划路径。那些评分容易、反馈明确的任务(如代码生成、数学推理)被大量封装到训练数据分布中,形成了“RL电路”的轨道。在此轨道上,模型几乎自动运行,表现优异。但一旦离开这些轨道,进入“野外”,比如需要将知识应用于一个模糊的、非标准化的物理世界任务(例如建议洗车方式),模型的表现就会急剧下降。

这种锯齿形能力分布,对构建代理原生经济(Agent-Native Economy)提出了根本性挑战。一个代理系统需要将产品和服务分解为传感器、执行器和逻辑。其中,逻辑部分可能跨越传统软件1.0、2.0和3.0(即LLM)范式。问题在于:我们能否信任一个模型在其非强项领域独立决策?如果设计不当,一个代理可能在核心任务上表现出色,却在某个看似简单的中间步骤上失败,导致整个系统崩溃。

批评者可能会说:这只是当前模型的问题,随着Scale Law继续演进,这些不均匀性会自然消失。但这过于乐观。即使模型在更多领域变得“通用”,但任何模型的能力分布本质上都是其训练分布的函数。只要存在经济激励差异(例如,代码生成的商业价值远高于普通家务咨询),模型在商业领域的性能就会优先提升。除非我们能够创建一个对所有域都给予同等经济奖励的完美环境——这在现实市场经济中不可能实现。

因此,当前最务实的方向不是等待通用AGI,而是主动设计系统以“包容”LLM的锯齿形。这意味着:对于高风险的代理任务,我们需要将模型置于其擅长轨道上(如代码生成),同时为非标准任务设计fallback机制(如经典算法或人工干预)。另一种思路是,让LLM主要扮演“计划者”角色,其输出由更可靠的执行器(如传统脚本)来执行。这种“混合架构”可能才是代理原生经济的第一性原理,而不是幻想全知全能的单一模型。

从更宏观的角度看,这引发了关于“计算范式分治”的讨论。Karpathy的谈话中提到了“全神经计算”的梦想——让神经网络处理绝大部分计算,而经典CPU作为协处理器。这听起来诱人,但锯齿形能力的存在提醒我们:神经计算和经典计算各有其不可替代的优势区间。单纯依赖任何一种都是危险的。代理原生经济的真正智能,不在于选择某个单一范式,而在于能够根据任务类型,动态地在不同范式间分配工作。

最后,我们不能忽视另一个维度:信息的可读性。为了让LLM更好地工作,我们需要重新设计信息的表达方式,使其对模型高度可读。这不是说要把所有数据都转成JSON,而是要理解模型如何“理解”结构化与非结构化信息。例如,安装脚本的.md化,本质上是将信息从对人类友好的格式(shell命令)转变为对模型友好的格式(自然语言加注释)。这种转变可能成为新的标准化实践。

关于培养“代理工程”技能,事情变得复杂。传统的软件工程师训练的是精确的逻辑和状态管理;而代理工程师则需要理解模型的概率性、模糊性和锯齿形特性。这意味着招聘和培训策略需要彻底改变。寻找能同时理解AI能力边界和传统系统可靠性的工程师变得至关重要。

总之,LLM的锯齿形能力不是bug,而是新范式的核心特征。拥抱这种不均匀性,而不是幻想它消失,才是构建下一代AI应用的正确起点。代理原生经济不会建立在完美智能上,而是建立在智能的巧妙分工和鲁棒系统设计之上。理解这一点,才能避免被表面的能力光环迷惑,真正设计出有用的产品。

如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、(Selling) 4K Codes…、"Is this a rich man… 本身,而是它们共同暴露出的分配逻辑。 x、reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,LLM的能力分布并非线性增强,而是一种由训练数据分布和RL奖励机制塑造的锯齿形格局;理解这种不均匀性是构建可靠代理系统的前提。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。