当AI既像爱因斯坦又像傻瓜：理解LLM的锯齿形能力图景

同一个模型能重构10万行代码，却告诉你走路去洗车。这种能力的不一致不是bug，而是LLM架构的必然特征。只有接受并利用这种锯齿形分布，我们才能真正进入agent原生经济的时代。

核心观点：LLM能力的锯齿形分布并非偶然缺陷，而是由训练数据分布的RL路径和商业回报共同塑造的系统性特征，理解这一特征是从使用工具到构建agent原生经济的关键前提。

如果你使用过GPT-4、Claude或其他前沿LLM，一定遇到过这种令人困惑的体验：它刚刚帮你完成了一次复杂的代码重构，逻辑清晰、边界处理妥当；下一秒，你问一个常识性问题，它却给出一个荒谬的回答，仿佛一个资深的专业人士突然变成了笨蛋。这种极端的能力不一致，在AI研究社区被称为“锯齿形能力分布”。它不是偶然的缺陷，而是当前LLM架构的核心特征之一，也是我们从“把LLM当工具”过渡到“构建agent原生经济”必须跨越的认知门槛。

知名AI学者Karpathy在最近的一次演讲中，将这种锯齿形的根源归结为两个因素：可验证性和商业回报。可验证性意味着，在那些能够自动检查正确性的领域（比如编程、数学），模型通过RL训练可以快速收敛到高水平，因为这些领域的输出可以轻松被测试和反馈。而商业回报则决定了，哪些领域被AI实验室优先纳入训练数据的强化学习分布。编程之所以表现优异，不仅因为代码可验证，更因为全世界有数千万开发者愿意为此付费。相反，那些模糊的、难以自动验证的领域（比如情感判断、日常计划），即使对用户很重要，也难以在RL训练中得到充分优化。

这个框架揭示了一个令人不安的真相：LLM的“聪明”是被精心引导出来的，而它的“愚蠢”则反映了训练资源配置的经济学。你遭遇的每一次低级错误，本质上都是商业选择的结果。这不是说模型不够智能，而是说它的智能是选择性的——它在你支付的领域表现得像一个专家，而在其他领域则像一个业余爱好者。这种选择性智能，使得LLM成为一个既强大又不可靠的工具。你不能因为它在代码上的出色表现，就无条件信任它在其他任何领域的判断。

但恰恰是这种能力分布的不完美，催生了一个新的范式：agent原生经济。Karpathy提出了一个引人深思的框架：将产品和服务分解为传感器、执行器和逻辑，然后在三个计算范式（Software 1.0的传统代码、2.0的神经网络、3.0的LLM推理）中分配任务。核心思想是：不要试图让LLM做所有事，而要让它在最适合的地方发挥作用。例如，用自然语言写一个安装指南（.md文件），传统上需要写脚本（.sh文件）来精确控制每一步；但有了LLM，你可以把指令写成文字，让LLM自己理解并执行，它甚至能根据你的系统环境自动调整。这种“安装技能”的范式切换，将LLM的弱点（模糊性）和优点（适应性）融为了一体。

这个经济形态的落地，不仅需要技术上的架构设计，更需要一场认知变革：接受LLM的局限性，而不是幻想一个全能的通用智能。在agent原生经济中，成功的关键不是追求能力的平均化，而是设计一种协作模式，让LLM在自己擅长的领域（可验证的、有明确边界的任务）发挥作用，同时用传统代码或人工干预来弥补它的短板。这意味着AI产品的设计者必须成为“能力边界”的专家，像工程师理解边界条件一样理解LLM的锯齿形曲线。

反对者可能会说，这种局限性只是暂时的——随着RL技术的进步和训练数据的丰富，LLM的能力会趋于平滑。但从目前的技术趋势看，即使未来模型变得更强大，能力和可靠性之间的平衡依然是一个工程和商业选择。OpenAI和Google的资源配置不可能无限扩宽训练领域，它们必然优先服务于最大利润任务。因此，锯齿形能力分布可能不是LLM的过渡态，而是它的常态。

这也解释了为什么“agent原生经济”这个词在硅谷变得如此热门。它不是又一个技术噱头，而是一个务实的应对策略：既然LLM不可能全能，我们就围绕它的能力峰值来设计系统和商业模式。你不需要一个完美的AI，只需要一个在特定任务上足够优秀的AI，配合优雅的编排机制，就能创造巨大的商业价值。

总的来说，LLM的锯齿形能力不是需要被“修复”的缺陷，而是一种需要被“设计适配”的特征。理解这一点，我们才能从“惊叹AI的智能”走向“利用AI的不完美”。agent原生经济的核心，正是把这种不完美转化为系统设计的优势，让AI做它擅长的事，而把不擅长的事留给其他工具或人。未来几年，那些最早学会与不完美AI共舞的公司，将获得最强的竞争护城河。

如果把这个判断再往前推一步，真正重要的不是 Advanced memory + p…、Improvements and ne…、史上首款2nm芯片有多强？三星Exyn… 本身，而是它们共同暴露出的分配逻辑。 reddit、bilibili 在同一轮里把注意力推向同一问题，通常意味着这个主题正在从圈层内部经验，转向更可共享的公共议题。这也是为什么这种内容值得写成长文：短帖只负责提醒你“这里有事发生”，但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。换句话说，LLM能力的锯齿形分布并非偶然缺陷，而是由训练数据分布的RL路径和商业回报共同塑造的系统性特征，理解这一特征是从使用工具到构建agent原生经济的关键前提。之所以重要，不是因为它看上去新，而是因为它会重新定义用户接下来应该如何理解这一类内容。