AI的“锯齿形”能力曲线：为什么你的模型能写代码却不能洗衣？

你的AI助手可以在一秒钟内重构一个10万行代码的项目，但你让它告诉你如何正确地洗车，它却会建议你“走到洗车店去”。这种荒诞的能力不均不是bug，而是当前AI行业商业模式、数据策略和训练方法共同作用下的必然结果。理解这个“锯齿形”能力曲线，是理解AI未来走向的关键。

核心观点：当前AI模型表现出的“锯齿形”能力曲线——在编程等特定领域表现惊人，却在日常常识性任务上频繁翻车——本质上是商业利益驱动的训练数据分布不均造成的，这种现象正在塑造一个畸形的AI生态，并可能阻碍通用人工智能的实现。

如果你和AI助手有过深入对话，你很可能经历过这样的时刻：前一秒它还是一个能重构整个代码库的超级工程师，后一秒它就变成了一个连基本常识都没有的傻子。这就是著名AI研究者Andrej Karpathy在最近的演讲中提到的“锯齿形”能力曲线——一个在特定领域被高度优化，而在其他领域却极度匮乏的能力分布图。

这种能力不均不是偶然的，而是当前AI行业商业逻辑的直接产物。OpenAI、Google、Anthropic这些前沿实验室在训练模型时，并非追求全面的智力提升，而是优先服务于那些有明确商业价值的领域。编程、数学、数据分析这类可以被明确定义、自动评估、且市场付费意愿强的任务，自然获得了最多的训练资源和RL（强化学习）回路。而那些无法被轻易量化、或者商业价值不显著的常识性任务，就被无情地抛弃在了训练数据的分布之外。

这就是Karpathy所说的“在数据分布铁轨上飞行”与“在丛林里挥舞砍刀”的区别。当你的请求恰好落在模型被反复训练的强化学习轨道上时，它会表现得像超人；一旦偏离轨道，进入那些从未被充分训练过的“丛林”区域，它的表现就会急剧下降。这种能力的不连续分布，让AI看起来既聪明又愚蠢，既可靠又不可靠。

这种能力曲线对整个产业生态产生了深远影响。首先，它催生了一个“能力套利”市场。开发者们越来越擅长找出那些落在模型能力“铁轨”上的任务，并将其封装成可商业化的产品。编程助手、文本生成、数据洞察……这些目前最火的AI应用，本质上都是在利用能力曲线中的“峰尖”。而那些落在“谷底”的任务——比如需要跨领域常识、需要情感理解、需要物理世界交互的任务——则被系统性地忽视。

其次，这种能力不均正在加剧AI应用的马太效应。越是有明确商业价值的领域，越能吸引训练资源，模型表现就越好，进而吸引更多的用户和资本，形成一个正向反馈循环。而那些没有明确付费模式的领域，即使对社会整体有重大价值（比如医疗诊断、公共政策建议、教育辅导），也可能因为无法在现有的商业逻辑下变现而长期得不到改善。这导致AI的发展方向不再由社会整体需求决定，而是由风险投资和科技巨头的利润预期决定。

第三，这种能力曲线正在改变我们对“智能”的理解。当一个系统能在编程领域超越顶尖工程师，却在日常推理上不如一个七岁小孩时，我们该如何定义它的能力？传统的IQ测试、图灵测试都变得不再适用。更关键的是，这种能力不均正在制造一个危险的幻觉：让用户和决策者高估AI在特定领域的能力，而低估它在其他领域的局限性。如果一个法官基于AI的编程能力就认为它在法律推理上同样可靠，那就是灾难性的误判。

当然，也有观点认为这种“锯齿形”能力只是技术发展中的过渡现象。随着模型规模的扩大、训练数据的丰富、以及RL技术的进步，这些能力谷底最终会被填平。但这种乐观忽略了两个关键问题。第一，商业激励的结构性偏差不会自动消失。只要前沿实验室的收入仍然主要来自编程和数据分析服务，它们就没有动力去平滑那些不赚钱的能力谷底。第二，即使技术上可以填平，也需要海量的、多样化的、高质量的训练数据，而这些数据在非商业领域的获取成本极高。

更有意思的是，Karpathy本人也承认对这个问题的解释还不完全满意。他提到，除了可验证性和商业价值，还有更深层的认知机制在起作用。也许我们最终会发现，这种能力曲线不是一个训练问题，而是智能本身的一种固有属性——就像人类也无法在所有领域都表现一致一样。但至少，当前这种高度人工设计的、由资本驱动的能力不均，与人类能力曲线的形成机制是截然不同的。

对AI行业而言，真正的挑战不是如何把模型做得更大，而是如何设计一个更加均衡、更加健康的能力发展路径。这意味着可能需要引入新的训练范式——比如基于真实世界交互的持续学习，或者通过多任务学习强制模型在各个领域保持同步。同时，也需要新的商业模型来激励对“非热门”能力的投资。

“锯齿形”能力曲线是AI行业的一面镜子，照出的不是技术本身的局限，而是当前商业逻辑和社会结构的局限。当我们讨论AI的能力时，我们实际讨论的是：我们选择让AI在哪些方面变得聪明，又在哪些方面保持愚蠢。这个选择权，不应该只掌握在几家前沿实验室的规划文件里。

如果把这个判断再往前推一步，真正重要的不是 Fireside chat at Se…、《明日方舟》生息演算「重启锚点」宣传P…、Toward Self-Organiz… 本身，而是它们共同暴露出的分配逻辑。 x、bilibili、reddit 在同一轮里把注意力推向同一问题，通常意味着这个主题正在从圈层内部经验，转向更可共享的公共议题。这也是为什么这种内容值得写成长文：短帖只负责提醒你“这里有事发生”，但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。换句话说，当前AI模型表现出的“锯齿形”能力曲线——在编程等特定领域表现惊人，却在日常常识性任务上频繁翻车——本质上是商业利益驱动的训练数据分布不均造成的，这种现象正在塑造一个畸形的AI生态，并可能阻碍通用人工智能的实现。之所以重要，不是因为它看上去新，而是因为它会重新定义用户接下来应该如何理解这一类内容。