你的AI助手可以在一秒钟内重构一个10万行代码的项目,但你让它告诉你如何正确地洗车,它却会建议你“走到洗车店去”。这种荒诞的能力不均不是bug,而是当前AI行业商业模式、数据策略和训练方法共同作用下的必然结果。理解这个“锯齿形”能力曲线,是理解AI未来走向的关键。

核心观点:当前AI模型表现出的“锯齿形”能力曲线——在编程等特定领域表现惊人,却在日常常识性任务上频繁翻车——本质上是商业利益驱动的训练数据分布不均造成的,这种现象正在塑造一个畸形的AI生态,并可能阻碍通用人工智能的实现。

如果你和AI助手有过深入对话,你很可能经历过这样的时刻:前一秒它还是一个能重构整个代码库的超级工程师,后一秒它就变成了一个连基本常识都没有的傻子。这就是著名AI研究者Andrej Karpathy在最近的演讲中提到的“锯齿形”能力曲线——一个在特定领域被高度优化,而在其他领域却极度匮乏的能力分布图。

这种能力不均不是偶然的,而是当前AI行业商业逻辑的直接产物。OpenAI、Google、Anthropic这些前沿实验室在训练模型时,并非追求全面的智力提升,而是优先服务于那些有明确商业价值的领域。编程、数学、数据分析这类可以被明确定义、自动评估、且市场付费意愿强的任务,自然获得了最多的训练资源和RL(强化学习)回路。而那些无法被轻易量化、或者商业价值不显著的常识性任务,就被无情地抛弃在了训练数据的分布之外。

这就是Karpathy所说的“在数据分布铁轨上飞行”与“在丛林里挥舞砍刀”的区别。当你的请求恰好落在模型被反复训练的强化学习轨道上时,它会表现得像超人;一旦偏离轨道,进入那些从未被充分训练过的“丛林”区域,它的表现就会急剧下降。这种能力的不连续分布,让AI看起来既聪明又愚蠢,既可靠又不可靠。

这种能力曲线对整个产业生态产生了深远影响。首先,它催生了一个“能力套利”市场。开发者们越来越擅长找出那些落在模型能力“铁轨”上的任务,并将其封装成可商业化的产品。编程助手、文本生成、数据洞察……这些目前最火的AI应用,本质上都是在利用能力曲线中的“峰尖”。而那些落在“谷底”的任务——比如需要跨领域常识、需要情感理解、需要物理世界交互的任务——则被系统性地忽视。

其次,这种能力不均正在加剧AI应用的马太效应。越是有明确商业价值的领域,越能吸引训练资源,模型表现就越好,进而吸引更多的用户和资本,形成一个正向反馈循环。而那些没有明确付费模式的领域,即使对社会整体有重大价值(比如医疗诊断、公共政策建议、教育辅导),也可能因为无法在现有的商业逻辑下变现而长期得不到改善。这导致AI的发展方向不再由社会整体需求决定,而是由风险投资和科技巨头的利润预期决定。

第三,这种能力曲线正在改变我们对“智能”的理解。当一个系统能在编程领域超越顶尖工程师,却在日常推理上不如一个七岁小孩时,我们该如何定义它的能力?传统的IQ测试、图灵测试都变得不再适用。更关键的是,这种能力不均正在制造一个危险的幻觉:让用户和决策者高估AI在特定领域的能力,而低估它在其他领域的局限性。如果一个法官基于AI的编程能力就认为它在法律推理上同样可靠,那就是灾难性的误判。

当然,也有观点认为这种“锯齿形”能力只是技术发展中的过渡现象。随着模型规模的扩大、训练数据的丰富、以及RL技术的进步,这些能力谷底最终会被填平。但这种乐观忽略了两个关键问题。第一,商业激励的结构性偏差不会自动消失。只要前沿实验室的收入仍然主要来自编程和数据分析服务,它们就没有动力去平滑那些不赚钱的能力谷底。第二,即使技术上可以填平,也需要海量的、多样化的、高质量的训练数据,而这些数据在非商业领域的获取成本极高。

更有意思的是,Karpathy本人也承认对这个问题的解释还不完全满意。他提到,除了可验证性和商业价值,还有更深层的认知机制在起作用。也许我们最终会发现,这种能力曲线不是一个训练问题,而是智能本身的一种固有属性——就像人类也无法在所有领域都表现一致一样。但至少,当前这种高度人工设计的、由资本驱动的能力不均,与人类能力曲线的形成机制是截然不同的。

对AI行业而言,真正的挑战不是如何把模型做得更大,而是如何设计一个更加均衡、更加健康的能力发展路径。这意味着可能需要引入新的训练范式——比如基于真实世界交互的持续学习,或者通过多任务学习强制模型在各个领域保持同步。同时,也需要新的商业模型来激励对“非热门”能力的投资。

“锯齿形”能力曲线是AI行业的一面镜子,照出的不是技术本身的局限,而是当前商业逻辑和社会结构的局限。当我们讨论AI的能力时,我们实际讨论的是:我们选择让AI在哪些方面变得聪明,又在哪些方面保持愚蠢。这个选择权,不应该只掌握在几家前沿实验室的规划文件里。

如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、《明日方舟》生息演算「重启锚点」宣传P…、Toward Self-Organiz… 本身,而是它们共同暴露出的分配逻辑。 x、bilibili、reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,当前AI模型表现出的“锯齿形”能力曲线——在编程等特定领域表现惊人,却在日常常识性任务上频繁翻车——本质上是商业利益驱动的训练数据分布不均造成的,这种现象正在塑造一个畸形的AI生态,并可能阻碍通用人工智能的实现。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。