AI的“锯齿形”能力曲线:为什么你的模型能写代码却不能洗衣?
你的AI助手可以在一秒钟内重构一个10万行代码的项目,但你让它告诉你如何正确地洗车,它却会建议你“走到洗车店去”。这种荒诞的能力不均不是bug,而是当前AI行业商业模式、数据策略和训练方法共同作用下的必然结果。理解这个“锯齿形”能力曲线,是理解AI未来走向的关键。
核心观点:当前AI模型表现出的“锯齿形”能力曲线——在编程等特定领域表现惊人,却在日常常识性任务上频繁翻车——本质上是商业利益驱动的训练数据分布不均造成的,这种现象正在塑造一个畸形的AI生态,并可能阻碍通用人工智能的实现。
如果你和AI助手有过深入对话,你很可能经历过这样的时刻:前一秒它还是一个能重构整个代码库的超级工程师,后一秒它就变成了一个连基本常识都没有的傻子。这就是著名AI研究者Andrej Karpathy在最近的演讲中提到的“锯齿形”能力曲线——一个在特定领域被高度优化,而在其他领域却极度匮乏的能力分布图。
这种能力不均不是偶然的,而是当前AI行业商业逻辑的直接产物。OpenAI、Google、Anthropic这些前沿实验室在训练模型时,并非追求全面的智力提升,而是优先服务于那些有明确商业价值的领域。编程、数学、数据分析这类可以被明确定义、自动评估、且市场付费意愿强的任务,自然获得了最多的训练资源和RL(强化学习)回路。而那些无法被轻易量化、或者商业价值不显著的常识性任务,就被无情地抛弃在了训练数据的分布之外。
这就是Karpathy所说的“在数据分布铁轨上飞行”与“在丛林里挥舞砍刀”的区别。当你的请求恰好落在模型被反复训练的强化学习轨道上时,它会表现得像超人;一旦偏离轨道,进入那些从未被充分训练过的“丛林”区域,它的表现就会急剧下降。这种能力的不连续分布,让AI看起来既聪明又愚蠢,既可靠又不可靠。
这种能力曲线对整个产业生态产生了深远影响。首先,它催生了一个“能力套利”市场。开发者们越来越擅长找出那些落在模型能力“铁轨”上的任务,并将其封装成可商业化的产品。编程助手、文本生成、数据洞察……这些目前最火的AI应用,本质上都是在利用能力曲线中的“峰尖”。而那些落在“谷底”的任务——比如需要跨领域常识、需要情感理解、需要物理世界交互的任务——则被系统性地忽视。
其次,这种能力不均正在加剧AI应用的马太效应。越是有明确商业价值的领域,越能吸引训练资源,模型表现就越好,进而吸引更多的用户和资本,形成一个正向反馈循环。而那些没有明确付费模式的领域,即使对社会整体有重大价值(比如医疗诊断、公共政策建议、教育辅导),也可能因为无法在现有的商业逻辑下变现而长期得不到改善。这导致AI的发展方向不再由社会整体需求决定,而是由风险投资和科技巨头的利润预期决定。
第三,这种能力曲线正在改变我们对“智能”的理解。当一个系统能在编程领域超越顶尖工程师,却在日常推理上不如一个七岁小孩时,我们该如何定义它的能力?传统的IQ测试、图灵测试都变得不再适用。更关键的是,这种能力不均正在制造一个危险的幻觉:让用户和决策者高估AI在特定领域的能力,而低估它在其他领域的局限性。如果一个法官基于AI的编程能力就认为它在法律推理上同样可靠,那就是灾难性的误判。
当然,也有观点认为这种“锯齿形”能力只是技术发展中的过渡现象。随着模型规模的扩大、训练数据的丰富、以及RL技术的进步,这些能力谷底最终会被填平。但这种乐观忽略了两个关键问题。第一,商业激励的结构性偏差不会自动消失。只要前沿实验室的收入仍然主要来自编程和数据分析服务,它们就没有动力去平滑那些不赚钱的能力谷底。第二,即使技术上可以填平,也需要海量的、多样化的、高质量的训练数据,而这些数据在非商业领域的获取成本极高。
更有意思的是,Karpathy本人也承认对这个问题的解释还不完全满意。他提到,除了可验证性和商业价值,还有更深层的认知机制在起作用。也许我们最终会发现,这种能力曲线不是一个训练问题,而是智能本身的一种固有属性——就像人类也无法在所有领域都表现一致一样。但至少,当前这种高度人工设计的、由资本驱动的能力不均,与人类能力曲线的形成机制是截然不同的。
对AI行业而言,真正的挑战不是如何把模型做得更大,而是如何设计一个更加均衡、更加健康的能力发展路径。这意味着可能需要引入新的训练范式——比如基于真实世界交互的持续学习,或者通过多任务学习强制模型在各个领域保持同步。同时,也需要新的商业模型来激励对“非热门”能力的投资。
“锯齿形”能力曲线是AI行业的一面镜子,照出的不是技术本身的局限,而是当前商业逻辑和社会结构的局限。当我们讨论AI的能力时,我们实际讨论的是:我们选择让AI在哪些方面变得聪明,又在哪些方面保持愚蠢。这个选择权,不应该只掌握在几家前沿实验室的规划文件里。
如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、《明日方舟》生息演算「重启锚点」宣传P…、Toward Self-Organiz… 本身,而是它们共同暴露出的分配逻辑。 x、bilibili、reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,当前AI模型表现出的“锯齿形”能力曲线——在编程等特定领域表现惊人,却在日常常识性任务上频繁翻车——本质上是商业利益驱动的训练数据分布不均造成的,这种现象正在塑造一个畸形的AI生态,并可能阻碍通用人工智能的实现。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 《明日方舟》生息演算「重启锚点」宣传PV· 玩法介绍 - https://www.bilibili.com/video/BV1vFRfBfEGQ
- Toward Self-Organizing Neural Civilizations of Intelligence - https://www.reddit.com/r/IT4Research/comments/1t9labi/toward_selforganizing_neural_civilizations_of/