在AI的'锯齿形'能力中:我们如何错用大模型,又如何正确地使用它
从Karpathy的演讲到Reddit上工程师的抱怨,一个共同困境浮出水面:大语言模型的能力并非平滑提升,而是呈现锯齿状的不均衡。我们习惯用'智能'的单一尺度衡量它,却忽视了它同时擅长与不擅长、精通与无知共存的独特模式。理解这种'锯齿形',是有效使用AI的起点。
核心观点:大语言模型能力的'锯齿形'模式——即同时具备惊人的代码重构能力和令人困惑的常识缺失——并非缺陷,而是其本质特征,当前工程实践中的许多失败源于未能理解并适应这一特征。
在关于大语言模型(LLM)的讨论中,一个最常见的错误是将其能力视为一个连续的、均匀的“智能”平面。我们期待它要么全知全能,要么全面崩溃,却忽略了它真实的能力分布:一种令人困惑的“锯齿形”模式。这种模式被前特斯拉AI总监、OpenAI联合创始人Andrej Karpathy在一次内部演讲中精准地描述为:“一个单一工件能同时1)连贯地重构一个10万行代码库,而2)告诉你把车开到洗车场去洗车。”这种看似矛盾的并存,恰恰是当前LLM最本质、也最被误解的特征。
这种“锯齿形”能力的根源,并非模型本身的“智力缺陷”,而是其训练和强化学习过程的经济学与统计学的自然产物。Karpathy在其演讲中指出了关键:营收和总可寻址市场(TAM)决定了前沿实验室选择将什么内容打包进强化学习阶段的训练数据分布中。当你处于这种数据分布之内时,模型表现得如鱼得水,仿佛在高速公路上飞驰;而一旦脱离这个分布,它就立刻变成在丛林中手持砍刀摸索前行的原始人。这解释了为什么一个模型可以完美地遵循Github上最热门的代码库的编码规范,却可能对某个冷门、非主流但逻辑上完全自洽的编程范式一无所知。
这种不均衡性在工程实践中造成了严重的“信任危机”。Reddit上一位工程师的抱怨极具代表性:他声称自己的Anthropic API账单在翻倍,但AI智能体在运行20轮后开始“输出纯粹的垃圾”。他得出的结论是,模型并非“变笨”,而是“被它们自己的上下文窗口淹死了”。这个观察一针见血。当智能体面对一个超过1万行的代码库时,它本能的反应是“盲目探索”——递归地grep和读取40个文件才能找到需要修改的那一行。这种操作模式,本质上是对LLM“锯齿形”能力的错误使用:它在处理和检索大量、无结构、非关键路径的上下文时,极易陷入“语境腐败”和“递归共识”。
“语境腐败”是指,随着上下文窗口增长,早期约束逐渐失去影响力。而“递归共识”则指一个早期的、微弱的假设,在后续推理步骤中反复调用,最终被错误地当作事实。这两个术语来自一份名为《LLM失败图谱》的技术分析,它准确地指出,大多数AI失败是结构性的,而非提示词的问题。这意味着,我们当前主流的“智能体”架构——让一个模型自行探索整个代码库、自我纠正——恰恰是在放大而非解决LLM的结构性弱点。它迫使模型在它最不擅长的“丛林”地带(大规模无结构信息检索与长链推理)进行高强度作业,而非发挥其在“高速公路”(结构化的、常见模式的生成与重构)上的优势。
那么,正确的做法是什么?一个成功的案例来自另一位Reddit用户,他为一个2300KB的Python代码库构建了一个多智能体Claude Code工作流。其核心架构并非将整个任务交给一个全能模型,而是设计了一个“编排器”智能体,它只负责理解任务并将其分发给专门化的智能体。每个被调用的智能体在行动前必须先进行一次“浅层分析”——这并非懒散,而是一种刻意的、避免陷入“语境腐败”的策略。这个单一规则就消除了大部分“失控”和“幻觉”问题。这个案例揭示了一个关键原则:不要试图让LLM成为万能的“大脑”,而要将其视为一个“专家团队”,每个成员在其狭窄的数据分布内表现出色,并通过一个外部编排系统来弥补它们分布间的“锯齿形”缺口。
更进一步地,Karpathy提出了“代理原生经济”的愿景,其中“技能”被从软件脚本(.sh)转向“技能描述文档”(.md)。这意味着,未来的AI代理将不再是通过运行一个固定的bash脚本来安装软件,而是通过阅读一段自然语言描述的安装教程,并智能地适应你的具体环境。这完美地利用了LLM的“锯齿形”优势:它在理解并执行由人类清晰描述的、已经被训练数据覆盖的任务时,表现出色;而让它去自主编写一个从未见过的、复杂的bash脚本,则可能是一场灾难。
当前,业界对LLM的批评正在从“能力不够”转向“不可靠”。这本质上是一个如何定义“可靠”的范式转移。我们习惯于用“是否正确”这一二元标尺来衡量一个工具,但对于LLM,更合理的标尺应该是“在给定条件下,它是否在它最擅长的领域内提供了可预测的产出”。这意味着,一个真正有效的AI系统,应该像一把瑞士军刀,而不是一个万能机器人:它需要人类工程师为其选对工具,并将其用在正确的位置上。
那些抱怨AI智能体“自乱阵脚”的工程师,其实是在用过去的软件工程思维,误用一种全新的计算范式。他们期待一个平滑的、线性的能力曲线,却得到了一个锯齿状的、分布不均的能力图谱。真正的进步不在于让LLM在丛林中砍出一条直路,而在于我们学会识别高速公路在哪里,并设计系统让AI只在高速公路上飞驰,同时为其配好地图和导航。当“语境腐败”和“递归共识”这些结构性失败模式被明确诊断后,工程实践的下一步,就是构建能够隔离和放大LLM优势、同时规避其弱点的“锯齿形”系统。这或许才是AI原生应用真正的、也是最艰难的起点。
如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、The LLM Failure Atl…、unpopular opinion:… 本身,而是它们共同暴露出的分配逻辑。 x、reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,大语言模型能力的'锯齿形'模式——即同时具备惊人的代码重构能力和令人困惑的常识缺失——并非缺陷,而是其本质特征,当前工程实践中的许多失败源于未能理解并适应这一特征。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- The LLM Failure Atlas: 4 Structural Failure Modes That Break Modern AI Systems (Free PDF) - https://www.reddit.com/r/PromptEngineering/comments/1tghwc8/the_llm_failure_atlas_4_structural_failure_modes/
- unpopular opinion: coding arent getting dumber - they are quietly stealing our api credits - https://www.reddit.com/r/ClaudeAI/comments/1thr7sc/unpopular_opinion_coding_arent_getting_dumber/