别再问LLM能做什么了,要问它为什么不能做简单的事:理解“锯齿模式”才是AI时代的核心竞争力
当我们惊叹于LLM能重构十万行代码时,它却可能建议你“走到洗车店去洗车”。这种能力上的巨大落差并非Bug,而是理解AI时代的核心线索。本文从Sequoia内部谈话的洞察出发,剖析LLM“锯齿模式”的根源,并探讨在“Agent原生经济”中,我们如何与这个既强大又“偏科”的伙伴共舞。
核心观点:将LLM视为传统软件的加速器是危险的,其真正的价值在于它开启了一种“非古典计算”的新范式,但我们必须接受其“锯齿状”能力图谱——这一矛盾既是其力量的源泉,也是其最大的陷阱,而应对它的唯一方式是建立一种基于深度实用主义的认知框架。
我们正处在一个奇特的认知断层时代。一方面,铺天盖地的宣传让我们相信,大型语言模型(LLM)是无所不能的魔法师,能取代程序员、艺术家、客服,乃至一切知识工作者。另一方面,每一个深度使用者都亲身经历过那种令人抓狂的瞬间:它刚刚逻辑清晰地帮你重构了一个庞大的代码库,转眼间却给出一个荒谬到令人发笑的建议,比如“你可以走到洗车店去洗车”。这种巨大的能力落差,被前Tesla AI总监、现OpenAI成员Andrej Karpathy在红杉资本Ascent 2026的一场炉边谈话中精准地概括为“锯齿模式”。这并非一个需要被修复的Bug,而是LLM能力的核心特征。理解并内化这一特征,不再把LLM当成一个性能不均的“传统软件”,而是将其视为一种全新的、非古典的计算范式,才是我们能否在即将到来的“Agent原生经济”中取得优势的关键。
Karpathy在那场谈话中,试图推动一个远比“加速”更深远的认知转变。他举了三个例子来证明,LLM的价值远不止于“让已有的东西变得更快”。第一个例子是一个叫做“menugen”的应用,它完全被LLM“吞噬”,不需要一行古典代码:输入一张图片,输出一张图片,LLM原生地完成了整个任务。第二个例子更具颠覆性:用“install .md”技能取代“install .sh”脚本。想象一下,不再需要编写复杂的bash脚本来安装软件,而是将安装步骤用自然语言写成一个Markdown文件,直接交给LLM去理解和执行。LLM会智能地根据你的系统环境进行适配、调试,并解决一切意外问题。第三个例子是LLM知识库,这是一种在古典计算时代“不可能”实现的功能,因为它涉及对来自任意来源、任意格式的非结构化数据进行计算。这三个例子的共同点是,它们都触及了古典软件(Software 1.0)无法触及的领域:一个应用可以完全由LLM的逻辑构成;一个“程序”可以是一段可读的自然语言;而处理人类海量的、杂乱无章的知识,终于有了可行的计算路径。
然而,正是这种前所未有的能力,使得“锯齿模式”成为一个既迷人又危险的谜题。我们该如何解释,同一个模型能在同一分钟内同时展现出“天才”和“傻瓜”的两面?Karpathy对此提供了一个逐步深化的解释。起初,他将此归因于“领域的可验证性”——在数学、编程这些可以对输出结果进行明确对错的领域,LLM表现得非常出色;而在需要常识、直觉或理解人类微妙情感的领域,它就变得不可靠。但在红杉资本的这次谈话中,他引入了另一个维度:经济学。原因在于,前沿实验室在强化学习阶段,会选择性地将那些拥有巨大市场规模(TAM, Total Addressable Market)和可预测收入流(Revenue)的领域打包进训练数据分布。这意味着,如果你的需求恰好落在那些被精心“铺设了轨道”的数据分布之内,你就像是坐着高速火车飞驰;而一旦脱离了这些轨道,你就不得不在未经开发的丛林中手持砍刀开路。这解释了为何LLM在代码生成领域如此强大——因为其市场价值巨大,训练数据极其丰富;而在“如何正确地把车开到洗车店”这种琐碎但需要物理世界常识的任务上,它可能表现糟糕——因为这根本不在商业优化的优先级列表里。
这个解释虽然深刻,却远非令人满意。它暗示着一种深刻的“先验偏见”:LLM对世界的理解,是被资本和市场筛选过的。它更擅长处理那些已经被数据化、被货币化、被结构化的知识,而对于那些尚未被充分挖掘的、或个人化的、或需要真实世界交互的“暗知识”,它则表现得像一个天真的异乡人。这就是为什么,仅仅把LLM当作一个“更智能的搜索引擎”或“更快的程序员”是远远不够的,甚至是有害的。这种思维定式会让你在它擅长的轨道上过度依赖,而在它薄弱的丛林中毫无防备。
这种认知的缺失,直接导致了一个正在酝酿中的巨大陷阱:对“Agent”的盲目崇拜。当“Agent原生经济”成为新的热词,无数创业者和产品经理开始构想如何将产品和服务分解为传感器、执行器和逻辑单元,并创造出能自主完成任务的“Agent”时,他们往往忽略了一个关键问题:你的Agent的核心大脑——LLM,是“锯齿状”的。一个被设计来自动处理客服工单的Agent,可能非常擅长查找订单状态(处于数据分布内),却可能在与客户共情时表现得像个机器人(处于数据分布外)。一个被寄予厚望来自动化招聘流程的Agent,能高效筛选简历关键词,却可能无法理解一个优秀候选人的微妙潜力。如果我们不把“锯齿模式”作为设计Agent系统的首要前提,那么迎接我们的不是生产力的大解放,而是一系列令人啼笑皆非的“自动化事故”。
那么,面对这样一个强大却“偏科”的伙伴,正确的策略是什么?答案不是放弃,也不是盲目信任,而是建立一种“深度实用主义”的认知框架。首先,我们必须承认“锯齿模式”的不可消除性。不要试图去训练一个在所有领域都完美的通用模型,至少在可预见的未来这不现实。相反,我们要做的是绘制出特定LLM的“能力地形图”,清晰地知道它在哪些轨道上飞驰,在哪些领域是丛林。其次,在产品设计上,要主动地“引导”LLM进入其优势轨道。这意味着为Agent创造一个高度结构化、可验证的操作环境。例如,在代码生成工具中,为其提供明确的接口定义、类型系统和测试用例,让它在一个逻辑清晰、反馈即时的空间里工作。而对于那些需要“丛林技能”的任务,比如处理模糊的客户投诉或进行创造性的头脑风暴,则应该设计人机协作的循环,让人类来补足LLM的短板。最后,拥抱“信息为机可读”的原则。Karpathy提到的“agent-native economy”的另一个重要维度,就是让信息对LLM最大化“可读性”。这不仅仅是提供结构化的API,更是要思考如何用自然语言精确地描述意图、流程和约束。一个写得好的Markdown文件,可能比一段复杂的代码更能有效地指挥一个Agent。
我们正在目睹的,并非一个通用人工智能的诞生,而是一种全新计算范式的黎明。这种范式的核心,不是无所不能的神谕,而是一个能力分布极不均匀、可以被调用但不能被完全信赖的“数字大脑”。把LLM当作传统软件的“加速器”,就像把第一辆汽车当作“更快的马车”,虽然短期内能获得效率提升,但会错失整个新大陆的版图。真正的竞争力,来自于理解“锯齿模式”的本质,并在此基础上设计出那些在古典计算时代“可能不该存在”或“根本不可能实现”的应用和商业模式。那些学会了如何在这个“非古典”的计算世界中绘制地图、设立路标、搭建桥梁的人,才会在Agent原生经济的浪潮中,找到真正的立足之地。而所有试图绕过这种理解的、期待LLM变成完美工具的人,最终只会被其锋利的锯齿所伤。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- Mercury Agent install note: Mercury open-source agent without the setup-only trap - https://www.reddit.com/r/MercuryInstall/comments/1tmp0q1/mercury_agent_install_note_mercury_opensource/
- Why CVE Does Not Work for AI Agents, but AVE? - https://www.reddit.com/r/cybersecurity/comments/1tnditb/why_cve_does_not_work_for_ai_agents_but_ave/