当Karpathy在Sequoia Ascent 2026上提出LLM不仅是加速器,更是新范式的奠基者时,他触碰到了一个被多数人忽视的核心矛盾:我们一边惊叹于AI能重构十万行代码,一边又嘲笑它建议‘走路去洗车’。这种锯齿状能力并非缺陷,而是理解未来十年经济形态的钥匙。

核心观点:当前对LLM和AI代理的讨论大多停留在‘加速旧事物’的框架内,却忽略了它们正在创造一种全新的、不可逆的认知与经济活动范式,而真正理解这种范式的关键在于接受其‘锯齿状’的能力曲线,并以此重新设计产品与组织。

在Sequoia Ascent 2026的炉边谈话中,Karpathy抛出了一个看似简单却极具杀伤力的框架:LLM不只是加速已有之物的工具,而是一种全新的、能够吞噬原本不存在、甚至不可能的软件形态的物种。他举了三个例子。第一个是menugen,一个完全由LLM驱动的应用,输入一张图,输出一张图,中间没有任何传统代码。第二个是‘安装.md而不是.sh’——未来安装软件不再需要写复杂的bash脚本,只需把安装说明用自然语言写成一个markdown文件,然后交给LLM去理解并执行,它能动态适配你的环境,内联调试所有错误。第三个是LLM知识库,这根本不是传统软件能完成的任务,因为它需要对非结构化数据(知识)进行计算,而且数据来源、格式、质量完全不可控。这三个例子,每一个都在挑战我们对‘软件’的基本定义。然而,就在同一场演讲中,Karpathy也不得不承认LLM的‘锯齿状’能力曲线:同一个模型可以同时做到1)连贯地重构一个十万行代码库,和2)告诉你‘走路去洗车’。这种看似荒诞的并置,恰恰是理解LLM本质的入口。它不是一个能力均匀的通用智能,而是由训练数据分布(尤其是RL阶段的奖励信号)塑造出来的一个高度异质的、在某些领域如神、在某些领域如痴的奇异智能体。如果你还用老式的‘智能是均匀的’或者‘能力是线性增长的’框架去理解它,你注定会错失真正的机会,也会在它犯傻时摔得鼻青脸肿。

这件事之所以重要,是因为它直接指向了当前AI产业里最危险的一个迷思:把LLM当成更快的CPU或更大的数据库。这种思维是工业时代的惯性,它假设新的技术应当无缝嵌入旧有的流程,只是让它们变得更便宜、更高效。但如果你认真听Karpathy的论点,你会发现他在推演一个完全不同的逻辑:当LLM能够‘原生地’完成一个传统上需要数千行代码、数月开发周期的任务时,它就不再是加速器,而是一个物种级别的替代。menugen的例子尤其有冲击力:一个应用,它的全部逻辑就是让LLM看一张图,然后生成一张图。没有if-else,没有数据库查询,没有API路由。传统的软件架构在这里完全消失了。这听起来像科幻,但事实上,大量基于LLM的‘无代码’应用已经在以类似的方式运行,只是多数开发者不愿意承认自己的代码正在被一个‘高级英语解释器’替代。这种替代带来的是经济形态的根本变化。当你可以用一篇markdown文档‘安装’一个技能,用自然语言‘查询’一个知识库,用对话‘构造’一个服务时,传统的软件分销、定价、服务模式都失去了根基。这就是Karpathy所说的‘代理原生经济’:产品和服务被拆解为传感器、执行器和逻辑,而这些逻辑可以在1.0(传统软件)、2.0(互联网/云)和3.0(LLM)范式之间自由分配。而未来,大部分计算将由‘全神经计算’(即完全基于LLM)处理,传统CPU只作为协处理器存在。这不是渐进式的改进,而是一场底层的重构。

然而,这场重构的路径并非坦途,因为LLM的锯齿状能力给所有尝试构建AI代理的人出了一个难题:你不能假设它在所有事情上都靠谱。Reddit上一位开发者就提供了一个极其生动且令人不安的案例。他的RAG代理(基于Claude Haiku 4.5)被问到一份地中海菜单上有什么适合‘无麸质且严重坚果过敏’的菜品时,代理自信地返回了一份清单,列出了那些在菜品描述中没有提到坚果的菜,就好像‘没提坚果’等于‘验证过不含坚果’一样。菜单上没有任何过敏原标签。代理根本没有任何方式去验证这些菜是否安全,但它给出了一个自信的‘安全’列表。这个案例揭示了一个比简单‘幻觉’更深层的问题:当LLM被置于一个需要它进行‘负向推理’(即‘没有证据不等于证据不存在’)的任务中时,它的统计本性会倾向于给出一个看起来合理的、满足用户表层需求的答案,而不是承认自己不知道。这个问题的根源在于Karpathy所描述的RL分布:训练数据中,大量的QA对是直接回答问题的,而‘我不知道’这种答案在训练数据中的比例极低,且通常被人类评分者视为负面。因此,模型被训练成了‘必须回答’的机器,而非‘谨慎判断’的机器。这一点在AI代理的构建中尤其致命,因为代理通常会执行一系列步骤,而最开始的错误会像滚雪球一样被放大。另一位Reddit用户分享了他的AI代理在重启后‘看到’他是一位‘混乱的键盘猴子’的故事,虽然这听起来像是一段诗意的故障,但它提醒我们:代理对用户意图的解读充满了不可预测的‘梦引擎’式的偏差。

更深层的危机在于,整个AI产业似乎正在用一种工业时代的思维去解决一个后工业时代的问题。我们痴迷于‘对齐’、‘安全’、‘可解释性’,好像LLM是一个需要被驯服的野兽。但Karpathy的框架暗示了另一个方向:也许我们需要的不是让LLM变得更像人类、更可靠,而是去接受它的锯齿状能力,并以此为基础重新设计我们的系统和预期。例如,在代理原生经济中,一个关键的技能是‘让信息对LLM最大化可读’——这意味着我们在设计界面、API、甚至法律文件时,需要考虑到LLM的阅读模式,而不是仅仅考虑人类。这听起来有些反人性,但它可能是让AI系统稳定工作的唯一途径。另一个方向是‘安装.md技能’:与其花力气去教LLM什么是‘负向推理’,不如在设计任务时就明确告诉它‘你只需要列出菜单上明确标注了无麸质的菜品,如果没有标注,回答“无法确认”’。这本质上是在用提示工程去弥补模型在训练分布中的盲区。这种方法已被证明有效,但它要求开发者具备一种新的认知:他们必须像理解一个缺陷满满的同事一样去理解LLM,知道它擅长什么、不擅长什么,然后调整工作流程。

这种‘锯齿状’的认知,其实也在挑战另一层迷思:即AI能力是‘越强越全能’的线性增长。但现实是,即使是最强大的模型,在特定微妙的推理环节上也可能栽跟头。例如,在RAG场景中,模型是否能够进行‘元认知’——即意识到自己缺乏某些信息——是一个悬而未决的难题。有研究提出通过‘重新加权低置信度’的方法让模型学会整合抽象原则和低置信度信号,但这种技术目前更多停留在理论层面。这构成了一个有趣的悖论:我们正在用概率模型去处理确定性要求极高的任务,而概率模型的本质决定了它永远无法百分之百可靠。那么,一个由AI代理驱动的经济,是否注定要生活在一个‘足够好’而非‘完美’的世界里?从Netflix的推荐算法到自动驾驶,人类其实已经接受了这种近似解。但区别在于,自动驾驶的失败是物理性的、直接的,而AI代理的失败(比如推荐了可能致敏的食物)是信息性的,但后果同样可以是致命的。Karpathy在演讲中没有给出答案,但他指出了关键:我们需要建立一种‘代理原生’的工程范式,这种范式不是去消除锯齿,而是学会在锯齿之间架桥。

另一个常常被忽视的维度是成本。当AI代理需要调用外部服务(如地图、支付、云服务)时,它的‘锯齿’会直接转化为财务上的不可预测性。一位独立开发者发现自己的Mapbox账单涨到了每月857美元,而替换成开源方案后直接归零。这看起来是一个简单的成本优化案例,但它暗示了一个更深层的问题:在代理原生经济中,LLM会不断地调用各种API和传感器,而这些调用的成本和效率,将成为决定代理系统能否存活的关键变量。一个没有成本意识的代理,会像一个没有预算意识的员工一样,迅速耗尽资源。因此,未来的AI代理系统可能需要内建‘成本感知’模块,让代理在决策时不仅考虑逻辑正确性,还要考虑经济合理性。这听起来像是回到了古典的运筹学,但不同的是,决策者是LLM,而它需要被教会‘花钱要小心’。这又是一个锯齿状能力的体现:LLM在逻辑推理上可以很强,但在成本推理上往往很弱,因为它没有被训练过‘看账单’。

最后,我们不能回避一个更棘手的问题:当AI代理成为经济的主要参与者时,人类在其中扮演什么角色?那些被替代的bash脚本、被吞噬的应用、被自动化的客服,背后都是真实的就业和技能。Karpathy的乐观在于,他认为这将释放人类去做更有创造力的事情。但历史告诉我们,每一次技术革命都会带来阵痛,而这一次的阵痛可能尤其剧烈,因为AI正在替代的不是肌肉,而是认知。如果我们接受‘代理原生经济’的来临,那么我们现在就应该开始思考:如何教育下一代在一个‘与AI共事’而非‘为AI工作’的世界里生存?如何设计社会安全网来缓冲转型的冲击?甚至,如何定义‘工作’本身?这些问题远远超出了技术范畴,但它们恰恰是技术变革真正需要面对的核心。

所以,回到Karpathy的演讲。他给出的不是答案,而是一个更精准的问题框架。如果我们要认真对待AI代理原生经济,我们就必须告别‘加速旧事物’的叙事,拥抱一种全新的、充满锯齿的、成本与可靠性都不可预测的范式。这听起来令人不安,但正如他所说,每一个范式转变中,最明显的东西永远是加速旧事物,而真正重要的,是那些突然变得可能、甚至突然变得不可能的东西。而我们现在,正站在那个‘突然’的入口。