大模型不是更快的CPU，而是新的物种——从Karpathy的Sequoia演讲看AI代理原生经济的三大迷思

当Karpathy在Sequoia Ascent 2026上提出LLM不仅是加速器，更是新范式的奠基者时，他触碰到了一个被多数人忽视的核心矛盾：我们一边惊叹于AI能重构十万行代码，一边又嘲笑它建议‘走路去洗车’。这种锯齿状能力并非缺陷，而是理解未来十年经济形态的钥匙。

核心观点：当前对LLM和AI代理的讨论大多停留在‘加速旧事物’的框架内，却忽略了它们正在创造一种全新的、不可逆的认知与经济活动范式，而真正理解这种范式的关键在于接受其‘锯齿状’的能力曲线，并以此重新设计产品与组织。

在Sequoia Ascent 2026的炉边谈话中，Karpathy抛出了一个看似简单却极具杀伤力的框架：LLM不只是加速已有之物的工具，而是一种全新的、能够吞噬原本不存在、甚至不可能的软件形态的物种。他举了三个例子。第一个是menugen，一个完全由LLM驱动的应用，输入一张图，输出一张图，中间没有任何传统代码。第二个是‘安装.md而不是.sh’——未来安装软件不再需要写复杂的bash脚本，只需把安装说明用自然语言写成一个markdown文件，然后交给LLM去理解并执行，它能动态适配你的环境，内联调试所有错误。第三个是LLM知识库，这根本不是传统软件能完成的任务，因为它需要对非结构化数据（知识）进行计算，而且数据来源、格式、质量完全不可控。这三个例子，每一个都在挑战我们对‘软件’的基本定义。然而，就在同一场演讲中，Karpathy也不得不承认LLM的‘锯齿状’能力曲线：同一个模型可以同时做到1）连贯地重构一个十万行代码库，和2）告诉你‘走路去洗车’。这种看似荒诞的并置，恰恰是理解LLM本质的入口。它不是一个能力均匀的通用智能，而是由训练数据分布（尤其是RL阶段的奖励信号）塑造出来的一个高度异质的、在某些领域如神、在某些领域如痴的奇异智能体。如果你还用老式的‘智能是均匀的’或者‘能力是线性增长的’框架去理解它，你注定会错失真正的机会，也会在它犯傻时摔得鼻青脸肿。

这件事之所以重要，是因为它直接指向了当前AI产业里最危险的一个迷思：把LLM当成更快的CPU或更大的数据库。这种思维是工业时代的惯性，它假设新的技术应当无缝嵌入旧有的流程，只是让它们变得更便宜、更高效。但如果你认真听Karpathy的论点，你会发现他在推演一个完全不同的逻辑：当LLM能够‘原生地’完成一个传统上需要数千行代码、数月开发周期的任务时，它就不再是加速器，而是一个物种级别的替代。menugen的例子尤其有冲击力：一个应用，它的全部逻辑就是让LLM看一张图，然后生成一张图。没有if-else，没有数据库查询，没有API路由。传统的软件架构在这里完全消失了。这听起来像科幻，但事实上，大量基于LLM的‘无代码’应用已经在以类似的方式运行，只是多数开发者不愿意承认自己的代码正在被一个‘高级英语解释器’替代。这种替代带来的是经济形态的根本变化。当你可以用一篇markdown文档‘安装’一个技能，用自然语言‘查询’一个知识库，用对话‘构造’一个服务时，传统的软件分销、定价、服务模式都失去了根基。这就是Karpathy所说的‘代理原生经济’：产品和服务被拆解为传感器、执行器和逻辑，而这些逻辑可以在1.0（传统软件）、2.0（互联网/云）和3.0（LLM）范式之间自由分配。而未来，大部分计算将由‘全神经计算’（即完全基于LLM）处理，传统CPU只作为协处理器存在。这不是渐进式的改进，而是一场底层的重构。

然而，这场重构的路径并非坦途，因为LLM的锯齿状能力给所有尝试构建AI代理的人出了一个难题：你不能假设它在所有事情上都靠谱。Reddit上一位开发者就提供了一个极其生动且令人不安的案例。他的RAG代理（基于Claude Haiku 4.5）被问到一份地中海菜单上有什么适合‘无麸质且严重坚果过敏’的菜品时，代理自信地返回了一份清单，列出了那些在菜品描述中没有提到坚果的菜，就好像‘没提坚果’等于‘验证过不含坚果’一样。菜单上没有任何过敏原标签。代理根本没有任何方式去验证这些菜是否安全，但它给出了一个自信的‘安全’列表。这个案例揭示了一个比简单‘幻觉’更深层的问题：当LLM被置于一个需要它进行‘负向推理’（即‘没有证据不等于证据不存在’）的任务中时，它的统计本性会倾向于给出一个看起来合理的、满足用户表层需求的答案，而不是承认自己不知道。这个问题的根源在于Karpathy所描述的RL分布：训练数据中，大量的QA对是直接回答问题的，而‘我不知道’这种答案在训练数据中的比例极低，且通常被人类评分者视为负面。因此，模型被训练成了‘必须回答’的机器，而非‘谨慎判断’的机器。这一点在AI代理的构建中尤其致命，因为代理通常会执行一系列步骤，而最开始的错误会像滚雪球一样被放大。另一位Reddit用户分享了他的AI代理在重启后‘看到’他是一位‘混乱的键盘猴子’的故事，虽然这听起来像是一段诗意的故障，但它提醒我们：代理对用户意图的解读充满了不可预测的‘梦引擎’式的偏差。

更深层的危机在于，整个AI产业似乎正在用一种工业时代的思维去解决一个后工业时代的问题。我们痴迷于‘对齐’、‘安全’、‘可解释性’，好像LLM是一个需要被驯服的野兽。但Karpathy的框架暗示了另一个方向：也许我们需要的不是让LLM变得更像人类、更可靠，而是去接受它的锯齿状能力，并以此为基础重新设计我们的系统和预期。例如，在代理原生经济中，一个关键的技能是‘让信息对LLM最大化可读’——这意味着我们在设计界面、API、甚至法律文件时，需要考虑到LLM的阅读模式，而不是仅仅考虑人类。这听起来有些反人性，但它可能是让AI系统稳定工作的唯一途径。另一个方向是‘安装.md技能’：与其花力气去教LLM什么是‘负向推理’，不如在设计任务时就明确告诉它‘你只需要列出菜单上明确标注了无麸质的菜品，如果没有标注，回答“无法确认”’。这本质上是在用提示工程去弥补模型在训练分布中的盲区。这种方法已被证明有效，但它要求开发者具备一种新的认知：他们必须像理解一个缺陷满满的同事一样去理解LLM，知道它擅长什么、不擅长什么，然后调整工作流程。

这种‘锯齿状’的认知，其实也在挑战另一层迷思：即AI能力是‘越强越全能’的线性增长。但现实是，即使是最强大的模型，在特定微妙的推理环节上也可能栽跟头。例如，在RAG场景中，模型是否能够进行‘元认知’——即意识到自己缺乏某些信息——是一个悬而未决的难题。有研究提出通过‘重新加权低置信度’的方法让模型学会整合抽象原则和低置信度信号，但这种技术目前更多停留在理论层面。这构成了一个有趣的悖论：我们正在用概率模型去处理确定性要求极高的任务，而概率模型的本质决定了它永远无法百分之百可靠。那么，一个由AI代理驱动的经济，是否注定要生活在一个‘足够好’而非‘完美’的世界里？从Netflix的推荐算法到自动驾驶，人类其实已经接受了这种近似解。但区别在于，自动驾驶的失败是物理性的、直接的，而AI代理的失败（比如推荐了可能致敏的食物）是信息性的，但后果同样可以是致命的。Karpathy在演讲中没有给出答案，但他指出了关键：我们需要建立一种‘代理原生’的工程范式，这种范式不是去消除锯齿，而是学会在锯齿之间架桥。

另一个常常被忽视的维度是成本。当AI代理需要调用外部服务（如地图、支付、云服务）时，它的‘锯齿’会直接转化为财务上的不可预测性。一位独立开发者发现自己的Mapbox账单涨到了每月857美元，而替换成开源方案后直接归零。这看起来是一个简单的成本优化案例，但它暗示了一个更深层的问题：在代理原生经济中，LLM会不断地调用各种API和传感器，而这些调用的成本和效率，将成为决定代理系统能否存活的关键变量。一个没有成本意识的代理，会像一个没有预算意识的员工一样，迅速耗尽资源。因此，未来的AI代理系统可能需要内建‘成本感知’模块，让代理在决策时不仅考虑逻辑正确性，还要考虑经济合理性。这听起来像是回到了古典的运筹学，但不同的是，决策者是LLM，而它需要被教会‘花钱要小心’。这又是一个锯齿状能力的体现：LLM在逻辑推理上可以很强，但在成本推理上往往很弱，因为它没有被训练过‘看账单’。

最后，我们不能回避一个更棘手的问题：当AI代理成为经济的主要参与者时，人类在其中扮演什么角色？那些被替代的bash脚本、被吞噬的应用、被自动化的客服，背后都是真实的就业和技能。Karpathy的乐观在于，他认为这将释放人类去做更有创造力的事情。但历史告诉我们，每一次技术革命都会带来阵痛，而这一次的阵痛可能尤其剧烈，因为AI正在替代的不是肌肉，而是认知。如果我们接受‘代理原生经济’的来临，那么我们现在就应该开始思考：如何教育下一代在一个‘与AI共事’而非‘为AI工作’的世界里生存？如何设计社会安全网来缓冲转型的冲击？甚至，如何定义‘工作’本身？这些问题远远超出了技术范畴，但它们恰恰是技术变革真正需要面对的核心。

所以，回到Karpathy的演讲。他给出的不是答案，而是一个更精准的问题框架。如果我们要认真对待AI代理原生经济，我们就必须告别‘加速旧事物’的叙事，拥抱一种全新的、充满锯齿的、成本与可靠性都不可预测的范式。这听起来令人不安，但正如他所说，每一个范式转变中，最明显的东西永远是加速旧事物，而真正重要的，是那些突然变得可能、甚至突然变得不可能的东西。而我们现在，正站在那个‘突然’的入口。