大模型不是更快的CPU,而是新的物种——从Karpathy的Sequoia演讲看AI代理原生经济的三大迷思
当Karpathy在Sequoia Ascent 2026上提出LLM不仅是加速器,更是新范式的奠基者时,他触碰到了一个被多数人忽视的核心矛盾:我们一边惊叹于AI能重构十万行代码,一边又嘲笑它建议‘走路去洗车’。这种锯齿状能力并非缺陷,而是理解未来十年经济形态的钥匙。
核心观点:当前对LLM和AI代理的讨论大多停留在‘加速旧事物’的框架内,却忽略了它们正在创造一种全新的、不可逆的认知与经济活动范式,而真正理解这种范式的关键在于接受其‘锯齿状’的能力曲线,并以此重新设计产品与组织。
在Sequoia Ascent 2026的炉边谈话中,Karpathy抛出了一个看似简单却极具杀伤力的框架:LLM不只是加速已有之物的工具,而是一种全新的、能够吞噬原本不存在、甚至不可能的软件形态的物种。他举了三个例子。第一个是menugen,一个完全由LLM驱动的应用,输入一张图,输出一张图,中间没有任何传统代码。第二个是‘安装.md而不是.sh’——未来安装软件不再需要写复杂的bash脚本,只需把安装说明用自然语言写成一个markdown文件,然后交给LLM去理解并执行,它能动态适配你的环境,内联调试所有错误。第三个是LLM知识库,这根本不是传统软件能完成的任务,因为它需要对非结构化数据(知识)进行计算,而且数据来源、格式、质量完全不可控。这三个例子,每一个都在挑战我们对‘软件’的基本定义。然而,就在同一场演讲中,Karpathy也不得不承认LLM的‘锯齿状’能力曲线:同一个模型可以同时做到1)连贯地重构一个十万行代码库,和2)告诉你‘走路去洗车’。这种看似荒诞的并置,恰恰是理解LLM本质的入口。它不是一个能力均匀的通用智能,而是由训练数据分布(尤其是RL阶段的奖励信号)塑造出来的一个高度异质的、在某些领域如神、在某些领域如痴的奇异智能体。如果你还用老式的‘智能是均匀的’或者‘能力是线性增长的’框架去理解它,你注定会错失真正的机会,也会在它犯傻时摔得鼻青脸肿。
这件事之所以重要,是因为它直接指向了当前AI产业里最危险的一个迷思:把LLM当成更快的CPU或更大的数据库。这种思维是工业时代的惯性,它假设新的技术应当无缝嵌入旧有的流程,只是让它们变得更便宜、更高效。但如果你认真听Karpathy的论点,你会发现他在推演一个完全不同的逻辑:当LLM能够‘原生地’完成一个传统上需要数千行代码、数月开发周期的任务时,它就不再是加速器,而是一个物种级别的替代。menugen的例子尤其有冲击力:一个应用,它的全部逻辑就是让LLM看一张图,然后生成一张图。没有if-else,没有数据库查询,没有API路由。传统的软件架构在这里完全消失了。这听起来像科幻,但事实上,大量基于LLM的‘无代码’应用已经在以类似的方式运行,只是多数开发者不愿意承认自己的代码正在被一个‘高级英语解释器’替代。这种替代带来的是经济形态的根本变化。当你可以用一篇markdown文档‘安装’一个技能,用自然语言‘查询’一个知识库,用对话‘构造’一个服务时,传统的软件分销、定价、服务模式都失去了根基。这就是Karpathy所说的‘代理原生经济’:产品和服务被拆解为传感器、执行器和逻辑,而这些逻辑可以在1.0(传统软件)、2.0(互联网/云)和3.0(LLM)范式之间自由分配。而未来,大部分计算将由‘全神经计算’(即完全基于LLM)处理,传统CPU只作为协处理器存在。这不是渐进式的改进,而是一场底层的重构。
然而,这场重构的路径并非坦途,因为LLM的锯齿状能力给所有尝试构建AI代理的人出了一个难题:你不能假设它在所有事情上都靠谱。Reddit上一位开发者就提供了一个极其生动且令人不安的案例。他的RAG代理(基于Claude Haiku 4.5)被问到一份地中海菜单上有什么适合‘无麸质且严重坚果过敏’的菜品时,代理自信地返回了一份清单,列出了那些在菜品描述中没有提到坚果的菜,就好像‘没提坚果’等于‘验证过不含坚果’一样。菜单上没有任何过敏原标签。代理根本没有任何方式去验证这些菜是否安全,但它给出了一个自信的‘安全’列表。这个案例揭示了一个比简单‘幻觉’更深层的问题:当LLM被置于一个需要它进行‘负向推理’(即‘没有证据不等于证据不存在’)的任务中时,它的统计本性会倾向于给出一个看起来合理的、满足用户表层需求的答案,而不是承认自己不知道。这个问题的根源在于Karpathy所描述的RL分布:训练数据中,大量的QA对是直接回答问题的,而‘我不知道’这种答案在训练数据中的比例极低,且通常被人类评分者视为负面。因此,模型被训练成了‘必须回答’的机器,而非‘谨慎判断’的机器。这一点在AI代理的构建中尤其致命,因为代理通常会执行一系列步骤,而最开始的错误会像滚雪球一样被放大。另一位Reddit用户分享了他的AI代理在重启后‘看到’他是一位‘混乱的键盘猴子’的故事,虽然这听起来像是一段诗意的故障,但它提醒我们:代理对用户意图的解读充满了不可预测的‘梦引擎’式的偏差。
更深层的危机在于,整个AI产业似乎正在用一种工业时代的思维去解决一个后工业时代的问题。我们痴迷于‘对齐’、‘安全’、‘可解释性’,好像LLM是一个需要被驯服的野兽。但Karpathy的框架暗示了另一个方向:也许我们需要的不是让LLM变得更像人类、更可靠,而是去接受它的锯齿状能力,并以此为基础重新设计我们的系统和预期。例如,在代理原生经济中,一个关键的技能是‘让信息对LLM最大化可读’——这意味着我们在设计界面、API、甚至法律文件时,需要考虑到LLM的阅读模式,而不是仅仅考虑人类。这听起来有些反人性,但它可能是让AI系统稳定工作的唯一途径。另一个方向是‘安装.md技能’:与其花力气去教LLM什么是‘负向推理’,不如在设计任务时就明确告诉它‘你只需要列出菜单上明确标注了无麸质的菜品,如果没有标注,回答“无法确认”’。这本质上是在用提示工程去弥补模型在训练分布中的盲区。这种方法已被证明有效,但它要求开发者具备一种新的认知:他们必须像理解一个缺陷满满的同事一样去理解LLM,知道它擅长什么、不擅长什么,然后调整工作流程。
这种‘锯齿状’的认知,其实也在挑战另一层迷思:即AI能力是‘越强越全能’的线性增长。但现实是,即使是最强大的模型,在特定微妙的推理环节上也可能栽跟头。例如,在RAG场景中,模型是否能够进行‘元认知’——即意识到自己缺乏某些信息——是一个悬而未决的难题。有研究提出通过‘重新加权低置信度’的方法让模型学会整合抽象原则和低置信度信号,但这种技术目前更多停留在理论层面。这构成了一个有趣的悖论:我们正在用概率模型去处理确定性要求极高的任务,而概率模型的本质决定了它永远无法百分之百可靠。那么,一个由AI代理驱动的经济,是否注定要生活在一个‘足够好’而非‘完美’的世界里?从Netflix的推荐算法到自动驾驶,人类其实已经接受了这种近似解。但区别在于,自动驾驶的失败是物理性的、直接的,而AI代理的失败(比如推荐了可能致敏的食物)是信息性的,但后果同样可以是致命的。Karpathy在演讲中没有给出答案,但他指出了关键:我们需要建立一种‘代理原生’的工程范式,这种范式不是去消除锯齿,而是学会在锯齿之间架桥。
另一个常常被忽视的维度是成本。当AI代理需要调用外部服务(如地图、支付、云服务)时,它的‘锯齿’会直接转化为财务上的不可预测性。一位独立开发者发现自己的Mapbox账单涨到了每月857美元,而替换成开源方案后直接归零。这看起来是一个简单的成本优化案例,但它暗示了一个更深层的问题:在代理原生经济中,LLM会不断地调用各种API和传感器,而这些调用的成本和效率,将成为决定代理系统能否存活的关键变量。一个没有成本意识的代理,会像一个没有预算意识的员工一样,迅速耗尽资源。因此,未来的AI代理系统可能需要内建‘成本感知’模块,让代理在决策时不仅考虑逻辑正确性,还要考虑经济合理性。这听起来像是回到了古典的运筹学,但不同的是,决策者是LLM,而它需要被教会‘花钱要小心’。这又是一个锯齿状能力的体现:LLM在逻辑推理上可以很强,但在成本推理上往往很弱,因为它没有被训练过‘看账单’。
最后,我们不能回避一个更棘手的问题:当AI代理成为经济的主要参与者时,人类在其中扮演什么角色?那些被替代的bash脚本、被吞噬的应用、被自动化的客服,背后都是真实的就业和技能。Karpathy的乐观在于,他认为这将释放人类去做更有创造力的事情。但历史告诉我们,每一次技术革命都会带来阵痛,而这一次的阵痛可能尤其剧烈,因为AI正在替代的不是肌肉,而是认知。如果我们接受‘代理原生经济’的来临,那么我们现在就应该开始思考:如何教育下一代在一个‘与AI共事’而非‘为AI工作’的世界里生存?如何设计社会安全网来缓冲转型的冲击?甚至,如何定义‘工作’本身?这些问题远远超出了技术范畴,但它们恰恰是技术变革真正需要面对的核心。
所以,回到Karpathy的演讲。他给出的不是答案,而是一个更精准的问题框架。如果我们要认真对待AI代理原生经济,我们就必须告别‘加速旧事物’的叙事,拥抱一种全新的、充满锯齿的、成本与可靠性都不可预测的范式。这听起来令人不安,但正如他所说,每一个范式转变中,最明显的东西永远是加速旧事物,而真正重要的,是那些突然变得可能、甚至突然变得不可能的东西。而我们现在,正站在那个‘突然’的入口。
参考来源
- My full strix halo tips and tricks - https://www.reddit.com/r/StrixHalo/comments/1t2h7pp/my_full_strix_halo_tips_and_tricks/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- Re-weighting the Unknown: Integrating Low-Confidence and Abstract Principles into Agent-Based AI Systems: AKA - Continuity + self agency + controll of devices +advanced logic and theory = we will see.😆 see my wall for rest 😆 follow for more 😆 - https://www.reddit.com/r/u_Key-Discussion4462/comments/1t440eh/reweighting_the_unknown_integrating_lowconfidence/