LLM 不止是加速器:从“安装 .md”到“智能体原生经济”的范式革命
当安德烈·卡帕斯在红杉资本的一次内部交流中提出“安装 .md 脚本”和“菜单生成应用”时,他指出的不是一个技术噱头,而是 LLM 带来的根本性转变。这种转变不是关于更快、更便宜的代码补全,而是关于一种全新的计算范式——其中 LLM 本身成为了解释器、执行体和创造者。本文从这一洞察出发,探讨 LLM 的“锯齿状”能力分布如何塑造了智能体经济的雏形,以及我们为何需要放弃对完美因果模型的执念,转而拥抱一种混合的、概率性的工程实践。
核心观点:LLM 的真正价值不在于加速现有流程,而在于它首次使某些功能成为可能,这要求我们重新理解其能力边界,并在此基础上构建新一代产品和经济模式。
在技术范式的更替中,最容易被忽略的往往是那些从“不可能”变为“可能”的瞬间。当安德烈·卡帕斯在红杉资本 2026 年的一次炉边谈话中,提出“安装 .md 脚本”和“菜单生成应用”这两个概念时,他并非在描绘一个遥远的科幻图景,而是在揭示一个已经发生、但多数人尚未正视的事实:大型语言模型正在从根本上改变计算的边界。这不仅仅是关于更快的代码生成或更便宜的自动化,而是关于一种全新的计算实体——一个能够理解自然语言、执行复杂任务、甚至创造全新功能的“智能解释器”。卡帕斯的观察,尤其是他对 LLM 能力“锯齿状”分布的描述,为我们提供了一个难得的框架,用以审视这场正在发生的、远比“加速”更为深刻的范式革命。
我们习惯于将每一次技术飞跃理解为对既有流程的优化。印刷机加速了手抄本的复制,蒸汽机替代了马车,互联网让信件变成了电子邮件。这种思维惯性深植于我们的认知模式中,以至于当一项技术不仅加速旧事物,而且催生全新类别时,我们往往后知后觉。LLM 正是这样一个案例。尽管当前的主流叙事仍围绕“AI 编码助手”、“自动客服”和“内容生成”展开,但这些仅仅是 LLM 能力光谱中最为浅显的部分。卡帕斯所指的“菜单生成应用”——一个完全由 LLM 驱动的、无需任何传统代码就能将输入图像转化为输出图像的应用——揭示了一个深层的转变:LLM 可以成为一个自足的运行时环境,一个完整的“应用”可以被封装在自然语言指令中,而不是编译后的二进制文件或解释执行的脚本中。这并非对现有软件工程的改进,而是一种对“软件是什么”这一根本问题的重新定义。
然而,这种重新定义伴随着一个令人不安的谜题:为什么同一个 LLM 既能流畅地重构一个十万行的代码库,又会建议你“走到洗车店去洗车”?卡帕斯将这种能力分布称为“锯齿状”,并指出其根源在于训练数据的分布和强化学习的经济动机。一个模型在编程任务上的表现优异,是因为 GitHub 和 Stack Overflow 上的数据为其提供了清晰的路径;而它在物理常识上的笨拙,则源于这类问题在训练数据中的稀缺。这种分布并非随机,而是由市场规模决定的。高需求、高价值领域(如软件工程、金融分析)的数据被精心打包,并通过强化学习嵌入模型的推理回路中,从而让模型在这些领域内表现出近乎超人的能力。反之,低需求、低价值领域(如日常物理常识、空间推理)则成为模型的盲区,它只能像“在丛林中用砍刀开路”一样,依赖残存的语言模型能力进行随机应变。
这种解释虽然有力,却远非完整。真正的挑战在于,我们无法为每一个可能的任务都创建一个大规模、高回报的训练数据集。这意味着 LLM 的能力边界将始终是模糊和动态的。这也解释了为什么尽管我们在“聊天机器人”和“代码补全”上取得了惊人进展,但在将 LLM 部署到需要高可靠性和可解释性的工业场景时,却屡屡碰壁。一个完美的、可预测的 LLM 可能永远不存在,因为它所面对的“世界”本身就是不可预测的。这种不确定性,恰恰是 LLM 工程化的核心难题,也是其最具魅力的地方。
正是这种不确定性,催生了卡帕斯所讨论的第三个主题:智能体原生经济。如果我们接受 LLM 是一个能力分布不均的“通用解释器”,那么产品设计和商业模式就必须围绕这种分布来重构。例如,一个成功的“智能体”不应试图在所有领域都胜任,而应专注于那些已经被 RL 回路充分覆盖的“轨道”,同时通过清晰的设计将用户可能遇到的“越野”风险降至最低。卡帕斯提出的“传感器、执行器和逻辑”分解模型,为这种设计提供了蓝图。在智能体原生经济中,信息必须被“最大程度地让 LLM 可读”,即结构化、语义化、并带有明确的意图。这不仅仅是接口设计的问题,而是整个产品哲学的根本转向:从服务于人类用户的体验,转向同时服务于人类和 LLM 代理的体验。
反对者可能会指出,这种对 LLM 的依赖是一种危险的简化,它掩盖了模型固有的偏差、幻觉和脆弱性。他们是对的。将关键决策委托给一个行为模式尚未完全被理解的模型,确实蕴含着巨大的风险。然而,历史告诉我们,每一次计算范式的跃迁都伴随着类似的担忧。从汇编语言到高级语言,从单机计算到云计算,不确定性从未消失,只是被封装到新的抽象层中。智能体原生经济中的“抽象层”,就是通过精心设计的“传感器”和“执行器”来桥接 LLM 的不确定性与现实世界的确定性需求。例如,一个 LLM 可能不知道如何精确控制一个机械臂,但通过将机械臂的 API 封装成一个“执行器”,LLM 只需要生成一个“抓取物体”的指令,而由底层的传统代码来保证执行的安全和精确。
这种混合范式——LLM 负责推理和决策,同时依赖传统计算(卡帕斯戏称为“CPU 协处理器”)来保证可靠性和实时性——可能是未来十年的主流。它要求工程师们既要有设计概率化智能系统的勇气,又要有坚守确定性工程底线的耐心。这对技能集提出了全新的要求。一个优秀的“智能体工程师”不再仅仅是代码的编写者,更是任务的分解者、数据的策展人和风险的评估师。他们在设计一个系统时,需要像导演编排一场即兴戏剧一样,既要给演员(LLM)足够的发挥空间,又要确保剧情(业务流程)不会失控。
回到卡帕斯的谈话,他试图推动的远不止技术细节的讨论。他真正想要传达的是,我们正站在一个十字路口:我们可以选择将 LLM 仅仅视为一个更快的打字机或一个更高效的搜索引擎,从而错过其最具革命性的潜力;或者,我们可以选择拥抱它的不完美,并开始认真思考一个由“智能体”作为主要计算主体的世界将如何运转。这不仅仅是关于技术,更是关于经济、关于工作、关于我们如何定义“能力”本身。
当前的喧嚣——关于 AGI 何时到来,关于 AI 是否会取代人类工作——很多时候都偏离了真正重要的议题。真正重要的问题是:我们如何与一个思维能力在某些领域远超人类、而在另一些领域又理性缺失的智能实体共存并协作?卡帕斯的回答是,不要试图将它变成一个全能的上帝,而是把它当作一个能力独特、需要精准“接口”的团队成员。这意味着我们需要重新设计我们的工具、流程和组织结构。
当然,这条道路并非坦途。经济激励可能会驱使公司滥用这种能力,创造出更多令人困惑而非赋能的“智能”产品。监管的滞后可能导致安全漏洞和伦理困境。而普通用户,在习惯了将 LLM 视为“魔法”后,可能会对其偶尔的“愚蠢”表现感到更加不安。但无论如何,这场范式变革已经开始。卡帕斯提到的“全神经计算”虽然仍是梦想,但“神经-传统”混合架构已经成为现实。那些率先认识到 LLM 是全新计算范式的核心而非旧范式的加速器的公司,将在下一个十年中占据不可动摇的先发优势。
最终,卡帕斯留下的最重要遗产不是某个具体的“安装 .md”技巧或“菜单生成”应用,而是一个认知框架:不要问 AI 能比人类快多少,而要问 AI 能让哪些曾经不可能的事情变成可能。当“安装一个软件”被简化为“向你的 LLM 展示一段文字描述”时,我们看到的不仅是效率的提升,更是一种全新的软件分发和消费模式的雏形。在这个模式中,LLM 不再是一个工具,而是平台本身。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 星际超级荒诞动画喜剧!《外星小偷里贝》第02话:男女对立星球【UP动画】 - https://www.bilibili.com/video/BV1xYLi6nEyi
- 洛克王国起名不能侮辱女玩家但可以侮辱男玩家是什么意思? - https://www.bilibili.com/video/BV1E6La6FEgX