LLM的锯齿形边界与代理原生经济：我们正在重新发明计算，但还不知道怎么用

当LLM能重构十万行代码却建议你开车去洗车，我们面对的不是一个更聪明的工具，而是一个畸形的智能。这种锯齿形能力分布催生了三个新物种：完全被LLM吞噬的应用、以自然语言为安装脚本的技能、以及传统代码无法处理的知识基。它们指向一个根本性的转变——从软件1.0的确定性计算，到软件3.0的概率性推理，中间夹着一个正在消亡的2.0。

核心观点：LLM真正的革命不在加速旧任务，而在创造了全新计算范式——这种能力分布极端不均衡（锯齿形），迫使我们必须重新思考什么是产品、什么是服务，以及一个'代理原生'的经济意味着什么。

上周在红杉资本2026年度大会上，Andrej Karpathy做了一场炉边谈话。他没有泛泛谈论AI的进步，而是抛出了一个尖锐的问题：当LLM能同时做到两件事——把十万行代码重构得井井有条，又告诉你'走到洗车店去洗车'——我们该怎么理解这种能力的极度不均衡？这不是一个技术bug，而是LLM能力的本质特征。Karpathy称之为'锯齿形'（jaggedness），并试图从训练数据分布和经济学角度解释：凡是落入RL训练数据分布内的任务（比如编程），LLM就像在轨道上飞驰；凡是偏离这一分布的任务（比如常识推理），LLM就像在丛林里挥着砍刀。这不仅是能力分布问题，更是一个经济问题——收入和市场总量决定了前沿实验室选择把什么装进训练数据。

但这种锯齿形最有趣的地方不在分析，而在它催生了什么。Karpathy举了三个例子，每一个都在挑战我们对'计算'的既有定义。第一个是menugen——一个完全被LLM吞噬的应用。输入一张图片，输出一张图片，整个逻辑由LLM原生完成，没有任何一行古典代码。这不是'用AI辅助写代码'，而是'用AI替代了代码本身'。第二个更激进：用安装.md技能代替安装.sh脚本。传统的软件安装需要写复杂的bash脚本，根据操作系统、依赖环境、硬件配置做大量条件判断，而现在你只需要用自然语言写一份安装说明，然后对LLM说'照着这个做'。LLM成为英语的'高级解释器'，能智能适配你的环境，现场调试、自动修复。第三个例子是LLM知识库——这是古典代码根本无法完成的任务，因为它是对非结构化数据（知识）的计算，这些数据来自任意来源、任意格式，包括纯文本文章。你看，这三个例子的共同点不是'让已有的东西跑得更快'，而是创造了以前根本不存在（或不该存在）的功能。

这就是我们正在面对的计算范式转移。传统的软件工程建立在确定性上——写下精确指令，得到可预测结果。LLM引入的是概率性计算——输入模糊意图，输出合理结果。这两种范式之间的差距不是线性递进，而是空间维度的跳跃。Karpathy在谈话中隐隐勾勒了一个三层计算架构：软件1.0（古典代码）、软件2.0（机器学习）、软件3.0（LLM原生）。我倾向于认为，2.0是一个过渡层，它用统计方法代替手工规则，但本质上仍然运行在确定性硬件上，而3.0才是真正的'神经计算'，它不再需要指令集，只需要意图和上下文。这不是科幻，menugen已经在实践了。

当然，反对者立刻会指出：LLM的不确定性是致命的。你不能用概率模型控制核反应堆，也不能用它运行银行核心系统。这没错，但恰恰是这种不确定性催生了新的经济形态——'代理原生经济'（agent-native economy）。Karpathy提出了一个分解框架：任何产品和服务都可以拆解为传感器、执行器和逻辑。在代理原生经济中，逻辑层被拆分为软件1.0/2.0/3.0三种计算范式，分布在不同的组件中。传感器和执行器负责与物理世界交互，而逻辑层由LLM主导——不是全部替代，而是根据任务特性分配。那些需要确定性的底层操作（比如数据库事务）仍然由古典代码处理，而需要理解、推理、生成的复杂任务交给LLM。这种混合架构不是妥协，而是必然：锯齿形能力决定了LLM不能包办一切，但也决定了古典代码无法触及许多新领域。

但这里有一个更深层的问题：我们准备好了吗？我在浏览大量技术讨论时发现一个现象：大多数人对LLM的理解仍然停留在'更好的搜索引擎'或'更聪明的代码助手'。Karpathy提到的三个新方向，在主流技术社区几乎没有讨论。更令人担忧的是，整个教育体系、开发工具、评估标准都是为软件1.0设计的。我们训练程序员写精确的代码，但LLM需要的是能清晰表达意图的'提示工程师'；我们推崇可测试、可验证的软件质量，但LLM输出本质上是概率性的。这不是修修补补能解决的，而是需要重建整个技术栈的上层建筑。从代码仓库到持续集成管道，从错误日志到性能监控，每一个环节都需要重新设计以适应'概率计算'这个新物种。

还有一个被忽视的维度：经济激励。Karpathy敏锐地指出，LLM的能力分布受经济因素影响。训练数据的选择取决于哪个领域有最大的收入和市场总量。这就是为什么编程能力突飞猛进而做饭建议仍然一塌糊涂——编程有数十亿美元的开发者工具市场，而家常菜谱的变现能力几乎为零。这种'经济驱动的能力分布'正在制造一种新的智能不平等：资本密集型领域（金融、医疗、法律）将获得越来越强大的LLM能力，而劳动密集型领域（家政、养老、教育）可能被智能边缘化。这不是技术问题，而是分配问题。如果我们放任市场力量决定AI能力的分布，我们将得到一个高度偏斜的智能社会——对富人来说无所不能，对穷人来说聊胜于无。

那么，我们该怎么办？一个务实的起点是重新定义'技能'的概念。Karpathy提到'install .md skills'，本质上是在说：未来的技能不再是写代码，而是写文档。你不需要知道bash，但你需要知道如何用自然语言精确描述安装过程；你不需要懂汇编，但你需要理解LLM擅长什么、不擅长什么。这是一种新的元技能——'LLM literate'能力。它不是编程，而是沟通；不是逻辑，而是意图。另一个方向是重新设计界面。传统的GUI是基于确定性操作的——按钮、菜单、对话框都是精确触发的。未来的UI可能需要'意图输入'——你不点按钮，而是告诉系统你想做什么，系统（LLM）负责理解并协调多个组件完成。这听起来抽象，但menugen已经做了：输入一张猫的图片，输出一张梵高风格的猫。没有按钮，没有菜单，只有输入和输出，中间由LLM全权处理。

但最根本的挑战是社会层面的。我们正在进入一个'代理原生'的世界，其中LLM不仅是工具，而且是'居民'——它们是传感器、执行器和逻辑之间的中介，是产品和服务的设计者、部署者和维护者。这种转变比云计算或移动互联网更深刻，因为它改变的不是交互方式，而是计算的本体。当我们说'一个应用被LLM吞噬'，我们说的不只是效率提升，而是计算范式的替代：确定性让位给概率性，指令让位给意图，算法让位给上下文。这听起来像技术问题，实际上是一种新的认知方式——我们不再'命令'计算机做什么，而是'协商'它应该做什么。

这场转变不会一帆风顺。锯齿形能力意味着LLM在今天仍然是一个不可靠的伙伴。它能重构整个代码库，却在简单的常识问题上犯低级错误。这种不稳定性让许多人对代理原生经济持怀疑态度——你怎么把一个关键业务交给一个会犯'走到洗车店去洗车'这种错误的东西？但历史告诉我们，从来不是技术完美了才被广泛采用。Web 1.0的网页加载慢得像蜗牛，但人们开始在上面购物；移动互联网的电池只能撑半天，但人们开始用手机工作。不完美是新范式的通行证，不是拒签单。LLM的锯齿形不是缺陷，而是特征——它告诉我们哪些领域已经被重塑，哪些领域还在等待下一个突破。

最后，我想引用Karpathy谈话中的一个暗示：'也许某种完全神经化的计算方式，在古典CPU协处理器的协助下，能处理绝大多数计算。'这句话的意思是，未来的计算主力不是CPU，也不是GPU，而是'神经处理器'——也就是LLM本身。CPU和GPU退居二线，成为'协处理器'，处理那些需要确定性、可预测性的操作。这是一个大胆的设想，但并不是空想。menugen、.md技能、LLM知识库已经在朝这个方向走。它们不是未来的预言，而是现在的实证。问题不在于'这个未来会不会来'，而在于'我们能不能在它来的时候做好准备'。