LLM不止是加速器:为什么Karpathy的“三大新地平线”才是真正的范式革命
在Sequoia Ascent 2026的炉边谈话中,Karpathy提出了一个挑战性观点:LLM的真正价值不是加速编码,而是创造了过去不可能存在的功能。这不仅是技术进步,更是我们对“计算”本身理解的转变。
核心观点:大多数人对LLM的应用停留在“让已有的事情更快”的思维定式中,而Karpathy指出的三个新方向——全LLM原生应用、技能文本化、知识库不可计算性——揭示了真正革命性的范式转移。
在Sequoia Ascent 2026的一次炉边谈话中,Andrej Karpathy提出了一个看似简单却极具颠覆性的论点:大型语言模型的意义远不止于加速现有任务,它们正在创造三类全新的事物——全LLM原生应用、技能文本化、以及基于知识库的不可计算功能。这个表述看似技术性,但如果我们认真拆解,会发现它实际上在挑战我们对“软件”和“计算”的根本认知。
先看第一个新地平线:全LLM原生应用。Karpathy举了一个名为“menugen”的例子,它是一个完全被LLM吞噬的应用——输入一张图片,LLM直接输出一张图片,中间没有任何传统代码作为中介。这听起来像是一个简单的图像处理流程,但仔细想,它的意义远不止于此。传统软件的逻辑是:开发者编写代码,定义输入、处理和输出的规则。代码是确定性的,是可审计的,也是可预测的。但在menugen中,输入到输出的映射由LLM内部的参数空间决定,这些参数不是人类编写的规则,而是从海量数据中学习到的分布。这意味着,你无法像审查代码一样审查它的行为逻辑,你只能通过测试来验证。这是一种完全不同的软件范式,它的边界不再是代码的边界,而是模型能力的边界。
第二个新地平线更具颠覆性:技能文本化。Karpathy提出,用.md文件安装技能,而不是.sh脚本。想象一下,安装一个软件不再需要编写复杂的bash脚本来自动化配置、依赖管理和错误处理,而是直接写一段自然语言描述,告诉LLM:“请安装这个软件,配置网络代理,如果出现权限错误,尝试重新运行。”LLM作为一个高级自然语言解释器,可以智能地针对你的具体环境执行安装,并在出错时动态调整。这听起来像是把系统管理的专业性降低到了自然语言的门槛。但更深层的含义是,它将“技能”从代码中剥离出来,变成了可读、可写、可共享的文本。一个不需要编程知识的领域专家,可以通过撰写一份Markdown文档,就能创造出一个可执行的自动化流程。这是对“编程”概念的扩展,而不是替代。
第三个新地平线是知识库的不可计算性。在经典计算范式中,如果你想要从大量非结构化文本中提取知识、建立关联、回答复杂问题,你需要编写解析器、索引器、检索算法,每一步都有明确的规则和边界。但LLM知识库打破了这一切。它可以接受来自任意来源、任意格式的非结构化数据——网页、PDF、邮件、聊天记录——然后直接提供看似智能的问答。这种功能在经典软件中要么不存在,要么成本高得不可想象。为什么?因为“知识”本身不是一个形式化的数据结构,它存在于上下文、隐喻、类比和不完整陈述之中。经典计算处理的是数据,而LLM处理的是“知识”。这不是量上的改进,而是质上的飞跃。
这三条新地平线共同指向一个事实:我们正在从“软件1.0”——人类编写确定性的指令——向“软件2.0/3.0”过渡,其中模型成为核心的执行引擎。但Karpathy在谈话中也坦诚地指出了这个范式最令人困惑的特性:不均衡性。同一个LLM可以同时完美地重构一个10万行代码的代码库,却告诉你“走路去洗车”,这种行为的“锯齿状”让开发者既惊叹又困惑。他对此的解释非常深刻:这取决于领域的可验证性和经济学。那些收入潜力大、训练数据丰富、RL优化充分的领域,LLM表现出色;而对于边缘的、低流量的、难以验证的领域,LLM则显得笨拙。换句话说,LLM的能力地图是由市场规模和可验证性共同雕刻出来的,而不是由人类对“智能”的抽象定义决定的。
这个解释引发了一个重要的推论:如果你的应用场景落在LLM能力的高地(比如代码生成、常见问题解答),你会觉得LLM已经接近通用人工智能;但如果你的场景在低地(比如罕见的物理模拟、特定领域的反事实推理),你会觉得它连基本的常识都没有。这种不均衡性不是缺陷,而是LLM本质的结构特征。理解这一点,对于有效地使用LLM至关重要——不是抱怨它为什么不万能,而是设计系统时,要把任务映射到它的能力高地,同时为低地准备回退机制。
Karpathy最后谈到了“Agent原生经济”,这个概念值得深思。他提出,产品和服务正在被分解为传感器、执行器和逻辑三个组件,而这些组件可以分布在经典计算、机器学习计算和LLM计算三种范式上。这种分解意味着,未来的软件架构不再是一个单体的程序,而是一个由不同计算范式组成的协作网络。传感器负责采集数据(物理或数字),执行器负责影响世界(发送邮件、控制机械臂),逻辑则决定何时触发哪个执行器。而逻辑本身可以是一段用自然语言写成的策略,由LLM来解释和执行。
这种架构的颠覆性在于,它模糊了“工程师”和“用户”的界限。一个业务人员可以通过描述流程,利用LLM生成一个Agent的原型;一个运维专家可以通过写一篇Markdown文档,创建一个自动化的监控响应系统。软件开发的民主化将进入一个新阶段,这不仅仅是因为LLM帮助人类写代码,而是因为LLM本身成为了代码的执行环境。
当然,这个愿景也面临着巨大的挑战。Karpathy没有回避的问题包括:如何确保Agent的可靠性?当行为不均衡性无法消除时,如何构建值得信赖的系统?如何防止恶意Agent利用自然语言指令的模糊性实施攻击?这些都是有待解决的核心工程难题。
但从长远来看,Karpathy指出的方向是不可逆的。每一次计算范式的革命,都是从“让旧事情更快”开始,然后逐渐发现“新事情成为可能”。LLM已经走过了“更快编码”的阶段,正在进入创造全新功能的阶段。那些仍然停留在“LLM只是加速器”思维中的开发者,可能会错失正在发生的范式变革。而能够理解不均衡性、拥抱混合架构、投资于Agent原生经济的参与者,将有机会定义下一个计算时代的面貌。
Karpathy的这次谈话不是技术预言,而是正在发生的现实的清晰映射。它提醒我们,真正重要的不是问“LLM能做什么”,而是问“哪些事情因为LLM而变成了可能”。答案可能远比我们想象的更深远。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 史上首款2nm芯片有多强?三星Exynos 2600性能分析! - https://www.bilibili.com/video/BV1bwVp67Eey
- Roommate Got Hit By The Minecraft Mod Hack - https://www.reddit.com/r/computerhelp/comments/1tqmcef/roommate_got_hit_by_the_minecraft_mod_hack/