LLM不止是更快:当硅谷开始理解“新能力”而非“旧效率”
在Sequoia Ascent 2026炉边谈话中,Karpathy提出LLM的范式转变不止于速度提升,而是创造了前所未有的功能类型。这迫使我们必须重新定义“AI能力”的边界,否则将错失真正具有破坏性的机遇。
核心观点:当前对LLM的主流叙事过于聚焦于其加速现有流程(如编程)的能力,忽视了它正在开启以前不可能的功能领域,这种认知滞后才是真正的风险所在。
硅谷的AI叙事长年陷入一个惯性陷阱:只要一个新工具出现,人们的第一反应永远是“它能让我把事情做得更快吗?”这种思维在过往的每一次技术革命中都曾作为主流观点占据制高点,它并非毫无道理——从蒸汽机到互联网,提升效率始终是技术扩散的核心驱动力。但对于LLM而言,这个框架正在变得不仅狭隘,而且误人子弟。
在最近一次Sequoia Ascent 2026的炉边谈话中,Andrej Karpathy直指要害:LLM的意义远不止于加速已有之事。他举出的三个例子——menugen应用的全LLM原生实现、用.md技能文件替代.sh脚本、以及基于非结构化知识的LLM知识库——分别指向了三种不同的“不可能性”。第一种是“本应不存在”的功能:一个输入图像、输出图像的应用完全可以完全由LLM驱动,无需任何传统代码;第二种是“重新定义接口”的能力:用自然语言描述安装过程,让LLM成为智能解释器,根据用户环境动态适配;第三种则是“根本不可能”的任务:对任意来源、任意格式的非结构化数据进行计算,这在经典编程中几乎无解。
这三种“不可能”背后隐藏着一个更深层的认知断裂。人们习惯于把LLM视为一个更强的搜索引擎或代码补全工具,本质上是将其置于“优化者”的角色。然而,当Karpathy谈到“新地平线”时,他暗示的是一种能力类型的跃迁:LLM不仅知道更多,而是能做以前做不到的事。这就像当人类发明了飞机,不应只把它看作“更快的马车”。
问题在于,这种认知滞后正在成为技术扩散的最大障碍。企业界的决策者和技术负责人习惯于用“ROI”和“效率提升百分比”来评估新技术,而这些指标天然偏向于对现有流程的优化。但对于LLM带来的这些新能力,它们难以被量化,甚至难以被定义。一个能够从任意网页中提取知识并动态构建知识库的LLM,其价值不是缩短某个已有任务的时间,而是创造了一个全新的任务类别——这就像在马车时代凭空出现了一种能跨越海洋的交通工具,你不能用“节约了多少养马费用”来衡量它。
当然,反对者会指出,这些新能力并非没有局限。Karpathy本人也坦承,LLM的能力分布极为“参差”:它可以在同一任务中同时展现令人惊叹的智慧——比如重构10万行代码——和令人困惑的愚笨——比如建议你步行去洗车。这种“颠覆性”与“荒诞性”并存的特征,正是LLM最令人不安的地方。它意味着我们不能简单地将新能力视为可替代的或稳定的,它们仍然依赖于训练数据分布中的“铁轨”,一旦离开这些轨道,就可能陷入荒野。
这种不确定性在商业部署中带来了真实的风险。如果一家物流公司试图完全依赖LLM代理来协调跨国供应链,它必须面对一个问题:当系统遇到一个训练数据中极少出现的异常事件——比如苏伊士运河堵塞或某港口突发罢工——LLM是否还能保持理性决策?答案可能是“不能”。这并非否定LLM的价值,而是要求我们以更谨慎的方式构建AI系统:不是将LLM视为独立决策者,而是作为人类决策者的协作伙伴,利用其新能力扩展决策空间,同时通过人工干预来对冲其“参差性”。
回到Karpathy提出的第三个主题——即将到来的“代理原生经济”,我们需要思考得更远。他描述的未来是产品和服务被分解为传感器、执行器和逻辑,而逻辑可以运行在1.0/2.0/3.0三种计算范式上。这意味着,一个完整的商业系统可能不再完全由传统软件构成,而是由LLM代理、经典代码和人类操作共同编排。这种编排本身就是一种全新的工程范式,它要求开发者同时掌握自然语言提示设计、经典编程和系统架构。
该叙事中有一个常被忽视的暗面:当LLM的能力边界不断扩大,但控制它的工具和伦理框架却严重滞后时,我们可能会面临一个“能力鸿沟”——技术能做越来越多的事,但社会没有准备好应对这些新能力带来的后果。想象一个全自主的供应链代理,它基于LLM的“新能力”同时与上千家供应商谈判、调度实时物流、并动态调整库存策略,但一旦它做出错误决策——比如在需求波动中过度囤货——可能引发的连锁反应将远超传统系统。
因此,与其纠结于LLM是否能取代程序员或客服,不如把注意力转向一个更有价值的讨论:我们如何识别、评估并负责任地部署这些“新能力”?这需要的不是更精确的基准测试,而是对能力类型的哲学思考——什么任务应该由LLM主导?什么任务需要保留经典计算的确定性?什么任务必须保留人类的最终判断?
回到Karpathy的谈话,他并不满意自己关于“参差性”解释的现状——他仍在努力构建一个关于LLM能力的准确模型。这种诚实本身就值得敬佩。它提醒我们,当前关于AI的所有讨论都带有临时性和试探性。真正的赢家不是那些最先拥抱LLM的公司,而是那些最先理解LLM新能力本质,并设计出与之匹配的组织结构和生产流程的公司。
效率的提升可以带来短期优势,但新能力的创造将重新定义市场格局。当Karpathy说“在每一个新范式变革中,显而易见的事情总是在加速或改进已有之物”时,他实际上是在警告:如果你只盯着LLM如何帮你写得更多代码,你可能就错过了它为你打开的那扇通往新大陆的门。
最终,这一轮讨论的核心不在于技术细节,而在于认知转型。我们能否跳出“更快、更省、更准”的旧框架,去拥抱那些“做不到、不可能、本不存在”的新可能性?这不仅是技术实践的问题,也是一种思维模式的挑战。如果硅谷和全球技术社群能够顺利完成这次认知跃迁,那才是LLM真正的历史性成就。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 年度巨献《致爱弥斯》父亲离世后,我完成了这部作品……【不乐得·鸣潮细节盘点】 - https://www.bilibili.com/video/BV1f9VN6mEYw
- 《绝区零》星徽比利EP | Billy Mode - https://www.bilibili.com/video/BV16xVw6gEgu