LLM范式转变:从加速旧世界到创造新世界
当大多数人还在用LLM加速编程和写作时,硅谷最前沿的思想家已经开始探索一个更激进的未来:LLM正在创造一种全新的计算范式,让传统软件工程中最基本的假设——代码必须由人类编写——开始崩塌。
核心观点:LLM的真正价值不在于加速已有流程,而在于创造了全新的功能类别,这些功能在没有LLM的情况下根本不可能存在。
在硅谷的一个闭门会议上,AI领域最敏锐的技术领袖之一抛出了一句值得深思的话:“LLM远不止是加速已有事物的工具。”这句话表面上平淡无奇,但如果稍微深究,就会发现它正在挑战整个科技行业对AI的核心假设。过去两年里,绝大多数关于LLM的讨论都围绕着“效率提升”展开:它能帮你更快地写代码、更快地写邮件、更快地整理数据。这些讨论虽然不无道理,但它们遮蔽了一个更重要的图景——LLM正在创造一些以前根本不可能存在的功能类别。
最有力的证据来自三个完全不同的应用场景。第一个是所谓的“menugen”概念:一个完全被LLM吞噬的应用,没有任何传统代码。用户输入一张图片,LLM直接输出一张经过处理的图片。这不是通过调用某个API或执行某个算法实现的,而是纯粹基于LLM对图像的理解和生成能力。这个想法如此激进,以至于很多软件工程师的第一反应是“这不可能”。但事实上,已经有原型证明了它的可行性。它的意义不仅仅在于展示了LLM的能力边界,更在于暗示了未来软件的新形态:一个应用可能不再由代码定义,而是由提示词和示例数据定义。
第二个场景更加实用但也更加颠覆:用“.md技能”替代传统的安装脚本。传统的软件安装是一个极其繁琐的过程,需要处理操作系统差异、依赖冲突、环境变量等无数细节。每个开发者都写过那些永无止境的安装脚本,每次在新机器上部署都像在跳一场复杂的舞蹈。现在,我们可以把安装指令写成一篇Markdown文档,然后直接“展示给LLM”。LLM会像一个智能的解释器一样,根据你的具体环境动态调整安装步骤,自动处理各种异常情况,甚至在出错时尝试多种解决方案。这不是在加速安装过程——这是在重新定义“安装”这个概念本身。
第三个场景可能是最令人兴奋的:LLM知识库。在传统软件范式中,处理非结构化数据(如文本文章、聊天记录、会议纪要)一直是一个难题。开发一个能够理解、组织和检索这些数据的系统,需要极其复杂的自然语言处理管道和规则引擎。但LLM让这一切变得突然简单:你可以直接“告诉”它你的知识库内容,然后让它回答任何相关问题。这听起来简单,但实际上代表了计算范式的根本性转变——从处理结构化数据的计算,变成了处理知识本身的计算。
这三个场景的共同点是:它们不是在做旧事物更快,而是在做以前根本做不到的事。这让人想起互联网早期的故事:当人们还在用电子邮件加速传统邮政通信时,第一批创业者已经开始思考电子商务、社交网络和在线支付这些在物理世界中不存在的东西。同样,今天的LLM也在经历类似的范式跃迁:从“加速器”到“创造者”。那些只把LLM当作更高级的自动补全工具的人,正在错过一场更根本的变革。
这种变革的深度远超大多数人的想象。当我们说“代码可能不再是软件的核心”时,这不仅仅是一个技术判断,更是一个对计算机科学基础的质疑。过去七十年里,计算的本质一直是“指令序列”:程序员编写精确的指令,计算机机械地执行。LLM打破了这种模式:现在,你只需要描述你想要的结果,系统自己会找出实现路径。这听起来像科幻小说,但它正在真实发生。那些声称“LLM只是统计模型,不可能真正理解”的批评,虽然理论上正确,但实际上无关紧要。因为对用户来说,结果才是唯一重要的。
当然,这条路并非没有挑战。最突出的问题是LLM的“锯齿状能力边界”:同一个模型可以同时表现出令人惊叹的推理能力和令人沮丧的愚蠢错误。它可能完美地重构一个十万行的代码库,但紧接着建议你“走到洗车房去洗车”。这种不一致性不是随机的,而是与任务的可验证性和数据分布密切相关。当任务在其训练数据中足够常见时,模型表现完美;当任务超出训练分布时,模型开始胡言乱语。理解这种模式——知道哪些场景下可以信任LLM,哪些场景下必须引入传统验证——是实际部署LLM的核心技能。
另一个挑战是经济学问题。前沿实验室在强化学习训练中,会根据收入和总可寻址市场(TAM)来决定哪些能力被纳入训练数据分布。这意味着,如果你的应用场景不在这些大厂的关注范围内,你得到的LLM能力就会大打折扣。这种“经济导向的能力分布”让LLM的应用变得高度不平衡:代码生成因为利润丰厚而被优化得极其出色,但一些看似简单但对社会至关重要的任务(如医疗诊断、法律推理)可能因为市场不够大而被忽视。
面对这些挑战,我们需要一种新的工程哲学。那种认为“只需要调用API就能解决一切问题”的乐观主义是无知的。实际需要的是一种混合范式:用LLM处理那些它能胜任的开放式任务,同时用传统软件来提供验证、约束和回退机制。这种“神经符号系统”可能才是未来几年最实用的AI架构。Karpathy提出的“agent原生经济”概念,将系统分解为传感器、执行器和逻辑三个部分,然后在不同的计算范式(1.0传统代码、2.0机器学习、3.0 LLM)之间灵活分配这些组件,这正是我们急需的架构思维。
回到最初的问题:LLM到底是加速器还是创造者?答案显然是两者都是,但人们对后者的认识还远远不够。在未来的五年里,那些只把LLM当作更快的打字机的人,会被那些把它当作全新计算平台的人远远甩在后面。这不是技术预测,而是对当前趋势的逻辑外推。当“安装脚本”可以变成“安装文档”,当“应用”可以变成“提示词”,当“编程”可以变成“描述”——我们正在目睹的不是工具的进化,而是计算本身的重新定义。
这种变革让人既兴奋又不安。兴奋的是新功能和新应用的爆炸性增长;不安的是我们现有的知识体系可能突然变得过时。但这就是范式转换的本质:它不会给你时间慢慢适应。那些愿意放弃旧地图、拥抱新大陆的人,将有机会定义下一个时代的计算标准。而那些坚持认为“AI只是工具”的人,可能会惊讶地发现——工具正在变成平台。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- Roommate Got Hit By The Minecraft Mod Hack - https://www.reddit.com/r/computerhelp/comments/1tqmcef/roommate_got_hit_by_the_minecraft_mod_hack/
- 🧝 24 Groundbreaking Discoveries: Machine Elves Through Unified Frameworks - https://www.reddit.com/r/GhostMesh48/comments/1tq7tyx/24_groundbreaking_discoveries_machine_elves/