不止是加速:当 LLM 让三样“不可能”的事情变得理所当然
我们总是习惯用旧瓶装新酒,用 LLM 来加速写代码、写文章。但 Andrej Karpathy 提醒我们,LLM 的真正力量在于它创造了一个全新的类别:那些在经典计算范式下完全无法想象的功能。从“一键生成”到“用 markdown 代替 bash 脚本”,再到“非结构化知识库”,LLM 正在重新定义什么是“可能的”。
核心观点:LLM 的真正颠覆性不在于让旧事物更快,而在于它开启了一种全新的可能性空间,其中一些功能在经典软件范式下要么不应该存在,要么根本不可能实现。
每一次技术革命,人们总是习惯性地将新技术视为旧工具的加速器。电灯刚出现时,人们觉得它只是更好的煤油灯;汽车刚上路时,人们觉得它只是更快的马车;当 LLM 第一次在编码领域崭露头角时,大多数人的第一反应也是:“它能帮我更快地写代码。”这种“加速旧事物”的思维定势如此强大,以至于我们常常忽略了新技术真正具有颠覆性的地方:它打开了全新的可能性边界。
Andrej Karpathy 在 Sequoia Ascent 2026 炉边谈话中提到的三个例子,恰恰击中了这个思维盲区的命门。他用“menugen”这个概念来说明,LLM 能够处理一种新型的应用程序:输入一张图片,输出一张图片,整个过程完全由 LLM 驱动,没有一行经典代码。这是一个在传统软件 1.0 范式下“不应该存在”的应用——因为传统程序需要明确的输入输出规范、中间变量、控制流,而这些都被 LLM 的“理解能力”取代了。你能想象用 C++ 写一个程序,让它“理解”一张图片并输出另一张风格迥异的图片,而不需要任何图像处理库的调用吗?在 LLM 出现之前,这听起来像科幻。但现在,它不仅是可能的,而且是“自然”的。
第二个例子“用 `.md` 技能替代 `.sh` 脚本”,则是对我们工作方式的更深层颠覆。为什么我们要写一个复杂的 bash 脚本来安装软件?因为我们需要精确地指定每一步:下载、解压、配置、依赖检查、错误处理。但 LLM 改变了这个等式:你不需要写一个精确的脚本,你只需要写一个描述性的安装指南,然后对 LLM 说“照着这个做”。LLM 会动态地处理各种边缘情况,根据你的系统环境调整参数,甚至在你遇到依赖冲突时现场解决。这不是加速了脚本编写,而是完全消灭了脚本编写的需求。安装软件这件事,从“编程”变成了“沟通”。
第三个例子——“知识库”——则是最具颠覆性的。Karpathy 准确地指出,在经典计算范式下,处理非结构化知识(如文本文章、自由格式的文档)并将其用于推理,是一个几乎不可能完成的任务。传统数据库要求数据是结构化的,要求我们事先定义好模式。但世界上的大部分知识都是非结构化的、是杂乱无章的。LLM 的知识库功能,本质上是第一次让计算能够直接处理和推理这种模糊、非结构化的原始知识。这不是加速了知识管理,而是创造了一个全新的知识处理范式。
当然,有人会质疑:这些例子只是 LLM 在特定场景下的“雕虫小技”,是玩具,不是什么革命。他们可能会说,真正的生产力提升还是来自加速编码、加速文档撰写这些“旧事物”。这种质疑有它的道理——毕竟,任何新技术在初期都会被误用。但历史上的每次范式转换,其真正的价值往往来自那些“新用途”,而非“旧用途的加速”。电力被发明后,其最大的价值不是让人们能更快地纺纱(取代水力纺纱机),而是让工厂布局更灵活、催生了大规模流水线生产和全新的家电产品。互联网最大的价值不是让信件更快传递(电子邮件),而是创造了搜索引擎、社交媒体、电子商务这些全新的“物种”。
LLM 也不例外。加速编码当然有价值,但那只是它的“煤油灯”模式。真正属于 LLM 的“电灯”模式,是那些以前不可能、现在却以自然语言为界面、以理解和推理为核心的新应用。“menugen”式的应用只是一个开端,未来我们会看到更多“一键生成”的领域:一键生成法律合同、一键生成营销方案、一键生成教学设计。这些应用背后的逻辑,不是把人类踢出流程,而是把人类从“如何做”的细节中解放出来,专注于“做什么”和“为什么做”。
所以,当我们评估 LLM 的影响力时,应该警惕那种“它只是让 X 更快”的叙事。把 LLM 简单地看作“更好的代码生成器”或“更好的搜索引擎”,会让我们错过真正的森林。真正的森林,是那些完全建立在 LLM 的“理解”能力之上、在经典软件世界里“不应该存在”的新物种。这些新物种,才是未来十年改变我们工作、生活和思考方式的关键。
如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、My full strix halo…、Caught my RAG agent… 本身,而是它们共同暴露出的分配逻辑。 x、reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,LLM 的真正颠覆性不在于让旧事物更快,而在于它开启了一种全新的可能性空间,其中一些功能在经典软件范式下要么不应该存在,要么根本不可能实现。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。
当然,这个判断仍然有边界。技术 领域的很多内容天生带有夸张表达、圈层黑话和强情绪包装, 这意味着原始材料本身未必可靠,甚至会故意放大戏剧性。 所以这里真正需要辨认的,不是表层标题是否足够抓人,而是标题下面有没有重复出现的结构:问题是否反复被提到,解决路径是否开始稳定, 以及不同来源是否在无意中指向相同结论。只有这些条件同时成立时,LLM 的真正颠覆性不在于让旧事物更快,而在于它开启了一种全新的可能性空间,其中一些功能在经典软件范式下要么不应该存在,要么根本不可能实现。 才算站得住。否则,它最多只能算一个值得观察的苗头,而不是已经完成的判断。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- My full strix halo tips and tricks - https://www.reddit.com/r/StrixHalo/comments/1t2h7pp/my_full_strix_halo_tips_and_tricks/
- Caught my RAG agent fabricating "allergen-safe" recommendations from a menu with no allergen tags. Open-sourced the eval that diagnoses where any RAG agent fabricates. - https://www.reddit.com/r/LangChain/comments/1t3d3eb/caught_my_rag_agent_fabricating_allergensafe/