当 LLM 学会“读懂”安装说明:Sequoia 内部谈话揭示的 AI 范式转折点
Karpathy 在 Sequoia Ascent 2026 上的谈话暗示了一个远未充分讨论的转折:LLM 正在将“安装 .sh 脚本”变成“安装 .md 技能”——这个变化可能比任何编码加速都更深刻地改变我们与计算机交互的方式。
核心观点:LLM 的真正颠覆不在于加速编程,而在于它让“用自然语言描述任务”替代“编写执行脚本”成为可能,这正在催生一种新的“技能经济”,并系统性重构软件工程的价值链。
当 Andrej Karpathy 在 Sequoia Ascent 2026 的炉边谈话中提出“安装 .md 技能而非 .sh 脚本”时,他实际上碰触到了一个远比“AI 辅助编程”更颠覆性的命题:我们正在从“告诉计算机如何做”转向“告诉计算机我们要什么”。这个看似简单的转变,正在系统性地拆解过去五十年软件工程的底层假设。
长期以来,软件开发的本质是将人类意图翻译为机器可执行的精确指令集。无论是汇编语言、C 还是 Python,程序员的核心工作始终是“如何做”的翻译。即使是最先进的低代码平台,也只是把这种翻译的抽象层级提高,但底层逻辑并未改变:最终交付的仍然是一套确定性指令。而 LLM 带来的真正冲击,是它开始让“做什么”的描述本身成为可执行的“代码”。当你可以用自然语言写一篇关于如何安装软件的文档,然后直接交给 LLM 去执行——让它根据你的具体系统环境智能调整、处理错误、优化步骤——你实际上正在创造一种全新的“可执行文本”。
这种范式转变的深远影响在于,它从根本上改变了技能的价值分布。在传统软件工程中,最大的价值沉淀在“如何实现”的知识上:知道用哪个 API、如何优化查询、怎么写并发安全的代码。这些知识是稀缺的、高门槛的,也是程序员薪资的核心支撑。但在“安装 .md”的世界里,价值正在向“知道要解决什么问题”以及“知道如何描述解决路径”转移。这种转移并非渐进式的优化,而是对现有技能经济的一次重构。那些过去被认为“非技术性”的能力——系统思考、领域知识、问题分解、甚至写作能力——正在变成新的核心技能。与此同时,大量曾经需要数月训练才能掌握的“如何做”知识,正在被 LLM 商品化。
当然,这种转变并非一帆风顺。反对者会指出 LLM 的“锯齿形能力”问题:同一个模型可以优雅地重构十万行代码,却在让你去洗车时给出荒谬建议。Karpathy 本人也承认,这种不一致性源于训练数据分布的经济性——那些有明确市场价值的领域(比如代码生成)被 RL 加固成了“高速公路”,而其他领域则像是用砍刀在丛林中开路。这种偏见意味着,“安装 .md”的范式并非对所有任务都适用。对于高价值、高频次、有明确验证标准的任务,LLM 表现出色;但对于长尾、模糊、缺乏经济回报的领域,它的表现仍然不稳定。这给“技能经济”的转型增加了一个关键的不确定性:谁能决定哪些领域值得被“加固”?
另一个被忽视的挑战是信任与责任问题。当你运行一个 .sh 脚本时,你知道它会执行什么操作,也可以审计每一行代码。但当你“执行”一个 .md 文件时,LLM 在背后做出的每一个决策——它选择安装哪个版本的依赖、如何处理冲突、怎样配置环境——都是黑箱的。当安装失败或系统被破坏时,责任归属变得模糊。输出是 LLM 的,但意图是你的。这种责任分配的模糊性是纯确定性系统从未面临过的。
然而,正是这种“非确定性”也带来了前所未有的可能性。Karpathy 提到的 menugen 应用——一个完全被 LLM 吞噬的应用程序,输入输出都是图像,中间没有一行传统代码——展示了当我们可以放弃“精确控制”时能获得什么。这种应用在过去是不可能的,不是因为技术限制,而是因为我们的思维方式被“必须精确描述每一步”所束缚。一旦我们接受 LLM 作为“英语的高级解释器”,我们就能处理那些过去无法被形式化的任务:从混乱的、非结构化的知识中提取洞见,或者创建能够自适应不同用户环境的安装流程。
这引出了更宏观的问题:我们是否正在走向一个“全神经网络计算”的未来?Karpathy 提到的“CPU 协处理器”暗示了一个有趣的倒置:传统计算架构中,CPU 是主处理器,神经网络加速器是辅助的。但在未来,神经网络可能承担大部分计算任务,而传统 CPU 只负责处理那些需要确定性和精确性的部分。这不仅仅是技术架构的变革,更是整个软件行业权力结构的重塑。那些掌握领域知识而不是编程语言的人将获得前所未有的杠杆,而那些仅靠代码技巧生存的角色可能会被边缘化。
当然,这种转型不会均匀发生。在可验证性强的领域——比如代码生成、数学证明、财务分析——LLM 的可靠性已经足够高,可以开始取代部分传统工作流。而在那些需要创造性模糊性或人际判断的领域——比如战略决策、产品设计、用户体验——LLM 仍然是一个辅助工具,而不是替代品。这种不均匀性意味着,真正的技能经济转型将首先发生在那些“可验证的创造性工作”上——这正是目前被低估的领域。
回到“安装 .md”这个看似简单的例子,它实际上是一个隐喻。当 Karpathy 说出这句话时,他不仅仅是在描述一个技术可能性,而是在宣告一种新的编程范式:文本即代码,意图即指令。这个范式正在从边缘渗透到主流,其影响将远超任何单一的 AI 工具或平台。那些现在就开始理解并拥抱这种范式的人——无论是开发者、产品经理还是企业家——将定义下一个十年的软件形态。而那些固守“精确控制”理念的人,可能会发现自己正在用斧头与坦克作战。
这个转折点不可避免地带来了关于“人机关系”的深层问题。当计算机开始理解意图而非指令时,我们是否还需要程序员?我认为答案是否定的,但理由可能让人不安:我们需要的是更多的“问题设计师”和更少的“解决方案执行者”。未来的开发者可能不再写代码,而是写“技能描述”——那些被 LLM 理解的、关于世界如何运作的文档。这不是编程的消亡,而是编程概念的扩展。它要求我们重新定义什么是“技术能力”:不再是掌握语法,而是掌握逻辑和表达。
参考来源
- Roommate Got Hit By The Minecraft Mod Hack - https://www.reddit.com/r/computerhelp/comments/1tqmcef/roommate_got_hit_by_the_minecraft_mod_hack/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- Constructive Criticism Needed! - https://www.reddit.com/r/writingfeedback/comments/1tqhwnz/constructive_criticism_needed/