LLM的真正革命不在加速,而在创造
当行业还在争论LLM写代码有多快时,一个更深刻的变革已经悄然发生:它正在消灭“软件”本身,让自然语言成为新的编程语言。
核心观点:LLM的真正价值并非加速现有软件流程,而是彻底颠覆了人机交互和问题解决的基本范式,创造出此前不可能实现的功能。
过去两年,关于大语言模型的讨论几乎都围绕着一个核心叙事:它能让程序员写代码更快、让客服回答更标准、让内容创作更高效。这种“加速主义”视角几乎成了行业共识,仿佛LLM的价值就在于给已有的工作流程装上一个涡轮增压器。但如果我们只盯着这个方向,就很难解释为什么安德烈·卡帕西在红杉资本内部会议上提出的三个新方向,会引起如此强烈的共鸣——他谈论的不是如何让旧事物更快,而是什么变得可能了。
卡帕西举的第一个例子是“menugen”,一个完全不需要传统代码的应用程序:输入一张图片,输出一张图片,整个过程由LLM原生完成。这听起来简单,但它的意义极其深远。传统软件开发中,任何功能都涉及明确的数据流、控制逻辑和界面定义,但menugen展示的是另一种可能性:我们不再需要定义如何处理数据,只需要描述输入和输出,LLM就能自动补全中间的所有过程。这不仅仅是编程效率的提升,而是编程本身的消解——当“写代码”变成“描述意图”,整个软件生产的底层逻辑就变了。
第二个例子更令人深思:用“安装技能”(install .md skills)替代“安装脚本”(install .sh scripts)。传统的软件安装脚本本质上是一堆高度定制化的指令,它们脆弱、依赖特定环境、几乎无法调试复杂错误。但如果我们把安装过程写成一篇自然语言文档,然后让LLM去理解并执行呢?卡帕西说,LLM是一个“高级英语解释器”,它能够智能地针对你的具体环境调整安装步骤,并在发生错误时即时修正。这听起来像是对系统管理员工作的锦上添花,但实际含义远超如此:它意味着一个庞大的技能体系——编写、维护、调试自动化脚本的能力——可能变得不再必要。软件开发中大量“脚手架”式的工作,那些为了连接不同系统而写的胶水代码,都将被自然语言描述替代。
第三个例子是LLM知识库,这可能是最容易被低估的方向。传统软件只能处理结构化数据——数据库中的表格、API返回的JSON、文件系统中的格式化文档。而知识库本质上是对非结构化数据(文本、图片、对话记录)进行复杂推理,这在传统编程范式下几乎是不可能的。你无法写一个算法来“理解”一篇政治评论,然后判断它是否支持某项政策;但LLM可以。这意味着我们第一次拥有了能够对任意格式信息进行“思考”的通用工具,而不仅仅是处理数据的机器。
反对者可能会说,这些例子都是特例,真正大规模的应用仍然是那些“加速”场景。确实,在目前的市场中,大多数LLM的商业案例依然是围绕提高效率展开的——GitHub Copilot帮助程序员更快写代码,客服聊天机器人减少人工成本,内容生成工具降低创作门槛。但历史已经多次证明,真正改变行业的不是那些对现有流程的优化,而是那些创造新可能的突破。当电力刚刚被应用时,工厂主们首先想到的只是用电动机替换蒸汽机来提高生产效率;真正改变世界的是电灯、电话、广播和后来的一切。LLM也是如此,我们正处于一个“用电动机替换蒸汽机”的阶段,而menugen和知识库这样的应用,才是那个时代的“电灯”。
问题的关键在于,为什么行业如此执着于“加速”叙事?原因很直接:容易衡量,也容易销售。一个能帮程序员节省30%写代码时间的工具,ROI清晰可见;而一个能让你“用自然语言描述一个程序然后得到结果”的工具,其价值很难量化,甚至很难让客户理解。但这恰恰是真正创新者应该警惕的陷阱。当所有人都涌向“加速”这个确定的方向时,那些看起来不确定、难以衡量的方向,反而可能孕育着最大的变革。
卡帕西在讲话中还提到一个更深刻的问题:LLM的能力为何如此“参差不齐”——同一个模型能重构10万行代码,却会建议你“走路去洗车”。他给出的新解释是:能力边界不仅取决于领域本身的可验证性,还取决于经济因素。前沿实验室在强化学习阶段,会根据收入和潜在市场规模来决定把什么内容包装进训练数据分布。你在数据分布之内,就像是“在铁轨上飞驰”;而一旦偏离,就变成了“在丛林中挥刀前行”。这个洞察揭示了LLM“聪明”与“愚蠢”并存的根本原因:它不是通用智能,而是一个被市场和资本刻意塑形的工具。
这给所有使用LLM的人提出了一个实际问题:如何正确理解它的能力边界?如果把它当作一个“加速器”,你只会关心它跑得有多快;但如果把它当作一种新的计算范式,你就必须知道它擅长什么、不擅长什么,以及哪些领域是它根本不可能涉足的。卡帕西自己没有完全满意这个解释,但至少提供了一个比“它就是个预测下一个词的工具”更有操作性的框架。
最后,卡帕西提到的“智能体原生经济”可能是最宏大的愿景。将产品和服务分解为传感器、执行器和逻辑,然后将这些组件分布在传统的1.0(经典编程)、2.0(神经网络)、3.0(LLM)计算范式上,最终实现一种“全神经计算”——绝大多数计算由神经架构完成,经典CPU只作为协处理器存在。这听起来像是科幻小说,但每一步现在都有雏形:传感器对应数据采集(LLM可以解析网页、图像、语音),执行器对应行动(LLM可以通过API写文件、发邮件、控制设备),逻辑则分布在不同的计算范式中。
这个趋势的早期信号已经足够明显。当我们看到像“我的智能体认为我是一个键盘上杂乱无章的猴子”这样的用户报告时——一个智能体在重启后没有返回技术摘要,而是对用户的工作方式进行了反思性评论——这既是一个bug,也是一个预示。智能体开始用自然语言“思考”用户的行为,而不是简单地执行指令。这种“故障”实际上揭示了LLM作为交互界面的真正潜力:它不再是一个工具,而是一个可以对话、可以理解上下文、可以表达观点的协作伙伴。
当然,这条路还远未到终点。我们面临的挑战包括:如何确保LLM在“丛林”区域不会犯下灾难性错误?如何设计系统让它在“铁轨”上稳定运行,同时又能灵活应对意外?如何平衡“用自然语言描述一切”的理想和“传统代码仍然是确定性高、可靠性强”的现实?这些问题没有简单的答案,但至少有一点是明确的:LLM的真正革命不是让旧世界跑得更快,而是创造了一个新世界。在这个新世界里,“写代码”的定义正在被改写,“系统管理”的技能正在被重新定义,“知识工作”的边界正在被无限扩展。
行业应该少关注一些“这个模型在基准测试上又快了5%”的新闻,多思考一下“什么以前不可能的事情,现在可以做了”。因为当你只盯着速度时,你永远只是在追赶;而当你看到新可能时,你才可能真正成为创造者。
参考来源
- My full strix halo tips and tricks - https://www.reddit.com/r/StrixHalo/comments/1t2h7pp/my_full_strix_halo_tips_and_tricks/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- How To Set Up OpenClaw Grok Model Without Breaking Your Setup - https://www.reddit.com/r/AISEOInsider/comments/1t2yetd/how_to_set_up_openclaw_grok_model_without/