LLM的锯齿状智能:为什么我们离“全能助手”还很远,但离“新经济”已很近
当LLM能重构十万行代码却建议你走路去洗车,这种能力的不均匀性并非偶然,而是揭示了AI经济的新分工逻辑。
核心观点:LLM能力的锯齿状分布不是缺陷,而是其经济与工程本质的映射,理解这种不规则性才是构建下一代agent原生经济的关键。
在最近一次红杉资本Ascent 2026的炉边谈话中,AI领域的重要人物Karpathy抛出了一个看似矛盾却发人深省的观点:一个单一的LLM模型,可以同时做到两件截然不同的事——它能有条理地重构一个包含十万行代码的代码库,同时告诉你应该走路去洗车。这种能力的“锯齿状”分布让很多人感到困惑,甚至对AI的可靠性产生怀疑。但在我看来,这种不均匀性恰恰是LLM最真实的特征,也是我们理解其真正潜力和局限性的起点。
这种锯齿状模式并非智能的缺陷,而是由两个根本因素决定的:训练数据的分布和经济的驱动。LLM在那些可以低成本验证、并且有大量高质量数据支撑的领域表现出色,因为在这些领域,强化学习(RL)可以有效地封装出高性能的推理回路。代码就是一个完美的例子——有无数公开的代码库、测试用例和明确的正确/错误标准,使得模型可以在这个“轨道”上飞驰。然而,一旦离开这些有清晰验证路径的领域,比如日常生活的常识推理、涉及复杂物理世界的决策,LLM就仿佛进入了茂密的丛林,只能凭借原始的统计关联“披荆斩棘”,表现自然大打折扣。
但如果我们只停留在“LLM不完美”的叹息,就错过了真正的机会。Karpathy谈话里更引人深思的部分,是他提出的“agent原生经济”概念。这并不仅仅是让LLM执行更多任务,而是从根本上重新思考产品和服务的构建方式,将它们的各个组成部分——传感器、执行器和逻辑——拆解并重新分配到三个计算范式中:传统的“1.0”经典软件、现代的“2.0”深度学习模型,以及新兴的“3.0”大语言模型。在这个新范式中,LLM不再只是加速器,而是能够处理过去“不可能”的任务。
一个令人振奋的例子是“menugen”,一个完全由LLM原生驱动的应用,无需任何传统代码:输入一张图片,输出一张图片,LLM可以自然地完成这个任务。这听起来简单,却标志着AI从“辅助工具”向“自主组件”的跨越。另一个例子是“安装.md技能”替代“安装.sh脚本”。试想一下,为什么要为安装一个软件编写复杂的bash脚本?你完全可以用自然语言写一份安装说明,然后“把它展示给你的LLM”。LLM作为一个先进的英语解释器,能智能地根据你的具体环境进行安装、调试和处理错误。这不仅是效率的飞跃,更是一种全新的工作范式:人负责描述“做什么”,AI负责组织“怎么做”。
更关键的是“LLM知识库”这类应用。在传统编程模式下,处理来自不同来源、不同格式的非结构化数据(如文本文章、新闻报道),几乎是不可能完成的任务,因为传统代码要求数据的结构和格式必须是事先定义好的。但LLM天然擅长理解非结构化信息,这使得构建真正动态、跨领域的知识管理系统成为可能。这是之前根本不存在的新功能类别,它不仅是提高效率,更是创造了新的市场。
当然,这个愿景并非没有挑战和反对者。批评者会指出LLM的不可预测性和“幻觉”问题。在agent原生经济中,让一个模型去处理关键的安装任务,如果它“脑补”出一个不存在的步骤,会不会导致系统崩溃?这种担心是合理的。但Karpathy的观点恰恰是将这种不确定性纳入设计:我们要做的不是追求100%的完美(这不可能),而是构建一个容错系统,让LLM处理它擅长的开放式任务,而将关键的、可验证的步骤交给传统软件。这就是“传感器、执行器与逻辑”分离的意义。
另一个常见的反对声音是:这不过是“懒人包”的AI版,用自然语言代替脚本,本质上并没有改变什么。这种看法低估了LLM的“智能解释”能力。它不仅仅是执行指令,而是理解上下文。一个bash脚本是死的,它无法处理安装中遇到的意外错误;而一个LLM会阅读错误信息、搜索解决方案、调整安装参数。这就像从使用一本固定的菜谱,升级为一位能根据食材和口味临场发挥的厨师。经济价值正在于此:它极大地降低了专业门槛,让非技术用户也能“编程”,从而释放出巨大的创造力和生产力。
我们正在经历一个范式的转变,其涟漪效应远超我们的想象。当安装一个复杂软件只需要向LLM展示一篇博文时,软件的分发、维护和技术支持行业都将被重塑。当LLM能自主构建知识库时,企业咨询、市场分析和竞争情报的获取方式将发生根本性变革。那些率先理解并拥抱锯齿状能力的企业,将构建起新的护城河。他们不会因为LLM“不会洗车”而否定它,而是会精心设计一个协同系统,让LLM做它最擅长的事——处理语言、理解意图、进行开放式推理——同时用传统系统来确保物理世界的确定性。
锯齿状不是缺陷,而是蓝图。真正的挑战不在于让LLM变得更全能,而在于我们是否足够聪明,能设计出与之匹配的系统和商业模式。这需要的不是对AI的盲目崇拜,也不是对AI的苛责,而是对AI经济学的深刻理解。当资本开始流向这些agent原生的新公司,当基础设施开始为这种新模式铺路,我们或许正在见证继互联网和移动互联网之后,第三次经济形态的萌芽。
如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、一个脱胎换骨的"你",正于新世界诞生…、【毒系列5】毒蘑菇:从狂笑不止到肝肾衰… 本身,而是它们共同暴露出的分配逻辑。 x、bilibili 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,LLM能力的锯齿状分布不是缺陷,而是其经济与工程本质的映射,理解这种不规则性才是构建下一代agent原生经济的关键。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 一个脱胎换骨的"你",正于新世界诞生 | 《逆水寒:新世界》首支预告片 - https://www.bilibili.com/video/BV1JfLy6vEPu
- 【毒系列5】毒蘑菇:从狂笑不止到肝肾衰竭,揭秘幻境与死亡背后的菌毒危机 - https://www.bilibili.com/video/BV1jvLz62EAB