当大模型既能重构十万行代码,又建议你走路去洗车:LLM能力锯齿形的真相
我们经常被LLM的惊人能力震撼,又被其荒谬错误搞得哭笑不得。这不是偶然,而是新计算范式下的必然特征。理解这种锯齿形能力,才能设计出真正可靠的AI代理应用。
核心观点:LLM的能力分布并非线性增强,而是一种由训练数据分布和RL奖励机制塑造的锯齿形格局;理解这种不均匀性是构建可靠代理系统的前提。
在Sequoia Ascent 2026的炉边谈话中,一位顶级AI从业者提出了一个令人深思的观察:同一个LLM能够连贯地重构一个十万行代码库,同时却可能建议你“走路去洗车”。这种能力上的极端不均匀并非bug,而是一种特征——我称之为LLM能力的锯齿形分布。这种不均匀性的根源,并非简单的模型大小或训练数据量问题,而是与经济激励、数据分布以及偏好强化学习(RL)的电路设计密切相关。
让我们从三个新地平线的例子来切入,这些例子来自那场谈话,但背后的逻辑远比表面呈现的案例更深刻。第一类是“menugen”:一个完全被LLM吞噬的应用,输入一张图,输出一张图,无需任何传统代码。这暗示着一种可能性:某些应用类别将完全由LLM原生执行,传统软件1.0的逻辑变得多余。第二类是“.md技能”:用自然语言编写安装说明,而不是复杂的bash脚本。这不仅仅是脚本的简化,而是将“解释”和“执行”的边界重新定义——LLM作为高级英语解释器,能够智能地针对特定环境定制安装流程,并在线调试。第三类是LLM知识库:处理来自任意来源、任意格式的非结构化数据,这是传统代码几乎不可能完成的任务,因为它需要理解语义和关系。
这些例子展示了LLM的潜力远不止加速现有流程。然而,为什么同一个模型在执行某些任务时表现得像天才,在其他任务上却像智障?关键答案在于“域的可验证性”和“经济激励”。人类反馈强化学习(RLHF)及其后续的RL变体,本质上是为模型在特定轨道上规划路径。那些评分容易、反馈明确的任务(如代码生成、数学推理)被大量封装到训练数据分布中,形成了“RL电路”的轨道。在此轨道上,模型几乎自动运行,表现优异。但一旦离开这些轨道,进入“野外”,比如需要将知识应用于一个模糊的、非标准化的物理世界任务(例如建议洗车方式),模型的表现就会急剧下降。
这种锯齿形能力分布,对构建代理原生经济(Agent-Native Economy)提出了根本性挑战。一个代理系统需要将产品和服务分解为传感器、执行器和逻辑。其中,逻辑部分可能跨越传统软件1.0、2.0和3.0(即LLM)范式。问题在于:我们能否信任一个模型在其非强项领域独立决策?如果设计不当,一个代理可能在核心任务上表现出色,却在某个看似简单的中间步骤上失败,导致整个系统崩溃。
批评者可能会说:这只是当前模型的问题,随着Scale Law继续演进,这些不均匀性会自然消失。但这过于乐观。即使模型在更多领域变得“通用”,但任何模型的能力分布本质上都是其训练分布的函数。只要存在经济激励差异(例如,代码生成的商业价值远高于普通家务咨询),模型在商业领域的性能就会优先提升。除非我们能够创建一个对所有域都给予同等经济奖励的完美环境——这在现实市场经济中不可能实现。
因此,当前最务实的方向不是等待通用AGI,而是主动设计系统以“包容”LLM的锯齿形。这意味着:对于高风险的代理任务,我们需要将模型置于其擅长轨道上(如代码生成),同时为非标准任务设计fallback机制(如经典算法或人工干预)。另一种思路是,让LLM主要扮演“计划者”角色,其输出由更可靠的执行器(如传统脚本)来执行。这种“混合架构”可能才是代理原生经济的第一性原理,而不是幻想全知全能的单一模型。
从更宏观的角度看,这引发了关于“计算范式分治”的讨论。Karpathy的谈话中提到了“全神经计算”的梦想——让神经网络处理绝大部分计算,而经典CPU作为协处理器。这听起来诱人,但锯齿形能力的存在提醒我们:神经计算和经典计算各有其不可替代的优势区间。单纯依赖任何一种都是危险的。代理原生经济的真正智能,不在于选择某个单一范式,而在于能够根据任务类型,动态地在不同范式间分配工作。
最后,我们不能忽视另一个维度:信息的可读性。为了让LLM更好地工作,我们需要重新设计信息的表达方式,使其对模型高度可读。这不是说要把所有数据都转成JSON,而是要理解模型如何“理解”结构化与非结构化信息。例如,安装脚本的.md化,本质上是将信息从对人类友好的格式(shell命令)转变为对模型友好的格式(自然语言加注释)。这种转变可能成为新的标准化实践。
关于培养“代理工程”技能,事情变得复杂。传统的软件工程师训练的是精确的逻辑和状态管理;而代理工程师则需要理解模型的概率性、模糊性和锯齿形特性。这意味着招聘和培训策略需要彻底改变。寻找能同时理解AI能力边界和传统系统可靠性的工程师变得至关重要。
总之,LLM的锯齿形能力不是bug,而是新范式的核心特征。拥抱这种不均匀性,而不是幻想它消失,才是构建下一代AI应用的正确起点。代理原生经济不会建立在完美智能上,而是建立在智能的巧妙分工和鲁棒系统设计之上。理解这一点,才能避免被表面的能力光环迷惑,真正设计出有用的产品。
如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、(Selling) 4K Codes…、"Is this a rich man… 本身,而是它们共同暴露出的分配逻辑。 x、reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,LLM的能力分布并非线性增强,而是一种由训练数据分布和RL奖励机制塑造的锯齿形格局;理解这种不均匀性是构建可靠代理系统的前提。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- (Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/
- "Is this a rich man's hobby?" Ogoniff asked, his voice sounding like a YouTube processing error. - https://www.reddit.com/r/Star_Light_Links/comments/1trvl0n/is_this_a_rich_mans_hobby_ogoniff_asked_his_voice/