当AI能重构十万行代码却告诉你“走路去洗车”:LLM能力的不规则性如何重塑技术经济
一个能重构十万行代码的模型,却会建议你走路去洗车。这种能力的不规则不是bug,而是AI经济激励下的必然产物。
核心观点:LLM能力的不规则性并非工程缺陷,而是由经济激励和训练数据分布共同塑造的必然结构,理解这种结构是构建可靠AI应用的关键。
人工智能的发展史上,从来没有任何一项技术像大语言模型这样,同时展现出令人惊叹的高阶能力和令人哭笑不得的幼稚错误。一个能够轻松重构整个代码库的模型,在回答一个简单的生活问题时,可能会给出完全脱离现实的建议。这种现象被AI研究者安德烈·卡帕斯称之为“LLM的不规则性”,它正在成为理解现代AI能力边界的关键概念。
不规则性并非缺陷,而是AI经济结构的内生特性。卡帕斯在最近的Sequoia Ascent 2026炉边谈话中提出了一个深具洞察力的解释:这种不规则性源于训练数据分布和强化学习的经济逻辑。当某个领域具有巨大的商业价值和明确的验证标准时,前沿实验室会投入巨大的资源将其打包进训练数据分布。在这些领域,模型如同“在轨道上飞行”,表现极为出色。而在那些缺乏商业激励或验证困难的领域,模型只能“在丛林中挥舞砍刀”,表现拙劣。这不是技术局限,而是经济选择的结果。
这种解释让我想起经济地理学中的“中心-边缘”理论:某些地区因为历史积累和投资获得高密度发展,而边缘地区则被系统性忽视。LLM的能力分布呈现出类似的结构——代码生成、数学推理、文本摘要等具有清晰商业价值的任务位于能力“中心”,而涉及物理常识、长期规划、因果推理等难以量化验证的任务则被推至“边缘”。这种能力分布的不对称性,决定了我们在何种场景下可以信赖AI,又在何种场景下必须保持警惕。
卡帕斯提出了一个极具想象力的例子来说明新范式的可能性:一个完全由LLM驱动、无需任何传统代码的应用程序——输入一张图片,输出一张图片,LLM原生地完成整个任务。这听起来像是科幻小说,但它揭示了一个根本性的转向:我们正在从“加速现有流程”的阶段,进入“创造全新功能”的阶段。传统的观点认为,AI主要是提高编程效率,但卡帕斯展示了三个“新地平线”:第一,完全由LLM吞噬的应用,无需古典代码;第二,以.md文件形式描述的“安装技能”,取代复杂的.sh安装脚本;第三,基于LLM的知识库,能够处理古典代码根本无法处理的非结构化数据。
然而,我们必须清醒地认识到,这些新功能只能在能力“中心”区域内可靠运行。当模型试图处理超出其训练分布的任务时,我们就会看到那些令人哭笑不得的失败案例。这不是一个可以简单通过增加数据或参数规模解决的问题。从根本上说,这是一个经济学问题:对于那些没有足够商业激励来构建高质量训练数据的领域,LLM将永远保持“不规则”的表现。
这种认识对企业和开发者具有直接的现实意义。当我们构建基于LLM的应用时,最危险的做法是假设模型能力是均匀的。这种假设会导致在关键任务上部署AI,结果在边缘场景遭遇灾难性失败。相反,我们应该采用“能力地图”的方法:明确识别模型在哪些领域处于“轨道飞行”状态,在哪些领域只能“丛林跋涉”,并据此设计系统架构和人工干预机制。
卡帕斯提到的“代理原生经济”概念进一步深化了这一观点。他预测,未来的产品和服务将被分解为传感器、执行器和逻辑单元,跨越传统软件1.0、2.0和3.0计算范式。在这个框架下,如何使信息对LLM最大程度地“可读”将成为一个核心工程问题。这意味着,我们不仅要关注模型本身的改进,还要重新设计整个系统的信息架构,使其与LLM的能力分布相匹配。
反对者可能会说,随着模型规模的增长和训练数据的扩展,这种不规则性终将被消除。毕竟,GPT-4在2023年表现出的许多缺陷在GPT-5中已经得到改善。但问题在于,商业激励驱动的训练数据分布永远不可能覆盖所有可能的任务领域。总会有一些任务因为市场规模太小、验证成本太高或伦理约束而无法获得充分的训练资源。因此,不规则性不是暂时现象,而是AI时代的结构性特征。
更值得深思的是,这种经济驱动的能力分布可能会加剧AI应用的“马太效应”:那些已经具有高商业价值的领域将获得更多的AI能力提升,从而进一步扩大其优势;而那些缺乏商业价值的领域(如很多公共服务、边缘学科、小众文化)则可能被AI能力分布的系统性忽视。这不是技术中立性的问题,而是技术经济学的必然结果。
卡帕斯在谈话中坦诚,他对自己构建的LLM能力模型“还不太满意”。这种诚实是罕见的,也是必要的。我们正处于一个理论尚未成熟的阶段,正在摸索如何准确描述和预测LLM的能力边界。但至少我们已经认识到,不规则性不是一个需要“修复”的bug,而是一个需要“理解”的结构。
对于决策者而言,这意味着需要建立更精细的AI治理框架,识别哪些领域可以依赖AI,哪些领域需要保持人类控制。对于开发者而言,这意味着需要开发新的工程实践,专门处理模型能力的不规则性。对于公共政策而言,这意味着需要思考如何通过公共投资来弥补商业激励不足的领域,避免AI能力分布的不平等加剧社会不平等。
当我们还在为AI能力的突飞猛进感到惊叹时,或许更应该关注那些被系统性忽视的能力边缘。因为正是在这些边缘地带,人类的判断力、常识和伦理感知仍然不可替代。LLM的不规则性不仅是一个技术问题,更是一面镜子,反射出我们社会中那些有商业价值和无商业价值领域的真实不平等。
卡帕斯最后谈到了“全神经网络计算”的梦想,其中绝大多数计算由神经网络完成,传统的CPU只作为协处理器存在。这是一个诱人的远景,但通往这个远景的道路必须穿过不规则性的丛林。我们无法通过忽略不规则性来抵达那里,唯有通过深刻理解它的经济和技术根源,才能构建真正可靠、公正的AI系统。
不规则性不是AI的弱点,而是它的指纹。它提醒我们,即使在最先进的技术背后,经济逻辑仍然在不知不觉地塑造着能力分布。理解这种塑造机制,比简单地追求更大、更强的模型更重要。因为在AI时代,真正决定技术走向的,从来不仅仅是技术本身。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/
- (Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/