从检索到内化：AI行业正在回避一个根本问题

当Karpathy在Sequoia讲台上描绘LLM的新边界时，一个更根本的问题被搁置：我们究竟是要让AI更会‘查资料’，还是让它‘真正理解’？

核心观点：当前AI行业对LLM能力的讨论过度聚焦于‘检索增强’和‘外部工具’，而忽视了真正的变革在于模型能否‘内化’世界模型，这不仅是技术选择，更是对智能本质的认知分歧。

过去一周，AI圈有两件事看似无关，实则指向同一个裂口。一边是Karpathy在Sequoia Ascent上激情澎湃地展示LLM的新地平线——menugen式的全LLM应用、用.md技能替代.sh脚本、基于非结构化知识的知识库——他试图证明LLM的价值远不止于加速已有的工作流。另一边，Reddit上有人抛出一个更宏大的命题：如果人类文明本质上是一个巨大的压缩引擎，将现实复杂性压缩为可复用的符号结构，那么AI是否应该朝着构建‘通用向量化世界模型’的方向前进，而不是每次都从头训练？这两个声音的碰撞，恰好暴露了行业里一个被刻意绕过的问题：我们到底是在追求更聪明的‘检索器’，还是在追求真正的‘理解者’？

Karpathy的演讲无疑是精彩的。他举的三个例子——从图片到图片的纯LLM应用、用自然语言安装脚本取代bash、以及LLM知识库——每一个都精准地击中了‘旧范式做不到’的痛点。尤其是‘install.md’这个概念，它暗示了一个未来：软件安装不再需要针对不同操作系统写复杂的Shell脚本，而是由LLM作为‘高级英语解释器’智能地适配你的环境、调试错误。这听起来像魔法，但它的本质是什么？它仍然是基于检索的模式匹配，只不过检索的对象从代码片段变成了人类语言描述。LLM‘理解’了你的系统环境吗？不，它只是找到了最匹配的安装路径而已。

这正是那个裂口的核心。Karpathy自己也承认，LLM存在‘锯齿状能力模式’——同一个模型既能重构十万行代码库，又会告诉你‘走路去洗车店洗车’。他把这归因于领域的可验证性和经济因素：当任务落在RL训练的数据分布‘铁轨’上时，模型如鱼得水；一旦脱轨，就只能在丛林中挥舞砍刀。这是一个诚实的观察，但它回避了一个更尖锐的问题：为什么我们默认把‘脱轨’看作模型的缺陷，而不是把它看作‘检索式智能’的天花板？如果AI的学习机制本质上就是海量压缩和模式匹配，那么‘理解’永远只能是统计意义上的相似性，而不是真正的因果推理。

Reddit上那个关于‘通用向量化世界模型’的帖子，虽然行文充满学科交叉的浮夸感，但它戳中了要害。它把人类文明比作压缩引擎：数学压缩几何、物理压缩运动、语言压缩经验。神经网络的贡献在于它发现了另一种压缩方式——从数据中提取统计规律。但压缩不等于理解。一个能完美压缩所有物理定律的模型，并不需要知道为什么F=ma；它只需要知道在99.9%的场景下，这个公式能产生正确的预测。这就是‘内化’和‘检索’的微妙差异。内化意味着模型拥有了某种内部的因果结构，它可以在未见过的场景中推理，而不是仅仅从训练数据中‘检索’最接近的答案。

反对者会立刻指出：你在玩文字游戏。一个足够大的Transformer，通过足够多的训练，完全可以学到因果结构。确实，学界有越来越多的证据表明，大型模型内部会自发形成一些类似世界模型的表征——比如在数学推理任务中，模型似乎学会了‘加法’的概念，而不是死记硬背算术表。但问题在于，这种‘内化’是不可控、不可解释的。我们不知道它是真正的推理，还是更高级的模式匹配。当模型在训练数据中没有见过的推理路径上成功时，我们无法区分它是‘理解’了逻辑，还是找到了一条隐藏的数据捷径。

这正是Karpathy‘锯齿状能力’理论的另一面。为什么模型能在代码重构上表现出色，却在简单的空间推理上犯傻？因为代码重构的训练数据极其丰富，且错误可以被verifier快速捕捉，所以模型被RL训练得‘像理解了一样’。而空间推理的分布覆盖不足，模型就只能胡猜。这不是智能的锯齿，而是数据分布的锯齿。如果我们永远依赖这个范式，那么AI的能力边界就永远由‘数据覆盖率’决定，而不是由‘理解深度’决定。这就引出一个让人不安的结论：我们可能永远无法构建真正通用的智能，除非我们找到一种让模型内化世界模型的方法，而不是继续在检索增强的外围打转。

有趣的是，当前行业的主流方向恰恰是反内化的。RAG（检索增强生成）、工具调用、外部知识库——所有这些都在做一件事：让模型不必内化知识，而是随时外挂。这是一种务实的策略。既然模型内化复杂知识既昂贵又不可靠，那不如让它学会‘什么时候去查文档’。Karpathy所说的‘LLM知识库’就是这个思路的极致：用LLM作为非结构化数据的查询接口。这当然有用，但它本质上是对模型‘理解不足’的妥协。我们承认模型无法真正掌握这些知识，所以我们搭建了一座永远连接外部知识的桥梁。

乐观者认为，这只是过渡阶段。随着模型规模增大、训练数据增多，内化会自然发生。悲观者则担心，我们正在陷入一个‘检索依赖陷阱’——因为外挂知识太方便，我们不再迫使模型内化，从而扼杀了通往真正智能的路径。这种担忧并非没有根据。回顾互联网的发展，搜索引擎的出现让人类不再需要记忆大量事实，这解放了大脑，但也改变了一代人的认知模式。现在，同样的逻辑正在应用到AI上：我们是否正在创造一个永远需要‘联网搜索’才能回答问题的智能体？

更麻烦的是，商业利益正在固化这个方向。Karpathy提到的‘agent-native经济’——把产品和服务分解为传感器、执行器和逻辑，并让信息对LLM最大程度可读——本质上是在为检索式智能构建基础设施。这套体系越完善，内化智能的研发动力就越弱。毕竟，如果外挂知识能解决90%的问题，为什么还要花十倍的成本去追求那剩下10%的‘真正理解’？

但不确定性就在这里。没有人知道那剩下10%是否才是关键。如果AGI的突破口就在于模型能否内化一个可推理的世界模型，那么现在所有做RAG和工具调用的努力，都只是在延后这个突破的到来。Karpathy在演讲结尾提到了‘完全神经计算’的梦想——让神经网络处理绝大部分计算，经典CPU只作为协处理器。这暗示他也在思考一个更深层的转变：从检索到内化，不仅仅是技术路线的选择，更是对智能本质的认知范式转变。

这场争论不会很快有答案。但作为观察者，我们需要警惕一种倾向：把‘当前最好的做法’等同于‘正确的方法’。Karpathy的演讲无疑展现了一场精彩的辩护，为LLM的实用价值提供了有力论据。但Reddit上那个关于世界模型的帖子，虽然充满学术空想，却提出了一个更有价值的问题：如果我们从一开始就追求内化，现在的AI会不会不一样？这个问题没有答案，但它的存在本身，就是对行业主流叙事的一种健康质疑。

最终，从检索到内化，不是一个技术升级，而是一个哲学选择。我们选择让AI更会‘查找’，还是让它更会‘理解’？在商业压力下，前者显然是更安全、更快速的路。但历史告诉我们，真正的突破往往发生在那些选择走窄路的人身上。现在的问题是：谁愿意为那不确定的‘理解’买单？