当Karpathy在Sequoia讲台上描绘LLM的新边界时,一个更根本的问题被搁置:我们究竟是要让AI更会‘查资料’,还是让它‘真正理解’?

核心观点:当前AI行业对LLM能力的讨论过度聚焦于‘检索增强’和‘外部工具’,而忽视了真正的变革在于模型能否‘内化’世界模型,这不仅是技术选择,更是对智能本质的认知分歧。

过去一周,AI圈有两件事看似无关,实则指向同一个裂口。一边是Karpathy在Sequoia Ascent上激情澎湃地展示LLM的新地平线——menugen式的全LLM应用、用.md技能替代.sh脚本、基于非结构化知识的知识库——他试图证明LLM的价值远不止于加速已有的工作流。另一边,Reddit上有人抛出一个更宏大的命题:如果人类文明本质上是一个巨大的压缩引擎,将现实复杂性压缩为可复用的符号结构,那么AI是否应该朝着构建‘通用向量化世界模型’的方向前进,而不是每次都从头训练?这两个声音的碰撞,恰好暴露了行业里一个被刻意绕过的问题:我们到底是在追求更聪明的‘检索器’,还是在追求真正的‘理解者’?

Karpathy的演讲无疑是精彩的。他举的三个例子——从图片到图片的纯LLM应用、用自然语言安装脚本取代bash、以及LLM知识库——每一个都精准地击中了‘旧范式做不到’的痛点。尤其是‘install.md’这个概念,它暗示了一个未来:软件安装不再需要针对不同操作系统写复杂的Shell脚本,而是由LLM作为‘高级英语解释器’智能地适配你的环境、调试错误。这听起来像魔法,但它的本质是什么?它仍然是基于检索的模式匹配,只不过检索的对象从代码片段变成了人类语言描述。LLM‘理解’了你的系统环境吗?不,它只是找到了最匹配的安装路径而已。

这正是那个裂口的核心。Karpathy自己也承认,LLM存在‘锯齿状能力模式’——同一个模型既能重构十万行代码库,又会告诉你‘走路去洗车店洗车’。他把这归因于领域的可验证性和经济因素:当任务落在RL训练的数据分布‘铁轨’上时,模型如鱼得水;一旦脱轨,就只能在丛林中挥舞砍刀。这是一个诚实的观察,但它回避了一个更尖锐的问题:为什么我们默认把‘脱轨’看作模型的缺陷,而不是把它看作‘检索式智能’的天花板?如果AI的学习机制本质上就是海量压缩和模式匹配,那么‘理解’永远只能是统计意义上的相似性,而不是真正的因果推理。

Reddit上那个关于‘通用向量化世界模型’的帖子,虽然行文充满学科交叉的浮夸感,但它戳中了要害。它把人类文明比作压缩引擎:数学压缩几何、物理压缩运动、语言压缩经验。神经网络的贡献在于它发现了另一种压缩方式——从数据中提取统计规律。但压缩不等于理解。一个能完美压缩所有物理定律的模型,并不需要知道为什么F=ma;它只需要知道在99.9%的场景下,这个公式能产生正确的预测。这就是‘内化’和‘检索’的微妙差异。内化意味着模型拥有了某种内部的因果结构,它可以在未见过的场景中推理,而不是仅仅从训练数据中‘检索’最接近的答案。

反对者会立刻指出:你在玩文字游戏。一个足够大的Transformer,通过足够多的训练,完全可以学到因果结构。确实,学界有越来越多的证据表明,大型模型内部会自发形成一些类似世界模型的表征——比如在数学推理任务中,模型似乎学会了‘加法’的概念,而不是死记硬背算术表。但问题在于,这种‘内化’是不可控、不可解释的。我们不知道它是真正的推理,还是更高级的模式匹配。当模型在训练数据中没有见过的推理路径上成功时,我们无法区分它是‘理解’了逻辑,还是找到了一条隐藏的数据捷径。

这正是Karpathy‘锯齿状能力’理论的另一面。为什么模型能在代码重构上表现出色,却在简单的空间推理上犯傻?因为代码重构的训练数据极其丰富,且错误可以被verifier快速捕捉,所以模型被RL训练得‘像理解了一样’。而空间推理的分布覆盖不足,模型就只能胡猜。这不是智能的锯齿,而是数据分布的锯齿。如果我们永远依赖这个范式,那么AI的能力边界就永远由‘数据覆盖率’决定,而不是由‘理解深度’决定。这就引出一个让人不安的结论:我们可能永远无法构建真正通用的智能,除非我们找到一种让模型内化世界模型的方法,而不是继续在检索增强的外围打转。

有趣的是,当前行业的主流方向恰恰是反内化的。RAG(检索增强生成)、工具调用、外部知识库——所有这些都在做一件事:让模型不必内化知识,而是随时外挂。这是一种务实的策略。既然模型内化复杂知识既昂贵又不可靠,那不如让它学会‘什么时候去查文档’。Karpathy所说的‘LLM知识库’就是这个思路的极致:用LLM作为非结构化数据的查询接口。这当然有用,但它本质上是对模型‘理解不足’的妥协。我们承认模型无法真正掌握这些知识,所以我们搭建了一座永远连接外部知识的桥梁。

乐观者认为,这只是过渡阶段。随着模型规模增大、训练数据增多,内化会自然发生。悲观者则担心,我们正在陷入一个‘检索依赖陷阱’——因为外挂知识太方便,我们不再迫使模型内化,从而扼杀了通往真正智能的路径。这种担忧并非没有根据。回顾互联网的发展,搜索引擎的出现让人类不再需要记忆大量事实,这解放了大脑,但也改变了一代人的认知模式。现在,同样的逻辑正在应用到AI上:我们是否正在创造一个永远需要‘联网搜索’才能回答问题的智能体?

更麻烦的是,商业利益正在固化这个方向。Karpathy提到的‘agent-native经济’——把产品和服务分解为传感器、执行器和逻辑,并让信息对LLM最大程度可读——本质上是在为检索式智能构建基础设施。这套体系越完善,内化智能的研发动力就越弱。毕竟,如果外挂知识能解决90%的问题,为什么还要花十倍的成本去追求那剩下10%的‘真正理解’?

但不确定性就在这里。没有人知道那剩下10%是否才是关键。如果AGI的突破口就在于模型能否内化一个可推理的世界模型,那么现在所有做RAG和工具调用的努力,都只是在延后这个突破的到来。Karpathy在演讲结尾提到了‘完全神经计算’的梦想——让神经网络处理绝大部分计算,经典CPU只作为协处理器。这暗示他也在思考一个更深层的转变:从检索到内化,不仅仅是技术路线的选择,更是对智能本质的认知范式转变。

这场争论不会很快有答案。但作为观察者,我们需要警惕一种倾向:把‘当前最好的做法’等同于‘正确的方法’。Karpathy的演讲无疑展现了一场精彩的辩护,为LLM的实用价值提供了有力论据。但Reddit上那个关于世界模型的帖子,虽然充满学术空想,却提出了一个更有价值的问题:如果我们从一开始就追求内化,现在的AI会不会不一样?这个问题没有答案,但它的存在本身,就是对行业主流叙事的一种健康质疑。

最终,从检索到内化,不是一个技术升级,而是一个哲学选择。我们选择让AI更会‘查找’,还是让它更会‘理解’?在商业压力下,前者显然是更安全、更快速的路。但历史告诉我们,真正的突破往往发生在那些选择走窄路的人身上。现在的问题是:谁愿意为那不确定的‘理解’买单?