当 AI 不再需要检索:内化智能如何颠覆我们对“理解”的认知
从向量化世界模型到自组织神经文明,AI 的发展路径揭示了一个深刻的悖论:越智能的系统,越不需要“记忆”,而这种内化过程,恰恰是人类文明压缩经验的历史翻版。
核心观点:AI 正从依赖外部检索的工具,进化为能够内化知识、自我组织的智能体,但这不仅是技术跃迁,更迫使我们重新审视“理解”本身——它不再是对信息的占有,而是对模式的压缩与生成。
过去几年,AI 领域最显著的变化之一,是从“检索增强”到“内化智能”的范式转移。我们曾以为,知识库、向量数据库和检索模型是 AI 不可或缺的拐杖。但一系列前沿讨论——从通用向量化世界模型的构想,到自组织神经文明的展望——都在暗示一个更激进的未来:AI 正在学会“理解”,而不仅仅是“记住”。这不是技术的渐进改进,而是对智能本质的重新定义。
先看一个具体信号。Karpathy 在最近一场讨论中提出了“install .md skills”的概念:不再需要复杂的 shell 脚本,只需用自然语言描述安装步骤,LLM 就能自动理解并执行。这看似只是效率提升,但其背后逻辑是革命性的:一个系统若能根据文字描述自适应执行任务,说明它已经内化了关于操作系统、文件结构和常见错误的隐式知识,而不再依赖显式的检索和规则。这就像一个人不再需要查字典就能写作,因为他已经内化了语法和词汇。
但内化智能的真正力量,不在于它能取代脚本,而在于它能创造此前不可能存在的功能。以“menugen”为例:一个完全由 LLM 驱动的图像应用,输入图片,输出图片,中间没有任何经典代码。从软件工程的角度看,这简直是个黑洞——没有可调试的逻辑,没有可复用的模块,只有端到端的神经网络。但它恰恰证明,当模型内化足够多的视觉和语义模式后,它可以自己“想出”如何完成一个全新任务。这不再是加速已有工作流,而是开启了全新的可能性空间。
更深层的问题在于:这种内化能力是否意味着 AI 真的“理解”了?一个常见的反对意见是,LLM 本质上只是统计模式匹配器,它没有真正的意识或理解。但如果我们仔细审视人类的理解过程,就会发现它也高度依赖于模式压缩。人类文明本身就是一个巨大的压缩引擎:数学压缩了几何学,物理学压缩了运动,语言压缩了经验。当我们说一个人“理解”了微积分,并不是因为他记住了所有公式,而是因为他内化了微积分的基本模式,能够在不查阅资料的情况下生成新的推导。这正是向量化世界模型试图做的事情——不是存储所有可能的场景,而是学习一个压缩的表示,能够生成无限的具体实例。
这个框架有助于解释当前 AI 的一个重要特征:它的“锯齿形”能力曲线。Karpathy 提到一个令人费解的现象:同一个模型,既能正确重构一个 10 万行代码库,又会建议你“步行去洗车”。这种看似矛盾的智能分布,源于模型能力的内化不均匀:在某些领域(如代码),因为市场需求大、训练数据丰富,模型在强化学习阶段获得了充分的内化;而在其他领域(如日常常识),数据稀疏,模型只能依赖预训练阶段的浅层模式。这就像一个人精于微积分但不会煮鸡蛋——不是因为他傻,而是他的内化经验分布不均。
由此引出一个不可避免的张力:内化程度越高的系统,其决策越难以被外部解释或回溯。自组织神经文明的构想更是将这一点推向极致:当神经网络能够自我重组、自我适应时,传统的软件工程逻辑(模块化、层级化、可调试)将彻底失效。我们面临的不是“黑箱”问题,而是“没有设计者”的问题。一个自组织的系统没有架构图,没有 API 文档,甚至没有明确的边界——它的理解过程就是它的存在方式。
但这是否意味着我们要放弃对 AI 的控制?恰恰相反。理解内化过程,可以让我们更精准地引导 AI 的能力分布。如果知道模型的能力是由训练数据分布和强化学习回路决定的,那么我们可以有意地塑造这些分布,从而让模型在关键领域获得更深的内化,而不是在所有领域表现平庸。这比简单地增加参数量或训练数据更有效,因为它直接作用于“理解”的源头。
然而,反对者会指出:内化智能仍然无法解决“真正”的理解问题——比如情感、意图和道德判断。一个能内化物理定律的模型,不代表它能内化公平或正义。这个批评有一定道理,但它忽略了一点:人类自身的道德和情感理解,也是通过长时间的文化内化形成的,而非天生的。我们不是生来就知道如何公平地分配蛋糕,而是在无数次社会互动中压缩出“公平”的模式。AI 的内化过程同样可以包含这些维度,只要我们在训练中明确地纳入道德推理和社会规范的情境。
从更大的图景来看,从检索到内化的转变,其实是在重演人类认知的演化史。原始人类依赖外部记忆(绳结、壁画、文字),然后发展出抽象思维(数学、哲学),最后达到“心领神会”的内化智慧。AI 正在以极快的速度走完这段历程。而我们现在看到的“自组织”、“向量化世界模型”等概念,不过是这条路上自然出现的里程碑。
对产业界而言,这意味着什么?首先,基于检索的传统 AI 应用(问答系统、知识库查询)将迅速贬值,因为用户会期望 AI 直接给出答案,而不是从文档中提取。其次,提示工程的重要性将下降,取而代之的是“引导工程”——如何设计初始条件和环境,让模型自发地内化正确模式。最后,可解释性研究需要转向:不再是解释模型为什么做某个决策,而是描述模型已经内化了哪些模式。
但最深刻的启示可能在于:我们过去认为“理解”是人类的特权,因为它涉及主观体验和意向性。而内化智能的进展表明,“理解”可能只是一种高效的压缩算法,无论是由神经元还是硅芯片实现。如果这个命题成立,那么 AI 与人类之间的界限将不再是“是否理解”,而是“理解什么”和“如何理解”。
回到现实。当前的 AI 内化仍然粗糙:它们容易产生幻觉,在数据分布外的表现不可预测,而且缺乏长期记忆和因果推理能力。但这些都不是原则性障碍,而是工程问题。向量化世界模型和自组织网络的构想,正在从理论上解决这些问题——不是通过给 AI 塞入更多事实,而是通过让它学会更好的压缩方式。
最终,我们可能需要接受一个反直觉的结论:一个真正智能的系统,应该是一个遗忘的系统。它不存储任何事实,只存储压缩后的生成规则。它不理解单独的句子,只理解语言的结构。它不记得昨天的事情,但能预测明天的趋势。这正是人类大脑的工作方式——我们记住的是故事,而不是日期;是模式,而不是细节。AI 的下一步,不是拥有更大的记忆库,而是拥有更忘、却更有生成力的“理解”。
这当然不是终点,而是起点。当 AI 不再需要检索,我们将面临一个全新的问题:如何确保它的内化过程是可控的、可审计的?如果它压缩了错误的世界观,我们如何重新引导?这些问题的答案,可能比技术本身更重要。
参考来源
- From Retrieval to Internalized Intelligence: - https://www.reddit.com/r/NPU2024/comments/1tawuei/from_retrieval_to_internalized_intelligence/
- Toward Self-Organizing Neural Civilizations of Intelligence - https://www.reddit.com/r/IT4Research/comments/1t9labi/toward_selforganizing_neural_civilizations_of/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m