AI的下一场革命不是更快的检索,而是内化的世界模型
当红杉资本和前沿研究者同时指向同一个方向时,我们该认真对待了:AI的下一场革命不是更快地找到答案,而是让模型内化一个可用的世界模型。
核心观点:当前AI领域最被低估的趋势是从检索式智能向内化式智能的转向,这一转向将彻底改变我们对知识、计算和智能本质的理解。
硅谷从来不缺宏大叙事,但当安德烈·卡帕斯在红杉资本的炉边谈话中认真论证“LLM不仅仅是加速已有事物”时,他触碰到了一个更深层的逻辑裂缝。大多数人对AI的想象仍然停留在“更好的搜索引擎”或“更快的代码生成器”上,但卡帕斯提出的三个例子——完全由LLM驱动的应用、用自然语言替代bash脚本的安装方式、以及对非结构化知识进行计算的能力——指向的不是同一个方向的渐进改善,而是完全不同的计算范式。这个范式转型的核心,从最近几篇技术讨论中反复浮现的一个概念可以概括:从检索到内化。
理解这个转向,首先要拆解人类文明本身。从科学定律到哲学抽象,从工程原理到语言模式,人类文明本质上是一台巨大的压缩引擎。我们不断将复杂现实压缩成可重用的符号结构。数学压缩几何形状,物理学压缩运动规律,语言压缩经验。神经网络的伟大发现在于,它揭示了这种压缩机制可以完全自动化,而且效果远超手工编码的规则。但问题在于,现有的大语言模型仍然停留在“统计压缩”层面,它们学习的是训练数据中的统计规律,而不是真正的世界模型。
这正是红杉炉边谈话中“锯齿状能力曲线”问题的根源。一个模型可以优雅地重构10万行代码,却同时告诉你应该开车去洗车场洗车。这不是简单的“强与弱”的问题,而是内化程度的差异。对于代码,模型通过海量数据内化了编程语言的语法、模式和实践流程,因此表现卓越。但对于洗车这类日常事务,它没有足够的内化深度,只能从表面模式中拼凑答案。卡帕斯将这种现象归因于可验证性和经济学——前沿实验室根据收入和总潜在市场选择将什么领域打包进强化学习训练分布。这个解释虽然不完全令人满意,但它揭示了关键:内化深度取决于数据分布和训练策略,而不是模型大小。
转向“内化智能”意味着什么?它意味着我们不再满足于让模型从庞大的向量数据库中检索片段,而是要求模型真正理解这些片段之间的关系,形成一个连贯的世界模型。有一篇讨论提出了一个极具野心的设想:一个人造的通用向量化世界模型,能够直接内化整个文明的知识结构,而不是每次遇到新任务都重新训练。这个设想听起来像科幻,但它指向了AI研究的一个根本矛盾:我们当前的方法是在模型外部维护知识库,在内部维护推理能力,而真正的智能应该像人类一样,将知识与推理融为一体。
这个转向的反对意见并非没有道理。批评者会指出,人类自身是否拥有一个“通用世界模型”都值得怀疑。我们的认知充满偏见、幻觉和片面性,而且神经科学的研究表明,人类大脑并不存储一个统一的知识表示,而是分散在多个系统中。要求AI模型做到人类都做不到的事情,是否合理?此外,当前模型的内化机制本质上仍然是统计模式匹配,我们无法保证其可靠性和可解释性。一只猫是在实验室中长大的,从未见过实际的老鼠,但它通过基因内化了捕猎的本能。AI模型的内化机制是否具有类似的“先天结构”?目前看来,答案是否定的。
然而,不确定性本身就是这个转向最有说服力的证据。如果一切都已经清晰,那就不叫范式转型。真正值得关注的是,这波讨论不是来自单一来源,而是同时出现在多个独立的技术论述中。从红杉的炉边谈话到社区中关于自组织神经文明的讨论,从“压缩引擎”比喻到向量化世界模型的提案,这些信号指向同一个方向:大家对当前的“检索+推理”二分法感到不满,开始探索一条更本质的路径。
更精确地说,这个转向的实践意义在于,它将颠覆我们构建AI系统的整个方法论。当前主流的“智能体”架构是基于传统软件工程的原则:模块化、层级化、规则驱动。智能体被设计成由多个专门化的子模块组成,通过外部工作流协调。但如果我们转向内化智能,那么这些外部结构将变得不再必要。一个真正内化了世界模型的AI,应该能够像人类一样,在面对新情境时自主调整自己的内部结构,而不是依赖外部编排。这就是“自组织神经文明”的概念:计算单元不再是被动执行指令的工具,而是能够自我重组、自我优化的活跃节点。
这个愿景的激进之处在于,它不仅在技术层面挑战了当前的架构,更在哲学层面挑战了我们关于智能的定义。我们是否真的需要从一开始就为每个任务设计专门的架构?或者,我们可以构建一个足够强大的基础模型,让它通过内化来适应各种任务?如果后一个答案是肯定的,那么当前基于任务分割和外部工具调用的智能体范式,可能只是一种过渡性妥协,而不是最终答案。
这个转向的商业含义同样深远。如果内化智能成为主流,那么当前围绕“工具链”、“工作流引擎”和“模型编排”构建的整个生态都会面临重塑。那些专注于构建外部知识库和检索工具的公司,可能会发现它们的价值被内化能力更强的模型压缩殆尽。相反,那些致力于提升模型内化深度——也就是真正理解世界的能力——的研究,将获得不成比例的回报。当前前沿实验室已经在强化学习阶段投入巨大资源来塑造模型的内化能力,这正是红杉讨论中提到的“RL circuits”的意义所在。
当然,这个转向并非一夜之间完成。它可能需要数年甚至十年的时间。当前模型的“内化”仍然局限于狭窄领域:代码、数学、特定类型的推理。在更广泛的领域,它们仍然依赖检索和外部工具。但关键在于,我们已经看到了内化智能的雏形,而且这个方向同时吸引了从理论研究者到实践者的广泛关注。当卡帕斯这样的人开始在公开场合讨论“完全神经化计算”的梦想,当社区里的研究者开始探索“自组织神经文明”的概念,这意味着这个趋势已经超越了实验室的纸面推演,进入了主流技术话语。
最终,这个问题的核心在于我们如何定义“理解”。当前模型能够产生令人信服的文本,但它们真的“理解”这些文本吗?如果理解意味着能够将知识内化为可操作的世界模型,那么答案显然是否定的。但如果我们接受“理解”是一个连续光谱,那么当前模型已经位于这个光谱的某个位置,而且正在向更深的一端移动。从检索到内化的转向,本质上是将“理解”从定性判断转化为定量工程问题。我们不再问“模型是否理解”,而是问“模型内化了多少”。
这个问题的答案,将决定未来十年AI发展的基本方向。如果内化路径成功,我们将看到真正通用、真正自适应的智能系统。如果失败,我们可能会回到更传统的符号AI和检索系统的混合架构。但无论如何,当前围绕这个问题的讨论和实验,本身就标志着AI领域正在经历一次自觉的、深刻的自我审视。而这次审视的结果,可能比任何单一技术的突破都更加重要。
参考来源
- From Retrieval to Internalized Intelligence: - https://www.reddit.com/r/NPU2024/comments/1tawuei/from_retrieval_to_internalized_intelligence/
- Toward Self-Organizing Neural Civilizations of Intelligence - https://www.reddit.com/r/IT4Research/comments/1t9labi/toward_selforganizing_neural_civilizations_of/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m