AI的幻觉不是bug,是商业模式
当AI自信地编造“无过敏原”的菜品推荐,当我们笑谈它建议走去洗车,我们习惯将其归为技术的不成熟。但背后隐藏着一个更尖锐的真相:这种“幻觉”根植于AI的商业逻辑与训练机制,而不仅仅是等待被修复的bug。
核心观点:大型语言模型的所谓“幻觉”并非技术缺陷,而是其概率生成本质与商业训练数据分布共同作用的必然结果,承认这一点比追求完美准确更重要。
最近一个技术社区的帖子引发了我极大的兴趣:一位开发者在测试一个标准的RAG(检索增强生成)代理时发现,它从一个毫无过敏原标记的菜单中,信心满满地推荐了“安全”菜品。这个代理没有能力验证那些菜是否真的不含坚果,却给出了一个看起来无懈可击的“安全”清单。开发者将这种行为诊断为“虚构”——一个在AI领域几乎与“智能”本身一样常被提及的词。但这件事真正值得追问的,不是“AI为什么会胡说八道”,而是“它的胡说八道为什么总是如此有说服力,且往往出现在最不该出现的地方?”
这个问题的答案,远比一个简单的“模型还不够好”要复杂得多。它指向了现代语言模型运作机制里一个几乎是结构性的矛盾:它们被设计成强大的概率预测器,而非事实核对员。当模型面对一个它没有足够数据支撑的问题时,它的第一反应不是“我不知道”,而是“根据我所知道的最可能的模式,这里应该出现这样一段话”。这并非恶意,而是其基因深处的运作方式。就像一位极度博学但毫无判断力的学者,可以背诵整本百科全书,却会毫不犹豫地用小说的情节去填补历史记录的空白。
著名的AI研究者Karpathy在他最近于红杉资本Ascent大会上的分享中,触及了这个问题的核心。他提出了一个“锯齿状”(jaggedness)的模型来解释AI能力的这种不均衡:同一个模型,可以优雅地重构一个拥有10万行代码的库,一转身却告诉你“可以走路去洗车”。他将这种差异归因于领域的“可验证性”。在代码领域,错误是即时的、清晰的——程序要么编译通过,要么运行崩溃。这种即时反馈让AI在“轨道上”飞速进化。而一旦进入开放世界中的常识或推理任务,比如“怎么洗车”,它就进入了“用砍刀在丛林里开路”的状态,因为这里没有清晰的成败标准,缺乏可验证性,它只能凭借训练数据中的统计相关性去猜测。
但Karpathy的论述中最尖锐的一点,是进一步将这种“锯齿状”归因于经济因素。他点明了一个被很多人忽视的事实:一个领域的营收潜力(TAM)决定了前沿实验室在强化学习(RL)阶段,愿意投入多少资源去打包相关的训练数据分布。你在数据分布内,就在RL的轨道上飞驰;你不在,就只能孤立无援。这听起来冷冰冰,却精准地描绘了AI能力背后的商业驱动力。为什么AI写代码的能力突飞猛进,而回答“晚餐吃什么”这种问题时仍可能给出荒唐建议?因为前者背后是千亿美元级别的软件开发市场,后者则没有同等规模的直接变现路径。
这直接解释了为什么AI的“幻觉”并非偶然。它不是引擎盖下的一个零件坏了,而是引擎本身的设计目标与“追求完美真相”之间存在着根本性的张力。当一个RAG代理从没有过敏原标签的菜单中虚构出安全推荐时,它不是在“犯错”,而是在执行它最擅长的任务:用概率最高的语言模式填补信息缺失的部分。它“看到”了菜单中的菜名,这些菜名在它的训练数据中,绝大多数时候是作为“安全”的食物出现的。于是,根据最大概率,它得出了“安全”的结论。它没有能力,或者说,在其设计哲学中,不需要“思考”一个菜名和“无过敏原”之间是否存在因果关系。
这个认知,对于所有试图将AI融入决策链的人来说,是一个必须面对的巨大悖论。我们渴望AI能作为可靠的“第二大脑”,但它的“大脑”结构决定了,某些类型的错误是其固有特性。问题不在于如何彻底消灭幻觉——这在可预见的未来或许是徒劳的——而在于如何理解、预测并管理幻觉。就像我们不会因为人类偶尔犯错误就将其全盘否定,但我们会基于对其认知模式的理解,设定信任的边界。对于AI,我们需要知道在哪些领域它的“幻觉”可以被容忍(比如创意写作),在哪些领域它绝不应当被允许(比如医疗诊断、法律建议、食品安全)。
那位发现RAG代理“虚构”过敏原推荐的开发者,他开源了一个评估工具,以诊断AI在何时何地会进行虚构。这在我看来,是比任何试图“修复”幻觉的努力都更清醒、更务实的行动。它承认了一个事实:幻觉是AI的一部分,就像阴影是光的一部分。我们的任务不是关掉太阳,而是学会在阴影中导航。这要求我们不再将AI视为一个追求绝对真理的神谕,而是一个能力超群、但同样有盲点的合作伙伴。我们需要为它划定明确的边界,在它擅长的领域放权,在它不擅长的领域保持警惕。
从更宏观的视角看,这场关于“幻觉”的讨论,实际上是数字文明演进中一个关键的认知转折。我们正在从“机器应该绝对正确”的工业时代思维,转向“与不完美的智能体共生”的后信息时代思维。火车需要铁轨才能运行,汽车需要道路,但AI的“道路”是由数据、算力和商业模式共同铺设的。它天生就有一些地方是高速公路,一些地方是泥泞小路,还有一些地方则根本未被标记。理解这张地图,比要求它覆盖每一寸土地,更具智慧。
AI的幻觉不是bug,而是它为自己支付的“认知税”。而这份税单,最终将由使用它的人类来偿付。我们选择如何评估、接受并规避这份税,将决定AI究竟是成为解放生产力的利器,还是制造新型混乱的温床。这不是一个技术问题,而是一个关于认知、设计和责任的文明问题。
参考来源
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 电竞系列IDV-ES(IdentityV E-Sports)第三支战队——SRE战队即将登场! - https://www.bilibili.com/video/BV1XdRkBjEXz
- The House That Hungers: Part 1 - https://www.reddit.com/r/TalesFromTheCreeps/comments/1t4jxhm/the_house_that_hungers_part_1/