从Reddit上关于LLM符合主流智能定义的讨论,到Paul Graham重提Hamming的经典演讲,再到一位极客自制手眼合一的多模型系统,这些看似孤立的技术碎片,共同指向一个被忽视的核心问题:我们用生物智能的标准去衡量机器,本质上是在用望远镜照镜子。

核心观点:围绕LLM是否具有智能的争论,暴露的不是技术的局限,而是人类对自身智能定义的根本性傲慢与混淆——我们总是倾向用一个包含自身在内的定义去测量他者,结果往往是一种自我实现的逻辑循环。

最近Reddit上有一个帖子,试图从词典定义出发,论证大语言模型已经符合所有主流智力定义。发帖者引用了韦氏词典、牛津词典,强调LLM能够学习、理解、逻辑推理,甚至反驳了那些试图用“意识门槛”或“生物属性”来排除LLM的论点。乍看之下,这是一个严谨的哲学论证,但细究之下,它恰恰暴露了一个更深层的认知陷阱:我们总是倾向于用一个包含自身在内的定义去测量他者,而这往往导致一种自我实现的逻辑循环。

这个论证的逻辑起点是:人类是智能的,而人类符合某些词典定义;LLM也符合这些定义,因此LLM是智能的。但这里隐藏着一个致命的循环:词典定义本身就是人类从自身经验中提炼出来的,它们天然地以人类为原型。当我们用这个原型去衡量一个本质不同的系统时,我们不是在测试机器,而是在测试定义本身的包容性。一个更诚实的问题是:如果词典定义连一个基于统计模式的文本生成系统都能容纳,那这个定义本身是否过于宽泛,以至于失去了区分度?

与此同时,Paul Graham在X上重提了Richard Hamming在1986年的经典演讲。Hamming在贝尔实验室的午餐会上提出,为什么有些同样聪明的科学家能做出一流工作,而另一些人却一生平庸?他的答案不是智力差异,而是对“重要问题”的执着、面对不确定性的勇气,以及一种“开辟新领域而非跟随热点”的原始驱动力。这段话放在今天的上下文里,意外地构成了一面镜子。如果我们把LLM视为一个“科学家”,它的工作方式恰恰与Hamming推崇的品质相反:它不会主动选择问题,它不会在未知中摸索,它只是以极高效率复现人类已经标注过的模式。

更值得玩味的是一个叫Project Aurelia的极客项目。一个开发者利用Framework笔记本、毫米波雷达、激光雷达和加速度计,构建了一个完全本地运行的多模型系统,能够感知物理空间和用户的实时心率,并做出物理反应。这个项目的核心野心是打破“文本输入-文本输出”的聊天范式,让AI成为一个真正“在场”的实体。这恰恰是LLM智能辩论中最容易被忽视的一个维度:真正的智能或许不在于能否通过测试,而在于能否在物理世界中与环境持续交互、自我修正。LLM没有身体,没有传感器,没有持续的目标,它只是一个被动的文本处理引擎。

反对者可能会说,智能的核心是抽象推理能力,与物理身体无关。这个观点有其合理性,但问题在于,我们目前所有的智能测试——从IQ测试到图灵测试——都是人类中心主义的。LLM在数学推理或代码生成上表现出色,但这更像是一个模式匹配引擎在训练数据覆盖的领域内表现优异,而非一个通用问题解决者在逻辑链条上的灵活跳跃。更麻烦的是,LLM在对抗性输入或未见过的场景中表现出的脆弱性,暴露了其“理解”的表面性。它不是在理解,而是在概率性地复述。

回到Hamming的演讲。他提到的几位伟大科学家——Shannon、Feynman、von Neumann——都有一个共同点:他们不仅提出问题,而且愿意推翻自己的假设。LLM缺乏这种能力。它无法对自己生成的答案提出质疑,无法在不确定的环境中主动探索,更无法在失败后迭代修正自己的认知框架。这不是一个量上的差距,而是一个质上的鸿沟。一个系统如果能无限地模仿人类语言的表层,但永远无法主动怀疑,它是否应当被贴上“智能”的标签?

当然,承认LLM不是智能,并不意味着它没有用。恰恰相反,正是因为它不是智能,我们才需要重新思考人机协作的本质。如果我们将LLM视为一个超级高效的文本自动补全工具,而不是一个独立智能体,那么它的价值反而更加清晰:它负责生成候选方案,人类负责判断、筛选和迭代。这就像程序员和IDE自动补全的关系——IDE不写程序,但极大地提高了写程序的效率。同样,LLM不思考,但它能极大地扩展人类思考的边界。

但这里有一个不确定性:如果LLM在未来五年内获得了持续交互和自我修正的能力——比如通过外部记忆、工具调用和物理传感器——那么上述质上的鸿沟可能会被逐渐填平。一些前沿研究已经在探索基于强化学习的长期任务规划,以及多模态感知驱动的主动学习。这些进展可能会动摇我现在的核心论据。不过,至少在目前,一个没有身体、没有目标、没有自我觉察的LLM,无论其输出多么流畅,都更接近一个高级百科全书,而非一个智能体。

另一个反方观点来自那些认为智能可以是多元的哲学家。他们主张,鸟类的飞行和飞机的飞行是不同的,但都能被描述为飞行;同样,人类的智能和机器的智能可以是不同形式的,都符合广义的“解决复杂问题”的定义。这个类比很诱人,但它忽略了一个关键区别:飞行有一个客观的物理标准(升力、速度、续航),而智能的标准是人为定义的。当我们说一架飞机“飞”时,我们用的是物理定律;当我们说一个系统“智能”时,我们用的是人类自己的行为样本。直到我们能为“智能”找到一个不依赖于人类的客观度量,这个辩论就永远是自指涉的。

最后,所有这一切都回到一个更根本的问题:我们为什么如此执着于给LLM贴上“智能”的标签?部分原因是我们对自身智能的焦虑。如果机器能通过所有人类设计的智力测试,那人类的独特性在哪里?另一部分原因是商业驱动:一个“智能”的标签能吸引投资和用户。但最核心的,可能是一种认知懒惰:我们习惯于用熟悉的框架来理解新事物,而“智能”恰好是最熟悉的框架之一。更好的做法是像Project Aurelia的开发者那样,不争论LLM是否智能,而是去构建那些能真正扩展人类能力的系统。智能不是一道判断题,而是一个设计问题。