当AI agent需要从几分钟的对话延长到数小时甚至数天的持续运行,一个隐秘但致命的鸿沟浮现:模型在“已知路径”上的流畅与在“野地”中的挣扎,揭示出当前大模型能力的根本脆弱性。

核心观点:长期运行AI agent的可靠性问题不只是工程挑战,而是对当前大模型范式的根本性质疑,其解决需要从数据分布到运行时架构的系统性变革。

在AI agent的讨论中,一个看似微小的问题正在分裂整个社区:你的agent能活过一夜吗?当我们在社交媒体上看到开发者们兴奋地展示agent如何自动写邮件、管理日程、搜索资料时,很少有人追问一个更残酷的问题——如果这个agent在执行任务中途崩溃,它能否在重启后精准地找到上一次停下的位置,而不是像个失忆症患者一样从头开始?如果它需要运行数小时甚至数天,状态一致性、持久化、错误恢复这些“无聊”的工程问题,就会突然从配角变成主角,甚至决定整个agent产品的生死。

这个问题的本质,远比表面看起来深刻。它触及了当前大语言模型范式的核心脆弱性:模型的能力分布是“锯齿状”的。正如某位业内资深人士在近期一场内部交流中坦诚的那样,同一个模型可以同时做到两件看似矛盾的事——它能连贯地重构一个十万行代码库,却也会告诉你“走路去洗车店洗车”。这种能力的不均匀性,源于模型在训练过程中接触到的数据分布。当任务落在训练数据的高密度区域,即所谓的“轨道”上,模型表现得如同神助;一旦脱离这个区域,进入“丛林”,它就像手持砍刀的迷路者,每一步都充满不确定性。

这种“锯齿状”能力对长期运行agent构成了致命威胁。短期、封闭的任务,比如单轮问答或代码补全,几乎完全落在数据分布的“轨道”上——因为互联网上充斥着这样的例子。但长期运行意味着agent必须面对一系列连续的、不可预测的中间状态。每一次状态转换,都可能将模型推向“轨道”之外。更糟糕的是,错误会累积。一次在“丛林”中的微小偏差,可能导致后续一连串行动建立在错误的前提上,最终酿成灾难性的结果。这就像一个迷宫探索者,每一次转弯都有一定的概率走错,而一旦走错,后续的所有决策都基于错误的位置判断,最终离出口越来越远。

有人可能会认为,只要增加模型的参数量、扩大训练数据,就能平滑掉这些“锯齿”。但现实远没有这么乐观。问题的根源不仅仅在于模型容量,更在于训练信号的经济学。对于高度结构化、可验证的任务——比如代码生成,因为存在编译器和测试用例这些自动验证工具——实验室有强烈的动机去收集大量高质量数据,并投入强化学习来优化模型在这些任务上的表现。但对于那些开放式的、非结构化的长期任务,比如“持续监控一个网站的变化并根据变化执行一系列操作”,如何定义“正确”?如何自动生成验证信号?这些问题的答案远不清晰。因此,模型在这些“长尾”任务上的能力,很可能长期保持“锯齿状”。

反对意见认为,我们可以通过精心设计的工程框架来规避模型的这些弱点。例如,将长期任务分解为一系列短期的、可验证的子任务,每个子任务单独调用模型,并辅以严格的状态持久化和回滚机制。这种“短程agent+编排框架”的思路,在某种程度上确实有效。它借鉴了传统软件工程中的容错设计思想——把不确定性隔离在短周期内,通过重试、超时、检查点等机制来管理失败。但这种做法的代价是巨大的:它实际上承认了模型无法真正“理解”长期上下文,而只是作为一个短视的模式匹配器在工作。这等于放弃了agent最诱人的承诺——自主规划、持续学习、适应变化。

进一步观察,长期agent的问题其实暴露了一个更深层次的矛盾:我们正在用为“一次性回答”训练出来的模型,去执行“持续性任务”。大语言模型的训练范式——无论是预训练、微调还是强化学习——本质上都是面向离散的、短期的交互。模型学习的是给定输入,输出一个合理响应。它没有“记忆”,没有“目标”,没有“自我修正”的概念。即使通过提示工程给它注入一个“系统提示”,让它扮演一个agent角色,这层伪装在长期运行中也必然会被磨穿。就像一个演员被要求连续表演一出十二小时的独角戏,没有任何剧本提示,只能依靠自己的即兴发挥——他迟早会忘记角色,回到自己的本来面目。

这种根本性的不匹配,意味着我们可能需要重新思考AI agent的架构。一个可能的路径是“神经+经典”混合架构:让大模型负责高层次的规划、推理和自然语言交互,同时将状态管理、错误恢复、任务分解等“枯燥”但关键的职责交给传统软件组件。这种思路已经在一些前沿实践中初现端倪,比如使用向量数据库做长期记忆,使用有限状态机管理任务流程,使用检查点系统记录中间状态。但这条路径的挑战在于,如何定义模型与经典组件之间的接口?这个接口必须足够丰富,让模型能够表达其高级意图,又必须足够严格,防止模型产生不可预测的行为。

另一个更激进的路径是彻底放弃“用prompt模拟agent”的做法,转而开发真正具有持久性和自我意识的新型架构。这听起来像是科幻,但一些研究者已经开始探索“世界模型”+“内部监控器”的方案:让模型在内部维持一个对自己行为和环境的持续表征,并能够基于这个表征进行推理和规划。这个内部监控器不是通过提示注入的,而是模型架构的一部分,它使模型能够意识到“我在做什么”、“我做到了什么”、“我还需要做什么”。如果这条路能走通,那么长期agent的可靠性问题将不再是工程补丁,而是模型能力的内生属性。

回到现实,当前社区对长期agent的态度呈现出明显的分裂。一部分人选择回避,将agent任务严格限制在几分钟内完成的短期操作上,比如单轮信息提取、代码生成、翻译。这些任务虽然价值有限,但可靠性高,风险可控。另一部分人则选择激进地推进,即使面对频繁的失败,也坚信随着模型能力的提升和工程实践的积累,长期agent终将成为现实。还有一批务实主义者,他们专注于构建能够优雅处理失败的系统,接受模型的不完美,通过冗余、监控和人工介入来弥补模型的短板。

这场关于agent可靠性的争论,本质上是在回答一个更根本的问题:我们到底希望AI成为什么?是一个偶尔犯错但能力惊人的工具,还是一个值得信赖、可以委以重任的伙伴?如果是前者,那么接受agent偶尔的“抽风”,并设计好应对机制,或许是合理的。但如果是后者,那么我们就必须面对一个不愉快的真相:当前基于大语言模型的agent范式,在根本上还不具备成为可靠伙伴的条件。这不仅是工程问题,更是科学研究问题。它迫使我们重新审视“智能”的定义——在真实世界的复杂环境中,持续、一致、可靠地执行长期目标,这本身可能就是人类智能最被低估的特质。而AI要真正达到这一点,可能需要的不是更大规模的训练,而是全新的架构和范式。