当开发者争论 LangChain 还是 AutoGen 更好时,生产环境中的 AI Agent 正在静默地死于上下文膨胀和循环陷阱。这不是框架问题,而是系统设计哲学的问题。

核心观点:AI Agent 在生产环境中的真正瓶颈不是技术框架的选择,而是上下文管理的失效和循环故障的普遍性——这暴露了当前 AI 系统在长期自主运行中的根本脆弱性。

过去半年里,一个被反复验证的经验正在摧毁关于 AI Agent 的许多乐观叙事:在真实的生产环境中,框架选择几乎无关紧要。LangChain、CrewAI、AutoGen、OpenAI Agents SDK——随便选一个,只要团队熟悉,最终结果不会有本质区别。真正决定一个 Agent 能活多久、干多少活的,是那些藏在框架之下、几乎无人系统化讨论的东西。那些东西正在以沉默但高效的方式,杀死每一天数以千计的 Agent 部署。

最致命的杀手,是上下文膨胀。这个问题听起来像是技术细节,但它触及了当前所有大型语言模型(LLM)系统的核心矛盾。一个 Agent 在启动时拥有一个干净的上下文窗口,它高效、精准、反应迅速。但随着任务不断执行,每一轮交互、每一次工具调用、每一条来自外部的反馈,都在往这个窗口里塞入更多的 token。四十个 Prompt 之后,这个窗口就变成了一个信息沼泽。Agent 需要从几十万 token 中检索有用的信息,它的注意力被稀释,它的推理速度变慢,它开始把不相关的历史记录当作当前指令来解读。这就是所谓的“上下文腐烂”。

一位在 Reddit 上分享经验的开发者提供了一个形象的比喻:他不得不每隔一段时间对 Agent 执行 /clear 命令来重置上下文窗口,获得一个干净的运行环境。但这样做有一个巨大的代价——Agent 会立刻失忆。它忘记了自己已经完成了什么、正在处理哪个子任务、用户的约束条件是什么。这种“清醒的失忆”状态,让 Agent 从智能助手退化成一个每次重启都忘记自己是谁的短期记忆患者。

为了解决这个矛盾,有人开始给 Agent 配备外置记忆系统。最近出现的一个有趣尝试是给 AI Agent 一个看板(Kanban)系统,但不是给人用的,而是给 Agent 自己用的。这个看板本质上是一个本地的 MCP 服务器,Agent 可以把自己当前的工作状态、进度条、任务依赖关系记录在上面,然后在上下文被重置时,从这个外部存储中恢复自己的身份和任务状态。这个思路的巧妙之处在于它承认了一个事实:当前的 LLM 架构不适合长期记忆,所有试图让 Agent“记住”的努力,本质上都是在做上下文的外包。

但看板方案只是一个权宜之计。它没有解决更深层的问题——为什么 Agent 会陷入死亡螺旋?在另一份来自真实生产环境的报告中,一个运行了 30 个 Agent 的团队发现,最普遍的失败模式不是技术故障,而是 Agent 卡在一个循环里。它反复调用同一个工具、获取同一个结果、输出同一个错误,然后继续调用——直到 token 预算耗尽或者人工干预介入。这种循环故障的原因往往不是代码 bug,而是 Agent 的“自我确认偏差”:它从第一次工具调用中得到一个结果,然后把这个结果当成后续推理的前提,当这个前提是错误的时候,后续所有推理都是在建沙堡。

这种失败模式的普遍性令人不安。它暗示了当前 AI Agent 在本质上是一个开环系统:它们善于处理那些边界清晰、反馈及时的任务,比如代码生成、数据提取、简单的 API 调用。但一旦任务涉及不确定的中间结果、需要多步骤决策、或者依赖外部系统的非确定性响应,Agent 就会暴露出它缺乏真正的“反思能力”这一致命弱点。它们不会像人类一样说“等等,我刚才得到的那个结果可能有问题,我需要重新检查一下假设”。相反,它们会忠实地沿着一条错误路径走到黑,直到撞墙。

当然,乐观者会指出,这些问题正在被快速解决。上下文窗口的扩展(从 4K 到 128K 再到 1M token)正在缓解信息丢失的问题。新的推理技术——比如树搜索、自我纠错、多轮验证——正在让 Agent 拥有更强的鲁棒性。一些前沿实验室正在尝试让 Agent 在运行时动态地“遗忘”不重要的历史记录,只保留关键决策点。甚至有人提出了“计算嵌套”的概念,让 Agent 能够在必要时启动一个子 Agent 来处理子任务,从而隔离上下文污染。

但反对方的观点同样有力。上下文窗口的扩展只是把死亡点往后推,而不是消除它。1M token 的 Agent 和 4K token 的 Agent 一样,都会在某个临界点之后发生能力悬崖——只不过那个悬崖更远一些。自我纠错技术目前只在严格受控的环境中有效,在生产环境中的成功率仍然低得可怜。而且,Agent 的循环故障往往不是技术问题,而是逻辑问题——这意味着简单的工程修补无法根除它。

更深层的不确定性在于:我们是否正在用错误的范式来构建 AI Agent?当前几乎所有 Agent 框架都是建立在“LLM 作为推理引擎”这个假设上的。但这个假设本身正在被生产环境的数据质疑。LLM 善于生成看似合理的文本,但“看似合理”和“实际正确”之间横亘着一条难以跨越的鸿沟。当 Agent 在复杂环境中长期自主运行时,这条鸿沟会越来越宽,直到 Agent 完全脱离真实世界。

一个被忽视的信号是,那些在 Agent 领域取得最好结果的公司,往往不是那些追求最复杂框架的公司。他们通常使用最简单的架构:一个 LLM、一个有限的工具集、一个强制性的检查点系统。这些系统之所以有效,是因为它们主动限制了 Agent 的自主权。它们在每一个关键决策点强制插入人工审核,在每一个循环风险点设置断路器,在每一个上下文膨胀点触发强制重置。换句话说,最成功的 Agent 不是那些最“智能”的,而是那些最“受限”的。

这个观察与硅谷主流的叙事形成了有趣的张力。一边是 Andrej Karpathy 在 Sequoia Ascent 2026 上描绘的“Agent 原生经济”愿景——产品和服务被分解为传感器、执行器和逻辑,Agent 在其中自由流动,完成从软件安装到知识管理的一切任务。这是一个激动人心的画面,但它建立在一个未经验证的假设上:Agent 能够在没有人类密集监督的情况下可靠地工作。至少从目前的实践来看,这个假设还没有被证实。

另一边,像 Paul Graham 和 Garry Tan 这样的创业导师在反复强调“深度的、来自实践的洞察力”对于创业公司的重要性。他们说的虽然是人类创业者,但这个逻辑同样适用于 Agent:一个没有“生活经验”、没有“上下文记忆”的 Agent,很难产生真正的洞察力。它只能做模式匹配,而不能做真正的判断。

循环故障和上下文腐烂本质上是一回事:Agent 失去了与真实世界的校准。当上下文腐烂时,Agent 在内部建立一个越来越扭曲的世界模型,然后基于这个模型做决策。当循环故障发生时,Agent 在同一个点上反复操作,因为它无法从外部获取新的信息来打破循环。这两个问题都指向同一个核心挑战:如何让一个封闭的推理系统保持与开放世界的连接。

目前最务实的解决方案是混合架构。让 Agent 负责那些快速、确定性的子任务,同时将涉及不确定性的决策权和长期记忆的管理权交给人类。这不是对 Agent 的否定,而是对当前技术边界的一个诚实评估。在这个边界内,Agent 确实可以创造出巨大的价值——自动化重复性工作、加速数据分析、辅助决策制定。但超出这个边界,Agent 就会变成一把没有保险的冲锋枪。

有趣的是,整个行业似乎正在朝着这个方向缓慢移动。OpenAI 的 Assistants API 引入了线程管理和函数调用的显式上下文控制。LangChain 的 LangSmith 开始提供监控和调试 Agent 行为的工具。越来越多的公司开始在生产环境中部署“人类在环中”的 Agent 系统。这些趋势暗示,行业已经意识到了问题,但还没有找到根本解决方案。

所以,现在对 AI Agent 最准确的描述大概是:一种强大但脆弱的工具。它在短周期、边界清晰的任务上表现出色,但在长期自主运行中暴露了根本性缺陷。框架的选择不是关键,上下文管理和循环控制才是。那些能够承认这个现实并围绕它设计系统的团队,将在未来一段时间内获得竞争优势。而那些还在迷信“把 Agent 放出去它自己会进化”的人,大概率会在上下文腐烂的泥沼中挣扎。

这不是一个悲观的结论。恰恰相反,承认 Agent 的脆弱性是让它变得真正有用的第一步。就像早期的飞机需要频繁检查和有限航程一样,AI Agent 也需要基础设施来补偿它的先天不足。随着记忆管理、自我纠错和混合架构的成熟,Agent 的可靠性和自主性将逐步提升。但在此之前,任何声称 Agent 可以“完全自主运行”的宣传,都值得用上下文腐烂的经验来检验。