智能体的黄昏:为什么我们还没准备好让AI长时间独自工作
当AI Agent被要求连续工作数小时甚至数天时,问题不再是模型有多聪明,而是系统有多可靠——而整个行业显然还没想好怎么接住这个转变。
核心观点:当前AI Agent从短期问答向长期自主运行的跃迁,本质上是将模型能力问题置换为系统可靠性问题,而业界对后者的认知和投入严重不足,这导致了Agent长期部署的深层困境。
过去两年,AI Agent的叙事经历了一次悄然但深刻的位移。2023年,所有人都在问“模型能不能写代码”;到了2025年,问题变成了“Agent能不能自己写完一个完整的项目”。这个转变看似自然,实则隐藏着一个危险的认知断层——当任务从几分钟的对话拉长到数小时的自主执行,整个游戏规则都变了。
Reddit上LocalLLaMA社区有个帖子问得很直白:你们真的在跑长期运行的Agent吗?怎么处理重启和状态一致性?这个问题之所以刺中要害,不是因为它提出了什么新鲜的技术方案,而是它暴露了一个尴尬的事实——大多数人还在让Agent做短命任务,不是因为不想,而是因为不敢。一个能写诗、能修bug、能帮你调参的模型,一旦被要求持续工作八小时,就会暴露出一种令人不安的脆弱。你永远不知道它会在哪个环节开始梦游。
这种脆弱性不是模型本身的问题,而是系统设计的盲区。现代LLM的架构决定了它在每一个输出节点上都充满概率性——这不是bug,这是feature。但在短期交互中,这种概率性被人的介入所掩盖:你看到它答错了,立刻纠正它;它跑偏了,你重新引导。这种“人机联调”的模式天然适合对话式场景,却完全不适合长期自主任务。当Agent必须独自面对一个跨小时的流程,所有那些被人的干预掩盖的裂缝都会显形。它可能在第23分钟突然忘记自己在做什么,可能在某个分支逻辑里循环到死,也可能在状态转换时丢掉上下文,表现得像一个失忆症患者。
这里的关键问题不是“如何改进模型”,而是“如何设计系统”。Karpathy在Sequoia Ascent的分享中提到一个很有洞见的观点:LLM的能力分布是崎岖不平的(jaggedness)。同一个模型,可以优雅地重构十万行代码,却告诉你应该走路去洗车。这种“崎岖”不是偶然的,它来自于模型在训练数据中的验证域分布——那些被强化学习回路“包覆”的领域,模型表现如虎添翼;而一旦走出这个安全区,它就拿着砍刀在丛林里开路,每一步都可能踩空。
这就引出了一个更深刻的矛盾:长期Agent需要的是“持续的可验证性”,但当前模型的验证域覆盖是碎片化的。你可以让模型在写代码的某个子任务上表现完美,因为代码是可测试的,有明确的输入输出边界。可一旦任务涉及多步骤的推理、跨文档的信息整合、或者需要根据环境反馈动态调整策略,验证就变得困难甚至不可能。你无法像调试一个函数那样调试一个Agent的“信心状态”。
有人可能会反驳说,我们可以通过记录日志、状态快照、定期回滚来解决这个问题。这确实是一个工程方向,但问题在于,这些手段只解决了“观测”问题,没有解决“可靠性”问题。你能看到Agent在跑偏,不等于你能阻止它跑偏。更糟的是,长期运行会放大概率模型的固有不确定性——一个在单步中只有1%概率出错的动作,在经过一百步之后,累积出错率就接近63%。这还是在所有步骤独立且明确定义的假设下,而现实中的Agent任务往往步骤模糊、依赖隐式。
Cloudflare Tunnel的流行,从另一个侧面印证了这种系统思维的缺失。很多人把它当作一种安全增强措施,但它的真正价值在于将网络连接的可靠性问题从“入站防御”转移到了“出站隧道管理”。这是一种隐式的承认:与其在复杂的外部攻击面面前疲于防守,不如干脆切断入站通道,用一条私有隧道做干净的连接。这个思路与Agent系统的困境惊人地相似:我们是不是应该放弃让模型在长期任务中“全面可靠”的幻想,转而设计一种架构,让Agent在有限、可控的轨道上运行,然后用一个外部的可靠性层来兜底?
这不是一个纯技术问题,它涉及到一个更深层的范式选择:我们应该继续狂奔在“让模型更聪明”的赛道上,还是应该回头重建“系统更可靠”的地基?当前行业显然选择了前者。NVidia与Corning的光纤交易,被很多人视为AI基础设施的又一里程碑。但值得注意的,这个交易的核心是“连接效率”——如何更快、更省电地在GPU之间传输数据。它解决的是计算密集场景下的带宽瓶颈,而不是Agent长期运行中的状态一致性问题。换言之,我们正在用更粗的管道来灌水,却没有解决水龙头关不紧的问题。
这让我想起一个古老的技术教训:垂直缩放终有极限,水平缩放才是答案。在Agent系统里,这个教训的对应版本是:不要试图让一个模型在所有任务上长期可靠,而是让多个专用模型通过一个可靠的编排层协同工作。但这又引入了新的复杂性——编排层的可靠性谁来保证?如果编排层本身也是一个智能系统,那我们就掉进了无限递归的陷阱。
也许,真正的解决方案不是技术性的,而是认知性的。我们需要接受一个事实:当前AI Agent在长期自主任务上的表现,更像是人类学徒而不是资深专家。学徒需要监督,需要频繁的检查点,需要明确的任务分解。企图让它独自完成一个复杂项目,就像把一个刚毕业的实习生扔进核电站控制室——不是他不够聪明,而是系统没有为这种信任做好准备。
从更远的视角来看,这个困境折射出AI应用的一个普遍性悖论:我们越是试图让AI“独立”,就越需要回到“依赖”的基础上去重新设计系统。长期Agent不是模型能力的自然延伸,而是一个全新的系统设计问题。它要求我们重新思考状态管理、错误处理、回滚机制、以及最重要的——失败模式。当短期任务失败,代价只是一次糟糕的对话;当长期任务失败,代价可能是数小时的计算资源浪费、数据污染、甚至业务决策错误。
我们还没有准备好让AI长时间独自工作。这不是模型能力的失败,而是系统工程的欠债。而这个债,不是靠更快的GPU或更宽的带宽就能还清的。
参考来源
- The House That Hungers: Part 1 - https://www.reddit.com/r/TalesFromTheCreeps/comments/1t4jxhm/the_house_that_hungers_part_1/
- Re-weighting the Unknown: Integrating Low-Confidence and Abstract Principles into Agent-Based AI Systems: AKA - Continuity + self agency + controll of devices +advanced logic and theory = we will see.😆 see my wall for rest 😆 follow for more 😆 - https://www.reddit.com/r/u_Key-Discussion4462/comments/1t440eh/reweighting_the_unknown_integrating_lowconfidence/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m