LLM的“锯齿状能力”才是代理落地的真正门槛,而不是框架选择
当所有人都在争论LangChain还是CrewAI更好时,真正杀死AI代理的凶手悄然潜伏在LLM的“锯齿状能力”之中——这不是一个框架能解决的问题,而是我们对智能本身的理解出了偏差。
核心观点:当前AI代理社区过度沉迷于框架之争,却忽视了LLM天生的能力分布不均才是决定生产环境成败的核心变量,而这一变量正在被错误地技术化、商品化,导致大量代理项目死于看似无关的循环与认知偏差。
过去半年,我观察到AI代理社区陷入了一场奇怪的狂欢。人们激烈争论LangChain与CrewAI的优劣,研究AutoGen的图结构,追捧OpenAI Agents SDK的新特性。每一篇技术帖都在暗示:只要选对框架,代理就能稳定运行。但真实的生产环境给出了截然不同的答案。一位连续运行30个生产代理的实践者直言:“框架选择几乎不重要。真正杀死代理的东西是别的东西。”那个东西,就是代理陷入循环、反复调用相同工具、在同一个逻辑节点上无限徘徊直至超时。这个现象在技术上被轻描淡写地归咎于“提示工程不到位”或“工作流设计缺陷”,但我认为,它指向的是一个远比框架选择更根本的问题——我们正在用一套完全错误的心智模型来理解LLM的能力。
这种错误的心智模型,源自两个根深蒂固的假设。第一个假设是:LLM的能力是均匀分布的,就像人类专家的知识一样,在各个领域大致平衡。第二个假设是:LLM的推理是连续的、有向的,就像程序执行一条指令接着一条指令。但现实恰好相反。如一位技术领袖在近期行业对话中所言,LLM的能力呈现出一种“锯齿状”——同一个模型可以同时做到两件看似矛盾的事:流畅地重构一个10万行代码库,却又建议你“走路去洗车”。这种能力分布的不均匀,不是bug,而是整个范式的特征。它源于训练数据的分布偏差:RL(强化学习)阶段,前沿实验室会根据商业价值选择性地包装数据分布。你一旦落在数据分布的“铁轨”上,就能高速飞驰;一旦脱离,就像拿着砍刀在原始丛林中跋涉。而生产代理的绝大部分失败,恰恰发生在后一种情境中。
把这个问题放到框架层面来看,就更加清晰了。框架解决的是什么?是代理的调度、记忆、工具调用协议——这些都是“如何执行”的问题。但代理真正需要回答的是“何时执行”和“为何执行”。当你让一个LLM决定是否调用一个外部API时,它面临的不只是技术可行性问题,而是认知边界问题:它是否真的理解这个API的语义?是否知道自己还没收集完必要参数就开始调用?是否明白“调用失败后该回退还是重试”?这些决策点上的锯齿状能力分布,才是循环的真正根源。一个在代码生成上表现优异的模型,可能在元认知(知道自己不知道什么)上表现得像个弱智。一个能写诗的大模型,可能完全不懂“先检查再行动”的常识——这不是框架能补偿的。
更令人担忧的是,社区正在用传统软件工程的思维方式来应对这一挑战。CVE(通用漏洞披露)体系被直接移植到AI代理领域,出现了所谓的AVE(AI代理漏洞枚举)。但一位安全研究者尖锐地指出:“CVE被设计用来描述传统软件漏洞——缓冲区溢出、SQL注入、内存损坏。这些漏洞在AI代理世界中毫无意义。AVE需要描述的是什么?是攻击类、AIVSS风险评分、攻击在技能文件中如何被检测、修复方法是什么。”这里的关键不是技术细节,而是我们是否理解——代理的“漏洞”不是代码层面的缺陷,而是能力分布上的盲区。一个代理可能因为训练数据中缺乏对“金融交易回滚”的描述,而在执行关键金融操作时产生灾难性后果。这不是一个补丁能解决的,它需要重新思考训练数据的分布。
反方观点认为,这个问题会随着模型进步而自然消失。更强大的LLM、更多的训练数据、更精细的RL包装——一切都会变得平滑。我对此持怀疑态度。锯齿状能力不是暂时的缺陷,而是LLM架构的固有属性。只要LLM的训练依赖于对海量但有限的数据进行统计建模,就一定存在分布内外之别。你无法通过增加数据量来消除分布边界,你只能扩展边界,但边界永远存在。而且,商业逻辑驱动的数据包装优先级永远不会与代理实际遇到的长尾场景完全对齐。一个只卖咖啡的电商平台不需要训练大模型去理解“如何在极地科考站部署代理”,但你的代理一旦遇到类似场景,就会暴露锯齿。
那么,出路在哪里?我认为,首先是承认问题的本质:代理落地的瓶颈不是框架,不是提示词,甚至不是工具链,而是我们对LLM能力模型的理解。我们需要建立一种新的工程纪律——不是依赖框架的抽象来掩盖锯齿,而是主动测绘和暴露锯齿。这意味着在生产前,你需要对代理使用的每一个LLM进行“能力地形测绘”:它在哪些域上处于“铁轨”状态?在哪些域上处于“丛林”状态?然后,通过设计约束、护栏和人类-in-the-loop回路来管理不确定性。
其次,我们需要重新思考代理的评估标准。传统的指标如准确率、召回率完全不够。我们需要引入“循环频率”、“工具调用合理性”、“自我纠正成本”等指标。一个代理如果频繁进入循环,即使它最终完成了任务,其运行成本和用户体验也是不可接受的。而这恰恰是当前大多数生产代理的现实。
最后,行业需要认识到,代理是一场认知架构的革命,而不是软件工程的延续。框架会过时,模型会迭代,但锯齿状能力这个事实不会消失。谁能最早构建出一套系统化的“能力分布管理”方法论,谁就真正掌握了代理落地的钥匙。那些还在争论框架优劣的人,可能从一开始就输在了起跑线上——因为他们连问题是什么都没弄清楚。
参考来源
- 《阴阳师》天火命铃彦姬CG丨执火燎原(CV:小松未可子) - https://www.bilibili.com/video/BV1CVGx6kE7n
- Mercury Agent install note: Mercury open-source agent without the setup-only trap - https://www.reddit.com/r/MercuryInstall/comments/1tmp0q1/mercury_agent_install_note_mercury_opensource/
- Just finished an England game, it was a lot of fun - https://www.reddit.com/r/EU5/comments/1tnolf1/just_finished_an_england_game_it_was_a_lot_of_fun/