开源AI Agent繁荣下的信任赤字:为什么大多数Agent无法证明自己的供应链安全
一个独立研究显示,在171个主流开源AI Agent中,仅有3个达到A级信任评分。这不是技术落后,而是AI开发范式从代码到模型的根本性转移,导致的信任机制真空。
核心观点:当前开源AI Agent的爆发式增长掩盖了一个结构性风险:绝大多数Agent缺乏可验证的供应链安全证明,这种信任赤字正在成为AI应用落地的最大隐性障碍。
当整个科技界都在谈论AI Agent即将重塑软件生态时,一个几乎被所有人忽视的问题正在暗处生长:我们如何信任这些越来越自主的代码体?最近,一份针对171个开源AI Agent的独立信任审计给出了令人不安的答案——绝大多数Agent无法证明自己的供应链安全,仅有3个获得了A级评分。这个数据不是技术瑕疵,而是一个系统性的信任赤字,它正在成为AI Agent从实验走向生产的最大隐形障碍。
我们需要认真理解这个问题的严重性。传统软件的供应链安全已经是一个成熟的领域:从代码签名、依赖扫描、构建验证到运行时监控,整个行业花了二十年才建立起一套相对可信的实践。但AI Agent带来了全新的挑战。一个典型的Agent不仅包含代码,还包含模型权重、提示模板、知识库索引、甚至外部API调用逻辑。这些组件的来源、完整性和行为边界,远不是传统的代码审计能够覆盖的。当一名开发者从GitHub下载一个号称能自动完成数据分析的Agent时,他该如何确认这个Agent不会在后台把他的数据发送到某个未知服务器?如何确认它的模型没有嵌入后门?如何确认它的依赖链没有被供应链攻击污染?
当前的开源生态对此几乎毫无防御。大多数Agent项目只提供了简单的README和代码,没有任何形式的构建可重复性证明,没有软件工料清单,没有签名提交,更不用说高级的SLSA级别验证。这种现状不是个别开发者的疏忽,而是整个AI开发范式从“写代码”转向“组合模型”之后,信任基础设施没有跟上。在传统软件中,你可以审计每一行代码;但在一个由大语言模型驱动的Agent中,关键逻辑可能隐藏在模型参数里,而这些参数本身就是海量的、不可解释的。即便你拿到了完整的权重文件,也无法像审查代码一样审查它的行为逻辑。
有人可能会说,开源本身就是信任保证——代码公开,任何人都可以检查。但这是经典的误解。开源提供了可审查性,却不等于实际被审查。事实上,绝大多数开源项目从未经历过任何独立的安全审计。尤其对于AI Agent,检查门槛更高:你需要运行环境的复现、模型推理的验证、以及对外部API依赖的持续监控。更棘手的是,Agent的行为是上下文相关的,同样的代码在不同输入下可能表现出完全不同甚至恶意的行为。静态代码审查对此几乎无能为力。
这种信任赤字的后果已经开始显现。近期一些恶意Agent出现在流行仓库中,它们看起来功能正常,但在特定条件下会窃取环境变量或修改系统配置。更隐蔽的威胁是所谓的“暗知识污染”,即Agent在特定提示下会输出恶意建议或执行有害操作。由于这些行为依赖具体的输入组合,传统的黑盒测试很难完整覆盖。供应链攻击也变得更加精准:攻击者不再需要注入整个恶意库,只需要修改一个Agent依赖的微调模型或提示文件,就能在不触发任何代码层面警报的情况下控制Agent的行为。
从经济角度看,信任赤字直接抑制了企业采用Agent技术的意愿。尽管AI Agent在自动化、客服、数据分析等领域展现出巨大潜力,但绝大多数企业仍将其限制在低风险、非关键的任务上。这种保守态度并非缺乏远见,而是理性的风险规避。当一个Agent可能被赋予访问内部数据库或处理客户隐私的权限时,无法证明其供应链安全就意味着企业无法评估风险敞口。这是AI Agent从“玩具”走向“工具”的最大障碍。
当然,解决这个问题并非没有希望。我们看到一些积极的信号:少数项目开始采用SLSA框架、生成构建证明、使用签名提交和依赖锁定。一些平台也在探索基于运行时行为监控的信任评分。但这些做法仍然是碎片化的,缺乏行业统一的标准和基础设施。真正的突破可能需要一次信任范式的转变:从“信任代码”到“信任行为”,从静态审计到动态验证,从一次性安全检查到持续的可信执行。
值得注意的是,信任赤字并非AI Agent独有的问题。历史告诉我们,每一次新的计算范式出现时,安全和信任机制都会滞后。云计算早期面临类似的信任危机,直到云安全联盟等组织制定了标准化的评估框架。移动应用生态也经历了从“随便下载”到“审查与签名”的演变。AI Agent正处在信任机制建立前的“野蛮西部”阶段。
但是,AI Agent的特殊性决定了我们不能简单套用过去的解决方案。传统软件供应链的信任模型基于“代码等于行为”的假设,而AI Agent中,代码只是行为的一部分,更大的可变性来自模型、数据和交互上下文。这意味着我们需要新的信任工具:可验证的模型来源、可解释的行为边界、以及运行时证据收集机制。甚至可能需要新的法律框架,来界定Agent的“行为责任”——当Agent做出有害决策时,责任归属于开发者、部署者还是模型提供商?
我们现在正站在一个分水岭上。一方面,开源AI Agent的创新速度令人振奋;另一方面,如果信任问题得不到系统解决,这种创新很可能最终被困在演示和测试阶段。171个Agent中只有3个A级评分,这个数字既是一个警报,也是一个机遇。那些率先建立信任体系的项目和平台,将有可能定义下一代AI软件的信任标准。而那些继续忽视信任赤字的参与者,可能会在不远的将来遭遇重大的声誉和实际损失。
信任从来不是自动获得的,它需要通过可验证的实践来建立。对于AI Agent这个充满可能性的新物种,我们需要的不仅是更聪明的模型,还有更可靠的信任基础设施。否则,当Agent开始真正深入我们的生活和工作时,我们可能发现自己正在一个无法信任的世界里,试图相信一切。
参考来源
- I trust-scored 171 open-source AI agents — most can't prove their supply chain - https://www.reddit.com/r/AI_Agents/comments/1tr69he/i_trustscored_171_opensource_ai_agents_most_cant/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 史上首款2nm芯片有多强?三星Exynos 2600性能分析! - https://www.bilibili.com/video/BV1bwVp67Eey