171个开源AI Agent,只有3个值得信任:开源生态正在制造一场信任灾难
在狂热的AI Agent创业浪潮中,一个独立开发者对171个开源项目的信任评分揭开了残酷真相:99%的项目无法通过基本的安全验证。这不仅是技术问题,更是对整个开源协作模式的根本性质疑。
核心观点:开源AI Agent数量暴涨但信任基础设施严重缺失,绝大多数项目无法证明自身供应链安全,这种信任赤字正在变成比能力不足更危险的行业毒瘤。
当整个科技行业都在为AI Agent的爆发式增长欢呼时,一个被严重忽视的问题正在悄然腐烂:我们凭什么相信这些Agent不会在某个深夜悄悄执行恶意指令?这个问题不是杞人忧天,而是已经迫在眉睫。一位独立开发者最近对171个开源AI Agent进行了系统性的信任评分,结果触目惊心——只有3个项目获得了A级评分,绝大多数项目在供应链安全、代码来源验证、构建可复现性等关键维度上几乎完全裸奔。这个数据背后隐藏的,是整个AI Agent生态正在被一种危险的乐观主义所主导:所有人都在追逐功能、速度和融资,却几乎没有人关心这些Agent到底能不能被信任。
更令人不安的是,这种信任缺失并非偶然的技术疏忽,而是系统性的制度失灵。传统开源软件之所以能维持基本的信任,是因为有GitHub的代码签名验证、npm或PyPI的包管理安全机制、持续集成中的签名构建等一整套经过十多年打磨的基础设施。但AI Agent完全跳过了这个进化过程。一个典型的开源Agent项目,往往只是一个GitHub仓库加一份README,里面充满了“只需运行以下命令”的指示,却没有任何机制保证你下载的代码和原作者提交的代码是一致的,更不用说保证在构建过程中没有被篡改。这就像在药店买药,但药瓶上没有封条、没有生产日期、没有成分说明——你只能相信卖药的人是个好人。
有人可能会说,开源本身就是透明的,任何人都可以审查代码,所以应该是安全的。这个论点在过去十年里已经被无数次证伪。Linux内核和OpenSSL等核心基础设施之所以能维持安全,是因为有专业的安全团队和严格的管理流程,而不是因为代码是公开的。对于AI Agent这种高度动态、频繁更新、依赖大量第三方库的新兴项目,代码审查的有效性更是大打折扣。当一个Agent项目依赖超过200个npm包和10个Python库时,任何一个依赖的微小更新都可能引入后门,而原始作者可能几个月都不会发现。这已经不是理论上的可能性,而是已经发生的现实:就在2025年,多个流行的npm包被发现包含加密挖矿脚本,而这些包正是许多AI Agent的依赖项。
更深层的问题在于,AI Agent的信任危机比传统软件更危险。传统软件通常执行预定义的功能,用户对其行为有明确的预期。但AI Agent本质上是自主决策的,这意味着它的行为空间是开放的、不可预测的。一个被污染的Agent可能在你不知情的情况下读取你的文件、发送你的数据、修改你的系统配置。更糟糕的是,由于Agent通常集成LLM,攻击者可以通过注入提示词来操纵Agent的行为,而这种攻击方式在传统软件领域根本不存在。这就像你雇了一个新保姆,但你没有检查她的背景,还给了她你家的所有钥匙——而且这个保姆还可能被一个看不见的陌生人远程催眠。
当然,有人会说,大多数开源AI Agent项目都是小团队甚至个人开发的,他们根本没有资源去建立完善的信任基础设施。这个理由听起来很合理,但实际上是反智的。如果你没有能力保证你的代码是安全的,那么你的项目就不应该被用于任何真实场景。一个连基本签名验证都做不到的项目,本质上就是在要求用户无条件信任你——而这种信任在当前的网络安全环境下是极其奢侈的。更讽刺的是,许多Agent项目在宣传中大肆吹嘘自己的“企业级安全”和“金融级可靠性”,但在信任评分中却在最基础的层面得了零分。这是标准的行业欺诈:用营销话术掩盖技术债务。
与这种混乱形成鲜明对比的是,少数获得高分的项目展示了信任基础设施的可行路径。这些项目不仅实现了SLSA(供应链级别)的构建可复现性,还建立了自动化的依赖扫描和签名验证流水线,甚至引入了外部审计和漏洞奖励计划。这些做法并不需要巨大的成本,只需要开发者把安全性当作核心功能而非可选项。数据显示,这些高信任项目在社区活跃度、Bug修复速度和用户满意度等指标上也显著优于低信任项目,说明安全性和功能性并不矛盾,反而相得益彰。
但问题在于,整个开源AI Agent生态缺乏一个强有力的信任信号机制。在传统软件领域,GitHub的星星数、下载量和社区活跃度是默认的信任代理,但这些指标在Agent领域已经彻底失效。一个项目可能因为华而不实的演示视频获得数万颗星星,但其代码可能充满安全漏洞。另一个项目可能因为开发者诚实标注了安全性不足而无人问津,但实际上它的代码质量远高于前者。这种信息不对称正在导致典型的柠檬市场效应:劣质项目驱逐优质项目,最终整个生态的信任水平不断下降。
改变这种局面需要多方努力。首先,平台方(如GitHub、Hugging Face)应该强制推行基本的信任验证,比如要求所有AI Agent项目必须通过最低标准的供应链安全检查才能获得“已验证”标签。其次,行业协会应该建立统一的信任评分标准,让用户能够像查看餐馆卫生评级一样直观地了解一个Agent项目的安全性。最后,也是最重要的,开发者社区需要建立一种“不信任是美德”的文化,鼓励用户公开质疑项目安全性,而不是盲目追捧。
但最根本的解决方案,可能在于重新定义开源AI Agent的信任模型。传统开源软件依赖“林纳斯定律”(足够多的眼睛让所有Bug变浅),但这个定律在AI领域可能不成立。因为AI Agent的行为不完全是确定性的,其错误模式更加隐蔽和难以复现。我们需要一种新的信任范式,可能结合了形式验证、行为日志审计、以及基于区块链的不可篡改执行记录。这些技术现在看起来有些超前,但考虑到AI Agent正在被部署到医疗诊断、金融交易、自动驾驶等关键领域,这种超前可能是必要的。
回到那个171比3的残酷数字。这不是一个需要被掩盖的尴尬数据,而是一个警钟。整个AI Agent行业正在以惊人的速度前进,但它的安全基础正在被忽视。如果我们继续用功能至上的逻辑来发展这个领域,那么我们迟早会遇到一场灾难性的信任崩溃。届时,不仅会有用户数据泄露的诉讼,更可能导致整个行业被过度监管所窒息。现在开始建立信任基础设施,不是成本,而是投资。而那些不愿意做这种投资的项目,应该被市场淘汰。
参考来源
- I trust-scored 171 open-source AI agents — most can't prove their supply chain - https://www.reddit.com/r/AI_Agents/comments/1tr69he/i_trustscored_171_opensource_ai_agents_most_cant/
- Roommate Got Hit By The Minecraft Mod Hack - https://www.reddit.com/r/computerhelp/comments/1tqmcef/roommate_got_hit_by_the_minecraft_mod_hack/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m