免费 AI 代理的化蝶时刻:当技术聚焦从“做什么”转向“不做什么”,一个新时代的序幕已经拉开
当最强大的 AI 代理不再是那个承诺为你做一切的全能选手,而是那个明确告诉你“我不做这些”的专注者时,我们正在见证一场关于能力本质的认知革命。
核心观点:Hermes Agent Tenacity 的真正价值不在于它免费,而在于它通过故意限制 Agent 的“自由度”,重新定义了 AI 代理的能力边界,这标志着一个从“无所不能的通用助手”到“专注、可控的领域专家”的范式转变正在发生。
在 AI 代理的世界里,我们被长期灌输一个信念:更强大的代理等于更高的自由度,等于更广的应用范围。开发者们像疯狂的科学家一样,不断给他们的 AI 产物添加新技能、新接口、新知识库,仿佛只要功能足够多,就一定能造出一个无所不包的万能助手。但最新涌现的一个项目,正在以极其反直觉的方式挑战这一假设。Hermes Agent Tenacity,这个由某个开源社区孵化的免费 AI 代理更新,其核心价值不在于它新增了什么,而在于它明确拒绝了什么。它通过有意识的自限,只聚焦于“浏览器自动化”这个细分赛道,并且在性能上实现了对那些全能选手的全面超越。这不仅仅是一个产品决策,它指向了一个更深刻的趋势:AI 代理领域的竞争焦点,正在从“能做什么”的广度战争,转向“不做什么”的深度竞赛。
我们曾经嘲笑过那些“多面手”的虚张声势,一个声称能写代码、能写诗、能规划旅行、能管理财务的全能 AI 代理,最终往往连一个简单的任务都做不好。这背后的核心原因在于,真正的专业性必定伴随着排他性。一个试图理解全世界的模型,注定无法深刻理解任何单一领域。Hermes Agent Tenacity 团队显然读懂了这一点。他们选择了一条更难、但也更真实的路:将代理的能力范围精确地锁定在一个足够具体、足够有价值的场景——“自动化浏览器工作流”上。这意味着,他们可以在这个狭小的领域内,进行极致的优化:从内存管理到上下文窗口的裁剪,从执行策略到错误处理机制,一切都在为“用自然语言描述,而无需代码的浏览器指令执行”这个单一目标服务。结果是,它做到了那些通用代理做不到的事:稳定、快速、精确。
这种“减法思维”绝非简单的功能砍掉,它是对整个 AI 应用哲学的一次深刻重估。过去,我们被服务商教导:AI 应该像人一样,什么都会。但这恰恰是技术史上最昂贵的幻觉。人类专家之所以称为专家,正是因为他们知道自己在哪些方面无知。AI 代理的成熟,也必须经历这个“认知降级”的过程——从妄图成为全知全能的上帝,到诚实地承认自己只是一个领域的熟练工。Hermes Agent Tenacity 的案例恰恰印证了这一点:它不提供通用的代码生成,也不提供复杂的对话系统,它只做一件事——让用户用自然语言告诉它“打开那个网站、填这个表单、下载那份报告”,然后毫无差错地执行。这种极端的专注,使得它能够将每一个内部权重都用于优化这个单一任务,从而在用户期望的“确定性”上,远远抛离了那些什么都能做、但什么都做不好的通用代理。
当然,有人会反驳:这种自限是否意味着放弃了更大的市场?毕竟,一个只能做浏览器自动化的代理,和那些能管理整个软件开发生命周期的平台相比,格局小得可怜。这种观点恰恰代表了旧时代的商业逻辑。真正的价值创造不在于覆盖多宽的领域,而在于在某个确定的点上提供无可替代的深度。一个只能做一件事、但做得无可挑剔的代理,远比一个什么都能干、但总是需要你亲自调试和修正的“半成品”更有价值。对于企业用户而言,他们不需要一个能写诗的秘书,他们需要的是一个能每天准时、零差错地处理 1000 份发票的机器人。Hermes Agent Tenacity 正在提供这种确定性。它证明了一件事:AI 代理的终极形态不是模拟人类的全能,而是成为人类最可依赖的、特定领域的“意志延伸”。
这一趋势的萌芽,实际上在更早的技术演进中就已埋下伏笔。回想一下,当大型语言模型(LLM)刚出现时,所有人都在追求“零样本学习”——模型不需要任何额外数据就能做任何事。但很快,人们发现,在现实世界的复杂应用中,最有效的方法往往不是让模型无所不能,而是通过“微调”、“提示工程”和“检索增强生成”等技术,将模型的能力限制在一个特定的任务空间内。Hermes Agent Tenacity 所做的,正是将这种思路从模型层面延伸到了代理层面。它不再满足于让 LLM 作为核心,而是构建了一个完整的、为单一任务优化的执行架构。这个架构里没有冗余的通用模块,每一步都是为“浏览器自动化”量身定做的。它用行动告诉我们:在 AI 代理的世界里,专业化的尽头不是更通用,而是更专用。
这种转变对开发者生态和商业模式的冲击将是深远的。未来的 AI 代理市场,可能不会再是几个巨型通用平台的寡头之争,而是一个由成千上万个“超级专注”的微代理构成的繁荣生态。每一个微代理只解决一个明确的、有边界的痛点,但它们共同构成了一个覆盖各类任务的“能力拼图”。开发者的任务,不再是造一个包罗万象的上帝,而是像工匠一样,去打磨一把解决特定问题的瑞士军刀。Hermes Agent Tenacity 团队的开源精神,更是为这种生态提供了肥沃的土壤——任何人都可以基于它的引擎,去创建属于自己领域的“专注代理”。这或许是整个 AI 代理行业最令人兴奋的未来:不是变得更像人,而是变得更像工具。而工具的价值,从来不在于它有多少功能,而在于它在关键时刻,从不掉链子。
如果把这个判断再往前推一步,真正重要的不是 [Workflow] Integrat…、[Final New Update]:…、Fireside chat at Se… 本身,而是它们共同暴露出的分配逻辑。 reddit、x 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,Hermes Agent Tenacity 的真正价值不在于它免费,而在于它通过故意限制 Agent 的“自由度”,重新定义了 AI 代理的能力边界,这标志着一个从“无所不能的通用助手”到“专注、可控的领域专家”的范式转变正在发生。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。
参考来源
- [Workflow] Integrate Image Generation & Editing into Claude Code with the `/codex-image` Plugin - https://www.reddit.com/r/ClaudeWorkflows/comments/1t9bi2j/workflow_integrate_image_generation_editing_into/
- [Final New Update]: TIFU by importing bees to Uruguay + 4-Year Update - https://www.reddit.com/r/BestofRedditorUpdates/comments/1t9s6kl/final_new_update_tifu_by_importing_bees_to/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m