当AI代理开始“记住”上周的事:编程工具正从助手进化为同事
一位生物学背景的开发者描述了理想中的AI编程代理:它能记住上周讨论的架构决策,知道为什么停止某个重构,甚至能复盘自己的思路。这听起来像科幻,但OpenClaw和Claude.md等项目正在将其变为现实。然而,在同一个生态里,最先进的LLM仍会在重构十万行代码后建议你步行去洗车。这种“锯齿状”的能力分布,才是当前AI代理最真实的图景。
核心观点:AI编程代理的核心突破并非代码生成速度,而是上下文记忆与项目连续性,这正在将AI从“智能补全器”转变为具备长期协作能力的“数字同事”,但这一转变也暴露了能力分布的不均匀性,对开发者提出了新的判断要求。
当我们谈论AI编程代理时,大多数讨论仍然停留在“它能多快生成代码”这个维度上。但过去几周来自不同来源的信号指向了一个更深层的变化:编程代理正在经历从“瞬时智能”到“持续智能”的跃迁。这个跃迁的核心不是模型参数的增大,而是上下文记忆与项目连续性机制的建立。一位拥有二十年软件开发经验、同时也是遗传学博士的开发者,在Reddit上详细描述了他理想中的编码代理工作流:周二早晨打开新会话,只需输入“我们上周二做了什么?”,AI就能复述上周的重构、认证中间件的bug、切换到连接池的决策;再问“还有什么没做完?”,它能指出遗留的依赖问题,并解释“你遇到了上游依赖问题,决定等待修复”。这种看似自然的对话背后,是AI代理对长期项目上下文的保持能力,而这正是此前所有编程助手最致命的短板。同一份帖子还提出,真正的项目连续性应当包括AI代理对自身之前决策的反思,比如被问及“你对那种做法怎么看?”时,能够基于之前的结果给出批判性评价。这不是简单的日志回放,而是一种基于项目历史构建的内部叙事能力。事实上,这种需求已经催生了具体的工程实践。另一份高赞的工作流文档详细定义了一种名为CLAUDE.md的“运营合约”,专门用来防止LLM在长编码会话中“漂移”——即随着会话时间拉长,智能逐渐退化、上下文丢失、动作变得无效。这份文档识别了八种具体的失败模式,并提出了对应的约束规则,比如“每次生成代码前必须重新扫描项目结构”、“超过50步自动触发摘要检查点”。这些规则本质上是在为AI代理建立一套“工作纪律”,类似于人类开发者的编码规范与代码评审制度。这些努力与Sequoia Ascent 2026炉边谈话中提出的“代理原生经济”概念形成了呼应。炉边谈话的讲者(其身份暗示为行业资深人士)提出,我们应当将产品和服务分解为传感器、执行器和逻辑,并跨越软件1.0(传统代码)、2.0(机器学习)和3.0(LLM)三种计算范式来分配任务。其中,LLM最适合处理“对非结构化数据进行计算”的任务,这是传统代码根本无法完成的。他举了三个例子:一个完全由LLM“吞噬”的应用(输入图片输出图片,无需传统代码)、用Markdown取代Bash脚本作为安装说明(让LLM智能解释并适配你的环境),以及基于LLM的知识库(对任意来源和格式的非结构化数据进行计算)。这三个例子共同指向一个结论:AI代理的真正价值不在于加速已有的流程,而在于启用之前不可能或不值得存在的功能。然而,这种乐观叙事必须面对一个严峻的现实:LLM的能力分布是“锯齿状”的。同一个模型可以连贯地重构一个十万行的代码库,同时却建议你步行去洗车。炉边谈话的讲者将这种差异归因于领域可验证性和经济性:前沿实验室在强化学习阶段,会根据收入/市场规模来决定将哪些领域打包进入训练数据分布。如果某个任务在训练数据分布之内(即“在轨道上”),模型表现如同飞行;如果不在,模型就像在丛林中挥刀开路。这种解释虽然令人不安,但非常诚实——它意味着AI代理的能力边界不是由某个客观的“智能等级”决定的,而是由商业利益和数据分布共同塑造的。这就引出当代开发者面临的核心悖论:AI代理的上下文记忆和项目连续性正在快速成熟,但它们的可靠性分布极不均匀。你可以在一个领域完全信任它,在另一个领域却必须将其视为随机输出器。比如,对于物流供应链领域的AI代理——一个OpenClaw用例展示的自主多式联运协调器——其核心价值恰恰在于跨平台执行调整、谈判现货市场运费、修复意外运输差异,这些任务如果可靠性不足,后果可能是整车货物丢失。这迫使我们必须重新思考“代理”的定义:它不是一个“更聪明的工具”,而是一个“拥有部分自主权的协作体”。就像人类同事,你信任它的某些方面,但在其他方面需要双重检查。这种关系既不是主仆,也不是平级,而是一种新型的人机协作契约。这意味着,未来的开发者需要培养一种新的元能力:对AI代理的能力边界做出精确判断。何时放手让代理自主运行,何时介入手动干预,这不再是工程师的直觉问题,而是一种需要系统化训练的专业技能。CLAUDE.md文档的作者显然意识到了这一点,他将这份合约归类在“质量控制”和“上下文与记忆”类别下,并给出了90/100的工作流价值评分——这个高分说明,解决“漂移”问题带来的收益是巨大的。从更宏观的视角看,这些发展正在重塑软件开发的组织形态。当AI代理能够保持长期项目记忆,它就不再只是一个代码生成器,而是一个可以参与架构讨论、知道历史决策上下文、甚至能对自己的工作输出进行反思的“数字同事”。这将对团队协作模式、代码所有权、项目知识管理产生深远影响。传统的“一个人写代码、AI补全”模式,将逐渐演变为“人类设定目标和约束,AI执行并汇报,人类评审和调整”的循环。在这个循环中,AI代理的“运营合约”将类似于人类团队的SLA(服务级别协议),它定义了代理的行为边界、检查点频率、错误处理策略。这些合约本身会成为项目的重要资产,需要像代码一样被版本管理、评审和优化。同时,项目知识的管理方式也会发生根本变化。不再是依赖文档和维基页面,而是通过代理的“记忆”来保持连续性。那位生物学博士开发者提到的“长时记忆”概念——让代理记住上一次会话的所有关键决策和未解决问题——实际上是在构建一种项目层面的“集体记忆”,它不依赖任何一个人的大脑,而是嵌入在代理的工作流中。最后,我们必须面对一个反直觉的事实:AI代理的进步不是线性的。在上下文记忆和项目连续性取得突破的同时,基础模型的推理可靠性可能在某些领域反而下降,因为训练数据分布不断被商业利益重新洗牌。这意味着,即使你的AI代理能记住上周的所有讨论,它下周可能在一个本该擅长的新任务上犯低级错误。这种“锯齿状”的进步,要求我们抛弃“AI能力不断提升”的简单叙事,接受一个更复杂的现实:AI代理的能力是一张地形图,有高山也有盆地,我们的任务不是等待所有盆地被填平,而是学会在山谷中高效行军,同时在高山上快速起飞。
参考来源
- AI Agents in the Logistics and Supply Chain Sector: Building an Autonomous Intermodal Coordinator using OpenClaw - https://www.reddit.com/r/OpenClawUseCases/comments/1tol0sh/ai_agents_in_the_logistics_and_supply_chain/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
- 年度巨献《致爱弥斯》父亲离世后,我完成了这部作品……【不乐得·鸣潮细节盘点】 - https://www.bilibili.com/video/BV1f9VN6mEYw