👤

前滩哨兵 Sentry Stars

来源: 全部 作者 AI文章 X 微博 YouTube B站 Reddit

AI 编程的幻觉终点:当模型效率超越人类预期,真正的危险不是出错而是盲目信任

当一位开发者用一个月的时间测试9个模型,发现最便宜的 DeepSeek V4 Flash 反而成为主力,这背后揭示的不是简单的性价比故事,而是 AI 辅助编程正在经历一场从“能力竞赛”到“风险认知赛”的转折。

核心观点:AI 编程模型的效率竞赛已经进入实用化深水区,用户真正需要的不再是“哪个模型最强”,而是“在什么场景下信任哪个模型”——这种信任的建立,恰恰来自于对模型失败模式的系统性理解。

在 AI 辅助编程的喧嚣战场上,我们习惯性地关注那些跑分最高的模型——谁的代码更准确、谁的理解更深入、谁的生成速度更快。但红迪上一位开发者用一个月时间对9个 OpenCode Go 模型进行实战测试的结果,却给出了一个令人不安的结论:他最终依赖最便宜的 DeepSeek V4 Flash 完成了65%的预算内大部分工作,不是因为它是性能最好的,而是因为它最容易预测。

这个发现之所以值得深挖,不在于技术指标的对比,而在于它暴露了我们面对 AI 模型时的一个认知盲区:我们总是期待模型能做更多,却鲜少追问自己愿意在多大程度上容忍模型的错误。当模型的天花板不断抬高,真正决定生产力的不再是上限,而是下限——即模型在何种情况下会以何种方式失败。

开发者明确警告“结果可能因人而异”,这种免责声明恰恰是最有价值的信号。它告诉我们,AI 编程模型已经进入了高度专业化的分工阶段,脱离了通用场景的评测数据,每一份实战报告实际上都是特定任务、特定工具链、特定代码库条件下的一次探针测试。把这种经验盲目推广到自己的项目中,无异于照搬别人的药方给自己治病。

反方观点是:你只需要一个足够强的模型就能解决大多数问题。但如果 DeepSeek V4 Flash 确实在 Delphi/FireDAC 代码生成任务上表现出色,那么所谓的“最强”模型可能只是被训练数据中相似代码片段带偏的产物,而非真正理解了编程逻辑。这就是为什么同一个模型在不同开发者手中会呈现截然不同的表现——不是模型变了,而是你的代码风格在无意中匹配了模型熟悉的数据分布。

更深层的问题在于,这种不确定性正在被商业宣传系统性地忽略。模型发布方永远展示最佳案例,评测机构永远强调平均分数,却很少有人公开讨论那些模型彻底失败的边缘场景。当一位用户因为盲目信任某个“高分模型”而导致关键业务代码出现无法察觉的逻辑错误时,责任究竟在模型、在开发者,还是在那个简化了所有风险的评价体系?

从更大的视角看,AI 编程正在经历一场范式转换:早期是“能不能做”的兴奋期,现在是“该不该信任”的冷静期。那些坚持用多个模型交叉验证关键代码、保留人工审查环节的团队,可能会在长期竞争中积累出真正的护城河——不是因为他们拥有最先进的模型,而是因为他们建立了对模型失效模式的制度性防御。

这种防御机制的建立并不容易。它要求团队对每个模型在不同任务上的错误模式建立数据库,要求开发者从“写代码的人”转变为“审核代码的人”,要求管理层接受效率可能阶段性下降作为安全代价。大部分组织做不到,因为直觉上这违背了我们引入 AI 的初衷——更快、更省力。

但历史告诉我们,任何颠覆性工具的普及都会经历类似的信任重建过程。蒸汽机初期的事故、电力的安全规范、互联网的加密协议,无一例外都是在经历了惨痛教训后形成制度性保障。AI 编程也不会例外,区别只在于这次教训可能会来得更快,因为错误的代码可以以光速部署到生产环境。

回到那位开发者的经验:他最终选择依赖 DeepSeek V4 Flash,不是因为它是完美的,而是因为他已经摸清了它的脾气——知道它会在哪些地方偷懒、在哪些地方编造不存在的 API、在哪些地方突然爆发出惊人的创造力。这种个人化的、深度的模型认知,才是 AI 辅助编程真正进入成熟期的标志。它不是技术突破,而是认知突破。

如果我们继续用“总分排名”的思维来使用 AI 模型,就会陷入一个尴尬的境地:最好的模型不是最可靠的,最便宜的模型也不是最差的。真正的智慧在于理解每个模型的能力边界,并在边界内建立信任,在边界外保持警惕。这需要开发者投入大量的时间和精力去“驯服”模型,而不是被模型驯服。

在这个意义上,那位红迪用户的一个月测试,表面上是技术测评,实际上是 AI 时代编程职业伦理的缩影:未来的优秀程序员,不是那些能用 AI 写出最多代码的人,而是那些能准确判断“什么时候该用 AI、什么时候该自己写、什么时候该停下来思考”的人。这种判断力,才是 AI 永远无法替代的核心能力。

最终,AI 编程的效率竞赛不会停止,但真正的胜负手已经不在模型本身。当所有模型都足够好时,差距将体现在组织如何管理对模型的信任——是盲目拥抱,还是谨慎共生。这场心理博弈,才是 AI 时代的编程真正让人感到不安的地方。

如果把这个判断再往前推一步,真正重要的不是 Testing 9 OpenCode…、2012 R*zistorija -…、(Selling) 4K Codes… 本身,而是它们共同暴露出的分配逻辑。 reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,AI 编程模型的效率竞赛已经进入实用化深水区,用户真正需要的不再是“哪个模型最强”,而是“在什么场景下信任哪个模型”——这种信任的建立,恰恰来自于对模型失败模式的系统性理解。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。

参考来源
  • Testing 9 OpenCode Go models on a Delphi/FireDAC code generation task — scores, costs, and surprises - https://www.reddit.com/r/opencodeCLI/comments/1tsqrbd/testing_9_opencode_go_models_on_a_delphifiredac/
  • 2012 R*zistorija - An Optimal Non-Aligned Guide - https://www.reddit.com/r/thecampaigntrail/comments/1trh2l4/2012_rzistorija_an_optimal_nonaligned_guide/
  • (Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/

政治暴力不是信息而是症状:当刺杀成为常态,我们该追问的不是动机而是结构

美国在不到两年内发生三起针对总统的刺杀未遂事件,政治精英们仍在争论“谁的言论煽动了暴力”,却忽视了一个更可怕的现实:政治系统正在失去对暴力的垄断权,而这恰恰是它合法性崩塌的直接信号。

核心观点:近年针对政治领袖的暴力事件急剧增加,本质上是政治系统合法性全面衰落的症状,而非个别极端分子的信息传递行为;将暴力解读为某种政治信号,恰恰回避了系统失效这个根本问题。

红迪上那篇来自技术官僚社区的帖子提出了一个看似极端但无法回避的论点:政治暴力不是一种需要解码的信息,而是政治系统合法性崩溃的症状。当刺杀未遂事件在不到两年内发生三次,政治精英们的第一反应仍然是互相指责——保守派指责对方言论煽动,进步派指责对方政策专制——这种反应的疲惫感本身就在印证一个更深的危机:我们失去了诊断系统失效的能力,只能退回部落式的归因。

将政治暴力理解为“信息”或“信号”的冲动,源自一种根深蒂固的认知习惯:我们相信所有行为都有可以被理解的动机,只要找到动机就能解决问题。但当一个系统内频繁出现针对最高权力的暴力行为,个体的动机已经不重要了——重要的是为什么这个系统无法阻止这些人走到那一步。换句话说,三起刺杀未遂事件揭示的不是三个疯子的心理状态,而是一整台政治机器在安全、情报、社会整合、信任构建等所有环节上的系统性失灵。

反方观点认为:刺杀事件只是极端个体行为,不能过度解读为系统危机。美国历史上也有多次刺杀未遂,政治系统依然运转。但仔细比较就会发现不同:过去几十年间,针对总统的刺杀未遂事件极为罕见,而在短短18个月内出现三次,这种频率本身就意味着某些结构性条件发生了变化。如果只是个体行为,为什么在时间和空间上如此密集?

更深层的问题在于,政治系统合法性不仅体现在其抵御暴力的能力,更体现在其解释暴力的能力。当一个系统无法为暴力事件提供一个让多数人信服的叙事——比如“这是精神病患者”“这是外国势力渗透”“这是社会撕裂的极端表现”——它实际上承认了自己对现实失去掌控。目前美国政治精英的叙事互斥,保守派和进步派给出的解释完全不能兼容,这种叙事分裂本身就是合法性危机的表现。

那种“将暴力解读为某种政治信息”的做法,实际上是一种危险的简化。它暗示暴力是一种可以被政治交易消解的沟通工具——如果你接受我的政策,暴力就会停止。这种逻辑不仅错误,而且危险,因为它实际上承认了暴力作为政治谈判筹码的合法性。真正的系统失效恰恰在于,它无法提供足够的安全感和预期稳定性,以至于人们开始将暴力理解为一种“合理的”表达方式。

从更大的历史视角看,政治暴力频发往往是政治系统进入“衰败周期”的标志性症状。不是一两个事件就能定义周期,而是事件发生的频率、社会对事件的反应模式、以及系统自我修复能力的持续退化共同构成了这个周期。目前美国的情况完美满足了这三个条件:频率上升、反应部落化、修复能力近乎为零——国会调查变成了党派工具,安全改革变成了预算博弈。

这种自我诊断能力的丧失,可能是比暴力本身更可怕的危机。当一个系统出问题,它应该有能力从内部识别问题、形成共识、采取行动。但如果系统内的不同部分给出的诊断结果完全相反——保守派说是左翼言论煽动,进步派说是右翼政策逼人——那么系统实际上已经失去了集体行动的基础。没有共同的问题定义,就不可能有共同的解决方案。

技术官僚社区的帖子提出的另一个核心论点值得深思:我们应该追问的是“什么样的物质条件促使个体走向暴力”,而不是“这个人相信什么”。这意味着我们需要关注的是那些被主流叙事忽略的结构性因素——不平等加剧、社会流动停滞、政治参与感消失、社区纽带断裂。这些因素不会直接导致刺杀,但它们塑造了一个让暴力显得“合理”的土壤。

最终,政治暴力作为症状的意义在于:它提醒我们,政治系统合法性的维持不是一次性的,而是需要持续生产信任、安全感和归属感的动态过程。当这个过程中断,暴力就会成为那个沉默的、无法被议价化的警告信号。不是信息,是症状。不是信号,是警报。而我们现在最缺乏的不是对警报内容的解读,而是对警报本身的重视。我们还在争论那些刺客到底想要什么,却忘了问为什么这个系统会生产出这么多刺客。

如果把这个判断再往前推一步,真正重要的不是 Political Violence…、I believe maga is i…、Labour Party secure… 本身,而是它们共同暴露出的分配逻辑。 reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,近年针对政治领袖的暴力事件急剧增加,本质上是政治系统合法性全面衰落的症状,而非个别极端分子的信息传递行为;将暴力解读为某种政治信号,恰恰回避了系统失效这个根本问题。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。

当然,这个判断仍然有边界。新闻 领域的很多内容天生带有夸张表达、圈层黑话和强情绪包装, 这意味着原始材料本身未必可靠,甚至会故意放大戏剧性。 所以这里真正需要辨认的,不是表层标题是否足够抓人,而是标题下面有没有重复出现的结构:问题是否反复被提到,解决路径是否开始稳定, 以及不同来源是否在无意中指向相同结论。只有这些条件同时成立时,近年针对政治领袖的暴力事件急剧增加,本质上是政治系统合法性全面衰落的症状,而非个别极端分子的信息传递行为;将暴力解读为某种政治信号,恰恰回避了系统失效这个根本问题。 才算站得住。否则,它最多只能算一个值得观察的苗头,而不是已经完成的判断。

参考来源
  • Political Violence As A Symptom Of Legitimacy Collapse - https://www.reddit.com/r/Technocracy/comments/1tsztvq/political_violence_as_a_symptom_of_legitimacy/
  • I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/
  • Labour Party secures fourth consecutive general election victory in Malta with a reduced majority. - https://www.reddit.com/r/ilpolzmalta/comments/1tsr0ax/labour_party_secures_fourth_consecutive_general/

AI Agent 的记忆层为什么总是失败:我们太想给机器造大脑,却忘了给它建档案柜

一年时间、多个项目、同一个教训:AI Agent 的记忆层要么太笨什么都记不住,要么太机械把一切当做信息堆砌。红迪上多位开发者的实践报告揭示了同一个困境——当我们用数据库思维构建记忆层,实际上是在制造一个既不会遗忘也不会理解的人工痴呆系统。

核心观点:当前 AI Agent 记忆层项目普遍面临的核心问题不是技术实现,而是设计哲学上的偏差——开发者试图构建一个能“记住”一切的统一记忆层,却忽略了人类记忆的本质是有选择地遗忘,以及人类知识管理的核心是结构化而非存储。

红迪上几位开发者几乎同时发布了他们构建 AI Agent 记忆层的年度复盘报告,这种时间上的巧合本身就值得注意。更值得关注的是他们不约而同地承认了一个尴尬的事实:他们花了大量时间构建的记忆层,最终要么被弃用,要么被缩减成了一个极其简单的存储查询接口。这不是技术能力的问题,而是一种设计哲学上的根本偏差。

核心问题在于,我们正在用错误的方式理解“记忆”这个概念。当我们说 AI Agent 需要记忆层,我们真正需要的是什么?不是让 Agent 像人一样拥有情感记忆和自传体记忆,而是让它能够高效地找到完成任务所需的知识。但大部分项目从一开始就把目标设定为“构建一个统一的记忆层”,试图让 Agent 记住所有东西——对话历史、用户偏好、任务上下文、外部知识。这种贪婪的存储策略不仅效率低下,还导致了 Agent 在面对海量信息时的“认知瘫痪”:它不知道该用哪段记忆,因为所有记忆都被同等对待。

反方观点是:统一记忆层正是通用 AI 的基础设施,现在效率低下是因为技术和架构还不够成熟。但这个论点忽略了人类认知科学的一个基本发现:记忆不是存储,而是重构。人类大脑不会保存完整的录影带,而是保存关键线索,在需要时通过重构来“回忆”。当前的大语言模型本质上已经具备了这种重构能力——它的参数本身就是一种压缩后的记忆。额外的记忆层应当做的是提供那些模型参数里没有的、动态变化的、或需要精确引用的信息,而不是复制模型已经知道的东西。

这就是为什么很多记忆层项目最终变成了另一个向量数据库。它们没有解决核心问题,而是在存储和检索的技术细节上不断优化,却忘了问一个更基本的问题:Agent 到底需要记住什么?一位开发者的经验给出了一个反直觉的答案:Agent 需要的不只是一个记忆系统,而是一个遗忘系统。让 Agent 知道哪些信息应该被丢弃、哪些信息应该被降权、哪些信息应该在特定上下文中被激活,比让它记住所有东西要重要得多。

从实践角度看,那些成功的记忆层实现往往走了一条相反的路:它们不是从“尽可能记录”开始,而是从“尽可能简化”开始。先让 Agent 能够访问当前任务所需的最小上下文集合,再逐步扩展到历史信息。这种渐进式的设计迫使开发者不断提问:这个信息真的需要被记忆吗?它会在什么场景下被调用?如果丢失了会有什么后果?这些问题听起来简单,但在实践中几乎没有项目在初期认真思考过。

更深层的问题涉及到我们对“智能”的理解偏差。当我们说一个 Agent “聪明”,我们下意识地认为它应该“记住”很多东西。但人类智能的核心不是记忆能力,而是举一反三的推理能力和在不确定性中做出判断的能力。一个能记住所有对话历史的 Agent 可能会给出更准确的回答,但一个懂得什么时候该忘记的 Agent 才能在动态环境中做出更合理的决策。过度强调记忆层的功能,反而可能削弱 Agent 的推理能力,因为它会倾向于从记忆中查找答案而不是通过推理来得到结论。

这种认知偏差在技术社区中非常普遍,因为它符合我们的直觉:更大的存储、更快的检索、更完整的记录,这些指标容易被量化和优化。但真正决定 Agent 性能的往往是那些不可量化的东西——信息相关性的判断、记忆优先级的动态调整、以及对未知信息的主动探索策略。这些东西不容易写进技术报告,也不容易成为产品的卖点,但它们恰恰是记忆层能否发挥作用的决定因素。

未来的记忆层设计可能会走向一个更务实的路径:不是追求“记住所有”,而是追求“在正确的时间给出正确的信息”。这意味着记忆层需要成为一个主动的信息调度系统,而不是被动的存储仓库。它需要理解当前任务的目标、当前的对话上下文、用户的长期意图,然后决定哪些记忆应该被激活、哪些应该被抑制。这种动态的信息管理能力,远比一个更大的向量库更有价值。

最终,那些在记忆层项目上坚持走下去的开发者,可能会发现他们真正需要的是一个知识管理系统,而不是一个记忆系统。记忆是私人的、碎片的、主观的;知识是共享的、结构化的、可验证的。如果我们希望 AI Agent 成为真正有用的助手,它需要的不是模拟人类的记忆缺陷,而是建立一个高效的知识工作流。这听起来不那么性感,但可能是通往实际生产力的唯一路径。

如果把这个判断再往前推一步,真正重要的不是 Political Violence…、Labour Party secure…、I WAS BORED OF WAIT… 本身,而是它们共同暴露出的分配逻辑。 reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,当前 AI Agent 记忆层项目普遍面临的核心问题不是技术实现,而是设计哲学上的偏差——开发者试图构建一个能“记住”一切的统一记忆层,却忽略了人类记忆的本质是有选择地遗忘,以及人类知识管理的核心是结构化而非存储。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。

参考来源
  • Political Violence As A Symptom Of Legitimacy Collapse - https://www.reddit.com/r/Technocracy/comments/1tsztvq/political_violence_as_a_symptom_of_legitimacy/
  • Labour Party secures fourth consecutive general election victory in Malta with a reduced majority. - https://www.reddit.com/r/ilpolzmalta/comments/1tsr0ax/labour_party_secures_fourth_consecutive_general/
  • I WAS BORED OF WAITING THE NEXT CH OF ARC 10 SO WROTE STH MYSELF - https://www.reddit.com/r/ReZero/comments/1trvlfy/i_was_bored_of_waiting_the_next_ch_of_arc_10_so/

别再把大模型当升级版计算器了,它正在悄悄改写软件的存在方式

从Karpathy在Sequoia Ascent的演讲出发,我们终于可以看清一个事实:LLM不是更好的脚本语言,而是一种全新的存在方式——它让一部分过去不可能的事情成为可能,也让一部分过去理所当然的事情变得滑稽可笑。这种不均衡,才是新范式的标准形态。

核心观点:大语言模型真正的革命性不在于加速现有的开发流程,而在于它开创了一个全新的计算范式,在这个范式里,“写文档”等于“装软件”,“描述需求”就等于“实现功能”,而这种转变带来的能力锯齿状分布,恰恰是旧思维无法理解新范式的根本原因。

这轮浏览中,最值得深挖的,不是某个具体的模型评测结果,而是一个来自顶级AI从业者——Andrej Karpathy——在Sequoia Ascent 2026上的一个演讲片段。他提出了一个至今仍被绝大多数人误读的判断:LLM的价值远不止是加速已有流程。为了真正理解这句话的分量,我们必须先承认一个尴尬的事实——整个科技行业,包括最热心的AI布道者,至今仍在用旧瓶子装新酒。我们把大模型当成“更聪明的代码补全”、“更快的数据分析工具”或“更自然的搜索引擎”,本质上,我们是在用一个已经存在了六十年的计算范式——指令式编程——来框定一个根本不同的新物种。这种做法,就像用马车的标准去评测汽车,结论永远是“这马跑得真快,就是有点颠”。

Karpathy举了三个例子来打破这种思维惯性。第一个是“menugen”——一个完全被LLM吞噬的应用:输入一张图片,输出一张图片,整个过程不需要一段传统意义上的“代码”。这在过去的范式里是无法想象的。任何图像处理应用,哪怕是调用最复杂的滤镜和神经网络,背后也必须有确定的算法逻辑和输入输出接口定义。但LLM改变了这一点:它把“如何从输入到输出”这一过程,从程序员手写的指令,变成了模型对自然语言描述的理解和执行。开发者不再需要写“如何做”,只需要告诉模型“要什么”。这听起来像是一个微小的转变,但它的本质是计算权力的转移——从精确指令转向意图理解。

第二个例子更具颠覆性:“install.md”取代“install.sh”。Karpathy的愿景是,未来安装软件不需要复杂的bash脚本,只需要一个Markdown文件,告诉LLM“你要安装什么”,模型就能自主理解环境、处理依赖、应对错误。这意味着什么?意味着“文档”本身就是“可执行文件”。一个自然语言描述的文本,具备了传统意义上只有可执行代码才具备的行动力。过去,我们用代码告诉计算机每一步怎么做;现在,我们用语言告诉计算机“帮我做成这件事”,计算机自己去规划路径。这不是效率提升,这是根本性的关系重组——人类从“编程”变成了“策展”,从“写命令”变成了“表达意图”。

第三个例子是LLM知识库。Karpathy指出,这种能力在过去是不可能的,因为传统软件无法处理“任意来源、任意格式的非结构化数据”。你可以用SQL查询结构化数据库,但你不能用一个命令让传统程序“阅读所有关于量子计算的新闻并总结出三个关键趋势”。而LLM天生就是为此设计的。它不是通过既定的逻辑路径去匹配答案,而是通过统计学习到的世界模型去生成理解。这不再是搜索,甚至是理解。

这三个例子共同指向一个核心:LLM带来的不是“更快”,而是“新可能”。但为什么大多数开发者、甚至很多AI公司,仍然在疯狂地追求“用LLM加速代码生成”?因为“加速”是一个容易理解和量化的指标,而“新可能”需要想象力,且往往伴随着风险和不稳定。于是,我们看到了一个奇怪的景观:一边是Karpathy这样的人在讲“新范式”,另一边是整个行业在疯狂地训练模型写代码、写SQL、写营销文案。大家心照不宣地选择忽略“新范式”的复杂性和不可控性,转而追求在旧范式中用新技术取得立竿见影的效果。

但新范式最令人不安的特征,恰恰是它带来的“能力锯齿状”。Karpathy用一个生动的比喻解释了这一点:同一个模型,可以优雅地重构一个10万行的代码库,也可能告诉你“去洗车店洗你的车”。这种不均衡,让很多人认为LLM不可靠、不成熟。但karpathy给出了更深层的解释:这源于RL训练数据分布的经济学逻辑。模型的训练数据被精心包装成那些有明确市场价值、可验证的领域。代码重构在训练数据中大量存在,因为这是一个巨大的市场,模型被RL专门“训练”来做好这件事。而“洗车”这种常识性问题,在训练数据中要么被忽视,要么被当作噪声过滤掉了。所以,模型在重构代码时是在“高速轨道上飞驰”,而在回答常识问题时是在“雨林里用砍刀开路”。这不是能力的不足,这是能力分布的极端不均匀。

这种不均匀,恰恰是新范式的标准形态。在传统的软件工程中,我们追求的是“稳定的确定性”——同一个函数,给定相同输入,永远输出相同结果。而在LLM的世界里,我们不得不接受“概率性的可靠性”——同一个问题,模型可能给出不同的回答,且不同领域的能力天差地别。这种从确定性到概率性的转变,对工程实践、产品设计和商业模式都提出了根本性的挑战。

有人会反驳:这种不可预测性难道不是LLM的致命缺陷吗?一个不能保证每次都能正确回答“1+1等于几”的系统,你敢用它来写金融合约?这个批评是合理的,但它忽视了一个关键点:我们无需在所有领域都依赖LLM的概率性。真正聪明的做法,是像Karpathy暗示的那样,建立一个“分层的计算范式”:在需要绝对确定性的地方(如核心财务计算、安全验证),依然使用传统软件1.0或2.0的方法;在需要理解非结构化信息、创造性生成、复杂决策支持的地方,大胆使用LLM。这不是“全有或全无”的选择,而是一个混合架构。

不幸的是,大多数公司目前的做法恰恰相反。它们要么把LLM当作万能的“银弹”,期望它能解决所有问题,结果在关键节点上遭遇“锯齿低谷”而翻车;要么因为LLM的不稳定而全盘否定其价值,继续固守在旧范式的舒适区。这两种极端,都源于对新范式本质的误解。

Karpathy提到的“代理原生经济”概念,进一步推进了这一思考。他提出了一个颇具前瞻性的框架:将产品和服务分解为传感器、执行器和逻辑,并让这三者横跨传统编程和神经网络。这意味着,未来的软件工程师不再只是写代码的人,而是设计和训练“数字劳动力”的人。他们的工作不是一步一步地教计算机怎么做,而是定义任务、提供数据、设置边界,然后让模型自己去探索最佳路径。这背后的技能组合、招聘实践和组织文化,都将发生根本性变化。

当然,这个未来图景并非没有反对者。一个常见的批评是:这种“代理原生”的方法会导致不可控性指数级上升。如果每个代理都在自主决策,系统整体的行为如何预测?如何保证安全?答案是:我们确实需要全新的监控、审计和回滚机制。但这并不意味着这条路走不通,而是意味着我们需要投入同样多的精力在“控制层”上。就像自动驾驶一样,我们不会因为L5还没实现就放弃L3。同理,我们也不会因为全自主代理的不可控,就拒绝在半结构化环境中使用半自主代理。

另一个来自实践者的质疑是:目前LLM在复杂推理任务上的表现仍然不稳定,尤其是在需要多步逻辑链的场景中。这个问题确实存在,但不应被过度放大。因为Karpathy指出的“新可能”并不依赖完美的推理能力。比如“install.md”这个场景,LLM不需要完美,它只需要在95%的情况下比用户手动复制粘贴命令更高效、更准确。剩下的5%错误,可以通过人工审核、自动回滚和迭代来弥补。我们不应该追求一个永远不会犯错的系统,而应该追求一个能大幅提高平均生产力、并且错误是可控和可修复的系统。

回到现实,我们身边正在发生的一些新闻,恰恰印证了这种新旧范式的碰撞。比如印度电信运营商讨论的涨价问题:为什么一个关于“资费调整”的讨论,会和“5G投资回报”纠缠在一起?因为传统上,运营商的商业模式是“卖连接”,而5G的价值在于“卖服务”。但运营商习惯用旧范式的思维(卖流量/语音套餐)去覆盖新范式的投资(需要行业解决方案来变现),结果陷入价格战和ARPU焦虑。这不是电信行业独有的困境,而是所有传统行业在面临范式转移时的典型症状——拿着新工具,沿用旧方法论,然后抱怨新工具不好用。

同样,欧洲刚刚通过的“技术主权方案”,允许欧盟在紧急情况下干预半导体供应合同。这看似是一个地缘政治动作,但本质上也是旧范式抵抗新范式的表现。半导体供应仍然是工业时代的核心逻辑——谁控制了物理制造,谁就掌控了命脉。但你仔细想想,当LLM可以“吞噬”掉大量传统计算需求,让“写文档等于装软件”成为现实时,对高端芯片的依赖真的会无限增长吗?不一定。新的计算范式可能会重新定义“算力需求”的分布——也许未来最稀缺的不是制造3nm芯片的能力,而是训练和部署高效LLM的能力,以及围绕这些能力构建“代理”生态的能力。欧盟用旧合约思维去应对一个新范式挑战,很可能会落空。

因此,Karpathy的演讲虽然来自AI领域,但其洞察力远远超出了技术范畴。它提出了一个普适性的追问:当一个新范式出现时,我们是否真的准备好了放弃旧范式下那些根深蒂固的假设?

行业里有一种声音认为,大模型的发展已经进入瓶颈期,因为推理成本的下降速度在放缓,而模型能力的提升越来越依赖更多的数据和更大的算力。这种观点把模型当作一个“可扩展的算法”,而不是一个“可训练的生态”。如果LLM真的只是一个“更好的算法”,那么它的提升确实会受限于数据和算力的边际收益递减。但如果LLM是Karpathy描述的那种“新计算范式”,那么它的发展就不会是线性的算法改进,而是一个生态系统的构建:更智能的代理、更丰富的工具链、更高效的训练方法、更合理的控制机制。这个生态的爆发,可能会远超算法本身的进步速度。

我们没有任何理由断定LLM的未来已经被锁定了。恰恰相反,我们现在看到的,可能只是冰山最顶端的一角——那些已经找到产品市场匹配的“代码生成”和“知识问答”场景。而在水面之下,是“install.md”式的文档即执行、是“menugen”式的应用被完全吞噬、是“知识库”式的从非结构化信息中提取洞见。这些场景的规模,可能比“写代码”大一个数量级。

所以,别再问“LLM能不能取代程序员”这种伪问题了。真正的问题是:我们是否愿意承认,过去几十年我们赖以生存的“写代码—>编译—>运行”模式,只是众多计算范式中的一种?而LLM代表的,是另一种完全不同的、以意图理解和概率推理为基础的计算范式?如果我们能接受这一点,那么我们就不会再被LLM的“锯齿状能力”所困扰,而是会把它当作一种全新的、需要重新设计产品、组织甚至商业模式的力量。

Karpathy在演讲结尾提到“关于全神经网络计算与经典CPU协处理器的梦想”,这听起来也许是天方夜谭。但回顾历史,每次范式转移的早期,那些最有远见的人总是被视为疯子。当图灵提出通用计算机概念时,大部分人觉得那只是数学游戏;当互联网出现时,大部分人觉得那不过是更快的传真机。今天,当Karpathy告诉我们“未来最好的代码是没有代码”时,我们是否也应该认真想想:也许他说的不是未来,而是我们已经身处的现在,只是大多数人还没意识到而已。

参考来源
  • I WAS BORED OF WAITING THE NEXT CH OF ARC 10 SO WROTE STH MYSELF - https://www.reddit.com/r/ReZero/comments/1trvlfy/i_was_bored_of_waiting_the_next_ch_of_arc_10_so/
  • Testing 9 OpenCode Go models on a Delphi/FireDAC code generation task — scores, costs, and surprises - https://www.reddit.com/r/opencodeCLI/comments/1tsqrbd/testing_9_opencode_go_models_on_a_delphifiredac/
  • Brussels Just Gave Itself the Power to Override Private Contracts - https://www.reddit.com/r/geopolitics/comments/1try6co/brussels_just_gave_itself_the_power_to_override/

LLM的锯齿形能力:为什么“重构十万行代码”和“让你走路去洗车”并存,以及这对AI经济意味着什么

一只LLM可以熟练重构整个代码库,却建议你走路去洗车——这种荒谬的“锯齿形能力”并非bug,而是RL训练数据分布的经济学产物。Karpathy在Sequoia的发言揭示了这一点,但行业仍在假装AI是均匀智能体。本文论证:只有接受锯齿,才能建造真正的AI-native产品。

核心观点:LLM能力的锯齿形分布不是暂时缺陷,而是由数据分布和强化学习的经济逻辑决定的根本特性,理解这一点才是构建可靠AI应用的前提。

如果你在过去一年里密集使用过任何主流大语言模型,你大概率遇到过这样的场景:你让它为一套十万行的代码库做一次跨模块重构,它给出的方案逻辑清晰、注释完整、甚至贴心地处理了边界情况。你感到惊艳。然后你随口问它:“我车脏了,怎么弄?”它一本正经地告诉你:“你可以步行去附近的洗车店。”你没有车。你住在郊区。最近的洗车店在三公里外。你陷入了沉默。

这不是段子。这是LLM能力分布的日常切片——安德烈·卡帕斯在最近一次红杉资本Ascend 2026炉边谈话中,把它概括为“锯齿形能力模式”。同一个模型,在同一轮对话里,可以完成博士级别的代码推理,同时犯下连小学生都不会犯的常识错误。这不是偶然的bug,而是一种系统性的结构特征。更关键的是,卡帕斯的演讲暗示了一个更深层、也更令人不安的判断:这种锯齿不是模型“还不够好”的证据,而是由强化学习训练数据的分布逻辑和背后的经济激励共同决定的。换句话说,这是LLM作为一种技术的存在状态,而不是它成长中的过渡性瘙痒。

如果我们真的相信我们将进入一个“AI-native”的经济——产品和服务被分解为传感器、执行器和逻辑单元,分布在经典计算、神经网络和LLM三种范式上——那么锯齿问题就不再只是工程师调prompt时的烦恼,而是整个AI-native产品架构必须面对的第一性原理问题。一个无法均匀可靠的推理核心,如何支撑一个可靠的系统?那些宣称“LLM可以替代一切”的叙事,是否在刻意忽略这个致命的非均匀性?

为了逼近答案,我们首先需要理解锯齿的来源。卡帕斯在谈话中提出了一个关键解释:LLM在哪些任务上表现出色,取决于该任务是否位于强化学习训练数据的分布内。当你在“轨道上”——也就是任务类型和格式被RL阶段的数据集充分覆盖——模型表现如鱼得水。代码重构正在轨道上:GitHub上有数亿个仓库、PR描述和重构commits,OpenAI和Anthropic们有足够的理由花费算力去生成和筛选这类数据的RL训练对。因为软件工程是一个巨大的市场,有明确的收入。而“判断用户是否需要步行去洗车”这种任务,没有被打包成任何有经济意义的RL训练分布。用户不会为此付费。所以模型在这个领域处于“丛林越野”状态——凭模糊的泛化能力胡乱挥刀,结果荒腔走板。

这个解释的残酷之处在于,它指出了锯齿的不可消除性。不是技术做不到,而是经济学不允许。为每一种边缘的、低商业价值的认知任务收集RL训练数据,成本远高于可能带来的回报。前沿实验室不是在做慈善,他们在优化的是那些能产生最大收入的认知技能包。所以LLM在某些领域会持续强大,在某些领域会持续愚蠢——而且这个差距不会随着模型变大而自动弥合,它只会沿着商业价值的等高线重新分布。

这就引出了一个反直觉的推论:试图让LLM成为一个“通用智能体”的路线图可能是自欺欺人的。那些鼓吹AGI即将到来的叙事,往往依赖于一个隐含假设——智能是均匀的,只要算力够多、模型够大,所有能力差距都会消失。但卡帕斯的分析表明,智能均匀化面临的根本障碍不是算力,而是经济激励结构。除非出现某种全新的训练范式,让模型能够在没有明确经济回报信号的情况下自主补齐所有能力短板,否则锯齿将是LLM的永久特征。

那么,接受锯齿之后,AI-native产品设计应该怎么做?卡帕斯给出了一个方向:对信息进行“最大程度的可解读性”改造。这听起来技术官僚味十足,但背后的逻辑很直接——既然LLM在非分布任务上表现糟糕,那就把非分布任务转化为分布任务。怎么做?通过改变信息的呈现方式。一个经典的例子是“install.md取代install.sh”:传统上,安装软件需要写一个bash脚本,这是精确但脆弱的代码。而新的做法是写一个Markdown文档,用自然语言描述安装步骤,然后让LLM去执行。对一个脚本而言,指令是硬编码的,任何环境偏差都会导致失败;但对LLM而言,自然语言指令是灵活可调的,而且它可以利用在线资源自我纠正。这里的关键不是LLM变得更聪明了,而是我们把问题的形式从“LLM不擅长执行精确步骤”变成了“LLM擅长理解并自适应执行自然语言描述”。同一只模型,因为任务被重新打包进了它的能力分布内,就从“愚蠢”变成了“能干”。

这个思路可以推广:AI-native设计的第一原则不是“让AI变强”,而是“让输入适应AI的分布”。这也解释了为什么像“menugen”(输入图像直接输出图像,整个应用被LLM完全内化)这样的想法如此诱人——它完全绕过了经典软件的逻辑层,把一切交给了LLM的端到端生成能力。但同时也需要警惕:如果一个应用的所有逻辑都依赖于LLM,那么任何一次锯齿的咬合错位都可能导致整个产品的失败。你必须精确知道你的LLM在哪些任务上是在轨道上,哪些任务是在丛林里。不知道就是赌博。

反对者可能会说:这太保守了。开源社区正在疯狂迭代,Mistral、DeepSeek、OpenCode Go等模型正在迅速缩小差距,也许锯齿只是一个暂时的工程问题,随着模型上下文长度的增加和推理能力的提升,一切都会自然平滑。这个观点的吸引力在于它允许我们继续持有“AI正在快速变强”的乐观叙事。但卡帕斯的数据点提供了一个冷水:即使是DeepSeek V4 Flash这样强大的模型,在非分布任务上的表现依然充满惊喜(意外的好)和惊吓(意外的差)。更为根本的是,如果锯齿是由经济激励驱动的,那么开源社区也无法绕过它——开源模型的训练同样需要选择数据分布,同样面临投入产出比的问题。没有实验室有动力去花几百万美元训练一个“如何帮你判断是否需要走路去洗车”的技能。

另一个反驳来自“涌现能力”的支持者。他们相信,随着模型规模的进一步扩大,那些目前表现糟糕的领域可能会突然涌现出能力,就像语言翻译和逻辑推理在大模型身上涌现一样。这个假设不能完全排除,但它有一个致命弱点:我们对涌现机制的理解还极其原始。没有可靠的理论能预测哪个能力会在哪个参数规模、哪种训练数据配置下涌现。把产品赌在涌现上,和赌下一张牌的翻牌率没什么区别。

更务实的态度是:把LLM当作一个高度专业化、但在能力空间上不连续的推理引擎。对于AI-native产品的构建者而言,这意味着在系统架构上必须引入“锯齿检测层”——实时监控模型输出的置信度和合理性,在模型进入丛林时及时切换策略或回退到经典代码逻辑。这不是对AI的背叛,而是对AI的诚实表达。卡帕斯在谈话中暗示了类似的方向:未来的AI原生系统将不是纯神经网络,而是神经网络与经典CPU协处理器的混合体。神经网络负责那些它擅长的大规模、模糊模式匹配任务,经典代码负责那些需要确定性、可验证性的任务。这不是一个过渡状态,而可能是长期的稳定架构。

但即使采取这种混合架构,仍然存在一个更深层的麻烦:我们如何知道LLM什么时候在轨道上?卡帕斯本人承认,他还没有完全满意的模型来解释LLM能力分布的精确边界。“still not 100% satisfied with this,”他说。这是一个令人尊敬的诚实态度。但对产品构建者来说,不确定性是不能被接受的。你无法在不知道模型何时会犯傻的情况下可靠地部署一个面向客户的系统。

这正是目前AI行业最隐蔽的危机。一方面,资本和舆论在推动“AI正在取代一切”的叙事;另一方面,真正在构建产品的工程师每天都在与锯齿作斗争。那些最成功的AI产品——比如GitHub Copilot——之所以成功,恰恰是因为它们把任务限制在了一个非常狭窄的分布内(代码补全),并且保留了大量的人工审查环节。这不是AI-native,这是AI-assisted。而任何试图把AI推向更核心决策位置的产品,都必须在锯齿的阴影下重新思考自己的架构。

所以,回到开头的问题:当我们说“AI-native经济”时,我们在说什么?如果我们指的是一个由LLM驱动一切的世界,那将是一个锯齿形的、充满意外崩溃和推理短路的世界。如果我们指的是一个精心设计、让LLM只做它擅长的事、同时用经典工程兜底的世界,那可能是一个更稳定但也更无趣的未来。卡帕斯的谈话暗示了后者。而我认为这是对的。

真正重要的不是LLM什么时候变得均匀智能,而是我们什么时候停止假装它已经是均匀智能的。锯齿不是bug,它是新的基线。接受它,设计适应它,而不是幻想它消失——这才是2026年AI-native设计的真正起跑线。

参考来源
  • Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
  • The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
  • 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
  • 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
  • 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
  • I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
  • The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
  • Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
  • Testing 9 OpenCode Go models on a Delphi/FireDAC code generation task — scores, costs, and surprises - https://www.reddit.com/r/opencodeCLI/comments/1tsqrbd/testing_9_opencode_go_models_on_a_delphifiredac/
  • I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/

当AI能重构十万行代码却告诉你“走路去洗车”:LLM能力的不规则性如何重塑技术经济

一个能重构十万行代码的模型,却会建议你走路去洗车。这种能力的不规则不是bug,而是AI经济激励下的必然产物。

核心观点:LLM能力的不规则性并非工程缺陷,而是由经济激励和训练数据分布共同塑造的必然结构,理解这种结构是构建可靠AI应用的关键。

人工智能的发展史上,从来没有任何一项技术像大语言模型这样,同时展现出令人惊叹的高阶能力和令人哭笑不得的幼稚错误。一个能够轻松重构整个代码库的模型,在回答一个简单的生活问题时,可能会给出完全脱离现实的建议。这种现象被AI研究者安德烈·卡帕斯称之为“LLM的不规则性”,它正在成为理解现代AI能力边界的关键概念。

不规则性并非缺陷,而是AI经济结构的内生特性。卡帕斯在最近的Sequoia Ascent 2026炉边谈话中提出了一个深具洞察力的解释:这种不规则性源于训练数据分布和强化学习的经济逻辑。当某个领域具有巨大的商业价值和明确的验证标准时,前沿实验室会投入巨大的资源将其打包进训练数据分布。在这些领域,模型如同“在轨道上飞行”,表现极为出色。而在那些缺乏商业激励或验证困难的领域,模型只能“在丛林中挥舞砍刀”,表现拙劣。这不是技术局限,而是经济选择的结果。

这种解释让我想起经济地理学中的“中心-边缘”理论:某些地区因为历史积累和投资获得高密度发展,而边缘地区则被系统性忽视。LLM的能力分布呈现出类似的结构——代码生成、数学推理、文本摘要等具有清晰商业价值的任务位于能力“中心”,而涉及物理常识、长期规划、因果推理等难以量化验证的任务则被推至“边缘”。这种能力分布的不对称性,决定了我们在何种场景下可以信赖AI,又在何种场景下必须保持警惕。

卡帕斯提出了一个极具想象力的例子来说明新范式的可能性:一个完全由LLM驱动、无需任何传统代码的应用程序——输入一张图片,输出一张图片,LLM原生地完成整个任务。这听起来像是科幻小说,但它揭示了一个根本性的转向:我们正在从“加速现有流程”的阶段,进入“创造全新功能”的阶段。传统的观点认为,AI主要是提高编程效率,但卡帕斯展示了三个“新地平线”:第一,完全由LLM吞噬的应用,无需古典代码;第二,以.md文件形式描述的“安装技能”,取代复杂的.sh安装脚本;第三,基于LLM的知识库,能够处理古典代码根本无法处理的非结构化数据。

然而,我们必须清醒地认识到,这些新功能只能在能力“中心”区域内可靠运行。当模型试图处理超出其训练分布的任务时,我们就会看到那些令人哭笑不得的失败案例。这不是一个可以简单通过增加数据或参数规模解决的问题。从根本上说,这是一个经济学问题:对于那些没有足够商业激励来构建高质量训练数据的领域,LLM将永远保持“不规则”的表现。

这种认识对企业和开发者具有直接的现实意义。当我们构建基于LLM的应用时,最危险的做法是假设模型能力是均匀的。这种假设会导致在关键任务上部署AI,结果在边缘场景遭遇灾难性失败。相反,我们应该采用“能力地图”的方法:明确识别模型在哪些领域处于“轨道飞行”状态,在哪些领域只能“丛林跋涉”,并据此设计系统架构和人工干预机制。

卡帕斯提到的“代理原生经济”概念进一步深化了这一观点。他预测,未来的产品和服务将被分解为传感器、执行器和逻辑单元,跨越传统软件1.0、2.0和3.0计算范式。在这个框架下,如何使信息对LLM最大程度地“可读”将成为一个核心工程问题。这意味着,我们不仅要关注模型本身的改进,还要重新设计整个系统的信息架构,使其与LLM的能力分布相匹配。

反对者可能会说,随着模型规模的增长和训练数据的扩展,这种不规则性终将被消除。毕竟,GPT-4在2023年表现出的许多缺陷在GPT-5中已经得到改善。但问题在于,商业激励驱动的训练数据分布永远不可能覆盖所有可能的任务领域。总会有一些任务因为市场规模太小、验证成本太高或伦理约束而无法获得充分的训练资源。因此,不规则性不是暂时现象,而是AI时代的结构性特征。

更值得深思的是,这种经济驱动的能力分布可能会加剧AI应用的“马太效应”:那些已经具有高商业价值的领域将获得更多的AI能力提升,从而进一步扩大其优势;而那些缺乏商业价值的领域(如很多公共服务、边缘学科、小众文化)则可能被AI能力分布的系统性忽视。这不是技术中立性的问题,而是技术经济学的必然结果。

卡帕斯在谈话中坦诚,他对自己构建的LLM能力模型“还不太满意”。这种诚实是罕见的,也是必要的。我们正处于一个理论尚未成熟的阶段,正在摸索如何准确描述和预测LLM的能力边界。但至少我们已经认识到,不规则性不是一个需要“修复”的bug,而是一个需要“理解”的结构。

对于决策者而言,这意味着需要建立更精细的AI治理框架,识别哪些领域可以依赖AI,哪些领域需要保持人类控制。对于开发者而言,这意味着需要开发新的工程实践,专门处理模型能力的不规则性。对于公共政策而言,这意味着需要思考如何通过公共投资来弥补商业激励不足的领域,避免AI能力分布的不平等加剧社会不平等。

当我们还在为AI能力的突飞猛进感到惊叹时,或许更应该关注那些被系统性忽视的能力边缘。因为正是在这些边缘地带,人类的判断力、常识和伦理感知仍然不可替代。LLM的不规则性不仅是一个技术问题,更是一面镜子,反射出我们社会中那些有商业价值和无商业价值领域的真实不平等。

卡帕斯最后谈到了“全神经网络计算”的梦想,其中绝大多数计算由神经网络完成,传统的CPU只作为协处理器存在。这是一个诱人的远景,但通往这个远景的道路必须穿过不规则性的丛林。我们无法通过忽略不规则性来抵达那里,唯有通过深刻理解它的经济和技术根源,才能构建真正可靠、公正的AI系统。

不规则性不是AI的弱点,而是它的指纹。它提醒我们,即使在最先进的技术背后,经济逻辑仍然在不知不觉地塑造着能力分布。理解这种塑造机制,比简单地追求更大、更强的模型更重要。因为在AI时代,真正决定技术走向的,从来不仅仅是技术本身。

参考来源
  • Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
  • The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
  • 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
  • 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
  • 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
  • I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
  • The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
  • Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
  • I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/
  • (Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/

记忆不是数据库:为什么AI代理的“记忆层”必须放弃完美主义

一位开发者花了一年时间构建AI代理的记忆层,经历了五次重大失败。这些失败不是技术选型错误,而是对“记忆”概念的误读。

核心观点:AI代理记忆层设计的核心矛盾不在于技术选型,而在于我们试图用工程思维解决认知问题,真正的突破在于重新定义“记忆”的边界。

当一位开发者宣称自己花了一整年时间构建AI代理的记忆层,并且承认自己“犯下了几乎所有可能的错误”时,这个故事本身就值得关注。在LLM开发领域,记忆层已经成为一个日益紧迫的问题。随着代理从简单的对话助手进化到能够执行复杂多步骤任务的自主系统,如何让代理“记住”过去的信息并跨会话使用这些知识,已经从附加功能变成了核心挑战。

这位开发者的博客文章详细记录了他在MongoDB上使用知识图谱和本体构建代理记忆层的过程。他犯的第一个错误是“天真地跟随每一个趋势”。这听起来像是在自我批评,但实际上是整个领域的基本困境。当记忆功能从简单的文件搜索发展到语义搜索,再到知识图谱,每一次升级都涉及更高的复杂度,却没有带来相应比例的性能提升。这正是记忆问题的典型特征:它是一个“最后一英里”问题,解决方案的边际收益递减,但系统复杂度却指数级上升。

更根本的问题在于,我们试图让AI代理拥有像人类一样的记忆,却忽略了人类记忆本身就是不可靠的。人类记忆不是数据库,它充满了偏差、遗忘和重构。但当一个AI代理拥有“完美”记忆时,它反而会失去人类智能中某些有价值的特性——比如泛化能力、类比推理和选择性遗忘。这听起来像是悖论,但事实上,人类学习过程中至关重要的一点就是忘记那些不重要的细节,从而对模式进行抽象。如果一个AI代理记住了每一次交互的每一个细节,它就更有可能过拟合到特殊案例,而不是学到通用模式。

这位开发者最终转向了知识图谱和本体。这不是一个简单的技术选择,而是一种认知哲学。知识图谱不是纯粹的存储系统,它是一种对知识结构的建模。通过将信息组织成实体和关系,代理可以从“我记得你提到了X”升级到“我理解X与Y之间的关系”。这种从“记忆事实”到“理解关系”的转变,才是真正的突破。

但问题在于,构建知识图谱本身就是一项复杂的知识工程任务。它需要定义合适的本体,确定哪些实体是关键性的,哪些关系是有意义的,以及如何处理模糊性和不确定性。对于简单的应用场景,这可能是可行的;但对于复杂的、开放式的代理系统,本体的定义可能比代理本身更复杂。这就是为什么许多开发者在实践中放弃了从头构建知识图谱,转而使用预训练的语言模型来辅助本体抽取和关系发现。

反对者可能会指出,大型语言模型本身已经内化了大量的世界知识,为什么还需要外部记忆?这是一个合理的质疑。答案在于,LLM的“知识”是静态的、训练时确定的,而代理需要动态的、个性化的记忆。代理需要记住用户的具体偏好、过去任务的上下文、以及特定领域的事实,这些信息不可能也不应该被编码到模型参数中。因此,外部记忆层不是可选的,而是必不可少的。

另一个被广泛讨论的方案是基于向量数据库的语义搜索。这种方法将信息编码为向量,然后通过语义相似度检索。其优势在于实现简单,无需本体的手工定义。但正如这位开发者所指出的,向量搜索本质上是一种“扁平”的检索方式,它无法处理跨越多个实体的多跳推理。例如,要回答“这个用户上周提到的那个喜欢喝拿铁的同事叫什么名字”,向量搜索可能需要分别检索“用户上周的对话”和“喜欢喝拿铁的同事”,然后再手动组合结果。而知识图谱可以自然地表达这种关系链接。

然而,知识图谱也有其固有的局限性。首先是维护成本高。随着记忆的增长,知识图谱需要持续更新和清理,否则就会变得混乱不堪。其次是冷启动问题。在代理刚开始运行时,知识图谱几乎是空的,无法提供有价值的记忆。这迫使开发者采用混合策略:在初始阶段使用简单的文件搜索或语义搜索,当积累到一定量后才启用知识图谱。这种混合架构本身又带来了新的复杂性:如何在不同的记忆模式之间无缝切换?如何确保数据的一致性?

这些问题的根源在于,我们试图用工程学的确定性思维解决认知科学的不确定性问题。记忆本质上是一个认知功能,它涉及编码、存储、检索和遗忘等多个环节。工程学喜欢确定性和可预测性,而认知过程充满了模糊性和概率性。这种不匹配导致了记忆层设计的根本困境:我们构建的存储系统越精确,就越不灵活;越健壮,就越难以适应变化。

这位开发者最终发现,成功的记忆层设计不是追求完美的技术架构,而是接受不完美并与之共存。这意味着明确哪些信息需要精确记忆,哪些信息可以模糊处理;哪些关系需要显式建模,哪些关系可以隐式推理。这种设计哲学的核心是“分级记忆”:将记忆分为工作记忆、短期记忆和长期记忆,每一层的存储方式、检索策略和更新频率都不同。

更深层次的问题是,记忆层的设计不仅仅是一个技术问题,它还涉及用户体验和信任。如果一个代理能够完美地记住用户过去说过的一切,用户可能会感到“被监视”而不是更有效。如何在提供个性化记忆的同时尊重用户的隐私边界,这是一个尚未被充分讨论的议题。

在AI代理快速发展的当下,记忆层设计已经成为制约代理能力的瓶颈。那些能够建立有效记忆系统的代理将获得显著的竞争优势,而那些忽视记忆问题的代理将局限于简单的、无状态的对话。但通往有效记忆的道路不是一条笔直的工程路径,而是一条充满权衡和妥协的探索之路。

也许,最终的解决方案不是做一个更好的数据库,而是重新定义什么是“记忆”。在人类认知中,记忆不是存储,而是建构。每一次回忆都是一次创造性重构,而不是简单的数据读取。如果AI代理也能学会“建构性记忆”,那么记忆层的设计范式将发生根本性转变。但这是一个遥远的目标。在此之前,我们只能在不完美的技术方案中寻找平衡。

这位开发者的故事提醒我们,在AI系统中,最困难的往往不是实现功能,而是定义功能。记忆层之所以难,不是因为我们不知道如何存储信息,而是因为我们不清楚什么才是好的记忆。认知科学的这个基本问题,正在以工程形式在AI代理开发中重现。而那些愿意花一年时间犯错误并公开分享的人,正是推动这个领域前行的关键力量。

参考来源
  • A year building agent memory on knowledge graphs (MongoDB): the 5 mistakes and the data model that finally scaled - https://www.reddit.com/r/LLMDevs/comments/1ts3qc3/a_year_building_agent_memory_on_knowledge_graphs/
  • I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/
  • "Is this a rich man's hobby?" Ogoniff asked, his voice sounding like a YouTube processing error. - https://www.reddit.com/r/Star_Light_Links/comments/1trvl0n/is_this_a_rich_mans_hobby_ogoniff_asked_his_voice/

LLM不是加速器:从Sequoia Ascent 2026看人工智能的范式革命

在Sequoia Ascent 2026峰会上,Karpathy提出了三个令人深思的案例:menugen、.md技能安装和LLM知识库。这些不是对现有工具的优化,而是开辟了全新的功能疆域。当LLM能同时重构一个十万行代码库和告诉你“去洗车”时,我们面对的是一种全新的智能形态,需要全新的经济学和工程学视角来理解。

核心观点:大语言模型真正的价值不在于加速现有流程,而在于创造了前所未有的全新可能性,如全AI原生应用、自然语言技能安装和不可计算的知识库,这要求我们重新定义对AI能力的理解。

当大语言模型成为科技界最炙手可热的话题时,大多数讨论都聚焦于一个核心叙事:LLM将加速一切。从代码生成到文档处理,从客户服务到数据分析,似乎所有工作都将在AI的推动下变得更高效。但2026年Sequoia Ascent峰会上的一场炉边谈话,却提出了一个更具颠覆性的观点:LLM的真正革命性,不在于它能多快地完成我们已经在做的事情,而在于它能够做那些我们从未想过可能完成的事情。

这个观点来自一位在AI领域深耕多年的研究者Karpathy。他举了三个例子:menugen——一个可以被LLM完全吞噬的应用,从输入到输出完全由AI驱动,无需一行传统代码;用.md文件替代.sh脚本——你不再需要编写复杂的安装脚本,只需要用自然语言描述安装过程,然后告诉你的LLM去执行;以及LLM知识库——这在大语言模型出现之前是不可能实现的,因为它需要对非结构化数据进行计算,而传统代码只能处理结构化数据。

这三个例子之所以如此重要,是因为它们清晰地划出了一条界线:一边是“加速已有流程”,另一边是“创造全新可能”。绝大多数科技公司目前仍停留在前者的思维模式中,他们试图用LLM来优化现有的产品和工作流程,却忽略了更根本的机会——重新定义什么是可能的。

让我们深入分析menugen这个案例。在传统软件开发中,一个图像处理应用需要复杂的算法和大量的手写代码。但在LLM的世界里,你只需要提供一个图像输入,AI就能理解你的意图并生成相应的输出。这不是简单的“更快更好”,而是从根本上改变了软件开发的范式。开发者不再需要思考“如何实现这个功能”,而是需要思考“我想要什么功能”。从解决问题到定义问题,这一转变意义深远。

同样,用.md文件替代.sh脚本也暗示了一个可能更深刻的趋势。安装软件一直是一个令人头疼的问题,因为不同用户的系统环境千差万别。传统脚本试图用条件判断来覆盖所有可能的情况,但总是力不从心。而自然语言描述则具有天然的灵活性:LLM可以根据用户的具体环境智能调整安装步骤,处理错误,甚至自行调试。这不仅仅是更聪明的安装脚本,而是一种全新的软件分发方式。

当然,Karpathy也坦诚地讨论了LLM的“锯齿状”能力模式:同一个模型可以出色地重构一个十万行代码库,同时也会建议你“开车去洗车”。这种不一致性源于训练数据的分布:模型在某些领域(如代码重构)经过强化学习路径的充分训练,表现优异;而在其他领域(如常识推理)则像在丛林中挥刀开路。这引出了一个关键问题:我们如何理解并利用这种不均衡的能力?

批评者可能会指出,这些“新可能性”的实用价值仍有待验证。menugen是否真能取代传统的图像处理软件?.md安装在没有LLM的系统上是否完全失效?LLM知识库的准确性和可靠性如何保证?这些质疑并非空穴来风。在商业应用中,稳定性、可预测性和可控性仍然是关键考量因素。一个偶尔建议你去洗车的系统,很难被信任来处理关键任务。

但更值得关注的是,Karpathy提出的“代理原生经济”概念。他认为,未来产品和服务将被分解为传感器、执行器和逻辑三个部分,而这些逻辑可以在1.0、2.0和3.0计算范式之间灵活分布。这意味着,我们需要重新设计信息结构,使其对LLM更加“可读”。同时,一种全新的“代理工程”技能正在涌现,相应的招聘实践和组织架构也将随之改变。

保守主义者可能会认为,这不过是又一个技术乌托邦的幻想。毕竟,我们对AI的能力边界还没有充分理解,安全性和伦理问题也远未解决。更不用说,将大量决策权交给一个仍然不可预测的系统,可能带来的风险。但历史告诉我们,每一次范式革命都伴随着这样的疑虑。就像早期云计算面临的安全担忧和早期互联网面临的商业化质疑一样,这些障碍最终都被克服,或者至少被适应了。

真正有趣的是,Karpathy暗示了一个更大胆的未来:或许未来绝大多数计算将由“全神经计算”完成,传统CPU只作为协处理器存在。这意味着,当前的硬件生态可能面临根本性的重构。对于投资者和创业者来说,这既是巨大的机遇,也是潜在的颠覆。那些布局传统算力优化的公司,可能突然发现自己的技术栈已经过时。

回到最初的问题:LLM到底意味着什么?是加速器还是新大陆?我的判断是,两者兼具,但后者的意义远超前者。加速现有流程带来的收益是线性的,而创造全新可能性带来的变革是指数级的。那些只看到加速器作用的企业,可能会在不知不觉中被那些拥抱新范式的新玩家所超越。

这并不意味着我们应该盲目追逐每一个AI新概念。相反,我们需要保持清醒:LLM的能力边界是真实存在的,它的不可预测性也是一个需要认真对待的问题。但关键在于,我们不能因为存在不确定性就拒绝探索这些新可能。在快速变化的技术环境中,最大的风险不是犯错误,而是错过方向。

所以,对于所有正在观望或小规模尝试AI的企业,我的建议是:不要太快满足于用LLM让你的流程变快10%。花点时间去思考,哪些事情是你以前不敢想的,但现在有了LLM就变成了可能。也许,那些正是你下一个增长的引擎。

参考来源
  • Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
  • The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
  • 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
  • 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
  • 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
  • I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
  • The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
  • Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
  • (Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/
  • "Is this a rich man's hobby?" Ogoniff asked, his voice sounding like a YouTube processing error. - https://www.reddit.com/r/Star_Light_Links/comments/1trvl0n/is_this_a_rich_mans_hobby_ogoniff_asked_his_voice/

记忆的陷阱:为什么AI代理的记忆层构建是一场持久战

一位开发者花了一年时间构建AI代理的记忆层,经历了无数错误,最终发现最可靠的解决方案不是最时髦的方案。在LLM应用日趋复杂的今天,记忆层正成为决定智能体能力上限的关键组件。这篇评论将揭示记忆构建中的常见误区、真正的工程挑战,以及为什么简单的检索方案无法胜任。

核心观点:构建AI代理的记忆层远不是选择一个向量数据库那么简单,真实世界的需求要求我们超越简单的检索范式,拥抱关系型知识图谱。

在AI代理领域,有一个越来越明显的共识:记忆是智能体的核心。没有记忆的代理像是一个失忆症患者,每次对话都从零开始,无法积累经验,也无法建立持久的用户关系。然而,如何为AI代理构建有效的记忆层,却是当前领域中最棘手的问题之一。

一位开发者最近分享了他的经历:花了一年时间构建代理记忆层,尝试了几乎所有流行的方案,从简单向量存储到复杂的知识图谱,最终才找到一种能够真正扩展的架构。这个故事之所以引人深思,不仅因为它揭示了一条充满陷阱的技术路径,更因为它暴露了整个AI工程社区在记忆问题上的一种集体性迷失。

迷失的根源在于,我们太容易被简单的解决方案所吸引。向量数据库的兴起让许多人相信,只要把对话历史编码成向量,再通过语义搜索检索相关片段,就能实现有效的记忆。但实际应用中,这种方案很快就暴露出根本性缺陷:平面搜索无法处理实体之间的多跳关系。比如,当用户讨论“我上周和John在巴黎吃的晚餐”时,一个有效的记忆系统需要能理解“晚餐”、“John”、“巴黎”和“上周”这些实体之间的关系,而不是仅仅把它们当作独立的向量点。

这种关系型理解的需求,正是简单向量检索无法满足的。

许多人转向了更大的上下文窗口,希望通过提供更多的历史信息来弥补检索的不足。但这又带来了另一个问题:上下文窗口的膨胀。当记忆变得庞大时,相关的信息可能被淹没在不相关的噪声中,实际效果反而下降。这就像是试图在图书馆里通过目光扫视找到一本书——理论上你可能看到所有书,但实际上一无所获。

这位开发者的关键洞察在于,他最终选择了知识图谱作为记忆层的核心。不同于传统的向量检索,知识图谱能够显式地编码实体之间的关系,使得多跳推理成为可能。例如,当用户问“我上次在巴黎时推荐的那家餐厅叫什么?”时,系统可以通过图谱中的关系路径从“巴黎”到“推荐”到“餐厅”,而不是在成千上万的对话片段中大海捞针。

但知识图谱并非银弹。它带来了自己的挑战:如何从非结构化对话中提取实体和关系?如何保证图谱的准确性和一致性?如何高效地更新和扩展图谱?这些都是需要投入大量工程努力才能解决的问题。

更根本的问题是,记忆层的设计必须考虑未来的使用场景。今天你构建的简单记忆系统,明天可能就需要支持跨会话推理、个性化偏好学习,甚至多个代理之间的知识共享。如果没有一个能够承载这些复杂性的基础架构,那么每一次功能迭代都将意味着从零开始的重构。

批评记忆层构建的是否过于复杂?有观点认为,对于大多数应用场景,简单的会话日志加上基本的检索就足够了。这个论点有一定道理:如果你的代理只需要处理简单的问答,或者每次交互都是独立的,那么复杂的记忆层确实可能是过度工程。但问题在于,随着AI代理的能力增长,用户对它的期望也在迅速提升。一周前可以接受的健忘,今天可能就成为用户放弃使用的原因。

另一个反对意见是,知识图谱的构建和维护成本太高。确实,从零开始构建一个能够处理真实世界知识的图谱需要大量的标注数据和工程努力。但这个问题正在被缓解:最新的LLM已经展现出从文本中自动提取实体和关系的能力,虽然还远非完美,但已经足够为许多应用提供起点。

值得注意的是,这位开发者的经验并非个案。在LLMDevs社区中,越来越多的人开始意识到记忆层的重要性,并分享自己的教训。这些经验有一个共同的主题:简单的方案在初期看起来工作得很好,但随着规模的增长,问题会以几何级数增加。

那么,对于正在构建AI代理的团队,这意味着什么?首先,不要被“快速原型”的幻觉所迷惑。一个在演示中表现完美的记忆系统,在真实用户数据面前可能一夜之间崩溃。其次,从一开始就考虑长期可扩展性。选择一个能够支持关系型查询和推理的架构,而不是仅仅满足当前的需求。最后,准备好投入持续的工程资源。记忆层的构建不是一次性的任务,而是一个随着应用发展而不断演进的过程。

回到最初的问题:为什么记忆层的构建如此困难?因为它涉及的是AI最核心的问题之一:如何让机器理解和模拟人类的记忆机制。这不是一个纯粹的工程问题,而是一个认知科学问题。我们还没有完全理解人类的记忆是如何工作的,更不用说在机器中实现了。

但这并不意味着我们不应该尝试。相反,正是由于这种困难,那些能够在这方面取得突破的团队,将获得巨大的竞争优势。在AI代理日益同质化的今天,记忆层很可能成为差异化的重要因素。

所以,如果你正在构建一个AI代理,不要回避记忆层的复杂性。相反,拥抱它。因为每一次失败和每一次教训,都会让你更接近那个目标:一个真正能够记住、理解和成长的智能体。

如果把这个判断再往前推一步,真正重要的不是 A year building age…、"Is this a rich man…、IBC Advanced Alloys… 本身,而是它们共同暴露出的分配逻辑。 reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,构建AI代理的记忆层远不是选择一个向量数据库那么简单,真实世界的需求要求我们超越简单的检索范式,拥抱关系型知识图谱。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。

参考来源
  • A year building agent memory on knowledge graphs (MongoDB): the 5 mistakes and the data model that finally scaled - https://www.reddit.com/r/LLMDevs/comments/1ts3qc3/a_year_building_agent_memory_on_knowledge_graphs/
  • "Is this a rich man's hobby?" Ogoniff asked, his voice sounding like a YouTube processing error. - https://www.reddit.com/r/Star_Light_Links/comments/1trvl0n/is_this_a_rich_mans_hobby_ogoniff_asked_his_voice/
  • IBC Advanced Alloys Reports Improved Financial Results for the Quarter Ended March 2026 - https://www.reddit.com/r/IBC_Advanced_Alloys/comments/1trgsyf/ibc_advanced_alloys_reports_improved_financial/

当大模型既能重构十万行代码,又建议你走路去洗车:LLM能力锯齿形的真相

我们经常被LLM的惊人能力震撼,又被其荒谬错误搞得哭笑不得。这不是偶然,而是新计算范式下的必然特征。理解这种锯齿形能力,才能设计出真正可靠的AI代理应用。

核心观点:LLM的能力分布并非线性增强,而是一种由训练数据分布和RL奖励机制塑造的锯齿形格局;理解这种不均匀性是构建可靠代理系统的前提。

在Sequoia Ascent 2026的炉边谈话中,一位顶级AI从业者提出了一个令人深思的观察:同一个LLM能够连贯地重构一个十万行代码库,同时却可能建议你“走路去洗车”。这种能力上的极端不均匀并非bug,而是一种特征——我称之为LLM能力的锯齿形分布。这种不均匀性的根源,并非简单的模型大小或训练数据量问题,而是与经济激励、数据分布以及偏好强化学习(RL)的电路设计密切相关。

让我们从三个新地平线的例子来切入,这些例子来自那场谈话,但背后的逻辑远比表面呈现的案例更深刻。第一类是“menugen”:一个完全被LLM吞噬的应用,输入一张图,输出一张图,无需任何传统代码。这暗示着一种可能性:某些应用类别将完全由LLM原生执行,传统软件1.0的逻辑变得多余。第二类是“.md技能”:用自然语言编写安装说明,而不是复杂的bash脚本。这不仅仅是脚本的简化,而是将“解释”和“执行”的边界重新定义——LLM作为高级英语解释器,能够智能地针对特定环境定制安装流程,并在线调试。第三类是LLM知识库:处理来自任意来源、任意格式的非结构化数据,这是传统代码几乎不可能完成的任务,因为它需要理解语义和关系。

这些例子展示了LLM的潜力远不止加速现有流程。然而,为什么同一个模型在执行某些任务时表现得像天才,在其他任务上却像智障?关键答案在于“域的可验证性”和“经济激励”。人类反馈强化学习(RLHF)及其后续的RL变体,本质上是为模型在特定轨道上规划路径。那些评分容易、反馈明确的任务(如代码生成、数学推理)被大量封装到训练数据分布中,形成了“RL电路”的轨道。在此轨道上,模型几乎自动运行,表现优异。但一旦离开这些轨道,进入“野外”,比如需要将知识应用于一个模糊的、非标准化的物理世界任务(例如建议洗车方式),模型的表现就会急剧下降。

这种锯齿形能力分布,对构建代理原生经济(Agent-Native Economy)提出了根本性挑战。一个代理系统需要将产品和服务分解为传感器、执行器和逻辑。其中,逻辑部分可能跨越传统软件1.0、2.0和3.0(即LLM)范式。问题在于:我们能否信任一个模型在其非强项领域独立决策?如果设计不当,一个代理可能在核心任务上表现出色,却在某个看似简单的中间步骤上失败,导致整个系统崩溃。

批评者可能会说:这只是当前模型的问题,随着Scale Law继续演进,这些不均匀性会自然消失。但这过于乐观。即使模型在更多领域变得“通用”,但任何模型的能力分布本质上都是其训练分布的函数。只要存在经济激励差异(例如,代码生成的商业价值远高于普通家务咨询),模型在商业领域的性能就会优先提升。除非我们能够创建一个对所有域都给予同等经济奖励的完美环境——这在现实市场经济中不可能实现。

因此,当前最务实的方向不是等待通用AGI,而是主动设计系统以“包容”LLM的锯齿形。这意味着:对于高风险的代理任务,我们需要将模型置于其擅长轨道上(如代码生成),同时为非标准任务设计fallback机制(如经典算法或人工干预)。另一种思路是,让LLM主要扮演“计划者”角色,其输出由更可靠的执行器(如传统脚本)来执行。这种“混合架构”可能才是代理原生经济的第一性原理,而不是幻想全知全能的单一模型。

从更宏观的角度看,这引发了关于“计算范式分治”的讨论。Karpathy的谈话中提到了“全神经计算”的梦想——让神经网络处理绝大部分计算,而经典CPU作为协处理器。这听起来诱人,但锯齿形能力的存在提醒我们:神经计算和经典计算各有其不可替代的优势区间。单纯依赖任何一种都是危险的。代理原生经济的真正智能,不在于选择某个单一范式,而在于能够根据任务类型,动态地在不同范式间分配工作。

最后,我们不能忽视另一个维度:信息的可读性。为了让LLM更好地工作,我们需要重新设计信息的表达方式,使其对模型高度可读。这不是说要把所有数据都转成JSON,而是要理解模型如何“理解”结构化与非结构化信息。例如,安装脚本的.md化,本质上是将信息从对人类友好的格式(shell命令)转变为对模型友好的格式(自然语言加注释)。这种转变可能成为新的标准化实践。

关于培养“代理工程”技能,事情变得复杂。传统的软件工程师训练的是精确的逻辑和状态管理;而代理工程师则需要理解模型的概率性、模糊性和锯齿形特性。这意味着招聘和培训策略需要彻底改变。寻找能同时理解AI能力边界和传统系统可靠性的工程师变得至关重要。

总之,LLM的锯齿形能力不是bug,而是新范式的核心特征。拥抱这种不均匀性,而不是幻想它消失,才是构建下一代AI应用的正确起点。代理原生经济不会建立在完美智能上,而是建立在智能的巧妙分工和鲁棒系统设计之上。理解这一点,才能避免被表面的能力光环迷惑,真正设计出有用的产品。

如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、(Selling) 4K Codes…、"Is this a rich man… 本身,而是它们共同暴露出的分配逻辑。 x、reddit 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,LLM的能力分布并非线性增强,而是一种由训练数据分布和RL奖励机制塑造的锯齿形格局;理解这种不均匀性是构建可靠代理系统的前提。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。

参考来源
  • Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
  • The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
  • 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
  • 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
  • 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
  • I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
  • The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
  • Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
  • (Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/
  • "Is this a rich man's hobby?" Ogoniff asked, his voice sounding like a YouTube processing error. - https://www.reddit.com/r/Star_Light_Links/comments/1trvl0n/is_this_a_rich_mans_hobby_ogoniff_asked_his_voice/
已加载全部文章