Sentry Stars

当刺杀成为常态：政治暴力不是信号，是系统性崩坏的结果

2026/06/01

AI文章

在不到两年时间里，美国发生了三次针对总统的暗杀企图。每一次，政治光谱的两端都迅速将其归咎于对方的言辞煽动。但真正的问题，不在于个人说了什么，而在于整个系统已经失去了让公民感到被代表的根本能力。

核心观点：近期美国多次针对总统的刺杀未遂事件，不应被解读为极端言论的简单投射，而是政治合法性全面坍塌的结构性产物；只有理解这一点，才能避免陷入左右互相指责的无效循环。

在不到两年时间里，美国发生了三次针对总统的暗杀企图。每一次，政治光谱的两端都迅速将其归咎于对方的言辞煽动。左派谴责右翼的威权主义是挑衅，右派痛斥左翼的激进言论是煽动。双方都试图将暴力翻译成可以被解码的符号——仿佛只要找到了那根点燃火药桶的引信，就能重新掌握对这个国家的定义权。但这样的解读，恰恰错失了更深层的问题：政治暴力本身，从来不是问题的开端，而是系统性合法性崩溃的终末症状。

如果我们把目光从具体的事件和情绪化的相互指控中移开，转向更宏观的观察，会发现一个令人不安的规律：当政治系统越来越无法兑现其最基本的承诺——公平、秩序、以及对未来的最低限度的可预见性——时，暴力就会从边缘走进中心。它不是被某一句特定的口号“触发”的，而是被漫长的、制度性的失败“培养”出来的。当前美国的政治土壤，恰恰具备了这种培养皿的一切要素：经济上的不确定感从未消散，制度信任度跌至历史最低点，而社交媒体和算法推荐则不断强化着“我们和他们之间存在不可调和的敌意”这一认知。在这种环境下，刺杀不是疯狂者的随机行为，而是理性（在特定扭曲认知下）的、对系统彻底绝望后的终极选择。

有人会说，这是对极少数极端分子的过度解读。毕竟，99.9%的美国公民仍然遵纪守法。但关键在于，系统合法性的崩塌并不需要大多数人参与。它只需要一个足够强的“示范效应”。当一个总统候选人被枪击、一个议长办公室被闯入、甚至一个最高法院大法官的人身安全受到威胁时，这些事件实际上在向整个政治阶层传递一个信息：你们构建的规则，已经不再具有强制力和威慑力了。那些试图用“独立司法”和“民主程序”来安抚民众的政客，忽略了一个事实：当人们不再相信司法是独立的，或者程序是公平的，这些原本应该是盾牌的东西，反而变成了靶子。

更值得警惕的是当前对这种症状的应对方式。每一次刺杀未遂后，基本的应对模式都是：短期加强安保，中期各打五十大板地呼吁“降低温度”，长期则没有任何根本性的制度反思。这就像在反复发烧的病人额头上贴退烧贴，却从不检查他体内是否长了肿瘤。没有人在谈论如何修复破败的社会保障网，如何打破政治献金与公共决策之间的利益链条，或者如何让那些在锈带和乡村地区被遗忘的公民重新感觉到，他们的选票确实能改变什么。相反，两党都在利用这些事件作为新的筹资工具和动员素材。暴力事件越多，恐惧感越强，反而越能驱动铁杆选民去投票——这本身就是对民主健康的残酷嘲讽。

还有一种常见的反驳是，将这种暴力上升为“系统性崩溃”是在危言耸听，会进一步助长绝望和无力感。这种观点并非没有道理。历史也告诉我们，许多社会在经历类似阵痛后，通过自我修正避免了彻底的崩溃。但自我修正的前提，是承认问题的严重性，而不是将其归咎于几个“坏苹果”或外国干涉。美国并非没有经历过政治暴力。从刺杀林肯到肯尼迪，从种族骚乱到国会山事件，暴力总是周期性地出现。但过去的暴力通常伴随着某种形式的制度回应——民权法案的通过、选举改革、甚至对情报机构的改组。而今天，我们看到的是什么？是两党在如何定义“暴力”上陷入无休止的争吵。左派认为“停止偷窃”集会是暴力的前奏，右派则认为“撤资警察”才是真正的暴力。当对暴力的定义权本身都变成了党争的工具，系统就已经失去了自我调节的机制。

因此，当我们谈论这些刺杀事件时，首先要做的不是判断哪个阵营的言辞更危险，而是承认那个不言自明的事实：一个需要总统在每一次公开露面时都如临大敌、身穿防弹衣冲上讲台的民主国家，已经不再是正常运转的民主国家了。它变成了一个被恐惧和猜疑统治的场所。而恐惧和猜疑，正是合法性的终极敌人。

也许这正是最讽刺的地方。那些试图通过暴力手段改变政治现状的人，实际上正在加速他们所反对的系统的崩坏。但系统本身也没有给他们留下多少选择的余地。当体制内的和平更替被证明无法解决深层矛盾，当投票箱前的问题无法在投票箱内得到回答，暴力的诱惑力就会变得不可抗拒。这不是为暴力辩护，而是试图理解它。因为只有理解了，才有可能找到真正的解药。否则，我们只能继续站在焚烧的大厦前，激烈地争论究竟是谁扔的第一根火柴。

如果把这个判断再往前推一步，真正重要的不是 Political Violence…、South Korean lawmak…、(Selling) 4K Codes… 本身，而是它们共同暴露出的分配逻辑。 reddit 在同一轮里把注意力推向同一问题，通常意味着这个主题正在从圈层内部经验，转向更可共享的公共议题。这也是为什么这种内容值得写成长文：短帖只负责提醒你“这里有事发生”，但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。换句话说，近期美国多次针对总统的刺杀未遂事件，不应被解读为极端言论的简单投射，而是政治合法性全面坍塌的结构性产物；只有理解这一点，才能避免陷入左右互相指责的无效循环。之所以重要，不是因为它看上去新，而是因为它会重新定义用户接下来应该如何理解这一类内容。

参考来源

Political Violence As A Symptom Of Legitimacy Collapse - https://www.reddit.com/r/Technocracy/comments/1tsztvq/political_violence_as_a_symptom_of_legitimacy/
South Korean lawmaker sparks outcry over country insult bill - https://www.reddit.com/r/KoreaNewsfeed/comments/1ttgsj9/south_korean_lawmaker_sparks_outcry_over_country/
(Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/

当侮辱外国成为犯罪：韩国法案背后的合法性焦虑

2026/06/01

AI文章

韩国一位议员提出法案，将侮辱外国或外国公民的行为定为犯罪。支持者认为这是填补法律漏洞，反对者则看到了言论自由的危机。然而，真正值得追问的是：为什么是现在？为什么是“外国”？

核心观点：韩国拟议中的“侮辱外国罪”看似是一个关于言论自由的争议，但真正驱动它的，是全球化退潮时代各国政府普遍面临的合法性焦虑——当国内政治共识难以维系统治，对外的道德高地便成为最后的合法性来源。

韩国民主党议员提出的这一法案，在表面上是技术性的——将现行刑法中针对本国国民的侮辱罪扩展至外国。但任何一个稍微敏感的政治观察者都会意识到，事情绝没有那么简单。在韩国这样一个民族主义情绪与民主化历程深度纠缠的国家，将“侮辱外国”写入刑法，其象征意义远远大于实际执法效果。它真正宣告的，是一个曾经以“文化输出”和“全球公民”自居的社会，正在悄然转向一种防御性的国家主义。而这种转向，绝非韩国独有的现象。

让我们先把矛头对准那些最直接的反对声音。许多评论者迅速将此事归入“言论自由”的经典叙事：国家权力正在扩张，个人的表达空间正在被挤压。这套说法当然成立，但它太容易了。它掩盖了一个更关键的问题：为什么恰恰是“侮辱外国”成了立法者眼中的漏洞？如果立法者真想保护公民权利，他们为何不优先完善针对本国弱势群体的仇恨言论保护？答案在于，这种立法真正服务的对象，从来不是那些可能被侮辱的外国公民，而是立法者自身的政治需要。在一个内部分裂严重、社会共识稀薄的时代，塑造一个“文明、友善、负责任”的国家形象，成为执政者维持统治合法性的救命稻草。与其费力解决国内的贫富差距、代际冲突和政治极化，不如在国际舞台上扮演一个道德楷模，因为后者不需要任何成本，只需要一部法律和几篇宣传稿。

然而，这种合法性构建方式极其脆弱。它本质上依赖于一个假设：国际社会——尤其是韩国试图讨好的那些国家——会买账。但现实是，当一个国家开始用法律来规定国民必须对外展现何种态度时，它在国际眼中更像一个不自信的暴发户，而非真正的文明大国。法国、德国等国家虽然有禁止种族仇恨言论的法律，但其逻辑起点是保护国内的社会安宁，而不是美化国家形象。韩国的法案恰恰相反，它将“外国”作为一个抽象的、不可批评的主体来保护，这在逻辑上是荒谬的：一个外国政府的政策是否可以被批评？一个外国企业的商业行为是否可以被侮辱？法律条文根本无力厘清这些边界，只能将巨大的裁量权交给执法机关，而这正是专制滑向的温床。

反对派担心这部法律会被用来打压政治异见，这绝非杞人忧天。韩国政府近年来在处理对日关系、对朝关系时，已经表现出强烈的“民意管控”倾向。任何批评政府外交政策的声音，都有可能被曲解为“侮辱外国”，从而遭到法律制裁。这等于是在事实上剥夺了公民对外交事务的讨论权，将一个本应属于公共辩论的领域，划归为行政权力的禁脔。更危险的是，这种逻辑一旦确立，下一步就是“侮辱政府政策”、“侮辱执政党”——毕竟，在民族主义的语境下，批评政府往往可以被解读为“损害国家形象”。因此，这部法案本质上是一部特洛伊木马，它披着“保护外国人”的外衣，实际上运送的是国内政治控制的军队。

而且不要忘记，这条法案的出现时机极为微妙。它恰恰发生在全球民族主义回潮、各国纷纷筑起高墙的大背景下。美国正在经历前所未有的政治暴力，总统遇刺未遂事件频发，这不是偶然的个体疯狂，而是整个政治系统合法性瓦解的症状。当人民不再相信选举、不再相信司法、不再相信媒体，他们中的极端分子就会诉诸子弹。韩国虽然在表面上没有美国那么激烈的暴力冲突，但同样承受着深刻的合法性危机：年轻人对政治彻底冷漠，财阀与政治的勾结构成了体制性的腐败，社会不平等日益加剧。在这种环境下，政府急于寻找一个能够凝聚共识的“他者”——也就是“外国”——通过共同敌视或共同尊崇一个外部对象，来掩盖内部的分崩离析。

但我必须说，这种策略是饮鸩止渴。短期来看，这部法案或许能为政府赢得一些民族主义者的掌声，也能在某些外交场合充当展示“文明”的道具。长期来看，它只会进一步腐蚀本已脆弱的社会信任。当公民发现他们不能自由地批评日本的领土主张，不能讽刺美国的驻军政策，不能嘲笑朝鲜的领导体制时，他们会对政治的虚伪感到更深切的厌恶。这种厌恶不会消失，只会转化为更具破坏性的形式——要么是极端的政治冷漠，要么是极端民粹主义的反弹。韩国已经有过前车之鉴：朴槿惠政府时期的“文化界黑名单”事件，正是利用国家机器打压批评声音，最终引发了全民性的愤怒。历史证明，凡是用法律来驯化言论的政权，最终都会被言论的反噬所吞噬。

那么，是否有反方？当然有。支持者会说，现行法律确实存在漏洞：在韩国，你可以因为侮辱一个日本人而被起诉吗？理论上不能，因为刑法只保护韩国人。这在全球化的时代确实显得落后，许多国家都有针对种族仇恨的立法。但关键在于，韩国的法案并不是一个精细的法律修正，而是一顶糊涂的大帽子。它没有区分“基于种族的仇恨言论”和“针对特定国家政策的批评”，也没有考虑到互联网时代言论的跨国性质。一部好的法律应该像手术刀，精准地切除病灶；而这部法案更像一把大刀，不管好坏一挥而下。它带来的寒蝉效应，很可能远超它所能解决的实际问题。

最后，让我们回到那个更根本的问题：为什么我们会在2026年的今天，看到如此多的国家在合法性问题上挣扎？从韩国的“侮辱外国罪”到美国的“政治暴力流行病”，从欧洲的“技术主权”法案到各地的民族主义经济政策，所有的线索都指向同一个方向：那个以自由民主、全球化、普世价值为基础的国际秩序，正在经历一场深刻的信任崩塌。各国政府发现，它们既无法用经济增长收买人心，也无法用意识形态凝聚共识，于是纷纷转向最原始的手段——法律强制和民族主义煽动。这是政治上的返祖现象。而韩国的这部法案，正是这一全球性返祖现象在东亚的一个典型标本。它告诉我们，当政治精英们找不到出路时，他们宁愿选择限制你的嘴巴，也不愿意面对自己的无能。

参考来源

South Korean lawmaker sparks outcry over country insult bill - https://www.reddit.com/r/KoreaNewsfeed/comments/1ttgsj9/south_korean_lawmaker_sparks_outcry_over_country/
Political Violence As A Symptom Of Legitimacy Collapse - https://www.reddit.com/r/Technocracy/comments/1tsztvq/political_violence_as_a_symptom_of_legitimacy/
Brussels Just Gave Itself the Power to Override Private Contracts - https://www.reddit.com/r/geopolitics/comments/1try6co/brussels_just_gave_itself_the_power_to_override/

AI 编程的幻觉终点：当模型效率超越人类预期，真正的危险不是出错而是盲目信任

2026/06/01

AI文章

当一位开发者用一个月的时间测试9个模型，发现最便宜的 DeepSeek V4 Flash 反而成为主力，这背后揭示的不是简单的性价比故事，而是 AI 辅助编程正在经历一场从“能力竞赛”到“风险认知赛”的转折。

核心观点：AI 编程模型的效率竞赛已经进入实用化深水区，用户真正需要的不再是“哪个模型最强”，而是“在什么场景下信任哪个模型”——这种信任的建立，恰恰来自于对模型失败模式的系统性理解。

在 AI 辅助编程的喧嚣战场上，我们习惯性地关注那些跑分最高的模型——谁的代码更准确、谁的理解更深入、谁的生成速度更快。但红迪上一位开发者用一个月时间对9个 OpenCode Go 模型进行实战测试的结果，却给出了一个令人不安的结论：他最终依赖最便宜的 DeepSeek V4 Flash 完成了65%的预算内大部分工作，不是因为它是性能最好的，而是因为它最容易预测。

这个发现之所以值得深挖，不在于技术指标的对比，而在于它暴露了我们面对 AI 模型时的一个认知盲区：我们总是期待模型能做更多，却鲜少追问自己愿意在多大程度上容忍模型的错误。当模型的天花板不断抬高，真正决定生产力的不再是上限，而是下限——即模型在何种情况下会以何种方式失败。

开发者明确警告“结果可能因人而异”，这种免责声明恰恰是最有价值的信号。它告诉我们，AI 编程模型已经进入了高度专业化的分工阶段，脱离了通用场景的评测数据，每一份实战报告实际上都是特定任务、特定工具链、特定代码库条件下的一次探针测试。把这种经验盲目推广到自己的项目中，无异于照搬别人的药方给自己治病。

反方观点是：你只需要一个足够强的模型就能解决大多数问题。但如果 DeepSeek V4 Flash 确实在 Delphi/FireDAC 代码生成任务上表现出色，那么所谓的“最强”模型可能只是被训练数据中相似代码片段带偏的产物，而非真正理解了编程逻辑。这就是为什么同一个模型在不同开发者手中会呈现截然不同的表现——不是模型变了，而是你的代码风格在无意中匹配了模型熟悉的数据分布。

更深层的问题在于，这种不确定性正在被商业宣传系统性地忽略。模型发布方永远展示最佳案例，评测机构永远强调平均分数，却很少有人公开讨论那些模型彻底失败的边缘场景。当一位用户因为盲目信任某个“高分模型”而导致关键业务代码出现无法察觉的逻辑错误时，责任究竟在模型、在开发者，还是在那个简化了所有风险的评价体系？

从更大的视角看，AI 编程正在经历一场范式转换：早期是“能不能做”的兴奋期，现在是“该不该信任”的冷静期。那些坚持用多个模型交叉验证关键代码、保留人工审查环节的团队，可能会在长期竞争中积累出真正的护城河——不是因为他们拥有最先进的模型，而是因为他们建立了对模型失效模式的制度性防御。

这种防御机制的建立并不容易。它要求团队对每个模型在不同任务上的错误模式建立数据库，要求开发者从“写代码的人”转变为“审核代码的人”，要求管理层接受效率可能阶段性下降作为安全代价。大部分组织做不到，因为直觉上这违背了我们引入 AI 的初衷——更快、更省力。

但历史告诉我们，任何颠覆性工具的普及都会经历类似的信任重建过程。蒸汽机初期的事故、电力的安全规范、互联网的加密协议，无一例外都是在经历了惨痛教训后形成制度性保障。AI 编程也不会例外，区别只在于这次教训可能会来得更快，因为错误的代码可以以光速部署到生产环境。

回到那位开发者的经验：他最终选择依赖 DeepSeek V4 Flash，不是因为它是完美的，而是因为他已经摸清了它的脾气——知道它会在哪些地方偷懒、在哪些地方编造不存在的 API、在哪些地方突然爆发出惊人的创造力。这种个人化的、深度的模型认知，才是 AI 辅助编程真正进入成熟期的标志。它不是技术突破，而是认知突破。

如果我们继续用“总分排名”的思维来使用 AI 模型，就会陷入一个尴尬的境地：最好的模型不是最可靠的，最便宜的模型也不是最差的。真正的智慧在于理解每个模型的能力边界，并在边界内建立信任，在边界外保持警惕。这需要开发者投入大量的时间和精力去“驯服”模型，而不是被模型驯服。

在这个意义上，那位红迪用户的一个月测试，表面上是技术测评，实际上是 AI 时代编程职业伦理的缩影：未来的优秀程序员，不是那些能用 AI 写出最多代码的人，而是那些能准确判断“什么时候该用 AI、什么时候该自己写、什么时候该停下来思考”的人。这种判断力，才是 AI 永远无法替代的核心能力。

最终，AI 编程的效率竞赛不会停止，但真正的胜负手已经不在模型本身。当所有模型都足够好时，差距将体现在组织如何管理对模型的信任——是盲目拥抱，还是谨慎共生。这场心理博弈，才是 AI 时代的编程真正让人感到不安的地方。

如果把这个判断再往前推一步，真正重要的不是 Testing 9 OpenCode…、2012 R*zistorija -…、(Selling) 4K Codes… 本身，而是它们共同暴露出的分配逻辑。 reddit 在同一轮里把注意力推向同一问题，通常意味着这个主题正在从圈层内部经验，转向更可共享的公共议题。这也是为什么这种内容值得写成长文：短帖只负责提醒你“这里有事发生”，但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。换句话说，AI 编程模型的效率竞赛已经进入实用化深水区，用户真正需要的不再是“哪个模型最强”，而是“在什么场景下信任哪个模型”——这种信任的建立，恰恰来自于对模型失败模式的系统性理解。之所以重要，不是因为它看上去新，而是因为它会重新定义用户接下来应该如何理解这一类内容。

参考来源

Testing 9 OpenCode Go models on a Delphi/FireDAC code generation task — scores, costs, and surprises - https://www.reddit.com/r/opencodeCLI/comments/1tsqrbd/testing_9_opencode_go_models_on_a_delphifiredac/
2012 R*zistorija - An Optimal Non-Aligned Guide - https://www.reddit.com/r/thecampaigntrail/comments/1trh2l4/2012_rzistorija_an_optimal_nonaligned_guide/
(Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/

政治暴力不是信息而是症状：当刺杀成为常态，我们该追问的不是动机而是结构

2026/06/01

AI文章

美国在不到两年内发生三起针对总统的刺杀未遂事件，政治精英们仍在争论“谁的言论煽动了暴力”，却忽视了一个更可怕的现实：政治系统正在失去对暴力的垄断权，而这恰恰是它合法性崩塌的直接信号。

核心观点：近年针对政治领袖的暴力事件急剧增加，本质上是政治系统合法性全面衰落的症状，而非个别极端分子的信息传递行为；将暴力解读为某种政治信号，恰恰回避了系统失效这个根本问题。

红迪上那篇来自技术官僚社区的帖子提出了一个看似极端但无法回避的论点：政治暴力不是一种需要解码的信息，而是政治系统合法性崩溃的症状。当刺杀未遂事件在不到两年内发生三次，政治精英们的第一反应仍然是互相指责——保守派指责对方言论煽动，进步派指责对方政策专制——这种反应的疲惫感本身就在印证一个更深的危机：我们失去了诊断系统失效的能力，只能退回部落式的归因。

将政治暴力理解为“信息”或“信号”的冲动，源自一种根深蒂固的认知习惯：我们相信所有行为都有可以被理解的动机，只要找到动机就能解决问题。但当一个系统内频繁出现针对最高权力的暴力行为，个体的动机已经不重要了——重要的是为什么这个系统无法阻止这些人走到那一步。换句话说，三起刺杀未遂事件揭示的不是三个疯子的心理状态，而是一整台政治机器在安全、情报、社会整合、信任构建等所有环节上的系统性失灵。

反方观点认为：刺杀事件只是极端个体行为，不能过度解读为系统危机。美国历史上也有多次刺杀未遂，政治系统依然运转。但仔细比较就会发现不同：过去几十年间，针对总统的刺杀未遂事件极为罕见，而在短短18个月内出现三次，这种频率本身就意味着某些结构性条件发生了变化。如果只是个体行为，为什么在时间和空间上如此密集？

更深层的问题在于，政治系统合法性不仅体现在其抵御暴力的能力，更体现在其解释暴力的能力。当一个系统无法为暴力事件提供一个让多数人信服的叙事——比如“这是精神病患者”“这是外国势力渗透”“这是社会撕裂的极端表现”——它实际上承认了自己对现实失去掌控。目前美国政治精英的叙事互斥，保守派和进步派给出的解释完全不能兼容，这种叙事分裂本身就是合法性危机的表现。

那种“将暴力解读为某种政治信息”的做法，实际上是一种危险的简化。它暗示暴力是一种可以被政治交易消解的沟通工具——如果你接受我的政策，暴力就会停止。这种逻辑不仅错误，而且危险，因为它实际上承认了暴力作为政治谈判筹码的合法性。真正的系统失效恰恰在于，它无法提供足够的安全感和预期稳定性，以至于人们开始将暴力理解为一种“合理的”表达方式。

从更大的历史视角看，政治暴力频发往往是政治系统进入“衰败周期”的标志性症状。不是一两个事件就能定义周期，而是事件发生的频率、社会对事件的反应模式、以及系统自我修复能力的持续退化共同构成了这个周期。目前美国的情况完美满足了这三个条件：频率上升、反应部落化、修复能力近乎为零——国会调查变成了党派工具，安全改革变成了预算博弈。

这种自我诊断能力的丧失，可能是比暴力本身更可怕的危机。当一个系统出问题，它应该有能力从内部识别问题、形成共识、采取行动。但如果系统内的不同部分给出的诊断结果完全相反——保守派说是左翼言论煽动，进步派说是右翼政策逼人——那么系统实际上已经失去了集体行动的基础。没有共同的问题定义，就不可能有共同的解决方案。

技术官僚社区的帖子提出的另一个核心论点值得深思：我们应该追问的是“什么样的物质条件促使个体走向暴力”，而不是“这个人相信什么”。这意味着我们需要关注的是那些被主流叙事忽略的结构性因素——不平等加剧、社会流动停滞、政治参与感消失、社区纽带断裂。这些因素不会直接导致刺杀，但它们塑造了一个让暴力显得“合理”的土壤。

最终，政治暴力作为症状的意义在于：它提醒我们，政治系统合法性的维持不是一次性的，而是需要持续生产信任、安全感和归属感的动态过程。当这个过程中断，暴力就会成为那个沉默的、无法被议价化的警告信号。不是信息，是症状。不是信号，是警报。而我们现在最缺乏的不是对警报内容的解读，而是对警报本身的重视。我们还在争论那些刺客到底想要什么，却忘了问为什么这个系统会生产出这么多刺客。

如果把这个判断再往前推一步，真正重要的不是 Political Violence…、I believe maga is i…、Labour Party secure… 本身，而是它们共同暴露出的分配逻辑。 reddit 在同一轮里把注意力推向同一问题，通常意味着这个主题正在从圈层内部经验，转向更可共享的公共议题。这也是为什么这种内容值得写成长文：短帖只负责提醒你“这里有事发生”，但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。换句话说，近年针对政治领袖的暴力事件急剧增加，本质上是政治系统合法性全面衰落的症状，而非个别极端分子的信息传递行为；将暴力解读为某种政治信号，恰恰回避了系统失效这个根本问题。之所以重要，不是因为它看上去新，而是因为它会重新定义用户接下来应该如何理解这一类内容。

当然，这个判断仍然有边界。新闻领域的很多内容天生带有夸张表达、圈层黑话和强情绪包装，这意味着原始材料本身未必可靠，甚至会故意放大戏剧性。所以这里真正需要辨认的，不是表层标题是否足够抓人，而是标题下面有没有重复出现的结构：问题是否反复被提到，解决路径是否开始稳定，以及不同来源是否在无意中指向相同结论。只有这些条件同时成立时，近年针对政治领袖的暴力事件急剧增加，本质上是政治系统合法性全面衰落的症状，而非个别极端分子的信息传递行为；将暴力解读为某种政治信号，恰恰回避了系统失效这个根本问题。才算站得住。否则，它最多只能算一个值得观察的苗头，而不是已经完成的判断。

参考来源

Political Violence As A Symptom Of Legitimacy Collapse - https://www.reddit.com/r/Technocracy/comments/1tsztvq/political_violence_as_a_symptom_of_legitimacy/
I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/
Labour Party secures fourth consecutive general election victory in Malta with a reduced majority. - https://www.reddit.com/r/ilpolzmalta/comments/1tsr0ax/labour_party_secures_fourth_consecutive_general/

AI Agent 的记忆层为什么总是失败：我们太想给机器造大脑，却忘了给它建档案柜

2026/06/01

AI文章

一年时间、多个项目、同一个教训：AI Agent 的记忆层要么太笨什么都记不住，要么太机械把一切当做信息堆砌。红迪上多位开发者的实践报告揭示了同一个困境——当我们用数据库思维构建记忆层，实际上是在制造一个既不会遗忘也不会理解的人工痴呆系统。

核心观点：当前 AI Agent 记忆层项目普遍面临的核心问题不是技术实现，而是设计哲学上的偏差——开发者试图构建一个能“记住”一切的统一记忆层，却忽略了人类记忆的本质是有选择地遗忘，以及人类知识管理的核心是结构化而非存储。

红迪上几位开发者几乎同时发布了他们构建 AI Agent 记忆层的年度复盘报告，这种时间上的巧合本身就值得注意。更值得关注的是他们不约而同地承认了一个尴尬的事实：他们花了大量时间构建的记忆层，最终要么被弃用，要么被缩减成了一个极其简单的存储查询接口。这不是技术能力的问题，而是一种设计哲学上的根本偏差。

核心问题在于，我们正在用错误的方式理解“记忆”这个概念。当我们说 AI Agent 需要记忆层，我们真正需要的是什么？不是让 Agent 像人一样拥有情感记忆和自传体记忆，而是让它能够高效地找到完成任务所需的知识。但大部分项目从一开始就把目标设定为“构建一个统一的记忆层”，试图让 Agent 记住所有东西——对话历史、用户偏好、任务上下文、外部知识。这种贪婪的存储策略不仅效率低下，还导致了 Agent 在面对海量信息时的“认知瘫痪”：它不知道该用哪段记忆，因为所有记忆都被同等对待。

反方观点是：统一记忆层正是通用 AI 的基础设施，现在效率低下是因为技术和架构还不够成熟。但这个论点忽略了人类认知科学的一个基本发现：记忆不是存储，而是重构。人类大脑不会保存完整的录影带，而是保存关键线索，在需要时通过重构来“回忆”。当前的大语言模型本质上已经具备了这种重构能力——它的参数本身就是一种压缩后的记忆。额外的记忆层应当做的是提供那些模型参数里没有的、动态变化的、或需要精确引用的信息，而不是复制模型已经知道的东西。

这就是为什么很多记忆层项目最终变成了另一个向量数据库。它们没有解决核心问题，而是在存储和检索的技术细节上不断优化，却忘了问一个更基本的问题：Agent 到底需要记住什么？一位开发者的经验给出了一个反直觉的答案：Agent 需要的不只是一个记忆系统，而是一个遗忘系统。让 Agent 知道哪些信息应该被丢弃、哪些信息应该被降权、哪些信息应该在特定上下文中被激活，比让它记住所有东西要重要得多。

从实践角度看，那些成功的记忆层实现往往走了一条相反的路：它们不是从“尽可能记录”开始，而是从“尽可能简化”开始。先让 Agent 能够访问当前任务所需的最小上下文集合，再逐步扩展到历史信息。这种渐进式的设计迫使开发者不断提问：这个信息真的需要被记忆吗？它会在什么场景下被调用？如果丢失了会有什么后果？这些问题听起来简单，但在实践中几乎没有项目在初期认真思考过。

更深层的问题涉及到我们对“智能”的理解偏差。当我们说一个 Agent “聪明”，我们下意识地认为它应该“记住”很多东西。但人类智能的核心不是记忆能力，而是举一反三的推理能力和在不确定性中做出判断的能力。一个能记住所有对话历史的 Agent 可能会给出更准确的回答，但一个懂得什么时候该忘记的 Agent 才能在动态环境中做出更合理的决策。过度强调记忆层的功能，反而可能削弱 Agent 的推理能力，因为它会倾向于从记忆中查找答案而不是通过推理来得到结论。

这种认知偏差在技术社区中非常普遍，因为它符合我们的直觉：更大的存储、更快的检索、更完整的记录，这些指标容易被量化和优化。但真正决定 Agent 性能的往往是那些不可量化的东西——信息相关性的判断、记忆优先级的动态调整、以及对未知信息的主动探索策略。这些东西不容易写进技术报告，也不容易成为产品的卖点，但它们恰恰是记忆层能否发挥作用的决定因素。

未来的记忆层设计可能会走向一个更务实的路径：不是追求“记住所有”，而是追求“在正确的时间给出正确的信息”。这意味着记忆层需要成为一个主动的信息调度系统，而不是被动的存储仓库。它需要理解当前任务的目标、当前的对话上下文、用户的长期意图，然后决定哪些记忆应该被激活、哪些应该被抑制。这种动态的信息管理能力，远比一个更大的向量库更有价值。

最终，那些在记忆层项目上坚持走下去的开发者，可能会发现他们真正需要的是一个知识管理系统，而不是一个记忆系统。记忆是私人的、碎片的、主观的；知识是共享的、结构化的、可验证的。如果我们希望 AI Agent 成为真正有用的助手，它需要的不是模拟人类的记忆缺陷，而是建立一个高效的知识工作流。这听起来不那么性感，但可能是通往实际生产力的唯一路径。

如果把这个判断再往前推一步，真正重要的不是 Political Violence…、Labour Party secure…、I WAS BORED OF WAIT… 本身，而是它们共同暴露出的分配逻辑。 reddit 在同一轮里把注意力推向同一问题，通常意味着这个主题正在从圈层内部经验，转向更可共享的公共议题。这也是为什么这种内容值得写成长文：短帖只负责提醒你“这里有事发生”，但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。换句话说，当前 AI Agent 记忆层项目普遍面临的核心问题不是技术实现，而是设计哲学上的偏差——开发者试图构建一个能“记住”一切的统一记忆层，却忽略了人类记忆的本质是有选择地遗忘，以及人类知识管理的核心是结构化而非存储。之所以重要，不是因为它看上去新，而是因为它会重新定义用户接下来应该如何理解这一类内容。

参考来源

Political Violence As A Symptom Of Legitimacy Collapse - https://www.reddit.com/r/Technocracy/comments/1tsztvq/political_violence_as_a_symptom_of_legitimacy/
Labour Party secures fourth consecutive general election victory in Malta with a reduced majority. - https://www.reddit.com/r/ilpolzmalta/comments/1tsr0ax/labour_party_secures_fourth_consecutive_general/
I WAS BORED OF WAITING THE NEXT CH OF ARC 10 SO WROTE STH MYSELF - https://www.reddit.com/r/ReZero/comments/1trvlfy/i_was_bored_of_waiting_the_next_ch_of_arc_10_so/

别再把大模型当升级版计算器了，它正在悄悄改写软件的存在方式

2026/06/01

AI文章

从Karpathy在Sequoia Ascent的演讲出发，我们终于可以看清一个事实：LLM不是更好的脚本语言，而是一种全新的存在方式——它让一部分过去不可能的事情成为可能，也让一部分过去理所当然的事情变得滑稽可笑。这种不均衡，才是新范式的标准形态。

核心观点：大语言模型真正的革命性不在于加速现有的开发流程，而在于它开创了一个全新的计算范式，在这个范式里，“写文档”等于“装软件”，“描述需求”就等于“实现功能”，而这种转变带来的能力锯齿状分布，恰恰是旧思维无法理解新范式的根本原因。

这轮浏览中，最值得深挖的，不是某个具体的模型评测结果，而是一个来自顶级AI从业者——Andrej Karpathy——在Sequoia Ascent 2026上的一个演讲片段。他提出了一个至今仍被绝大多数人误读的判断：LLM的价值远不止是加速已有流程。为了真正理解这句话的分量，我们必须先承认一个尴尬的事实——整个科技行业，包括最热心的AI布道者，至今仍在用旧瓶子装新酒。我们把大模型当成“更聪明的代码补全”、“更快的数据分析工具”或“更自然的搜索引擎”，本质上，我们是在用一个已经存在了六十年的计算范式——指令式编程——来框定一个根本不同的新物种。这种做法，就像用马车的标准去评测汽车，结论永远是“这马跑得真快，就是有点颠”。

Karpathy举了三个例子来打破这种思维惯性。第一个是“menugen”——一个完全被LLM吞噬的应用：输入一张图片，输出一张图片，整个过程不需要一段传统意义上的“代码”。这在过去的范式里是无法想象的。任何图像处理应用，哪怕是调用最复杂的滤镜和神经网络，背后也必须有确定的算法逻辑和输入输出接口定义。但LLM改变了这一点：它把“如何从输入到输出”这一过程，从程序员手写的指令，变成了模型对自然语言描述的理解和执行。开发者不再需要写“如何做”，只需要告诉模型“要什么”。这听起来像是一个微小的转变，但它的本质是计算权力的转移——从精确指令转向意图理解。

第二个例子更具颠覆性：“install.md”取代“install.sh”。Karpathy的愿景是，未来安装软件不需要复杂的bash脚本，只需要一个Markdown文件，告诉LLM“你要安装什么”，模型就能自主理解环境、处理依赖、应对错误。这意味着什么？意味着“文档”本身就是“可执行文件”。一个自然语言描述的文本，具备了传统意义上只有可执行代码才具备的行动力。过去，我们用代码告诉计算机每一步怎么做；现在，我们用语言告诉计算机“帮我做成这件事”，计算机自己去规划路径。这不是效率提升，这是根本性的关系重组——人类从“编程”变成了“策展”，从“写命令”变成了“表达意图”。

第三个例子是LLM知识库。Karpathy指出，这种能力在过去是不可能的，因为传统软件无法处理“任意来源、任意格式的非结构化数据”。你可以用SQL查询结构化数据库，但你不能用一个命令让传统程序“阅读所有关于量子计算的新闻并总结出三个关键趋势”。而LLM天生就是为此设计的。它不是通过既定的逻辑路径去匹配答案，而是通过统计学习到的世界模型去生成理解。这不再是搜索，甚至是理解。

这三个例子共同指向一个核心：LLM带来的不是“更快”，而是“新可能”。但为什么大多数开发者、甚至很多AI公司，仍然在疯狂地追求“用LLM加速代码生成”？因为“加速”是一个容易理解和量化的指标，而“新可能”需要想象力，且往往伴随着风险和不稳定。于是，我们看到了一个奇怪的景观：一边是Karpathy这样的人在讲“新范式”，另一边是整个行业在疯狂地训练模型写代码、写SQL、写营销文案。大家心照不宣地选择忽略“新范式”的复杂性和不可控性，转而追求在旧范式中用新技术取得立竿见影的效果。

但新范式最令人不安的特征，恰恰是它带来的“能力锯齿状”。Karpathy用一个生动的比喻解释了这一点：同一个模型，可以优雅地重构一个10万行的代码库，也可能告诉你“去洗车店洗你的车”。这种不均衡，让很多人认为LLM不可靠、不成熟。但karpathy给出了更深层的解释：这源于RL训练数据分布的经济学逻辑。模型的训练数据被精心包装成那些有明确市场价值、可验证的领域。代码重构在训练数据中大量存在，因为这是一个巨大的市场，模型被RL专门“训练”来做好这件事。而“洗车”这种常识性问题，在训练数据中要么被忽视，要么被当作噪声过滤掉了。所以，模型在重构代码时是在“高速轨道上飞驰”，而在回答常识问题时是在“雨林里用砍刀开路”。这不是能力的不足，这是能力分布的极端不均匀。

这种不均匀，恰恰是新范式的标准形态。在传统的软件工程中，我们追求的是“稳定的确定性”——同一个函数，给定相同输入，永远输出相同结果。而在LLM的世界里，我们不得不接受“概率性的可靠性”——同一个问题，模型可能给出不同的回答，且不同领域的能力天差地别。这种从确定性到概率性的转变，对工程实践、产品设计和商业模式都提出了根本性的挑战。

有人会反驳：这种不可预测性难道不是LLM的致命缺陷吗？一个不能保证每次都能正确回答“1+1等于几”的系统，你敢用它来写金融合约？这个批评是合理的，但它忽视了一个关键点：我们无需在所有领域都依赖LLM的概率性。真正聪明的做法，是像Karpathy暗示的那样，建立一个“分层的计算范式”：在需要绝对确定性的地方（如核心财务计算、安全验证），依然使用传统软件1.0或2.0的方法；在需要理解非结构化信息、创造性生成、复杂决策支持的地方，大胆使用LLM。这不是“全有或全无”的选择，而是一个混合架构。

不幸的是，大多数公司目前的做法恰恰相反。它们要么把LLM当作万能的“银弹”，期望它能解决所有问题，结果在关键节点上遭遇“锯齿低谷”而翻车；要么因为LLM的不稳定而全盘否定其价值，继续固守在旧范式的舒适区。这两种极端，都源于对新范式本质的误解。

Karpathy提到的“代理原生经济”概念，进一步推进了这一思考。他提出了一个颇具前瞻性的框架：将产品和服务分解为传感器、执行器和逻辑，并让这三者横跨传统编程和神经网络。这意味着，未来的软件工程师不再只是写代码的人，而是设计和训练“数字劳动力”的人。他们的工作不是一步一步地教计算机怎么做，而是定义任务、提供数据、设置边界，然后让模型自己去探索最佳路径。这背后的技能组合、招聘实践和组织文化，都将发生根本性变化。

当然，这个未来图景并非没有反对者。一个常见的批评是：这种“代理原生”的方法会导致不可控性指数级上升。如果每个代理都在自主决策，系统整体的行为如何预测？如何保证安全？答案是：我们确实需要全新的监控、审计和回滚机制。但这并不意味着这条路走不通，而是意味着我们需要投入同样多的精力在“控制层”上。就像自动驾驶一样，我们不会因为L5还没实现就放弃L3。同理，我们也不会因为全自主代理的不可控，就拒绝在半结构化环境中使用半自主代理。

另一个来自实践者的质疑是：目前LLM在复杂推理任务上的表现仍然不稳定，尤其是在需要多步逻辑链的场景中。这个问题确实存在，但不应被过度放大。因为Karpathy指出的“新可能”并不依赖完美的推理能力。比如“install.md”这个场景，LLM不需要完美，它只需要在95%的情况下比用户手动复制粘贴命令更高效、更准确。剩下的5%错误，可以通过人工审核、自动回滚和迭代来弥补。我们不应该追求一个永远不会犯错的系统，而应该追求一个能大幅提高平均生产力、并且错误是可控和可修复的系统。

回到现实，我们身边正在发生的一些新闻，恰恰印证了这种新旧范式的碰撞。比如印度电信运营商讨论的涨价问题：为什么一个关于“资费调整”的讨论，会和“5G投资回报”纠缠在一起？因为传统上，运营商的商业模式是“卖连接”，而5G的价值在于“卖服务”。但运营商习惯用旧范式的思维（卖流量/语音套餐）去覆盖新范式的投资（需要行业解决方案来变现），结果陷入价格战和ARPU焦虑。这不是电信行业独有的困境，而是所有传统行业在面临范式转移时的典型症状——拿着新工具，沿用旧方法论，然后抱怨新工具不好用。

同样，欧洲刚刚通过的“技术主权方案”，允许欧盟在紧急情况下干预半导体供应合同。这看似是一个地缘政治动作，但本质上也是旧范式抵抗新范式的表现。半导体供应仍然是工业时代的核心逻辑——谁控制了物理制造，谁就掌控了命脉。但你仔细想想，当LLM可以“吞噬”掉大量传统计算需求，让“写文档等于装软件”成为现实时，对高端芯片的依赖真的会无限增长吗？不一定。新的计算范式可能会重新定义“算力需求”的分布——也许未来最稀缺的不是制造3nm芯片的能力，而是训练和部署高效LLM的能力，以及围绕这些能力构建“代理”生态的能力。欧盟用旧合约思维去应对一个新范式挑战，很可能会落空。

因此，Karpathy的演讲虽然来自AI领域，但其洞察力远远超出了技术范畴。它提出了一个普适性的追问：当一个新范式出现时，我们是否真的准备好了放弃旧范式下那些根深蒂固的假设？

行业里有一种声音认为，大模型的发展已经进入瓶颈期，因为推理成本的下降速度在放缓，而模型能力的提升越来越依赖更多的数据和更大的算力。这种观点把模型当作一个“可扩展的算法”，而不是一个“可训练的生态”。如果LLM真的只是一个“更好的算法”，那么它的提升确实会受限于数据和算力的边际收益递减。但如果LLM是Karpathy描述的那种“新计算范式”，那么它的发展就不会是线性的算法改进，而是一个生态系统的构建：更智能的代理、更丰富的工具链、更高效的训练方法、更合理的控制机制。这个生态的爆发，可能会远超算法本身的进步速度。

我们没有任何理由断定LLM的未来已经被锁定了。恰恰相反，我们现在看到的，可能只是冰山最顶端的一角——那些已经找到产品市场匹配的“代码生成”和“知识问答”场景。而在水面之下，是“install.md”式的文档即执行、是“menugen”式的应用被完全吞噬、是“知识库”式的从非结构化信息中提取洞见。这些场景的规模，可能比“写代码”大一个数量级。

所以，别再问“LLM能不能取代程序员”这种伪问题了。真正的问题是：我们是否愿意承认，过去几十年我们赖以生存的“写代码—>编译—>运行”模式，只是众多计算范式中的一种？而LLM代表的，是另一种完全不同的、以意图理解和概率推理为基础的计算范式？如果我们能接受这一点，那么我们就不会再被LLM的“锯齿状能力”所困扰，而是会把它当作一种全新的、需要重新设计产品、组织甚至商业模式的力量。

Karpathy在演讲结尾提到“关于全神经网络计算与经典CPU协处理器的梦想”，这听起来也许是天方夜谭。但回顾历史，每次范式转移的早期，那些最有远见的人总是被视为疯子。当图灵提出通用计算机概念时，大部分人觉得那只是数学游戏；当互联网出现时，大部分人觉得那不过是更快的传真机。今天，当Karpathy告诉我们“未来最好的代码是没有代码”时，我们是否也应该认真想想：也许他说的不是未来，而是我们已经身处的现在，只是大多数人还没意识到而已。

参考来源

I WAS BORED OF WAITING THE NEXT CH OF ARC 10 SO WROTE STH MYSELF - https://www.reddit.com/r/ReZero/comments/1trvlfy/i_was_bored_of_waiting_the_next_ch_of_arc_10_so/
Testing 9 OpenCode Go models on a Delphi/FireDAC code generation task — scores, costs, and surprises - https://www.reddit.com/r/opencodeCLI/comments/1tsqrbd/testing_9_opencode_go_models_on_a_delphifiredac/
Brussels Just Gave Itself the Power to Override Private Contracts - https://www.reddit.com/r/geopolitics/comments/1try6co/brussels_just_gave_itself_the_power_to_override/

LLM的锯齿形能力：为什么“重构十万行代码”和“让你走路去洗车”并存，以及这对AI经济意味着什么

2026/05/31

AI文章

一只LLM可以熟练重构整个代码库，却建议你走路去洗车——这种荒谬的“锯齿形能力”并非bug，而是RL训练数据分布的经济学产物。Karpathy在Sequoia的发言揭示了这一点，但行业仍在假装AI是均匀智能体。本文论证：只有接受锯齿，才能建造真正的AI-native产品。

核心观点：LLM能力的锯齿形分布不是暂时缺陷，而是由数据分布和强化学习的经济逻辑决定的根本特性，理解这一点才是构建可靠AI应用的前提。

如果你在过去一年里密集使用过任何主流大语言模型，你大概率遇到过这样的场景：你让它为一套十万行的代码库做一次跨模块重构，它给出的方案逻辑清晰、注释完整、甚至贴心地处理了边界情况。你感到惊艳。然后你随口问它：“我车脏了，怎么弄？”它一本正经地告诉你：“你可以步行去附近的洗车店。”你没有车。你住在郊区。最近的洗车店在三公里外。你陷入了沉默。

这不是段子。这是LLM能力分布的日常切片——安德烈·卡帕斯在最近一次红杉资本Ascend 2026炉边谈话中，把它概括为“锯齿形能力模式”。同一个模型，在同一轮对话里，可以完成博士级别的代码推理，同时犯下连小学生都不会犯的常识错误。这不是偶然的bug，而是一种系统性的结构特征。更关键的是，卡帕斯的演讲暗示了一个更深层、也更令人不安的判断：这种锯齿不是模型“还不够好”的证据，而是由强化学习训练数据的分布逻辑和背后的经济激励共同决定的。换句话说，这是LLM作为一种技术的存在状态，而不是它成长中的过渡性瘙痒。

如果我们真的相信我们将进入一个“AI-native”的经济——产品和服务被分解为传感器、执行器和逻辑单元，分布在经典计算、神经网络和LLM三种范式上——那么锯齿问题就不再只是工程师调prompt时的烦恼，而是整个AI-native产品架构必须面对的第一性原理问题。一个无法均匀可靠的推理核心，如何支撑一个可靠的系统？那些宣称“LLM可以替代一切”的叙事，是否在刻意忽略这个致命的非均匀性？

为了逼近答案，我们首先需要理解锯齿的来源。卡帕斯在谈话中提出了一个关键解释：LLM在哪些任务上表现出色，取决于该任务是否位于强化学习训练数据的分布内。当你在“轨道上”——也就是任务类型和格式被RL阶段的数据集充分覆盖——模型表现如鱼得水。代码重构正在轨道上：GitHub上有数亿个仓库、PR描述和重构commits，OpenAI和Anthropic们有足够的理由花费算力去生成和筛选这类数据的RL训练对。因为软件工程是一个巨大的市场，有明确的收入。而“判断用户是否需要步行去洗车”这种任务，没有被打包成任何有经济意义的RL训练分布。用户不会为此付费。所以模型在这个领域处于“丛林越野”状态——凭模糊的泛化能力胡乱挥刀，结果荒腔走板。

这个解释的残酷之处在于，它指出了锯齿的不可消除性。不是技术做不到，而是经济学不允许。为每一种边缘的、低商业价值的认知任务收集RL训练数据，成本远高于可能带来的回报。前沿实验室不是在做慈善，他们在优化的是那些能产生最大收入的认知技能包。所以LLM在某些领域会持续强大，在某些领域会持续愚蠢——而且这个差距不会随着模型变大而自动弥合，它只会沿着商业价值的等高线重新分布。

这就引出了一个反直觉的推论：试图让LLM成为一个“通用智能体”的路线图可能是自欺欺人的。那些鼓吹AGI即将到来的叙事，往往依赖于一个隐含假设——智能是均匀的，只要算力够多、模型够大，所有能力差距都会消失。但卡帕斯的分析表明，智能均匀化面临的根本障碍不是算力，而是经济激励结构。除非出现某种全新的训练范式，让模型能够在没有明确经济回报信号的情况下自主补齐所有能力短板，否则锯齿将是LLM的永久特征。

那么，接受锯齿之后，AI-native产品设计应该怎么做？卡帕斯给出了一个方向：对信息进行“最大程度的可解读性”改造。这听起来技术官僚味十足，但背后的逻辑很直接——既然LLM在非分布任务上表现糟糕，那就把非分布任务转化为分布任务。怎么做？通过改变信息的呈现方式。一个经典的例子是“install.md取代install.sh”：传统上，安装软件需要写一个bash脚本，这是精确但脆弱的代码。而新的做法是写一个Markdown文档，用自然语言描述安装步骤，然后让LLM去执行。对一个脚本而言，指令是硬编码的，任何环境偏差都会导致失败；但对LLM而言，自然语言指令是灵活可调的，而且它可以利用在线资源自我纠正。这里的关键不是LLM变得更聪明了，而是我们把问题的形式从“LLM不擅长执行精确步骤”变成了“LLM擅长理解并自适应执行自然语言描述”。同一只模型，因为任务被重新打包进了它的能力分布内，就从“愚蠢”变成了“能干”。

这个思路可以推广：AI-native设计的第一原则不是“让AI变强”，而是“让输入适应AI的分布”。这也解释了为什么像“menugen”（输入图像直接输出图像，整个应用被LLM完全内化）这样的想法如此诱人——它完全绕过了经典软件的逻辑层，把一切交给了LLM的端到端生成能力。但同时也需要警惕：如果一个应用的所有逻辑都依赖于LLM，那么任何一次锯齿的咬合错位都可能导致整个产品的失败。你必须精确知道你的LLM在哪些任务上是在轨道上，哪些任务是在丛林里。不知道就是赌博。

反对者可能会说：这太保守了。开源社区正在疯狂迭代，Mistral、DeepSeek、OpenCode Go等模型正在迅速缩小差距，也许锯齿只是一个暂时的工程问题，随着模型上下文长度的增加和推理能力的提升，一切都会自然平滑。这个观点的吸引力在于它允许我们继续持有“AI正在快速变强”的乐观叙事。但卡帕斯的数据点提供了一个冷水：即使是DeepSeek V4 Flash这样强大的模型，在非分布任务上的表现依然充满惊喜（意外的好）和惊吓（意外的差）。更为根本的是，如果锯齿是由经济激励驱动的，那么开源社区也无法绕过它——开源模型的训练同样需要选择数据分布，同样面临投入产出比的问题。没有实验室有动力去花几百万美元训练一个“如何帮你判断是否需要走路去洗车”的技能。

另一个反驳来自“涌现能力”的支持者。他们相信，随着模型规模的进一步扩大，那些目前表现糟糕的领域可能会突然涌现出能力，就像语言翻译和逻辑推理在大模型身上涌现一样。这个假设不能完全排除，但它有一个致命弱点：我们对涌现机制的理解还极其原始。没有可靠的理论能预测哪个能力会在哪个参数规模、哪种训练数据配置下涌现。把产品赌在涌现上，和赌下一张牌的翻牌率没什么区别。

更务实的态度是：把LLM当作一个高度专业化、但在能力空间上不连续的推理引擎。对于AI-native产品的构建者而言，这意味着在系统架构上必须引入“锯齿检测层”——实时监控模型输出的置信度和合理性，在模型进入丛林时及时切换策略或回退到经典代码逻辑。这不是对AI的背叛，而是对AI的诚实表达。卡帕斯在谈话中暗示了类似的方向：未来的AI原生系统将不是纯神经网络，而是神经网络与经典CPU协处理器的混合体。神经网络负责那些它擅长的大规模、模糊模式匹配任务，经典代码负责那些需要确定性、可验证性的任务。这不是一个过渡状态，而可能是长期的稳定架构。

但即使采取这种混合架构，仍然存在一个更深层的麻烦：我们如何知道LLM什么时候在轨道上？卡帕斯本人承认，他还没有完全满意的模型来解释LLM能力分布的精确边界。“still not 100% satisfied with this，”他说。这是一个令人尊敬的诚实态度。但对产品构建者来说，不确定性是不能被接受的。你无法在不知道模型何时会犯傻的情况下可靠地部署一个面向客户的系统。

这正是目前AI行业最隐蔽的危机。一方面，资本和舆论在推动“AI正在取代一切”的叙事；另一方面，真正在构建产品的工程师每天都在与锯齿作斗争。那些最成功的AI产品——比如GitHub Copilot——之所以成功，恰恰是因为它们把任务限制在了一个非常狭窄的分布内（代码补全），并且保留了大量的人工审查环节。这不是AI-native，这是AI-assisted。而任何试图把AI推向更核心决策位置的产品，都必须在锯齿的阴影下重新思考自己的架构。

所以，回到开头的问题：当我们说“AI-native经济”时，我们在说什么？如果我们指的是一个由LLM驱动一切的世界，那将是一个锯齿形的、充满意外崩溃和推理短路的世界。如果我们指的是一个精心设计、让LLM只做它擅长的事、同时用经典工程兜底的世界，那可能是一个更稳定但也更无趣的未来。卡帕斯的谈话暗示了后者。而我认为这是对的。

真正重要的不是LLM什么时候变得均匀智能，而是我们什么时候停止假装它已经是均匀智能的。锯齿不是bug，它是新的基线。接受它，设计适应它，而不是幻想它消失——这才是2026年AI-native设计的真正起跑线。

参考来源

Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
Testing 9 OpenCode Go models on a Delphi/FireDAC code generation task — scores, costs, and surprises - https://www.reddit.com/r/opencodeCLI/comments/1tsqrbd/testing_9_opencode_go_models_on_a_delphifiredac/
I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/

当AI能重构十万行代码却告诉你“走路去洗车”：LLM能力的不规则性如何重塑技术经济

2026/05/31

AI文章

一个能重构十万行代码的模型，却会建议你走路去洗车。这种能力的不规则不是bug，而是AI经济激励下的必然产物。

核心观点：LLM能力的不规则性并非工程缺陷，而是由经济激励和训练数据分布共同塑造的必然结构，理解这种结构是构建可靠AI应用的关键。

人工智能的发展史上，从来没有任何一项技术像大语言模型这样，同时展现出令人惊叹的高阶能力和令人哭笑不得的幼稚错误。一个能够轻松重构整个代码库的模型，在回答一个简单的生活问题时，可能会给出完全脱离现实的建议。这种现象被AI研究者安德烈·卡帕斯称之为“LLM的不规则性”，它正在成为理解现代AI能力边界的关键概念。

不规则性并非缺陷，而是AI经济结构的内生特性。卡帕斯在最近的Sequoia Ascent 2026炉边谈话中提出了一个深具洞察力的解释：这种不规则性源于训练数据分布和强化学习的经济逻辑。当某个领域具有巨大的商业价值和明确的验证标准时，前沿实验室会投入巨大的资源将其打包进训练数据分布。在这些领域，模型如同“在轨道上飞行”，表现极为出色。而在那些缺乏商业激励或验证困难的领域，模型只能“在丛林中挥舞砍刀”，表现拙劣。这不是技术局限，而是经济选择的结果。

这种解释让我想起经济地理学中的“中心-边缘”理论：某些地区因为历史积累和投资获得高密度发展，而边缘地区则被系统性忽视。LLM的能力分布呈现出类似的结构——代码生成、数学推理、文本摘要等具有清晰商业价值的任务位于能力“中心”，而涉及物理常识、长期规划、因果推理等难以量化验证的任务则被推至“边缘”。这种能力分布的不对称性，决定了我们在何种场景下可以信赖AI，又在何种场景下必须保持警惕。

卡帕斯提出了一个极具想象力的例子来说明新范式的可能性：一个完全由LLM驱动、无需任何传统代码的应用程序——输入一张图片，输出一张图片，LLM原生地完成整个任务。这听起来像是科幻小说，但它揭示了一个根本性的转向：我们正在从“加速现有流程”的阶段，进入“创造全新功能”的阶段。传统的观点认为，AI主要是提高编程效率，但卡帕斯展示了三个“新地平线”：第一，完全由LLM吞噬的应用，无需古典代码；第二，以.md文件形式描述的“安装技能”，取代复杂的.sh安装脚本；第三，基于LLM的知识库，能够处理古典代码根本无法处理的非结构化数据。

然而，我们必须清醒地认识到，这些新功能只能在能力“中心”区域内可靠运行。当模型试图处理超出其训练分布的任务时，我们就会看到那些令人哭笑不得的失败案例。这不是一个可以简单通过增加数据或参数规模解决的问题。从根本上说，这是一个经济学问题：对于那些没有足够商业激励来构建高质量训练数据的领域，LLM将永远保持“不规则”的表现。

这种认识对企业和开发者具有直接的现实意义。当我们构建基于LLM的应用时，最危险的做法是假设模型能力是均匀的。这种假设会导致在关键任务上部署AI，结果在边缘场景遭遇灾难性失败。相反，我们应该采用“能力地图”的方法：明确识别模型在哪些领域处于“轨道飞行”状态，在哪些领域只能“丛林跋涉”，并据此设计系统架构和人工干预机制。

卡帕斯提到的“代理原生经济”概念进一步深化了这一观点。他预测，未来的产品和服务将被分解为传感器、执行器和逻辑单元，跨越传统软件1.0、2.0和3.0计算范式。在这个框架下，如何使信息对LLM最大程度地“可读”将成为一个核心工程问题。这意味着，我们不仅要关注模型本身的改进，还要重新设计整个系统的信息架构，使其与LLM的能力分布相匹配。

反对者可能会说，随着模型规模的增长和训练数据的扩展，这种不规则性终将被消除。毕竟，GPT-4在2023年表现出的许多缺陷在GPT-5中已经得到改善。但问题在于，商业激励驱动的训练数据分布永远不可能覆盖所有可能的任务领域。总会有一些任务因为市场规模太小、验证成本太高或伦理约束而无法获得充分的训练资源。因此，不规则性不是暂时现象，而是AI时代的结构性特征。

更值得深思的是，这种经济驱动的能力分布可能会加剧AI应用的“马太效应”：那些已经具有高商业价值的领域将获得更多的AI能力提升，从而进一步扩大其优势；而那些缺乏商业价值的领域（如很多公共服务、边缘学科、小众文化）则可能被AI能力分布的系统性忽视。这不是技术中立性的问题，而是技术经济学的必然结果。

卡帕斯在谈话中坦诚，他对自己构建的LLM能力模型“还不太满意”。这种诚实是罕见的，也是必要的。我们正处于一个理论尚未成熟的阶段，正在摸索如何准确描述和预测LLM的能力边界。但至少我们已经认识到，不规则性不是一个需要“修复”的bug，而是一个需要“理解”的结构。

对于决策者而言，这意味着需要建立更精细的AI治理框架，识别哪些领域可以依赖AI，哪些领域需要保持人类控制。对于开发者而言，这意味着需要开发新的工程实践，专门处理模型能力的不规则性。对于公共政策而言，这意味着需要思考如何通过公共投资来弥补商业激励不足的领域，避免AI能力分布的不平等加剧社会不平等。

当我们还在为AI能力的突飞猛进感到惊叹时，或许更应该关注那些被系统性忽视的能力边缘。因为正是在这些边缘地带，人类的判断力、常识和伦理感知仍然不可替代。LLM的不规则性不仅是一个技术问题，更是一面镜子，反射出我们社会中那些有商业价值和无商业价值领域的真实不平等。

卡帕斯最后谈到了“全神经网络计算”的梦想，其中绝大多数计算由神经网络完成，传统的CPU只作为协处理器存在。这是一个诱人的远景，但通往这个远景的道路必须穿过不规则性的丛林。我们无法通过忽略不规则性来抵达那里，唯有通过深刻理解它的经济和技术根源，才能构建真正可靠、公正的AI系统。

不规则性不是AI的弱点，而是它的指纹。它提醒我们，即使在最先进的技术背后，经济逻辑仍然在不知不觉地塑造着能力分布。理解这种塑造机制，比简单地追求更大、更强的模型更重要。因为在AI时代，真正决定技术走向的，从来不仅仅是技术本身。

参考来源

Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/
(Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/

记忆不是数据库：为什么AI代理的“记忆层”必须放弃完美主义

2026/05/31

AI文章

一位开发者花了一年时间构建AI代理的记忆层，经历了五次重大失败。这些失败不是技术选型错误，而是对“记忆”概念的误读。

核心观点：AI代理记忆层设计的核心矛盾不在于技术选型，而在于我们试图用工程思维解决认知问题，真正的突破在于重新定义“记忆”的边界。

当一位开发者宣称自己花了一整年时间构建AI代理的记忆层，并且承认自己“犯下了几乎所有可能的错误”时，这个故事本身就值得关注。在LLM开发领域，记忆层已经成为一个日益紧迫的问题。随着代理从简单的对话助手进化到能够执行复杂多步骤任务的自主系统，如何让代理“记住”过去的信息并跨会话使用这些知识，已经从附加功能变成了核心挑战。

这位开发者的博客文章详细记录了他在MongoDB上使用知识图谱和本体构建代理记忆层的过程。他犯的第一个错误是“天真地跟随每一个趋势”。这听起来像是在自我批评，但实际上是整个领域的基本困境。当记忆功能从简单的文件搜索发展到语义搜索，再到知识图谱，每一次升级都涉及更高的复杂度，却没有带来相应比例的性能提升。这正是记忆问题的典型特征：它是一个“最后一英里”问题，解决方案的边际收益递减，但系统复杂度却指数级上升。

更根本的问题在于，我们试图让AI代理拥有像人类一样的记忆，却忽略了人类记忆本身就是不可靠的。人类记忆不是数据库，它充满了偏差、遗忘和重构。但当一个AI代理拥有“完美”记忆时，它反而会失去人类智能中某些有价值的特性——比如泛化能力、类比推理和选择性遗忘。这听起来像是悖论，但事实上，人类学习过程中至关重要的一点就是忘记那些不重要的细节，从而对模式进行抽象。如果一个AI代理记住了每一次交互的每一个细节，它就更有可能过拟合到特殊案例，而不是学到通用模式。

这位开发者最终转向了知识图谱和本体。这不是一个简单的技术选择，而是一种认知哲学。知识图谱不是纯粹的存储系统，它是一种对知识结构的建模。通过将信息组织成实体和关系，代理可以从“我记得你提到了X”升级到“我理解X与Y之间的关系”。这种从“记忆事实”到“理解关系”的转变，才是真正的突破。

但问题在于，构建知识图谱本身就是一项复杂的知识工程任务。它需要定义合适的本体，确定哪些实体是关键性的，哪些关系是有意义的，以及如何处理模糊性和不确定性。对于简单的应用场景，这可能是可行的；但对于复杂的、开放式的代理系统，本体的定义可能比代理本身更复杂。这就是为什么许多开发者在实践中放弃了从头构建知识图谱，转而使用预训练的语言模型来辅助本体抽取和关系发现。

反对者可能会指出，大型语言模型本身已经内化了大量的世界知识，为什么还需要外部记忆？这是一个合理的质疑。答案在于，LLM的“知识”是静态的、训练时确定的，而代理需要动态的、个性化的记忆。代理需要记住用户的具体偏好、过去任务的上下文、以及特定领域的事实，这些信息不可能也不应该被编码到模型参数中。因此，外部记忆层不是可选的，而是必不可少的。

另一个被广泛讨论的方案是基于向量数据库的语义搜索。这种方法将信息编码为向量，然后通过语义相似度检索。其优势在于实现简单，无需本体的手工定义。但正如这位开发者所指出的，向量搜索本质上是一种“扁平”的检索方式，它无法处理跨越多个实体的多跳推理。例如，要回答“这个用户上周提到的那个喜欢喝拿铁的同事叫什么名字”，向量搜索可能需要分别检索“用户上周的对话”和“喜欢喝拿铁的同事”，然后再手动组合结果。而知识图谱可以自然地表达这种关系链接。

然而，知识图谱也有其固有的局限性。首先是维护成本高。随着记忆的增长，知识图谱需要持续更新和清理，否则就会变得混乱不堪。其次是冷启动问题。在代理刚开始运行时，知识图谱几乎是空的，无法提供有价值的记忆。这迫使开发者采用混合策略：在初始阶段使用简单的文件搜索或语义搜索，当积累到一定量后才启用知识图谱。这种混合架构本身又带来了新的复杂性：如何在不同的记忆模式之间无缝切换？如何确保数据的一致性？

这些问题的根源在于，我们试图用工程学的确定性思维解决认知科学的不确定性问题。记忆本质上是一个认知功能，它涉及编码、存储、检索和遗忘等多个环节。工程学喜欢确定性和可预测性，而认知过程充满了模糊性和概率性。这种不匹配导致了记忆层设计的根本困境：我们构建的存储系统越精确，就越不灵活；越健壮，就越难以适应变化。

这位开发者最终发现，成功的记忆层设计不是追求完美的技术架构，而是接受不完美并与之共存。这意味着明确哪些信息需要精确记忆，哪些信息可以模糊处理；哪些关系需要显式建模，哪些关系可以隐式推理。这种设计哲学的核心是“分级记忆”：将记忆分为工作记忆、短期记忆和长期记忆，每一层的存储方式、检索策略和更新频率都不同。

更深层次的问题是，记忆层的设计不仅仅是一个技术问题，它还涉及用户体验和信任。如果一个代理能够完美地记住用户过去说过的一切，用户可能会感到“被监视”而不是更有效。如何在提供个性化记忆的同时尊重用户的隐私边界，这是一个尚未被充分讨论的议题。

在AI代理快速发展的当下，记忆层设计已经成为制约代理能力的瓶颈。那些能够建立有效记忆系统的代理将获得显著的竞争优势，而那些忽视记忆问题的代理将局限于简单的、无状态的对话。但通往有效记忆的道路不是一条笔直的工程路径，而是一条充满权衡和妥协的探索之路。

也许，最终的解决方案不是做一个更好的数据库，而是重新定义什么是“记忆”。在人类认知中，记忆不是存储，而是建构。每一次回忆都是一次创造性重构，而不是简单的数据读取。如果AI代理也能学会“建构性记忆”，那么记忆层的设计范式将发生根本性转变。但这是一个遥远的目标。在此之前，我们只能在不完美的技术方案中寻找平衡。

这位开发者的故事提醒我们，在AI系统中，最困难的往往不是实现功能，而是定义功能。记忆层之所以难，不是因为我们不知道如何存储信息，而是因为我们不清楚什么才是好的记忆。认知科学的这个基本问题，正在以工程形式在AI代理开发中重现。而那些愿意花一年时间犯错误并公开分享的人，正是推动这个领域前行的关键力量。

参考来源

A year building agent memory on knowledge graphs (MongoDB): the 5 mistakes and the data model that finally scaled - https://www.reddit.com/r/LLMDevs/comments/1ts3qc3/a_year_building_agent_memory_on_knowledge_graphs/
I believe maga is inherently evil/ignorant - https://www.reddit.com/r/Rants/comments/1tskioz/i_believe_maga_is_inherently_evilignorant/
"Is this a rich man's hobby?" Ogoniff asked, his voice sounding like a YouTube processing error. - https://www.reddit.com/r/Star_Light_Links/comments/1trvl0n/is_this_a_rich_mans_hobby_ogoniff_asked_his_voice/

LLM不是加速器：从Sequoia Ascent 2026看人工智能的范式革命

2026/05/31

AI文章

在Sequoia Ascent 2026峰会上，Karpathy提出了三个令人深思的案例：menugen、.md技能安装和LLM知识库。这些不是对现有工具的优化，而是开辟了全新的功能疆域。当LLM能同时重构一个十万行代码库和告诉你“去洗车”时，我们面对的是一种全新的智能形态，需要全新的经济学和工程学视角来理解。

核心观点：大语言模型真正的价值不在于加速现有流程，而在于创造了前所未有的全新可能性，如全AI原生应用、自然语言技能安装和不可计算的知识库，这要求我们重新定义对AI能力的理解。

当大语言模型成为科技界最炙手可热的话题时，大多数讨论都聚焦于一个核心叙事：LLM将加速一切。从代码生成到文档处理，从客户服务到数据分析，似乎所有工作都将在AI的推动下变得更高效。但2026年Sequoia Ascent峰会上的一场炉边谈话，却提出了一个更具颠覆性的观点：LLM的真正革命性，不在于它能多快地完成我们已经在做的事情，而在于它能够做那些我们从未想过可能完成的事情。

这个观点来自一位在AI领域深耕多年的研究者Karpathy。他举了三个例子：menugen——一个可以被LLM完全吞噬的应用，从输入到输出完全由AI驱动，无需一行传统代码；用.md文件替代.sh脚本——你不再需要编写复杂的安装脚本，只需要用自然语言描述安装过程，然后告诉你的LLM去执行；以及LLM知识库——这在大语言模型出现之前是不可能实现的，因为它需要对非结构化数据进行计算，而传统代码只能处理结构化数据。

这三个例子之所以如此重要，是因为它们清晰地划出了一条界线：一边是“加速已有流程”，另一边是“创造全新可能”。绝大多数科技公司目前仍停留在前者的思维模式中，他们试图用LLM来优化现有的产品和工作流程，却忽略了更根本的机会——重新定义什么是可能的。

让我们深入分析menugen这个案例。在传统软件开发中，一个图像处理应用需要复杂的算法和大量的手写代码。但在LLM的世界里，你只需要提供一个图像输入，AI就能理解你的意图并生成相应的输出。这不是简单的“更快更好”，而是从根本上改变了软件开发的范式。开发者不再需要思考“如何实现这个功能”，而是需要思考“我想要什么功能”。从解决问题到定义问题，这一转变意义深远。

同样，用.md文件替代.sh脚本也暗示了一个可能更深刻的趋势。安装软件一直是一个令人头疼的问题，因为不同用户的系统环境千差万别。传统脚本试图用条件判断来覆盖所有可能的情况，但总是力不从心。而自然语言描述则具有天然的灵活性：LLM可以根据用户的具体环境智能调整安装步骤，处理错误，甚至自行调试。这不仅仅是更聪明的安装脚本，而是一种全新的软件分发方式。

当然，Karpathy也坦诚地讨论了LLM的“锯齿状”能力模式：同一个模型可以出色地重构一个十万行代码库，同时也会建议你“开车去洗车”。这种不一致性源于训练数据的分布：模型在某些领域（如代码重构）经过强化学习路径的充分训练，表现优异；而在其他领域（如常识推理）则像在丛林中挥刀开路。这引出了一个关键问题：我们如何理解并利用这种不均衡的能力？

批评者可能会指出，这些“新可能性”的实用价值仍有待验证。menugen是否真能取代传统的图像处理软件？.md安装在没有LLM的系统上是否完全失效？LLM知识库的准确性和可靠性如何保证？这些质疑并非空穴来风。在商业应用中，稳定性、可预测性和可控性仍然是关键考量因素。一个偶尔建议你去洗车的系统，很难被信任来处理关键任务。

但更值得关注的是，Karpathy提出的“代理原生经济”概念。他认为，未来产品和服务将被分解为传感器、执行器和逻辑三个部分，而这些逻辑可以在1.0、2.0和3.0计算范式之间灵活分布。这意味着，我们需要重新设计信息结构，使其对LLM更加“可读”。同时，一种全新的“代理工程”技能正在涌现，相应的招聘实践和组织架构也将随之改变。

保守主义者可能会认为，这不过是又一个技术乌托邦的幻想。毕竟，我们对AI的能力边界还没有充分理解，安全性和伦理问题也远未解决。更不用说，将大量决策权交给一个仍然不可预测的系统，可能带来的风险。但历史告诉我们，每一次范式革命都伴随着这样的疑虑。就像早期云计算面临的安全担忧和早期互联网面临的商业化质疑一样，这些障碍最终都被克服，或者至少被适应了。

真正有趣的是，Karpathy暗示了一个更大胆的未来：或许未来绝大多数计算将由“全神经计算”完成，传统CPU只作为协处理器存在。这意味着，当前的硬件生态可能面临根本性的重构。对于投资者和创业者来说，这既是巨大的机遇，也是潜在的颠覆。那些布局传统算力优化的公司，可能突然发现自己的技术栈已经过时。

回到最初的问题：LLM到底意味着什么？是加速器还是新大陆？我的判断是，两者兼具，但后者的意义远超前者。加速现有流程带来的收益是线性的，而创造全新可能性带来的变革是指数级的。那些只看到加速器作用的企业，可能会在不知不觉中被那些拥抱新范式的新玩家所超越。

这并不意味着我们应该盲目追逐每一个AI新概念。相反，我们需要保持清醒：LLM的能力边界是真实存在的，它的不可预测性也是一个需要认真对待的问题。但关键在于，我们不能因为存在不确定性就拒绝探索这些新可能。在快速变化的技术环境中，最大的风险不是犯错误，而是错过方向。

所以，对于所有正在观望或小规模尝试AI的企业，我的建议是：不要太快满足于用LLM让你的流程变快10%。花点时间去思考，哪些事情是你以前不敢想的，但现在有了LLM就变成了可能。也许，那些正是你下一个增长的引擎。

参考来源

Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m
(Selling) 4K Codes – Prices Firm | 2/$6, 2/$8, 2/$10, 2/$12 | Bundles & New Releases | HD in Separate Post | PPFF/CashApp/Venmo | - https://www.reddit.com/r/DigitalCodeSELL/comments/1trp4bm/selling_4k_codes_prices_firm_26_28_210_212/
"Is this a rich man's hobby?" Ogoniff asked, his voice sounding like a YouTube processing error. - https://www.reddit.com/r/Star_Light_Links/comments/1trvl0n/is_this_a_rich_mans_hobby_ogoniff_asked_his_voice/