当LLM不再是提效工具:从Strix Halo到menugen,我们正在经历的技术范式认知战争
从AMD Strix Halo的本地推理到Karpathy在Sequoia的演讲,再到RAG agent的创造性幻觉,这些信号共同指向一个被技术乐观主义掩盖的事实:我们仍然在用旧范式理解新工具。LLM带来的不是更快,而是不同。
核心观点:LLM技术的真正突破不在于它如何高效地完成旧任务,而在于它如何将过去不可能甚至不可想象的任务变为可能,而这种认知转变才是当前技术应用最核心但最被忽视的挑战。
在技术社区中,关于LLM的讨论正在经历一场静默但深刻的认知战争。这场战争不是发生在实验室与商业应用之间,而是发生在我们对“工具”这一概念的根本理解上。当我们看到AMD Strix Halo(Ryzen AI MAX+ 395,128GB统一内存)在本地跑出令人印象深刻的LLM推理性能时,绝大多数人的第一反应是“现在我能更快地跑模型了”。当Karpathy在Sequoia Ascent 2026上举例说,一个叫做menugen的应用可以实现“输入图像,输出图像,而中间全部由LLM原生完成,没有一行经典代码”时,听众关注的是“这个应用能帮我做什么”,而不是“这个应用的存在意味着什么”。这种思维惯性——将每一项新技术首先理解为对旧事物的加速或优化——正在成为我们理解LLM时代最大但也最隐蔽的障碍。
这不仅仅是一个哲学问题,而是一个实实在在的实践问题。以Strix Halo为例,其128GB的统一内存架构和256GB/s的带宽让它成为本地LLM推理的理想平台。但如果我们仅仅将它与过去的高端GPU做对比,我们就会陷入一个线性思维的死胡同:它比RTX 4090便宜,推理速度差不多,所以是一个更好的性价比选择。这种比较忽略了更关键的一点:128GB的统一内存意味着你可以将以前必须依赖云API才能完成的复杂推理任务完全搬回本地。这意味着数据主权、零延迟、离线可用性——这些不是量的提升,而是质的改变。当Karpathy谈到“install .md”概念——用纯文本描述安装过程让LLM去理解和执行,而不是编写复杂的bash脚本时——他指出的正是这一点:我们不是在用LLM更快地写脚本,而是在彻底抛弃脚本这个范式本身。
然而,这种认知转变并不容易。它的困难在于,我们的大脑天生倾向于做类比推理,将新事物映射到已知框架中。当RAG agent在一项测试中被发现会自信地推荐“无过敏原”菜品,而菜单上根本没有过敏原标签时,大多数人的第一反应是“这个agent还需要更多的训练数据”或“我们应该加入硬性约束规则”。这些反应本身没有错,但它们反映了一个更深的假设:agent的任务应该是“准确检索并输出信息”,它的失败是因为检索或推理链条不够完善。但如果我们换一个视角,agent的创造性幻觉恰恰揭示了它正在执行一个比“检索”更高阶的功能:它在“理解”菜单的上下文后,主动做出了一个在没有完整信息时的推断决定。这个行为,在经典软件系统中不会被容忍,但在一个真正智能的系统中,它是自主性的必然副产品。问题不在于它不该这么做,而在于我们还没有学会如何设计系统来恰当地引导这种自主性。
Karpathy在Sequoia的演讲中提到了一个我曾试图精准描述但始终觉得不够满意的概念:LLM能力的“锯齿形分布”。同一个模型,可以连贯地重构一个十万行代码的代码库,同时告诉你“走到洗车店去洗你的车”。这种能力的不均匀性,不能简单地归因于训练数据不足或模型缺陷。Karpathy的洞见在于,这种锯齿形分布与经济因素密切相关——收入和市场总量决定了前沿实验室在强化学习训练中愿意将哪些领域打包进数据分布。你如果在数据分布的轨道上,就能如鱼得水;一旦偏离,就像在丛林中赤手空拳开路。这个分析揭示了一个令人不安但必须面对的现实:我们对LLM能力的理解,始终不能脱离对它在数据分布中位置的判断。这意味着,任何号称“全能”或“通用”的智能系统,在经济学意义上都不存在。
这种认知的不对称,在代理原生经济(agent-native economy)的讨论中被进一步放大。Karpathy提出了一个极具前瞻性的框架:将产品和服务分解为传感器、执行器和逻辑,并让这三者跨越1.0(硬件)、2.0(软件)、3.0(AI)计算范式进行分布。这个框架的激进之处在于,它暗示了在未来的系统中,逻辑层可能完全由LLM端到端地承担,而传感器和执行器则可以是任何从传统硬件到无代码接口的东西。在这种架构下,产品设计不再是一个功能列表的规划,而是一个信息流和决策权的分配问题。如何让信息对LLM最大程度地“可读”,如何将决策权委托给一个不确定性随领域而波动的系统,这些才是未来十年真正的工程挑战。
然而,这场认知战争的另一面是,我们正在用旧社会的教育体系、评价体系和风险控制体系来约束新范式的产物。当一位开发者在Reddit上分享他的RAG agent在为一份没有过敏原标签的菜单推荐“安全”菜品时,社区的反应大多是技术修正:增加验证步骤、加入硬性约束、引入更严格的上下文筛选。这些方案当然在技术层面有效,但它们忽略了一个更本质的问题:在一个由LLM驱动的系统中,信任应该如何建立?当agent说某道菜是安全的,而我们无法通过从头到尾的代码审计来验证这句话时,我们实际上已经进入了一个全新的信任模型。这个模型更像我们信任一个人类专家而非软件系统的方式——基于信誉、基于历史表现、基于解释能力,而非基于确定性逻辑。
这不只是一个技术优雅度的问题。它直接影响到我们能否在关键场景中部署LLM系统。医疗诊断、法律咨询、金融决策——这些领域对可解释性和确定性有极高要求。如果我们无法摆脱“工具必须完全可控”的旧思维,我们就无法为LLM在这些领域的合理使用开发出恰当的信任框架。反过来,如果我们盲目地信任LLM的输出而不加验证,我们又会在合规和伦理上陷入困境。这种两难并不是技术发展不成熟的暂时症状,而是LLM作为一种不确定的、概率性的计算范式的根本特征。接受这一点,并围绕它设计系统架构——包括非对称的验证机制、分层决策授权、以及最重要的,用户教育——才是未来的方向。
回到Strix Halo的例子,它的价值绝不仅仅是让更多人能在本地跑模型。它真正意义在于,它使得这种认知战争从云端下放到了个人桌面。当每一个开发者都能在自己的机器上部署和运行一个具有显著自主性的AI系统时,关于“什么是工具,什么是智能”的讨论就不再是学术界的特权,而是工程实践中的日常难题。那位在Reddit上发现agent把自己描述为“不守纪律的键盘猴子”的开发者,他面对的不是一个bug,而是一个范式转换的信号。Agent用诗意的语言解释了自己的运作模型,这种解释本身就有价值,因为它迫使我们反思:我们到底在建造什么?
这场认知战争没有一个简单的胜负。它不会因为某个新模型或新硬件的发布而终结。它只会通过每一次设计决策、每一次故障排查、每一次关于信任边界的争论而逐步深化。那些能够率先完成这种范式认知跃迁的团队和个人,将会获得真正的竞争优势——不是因为他们掌握了更强大的LLM,而是因为他们理解了如何在一个不确定性的世界里设计可靠的系统。而这一切,恰恰从我们不再把LLM仅仅看作一个“更快的工具”开始。
参考来源
- My full strix halo tips and tricks - https://www.reddit.com/r/StrixHalo/comments/1t2h7pp/my_full_strix_halo_tips_and_tricks/
- How To Set Up OpenClaw Grok Model Without Breaking Your Setup - https://www.reddit.com/r/AISEOInsider/comments/1t2yetd/how_to_set_up_openclaw_grok_model_without/
- Fireside chat at Sequoia Ascent 2026 from a ~week ago. Some highlights:
- The first theme I tried to push on is that LLMs are about a lot more than just speeding up what existed before (e.g. coding). Three examples of new horizons:
- 1. menugen: an app that can be fully engulfed by LLMs, with no classical code needed: input an image, output an image and an LLM can natively do the thing.
- 2. install .md skills instead of install .sh scripts. Why create a complex Software 1.0 bash script for e.g. installing a piece of software if you can write the installation out in words and say "just show this to your LLM". The LLM is an advanced interpreter of English and can intelligently target installation to your setup, debug everything inline, etc.
- 3. LLM knowledge bases as an example of something that was *impossible* with classical code because it's computation over unstructured data (knowledge) from arbitrary sources and in arbitrary formats, including simply text articles etc.
- I pushed on these because in every new paradigm change, the obvious things are always in the realm of speeding up or somehow improving what existed, but here we have examples of functionality that either suddenly perhaps shouldn't even exist (1,2), or was fundamentally not possible before (3).
- The second (ongoing) theme is trying to explain the pattern of jaggedness in LLMs. How it can be true that a single artifact will simultaneously 1) coherently refactor a 100,000-line code base *and* 2) tell you to walk to the car wash to wash your car. I previously wrote about the source of this as having to do with verifiability of a domain, here I expand on this as having to also do with economics because revenue/TAM dictates what the frontier labs choose to package into training data distributions during RL. You're either in the data distribution (on the rails of the RL circuits) and flying or you're off-roading in the jungle with a machete, in relative terms. Still not 100% satisfied with this, but it's an ongoing struggle to build an accurate model of LLM capabilities if you wish to practically take advantage of their power while avoiding their pitfalls, which brings me to...
- Last theme is the agent-native economy. The decomposition of products and services into sensors, actuators and logic (split up across all of 1.0/2.0/3.0 computing paradigms), how we can make information maximally legible to LLMs, some words on the quickly emerging agentic engineering and its skill set, related hiring practices, etc., possibly even hints/dreams of fully neural computing handling the vast majority of computation with some help from (classical) CPU coprocessors. - https://nitter.net/karpathy/status/2049903821095354523#m