当LLM能重构十万行代码却建议你走路去洗车,这种能力的不均匀性并非偶然,而是揭示了AI经济的新分工逻辑。

核心观点:LLM能力的锯齿状分布不是缺陷,而是其经济与工程本质的映射,理解这种不规则性才是构建下一代agent原生经济的关键。

在最近一次红杉资本Ascent 2026的炉边谈话中,AI领域的重要人物Karpathy抛出了一个看似矛盾却发人深省的观点:一个单一的LLM模型,可以同时做到两件截然不同的事——它能有条理地重构一个包含十万行代码的代码库,同时告诉你应该走路去洗车。这种能力的“锯齿状”分布让很多人感到困惑,甚至对AI的可靠性产生怀疑。但在我看来,这种不均匀性恰恰是LLM最真实的特征,也是我们理解其真正潜力和局限性的起点。

这种锯齿状模式并非智能的缺陷,而是由两个根本因素决定的:训练数据的分布和经济的驱动。LLM在那些可以低成本验证、并且有大量高质量数据支撑的领域表现出色,因为在这些领域,强化学习(RL)可以有效地封装出高性能的推理回路。代码就是一个完美的例子——有无数公开的代码库、测试用例和明确的正确/错误标准,使得模型可以在这个“轨道”上飞驰。然而,一旦离开这些有清晰验证路径的领域,比如日常生活的常识推理、涉及复杂物理世界的决策,LLM就仿佛进入了茂密的丛林,只能凭借原始的统计关联“披荆斩棘”,表现自然大打折扣。

但如果我们只停留在“LLM不完美”的叹息,就错过了真正的机会。Karpathy谈话里更引人深思的部分,是他提出的“agent原生经济”概念。这并不仅仅是让LLM执行更多任务,而是从根本上重新思考产品和服务的构建方式,将它们的各个组成部分——传感器、执行器和逻辑——拆解并重新分配到三个计算范式中:传统的“1.0”经典软件、现代的“2.0”深度学习模型,以及新兴的“3.0”大语言模型。在这个新范式中,LLM不再只是加速器,而是能够处理过去“不可能”的任务。

一个令人振奋的例子是“menugen”,一个完全由LLM原生驱动的应用,无需任何传统代码:输入一张图片,输出一张图片,LLM可以自然地完成这个任务。这听起来简单,却标志着AI从“辅助工具”向“自主组件”的跨越。另一个例子是“安装.md技能”替代“安装.sh脚本”。试想一下,为什么要为安装一个软件编写复杂的bash脚本?你完全可以用自然语言写一份安装说明,然后“把它展示给你的LLM”。LLM作为一个先进的英语解释器,能智能地根据你的具体环境进行安装、调试和处理错误。这不仅是效率的飞跃,更是一种全新的工作范式:人负责描述“做什么”,AI负责组织“怎么做”。

更关键的是“LLM知识库”这类应用。在传统编程模式下,处理来自不同来源、不同格式的非结构化数据(如文本文章、新闻报道),几乎是不可能完成的任务,因为传统代码要求数据的结构和格式必须是事先定义好的。但LLM天然擅长理解非结构化信息,这使得构建真正动态、跨领域的知识管理系统成为可能。这是之前根本不存在的新功能类别,它不仅是提高效率,更是创造了新的市场。

当然,这个愿景并非没有挑战和反对者。批评者会指出LLM的不可预测性和“幻觉”问题。在agent原生经济中,让一个模型去处理关键的安装任务,如果它“脑补”出一个不存在的步骤,会不会导致系统崩溃?这种担心是合理的。但Karpathy的观点恰恰是将这种不确定性纳入设计:我们要做的不是追求100%的完美(这不可能),而是构建一个容错系统,让LLM处理它擅长的开放式任务,而将关键的、可验证的步骤交给传统软件。这就是“传感器、执行器与逻辑”分离的意义。

另一个常见的反对声音是:这不过是“懒人包”的AI版,用自然语言代替脚本,本质上并没有改变什么。这种看法低估了LLM的“智能解释”能力。它不仅仅是执行指令,而是理解上下文。一个bash脚本是死的,它无法处理安装中遇到的意外错误;而一个LLM会阅读错误信息、搜索解决方案、调整安装参数。这就像从使用一本固定的菜谱,升级为一位能根据食材和口味临场发挥的厨师。经济价值正在于此:它极大地降低了专业门槛,让非技术用户也能“编程”,从而释放出巨大的创造力和生产力。

我们正在经历一个范式的转变,其涟漪效应远超我们的想象。当安装一个复杂软件只需要向LLM展示一篇博文时,软件的分发、维护和技术支持行业都将被重塑。当LLM能自主构建知识库时,企业咨询、市场分析和竞争情报的获取方式将发生根本性变革。那些率先理解并拥抱锯齿状能力的企业,将构建起新的护城河。他们不会因为LLM“不会洗车”而否定它,而是会精心设计一个协同系统,让LLM做它最擅长的事——处理语言、理解意图、进行开放式推理——同时用传统系统来确保物理世界的确定性。

锯齿状不是缺陷,而是蓝图。真正的挑战不在于让LLM变得更全能,而在于我们是否足够聪明,能设计出与之匹配的系统和商业模式。这需要的不是对AI的盲目崇拜,也不是对AI的苛责,而是对AI经济学的深刻理解。当资本开始流向这些agent原生的新公司,当基础设施开始为这种新模式铺路,我们或许正在见证继互联网和移动互联网之后,第三次经济形态的萌芽。

如果把这个判断再往前推一步,真正重要的不是 Fireside chat at Se…、一个脱胎换骨的"你",正于新世界诞生…、【毒系列5】毒蘑菇:从狂笑不止到肝肾衰… 本身,而是它们共同暴露出的分配逻辑。 x、bilibili 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,LLM能力的锯齿状分布不是缺陷,而是其经济与工程本质的映射,理解这种不规则性才是构建下一代agent原生经济的关键。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。