当AI既像爱因斯坦又像傻瓜:理解LLM的锯齿形能力图景
同一个模型能重构10万行代码,却告诉你走路去洗车。这种能力的不一致不是bug,而是LLM架构的必然特征。只有接受并利用这种锯齿形分布,我们才能真正进入agent原生经济的时代。
核心观点:LLM能力的锯齿形分布并非偶然缺陷,而是由训练数据分布的RL路径和商业回报共同塑造的系统性特征,理解这一特征是从使用工具到构建agent原生经济的关键前提。
如果你使用过GPT-4、Claude或其他前沿LLM,一定遇到过这种令人困惑的体验:它刚刚帮你完成了一次复杂的代码重构,逻辑清晰、边界处理妥当;下一秒,你问一个常识性问题,它却给出一个荒谬的回答,仿佛一个资深的专业人士突然变成了笨蛋。这种极端的能力不一致,在AI研究社区被称为“锯齿形能力分布”。它不是偶然的缺陷,而是当前LLM架构的核心特征之一,也是我们从“把LLM当工具”过渡到“构建agent原生经济”必须跨越的认知门槛。
知名AI学者Karpathy在最近的一次演讲中,将这种锯齿形的根源归结为两个因素:可验证性和商业回报。可验证性意味着,在那些能够自动检查正确性的领域(比如编程、数学),模型通过RL训练可以快速收敛到高水平,因为这些领域的输出可以轻松被测试和反馈。而商业回报则决定了,哪些领域被AI实验室优先纳入训练数据的强化学习分布。编程之所以表现优异,不仅因为代码可验证,更因为全世界有数千万开发者愿意为此付费。相反,那些模糊的、难以自动验证的领域(比如情感判断、日常计划),即使对用户很重要,也难以在RL训练中得到充分优化。
这个框架揭示了一个令人不安的真相:LLM的“聪明”是被精心引导出来的,而它的“愚蠢”则反映了训练资源配置的经济学。你遭遇的每一次低级错误,本质上都是商业选择的结果。这不是说模型不够智能,而是说它的智能是选择性的——它在你支付的领域表现得像一个专家,而在其他领域则像一个业余爱好者。这种选择性智能,使得LLM成为一个既强大又不可靠的工具。你不能因为它在代码上的出色表现,就无条件信任它在其他任何领域的判断。
但恰恰是这种能力分布的不完美,催生了一个新的范式:agent原生经济。Karpathy提出了一个引人深思的框架:将产品和服务分解为传感器、执行器和逻辑,然后在三个计算范式(Software 1.0的传统代码、2.0的神经网络、3.0的LLM推理)中分配任务。核心思想是:不要试图让LLM做所有事,而要让它在最适合的地方发挥作用。例如,用自然语言写一个安装指南(.md文件),传统上需要写脚本(.sh文件)来精确控制每一步;但有了LLM,你可以把指令写成文字,让LLM自己理解并执行,它甚至能根据你的系统环境自动调整。这种“安装技能”的范式切换,将LLM的弱点(模糊性)和优点(适应性)融为了一体。
这个经济形态的落地,不仅需要技术上的架构设计,更需要一场认知变革:接受LLM的局限性,而不是幻想一个全能的通用智能。在agent原生经济中,成功的关键不是追求能力的平均化,而是设计一种协作模式,让LLM在自己擅长的领域(可验证的、有明确边界的任务)发挥作用,同时用传统代码或人工干预来弥补它的短板。这意味着AI产品的设计者必须成为“能力边界”的专家,像工程师理解边界条件一样理解LLM的锯齿形曲线。
反对者可能会说,这种局限性只是暂时的——随着RL技术的进步和训练数据的丰富,LLM的能力会趋于平滑。但从目前的技术趋势看,即使未来模型变得更强大,能力和可靠性之间的平衡依然是一个工程和商业选择。OpenAI和Google的资源配置不可能无限扩宽训练领域,它们必然优先服务于最大利润任务。因此,锯齿形能力分布可能不是LLM的过渡态,而是它的常态。
这也解释了为什么“agent原生经济”这个词在硅谷变得如此热门。它不是又一个技术噱头,而是一个务实的应对策略:既然LLM不可能全能,我们就围绕它的能力峰值来设计系统和商业模式。你不需要一个完美的AI,只需要一个在特定任务上足够优秀的AI,配合优雅的编排机制,就能创造巨大的商业价值。
总的来说,LLM的锯齿形能力不是需要被“修复”的缺陷,而是一种需要被“设计适配”的特征。理解这一点,我们才能从“惊叹AI的智能”走向“利用AI的不完美”。agent原生经济的核心,正是把这种不完美转化为系统设计的优势,让AI做它擅长的事,而把不擅长的事留给其他工具或人。未来几年,那些最早学会与不完美AI共舞的公司,将获得最强的竞争护城河。
如果把这个判断再往前推一步,真正重要的不是 Advanced memory + p…、Improvements and ne…、史上首款2nm芯片有多强?三星Exyn… 本身,而是它们共同暴露出的分配逻辑。 reddit、bilibili 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,LLM能力的锯齿形分布并非偶然缺陷,而是由训练数据分布的RL路径和商业回报共同塑造的系统性特征,理解这一特征是从使用工具到构建agent原生经济的关键前提。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。
参考来源
- Advanced memory + project continuity for AI coding agents, from a biologist’s view. - https://www.reddit.com/r/ClaudeAI/comments/1tp9u0q/advanced_memory_project_continuity_for_ai_coding/
- Improvements and new features since launch - https://www.reddit.com/r/inZOI/comments/1tpjvpg/improvements_and_new_features_since_launch/
- 史上首款2nm芯片有多强?三星Exynos 2600性能分析! - https://www.bilibili.com/video/BV1bwVp67Eey