一个开发者用Opus 4.6系统性地‘审问’了Claude 4.7,发现了三个根本性问题:默认努力级别被调低、优化行为异常、以及公司文档与实际情况不符。这不是一个孤立的版本缺陷,而是AI行业普遍存在的‘暗中调整’现象。当AI公司可以随时在用户不知情的情况下改变模型行为,用户实际上是在与一个不断变化、无法预测的黑箱打交道。我们需要的不是更好的模型,而是更透明的模型治理。

核心观点:Claude 4.7的性能争议并非技术故障,而是AI公司对模型行为进行隐蔽调整的结果,这种‘黑箱优化’正在破坏用户对AI系统的信任基础,而唯一有效的应对是建立独立、透明的模型行为审计机制。

四月,一个关于Claude 4.7性能下降的讨论在技术社区引发了持续发酵。一位开发者没有像大多数人那样抱怨‘模型变笨了’或‘输出质量下降了’,而是做了一件更系统的事情:他用Opus 4.6,以结构化的提示词、独立的来源验证和交叉审问的方式,对Claude 4.7的优化行为进行了全面审计。结果发现,所谓的‘性能下降’,其背后有三个根本原因:默认的努力级别设置不当、API文档与实际行为不符、以及关键参数在用户不知情的情况下被调整。

这不是一个关于版本号的故事。这是一个关于AI公司如何在不透明的状态下控制模型行为的故事。Claude 4.7的‘问题’其实很简单:它的默认努力级别被设置成了‘高’,但Anthropic自己的文档明确指出,对于编程和代理工作,应该使用‘极高’级别。而更令人不安的是,在三月,Claude Code的默认努力级别甚至被悄悄降低到了‘中’,直到四月七日才被调回‘高’。整个过程没有任何公告,没有版本说明,用户只能通过自己反复的试验和对比才能发现。

想象一下,你购买了一辆车,但制造商可以随时在后台调整发动机的功率、刹车灵敏度,甚至燃油效率,而不告诉你。你今天开的车,和昨天开的,在行为上可能完全不同。AI模型现在就是这辆车。你从同一家公司的同一个API端点调用的同一个模型,可能因为公司内部的一个参数调整,就从‘好用’变成了‘难用’。而你什么都不知道。

这种‘黑箱优化’的根源在于,AI公司对模型的控制权远远超过了用户的知情权和选择权。在传统的软件时代,你购买的每个版本都是固定的;你可以选择升级,也可以选择不升级。但在AI时代,模型是持续在线的,公司可以随时推送更新、调整参数,而用户几乎没有拒绝的能力。你甚至不知道模型的行为已经发生了变化,直到你开始发现问题。

更糟糕的是,公司对这种调整往往采取‘不否认、不确认’的态度。当用户投诉模型性能下降时,公司可能会说‘我们正在优化模型’或‘这是正常行为变化’,但很少会承认具体调整了什么。这种不透明性,实际上是在消费用户的信任。

从商业角度看,这种调整有其合理性。AI公司需要平衡性能、成本、安全等多重目标。默认使用‘中’努力级别可以降低计算成本,提高吞吐量,但代价是输出质量下降。如果公司告知用户‘我们降低了努力级别以节省成本’,用户可能会接受,或者选择自行调整参数。但公司选择了沉默。这是一种精明的商业策略,也是一种危险的信任侵蚀。

批评者可能会说,用户完全可以自己设置努力级别,API文档也写得清楚。但这忽略了一个事实:绝大多数用户不是AI专家,他们相信默认设置就是最佳设置。当一家公司明知默认设置不是最佳,却仍然不进行修改,或者修改后不告知用户,这本身就是一种失责。

当前,AI行业正在经历一场从‘技术竞赛’到‘信任竞赛’的转变。早期的技术优势可以让公司无视用户的不满,但现在已经不是这样了。随着越来越多的人将AI用于关键任务——医疗诊断、法律咨询、财务决策——模型行为的可预测性和透明度变得至关重要。如果用户不能相信今天调用的模型会和明天调用的模型行为一致,那么AI系统就永远无法成为可靠的工具。

解决方案并非完全否定优化,而是建立一套透明的模型行为审计机制。就像金融行业需要审计师来检查账目一样,AI行业需要独立第三方来审计模型的行为变化。用户应该被明确告知:这个版本和上一个版本相比,哪些参数被调整了,调整的原因是什么,预期的影响是什么。这不是强加给公司的负担,而是建立长期信任的必要投资。

从更宏观的视角看,Claude 4.7的争议是整个AI行业治理缺陷的一个缩影。当AI公司可以随意改变模型行为而不受有效监督时,用户实际上是在租用一个不可预测的服务,而不是购买一个可靠的工具。这种局面不改变,AI的真正潜力就无法释放。

或许,我们需要重新定义什么是‘好’的AI模型。不再仅仅是‘输出质量高’,而是‘行为可预测’、‘变化可追溯’、‘决策可解释’。在这一点上,AI行业可以向传统软件工程学习:版本号、变更日志、发布说明,这些看似繁琐的流程,恰恰是建立信任的基石。

如果把这个判断再往前推一步,真正重要的不是 Whats wrong with 4.…、美伊谈判反复拉扯,霍尔木兹海峡或将变成…、How I Traced a Memo… 本身,而是它们共同暴露出的分配逻辑。 reddit、bilibili 在同一轮里把注意力推向同一问题,通常意味着这个主题正在从圈层内部经验,转向更可共享的公共议题。 这也是为什么这种内容值得写成长文:短帖只负责提醒你“这里有事发生”,但只有长文才能把背景、代价、误判空间和后续影响放到同一张桌面上。 换句话说,Claude 4.7的性能争议并非技术故障,而是AI公司对模型行为进行隐蔽调整的结果,这种‘黑箱优化’正在破坏用户对AI系统的信任基础,而唯一有效的应对是建立独立、透明的模型行为审计机制。 之所以重要,不是因为它看上去新,而是因为它会重新定义用户接下来应该如何理解这一类内容。