当 OpenAI 在今天宣布对自家的 Codex APP 做出重大升级时,少有人预料这不是一场简单的版本迭代,而是一次野心勃勃的尝试 —— 把原本专注于写代码的智能体,拉进真实世界的 “电脑助理” 战场。最新的 Codex App 不仅继续作为开发者的 多 Agent 管理中心,还能真正 操作 macOS 中的 App,就像一个真实用户一样看到界面、点击按钮、输入内容甚至发布内容。

用一句戏谑的话形容现在的 Codex 就像看一只刚学会走路的机器人:功能近乎“科幻”,执行却还带着几分笨拙。

做了两个测试:让 Codex 在 X网页端发一条帖子,再让它在 微博 App 里发一条微博。结果是耐心与希望的双重打击。X 上那条“Post by codex app”贴花了它整整 10 分钟,而且期间还有几次卡住;微博那边表现稍好一点,大致无中断,但也要将近 8 分钟。整个任务进度看起来像老式下载进度条,而不是现在 AI 的速度。

这速度慢得令人怀疑自己是不是把智能体掉进了 10 年前的 dial‑up 网络里。

为什么会这样?答案既在技术前沿,也在产品阶段性现实里。新版 Codex 确实做了三件非常重要、也是长期意义深远的事:

首先,它不仅是代码机器,而是能 跨程序、跨界面执行动作的智能体——可以在没有 API 的 App 里直接“看”和“点”。这是很多 AI 设想已久却少有人真正实现的能力。

其次,最新版本加入了 本地浏览器、线程自动唤醒、记忆功能和后台自动化任务,让它不再局限于交互式命令,而像是 一个能自行调度、有记忆的队友。

最后,OpenAI 甚至明确想把它打造成一个真正的 电脑助理平台,而非只是在 IDE 里帮你写代码的小工具。它的设计逻辑正在从“辅助开发者写代码”转向“在电脑上替你完成各种任务”。

但现实是,野心很大、落地很慢。这段过渡期的最大痛点在于:

* 它的动作链条太长,就像机器人一样每做一个动作都要思考很久:解析指令 → 找 UI → 等待界面反馈 → 操作 → 校验 → 再下一步,每一环都有延迟。

* 与真实应用交互没有像 API 那样精确且可控,它更多是通过视觉识别和模拟鼠标键盘来完成,这种方法天然就慢且脆弱。

* 即便是在微博这种表现稍好、稳定性更高的平台,它也花了近 8 分钟才能走完流程,这在真正的生产场景下几乎不可用。

所以现在的 Codex 有点像站在跑道上的飞行器雏形,装上引擎但还没跑够足够的距离起飞。

不过,若从更长的视角看,这真是一个 里程碑式的第一步。在过去,想象 AI 能跨应用自主工作几乎等同于科幻小说,现在至少它已经做出来了——虽然很慢、很不稳定、还需要人类多次干预,但这正是技术成熟的必经之路。没有哪个伟大的产品是一上线就完美、无瑕疵的。

归根结底,这一更新不仅展示了 OpenAI 的技术方向,也暴露了 AI agent 真正落地的核心难题:在现实、多变、人机界面不统一的世界里执行任务比在封闭代码环境里生成代码要难得多。

可以预见的是,如果未来几代的 Codex 能够:

* 显著提高操作速度,

* 减少人为干预,

* 更加智能地预判下一步操作,

那么真正意义上的电脑代理人离我们就不再是科幻,而是一件日常工具。

最后,用一句比喻结束这篇评论:
现在的 Codex,就像是一位初学者司机开着自动驾驶概念车在城市路口游走 —— 能看得懂红绿灯、能踩油门、能停车,但每多一点复杂动作,就需要你在旁边握着方向盘。

这或许不是一个“成熟的产品”,但绝对是一个充满未来感的起点。