实测OpenAI最新模型！亮点真的爽，坑点两行泪！解决GPT5顽疾！犀利吐槽：半发布的实验品，编程生态零件齐了，拼一块儿就散架

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）今天凌晨 1 点，OpenAI 又搞了一件让开发者大呼过瘾的产品！图片严格地说，这次的发布是一款新模型，而且是“半发布”：GPT-5-Codex。这是一个在 GPT-5 基础上专门微调的版本，明确面向 OpenAI 的各种 AI 编程辅助工具。

编辑 | 云昭

出品 | 51CTO技术栈（微信号：blog51cto）

今天凌晨 1 点，OpenAI 又搞了一件让开发者大呼过瘾的产品！

图片

严格地说，这次的发布是一款新模型，而且是“半发布”：GPT-5-Codex。这是一个在 GPT-5 基础上专门微调的版本，明确面向 OpenAI 的各种 AI 编程辅助工具。

之所以说是“半发布”，是因为它目前还不能通过 API 使用，但 OpenAI 表示“计划很快在 API 中开放 GPT-5-Codex”。

这款变体新模型的最大特点，就是可以动态分配“思考时间” —— 从几秒钟到七个小时不等，根据任务复杂度灵活调整。这让它在 agentic 编程基准测试 和 代码重构评测中表现大幅提升。

图片

虽然没有提供API，但最酷的是：

这个模型和我们平时用的工具绑定得非常深，比如 Codex CLI、Codex Web 界面，还有 Codex 扩展。OpenAI 这一点真的帮开发者省了不少事。

据官网介绍，GPT-5-Codex 已经集成到多个 OpenAI 的编程工具中：

VS Code 插件
Codex CLI
Codex Cloud（异步编程代理，可通过 iPhone App 使用）
GitHub 集成
ChatGPT 产品（Plus、Pro、Business、Edu、Enterprise 用户可用）

此外，Codex Cloud 还增加了一个新功能：你可以把它配置成自动对特定 GitHub 仓库运行代码审查（可以在chatgpt.com/codex/settings/code-review 中找到这个选项），系统会为这些审查创建一个临时容器。官方文档里有详细说明。

ps：官方文档的链接，小编也为大家扒下来了：

https://developers.openai.com/codex/cloud/code-review

图片

1.先来看，OpenAI都做了哪些工作？

那么，这次，GPT-5-Codex 具体哪些方面提升了呢？小编概括了以下6点OpenAI 做出的改进方向。

首先，OpenAI 团队专门针对代码审查进行了训练，这正好支撑了他们的新功能。

其次，“GPT-5-Codex 会根据任务复杂度，更动态地调整思考时间。” 简单任务（如“列出当前目录文件”）运行更快，而大型复杂任务可能会运行很久 —— OpenAI 表示在某些情况下 Codex 会持续工作 七个小时。

第三，在其专有的“代码重构评测”中，分数从 GPT-5 的 33.9% 提升到 GPT-5-Codex 的 51.3%。虽然没有完整评测细节很难完全理解，但至少能说明他们特别关注重构能力。

其四，“GPT-5-Codex 在创建移动网站时，在人类偏好评测中有显著提升。” 比如，之前大家一般总习惯在提示中强调：“一定要移动端友好”，现在可能不用再额外强调了。

其五，“我们发现 GPT-5-Codex 的评论更少出现错误或无关紧要的情况。” （减少代码中无用的评论，这确实是进步。）

第六，还有一个非常 Nice 的地方值得各位细读，即，Codex CLI 中 GPT-5-Codex 的系统提示词，它比其他模型的提示词明显更短。

图片

有手快的网友已经做了 diff 对比。

图片

省流版地总结一下重点：

动态思考：不再像路由器那样一开始就固定算力和时间，而是能在运行过程中动态决定是否需要更多时间。
代码重构：在专有评测中，GPT-5 从 33.9% 提升到 GPT-5-Codex 的 51.3%。
移动网站优化：在人类偏好评测中有显著提升，移动端开发体验更好。
评论质量：评论更少出错或无关紧要，减少无效信息干扰。

2.实测亮点和坑点

那么，实测效果如何呢？一位开发者已经放出了自己的测评视频，香是真的香。

网友 Theo Browne 在评测视频中表示，整体印象不错。尤其是解决了GPT-5自发布以来饱受用户诟病的“Token很快耗完”的问题。

“你们知道我对 GPT-5 最大的抱怨之一，就是它在开发任务上又慢又费 Token。而 Codex 的优化方向之一，正是这个痛点。”

图片

举个例子：任务复杂度不同，消耗的 Token 数差别巨大。

简单的比如“数到 10”，可能只需要 10 个 Token；
但要是你让它写 15 种语言的代码，或者数单词里有多少个字母 R，那就是另一回事了。
对于代码任务，这个跨度更夸张，从 100 个 Token 到上百万都有可能。我自己随便玩都跑到 62.8 万 Token，用着用着还多次突破 100 万。

所以， Codex 的思路是：小任务用小 Token，大任务才用大 Token。这点特别重要。

OpenAI 内部员工数据也证明了这一点：在最简单的 10% 任务里，Codex 比 GPT-5 少用了 93.7% 的 Token，几乎缩小了 20 倍。但在最复杂的 10% 任务里，Codex 反而用得更多，推理、编辑、测试都花更多时间。这就是它的灵活性。

第二个亮点，它是专门训练来做代码审查和发现关键漏洞的。

图片

审查时，它会在你的代码库里导航，推理依赖关系，还会实际运行代码和测试，来验证正确性。

这位尝鲜测试的网友还透露，他在和 OpenAI 员工聊天时，对方反复强调这一点：

GPT5-Codex 可不是简单的对比代码差异，而是会在云端的容器里跑你的代码、测试它、找 bug。

据爆料，OpenAI 内部还用了实际的开源项目做了测试。每个提交都由有经验的软件工程师来评估 Codex 的审查意见是否正确和有用。结果发现，GPT-5 Codex 的评论更少出错或没意义，能让用户把注意力集中在关键问题上。

Browne 表示，“大部分 AI 代码审查工具我用下来，喜欢瞎扯一堆没价值的东西。CodeRabbit 和 Codex 在这点都改进了，这点让人很暖心。甚至其他不够靠谱的工具，也可以调用 Codex 来提高审查质量。”

还有一个体验非常好的亮点。

Codex 在代码审查上表现得很强。它不只是看 diff，而是会跑代码、执行测试、找关键 bug。实际效果比大部分 AI Code Review 工具靠谱，错判少了三分之二，输出的评论也更聚焦关键问题。

不过，Codex 也有很多问题：搜索功能非常拉胯，UI 体验还不成熟，各种小 bug 让人抓狂。

例如，在使用 Codex CLI 的代码搜索工具时，表现 surprisingly 糟糕。比如环境变量管理、扩展里的交互逻辑、甚至默认用 npm 而不是你真正用的工具，都挺烦的。不过，这可以能通过优化系统提示词更新来修复。（测评者并没有要求的一些内容，Codex很莽很激进的去思考执行了！）

图片

尤其在UI方面，Codex 经常会出现 GPT-5很少会出现的元素重叠、分层异常的问题。

图片

此外，Codex 的云端测试效果也有些让人失望。

它基本没跑出什么结果。这就是我对它的感受——半残废状态。虽然偶尔会显示一些改动，但经常胡乱幻觉，比如把模型名字编造错了——其实是 Fal/ Gemini 2.5 Flash Image / Edit，结果它给了完全假的名字。它根本没去查网页，就胡编。
说实话，云端这部分让我很失望。我用过的那些后台 agent 也都差不多，都没啥好体验。Codex 在一些基本操作上总是出问题，比如 rip grep 文件、找模型名字。我明明告诉它模型不存在，按理说它应该上网查，而不是去 node_modules 里瞎翻。
更糟的是通知系统。我拍完视频后发现 Codex 在我手机上挂了一个半小时，说任务完成了，可以开 PR，但实际上啥也没跑出来。

所以，Browne给出了这样的结论：“整体上看，新模型它还不算一个成熟的产品，更像是和我们一起成长的实验品。”

3.吐槽：Codex 名字的产品都有十个了！

吐槽 OpenAI 有一堆名字都叫 Codex 的产品（得有十来个吧），让人一头雾水。这次的新模型又往里面加了一层。

不过至少“GPT-5-Codex”这个名字（用了两个连字符）足够明确，不至于让混乱更严重。

一位知开发者大牛Simon Willson认为，可以把 Codex 理解为 OpenAI 针对编程相关模型和工具的品牌名称。

图片

4.如何使用？

要尝试这款新模型，需要确保先将 codex cli 更新至 v0.36.0：

复制

然后使用以下命令运行 codex：

复制复制

5.OpenAI的编程称霸路并不平坦，零件有了，但拼在一起容易散架

从 GPT-5-Codex 的推出，可以看出，OpenAI 正在为编程智能体构建一个更成熟的产品矩阵：

工具链覆盖 IDE、CLI、云端、移动端、GitHub
性能重点放在 代码审查、重构、移动端开发优化
核心创新在于 动态思考能力，为长时任务打开了可能性

而这三点，也是今年夏天以来，奥特曼寻求重金收购 Cursor、Windsurf 未果后，给自家编程产品的三个改进信号。

在竞争白热化的 AI 编程市场，OpenAI 悟了：市场不仅是需要更棒的模型性能，同样更需要生态整合。GPT-5-Codex 可能就是他们的关键一子。

但问题就在于，这一次的整合远没有达到理想。

上述测评的开发者表示，Codex 生态的整体感觉就是：

零件都有了，但拼成完整拼图时总是散架。缺乏整体的连贯性，这是个大问题。

GPT-5 本身还是我用过的最强的 Agentic 代码模型，但 Codex 工具套件，尤其是 Web 界面和 VS Code 插件，显得很笨拙。
相比之下，我宁愿在 GPT-5 上用其他第三方工具，比如 OpenCode、KiloCode 之类。Codex CLI 在进步，但这些进步没传递到 Web 版本和编辑器扩展里。

参考链接

https://simonwillison.net/2025/Sep/15/gpt-5-codex/

https://www.youtube.com/watch?v=j9wvCrON3XA&t=253s

实测OpenAI最新模型！亮点真的爽，坑点两行泪！解决GPT5顽疾！犀利吐槽：半发布的实验品，编程生态零件齐了，拼一块儿就散架

1.先来看，OpenAI都做了哪些工作？

2.实测亮点和坑点

3.吐槽：Codex 名字的产品都有十个了！

4.如何使用？

5.OpenAI的编程称霸路并不平坦，零件有了，但拼在一起容易散架

参考链接

相关资讯

破天荒！OpenAI、Cursor多位开发大牛联手曝出GPT5提示词指南！晒官方系统提示词优化秘籍，最大化编程性能，工作流更可控

消息称 OpenAI 新模型 GPT-5 研发遇阻，成本高昂、效果未达预期

GPT5基本玩崩了！谷歌和Meta胜算很大！AI投资人爆料：Meta承接谷歌搜索后，或收购某独角兽，OpenAI其实贼挣钱