AI在线 AI在线

实测OpenAI最新模型!亮点真的爽,坑点两行泪!解决GPT5顽疾!犀利吐槽:半发布的实验品,编程生态零件齐了,拼一块儿就散架

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)今天凌晨 1 点,OpenAI 又搞了一件让开发者大呼过瘾的产品! 图片严格地说,这次的发布是一款新模型,而且是“半发布”:GPT-5-Codex。 这是一个在 GPT-5 基础上专门微调的版本,明确面向 OpenAI 的各种 AI 编程辅助工具。

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

今天凌晨 1 点,OpenAI 又搞了一件让开发者大呼过瘾的产品!

图片图片

严格地说,这次的发布是一款新模型,而且是“半发布”:GPT-5-Codex。这是一个在 GPT-5 基础上专门微调的版本,明确面向 OpenAI 的各种 AI 编程辅助工具。

之所以说是“半发布”,是因为它目前还不能通过 API 使用,但 OpenAI 表示“计划很快在 API 中开放 GPT-5-Codex”。

这款变体新模型的最大特点,就是可以动态分配“思考时间” —— 从几秒钟到七个小时不等,根据任务复杂度灵活调整。这让它在 agentic 编程基准测试 和 代码重构评测中表现大幅提升。

图片图片

虽然没有提供API,但最酷的是:

这个模型和我们平时用的工具绑定得非常深,比如 Codex CLI、Codex Web 界面,还有 Codex 扩展。OpenAI 这一点真的帮开发者省了不少事。

据官网介绍,GPT-5-Codex 已经集成到多个 OpenAI 的编程工具中:

  • VS Code 插件
  • Codex CLI
  • Codex Cloud(异步编程代理,可通过 iPhone App 使用)
  • GitHub 集成
  • ChatGPT 产品(Plus、Pro、Business、Edu、Enterprise 用户可用)

此外,Codex Cloud 还增加了一个新功能:你可以把它配置成自动对特定 GitHub 仓库运行代码审查(可以在chatgpt.com/codex/settings/code-review 中找到这个选项),系统会为这些审查创建一个临时容器。官方文档里有详细说明。

ps:官方文档的链接,小编也为大家扒下来了:

https://developers.openai.com/codex/cloud/code-review

图片图片

1.先来看,OpenAI都做了哪些工作?

那么,这次,GPT-5-Codex 具体哪些方面提升了呢?小编概括了以下6点OpenAI 做出的改进方向。

首先,OpenAI 团队专门针对代码审查进行了训练,这正好支撑了他们的新功能。

其次,“GPT-5-Codex 会根据任务复杂度,更动态地调整思考时间。” 简单任务(如“列出当前目录文件”)运行更快,而大型复杂任务可能会运行很久 —— OpenAI 表示在某些情况下 Codex 会持续工作 七个小时

第三,在其专有的“代码重构评测”中,分数从 GPT-5 的 33.9% 提升到 GPT-5-Codex 的 51.3%。虽然没有完整评测细节很难完全理解,但至少能说明他们特别关注重构能力。

其四,“GPT-5-Codex 在创建移动网站时,在人类偏好评测中有显著提升。” 比如,之前大家一般总习惯在提示中强调:“一定要移动端友好”,现在可能不用再额外强调了。

其五,“我们发现 GPT-5-Codex 的评论更少出现错误或无关紧要的情况。” (减少代码中无用的评论,这确实是进步。)

第六,还有一个非常 Nice 的地方值得各位细读,即,Codex CLI 中 GPT-5-Codex 的系统提示词,它比其他模型的提示词明显更短。

图片图片

有手快的网友已经做了 diff 对比。

图片图片

省流版地总结一下重点:

  • 动态思考:不再像路由器那样一开始就固定算力和时间,而是能在运行过程中动态决定是否需要更多时间。
  • 代码重构:在专有评测中,GPT-5 从 33.9% 提升到 GPT-5-Codex 的 51.3%。
  • 移动网站优化:在人类偏好评测中有显著提升,移动端开发体验更好。
  • 评论质量:评论更少出错或无关紧要,减少无效信息干扰。

2.实测亮点和坑点

那么,实测效果如何呢?一位开发者已经放出了自己的测评视频,香是真的香。

网友 Theo Browne 在评测视频中表示,整体印象不错。尤其是解决了GPT-5自发布以来饱受用户诟病的“Token很快耗完”的问题。

“你们知道我对 GPT-5 最大的抱怨之一,就是它在开发任务上又慢又费 Token。而 Codex 的优化方向之一,正是这个痛点。”

图片图片

举个例子:任务复杂度不同,消耗的 Token 数差别巨大。

简单的比如“数到 10”,可能只需要 10 个 Token;

但要是你让它写 15 种语言的代码,或者数单词里有多少个字母 R,那就是另一回事了。

对于代码任务,这个跨度更夸张,从 100 个 Token 到上百万都有可能。我自己随便玩都跑到 62.8 万 Token,用着用着还多次突破 100 万。

所以, Codex 的思路是:小任务用小 Token,大任务才用大 Token。这点特别重要。

OpenAI 内部员工数据也证明了这一点:在最简单的 10% 任务里,Codex 比 GPT-5 少用了 93.7% 的 Token,几乎缩小了 20 倍。但在最复杂的 10% 任务里,Codex 反而用得更多,推理、编辑、测试都花更多时间。这就是它的灵活性。

第二个亮点,它是专门训练来做代码审查和发现关键漏洞的。

图片图片

审查时,它会在你的代码库里导航,推理依赖关系,还会实际运行代码和测试,来验证正确性。

这位尝鲜测试的网友还透露,他在和 OpenAI 员工聊天时,对方反复强调这一点:

GPT5-Codex 可不是简单的对比代码差异,而是会在云端的容器里跑你的代码、测试它、找 bug。

据爆料,OpenAI 内部还用了实际的开源项目做了测试。每个提交都由有经验的软件工程师来评估 Codex 的审查意见是否正确和有用。结果发现,GPT-5 Codex 的评论更少出错或没意义,能让用户把注意力集中在关键问题上。

Browne 表示,“大部分 AI 代码审查工具我用下来,喜欢瞎扯一堆没价值的东西。CodeRabbit 和 Codex 在这点都改进了,这点让人很暖心。甚至其他不够靠谱的工具,也可以调用 Codex 来提高审查质量。”

还有一个体验非常好的亮点。

Codex 在代码审查上表现得很强。它不只是看 diff,而是会跑代码、执行测试、找关键 bug。实际效果比大部分 AI Code Review 工具靠谱,错判少了三分之二,输出的评论也更聚焦关键问题。

不过,Codex 也有很多问题:搜索功能非常拉胯,UI 体验还不成熟,各种小 bug 让人抓狂。

例如,在使用 Codex CLI 的代码搜索工具时,表现 surprisingly 糟糕。比如环境变量管理、扩展里的交互逻辑、甚至默认用 npm 而不是你真正用的工具,都挺烦的。不过,这可以能通过优化系统提示词更新来修复。(测评者并没有要求的一些内容,Codex很莽很激进的去思考执行了!)

图片图片

尤其在UI方面,Codex 经常会出现 GPT-5很少会出现的元素重叠、分层异常的问题。

图片图片

图片图片

此外,Codex 的云端测试效果也有些让人失望。

它基本没跑出什么结果。这就是我对它的感受——半残废状态。虽然偶尔会显示一些改动,但经常胡乱幻觉,比如把模型名字编造错了——其实是 Fal/ Gemini 2.5 Flash Image / Edit,结果它给了完全假的名字。它根本没去查网页,就胡编。

说实话,云端这部分让我很失望。我用过的那些后台 agent 也都差不多,都没啥好体验。Codex 在一些基本操作上总是出问题,比如 rip grep 文件、找模型名字。我明明告诉它模型不存在,按理说它应该上网查,而不是去 node_modules 里瞎翻。

更糟的是通知系统。我拍完视频后发现 Codex 在我手机上挂了一个半小时,说任务完成了,可以开 PR,但实际上啥也没跑出来。

所以,Browne给出了这样的结论:“整体上看,新模型它还不算一个成熟的产品,更像是和我们一起成长的实验品。”

3.吐槽:Codex 名字的产品都有十个了!

吐槽 OpenAI 有一堆名字都叫 Codex 的产品(得有十来个吧),让人一头雾水。这次的新模型又往里面加了一层。

不过至少“GPT-5-Codex”这个名字(用了两个连字符)足够明确,不至于让混乱更严重。

一位知开发者大牛Simon Willson认为,可以把 Codex 理解为 OpenAI 针对编程相关模型和工具的品牌名称。

图片图片

4.如何使用?

要尝试这款新模型,需要确保先将 codex cli 更新至 v0.36.0:

复制

然后使用以下命令运行 codex:

复制复制

5.OpenAI的编程称霸路并不平坦,零件有了,但拼在一起容易散架

从 GPT-5-Codex 的推出,可以看出,OpenAI 正在为编程智能体构建一个更成熟的产品矩阵:

  • 工具链覆盖 IDE、CLI、云端、移动端、GitHub
  • 性能重点放在 代码审查、重构、移动端开发优化
  • 核心创新在于 动态思考能力,为长时任务打开了可能性

而这三点,也是今年夏天以来,奥特曼寻求重金收购 Cursor、Windsurf 未果后,给自家编程产品的三个改进信号。

在竞争白热化的 AI 编程市场,OpenAI 悟了:市场不仅是需要更棒的模型性能,同样更需要生态整合。GPT-5-Codex 可能就是他们的关键一子。

但问题就在于,这一次的整合远没有达到理想。

上述测评的开发者表示,Codex 生态的整体感觉就是:

零件都有了,但拼成完整拼图时总是散架。缺乏整体的连贯性,这是个大问题。

GPT-5 本身还是我用过的最强的 Agentic 代码模型,但 Codex 工具套件,尤其是 Web 界面和 VS Code 插件,显得很笨拙。

相比之下,我宁愿在 GPT-5 上用其他第三方工具,比如 OpenCode、KiloCode 之类。Codex CLI 在进步,但这些进步没传递到 Web 版本和编辑器扩展里。

参考链接

https://simonwillison.net/2025/Sep/15/gpt-5-codex/

https://www.youtube.com/watch?v=j9wvCrON3XA&t=253s

相关资讯

破天荒!OpenAI、Cursor多位开发大牛联手曝出GPT5提示词指南!晒官方系统提示词优化秘籍,最大化编程性能,工作流更可控

编辑 | 云昭上周,GPT-5 发布以后,不少网友对这个备受期待的新版本表示无力吐槽。 OpenAI 老板 Altman 在直播间宣称,GPT-5 在自主任务执行能力、编程、综合智能以及可控性方面都实现了显著飞跃。 然而,用户实际用起来却是:“降智”、“Token很快用完”的声讨一片。
8/15/2025 3:02:46 PM
云昭

消息称 OpenAI 新模型 GPT-5 研发遇阻,成本高昂、效果未达预期

据《华尔街日报》最新报道指出,OpenAI 正在开发的下一代大型语言模型 GPT-5 的研发进度落后于原计划,且目前取得的成果尚未达到与其巨额成本相匹配的水平。
12/22/2024 9:30:48 AM
远洋

GPT5基本玩崩了!谷歌和Meta胜算很大!AI投资人爆料:Meta承接谷歌搜索后,或收购某独角兽,OpenAI其实贼挣钱

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)临近年尾,相信很多朋友都在盘点这一年。 很多人都在有意无意地在围观大模型这场全明星球赛。 OpenAI、谷歌、Anthropic、Meta,还有马斯克的 XAI,以及AI应用层面比如Perplexity等一众新秀球员,究竟谁会技压群雄,赢得接下来的2025?
12/24/2024 6:13:34 PM
言征
  • 1