OpenAI 开源了！五年首发gpt-oss，本地可跑，评分逼近自家商用o4！

8月6日凌晨1点，OpenAI打破五年沉默，首次在GPT-2之后再度开源语言模型。这款名为gpt-oss的模型，并非一款，而是两个型号：gpt-oss-120b 和 gpt-oss-20b。两者都是Mixture-of-Experts 架构的推理型模型，专注于逻辑推理、步骤分解与工具调用。

8月6日凌晨1点，OpenAI打破五年沉默，首次在GPT-2之后再度开源语言模型。

这款名为gpt-oss的模型，并非一款，而是两个型号：gpt-oss-120b 和 gpt-oss-20b。

两者都是Mixture-of-Experts 架构的推理型模型，专注于逻辑推理、步骤分解与工具调用。

更重要的是，这两个模型全部以Apache 2.0协议开源，意味着任何人都可以随意使用、修改、部署，甚至商用。

这是OpenAI自2020年以来首次开源权重模型。

gpt-oss 的参数规模极具吸引力。120b模型总参数为1170亿，20b模型为209亿，并且都原生支持4-bit量化。

也就是说，20B模型压缩后仅12.8GB，16GB内存显卡即可本地运行，而120B也能在单张80GB显卡上完成部署。

OpenAI在训练阶段就使用了MXFP4低精度格式，不是简单压缩，而是让模型自学如何适应低精度，从而大幅节省资源，同时维持性能。

这种训练级别的量化，区别于后期社区自行压缩的方案，使得gpt-oss几乎没有明显的性能损失。

换言之，在过去，部署一个大模型动辄要数块高端显卡，现在一张消费级卡也能轻松上阵。

在Codeforces编程挑战中，gpt-oss-120b取得2622分，逼近OpenAI自家o4-mini的2719分（OpenAI的商用模型）。

20b版本也达到2516分，领先于DeepSeek R1等同尺寸竞品。

在AIME 2024数学竞赛中，gpt-oss-120b使用工具后达到96.6%的准确率，几乎接近o4-mini的98.7%。

在SWE-bench Verified 编程修复任务中，20B模型得分为60%，120B则为62%，距离封闭模型仅有小幅差距。

医疗领域同样展现实力，在HealthBench评测中，gpt-oss-120b的成绩几乎追平o3模型。

而在AI圈公认的“人类终极考试”测试中，gpt-oss-120b也拿下19%的得分，虽不敌o3，但在开源模型中已属佼佼者。

在社区用户实测中，gpt-oss的代码执行速度远超多数同类模型，有网友分享对比截图：当其他模型还在慢慢处理时，gpt-oss-20b三秒就完成推理。

不仅快，结果也准，特别是在数学与逻辑领域，小模型表现出极高的性价比。

当然，OpenAI也未避短。模型在事实准确性方面仍有提升空间，“幻觉”问题依然存在，尤其在知识类问答中偶有错漏。

模型卡中也明确指出，gpt-oss在“坏念头”过滤上几乎未做干预，内容审核交由开发者自行负责。

这意味着，gpt-oss虽然强大，但需要使用者具备一定的技术和伦理把控能力。

为此，OpenAI还专门制定了“最坏场景微调”安全协议，模拟模型在遭恶意训练下的风险反应。

结果显示，即便在这种极端情况下，gpt-oss也未越过“高风险”警戒线。

这一套流程不仅由OpenAI内部审核，还交由外部专家团进行评估审查。

OpenAI 开源了！五年首发gpt-oss，本地可跑，评分逼近自家商用o4！

OpenAI还推出了一个在线测试平台：https://gpt-oss.com

目前，OpenRouter平台已率先接入gpt-oss，并开放API供开发者调用。

Ollama平台也已支持该模型，并提供图形化界面与本地部署功能，大幅降低入门门槛。

从部署到调用，从云端到本地，gpt-oss的路径已经打通，甚至有用户半夜实测本地跑通20B，速度惊人。

不仅如此，gpt-oss在中文社区也快速传播，技术交流群、开发者论坛、跑分分享纷纷上线。

有网友甚至已经开始编写微调教程、垂直任务调优方案和集成案例，开源氛围迅速升温。

而整个开源AI生态，也因OpenAI此举而被彻底撼动。

过去，开源模型多由社区驱动，OpenAI则始终保持封闭姿态。而这一次，OpenAI亲自下场，直接对标DeepSeek、Qwen3、GLM4.5等国内外强手。

正如有用户评论：“OpenAI终于干了点人事。”

相关资讯