AI在线 AI在线

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

鱼羊 发自 凹非寺. 量子位 | 公众号 QbitAI半成品模型,已经刷下高难度数学推理测试AIME 25满分战绩。 开源之王Qwen又在深夜放大招了。

鱼羊 发自 凹非寺

量子位 | 公众号 QbitAI

半成品模型,已经刷下高难度数学推理测试AIME 25满分战绩

开源之王Qwen又在深夜放大招了。

Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……

Qwen3“超大杯”推理版露出庐山真面目,虽然还是“早期预览版”,仍在训练中,但在当前的Checkpoint,已经能在AIME 25和HMMT25(哈佛-MIT数学竞赛)中达到100%的准确率。

什么概念?就是一整个全场看呆的节奏:

Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……

此前,AIME 25的最好成绩由GPT-5系列把持,GPT-5 Codex(high)的准确率是98.7%,GPT-5(high)是94.3%。而Qwen3 235B的成绩是91%。

Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……

△图源:Artificial Analysis

这不Ilya和奥特曼还在为当年的“真还传”扯头花嘛,有网友感叹:

这个完成度令人难以置信。OpenAI还在搞抓马,而Qwen已经默默耕耘惊艳众人。

Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……

目前,这个Qwen3-Max-Thinking的早期预览版已经可以在Qwen Chat中免费试用,API也已上线阿里云。官方承诺,训练还在继续,后续会持续更新版本。

Qwen拿半成品刷下AIME'25满分,给别人留点面子吧……

技术细节方面,Qwen官方尚未透露更多信息,但如果你感兴趣,现在就可以实测见真章。

我们已经测试了一波,以供参考。

先上经典题:小球碰撞测试。

编写一个Python程序,让一个小球在旋转的六边形内弹跳,小球运动遵循物理规律

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

Qwen3-Max-Thinking一次成功,效果很不错。

既然是AIME 25满分选手,那么接下来,我们直接上IMO竞赛题。

求所有实数α,对于任一正整数n,整数 ⌊α⌋ + ⌊2α⌋ + … + ⌊nα⌋ 一定是n的倍数。(注:⌊z⌋表示小于或等于z的最大整数。例如:⌊-π⌋ = -4,⌊2⌋ = ⌊2.9⌋ = 2。)

面对这道有数论意味的代数题,模型思考了5分钟左右,给出答案:

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

回答正确。

完整答案如下:

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

前端方面,我们用简单的提示词,要求Qwen3-Max-Thinking用Three.js构建3D太阳系。

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

一开始,模型偷了个懒,只绘制了4颗行星,并且虽然设置了控制行星运动速度的按键,但实际并没有自转和公转的效果。

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

经过人工提醒之后,Qwen3-Max-Thinking补全了八大行星,优化了前端效果,不过公转的问题还是没有解决。

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

需要说明的是,Thinking模式下,Qwen3-Max的思考时间还挺久的……如果一时间想不明白,还会出现中英文各想一遍的情况(doge)。

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

初步体验下来,Qwen3-Max-Thinking有很多值得深挖的地方,不过也正如Qwen技术负责人林俊旸所说,“要做到面面俱到确实有点难”。

我们还需要更多时间。工作尚未完成。

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

而对于网友们来说,更重要的是——

“啥时候开源?”

Qwen拿半成品刷下AIME’25满分,给别人留点面子吧……

体验地址:https://chat.qwen.ai/API地址:https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

— 完 —

相关资讯

原来,这些顶级大模型都是蒸馏的

原来,这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。 」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。 前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。
1/29/2025 6:40:00 PM 机器之心
全球开源大模型榜单揭晓,阿里通义千问独占鳌头

全球开源大模型榜单揭晓,阿里通义千问独占鳌头

近日,全球最大人工智能开源社区 Huggingface 发布了最新的开源大模型排行榜(Open LLM Leaderboard),结果显示,排名前十的开源大模型全都是基于阿里通义千问(Qwen)开源模型进行二次训练的衍生模型。 这一成就标志着 Qwen 在开源 AI 领域的主导地位,进一步推动了其在全球的影响力。 Open LLM Leaderboard 被广泛认为是当前最权威的开源大模型榜单,测试维度涵盖了多个领域,包括阅读理解、逻辑推理、数学计算及事实问答等。
2/11/2025 11:55:00 AM AI在线
IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 强化 watsonx.ai:DeepSeek-R1蒸馏版 Llama 模型上线

IBM 近日宣布,其 AI 开发平台 watsonx.ai 现已支持 DeepSeek-R1蒸馏版的 Llama3.18B和 Llama3.370B模型。 DeepSeek 通过知识蒸馏技术,利用 R1模型生成的数据对多个 Llama和 Qwen变体进行了优化,进一步提升了模型性能。 在 watsonx.ai平台上,用户可以通过两种方式使用 DeepSeek 蒸馏模型。
2/11/2025 2:25:00 PM AI在线