AI在线 AI在线

国产“数学金牌”横空出世:DeepSeek-Math-V2 开源文件已上传,性能对标 GPT-4o

11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K token。 官方同步放出 Apache2.0权重,商业限制为零,当天就冲爆服务器带宽。 数学战绩一览(零样本 CoT):- MATH 基准75.7%,与 GPT-4o(76.6%)几乎肩并肩;- AIME20244/30题,多于 Gemini1.5Pro、Claude-3-Opus;- Math Odyssey53.7%,同样跻身第一梯队 。

11月27日,DeepSeek 团队在 Hugging Face 扔出236B 参数巨兽——DeepSeek-Math-V2,采用 MoE 架构,活跃参数仅21B,上下文一口气拉到128K token。官方同步放出 Apache2.0权重,商业限制为零,当天就冲爆服务器带宽。

数学战绩一览(零样本 CoT):

- MATH 基准75.7%,与 GPT-4o(76.6%)几乎肩并肩;

- AIME20244/30题,多于 Gemini1.5Pro、Claude-3-Opus;

- Math Odyssey53.7%,同样跻身第一梯队 。

模型核心秘籍是“自验证”双引擎:Generator 先出草稿,Verifier 逐行检查,把错误打回重写,最多16轮迭代,用多数投票+元验证器压制幻觉。训练语料达 1000亿 token,囊括论文、竞赛题与合成数据,并引入 GRPO 强化学习对齐人类偏好 。

得益于代码-数学混合语料,DeepSeek-Math-V2在编程端同样凶狠:HumanEval90.2%、MBPP76.2%、SWEBench 首次让开源模型破10% 大关,直接对标 GPT-4-Turbo、Claude3Opus 。

目前模型已上线 Hugging Face,80GB 显存即可多卡推理;社区复现正火速进行。想给 AI 装一颗“数学金牌”大脑,现在只需一行 `transformers` 加载——国产开源,再次把闭源巨头的护城河切成显微镜下的裂缝。

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。
1/29/2025 6:43:00 PM
机器之心

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。
2/5/2025 2:37:00 PM
机器之心

爆肝48小时!学会这8招,让DeepSeek变得超好用!

更多相关介绍:. 重磅好文! 8个章节带你全方位了解DeepSeek这两天,DeepSeek-R1 火的飞起,在中日美三个 Appstore 榜上登顶。
2/8/2025 12:04:55 AM
解决师Blue