昨天晚上,“DeepSeek R2提前泄露”的传言刷屏 AI 圈,原因尽然来自Hugging Face CEO 在推特的一条帖子,引发全网猜测。
帖子表达的信息有些晦涩:三个眼睛表情,配上了DeepSeek 在 Hugging Face 的仓库链接(https://huggingface.co/deepseek-ai)以及相关配图。
网友难免会联想猜测:也许DeepSeek R2 即将上线发布。
紧接着就是各种有关DeepSeekR2的离谱谣言:
一位X用户“预告”:
“Deepseek-R2 明天或周三发布,在大多数基准测试中比 o3 稍差,但便宜 97%,幻觉更少。”
当然最多疯传的则是未经证实的“参数和细节”——
(1)拥有 1.2 万亿参数,活跃参数为 780 亿,采用混合 MoE 架构
(2)成本比 GPT-4o 便宜 97.3%(输入每百万次 0.07 美元,输出每百万次 0.27 美元)
(3)使用了 5.2PB 的训练数据,在 C-Eval2.0 测试中取得了 89.7% 的得分
(4)视觉能力更强,在 COCO 测试集上达到了 92.4%
(5)某国产芯片910B利用率达82%
(6)大规模转移,远离美国供应链。
传的煞有其事,不过据小编看到业内人士对此事的反应:从疯传的部分图片来源看,是一个炒股网站。
所以,DeepSeek又被某些人“薅羊毛”了。可以肯定这些参数肯定是谣言。
另外,X上已经有别有用心的用户注册了DeepSeek R2的昵称,大家注意防诈。
不过大家对于R2的发布充满了期待,小编上周在做直播栏目时,嘉宾表示对于多模态推理方面很有期待,希望R2能给出更多的意外之喜。
截至发稿时,DeepSeek 和 Qwen 官方均未对相关传闻作出回应。