AI在线 AI在线

刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4

在开源模型领域,DeepSeek 又带来了惊喜。 上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。 这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。

在开源模型领域,DeepSeek 又带来了惊喜。

上个月 28 号,DeepSeek 来了波小更新,其 R1 推理模型升级到了最新版本(0528),并公开了模型及权重。

这一次,R1-0528 进一步改进了基准测试性能,提升了前端功能,减少了幻觉,支持 JSON 输出和函数调用。

图片

今天,业界知名、但近期也陷入争议(曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒)的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜,其中 DeepSeek-R1(0528)的成绩尤为引人瞩目。

图片

其中,在文本基准测试(Text)中,DeepSeek-R1(0528)整体排名第 6,在开放模型中排名第一。

图片

具体到以下细分领域:

  • 在硬提示词(Hard Prompt)测试中排名第 4
  • 在编程(Coding)测试中排名第 2
  • 在数学(Math)测试中排名第 5
  • 在创意性写作(Creative Writing)测试中排名第 6
  • 在指令遵循(Intruction Fellowing)测试中排名第 9
  • 在更长查询(Longer Query)测试中排名第 8
  • 在多轮(Multi-Turn)测试中排名第 7

图片

此外,在 WebDev Arena 平台上,DeepSeek-R1(0528)与 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等闭源大模型并列第一,在分数上更是超过了 Claude Opus 4。

图片

WebDev Arena 是 LMArena 团队开发的实时 AI 编程竞赛平台,让各家大语言模型进行网页开发挑战,衡量的是人类对模型构建美观且功能强大的 Web 应用能力的偏好。

DeepSeek-R1(0528)表现出来的强大性能激起了更多人使用的欲望。

图片

还有人表示,鉴于 Claude 长期以来一直是 AI 编程领域的基准,如今 DeepSeek-R1(0528)在性能上与 Claude Opus 相当,这是一个里程碑时刻,也是开源 AI 的关键时刻。

DeepSeek-R1(0528)在完全开放的 MIT 协议下提供了领先的性能,并能与最好的闭源模型媲美。虽然这一突破在 Web 开发中最为明显,但其影响可能延伸到更广泛的编程领域。

不过,原始性能并不能定义现实世界的表现。虽然 DeepSeek-R1(0528)在技术能力上可能与 Claude 相当,但其是否可以在日常工作流程中提供媲美 Claude 的用户体验,这些需要更多的实际验证。

图片

相关资讯

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元
  • 1