刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

作者： 2025-06-17 09:09

在开源模型领域，DeepSeek 又带来了惊喜。上个月 28 号，DeepSeek 来了波小更新，其 R1 推理模型升级到了最新版本（0528），并公开了模型及权重。这一次，R1-0528 进一步改进了基准测试性能，提升了前端功能，减少了幻觉，支持 JSON 输出和函数调用。

在开源模型领域，DeepSeek 又带来了惊喜。

上个月 28 号，DeepSeek 来了波小更新，其 R1 推理模型升级到了最新版本（0528），并公开了模型及权重。

这一次，R1-0528 进一步改进了基准测试性能，提升了前端功能，减少了幻觉，支持 JSON 输出和函数调用。

今天，业界知名、但近期也陷入争议（曾被指出对 OpenAI、谷歌及 Meta 的大模型存在偏袒）的大模型公共基准测试平台 LMArena 公布了最新的性能排行榜，其中 DeepSeek-R1（0528）的成绩尤为引人瞩目。

其中，在文本基准测试（Text）中，DeepSeek-R1（0528）整体排名第 6，在开放模型中排名第一。

具体到以下细分领域：

在硬提示词（Hard Prompt）测试中排名第 4
在编程（Coding）测试中排名第 2
在数学（Math）测试中排名第 5
在创意性写作（Creative Writing）测试中排名第 6
在指令遵循（Intruction Fellowing）测试中排名第 9
在更长查询（Longer Query）测试中排名第 8
在多轮（Multi-Turn）测试中排名第 7

此外，在 WebDev Arena 平台上，DeepSeek-R1（0528）与 Gemini-2.5-Pro-Preview-06-05、Claude Opus 4 (20250514) 等闭源大模型并列第一，在分数上更是超过了 Claude Opus 4。

WebDev Arena 是 LMArena 团队开发的实时 AI 编程竞赛平台，让各家大语言模型进行网页开发挑战，衡量的是人类对模型构建美观且功能强大的 Web 应用能力的偏好。

DeepSeek-R1（0528）表现出来的强大性能激起了更多人使用的欲望。

还有人表示，鉴于 Claude 长期以来一直是 AI 编程领域的基准，如今 DeepSeek-R1（0528）在性能上与 Claude Opus 相当，这是一个里程碑时刻，也是开源 AI 的关键时刻。

DeepSeek-R1（0528）在完全开放的 MIT 协议下提供了领先的性能，并能与最好的闭源模型媲美。虽然这一突破在 Web 开发中最为明显，但其影响可能延伸到更广泛的编程领域。

不过，原始性能并不能定义现实世界的表现。虽然 DeepSeek-R1（0528）在技术能力上可能与 Claude 相当，但其是否可以在日常工作流程中提供媲美 Claude 的用户体验，这些需要更多的实际验证。

微软等开源AIOpsLab，可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了，一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务，实现故障的自动化检测、定位和解决问题。还具备高度的可观测性，能够收集和分析关键的遥测数据，确保对系统状态和应用环境的深入洞察。

1/27/2025 9:51:24 AM AIGC开放社区

DeepSeek开源Janus-Pro-7B：多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注，位居应用商店排行榜首位并改变了股市。随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B，该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3，并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。性能表现：小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数（约为GPT-4的1/25），却在关键测试中碾压对手：文生图质量：在GenEval测试中以80%准确率击败DALL-E 3（67%）和Stable Diffusion 3（74%）复杂指令理解：在DPG-Bench测试中达84.19%准确率，能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答：视觉问答准确率超越GPT-4V，MMBench测试得分79.2分接近专业分析模型技术突破：像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片，如同让厨师同时设计菜单和炒菜。

2/7/2025 11:00:00 AM AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型？

斯坦福李飞飞团队的一篇论文，近来在AI圈子掀起了一场飓风。他们仅用1000个样本，在16块H100上监督微调26分钟，训出的新模型s1-32B，竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力！团队也再次证明了测试时Scaling的威力。

2/8/2025 9:30:00 AM 新智元

刚刚，LMArena最新模型榜单出炉！DeepSeek-R1网页编程能力赶超了Claude Opus 4

相关资讯

微软等开源AIOpsLab，可构建自主云AI Agent

DeepSeek开源Janus-Pro-7B：多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

李飞飞、DeepSeek为何偏爱这个国产模型？