AI在线 AI在线

SWE-benchVerified

OpenAI 推出 GPT-5-Codex-Mini:更轻、更快、更省的开发者专用模型

OpenAI 近日正式发布 GPT-5-Codex-Mini,这是一款专为开发者打造的高性价比编程模型,继9月推出的 GPT-5-Codex 后,再次拓宽了智能编程的应用边界。 GPT-5-Codex 基于 GPT-5架构,专注提升代码推理与生成能力,能够在真实软件工程任务中执行包括新项目创建、功能扩展、测试编写与大规模代码重构等多类复杂操作。 其在 SWE-bench Verified 基准测试中取得74.5% 的高分,超越此前的 GPT-5High(72.8%),展现出显著性能优势。
11/10/2025 11:21:27 AM
AI在线

开源新星 Kimi-Dev-72B:打破代码修复界限的 AI 神器

最近,备受关注的开源大型语言模型 Kimi-Dev-72B 正式上线,成为开发者们的新宠。 这款模型由 “月之暗面” 团队开发,专门为解决代码问题而设计,旨在提升编程效率。 Kimi-Dev-72B 在近期的 SWE-bench Verified 测试中展现了非凡的实力,尤其在修复 Docker 环境中的代码缺陷方面,表现得尤为出色。
6/17/2025 7:01:20 PM
AI在线

​月之暗面发布全新开源模型 Kimi-Dev-72B,打破编程基准记录

月之暗面(Moonshot AI)宣布推出其新开源模型 Kimi-Dev-72B,这一模型专注于软件工程任务,并在 AI 编程基准测试 SWE-bench Verified 中创下了全球最高的开源模型成绩。 Kimi-Dev-72B 以仅72亿参数量的设计,成功超越了刚发布不久的 DeepSeek-R1,后者的参数量高达671亿。 在 SWE-bench Verified 测试中,Kimi-Dev-72B 获得了60.4% 的高分,成为当前开源模型中的新标杆。
6/17/2025 4:01:40 PM
AI在线
  • 1