AI在线 AI在线

RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开

今天凌晨,著名大模型训练平台Together.ai联合Agentica开源了创新AI Agent框架DeepSWE。 DeepSWE是基于阿里最新开源的Qwen3-32B模型之上,完全使用强化学习训练而成。 除了权重之外,训练方法、日志、数据集等所有内容也全部开源,以帮助开发人员深度学习和改进Agent。

今天凌晨,著名大模型训练平台Together.ai联合Agentica开源了创新AI Agent框架DeepSWE。

DeepSWE是基于阿里最新开源的Qwen3-32B模型之上,完全使用强化学习训练而成。

除了权重之外,训练方法、日志、数据集等所有内容也全部开源,以帮助开发人员深度学习和改进Agent。

图片

开源地址:https://huggingface.co/agentica-org/DeepSWE-Preview

根据SWE-Bench-Verified测试数据显示,DeepSWE在64k最大上下文长度和100最大环境步骤下进行评估,最终在16次运行平均的Pass@1准确率上达到了42.2%,使用混合测试时扩展(TTS)后性能进一步提升至59%,超过了所有开源Agent框架位列榜首。

DeepSWE证明了仅使用强化学习进行训练的有效性和巨大潜力。与其他开源模型相比,DeepSWE-Preview在不依赖于更强专有教师模型的蒸馏或SFT的情况下,依然能够取得了最好的性能。

图片

DeepSWE的训练基于rLLM框架,这是一个用于语言智能体后期训练的系统。该模型在64个H100 GPU上对来自R2E-Gym训练环境的4500个真实世界SWE任务进行了6天的训练。

这些任务涵盖了从解决GitHub问题到实现新代码功能和调试等复杂场景,体现了现实世界软件工程的多样性和复杂性。

在训练过程中,DeepSWE-Preview通过与环境的交互,学习如何浏览广泛的代码库、应用有针对性的代码编辑、运行shell命令进行构建和测试,并在解决实际拉取请求时迭代优化和验证解决方案。

在训练方法方面,数据集管理采用了R2E-Gym子集的4500个问题,通过过滤与SWE-Bench-Verified来自相同存储库的问题,确保训练数据的纯净性。

所有问题都被映射到单个Docker镜像中,以便于管理和执行。训练环境围绕R2E-Gym构建,该环境能够可扩展地管理高质量的可执行SWE环境。状态与动作的定义涵盖了执行Bash命令、搜索文件、文件编辑以及完成任务提交等操作。

图片

奖励机制采用稀疏结果奖励模型,即只有当LLM生成的补丁通过所有测试时才给予正奖励,否则奖励为零。为了应对训练过程中出现的扩展挑战,研究人员将Kubernetes支持集成到R2E-Gym中,实现了容器的弹性调度和自动缩放,从而能够可靠地收集数百万个轨迹,同时保持计算成本与负载成比例。

在强化学习算法方面,DeepSWE-Preview的训练采用了GRPO++算法,这是对原始GRPO算法的改进版本。GRPO++整合了来自DAPO、Dr.GRPO、LOOP/RLOO等工作的见解和创新,通过高剪辑、无KL损失、无奖励标准差、长度归一化、留一法、紧凑过滤和无熵损失等策略,实现了更稳定和性能更高的训练过程。

图片  

其中,紧凑过滤策略特别针对多轮代理场景,通过屏蔽达到最大上下文、最大步骤或超时的轨迹,防止训练期间的奖励崩溃,并鼓励代理进行跨步骤的长形式推理。

TTS则是DeepSWE-Preview实现性能提升的关键策略之一。在测试阶段,通过生成多个轨迹并选择其中正确解决问题的轨迹,DeepSWE-Preview能够显著提高其Pass@1性能。

研究人员尝试了多种TTS策略,包括基于执行的验证器和无执行的验证器,并最终采用了混合扩展策略,结合了两种范式的优势,从而实现了59.0%的性能,比当前最先进的开源权重模型高出12%。

图片

此外,研究人员还发现,对于SWE相关任务,扩展输出token的数量似乎并不有效,而滚动数量扩展则能够带来更显著的性能提升。

相关资讯

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。
1/27/2025 9:51:24 AM
AIGC开放社区

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。
2/7/2025 11:00:00 AM
AIGC Studio

李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。
2/8/2025 9:30:00 AM
新智元
  • 1