AI在线 AI在线

QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)。

阿里通义千问 Qwen 团队昨日(5 月 26 日)发布 QwenLong-L1-32B 模型,是其首个通过强化学习训练的长文本情境推理模型(LRM)

在七个长文本 DocQA 基准测试中,表现超越 o3-mini 和 Qwen3-235B-A22B 等旗舰模型,与 Claude-3.7-Sonnet-Thinking 相当。

QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

QwenLong-L1-32B 模型最大的亮点,在于上下文窗口最高支持 131072 个 tokens。该模型基于 QwenLong-L1 框架开发,采用了先进的 GRPO(Group Relative Policy Optimization)和 DAPO(Direct Alignment Policy Optimizatio)算法,结合基于规则和基于模型的混合奖励函数,显著提升了模型在长上下文推理中的准确性和效率。

QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

具体而言,团队在监督微调(SFT)阶段建立一个稳健的初始策略,随后采用课程引导的分阶段强化学习技术来稳定策略演变,并结合难度感知的回顾采样策略来激励策略探索。

QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型

除了模型本身,阿里还发布了一套针对长文本推理问题的完整解决方案。该方案包含四个核心组件: 高性能的 QwenLong-L1-32B 模型、专门优化的训练数据集、创新的强化学习训练方法,以及全面的性能评估体系。

AI在线附上参考地址

  • GitHub

  • Huggingface

  • QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning

相关资讯

阿里巴巴发布 QwenLong-L1-32B:长上下文推理模型震撼登场,性能逼近 Claude-3.7

近日,阿里巴巴正式发布全新 AI 模型 QwenLong-L1-32B,一款基于强化学习(RL)优化的长上下文推理模型,标志着阿里巴巴在人工智能领域的又一重大突破。 该模型以其超长的上下文处理能力和卓越的推理性能,迅速成为业界关注的焦点。 以下是 AIbase 整理的最新资讯,带您一探这款划时代模型的全貌。
5/27/2025 10:01:21 AM
AI在线

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7

阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。 该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。 技术创新亮点QwenLong-L1-32B最大的技术突破在于其是全球首个通过强化学习训练的长文本情境推理模型。
5/27/2025 10:01:20 AM
AI在线

阿里 QwQ-32B 大模型集成至国家超算互联网平台 Chatbot 可视化对话 / API 在线调用服务

国家超算互联网平台今日发文宣布 MaaS 服务再上新:QwQ-32B 推理大模型正式集成至 Chatbot 可视化对话服务与 API 在线调用服务。
3/17/2025 7:32:12 PM
归泷(实习)
  • 1