AI在线 AI在线

阿里发布 QwenLong-L1 超长文本杀器!已开源、支持 120k 长上下文、具备“翻书回溯”能力

业界普遍认为AI上下文越长越好,但这存在一个核心矛盾:模型能“吞下”海量信息,却难以真正“消化”。 面对长文,它们会忘记要点、无法深入推理,这已成为一大瓶颈。 例如,AI 能记住第1页的内容,同时理解第100页的观点,并将两者联系起来进行推理吗?

阿里发布 QwenLong-L1 超长文本杀器!已开源、支持 120k 长上下文、具备“翻书回溯”能力

业界普遍认为AI上下文越长越好,但这存在一个核心矛盾:模型能“吞下”海量信息,却难以真正“消化”。面对长文,它们会忘记要点、无法深入推理,这已成为一大瓶颈。

例如,AI 能记住第1页的内容,同时理解第100页的观点,并将两者联系起来进行推理吗? 多数情况下,答案是令人失望的。

这就像开卷考试,书太厚,你找不到答案在哪,开卷也等于零分。 研究者把这种瓶颈正式命名为“长上下文推理 RL”,强调模型必须先检索并定位片段,再进行多步逻辑链生成,而不是直接“凭存货作答”。

近日,阿里巴巴把一套可阅读 120 k token 超长文档、还能“回头修正”的训练框架“QwenLong-L1”完整开源,给上述瓶颈了一个清晰的、可行的解决思路。

阿里发布 QwenLong-L1 超长文本杀器!已开源、支持 120k 长上下文、具备“翻书回溯”能力

《QwenLong-L1: A Framework for Long-Context Reasoning RL》论文。

GitHub地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1

论文地址:https://arxiv.org/abs/2505.17667

QwenLong-L1的解法:一套“三步走”的战略

QwenLong-L1 并不是一个新模型,而是一套训练已有大模型的新方法——它采用了三阶段训练流程:

第一步有监督学习(SFT)阶段。模型在这一阶段接受的是大量经过标注的长文本推理样本,比如“从一份 20 页的财报中,找出企业未来三年关键成本控制策略”。这一步帮助模型建立对“长内容”的基础适应力:哪里该找信息?信息之间有什么逻辑链?如何根据内容生成回答?这一阶段不是靠猜答案,而是靠“看例子学”。

第二步是“分级强化”——随着文档长度逐步增加,模型被分阶段推进强化学习过程。训练初期,输入文档较短;模型表现稳定后,再逐步拉长输入。这就像教孩子写作业,从看一页材料回答问题,慢慢过渡到处理整本教材。“突然上难度”的方法常常训练崩盘,而这套“课程表”式的推进方式,使得模型策略进化更可控、更稳定。

第三步是“难题反复训练”——用最难的样本反复优化模型的策略空间。这一步被称为“困难感知的回顾采样”(Difficulty-Aware Retrospective Sampling):它刻意选择那些模型曾经做错、但又具有代表性的难题进行强化学习,从而鼓励模型尝试不同思路路径,并形成反思、回溯、验证的能力。

更妙的是,它还引入了一套混合奖励机制。 不同于传统解数学题那样“答案对就给满分”的死板规则,QwenLong-L1同时引入了“规则裁判”和“LLM裁判”。 “规则裁判”确保答案的精确性,而“LLM裁判”则从语义上判断模型生成的内容和标准答案是否意思相近。这给了模型更大的灵活性,尤其是在处理那些没有唯一标准答案的开放性问题时,效果拔群。

效果如何?它学会了“自我纠错”

阿里发布 QwenLong-L1 超长文本杀器!已开源、支持 120k 长上下文、具备“翻书回溯”能力

阿里团队在7个长文本问答(DocQA)基准上测试了QwenLong-L1。结果非常亮眼。 基于DeepSeek-R1-32B训练出的QWENLONG-L1-32B模型,其性能足以和Anthropic的Claude-3.7 Sonnet Thinking相媲美,并且优于OpenAI的o3-mini等一众强手。

但比分数更重要的,是模型在推理过程中展现出的“行为变化”。 论文提到,经过QwenLong-L1训练后,模型明显更擅长信息定位(Grounding)子目标设定(Subgoal Setting)回溯(Backtracking)和验证(Verification)

这是什么意思呢? 举个例子,一个普通模型在分析一份冗长的财报时,可能会被无关的细节带跑偏,或者陷入某个死胡同里出不来。 而QwenLong-L1训练的模型,则表现出了惊人的自我反思和纠错能力。它在推理过程中如果发现一条路走不通,会主动“回溯”,退回到上一步,排除干扰信息,然后选择另一条路继续探索,直至找到正确答案。

相关资讯

强化学习成帮凶,对抗攻击LLM有了新方法

事物都有多面性,正如水,既能载舟,亦能覆舟,还能煮粥。 强化学习也是如此。 它既能帮助 AlphaGo 击败顶级围棋棋手,还能帮助 DeepSeek-R1 获得强大的推理能力,但它也可能被恶意使用,成为攻击 AI 模型的得力武器。
3/6/2025 9:11:00 PM
机器之心

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7

阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。 该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。 技术创新亮点QwenLong-L1-32B最大的技术突破在于其是全球首个通过强化学习训练的长文本情境推理模型。
5/27/2025 10:01:20 AM
AI在线

豆包大模型团队开源RLHF框架,训练吞吐量最高提升20倍

强化学习(RL)对大模型复杂推理能力提升有关键作用,但其复杂的计算流程对训练和部署也带来了巨大挑战。 近日,字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。 这是一个灵活高效的 RL/RLHF 框架,可显著提升训练吞吐量,降低开发和维护复杂度。
11/1/2024 2:44:00 PM
新闻助手
  • 1