AI在线 AI在线

新框架d1引领扩散模型推理进步,掀起强化学习应用新风潮

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。 近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。 这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。

在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。

image.png

这一创新的 d1框架通过两阶段的后训练策略来提升掩码大语言模型(dLLM)的性能。在第一阶段,模型通过高质量的推理轨迹进行监督微调,从而掌握基础知识和逻辑推理能力。接着,在第二阶段,研究者们引入了一种名为 diffu-GRPO 的新型策略梯度方法,这一方法专门针对掩码 dLLM 进行了优化,大幅提高了推理效率。

与以往的研究相比,d1的提出旨在解决扩散模型在强化学习后训练中的挑战。传统的自回归模型通过对生成序列的对数概率进行计算,从而优化模型的输出,而 dLLM 则因其迭代生成的特性,面临计算上的困难。为此,研究团队开发了一种高效的对数概率估计器,通过独立计算每个 token 的概率,极大地减少了计算时间并提高了训练效率。

image.png

在实验中,研究者使用 LLaDA-8B-Instruct 作为基础模型,比较了 d1-LLaDA 与仅使用 SFT 或 diffu-GRPO 训练的模型。结果显示,d1-LLaDA 在多个数学和逻辑推理测试中表现优异,远超基础模型和单一方法。这一组合式的方法不仅增强了模型的推理能力,还展示了良好的协同效应。

随着 d1框架的推出,扩散模型在推理任务中的表现将迎来新的提升,也为后续的研究提供了广阔的空间。研究者们相信,这一创新的框架将推动语言模型的进一步发展,助力更复杂的推理和逻辑任务的实现。

项目地址:https://top.aibase.com/tool/d1

相关资讯

英伟达与MIT合作推出 Fast-dLLM 框架,AI 推理速度提升 27.6 倍

近日,科技巨头英伟达联合麻省理工学院(MIT)与香港大学,发布了名为 Fast-dLLM 的新框架。 这一创新的框架旨在显著提高扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍,为人工智能的应用提供了更为强大的技术支持。  扩散模型的挑战与机遇扩散模型被视为传统自回归模型(Autoregressive Models)的有力竞争者。
6/3/2025 2:00:54 PM
AI在线

英伟达与 MIT、香港大学联手推出 Fast-dLLM 框架,推理速度提升惊人

在最近的科技进展中,英伟达与麻省理工学院(MIT)和香港大学联合推出了名为 Fast-dLLM 的新框架,显著提升了扩散模型(Diffusion-based LLMs)的推理速度,最高可达27.6倍。 这一创新的成果为语言模型的应用开辟了新天地。 扩散模型被视为自回归模型的有力竞争者,采用了双向注意力机制,使其在理论上能够实现多词元同步生成,从而加快解码速度。
6/3/2025 3:00:54 PM
AI在线

新开普:星普大模型表现出色,算力消耗显著降低

在最近的一次机构电话交流会上,新开普公司透露了其自研的星普大模型的最新测评结果。 该模型采用了 SFT(监督微调)与 RL(强化学习)的训练技术,在智能推理效果上与 DeepSeek-R1相近,且算力消耗仅为 DeepSeek-R1的1/20。 这一成果不仅彰显了新开普在人工智能领域的研发实力,同时也为降低硬件投入提供了可能。
3/7/2025 6:00:00 PM
AI在线
  • 1