AI在线 AI在线

RND1-Base

Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录

扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, AR)不同,DLM 能实现并行生成,这在理论上可以实现更快的生成速度,也能让模型基于前后文更好地理解生成语境。 然而,尽管其潜力巨大,DLM 的训练仍然充满挑战,主要原因是它在 scaling 上的效率相对低于 AR 模型。 例如,直接训练 DLM 需要在有限的数据集上进行更多次迭代,才能超越直接训练的 AR 模型。
10/12/2025 4:00:00 PM
机器之心
  • 1