AI在线 AI在线

AdamW

斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出

自 2014 年提出以来,Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位,帮助模型在海量数据下保持稳定并实现较快收敛。 随着模型规模迅速扩大,预训练已成为计算密集型任务的典型代表,在大模型研发中往往是最主要的计算开销。 在这种背景下,优化器的设计直接关系到收敛速度与计算成本。
9/7/2025 4:23:00 PM
机器之心

月之暗面推出新优化器Muon,计算效率大幅提升

近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。 这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。 Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,针对小规模模型训练时表现优异。
2/24/2025 3:53:00 PM
AI在线

月之暗面联手UCLA推新模型Mixture-of-Expert,提升语言模型训练效率

在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。 然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。 研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。
2/24/2025 9:25:00 AM
AI在线
  • 1