AI在线 AI在线

LN

英伟达新开源模型 Llama-Nemotron 震撼发布,推理性能超越 DeepSeek-R1

近日,英伟达正式推出了其最新开源模型系列 ——Llama-Nemotron,该系列模型不仅在推能力上超越了 DeepSeek-R1,更是在内存效率和吞吐量上实现了显著提升。 根据最新发布的技术报告,Llama-Nemotron 的训练过程与众不同,采用了合成数据监督微调与强化学习的方法,以全方位提升模型的推理能力。 Llama-Nemotron 系列模型包括 LN-Nano8B、LN-Super49B 和 LN-Ultra253B。
5/7/2025 10:01:04 AM
AI在线

归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3

来自 Facebook AI 的研究者提出了 NormFormer,该模型能够更快地达到目标预训练的困惑度,更好地实现预训练困惑度和下游任务性能。
10/27/2021 4:53:00 PM
机器之心
  • 1