AI在线 AI在线

预训练数据

RLPT:用强化学习“重读”预训练数据,让大模型学会思考

大家好,我是肆〇柒。 今天要和大家分享的是一项来自腾讯大模型部门(LLM Department, Tencent) 与香港中文大学合作的前沿研究——RLPT(Reinforcement Learning on Pre-Training Data)。 面对高质量数据增长见顶、计算资源持续膨胀的矛盾,这项工作提出了一种全新的训练范式:让大模型在原始预训练数据上通过强化学习自主探索推理路径,从而突破传统监督学习的泛化瓶颈。
10/11/2025 9:23:28 AM
肆零柒

预训练不等于更强大,研究揭示大语言模型的 “灾难性过度训练” 现象

近日,来自卡内基梅隆大学、斯坦福大学、哈佛大学和普林斯顿大学的研究人员揭示了一个关于大语言模型(LLMs)训练的新发现:并不是预训练的数据越多,模型的表现就越好。 相反,他们指出,过度的预训练可能会导致模型性能下降,出现一种被称为 “灾难性过度训练” 的现象。 在一项研究中,研究者们对 OLMo-1B 模型进行了比较,分别对其进行了2.3万亿和3万亿个标记的训练。
4/14/2025 12:01:17 PM
AI在线
  • 1