AI在线 AI在线

ReFT

强化微调 ReFT:开启大语言模型推理新范式

大家好,我是肆〇柒。 因为与合作伙伴项目的需要,最近对 RL 方面的论文关注的多了一些。 这两天,我翻出一篇去年的论文来复习。
6/26/2025 9:06:59 AM
肆零柒
  • 1