AI在线 AI在线

监督学习

统一视角下的HPT:动态融合SFT与RL,释放LLM后训练新潜能

大家好,我是肆〇柒。 今天探索一篇来自清华大学、上海AI实验室与微信AI团队的前沿研究。 这篇论文提出了一种名为HPT的创新算法,它像一位“智能教练”,能根据模型的实时表现,动态决定是该用监督学习“补基础”,还是用强化学习“练推理”,从而解决后训练中SFT与RL难以调和的矛盾,让模型性能实现质的飞跃。
9/16/2025 10:09:00 AM
肆零柒
  • 1