AI在线 AI在线

RL训练框架

首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合

开源框架实现100%可复现的稳定RL训练! 下图是基于Qwen3-8B进行的重复实验。 两次运行,一条曲线,实现了结果的完美重合,为需要高精度复现的实验场景提供了可靠保障。
9/27/2025 11:30:07 AM
衡宇
  • 1