AI在线 AI在线

SAC Flow

稳定训练、数据高效,清华大学提出「流策略」强化学习新方法SAC Flow

本文介绍了一种用高数据效率强化学习算法 SAC 训练流策略的新方案,可以端到端优化真实的流策略,而无需采用替代目标或者策略蒸馏。 SAC FLow 的核心思想是把流策略视作一个 residual RNN,再用 GRU  门控和 Transformer Decoder 两套速度参数化。 SAC FLow 在 MuJoCo、OGBench、Robomimic 上达到了极高的数据效率和显著 SOTA 的性能。
10/18/2025 9:30:00 PM
机器之心
  • 1