AI在线 AI在线

动作波动率

动作波动率降低70%!清华发布工业控制专用神经网络模型 | TIV'25

深度强化学习在机器人控制 、自动驾驶等复杂决策任务中取得了巨大成功([2])。 然而,传统强化学习算法训练出的策略网络往往对观测噪声和外部扰动十分敏感,导致输出的动作信号缺乏平滑性([3-5])。 现有的平滑方法大多从时域入手,例如设计与任务高度耦合的奖励函数、对网络施加复杂的正则化约束、或构建分层策略等。
10/17/2025 9:36:45 AM
新智元
  • 1