AI在线 AI在线

控制成本降低150%,用于微型反应堆的强化学习模型

编辑丨@在能源危机的当下,核能,或者说,微型核反应堆(后称核微反应堆)凭借规模化优势,成为了当下可再生能源的一大重要供应来源。 通常来说,核微反应堆的经济可行性取决于通过自主控制技术降低成本,尤其是这些反应堆与其他能源系统协同运行的时候。 密歇根大学研究人员领导了一项研究,探讨了深度强化学习(RL)模型在微反应器实时鼓控制中,特别是在负荷跟随场景中的性能。
图片

编辑丨@

在能源危机的当下,核能,或者说,微型核反应堆(后称核微反应堆)凭借规模化优势,成为了当下可再生能源的一大重要供应来源。

通常来说,核微反应堆的经济可行性取决于通过自主控制技术降低成本,尤其是这些反应堆与其他能源系统协同运行的时候。

密歇根大学研究人员领导了一项研究,探讨了深度强化学习(RL)模型在微反应器实时鼓控制中,特别是在负荷跟随场景中的性能。

该研究以「Nuclear microreactor transient and load-following control with deep reinforcement learning」为题,于 2025 年 6 月 29 日正式刊登于《Energy Conversion and Management: X》。

图片

论文链接:https://www.sciencedirect.com/science/article/pii/S2590174525002223?via%3Dihub

成果简介

在自主核控制领域的先前研究主要集中在传统的控制方法,如比例-积分-微分(PID)控制和模型预测控制(MPC),这些研究通常使用点动力学模型,忽略了中子群的时空变化。

研究团队模拟了一个来自加拿大的反应堆调节系统,使用更高精度的 MOOSE 模型,将反应堆的完整维度中子动力学和热液压模型耦合在一起。

实验中,团队首次将强化学习应用于基于汽包的实时控制,引入了一种多智能体强化学习(MARL)框架,利用反应堆的对称性提高训练效率,提升控制器性能,并释放汽包控制的全部潜力。

提高训练效率将有助于研究人员更快地对反应堆进行建模,向实时自动化核微反应器控制迈出一步,以便在远程位置或最终在太空中运行。

图片

图示:Holos-Quad微反应器设计的轴向切片。

这些紧凑型反应堆能够产生高达 20 兆瓦的热能,可以直接用作热能或转化为电能,可以很容易地运输或可能用于希望在不加油的情况下进行长途旅行的货船。

验证结果证明,与传统的比例-积分-微分(PID)控制器进行比较,包括单代理 RL 和 MARL 框架在内的 RL 控制器,可以在一系列负荷跟随场景中实现与传统 PID 控制相似甚至更优的负荷跟随性能。

图片

图示:HolosGen LLC 出示的标准 ISO 尺寸.

短暂态过程中,RL 代理将跟踪误差率降低了约一半到三分之一。氙反馈成为主要因素时,即使 RL 仅在短时场景下进行训练,其误差仍保持在 1%以内。

尽管测试时团队在功率测量中增加了高斯噪声,RL 控制器仍能保持较低的误差率,且所需的控制努力至少减少了 10%,有时候甚至高达 150%。

方法简述

作为迈向自动化的第一步,研究人员正在模拟负载跟踪,即发电厂增加或减少输出以匹配电网的电力需求。与反应器启动相比,这个过程的建模相对简单,反应器启动包括更难预测的快速变化的条件。

本研究中建模的 Holos-Quad 微反应器设计通过八个控制鼓的位置来调节功率,这些控制鼓以反应堆的中心核心为中心,中子在那里分裂铀原子以产生能量。控制鼓圆周的一侧衬有中子吸收材料碳化硼。

向内旋转时,鼓会吸收堆芯中的中子,进而使中子数量和功率降低。向外旋转铁芯可将更多的中子保持在铁芯中,从而增加功率输出。

上文中所叙述的 MARL 框架训练 8 个独立智能体控制特定的鼓,同时共享有关整个内核的信息,利用对称性成倍增加学习经验来帮助减少训练时间。

未来方向

在实际应用之前,该技术需要在更复杂、更现实的条件下进行广泛验证,但研究结果为自主核微反应器中的强化学习建立了一条更有效的前进道路。

密歇根大学核工程和放射科学助理教授、研究者 Majdi Radaieh 表示,这项研究是朝着向前数字孪生迈出的一步。接下来的目标是通过逆向校准和高保真仿真来闭合循环,以提高控制精度。

相关资讯

突破高分辨率图像推理瓶颈,复旦联合南洋理工提出基于视觉Grounding的多轮强化学习框架MGPO

本文的主要作者来自复旦大学和南洋理工大学 S-Lab,研究方向聚焦于视觉推理与强化学习优化。 先进的多模态大模型(Large Multi-Modal Models, LMMs)通常基于大语言模型(Large Language Models, LLMs)结合原生分辨率视觉 Transformer(NaViT)构建。 然而,这类模型在处理高分辨率图像时面临瓶颈:高分辨率图像会转化为海量视觉 Token,其中大部分与任务无关,既增加了计算负担,也干扰了模型对关键信息的捕捉。
7/21/2025 1:14:00 PM
机器之心

哥德尔90年前的「不完备性定理」,奠定了计算机与AI的理论基础

大神早已远去,而他的光芒仍在人间。
6/18/2021 2:19:00 PM
机器之心

美国最高法院最终裁定:维持TikTok禁令,特朗普发帖回应:意料之中应该尊重,但是否执行有待时间考虑,周受资或出席特朗普就职典礼

美最高法院最后裁定结果出来了:维持 TikTok 禁令。 美东时间,本周五,最高法院一致决定站在拜登政府一边,维持拜登总统今年 4 月 签署的《保护美国人免受外国对手控制应用法案》 。 最高法院的意见称:“毫无疑问,对于超过 1.7 亿美国人来说,TikTok 提供了一个独特而广阔的表达渠道、参与方式和社区来源。
1/18/2025 4:35:41 PM
51CTO技术栈
  • 1