通过深度强化学习避免融合等离子体撕裂不稳定性

DIII-D

DIII-D 国家聚变设施位于美国圣地亚哥通用原子公司,是一家领先的研究设施,致力于通过实验和理论研究推进聚变能领域的发展。 该设施是 DIII-D 托卡马克装置的所在地,它是美国最大、最先进的磁聚变装置。 DIII-D 的长半径和短半径分别为 1.67 m 和 0.67 m。 环形磁场可达2.2T,等离子体电流可达2.0MA,外部加热功率可达23MW。 DIII-D 配备高分辨率实时等离子体诊断系统,包括汤姆逊散射系统45电荷交换复合46 EFIT 光谱学和磁流体动力学重建37,39。 这些诊断工具可以实时分析电子密度、电子温度、离子温度、离子旋转、压力、电流密度和安全系数。 此外,DIII-D可以通过对八个不同方向的不同中性光束进行可靠的高频调制,进行灵活的总光束功率和扭矩控制。 因此,DIII-D是验证和利用我们的AI控制器实时观察等离子体状态并操纵执行器的最佳实验设备。

等离子控制系统

DIII-D 托卡马克的独特功能之一是其先进的 PCS47,这使得研究人员能够实时精确地控制和操纵等离子体。 这使得研究人员能够研究等离子体在各种条件下的行为,并测试控制和稳定等离子体的想法。 PCS由实时控制器的分层结构组成,从磁控制系统(低级控制)到轮廓控制系统(高级控制)。 我们的撕裂避免算法也在 DIII-D PCS 的分层结构中实现,并与现有的下层控制器集成,例如等离子体边界控制算法39,41 和单独光束控制算法40

撕裂不稳定

磁重联是指在磁化等离子体中,由于磁通量的扩散,磁力线被撕裂又重新连接的现象(p)通过等离子体电阻率。 这种磁重联是一种普遍存在的事件,发生在不同的环境中,例如太阳大气层、地球磁层、等离子体推进器和托卡马克等实验室等离子体。 在托卡马克的嵌套磁场结构中,表面的磁重联 q 变成有理数会导致形成分离的磁力线,从而形成磁岛。 当这些岛屿长大并变得不稳定时,称为撕裂不稳定。 撕裂不稳定性的增长率通常取决于撕裂稳定性指数, D′,如方程(2)。

$${varDelta }^{{prime} }equiv {left[frac{1}{psi }frac{{rm{d}}psi }{{rm{d}}x}right]}_{x=0-}^{x=0+}$$

(2)

在哪里 X 是与有理面的径向偏差。 什么时候 D‘ 为正值,磁拓扑变得不稳定,导致(经典)撕裂不稳定性发展。 然而,即使当 D‘ 为负(经典撕裂不稳定性不会增长),由于几何形状的影响或带电粒子的漂移,可能会出现“新古典”撕裂不稳定性,这会放大种子扰动。 随后,改变的磁性拓扑要么饱和,要么无法进一步增长48,49,或者可以与其他磁流体动力学事件或等离子体湍流耦合50,51,52,53。 了解和控制这些撕裂不稳定性对于在托卡马克中实现稳定和可持续的聚变反应至关重要54

ITER基准情景

ITER基线情景(IBS)是为ITER实现聚变功率而设计的运行条件 融合= 500 MW,聚变增益为 ==融合 /外部的 = 10 持续时间超过 300 秒(参考 12)。 与目前的托卡马克实验相比,IBS 条件以其相当低的边缘安全系数而著称( q95 ≈ 3) 和环形扭矩。 与其他设备相比,通过 PCS,DIII-D 能够可靠地访问 IBS 状况; 然而,据观察,许多 IBS 实验因破坏性撕裂不稳定性而终止19。 这是因为撕裂不稳定性 q = 2 表面看起来离墙壁太近 q95较低,并且很容易锁定在壁上,当等离子体旋转频率较低时会导致破坏。 因此,在本研究中,我们进行了实验来测试AI可撕性控制器在以下条件下的性能: q95 ≈3,环形扭矩低(≤1Nm),容易激发破坏性撕裂不稳定性。

然而,除了撕裂不稳定性是关键问题的 IBS 之外,还有其他场景,例如 ITER 的混合和无感场景12。 这些不同的场景不太可能因撕裂而中断,但每种场景都有自己的挑战,例如无壁稳定性限制或最小化感应电流。 因此,值得开发进一步的人工智能控制器,通过修改观察、驱动和奖励设置进行训练,以应对这些不同的挑战。 此外,DIII-D 这项工作中使用的执行器和传感器的灵活性将不同于 ITER 和反应堆。 未来还需要制定更有限的传感和驱动条件下的控制策略。

撕裂不稳定性预测的动态模型

为了预测 DIII-D 中的撕裂事件,我们首先根据 n= 1 实验中的米尔诺夫线圈信号。 使用这些标记的实验数据,我们训练了一个基于 DNN 的多模态动态模型,该模型接收各种等离子体分布和托卡马克驱动作为输入,并预测 25 毫秒后撕裂可能性作为输出。 经过训练的动态模型输出 0 到 1 之间的连续值(所谓的撕裂性),其中接近 1 的值表示 25 毫秒后发生撕裂不稳定的可能性较高。 该模型的架构如扩展数据图所示。 1。 动态预测模型的输入输出变量和超参数的详细描述可以在参考文献中找到。 5。 尽管该动态模型是一个黑匣子,无法明确提供引起撕裂不稳定性的根本原因,但它可以用作稳定性响应的替代品,绕过昂贵的现实世界实验。 例如,在这项工作中,该动态模型被用作撕裂避免控制器的 RL 的训练环境。 在强化学习训练过程中,动态模型预测未来 和由 AI 控制器确定的给定等离子体条件和执行器值的撕裂性。 然后根据预测状态使用方程(1)并作为反馈提供给控制器。

数字 4b-d 显示了在我们的控制实验的给定等离子体条件下可能的光束功率的估计撕裂性的等值线图。 AI 控制的实际光束功率由黑色实线表示。 虚线是为每次放电设置的阈值的等高线,可以粗略地代表每个点的束流功率的稳定极限。 该图显示,经过训练的人工智能控制器在发出不稳定警告之前主动避免触及可撕性阈值。

扩展数据图 2 中显示了撕裂性对电子温度和密度诊断误差的敏感性。 2。 扩展数据图中的填充区域 2 表示根据 193280 的测量结果,将电子温度和密度分别增加和减少 10% 时的可撕裂性预测范围。由于电子温度误差导致的可撕裂性的不确定性估计平均为 10%,并且不确定性由于电子密度误差约为20%。 然而,即使考虑到诊断错误,仍然可以观察到撕裂稳定性随时间变化的趋势保持一致。

避免撕裂的 RL 训练

用于预测未来撕裂不稳定性动力学的动态模型与 OpenAI Gym 库集成55,这使得它可以作为训练环境与控制器进行交互。 撕裂避免控制器是另一种 DNN 模型,使用深度确定性策略梯度进行训练56 方法,这是使用 Keras-RL 实现的(https://keras.io/57

观测变量由映射在 33 个均匀分布的磁通量坐标网格上的 5 个不同的等离子体轮廓组成:电子密度、电子温度、离子旋转、安全系数和等离子体压力。 安全系数(q 当等离子体转向时, ) 可以在等离子体边界处发散至无穷大。 因此,1/ q 已用于观测变量以减少数值困难42。 作用变量包括总束流功率和等离子体边界的三角形度,其可控范围被限制为与DIII-D的IBS实验一致。 AI控制的等离子体边界形状已被证实可以通过ITER的极向场线圈系统实现,如扩展数据图1所示。 3

AI 控制器的 RL 训练过程如图 2 所示。 4。 在每次迭代中,观察变量(五个不同的轮廓)是从实验数据中随机选择的。 根据这一观察,人工智能控制器确定所需的束功率和等离子体三角形。 为了减少局部优化的可能性,在训练期间将基于 Ornstein-Uhlenbeck 过程的动作噪声添加到控制动作中。 然后动态模型预测 以及基于给定等离子体轮廓和执行器值的 25 毫秒后的撕裂性。 奖励根据等式(1)使用预测状态,然后作为 AI 控制器 RL 的反馈。 由于控制器和动态模型观察等离子体轮廓,即使等离子体轮廓由于壁条件或杂质等不可预测的因素而变化,它也可以反映撕裂稳定性的变化。 此外,虽然本文关注的是撕裂不稳定性至关重要的 IBS 条件,但 RL 训练本身并不局限于任何特定的实验条件,确保了其在所有条件下的适用性。 训练后,使用 Keras2C 库将基于 Keras 的控制器模型转换为 C 语言58 用于 PCS 集成。

之前有一篇相关的作品17 号 采用简单的开关控制方案,仅使用光束功率来处理可撕裂性。 尽管我们的控制性能在以下方面可能看起来与该工作相似 ,如果考虑其他操作条件则不成立。 在ITER和未来聚变装置中,更高的归一化聚变增益(G )具有稳定的核心不稳定性至关重要。 这需要很高的 和小 q95 作为 (Gproto {beta }_{{rm{N}}}/{q}_{95}^{2}) 。 同时,由于制热能力有限, G必须通过弱等离子体旋转(或束扭矩)来实现。 这里,高 , 小的 ({q}_{95}^{2})和低扭矩都是撕裂不稳定性的不稳定条件,突显撕裂不稳定性是 ITER 的一个重要瓶颈。

如扩展数据图所示 5,我们的控制实现了更高的撕裂稳定操作 G 比参考文献中所示的测试实验要多。 17 号。 这是可以通过维持较高(或类似) 与较低的 q95(4 → 3),更容易发生撕裂不稳定。 此外,这是通过更弱的扭矩实现的,进一步凸显了我们的 RL 控制器在更恶劣条件下的能力。 因此,这项工作展示了更多与 ITER 相关的性能,为未来设备中具有强大的撕裂避免功能的高聚变增益提供了更接近、更清晰的路径。

此外,当考虑到非单调效应时,RL控制在实现高融合方面的性能可以进一步凸显。 关于撕裂不稳定性。 不像 q95 或扭矩,增加和减少 可以破坏撕裂的不稳定性。 这导致存在最优融合增益(如 G ),这使得撕裂稳定运行并使系统控制更加复杂。 这里是扩展数据图。 6 显示了 RL 控制器放电在融合增益空间随时间变化的轨迹,其中轮廓颜色说明了可撕裂性。 这清楚地表明RL控制器成功驱动等离子体穿过可撕裂谷,确保稳定运行,并在如此复杂的系统中显示出其卓越的性能。

凭借 RL 相对于传统方法的优势,这种优越的性能是可行的,如下所述。

  1. (1)

    通过采用“多执行器(梁和形状)多目标(低撕裂性和高 )’ 使用 RL 的控制器,我们能够输入更高的-b 区域,同时保持可容忍的撕裂性。 如扩展数据图所示 5,我们的受控放电 (193280) 显示出更高的 G比前一工作(176757)中的那个要多。 我们的控制器的优势在于它同时调整束流和等离子体形状以实现增加 并降低撕裂性。 值得注意的是,我们的出院不利条件较多(较低 q95 和较低的扭矩)在两个方面 和撕裂稳定性。

  2. (2)

    先前的可撕裂性模型基于当前的零维测量来评估撕裂可能性,而不考虑即将到来的驱动控制。 然而,我们的模型考虑一维详细轮廓以及即将到来的驱动,然后预测对未来控制的未来可撕裂性响应。 这可以在控制方面提供更灵活的适用性。 我们的 RL 控制器经过训练可以理解这种可撕裂性响应,并且可以考虑未来的影响,而之前的控制器只能看到当前的稳定性。 通过考虑未来的响应,我们的方案提供了更长期的最佳驱动,而不是贪婪的方式。

这使得该应用能够在我们的实验之外的更通用的情况下应用。 例如,如扩展数据图所示。 7a,撕裂性是一个非线性函数 。 在某些情况下(扩展数据图 1) 7b),这种关系也是非单调的,使得增加光束功率成为降低撕裂性的理想命令(如扩展数据图 1 所示)。 7b 带有向右箭头)。 这是由于撕裂不稳定来源的多样性,例如 限制, D′ 和当前井。 在这种情况下,使用参考文献中所示的简单控件。 17 号 可能导致振荡驱动甚至进一步不稳定。 在 RL 控制的情况下,振荡较小,并且可以更快地控制到阈值以下,从而实现更高的 通过多执行器控制,如扩展数据图所示。 7c

等离子体三角形的控制

等离子体形状参数是影响各种类型等离子体不稳定性的关键控制旋钮。 在DIII-D中,可以通过接近控制来操纵三角形和伸长率等形状参数41。 在本研究中,我们使用顶部三角形作为人工智能控制器的动作变量之一。 底部三角形在我们的实验中保持固定,因为它直接与内壁上的撞击点相关。

我们还注意到,与典型的调整相比,通过人工智能控制,上三角度的变化相当大。 因此,有必要验证ITER中磁线圈的能力是否允许如此大的等离子体形状变化。 附加分析,如扩展数据图所示。 3,证实了 ITER 的重新调整的等离子体形状可以在线圈电流限制内实现。

在不同条件下保持可撕裂性的稳健性

实验如图。 3b4a 已经表明,可以通过适当的基于人工智能的控制来保持可撕性。 然而,有必要验证当添加额外的执行器和等离子体条件发生变化时,它是否能够稳健地保持低撕裂性。 特别是,ITER 计划不仅使用 50 MW 光束,还计划使用 10-20 MW 射频执行器。 电子回旋加速器射频加热直接改变电子温度分布,稳定性可能会发生敏感变化。 因此,我们进行了一项实验,看看人工智能控制器在添加射频加热的新条件下是否能成功保持低撕裂性。 放电中 193282(扩展数据图 1 中的绿线) 8),1.8 MW 射频加热经过预编程,可在后台稳定应用,同时通过 AI 控制束功率和等离子体三角形。 这里,射频加热朝向等离子体的核心,并且撕裂位置处的电流驱动可以忽略不计。

然而,由于等离子体电流控制突然丧失 t= 3.1 秒, q95从3个增加到4个,后续在ITER基线条件下没有进行放电。 应该指出的是,等离子体电流控制的这种变化是无意的,与 AI 控制没有直接关系。 这种等离子体电流波动急剧提高了撕裂性,暂时超过阈值 t= 3.2秒,但通过持续的AI控制立即稳定下来。 尽管由于等离子电流不足而导致平顶预编程端之前的等离子电流损失,它最终会被破坏,但这个偶然的实验证明了基于人工智能的撕裂性控制对额外加热执行器的鲁棒性,更广泛的 q95 范围和意外电流波动。

在正常的等离子体实验中,控制参数通过前馈设置保持固定,以便每次放电都是一个数据点。 然而,在我们的实验中,等离子体和控制在整个放电过程中都在变化。 因此,一次放电由多个控制周期组成。 因此,与标准固定控制等离子体实验相比,我们的结果比人们预期的更重要,支持了控制方案的可靠性。

此外,扩展数据图 2 中显示了从实验数据库中随机选择的 1,000 个样本(不仅包括 IBS,还包括所有实验条件)由于 RL 控制而预测的血浆响应。 9a,b。 什么时候 时间> 0.5(不稳定,顶部),控制器尝试减小 时间而不是影响 , 什么时候 时间< 0.5(稳定,底部),它试图增加 。 这与等式(1)。 在 98.6% 的不稳定阶段,控制器降低了可撕裂性,在 90.7% 的稳定阶段,控制器增加了可撕裂性

扩展数据图 9c 显示所实现的时间积分 我们实验过程中的放电顺序。 直到 193276 的放电要么没有应用 RL 控制,要么在控制开始之前发生撕裂不稳定,并且在 193277 之后的放电应用了 RL 控制。 在 RL 控制之前,除 1 次之外的所有镜头(193266:低参考如图所示 3b)被破坏,但应用 RL 控制后,只有两个(193277 和 193282)被破坏,这在前面讨论过。 平均时间积分 RL控制后也有所增加。 此外,将受控放电的输入特征范围与扩展数据图2中的训练数据库分布进行了比较。 10,这表明我们的实验既不是太中心(模型没有过度拟合我们的实验条件),也不是太远(确认我们的控制器在实验中的可用性)。

Leave a Reply

Your email address will not be published. Required fields are marked *

近期新闻​

编辑精选​