基于深度强化学习和扰动观测的磁悬浮动态控制方法和系统
文献发布时间:2024-04-18 19:57:11
技术领域
本发明涉及交通运输领域,特别涉及一种基于深度强化学习和扰动观测的磁悬浮动态控制方法和系统。
背景技术
磁悬浮列车是一种具有非接触式电磁悬浮,引导和驱动系统的现代运输方式,其通过电磁吸引或斥力的方式实现列车的悬浮,从而避免列车与轨道之间的机械接触,并由直线电动机驱动。磁悬浮列车具有速度快、能耗低,乘坐舒适且噪音低的特点,是一种理想的交通工具。按照悬浮原理及方式,可以将磁悬浮列车分为电动悬浮型(Electrodynamicsuspension)以及电磁悬浮型(Electromagnetic suspension)两种类型。电动悬浮型磁浮系统利用电磁斥力实现列车在轨道上方悬浮,电磁悬浮型磁浮系统则利用位于轨道下方的电磁铁产生的吸引力实现列车的悬浮。
在悬浮控制上,与电动悬浮型磁浮系统不同,目前商业化运行的电磁悬浮型磁浮列车需要施加主动控制来实现系统的稳定悬浮,因此实现磁浮系统的稳定悬浮是目前磁浮列车安全运行的关键与核心。电磁悬浮型的悬浮系统具有很强的非线性和开环不稳定性,并在运行过程中也会受到外部环境的扰动因素影响,致使系统的参数具有极高的不确定性。而目前的大多数控制策略如PID控制、最优控制、模糊控制等都需要对控制策略进行手动编码,导致控制器的调整过程及其复杂,并且不具备自学习的能力。此外,现有大多控制器需要对控制策略进行手动编码,操作复杂,并由于客观环境问题,例如风荷载、轨道不平顺等,导致其抗干扰能力差。因此实现自适应的动态控制器设计是电磁悬浮控制中的主要趋势。
发明内容
为了解决以上问题,提供一种基于深度强化学习与扰动观测的磁悬浮动态控制方法和系统。
本发明提出了一种基于深度强化学习与扰动观测的磁悬浮动态控制方法,所述方法包括如下步骤:
S1:基于磁悬浮列车的悬浮机制构建磁悬浮列车的悬浮架的非线性动力学模型,所述非线性动力学模型用于模拟悬浮系统的控制器所处的交互环境;
S2:采集模拟的交互环境下轨道和磁悬浮列车的车体的间隙信号与用于车体的电磁铁的电流信号作为训练数据,对动态控制器进行训练,其中,将间隙信号作为动态控制器的输入,将动态控制器中的深度强化学习算法的输出结合扰动观测器的扰动观测值作为悬浮系统的控制信号,所述控制信号作为步骤S1中的非线性动力学模型的输入,以在非线性动力学模型中根据所述控制信号得到反馈的间隙信号,将所述反馈的间隙信号再次输入作为动态控制器的输入,以进行多次循环的训练过程,得到训练好的动态控制器;
S3:实时获取间隙信号,并且将实时获取的间隙信号作为训练好的动态控制器的输入,得到输出的磁悬浮列车的悬浮系统的控制信号,以用于控制电磁铁。
在一方面,所述非线性动力学模型表示为:
其中,
在一方面,将电磁铁线圈电流作为控制变量,所述控制变量u(t)=i
其中,t表示时间,m为电磁铁的负载和自身重力,A为电磁铁的截面积,N为电磁铁线圈的绕组个数,μ
按照非线性动力学模型,
其中,扰动项d(t)=f
在一方面,步骤S2中,所述深度强化学习算法采用深度确定策略梯度(DDPG)。
在一方面,步骤S2中,所述深度强化学习算法中的奖励函数为
r(t)=-(z(t)-z
其中,z(t)为实时悬浮间隙值,z
在一方面,步骤S2中,所述扰动观测器采用非线性扰动观测器,用于消除系统内部控制变量的扰动值,
所述扰动观测器为,
其中,z为扰动观测器的内部状态,p(x)为需要设计的非线性方程,l(x)为扰动观测器增益,与p(x)的关系为:
在一方面,所述悬浮系统包括以下部件:
间隙传感器,所述间隙传感器用于感测轨道与车体之间的间隙;
斩波器,所述斩波器通过间隙处理板、控制板和接口转换板耦接所述间隙传感器,所述斩波器被配置为根据控制信号改变供应给悬浮电磁铁的电流信号;
磁悬浮控制器,与所述斩波器耦接,所述磁悬浮控制器被配置为对斩波器的输出的电流信号进行处理,以实现对悬浮电磁铁的控制;以及
悬浮电磁铁,所述悬浮电磁铁被配置为根据磁悬浮控制器输出的信号而使其对轨道的磁力得到调整。
本发明还提出一种基于深度强化学习和扰动观测的磁悬浮动态控制系统,所述磁悬浮动态控制系统包括:
数据存储装置,用于存储一个或多个程序;
构造模块,用于构造磁悬浮列车的悬浮架的非线性动力学模型,其中,基于磁悬浮列车的悬浮机制构建磁悬浮列车的悬浮架的所述非线性动力学模型,所述非线性动力学模型用于模拟悬浮系统的控制器所处的交互环境;
获取模块,用于获得磁悬浮轨道与磁悬浮列车的车体之间的间隙的间隙信号;
分析模块,用于利用动态控制器以通过模拟环境中作为输入的间隙信号和作为输出的控制信号进行分析和控制,并且将实时获取的间隙信号作为训练好的动态控制器的输入,得到输出的磁悬浮列车的悬浮系统的控制信号,其中,采集所述间隙信号与用于车体的电磁铁的电流信号作为训练数据,对动态控制器进行训练,其中,将间隙信号作为动态控制器的输入,将动态控制器中的深度强化学习算法的输出结合扰动观测器的扰动观测值作为悬浮系统的控制信号,所述控制信号作为所述非线性动力学模型的输入,以在非线性动力学模型中根据所述控制信号得到反馈的间隙信号,将所述反馈的间隙信号再次输入作为动态控制器的输入,以进行多次循环的训练过程,得到训练好的动态控制器;
输出模块,用于将实际的控制信号输出。
在一方面,所述非线性动力学模型表示为:
其中,
在一方面,将电磁铁线圈电流作为控制变量,所述控制变量u(t)=i
其中,t表示时间,m为电磁铁的负载和自身重力,A为电磁铁的截面积,N为电磁铁线圈的绕组个数,μ
按照非线性动力系统,
其中,扰动项d(t)=f
在一方面,所述深度强化学习算法采用深度确定策略梯度(DDPG)。
在一方面,所述深度强化学习算法中的奖励函数为
r(t)=-(z(t)-z
其中,z(t)为实时悬浮间隙值,z
在一方面,所述扰动观测器采用非线性扰动观测器,用于消除系统内部控制变量的扰动值,
所述扰动观测器为
其中,z为扰动观测器的内部状态,p(x)为需要设计的非线性方程,l(x)为扰动观测器增益,与p(x)的关系为:
在一方面,所述悬浮系统包括以下部件:
间隙传感器,所述间隙传感器用于感测轨道与车体之间的间隙;
斩波器,所述斩波器通过间隙处理板、控制板和接口转换板耦接所述间隙传感器,所述斩波器被配置为根据控制信号改变供应给悬浮电磁铁的电流信号;
磁悬浮控制器,与所述斩波器耦接,所述磁悬浮控制器被配置为对斩波器的输出的电流信号进行处理,以实现对悬浮电磁铁的控制;以及
悬浮电磁铁,所述悬浮电磁铁被配置为根据磁悬浮控制器输出的信号而使其对轨道的磁力得到调整。
本发明还提出了一种基于深度强化学习和扰动观测的磁悬浮动态控制系统,包括服务器,服务器包括存储器、处理器以及存储在存储器上并且可以在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现如前所述的基于深度强化学习与扰动观测的磁悬浮动态控制方法。
本发明还提出了一种计算机可存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前所述的基于深度强化学习与扰动观测的磁悬浮动态控制方法。
利用本发明的基于深度强化学习与扰动观测的磁悬浮动态控制方法和系统,使用动态控制器对悬浮系统进行控制,可以实现控制器与悬浮系统的动态实时交互、自动学习的特点,并且鲁棒性高,抗干扰能力强。
附图说明
下面参照附图说明本发明的示例性实施例。其中示出了:
图1示出了根据本发明一较佳实施方式的一种基于深度强化学习与扰动观测的磁悬浮动态控制系统的结构示意图。
图2示出了根据本发明一较佳实施方式的一种基于深度强化学习与扰动观测的磁悬浮动态控制方法的步骤流程图。
图3示出了根据本发明一较佳实施方式的一种基于深度强化学习与扰动观测的磁悬浮控制动力学模型的示意图。
图4示出了根据本发明一较佳实施方式的磁悬浮动态控制器的结构示意图。
图5示出了根据本发明一较佳实施方式的深度强化学习算法的结构图。
具体实施方式
下文所述的详细描述旨在描述主题技术的各种配置,而不是旨在仅表示主题技术可以采用的配置。附图并入本文,并且构成详细的说明书的一部分。详细的说明书包括具体的细节,为了提供对主题技术的透彻理解。然而,对于本领域技术人员来说,显而易见的是,主题技术不限于本文所述的具体细节,并且可以使用一个或多个实施例来实施。在一个或多个实例中,结构和组件以框图形式显示,以避免混淆主题技术的概念。本公开的一个或多个实施例由一个或多个图示出和/或结合一个或多个图描述。
电磁磁悬浮列车的悬浮系统利用安装在磁浮列车上的电磁铁与位于轨道下方的电磁铁产生的吸引力实现列车的悬浮。电磁悬浮型磁浮系统的悬浮力在列车轨道与车体之间的间隙增大时减小,在间隙减小时增大,需要施加主动控制才能保证间隙稳定。
根据本发明一较佳实施方式的磁悬浮列车的悬浮系统的结构如图1所示,其包括磁悬浮轨道1,间隙传感器2与悬浮电磁铁6耦接,悬浮电磁铁6与车体5连接或者位于车体中,其中,该悬浮电磁铁6用于与轨道上的电磁铁产生相互作用,得到磁悬浮的状态。间隙传感器2用于感测磁悬浮轨道1与列车的车体之间的间隙。间隙传感器2中与间隙处理板231耦接,间隙处理板231与控制板232耦接,用于将间隙传感器2感应的间隙传送到控制板232。控制板232利用动态控制器来对间隙进行处理,输出相应的控制量作为控制信号的电流信号。控制板232与接口变换板233耦接,从而将控制信号提供给接口变换板传送出去。接口变换板233耦接到斩波器3,斩波器接收控制信号,根据控制信号改变悬浮电磁铁的电流,从而调节悬浮电磁铁对钢轨的电磁力,使列车稳定悬浮。斩波器与磁悬浮控制器耦接,以将电流提供给磁悬浮控制器4。磁悬浮控制器4将控制信号提供给悬浮电磁铁6,以控制悬浮电磁铁6与轨道之间的相互作用,由此控制轨道1与列车的车体之间的间隙。
本发明一较佳实施方式公开了一种基于深度强化学习与扰动观测的磁悬浮动态控制方法,如图2所示。
首先,基于磁悬浮列车的以上悬浮机制,构建磁悬浮列车的悬浮架的非线性动力学模型。该非线性动力学模型用于模拟控制器的交互环境模拟(步骤S1)。动态控制器通过与环境的不断交互,来学习动态控制器中深度强化学习的网络参数,并逼近实际的扰动值。采用模拟交互环境,可以减少整体的探索学习的过程,降低在实际的磁悬浮控制系统中直接进行动态控制器训练的难度。
而后,在模拟的环境下,采集磁悬浮列车的列车轨道与车体之间的间隙的间隙信号和施加的电流信号。将间隙信号与电流信号作为训练数据,将其引入动态控制器作为输入,对动态控制器进行训练(步骤S2)。具体地,间隙信号作为动态控制器的输入,该动态控制器中深度强化学习算法的输出结合扰动观测值作为磁悬浮系统的控制信号,而后将该控制信号输送回到步骤S1中的非线性动力学模型,利用该非线性动力学模型对输入的控制信号进行处理,得到反馈的间隙信号,将反馈的间隙信号作为动态控制器的输入。由此,经过间隙信号到控制信号到反馈的间隙信号的多次循环,训练动态控制器,从而获得训练好的动态控制器。其中,动态控制器的输出为电磁铁两端的电流信号。
而后,利用训练好的动态控制器,并且采用实际的实时获取的间隙信号作为其输入,由该动态控制器输出磁悬浮系统的电流控制信号,由此对磁悬浮系统进行控制(步骤S3)。
磁悬浮系统的外围硬件接收控制信号之后,对电磁铁进行控制,驱动电磁铁移动到目标位置(步骤S4)。
在一较佳实施方式中,磁悬浮列车的悬浮控制动力学模型的结构如图3所示。如图3所示,轨道301与车体之间的距离为z(t),线圈302和电磁铁303位于车体中或者与车体连接,其中,多圈的线圈302缠绕到电磁铁303上。
如上所示的步骤S1中的非线性动力学模型利用以下方法构建。
首先,如图3所示的结构中,根据磁悬浮列车的悬浮架特性,使用牛顿定律和麦克斯韦方程组,建立如下的电磁和力学方程组,构件悬浮架的非线性动力学模型,以用于模拟控制器的交互环境模拟:
其中,
按照非线性动力系统,写作
其中,控制变量u(t)=i
其次,可以参考真实世界中的外部扰动因素来进一步提升控制方法的性能。外部扰动因素包括风力、轨道变形、信号传输反馈延时等。例如可以通过功率谱密度函数方法模拟轨道变形量,用于动态控制器的训练,以进一步提升控制方法的性能,所用轨道不平顺功率谱密度函数S(Ω)为
其中,Ω为空间频率,相关参数A
所述扰动观测器表示为:
其中,z为扰动观测器的内部状态,p(x)为需要设计的非线性方程,l(x)为扰动观测器增益,与p(x)的关系为:
在一较佳实施方式中,步骤S2中的训练动态控制器具体包括以下步骤。
首先,步骤S21,构建基于深度强化学习与扰动观测的动态控制器,如图4所示的一较佳实施方式的磁悬浮动态控制器的结构示意图。建立动态控制器与非线性动力学模型的环境模拟的交互,其中动态控制器与模拟环境的交互数据与实际的磁悬浮列车的数据相同,以用于进一步的步骤中的环境迁移,确定动态控制器的输入状态为间隙信号。
而后,步骤S22,将在模拟的环境下采集的间隙信号和电流信号作为动态控制器的输入数据,对动态控制器进行训练,该动态控制器中深度强化学习算法的输出结合扰动观测值作为磁悬浮系统的控制信号,用于控制磁悬浮系统中列车轨道和车体的间隙。模拟环境下的磁悬浮系统在接收到控制信号之后,得出了其新的状态,包括新的间隙的间隙信号。将新的间隙信号作为新的输入提供给动态控制器,通过动态控制器得出新的控制信号,而后该新的控制信号进一步输出到模拟环境下的磁悬浮系统。以此方式,循环训练动态控制器。
为了增强动态控制器中深度强化学习算法在控制中的稳定性,采用包含策略目标网络和价值目标网络的深度确定策略梯度(DDPG),如图5所示的深度强化学习算法的结构,包括对应两个神经网络,分别是策略网络(actor)与价值网络(Critic)。采样策略存放于经验恢复记忆存储装置中。将经验池中的数据输入进神经网络来模拟Q函数,使结果可以被精准的预测出来。令t时刻的环境状态为
a
环境在执行该行为后返回单步奖励值r
当经验回放记忆存储达到一定存储量后,从经验回放记忆存储随机采样N组状态转移过程对DDPG网络进行训练。其中,online价值网络的loss值(使用时间差分法计算)为,
随后可按照该loss值基于梯度下降方法(Adam Optimizer)进行online价值网络的参数更新。Online策略网络的梯度算法为,
随后同样按照梯度下降方法(Adam Optimizer)进行online策略网络的参数更新。训练完一个批次后,按照软更新方法对target价值网络与target策略网络进行参数更新,
θ
进行多次训练后,得到最优策略。
其中,在深度强化学习算法中,通过建立奖励函数所提供的奖励值(reward)来自动学习如何实现控制,奖励函数为
r(t)=-(z(t)-z
其中,z(t)为实时悬浮间隙值,z
扰动观测器的收敛证明如下:
观测器误差为
从式中可以得出结论,在选择合适的扰动观测器增益l(x)的情况下,误差估计值会以指数形式收敛至实际误差。
基于动态控制器,对磁悬浮列车的非线性动力学模型以其实时评价作为反馈信息,评价机制通过奖赏或惩罚当前的操纵动作,给模型反馈一个奖赏函数作为奖赏评价值,模型结合运行状态迭代地进行策略的更新与优化。通过动态控制器与非线性动力学模型进行不断的交互学习,对于控制和评价机制做出改进,在模拟环境下实现多次模拟以判断间隙,通过反馈奖赏评价值来指导控制信号和间隙信号,即不断激励动态控制器中的深度强化学习算法进行策略的更新与优化,经过多次的迭代之后,将最终收敛并得到最优化的策略,同时也能使扰动观测器所观测到的扰动值收敛到真实扰动,从而提高控制器的鲁棒性。
根据一较佳实施方式,在步骤S3中,需要将训练好的动态控制器迁移到实际的磁悬浮列车的悬浮系统中进行控制。由于实际系统所处的环境与模拟环境存在误差,因此,对已经训练好的动态控制器根据实际的间隙信号与控制信号的交互进行优化。优化后的动态控制器用于对实际的磁悬浮列车的间隙信号进行控制,获得控制信号。
根据一较佳实施方式,步骤S4中,磁悬浮系统的外围硬件接收控制信号后,对电磁铁进行控制,驱动电磁铁移动到目标位置。由此,提供一种基于深度强化学习与扰动观测的磁悬浮动态控制系统。
根据本发明一较佳实施方式的一种基于深度强化学习与扰动观测的磁悬浮动态控制系统,包括数据存储装置,用于存储一个或多个程序;构造模块,用于构造构建磁悬浮列车的悬浮架的非线性动力学模型;获取模块,用于获得磁悬浮轨道与列车的车体之间的间隙;分析模块,用于利用动态控制器以通过模拟环境中的间隙进行分析和控制,将实际应用中的间隙输入预先训练好的动态控制器,获得控制信号;输出模块,用于将控制信号输出。
根据本发明的较佳实施方式的基于深度强化学习与扰动观测的磁悬浮动态控制系统包括服务器,服务器包括存储器、处理器以及存储在存储器上并且可以在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现前面所述的基于深度强化学习与扰动观测的磁悬浮动态控制方法。
根据本发明的较佳实施方式,还提供了一种计算机可存储介质,其上存储由计算机程序,计算机程序被处理器执行时实现前面所述的基于深度强化学习的磁悬浮列车的悬浮系统的动态控制方法。
本说明书中使用的“包含”一词是指“至少部分包含”。在解释本说明书中包含“包括”一词的每条陈述时,也可能存在除此以外或以该词开头的特征。诸如“包含”和“包含”等相关术语应以相同的方式解释。
对于本发明所属领域的技术人员而言,在不背离所附权利要求书所限定的本发明范围的前提下,本发明在结构上的许多变化以及本发明的广泛不同的实施方式和应用将是显而易见的。本文的公开内容和描述纯粹是说明性的,并且在任何意义上都不旨在进行限制。在本文中提及具有与本发明相关的领域中的已知等同物的特定整数时,这些已知等同物被视为结合在本文中,如同单独阐述一样。
如本文所用,术语“和/或”是指“和”或“或”或两者。
在本说明书的描述中,可以参考不在所附权利要求的范围内的主题。该主题应被本领域技术人员容易地识别,并且可以有助于将如所附权利要求书中所定义的本发明付诸实践。
尽管本发明大致上如上所定义,但是本领域技术人员将理解,本发明不限于此,并且本发明还包括以下实施例给出示例的实施方式。
本发明的前述描述包括其优选形式。在不脱离本发明的范围的情况下可以对其进行修改。
- 基于扰动观测器的磁悬浮转子系统不匹配扰动的控制方法
- 基于扰动观测器的磁悬浮转子系统不匹配扰动的控制方法