用于非线性控制的可解释的神经网络

文献发布时间：2023-06-19 19:30:30

技术领域

本发明一般涉及人工神经网络，并且尤其涉及人工神经网络用于非线性控制应用的使用。

背景技术

强化学习可应用于许多控制问题，如马达控制或功率转换。虽然对强化学习技术的学术兴趣很高，但是这些技术很少用于实际应用中，这是因为由强化学习提供的极大灵活性似乎并不能弥补先验已知泛化特性的缺乏和对人工神经网络确切做什么的理解的缺乏。这种对神经网络如何精确地执行其控制函数缺乏洞察力意味着难以制定适当的验证策略。这个问题使得多个控制从业者更喜欢经典的调节方案。例如，关于高功率转换器电路领域或者对于负载昂贵或脆弱的电路，例如在计算机CPU的电源中，这是真实的。

由于缺乏可解释性并且因此缺乏关于受控系统稳定性的一般陈述，从业者经常坚持经典的调节方案，如比例-积分-微分(PID)控制。这些方法是众所周知的，并且已经开发了关于这些控制方案的特性的许多定理。尤其是在高风险应用中，这些成熟的方法是无可争议的。

然而，这些经典方案通常需要仔细调整它们的参数。在许多情况下，它们也不能恰当地处理设备中的非线性。对于高度非线性系统，类似模型预测控制的计算昂贵的方法提供了合适的备选方案。这些方法通常用于具有长开环稳定时间，并且是高度非线性动态的系统。

对于具有短开环稳定时间的系统，PID控制仍然是主要使用的调节方案，尽管它需要仔细并且因此时间密集地调整参数。通常，应用领域的专家(例如，在功率转换器的情况下，功率电子系统工程师)必须执行调整。所用的方法可以包括(受过训练的)试错法，或齐格勒-尼科尔斯调整方法。但是利用这种方法不能正确地解决干扰，例如功率半导体的加热。因此，已经开发了对经典调节方案的若干扩展，进一步使控制技术复杂化。

发明内容

下面详细描述一类人工神经网络，其可以应用于利用强化学习策略进行控制并且提供可解释性并且因此提供用于数学上合理的验证策略的策略。还描述了训练和验证方法。

下面描述的实施例包括实施可解释的基于神经网络的比例积分(PI)控制函数或比例积分微分(PID)控制函数的示例控制器电路。该控制器电路包括用于输入到非线性设备的控制器输出信号、表示非线性设备的输出中误差的控制器输入信号、以及神经网络，该神经网络被配置成：通过至少对取决于控制器输入信号的当前值的第一信号和至少部分地由第一神经网络生成的第二信号求和，来根据控制器输入信号计算控制器输出信号，该第一神经网络估计控制器输入信号的随时间的积分。在PID控制函数的情况下，神经网络通过将取决于控制器输入信号的当前值的第一信号、估计控制器输入信号随时间的积分的第二信号与第三信号求和来计算控制器输出信号，第三信号至少部分地由估计控制器输入信号的差分的第二神经网络生成。

当然，本发明并不限于上述特征和优点。本领域的普通技术人员在阅读以下详细描述并查看附图时将认识到附加的特征和优点。

附图说明

图1示出控制系统的基本结构。

图2示出可解释为PID调节的基本神经网络架构。

图3示出扩展PID网络的示例神经网络架构。

图4示出基于PID的网络的非线性扩展的另一个示例。

图5示出reLU传递函数层的细节。

图6示出使用组合reLU层的另一个示例网络。

图7示出作为神经网络的条件积分抗饱和调节的实现方式。

具体实施方式

如上所述，缺乏对人工神经网络如何精确地执行其控制函数的洞察意味着难以制定用于高风险应用的适当验证策略。这个问题使得控制从业者们更喜欢经典的调节方案。例如，关于高功率转换器电路的领域，这是真实的。

人类可理解性的缺乏通常由可说明的或可解释的人工智能领域来解决。正如Rudin等人“可解释的机器学习：基本原理和10大挑战(Interpretable Machine Learning:Fundamental Principles and 10Grand Challenges)”arxiv.org/pdf/210.11251(2021年7月)所讨论的那样，如果神经网络产生的结果在其被获得后可以解释，则神经网络是可解释的。如果神经网络的机制能够被更一般地理解，即，无论输入和结果输出如何，人类都能够理解如何获得结果，则神经网络是可解释的。在高风险控制问题(例如，高功率转换器电路)中，绝对必须具有伴随有数学合理的验证方法的可解释的人工智能方法。

因此需要一类人工神经网络，其可以应用于利用强化学习策略进行控制、并且提供可解释性、并且因此提供数学合理的验证策略。在以下讨论中，这些人工神经网络被简单地称为神经网络。

为了简化表示，在开关模式功率转换器的上下文中描述了这里讨论的技术和电路，例如，典型的DC-DC降压转换器，其中控制器提供PID控制函数。然而，这些技术和电路可以规范地扩展到所有类型的受控系统，而不仅仅是电子器件。此外，通过省略所述控制函数的差分元件，在此描述的技术和电路也可以扩展到PI控制函数。

在开关模式功率转换器的示例中，向控制器提供所需目标电压V

通常，功率转换器电路和其他系统中的控制器基于比例-积分-微分(PID)调节方案。这种控制器的传递函数可以写为：

该传递函数的时间离散化公式产生以下方程：

其中h表示两个样本之间的持续时间。

该方程可以被实现为图2所示的递归神经网络。因此，所示的神经网络可以被解释为PID控制器。在此，层1中的顶部神经元表示积分部分，层1中的中间神经元表示比例项，并且层1中的底部神经元表示差分部分。也值得注意，后两个神经元之间的联系在该网络中产生另一递归路径。在该基本实现方式中，层1和层2中的所有神经元使用标识(id)作为激活函数。

这种神经网络的实现方式可以以由设计给出的特定权重和其他可训练权重为特征。在一些实施例中，通过设计而固定的权重可以是对应于步长或采样时间间隔、或针对步长或采样时间间隔缩放的那些权重，诸如图2中的权重h、-1/h和1/h。可训练权重，即在训练神经网络时进行调节的那些权重，可以是例如经典的调节参数k

所有的验证策略，例如与基于相位和增益裕度的稳定性标准相结合的小信号波特图分析，都适用于该神经网络控制器。

图3示出顶级神经网络架构的另一示例，可解释为PID控制器，其中，比例项、积分项和微分项中的每项都通过传递神经网络被传播，例如以提供PID控制函数的非线性扩展。

图3所示的电路/实现方式包括输入神经网络(NN)，该输入神经网络提供误差信号V

在图3所示的架构的另一个端部上，输出神经网络将比例、积分和差分误差分量相加，分别示为“广义P误差”、“广义I误差”和“广义D误差”。在一些实施例中，可以使用输出神经网络中的各种钳位传递函数中的任何钳位传递函数来对输出进行钳位。这可能是必要的，因为接收输出控制信号的脉宽调制器仅允许例如零到1的范围。在一些实施例中，输出信号或者与输出信号相关的或从输出信号导出的信号可以从输出神经网络反馈到积分神经网络中，以防止公知的积分饱和问题。

积分神经网络提供了基于神经网络的对输入的时间积分的近似，其在所示的示例中是误差信号V

基于PID的网络的三个分量中的任何一个或全部分量可以通过传递神经网络来馈送，该传递神经网络可以用于提供该分量到输出的分段线性映射。在图3中，这些传递函数被示为“P传递NN”、“I传递N”和“D传递NN”。

图4示出利用整流线性单元(reLU)传递函数的用于PID网络的非线性扩展的神经网络架构。在该图示中，圆圈表示单个神经元，而层2中所示的矩形表示整个层或子网络。

神经元的整流线性单元传递函数由以下公式定义：

并且是广泛的神经网络中通常使用的激活函数。它们的广泛使用是由于它们可以近似任何连续函数并且计算成本低。

这提供了从图2到非线性控制函数的PID网络的规范扩展。代替仅用比例参数传播比例、积分和差分误差部分，可以使用传递函数的层来修改比例项、积分项和微分项中的一项、几项或全部。在图3所示的示例架构中，这些传递函数被示为reLU传递函数。

reLU层的内部示于图5中。数学上，这可以被表述为

其中reLU是对其输入向量逐分量地执行的，

例如，假设

图3-5中所示的方法还产生了另一泛化，其中，组合了三个reLU层，使得所有输入值都可以影响所有reLU值。在这种情况下，这三个误差没有真正的分离。这在图6中示出。如果对于负误差，差分也是负的，则可以利用该方法，使得控制器比在差分误差是正的而比例误差仍然是负的情况下更积极地反应。

总体上，调节已经变为非线性的，但是它对于输入空间是分段线性的。因此，验证不再像在纯线性情况下那样直接进行。然而，结果分段线性控制与增益调度控制紧密相关，并且可以规范地应用该领域中使用的验证技术，例如调查每个线性部分中的稳定性，并且然后调查从线性的一个区域到另一个区域的转变。

注意，reLU传递函数的使用可能导致垂死神经元问题，即，其中，存在x＜0的消失梯度。可以使用reLU的各种备选方案来代替reLU，例如泄漏整流线性单元传递函数层；参数整流线性单元传递函数层，或高斯误差线性单元。注意，在一些情况下，这些更高级的激活函数中的一个或多个激活函数可以在训练/学习阶段期间用作传递网络，并且使用训练的权重，在推断阶段期间用reLU函数代替用作传递网络，以节省后一阶段中的计算量。

可以使用这里提出的各种网络结构，而无需对输入或输出数据进行附加的预处理或后处理。然而，在一些情况下，将以上示出的网络的全部或部分嵌入到更大的神经网络中，或者将以上示出的网络与诸如主分量分析等的一些经典特征工程方法组合也是有意义的。

例如上面结合图3提到了钳位和抗饱和特征。在功率转换器以脉宽调制为特征的情况下，将输出钳位到区间[0；1]是必需的。这可能导致积分部分的饱和，该饱和可以用几种抗饱和方法中的任何一种方法来解决，例如条件积分。这些方法也可以被解释为神经网络，该神经网络与上述神经网络结构相互作用。在图7中给出了一种可能的神经网络实现方式，该实现方式示出将图2的基于PID的网络与钳位和抗饱和特征相结合的网络。

应当理解，可以省略图3-5中所示的任何控制电路的差分分量，从而产生比例-积分(PI)控制函数，这是另一常用的和公知的控制函数。上述基于PID的控制器的变化也可以应用于基于PI的变体方案。

根据应用所施加的要求(例如，开关频率等)，这里描述的基于神经网络的控制器可以被实现为在通用处理器上运行的软件、数字硬件或者甚至模拟电路。各种实现方式可以使用这些的任何组合，其中，根据需要使用模数转换器(ADC)和数模转换器(DAC)来将模拟信号转换到数字域且反之亦然。

既然已经解释了可解释的基于PID或基于PI的神经网络架构，就可以讨论用于调整其参数(“训练”)的方法。控制系统的规范通常利用波特图分析和基于相位和增益裕度的稳定性标准来解决(小信号)频域，并且用于依赖于应用的瞬态负载简档。一种可能的方法在Marian Kannwischer于2020年3月30日提交于慕尼黑工业大学的“DC-DC转换器的机器学习辅助优化(Machine Learning Assisted Optimization of DC-DC Converters)”学士论文中描述。在下文中，示出这样的方法可以被解释为强化学习方法。

用于解决PID调节系统的稳定性的常用方法是基于从波特图分析获得的相位和增益裕度来制定稳定性标准。参数调整的一种可能的数学公式由以下约束优化给出：

其中f

在基于神经网络的控制器的情况下，调节参数λ表示所有的可调整权重和偏置，并且上面的优化问题可以被传递到奖励函数中：

其中η

因此这种调整方法可以被解释为强化学习问题，并且解决这些问题的通用方法可以被应用于这个任务。

纯波特图的一个不利方面是它仅基于小信号分析的事实。对于负载的快速和大的变化，该分析不再提供正确的结果并且因此经常导致过度激进的调节方案。这通常也通过在时域中调整控制参数来解决：这里，调查转换器对瞬态负载简档的电压响应并且该简档包括一些更大和更快的负载变化。在上面引用的Kannwischer中描述了如何可以确定电压响应的质量；这可以被视为如上所述的基于神经网络的控制器的强化学习主题。此外，频域和时域中的强化学习方法可以以Kannwischer中提出的方式耦联。

虽然训练的网络控制方案(在强化学习的上下文中通常称为“策略”)需要总是在控制器内部运行(推断)，但是强化学习算法(用于训练过程的目标函数和某种优化器的评估)可以被放在控制器本身内部或者在具有用于在训练过程期间的数据捕获的高速连接的主计算机上执行。在后一种情况下，一旦训练完成，这些连接可以被禁用并且神经网络从那时起保持恒定。

在此描述的开发的神经网络架构可以被解释为并行运行的PID控制器或PI控制器的阵列。为了验证，根据给定的条件(例如，误差值)，可以使用这些控制器中的一个控制器的输出。只要控制器的选择保持恒定，波特图分析就可以用于解决稳定性。在转换器的稳态情况下，该选择根据定义是恒定的(差分部分是零，比例和积分部分是恒定的)。这种观察将稳定性的总体问题减少到各个线性部分的稳定性(这可以容易地解决)以及它们之间的转变。幸运的是，由于reLU神经元的数量是有限的，因此仅存在有限的转变集合是可能的。

假设对于任何给定的稳态情况，调节是稳定的，则系统可能变得不稳定的唯一方式是通过该系统在两个或更多并行PID控制器之间不断地切换。这些瞬态情况需要成为时域强化学习问题的简档负载的一部分。

假设该系统已经被适当地训练，当在现场使用时，与使用经典控制方案的系统相比，不需要做出改变。在设计阶段期间，需要一种工具，该工具能够运行必要的测试、捕获系统对控制信号的响应并且相应地改变神经网络的参数。对于任何基于强化学习的方法总是这种情况。

鉴于以上讨论的各种示例和说明，将理解的是，本文描述的系统的实施例包括控制器电路，该控制器电路包括用于输入到非线性设备的控制器输出信号和表示非线性设备的输出中的误差的控制器输入信号。控制器电路还包括神经网络，该神经网络被配置成：通过对取决于控制器输入信号的当前值的第一信号和至少部分地由第一神经网络生成的第二信号求和，来根据控制器输入信号计算控制器输出信号，第一神经网络估计控制器输入信号随时间的积分。因此，如图2-4、6和7所示，控制器电路生成比例项(第一信号)和积分项(第二信号)。在一些实施例中，由控制器电路实现的控制函数是基于PID的控制函数。在这样的实施例中，控制器电路将取决于控制器输入信号的当前值的第一信号和表示控制器输入信号随时间的积分的第二信号与至少部分地由估计控制器输入信号的差分的第二神经网络生成的第三信号相加。该差分分量与比例和积分分量一起也在图2-4、6和7中示出。

在控制器电路的一些实施例中，第一神经网络和第二神经网络中的至少一个是递归神经网络。在其他情况下，这些神经网络中的一个或两个神经网络可以是前馈网络，例如具有存储在网络外部并被馈送到前馈网络中的时间序列。

在一些实施例中，到第一和第二神经网络的输入权重是非可训练权重，即，通过设计固定并且在训练或学习阶段期间不被适配的权重。这些可以表示例如对应于对于实现方式而言特定的步长或采样间隔的缩放因子。然而，在其他实施例中，可能希望也调整这些参数中的一个或多个参数，在这种情况下，对应的权重可以是可训练的。

在一些实施例中，控制器电路被配置成通过使用可训练的权重、即在训练或学习阶段期间适配的权重，将第一信号、第二信号和如果存在的第三信号求和来计算控制器输出信号。注意，在一些实施例中，控制器电路可以被配置成使得一旦训练阶段完成，就“锁定”适配的权重以防止进一步的改变。

在基于PID的控制器电路的一些实施例中，第一信号的加权版本被链接到第二递归神经网络的输入。例如，这在图2和图4中示出，其中，比例信号的加权版本被馈送到差分网络中。

在控制器电路的一些实施例中，神经网络还包括至少一个传递神经网络，该传递神经网络具有来自第一神经网络和第二神经网络的至少一个输出作为输入，其中，所计算的控制器输出信号基于至少一个传递神经网络的输出。在图3、图4和图6中示出这种情况的各种示例。在这些实施例中，比例信号、即上面讨论的“第一信号”可以被直接馈送到传递神经网络中。

在包括一个或多个传递神经网络的这些实施例中的一些实施例中，传递神经网络中的至少一个传递神经网络可以包括至少一个整流线性单元传递函数层，整流线性单元传递函数层根据下式将来自第一、第二和第三神经元中的一个神经元的输出x变换成至少一个整流线性单元传递函数层的输出y：

其中

其他实施例可以包括：一个或多个泄漏整流线性单元传递函数层；参数整流线性单元传递函数层；以及高斯误差线性单元，用于传递神经网络。

其他特征可以被添加到以上讨论的神经网络。例如，在根据上述实施例中的任何一个实施例的一些控制器电路中，神经网络还包括将第一信号、第二信号和如果存在的第三信号的总和钳位到预定范围的层。在这些实施例中的一些实施例中以及在一些其他实施例中，神经网络可以包括反馈信号，该反馈信号基于第一、第二和第三信号的总和被馈送到第一递归神经网络中并且被配置成防止第一递归神经网络中的积分饱和。例如该反馈信号可以基于第一、第二和第三信号的加权和的钳位版本。

在上述控制器电路的一些实施例中，非线性设备是功率转换器电路。然而，应当理解，如上所述的控制器电路可以用于各种应用中的任何一种应用，其中控制器电路可以被解释为PID控制器。

如上所述，可以通过使用奖励函数调整神经网络的可训练权重来训练上述控制器电路中的任一个控制器电路。在一些实施例中，奖励函数可以采取以下形式：

其中λ表示神经网络的可训练权重，f

用于包括传递神经网络的上述控制器电路中的任何一个控制器电路的方法可以包括以下步骤：使用泄漏整流线性单元传递函数层、参数整流线性单元传递函数层、和用于传递神经网络的高斯误差线性单元中的一个来训练神经网络，并且然后使用用于传递神经网络的整流线性单元传递函数以用于神经网络的后续操作，使用从训练获得的权重。在这些方法中的一些方法中，在进一步使用控制器电路之前，可以使用用于传递神经网络的整流线性单元传递函数来执行神经网络的附加训练。

上面已经描述了用作控制器的特定类的神经网络的使用。这些网络提供例如利用强化学习所学习的策略的可解释性。因此它们使得用户能够以数学上有意义的方式显示稳定性。所描述的技术将非线性设备的高级处理与PID上的强化学习训练的神经网络以及PID控制系统的可解释性相结合。因此控制响应等的稳定性的典型定理可以延续到这种新类别的控制方案。

值得注意的是，受益于在前述描述和相关联的附图中呈现的教导的本领域技术人员将想到所公开的技术、电路和系统的修改和其他实施例。因此，应当理解，本发明不限于所公开的具体实施例并且修改和其他实施例旨在被包括在本公开的范围内。尽管这里可以使用特定术语，但是它们仅在一般和描述性意义上使用，而不是为了限制的目的。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：B·施瓦贝;W·福特纳;T·森雅布;
专利申请人：英飞凌科技奥地利有限公司;

上一篇：光调制装置
下一篇：不锈钢中空夹层钢管混凝土导管腿抗剪承载力计算方法