掌桥专利:专业的专利平台
掌桥专利
首页

一种基于鲁棒微分博弈的多智能体系统避碰策略方法

文献发布时间:2023-06-19 19:30:30


一种基于鲁棒微分博弈的多智能体系统避碰策略方法

技术领域

本发明涉及多智能体协调控制技术领域,特别涉及一种基于鲁棒微分博弈的多智能体系统避碰策略方法。

背景技术

在过去的十年中,多智能体系统由于其松散耦合的网络结构而备受关注,智能体可以通过相互作用来解决单个智能体无法解决的问题。在多智能体系统中,智能体避碰是智能体能够安全协同执行任务的前提条件。

博弈论是解决多智能体决策的有效工具,其中微分博弈被广泛的应用到多智能体协调控制领域。微分博弈是博弈论与最优控制的结合,将微分博弈方法引入到多智能体协调控制中,可以充分体现智能体之间的动态交互性。对比分布式优化算法,微分博弈方法不需要中央协调机制,只需要智能体自私的优化自己的成本函数,最终仍能收敛到纳什均衡,具有严格的数学保证。当前基于微分博弈的方法已经在解决考虑有线通信能力的追逃问题和考虑外部干扰的情况下的编队问题等应用领域取得成功,包括文献(Lin W,Qu Z,SimaanM A.Nash strategies for pursuit-evasion differential games involving limitedobservations[J].IEEE Transactions on Aerospace and Electronic Systems,2015,51(2):1347-1356.)提出了一种构建反馈追逃策略的方法,该方法不依赖于智能体的全局状态信息,文献(de la Cruz N,Jimenez-Lizarraga M.Finite time robust feedback Nashequilibrium for linear quadratic games[J].IFAC-PapersOnLine,2017,50(1):11794-11799.)建立了一种带有外部干扰的集中式微分博弈模型,将外部干扰看作最大化成本函数的虚拟玩家,但没有考虑智能体的有限通信能力,文献(Fu Y,Chai T.Online solutionof two-player zero-sum games for continuous-time nonlinear systems withcompletely unknown dynamics[J].IEEE transactions on neural networks andlearning systems,2015,27(12):2577-2587.)构建了一种分布式的不确定零和微分博弈,得出了局部鲁棒纳什均衡,但没有严格的理论保证。为了实现多智能体全局任务的协调性,需要局部鲁棒纳什均衡的全局收敛性保证。考虑到传统微分博弈方法在解决多智能体避碰问题中,没有考虑智能体的通信能力限制以及外部干扰问题,所以避碰策略缺乏鲁棒性,且无法保证任务高效顺利完成。因此,为了更好实现多智能体安全高效的顺利完成任务,需要针对智能体的有限通信能力以及存在的外部干扰问题,建立相应的微分博弈模型,以提升避碰策略的鲁棒性,尽可能减少智能体完成任务的时间。

因此,为了解决这一将微分博弈方法引入到避碰问题中产生的完成任务效率低以及控制性能差的难题,可以考虑引入人工势场法设计避碰规则,以及考虑将干扰看作一种最大化成本函数的虚拟玩家方法。设计一种基于鲁棒微分博弈的多智能体系统避碰策略方法。当前现有的技术提出的基于鲁棒的微分博弈的解决方案主要聚焦于智能体全局信息已知的情况下,对于分布式鲁棒微分博弈方法仍很少应用在多智能体避碰问题中,无法提供合适的解决方案。

发明内容

本发明的目的在于克服现有技术存在的缺陷和不足,提供一种基于鲁棒微分博弈的多智能体系统避碰策略方法,该方法考虑现有的仅考虑避障目标的微分博弈方法,基于人工势场法,引入距离目标惩罚智能体的偏离目标点程度,权衡智能体到达目标点与距离障碍物之间的距离,减少智能体到达目标点的时间;针对存在外部干扰问题,将干扰与控制策略构成一种零和博弈关系,求解最坏干扰情况下的最优的控制器;基于最优控制原理,在固定强连通拓扑图的假设下,保证了局部纳什均衡解的全局收敛性;针对智能体的有限通信能力,考虑传统的求解黎卡提方程的方法不再适用,引入基于最佳性能指标的逆优化方法构建最优反馈策略,利用基于非支配的蚁群优化算法求解最优反馈增益。该方法可以减少智能体到达目标点的时间,并且可以实现避碰策略的鲁棒性。

为实现上述目的,本发明的技术方案是:一种基于鲁棒微分博弈的多智能体系统避碰策略方法,包括如下步骤:

步骤S1、利用图论,建立多智能体系统中智能体之间的通信关系;将智能体与其邻居作为博弈参与者,建立一阶线性积分器作为智能体的模型;对智能体的工作环境定义碰撞区域、感应区域、自由区域,并将障碍物视作椭圆形,以囊括所有形状的障碍物;

步骤S2、利用人工势场法设计避碰规则,作为智能体在博弈模型中的运行成本函数;

步骤S3、将通信能力有限、受外部干扰的多智能体系统的避碰问题看作分布式零和微分博弈问题;建立分布式鲁棒微分博弈模型,该分布式鲁棒微分博弈模型包括运行成本函数、控制成本、干扰成本以及末端成本;

步骤S4、利用最优控制理论,建立局部鲁棒值函数,根据所得局部鲁棒值函数求得哈密顿-雅可比-艾萨克斯HJI方程,并求解HJI方程,得到最优控制器的表达形式;分析最优控制与局部鲁棒纳什均衡的关系,以及局部鲁棒纳什均衡的全局收敛性;

步骤S5、采用基于近似最佳性能指标的逆优化方法求解智能体的局部鲁棒纳什均衡。

在本发明一实施例中,所述步骤S1具体包括以下步骤:

步骤S11、博弈参与者模型建立:

所述多智能体系统动态方程具体形式为:

式中,t为时间刻度;

建立N个智能体的有向交互拓扑图G(v,ε),其中,v={v

定义智能体i的局部动态方程为:

式中,

步骤S12:、建立障碍物环境模型:

考虑障碍物为椭圆形,定义避碰区域S

式中,R

定义感应区域D

式中,R

定义自由区域M

在本发明一实施例中,在步骤S2中,给出如下的假设条件:

假设一:ω

式中,t

假设二:有向交互拓扑图G(v,ε)是固定且强连通的;

设计基于人工势场法的避碰规则:

式中,

距离惩罚函数的表示如下所示:

式中,

为优化智能体的轨迹,引入距离惩罚函数,以惩罚智能体对目标点的偏离程度,表示如下:

式中,γ

在本发明一实施例中,在步骤S3中,

建立分布式鲁棒微分博弈成本函数,表达形式如下所示:

式中,

分布式多智能体系统避碰问题的目标是为每个智能体设计反馈的控制策略,并且在有限时域内安全的到达目标点;同时,智能体i与邻居智能体可以收敛到全局纳什均衡,即策略集

/>

式中,

在本发明一实施例中,在步骤S4中,

所述智能体i的局部鲁棒值函数表达形式如下:

式中,J

所述最优控制策略为:设最优控制器u

给出局部鲁棒纳什均衡解存在的充分条件为:假设对于所有的

式中,

则t时刻智能体i的最优鲁棒控制策略和最坏干扰策略分别为:

将微分博弈问题看作线性二次型问题,令:

式中,D

则t时刻智能体i的最优鲁棒控制策略和最坏的干扰策略分别为:

/>

式中,P

式中,

假设局部鲁棒纳什均衡解存在的充分条件成立,且邻居智能体已达到最优策略,令智能体i的最优鲁棒控制策略以及最坏的干扰策略形式满足

在本发明一实施例中,在步骤S5中,

所述基于近似最佳性能指标的逆优化方法构建智能体的局部鲁棒纳什均衡解,利用基于非支配占优的蚁群优化算法求解最优的反馈增益;

构建t时刻智能体i的局部鲁棒反馈控制策略为:

式中,

求解构建的局部最优鲁棒最优策略集

构建近似最佳性能指标为:

式中,

在本发明一实施例中,步骤S3中所述的局部成本函数,所构建的近似最佳性能指标可以变形为如下形式:

式中,

在本发明一实施例中,步骤S3中所述的局部成本函数,可以得出构建的反馈增益矩阵的约束条件,并将求解最优反馈增益矩阵问题转变为多目标优化问题;

利用基于非支配占优的蚁群优化算法求解构建的最优反馈增益矩阵,并得出相应的局部鲁棒纳什均衡解;

对于t时刻智能体i,定义多目标优化函数为:

式中,

相较于现有技术,本发明具有以下有益效果:

本发明及其优选方案针对带有外部干扰的一阶线性模型,将带有有限通信能力的多智能体避碰问题转化为分布式微分博弈问题;考虑现有的仅考虑避障目标的微分博弈方法,基于人工势场法,引入轨迹优化目标惩罚智能体偏离目标点的程度,权衡智能体到达目标点与距离障碍物之间的距离,减少智能体到达目标点的时间;针对存在外部干扰问题,将干扰与控制策略构成一种零和博弈关系,求解最坏干扰情况下的最优的控制器;基于最优控制原理,在固定强连通拓扑图的假设下,保证了局部纳什均衡解的全局收敛性;针对智能体的有限通信能力,考虑传统的求解黎卡提方程的方法不再适用,引入基于最佳性能指标的逆优化方法构建最优反馈策略,利用基于非支配的蚁群优化算法求解最优反馈增益;该方法可以减少智能体到达目标点的时间,并且可以实现避碰策略的鲁棒性;此外,引入分布式体系结构微分博弈模型,较集中式体系结构,具有良好的可扩展性。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明。构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定;在附图中,

图1是本发明实施例的方法原理框图;

图2是本发明实施例的基于人工势场法的避碰规则示意图;

图3是本发明实施的仿真实例中多智能体完成任务时间展示图;

图4是本发明实施的仿真实例中采取的多智能体通讯拓扑图;

图5是本发明实施的仿真实例中位置误差变化图;

图6是本发明实施例的仿真实例中多智能体避碰性能展示图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示,本实施例提供一种基于鲁棒微分博弈的多智能体系统避碰策略方法,包括以下步骤:

通过图论方法建立智能体之间的通信关系,智能体之间可获取其邻居智能体的位置信息,建立一阶线性模型作为博弈参与者,对智能体的工作环境进行建模,将障碍物视为椭圆形;

设计基于人工势场法的避碰规则,如图2所示,并建立分布式鲁棒微分博弈模型;

引入最优鲁棒控制策略,通过计算所得的位置误差求取成本函数和局部鲁棒值函数,分析最优控制与局部鲁棒纳什均衡解的关系以及纳什均衡解的存在性和全局收敛性;

引入基于最佳性能指标的逆优化方法以及非支配占优的蚁群优化算法求解最优控制策略。

在本实施例中,智能体执行的任务为:在多智能体受外界干扰以及通信有约束的的情况下,使多智能体从初始位置无碰的到达目标点,且减少智能体完成任务的时间。

在本实施例中,所述多智能体动态方程具体形式为:

式中,t为时间刻度;

建立N个智能体的有向交互拓扑图G(v,ε),其中,v={v

定义智能体i的局部动态方程为:

式中,

建立障碍物环境模型:

考虑障碍物为椭圆形,定义避碰区域S

式中,R

定义感应区域D

式中,R

定义自由区域M

给出如下的假设条件:

假设一:ω

式中,t

假设二:有向交互拓扑图G(v,ε)是固定且强连通的;

设计基于人工势场法的避碰规则:

式中,

距离惩罚函数的表示如下所示:

式中,

为了优化智能体的轨迹,引入距离惩罚函数,以惩罚智能体对目标点的偏离程度,表示如下:

式中,γ

建立分布式鲁棒微分博弈成本函数,表达形式如下所示:

/>

式中,

分布式多智能体系统避碰问题的目标是为每个智能体设计反馈的控制策略,并且在有限时域内安全的到达目标点;同时,智能体i与邻居智能体可以收敛到全局纳什均衡,即策略集

式中,

所述的智能体i的局部鲁棒值函数表达形式如下:

式中,J

所述最优控制策略为:设最优控制器u

给出局部鲁棒纳什均衡解存在的充分条件为:假设对于所有的

/>

式中,

则所述的t时刻智能体i的最优鲁棒控制策略和最坏干扰策略可以写为:

将该微分博弈问题看作线性二次型问题,令:

式中,D

则t时刻智能体i的最优鲁棒控制策略和最坏的干扰策略为:

式中,P

式中,

假设局部鲁棒纳什均衡解存在的充分条件成立,且邻居智能体已达到最优策略,令智能体i的最优鲁棒控制策略以及最坏的干扰策略形式满足(17a)、(17b)中的形式,则智能体i及邻居智能体的策略会收敛到局部鲁棒纳什均衡解;

在步骤S5中,

所述的基于近似最佳性能指标的逆优化方法构建智能体的局部鲁棒纳什均衡解,利用基于非支配占优的蚁群优化算法求解最优的反馈增益;

构建t时刻智能体i的局部鲁棒反馈控制策略为:

式中,

求解构建的局部最优鲁棒最优策略集

构建近似最佳性能指标为:

式中,

/>

根据步骤S3中所述的局部成本函数,所构建的近似最佳性能指标可以变形为如下形式:

式中,

根据步骤S3中所述的局部成本函数,可以得出构建的反馈增益矩阵的约束条件,并将求解最优反馈增益矩阵问题转变为多目标优化问题;

利用基于非支配占优的蚁群优化算法求解构建的最优反馈增益矩阵,并得出相应的局部鲁棒纳什均衡解。

对于t时刻智能体i,定义多目标优化函数为:

式中,

在本实施例中,给出一个具体实例以体现所提出的分布式鲁棒微分博弈方法在解决多智能体避碰问题中的有效性及优越性。

根据图3可知,为证明所得到的最优控制器能够减少智能体完成任务的时间,本实例进行仿真实验,与现有仅考虑障碍物惩罚目标的集中式微分博弈方法比较。给出多智能体系统的具体模型表达形式如下所示:

式中。

各个智能体的初始位置与目标点位置为:x

各个智能体的效益函数具体形式如下:

多目标的模型形式如下:

式中,

根据图3可知,该仿真案例中,将仅考虑障碍物惩罚的集中式微分博弈方法与引入轨迹优化目标的集中式微分博弈方法比较,即对比方法与所提方法比较,两种方法虽然都能够使智能体的位置偏差趋于0,但是引入轨迹优化目标的集中式微分博弈方法收敛时间为49s,仅考虑障碍物惩罚的集中式微分博弈方法收敛时间为59s,所以,引入轨迹优化目标的集中式微分博弈方法能够减少智能体完成任务的时间。

根据图4可知,本实例提供了3个智能体的有向通讯拓扑图。为证明所得到的最优控制器具有鲁棒性,本实例进行仿真实验,与现有成本函数中不考虑干扰的分布式微分博弈方法比较。给出多智能体系统的具体模型表达形式如下所示:

式中。

各个智能体的效益函数具体形式如下:

多目标的模型形式如下:

式中,

各个智能体的初始位置与目标点位置为:x

根据图5可知,所提的分布式鲁棒微分博弈方法能够使各个智能体的位置偏差趋于0,表示任务完成。而根据图6可知,对比的分布式微分博弈方法中,智能体2与障碍物产生碰撞,最终位置偏差不为0,表示任务未完成。本实例说明所提方法的避碰策略具有鲁棒性。

应当指出的是,本发明并不局限于上述示范性示例所展示的内容,且在不违背本发明的基本特征的前提下,能够以另外的形式实现本发明。因此,应当将实例看作为一个示范性实例,而非限制性的,本发明的涵盖范围由所附权利要求而非上述说明决定,旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,在不违背本发明原理前提下,对本发明做出的若干修饰与改进都应视为本发明的保护范围之内。

技术分类

06120115929100