掌桥专利:专业的专利平台
掌桥专利
首页

基于强化学习和竞拍算法的多智能体围捕控制方法

文献发布时间:2024-04-18 20:00:50


基于强化学习和竞拍算法的多智能体围捕控制方法

技术领域

本发明涉及强化学习和竞拍算法融合的人工智能控制领域,特别是涉及一种基于强化学习和竞拍算法的多智能体围捕控制方法。

背景技术

近年来,无人集群协同控制的研究受到研究人员越来越多的关注。无人集群协同控制系统,即无人操控的多智能体智能性任务执行系统。多智能体是无人机、无人艇、无人车等智能无人设备的总称。这些设备都具有一定的自主性,能够实现自我路径规划、动态任务分配以及实时协同避障等。无人集群协同控制涉及运动控制、数据融合和人工智能等多领域、多学科的交叉融合,无人系统的发展趋势由半自主向全自主方向发展。本发明通过分析围捕任务的流程,结合强化学习和竞拍算法实现目标的动态分配和围捕编队。

多目标围捕问题的传统解决方法包括确定性方法和启发式方法。确定性方法主要使用数学博弈方式解决问题,先通过建立追逃者的微分博弈模型,再计算出最佳时间轨迹和围捕策略。然而这种方法在建立微分模型时通常会对逃跑目标的运动做出单一假设,现实场景下追捕者很难知道逃跑目标在环境中的控制策略。对于后者,受自然界狩猎行为的启发,提出了狼群狩猎策略,捕食-狩猎系统等启发式算法。狼群狩猎算法在考虑追捕者能获取友军位置的假设下,实现了对目标的围捕,但是在搜索过程中追捕者之间没有任何交流,造成了空间的重复搜索,这种方法容易陷入局部最优。捕食-狩猎系统通过预测目标位置提高围捕效率,完成了对目标的围捕,但是这需要足够长的预测时间,降低了系统的实时性,无法快速适应环境的变化。

近些年,随着强化学习的快速发展,给多智能体控制带来了新的思路。目前多智能体强化学习围捕控制研究处于快速发展阶段,涌现出了很多的方法。例如提出了分布式多智能体Dueling-DQN算法来解决多目标围捕问题。但是这种方法研究的是基于离散网络空间,忽略了智能体的运动特征,不能迁移到真实环境中。也提出了一种特征嵌入块,将列最大池化和列平均池化两种特征压缩方式相结合建立观测特征编码解决部分可观测输入维度动态变化的问题,为多目标围捕提供了一种解决方案,且使用的运动模型是受约束的非全向运动模型。但是这种方式是建立在追捕者的性能强于逃跑者且地图中不包含障碍物。还提出了利用任务分配,将多目标捕获转换成多个单目标捕获来降低问题的复杂性。但是,如果多个目标处在一个小范围空间中,并且范围内所有目标都当作单目标对待,那么在围捕多个单目标时会发生围捕范围重叠的情形,不利于追捕者围捕实现。针对这种情况文中并未给出解决方案。

针对以上多目标围捕研究的局限性,本发明通过分析围捕任务的流程,将多目标围捕问题建模为马尔可夫决策过程,并提出了一种基于多智能体深度确定性策略梯度和竞拍算法(MADDPG-A)的多目标围捕控制方法。并基于此方法设计出多智能体围捕控制方法。在含有障碍物的有界连续二维空间中,该方法能保证低速追捕者凭借数量优势在规定时间内围捕多个高速逃跑者,并能根据多个逃跑者位置自适应划分围捕区域完成围捕。

发明内容

针对未知环境的连续二维地图空间中,如何解决多智能体自动分配目标并完成多个目标围捕编队的问题,本发明提供一种基于强化学习和竞拍算法的多智能体围捕控制方法,该方法包括以下步骤:

S1、每个智能体感知周围信息并同步给其他智能体;

S2、在感知到的所有目标周围生成围捕点,并根据目标位置时刻更新围捕点;

S3、根据围捕点和智能体的位置构建关于距离的价值矩阵,对价值矩阵使用竞拍算法得到各个智能体的最优分配结果;

S4、使用基于多智能体深度确定性策略梯度的策略网络,得到智能体的策略,并构建奖励函数,通过实施的奖励作为样本对策略网络进行训练更新,直至环境中所有的目标均被捕获。

进一步地,所述S1的具体实现如下:

所述周围信息包括友军和目标的方位和距离,智能体之间的通信网络属于分布式网络;若所述智能体未能感知到目标,则进行随机运动扩大搜索范围或者向所有追捕者的质心相反的位置移动增大搜索范围,直至捕获所有目标。

进一步地,所述S2中围捕点的外接圆为围捕范围,围捕点组成的是正多边形,保证围捕编队的均匀性;若在一个范围内存在多个目标,则将该范围内的所有目标当作一个整体,以该范围内所有目标的最小外接圆为包围圈,围捕范围半径大于包围圈。

进一步地,所述S3的具体实现如下:

3.1围捕点集合T={1,…,M},根据所有围捕点和追捕者的位置构建关于距离的价值矩阵ψ

3.2将价值矩阵ψ

c

其中,c

将计算结果返回给所有智能体,根据关于距离的最优分配结果作为对应智能体的目标点。

进一步地,所述S4中,智能体的状态构建策略函数的输入,并对数据进行归一化处理,具体为:

追捕者的状态集合

所述友军信息包括友军相对追捕者的相对本智能体的偏航角和本智能体到友军的距离;

所述障碍物信息包括障碍物相对本智能体的偏航角和追捕者到障碍物的距离;

所述目标信息包括:本智能体对应的围捕点相对自身的偏航角、本智能体到对应围捕点的距离和目标的全局速度。

进一步地,所述策略函数是由神经网络拟合的函数,网络中间层由三层全连接层组成,每层的宽度为64,激活函数采用Relu;输入网络的参数是由追捕者构建的一维状态输入,输出是一维的向量;表示智能体的策略。

进一步地,智能体的动作受运动学模型约束,由存在边界的角速度和线速度驱动,具体为:

智能体的策略输出是一个一维向量,表示为[a

进一步地,策略网络中奖励R是在当前状态执行动作转移到下一个状态后获得的实时奖励;

所有追捕者在每一个时间步t执行完动作之后都能从环境中获得实时奖励,为了让追捕者能尽可能快的去捕捉到目标;下面给出奖励函数的数学表示:

其中,r

有益效果:

本发明采用连续的二维空间和带有约束的运动学模型,方便从理论到现实场景下的迁移。

本发明在狭小范围中同时存在多个目标,则进行联合围捕,采用目标分配和围捕控制分离的方式,简单化奖励函数的设计,优化策略网络和价值网络的收敛过程,提升模型训练效率。

附图说明

图1为本发明实施例提供的目标围捕点生成方式。

图2为本发明实施例提供的多目标围捕编队方式。

图3为本发明实施例提供的追捕者感知范围。

图4为本发明实施例提供的MADDPG训练流程。

具体实施方式

下面结合本发明实施例附图对本发明的技术方案做进一步的详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚,需要说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明发明实施例的目的。

设追捕者集合V

其中

本申请提供一种基于强化学习和竞拍算法融合的多智能体围捕控制方法,该方法包括以下步骤。

步骤1:感知信息的获取。智能体需要根据自身观测以及通信网络的信息来做决策。智能体通过配备的传感器信息获取周围环境特征以及友军和目标的数据。

1.1环境初始化之后,每个智能体感知自身周围信息,包括友军和目标的方位和距离。并将感知的目标数据通过通信网络同步给其他智能体。智能体的感知范围如图3所示,超过感知范围的空间无法做到感知。智能体之间的通信网络属于分布式网络,智能体的数量改变并不会对通信网络造成影响。

1.2如果所有智能体的初始化位置均没有感知到目标,那么可以进行随机运动扩大搜索范围或者向所有追捕者的质心相反的位置移动增大搜索范围。在捕获到至少一个目标之前重复此过程。

步骤2:目标围捕点的生成。为方便实现目标的围捕,规定所有感知到的目标周围都会生成围捕点,每个目标的围捕点的数量会根据追捕者的数量和感知到的目标点的数量的变化而变化。如图1所示。

2.1根据当前追捕智能体的数量在感知到的目标周围生成对应数量的围捕点,单个目标的围捕点数量可以是2、3、4等,如图2所示。围捕点的外接圆为围捕范围。围捕点组成的是正多边形,保证围捕编队的均匀性。

2.2当多个目标的距离较近时,围捕范围会发生重叠,进而导致围捕点存在位置重叠的情况。为避免上述情况出现,针对多个目标距离较近的场景多做一层处理。假设在一个范围内存在多个目标,则将在这个范围内的所有目标当作一个整体,以该范围内所有目标的最小外接圆为包围圈,围捕范围半径比目标外接圆半径大,如图2所示。范围内的所有目标对应的追捕者们构成更大的围捕范围。

步骤3:目标最优分配

3.1围捕点集合T={1,…,M},根据所有围捕点的位置和所有追捕者的位置构建关于距离的价值矩阵ψ

3.2将上述构建的价值矩阵ψ

c

其中,c

3.3将上述计算结果返回给所有智能体,根据关于距离的最优分配结果作为对应智能体的目标点。

步骤4:实现围捕编队。实现编队的方式是根据竞拍算法获得的最优分配结果得到每个智能体对应的围捕点。各自基于自身的策略函数做出决策向围捕点移动,当目标对应的围捕点都被占据,则完成目标围捕。

将智能体和环境交互的过程定义为马尔可夫决策过程(Markov decisionprocess,MDP),在围捕问题中,对应的MDP可由四元组表述:

4.1构建策略网络的输入。追捕者的状态集合

其中,

其中,θ

其中,θ

表示对所有障碍物的感知信息的集合。即:

其中,

4.2策略网络。由上述追捕者的状态构建策略函数的输入,并对数据进行归一化处理。策略函数是由神经网络拟合的函数,网络中间层由三层全连接层组成,每层的宽度为64,激活函数采用Relu。输入网络的参数是由追捕者构建的一维状态输入,输出是一维的向量。表示智能体的策略。

4.3获取智能体的决策。追捕者的动作受运动学模型约束,由存在边界的角速度和线速度驱动。数学表达为:

由上步得到智能体的策略输出是一个一维向量,表示为[a

状态转移概率(P):P是指从当前状态s执行动作转移到下一个状态s′的概率,状态转移概率P只和当前状态以及所有智能体的策略相关。在MADDPG中表示为:

P(s′|s)=P(s′|s,a,π

其中,π

4.4奖励(R):R是在当前状态执行动作转移到下一个状态后获得的实时奖励。所有追捕者在每一个时间步t执行完动作之后都能从环境中获得实时奖励,目的是为了让追捕者能尽可能快的去捕捉到目标。下面给出奖励函数的数学表示:

其中,r

本实施例采用人工势场方式将避障奖励密集化,以便追捕者可以在避障过程中能获得连续多样化的奖励,方便网络的学习和收敛。避障奖励的数学表示如下:

其中,

如图4所示,每个智能体在每个时刻都会产生状态转移,每一次的状态转移过程都会有数据的变化,每个智能体经历状态转移的数据都会保存在经验池中,经验池中的每一组数据称为一组经验。更新过程:

每个智能体的的控制网络包含两个网络:策略网络和价值网络;策略网络和价值网络也都具备双网络结构,拥有各自对应的目标网络;

将s输入到每一个智能体的策略网络中得到所有智能体动作策略集合a,随后将a和s一起输入到每一个智能体的价值网络中,得到每一个智能体Q值;随机从每个智能体的经验池取出不同时刻的H组经验,组成一组经验包,其中,s,s′分别是经验包中的智能体当前时刻状态集合和下一时刻状态集合,a是抽取的经验包中当前时刻策略集合,r是抽取的经验包中当前时刻智能体实时奖励集合,下一个时刻状态s′由当前时刻状态s执行集合a中的策略得到。

将s′输入到每一个智能体的目标策略网络中得到下一时刻所有智能体动作策略集合a′,随后将a′和s′一起输入到每一个智能体的目标价值网络中,得到每一个智能体对下一时刻目标Q值;

设:

其中,h表示经验包中的序列号,

根据时间差分法定义价值网络的损失函数为:

其中,

定义策略网络优化方程:

其中,δ

目标网络参数的软更新:

δ′=σδ+(1-σ)δ′

其中,δ′,

重复更新模型参数过程,直至训练出较好的模型。

当环境中所有的目标均被捕获,则完成任务。

以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

相关技术
  • 烟用滤棒密度、含水率在线测量、预警及剔除系统
  • 具有滤棒实时在线检测剔除功能的双倍长烟支汇合装置
技术分类

06120116542151