掌桥专利:专业的专利平台
掌桥专利
首页

一种高海况环境下的无人集群多目标搜索和追捕方法

文献发布时间:2023-06-19 19:28:50


一种高海况环境下的无人集群多目标搜索和追捕方法

技术领域

本发明属于无人集群协同搜索和追捕技术领域,具体涉及一种高海况环境下的无人集群多目标搜索和追捕方法。

背景技术

近年来,随着无人设备的飞速发展,无人系统将在未来的民生、战争中扮演重要的角色。但是,在面对复杂环境时,单一的无人平台越来越难以实现对任务的高效处理。异构无人系统协同技术成为了提高无人集群智能、实现对任务高效处理的一种有效手段。不同种类智能体根据自身特点进行分工合作,可以有效地提高任务处理效率。

无人艇在近海海面搜索、水域勘探等方面有着突飞猛进的发展。但是在高海况环境下,无人艇难以在颠簸状态下实现对周围海域环境和目标信息的准确获取,而无人机可以利用其在空中飞行的优势,确保对复杂多变环境的搜索。然而,无人机也存在着飞续航能力差、负载小的缺点。因此,可以将两种无人设备结合起来,无人机设备作为集群眼睛负责目标搜索任务,无人艇设备作为集群大脑负责集群控制、数据处理和目标分配,同时无人艇执行目标追捕任务,两者相结合,弥补彼此的缺点并有效地利用它们的优势进行跨域协同搜索与追捕任务。目前,现有的协同搜索与追捕技术对异构无人系统的跨域协同方面的研究还很少,大多数的协同任务只针对无人机集群或者无人艇集群,并且,在高海况环境下,传统定位技术难以保证在复杂多变的海域中实现集群设备对目标的精准定位。此外,现有的对异构无人系统协同搜索或追捕的研究多数采用集中式算法,即由一个中心服务器来为集群内所有成员进行任务分配,这种模式不利于无人集群的鲁棒性和对环境的高度适应性。

发明内容

为了解决上述背景技术提到的技术问题,本发明提供一种高海况环境下的无人集群多目标搜索和追捕方法。无人机设备作为集群眼睛负责目标搜索任务,通信无人艇设备作为集群大脑负责集群控制、数据处理和目标分配,同时追捕无人艇设备执行目标追捕任务,通过不同无人设备相互协同,完成集群的搜索和追捕任务。此外,在集群协同执行任务的基础上,本发明考虑到无人集群在高海况环境下机动决策的问题。一方面,在高海况环境下传统通信技术受限、定位技术受干扰时,实现无人设备可以对目标的精准定位;另一方面,为加强集群内各无人设备的信息交互,在保证各无人设备完成追击任务的同时,实现全局效益最大化,提出了一种基于分布式多智能体强化学习的无人集群训练方法。

为了实现上述技术目的,本发明的技术方案为:

一种高海况环境下的无人集群多目标搜索和追捕方法,包括以下步骤:

S1、对将要搜索海域使用栅格的形式离散化处理,用栅格法对搜索环境进行建模;

S2、将无人机看作空中二维平面上运动的粒子,基于环境刺激函数的协同覆盖搜索算法,针对每一个无人机进行搜索路径优化,根据无人机状态信息和环境刺激函数,优化出无人机下一个最优航迹点,根据最优航迹点,无人机更新运动状态并移动到相应位置,在每一个时间步长内搜索其范围内栅格,并将感知信息发送给通信无人艇;

S3、当无人机搜索到目标后,跟踪目标,在每一个时间步长中测算自身与目标之间的相对距离、相对距离变化率和相对速度,计算自身与目标的相对定位估计,进一步根据无人机与目标的定位估计,计算追捕无人艇与目标的相对定位估计;

S4、无人机记录目标状态信息并传输给通信无人艇,构建目标赋值矩阵,根据当前目标状态信息和现存追捕无人艇状态信息进行无人艇目标任务分配;

S5、在追捕无人艇分配目标任务的基础上,建立追捕无人艇追捕决策模型和决策学习模型;完成后追捕无人艇执行系统追捕任务。

优选地,步骤S1中将整个环境视为一个平面矩形区域,并且区域被划分为L

E={Grid

在t时刻,Grid

s

式中,μ

优选地,步骤S2中基于环境刺激函数的协同覆盖搜索算法,针对每一个无人机进行搜索路径优化具体步骤如下:

S21、初始化无人机的位置和状态,其中在t时刻无人机i的状态信息公式表达如下:

s

式中,λ

S22、计算每个栅格的刺激函数c

式中,c

无人机i将会在临近栅格内选择具有最大搜索刺激值的栅格作为下一个搜索点,公式表达如下:

当无人机i搜索到目标后,无人机记录并计算目标状态,将目标状态发送给同通信组内的通信无人艇,目标状态公式表达为:

s

式中,λ

优选地,步骤S3中,当无人机搜索到目标后,无人机采用超宽带测距和视觉里程计测速,实时测量每个时间步长下无人机和无人艇之间的相对距离

式中,

根据集群内给出的追击无人艇和无人机的状态信息,获得追击无人艇k和无人机i的相对距离

计算出同一时间步长下,追捕无人艇k和目标j的相对定位估计公式表达如下:

优选地,步骤S4中,共有l艘追捕无人艇对p个目标进行追捕,其中l≥p,设置目标分配矩阵A=[a

以无人艇和目标初始相对距离最小化为分配目标建立目标分配模型表达如下:

a

式中,

优选地,步骤S5中建立追捕无人艇目标追捕模型,该模型用元组表示如下:

式中,S表示当前追捕的状态空间,它是可以被集群内所有设备共享的,A

追捕无人艇编队的全局奖励值定义为各追捕无人艇奖励值的平均值,公式表达如下:

式中,r

极大策略公式表达如下:

式中,s′≡s

设置每个追捕无人艇奖励值,公式表达如下:

r

式中,r

r

ω

式中,r

追捕距离奖励r

式中,

碰撞奖励r

式中,d

优选地,步骤S5中建立多无人艇追捕机动决策模型,采用Actor-Critic结构,通过双向递归神经网络连接每艘追捕无人艇的Actor网络和Critic网络,将单个追捕无人艇决策模型的Actor网络和Critic网络中的隐藏层作为双向递归神经网络的递归单元,根据追捕无人艇的数量对其进行扩展;其中,

追捕无人艇的个体目标函数公式表达如下:

式中,

追捕无人艇编队的目标函数公式表达如下:

策略网络参数θ的梯度公式表达如下:

采用参数化临界函数Q

式中,ξ为Q网络参数;

采用随机梯度下降法对Actor网络和Critic网络进行优化,在交互学习过程中,通过试错获得的数据更新网络参数,完成协同搜索追捕的优化。

优选地,多无人艇协同目标追捕决策模型的训练学习过程包括以下步骤:

S51、初始化Actor和Critic的在线网络参数,并将在线网络参数分配给对应的目标网络参数,即θ′←θ和ξ′←ξ,其中θ′和ξ′分别是Actor和Critic的目标参数,初始化经验回放空间

S52、确定训练的初始状态,设置追捕无人艇编队和目标的初始位置状态和速度状态;

S53、根据初始状态重复多集训练,模拟执行以下操作:

每个追捕无人艇基于状态s

执行完所有动作之后,状态转移至s

计算Critic的梯度估计,公式表达如下:

根据得到的梯度估计Δξ和Δθ,更新Actor和Critic的在线网络参数,随后,对目标网络参数进行更新,公式表达如下:

式中,k∈(0,1)。

采用上述技术方案带来的有益效果:

(1)本发明使用栅格化方法来对无人集群的搜索环境进行建模,方便环境信息的描述,减少计算量;

(2)本发明设计基于环境刺激函数的协同覆盖搜索算法,综合目标可能出现的位置、当前无人机的状态,优化出无人机的搜索路径;

(3)本发明采用持久性奖励的相对定位法,实时测量无人设备和目标之间的相对位置和相对速度,不依赖外部基础设施,保证在拒止环境下的精准定位,能够应对传统定位系统对抗高海况环境下的干扰,确保无人机和无人艇对目标的精确定位;

(4)本发明建立无人集群协同通信模型,将无人集群划分多个通信组,在面对缺乏通信基础设施和资源的海面实现无人集群协同搜索目标,避免无人机或无人艇发生碰撞,确保在目标搜索过程中,搜索无人机群能快速将自身状态信息、环境信息和目标状态信息传输到部署在无人艇上的基站;

(5)本发明在无人集群协同搜索和追捕过程中,保证集群内在无人机进行搜索的同时,进行无人艇目标任务的分配,实现在目标搜索和目标追捕的任务协调性,设计目标任务分配方法;

(6)本发明通过协调机制将无人艇个体学习行为组织成无人艇集群群体协同,设计基于设备通信的分布式多智能体强化学习方法,保证各无人艇完成追击任务的同时,实现集群追捕全局效益最大化,在复杂多变的高海况环境下,实现无人集群协同追捕决策的高效性,保障无人集群对目标追捕的稳定性和可靠性;

附图说明

图1是本发明的基于无人集群协同搜索和追捕的系统模型,系统包括无人集群、通信无人艇群、追捕无人艇群和待搜索目标;

图2是本发明流程图;

图3是基于双向递归神经网络的无人艇追捕机动模型。

具体实施方式

以下将结合附图,对本发明的技术方案进行详细说明。

如图1所示的一种基于无人集群协同搜索和追捕的系统模型,包括无人机群、通信无人艇群、追捕无人艇群和待搜索目标。本实例给出了一种面向高海况环境下的无人集群多目标搜索和追捕方法,具体流程如图2所示,所述的一种面向高海况环境下的无人集群多目标搜索和追捕方法的具体实施方法如下:

1、用栅格法对搜索环境进行建模。将整个环境视为一个平面矩形区域,并且区域被划分为L

E={Grid

在t时刻,Grid

s

其中μ

2、初始化无人集群内设备数量,其中有m架无人机、n艘通信无人艇、l艘追捕无人艇和p个目标。在无人集群内,无人机和通信无人艇组成通信组,每个通信组由一个通信无人艇和若干个无人机组成,根据通信双方的不同,将组内无人机通信划分为A2S(UAV toUAV)通信和A2A(UAV to UAV)通信。在分组回程上行链路中,无人机共享上行频谱资源,并重用组内的资源块。

3、设计基于环境刺激函数的协同覆盖搜索算法对每一个无人机进行搜索路径优化,具体步骤如下:

1)初始化无人机的位置和状态,其中在t时刻无人机i的状态信息可表示为:

s

其中λ

2)计算每个栅格的刺激函数c

其中c

无人机i将会在临近栅格内选择具有最大搜索刺激值的栅格作为下一个搜索点,即

在环境搜索刺激函数的作用下,无人机总倾向于向刺激值较大的栅格移动,即未搜索过的栅格更有可能被无人机选择搜索,而无人机会有效避免已经被自己重复搜索过的区域。如此一来,就能保证集群较高的搜索覆盖率和效率。

当无人机i搜索到目标后,无人机记录并计算目标状态,将目标状态发送给同通信组内的通信无人艇,目标状态可表示为:

s

其中,λ

4、当无人机搜索到目标后,无人机采用超宽带测距和视觉里程计测速,实时测量每个时间步长下无人机和无人艇之间的相对距离

其中,

进一步地,根据集群内给出的追击无人艇和无人机的状态信息,获得追击无人艇k和无人机i的相对距离

进一步地,计算出同一时间步长下,追捕无人艇k和目标j的相对定位估计:

5、在目标分配中,共有l艘追捕无人艇对p个目标进行追捕,其中l≥p。设置目标分配矩阵A=[a

以无人艇和目标初始相对距离最小化为分配目标建立目标分配模型如下:

a

其中,

6、本发明设计了一个基于设备通信的分布式多智能体强化学习方法,实现多无人艇协同追捕的机动决策,具体内容如下:

(1)策略协同机制

在无人艇目标追捕过程中,每艘追捕无人艇根据自身在高海况环境中的情况做出自己的机动决策,多无人艇系统追捕可以看作是无人艇与目标之间的竞争博弈,建立无人艇目标追捕模型,该模型用元组表示:

其中,S表示当前追捕的状态空间,它是可以被集群内所有设备共享的,A

追捕无人艇编队的全局奖励值定义为各追捕无人艇奖励值的平均值,可以表示为:

其中,r

追捕无人艇编队的目标是学习一种策略,使折扣奖励的预期值最大化,即

综上所述,可以得到以下极大策略:

其中,s′≡s

为反映每个追捕无人艇个体在协同追捕中的作用,为每个追捕无人艇设置奖励值,可以表示为:

r

其中,r

r

ω

其中r

1.追捕距离奖励r

每个时间步长,追捕无人艇会收到负回报,r

2.碰撞奖励r

其中d

对于m艘追捕无人艇个体,存在m个贝尔曼方程,即

在强化学习的训练过程中,通过奖励值的分配,定义的每艘追捕无人艇在目标分配、碰撞避免等方面的反馈。追捕无人艇在训练后可以实现决策协调,使各追捕无人艇的行为达到默契。

(2)决策学习机制

建立多无人艇追捕机动决策模型,以保证无人艇之间的信息交互,实现集群机动的协同。该模型采用Actor-Critic结构,通过双向递归神经网络连接每艘追捕无人艇的Actor网络和Critic网络,具体如图3所示,将单个追捕无人艇决策模型的策略网络(Actor)和Q网络(Critic)中的隐藏层作为双向递归神经网络的递归单元,根据追捕无人艇的数量对其进行扩展。

追捕无人艇的个体目标函数可定义为:

其中

则追捕无人艇编队的目标函数表示为:

根据多主体确定性策略梯度定理,策略网络参数θ的梯度为:

采用参数化临界函数Q

其中ξ为Q网络参数。

采用随机梯度下降法对Actor网络和Critic网络进行优化,在交互学习过程中,通过试错获得的数据更新网络参数,完成协同搜索追捕的优化。

(3)多无人艇协同目标追捕决策模型的训练学习过程

a.初始化Actor和Critic的在线网络参数,并将在线网络参数分配给对应的目标网络参数,即θ′←θ和,其中θ′和ξ′分别是Actor和Critic的目标参数。初始化经验回放空间

b.确定训练的初始状态,设置追捕无人艇编队和目标的初始位置状态和速度状态;

c.根据初始状态重复多集训练,每集追捕模拟执行以下操作:

每个追捕无人艇基于状态s

执行完所有动作之后,状态转移至s

计算Critic的梯度估计,即

计算Actor的梯度估计,即

根据得到的梯度估计Δξ和Δθ,更新Actor和Critic的在线网络参数,随后,对目标网络参数进行更新,即

其中k∈(0,1)。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 一种针对性解决复杂电磁环境下的多目标跟踪数据关联问题的方法
  • 城市低空环境下无人机多目标路径规划联合搜索方法
  • 城市低空环境下无人机多目标路径规划联合搜索方法
技术分类

06120115920679