掌桥专利:专业的专利平台
掌桥专利
首页

参数化动作空间的多智能体决策方法、装置、计算机设备及介质

文献发布时间:2024-04-18 19:58:26


参数化动作空间的多智能体决策方法、装置、计算机设备及介质

技术领域

本发明主要涉及到多智能体智能协同决策技术领域,尤其是一种参数化动作空间的多智能体决策方法、装置、计算机设备及介质。

背景技术

多飞行器智能协同突防是提高飞行器突防效能的关键。为了能够让飞行器在高动态的对抗环境中有效规避拦截弹威胁,成功实施预定的飞行任务,越来越多的专家学者开始关注利用强化学习的方法对飞行器的多元化突防参数进行智能控制。

传统的多智能体强化学习只能适用于离散型的动作空间如QMIX,或者连续型的动作空间如MADDPG。在许多实际的多智能体决策应用中,通常需要在同时具有离散动作变量和连续动作变量的参数化策略空间中进行决策。目前对于参数化动作空间下单智能体强化学习算法已经有了较为广泛的研究,提出了如PDDPG、P-DQN、HPPO、HyAR等能够适用于参数化动作空间的强化学习方法。但是参数化动作空间下多智能体强化学习算法的相关研究工作还比较少。

发明内容

针对现有技术存在的技术问题,本发明提出一种参数化动作空间的多智能体决策方法、装置、计算机设备及介质。

为实现上述目的,本发明采用的技术方案如下:

一方面,本发明提出一种参数化动作空间的多智能体决策模型训练方法,包括:

获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息,所述轨迹信息包括当前时刻智能体的观测信息以及上一时刻的动作信息;

将各智能体的轨迹信息输入各智能体对应的策略网络,由各智能体各自对应的策略网络输出离散型动作变量、连续型动作变量;

将当前时刻各智能体的轨迹信息以及各智能体对应的离散型动作变量、连续型动作变量输入各智能体对应的个体评估网络,由各智能体对应的个体评估网络评估当前各智能体个体行为价值的个体Q值;

将当前时刻多智能体系统的全局状态信息以及当前所有智能体个体行为价值的个体Q值作为混合网络的输入,混合网络通过多层非线性复合的方式拟合出全局联合Q值;

基于所述全局联合Q值对各智能体对应的策略网络参数、个体评估网络参数以及混合网络参数进行更新,直至完成多智能体决策模型的训练。

本发明在所述多智能体系统中,观测信息指的是各个智能体观测范围内所获得的信息以及智能体本身的位置、速度、智能体的装备参数信息,全局状态信息是指站在白方视角下所有智能体观测信息的集合。

进一步地,本发明所述策略网络为双头输出的MLP多层神经网络,由策略网络基于当前时刻智能体的观测信息以及上一时刻的动作信息决策并输出当前时刻的离散型动作变量以及连续型动作变量。

进一步地,本发明所述混合网络对所有智能体个体行为价值的个体Q值进行两次复合后得到全局联合Q值,包括:

将当前时刻多智能体系统的全局状态信息输入四个不同的全连接网络,由四个全连接网络分别输出第一权重矩阵W

设多智能体系统中有n个智能体,对所有智能体个体行为价值的个体Q值的第一次复合:

其中Q

基于第一次复合结果进行第二次复合,得到全局联合Q值Q

其中W

本发明中基于所述全局联合Q值构建各智能体对应的个体评估网络参数以及混合网络参数的损失函数

其中

本发明中,各智能体的策略网络参数采用了中心化策略梯度的更新机制进行更新,如下:

其中

另一方面,本发明提供一种参数化动作空间的多智能体决策模型训练装置,包括:

第一模块,用于获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息,所述轨迹信息包括当前时刻智能体的观测信息以及上一时刻的动作信息;

第二模块,用于将各智能体的轨迹信息输入各智能体对应的策略网络,由各智能体各自对应的策略网络输出离散型动作变量、连续型动作变量;

第三模块,用于将当前时刻各智能体的轨迹信息以及各智能体对应的离散型动作变量、连续型动作变量输入各智能体对应的个体评估网络,由各智能体对应的个体评估网络评估当前各智能体个体行为价值的个体Q值;

第四模块,用于将当前时刻多智能体系统的全局状态信息以及当前所有智能体个体行为价值的个体Q值作为混合网络的输入,混合网络通过多层非线性复合的方式拟合出联合Q值;

第五模块,基于所述联合Q值对各智能体对应的策略网络参数、个体评估网络参数以及混合网络参数进行更新。

另一方面,本发明提供一种参数化动作空间的多智能体决策方法,基于上述参数化动作空间的多智能体决策模型训练方法获得的参数化动作空间的多智能体决策模型,决策出各智能体的行为动作。

另一方面,本发明提供一种参数化动作空间的多智能体决策装置,包括输入模块、多智能体决策模型,所述多智能体决策模型采用上述参数化动作空间的多智能体决策模型训练方法获得,

输入模块获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息并输入至如权利要求1所述参数化动作空间的多智能体决策模型训练方法参数化动作空间的多智能体决策模型,所述多智能体决策模型输出各智能体的行为动作决策。

另一方面,本发明提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:

参数化动作空间的多智能体决策模型训练方法,其特征在于,包括:

获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息,所述轨迹信息包括当前时刻智能体的观测信息以及上一时刻的动作信息;

将各智能体的轨迹信息输入各智能体对应的策略网络,由各智能体各自对应的策略网络输出离散型动作变量、连续型动作变量;

将当前时刻各智能体的轨迹信息以及各智能体对应的离散型动作变量、连续型动作变量输入各智能体对应的个体评估网络,由各智能体对应的个体评估网络评估当前各智能体个体行为价值的个体Q值;

将当前时刻多智能体系统的全局状态信息以及当前所有智能体个体行为价值的个体Q值作为混合网络的输入,混合网络通过多层非线性复合的方式拟合出全局联合Q值;

基于所述全局联合Q值对各智能体对应的策略网络参数、个体评估网络参数以及混合网络参数进行更新,直至完成多智能体决策模型的训练。

另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

参数化动作空间的多智能体决策模型训练方法,其特征在于,包括:

获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息,所述轨迹信息包括当前时刻智能体的观测信息以及上一时刻的动作信息;

将各智能体的轨迹信息输入各智能体对应的策略网络,由各智能体各自对应的策略网络输出离散型动作变量、连续型动作变量;

将当前时刻各智能体的轨迹信息以及各智能体对应的离散型动作变量、连续型动作变量输入各智能体对应的个体评估网络,由各智能体对应的个体评估网络评估当前各智能体个体行为价值的个体Q值;

将当前时刻多智能体系统的全局状态信息以及当前所有智能体个体行为价值的个体Q值作为混合网络的输入,混合网络通过多层非线性复合的方式拟合出全局联合Q值;

基于所述全局联合Q值对各智能体对应的策略网络参数、个体评估网络参数以及混合网络参数进行更新,直至完成多智能体决策模型的训练。

相比现有技术,本发明的技术效果:

该发明以基于值分解网络的多智能体决策算法作为中心化评估架构,通过值分解网络的结构保证对多智能体系统的有效协同,有效避免“信用分配”问题的出现。在此基础上,借鉴参数化深度确定性策略梯度算法中处理参数化动作空间的策略网络设计,本发明设计了与PDDPG相似的策略网络结构。本发明能够有效对具有参数化动作空间的多智能体协同任务进行决策和训练。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一实施例的流程示意图;

图2为本发明一实施例中多智能体决策模型的结构图;

图3为本发明一实施例中策略网络与个体评估网络的网络结构图;

图4为本发明一实施例中混合网络的网络结构图;

图5为一实施例中在多飞行器协同突防场景中策略网络的架构图;

图6为一实施例中的多飞行器协同突防场景中推演仿真系统总体结构图;

图7为一实施例中在多飞行器协同突防场景下的回合累积奖励的变化趋势图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一实施例,提供一种参数化动作空间的多智能体决策模型训练方法,包括:

获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息,所述轨迹信息包括当前时刻智能体的观测信息以及上一时刻的动作信息;

将各智能体的轨迹信息输入各智能体对应的策略网络,由各智能体各自对应的策略网络输出离散型动作变量、连续型动作变量;

将当前时刻各智能体的轨迹信息以及各智能体对应的离散型动作变量、连续型动作变量输入各智能体对应的个体评估网络,由各智能体对应的个体评估网络评估当前各智能体个体行为价值的个体Q值;

将当前时刻多智能体系统的全局状态信息以及当前所有智能体个体行为价值的个体Q值作为混合网络的输入,混合网络通过多层非线性复合的方式拟合出全局联合Q值;

基于所述全局联合Q值对各智能体对应的策略网络参数、个体评估网络参数以及混合网络参数进行更新,直至完成多智能体决策模型的训练。

本发明在所述多智能体系统中,观测信息指的是各个智能体观测范围内所获得的信息以及智能体本身的位置、速度、智能体的装备参数信息,全局状态信息是指站在白方视角下所有智能体观测信息的集合。以博弈的角度来说,我方和敌方都有自己的观测范围,对于观测范围以外的信息是无法获得的。白方视角是指从第三方的上帝视角出发,能获得整个博弈场景下的所有态势信息。

在本发明所述参数化动作空间的多智能体决策模型中,包括三个网络模型,一个是各智能体用于输出离散型动作变量、连续型动作变量的策略网络;一个是用于评估各智能体个体行为价值的个体评估网络;一个是将所有评估各智能体个体行为价值的个体Q值复合成全局联合Q值的混合网络,其中全局联合Q值用于评估所有智能体联合策略的价值。

本发明一实施例中,提出一种多智能体决策模型,其结构如图2所示,设多智能体系统中有n个智能体,也就有n个策略网络、n个个体评估网络,第i个智能体对应第i个策略网络,第i个策略网络对应第i个个体评估网络。获取第i个智能体当前时刻的轨迹信息

当前时刻第i个智能体的轨迹信息

本发明策略网络的双头输出用于耦合参数化动作空间的决策需求,基于值分解的中心化评估用于多智能体系统的有效协同。

本发明所述策略网络为双头输出的MLP多层神经网络,由策略网络基于当前时刻智能体的观测信息以及上一时刻的动作信息决策并输出当前时刻的离散型动作变量以及连续型动作变量。

参照图3,一实施例提供的策略网络与个体评估网络,本实施例中智能体的策略网络以及个体评估网络均使用多个线性层加激活函数组成,其中所述策略网络为双头输出的MLP多层神经网络,由策略网络基于当前时刻智能体的轨迹信息(包括当前时刻的观测信息以及上一时刻的动作信息决策),策略网络的一个头输出当前时刻的离散型动作变量,另一个头输出当前时刻的连续型动作变量。个体评估网络将策略网络输出的离散型动作变量、连续型动作变量以及当前时刻的轨迹信息共同作为输入,输出一个用于评估当前智能体个体行为价值的个体Q值。

参照图4,一实施例提供的混合网络,将所有智能体的个体Q值

设多智能体系统中有n个智能体,对所有智能体个体行为价值的个体Q值的第一次复合:

其中Q

基于第一次复合结果进行第二次复合,得到全局联合Q值Q

其中W

混合网络通过多层非线性复合的方式能够有效拟合出全局联合Q值,通过混合网络能够有效解决多智能体系统中的“信用分配”问题,同时也可以增强对于联合Q值的表示能力。

在本发明整个模型结构中,用于评估联合动作效能的全局联合Q值可以记作通过如下的方式得到:

Q

其中n为智能体个数,ω为混合网络的参数,s为当前状态信息,Q

在一实施例中,提出基于所述全局联合Q值构建各智能体对应的个体评估网络参数以及混合网络参数的损失函数

其中

在一实施例中,提出各智能体的策略网络参数采用了中心化策略梯度的更新机制进行更新,如下:

其中

下面提供本发明一具体应用实例,以说明本发明的有效性:

本实施例场景为多飞行器协同突防的任务场景,基于上述参数化动作空间的多智能体决策模型的训练方法,提出一种多飞行器协同突防的智能决策模型的训练方法,步骤包括:

获取当前时刻多飞行器协同突防系统的全局状态信息以及多飞行器协同突防系统中各飞行器的轨迹信息,所述轨迹信息包括当前时刻飞行器的观测信息以及上一时刻的动作信息;

将各飞行器的轨迹信息输入各飞行器对应的策略网络,由各飞行器各自对应的策略网络输出离散型动作变量、连续型动作变量;

将当前时刻各飞行器的轨迹信息以及各飞行器对应的离散型动作变量、连续型动作变量输入各飞行器对应的个体评估网络,由各飞行器对应的个体评估网络评估当前各飞行器个体行为价值的个体Q值;

将当前时刻多飞行器协同突防系统的全局状态信息以及当前所有飞行器个体行为价值的个体Q值作为混合网络的输入,混合网络通过多层非线性复合的方式拟合出全局联合Q值;

基于所述全局联合Q值对各飞行器对应的策略网络参数、个体评估网络参数以及混合网络参数进行更新,直至完成多飞行器协同突防的智能决策模型的训练。

参照图5,多飞行器协同突防的智能决策模型中略网络的结构设计。对于第i个飞行器,首先根据其观测信息,第i个策略网络分别输出连续型动作变量和离散型动作变量,同时策略屏蔽模块会根据输出的动作变量进行修正,避免在本次决策中出现无效动作或者不合理动作。其次将修正输出的动作变量进行联合动作编码,编码成飞行器可执行的策略指令后输出。策略屏蔽模块是基于专家先验设计的策略修正模块。

图6表示整个多飞行器协同突防场景下的仿真推演系统总体结构,飞行器的智能决策系统与仿真推演系统通过UDP的数据通信协议进行数据交互。其中数据交互的逻辑为,仿真推演系统首先向智能决策系统发送全局态势信息;智能决策系统根据各自的观测空间设计从态势信息中获取各自的观测信息,并将观测信息作为其策略网络的输入得到该飞行器的动作变量输出,并将编码后的动作指令发送给仿真推演系统;仿真系统响应飞行器的动作指令后,便会更新全局态势信息,并再将更新后的态势信息发送给智能决策系统。仿真推演系统与智能决策系统之间的每次交互数据都会作为训练样本保存在经验池中,智能决策模型会按照一定周期间隔从经验池中采样训练更新模型参数,直到模型收敛便可以停止交互训练。

一仿真实施例中,设置的任务场景包括:推演环境为某区域内分别部署3个发射点和3个目标点,5个飞行器分别部署在3个发射点上,同时为每个飞行器设置一个目标点,发射点和目标点之间部署了2个威胁区A和3个威胁区B。状态空间包括飞行器相关信息和威胁区相关信息,动作空间包括机动、加减速、隐身、干扰四项突防策略及其策略的执行约束条件,设计了三种奖励函数:与目标的相对位置关系奖励、通过威胁区的时间奖励、成功打击到目标的奖励。观测信息包括:飞行器id、飞行器状态、飞行器正在执行的策略、飞行器是否进入威胁区、威胁程度最高的威胁区id、威胁区半径与飞行器与威胁区距离的比值、角度信息(包括飞行器速度角度、飞行器与目标连线的夹角)、飞行器与目标的相对位置信息、前方一定阈值范围内的威胁区数量、突防策略可执行的约束、已被干扰的威胁区平台id。

采用的策略网络与个体评估网络如图3所示,采用的混合网络结构如图4所示,策略网络根据飞行器当前的观测信息决策出相应的行为动作,价值评估网络则生成用于评估在当前观测信息下各飞行器其行为动作价值的个体Q值。策略网络设计成双头输出的形式,能够同时输出飞行器的离散型动作变量以及连续型动作变量。混合网络将所有飞行器的个体Q值进行非线性复合得到用于评估联合动作效能的全局联合Q值。各网络参数的更新方式与上述实施例中公开的方式相同,在此不再赘述。

在本实施例场景下,本发明方法所涉及的相关参数如下表所示:

/>

算法在训练过程中,将每个回合的回合累积奖励记录下来并分别绘制回合奖励的变化趋势图,图7给出了本实施例在多飞行器场景中的训练效果,在5个飞行器协同突防的实验中,本发明经过大约350000个回合的采样训练算法逐渐趋于收敛。为验证训练好的模型对多飞行器系统突防决策有效性,首先在训练场景下进行500次突防实验,其他在调整了发射点和目标点关系的两组新场景下进行了500次的仿真实验,其突防成功次数与突防成功率如下表所示。

本实施例提供了一种多飞行器协同突防的智能决策方法,基于上述实施例多飞行器协同突防的智能决策模型的训练方法获得的智能决策模型,决策出各飞行器的行为动作。本发明能够有效对具有参数化动作空间的多飞行器协同任务进行决策和训练。

另一实施例中,提供一种参数化动作空间的多智能体决策模型训练装置,包括:

第一模块,用于获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息,所述轨迹信息包括当前时刻智能体的观测信息以及上一时刻的动作信息;

第二模块,用于将各智能体的轨迹信息输入各智能体对应的策略网络,由各智能体各自对应的策略网络输出离散型动作变量、连续型动作变量;

第三模块,用于将当前时刻各智能体的轨迹信息以及各智能体对应的离散型动作变量、连续型动作变量输入各智能体对应的个体评估网络,由各智能体对应的个体评估网络评估当前各智能体个体行为价值的个体Q值;

第四模块,用于将当前时刻多智能体系统的全局状态信息以及当前所有智能体个体行为价值的个体Q值作为混合网络的输入,混合网络通过多层非线性复合的方式拟合出联合Q值;

第五模块,基于所述联合Q值对各智能体对应的策略网络参数、个体评估网络参数以及混合网络参数进行更新。

另一实施例中,提供一种参数化动作空间的多智能体决策方法,基于上述参数化动作空间的多智能体决策模型训练方法获得的参数化动作空间的多智能体决策模型,决策出各智能体的行为动作。

另一实施例中,提供一种参数化动作空间的多智能体决策装置,包括输入模块、多智能体决策模型,所述多智能体决策模型采用上述参数化动作空间的多智能体决策模型训练方法获得:

输入模块获取当前时刻多智能体系统的全局状态信息以及多智能体系统中各智能体的轨迹信息并输入至如权利要求1所述参数化动作空间的多智能体决策模型训练方法参数化动作空间的多智能体决策模型,所述多智能体决策模型输出各智能体的行为动作决策。

此外,本实施例还提供一种参数化动作空间的多智能体决策系统,包括计算机设备,该计算机设备被编程以执行本实施例前述参数化动作空间的多智能体决策方法的步骤,或者该计算机设备的存储介质上存储有被编程以执行本实施例前述参数化动作空间的多智能体决策方法的计算机程序。此外,本实施例还提供一种计算机可读介质,该计算机可读存储介质上存储有被编程以执行本实施例前述参数化动作空间的多智能体决策方法的计算机程序。

综上,本发明利用决策算法保证多智能体的有效协同,结合参数化深度确定性策略梯度算法中双头策略输出实现了对参数化动作空间的有效耦合;通过值分解网络的结构保证对多智能体系统的有效协同,有效避免“信用分配”问题的出现,并设计了处理参数化动作空间的策略网络和评估网络结构,能够有效对具有参数化动作空间的多飞行器协同任务进行决策和训练。

另一方面,本发明提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任一实施例中所提供的参数化动作空间的多智能体决策模型训练方法的步骤。该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。

另一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中所提供的参数化动作空间的多智能体决策模型训练方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本发明未尽事宜为公知技术。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的优选的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 基于多智能体的角色分配方法、装置、计算机设备及存储介质
  • 视频动作分类的方法、装置、计算机设备和存储介质
  • 人脸动作单元检测方法、装置、计算机设备及存储介质
  • 智能设备的配网方法、装置、设备及计算机可读介质
  • 基于决策树的人机交互方法、装置、计算机设备及介质
  • 一种多智能体的动作决策方法、装置、设备及存储介质
  • 一种多智能体的动作决策方法、装置、设备及存储介质
技术分类

06120116490358