掌桥专利:专业的专利平台
掌桥专利
首页

一种基于差分演化算法的QMIX超网络参数优化方法及装置

文献发布时间:2023-06-19 19:28:50


一种基于差分演化算法的QMIX超网络参数优化方法及装置

技术领域

本发明属于人工智能技术领域,具体涉及一种基于差分演化算法的QMIX超网络参数优化方法及装置。

背景技术

多智能体强化学习(Multi-Agent Reinforcement Learning,简称MARL)是近年来人工智能领域的研究热点与难点,并且其环境所具有的部分可观察、联合动作空间维度庞大、不稳定性等特点,使得协同多智能体系统进行学习的控制策略仍具有挑战性。

目前主流的多智能体算法主要分为Communication和Cooperation两类,第一种类型通过建立智能体之间的媒介进行通信,进而促进智能体之间的协同作用,Peng等人在双向循环神经网络的基础上提出了双向协调网络(Bilateral Complementary Network,简称BiCNet)通信协作框架,它在个体行为上使用了深度确定性策略梯度(Deep DeterministicPolicy Gradient,简称DDPG)算法代替基于深度学习的Q-learning算法(Deep Q-Network,简称DQN),群体链接中采用了双向循环网络取代单向网络,以此提高多个智能体之间的协作能力;Foerster等人为通信的多个智能体设置环境参数和学习算法,并以智能体系统的全局目标制定通信协议,增强了智能体之间共同的学习能力。第二种类型分为去中心化架构(Fully decentralized)、完全中心化架构(Fully centralized)与集中训练分散执行(Centralized Training Decentralized Execution,简称CTDE)架构,其中,去中心化架构训练所有的智能体使用自身观察到的环境状态以及奖励来学习自身的策略,智能体之间不进行交流,一般情况下该架构下的训练效果较差,且难以收敛。而完全中心化训练所有的智能体只负责将观察到的环境状态以及奖励发送到中央控制器,并完全由中央控制器进行控制自身的决策,这样的架构执行速度较慢且无法满足实时同步决策的需求。而在集中训练分散执行架构中的中央控制器只负责对策略的训练,训练完成之后中央控制器就不再干涉,决策由各智能体分散执行,该类算法主要研究多智能体如何通过集中式的协同训练学习到可独立执行的策略,执行速度与效率均比较高,故该类框架成为目前最常引用的一种多智能体强化学习算法结构。

LOWE等人提出的多智能体深度确定性策略梯度(Multi-Agent DeepDeterministic Policy Gradient,简称MADDPG)算法首次采用了集中式训练和分散式学习框架(Centralized Training and Decentralized Execution,简称CTDE)学习架构,对系统中所有智能体策略进行估计,训练时充分利用全局信息,而在执行动作时仅利用局部信息选择策略,以此来降低多智能体系统训练的时间成本,缓解多智能体协同造成环境不稳定的问题。之后DeepMind团队在2017和2018年相继提出了CTDE学习结构下的值函数分解网络算法(Value-Decomposition Networks,简称VDN)和QMIX来解决离散动作空间下行为策略学习,VDN算法将智能体系统全局Q值分解为单个智能体Q值,通过离散的单智能体Q值能够让分散的智能体根据自己的局部观测选择相应的行为,从而执行分布式策略,VDN能够在一定程度上保证整体Q函数的最优性,但由于VDN缺少值函数分解有效性的理论支持,所以在面对一些大规模的多智能体优化问题时,它的学习能力将会大打折扣;而QMIX算法并不直接采用某种方式对全局Q值进行分解,而是使用神经网络去近似全局Q值,并对全局状态S加以利用,确保局部动作构成全局最佳动作组。

作为一种流行的多智能体Q学习算法,QMIX在星际争霸挑战中拥有最好的性能。QMIX使用单个智能体的效用函数去拟合最优联合动作值函数,这种设定使得QMIX在训练期间能够实现多智能体系统整体协同能力最大化,研究表明QMIX非常适合解决分散单元微观管理类的任务。但QMIX仍然存在一些不足,Kyunghwan等人为了解决其联合动作值函数受限的问题提出了一种新的MARL因子分解方法QTRAN,该方法不受QMIX值函数结构的约束,将原始联合动作值函数转变为具有相同最优动作且易于分解的函数,具有更强的通用型;不久,QMIX的提出者Rashid等人发现QMIX联合动作所施加的单调性限制影响了值函数的表示,通过设计加权函数的方式将联合动作空间中的每个动作根据其重要性进行加权,提出了中心加权与优化加权两种加权方式来得到对应的最优策略,避免原始QMIX算法陷入局部最优;Wang等人通过采用双工竞争的网络架构来分解联合值函数,从网络层面入手,将个人全局最大化(Individual-Global-Max,简称IGM)原则编码至神经网络结构中,使智能体系统拥有高效的价值函数学习能力。

虽然这些方法都能够提高QMIX算法的性能,但均未考虑到QMIX算法早期探索效率低下、全局回报较少的问题。

发明内容

为了解决现有技术中存在的上述问题,本发明提供了一种基于差分演化算法的QMIX超网络参数优化方法及装置。本发明要解决的技术问题通过以下技术方案实现:

第一方面,本发明实施例提供了一种基于差分演化算法的QMIX超网络参数优化方法,包括:

构建QMIX超网络模型;其中,所述QMIX超网络模型包含超网络、联合Q值网络、单智能体网络DRQN,所述单智能体DRQN网络用于根据每个智能体的当前动作和观测序列信息生成每个智能体对应的Q值,所述超网络用于根据当前环境的状态信息输出联合Q值网络的网络参数,所述联合Q值网络用于根据所述联合Q值网络的网络参数和每个智能体对应的Q值输出最终的联合Q值;

根据所述超网络输出的联合Q值网络的网络参数构建个体,采用差分演化算法根据构建的个体优化所述超网络输出的联合Q值网络的网络参数,根据优化后的所述超网络输出的联合Q值网络的网络参数优化整体QMIX超网络模型的网络参数。

在本发明的一个实施例中,所述超网络包括两个单层线性网络;对应的,所述超网络输出的联合Q值网络的网络参数包括第一网络权重、第二网络权重、第一网络偏置和第二网络偏置;其中,

所述第一网络权重和所述第二网络权重由两个单层线性网络经过绝对值激活函数计算得到;

所述第一网络偏置由一个单层线性网络计算得到,所述第二网络偏置由两个单层线性网络计算得到的。

在本发明的一个实施例中,所述单智能体DRQN网络包括依次连接的第一MLP模块、GRU模块、第二MLP模块和策略模块;其中,

依次连接的第一MLP模块、GRU模块、第二MLP模块,用于根据每个智能体的当前动作和观测序列信息生成每个智能体自身分解拟合后的Q值;

所述策略模块,用于根据所述单智能体自身分解拟合后的Q值,并利用ε-greedy策略对应输出每个单智能体网络的输出;每个单智能体网络的输出包括其Q值和动作选择。

在本发明的一个实施例中,所述联合Q值网络包括输入层、隐藏层、输出层;所述隐藏层的网络参数为所述超网络输出的联合Q值网络的网络参数。

在本发明的一个实施例中,根据所述超网络输出的联合Q值网络的网络参数构建的个体表示为:

其中,x

在本发明的一个实施例中,采用差分演化算法根据构建的个体优化所述超网络输出的联合Q值网络的网络参数,包括:

对构建的个体采用变异策略进行变异;

对变异后的个体进行交叉;

对交叉后的个体利用适应度函数进行选择,选择优秀的个体作为所述超网络输出的联合Q值网络的网络参数。

在本发明的一个实施例中,采用的变异策略为DE/rand/1。

在本发明的一个实施例中,还包括:

利用梯度反向传播调参策略将优化后的QMIX超网络模型的网络参数反向传输给所述超网络优化超网络的网络参数,以及传输给所述单智能体DRQN网络优化生成每个智能体对应的Q值;

根据优化后的超网络的网络参数再次优化输出联合Q值网络的网络参数;

根据优化后的所述联合Q值网络的网络参数和每个智能体对应的Q值优化输出最终的联合Q值;

根据优化后的所述超网络输出的联合Q值网络的网络参数重新构建个体,采用差分演化算法根据构建的个体重新优化所述超网络输出的联合Q值网络的网络参数,根据重新优化后的所述超网络输出的联合Q值网络的网络参数再次优化整体QMIX超网络模型的网络参数。

第二方面,本发明实施例提供了一种基于差分演化算法的QMIX超网络参数优化装置,包括:

模型构建模块,用于构建QMIX超网络模型;其中,所述QMIX超网络模型包含超网络、联合Q值网络、单智能体网络DRQN,所述单智能体DRQN网络用于根据每个智能体的当前动作和观测序列信息生成每个智能体对应的Q值,所述超网络用于根据当前环境的状态信息输出联合Q值网络的网络参数,所述联合Q值网络用于根据所述联合Q值网络的网络参数和每个智能体对应的Q值输出最终的联合Q值;

模型优化模块,用于根据所述超网络输出的联合Q值网络的网络参数构建个体,采用差分演化算法根据构建的个体优化所述超网络输出的联合Q值网络的网络参数,根据优化后的所述超网络输出的联合Q值网络的网络参数优化整体QMIX超网络模型的网络参数。

在本发明的一个实施例中,还包括:

模型重新优化模块,用于利用梯度反向传播调参策略将优化后的QMIX超网络模型的网络参数反向传输给所述超网络优化超网络的网络参数,以及传输给所述单智能体DRQN网络优化生成每个智能体对应的Q值;根据优化后的超网络的网络参数再次优化输出联合Q值网络的网络参数;根据优化后的所述联合Q值网络的网络参数和每个智能体对应的Q值优化输出最终的联合Q值;根据优化后的所述超网络输出的联合Q值网络的网络参数重新构建个体,采用差分演化算法根据构建的个体重新优化所述超网络输出的联合Q值网络的网络参数,根据重新优化后的所述超网络输出的联合Q值网络的网络参数再次优化整体QMIX超网络模型的网络参数。

本发明的有益效果:

本发明提出的基于差分演化算法的QMIX超网络参数优化方法,利用差分演化算法对QMIX超网络模型中超网络输出的联合Q值网络的网络参数进行演化得到前期最优网络参数,然后根据前期最优网络参数由联合Q值网络正确地对各单智能体的Q值进行拟合,进而指导整个多智能体协同的进程。可见,本发明实施例融入了超网络输出参数种群差分演化的过程,在环境初始化后,每一代将参数模型个体加载至超网络中并根据当前环境状态生成联合Q值网络的网络参数,单智能体DRQN网络与环境互动产生的Q值会传入联合Q值网络拟合出全局联合Q值,全局联合Q值稳定,从而有效对多智能体系统行为决策提供指导,生成有效的探索策略,效率高且全局回报高。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于差分演化算法的QMIX超网络参数优化方法的流程示意图;

图2是本发明实施例提供的QMIX超网络模型构架示意图;

图3是本发明实施例提供的基于QMIX超网络模型构架下的参数优化方法的流程示意图;

图4(a)~图4(c)是本发明实施例提供的采用星际争霸2微观操作地图中的三个进行实验的场景示意图;

图5是本发明实施例提供的一种基于差分演化算法的QMIX超网络参数优化装置的结构示意图;

图6是本发明实施例提供的另一种基于差分演化算法的QMIX超网络参数优化装置的结构示意图;

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

演化算法作为一种新型的智能优化算法,在解决复杂问题方面具有杰出的表现。但是,由于多智能体环境复杂,状态空间与动作空间维度较高,几乎所有多智能体算法都需要利用深度学习的神经网络去拟合值,如何获得更多有效的环境信息来拟合对应的网络结构成为关键,且如何利用网络结构的特点来结合演化算法成为关键中的关键。针对这样的问题,请参见图1,本发明实施例提供了一种基于差分演化算法的QMIX超网络参数优化方法,具体包括以下步骤:

S10、构建QMIX超网络模型;其中,QMIX超网络模型包含超网络、联合Q值网络、单智能体网络DRQN,单智能体DRQN网络用于根据每个智能体的当前动作和观测序列信息生成每个智能体对应的Q值,超网络用于根据当前环境的状态信息输出联合Q值网络的网络参数,联合Q值网络用于根据联合Q值网络的网络参数和每个智能体对应的Q值输出最终的联合Q值。

在本发明的一个实施例中,请参见图2,超网络包括两个单层线性网络;对应的,超网络输出的联合Q值网络的网络参数包括第一网络权重、第二网络权重、第一网络偏置和第二网络偏置;其中,

第一网络权重和第二网络权重由两个单层线性网络经过绝对值激活函数计算得到;第一网络偏置由一个单层线性网络计算得到,第二网络偏置由两个单层线性网络计算得到的。

在本发明的一个实施例中,请再参见图2,单智能体DRQN网络包括依次连接的第一MLP模块、GRU模块、第二MLP模块和策略模块;其中,

依次连接的第一MLP模块、GRU模块、第二MLP模块,用于根据每个智能体的当前动作和观测序列信息生成每个智能体自身分解拟合后的Q值;策略模块,用于根据单智能体自身分解拟合后的Q值,并利用ε-greedy策略对应输出每个单智能体网络的输出;每个单智能体网络的输出包括其Q值和动作选择。

在本发明的一个实施例中,请再参见图2,联合Q值网络包括输入层、隐藏层、输出层;隐藏层的网络参数为超网络输出的联合Q值网络的网络参数。

经发明人研究,超网络输出的是联合Q值网络的权重与偏置,所以超网络是作为一个参数生成器而存在的。超网络输出的联合Q值网络的网络参数包括第一网络权重W

图2中单个智能体DRQN网络由左到右包括第一MLP模块、GRU模块、第二MLP模块和策略模块,图2中示意性表示了每一模块具体的结构,但不局限于这样的网络结构,网络输入为单智能体的当前动作-观测序列信息,输出该智能体自身分解拟合后的Q值,GRU模块记录每个智能体网络的隐藏层作为下一次GRU模块的输入,且单智能体会根据拟合后的Q值会利用ε-greedy策略进行探索。

而联合Q值网络包含输入层、隐藏层、输出层,与一般具有单隐藏层的MLP神经网络不同的是,QMIX网络模型中联合Q值网络的隐藏层的权重与偏置均由超网络输出的联合Q值网络的网络参数计算得到,从而可以有效提高QMIX拟合Q值的精确度。

S20、根据超网络输出的联合Q值网络的网络参数构建个体,采用差分演化算法根据构建的个体优化超网络输出的联合Q值网络的网络参数,根据优化后的超网络输出的联合Q值网络的网络参数优化整体QMIX超网络模型的网络参数。

通常,传统的QMIX算法首先采用DRQN(Deep Recurrent Q-learning)作为单智能体拟合自身Q值Q

其中,Q

由于QMIX采用联合Q网络来合并各智能体的Q值函数,可能由于单调性不一致而不满足公式(1),所以为了保证Q值函数的单调性并满足公式(1),本发明实施例QMIX在联合动作值函数Q

其中,a∈A={1,2,...,n}表示任意一智能体。

QMIX最终代价函数公式表示为:

其中,b表示从经验回放池中采样的样本数,

其中,Q

由于QMIX满足上述公式(2)的约束条件,所以计算全局联合动作Q值的计算量仅仅随智能体数量线性增长,极大地提高了多智能体协同完成任务的效率。但QMIX仍然无法解决在早期神经网络初始化时智能体盲目探索、学习策略不稳定导致全局回报较低的情况,当面对更加复杂的多智能体环境时该问题就会更加明显。同时,QMIX的网络参数均是随机初始化,由于多智能体环境复杂,单智能体的勘探能力受限导致回报过少,联合Q值网络拟合出的联合Q值Q

对于神经网络模型,初始化神经网络参数信息对算法收敛起到强有力的推动作用,合理的初始化参数设计能够加快整个多智能体任务的进程。但在绝大多数问题上,网络参数设定为随机初始化的方式,其无法保证初始信息对网络训练的合理性,若初始值较好,则可以促进网络的收敛,若初始值较差,则可能会增加算法的训练时长,影响其收敛速度。对于网络参数初始化问题的本质而言,可以将其近似看作一种排列组合问题来进行分析。每一个网络参数存在多种可能性,通过普通的方式来对每一种参数的组合进行列举是不切实际的,所以可以将问题建模为一种组合优化问题并采用演化算法的方式来寻找最适合求解问题模型的网络参数。基于这样的设想,本发明实施例提出利用差分演化思想对种群的个体进行优胜劣汰。而如何构建算法中种群的个体成为需要考虑的关键。

由于超网络采用的是简单的线性网络,发明人研究认为,只需要将所有参数整合进行编码即可,其参数与状态维度、观测值维度、动作维度等具体环境信息相关,QMIX算法在环境3m中其超网络参数如表1所示。其中Shape表示参数的形状,例如[2,3]表示该参数是一个两行三列的数组。表1环境3m超网络参数

根据表1,本发明实施例根据超网络输出的联合Q值网络的网络参数构建的个体表示为:

其中,x

通过公式(5)个体的构建方式,进一步可以构建一种群,利用差分演化算法根据构建的个体优化超网络输出的联合Q值网络的网络参数,包括:

对构建的个体采用变异策略进行变异;在本发明的一个实施例中,采用的变异策略为DE/rand/1;

对变异后的个体进行交叉;

对交叉后的个体利用适应度函数进行选择,选择优秀的个体作为超网络输出的联合Q值网络的网络参数。

对于变异过程,本发明实施例采用的变异策略为DE/rand/1,即:

v

其中,i=1,2,...,D,D表示种群大小,F表示缩放因子,v

对于交叉过程,本发明实施例采用二项式交叉的方式得到新的种群表示为:

其中,

对于选择的过程,计算交叉后得到的种群的适应度值,通过与初始种群所得的适应度值进行比较从而挑选出优秀个体作为下一代的初始种群。这里,适应度是描述个体性能的主要指标。根据适应度的大小,对个体进行优胜劣汰。适应度是驱动遗传算法的动力。适应度函数的选取直接影响到遗传算法的收敛速度以及能否找到最优解,所以适应度函数的设定决定了种群的演化方向,如何在强化学习问题中设定合理的适应度函数,也是算法优化的关键点。由于适应度函数的复杂度是遗传算法复杂度的主要组成部分,适应度函数的设计应尽可能简单,使计算的时间复杂度最小。本发明实施例采用的是目前常用的多智能体算法验证场景StarcraftⅡ,故适应度函数设定为我方基于算法的多智能体系统在m个训练步的平均回报,公式表示为:

其中,reward的具体构成表示为:

reward=delta_enemy+delta_deaths-delta_ally (9)

其中,delta_enemy表示我方单位对敌方造成的累计伤害回报,delta_deaths表示消灭敌人的回报,delta_ally表示我方智能体阵亡回报。

进一步地,仅使用差分演化算法对超网络参数进行初始化,那么在每一代种群个体传入神经网络与环境交互后都会损失神经网络对参数模型调整的信息,可能会影响超网络收敛的速度,如果在每一代种群个体得到适应度值的同时为参数模型个体返回神经网络返回的梯度调参信息,每一代种群个体获取自身适应度值的同时,相当于该个体已经作为超网络参数模型被传入游戏环境训练过一定代数,那么这个智能体不断行动的过程网络参数也会根据网络自身传递进行调整,也就是说开始传入的是经过演化算法生成的网络参数模型,经过训练后返回该网络模型适应度值的同时,该参数模型在网络中已经得到了调整,将该调整同时返回给种群个体相当于二次优化,即演化算法与网络结构结合,进一步提升算法的性能。具体地:

在本发明的一个实施例中,还包括:

利用梯度反向传播调参策略将优化后的QMIX超网络模型的网络参数反向传输给超网络优化超网络的网络参数,以及传输给单智能体DRQN网络优化生成每个智能体对应的Q值;根据优化后的超网络的网络参数再次优化输出联合Q值网络的网络参数;根据优化后的联合Q值网络的网络参数和每个智能体对应的Q值优化输出最终的联合Q值;根据优化后的超网络输出的联合Q值网络的网络参数重新构建个体,采用差分演化算法根据构建的个体重新优化超网络输出的联合Q值网络的网络参数,根据重新优化后的超网络输出的联合Q值网络的网络参数再次优化整体QMIX超网络模型的网络参数。

可见,本发明实施例利用梯度反向传播调参策略,返回梯度信息对QMIX超网络模型重新进行调参,逆向利用优化后的QMIX超网络模型的网络参数反向传输给超网络优化超网络的网络参数,以及传输给单智能体DRQN网络优化生成每个智能体对应的Q值,再正向根据优化后的超网络的网络参数再次优化输出联合Q值网络的网络参数,根据优化后的联合Q值网络的网络参数和每个智能体对应的Q值优化输出最终的联合Q值,根据优化后的超网络输出的联合Q值网络的网络参数重新构建个体,采用差分演化算法根据重新构建的个体和优化后的最终的联合Q值重新优化QMIX超网络模型的网络参数。

请参见图3,完整的展示了本发明实施例提出的基于差分演化算法的QMIX超网络参数优化方法流程,左侧展示了QMIX超网络模型情况,右侧展示了超网络利用差分演化算法来优化超网络的网络参数,进而通过优化的超网络来优化单智能体DRQN网络和联合Q值网络,联合Q值网络输出联合Q值来指导环境中多智能体的执行动作。

为了验证本发明实施例提供的基于差分演化算法的QMIX超网络参数优化方法的有效性,进行以下实验进行验证。

1、实验环境

星际争霸2是一款实时战略游戏,本发明实施例实验部分采用目前热门的SMAC(StarCraft Multi-Agent Challenge)平台来进行验证,SMAC基于的是PySC2(StarCraftII Learning Environment)和StarCraft II的API搭建的微观操作环境,内置了COMA(Counterfactual Multi-Agent Policy Gradients)、QTRAN(Learning to Factorizewith Transformation for Cooperative Multi-Agent Reinforcement learning)、MAVEN(Multi-Agent Variational Exploration)等目前先进的一些多智能体算法。在实验过程中实验环境采用星际争霸2微观操作地图,在如图4(a)~图4(c)所示场景中进行实验,具体运行环境为:16GB RAM,512G硬盘,2.60GHz 64位处理器,Windows 10操作系统,Python3.7。

另外,由于微操场景是通过改变兵种来改变实验任务的难度,难度分为三档,当双方兵种数量相等时难度最低,兵种组合的部分不同子环境如表2所示。

表2不同兵种组成的子环境

实验采用环境3m、2s3z以及2s vs 1sc对本发明实施例提出的基于差分演化算法的QMIX超网络参数优化方法,记为DE-g-QMIX算法,与现有MAVEN、QMIX、COMA、QTRAN进行对比验证。其中QTRAN算法指QTRAN-alt,即K等人在QTRAN-base上修正后的算法。

2、评估指标与适应度函数

在对比实验中采用我方智能体在n个训练步中获得的平均回报,以及每隔evaluate_per_epoch训练步所统计的胜率,胜率win_rate计算方法公式表示为:

其中,win_flag表示evaluate_per_epoch训练步内胜利的次数。而DE-g-QMIX算法与对比算法的具体参数如表3所示。

表3实验算法参数表

3、实验结果及分析

由表4可以看出,环境3m中DE-g-QMIX算法在收敛速度、稳定性等方面均表现更为出色;而表5所展示的实验结果可以看出,在环境2s3z中各算法胜率均出现下降,其中COMA、MAVEN及QTRAN算法尤为明显,DE-g-QMIX算法依然表现出色,在平均回报、平均胜率以及收敛速度方面仍然表现最佳;根据表6统计的数据可以看出在环境2s_vs_1sc中本发明实施例提出的DE-g-QMIX仍在最大回报、平均回报上占优。

表4各算法在环境3m中实验结果对比

表5各算法在环境2s3z中实验结果对比

表6各算法在环境2s_vs_1sc中实验结果对比

由以上实验结果可以说明DE-g-QMIX算法性能要优于原始QMIX算法,尤其在环境前期其胜率、回报均要优于QMIX,全局稳定性更好,且在简单与中等难度的子环境中多方面也均优于COMA、MAVEN及QTRAN这些目前优秀的多智能体算法。

综上所述,本发明实施例提出的基于差分演化算法的QMIX超网络参数优化方法,利用差分演化算法对QMIX超网络模型中超网络输出的联合Q值网络的网络参数进行演化得到前期最优网络参数,然后根据前期最优网络参数由联合Q值网络正确地对各单智能体的Q值进行拟合,进而指导整个多智能体协同的进程。可见,本发明实施例融入了超网络输出参数种群差分演化的过程,在环境初始化后,每一代将参数模型个体加载至超网络中并根据当前环境状态生成联合Q值网络的网络参数,单智能体DRQN网络与环境互动产生的Q值会传入联合Q值网络拟合出全局联合Q值,全局联合Q值稳定,从而有效对多智能体系统行为决策提供指导,生成有效的探索策略,效率高且全局回报高;同时,由联合Q值进行梯度信息返回更新参数,将每轮观测值、可执行动作、单智能体奖励等事件信息保存,并在每一代种群个体适应度值返回同时带给种群个体参数调整的信息,以加快网络的收敛性,提高了算法的效率。

第二方面,请参见图5,本发明实施例提供了一种基于差分演化算法的QMIX超网络参数优化装置,包括:

模型构建模块501,用于构建QMIX超网络模型;其中,QMIX超网络模型包含超网络、联合Q值网络、单智能体网络DRQN,单智能体DRQN网络用于根据每个智能体的当前动作和观测序列信息生成每个智能体对应的Q值,超网络用于根据当前环境的状态信息输出联合Q值网络的网络参数,联合Q值网络用于根据联合Q值网络的网络参数和每个智能体对应的Q值输出最终的联合Q值;

模型优化模块502,用于根据超网络输出的联合Q值网络的网络参数构建个体,采用差分演化算法根据构建的个体优化超网络输出的联合Q值网络的网络参数,根据优化后的超网络输出的联合Q值网络的网络参数优化整体QMIX超网络模型的网络参数。

进一步地,在本发明的一个实施例中,模型构建模块501中超网络包括两个单层线性网络;对应的,超网络输出的单智能体DRQN网络的网络参数包括第一网络权重、第二网络权重、第一网络偏置和第二网络偏置;其中,

第一网络权重和第二网络权重由两个单层线性网络经过绝对值激活函数计算得到;

第一网络偏置由一个单层线性网络计算得到,第二网络偏置由两个单层线性网络计算得到的。

进一步地,在本发明的一个实施例中,模型构建模块501中单智能体DRQN网络包括依次连接的第一MLP模块、GRU模块、第二MLP模块和策略模块;其中,

依次连接的第一MLP模块、GRU模块、第二MLP模块,用于根据每个智能体的当前动作和观测序列信息生成每个智能体自身分解拟合后的Q值;

策略模块,用于根据单智能体自身分解拟合后的Q值,并利用ε-greedy策略对应输出每个单智能体网络的输出;每个单智能体网络的输出包括其Q值和动作选择。

进一步地,在本发明的一个实施例中,模型构建模块501中联合Q值网络包括输入层、隐藏层、输出层;隐藏层的网络参数为超网络输出的联合Q值网络的网络参数。

进一步地,在本发明的一个实施例中,模型优化模块502中根据超网络输出的联合Q值网络的网络参数构建的个体表示为:

/>

其中,x

进一步地,在本发明的一个实施例中,模型优化模块502中采用差分演化算法根据构建的个体优化超网络输出的联合Q值网络的网络参数,包括:

对构建的个体采用变异策略进行变异;

对变异后的个体进行交叉;

对交叉后的个体利用适应度函数进行选择,选择优秀的个体作为超网络输出的联合Q值网络的网络参数。

进一步地,在本发明的一个实施例中,模型优化模块502中采用的变异策略为DE/rand/1。

进一步地,请参见图6,在本发明的一个实施例中基于差分演化算法的QMIX超网络参数优化装置还包括:

模型重新优化模块503,用于利用梯度反向传播调参策略将优化后的QMIX超网络模型的网络参数反向传输给超网络优化超网络的网络参数,以及传输给单智能体DRQN网络优化生成每个智能体对应的Q值;根据优化后的超网络的网络参数再次优化输出联合Q值网络的网络参数;根据优化后的联合Q值网络的网络参数和每个智能体对应的Q值优化输出最终的联合Q值;根据优化后的超网络输出的联合Q值网络的网络参数重新构建个体,采用差分演化算法根据构建的个体重新优化超网络输出的联合Q值网络的网络参数,根据重新优化后的超网络输出的联合Q值网络的网络参数再次优化整体QMIX超网络模型的网络参数。

第三方面,请参见图7,本发明实施例提供了一种电子设备,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701、通信接口702、存储器703通过通信总线704完成相互的通信;

存储器703,用于存放计算机程序;

处理器701,用于执行存储器703上所存放的程序时,实现上述基于差分演化算法的QMIX超网络参数优化方法的步骤。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述基于差分演化算法的QMIX超网络参数优化方法的步骤。

对于装置/电子设备/存储介质实施例而言,由于其基本相近于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

尽管在此结合各实施例对本发明进行了描述,然而,在实施所要求保护的本发明过程中,本领域技术人员通过查看说明书及其附图,可理解并实现所述公开实施例的其他变化。在说明书中,“包括”(comprising)一词不排除其他组成部分或步骤,“一”或“一个”不排除多个的情况。相互不同的实施例中记载了某些措施,但这并不表示这些措施不能组合起来产生良好的效果。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

相关技术
  • 一种基于神经网络与双频差分模型的微波含水率检测装置及方法
  • 一种基于适应性反向差分演化的机械参数优化设计方法
  • 一种基于适应性反向差分演化的机械参数优化设计方法
技术分类

06120115922095