掌桥专利:专业的专利平台
掌桥专利
首页

一种基于极限学习机的多智能体的任务理解方法

文献发布时间:2023-06-19 09:40:06


一种基于极限学习机的多智能体的任务理解方法

技术领域

本公开属于多智能体的任务理解技术领域,特别是涉及到一种基于极限学习机的多智能体的任务理解方法。

背景技术

随着计算机技术、通信技术和人工智能技术的迅速发展,传统的战争形态和思维也发生了改变。随着现代化、信息化的推进,各种新技术也被运用到作战系统中,作战方式也在不断升级和演变。多智能体系统具有减少人员伤亡、机动能力与生存能力强、功能配置灵活、适合在恶劣环境下执行各种危险任务等优点,已经成为新型战场的重要力量。

多智能体系统与有人平台深度融合,是形成有人平台和多智能体系统一体化协同体系的重要保障。OODA循环模型描述了决策的四个环节:观察、判断、决策、行动。多智能体系统的任务理解是OODA循环中的重要一环,是指无人平台结合对环境和态势的理解,产生与有人平台下达的表达不足或不清晰的指令符合的任务理解结果。经典的任务理解方法有分层的任务分解方法、自然语言至动作指令的映射方法等。但是,这些方法在一定程度上依赖专家系统的主观性因素,会造成相同的指令在相同的条件下得到不同的任务理解结果等问题。

发明内容

有鉴于此,本公开提出了一种基于极限学习机的多智能体的任务理解方法,能够充分利用战场环境的态势信息和多智能体能力值等信息,产生有效切合指挥员思维的理解结果,避开了一定程度上依赖专家系统的主观性因素,使得相同的指令在相同的条件下得到相同的任务理解结果,保证任务理解的准确性。

根据本公开的一方面,提出了一种基于极限学习机的多智能体的任务理解方法,包括:

初始化所述多智能体参数和环境态势感知信息;

根据所述多智能体的任务、所述多智能体参数和环境态势感知信息制定所述极限学习机的多智能体的任务理解样本数据;

根据所述多智能体的任务理解样本数据确定所述极限学习机的多智能体的任务理解网络结构;

利用所述多智能体的任务样本数据对所述极限学习机的多智能体的任务理解网络结构进行训练得到所述极限学习机的多智能体的任务理解模型;

当所述多智能体接收到任务指令后,获取当前环境态势感知信息和所述多智能体参数,将所述当前环境态势感知信息和所述多智能体参数输入到所述极限学习机的多智能体的任务理解模型中得到所述多智能体的任务理解结果。

在一种可能的实现方式中,所述任务理解样本数据包括任务理解数据和任务理解标签数据,被分为任务理解训练数据和任务理解测试数据。

在一种可能的实现方式中,利用所述多智能体的任务理解样本数据对所述极限学习机的多智能体的任务理解网络结构进行训练得到所述极限学习机的多智能体的任务理解模型,包括:

利用所述多智能体的任务理解训练数据对所述极限学习机的多智能体的任务理解网络结构进行训练得到所述极限学习机的多智能体的初始任务理解网络结构;

利用所述多智能体的任务理解测试数据对所述极限学习机的多智能体的初始任务理解网络结构进行测试,当满足所述多智能体的性能时,保存所述极限学习机的多智能体的初始任务理解网络结构为所述极限学习及的多智能体的任务理解模型;否则,调整所述极限学习机的多智能体的初始任务理解网络结构。

在一种可能的实现方式中,所述多智能体参数包括所述多智能体的个数n和所述多智能体的能力值,n为正整数;

所述环境态势感知信息包括环境中目标对象的威胁度和,数量和/或分布密度。

在一种可能的实现方式中,所述多智能体的任务理解样本数据格式为[x

在一种可能的实现方式中,所述多智能体的任务理解网络结构,包括输入层、隐含层和输出层;其中,所述输入层的节点个数为n+2,输出层的节点个数为1,隐含层的节点个数小于所述样本数据的数量。

在一种可能的实现方式中,调整所述极限学习机的多智能体的初始任务理解网络结构为调整所述多智能体的任务理解网络结构的隐含层的节点个数。

在一种可能的实现方式中,所述多智能体的任务包括搜索任务和打击任务。

在一种可能的实现方式中,所述隐含层的急活函数为sigmoid函数。

通过初始化所述多智能体参数和环境态势感知信息;根据所述多智能体的任务、所述多智能体参数和环境态势感知信息制定所述极限学习机的多智能体的任务理解样本数据;根据所述多智能体的任务理解样本数据确定所述极限学习机的多智能体的任务理解网络结构;利用所述多智能体的任务样本数据对所述极限学习机的多智能体的任务理解网络结构进行训练得到所述极限学习机的多智能体的任务理解模型;当所述多智能体接收到任务指令后,获取当前环境态势感知信息和所述多智能体参数,将所述当前环境态势感知信息和所述多智能体参数输入到所述极限学习机的多智能体的任务理解模型中得到所述多智能体的任务理解结果。能够充分利用战场环境的态势信息和多智能体能力值等信息,产生有效切合指挥员思维的理解结果,避开了一定程度上依赖专家系统的主观性因素,使得相同的指令在相同的条件下得到相同的任务理解结果,保证任务理解的准确性。

根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。

图1示出了根据本公开一实施例的基于极限学习机的多智能体的任务理解方法流程图;

图2示出了根据本公开一实施例的基于极限学习机的多智能体的任务理解方法的假定场景示意图;

图3示出了根据本公开一实施例的基于极限学习机的多智能体的任务理解方法的假定场景的区域划分示意图;

图4示出了根据本公开一实施例的基于极限学习机的多智能体的搜索任务理解网络示意图;

图5示出了根据本公开一实施例的基于极限学习机的多智能体的打击任务理解网络示意图;

图6示出了根据本公开一实施例的基于极限学习机的多智能体的任务理解结果示意图;

图7示出了根据本公开一实施例的基于极限学习机的多智能体的任务分配示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。

在复杂的战场环境中,多智能体能够在恶劣环境下执行危险的任务,有效的减少人员伤亡。在作战中,指挥员会根据态势、环境等信息得出控制战术并给多智能体下达相应的作战指令。为了实现指挥员与多智能体的高效协同作战,多智能体对指挥员下达的指令能够合理的理解显的尤为重要。任务理解的输入数据具有多源特征,为了更好利用输入数据的信息,采用极限学习机进行任务理解的推理。

图1示出了根据本公开一实施例的基于极限学习机的多智能体的任务理解方法流程图。如图1所示,该方法可以包括:

步骤S1:初始化所述多智能体参数和环境态势感知信息。

在某个特定的想定场景之中,能够将多智能体的各项能力值和相关参数初始化为不同的值,例如,包括多智能体的速度,探测能力,打击能力,初始位置等参数,以及目标对象(敌方的多智能体)的初始化操作,设定其能力值、位置等参数,初始化完成之后,所有智能体对应的模型表达会在特定的想定场景中显示其可视化位置。

在一示例中,多智能参数可以为我方多智能体的参数,可以包括多智能体的个数n和所述多智能体的能力值,n为正整数。环境态势感知信息为敌方多智能体的参数,可以包括环境中态势感知的敌方多智能体(目标对象)的威胁度和,数量或分布密度。

其中,智能体的能力值可以为以能体为中心,智能体能够搜索或打击的范围。

图2示出了根据本公开一实施例的基于极限学习机的多智能体的任务理解方法的假定场景示意图。图3示出了根据本公开一实施例的基于极限学习机的多智能体的任务理解方法的假定场景的区域划分示意图。

如图2所示,在AnyLogic仿真环境中搭建的假定环境场景,包括河流等障碍物,区域大小为10km*6cm。我方智能体的数量为15个,例如智能体1的能力值为0.395km,智能体2能力值为0.522km等。敌方多智能体(目标对象)的威胁度和为3,数量为5等。然后对假定场景进行预处理,依据多智能体相对位置将大的场景区域划分成几块任务区域,如图3所示,根据多智能体的相对位置关系将如图2所示的假定场景划分成8个小区域,不同区域之内存在的障碍物、敌方智能体类型可能相同也可能存在差异。这样,可以利用假定的场景以及场景中我方多智能体和地方多智能的相关参数制作极限学习机的多智能体的任务理解样本数据。

步骤S2:根据所述多智能体的任务、所述多智能体参数和环境态势感知信息制定所述极限学习机的多智能体的任务理解样本数据。

其中,任务理解样本数据被随机分为任务理解训练数据和任务理解测试数据两部分,任务理解测试数据的个数少于任务理解训练数据的个数。

任务理解样本数据分为任务理解数据和任务理解标签数据两部分,则任务理解样本数据格式包括任务理解数据格式和任务理解标签数据格式。

在一示例中,多智能体的任务理解样本数据格式为[x

针对不同的任务,例如针对典型的搜索任务和打击任务,可以制作训练极限学习机模型所需要的且适合相应于不同的任务理解样本数据格式以及任务理解标签数据格式。

举例来说,针对搜索任务,多智能体的数量为15个,则设计的搜索任务的样本数据格式为[x

其中,x

基于步骤2划分好的搜索区域,进行生成搜索任务样本阶段,多智能体处于场景的某些位置,当指挥员下达搜索任务区域的指令之后,会触发多智能体的任务理解模块,AnyLogic仿真系统会根据制定的搜索任务样本数据格式自动记录当前的各智能体的能力值和当前环境态势感知信息值生成一个样本,指挥员根据经验按照搜索任务标签数据格式制作对应的标签数据,制作完成的搜索任务理解样本数据和标签数据存放在文本之中,比如生成700组搜索任务理解样本数据,随机抽取500组搜索任务理解样本数据构成搜索任务理解样本训练集,余下的200组搜索任务理解样本数据构成搜索任务理解样本测试集。

针对打击任务时,多智能体的数量仍为15个,则设计的打击任务的样本数据格式为[z

其中,z

当结束搜索任务样本数据生成后,重新运行实施例,观察如图2、图3环境中的态势,随机选取敌方智能体群中的智能体作为打击任务的目标。当指挥员下达打击任务的指令时,AnyLogic仿真系统会按照打击任务理解样本数据格式自动生成打击任务的样本数据,指挥员根据经验按照打击任务理解样本标签数据格式制作此态势下的打击任务的标签数据。标签制作完成之后,将打击任务理解样本数据和打击任务理解样本标签数据保存到相应的文本之中。与搜索任务一样,生成700组打击任务理解样本数据,随机抽取500组打击任务理解样本数据构成打击任务理解样本训练集,余下的200组打击任务理解样本数据构成打击任务理解样本测试集。

步骤S3:根据所述多智能体的任务理解样本数据确定所述极限学习机的多智能体的任务理解网络结构。

在一示例中,多智能体的任务理解网络结构可以包括输入层、隐含层和输出层;输入层的节点个数为n+2(n为我方多智能体的个数),输出层的节点个数为1,隐含层的节点个数小于所述样本数据的数量。

其中,输入层的节点个数对应的为我方多智能体的样本数据维度,隐含层的个数可以根据指挥员的经验设定一个小于样本数量的值。输入层到隐含层的权重系数,隐含层和输出层的偏置系数使用随机数进行初始化,隐含层的激活函数可以采用sigmoid函数。

图4、图5分别示出了根据本公开一实施例的基于极限学习机的多智能体的搜索任务和打击任务的理解网络示意图。

举例来说,利用我方15个智能体和如图2、图3所示的假定场景分别训练搜索任务和打击任务的极限学习机模型。

如图4所示,对于第i个智能体的训练搜索任务的极限学习机模型,设置的多智能体的搜索任务理解网络模型结构的输入节点数为17,隐含层的节点个数为30,输出层的节点个数为1,随机初始化该极限学习机的隐含层神经元偏置a(

步骤S4:利用所述多智能体的任务样本数据对所述极限学习机的多智能体的任务理解网络结构进行训练得到所述极限学习机的多智能体的任务理解模型。

在一示例中,可以利用所述多智能体的任务理解训练数据对所述极限学习机的多智能体的任务理解网络结构进行训练得到所述极限学习机的多智能体的初始任务理解网络结构;利用所述多智能体的任务理解测试数据对所述极限学习机的多智能体的初始任务理解网络结构进行测试,当满足所述多智能体的性能时,保存所述极限学习机的多智能体的初始任务理解网络结构为所述极限学习及的多智能体的任务理解模型;否则,调整所述极限学习机的多智能体的初始任务理解网络结构。

对于我方第i个智能体,使用存储在文本中的搜索任务和打击任务的训练样本集训练极限学习机的多智能体任务理解模型,使用预定的搜索任务和打击任务的测试样本集测试多智能体任务理解模型的性能。以训练极限学习机的多智能体的搜索任务理解模型为例进行说明,从文本中加载第i个智能体所对应的500组搜索任务理解训练样本集,训练极限学习机的多智能体搜索任务理解模型,再使用余下的200组搜索任务理解测试样本测试训练完成的极限学习机的多智能体搜索任务理解模型的性能,如果满足多智能体的性能要求,保存极限学习机的多智能体搜索任务理解模型参数;否则调整极限学习机的多智能体搜索任务理解模型的隐含层的节点个数,重新执行上述步骤产生一定量新的极限学习机的多智能体搜索任务理解模型样本数据训练极限学习机的多智能体搜索任务理解模型样本数据集,再进行训练和测试极限学习机的多智能体搜索任务理解模型,直到得到性能较好的极限学习机的多智能体搜索任务理解模型,保存极限学习机的多智能体搜索任务理解模型参数。极限学习机的多智能体的打击任务理解模型的训练过程与搜索任务类似。如果使用当前的样本无法得到理想的极限学习机模型时,可以重新生成一定数量的搜索任务样本,并等量替换现在训练集中的样本,重新训练极限学习机的多智能体的打击任务理解模型。

步骤S5:当所述多智能体接收到任务指令后,获取当前环境态势感知信息和所述多智能体参数,将所述当前环境态势感知信息和所述多智能体参数输入到所述极限学习机的多智能体的任务理解模型中得到所述多智能体的任务理解结果。

图6示出了根据本公开一实施例的基于极限学习机的多智能体的任务理解结果示意图;图7示出了根据本公开一实施例的基于极限学习机的多智能体的任务分配示意图。

当极限学习机的多智能体的搜索任务理解模型和打击任务理解模型训练好之后,每个智能体加载对应的已经训练完成的极限学习机模型。当指挥员向智能体下达搜索或打击任务的指令之后,AnyLogic仿真系统从环境中获取当前环境态势感知信息、我方智能体能力值等多源数据输入到极限学习机的多智能体的搜索任务理解模型或打击理解模型框架中,通过推理解算得到多智能体的任务理解结果为一维向量,向量维度为n,其中n为我多方智能体的数量,每个向量元素的取值为0和1,对应每个智能体任务理解的结果。如图6所示,当极限学习机的多智能体的任务理解模块收到搜索任务的触发指令时,当前环境场景中的15个多智能体为我方单位0、我方单位1…我方单位14,15多智能体的搜索能力值为能力/距离值列的数值;当前环境态势感知信息(敌方多智能体的威胁度和以及分布密度)为敌方威胁度和敌方分布密度所对应的值,极限学习机的多只智能体的搜索任务理解模型通过推理得到了搜索任务理解的结果。如图7所示,数组[0,0,0,0,0,1,0,0,0,1,0,0,0,0,0]代表了分配给第6智能体和第10智能体执行搜索任务,该任务理解结果合理符合指挥员的意图。

通过初始化所述多智能体参数和环境态势感知信息;根据所述多智能体的任务、所述多智能体参数和环境态势感知信息制定所述极限学习机的多智能体的任务理解样本数据;根据所述多智能体的任务理解样本数据确定所述极限学习机的多智能体的任务理解网络结构;利用所述多智能体的任务样本数据对所述极限学习机的多智能体的任务理解网络结构进行训练得到所述极限学习机的多智能体的任务理解模型;当所述多智能体接收到任务指令后,获取当前环境态势感知信息和所述多智能体参数,将所述当前环境态势感知信息和所述多智能体参数输入到所述极限学习机的多智能体的任务理解模型中得到所述多智能体的任务理解结果。能够充分利用战场环境的态势信息和多智能体能力值等信息,产生有效切合指挥员思维的理解结果,避开了一定程度上依赖专家系统的主观性因素,使得相同的指令在相同的条件下得到相同的任务理解结果,保证任务理解的准确性。

以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

相关技术
  • 一种基于极限学习机的多智能体的任务理解方法
  • 一种多任务稀疏贝叶斯极限学习机回归方法
技术分类

06120112251702