一种智能空战决策方法、系统及电子设备

文献发布时间：2024-04-18 20:00:50

技术领域

本发明涉及人工智能领域，特别是涉及一种基于融合塑造奖励的具有轨迹判别能力的世界模型的智能空战决策方法、系统及电子设备。

背景技术

近年来，人工智能技术迅速发展，各类算法层出不穷，尤其是深度学习在计算机视觉和自然语言处理等领域的应用取得了巨大的成果。随着计算机硬件和存储技术的进步，很多基于强化学习技术的算法被提出，这些算法主要用于解决简单的强化学习问题，如迷宫游戏等，但处理高维输入数据仍然十分困难，难以解决复杂问题。在近年来，深度学习技术和神经网络结构的发展极大地推进了强化学习的发展。深度学习算法的优势在于，它可以从数据中自动提取特征，这大大提高了强化学习算法的鲁棒性和性能，为强化学习领域的发展提供了更强的动力和支持。

随着计算机技术、人工智能技术不断发展，越来越多的人工智能算法被应用到了空战中，包括专家系统方法、监督学习算法、强化学习算法等。专家系统是一种基于知识表示和推理的人工智能技术，它利用专家知识库中的规则和条件，通过推理来决定最优的机动或飞行路径，以实现飞机的自动导航。2016年，辛辛那提大学提出了一种利用遗传模糊树方法训练空战人工智能（Artificial Intelligence，AI）系统的方法。他们建立了一个名为ALPHA的系统，在模拟环境中击败了退休的上校Gene Lee，展示了用人工智能取代传统策略的可能性。由于专家系统是基于专家知识进行决策，因此专家系统具有较高的可靠性和可解释性。然而该方法完全依赖于专家知识，并且缺乏适应环境变化所需的灵活性和能力，鲁棒性较差。

监督学习方法通过使用大量的标记数据，学习到将空战态势映射到机动动作的映射关系，从而实现智能决策。但使用监督学习的方法需要大量的飞机数据样本以及精确的标注，并且该方法同专家系统一样依赖机动库，这些严重限制了监督学习在空战决策中的应用。

深度强化学习是近年来备受关注的一种算法，它可以直接处理高维度、连续空间的问题，具有很强的自主学习和实时决策的能力。但目前很多方法依旧依赖动作库的限制，并且强化学习算法在空战中仍然面临着奖励稀疏以及算法样本效率过低等问题，导致空战策略不够精准。

发明内容

本发明的目的是提供一种智能空战决策方法、系统及电子设备，可提高空战策略的准确度。

为实现上述目的，本发明提供了如下方案：

一种智能空战决策方法，包括：

针对任一飞机，获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作；

根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作，基于空战策略模型，确定当前时刻所述飞机的动作，以调整所述飞机的运行状态；所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的；所述空战策略模型包括状态预测模型及动作预测模型；所述状态预测模型为预先根据历史交互数据，基于轨迹判别器，对世界模型进行训练得到的；所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作；所述动作预测模型为预先基于融合奖励，根据历史设定时段内飞机的隐状态，对演员评论家模型进行训练得到的；所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作，确定当前时刻飞机的隐状态；所述动作预测模型用于根据当前时刻飞机的隐状态，确定当前时刻飞机的动作。

可选地，所述飞机的观测数据包括位置及速度；所述飞机的动作为执行机构的操控量。

可选地，所述空战策略模型的训练过程包括：

针对任一次智能体联盟对抗训练，根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作，采用世界模型，确定t时刻的预测隐状态及t时刻的奖励；t时刻为历史设定时段内的任一时刻；

根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作，采用轨迹判别器，确定t时刻的判别数据；

根据t时刻的预测隐状态、t时刻的真实隐状态及t时刻的判别数据，确定世界模型的目标函数，并基于世界模型的目标函数对世界模型进行迭代训练，以得到状态预测模型；

根据t时刻的预测隐状态，采用演员评论家模型，确定t时刻的预测动作；

基于能量机动理论和态势评估方法，根据t时刻的奖励，确定t时刻的融合奖励；

根据t时刻的判别数据及t时刻的融合奖励，确定演员评论家模型的目标函数，并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练，以得到动作预测模型。

可选地，所述演员评论家模型包括演员模型及评论家模型；

根据t时刻的预测隐状态，采用演员评论家模型，确定t时刻的预测动作，具体包括：

根据t时刻的预测隐状态，采用评论家模型，确定预测状态价值；

根据预测状态价值，采用演员模型，确定t时刻的预测动作。

可选地，根据t时刻的判别数据及t时刻的融合奖励，确定演员评论家模型的目标函数，并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练，具体包括：

根据t时刻的融合奖励，确定真实状态价值；

根据所述预测状态价值及所述真实状态价值，确定评论家模型的目标函数，并基于评论家模型的目标函数对评论家模型进行迭代训练，以得到训练好的评论家模型；

根据t时刻的判别数据及所述真实状态价值，确定演员模型的目标函数，并基于演员模型的目标函数对演员模型进行迭代训练，以得到训练好的演员模型。

可选地，基于能量机动理论和态势评估方法，根据t时刻的奖励，确定t时刻的融合奖励，具体包括：

基于能量机动理论和态势评估方法，确定t时刻的势函数；

根据t时刻的势函数及t时刻的奖励，确定t时刻的融合奖励。

可选地，采用以下公式，确定t时刻的融合奖励：

；

其中，

为实现上述目的，本发明还提供了如下方案：

一种智能空战决策系统，包括：

数据获取单元，用于针对任一飞机，获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作；

决策单元，与所述数据获取单元连接，用于根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作，基于空战策略模型，确定当前时刻所述飞机的动作，以调整所述飞机的运行状态；所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的；所述空战策略模型包括状态预测模型及动作预测模型；所述状态预测模型为预先根据历史交互数据，基于轨迹判别器，对世界模型进行训练得到的；所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作；所述动作预测模型为预先基于融合奖励，根据历史设定时段内飞机的隐状态，对演员评论家模型进行训练得到的；所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作，确定当前时刻飞机的隐状态；所述演员评论家模型用于根据当前时刻飞机的隐状态，确定当前时刻飞机的动作。

为实现上述目的，本发明还提供了如下方案：

一种电子设备，包括存储器及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行上述的智能空战决策方法。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作，基于空战策略模型，确定当前时刻飞机的动作，以调整飞机的运行状态；其中，空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的。通过自博弈方法进行策略优化，并引入智能体联盟进行对抗训练，增强空战策略的鲁棒性。空战策略模型包括状态预测模型及动作预测模型；状态预测模型为预先根据历史交互数据，基于轨迹判别器，对世界模型进行训练得到的。本发明在世界模型的基础上，通过引入轨迹判别器，使世界模型具有更好的时序动力学状态表征能力。动作预测模型为预先基于融合奖励，根据历史设定时段内飞机的隐状态，对演员评论家模型进行训练得到的。将塑造奖励与世界模型中的奖励模型相结合，引入塑造奖励解决了空战任务中奖励稀疏的问题，进而提高了空战策略的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的智能空战决策方法的流程图；

图2为融合塑造奖励的具有轨迹判别能力的世界模型的整体结构图；

图3为轨迹判别器的训练过程示意图；

图4为本发明提供的智能空战决策系统的示意图。

符号说明：

1-数据获取单元，2-决策单元。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种智能空战决策方法、系统及电子设备，通过学习更好的时序动力学状态表征，提高样本效率和性能。通过轨迹判别器对预测轨迹误差的感知，减小状态价值估计的误差，从而减小学习到的环境模型的误差对策略优化的影响。同时，引入塑造奖励解决空战任务中奖励稀疏的问题。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，本实施例提供了一种智能空战决策方法，包括：

步骤100：针对任一飞机，获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作。

作为一种具体地实施方式，所述飞机的观测数据包括位置及速度。所述飞机的动作为执行机构的操控量（如油门大小，拉杆量等）。

步骤200：根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作，基于空战策略模型，确定当前时刻所述飞机的动作，以调整所述飞机的运行状态。

所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的。

所述空战策略模型包括状态预测模型及动作预测模型。其中，状态预测模型为具有轨迹判别能力的世界模型。

所述状态预测模型为预先根据历史交互数据，基于轨迹判别器，对世界模型进行训练得到的。所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作。所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作，确定当前时刻飞机的隐状态。

所述动作预测模型为预先基于融合奖励，根据历史设定时段内飞机的隐状态，对演员评论家模型进行训练得到的。所述动作预测模型用于根据当前时刻飞机的隐状态，确定当前时刻飞机的动作。

进一步地，所述空战策略模型的训练过程包括：

（1）针对任一次智能体联盟对抗训练，根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作，采用世界模型，确定t时刻的预测隐状态及t时刻的奖励。t时刻为历史设定时段内的任一时刻。

（2）根据t时刻的观测数据、t-1时刻的隐状态及t-1时刻的动作，采用轨迹判别器，确定t时刻的判别数据。

（3）根据t时刻的预测隐状态、t时刻的真实隐状态及t时刻的判别数据，确定世界模型的目标函数，并基于世界模型的目标函数对世界模型进行迭代训练，以得到状态预测模型。

具有轨迹判别能力的世界模型通过过去与环境的交互获得的数据（当前时刻的观测数据o，动作a，奖励r，下一时刻的观测数据

具体地，具有轨迹判别能力的世界模型包括：

表征模块：

；

转移模块：

观测模块：

奖励模块：

判别模块：

其中，

将具有轨迹判别能力的世界模型视为一个端到端的模型，轨迹判别器与表征模型共享特征提取器。在生成虚假轨迹的过程中，会随机添加动作噪声或者将真实轨迹中的观测数据替换为其他时刻的观测数据，以使轨迹偏离正确的轨迹，如图3所示，图3中，

为了训练轨迹判别器，使用Wasserstein度量来计算判别损失，并最小化目标函数：

；

其中，

世界模型的目标函数为：

；

其中，

综上，具有轨迹判别能力的世界模型最大化目标函数为：

；

其中，

（4）根据t时刻的预测隐状态，采用演员评论家模型，确定t时刻的预测动作。具体地，所述演员评论家模型包括演员模型及评论家模型。

在本实施例中，首先根据t时刻的预测隐状态，采用评论家模型，确定预测状态价值，再根据预测状态价值，采用演员模型，确定t时刻的预测动作。

本发明中，具有轨迹判别能力的世界模型使用演员-评论家方法来优化策略。在世界模型的隐空间中训练演员模型和评论家模型。其中，演员模型和评论家模型的目标函数分别用于优化预测轨迹的累积奖励和状态值估计误差的最小化。演员模型用于选择动作，评论家模型用于预测状态价值，即在隐状态s

演员模型为：

评论家模型为：

其中，a

（5）基于能量机动理论和态势评估方法，根据t时刻的奖励，确定t时刻的融合奖励。

具有轨迹判别能力的世界模型除了在奖励模型上额外增加了一个塑造奖励函数F外，其他的结构与世界模型的结构一致。通过增加额外的塑造奖励既可以解决奖励稀疏的问题，又可以使得策略优化过程更加平稳。

具体地，基于能量机动理论和态势评估方法，确定t时刻的势函数。根据t时刻的势函数及t时刻的奖励，确定t时刻的融合奖励：

；

其中，

本发明基于能量机动理论和态势评估方法设计了如下的势函数：

；

其中，T

（6）根据t时刻的判别数据及t时刻的融合奖励，确定演员评论家模型的目标函数，并基于演员评论家模型的目标函数对演员评论家模型进行迭代训练，以得到动作预测模型。

具体地，根据t时刻的融合奖励，确定真实状态价值。

通过最大化想象轨迹的累积奖励和最小化价值估计的误差来训练演员和评论家模型。演员模型的目标函数类似于Dreamer，即最大化基于模型的值扩展。因此，在策略

；

h=min(x+k,t+H)；

其中，

根据所述预测状态价值及所述真实状态价值，确定评论家模型的目标函数，并基于评论家模型的目标函数对评论家模型进行迭代训练，以得到训练好的评论家模型。

由于无法学习到一个完美的世界模型，基于世界模型的想象轨迹必须存在一定的误差。为了稳定地优化策略，根据轨迹判别器的输出估计x时刻融合奖励的权重

；

其中，

本发明采用自博弈算法进行智能体训练。自博弈算法是一种多智能体学习的方法，它使用一个算法与自身进行对抗，可以在不需要人类专家数据的情况下从自博弈中学习，并在实践中可以达到超人类水平。智能体联盟的方法使得智能体在联盟中进行对抗训练，从而提高性能来进一步优化策略。

智能体联盟中包括多个智能体，这些智能体包括在训练过程中保存下来的不同参数的模型，从而可以更加真实的模拟对手。由于在使用自博弈方法进行训练的过程中，对手也会随着训练不断变强，无法简单通过胜率或者累计的奖励来评估智能体的性能，因此使用Elo算法来评估智能体的性能。

在训练过程中，会以概率p从联盟中按每个智能体的Elo评分进行对手采样，以概率1-p从联盟中按照出场率进行对手采样。在每个阶段训练结束后，将最新的模型与联盟中的智能体进行测试，动态更新联盟中每个智能体的Elo评分。引入智能体联盟可以使对手更加多样，避免训练陷入策略循环导致无法收敛，并可以提高策略性能和鲁棒性。

本发明在世界模型的基础上，通过引入轨迹判别任务，使世界模型具有更好的时序动力学状态表征能力；利用训练得到的轨迹判别器来感知预测轨迹与真实轨迹的偏差，轨迹判别器与实际模型共用世界模型的特征提取部分，通过判别生成的虚假轨迹和真实轨迹来学习对时序动力学信息的表征。针对世界模型的累积预测误差对状态价值估计的不良影响，在策略优化过程中，将轨迹判别器的输出经过计算后作为状态价值估计的权重。基于能量机动理论和态势评估方法设计势函数，将基于势函数的塑造奖励与世界模型中的奖励模型相结合进行策略优化，解决了空战决策中奖励稀疏的问题。通过自博弈方法进行策略优化，并引入智能体联盟进行对抗训练，增强策略的鲁棒性，同时避免策略循环，最终通过Elo评分进行策略性能评估，解决了缺少专家数据的问题。

实施例二

为了执行上述实施例一对应的方法，以实现相应的功能和技术效果，下面提供一种智能空战决策系统。

如图4所示，本实施例提供的智能空战决策系统包括：数据获取单元1及决策单元2。

其中，数据获取单元1用于针对任一飞机，获取当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作。

决策单元2与所述数据获取单元1连接，决策单元2用于根据当前时刻所述飞机的观测数据、前一时刻所述飞机的隐状态及前一时刻所述飞机的动作，基于空战策略模型，确定当前时刻所述飞机的动作，以调整所述飞机的运行状态。

所述空战策略模型为预先采用自博弈算法进行智能体联盟对抗训练得到的。所述空战策略模型包括状态预测模型及动作预测模型。所述状态预测模型为预先根据历史交互数据，基于轨迹判别器，对世界模型进行训练得到的。所述历史交互数据包括历史设定时段内飞机的观测数据、隐状态及动作。所述动作预测模型为预先基于融合奖励，根据历史设定时段内飞机的隐状态，对演员评论家模型进行训练得到的。所述状态预测模型用于根据当前时刻飞机的观测数据、前一时刻飞机的隐状态及前一时刻飞机的动作，确定当前时刻飞机的隐状态。所述演员评论家模型用于根据当前时刻飞机的隐状态，确定当前时刻飞机的动作。

相对于现有技术，本实施例提供的智能空战决策系统与实施例一提供的智能空战决策方法的有益效果相同，在此不再赘述。

实施例三

本实施例提供一种电子设备，包括存储器及处理器，存储器用于存储计算机程序，处理器运行计算机程序以使电子设备执行实施例一的智能空战决策方法。

可选地，上述电子设备可以是服务器。

另外，本发明实施例还提供一种计算机可读存储介质，其存储有计算机程序，该计算机程序被处理器执行时实现实施例一的智能空战决策方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京师范大学;

上一篇：光线控制方法、装置、设备、介质及车辆
下一篇：面向多元负荷聚合商的电动汽车充放电方法、系统及介质