用于形成追捕策略的强化学习模型训练方法和训练装置

文献发布时间：2023-06-19 16:04:54

技术领域

本发明涉及追捕技术分析技术领域，具体是涉及用于形成追捕策略的强化学习模型训练方法和训练装置。

背景技术

追逃博弈是微分博弈理论起源的一个重要场景也是其应用中最为经典的领域，不止在航天器轨道追逃、导弹拦截等这类传统问题上，随着科技的发展，如何利用无人机进行罪犯的追踪打击也成为了追逃博弈问题研究的一个热点问题。微分博弈理论从诞生到发展至今，许多学者在数学理论层面提出了各式各样的解答方法与求解思路，但针对微分博弈问题，仍然没有一种可以普遍应用的解决方案应对各种的场景与问题。不仅如此，应用传统的微分博弈方法求解追逃博弈问题也面临着求解繁琐与建模困难等问题。追逃博弈现实应用的需求，也让这类问题由最初的单对单的简单博弈问题拓展到多对多(多个追捕者与多个逃跑者之间的博弈)的复杂环境下的博弈问题，并亟需新的解答思路。

强化学习作为机器学习的一个重要分支，近些年来发展迅速，并涌现出诸多令人惊异的成果，围棋智能AlphaGo就是代表性成果。深度强化学习则是将深度学习与传统强化学习算法相结合，实现强化学习算法更广阔应用的一类算法技术。正是因为这些新兴技术的发展，已经有研究者将强化学习应用于博弈的问题中。与之前的解决方案不同，强化学习算法不需要问题的先验知识，而是通过不断探索与试错来获得优秀的策略。

强化学习根据算法主体的智能体个数可以分为单智能体算法和多智能体算法两大类。这两种算法分别基于值函数和策略梯度，在单智能体问题中有着广泛的应用，后续工作也多以两者为基础进行改进。而在多智能体领域，算法设计则更加复杂也更具挑战性，面对不同种类的任务与奖励，算法也有着不同。

相比于确定性策略的强化学习算法，基于最大熵的强化学习方法，将熵加入整个强化学习的目标函数中，从而让算法有着更好的探索能力以及更好的泛化能力，大大加强了算法的实用程度，成为目前强化学习领域的标杆工作。但是上述强化学习方法在训练过程中都是基于确定性的逃跑者对追捕者的强化学习模型进行训练的，在训练过程中逃跑者与追捕者并没有交互，而在实际追逃过程中，逃跑者会根据追捕者的动作而做出相对应对的(即在实际追逃过程，逃跑者与追捕者是有交互的)，因此基于现有训练方法得到的已训练追捕强化学习模型在应用到实际追逃过程中会降低模型的鲁棒性。

综上所述，现有的强化学习模型鲁棒性较差。

因此，现有技术还有待改进和提高。

发明内容

为解决上述技术问题，本发明提供了用于形成追捕策略的强化学习模型训练方法和训练装置，解决了现有的强化学习模型鲁棒性较差的问题。

为实现上述目的，本发明采用了以下技术方案：

第一方面，本发明提供一种用于形成追捕策略的强化学习模型训练方法，其中，包括：

将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；

依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；

将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；

根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

在一种实现方式中，所述将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量，包括：

依据所有所述追捕者的信息，得到所有所述追捕者的信息中的追捕位置；

依据所述逃跑者的信息，得到所述逃跑者的信息中的逃跑位置和逃跑速度；

将每个所述追捕者的追捕位置和逃跑者的逃跑位置和逃跑速度输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量。

在一种实现方式中，已训练的所述逃跑强化学习模型的训练方式包括：

获取所述逃跑者的逃跑样本位置、所述逃跑者的逃跑样本速度、所有所述追捕者的追捕样本位置；

将所述逃跑样本位置、所述逃跑样本速度、所述追捕样本位置输入到所述逃跑强化学习模型，得到所述逃跑强化学习模型输出的针对所述逃跑者的逃跑控制量；

通过所述逃跑控制量对所述逃跑强化学习模型进行训练，得到已训练的所述逃跑强化学习模型。

在一种实现方式中，所述通过所述逃跑控制量对所述逃跑强化学习模型进行训练，得到已训练的所述逃跑强化学习模型，包括：

依据所述逃跑强化学习模型，得到所述逃跑强化学习模型所涵盖的逃跑者第一强化学习模型、逃跑者第二强化学习模型、逃跑者第三强化学习模型；

随机选取所述逃跑者第一强化学习模型输出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二强化学习模型输出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三强化学习模型输出的所述逃跑控制量中的逃跑第三控制量；

随机从所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中选取一个控制量；

计算在随机选取的一个控制量作用下，追捕过程中所述逃跑者与距离所述逃跑者最近的所述追捕者之间的追逃距离；

依据所述追逃距离对所述逃跑强化学习模型进行训练，得到已训练的所述逃跑强化学习模型。

在一种实现方式中，所述依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息，包括：

计算每个所述追捕者与障碍物之间的追障距离，所述障碍物为距离每个所述追捕者最近的障碍物；

依据每个所述追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置、所述追障距离，得到每个所述追捕者的观测信息。

在一种实现方式中，所述将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量，包括：

依据每个所述追捕者的观测信息，得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息，所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值，所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值；

将每个所述追捕者在简单环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量；

将每个所述追捕者在复杂环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第二速度变化量。

在一种实现方式中，所述根据每个所述追捕者的追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型，包括：

依据所述第一速度变化量，训练所述追捕强化学习模型，得到预训练的所述追捕强化学习模型；

依据所述第二速度变化量，训练预训练之后的所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

在一种实现方式中，所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型，包括：

根据所述追捕控制量，得到所述追捕控制量中的追捕速度变化量；

以所述追捕速度变化量，调整所述追捕者的追捕速度，得到调整之后的所述追捕速度；

在设定时间内，计算所述追捕者以调整之后的所述追捕速度进行追捕，完成追捕时所述追捕者与所述逃跑者之间的结束距离；

和/或，计算所述追捕者以调整之后的所述追捕速度进行的追捕过程中，所述追捕者与所述逃跑者之间的第一距离；

和/或，计算所述追捕者以调整之后的所述追捕速度进行的追捕过程中，所述追捕者与障碍物之间的第二距离；

依据所述结束距离和/或所述第一距离和/或所述第二距离，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

在一种实现方式中，所述依据所述结束距离和/或所述第一距离和/或所述第二距离，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型，包括：

依据所述追捕强化学习模型，得到所述追捕强化学习模型所涵盖的第一soft-Q网络、与第一soft-Q网络对应的第一目标网络、第二soft-Q网络、与第二soft-Q网络对应的第二目标网络、策略网络，所述第一soft-Q网络和所述第二soft-Q网络结构相同参数相异；

将每个所述追捕者的状态信息和每个所述追捕者的动作信息分别输入到所述第一soft-Q网络、所述第一目标网络、所述第二soft-Q网络、所述第二目标网络、所述策略网络，得到所述第一soft-Q网络输出的结果、所述第一目标网络输出的结果、所述第二soft-Q网络输出的结果、所述第二目标网络输出的结果、所述策略网络输出的结果；

依据所述结束距离和/或所述第一距离和/或所述第二距离、所述第一soft-Q网络输出的结果、所述第一目标网络输出的结果、所述第二soft-Q网络输出的结果、所述第二目标网络输出的结果、所述策略网络输出的结果，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

在一种实现方式中，所述强化学习模型训练方法还包括：

将已训练的所述追捕强化学习模型应用于模拟追捕场景中，所述模拟追捕场景由模拟追捕者、模拟逃跑者、模拟障碍物构成；

计算所述模拟追捕者在已训练的所述追捕强化学习模型控制下与所述模拟逃跑者之间的第一模拟距离；

计算所述模拟追捕者在已训练的所述追捕强化学习模型控制下与所述模拟障碍物中间的第二模拟距离；

依据所述第一模拟距离和所述第二模拟距离，得到针对已训练的所述追捕强化学习模型的评价结果。

第二方面，本发明实施例还提供一种用于形成追捕策略的强化学习模型训练装置，其中，所述装置包括如下组成部分：

逃跑控制量计算模块，用于将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；

观测信息生成模块，用于依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；

追捕控制量计算模块，用于将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；

训练模块，用于根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

第三方面，本发明实施例还提供一种终端设备，其中，所述终端设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的用于形成追捕策略的强化学习模型训练程序，所述处理器执行所述用于形成追捕策略的强化学习模型训练程序时，实现上述所述的用于形成追捕策略的强化学习模型训练方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有用于形成追捕策略的强化学习模型训练程序，所述用于形成追捕策略的强化学习模型训练程序被处理器执行时，实现上述所述的用于形成追捕策略的强化学习模型训练方法的步骤。

有益效果：本发明逃跑者的控制量并不是确定性的，而是根据追捕者的信息给出的控制量，即逃跑者与追捕者进行了交互，这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略(即逃跑控制量)上的改变是一致的，追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略(追捕控制量)。如此往复地对追捕强化学习模型进行训练，这样等到的已训练追捕强化学习模型应用到实际追逃过程中，即便逃跑者针对追捕者改变了逃跑策略，追捕者依然能够精准地实现对逃跑者的追捕，从而增加了已训练的追捕强化学习模型的鲁棒性。

附图说明

图1为本发明的整体流程图；

图2为本发明的单向通讯模型；

图3为实施例中追捕者0获得的收益；

图4为实施例中追捕者1获得的收益；

图5为实施例中追捕者2获得的收益；

图6为实施例中追捕者3获得的收益；

图7为实施例中的追捕者网络模型；

图8为逃跑者网络模型；

图9为本实施例中的算法与现有的算法对照示意图；

图10为本发明实施例提供的终端设备的内部结构原理框图。

具体实施方式

以下结合实施例和说明书附图，对本发明中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

经研究发现，追逃博弈是微分博弈理论起源的一个重要场景也是其应用中最为经典的领域，不止在航天器轨道追逃、导弹拦截等这类传统问题上，随着科技的发展，如何利用无人机进行罪犯的追踪打击也成为了追逃博弈问题研究的一个热点问题。微分博弈理论从诞生到发展至今，许多学者在数学理论层面提出了各式各样的解答方法与求解思路，但针对微分博弈问题，仍然没有一种可以普遍应用的解决方案应对各种的场景与问题。不仅如此，应用传统的微分博弈方法求解追逃博弈问题也面临着求解繁琐与建模困难等问题。追逃博弈现实应用的需求，也让这类问题由最初的单对单的简单博弈问题拓展到多对多(多个追捕者与多个逃跑者之间的博弈)的复杂环境下的博弈问题，并亟需新的解答思路。强化学习作为机器学习的一个重要分支，近些年来发展迅速，并涌现出诸多令人惊异的成果，围棋智能AlphaGo就是代表性成果。深度强化学习则是将深度学习与传统强化学习算法相结合，实现强化学习算法更广阔应用的一类算法技术。正是因为这些新兴技术的发展，已经有研究者将强化学习应用于博弈的问题中。与之前的解决方案不同，强化学习算法不需要问题的先验知识，而是通过不断探索与试错来获得优秀的策略。强化学习根据算法主体的智能体个数可以分为单智能体算法和多智能体算法两大类。这两种算法分别基于值函数和策略梯度，在单智能体问题中有着广泛的应用，后续工作也多以两者为基础进行改进。而在多智能体领域，算法设计则更加复杂也更具挑战性，面对不同种类的任务与奖励，算法也有着不同。相比于确定性策略的强化学习算法，基于最大熵的强化学习方法，将熵加入整个强化学习的目标函数中，从而让算法有着更好的探索能力以及更好的泛化能力，大大加强了算法的实用程度，成为目前强化学习领域的标杆工作。但是上述强化学习方法在训练过程中都是基于确定性的逃跑者对追捕者的强化学习模型进行训练的，在训练过程中逃跑者与追捕者并没有交互，而在实际追逃过程中，逃跑者会根据追捕者的动作而做出相对应对的(即在实际追逃过程，逃跑者与追捕者是有交互的)，因此基于现有训练方法得到的已训练追捕强化学习模型在应用到实际追逃过程中会降低模型的鲁棒性。

为解决上述技术问题，本发明提供了用于形成追捕策略的强化学习模型训练方法和训练装置，解决了现有的强化学习模型鲁棒性较差的问题。具体实施时，将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。本实施例得到的已训练所述追捕强化学习模型具有较好的鲁棒性。

举例说明，假如有三个追捕者，分别是甲、乙、丙，甲与乙相邻，乙与丙相邻，一个逃跑者丁。将甲、乙、丙的当前位置信息、逃跑者丁当前位置信息都输入到已训练的逃跑强化学习模型中，逃跑强化学习模型会输出针对丁的控制量(控制量用于丁制定逃跑策略)，之后计算在控制量作用下丁的下一时刻可能的位置信息。将甲的观察信息、乙的观察信息、丙的观察信息、丁的下一时刻可能的位置信息都输入到追捕强化学习模型以实现对追捕强化学习模型的训练，其中甲的观察信息包括甲当前位置信息、乙当前位置信息、丁下一时刻可能的位置信息，采用同样的方法获取丁和丙的观察信息。

本实施例的用于形成追捕策略的强化学习模型训练方法可应用于终端设备中，所述终端设备可为具有计算功能的终端产品，比如电脑等。在本实施例中，如图1中所示，所述用于形成追捕策略的强化学习模型训练方法具体包括如下步骤：

S100，将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量。

本实施例中的步骤S100包括两部分：对逃跑强化学习模型进行训练，根据已训练的逃跑强化学习模型计算逃跑控制量。

对逃跑强化学习模型进行训练包括如下步骤S101、S102、S103、S104、S105、S106、S107：

S101，获取所述逃跑者的逃跑样本位置、所述逃跑者的逃跑样本速度、所有所述追捕者的追捕样本位置。

S102，将所述逃跑样本位置、所述逃跑样本速度、所述追捕样本位置输入到所述逃跑强化学习模型，得到所述逃跑强化学习模型输出的针对所述逃跑者的逃跑控制量。

本实施例中逃跑样本位置、逃跑样本速度、追捕样本位置构成了逃跑者的观测信息O

本实施例中以四个追捕者为例，x

S103，依据所述逃跑强化学习模型，得到所述逃跑强化学习模型所涵盖的逃跑者第一强化学习模型、逃跑者第二强化学习模型、逃跑者第三强化学习模型。

S104，随机选取所述逃跑者第一强化学习模型输出的所述逃跑控制量中的逃跑第一控制量、所述逃跑者第二强化学习模型输出的所述逃跑控制量中的逃跑第二控制量、所述逃跑者第三强化学习模型输出的所述逃跑控制量中的逃跑第三控制量。

S105，随机从所述逃跑第一控制量、所述逃跑第二控制量、所述逃跑第三控制量中选取一个控制量。

本实施例中的三个逃跑者强化学习模型的网络结构相同，之所以要设计三个逃跑者强化学习模型是为了防止智能体学习(追捕强化学习模型和逃跑学习网络)陷入某种极端，博弈双方(追捕者和逃跑者)都在学习使得双方的策略可能都不够好，停留在比较低的水平中。

S106，计算在随机选取的一个控制量作用下，追捕过程中所述逃跑者与距离所述逃跑者最近的所述追捕者之间的追逃距离；

S107，依据所述追逃距离对所述逃跑强化学习模型进行训练，得到已训练的所述逃跑强化学习模型。

在训练过程中，如图8所示，三个逃跑者强化学习模型，共享一个经验池，网络更新(模型训练)时，三个逃跑者强化学习模型分别从经验池中选取数据独立更新，在于环境交互时，从三个网络中随机生成的动作中(逃跑强化学习模型输出的控制量所对应的动作)随机选取一个动作，作为整个逃跑者的输出动作。然后再在该动作作用下计算逃跑者与距离最近的追捕者之间的追逃距离d

本实施例是根据d

式中，C

本实施例不仅可以根据奖励r

式中，δ

通过步骤S101至步骤S107完成了对逃跑者强化学习模型的训练，之后将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，就可以得到逃跑强化学习模型输出的逃跑控制量。逃跑者根据逃跑控制量去制定逃跑策略。本实施例中的追捕者信息为追捕者当前位置、逃跑者信息为逃跑者当前位置以及逃跑速度。

S200，依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息O

本实施例中的每个追捕者不仅采集自身的信息、邻居的信息、逃跑者的信息，还要采集追捕者自身与障碍物之间的距离。

式中，x

本实施例中，追捕者i与追捕者j互为邻居，如图2所示，追捕者j与追捕者i采用单向通讯，即追捕者j能把自身的x

S300，将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量。

本实施例是将步骤S200中的o

步骤S300包括如下的步骤S301、S302和S303：

S301，依据每个所述追捕者的观测信息，得到所述观测信息中的在简单环境下的观察信息和在复杂环境中的观察信息，所述简单环境为静态的所述逃跑者和障碍物的数量小于设定值，所述复杂环境为动态的所述逃跑者和障碍物的数量大于设定值。

如果直接采用在复杂环境中追捕者采集到的观察信息对追捕强化学习模型进行训练，在训练的迭代过程中难以取得较好效果。因此本实施例将对追捕强化学习模型的训练分成两个过程，先在简单环境下对追捕强化学习模型进行，之后在上述训练的基础上再在复杂环境下训练追捕强化学习模型。

本实施例中的简单环境：设定逃跑者为一个在场地中随机出现但是无法移动的固定目标，其他情况与正常训练一致。这里设计了一个简化的对手，目的在于通过减小追捕任务的难度使得学习曲线更加平缓。

S302，将每个所述追捕者在简单环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第一速度变化量。

S303，将每个所述追捕者在复杂环境下的观察信息，输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量中的第二速度变化量。

S400，根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

本实施例S400包括两种情况，第一种是采用步骤S300中的在简单环境中追捕者的观察信息对追捕强化学习模型进行预训练，再在与训练的基础上进一步采用步骤S300中的在复杂环境中追捕者的观察信息对追捕强化学习模型进一步训练；第二种是只采用同一种环境下的追捕者观察信息对追捕强化学习模型进行训练。

当时第一种情况时，步骤S400包括如下的步骤S401和S402：

S401，依据所述第一速度变化量，训练所述追捕强化学习模型，得到预训练的所述追捕强化学习模型。

S402，依据所述第二速度变化量，训练预训练之后的所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

本实施例中的第一速度变化量就是追捕者相对在简单环境下采集观察信息时的速度变化量。第二速度变化量就是追捕者相对在复杂环境下采集观察信息时的速度变化量。

如图3-图6所示，预训练阶段追捕者0、追捕者1、追捕者2、追捕者3都获得了高收益，本实施例用最终奖励r

式中

Win表示所有追捕者中有一个或几个追捕者追到逃跑者了，d

塑形奖励

其中γ为折扣参数，则

同时，障碍物的加入也是一个挑战。相比于直接为智能体设计一个撞击惩罚的负回报，本实施例从人工势能场的方法中获得启发，设计了一种基于势能的防撞击奖励，智能体离障碍物越近，所收获的负奖励越多，但是只要距离障碍物一定距离以上，则不会有负奖励的惩罚。

其中β为一超参数控制奖励大小，δ

本实施例当步骤S400为第一种情况时，步骤S400包括如下的步骤S403、S404、S405、S406、S407、S408

S403，根据所述追捕控制量，得到所述追捕控制量中的追捕速度变化量。

本实施例的追捕强化学习模型输出的就是追捕速度变化量

S404，以所述追捕速度变化量，调整所述追捕者的追捕速度，得到调整之后的所述追捕速度。

调整之后的追捕速度的方向角为θ

θ′

在计算出θ

S405，在设定时间内，计算所述追捕者以调整之后的所述追捕速度进行追捕，完成追捕时所述追捕者与所述逃跑者之间的结束距离。

本实施例中，采用如下方式定义追捕者追捕逃跑者是否成功：

博弈地图为一矩形地图，并分布一些圆形的障碍物，博弈双方的智能体无法超过边界以及障碍物。对于追捕者i来说，追捕成功的条件为在一定时间内，其与逃跑者的距离小于追捕距离，即：

其中d

当追捕完成时，根据下式计算出追捕者获得的奖励

当然也可以根据

S406，依据所述追捕强化学习模型，得到所述追捕强化学习模型所涵盖的第一soft-Q网络、与第一soft-Q网络对应的第一目标网络、第二soft-Q网络、与第二soft-Q网络对应的第二目标网络、策略网络，所述第一soft-Q网络和所述第二soft-Q网络结构相同参数相异；

S407，将每个所述追捕者的状态信息和每个所述追捕者的动作信息分别输入到所述第一soft-Q网络、所述第一目标网络、所述第二soft-Q网络、所述第二目标网络、所述策略网络，得到所述第一soft-Q网络输出的结果、所述第一目标网络输出的结果、所述第二soft-Q网络输出的结果、所述第二目标网络输出的结果、所述策略网络输出的结果；

S408，依据所述结束距离和/或所述第一距离和/或所述第二距离、所述第一soft-Q网络输出的结果、所述第一目标网络输出的结果、所述第二soft-Q网络输出的结果、所述第二目标网络输出的结果、所述策略网络输出的结果，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

S406、S407、S408是基于如下原理训练追捕强化学习模型：

建立智能体的网络更新。为了更好更稳定的训练，对于每个智能体(追捕者)i，包括两个网络结构相同但参数不同的soft-Q网络

其中D

其中τ为预设参数，控制更新的幅度大小。

智能体i的策略网络为π

其中各符号与soft-Q网络目标函数中意义相同。

对动作进行重新参数化，即

其中ò

在之前我们提到过有两个soft-Q网络，这里选取较小的值来更新策略的目标函数，使得参数更新更加稳定，同样利用梯度下降进行更新策略。

温度系数α

其中，H

每个智能体在与环境进行交互后，通过上式更新自己的网络参数优化策略。两个soft-Q网络

通过步骤S100、S200、S300得到已训练的追捕强化学习模型，本实施例还对已训练的追捕强化学习模型的效果进行评价，包括如下步骤S501、S502、S503、S504：

S501，将已训练的所述追捕强化学习模型应用于模拟追捕场景中，所述模拟追捕场景由模拟追捕者、模拟逃跑者、模拟障碍物构成。

S502，计算所述模拟追捕者在已训练的所述追捕强化学习模型控制下与所述模拟逃跑者之间的第一模拟距离。

S503，计算所述模拟追捕者在已训练的所述追捕强化学习模型控制下与所述模拟障碍物中间的第二模拟距离。

S504，依据所述第一模拟距离和所述第二模拟距离，得到针对已训练的所述追捕强化学习模型的评价结果。

S501至S504的具体过程如下：

为了测试已训练的追捕者强化学习模型输出的控制量(追捕策略)的有效性、鲁棒性及可迁移性，本实施例设计了两种逃跑策略以测试追捕策略的效果。

策略一为一种基于人工势能场的策略。将追捕者及障碍物建模成为人工势能场，追捕者将受到来着这两种单位的斥力作用。追捕者产生的斥力F

其中，C

其中C

策略二为一种随机动作的策略，智能体在动作可行域内随机选取动作，并与环境进行交互。

以上两种策略是在智能体的训练过程中未出现的，将训练好的追捕者网络用于对抗这两种策略，游戏结果可见图9，对照组为未经过复合网络对手以及预训练的强化学习算法，两者的算法结构相同，超参数相同，可见经过本实施例改进的追捕强化学习模型不但能够在对抗原始的智能算法中有比较好的效果，同样在对抗未知策略也能取得很好的效果。

综上，本发明逃跑者的控制量并不是确定性的，而是根据追捕者的信息给出的控制量，即逃跑者与追捕者进行了交互，这与实际追捕过程中逃跑者会根据追捕者的信息而做出相应的逃跑策略(即逃跑控制量)上的改变是一致的，追捕强化学习模型再根据改变之后的逃跑策略而给出追捕者的追捕策略(追捕控制量)。如此往复地对追捕强化学习模型进行训练，这样等到的已训练追捕强化学习模型应用到实际追逃过程中，即便逃跑者针对追捕者改变了逃跑策略，追捕者依然能够精准地实现对逃跑者的追捕，从而增加了已训练的追捕强化学习模型的鲁棒性。

本实施例还提供一种用于形成追捕策略的强化学习模型训练装置，所述装置包括如下组成部分：

训练模块，用于根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

基于上述实施例，本发明还提供了一种终端设备，其原理框图可以如图10所示。该终端设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中，该终端设备的处理器用于提供计算和控制能力。该终端设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用于形成追捕策略的强化学习模型训练方法。该终端设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该终端设备的温度传感器是预先在终端设备内部设置，用于检测内部设备的运行温度。

本领域技术人员可以理解，图10中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端设备的限定，具体的终端设备以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种终端设备，终端设备包括存储器、处理器及存储在存储器中并可在处理器上运行的用于形成追捕策略的强化学习模型训练程序，处理器执行用于形成追捕策略的强化学习模型训练程序时，实现如下操作指令：

将所有追捕者的信息、逃跑者的信息输入到已训练的逃跑强化学习模型中，得到已训练的所述逃跑强化学习模型输出的针对逃跑者的逃跑控制量；

依据每个追捕者的信息、与每个所述追捕者相邻追捕者的信息、在所述逃跑控制量作用下逃跑者的位置，得到每个所述追捕者的观测信息；

将每个所述追捕者的观测信息输入到追捕强化学习模型中，得到所述追捕强化学习模型输出的针对每个所述追捕者的追捕控制量；

根据所述追捕控制量，训练所述追捕强化学习模型，得到已训练的所述追捕强化学习模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：邢介邦;丁玉隆;崔金强;孙涛;宋伟伟;
专利申请人：鹏城实验室;

上一篇：一种用于污水处理的智能软化水箱
下一篇：一种聚乙二醇脂质及含有该脂质的脂质纳米粒含量的检测方法