人机对抗知识数据混合驱动型决策方法、装置及电子设备

文献发布时间：2023-06-19 11:14:36

技术领域

本发明涉及人工智能领域，尤其涉及一种人机对抗知识数据混合驱动型决策方法、装置、电子设备及存储介质。

背景技术

人机对抗作为人工智能研究的前沿方向，已成为国内外智能领域研究的热点，并为探寻机器智能的内在生长机制和关键技术的验证提供有效试验环境和途径。目前，面对复杂、动态、对抗环境下智能认知与决策需求，迫切需要以机器为载体的人工智能技术的辅助与支撑。

随着人工智能技术的巨大发展，将会面临越来越多的现实世界应用系统，在人机对抗决策技术路线上，一方面，知识驱动型决策方法具有可解释的优点，但由于知识瓶颈的存在，其决策性能受到约束；另一方面，数据驱动型决策方法具有自主学习的性能，但由于“黑箱”机制，其决策结果面临不可解释的局限。在现实世界应用场景中，如何充分利用知识驱动型决策方法与数据驱动型决策方法两者的优点，使得人机对抗决策过程做到可解释、可学习，对提升人机对抗决策的自主化程度和智能化程度具有重要意义。

发明内容

基于此，本发明实施例提供了一种人机对抗知识数据混合驱动型决策方法、装置、电子设备及存储介质，能够充分利用知识驱动型决策方法与数据驱动型决策方法两者的优点，使得人机对抗决策过程做到可解释、可学习。

第一方面，本发明实施例提供了一种人机对抗知识数据混合驱动型决策方法，所述方法包括：在每个决策时间节点，获取当前人机对抗态势；在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务，其中，所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系；若在所述决策规则库中没有查找到当前人机对抗态势下各行动单元分别对应的行动任务，则基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务；将所述当前人机对抗态势下各行动单元分别对应的行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

可选的，所述方法还包括：若在所述决策规则库中查找到当前人机对抗态势下各行动单元分别对应的行动任务，则将查找到的各所述行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

可选的，所述基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务包括：按照匹配策略为每个行动单元分别匹配一个行动任务，生成第一战术；通过扩展策略对所述第一战术进行扩展，生成至少一个第二战术，其中，所述第二战术中至少一个行动单元的行动任务与所述第一战术中的该行动单元的行动任务不同；将所述第一战术作为蒙特卡洛树的根节点、第二战术作为所述蒙特卡洛树的第一级子节点，构建蒙特卡洛树；继续根据所述扩展策略对所述蒙特卡洛树进行扩展，直至所述蒙特卡洛树达到设计深度；从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术；将所述最优战术中各所述行动单元分别对应的行动任务作为当前人机对抗态势下各行动单元分别对应的行动任务。

可选的，所述按照匹配策略为每个行动单元分别匹配一个行动任务，生成第一战术包括：为每个行动单元随机匹配一个行动任务，生成第一战术。

可选的，所述行动任务包括以下至少一个任务要素：任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作；所述通过扩展策略对所述第一战术进行扩展，生成至少一个第二战术包括：对所述第一战术中至少一个行动单元的行动任务的任务要素进行调整，生成至少一个第二战术。

可选的，所述继续根据所述扩展策略对所述蒙特卡洛树进行扩展，直至所述蒙特卡洛树达到设计深度包括：根据上置信界算法公式，在各所述第一级子节点中选取扩展子节点；根据所述扩展策略对所述扩展子节点所对应的第二战术进行扩展，生成至少一个第三战术；将各所述第三战术作为所述蒙特卡洛树的各第二级子节点，其中，各所述第二级子节点为所述扩展子节点的子节点；继续根据所述上置信界算法公式，在各所述第二级子节点中选取扩展子节点，并根据所述扩展策略对所述扩展子节点所对应的第三战术进行扩展，直至所述蒙特卡洛树达到设计深度。

可选的，所述从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术包括：在所述蒙特卡洛树的最后一级子节点中选取一个子节点作为模拟子节点；根据模拟策略，在所述当前人机对抗态势下对所述模拟子节点所对应的战术进行模拟，得到模拟结果；记录所述模拟子节点的模拟结果并对所述模拟子节点对应的访问次数加1；将所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数回溯至所述模拟子节点的各级父节点，以使所述模拟子节点的各级父节点记录所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数；从所述蒙特卡洛树中搜索访问次数最多的叶节点，将所述叶节点所对应的战术作为当前人机对抗态势下的最优战术。

第二方面，本发明实施例提供了一种人机对抗知识数据混合驱动型决策装置，所述装置包括：获取单元，用于在每个决策时间节点，获取当前人机对抗态势；查找单元，用于在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务，其中，所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系；确定单元，用于若在所述决策规则库中没有查找到当前人机对抗态势下各行动单元分别对应的行动任务，则基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务；第一发送单元，用于将当前人机对抗态势下各行动单元分别对应的行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

可选的，所述装置还包括：第二发送单元，用于若在所述决策规则库中查找到当前人机对抗态势下各行动单元分别对应的行动任务，则将查找到的各所述行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

可选的，所述确定单元包括：匹配子单元，按照匹配策略为每个行动单元分别匹配一个行动任务，生成第一战术；扩展子单元，用于通过扩展策略对所述第一战术进行扩展，生成至少一个第二战术，其中，所述第二战术中至少一个行动单元的行动任务与所述第一战术中的该行动单元的行动任务不同；构建子单元，用于将所述第一战术作为蒙特卡洛树的根节点、第二战术作为所述蒙特卡洛树的第一级子节点，构建蒙特卡洛树；继续根据所述扩展策略对所述蒙特卡洛树进行扩展，直至所述蒙特卡洛树达到设计深度；搜索子单元，用于从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术；确定子单元，用于将所述最优战术中各所述行动单元分别对应的行动任务作为当前人机对抗态势下各行动单元分别对应的行动任务。

可选的，所述匹配子单元具体用于：为每个行动单元随机匹配一个行动任务，生成第一战术。

可选的，所述行动任务包括以下至少一个任务要素：任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作；所述扩展子单元具体用于：对所述第一战术中至少一个行动单元的行动任务的任务要素进行调整，生成至少一个第二战术。

可选的，所述构建子单元具体用于：根据上置信界算法公式，在各所述第一级子节点中选取扩展子节点；根据所述扩展策略对所述扩展子节点所对应的第二战术进行扩展，生成至少一个第三战术；将各所述第三战术作为所述蒙特卡洛树的各第二级子节点，其中，各所述第二级子节点为所述扩展子节点的子节点；继续根据所述上置信界算法公式，在各所述第二级子节点中选取扩展子节点，并根据所述扩展策略对所述扩展子节点所对应的第三战术进行扩展，直至所述蒙特卡洛树达到设计深度。

可选的，所述搜索子单元具体用于：在所述蒙特卡洛树的最后一级子节点中选取一个子节点作为模拟子节点；根据模拟策略，在所述当前人机对抗态势下对所述模拟子节点所对应的战术进行模拟，得到模拟结果；记录所述模拟子节点的模拟结果并对所述模拟子节点对应的访问次数加1；将所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数回溯至所述模拟子节点的各级父节点，以使所述模拟子节点的各级父节点记录所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数；从所述蒙特卡洛树中搜索访问次数最多的叶节点，将所述叶节点所对应的战术作为当前人机对抗态势下的最优战术。

第三方面，本发明实施例提供了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；所述存储器，用于存储计算机程序；所述处理器，用于执行所述存储器中所存储的程序，实现第一方面所述的人机对抗知识数据混合驱动型决策方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的人机对抗知识数据混合驱动型决策方法。

本发明实施例提供的上述技术方案与现有技术相比具有如下优点：

本申请实施例提供的一种人机对抗知识数据混合驱动型决策方法、装置、电子设备及存储介质，通过在每个决策时间节点，获取当前人机对抗态势；在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务，其中，所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系；若在所述决策规则库中没有查找到当前人机对抗态势下各行动单元分别对应的行动任务，则基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务；将所述当前人机对抗态势下各行动单元分别对应的行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。这样，在每个决策时间节点，首先在决策规则库中查找当前人机对抗态势下各行动单元对应的行动任务，在所述决策规则库中不存在当前人机对抗态势下各行动单元的行动任务时，再基于蒙特卡洛树搜索来实现在线决策，充分发挥了知识规则与预演学习两种技术路线在人机对抗实时决策中的应用，使得人机对抗决策过程可解释、可学习，有效提升人机对抗决策的自主化程度和智能化程度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种人机对抗知识数据混合驱动型决策方法的流程示意图；

图2为本发明实施例中提供的一种人机对抗知识数据混合驱动型决策方法的第一部分流程示意图；

图3为本发明实施例中提供的一种人机对抗知识数据混合驱动型决策方法的第二部分流程示意图；

图4为本发明实施例中提供的一种人机对抗知识数据混合驱动型决策方法的第三部分流程示意图；

图5为本发明实施例中提供的一种人机对抗知识数据混合驱动型决策方法的第四部分流程示意图；

图6为本发明实施例中提供的一种人机对抗知识数据混合驱动型决策方法的第五部分流程示意图；

图7为本发明实施例中提供的一种人机对抗知识数据混合驱动型决策装置的结构示意图；

图8为本发明实施例中提供的电子设备的结构连接示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一方面，本发明实施例所提供的一种人机对抗知识数据混合驱动型决策方法，能够充分利用知识驱动型决策方法与数据驱动型决策方法两者的优点，使得人机对抗决策过程做到可解释、可学习。

如图1所示，本发明实施例所提供的一种人机对抗知识数据混合驱动型决策方法，包括：

S101、在每个决策时间节点，获取当前人机对抗态势；

本步骤，可以每隔一固定时间间隔进行一次决策，也可以根据其他条件触发所述决策，例如根据所述人机对抗环境下的某一或某一些环境特征触发所述决策。

所述人机对抗态势可以根据当前人机对抗环境下的环境特征信息分析得到，所述人机对抗环境下的环境特征信息可以包括我方兵力信息、我方兵力位置信息、敌方兵力信息、敌方兵力位置信息、地形信息等；所述人机对抗态势可以包括得分、威胁、意图、赢面等。

S102、在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务，其中，所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系；

本步骤，所述决策规则库可以通过离线构建，所述决策规则库用于给出我方行动单元在不同人机对抗态势下应该选取的行动任务，所述行动任务可以包括集结、侦察、进攻、躲避、掩护、支援等。

每个所述行动任务可以表示为一个八元组：任务名称、任务主体、任务客体、任务目标点、任务关键点、任务结束时节、任务动作、任务状态。所述行动任务的任务名称可以为该行动任务的特定命名，所述行动任务的任务主体可以为执行该行动任务的施事行动单元；所述行动任务的任务客体可以为该行动任务执行中的受事行动单元；所述行动任务的任务目标点可以为该行动任务的目的地；所述行动任务的任务关键点可以为该行动任务执行过程中的重要位置；所述行动任务的任务结束时间节点可以为结束执行该行动任务的时间节点；所述行动任务的任务动作可以为驱使该行动任务执行的任务主体的具体动作；所述行动任务的任务状态指该行动任务的当前状态。所述行动任务的任务状态具体可以包括“等待”、“进行中”、“完成”等状态。

所述在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务可以在线进行。在所述决策规则库中查找当前人机对抗态势下各行动单元对应的行动任务时，一旦匹配成功，则可以停止匹配并将该匹配关系作为决策结果。

S103、若在所述决策规则库中没有查找到当前人机对抗态势下各行动单元分别对应的行动任务，则基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务；

本步骤，可通过蒙特卡洛树搜索生成各所述行动单元的行动任务，并在所述蒙特卡洛树各节点中挑选出各行动单元分别对应的最优的行动任务，作为当前人机对抗态势下各行动单元分别对应的行动任务。

S104、将所述当前人机对抗态势下各行动单元分别对应的行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

本步骤，按照各行动任务与各行动单元之间的对应关系，将各所述行动任务发送给相应的行动单元，各所述行动单元获取到所述行动任务之后，进入相应的行动任务的执行程序，执行所述行动任务。

本发明实施例提供的一种人机对抗知识数据混合驱动型决策方法、装置、电子设备及存储介质，通过在每个决策时间节点，获取当前人机对抗态势；在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务，其中，所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系；若在所述决策规则库中没有查找到当前人机对抗态势下各行动单元分别对应的行动任务，则基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务；将所述当前人机对抗态势下各行动单元分别对应的行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。这样，在每个决策时间节点，首先在决策规则库中查找当前人机对抗态势下各行动单元对应的行动任务，在所述决策规则库中不存在当前人机对抗态势下各行动单元的行动任务时，再基于蒙特卡洛树搜索来实现在线决策，充分发挥了知识规则与预演学习两种技术路线在人机对抗实时决策中的应用，使得人机对抗决策过程可解释、可学习，有效提升人机对抗决策的自主化程度和智能化程度。

可选的，若在所述决策规则库中查找到当前人机对抗态势下各行动单元分别对应的行动任务，则将查找到的各所述行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

本实施例，在所述决策规则库中存在当前人机对抗态势下各行动单元分别对应的行动任务时，则可直接将所述决策规则库中的所述行动任务发送给相应的行动单元，充分发挥了知识规则在人机对抗实时决策中的应用，使得人机对抗决策过程可解释、可学习。

如图2所示，可选的，所述基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务包括：

S1031、按照匹配策略为每个行动单元分别匹配一个行动任务，生成第一战术；

本步骤，当所述决策规则库中不存在当前人机对抗态势下各行动单元的行动任务时，也即当所述当前人机对抗态势与所述决策规则库中的人机对抗态势匹配失败时，转为基于蒙特卡洛树搜索进行决策。

可选的，所述按照匹配策略为每个行动单元分别匹配一个行动任务，生成第一战术包括：为每个行动单元随机匹配一个行动任务，生成第一战术。

举例而言，可以为n（n大于1的自然数）个行动任务进行编号，分别编号为b

当然，也可以为每个行动单元匹配常用的或擅长的行动任务，以使每个所述行动单元发挥各自的长处。例如为坦克匹配“进攻”任务。

S1032、通过扩展策略对所述第一战术进行扩展，生成至少一个第二战术，其中，所述第二战术中至少一个行动单元的行动任务与所述第一战术中的该行动单元的行动任务不同；

本步骤，可以通过所述扩展策略对所述第一战术中各行动单元的行动任务进行微调，生成多个所述第二战术。

可选的，所述行动任务可以包括以下至少一个任务要素：任务客体、任务目标点、任务关键点、任务结束时间节点、任务动作；所述通过扩展策略对所述第一战术进行扩展，生成至少一个第二战术包括：对所述第一战术中至少一个行动单元的行动任务的任务要素进行调整，生成至少一个第二战术。

本实施例，可以对所述第一战术中至少一个行动单元的行动任务的任务要素进行随机微调，通过改变其任务目标点、任务关键点、任务结束时节或任务动作得到一个扩展的战术。例如，第一战术Q0={b

重复上述扩展步骤若干次，可以得到Q01={b

S1033、将所述第一战术作为蒙特卡洛树的根节点、第二战术作为所述蒙特卡洛树的第一级子节点，构建蒙特卡洛树；

本步骤，以上述具体实施例为例，将第一战术Q0={b

S1034、继续根据所述扩展策略对所述蒙特卡洛树进行扩展，直至所述蒙特卡洛树达到设计深度；

本步骤，基于与步骤S105相同的原理，可以根据所述扩展策略继续对所述蒙特卡洛树的第一级子节点进行扩展，具体的，对于第一级子节点Q01={b

S1035、从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术；

本步骤，可以遍历所述蒙特卡洛树的各节点，将获胜率最高、或者得分最高的节点、或访问次数最多的节点所对应的战术作为所述当前人机对抗态势下的最优战术。

S1036、将所述最优战术中各所述行动单元分别对应的行动任务作为当前人机对抗态势下各行动单元分别对应的行动任务。

如图3所示，可选的，在上述任一实施例中，所述继续根据所述扩展策略对所述蒙特卡洛树进行扩展，直至所述蒙特卡洛树达到设计深度包括：

S10341、根据上置信界算法公式，在各所述第一级子节点中选取扩展子节点；

本步骤，按照上置信界算法公式（UCB公式）计算各所述第一级子节点所对应的值，取各值中的最大值所对应的第一级子节点作为扩展子节点，即按照以下公式选取所述扩展子节点：

其中，w

S10342、根据所述扩展策略对所述扩展子节点所对应的第二战术进行扩展，生成至少一个第三战术；

S10343、将各所述第三战术作为所述蒙特卡洛树的各第二级子节点，其中，各所述第二级子节点为所述扩展子节点的子节点；

S10344、继续根据所述上置信界算法公式，在各所述第二级子节点中选取扩展子节点，并根据所述扩展策略对所述扩展子节点所对应的第三战术进行扩展，直至所述蒙特卡洛树达到设计深度。

本实施例，在对所述蒙特卡洛树进行扩展的过程中，每扩展一级所述蒙特卡洛树的子节点，均需要在当前的叶节点中选取一个作为扩展子节点，该选取方法可以参照上述UCB公式选取扩展子节点的方法，这样，能够更有利于扩展出更加优质的战术。

如图4所示，可选的，所述从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术包括：

S10351、在所述蒙特卡洛树的最后一级子节点中选取一个子节点作为模拟子节点；

本步骤，可以在所述最后一级子节点中随机选取一个子节点作为所述模拟子节点。

S10352、根据模拟策略，在所述当前人机对抗态势下对所述模拟子节点所对应的战术进行模拟，得到模拟结果；

本步骤，所述模拟策略的具体实现方法可以为：引入在每个决策时间节点为每个行动单元随机选择的Demo对抗对手，以预演的形式模拟执行所述模拟子节点对应的第二战术，得到各模拟结果；所述模拟结果可以以胜/负来表示，也可以根据从当前决策时间节点到对抗结束的得分来表示。

S10353、记录所述模拟子节点的模拟结果并对所述模拟子节点对应的访问次数加1；

本步骤，所述蒙特卡洛树的每个节点都记录有两个值，代表这个节点以及它的子节点模拟的次数和模拟结果（所述模拟结果可以为赢的次数、得分、或根据输赢/得分计算得到的权重），比如模拟了 10 次，赢了4盘，记为4/10。

S10354、将所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数回溯至所述模拟子节点的各级父节点，以使所述模拟子节点的各级父节点记录所述模拟子节点本次的模拟结果以及所述模拟子节点对应的访问次数；

S10355、从所述蒙特卡洛树中搜索访问次数最多的叶节点，将所述叶节点所对应的战术作为当前人机对抗态势下的最优战术。

本实施例，所述蒙特卡洛树的叶节点是指该节点下面不再连接有节点的节点，即所述蒙特卡洛树的末端；访问次数最多的叶节点，则意味着该叶节点所对应的战术最有可能是所述蒙特卡洛树中最优的战术。

如图5所示，可选的，在上述实施例中，所述将所述最优战术中各所述行动单元分别对应的行动任务作为当前人机对抗态势下各行动单元分别对应的行动任务包括：

S10361、根据判定策略，判断所述最优战术是否满足设计要求；

本步骤，所述判定策略可以为：若所述最优战术的模拟获胜率大于第一预设值，则确定所述最优战术满足设计要求；或

若所述最优战术的模拟得分大于第二预设值，则确定所述最优战术满足设计要求；或

若所述最优战术的权重大于第三预设值，则确定所述最优战术满足设计要求，其中，所述最优战术的权重可以根据所述最优战术的模拟获胜率或者模拟得分计算得到。

S10362、若所述最优战术满足设计要求，则将所述最优战术中各所述行动单元分别对应的行动任务作为当前人机对抗态势下各行动单元分别对应的行动任务。

本实施例，提前为基于蒙特卡洛树搜索得到的最优战术设置了门槛，即只有当基于蒙特卡洛树搜索得到的最优战术满足一定条件时才采用该最优战术，这样，能够提高将该最优战术应用在当前人机对抗态势下时获胜的概率。

如图6所示，可选的，在上述实施例中，在根据判定策略，判断所述最优战术是否满足设计要求之后，所述方法还可以包括：

S10363、若所述最优战术不满足设计要求，则继续根据所述扩展策略对所述蒙特卡洛树进行扩展，直至所述蒙特卡洛树达到设计深度；

S10364、从所述蒙特卡洛树中再次搜索当前人机对抗态势下的最优战术；

S10365、将所述最优战术中各所述行动单元分别对应的行动任务作为当前人机对抗态势下各行动单元分别对应的行动任务。

本实施例，在从当前的蒙特卡洛树中搜索得到的当前人机对抗态势下的最优战术不满足设计要求时，则继续从所述蒙特卡洛树的根节点开始，根据扩展策略扩展蒙特卡洛树，直至从蒙特卡洛树中搜索得到的最优战术满足设计要求，或者构建蒙特卡洛树的次数达到预设次数（例如，所述预设次数为100），则将最后一次从所述蒙特卡洛树中搜索到的最优战术作为最终的最优战术。

所述继续从所述蒙特卡洛树的根节点开始，根据扩展策略扩展蒙特卡洛树的具体方法可参照前述内容，在此不再赘述。

第二方面，本发明实施例所提供的一种人机对抗知识数据混合驱动型决策装置，能够充分利用知识驱动型决策方法与数据驱动型决策方法两者的优点，使得人机对抗决策过程做到可解释、可学习。

如图7所示，本发明实施例所提供的一种人机对抗知识数据混合驱动型决策装置，所述装置包括：

获取单元21，用于在每个决策时间节点，获取当前人机对抗态势；查找单元22，用于在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务，其中，所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系；

确定单元23，用于若在所述决策规则库中没有查找到当前人机对抗态势下各行动单元分别对应的行动任务，则基于蒙特卡洛树搜索确定当前人机对抗态势下各行动单元分别对应的行动任务；

第一发送单元24，用于将当前人机对抗态势下各行动单元分别对应的行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

可选的，所述匹配子单元具体用于：为每个行动单元随机匹配一个行动任务，生成第一战术。

基于同一构思，本申请实施例中还提供了一种电子设备，如图8所示，该电子设备主要包括：处理器201、通信接口202、存储器203和通信总线204，其中，处理器201、通信接口202和存储器203通过通信总线204完成相互间的通信。其中，存储器203中存储有可被至处理器201执行的程序，处理器201执行存储器203中存储的程序，实现如下步骤：在每个决策时间节点，获取当前人机对抗态势；在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务，其中，所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系；将查找到的各所述行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务；若所述决策规则库中不存在当前人机对抗态势下各行动单元对应的行动任务，则执行以下操作：按照匹配策略为每个行动单元分别匹配一个行动任务，生成第一战术；通过扩展策略对所述第一战术进行扩展，生成至少一个第二战术，其中，所述第二战术中至少一个行动单元的行动任务与所述第一战术中的该行动单元的行动任务不同；将所述第一战术作为蒙特卡洛树的根节点、第二战术作为所述蒙特卡洛树的第一级子节点，构建蒙特卡洛树；继续根据所述扩展策略对所述蒙特卡洛树进行扩展，直至所述蒙特卡洛树达到设计深度；从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术；将所述最优战术中各所述行动单元对应的行动任务分别发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

上述电子设备中提到的通信总线204可以是外设部件互连标准（PeripheralComponent Interconnect，简称PCI）总线或扩展工业标准结构（Extended IndustryStandard Architecture，简称EISA）总线等。该通信总线204可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口202用于上述电子设备与其他设备之间的通信。

存储器203可以包括随机存取存储器（Random Access Memory，简称RAM），也可以包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器201的存储装置。

上述的处理器201可以是通用处理器，包括中央处理器（Central ProcessingUnit，简称CPU）、网络处理器（Network Processor，简称NP）等，还可以是数字信号处理器（Digital Signal Processing，简称DSP）、专用集成电路（Application SpecificIntegrated Circuit，简称ASIC）、现场可编程门阵列（Field-Programmable Gate Array，简称FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机程序在计算机上运行时，使得计算机执行上述实施例中所描述的人机对抗知识数据混合驱动型决策方法，该方法的主要步骤包括：在每个决策时间节点，获取当前人机对抗态势；在决策规则库中查找当前人机对抗态势下各行动单元分别对应的行动任务，其中，所述决策规则库中保存有各种人机对抗态势下行动单元与行动任务之间的对应关系；将查找到的各所述行动任务发送给相应的行动单元，以使各所述行动单元执行所述行动任务；若所述决策规则库中不存在当前人机对抗态势下各行动单元对应的行动任务，则执行以下操作：按照匹配策略为每个行动单元分别匹配一个行动任务，生成第一战术；通过扩展策略对所述第一战术进行扩展，生成至少一个第二战术，其中，所述第二战术中至少一个行动单元的行动任务与所述第一战术中的该行动单元的行动任务不同；将所述第一战术作为蒙特卡洛树的根节点、第二战术作为所述蒙特卡洛树的第一级子节点，构建蒙特卡洛树；继续根据所述扩展策略对所述蒙特卡洛树进行扩展，直至所述蒙特卡洛树达到设计深度；从所述蒙特卡洛树中搜索当前人机对抗态势下的最优战术；将所述最优战术中各所述行动单元对应的行动任务分别发送给相应的行动单元，以使各所述行动单元执行所述行动任务。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、微波等）方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质（例如软盘、硬盘、磁带等）、光介质（例如DVD）或者半导体介质（例如固态硬盘）等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：赵美静;黄凯奇;尹奇跃;
专利申请人：中国科学院自动化研究所;

上一篇：基于改进型SSD网络的行人目标检测与重识别方法
下一篇：停车场的空位统计方法、系统、电子设备及存储介质