掌桥专利:专业的专利平台
掌桥专利
首页

群体对抗中智能体控制方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 12:18:04


群体对抗中智能体控制方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域,具体涉及一种群体对抗中智能体控制方法、装置、电子设备及存储介质。

背景技术

智能体是人工智能领域中一个很重要的概念。任何独立的能够思想并可以同环境交互的实体都可以抽象为智能体。现如今,由多个无人车/无人机等智能体组成的无人群体系统越发受到人们的关注,其应用从仓储物流、灾害救援到战场侦察和战场群体对抗的各种场景,因此,其在军事和民用各领域均具有重要的研究价值。

此类无人群体系统通常具有自组织性、自分布式以及无中心等特点,且其中每一个智能体均具有一定的智能性,这也使得无人群体系统能够通过其包括的各个智能体之间的相互协作来完成一个个体无法完成的复杂任务。尤其,在战场群体对抗场景,每一个智能体不仅要与相邻的其他智能体进行协同,还需要考虑对手智能体的状态和行为,而且对手智能体的个数和行为均存在较大的不确定性和复杂性。因此,在复杂的群体对抗环境下,无人群体分布式、协同高效对抗仍然面临着巨大的技术挑战。

近年来,深度强化学习逐渐成为热门课题,因而逐渐有研究人员应用深度强化学习来训练无人群体系统,以增强无人群体系统中各智能体的协同能力。但是,现有的大多数方法均是将对手智能体视为无人群体系统所处环境的一部分,直接使用或直接堆叠对手智能体的状态,导致迁移性和扩展性较差,且其并未考虑当前智能体对于对手智能体行为的影响。此外,还忽略了各个对手智能体的自主性特征,没有充分考虑不同对手智能体之间的水平差异对群体协同的影响。对于较大规模的群体对抗,上述现有方法的无人群体系统中各智能体存在着协同能力弱、适应性差、控制效果不佳等问题,亟待解决。

发明内容

本发明提供一种群体对抗中智能体控制方法、装置、电子设备及存储介质,用以克服现有技术中无人群体系统中各智能体存在着协同能力弱、适应性差、控制效果不佳等缺陷,能够实现对智能体的高效控制以进行群体对抗。

本发明提供一种群体对抗中智能体控制方法,所述方法包括:

获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;其中,所述第一对手为与所述第一智能体距离最近的对手;

基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;

基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;

基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;

基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;

基于所述交互特征对所述第一智能体进行控制。

根据本发明提供的群体对抗中智能体控制方法,所述方法还包括以下步骤:

根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励,并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作;

相应地,所述基于所述交互特征对所述第一智能体进行控制,包括:基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制。

根据本发明提供的群体对抗中智能体控制方法,所述根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作,包括:

基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法,预测获得所述第一智能体周围各个对手下一时刻的状态特征;

将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较,获得所述第一智能体周围各个对手状态特征的预测差异;

基于所述第一智能体周围各个对手状态特征的预测差异,获得第一智能体的内在奖励;

基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励,获得所述第一智能体的群体对抗总奖励;

基于所述第一智能体的群体对抗总奖励和深度增强学习算法,获得所述第一智能体累计回报最大动作。

根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:

基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;

对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;

将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征。

根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:

基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;

对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;

将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征。

根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征,包括:

基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能体周围各个对手的总行为特征进行特征编码,获得第一智能体周围各个对手的深层总行为特征。

根据本发明提供的群体对抗中智能体控制方法,所述基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:

将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;

基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。

本发明还提供一种群体对抗中智能体控制装置,所述装置包括:

状态获取模块一,用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;

状态获取模块二,用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;

特征获取模块一,用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;

特征获取模块二,用于基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;

特征获取模块三,用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;

控制模块,用于基于所述交互特征对所述第一智能体进行控制。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现根据如上任一项所述群体对抗中智能体控制方法的全部或部分步骤。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现根据如上任一项所述群体对抗中智能体控制方法的全部或部分步骤。

本发明提供一种机器人导航方法、装置、电子设备及存储介质,所述方法通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。

图1是本发明提供的群体对抗中智能体控制方法的流程示意图之一;

图2是本发明提供的群体对抗中智能体控制方法的流程示意图之二;

图3是本发明提供的群体对抗中智能体控制方法中智能体与对手进行群体对抗的场景示意图;

图4是本发明提供的群体对抗中智能体控制装置的结构示意图;

图5是本发明提供的电子设备的结构示意图。

附图标记:

310:对手;320:智能体;330:基地;510:状态获取模块一;520:状态获取模块二;530:特征获取模块一;540:特征获取模块二;550:特征获取模块三;560:控制模块;610:处理器;620:通信接口;630:存储器 640:通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明的技术方案进行清除完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

以下结合附图1-5描述本发明提供的一种群体对抗中智能体控制方法、装置、电子设备及存储介质。

本发明提供一种群体对抗中智能体控制方法,图1是本发明提供的群体对抗中智能体控制方法的流程示意图之一,如图1所示,所述方法包括:

100、获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;其中,所述第一对手为与所述第一智能体距离最近的对手;

200、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;

300、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;

400、基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;

500、基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;

600、基于所述交互特征对所述第一智能体进行控制。

针对步骤100,实时获取智能体群体中第一智能体周围的观测状态,并通过全连接层神经网络对所述观测状态中各项子因素分别进行特征编码,以分别获得第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征、第一对手周围各个智能体的状态特征。

其中,

第一智能体的状态、第一智能体周围各个对手的状态、第一对手的状态、第一对手 周围各个智能体的状态,以及各个智能体与各个对手之间的互相影响的关系状态,均属于 第一智能体周围的观测状态

针对步骤200,根据所述第一智能体的状态特征

针对步骤300,根据所述第一对手的状态特征

针对步骤400,根据所述第一智能体周围各个对手的总行为特征

针对步骤500,所述第一智能体周围环境状态特征

针对步骤600,基于所述交互特征

本发明提供的群体对抗中智能体控制方法,通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。

根据本发明提供的群体对抗中智能体控制方法,在图1所示实施例的基础上,所述方法还包括以下步骤700,且步骤700发生在步骤300至步骤600之间任意位置,如图2所示,步骤700发生在步骤300和步骤400之间,具体地:

700、根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励,并根据所述第一智能体的群体对抗总奖励获得第一智能体累计回报最大动作;

相应地,所述方法的步骤600、基于所述交互特征对所述第一智能体进行控制,则包括:基于所述交互特征和所述第一智能体累计回报最大动作对所述第一智能体进行控制。

由此,可以有效提升对于各个智能体的控制效果,高效实现群体对抗。

根据本发明提供的群体对抗中智能体控制方法,在上述实施例的基础上,步骤700、根据基于所述第一智能体周围各个对手的总行为特征获得的第一智能体周围各个对手状态特征的预测差异,获得第一智能体的群体对抗总奖励和第一智能体累计回报最大动作,包括:

710、基于所述第一智能体周围各个对手的总行为特征和预设的状态预测法,预测获得所述第一智能体周围各个对手下一时刻的状态特征;

720、将所述第一智能体周围各个对手下一时刻的状态特征和第一智能体周围各个对手实时的状态特征进行比较,获得所述第一智能体周围各个对手状态特征的预测差异;

730、基于所述第一智能体周围各个对手状态特征的预测差异,获得第一智能体的内在奖励;

740、基于所述第一智能体的内在奖励和预设的第一智能体的外部奖励,获得所述第一智能体的群体对抗总奖励;

750、基于所述第一智能体的群体对抗总奖励和深度增强学习算法,获得所述第一智能体累计回报最大动作。

针对步骤710,基于所述第一智能体周围各个对手的总行为特征

其中,

针对步骤720,将所述第一智能体周围各个对手下一时刻的状态特征

针对步骤730,基于所述第一智能体周围各个对手状态特征的预测差异,获得第一 智能体的内在奖励

其中,

针对步骤740,基于所述第一智能体的内在奖励

其中,

针对步骤750,根据所述第一智能体的群体对抗总奖励

根据本发明提供的群体对抗中智能体控制方法,步骤200、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征,包括:

201、基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数;

202、对所述第一智能体对其周围各个对手的注意力关注系数进行多头注意力特征提取,获得第一智能体对应的多头注意力特征;

203、将所述第一智能体对应的多头注意力特征和所述第一智能体的状态特征进行组合,获得第一智能体周围环境状态特征。

针对步骤201,基于所述第一智能体的状态特征和所述第一智能体周围各个对手 的状态特征,计算获得第一智能体对其周围各个对手的注意力关注系数

其中,

针对步骤202,根据上一步骤计算获得的所述第一智能体对其周围各个对手的注 意力关注系数

针对步骤203,再将所述第一智能体对应的多头注意力特征

本方法所获得的第一智能体周围环境状态特征

根据本发明提供的群体对抗中智能体控制方法,步骤300、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征,包括:

301、基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,计算获得第一对手对其周围各个智能体的注意力关注系数;

302、对所述第一对手对其周围各个智能体的注意力关注系数进行多头注意力特征提取,获得第一智能体周围各个对手的行为特征;

303、将所述第一智能体周围各个对手的行为特征进行堆叠,获得所述第一智能体周围各个对手的总行为特征。

针对步骤301,基于所述第一对手的状态特征

其中,

针对步骤302,对所述第一对手对其周围各个智能体的注意力关注系数

其中,

针对步骤303,将所述第一智能体周围各个对手的行为特征

对于第一智能体周围的各个对手,不仅单独考虑各个对手各自的状态特征等,还综合考虑所有对手的总的行为特征,能够增强数据分析的全面性,为后续对于智能体的控制提供更为可靠的参考依据。

根据本发明提供的群体对抗中智能体控制方法,步骤400、基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征,包括:

401、基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能体周围各个对手的总行为特征进行特征编码,获得第一智能体周围各个对手的深层总行为特征。

针对步骤401,基于预设的全连接层神经网络和长短时记忆网络,对所述第一智能 体周围各个对手的总行为特征

本方法深入挖掘智能体与对手之间的深层关系特征,以便于最终快速实现智能体群体中各智能体对于对手的最佳对抗。

根据本发明提供的群体对抗中智能体控制方法,步骤500、基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征,包括:

501、将所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征进行融合,获得第一智能体综合特征;

502、基于选择性传递注意力机制从所述第一智能体综合特征中提取交互特征。

针对步骤501,将所述第一智能体周围环境状态特征

针对步骤502,采用选择性传递注意力机制从所述第一智能体综合特征

其中,

图3是本发明提供的群体对抗中智能体控制方法中智能体与对手进行群体对抗的场景示意图,结合图3所示,通常群体对抗场景中,中心位置的大圆形330表示基地,表示被保护的核心位置。而场景中群体内,其中一方为智能体,如图3中各个虚线圆形物320所示,其均作为防御者;另一方为对手,如图3中各个实线圆形物310所示,其均作为攻击者。各个对手的任务是攻击基地,并避免被智能体吞噬,其采用的对抗策略是速度避障法。而各个智能体的任务是保护基地,并基于本发明提出的本发明提供的群体对抗中智能体控制方法的控制去消灭各个对手。对抗回合终止的触发条件,是基地遭到对手的攻击,或者所有对手均被消灭,且当所有对手均被消灭时,各个智能体获得正的奖励,也即获得奖励函数。需要说明的是,可以将初始时刻各个对手与基地的距离设定在一定范围内,比如设置在[1.5, 2]取值范围区间,同时设置各个智能体与基地的距离范围也在一定范围内,且此范围小于对手所在的距离范围,比如设置在[0.4, 0.5]取值范围区间,且默认基地的半径大小为0.25,且各数据取值单位保持一致。

本发明提出的群体对抗中智能体控制方法,其具体的逻辑控制原理分析如下:对智能体关系图进行推理,计算获得第一智能体周围环境状态特征,通过对对手关系进行建模分析,计算获得所述第一智能体周围各个对手的总行为特征,并计算获得第一智能体周围各个对手的深层总行为特征,还根据由第一智能体周围各个对手的深层总行为特征和第一智能体周围环境状态特征相融合获得的融合特征再进一步从智能体和对手之间交互信息中获得交互特征,最后根据交互特征分别建立控制策略网络和控制价值网络,以据其对群体中各个智能体进行有效控制。其充分利用了个各智能体和各个对手的各种状态特征和行为特征等,还采用多头注意力机制进行信息融合,有效提升了对抗成功率和缩短了对抗回合的时间。并且,其在对对手关系进行建模分析后,同时还可以基于第一智能体周围各个对手的总行为特征进行第一智能体周围各个对手下一时刻的状态特征的状态预测,并根据由预测结果中的预测差异获得的第一智能体的内在奖励和预设的预设的第一智能体的外部奖励获得所述第一智能体的群体对抗总奖励,并据此获得一智能体的群体对抗总奖励以及第一智能体以及其他各个智能体的累计回报最大动作,最后将各个智能体的累计回报最大动作,一并作为对各个智能体进行控制的依据,实现有效的群体对抗。即其利用预设的状态预测网络有效引导各个智能体进行状态预测和控制训练,以在群体对抗中快速实现各智能体对于各个对手的对抗,提升对抗的成功率。

下面对本发明提供的一种群体对抗中智能体控制装置进行介绍,所述装置可以理解为执行上述群体对抗中智能体控制方法的装置,二者应用原理相同,可相互参照,此处不再赘述。

本发明还提供一种群体对抗中智能体控制装置,图4是本发明提供的群体对抗中智能体控制装置的结构示意图,如图4所示,所述装置包括:状态获取模块一510、状态获取模块二520、特征获取模块一530、特征获取模块二540、特征获取模块三550和控制模块560,其中,

所述状态获取模块一510,用于获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;

所述状态获取模块二520,用于基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;

所述特征获取模块一530,用于基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;

所述特征获取模块二540,用于基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;

所述特征获取模块三550,用于基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;

所述控制模块560,用于基于所述交互特征对所述第一智能体进行控制。

本发明提供的群体对抗中智能体控制装置,包括相互连接的状态获取模块一510、状态获取模块二520、特征获取模块一530、特征获取模块二540、特征获取模块三550和控制模块560,各模块相互配合工作,使得本装置通过获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征,以及进行智能体之间关系图推理,智能体与对手之间关系图的推理,既考虑了当前的第一智能体对于其周围各个对手行为的影响因素,还考虑了各个不同的对手的各自的自主性状态特征,以及更结合了第一智能体本身的状态特征,能够在群体对抗中快速、高效地实现各智能体的控制,且控制效果良好,并且基于此控制方法能够有效提升各个智能体对于各个对手的对抗,即提升群体对抗的成功率。

本发明还提供一种电子设备,图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)610、通信接口(CommunicationsInterface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:

获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;

基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;

基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;

基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;

基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;

基于所述交互特征对所述第一智能体进行控制。

此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述群体对抗中智能体控制方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:

获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;

基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;

基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;

基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;

基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;

基于所述交互特征对所述第一智能体进行控制。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上各实施例所述群体对抗中智能体控制方法的全部或部分步骤,该方法包括:

获取第一智能体的状态特征、第一智能体周围各个对手的状态特征、第一对手的状态特征和第一对手周围各个智能体的状态特征;

基于所述第一智能体的状态特征和所述第一智能体周围各个对手的状态特征,获得第一智能体周围环境状态特征;

基于所述第一对手的状态特征和所述第一对手周围各个智能体的状态特征,获得所述第一智能体周围各个对手的总行为特征;

基于所述第一智能体周围各个对手的总行为特征,获得第一智能体周围各个对手的深层总行为特征;

基于所述第一智能体周围环境状态特征和所述第一智能体周围各个对手的深层总行为特征,获得交互特征;

基于所述交互特征对所述第一智能体进行控制。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的群体对抗中智能体控制方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 群体对抗中智能体控制方法、装置、电子设备及存储介质
  • 群体对抗中智能体控制方法、装置、电子设备及存储介质
技术分类

06120113239707