对战策略模型训练方法、装置、介质和计算机程序产品

文献发布时间：2023-06-19 19:00:17

本申请要求于2021年09月13日提交中国专利局，申请号为2021110771354，申请名称为“对战策略模型训练方法、装置、介质和计算机程序产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，特别是涉及一种多人对战游戏的对战策略模型训练方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，计算机游戏等人机交互应用，如多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)类游戏成为越来越多人的娱乐方式，在MOBA类游戏中，游戏玩家一般可分为多个敌对阵营，通过操控虚拟对象对抗竞争完成游戏目标赢得游戏胜利。在人机对战或游戏托管时，需要由计算机，如游戏AI(ArtificialIntelligence，人工智能)自动控制电脑玩家或对应托管的虚拟对象进行游戏对抗，游戏AI需要学习在游戏对抗中的策略打法。

对于多人在线战术竞技游戏，通常是采用强化学习的方法来训练游戏AI，在强化学习过程中通过奖励数据(reward)来引导游戏AI的学习，但目前奖励数大多采用的是人类定义的稠密reward设计，对于每个游戏AI都是相同的reward设计，对应到每个阵容也相同，导致不同阵容的价值观相同，任何阵容组合都呈现同一的策略打法，导致多个虚拟对象构成的阵容组合在游戏中的对抗能力低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高多个虚拟对象构成的阵容组合在游戏中的对抗能力的多人对战游戏的对战策略模型训练方法、装置、计算机设备、存储介质和计算机程序产品。

一种多人对战游戏的对战策略模型训练方法，所述方法包括：

针对每一虚拟对象阵容，从所述虚拟对象阵容对应的对战数据中获取各历史状态，确定所述虚拟对象阵容在每一所述历史状态各自对应的游戏目标，并获取所述虚拟对象阵容的对战策略类型；

以所述历史状态和所述对战策略类型为输入数据，以所述游戏目标为所述输入数据的标签，训练得到游戏目标预测模型；

针对基于初始对战策略模型得到的每一虚拟对象阵容的每一对战动作，将相应对战动作所对应的响应状态以及相应虚拟对象阵容对应的对战策略类型输入所述游戏目标预测模型，得到每一所述虚拟对象阵容对应的每一响应状态各自对应的预测游戏目标；

基于每一所述预测游戏目标各自对应的奖励数据，对所述初始对战策略模型进行训练，得到对战策略模型。

一种多人对战游戏的对战策略模型训练装置，所述装置包括：

数据获取模块，用于针对每一虚拟对象阵容，从所述虚拟对象阵容对应的对战数据中获取各历史状态，确定所述虚拟对象阵容在每一所述历史状态各自对应的游戏目标，并获取所述虚拟对象阵容的对战策略类型；

游戏目标预测模型训练模块，用于以所述历史状态和所述对战策略类型为输入数据，以所述游戏目标为所述输入数据的标签，训练得到游戏目标预测模型；

游戏目标预测模块，用于针对基于初始对战策略模型得到的每一虚拟对象阵容的每一对战动作，将相应对战动作所对应的响应状态以及相应虚拟对象阵容对应的对战策略类型输入所述游戏目标预测模型，得到每一所述虚拟对象阵容对应的每一响应状态各自对应的预测游戏目标；

对战策略模型训练模块，用于基于每一所述预测游戏目标各自对应的奖励数据，对所述初始对战策略模型进行训练，得到对战策略模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

以所述历史状态和所述对战策略类型为输入数据，以所述游戏目标为所述输入数据的标签，训练得到游戏目标预测模型；

基于每一所述预测游戏目标各自对应的奖励数据，对所述初始对战策略模型进行训练，得到对战策略模型。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

以所述历史状态和所述对战策略类型为输入数据，以所述游戏目标为所述输入数据的标签，训练得到游戏目标预测模型；

基于每一所述预测游戏目标各自对应的奖励数据，对所述初始对战策略模型进行训练，得到对战策略模型。

一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：

以所述历史状态和所述对战策略类型为输入数据，以所述游戏目标为所述输入数据的标签，训练得到游戏目标预测模型；

基于每一所述预测游戏目标各自对应的奖励数据，对所述初始对战策略模型进行训练，得到对战策略模型。

上述多人对战游戏的对战策略模型训练方法、装置、计算机设备、存储介质和计算机程序产品，通过针对每一虚拟对象阵容，从虚拟对象阵容对应的对战数据中获取各历史状态，确定虚拟对象阵容在每一历史状态各自对应的游戏目标，并获取虚拟对象阵容的对战策略类型，以历史状态和对战策略类型为输入数据，以游戏目标为输入数据的标签，训练得到游戏目标预测模型，以使得游戏目标预测模型能够指导初始对战策略模型的学习，针对基于初始对战策略模型得到的每一虚拟对象阵容的每一对战动作，将相应对战动作所对应的响应状态以及相应虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到每一虚拟对象阵容对应的每一响应状态各自对应的预测游戏目标，基于每一预测游戏目标各自对应的奖励数据，对初始对战策略模型进行训练，得到对战策略模型，能够使得对战策略模型针对不同虚拟对象阵容学习到不同的策略打法，实现策略多样性，从而提高多个虚拟对象构成的阵容组合在游戏中的对抗能力。

附图说明

图1为一个实施例中多人对战游戏的对战策略模型训练方法的应用环境图；

图2为一个实施例中多人对战游戏的对战策略模型训练方法的流程示意图；

图3为另一个实施例中多人对战游戏的对战策略模型训练方法的流程示意图；

图4为又一个实施例中多人对战游戏的对战策略模型训练方法的流程示意图；

图5为还一个实施例中多人对战游戏的对战策略模型训练方法的流程示意图；

图6为一个实施例中游戏目标预测模型和对战策略模型的数据处理流程图；

图7为一个实施例中游戏目标预测模型的训练过程示意图；

图8为一个实施例中对战策略模型的数据处理流程示意图；

图9为一个实施例中训练完成的游戏目标预测模型和对战策略模型的应用过程示意图；

图10为一个实施例中多人对战游戏的对战策略模型训练装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习是一门多领域交叉学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习(RL，ReinforcementLearning)、迁移学习、归纳学习、式教学习等技术。

强化学习，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(Agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是智能体以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(ReinforcementLearning System)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。

虚拟场景是应用程序在终端上运行时显示(或提供)的虚拟场景。该虚拟场景能够是对真实世界的仿真环境，也能够是半仿真半虚构的虚拟环境，还能够是纯虚构的虚拟环境。虚拟场景能够是二维虚拟场景、2.5维虚拟场景或者三维虚拟场景中的任意一种，本申请实施例对虚拟场景的维度不加以限定。例如，虚拟场景包括天空、陆地、海洋等，该陆地包括沙漠、城市等环境元素，终端用户能够控制虚拟对象在该虚拟场景中进行移动。可选地，该虚拟场景还能够用于至少两个虚拟对象之间的虚拟场景对战，在该虚拟场景中具有可供至少两个虚拟对象使用的虚拟资源。

虚拟对象是指在虚拟场景中的可活动对象。该可活动对象是虚拟人物、虚拟动物、动漫人物等，比如：在虚拟场景中显示的人物、动物、植物、油桶、墙壁、石块等。该虚拟对象能够是该虚拟场景中的一个虚拟的用于代表用户的虚拟形象。虚拟场景中能够包括多个虚拟对象，每个虚拟对象在虚拟场景中具有自身的形状和体积，占据虚拟场景中的一部分空间。可选地，当虚拟场景为三维虚拟场景时，虚拟对象能够是一个三维立体模型，该三维立体模型能够是基于三维人体骨骼技术构建的三维角色，同一个虚拟对象能够通过穿戴不同的皮肤来展示出不同的外在形象。在一些实施例中，虚拟对象也能够采用2.5维或2维模型来实现，本申请实施例对此不加以限定。

本申请提供的多人对战游戏的对战策略模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102和服务器104能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。其中，终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能游戏终端等，但并不局限于此。终端102安装和运行有支持虚拟场景的应用程序。该应用程序可以是人在线战术竞技游戏、即时战略游戏、虚拟现实应用程序、三维地图程序、射击游戏或者多人枪战类生存游戏中的任意一种。在一个具体的应用中，终端102是用户使用的终端，用户使用终端102操作位于虚拟场景中的被控虚拟对象进行活动，该活动包括但不限于：调整身体姿态、爬行、步行、奔跑、骑行、跳跃、驾驶、拾取、射击、攻击、投掷、释放技能中的至少一种。示意性的，该虚拟对象是虚拟人物，比如仿真人物角色或动漫人物角色等。

服务器104是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器104用于为支持虚拟场景的应用程序提供后台服务。

在一个具体的应用中，终端102控制的虚拟对象(以下称为被控虚拟对象)和服务器104控制的虚拟对象(以下称为AI对象)处于同一虚拟场景中，此时被控虚拟对象能够在虚拟场景中与AI对象进行互动。在一些实施例中，被控虚拟对象以及AI对象能够为敌对关系，例如，被控虚拟对象与AI对象能够属于不同的队伍和组织，敌对关系的虚拟对象之间，能够通过互相释放技能的方式进行对抗式交互。

在一个实施例中，如图2所示，提供了一种多人对战游戏的对战策略模型训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，针对每一虚拟对象阵容，从虚拟对象阵容对应的对战数据中获取各历史状态，确定虚拟对象阵容在每一历史状态各自对应的游戏目标，并获取虚拟对象阵容的对战策略类型。

其中，虚拟对象阵容是对抗式交互的虚拟场景中同一阵营中多个虚拟对象所构成的作战队伍的组合配置。虚拟对象阵容包括虚拟对象的组合以及每一个虚拟对象的配置数据，其中，配置数据与游戏对抗方式相关，例如，配置数据可以是游戏中的任务信息、身份信息、位置信息等。例如，在MOBA游戏中，可以基于游戏英雄发育的位置来确定虚拟对象的配置数据，同一个游戏英雄在不同的组合中可以对应不同的游戏英雄发育位置，不同游戏英雄在不同的组合中可以对应同样的游戏英雄发育位置，例如，游戏英雄A在组合1中为“上单”、但在组合2中为“辅助”等。基于虚拟对象的组合以及每一个虚拟对象的配置数据能够更为准确地描述虚拟对象阵容。

虚拟场景可以为MOBA游戏中的虚拟场景，该虚拟场景中包括多种虚拟资源，如可被控制的虚拟对象以及设置在虚拟场景互动中的非用户角色，如野怪、防御塔以及小兵等等，虚拟对象是通过客户端上的操作进行控制的用户角色，或者是通过训练设置在虚拟场景对战中的人工智能。可选地，该虚拟对象是在虚拟场景中进行对抗式交互的虚拟人物。该虚拟场景中参与互动的虚拟对象的数量能够是预先设置的，也能够是根据加入互动的客户端的数量动态确定的。

MOBA游戏是一种在虚拟场景中提供若干个据点，处于不同阵营的用户控制虚拟对象在虚拟场景中对战，占领据点或摧毁敌对阵营据点的游戏。例如，MOBA游戏可将用户分成至少两个敌对阵营，分属至少两个敌对阵营的不同虚拟队伍分别占据各自的地图区域，以某一种胜利条件作为目标进行竞技。该胜利条件包括但不限于：占领据点或摧毁敌对阵营据点、击杀敌对阵营的虚拟对象、在指定场景和时间内保证自身的存活、抢夺到某种资源、在指定时间内互动比分超过对方中的至少一种。例如，MOBA游戏可将用户分成两个敌对阵营，将用户控制的虚拟对象分散在虚拟场景中互相竞争，以摧毁或占领敌方的全部据点作为胜利条件。

历史状态是对战过程中任意一个时刻对应的虚拟环境中所包含的各种虚拟资源当前处所的状态，包括虚拟环境中的可被控制的虚拟对象以及设置在虚拟场景互动中的非用户角色各自对应的状态。如虚拟场景中的每一个虚拟对象在指定时刻的状态，包括虚拟对象所处的位置、对战击杀数、死亡数、经济数和对战时间等，再如虚拟场景中的野怪、防御塔、小兵在指定时刻对应的状态等。

游戏目标是指在游戏对战过程中达到的目标或完成的任务。其中，游戏目标可以历史状态中达到目标或完成任务的时刻对应的状态相对应，也可以直接将达到目标或完成任务的时刻对应的历史状态作为游戏目标。在每一局游戏对战中，均包含至少一个游戏目标，游戏目标可以是达到最终胜利的条件，例如占领据点或摧毁敌对阵营据点、击杀敌对阵营的虚拟对象、在指定场景和时间内保证自身的存活、抢夺到某种资源、在指定时间内互动比分超过对方等。游戏目标也可以是对战过程中的局部胜利的条件和达到最终胜利的条件的集合，例如击杀野怪、清理兵线、摧毁防御塔等。游戏目标可以是基于游戏类型构建的一个目标集合，在每一局对战过程中，对抗的虚拟对象阵容都会完成目标集合中的至少一部分游戏目标。一般来说，不同是时间段对应的游戏目标是不同的，例如在第一时间段的游戏目标是击杀野怪，在第二时间段的游戏目标是摧毁防御塔等，游戏目标在一段时间内基本是不变化的，确保游戏目标属于稀疏数据。为完成某一游戏目标而呈现的历史状态均与该游戏目标相对应。

对战策略类型用于表征整个游戏对战过程中的所采用的策略打法所对应的类型。对战策略类型通过将具有相同策略打法的归为一类来进行区分，具体的，对战策略类型可以通过专家经验来进行划分，也可以通过人工智能算法例如聚类分析等方式进行划分。通过确定不同虚拟对象阵容所对应的对战策略类型，能够在游戏目标预测模型的训练过程中，充分考虑对战策略类型这一维度的特征数据，以使得训练得到的游戏目标预测模型与对战策略类型强相关。

具体地，服务器针对每一虚拟对象阵容均需要获取相应的历史状态、历史状态对应的游戏目标以及对战策略类型。针对每一虚拟对象阵容，其处理过程相同，均需要从虚拟对象阵容对应的对战数据中获取各历史状态，确定虚拟对象阵容在每一历史状态各自对应的游戏目标，获取虚拟对象阵容的对战策略类型。

步骤204，以历史状态和对战策略类型为输入数据，以游戏目标为输入数据的标签，训练得到游戏目标预测模型。

其中，历史状态是对战过程中任意一个时刻对应的虚拟环境中所包含的各种虚拟资源当前处所的状态，每一历史状态都可以通过状态特征来进行表示，状态特征具体可以是特征向量、特征矩阵等，在此不做限定。对战策略类型用于表征整个游戏对战过程中的所采用的策略打法所对应的类型，每一历史状态都可以通过策略类型特征来进行表示，策略类型特征的数据形式与状态特征相同，可以是特征向量、特征矩阵等。

具体地，服务器会将每一个历史特征和每一个对战策略类型为一组输入数据，将组输入数据中的历史特征数据所对应的游戏目标作为该组输入数据的标签，然后将每一组携带有标签的输入数据输入到初始模型中进行监督学习，得到游戏目标预测模型。在满足训练结束条件时，如训练次数达到次数阈值或模型的输出精度达到精度阈值时结束训练，得到训练完成的游戏目标预测模型。游戏目标预测模型基于已存在的历史状态、对战策略类型和游戏目标训练得到，可以根据输入的状态和对战策略类型进行游戏目标预测，输出在输入的状态和对战策略类型的条件下需要实现的游戏目标。

步骤206，针对基于初始对战策略模型得到的每一虚拟对象阵容的每一对战动作，将相应对战动作所对应的响应状态以及相应虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到每一虚拟对象阵容对应的每一响应状态各自对应的预测游戏目标。

其中，初始对战策略模型是基于输入的状态数据，输出需要控制虚拟对象阵容中每一个虚拟对象所执行的相应的对战动作。对战动作是操作虚拟对象进行游戏对抗的具体方式，对战动作具体如控制虚拟对象移动、释放技能等。

响应状态是游戏环境基于虚拟对象阵容中每一个虚拟对象的对战动作对环境做出相应变化后，由变化的环境和虚拟对象构成的整体所对应的状态。响应状态与具体的对战动作以及前一状态均相关。在前一状态不同的情况下，即使虚拟对象阵容中虚拟对象的对战动作不变，其响应状态也会不同，在前一状态相同的情况下，虚拟对象阵容中虚拟对象的对战动作变化，则响应状态也会变化。

虚拟对象阵容与对战策略类型的对应关系是固定的，虚拟对象阵容对应的对战策略类型可以直接基于虚拟对象阵容从游戏目标预测模型的训练数据中查找得到。

具体地，服务器中的初始对战策略模型可以针对虚拟对象阵容的输入状态和实际奖励数据，输出相应的对战动作。针对每一个输出的对战动作，游戏系统会基于预先由人工设计的奖励信号，基于对战动作与奖励信号的匹配关系，给出该输出对战动作对应的实际奖励数据，并基于对战动作，确定变化后的环境，基于变化后的环境和虚拟对象阵容中执行对战动作后的每一虚拟对象，得到响应状态。其中，初始对战策略模型的输入的实际奖励数据是由游戏系统基于上一对战动作给出的结果。

进一步地，针对每一虚拟对象阵容的每一对战动作的处理过程与上述过程相同，不再赘述。服务器针对基于初始对战策略模型得到的每一虚拟对象阵容的每一对战动作，将相应对战动作所对应的响应状态以及相应虚拟对象阵容对应的对战策略类型所构成的数据组合作为输入数据，输入游戏目标预测模型进行游戏目标预测，游戏目标预测模型分别输出每一虚拟对象阵容对应的每一响应状态各自对应的预测游戏目标。

步骤208，基于每一预测游戏目标各自对应的奖励数据，对初始对战策略模型进行训练，得到对战策略模型。

其中，奖励数据是引导初始对战策略模型进行策略学习的数据。与人工设计的奖励信号对应的实际奖励数据不同的是，人工设计的奖励信号与对战动作对应的对战结果直接关联，实际奖励数据与对战动作所对应的对战结果一一对应，当对战结果相同时，其对应的实际奖励数据也必然相同。与预测游戏目标各自对应的奖励数据可以是内在奖励数据，内在奖励数据与预测游戏目标相对应，与对战动作所对应的对战结果之间的关系并非一一对应的，在不同时刻下，基于相同对战结果所得到的内在奖励数据可能是不同的，基于不同对战结果所得到的内在奖励数据也可能是相同的。

具体地，服务器将每一预测游戏目标各自对应的奖励数据作为新增数据，与对应的状态数据以及实际奖励数据进行组合，输入初始对战策略模型进行强化学习，得到对战策略模型。强化学习和监督学习最大的区别是它是没有监督学习已经准备好的标签的，强化学习只有奖励数据，但是这个奖励数据和监督学习的标签不一样，它不是事先给出的，而是延后给出的，并且强化学习的每一步与时间顺序前后关系紧密。比如对战策略模型会基于迁移状态确定虚拟对象阵容的下一对战动作，游戏系统会给出与该对战动作对应的实际奖励数据，基于游戏目标预测模型预测得到的预测游戏目标也会得到响应的奖励数据。

在本实施例中，服务器通过针对每一虚拟对象阵容，从虚拟对象阵容对应的对战数据中获取各历史状态，确定虚拟对象阵容在每一历史状态各自对应的游戏目标，并获取虚拟对象阵容的对战策略类型，以历史状态和对战策略类型为输入数据，以游戏目标为输入数据的标签，训练得到游戏目标预测模型，以使得游戏目标预测模型能够指导初始对战策略模型的学习，针对基于初始对战策略模型得到的每一虚拟对象阵容的每一对战动作，将相应对战动作所对应的响应状态以及相应虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到每一虚拟对象阵容对应的每一响应状态各自对应的预测游戏目标，基于每一预测游戏目标各自对应的奖励数据，对初始对战策略模型进行训练，得到对战策略模型，能够使得对战策略模型针对不同虚拟对象阵容学习到不同的策略打法，实现策略多样性，从而提高多个虚拟对象构成的阵容组合在游戏中的对抗能力。

在一个实施例中，以历史状态和对战策略类型为输入数据，以游戏目标为输入数据的标签，训练得到游戏目标预测模型，包括：针对每一虚拟对象阵容，将虚拟对象阵容的每一历史状态各自对应的状态特征分别与对战策略类型对应的策略类型特征进行特征拼接，得到输入特征数据；将每一输入特征数据所对应的游戏目标作为相应输入特征数据的标签；将每一虚拟对象阵容各自对应的输入特征数据和标签输入初始预测模型进行训练，得到游戏目标预测模型。

其中，状态特征是历史状态的数据特征化表现形式，策略类型特征是对战策略类型的数据特征化表现形式，状态特征和策略类型特征的特征数据类型相同，特征数据类型具体可以是特征向量、特征矩阵等。特征拼接是指将两个或两个以上的具有相同特征数据类型的特征，按照一定的规则进行特征连接，得到一个完整的特征的过程，如将历史状态对应的预设维度的状态特征向量分别与对战策略类型对应的预设维度的策略类型特征向量，按照对应维度进行特征拼接，得到输入特征向量。初始预测模型是游戏目标预测模型训练之前的状态。

具体地，服务器针对每一虚拟对象阵容，将虚拟对象阵容的每一历史状态各自对应的状态特征分别与对战策略类型对应的策略类型特征进行特征拼接，得到多个输入特征数据，针对每一个输入特征数据，将相应输入特征数据对应的历史状态所对应的游戏目标作为该输入特征数据的标签，将每一虚拟对象阵容各自对应的携带有标签的输入特征数据输入初始预测模型进行训练，在满足训练结束条件时，如训练次数达到次数阈值或模型的输出精度达到精度阈值时结束训练，得到训练完成的游戏目标预测模型。

在本实施例中，服务器通过将每一历史状态各自对应的状态特征分别与对战策略类型对应的策略类型特征进行特征拼接，能够使得每一个输入数据同时具有对应状态以及对应对战策略类型这两方面的特征，增强状态与对战策略类型之间的关联性，从而使得训练得到的游戏目标预测模型能够与对战策略类型强相关，提高针对不用虚拟对象阵容的游戏目标的预测结果的准确性。

在一个实施例中，如图3所示，针对每一虚拟对象阵容，从虚拟对象阵容对应的对战数据中获取各历史状态，确定虚拟对象阵容在每一历史状态各自对应的游戏目标，并获取虚拟对象阵容的对战策略类型，包括：

步骤302，针对每一虚拟对象阵容，从虚拟对象阵容所属的阵容池中，获取虚拟对象阵容对应的对战数据。

步骤304，从对战数据中，提取虚拟对象阵容在对战过程中的历史状态和在对战过程中完成的游戏目标。

步骤306，基于每一游戏目标与每一历史状态之间的匹配关系，确定虚拟对象阵容在每一历史状态各自对应的游戏目标。

步骤308，基于阵容池与对战策略类型的对应关系，确定虚拟对象阵容的对战策略类型。

其中，阵容池是用于存在虚拟对象阵容对应的对战数据的容器。同一个阵容池中包括一个或多个虚拟对象阵容所对应的对战数据，且同一个阵容池中的虚拟对象阵容对应的对战策略类型以及游戏目标是相同的。具体来说，当确定了一个虚拟对象阵容所对应的阵容池，即可确定该虚拟对象阵容对应的对战策略类型以及对战过程中所涉及的游戏目标。其中，由于同一阵容池中的不同对战数据中所对应的游戏目标基本相同，因此对战过程中所涉及的游戏目标可以预先获取得到，也可以直接从对战数据中获取。

具体地，服务器针对每一虚拟对象阵容的处理过程相同，以其中一个虚拟对象阵容为例。服务器从该虚拟对象阵容所属的阵容池中，获取该虚拟对象阵容对应的对战数据，从对战数据中提取虚拟对象阵容在对战过程中的历史状态，并获取虚拟对象阵容对战过程中完成的游戏目标，服务器基于每一游戏目标与每一历史状态之间的匹配关系，确定虚拟对象阵容在每一历史状态各自对应的游戏目标，并基于阵容池与对战策略类型的对应关系，确定虚拟对象阵容的对战策略类型。

在本实施例中，基于阵容池将具有相同对战策略类型以及游戏目标的虚拟对象阵容归为一类，一方面，能够基于对战策略类型进行归类，便查询虚拟对象阵容对应的对战策略类型，另一方面，能够快速将确定每一虚拟对象阵容的对战数据所对应的对战策略类型以及游戏目标，提高数据处理效率。

在一个实施例中，基于每一游戏目标与每一历史状态之间的匹配关系，确定虚拟对象阵容在每一历史状态各自对应的游戏目标，包括：

获取每一游戏目标在对战过程中各自对应的游戏时间段；基于每一历史状态在对战过程中对应的时间点所属的游戏时间段，确定虚拟对象阵容在每一历史状态各自对应的游戏目标。

其中，对战过程是按时间顺序连续的多个状态组合而成的，每一个历史状态均对应一个具体的时间点。在游戏过程中，游戏目标既不是时时刻刻变化的，也不是一直不变的，而是在某个时间段完成其中一个或多个游戏目标，例如在第一时间段的游戏目标是击杀野怪，在第二时间段的游戏目标是摧毁防御塔等，游戏目标在一段时间内基本是不变化的，确保游戏目标属于稀疏数据。需要说的是，第一时间段和第二时间段可以是时间连续的两个时间区间，也可以是存在部分重叠的两个时间区间，但对战过程中的每一个时间点均属于至少一个具有对应游戏目标的时间段，也就是说，每一个历史状态均有至少一个与之对应的游戏目标。

具体地，服务器获取每一游戏目标在对战过程中各自对应的游戏时间段，服务器针对每一历史状态，基于相应历史状态在对战过程中对应的时间点，以及该时间点所属的游戏时间段，确定虚拟对象阵容在该历史状态对应的游戏目标，从而得到虚拟对象阵容在每一历史状态各自对应的游戏目标。

在本实施例中，服务器通过确定游戏目标与对战过程中游戏时间段之间的关系，基于历史状态在对战过程中对应的时间点所属的时间段，既能够确保游戏目标的在一定时间内不会变化，确保游戏目标的稀疏分布，又能快速准确的确定虚拟对象阵容在每一历史状态各自对应的游戏目标，提高数据处理效率。

在一个实施例中，多人对战游戏的对战策略模型训练方法还包括：获取多人对战游戏的对战数据，确定对战数据中的虚拟对象阵容以及虚拟对象阵容所完成的游戏目标，基于对战数据中的历史状态和游戏目标，确定虚拟对象阵容对应的对战策略类型；将对战策略类型相同的虚拟对象阵容所对应的对战数据划分至同一个阵容池，并建立阵容池与对战策略类型之间的对应关系。

其中，阵容池是用于存在虚拟对象阵容对应的对战数据的容器。服务器获取多人对战游戏的对战数据，可以通过游戏配置数据得到对战数据中的虚拟对象阵容，并基于专家经验数据确定在该局对战中虚拟对象阵容所完成的游戏目标。一般来说，对战数据中包含对战双方的阵营，对战双方在同一局对战游戏中的虚拟对象阵容是不同的，每一虚拟对象阵容所完成的游戏目标也是不同的。

具体地，对战策略类型是针对对战过程中对战双方中的一方而言的，对战策略类型与整个对战过程中的状态以及所针对的虚拟对象阵容的所完成的游戏目标相关。服务器基于对战数据中的历史状态和虚拟对象阵容所完成的游戏目标，来确定对战策略类型。对战策略类型相同的虚拟对象阵容所完成的游戏目标一定相同，但虚拟对象阵容所完成的游戏目标相同的虚拟对象阵容所对应的对战策略类型不一定相同。通过将对战策略类型相同的虚拟对象阵容所对应的对战数据划分至同一个阵容池，使得同一个阵容池中包括一个或多个虚拟对象阵容所对应的对战数据，且使得同一个阵容池中的虚拟对象阵容对应的对战策略类型以及游戏目标是相同的。

在本实施例中，通过上述处理准确地将具有相同对战策略类型以及游戏目标的虚拟对象阵容的对战数据划分到同一个阵容池，能够在后续处理过程中，快速准确的确定虚拟对象阵容对应的对战策略类型以及在每一历史状态各自对应的游戏目标，提高数据处理效率。

在一个实施例中，从虚拟对象阵容对应的对战数据中获取各历史状态，包括：按照时间步对应的时间间隔条件，对虚拟对象阵容对应的对战数据进行抽样处理，得到按时间步排序的历史状态。

其中，时间间隔条件是每两个相邻的历史状态之间的需要达到的时间间隔。时间步用来描述区分不同时间点的历史状态。例如从游戏开始到结束一个需要抽取2400个状态t＝0至t＝199，游戏开始到结束的时间一共为20分钟，则可以计算出时间步对应的时间间隔条件为0.5s。再例如，直接设定时间步对应的时间间隔条件为0.5s，则游戏时间越长，抽取的时间步越多。

在本实施例中，已经完成的对战游戏，其可以看做是多个连续视频帧所构成的对战视频，通过按照时间步对应的时间间隔来抽取历史状态进行模型训练，能够确保历史状态按照相同的时间间隔分布，确保时间跨度相对完整，又能有效减少需要处理的数据量，提高数据处理效率。

在一个实施例中，针对基于初始对战策略模型得到的每一虚拟对象阵容的每一对战动作，将相应对战动作所对应的响应状态以及相应虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到每一虚拟对象阵容对应的每一响应状态各自对应的预测游戏目标，包括：分别以每一虚拟对象阵容的每一对战动作为目标虚拟对象阵容的目标对战动作，将目标对战动作所对应的响应状态以及目标虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到候选预测游戏目标；当候选预测游戏目标符合预测游戏目标更新条件时，将候选预测游戏目标作为预测游戏目标。

其中，目标对战动作是指当前正在处理的对战动作，目标虚拟对象阵容的是指当前正在处理的对战动作所对应的虚拟对象阵容。服务器针对以每一虚拟对象阵容的每一对战动作的处理过程均是相同的。预测游戏目标更新条件是用于判断是否需要对预测游戏目标进行更新的条件。输入游戏目标预测模型的响应状态是按照时间步的先后顺序依次输入的，因此，游戏目标预测模型预测的多个候选预测游戏目标也是按照时间步的先后顺序排列的，为了使预测目标符合在一段时间内维持不变，保证稀疏分布，故设定对预测游戏目标进行更新是需要满足的预测游戏目标更新条件，如候选预测游戏目标不满足预测游戏目标更新条件，则维持原有的预测游戏目标不变，若候选预测游戏目标满足预测游戏目标更新条件，则将候选预测游戏目标作为预测游戏目标。其中，预测游戏目标更新条件具体可以是当前响应状态达到对应的游戏目标，或是预测游戏目标的持续时间步达到预设时间步数量阈值等。

具体地，以针对目标虚拟对象阵容的目标对战动作的处理为例，游戏系统确定目标对战动作执行后的虚拟环境的变化，基于变化后的虚拟环境和虚拟对象阵容中执行对战动作后的每一虚拟对象，确定目标对战动作所对应的响应状态。服务器将目标对战动作所对应的响应状态以及目标虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到候选预测游戏目标，当候选预测游戏目标符合预测游戏目标更新条件时，将候选预测游戏目标作为预测游戏目标；当候选预测游戏目标不符合预测游戏目标更新条件时，维持原有的预测游戏目标不变。

在本实施例中，通过设定对预测游戏目标进行更新是需要满足的预测游戏目标更新条件，只有当候选预测游戏目标符合预测游戏目标更新条件时，将候选预测游戏目标作为预测游戏目标，能够使得预测目标符合在一段时间内维持不变，保证预测游戏目标的稀疏分布，符合游戏目标的分布规律，从而基于准确的预测游戏目标，提高对初始对战策略模型进行训练的奖励数据的准确性。

在一个实施例中，对战动作与对战过程中的时间步相对应；基于每一预测游戏目标各自对应的奖励数据，对初始对战策略模型进行训练，得到对战策略模型，包括：基于每一时间步的预测游戏目标所对应的内在奖励数据、以及每一时间步的对战动作所对应的实际奖励数据，得到每一时间步对应的反馈奖励数据；将时间步相同的反馈奖励数据和响应状态所构成的数据组合输入至初始对战策略模型进行强化学习，得到对战策略模型。

其中，时间步用于描述不同的历史状态，每一历史状态对应一个对战动作，故对战动作与对战过程中的时间步相对应。以时间步为标准，能够快速准确地获取同一处理过程中的各个阶段的数据，确保数据之间的对应关系准确。

内在奖励数据是与预测游戏目标对应的奖励数据，内在奖励数据与预测游戏目标相对应。在一个具体的应用中，内在奖励数据的计算过程包括：基于预测游戏目标所对应的当前时间步和下一时间步，确定当前时间步对应的第一响应状态以及下一时间步对应的第二响应状态，分别计算第一响应状态与预测游戏目标之间的第一特征距离以及第二响应状态与预测游戏目标之间的第二特征距离；基于第一特征距离与第二特征距离之间的差值，确定当前时间步的预测游戏目标所对应的内在奖励数据。

实际奖励数据是游戏系统针对每一个对战动作，基于预先由人工设计的奖励信号，以及对战动作与奖励信号的匹配关系，给出该对战动作对应的实际奖励数据。反馈奖励数据用于表征实际奖励数据和内在奖励数据两方面的共同影响，反馈奖励数据具体可以是基于实际奖励数据和内在奖励数据的叠加结果或是实际奖励数据和内在奖励数据进行加权计算得到的结果，具体的计算方式可以基于实际的场景需要进行设定。

在本实施例中，通过基于内在奖励数据和实际奖励数据，得到每一时间步对应的反馈奖励数据，将时间步相同的反馈奖励数据和响应状态所构成的数据组合输入至初始对战策略模型进行强化学习，能够提高输入数据的准确性，从而通过强化学习得到使得虚拟对象阵容在对抗游戏中的对抗能力更强的对战策略模型。

在一个实施例中，多人对战游戏的对战策略模型训练方法还包括：将初始对战策略模型针对虚拟对象阵容输出的对战动作输入自对弈模型；通过自对弈模型进行对战，得到与对战动作相对应的响应状态。

其中，自对弈是一种无监督学习方法，是机器学习从自我对局中学习探索的强化学习算法。自对弈模型可以根据输入的状态预测对战动作，并控制虚拟对象执行预测的对战动作后，对对战动作进行评估确定响应状态。在MOBA类游戏中，如英雄联盟、王者荣耀等，玩家分成两个敌对阵营，通过对抗竞争最终摧毁敌方的水晶来赢得比赛。因MOBA类游戏中复杂的地图环境、丰富的角色、装备、各种各样英雄技能以及多种多样的策略打法。

在本实施例中，服务器将初始对战策略模型针对虚拟对象阵容输出的对战动作输入自对弈模型，通过自对弈模型进行对战，得到准确得到与对战动作相对应的响应状态，提高响应状态的有效性。

在一个实施例中，如图4所示，多人对战游戏的对战策略模型训练方法还包括：

步骤402，响应于多人对战游戏的对战请求，确定目标虚拟对象阵容以及目标虚拟对象阵容对应的对战策略类型。

步骤404，基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的当前对战动作。

步骤406，将当前对战动作对应的实际响应状态和对战策略类型输入游戏目标预测模型，预测得到当前游戏目标。

步骤408，将当前游戏目标和实际响应状态反馈至对战策略模型，基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的下一对战动作。

多人对战游戏是一种在虚拟场景中提供若干个据点，处于不同阵营的用户控制虚拟对象在虚拟场景中对战，占领据点或摧毁敌对阵营据点的游戏。当在人机对战或游戏托管的场景下，终端会触发多人对战游戏的对战请求。服务器响应于多人对战游戏的对战请求以及参与游戏的终端选择的虚拟对象，确定目标虚拟对象阵容以及目标虚拟对象阵容对应的对战策略类型。在对战过程中，服务器基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的当前对战动作，将当前对战动作对应的实际响应状态和对战策略类型输入游戏目标预测模型，预测得到当前游戏目标，将当前游戏目标和实际响应状态反馈至对战策略模型，服务器基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的下一对战动作，依次循环执行上述处理过程，直至接收到游戏托管结束指令或是多人对战游戏结束或中止。

在本实施例中，通过将游戏目标预测模型与对战策略类型相结合，在实际的人机对战或游戏托管的场景下进行应用，能够有效提高虚拟对象阵容中虚拟对象的对抗能力，提高用户的游戏体验。

在一个具体的应用中，如图5所示，多人对战游戏的对战策略模型训练方法包括以下步骤：

步骤502，获取多人对战游戏的对战数据，确定对战数据中的虚拟对象阵容以及虚拟对象阵容完成的游戏目标。

步骤504，基于对战数据中的历史状态和游戏目标，确定虚拟对象阵容对应的对战策略类型。

步骤506，将对战策略类型相同的虚拟对象阵容所对应的对战数据划分至同一个阵容池，并建立阵容池与对战策略类型之间的对应关系。

步骤508，针对每一虚拟对象阵容，从虚拟对象阵容所属的阵容池中，获取虚拟对象阵容对应的对战数据。

步骤510，按照时间步对应的时间间隔条件，对虚拟对象阵容对应的对战数据进行抽样处理，得到按时间步排序的历史状态，并确定虚拟对象阵容在对战过程中完成的游戏目标。

步骤512，获取每一游戏目标在对战过程中各自对应的游戏时间段，基于每一历史状态在对战过程中对应的时间点所属的游戏时间段，确定虚拟对象阵容在每一历史状态各自对应的游戏目标。

步骤514，基于阵容池与对战策略类型的对应关系，确定虚拟对象阵容的对战策略类型。

步骤516，针对每一虚拟对象阵容，将虚拟对象阵容的每一历史状态各自对应的状态特征分别与对战策略类型对应的策略类型特征进行特征拼接，得到输入特征数据。

步骤518，将每一输入特征数据所对应的游戏目标作为相应输入特征数据的标签，将每一虚拟对象阵容各自对应的携带有标签的输入特征数据输入初始预测模型进行训练，得到游戏目标预测模型。

步骤520，分别以每一虚拟对象阵容的每一对战动作为目标虚拟对象阵容的目标对战动作，将目标对战动作所对应的响应状态以及目标虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到候选预测游戏目标。

步骤522，当候选预测游戏目标符合预测游戏目标更新条件时，将候选预测游戏目标作为预测游戏目标。

步骤524，基于每一时间步的预测游戏目标所对应的内在奖励数据、以及每一时间步的对战动作所对应的实际奖励数据，得到每一时间步对应的反馈奖励数据。

步骤526，将时间步相同的反馈奖励数据和响应状态所构成的数据组合输入至初始对战策略模型进行强化学习，得到对战策略模型。

步骤528，响应于多人对战游戏的对战请求，确定目标虚拟对象阵容以及目标虚拟对象阵容对应的对战策略类型。

步骤530，基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的当前对战动作。

步骤532，将当前对战动作对应的实际响应状态和对战策略类型输入游戏目标预测模型，预测得到当前游戏目标。

步骤534，将当前游戏目标和实际响应状态反馈至对战策略模型，基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的下一对战动作。

本申请还提供一种应用场景，该应用场景应用上述的多人对战游戏的对战策略模型训练方法。具体地，该多人对战游戏的对战策略模型训练方法在该应用场景的应用如下：

现有的战术竞技游戏AI(如多人对战游戏中的虚拟对象)，都采用强化学习的方法来训练游戏AI，强化学习过程中通过奖励信号来引导游戏AI的学习，相当于给游戏AI提供了价值观。目前比较复杂的MOBA游戏AI的奖励信号设计，大多采用的是人类定义的稠密奖励信号设计。这种设计会使得游戏AI的价值观单一，不同的虚拟对象呈现出的策略打法单一。随着虚拟对象阵容的不断扩大，单一的、通用的策略打法无法适应特殊的虚拟对象阵容，同时在策略应对方面缺少鲁棒性。当前游戏AI打法存在的主要问题：1.打法单一。任何虚拟对象阵容组合都呈现同一的策略打法，无法形成特殊策略。2.策略对抗能力弱。在训练自对弈中，对手的策略类似，能力相近，无法形成多样化的对抗。

在本申请中，如图6所示，整个方法分为2个阶段：监督学习流程和强化学习流程，其中监督学习流程：利用人类玩家不同阵容，不同打法的数据，预训练游戏目标预测模型，其中，游戏目标预测模型可以是一种元控制器网络(MC，Meta-Controller)；MC网络根据游戏系统返回的响应状态s

具体地，服务器通过引入人类的专家数据来提供虚拟对象阵容特殊打法策略的“先验知识”。如图7所示，首先，将训练数据的打法划分成多种类型，每一种类型对应一种对战策略类型，并每种对战策略类型对应一个阵容池，服务器将相同对战策略类型的虚拟对象阵容的对战数据存储至同一阵容池，如非特殊打法的对战数据则划分到默认的阵容池。

针对同一游戏，对所有的对战策略定义了一套统一的游戏目标集合meta-goal，例如击杀野怪、清理兵线、摧毁防御塔等，不同的对战策略类型可以对应游戏目标集合中的某些游戏目标goal，具体地，服务器可以基于对战数据中的各个历史状态与游戏目标集合中的游戏目标进行匹配，当存在匹配成功的历史状态且该历史状态中达到该游戏目标的阵营为指定的虚拟对象阵容时，即表征该虚拟对象阵容在对战过程中完成了该匹配的游戏目标，从而确定出虚拟对象阵容对应的游戏目标。

其中，游戏目标可以是游戏过程中未来可能到达的一些状态，游戏目标与指定的游戏时间段相对应。某一游戏时间段内各状态的游戏目标goal是相同的，从整个对战的各个历史状态的分布和游戏目标的分布情况来看，游戏目标是稀疏分布的。

在游戏目标预测模型MC的训练过程中，服务器利用监督学习的方法，从阵容池提供的对战数据中，将每一时间步的状态S

如图8所示，强化学习流程包括：通过预训练的MC网络来预测未来目标g

其中，为了使预测游戏目标g

针对内在奖励数据

其中，t表示时间步，||*||表示响应状态s与预测游戏目标g

服务器通过结合原先的人工设计的实际建立数据rewardr

在对战策略模型训练完成后，如图9所示，服务器基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的当前对战动作a

由于MC网络能够预测不通阵容对应的游戏目标goal分布，而游戏目标goal是实现不同打法的关键。对于不同阵容，游戏目标goal的分布是不同的，所以对战策略模块的价值观是多元的，训练出来的虚拟对象阵容的策略打法会与虚拟对象阵容强相关，且打法风格会更加多样，策略对抗能力也会更好。

应该理解的是，虽然上述各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时间步执行完成，而是可以在不同的时间步执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图10所示，提供了一种多人对战游戏的对战策略模型训练装置1000，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：数据获取模块1002、游戏目标预测模型训练模块1004、游戏目标预测模块1006和对战策略模型训练模块1008，其中：

数据获取模块1002，用于针对每一虚拟对象阵容，从虚拟对象阵容对应的对战数据中获取各历史状态，确定虚拟对象阵容在每一历史状态各自对应的游戏目标，并获取虚拟对象阵容的对战策略类型。

游戏目标预测模型训练模块1004，用于以历史状态和对战策略类型为输入数据，以游戏目标为输入数据的标签，训练得到游戏目标预测模型。

游戏目标预测模块1006，用于针对基于初始对战策略模型得到的每一虚拟对象阵容的每一对战动作，将相应对战动作所对应的响应状态以及相应虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到每一虚拟对象阵容对应的每一响应状态各自对应的预测游戏目标。

对战策略模型训练模块1008，用于基于每一预测游戏目标各自对应的奖励数据，对初始对战策略模型进行训练，得到对战策略模型。

在一个实施例中，游戏目标预测模型训练模块还用于针对每一虚拟对象阵容，将虚拟对象阵容的每一历史状态各自对应的状态特征分别与对战策略类型对应的策略类型特征进行特征拼接，得到输入特征数据；将每一输入特征数据所对应的游戏目标作为相应输入特征数据的标签；将每一虚拟对象阵容各自对应的输入特征数据和标签输入初始预测模型进行训练，得到游戏目标预测模型。

在一个实施例中，数据获取模块，还用于针对每一虚拟对象阵容，从虚拟对象阵容所属的阵容池中，获取虚拟对象阵容对应的对战数据；从对战数据中，提取虚拟对象阵容在对战过程中的历史状态和在对战过程中完成的游戏目标；基于每一游戏目标与每一历史状态之间的匹配关系，确定虚拟对象阵容在每一历史状态各自对应的游戏目标；基于阵容池与对战策略类型的对应关系，确定虚拟对象阵容的对战策略类型。

在一个实施例中，数据获取模块，还用于获取每一游戏目标在对战过程中各自对应的游戏时间段；基于每一历史状态在对战过程中对应的时间点所属的游戏时间段，确定虚拟对象阵容在每一历史状态各自对应的游戏目标。

在一个实施例中，多人对战游戏的对战策略模型训练装置还包括阵容池划分模块，用于获取多人对战游戏的对战数据，确定对战数据中的虚拟对象阵容以及虚拟对象阵容完成的游戏目标；基于对战数据中的历史状态和游戏目标，确定虚拟对象阵容对应的对战策略类型；将对战策略类型相同的虚拟对象阵容所对应的对战数据划分至同一个阵容池，并建立阵容池与对战策略类型之间的对应关系。

在一个实施例中，数据获取模块，还用于按照时间步对应的时间间隔条件，对虚拟对象阵容对应的对战数据进行抽样处理，得到按时间步排序的历史状态。

在一个实施例中，游戏目标预测模块，还用于分别以每一虚拟对象阵容的每一对战动作为目标虚拟对象阵容的目标对战动作，将目标对战动作所对应的响应状态以及目标虚拟对象阵容对应的对战策略类型输入游戏目标预测模型，得到候选预测游戏目标；当候选预测游戏目标符合预测游戏目标更新条件时，将候选预测游戏目标作为预测游戏目标。

在一个实施例中，对战动作与对战过程中的时间步相对应；对战策略模型训练模块，还用于基于每一时间步的预测游戏目标所对应的内在奖励数据、以及每一时间步的对战动作所对应的实际奖励数据，得到每一时间步对应的反馈奖励数据；将时间步相同的反馈奖励数据和响应状态所构成的数据组合输入至初始对战策略模型进行强化学习，得到对战策略模型。

在一个实施例中，多人对战游戏的对战策略模型训练装置方法还包括内在奖励数据计算模块，用于基于预测游戏目标所对应的当前时间步和下一时间步，确定当前时间步对应的第一响应状态以及下一时间步对应的第二响应状态；分别计算第一响应状态与预测游戏目标之间的第一特征距离以及第二响应状态与预测游戏目标之间的第二特征距离；基于第一特征距离与第二特征距离之间的差值，确定当前时间步的预测游戏目标所对应的内在奖励数据。

在一个实施例中，多人对战游戏的对战策略模型训练装置方法还包括响应状态确定模块，用于将初始对战策略模型针对虚拟对象阵容输出的对战动作输入自对弈模型；通过自对弈模型进行对战，得到与对战动作相对应的响应状态。

在一个实施例中，多人对战游戏的对战策略模型训练装置方法还包括模型应用模块，用于响应于多人对战游戏的对战请求，确定目标虚拟对象阵容以及目标虚拟对象阵容对应的对战策略类型；基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的当前对战动作；将当前对战动作对应的实际响应状态和对战策略类型输入游戏目标预测模型，预测得到当前游戏目标；将当前游戏目标和实际响应状态反馈至对战策略模型，基于对战策略模型，确定目标虚拟对象阵容中各目标虚拟对象的下一对战动作。

关于多人对战游戏的对战策略模型训练装置的具体实施例可以参见上文中对于多人对战游戏的对战策略模型训练方法的实施例，在此不再赘述。上述多人对战游戏的对战策略模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的动作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有动作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的动作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储多人对战游戏的对战策略模型训练数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多人对战游戏的对战策略模型训练方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈光伟;杜雪莹;高一鸣;石贝;练振杰;王亮;付强;
专利申请人：腾讯科技（深圳）有限公司;

上一篇：一种编辑态和运行态分离的组态系统及方法
下一篇：半导体装置、保护电路及半导体装置的制造方法