导航：首页> 农业；林业；畜牧业；狩猎；诱捕；捕鱼>游戏资源分发方法、装置、电子设备及存储介质

游戏资源分发方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 10:18:07

技术领域

本公开涉及计算机技术领域，尤其涉及一种游戏资源分发方法、装置、电子设备及存储介质。

背景技术

相关技术在进行游戏资源分发时，无法考虑到各个游戏账户的玩家对应的情绪、胜率等状态信息，例如，针对牌类游戏的控牌局中，相关技术只是按照一定的控牌规则从好牌库中挑选一下牌组进行发牌，无法考虑到各个玩家的情绪、胜率等状态进行控牌，发牌效果不佳，这导致游戏账户通过游戏服务器参与游戏战局的游戏时长不长且退出游戏战局频率较高，使得游戏服务器的资源利用率不高。

发明内容

本公开提供一种游戏资源分发方法、装置、电子设备及存储介质，以至少解决相关技术中游戏服务器的资源利用率不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种游戏资源分发方法，所述方法包括：

获取本轮游戏对局中多个游戏账户的当前游戏状态信息；

对所述当前游戏状态信息进行特征提取，获得所述多个游戏账户各自对应的账户特征；

根据所述多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征；

根据所述资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合；其中，所述多个游戏账户在得到所述目标游戏资源组合后参与到下一轮游戏对局的预测概率最高；

将所述目标游戏资源组合分发至对应所述多个游戏账户。

在一种可能实现方式中，所述根据所述资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合，包括：

根据所述资源配置特征，在所述游戏资源组合库的多个游戏资源组合子库中，确定目标游戏资源组合子库；其中，所述目标游戏资源组合子库中的多个候选游戏资源组合间的相似度满足预设的相似度阈值；所述资源配置特征与所述多个候选游戏资源组合的资源组合特征间的特征相似度均小于预设的特征相似度阈值；

将所述目标游戏资源组合子库中的其中一个候选游戏资源组合中，作为所述目标游戏资源组合。

在一种可能实现方式中，所述将所述目标游戏资源组合子库中的其中一个候选游戏资源组合中，作为所述目标游戏资源组合，包括：

确定所述多套候选游戏资源组合的资源组合特征与所述资源配置特征间的相似度；

将相似度最高的所述候选游戏资源组合，作为所述目标游戏资源组合。

在一种可能实现方式中，所述根据所述多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征，包括：

将所述多个游戏账户各自对应的账户特征和预设的各个候选资源配置特征输入至预训练的预测网络，得到所述多个游戏账户在得到与所述候选资源配置特征相对应的游戏资源组合后，参与到下一轮游戏对局的预测概率；

将预测概率最高的候选资源配置特征作为所述本轮游戏对局对应的资源配置特征。

在一种可能实现方式中，所述根据所述多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征，包括：

将所述多个游戏账户对应的多个账户特征输入至预训练的智能体；所述预训练的智能体的策略函数用于生成响应于所述多个账户特征的第一动作；所述第一动作为所述预训练的智能体在预设的各个候选资源配置特征中确定与所述本轮游戏对局对应的资源配置特征的动作；所述多个游戏账户在得到与所述资源配置特征相对应的游戏资源组合后参与到下一轮游戏对局的预测概率最高；

利用所述预训练的智能体输出所述第一动作，得到所述本轮游戏对局对应的资源配置特征。

在一种可能实现方式中，在所述将所述多个游戏账户对应的多个账户特征输入至预训练的智能体的步骤之前，还包括：

获取在第一游戏对局中所述多个游戏账户各自对应的第一账户特征；

将所述多个游戏账户对应的多个第一账户特征输入至待训练的智能体；所述待训练的智能体的策略函数用于生成响应于所述多个第一账户特征的第二动作；所述第二动作为所述待训练的智能体在所述各个候选资源配置特征中确定与所述第一游戏对局对应的资源配置特征的动作；所述第二游戏对局为所述第一游戏对局的下一轮游戏对局；

获取所述预训练的智能体在输出所述第二动作后得到的奖励数据；所述奖励数据为根据所述多个游戏账户在得到与所述资源配置特征相对应的游戏资源组合后参与到所述第二游戏对局的预测概率确定的；

根据所述奖励数据，对所述待训练的智能体进行训练，得到所述预训练的智能体。

在一种可能实现方式中，所述根据所述奖励数据，对所述待训练的智能体进行训练，得到所述预训练的智能体，包括：

在所述预训练的智能体输出所述第二动作后，利用所述待训练的智能体从当前游戏环境获取响应于所述第二动作的第二账户特征作为所述新的账户特征；所述第二账户特征为所述多个游戏账户在所述第一游戏对局结束后各自对应的账户特征；

基于所述新的账户特征和所述奖励数据，对所述待训练的智能体的策略函数进行更新，直至所述待训练的智能体的策略函数收敛，得到所述预训练的智能体。

在一种可能实现方式中，所述获取所述预训练的智能体在输出所述第二动作后得到的奖励数据，包括：

将所述第一游戏对局对应的资源配置特征和所述多个游戏账户各自对应的第一账户特征输入至预训练的概率预测网络，得到所述多个游戏账户参与所述第二游戏对局的概率；

基于所述多个游戏账户参与所述第二游戏回合的概率，得到所述奖励数据。

在一种可能实现方式中，所述方法还包括：

获取多轮历史游戏对局的游戏数据；其中，每轮历史游戏对局的游戏数据包括多个历史游戏账户的账户特征、所述多个历史游戏账户得到的历史资源组合的资源组合特征，以及，所述多个历史游戏账户是否参与所述历史游戏对局的下一轮游戏对局所对应的游戏结果；

将所述历史游戏账户的账户特征，以及，所述历史游戏账户得到的历史资源组合的资源组合特征输入至待训练的概率预测网络，得到所述历史游戏账户参与所述历史游戏对局的下一轮游戏对局的预测概率；

根据所述预测概率与所述游戏结果之间的差异，对所述待训练的概率预测网络的模型参数进行训练，直至得到训练好的概率预测网络，作为所述预训练的概率预测网络。

在一种可能实现方式中，在所述根据所述资源配置特征对待分发资源进行分发的步骤之后，所述方法还包括：

获取多个所述游戏账户在参与所述本轮游戏对局结束后的游戏结果；

根据所述游戏结果，对所述游戏资源组合库中的各套候选游戏资源组合进行更新。

根据本公开实施例的第二方面，提供一种游戏资源分发装置，包括：

获取单元，被配置为执行获取本轮游戏对局中多个游戏账户的当前游戏状态信息；

提取单元，被配置为执行对所述当前游戏状态信息进行特征提取，获得所述多个游戏账户各自对应的账户特征；

确定单元，被配置为执行根据所述多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征；

查询单元，被配置为执行根据所述资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合；其中，所述多个游戏账户在得到所述目标游戏资源组合后参与到下一轮游戏对局的预测概率最高；

分发单元，被配置为执行将所述目标游戏资源组合分发至对应所述多个游戏账户。

在一种可能实现方式中，所述查询单元，具体被配置为执行根据所述资源配置特征，在所述游戏资源组合库的多个游戏资源组合子库中，确定目标游戏资源组合子库；其中，所述目标游戏资源组合子库中的多个候选游戏资源组合间的相似度满足预设的相似度阈值；所述资源配置特征与所述多个候选游戏资源组合的资源组合特征间的特征相似度均小于预设的特征相似度阈值；将所述目标游戏资源组合子库中的其中一个候选游戏资源组合中，作为所述目标游戏资源组合。

在一种可能实现方式中，所述查询单元，具体被配置为执行确定所述多套候选游戏资源组合的资源组合特征与所述资源配置特征间的相似度；将相似度最高的所述候选游戏资源组合，作为所述目标游戏资源组合。

在一种可能实现方式中，所述确定单元，具体被配置为执行将所述多个游戏账户各自对应的账户特征和预设的各个候选资源配置特征输入至预训练的预测网络，得到所述多个游戏账户在得到与所述候选资源配置特征相对应的游戏资源组合后，参与到下一轮游戏对局的预测概率；将预测概率最高的候选资源配置特征作为所述本轮游戏对局对应的资源配置特征。

在一种可能实现方式中，所述确定单元，具体被配置为执行将所述多个游戏账户对应的多个账户特征输入至预训练的智能体；所述预训练的智能体的策略函数用于生成响应于所述多个账户特征的第一动作；所述第一动作为所述预训练的智能体在预设的各个候选资源配置特征中确定与所述本轮游戏对局对应的资源配置特征的动作；所述多个游戏账户在得到与所述资源配置特征相对应的游戏资源组合后参与到下一轮游戏对局的预测概率最高；利用所述预训练的智能体输出所述第一动作，得到所述本轮游戏对局对应的资源配置特征。

在一种可能实现方式中，所述确定单元，具体被配置为执行获取在第一游戏对局中所述多个游戏账户各自对应的第一账户特征；将所述多个游戏账户对应的多个第一账户特征输入至待训练的智能体；所述待训练的智能体的策略函数用于生成响应于所述多个第一账户特征的第二动作；所述第二动作为所述待训练的智能体在所述各个候选资源配置特征中确定与所述第一游戏对局对应的资源配置特征的动作；所述第二游戏对局为所述第一游戏对局的下一轮游戏对局；获取所述预训练的智能体在输出所述第二动作后得到的奖励数据；所述奖励数据为根据所述多个游戏账户在得到与所述资源配置特征相对应的游戏资源组合后参与到所述第二游戏对局的预测概率确定的；根据所述奖励数据，对所述待训练的智能体进行训练，得到所述预训练的智能体。

在一种可能实现方式中，所述确定单元，具体被配置为执行在所述预训练的智能体输出所述第二动作后，利用所述待训练的智能体从当前游戏环境获取响应于所述第二动作的第二账户特征作为所述新的账户特征；所述第二账户特征为所述多个游戏账户在所述第一游戏对局结束后各自对应的账户特征；基于所述新的账户特征和所述奖励数据，对所述待训练的智能体的策略函数进行更新，直至所述待训练的智能体的策略函数收敛，得到所述预训练的智能体。

在一种可能实现方式中，所述确定单元，具体被配置为执行将所述第一游戏对局对应的资源配置特征和所述多个游戏账户各自对应的第一账户特征输入至预训练的概率预测网络，得到所述多个游戏账户参与所述第二游戏对局的概率；基于所述多个游戏账户参与所述第二游戏回合的概率，得到所述奖励数据。

在一种可能实现方式中，所述游戏资源分发装置，还包括：游戏数据获取单元，被配置为执行获取多轮历史游戏对局的游戏数据；其中，每轮历史游戏对局的游戏数据包括多个历史游戏账户的账户特征、所述多个历史游戏账户得到的历史资源组合的资源组合特征，以及，所述多个历史游戏账户是否参与所述历史游戏对局的下一轮游戏对局所对应的游戏结果；输入单元，被配置为执行将所述历史游戏账户的账户特征，以及，所述历史游戏账户得到的历史资源组合的资源组合特征输入至待训练的概率预测网络，得到所述历史游戏账户参与所述历史游戏对局的下一轮游戏对局的预测概率；训练单元，被配置为执行根据所述预测概率与所述游戏结果之间的差异，对所述待训练的概率预测网络的模型参数进行训练，直至得到训练好的概率预测网络，作为所述预训练的概率预测网络。

在一种可能实现方式中，所述游戏资源分发装置，还包括：结果获取单元，被配置为执行获取多个所述游戏账户在参与所述本轮游戏对局结束后的游戏结果；更新单元，被配置为执行根据所述游戏结果，对所述游戏资源组合库中的各套候选游戏资源组合进行更新。

根据本公开实施例的第三方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种可能实现方式所述的游戏资源分发方法。

根据本公开实施例的第四方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种可能实现方式所述的游戏资源分发方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一种可能实现方式所述的游戏资源分发方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过获取本轮游戏对局中多个游戏账户的当前游戏状态信息；对当前游戏状态信息进行特征提取，获得多个游戏账户各自对应的账户特征；根据多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征；根据资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合；其中，多个游戏账户在得到目标游戏资源组合后参与到下一轮游戏对局的预测概率最高；最后，将目标游戏资源组合分发至对应多个游戏账户；从而可以使各个游戏账户获取到合适的游戏资源，进而使各个游戏账户参与到下一轮游戏对局的预测概率最大化，降低了游戏账户退出游戏战局的频率，提高了游戏账户参与游戏战局的时间，服务器因此无需不断更换游戏战局中的游戏账户，提高了服务器资源利用率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种游戏资源分发方法的应用环境图。

图2是根据一示例性实施例示出的一种游戏资源分发方法的流程图。

图3是根据一示例性实施例示出的一种游戏资源分发方法的流程示意图。

图4是根据一示例性实施例示出的一种概率预测网络的网络示意图。

图5是根据一示例性实施例示出的一种游戏资源分发方法的流程图。

图6是根据一示例性实施例示出的一种游戏资源分发装置的框图。

图7是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

本公开所提供的游戏资源分发方法，可以应用于如图1所示的应用环境中。其中，服务器110获取本轮游戏对局中多个游戏账户的当前游戏状态信息；然后，服务器110对所述当前游戏状态信息进行特征提取，获得所述多个游戏账户各自对应的账户特征；再然后，服务器110根据所述多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征；最后，服务器110根据所述资源配置特征对待分发资源进行分发，使得所述多个游戏账户在得到与所述资源配置特征相匹配的游戏资源组合后参与到下一轮游戏对局的预测概率最大化。实际应用中，服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种游戏资源分发方法的流程图，实际应用中，游戏资源可以是指在博弈游戏对局中供各个游戏账户进行使用的资源。例如，在斗地主游戏中，游戏资源可以是扑克牌。在麻将游戏中，游戏资源可以是麻将牌。

如图2所示，该方法用于图1的服务器110中，包括以下步骤。

在步骤S210中，获取本轮游戏对局中多个游戏账户的当前游戏状态信息。

在步骤S220中，对当前游戏状态信息进行特征提取，获得多个游戏账户各自对应的账户特征。

其中，当前游戏状态信息可以是指多个游戏账户在参与本轮游戏对局前的游戏状态对应的信息。其中，当前游戏状态信息可以包括但不限于在历史游戏信息中各个游戏账户近期(如当天)的胜负信息、玩家水平信息，打牌风格信息、当前情绪状态信息等。

具体实现中，以斗地主游戏为例，当服务器确定本轮游戏对局为控牌局时，服务器则获取本轮游戏对局中多个游戏账户的当前游戏状态信息，如当天胜负信息、玩家水平信息，打牌风格信息、当前情绪状态信息等。然后，服务器再对当前游戏状态信息进行特征提取，获得多个游戏账户各自对应的账户特征。

在步骤S230中，根据多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征。

具体实现中，当服务器获取到多个游戏账户各自对应的账户特征后，服务器则根据多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征。具体来说，服务器可以将多个游戏账户各自对应的账户特征共同输入至训练好的神经网络。通过该训练好的神经网络输出适合本轮游戏对局的资源配置特征。例如，牌组特征。

在步骤S240中，根据所述资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合。

在步骤S250中，将所述目标游戏资源组合分发至对应所述多个游戏账户，以使得各个游戏账户在得到目标游戏资源组合后参与到下一轮游戏对局的预测概率最大化。

其中，游戏资源组合可以是指一组牌扑克牌牌面。

其中，游戏资源组合库包括待分发资源对应的多套候选游戏资源组合。实际应用中，游戏资源组合库可以是指斗地主游戏中的控牌库。

具体实现中，当服务器确定出与本轮游戏对局对应的资源配置特征后，服务器可以基于该资源配置特征将待分发资源分发至各个游戏账户中，进而使得各个游戏账户在得到与资源配置特征相匹配的目标游戏资源组合后参与到下一轮游戏对局的预测概率最大化。

以斗地主游戏为例，当服务器确定出适合本轮游戏对局对应的牌组特征后，服务器可以基于该牌组特征将扑克牌分发至各个游戏玩家。具体来说，服务器可以基于该牌组特征在控牌牌库中选择一组满足要求的牌组并指定好牌位分配给游戏玩家，从而实现将特定的牌组分发至即将离开游戏对局的游戏玩家以提高该游戏玩家在本轮游戏对局中获胜的概率，进而使各个游戏玩家在本轮游戏对局结束后进行参与下一轮游戏对局的概率最大化。

为了便于本领域技术人员的理解，图3提供了一种游戏资源分发方法的流程示意图。其中，服务器将多个游戏账户各自对应的账户特征共同输入至训练好的神经网络。通过该训练好的神经网络输出适合本轮游戏对局的牌组特征。然后，服务器基于该牌组特征在控牌牌库中选择一组满足要求的牌组并指定好牌位分配给游戏玩家。

上述游戏资源分发方法中，通过获取本轮游戏对局中多个游戏账户的当前游戏状态信息；对当前游戏状态信息进行特征提取，获得多个游戏账户各自对应的账户特征；根据多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征；根据资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合；其中，多个游戏账户在得到目标游戏资源组合后参与到下一轮游戏对局的预测概率最高；最后，将目标游戏资源组合分发至对应多个游戏账户；从而可以使各个游戏账户获取到合适的游戏资源，进而使各个游戏账户参与到下一轮游戏对局的预测概率最大化，降低了游戏账户退出游戏战局的频率，提高了游戏账户参与游戏战局的时间，服务器因此无需不断更换游戏战局中的游戏账户，提高了服务器资源利用率。

在一示例性实施例中，根据资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合，包括：根据资源配置特征，在游戏资源组合库的多个游戏资源组合子库中，确定目标游戏资源组合子库；将目标游戏资源组合子库中的其中一个候选游戏资源组合中，作为目标游戏资源组合。

其中，目标游戏资源组合子库中的多个候选游戏资源组合间的相似度满足预设的相似度阈值。

其中，资源配置特征与多个候选游戏资源组合的资源组合特征间的特征相似度均小于预设的特征相似度阈值。

实际应用中，游戏资源组合库可以是指斗地主游戏中的控牌库。

实际应用中，服务器可以预先从历史游戏数据中提取牌组特征，例如牌力对比，地主强度，激烈度等。

其中，服务器可以根据牌组特征，提取出一个用于控牌的牌库，牌库中包含具有不同的特征的牌组。根据各个特征的分布情况并设定阈值，将整个牌库划分为不同的子库，以应对不同场合的控牌需求。

具体实现中，服务器在根据资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合的过程中，具体包括：

服务器可以根据资源配置特征，在游戏资源组合库的多个游戏资源组合子库中，确定目标游戏资源组合子库。其中，该目标游戏资源组合子库中的多个候选游戏资源组合的资源组合特征与资源配置特征间的特征相似度均小于预设的特征相似度阈值。

然后，服务器再将目标游戏资源组合子库中的其中一个候选游戏资源组合中，作为目标游戏资源组合。具体来说，服务器可以确定多套候选游戏资源组合的资源组合特征与资源配置特征间的相似度；最后，将相似度最高的候选游戏资源组合，作为目标游戏资源组合。

本实施例的技术方案，通过根据资源配置特征，在游戏资源组合库的多个游戏资源组合子库中，确定目标游戏资源组合子库；服务器可以确定多套候选游戏资源组合的资源组合特征与资源配置特征间的相似度；最后，将相似度最高的候选游戏资源组合，作为目标游戏资源组合；进而可以使各个游戏账户获取到合适的游戏资源，使各个游戏账户参与到下一轮游戏对局的预测概率最大化，降低了游戏账户退出游戏战局的频率，服务器因此无需不断更换游戏战局中的游戏账户，避免占用了服务器过多的处理资源。

在一示例性实施例中，根据多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征，包括：将多个游戏账户各自对应的账户特征和预设的各个候选资源配置特征输入至预训练的预测网络，得到多个游戏账户在得到与候选资源配置特征相对应的游戏资源组合后，参与到下一轮游戏对局的预测概率；将预测概率最高的候选资源配置特征作为本轮游戏对局对应的资源配置特征。

具体实现中，以游戏资源为斗地主游戏中的扑克牌为例；在控牌局中，服务器首先可以获取预训练的预测网络；然后，服务器将将多个游戏账户对应的多个账户特征和预设的各个候选牌组特征输入至该预训练的预测网络，通过该预训练的预测网络将多个游戏账户对应的多个账户特征映射为与各个候选牌组特征对应的留存率即得到多个游戏账户在得到与候选牌组特征相对应的牌组后，参与到下一轮游戏对局的预测概率。然后，服务器将预测概率最高的候选牌组特征作为本轮游戏对局对应的牌组特征，进而便于后续基于该牌组特征，在已有的牌库中匹配出最符合要求的牌组，并执行对应的发牌操作。

本实施例的技术方案，通过将所述多个游戏账户各自对应的账户特征和预设的各个候选资源配置特征输入至预训练的预测网络，得到所述多个游戏账户在得到与所述候选资源配置特征相对应的游戏资源组合后，参与到下一轮游戏对局的预测概率；并将预测概率最高的候选资源配置特征作为所述本轮游戏对局对应的资源配置特征，使得可以准确地在各个候选资源配置特征确定出适配当前游戏对局的资源配置特征，以使多个游戏账户在得到与资源配置特征相匹配的游戏资源组合后参与到下一轮游戏对局的预测概率最大化，提高了游戏账户参加游戏战局的游戏时长。

在一示例性实施例中，根据多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征，包括：将多个游戏账户对应的多个账户特征输入至预训练的智能体；预训练的智能体的策略函数用于生成响应于多个账户特征的第一动作；第一动作为预训练的智能体在各个候选资源配置特征中确定与本轮游戏对局对应的资源配置特征，以使多个游戏账户在得到与资源配置特征相匹配的游戏资源组合后参与到下一轮游戏对局的预测概率最大化的动作；利用预训练的智能体输出第一动作，得到本轮游戏对局对应的资源配置特征。

其中，预训练的智能体的策略函数可以是神经网络。

具体实现中，服务器在将账户特征映射为与各个候选资源配置特征对应的留存率，并将留存率最高的候选资源配置特征作为本轮游戏对局对应的资源配置特征的过程中，具体包括：服务器则将多个游戏账户对应的多个账户特征输入至预训练的智能体。其中，预训练的智能体的策略函数，可以生成响应于多个账户特征的第一动作。具体来说，该第一动作可以是指预训练的智能体在各个候选资源配置特征中确定与本轮游戏对局对应的资源配置特征，以使多个游戏账户在得到与资源配置特征相匹配的游戏资源组合后参与到下一轮游戏对局的预测概率最大化的动作。最后，服务器再利用预训练的智能体输出第一动作，准确地得到本轮游戏对局对应的资源配置特征。

在一示例性实施例中，在将多个游戏账户对应的多个账户特征输入至预训练的智能体的步骤之前，还包括：获取在第一游戏对局中多个游戏账户各自对应的第一账户特征；将多个游戏账户对应的多个第一账户特征输入至待训练的智能体；待训练的智能体的策略函数用于生成响应于多个第一账户特征的第二动作；第二动作为待训练的智能体在各个候选资源配置特征中确定与第一游戏对局对应的资源配置特征，以使多个游戏账户在得到与资源配置特征相匹配的游戏资源组合后参与到第二游戏对局的预测概率最大化的动作；第二游戏对局为第一游戏对局的下一轮游戏对局；获取预训练的智能体在输出第二动作后得到的奖励数据；奖励数据为根据多个游戏账户在得到与资源配置特征相匹配的游戏资源组合后参与到第二游戏对局的预测概率确定的；根据奖励数据，对待训练的智能体进行强化学习的训练，得到预训练的智能体。

例如，服务器可以将账户特征作为state(状态)，牌组特征为action(动作)，建立RL学习框架，以最大化长期收益(如用户留存率)。其中，RL学习框架包含两个重要成分，即环境的状态以及环境与决策者的互动。在一个变化的环境中，在某一时刻，环境处于某个状态(state)，决策者需要根据state进行决策，做出某种行动(action)。每次action会使得环境发生变化从而达到新的state，而这个新的state又会影响新的时刻下决策者的行动action。在RL框架下，不同的state以及不同的action都会产生reward(可以为负)。在整个环境与决策者的不断互动与发展中，RL希望可以找到某个policy，即针对不同state如何决定action，可以使得长期的累计reward最大。在发牌模型中，用户的状态是影响发牌决策的state，而发出的牌为action会影响到接下来的state，policy即为针对玩家的状态，如何发牌。

在一示例性实施例中，根据奖励数据，对待训练的智能体进行强化学习的训练，得到预训练的智能体，包括：在预训练的智能体输出第二动作后，利用待训练的智能体从当前游戏环境获取响应于第二动作的第二账户特征作为新的账户特征；基于新的账户特征和奖励数据，对待训练的智能体的策略函数进行更新，直至待训练的智能体的策略函数收敛，得到预训练的智能体。

其中，第二账户特征为多个游戏账户在第一游戏对局结束后各自对应的账户特征。

具体实现中，服务器在根据奖励数据，对待训练的智能体进行强化学习的训练，得到预训练的智能体的过程中，具体包括：服务器可以利用预训练的智能体输出第二动作后，利用待训练的智能体从当前游戏环境获取响应于第二动作的第二账户特征作为新的账户特征；基于新的账户特征和奖励数据，对待训练的智能体的策略函数进行更新，直至待训练的智能体的策略函数收敛，得到预训练的智能体。

本实施例的技术方案，通过将多个游戏账户对应的多个账户特征输入至预训练的智能体；预训练的智能体的策略函数用于生成响应于多个账户特征的第一动作；其中，第一动作为预训练的智能体在各个候选资源配置特征中确定与本轮游戏对局对应的资源配置特征，以使多个游戏账户在得到与资源配置特征相匹配的游戏资源组合后参与到下一轮游戏对局的预测概率最大化的动作；利用预训练的智能体输出第一动作，得到本轮游戏对局对应的资源配置特征，通过强化学习进而实现准确地将账户特征映射为与各个候选资源配置特征对应的留存率，并将留存率最高的候选资源配置特征作为本轮游戏对局对应的资源配置特征

在一示例性实施例中，获取预训练的智能体在输出第二动作后得到的奖励数据，包括：将第一游戏对局对应的资源配置特征和多个游戏账户各自对应的第一账户特征输入至预训练的概率预测网络，得到多个游戏账户参与第二游戏回合的概率；基于多个游戏账户参与第二游戏回合的概率，得到奖励数据。

其中，预训练的概率预测网络为基于多轮历史游戏对局的游戏数据训练得到。

其中，每轮历史游戏对局的游戏数据包括多个历史游戏账户的账户特征、多个历史游戏账户得到的历史资源组合的资源组合特征以及多个历史游戏账户是否参与历史游戏对局的下一轮游戏对局所对应的游戏结果。

具体实现中，服务器在获取预训练的智能体在输出第二动作后得到的奖励数据的过程中，具体包括：服务器可以将第一游戏对局对应的资源配置特征和多个游戏账户各自对应的第一账户特征输入至预训练的概率预测网络，得到多个游戏账户参与第二游戏回合的概率；基于多个游戏账户参与第二游戏回合的概率即各个游戏账户继续游戏的概率，得到奖励数据。

以斗地主游戏为例，服务器可以将玩家一、玩家二和玩家三对应的账户特征(即玩家一特征、玩家二特征和玩家三特征)和第一游戏对局对应的牌组特征输入至预训练的概率预测网络，得到玩家一、玩家二和玩家三是否继续游戏的预测概率。

为了便于本领域技术人员的理解，图4提供了一种概率预测网络的网络示意图；其中，可以将玩家一特征、玩家二特征和玩家三特征输入至各自对应的第一全连接网络进行全连接处理，得到处理后的玩家一特征、玩家二特征和玩家三特征；然后，再将处理后的玩家一特征、玩家二特征和玩家三特征和第一游戏对局对应的牌组特征输入至第二全连接网络或因子分解机，得到处理后的特征；其中，采用因子分解机可以在模型中增加交互效应，增强非线性学习能力，同样也可以再增加ReLU激活函数。再然后，将处理后的特征输入至dropout层，进而通过删除神经元来降低模型过拟合的情况；最后，通过Softmax输出层对处理后的特征进行多分类处理，并通过Sigmoid激活函数将玩家一、玩家二和玩家三是否继续游戏的预测概率映射为0-1输出。

最后，服务器可以基于玩家一、玩家二和玩家三是否继续游戏的预测概率确定预训练的智能体在输出第二动作后得到的奖励数据。

本实施例的技术方案，通过将第一游戏对局对应的资源配置特征和多个游戏账户各自对应的第一账户特征输入至预训练的概率预测网络，可以准确地得到多个游戏账户参与第二游戏回合的概率，并基于多个游戏账户参与第二游戏回合的概率，进而确定出预训练的智能体在输出第二动作后得到的奖励数据，从而实现将玩家是否继续游戏作为预训练的智能体的奖励数据对预训练的智能体进行强化学习，从而使训练后的智能体可以准确地在各个候选资源配置特征中确定与本轮游戏对局对应的资源配置特征，以使多个游戏账户在得到与资源配置特征相匹配的游戏资源组合后参与到下一轮游戏对局的预测概率最大化。

在一示例性实施例中，方法还包括：获取多轮历史游戏对局的游戏数据；其中，每轮历史游戏对局的游戏数据包括多个历史游戏账户的账户特征、多个历史游戏账户得到的历史资源组合的资源组合特征，以及，多个历史游戏账户是否参与历史游戏对局的下一轮游戏对局所对应的游戏结果；将历史游戏账户的账户特征，以及，历史游戏账户得到的历史资源组合的资源组合特征输入至待训练的概率预测网络，得到历史游戏账户参与历史游戏对局的下一轮游戏对局的预测概率；根据预测概率与游戏结果之间的差异，对待训练的概率预测网络的模型参数进行训练，直至得到训练好的概率预测网络，作为预训练的概率预测网络。

具体实现中，服务器可以基于多轮历史游戏对局的游戏数据对待训练的概率预测网络，进而得到预训练的概率预测网络。具体来说，服务器可以获取多轮历史游戏对局的游戏数据；其中，每轮历史游戏对局的游戏数据包括多个历史游戏账户的账户特征、多个历史游戏账户得到的历史资源组合的资源组合特征，以及，多个历史游戏账户是否参与历史游戏对局的下一轮游戏对局所对应的游戏结果；然后，服务器将历史游戏账户的账户特征，以及，历史游戏账户得到的历史资源组合的资源组合特征输入至待训练的概率预测网络，得到历史游戏账户参与历史游戏对局的下一轮游戏对局的预测概率；最后，服务器根据预测概率与游戏结果之间的差异，对待训练的概率预测网络的模型参数进行训练，直至得到训练好的概率预测网络，作为预训练的概率预测网络。

本实施例的技术方案，通过获取多轮历史游戏对局的游戏数据；并将历史游戏账户的账户特征，以及，历史游戏账户得到的历史资源组合的资源组合特征输入至待训练的概率预测网络，得到历史游戏账户参与历史游戏对局的下一轮游戏对局的预测概率；最后，服务器根据预测概率与游戏结果之间的差异，对待训练的概率预测网络的模型参数进行训练，直至得到训练好的概率预测网络，使得训练得到的概率预测网络可以基于第一游戏对局对应的资源配置特征和多个游戏账户各自对应的第一账户特征，准确地输出多个游戏账户参与第二游戏回合的概率，进而便于后续基于该概率确定用于进行强化学习的得到奖励数据。

在一示例性实施例中，在根据资源配置特征对待分发资源进行分发的步骤之后，方法还包括：获取多个游戏账户在参与本轮游戏对局结束后的游戏结果；根据游戏结果，对游戏资源组合库中的各套候选游戏资源组合进行更新。

具体实现中，服务器在根据资源配置特征对待分发资源进行分发后，服务器还可以获取多个游戏账户在参与本轮游戏对局结束后的游戏结果；然后，服务器可以基于该游戏结果，对游戏资源组合库中的各套候选游戏资源组合进行更新。

本实施例的技术方案，获取多个游戏账户在参与本轮游戏对局结束后的游戏结果；根据游戏结果，对游戏资源组合库中的各套候选游戏资源组合进行更新，从而可以基于游戏对局新产生的对局数据，对牌库的特征进行动态更新。

图5是根据一示例性实施例示出的另一种游戏资源分发方法的流程图，如图5所示，该方法用于图1中的服务器110中，包括以下步骤。在步骤S510中，获取本轮游戏对局中多个游戏账户的当前游戏状态信息。在步骤S520中，对所述当前游戏状态信息进行特征提取，获得所述多个游戏账户各自对应的账户特征。在步骤S530中，根据所述多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征。在步骤S540中，根据所述资源配置特征，在所述游戏资源组合库的多个游戏资源组合子库中，确定目标游戏资源组合子库；其中，所述目标游戏资源组合子库中的多个候选游戏资源组合间的相似度满足预设的相似度阈值；所述资源配置特征与所述多个候选游戏资源组合的资源组合特征间的特征相似度均小于预设的特征相似度阈值。在步骤S550中，确定所述多套候选游戏资源组合的资源组合特征与所述资源配置特征间的相似度。在步骤S560中，将相似度最高的所述候选游戏资源组合，作为目标游戏资源组合；其中，所述多个游戏账户在得到所述目标游戏资源组合后参与到下一轮游戏对局的预测概率最高。在步骤S570中，将所述目标游戏资源组合分发至对应所述多个游戏账户。需要说明的是，上述步骤的具体限定可以参见上文对一种游戏资源分发方法的具体限定，在此不再赘述。

应该理解的是，虽然图2和图5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图6是根据一示例性实施例示出的一种游戏资源分发装置框图。参照图6，该装置包括：

获取单元610，被配置为执行获取本轮游戏对局中多个游戏账户的当前游戏状态信息；

提取单元620，被配置为执行对所述当前游戏状态信息进行特征提取，获得所述多个游戏账户各自对应的账户特征；

确定单元630，被配置为执行根据所述多个游戏账户各自对应的账户特征，确定与本轮游戏对局对应的资源配置特征；

查询单元640，被配置为执行根据所述资源配置特征，在游戏资源组合库中查询得到目标游戏资源组合；其中，所述多个游戏账户在得到所述目标游戏资源组合后参与到下一轮游戏对局的预测概率最高；

分发单元650，被配置为执行将所述目标游戏资源组合分发至对应所述多个游戏账户。

在一种可能实现方式中，所述查询单元640，具体被配置为执行根据所述资源配置特征，在所述游戏资源组合库的多个游戏资源组合子库中，确定目标游戏资源组合子库；其中，所述目标游戏资源组合子库中的多个候选游戏资源组合间的相似度满足预设的相似度阈值；所述资源配置特征与所述多个候选游戏资源组合的资源组合特征间的特征相似度均小于预设的特征相似度阈值；将所述目标游戏资源组合子库中的其中一个候选游戏资源组合中，作为所述目标游戏资源组合。

在一种可能实现方式中，所述查询单元640，具体被配置为执行确定所述多套候选游戏资源组合的资源组合特征与所述资源配置特征间的相似度；将相似度最高的所述候选游戏资源组合，作为所述目标游戏资源组合。

在一种可能实现方式中，所述确定单元630，具体被配置为执行将所述多个游戏账户各自对应的账户特征和预设的各个候选资源配置特征输入至预训练的预测网络，得到所述多个游戏账户在得到与所述候选资源配置特征相对应的游戏资源组合后，参与到下一轮游戏对局的预测概率；将预测概率最高的候选资源配置特征作为所述本轮游戏对局对应的资源配置特征。

在一种可能实现方式中，所述确定单元630，具体被配置为执行将所述多个游戏账户对应的多个账户特征输入至预训练的智能体；所述预训练的智能体的策略函数用于生成响应于所述多个账户特征的第一动作；所述第一动作为所述预训练的智能体在预设的各个候选资源配置特征中确定与所述本轮游戏对局对应的资源配置特征的动作；所述多个游戏账户在得到与所述资源配置特征相对应的游戏资源组合后参与到下一轮游戏对局的预测概率最高；利用所述预训练的智能体输出所述第一动作，得到所述本轮游戏对局对应的资源配置特征。

在一种可能实现方式中，所述确定单元630，具体被配置为执行获取在第一游戏对局中所述多个游戏账户各自对应的第一账户特征；将所述多个游戏账户对应的多个第一账户特征输入至待训练的智能体；所述待训练的智能体的策略函数用于生成响应于所述多个第一账户特征的第二动作；所述第二动作为所述待训练的智能体在所述各个候选资源配置特征中确定与所述第一游戏对局对应的资源配置特征的动作；所述第二游戏对局为所述第一游戏对局的下一轮游戏对局；获取所述预训练的智能体在输出所述第二动作后得到的奖励数据；所述奖励数据为根据所述多个游戏账户在得到与所述资源配置特征相对应的游戏资源组合后参与到所述第二游戏对局的预测概率确定的；根据所述奖励数据，对所述待训练的智能体进行训练，得到所述预训练的智能体。

在一种可能实现方式中，所述确定单元630，具体被配置为执行在所述预训练的智能体输出所述第二动作后，利用所述待训练的智能体从当前游戏环境获取响应于所述第二动作的第二账户特征作为所述新的账户特征；所述第二账户特征为所述多个游戏账户在所述第一游戏对局结束后各自对应的账户特征；基于所述新的账户特征和所述奖励数据，对所述待训练的智能体的策略函数进行更新，直至所述待训练的智能体的策略函数收敛，得到所述预训练的智能体。

在一种可能实现方式中，所述确定单元630，具体被配置为执行将所述第一游戏对局对应的资源配置特征和所述多个游戏账户各自对应的第一账户特征输入至预训练的概率预测网络，得到所述多个游戏账户参与所述第二游戏对局的概率；基于所述多个游戏账户参与所述第二游戏回合的概率，得到所述奖励数据。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于执行游戏资源分发方法的电子设备700的框图。例如，电子设备700可以为一服务器。参照图7，电子设备700包括处理组件720，其进一步包括一个或多个处理器，以及由存储器722所代表的存储器资源，用于存储可由处理组件720的执行的指令，例如应用程序。存储器722中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件720被配置为执行指令，以执行上述游戏资源分发方法。

电子设备700还可以包括一个电源组件724被配置为执行电子设备700的电源管理，一个有线或无线网络接口726被配置为将电子设备700连接到网络，和一个输入输出(I/O)接口728。电子设备700可以操作基于存储在存储器722的操作系统，例如WindowSServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器722，上述指令可由电子设备700的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：冯璟烁;卢君;马文晔;
专利申请人：北京达佳互联信息技术有限公司;

上一篇：一种离心出料机构及农用均匀撒播装置
下一篇：一种利用退役电池的分散式储能系统及其构建方法