导航：首页> 运动；游戏；娱乐活动>文本生成模型的训练方法、文本生成方法、装置及设备

文本生成模型的训练方法、文本生成方法、装置及设备

文献发布时间：2024-04-18 19:58:30

技术领域

本申请实施例涉及计算机技术领域，特别涉及一种文本生成模型的训练方法、文本生成方法、装置及设备。

背景技术

随着计算机技术的发展，游戏的种类和数量越来越多，并逐渐衍生出一些游戏赛事。在一些游戏中，可以根据游戏对象进行游戏对局的数据，生成相关的游戏文本，该游戏文本可以是解说游戏对局的文本，也可以是指导游戏对象进行游戏对局的文本，使得游戏对象可以基于游戏文本更好的理解游戏规则和操作技巧。

此外，可以将游戏对象的游戏对局数据输入文本生成模型，通过文本生成模型生成游戏文本。基于此，如何训练得到文本生成模型成为一个亟需解决的技术问题。

发明内容

本申请提供了一种文本生成模型的训练方法、文本生成方法、装置及设备，可以训练得到用于生成高质量文本的文本生成模型，所述技术方案包括如下内容。

第一方面，提供了一种文本生成模型的训练方法，所述方法包括：

获取样本游戏对象进行样本游戏对局的样本对局数据；

通过第一网络模型基于所述样本对局数据确定多个第一参考文本，任一个第一参考文本用于描述所述样本游戏对局的事件；

通过质量指标确定模型基于所述样本对局数据和各个第一参考文本，确定所述各个第一参考文本的参考质量指标；

基于所述各个第一参考文本的参考质量指标，对所述第一网络模型进行训练，得到文本生成模型，所述文本生成模型用于基于目标游戏对象进行目标游戏对局的目标对局数据确定目标参考文本。

第二方面，提供了一种文本生成方法，所述方法包括：

获取目标游戏对象进行目标游戏对局的目标对局数据；

通过文本生成模型基于所述目标对局数据确定目标参考文本，所述目标参考文本用于描述所述目标游戏对局的事件，所述文本生成模型是按照第一方面任一项所述的方法训练得到的。

第三方面，提供了一种文本生成模型的训练装置，所述装置包括：

获取模块，用于获取样本游戏对象进行样本游戏对局的样本对局数据；

确定模块，用于通过第一网络模型基于所述样本对局数据确定多个第一参考文本，任一个第一参考文本用于描述所述样本游戏对局的事件；

所述确定模块，还用于通过质量指标确定模型基于所述样本对局数据和各个第一参考文本，确定所述各个第一参考文本的参考质量指标；

训练模块，用于基于所述各个第一参考文本的参考质量指标，对所述第一网络模型进行训练，得到文本生成模型，所述文本生成模型用于基于目标游戏对象进行目标游戏对局的目标对局数据确定目标参考文本。

在一种可能的实现方式中，所述第一网络模型包括第一编码网络和第一解码网络；

所述确定模块，用于获取样本风格信息，所述样本风格信息用于描述所述任一个第一参考文本的文本风格；通过所述第一编码网络对所述样本风格信息和所述样本对局数据进行编码处理，得到第一文本特征，所述第一文本特征用于描述具有所述样本风格信息所描述的文本风格且与所述样本对局数据相关的文本的特征；通过所述第一解码网络对所述第一文本特征进行解码处理，得到多个第一参考文本。

在一种可能的实现方式中，所述确定模块，还用于通过原始网络模型基于所述样本对局数据确定多个第一候选文本，任一个第一候选文本用于描述所述样本游戏对局的事件；

所述装置还包括：

筛选模块，用于从所述多个第一候选文本中筛选出多个标准参考文本；

所述训练模块，还用于通过所述多个标准参考文本对所述原始网络模型进行训练，得到第一网络模型。

在一种可能的实现方式中，所述筛选模块，用于对所述样本对局数据进行归因分析，得到所述样本游戏对局中的样本事件的影响信息，所述样本事件的影响信息用于描述所述样本事件的发生导致所述样本游戏对象取得所述样本游戏对局的胜利或者失败的信息；对于任一个第一候选文本，从所述任一个第一候选文本中提取第一事件，对所述第一事件进行分析，得到所述第一事件的影响信息，所述第一事件的影响信息用于描述所述第一事件的发生导致所述样本游戏对象取得所述样本游戏对局的胜利或者失败的信息；在所述样本事件的影响信息和所述第一事件的影响信息满足筛选条件的情况下，确定所述任一个第一候选文本为标准参考文本。

在一种可能的实现方式中，所述装置还包括：

排序模块，用于对所述各个第一参考文本进行质量排序，得到所述各个第一参考文本的排序顺序；

所述确定模块，还用于通过第二网络模型基于所述样本对局数据和所述各个第一参考文本，确定所述各个第一参考文本的预测质量指标；

所述训练模块，还用于基于所述各个第一参考文本的排序顺序和所述各个第一参考文本的预测质量指标，对所述第二网络模型进行训练，得到质量指标确定模型。

在一种可能的实现方式中，所述第二网络模型包括第二编码网络、第三编码网络和第二解码网络；

所述确定模块，用于通过所述第二编码网络对样本风格信息和所述样本对局数据进行编码处理，得到第二文本特征，所述第二文本特征用于描述具有所述样本风格信息所描述的文本风格且与所述样本对局数据相关的文本的特征；对于任一个第一参考文本，通过所述第三编码网络对所述任一个第一参考文本进行特征提取，得到所述任一个第一参考文本的文本特征；通过所述第二解码网络基于所述第二文本特征和所述任一个第一参考文本的文本特征，确定所述任一个第一参考文本的预测质量指标。

在一种可能的实现方式中，所述训练模块，用于对于任两个第一参考文本，将所述任两个第一参考文本中排序顺序在前的第一参考文本的预测质量指标减去排序顺序在后的第一参考文本的预测质量指标，得到质量指标差值，基于所述质量指标差值确定所述任两个第一参考文本对应的损失，所述排序顺序在前的第一参考文本的质量高于所述排序顺序在后的第一参考文本的质量；基于每两个第一参考文本对应的损失，对所述第二网络模型进行训练，得到质量指标确定模型。

在一种可能的实现方式中，所述训练模块，用于基于所述各个第一参考文本的参考质量指标，对所述第一网络模型进行训练，得到第三网络模型；基于所述第三网络模型不满足训练结束条件，通过第三网络模型基于所述样本对局数据确定多个第二参考文本，任一个第二参考文本用于描述所述样本游戏对局的事件；通过所述质量指标确定模型基于所述样本对局数据和所述多个第二参考文本，确定各个第二参考文本的参考质量指标；基于所述各个第二参考文本的参考质量指标，对所述第三网络模型进行训练，得到文本生成模型。

在一种可能的实现方式中，所述训练模块，用于基于所述第三网络模型的模型参数和所述第一网络模型的模型参数，确定参考信息，所述参考信息用于描述模型参数的变化情况；基于所述参考信息和所述各个第二参考文本的参考质量指标，确定所述第三网络模型的损失；基于所述第三网络模型的损失，对所述第三网络模型进行训练，得到文本生成模型。

第四方面，提供了一种文本生成装置，所述装置包括：

获取模块，用于获取目标游戏对象进行目标游戏对局的目标对局数据；

确定模块，用于通过文本生成模型基于所述目标对局数据确定目标参考文本，所述目标参考文本用于描述所述目标游戏对局的事件，所述文本生成模型是按照第一方面任一项所述的方法训练得到的。

在一种可能的实现方式中，所述确定模块，用于获取目标风格信息，所述目标风格信息用于描述所述目标参考文本的文本风格；通过所述文本生成模型对所述目标风格信息和所述目标对局数据进行编码处理，得到目标文本特征，所述目标文本特征用于描述具有所述目标风格信息所描述的文本风格且与所述目标对局数据相关的文本的特征；通过所述文本生成模型对所述目标文本特征进行解码处理，得到目标参考文本。

第五方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条计算机程序，所述至少一条计算机程序由所述处理器加载并执行，以使所述电子设备实现上述第一方面任一所述的文本生成模型的训练方法或者实现上述第二方面任一所述的文本生成方法。

第六方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现上述第一方面任一所述的文本生成模型的训练方法或者实现上述第二方面任一所述的文本生成方法。

第七方面，还提供了一种计算机程序，所述计算机程序为至少一条，至少一条计算机程序由处理器加载并执行，以使电子设备实现上述第一方面任一所述的文本生成模型的训练方法或者实现上述第二方面任一所述的文本生成方法。

第八方面，还提供了一种计算机程序产品，所述计算机程序产品中存储有至少一条计算机程序，所述至少一条计算机程序由处理器加载并执行，以使电子设备实现上述第一方面任一所述的文本生成模型的训练方法或者实现上述第二方面任一所述的文本生成方法。

本申请提供的技术方案至少带来如下有益效果：

本申请提供的技术方案中，先通过第一网络模型基于样本对局数据确定多个第一参考文本。接着，通过质量指标确定模型基于样本对局数据和各个第一参考文本，确定各个第一参考文本的参考质量指标。之后，基于各个第一参考文本的参考质量指标，对第一网络模型进行训练，得到文本生成模型。通过第一参考文本的参考质量指标对第一网络模型进行训练，有利于使模型朝着能生成高质量文本的方向进行优化，提高文本生成模型的准确性，从而使文本生成模型能生成高质量的文本。此外，通过质量指标确定模型确定第一参考文本的参考质量指标，避免了人工标注，可以提高文本生成模型的训练效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本生成模型的训练方法或者文本生成方法的实施环境示意图；

图2是本申请实施例提供的一种文本生成模型的训练方法的流程图；

图3是本申请实施例提供的一种解码器的结构示意图；

图4是本申请实施例提供的一种文本生成方法的流程图；

图5是本申请实施例提供的一种文本生成模型的训练框架图；

图6是本申请实施例提供的一种文本生成模型的训练装置的结构示意图；

图7是本申请实施例提供的一种文本生成装置的结构示意图；

图8是本申请实施例提供的一种终端设备的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种文本生成模型的训练方法或者文本生成方法的实施环境示意图，如图1所示，该实施环境包括终端设备101和服务器102。其中，本申请实施例中的文本生成模型的训练方法或者文本生成方法可以由终端设备101执行，也可以由服务器102执行，或者由终端设备101和服务器102共同执行。

终端设备101可以是智能手机、游戏主机、台式计算机、平板电脑、膝上型便携计算机、智能电视、智能车载设备、智能语音交互设备、智能家电等。服务器102可以为一台服务器，或者为多台服务器组成的服务器集群，或者为云计算平台和虚拟化中心中的任意一种，本申请实施例对此不加以限定。服务器102可以与终端设备101通过有线网络或无线网络进行通信连接。服务器102可以具有数据处理、数据存储以及数据收发等功能，在本申请实施例中不加以限定。终端设备101和服务器102的数量不受限制，可以是一个或多个。

本申请的各可选实施例可以应用在人工智能(Artificial Intelligence，AI)技术领域。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

随着计算机技术的发展，越来越多的人接触游戏。在一些游戏中，可以根据游戏对象进行游戏对局的数据，生成相关的游戏文本，该游戏文本是解说游戏对局的文本或者指导游戏对象进行游戏对局的文本，通过游戏文本使得游戏对象可以更好的理解游戏规则和操作技巧。可选地，通过文本生成模型基于游戏对局数据生成游戏文本，而如何训练得到文本生成模型成为一个亟需解决的问题。

本申请实施例提供了一种文本生成模型的训练方法，该方法可应用于上述实施环境中，可以训练得到用于生成高质量文本的文本生成模型。以图2所示的本申请实施例提供的一种文本生成模型的训练方法的流程图为例，为便于描述，将执行本申请实施例中的文本生成模型的训练方法的终端设备101或者服务器102称为电子设备，该方法可以由电子设备来执行。如图2所示，该方法包括如下步骤。

步骤201，获取样本游戏对象进行样本游戏对局的样本对局数据。

本申请实施例中，样本游戏对象是参与任意游戏对局的任意对象，样本游戏对象参与的任意游戏对局为样本游戏对局，其中，游戏对局可以是任意游戏的对局。例如，样本游戏对局可以是多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)类游戏中的对局，也可以是第一人称射击(First-Person Shooter，FPS)类游戏中的对局，还可以是棋牌类游戏中的对局。

可以理解的是，游戏对局具有一定的时长，可以将样本游戏对局中第一时刻至第二时刻的数据作为样本对局数据。可选地，样本对局数据包括样本游戏对象在第一时刻至第二时刻的数据(以下简称样本游戏对象的数据)、至少一个与样本游戏对象属于同一队伍的第一游戏对象在第一时刻至第二时刻的数据(以下简称第一游戏对象的数据)、至少一个与样本游戏对象属于不同队伍的第二游戏对象在第一时刻至第二时刻的数据(以下简称第二游戏对象的数据)以及至少一个队伍在第一时刻至第二时刻的数据(以下简称队伍数据)中的至少一项。

样本游戏对象的数据、第一游戏对象的数据和第二游戏对象的数据均是多维向量，且样本游戏对象的数据和第一游戏对象的数据是相同或者不同维度的向量，样本游戏对象的数据和第二游戏对象的数据是相同或者不同维度的向量，第一游戏对象的数据和第二游戏对象的数据是相同或者不同维度的向量。例如，样本游戏对象的数据、第一游戏对象的数据和第二游戏对象的数据均是32维向量。

样本游戏对象的数据用于描述样本游戏对象所控制的虚拟对象的信息。基于同样地原理，第一游戏对象的数据用于描述第一游戏对象所控制的虚拟对象的信息；第二游戏对象的数据用于描述第二游戏对象所控制的虚拟对象的信息。可选地，虚拟对象的信息包括虚拟对象的名称、虚拟对象的等级、虚拟对象的状态、虚拟对象的技能范围等至少一项，虚拟对象的状态包括虚拟对象的魔法值、虚拟对象的生命值、虚拟对象的能量值、虚拟对象的技能冷却时间等信息。

队伍数据是一个多维向量，例如队伍数据是21维向量。队伍数据用于描述队伍的状态，队伍数据包括队伍中处于存活状态的虚拟对象的数量、队伍的资源信息等至少一项。可以理解的是，对于不同的游戏，队伍的资源信息也不同，例如，对于MOBA类游戏，队伍的资源信息包括但不限于防御塔的数量、防御塔的生命值、中立虚拟对象的数量、中立虚拟对象所带来的增益信息等至少一项。

通过样本游戏对象的数据、第一游戏对象的数据、第二游戏对象的数据和队伍数据中的至少一项，构建样本对局数据。可选地，样本对局数据是字典形式的数据，例如，样本对局数据为：{‘样本游戏对象控制的虚拟对象的名称’：O，‘第一游戏对象控制的虚拟对象的名称’：[A，B，C，D]，‘第二游戏对象控制的虚拟对象的名称’：[E，F，G，H，I]，‘防御塔的数量’：3，……，‘中立虚拟对象的数量’：3}。

步骤202，通过第一网络模型基于样本对局数据确定多个第一参考文本，任一个第一参考文本用于描述样本游戏对局的事件。

本申请实施例中，可以将样本对局数据输入第一网络模型，通过第一网络模型对样本对局数据进行特征提取，得到用于表征样本对局数据的特征，接着，将用于表征样本对局数据的特征转化为多个第一参考特征，第一参考特征是第一参考文本的特征。对于任一个第一参考特征，通过对该第一参考特征进行解码，得到一个第一参考文本。

其中，第一参考文本用于描述样本游戏对局的事件。样本游戏对局的事件包括样本游戏对局中已经发生的事件、样本游戏对局中预测发生的事件和期望在样本游戏对局中发生的事件等。样本游戏对局的事件可以和样本游戏对象的行为相关，例如，样本游戏对象控制虚拟对象移动时，虚拟对象移动的事件与样本游戏对象的行为相关。样本游戏对局的事件也可以和样本游戏对象的行为无关，例如，达到设定时间时，带有增益属性的虚拟生物在游戏地图的设定位置出生，这时，虚拟生物出生的事件与样本游戏对象的行为无关。

如果第一参考文本可以描述样本游戏对局中已经发生的事件，则第一参考文本可以为解说样本游戏对局的文本，即解说文本。如果第一参考文本可以描述期望在样本游戏对局中发生的事件，则第一参考文本可以为指导样本游戏对象控制虚拟对象进行样本游戏对局的文本，即指导文本。如果第一参考文本可以描述样本游戏对局中预测发生的事件，则第一参考文本可以为解说文本或者指导文本。

可以理解的是，解说文本用于描述样本对局数据对应的游戏对局，指导文本用于指引样本虚拟对象在样本对局数据对应的游戏对局中进行后续行为。例如，样本对局数据为：{‘样本游戏对象控制的虚拟对象的名称’：XX，‘样本游戏对象控制的虚拟对象的生命值’：20，‘样本游戏对象控制的虚拟对象的位置’：R城，‘样本游戏对象控制的虚拟对象持有的虚拟道具’：平底锅}，则解说文本可以为：XX手持平底锅在R城蓄势待发。指导文本可以为：XX的生命值较低，需要补充生命值。

本申请实施例不对第一网络模型的结构、大小、参数等做限定，示例性地，第一网络模型可以为生成式预训练变压器(Generative Pre-trained Transformer，GPT)系列模型，GPT系列模型包括GPT-1模型、GPT-2模型、GPT-3模型、GPT-3.5模型和GPT-4模型等。

GPT系列模型的结构相类似，采用了Transformer结构，包括编码器和解码器。编码器包括多个变压器(Transformer)编码层，编码器用于对GPT系列模型的输入文本进行编码处理，得到文本特征。解码器包括多个变压器(Transformer)解码层，解码器用于将编码器输出的文本特征解码处理成文本并输出。其中，编码器包括多个Transformer编码层，解码器包括多个Transformer解码层，任一个Transformer编码层或者任一个Transformer解码层包括注意力网络、自注意力网络、多头注意力网络、多头自注意力网络、多头交叉注意力网络、带掩码的多头自注意力网络和前馈神经网络等中的至少一项。

示例性地，对于GPT-1模型和GPT-2模型，这两个模型的编码器包括12个Transformer编码层，且这两个模型的解码器包括12个Transformer解码层。任一个Transformer编码层或者任一个Transformer解码层包括多头自注意力网络和前馈神经网络。

请参见图3，图3是本申请实施例提供的一种解码器的结构示意图，该解码器是GPT系列模型的解码器。该解码器包括12个解码层，一个解码层包括一个带掩码的多头自注意力网络、两个归一化层和一个前馈神经网络。其中，带掩码的多头自注意力网络本身采用跳连的方式，且带掩码的多头自注意力网络与第一个归一化层连接。也就是说，带掩码的多头自注意力网络的输入和输出进行拼接，将拼接结果作为第一个归一化层的输入。第一个归一化层连接和前馈神经网络连接，前馈神经网络本身采用跳连的方式，且前馈神经网络与第二个归一化层连接。也就是说，第一个归一化层的输出作为前馈神经网络的输入，前馈神经网络的输入和输出进行拼接，将拼接结果作为第二个归一化层的输入。

本申请实施例中，可以将编码器输出的文本特征和位置特征输入解码器，经过解码器进行解码处理后得到文本，使得GPT系列模型具有文本生成的功能。后续，还可以对文本进行分类，使得GPT系列模型具有文本分类的功能。

示例性地，对于GPT-3模型，GPT-3模型的编码器包括96个Transformer编码层，且GPT-3模型的解码器包括96个Transformer解码层。任一个Transformer编码层或者任一个Transformer解码层包括多头自注意力网络、多头交叉注意力网络和前馈神经网络。

可以理解的是，随着模型规模的增大，GPT系列模型在结构上进行了更多的优化，使得GPT系列模型在生成自然语言文本方面具有更强的能力。

可以理解的是，第一网络模型除可以为GPT系列模型之外，还可以为循环神经网络(Recurrent Neural Network，RNN)模型、生成式对抗网络(Generative AdversarialNetworks，GAN)模型、长短期记忆(Long Short-Term Memory，LSTM)网络模型和大语言模型(Large Language Model，LLM)等中的至少一项，这些模型的结构在此不做赘述。

在一种可能的实现方式中，第一网络模型包括第一编码网络和第一解码网络。这种情况下，步骤202包括步骤2021至步骤2023(图中未示出)。

可选地，如果第一网络模型为GPT系列模型，则第一编码网络包括上文提及的编码器，第一解码网络包括上文提及的解码器，其中，编码器的结构和解码器的结构已在上文描述，在此不再赘述。

如果第一网络模型为RNN模型、GAN模型、LSTM模型和大语言模型等中的至少一项，则第一编码网络和第一解码网络包括卷积层、反卷积层、归一化层、激活层和池化层等中的至少一项。

步骤2021，获取样本风格信息，样本风格信息用于描述任一个第一参考文本的文本风格。

本申请实施例不对任一个第一参考文本的文本风格做限定。示例性地，第一参考文本的文本风格是幽默风趣型的文本风格、霸气型的文本风格、高冷型的文本风格、某一虚拟对象的文本风格等。或者，可以通过人工划分的方式，将多种文本风格划分为通用文本风格和特定文本风格，第一参考文本的文本风格是通用文本风格或者特定文本风格。其中，通用文本风格可以适用于不同情境、不同对象，具有普适性。特定文本风格可以适用于特定情境、特定对象，具有针对性和个性化。例如，通用文本风格可以包括幽默风趣型的文本风格、霸气型的文本风格、高冷型的文本风格、清新自然型的文本风格、娇羞型的文本风格、傲娇型的文本风格等，特定文本风格包括某一虚拟对象的文本风格、诗歌型的文本风格、散文型的文本风格等。

描述第一参考文本的文本风格的信息为样本风格信息，该样本风格信息可以为文本、短语或者字符等至少一项。可选地，样本风格信息为：请以第一人称的口吻，使用幽默风趣型的文本风格描述玩家发生的事件。或者，样本风格信息为：请你根据玩家发生的事件，使用高冷型的文本风格进行评价。

电子设备可以获取样本风格信息，且样本风格信息的获取方式在本申请实施例不做限定。示例性地，电子设备可以获取输入的样本风格信息，或者，电子设备可以从多个候选的风格信息中随机确定一个风格信息，将确定出的风格信息作为样本风格信息。可选地，可以人工输入各个候选的风格信息，或者，采用如下方式确定出任一个候选的风格信息。

可选地，获取训练文本和标注风格信息，标注风格信息是通过标注得到的用于描述训练文本的文本风格。将训练文本输入指定网络模型，通过指定网络模型输出用于描述训练文本的文本风格的预测风格信息。通过预测风格信息和标注风格信息，确定指定网络模型的损失，并通过指定网络模型的损失对指定网络模型进行一次参数调整，得到调整后的指定网络模型。根据调整后的指定网络模型确定风格信息确定模型。

可选地，如果调整后的指定网络模型对应的参数调整次数不小于次数阈值，则将调整后的指定网络模型作为风格信息确定模型。如果调整后的指定网络模型对应的参数调整次数小于次数阈值，则将调整后的指定网络模型作为下一次训练的指定网络模型，重新将训练文本输入指定网络模型，通过指定网络模型输出用于描述训练文本的文本风格的预测风格信息。通过预测风格信息和标注风格信息，确定指定网络模型的损失，并通过指定网络模型的损失对指定网络模型进行一次参数调整，得到调整后的指定网络模型。根据调整后的指定网络模型确定风格信息确定模型。

按照上述方式类推，通过不断地对指定网络模型进行参数调整，直至调整后的指定网络模型对应的参数调整次数不小于次数阈值，则将调整后的指定网络模型作为风格信息确定模型。

接下来，将任意的文本输入风格信息确定模型，通过风格信息确定模型输出用于描述该文本的文本风格的风格信息，将风格信息确定模型输出的风格信息作为候选的风格信息。本申请实施例不对风格信息确定模型的结构、参数、大小等做限定，示例性地，风格信息确定模型可以为大语言模型。

例如，可以获取某一虚拟对象的语料，将该语料转化为文本，得到训练文本，并通过人工标注的方式，确定用于描述训练文本的文本风格的标注风格信息，该标注风格信息是包括多个字符的文本。例如，标注风格信息为：你是一名游戏助手，职责是陪玩家打游戏，请使用幽默诙谐、富有表现力、讲究节奏、以传统文化且结合现代文化的文本风格，根据玩家发生的事件进行指导。通过训练文本和标注风格信息训练得到风格信息确定模型，并使用风格信息确定模型确定多个候选的风格信息，电子设备从各个候选的风格信息中随机确定一个风格信息，作为样本风格信息。

步骤2022，通过第一编码网络对样本风格信息和样本对局数据进行编码处理，得到第一文本特征，第一文本特征用于描述具有样本风格信息所描述的文本风格且与样本对局数据相关的文本的特征。

本申请实施例中，可以将样本风格信息拼接在样本对局数据之前或者之后，得到拼接文本，并将拼接文本输入第一编码网络。通过第一编码网络对拼接文本进行编码处理，得到第一文本特征。其中，第一文本特征是描述具有样本风格信息对应的文本风格且与样本对局数据相关的文本的特征，因此，第一文本特征既能描述样本风格信息对应的文本风格，又能描述与样本对局数据的相关的游戏内容。

可选地，拼接文本包括至少一句话，每一句话包括至少一个字符，可以确定拼接文本中每一句话的位置特征和拼接文本中每一个字符的位置特征。其中，通过任一句话的位置特征描述这句话在拼接文本中的位置，例如，一句话的位置特征为2，表征这句话是拼接文本中的第二句话。同样地，通过任一个字符的位置特征描述这个字符在拼接文本中的位置，或者，通过任一个字符的位置特征描述这个字符在话中的位置，例如，一句话的位置特征为2，这句话中的一个字符的位置特征为7，表征这句话是拼接文本中第二句话的第7个字符。

接着，通过第一编码网络，基于拼接文本中每一句话的位置特征和拼接文本中每一个字符的位置特征，对拼接文本进行编码处理，得到第一文本特征。可以理解的是，第一编码网络的结构不同，通过第一编码网络对拼接文本进行编码处理的方式也存在差异。

以第一编码网络包括多个Transformer编码层为例，一个Transformer编码层包括一个带掩码的多头自注意力网络、两个归一化层和一个前馈神经网络。其中，一个Transformer编码层的输入为带掩码的多头自注意力网络的输入，带掩码的多头自注意力网络的输入和输出进行拼接，将拼接结果作为第一个归一化层的输入，第一个归一化层的输出作为前馈神经网络的输入，前馈神经网络的输入和输出进行拼接，将拼接结果作为第二个归一化层的输入，第二个归一化层的输出为这个Transformer编码层的输出。

本申请实施例中，将拼接文本中每一句话的位置特征拼接在对应话之前或者之后，将拼接文本中每一个字符的位置特征拼接在对应字符之前或者之后，得到第一编码网络中第一个Transformer编码层的输入。通过第一个Transformer编码层对该Transformer编码层的输入进行编码处理，得到该Transformer编码层的输出。第一个Transformer编码层的输出作为第二个Transformer编码层的输入，通过第二个Transformer编码层对该Transformer编码层的输入进行编码处理，得到该Transformer编码层的输出。以此类推，将上一个Transformer编码层的输出作为下一个Transformer编码层的输入，通过下一个Transformer编码层对该Transformer编码层的输入进行编码处理，得到该Transformer编码层的输出，按照这种方式，得到最后一个Transformer编码层的输出，且最后一个Transformer编码层的输出为第一文本特征。

通过任一个Transformer编码层对该Transformer编码层的输入进行编码处理，得到该Transformer编码层的输出时，首先，该Transformer编码层的输入为带掩码的多头自注意力网络的输入。通过带掩码的多头自注意力网络对带掩码的多头自注意力网络的输入进行注意力处理，得到带掩码的多头自注意力网络的输出。接着，将带掩码的多头自注意力网络的输入和输出进行拼接，将拼接结果作为第一个归一化层的输入，通过第一个归一化层对该归一化层的输入进行归一化处理，得到第一个归一化层的输出，且该归一化层的输出作为前馈神经网络的输入。然后，通过前馈神经网络对前馈神经网络的输入进行特征变换和提取，得到前馈神经网络的输出，将前馈神经网络的输入和输出进行拼接，将拼接结果作为第二个归一化层的输入。之后，通过第二个归一化层对该归一化层的输入进行归一化处理，得到第二个归一化层的输出，且第二个归一化层的输出为这个Transformer编码层的输出。

通过这种方式，不断地对拼接文本进行特征转换和处理，提取拼接文本的更深层特征，得到第一文本特征，使得第一文本特征具有较强的特征表达能力，有利于基于第一文本特征解码出准确地第一参考文本，从而提高文本生成模型的训练效果。

步骤2023，通过第一解码网络对第一文本特征进行解码处理，得到多个第一参考文本。

本申请实施例中，可以将第一文本特征输入第一解码网络，先通过第一解码网络将第一文本特征转换成多个参考文本特征，通过任一个参考文本特征来描述一个第一参考文本，接着，通过第一解码网络将各个参考文本特征转换为对应的第一参考文本。

上文已提及，通过第一编码网络，基于拼接文本中每一句话的位置特征和拼接文本中每一个字符的位置特征，对拼接文本进行编码处理，得到第一文本特征。相对应地，在解码处理时，可以通过第一解码网络，基于拼接文本中每一句话的位置特征和拼接文本中每一个字符的位置特征，对第一文本特征进行解码处理，得到多个第一参考文本。

可以理解的是，第一解码网络的结构不同，通过第一解码网络对第一文本特征进行解码处理的方式也存在差异。以第一解码网络包括多个Transformer解码层为例，一个Transformer解码层的结构和图3所示的解码层的结构相同。

本申请实施例中，拼接文本包括至少一句话，每一句话包括至少一个字符，对拼接文本进行编码处理，得到第一文本特征，且该第一文本特征包括拼接文本中每一个字符对应的特征。基于此，可以将拼接文本中每一句话的位置特征拼接在对应话对应的特征之前或者之后，将拼接文本中每一个字符的位置特征拼接在对应字符对应的特征之前或者之后，得到第一解码网络中第一个Transformer解码层的输入。通过第一个Transformer解码层对该Transformer解码层的输入进行解码处理，得到该Transformer解码层的输出。第一个Transformer解码层的输出作为第二个Transformer解码层的输入，通过第二个Transformer解码层对该Transformer解码层的输入进行解码处理，得到该Transformer解码层的输出。以此类推，将上一个Transformer解码层的输出作为下一个Transformer解码层的输入，通过下一个Transformer解码层对该Transformer解码层的输入进行解码处理，得到该Transformer解码层的输出，按照这种方式，得到最后一个Transformer解码层的输出，且最后一个Transformer解码层的输出为一个参考文本特征。

通过任一个Transformer解码层对该Transformer解码层的输入进行解码处理，得到该Transformer解码层的输出时，首先，该Transformer解码层的输入为带掩码的多头自注意力网络的输入。通过带掩码的多头自注意力网络对带掩码的多头自注意力网络的输入进行注意力处理，得到带掩码的多头自注意力网络的输出。接着，将带掩码的多头自注意力网络的输入和输出进行拼接，将拼接结果作为第一个归一化层的输入，通过第一个归一化层对该归一化层的输入进行归一化处理，得到第一个归一化层的输出，且该归一化层的输出作为前馈神经网络的输入。然后，通过前馈神经网络对前馈神经网络的输入进行特征变换和提取，得到前馈神经网络的输出，将前馈神经网络的输入和输出进行拼接，将拼接结果作为第二个归一化层的输入。之后，通过第二个归一化层对该归一化层的输入进行归一化处理，得到第二个归一化层的输出，且第二个归一化层的输出为这个Transformer解码层的输出。

通过这种方式，不断地对第一文本特征进行特征转换和处理，提取更深层特征，得到参考文本特征。其中，第一解码网络的最后一个Transformer解码层与嵌入层连接，通过嵌入层将最后一个Transformer解码层的输出即参考文本特征映射为第一参考文本。

可选地，第一解码网络包括并列的多组网络。一组网络包括多个Transformer解码层和一个嵌入层，该组网络用于按照上文提及的解码处理的方式，将第一文本特征转换为参考文本特征，并将参考文本特征映射为第一参考文本。由于各组网络的网络参数存在差异，因此，不同组网络可以将同一个第一文本特征转换为不同的参考文本特征，从而将不同的参考文本特征映射为不同的第一参考文件。

在一种可能的实现方式中，步骤202之前还包括步骤2024至步骤2026(图中未示出)。

步骤2024，通过原始网络模型基于样本对局数据确定多个第一候选文本，任一个第一候选文本用于描述样本游戏对局的事件。

本申请实施例中，可以将样本对局数据输入原始网络模型，或者，将样本对局数据和样本风格信息输入原始网络模型，由原始网络模型输出样本对局数据的多个第一候选文本，任一个第一候选文本为解说文本或者指导文本。其中，原始网络模型在进行至少一次的参数调整后得到第一网络模型，因此，原始网络模型的结构和第一网络模型的结构相类似。基于此，原始网络模型基于样本对局数据确定第一候选文本的方式和第一网络模型基于样本对局数据确定第一参考选文本的方式相类似，因此，步骤2024的实现方式可以见步骤202(包括步骤2021至步骤2023)的描述，在此不再赘述。

步骤2025，从多个第一候选文本中筛选出多个标准参考文本。

本申请实施例中，可以通过人工筛选的方式，从多个第一候选文本中筛选出多个标准参考文本。或者，对于任一个第一候选文本，对该第一候选文本进行关键词提取，如果提取得到的关键词的数量不小于数量阈值，则将该第一候选文本作为一个标准参考文本，通过这种方式，从多个第一候选文本中筛选出多个标准参考文本。

可选地，步骤2025包括步骤A1至步骤A3(图中未示出)。

步骤A1，对样本对局数据进行归因分析，得到样本游戏对局中的样本事件的影响信息，样本事件的影响信息用于描述样本事件的发生导致样本游戏对象取得样本游戏对局的胜利或者失败的信息。

本申请实施例中，可以获取训练好的归因分析模型，通过归因分析模型对样本对局数据进行归因分析。

可选地，获取训练游戏对象进行训练游戏对局的训练对局数据和训练游戏对局中的标注事件的影响信息，标注事件的影响信息用于描述标注事件的发生导致训练游戏对象取得训练游戏对局的胜利或者失败的信息。通过初始网络模型对训练对局数据进行归因分析，得到训练游戏对局中的预测事件的影响信息，标注事件的影响信息用于描述预测事件的发生导致训练游戏对象取得训练游戏对局的胜利或者失败的信息。通过标注事件的影响信息和预测事件的影响信息，确定初始网络模型的损失，并通过初始网络模型的损失对初始网络模型进行训练，得到训练后的初始网络模型。

如果训练后的初始网络模型对应的迭代次数达到次数阈值，则将训练后的初始网络模型作为归因分析模型。

如果训练后的初始网络模型对应的迭代次数未达到次数阈值，则将训练后的初始网络模型作为下一次训练的初始网络模型，通过训练对局数据和标注事件的影响信息对初始网络模型进行下一次训练，直至训练后的初始网络模型对应的迭代次数达到次数阈值，将训练后的初始网络模型作为归因分析模型为止。

接着，使用归因分析模型对样本对局数据进行归因分析。可选地，样本对局数据包括多个维度的数据，任一个维度的数据用于描述一个事件。例如，样本对局数据为：{‘样本游戏对象控制的虚拟对象的名称’：O，……，‘防御塔的数量’：3，……，‘中立虚拟对象的数量’：3}。一个维度的数据为‘样本游戏对象控制的虚拟对象的名称’：O，该维度的数据描述了样本游戏对象控制虚拟对象O的事件。又如，一个维度的数据为‘防御塔的数量’：3，该维度的数据描述了样本游戏对象所在的队伍拥有3座防御塔的事件。

可以通过归因分析模型基于各个维度的数据确定各个维度的信息，任一个维度的信息用于描述该维度对应的事件的发生导致样本游戏对象取得样本游戏对局的胜利或者失败的信息。可选地，任一个维度的信息为正值，表明该维度对应的事件的发生会导致样本游戏对象取得样本游戏对局的胜利，且正值越大，胜利的可能性越大。相对应地，任一个维度的信息为负值，表明该维度对应的事件的发生会导致样本游戏对象取得样本游戏对局的失败，且负值越小，失败的可能性越大。

接下来，通过归因分析模型确定各个维度的信息的平均值，并计算平均值和各个维度的信息之和，得到游戏对局信息，游戏对局信息用于描述样本游戏对象取得样本游戏对局的胜利或者失败的信息。可选地，游戏对局信息为正值，表明样本游戏对象取得样本游戏对局的胜利，且正值越大，胜利的可能性越大。相对应地，游戏对局信息为负值，表明样本游戏对象取得样本游戏对局的失败，且负值越小，失败的可能性越大。

根据游戏对局信息，从各个维度的信息中筛选出样本事件的影响信息。可选地，如果游戏对局信息描述样本游戏对象取得样本游戏对局的胜利，则从各个维度的信息中筛选出至少一个第一维度的信息，任一个第一维度的信息描述该第一维度对应的事件的发生会导致样本游戏对象取得样本游戏对局的胜利。相对应地，如果游戏对局信息描述样本游戏对象取得样本游戏对局的失败，则从各个维度的信息中筛选出至少一个第二维度的信息，任一个第二维度的信息描述该第一维度对应的事件的发生会导致样本游戏对象取得样本游戏对局的失败。将任一个第一维度的信息作为一个样本事件的影响信息，将任一个第二维度的信息作为一个样本事件的影响信息。

在示例性实施例中，可以配置第一阈值和第二阈值，且第一阈值大于第二阈值。任一个第一维度的信息不小于第一阈值，且任一个第二维度的信息不大于第二阈值。第一阈值和第二阈值可以根据经验设定，也可以根据各个维度的信息确定。

例如，按照从大到小的顺序对各个维度的信息进行排序，将序号是第一序号的维度的信息作为第一阈值，将序号是第二序号的维度的信息作为第二阈值。这种情况下，第一序号的维度的信息和第一序号之前各序号的维度的信息均为样本事件的影响信息，第二序号的维度的信息和第二序号之后各序号的维度的信息均为样本事件的影响信息。如果第一序号为5，则排序前5个维度的信息均为样本事件的影响信息，相当于从各维度对应的事件中取导致样本游戏对象取得样本游戏对局的胜利可能性高的前5个事件。如果第二序号为5，则排序后5个维度的信息均为样本事件的影响信息，相当于从各维度对应的事件中取导致样本游戏对象取得样本游戏对局的失败可能性高的前5个事件。

在实际应用中，可以不考虑游戏对局信息，直接从各个维度的信息中筛选出至少一个样本事件的影响信息。也就是说，无论游戏对局信息描述样本游戏对象取得样本游戏对局的胜利，还是游戏对局信息描述样本游戏对象取得样本游戏对局的失败，均可以从各个维度的信息中筛选出第一维度的信息和第二维度的信息中的至少一项，将第一维度的信息和第二维度的信息中的至少一项作为样本事件的影响信息。其中，第一维度的信息为至少一个，第二维度的信息也为至少一个。

可以理解的是，样本事件的影响信息是一个数值，该数值对应样本事件，且该数值可以表征样本事件的发生导致样本游戏对象取得样本游戏对局的胜利以及胜利的可能性，或者该数值可以表征样本事件的发生导致样本游戏对象取得样本游戏对局的失败以及失败的可能性。

步骤A2，对于任一个第一候选文本，从任一个第一候选文本中提取第一事件，对第一事件进行分析，得到第一事件的影响信息，第一事件的影响信息用于描述第一事件的发生导致样本游戏对象取得样本游戏对局的胜利或者失败的信息。

本申请实施例中，任一个第一候选文本用于描述样本游戏对局的事件。基于此，可以对任一个第一候选文本进行分词，并基于分词结果确定第一事件，其中，第一事件为至少一个。

接着，基于规则匹配或者使用分析模型对第一事件进行分析，得到第一事件的影响信息。其中，在基于规则匹配对第一事件进行分析时，可以获取事件与影响信息之间的映射关系表，基于该映射关系表，将第一事件映射为第一事件的影响信息。在使用分析模型对第一事件进行分析时，可以获取现有的分析模型或者先训练得到分析模型，该分析模型的训练方式在此不再赘述。接着，将第一事件输入分析模型，通过分析模型对第一事件进行特征提取，得到第一事件的特征，并将第一事件的特征映射为第一事件的影响信息。

其中，第一事件的影响信息是一个数值，该数值对应第一事件，且该数值可以表征第一事件的发生导致样本游戏对象取得样本游戏对局的胜利以及胜利的可能性，或者该数值可以表征第一事件的发生导致样本游戏对象取得样本游戏对局的失败以及失败的可能性。

步骤A3，在样本事件的影响信息和第一事件的影响信息满足筛选条件的情况下，确定任一个第一候选文本为标准参考文本。

本申请实施例中，可以对比各个样本事件的影响信息和各个第一事件的影响信息，如果对比结果满足筛选条件，则将任一个第一候选文本确定为标准参考文本，如果对比结果不满足筛选条件，则过滤掉任一个第一候选文本。

本申请实施例不限定对比结果满足筛选条件的内容。可选地，对比结果包括样本事件和第一事件的重合率，如果重合率大于阈值(例如，75％)，则确定对比结果满足筛选条件。或者，对比结果包括导致胜利的样本事件和导致胜利的第一事件的第一重合率、导致失败的样本事件和导致失败的第一事件的第二重合率，如果第一重合率和第二重合率均大于阈值，则确定对比结果满足筛选条件。

步骤2026，通过多个标准参考文本对原始网络模型进行训练，得到第一网络模型。

本申请实施例中，可以计算任一个标准参考文本和任一个第一候选文本之间的文本距离，其中，文本距离的计算方式在此不做限定。示例性地，可以按照编辑距离或者余弦距离或者杰卡德(Jaccard)距离的计算方式，计算标准参考文本和第一候选文本之间的文本距离。

接着，将各个标准参考文本和各个第一候选文本之间的文本距离的平均值或者和等，作为原始网络模型的损失，通过原始网络模型的损失对原始网络模型进行参数调整，得到调整后的原始网络模型。

如果调整后的原始网络模型满足训练结束条件，则将调整后的原始网络模型作为第一网络模型。

如果调整后的原始网络模型不满足训练结束条件，则将调整后的原始网络模型作为下一次训练的原始网络模型，对该原始网络模型进行下一次训练，直至得到第一网络模型为止。可选地，按照步骤2024的实现原理，通过调整后的原始网络模型基于样本对局数据确定多个第二候选文本，并按照步骤2026的实现原理，基于多个第二候选文本和多个标准参考文本对调整后的原始网络模型进行训练，得到第一网络模型。或者，按照步骤2024的实现原理，通过调整后的原始网络模型基于样本对局数据确定多个第二候选文本，按照步骤2025的实现原理，从多个第二候选文本中重新挑选出标准参考文本，按照步骤2026的实现原理，基于多个第二候选文本和重新挑选的标准参考文本对调整后的原始网络模型进行训练，得到第一网络模型。

本申请实施例不对调整后的原始网络模型满足训练结束条件做限定，示例性地，调整后的原始网络模型满足训练结束条件指的是：调整后的原始网络模型对应的调整次数达到次数阈值，或者，调整后的原始网络模型的参数在设定范围内，或者，调整后的原始网络模型的参数和原始网络模型的参数之间的差值在设定范围内。

本申请实施例中，样本事件是样本游戏对局中发生的能影响胜利或者失败的事件，第一事件是第一候选文本涉及的能影响胜利或者失败的事件。通过样本事件的影响信息和第一事件的影响信息，从各个第一候选文本中筛选出标准参考文本，实现了筛选出与胜利或者失败强相关的文本，过滤掉与胜利或者失败弱相关的文本，保证了标准参考文本是与胜利或者失败强相关的文件，提高了标准参考文本的质量，从而提高了第一网络模型的训练效果。

步骤203，通过质量指标确定模型基于样本对局数据和各个第一参考文本，确定各个第一参考文本的参考质量指标。

本申请实施例中，可以先训练得到质量指标确定模型，质量指标确定模型用于确定文本的参考质量指标，再使用质量指标确定模型确定第一参考文本的参考质量指标。其中，质量指标确定模型的结构、大小、参数等不做限定。示例性地，质量指标确定模型包括注意力网络、自注意力网络、多头注意力网络、多头自注意力网络、多头交叉注意力网络、带掩码的多头自注意力网络、前馈神经网络、卷积层、反卷积层、归一化层、激活层和池化层等中的至少一项。

下面介绍质量指标确定模型的训练方式。在一种可能的实现方式中，本申请实施例的方法还包括步骤205至步骤207(图中未示出)，其中，步骤205至步骤207在步骤203之前执行。

步骤205，对各个第一参考文本进行质量排序，得到各个第一参考文本的排序顺序。

本申请实施例中，可以先获取现有的文本质量评估模型或者训练得到文本质量评估模型，其中，文本质量评估模型的训练方式在本申请实施例不再赘述。接着，将任一个第一参考文本输入文本质量评估模型，通过文本质量评估模型输出该第一参考文本的质量指标，通过第一参考文本的质量指标描述第一参考文本的质量。之后，按照质量指标从小到大的顺序或者按照质量指标从大到小的顺序，对各个第一参考文本进行排序，从而实现对各个第一参考文本进行质量排序，得到各个第一参考文本的排序顺序。

也可以通过人工排序的方式，对各个第一参考文本进行质量排序。例如，越早选中第一参考文本，第一参考文本的质量越高，基于此，电子设备根据选中各个第一参考文本的顺序对各个第一参考文本进行质量排序，得到各个第一参考文本的排序顺序。或者，第一参考文本在显示界面中的位置越前，第一参考文本的质量越高，基于此，电子设备根据各个第一参考文本在显示界面中的位置对各个第一参考文本进行质量排序，得到各个第一参考文本的排序顺序。

可以理解的是，第一参考文本的排序顺序可以和第一参考文本的质量正相关，也就是说，第一参考文本的排序顺序越后，第一参考文本的质量越高。第一参考文本的排序顺序也可以和第一参考文本的质量负相关，也就是说，第一参考文本的排序顺序越后，第一参考文本的质量越低。

步骤206，通过第二网络模型基于样本对局数据和各个第一参考文本，确定各个第一参考文本的预测质量指标。

本申请实施例中，可以将样本对局数据和任一个第一参考文本输入第二网络模型，通过第二网络模型确定该第一参考文本的预测质量指标，通过第一参考文本的预测质量指标来描述通过第二网络模型预测得到的第一参考文本的质量。通过这种方式，可以确定各个第一参考文本的预测质量指标。

本申请实施例不对第二网络模型的结构、大小和参数做限定，示例性地，第二网络模型包括注意力网络、自注意力网络、多头注意力网络、多头自注意力网络、多头交叉注意力网络、带掩码的多头自注意力网络、前馈神经网络、卷积层、反卷积层、归一化层、激活层和池化层等中的至少一项。

可选地，第二网络模型包括第二编码网络、第三编码网络和第二解码网络。步骤206包括步骤B1至步骤B3(图中未示出)。

本申请实施例中，第二编码网络和第三编码网络并联，之后，串联第二解码网络。本申请实施例不对第二编码网络、第三编码网络和第二解码网络的结构、大小、参数等做限定，示例性地，第二编码网络和第三编码网路和上文提及的第一编码网络的结构相类似，第二解码网络包括全连接(Fully Connected，FC)层。

步骤B1，通过第二编码网络对样本风格信息和样本对局数据进行编码处理，得到第二文本特征，第二文本特征用于描述具有样本风格信息所描述的文本风格且与样本对局数据相关的文本的特征。

本申请实施例中，可以将样本风格信息拼接在样本对局数据之前或者之后，得到拼接文本，并将拼接文本输入第二编码网络。通过第二编码网络对拼接文本进行编码处理，得到第二文本特征。其中，第二文本特征是描述具有样本风格信息对应的文本风格且与样本对局数据相关的文本的特征，因此，第二文本特征既能描述样本风格信息对应的文本风格，又能描述与样本对局数据的相关的游戏内容。

其中，第二编码网络和第一编码网路的结构、功能相类似。可选地，第二编码网络可以为上文提及的第一编码网络，也可以是对第一编码网络进行至少一次的参数调整后得到网络。步骤B1的实现方式可以见步骤2022的描述，二者实现原理相类似，在此不再赘述。

步骤B2，对于任一个第一参考文本，通过第三编码网络对任一个第一参考文本进行特征提取，得到任一个第一参考文本的文本特征。

本申请实施例中，可以将任一个第一参考文本输入第三编码网络，通过第三编码网络对该第一参考文本进行编码处理。可选地，第一参考文本包括至少一句话，每一句话包括至少一个字符，可以确定第一参考文本中每一句话的位置特征和第一参考文本中每一个字符的位置特征，通过任一句话的位置特征描述这句话在第一参考文本中的位置，通过任一个字符的位置特征描述这个字符在第一参考文本中的位置，或者，通过任一个字符的位置特征描述这个字符在话中的位置。接着，通过第三编码网络，基于第一参考文本中每一句话的位置特征和第一参考文本中每一个字符的位置特征，对第一参考文本进行编码处理，得到第一参考文本的文本特征。

可以理解的是，第三编码网络的结构不同，通过第三编码网络对第一参考文本进行编码处理的方式也存在差异。可选地，第三编码网络和第一编码网络的结构相类似，基于此，步骤B2的实现方式可以见步骤2022的描述，二者实现原理相类似，在此不再赘述。

步骤B3，通过第二解码网络基于第二文本特征和任一个第一参考文本的文本特征，确定任一个第一参考文本的预测质量指标。

本申请实施例中，可以将第二文本特征和任一个第一参考文本的文本特征输入第二解码网络，通过第二解码网络计算第二文本特征和第一参考文本的文本特征之间的特征距离，并将特征距离映射为第一参考文本的预测质量指标。本申请实施例不对特征距离的计算方式做限定，示例性地，可以基于余弦距离的实现原理或者基于欧式距离的实现原理或者基于曼哈顿距离的实现原理，计算第二文本特征和第一参考文本的文本特征之间的特征距离。

可以理解的是，第二文本特征和第一参考文本的文本特征之间的特征距离越小，表明第一参考文本的文本风格越接近样本风格信息所描述的文本风格，且第一参考文本与样本对局数据的相关性越高，使得第一参考文本的质量越高。因此，可以通过第二解码网络将第二文本特征和第一参考文本的文本特征之间的特征距离映射为第一参考文本的预测质量指标，提高预测质量指标的准确性。

步骤207，基于各个第一参考文本的排序顺序和各个第一参考文本的预测质量指标，对第二网络模型进行训练，得到质量指标确定模型。

本申请实施例中，可以基于各个第一参考文本的排序顺序和各个第一参考文本的预测质量指标，确定第二网络模型的损失，并基于第二网络模型的损失，调整第二网络模型的模型参数，得到调整后的第二网络模型。

如果调整后的第二网络模型满足第一结束条件，则将调整后的第二网络模型作为质量指标确定模型。

如果调整后的第二网络模型不满足第一结束条件，则将调整后的第二网络模型作为下一次训练的第二网络模型。重新执行步骤206，得到各个第一参考文本的预测质量指标。接着，基于各个第一参考文本的排序顺序和各个第一参考文本的预测质量指标，确定第二网络模型的损失，并基于第二网络模型的损失，调整第二网络模型的模型参数，直至调整后的第二网络模型满足第一结束条件，将调整后的第二网络模型作为质量指标确定模型为止。

本申请实施例不对调整后的第二网络模型满足第一结束条件的内容做限定，示例性地，调整后的第二网络模型满足第一结束条件指的是：调整后的第二网络模型对应的调整次数达到次数阈值，或者，调整后的第二网络模型的参数在设定范围内，或者，调整后的第二网络模型的参数和第二网络模型的参数之间的差值在设定范围内。

可选地，步骤207包括步骤C1至步骤C2(图中未示出)。

步骤C1，对于任两个第一参考文本，将任两个第一参考文本中排序顺序在前的第一参考文本的预测质量指标减去排序顺序在后的第一参考文本的预测质量指标，得到质量指标差值，基于质量指标差值确定任两个第一参考文本对应的损失，排序顺序在前的第一参考文本的质量高于排序顺序在后的第一参考文本的质量。

本申请实施例中，如果第一参考文本的排序顺序和第一参考文本的质量负相关，则第一参考文本的排序顺序越前，第一参考文本的质量越高。基于此，将任两个第一参考文本中排序顺序在前的第一参考文本的预测质量指标减去排序顺序在后的第一参考文本的预测质量指标，得到质量指标差值。

可以理解的是，如果第一参考文本的排序顺序和第一参考文本的质量正相关，则第一参考文本的排序顺序越前，第一参考文本的质量越低。基于此，将任两个第一参考文本中排序顺序在后的第一参考文本的预测质量指标减去排序顺序在前的第一参考文本的预测质量指标，得到质量指标差值。

接下来，基于质量指标差值确定任两个第一参考文本对应的损失。本申请实施例不对确定方式做限定，示例性地，可以将质量指标差值作为任两个第一参考文本对应的损失，或者，对质量指标差值进行加权，得到任两个第一参考文本对应的损失，或者，使用任意的映射函数先将质量指标差值映射为参考值，再计算参考值的对数所满足的统计分布，将该统计分布的均值作为任两个第一参考文本对应的损失。

步骤C2，基于每两个第一参考文本对应的损失，对第二网络模型进行训练，得到质量指标确定模型。

本申请实施例中，按照步骤C1的方式，可以计算出每两个第一参考文本对应的损失。接着，基于每两个第一参考文本对应的损失，计算第二网络模型的损失。

可选地，第一参考文本的数量为K个，则每两个第一参考文本进行组合，可以得到

其中，loss(θ)表征第二网络模型的损失。x表征样本对局数据，或者，x表征样本对局数据和样本风格信息，y

接下来，基于第二网络模型的损失对第二网络模型进行训练，得到质量指标确定模型。其中，上文已描述了训练方式，在此不再赘述。

之后，可以将样本对局数据和任一个第一参考文本输入质量指标确定模型，通过质量指标确定模型确定该第一参考文本的参考质量指标，通过第一参考文本的参考质量指标来描述通过质量指标确定模型预测得到的第一参考文本的质量。通过这种方式，可以确定各个第一参考文本的参考质量指标。

由于质量指标确定模型可以由第二网络模型训练得到，因此，质量指标确定模型确定第一参考文本的参考质量指标的方式，和第二网络模型确定第一参考文本的预测质量指标的方式相类似，可以见步骤206的描述，在此不再赘述。

步骤204，基于各个第一参考文本的参考质量指标，对第一网络模型进行训练，得到文本生成模型，文本生成模型用于基于目标游戏对象进行目标游戏对局的目标对局数据确定目标参考文本。

本申请实施例中，可以基于各个第一参考文本的参考质量指标，确定第一网络模型的损失，并基于第一网络模型的损失对第一网络模型进行参数调整，得到调整后的第一网络模型，基于调整后的第一网络模型确定文本生成模型。其中，第一网络模型的损失的确定方式在本申请实施例中不做限定，示例性地，可以将各个第一参考文本的参考质量指标的平均值作为第一网络模型的损失，或者，任一个第一参考文本的参考质量指标满足统计分布，可以将该统计分布的均值作为该第一参考文本对应的损失，将各个第一参考文本对应的损失的均值或和作为第一网络模型的损失。

在一种可能的实现方式中，步骤204包括步骤2041至步骤2044(图中未示出)。

步骤2041，基于各个第一参考文本的参考质量指标，对第一网络模型进行训练，得到第三网络模型。

本申请实施例中，可以基于各个第一参考文本的参考质量指标，确定第一网络模型的损失，基于第一网络模型的损失对第一网络模型进行参数调整，得到调整后的第一网络模型，该调整后的第一网络模型也称为第三网络模型。

步骤2042，基于第三网络模型不满足训练结束条件，通过第三网络模型基于样本对局数据确定多个第二参考文本，任一个第二参考文本用于描述样本游戏对局的事件。

本申请实施例中，如果第三网络模型满足训练结束条件，则将第三网络模型作为文本生成模型。

如果第三网络模型不满足训练结束条件，则将样本对局数据输入第三网络模型，通过第三网络模型对样本对局数据进行特征提取，得到用于表征样本对局数据的特征，接着，将用于表征样本对局数据的特征转化为多个第二参考特征，第二参考特征是第二参考文本的特征。之后，对任一个第二参考特征进行解码，得到一个第二参考文本。根据这种方式，可以确定多个第二参考文本。

本申请实施例不对第三网络模型满足训练结束条件的内容做限定，示例性地，第三网络模型满足训练结束条件指的是：第三网络模型对应的调整次数达到次数阈值，或者，第三网络模型的参数在设定范围内，或者，第三网络模型的参数和第一网络模型的参数之间的差值在设定范围内。

可以理解的是，由于第三网络模型是训练后的第一网络模型，因此，第三网络模型和第一网络模型的结构相类似。基于此，通过第三网络模型确定第二参考文本的方式和通过第一网络模型确定第一参考文本的方式相类似，也就是说，步骤2042的实现原理和步骤202的实现原理相类似，可以见步骤202的描述，在此不再赘述。

步骤2043，通过质量指标确定模型基于样本对局数据和多个第二参考文本，确定各个第二参考文本的参考质量指标。

本申请实施例中，可以将样本对局数据和任一个第二参考文本输入质量指标确定模型，通过质量指标确定模型确定该第二参考文本的参考质量指标，通过第二参考文本的参考质量指标来描述通过质量指标确定模型预测得到的第二参考文本的质量。通过这种方式，可以确定各个第二参考文本的参考质量指标。

由于质量指标确定模型可以由第二网络模型训练得到，因此，质量指标确定模型确定第二参考文本的参考质量指标的方式，和第二网络模型确定第一参考文本的预测质量指标的方式相类似，可以见步骤206的描述，在此不再赘述。

步骤2044，基于各个第二参考文本的参考质量指标，对第三网络模型进行训练，得到文本生成模型。

本申请实施例中，可以基于各个第二参考文本的参考质量指标，确定第三网络模型的损失，基于第三网络模型的损失对第三网络模型进行参数调整，得到调整后的第三网络模型，基于调整后的第三网络模型确定文本生成模型。

可选地，步骤2044包括：基于第三网络模型的模型参数和第一网络模型的模型参数，确定参考信息，参考信息用于描述模型参数的变化情况；基于参考信息和各个第二参考文本的参考质量指标，确定第三网络模型的损失；基于第三网络模型的损失，对第三网络模型进行训练，得到文本生成模型。

本申请实施例中，可以先基于第三网络模型的模型参数和第一网络模型的模型参数，确定参考信息，其中，参考信息的确定方式在本申请实施例不做限定。示例性地，参考信息是第三网络模型的模型参数和第一网络模型的模型参数之间的比值或者差值，或者，参考信息是对比值或者差值进行加权得到。

然后，基于参考信息和任一个第二参考文本的参考质量指标，确定该第二参考文本对应的损失。本申请实施例不对第二参考文本对应的损失的确定方式做限定，示例性地，对参考信息和任一个第二参考文本的参考质量指标进行求和、加权求和、加权求平均等，得到的结果作为第二参考文本对应的损失。或者，确定参考信息和任一个第二参考文本的参考质量指标满足的统计分布，将统计分布的均值作为第二参考文本对应的损失。

可选地，对参考信息的对数进行加权，得到加权值。任一个第二参考文本的参考质量指标减去加权值得到的差值满足统计分布，将统计分布的均值作为第二参考文本对应的损失。第二参考文本对应的损失如下公式(2)所示。

其中，objective(φ)表征第二参考文本y对应的损失。x表征样本对局数据，或者，x表征样本对局数据和样本风格信息，y表征第二参考文本，y′表征第一参考文本。M

接下来，将各个第二参考文本对应的损失之和或者平均值等，作为第三网络模型的损失。基于第三网络模型的损失对第三网络模型进行参数调整，得到调整后的第三网络模型。

如果调整后的第三网络模型满足训练结束条件，则将调整后的第三网络模型作为文本生成模型。

如果调整后的第三网络模型不满足训练结束条件，则先按照步骤2042的实现原理，通过调整后的第三网络模型基于样本对局数据确定多个第三参考文本，任一个第三参考文本用于描述样本游戏对局的事件。接着，按照步骤2043的实现原理，通过质量指标确定模型确定各个第三参考文本的参考质量指标。之后，按照步骤2044的实现原理，基于各个第三参考文本的参考质量指标，对调整后的第三网络模型再次进行调整，直至调整后的模型满足训练结束条件，则得到文本生成模型位置。

其中，调整后的第三网络模型满足训练结束条件、调整后的模型满足训练结束条件，与第三网络模型满足训练结束条件的内容相类似，在此不再赘述。

本申请实施例中，基于各个第二参考文本的参考质量指标确定第三网络模型的损失，使得通过第三网络模型的损失训练得到的模型可以朝着向生成高质量文本的方向进行优化，从而使得训练得到的文本生成模型可以生成高质量的文本。此外，随着模型的优化，调整后的模型生成的文本和质量指标确定模型的训练数据(即第一参考文本)之间的差异会越来越大，导致质量指标确定模型不再适用于评估生成的文本的质量指标。基于参考信息确定第三网络模型的损失，使得通过第三网络模型的损失训练得到的模型生成的文本和第一参考文本之间的差异较小，从而可以不断地使用质量指标确定模型来训练文本生成模型，使文本生成模型生成高质量的文本。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。例如，本申请中涉及到的样本对局数据、样本风格信息等都是在充分授权的情况下获取的。

上述方法中，先通过第一网络模型基于样本对局数据确定多个第一参考文本。接着，通过质量指标确定模型基于样本对局数据和各个第一参考文本，确定各个第一参考文本的参考质量指标。之后，基于各个第一参考文本的参考质量指标，对第一网络模型进行训练，得到文本生成模型。通过第一参考文本的参考质量指标对第一网络模型进行训练，有利于使模型朝着能生成高质量文本的方向进行优化，提高文本生成模型的准确性，从而使文本生成模型能生成高质量的文本。此外，通过质量指标确定模型确定第一参考文本的参考质量指标，避免了人工标注，可以提高文本生成模型的训练效率。

本申请实施例还提供了一种文本生成方法，该方法可应用于上述实施环境中，可以使用文本生成模型生成高质量的文本。以图4所示的本申请实施例提供的一种文本生成方法的流程图为例，为便于描述，将执行本申请实施例中的文本生成方法的终端设备101或者服务器102称为电子设备，该方法可以由电子设备来执行。如图4所示，该方法包括如下步骤。

步骤401，获取目标游戏对象进行目标游戏对局的目标对局数据。

本申请实施例中，目标游戏对象是参与任意游戏对局的任意对象，目标游戏对象参与的任意游戏对局为目标游戏对局，游戏对局可以是任意游戏的对局，可以将目标游戏对局中第三时刻至第四时刻的数据作为目标对局数据。其中，步骤401的内容和步骤201的内容相类似，可以见步骤201的描述，在此不再赘述。

步骤402，通过文本生成模型基于目标对局数据确定目标参考文本，目标参考文本用于描述目标游戏对局的事件。

其中，文本生成模型是按照与图2相关的文本生成模型的训练方法训练得到的。

本申请实施例中，可以将目标对局数据输入文本生成模型，通过文本生成模型对目标对局数据进行特征提取，得到用于表征目标对局数据的特征，接着，将用于表征目标对局数据的特征转化为多个目标参考特征，目标参考特征是征目标参考文本的特征。之后，对任一个目标参考文本的特征进行解码，得到目标参考文本。根据这种方式，可以确定多个目标参考文本。

其中，步骤402的实现原理和步骤202的实现原理相类似，可以见步骤202的描述，在此不再赘述。

在一种可能的实现方式中，步骤402包括步骤4021至步骤4023(图中未示出)。

步骤4021，获取目标风格信息，目标风格信息用于描述目标参考文本的文本风格。

电子设备可以获取目标风格信息，且目标风格信息的内容、获取方式等在本申请实施例不做限定。示例性地，电子设备可以获取输入的目标风格信息，或者，电子设备可以从多个候选的风格信息中随机确定一个风格信息，将确定出的风格信息作为目标风格信息。其中，步骤4021的实现原理和步骤2021的实现原理相类似，可以见步骤2021的描述，在此不再赘述。

步骤4022，通过文本生成模型对目标风格信息和目标对局数据进行编码处理，得到目标文本特征，目标文本特征用于描述具有目标风格信息所描述的文本风格且与目标对局数据相关的文本的特征。

本申请实施例中，可以将目标风格信息拼接在目标对局数据之前或者之后，得到拼接文本，并将拼接文本输入文本生成模型。通过文本生成模型对拼接文本进行编码处理，得到目标文本特征。其中，目标文本特征是描述具有目标风格信息对应的文本风格且与目标对局数据相关的文本的特征，因此，目标文本特征既能描述目标风格信息对应的文本风格，又能描述与目标对局数据的相关的游戏内容。其中，步骤4022的实现原理和步骤2022的实现原理相类似，可以见步骤2022的描述，在此不再赘述。

步骤4023，通过文本生成模型对目标文本特征进行解码处理，得到目标参考文本。

本申请实施例中，通过文本生成模型得到目标文本特征之后，可以先通过文本生成模型将目标文本特征转换成多个文本特征，通过任一个文本特征来描述一个目标参考文本，接着，通过文本生成模型将各个文本特征转换为对应的目标参考文本。其中，步骤4023的实现原理和步骤2023的实现原理相类似，可以见步骤2023的描述，在此不再赘述。

本申请实施例中，通过文本生成模型基于目标风格信息和目标对局数据生成目标参考文本，实现了生成不同文本风格的解说文本或者指导文本等。不仅使游戏对象可以根据自己的喜好和需求自主选择文本风格，实现了个性化定制，提高游戏对象的参与感和游戏体验，还能降低游戏对象的门槛，帮助游戏对象更好的融入游戏。在后续，还可以基于解说文本生成对应的解说音频，以及基于指导文本生成对应的指导音频，进一步提高游戏对象的游戏体验。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准。例如，本申请中涉及到的目标对局数据、目标风格信息等都是在充分授权的情况下获取的。

上述方法中的文本生成模型是通过第一参考文本的参考质量指标对第一网络模型进行训练得到的，且第一网络模型用于根据样本对局数据生成第一参考文本，实现了使第一网络模型朝着能生成高质量文本的方向进行优化，提高了文本生成模型的准确性，从而使得文本生成模型能够根据目标对局数据生成质量较高的目标参考文本。

上述从方法步骤的角度阐述了文本生成模型的训练方法和文本生成方法，下面结合场景进行详细描述。请参见图5，图5是本申请实施例提供的一种文本生成模型的训练框架图，该训练框架分为两部分，分别为数据集生成阶段和模型调参阶段。

在数据集生成阶段中，可以获取特定风格文本，将特定风格文本输入风格信息确定模型，通过风格信息确定模型确定特定风格信息，通过特定风格信息和通用风格信息构造风格信息池。其中，样本风格信息中的任一个信息(即特定风格信息或者通用风格信息)对应于上文提及的样本风格信息，因此，本部分的描述可以见步骤2021的描述，在此不再赘述。

接着，从风格信息池中随机选择样本风格信息，将样本风格信息和样本对局数据输入原始网络模型，通过原始网络模型生成多个第一候选文本。其中，通过原始网络模型生成第一候选文本的方式可以见步骤2024的描述，在此不再赘述。

样本风格信息、样本对局数据和各个第一候选文本构成候选数据集，通过对候选数据集进行过滤，得到标准数据集。其中，对候选数据集进行过滤的方式可以见步骤2025的描述，在此不再赘述。

在模型调参阶段，可以先利用标准数据集对原始网络模型进行参数调整，得到第一网络模型。其中，标准数据集包括样本风格信息、样本对局数据和标准参考文本。样本对局数据为至少一个，任一个样本对局数据可以对应至少一个样本风格信息，一个样本风格信息和一个样本对局数据可以对应至少一个标准参考文本。其中，对原始网络模型进行参数调整得到第一网络模型的方式，可以见步骤2026的描述，在此不再赘述。

接下来，将样本风格信息和样本对局数据输入第一网络模型，通过第一网络模型输出多个第一参考文本，其中，第一参考文本的生成方式可以见步骤2022至步骤2023的描述，在此不再赘述。

之后，通过质量指标确定模型确定各个第一参考文本的参考质量指标，并基于每两个第一参考文本的参考质量指标，确定第一网络模型的损失，通过第一网络模型的损失对第一网络模型进行训练，得到训练后的第一网络模型。这部分内容的实现方式可以见步骤203至步骤204的描述，在此不再赘述。

如果训练后的第一网络模型的迭代次数达到次数阈值，则将训练后的第一网络模型作为文本生成模型。如果训练后的第一网络模型的迭代次数未达到次数阈值，则将训练后的第一网络模型作为下一次训练的第一网络模型进行下一次训练，直至迭代次数达到次数阈值，得到文本生成模型为止。这部分内容可以见步骤2041至步骤2044的描述，在此不再赘述。

图6所示为本申请实施例提供的一种文本生成模型的训练装置的结构示意图，如图6所示，该装置包括：

获取模块601，用于获取样本游戏对象进行样本游戏对局的样本对局数据；

确定模块602，用于通过第一网络模型基于样本对局数据确定多个第一参考文本，任一个第一参考文本用于描述样本游戏对局的事件；

确定模块602，还用于通过质量指标确定模型基于样本对局数据和各个第一参考文本，确定各个第一参考文本的参考质量指标；

训练模块603，用于基于各个第一参考文本的参考质量指标，对第一网络模型进行训练，得到文本生成模型，文本生成模型用于基于目标游戏对象进行目标游戏对局的目标对局数据确定目标参考文本。

在一种可能的实现方式中，第一网络模型包括第一编码网络和第一解码网络；

确定模块602，用于获取样本风格信息，样本风格信息用于描述任一个第一参考文本的文本风格；通过第一编码网络对样本风格信息和样本对局数据进行编码处理，得到第一文本特征，第一文本特征用于描述具有样本风格信息所描述的文本风格且与样本对局数据相关的文本的特征；通过第一解码网络对第一文本特征进行解码处理，得到多个第一参考文本。

在一种可能的实现方式中，确定模块602，还用于通过原始网络模型基于样本对局数据确定多个第一候选文本，任一个第一候选文本用于描述样本游戏对局的事件；

装置还包括：

筛选模块，用于从多个第一候选文本中筛选出多个标准参考文本；

训练模块603，还用于通过多个标准参考文本对原始网络模型进行训练，得到第一网络模型。

在一种可能的实现方式中，筛选模块，用于对样本对局数据进行归因分析，得到样本游戏对局中的样本事件的影响信息，样本事件的影响信息用于描述样本事件的发生导致样本游戏对象取得样本游戏对局的胜利或者失败的信息；对于任一个第一候选文本，从任一个第一候选文本中提取第一事件，对第一事件进行分析，得到第一事件的影响信息，第一事件的影响信息用于描述第一事件的发生导致样本游戏对象取得样本游戏对局的胜利或者失败的信息；在样本事件的影响信息和第一事件的影响信息满足筛选条件的情况下，确定任一个第一候选文本为标准参考文本。

在一种可能的实现方式中，装置还包括：

排序模块，用于对各个第一参考文本进行质量排序，得到各个第一参考文本的排序顺序；

确定模块602，还用于通过第二网络模型基于样本对局数据和各个第一参考文本，确定各个第一参考文本的预测质量指标；

训练模块603，还用于基于各个第一参考文本的排序顺序和各个第一参考文本的预测质量指标，对第二网络模型进行训练，得到质量指标确定模型。

在一种可能的实现方式中，第二网络模型包括第二编码网络、第三编码网络和第二解码网络；

确定模块602，用于通过第二编码网络对样本风格信息和样本对局数据进行编码处理，得到第二文本特征，第二文本特征用于描述具有样本风格信息所描述的文本风格且与样本对局数据相关的文本的特征；对于任一个第一参考文本，通过第三编码网络对任一个第一参考文本进行特征提取，得到任一个第一参考文本的文本特征；通过第二解码网络基于第二文本特征和任一个第一参考文本的文本特征，确定任一个第一参考文本的预测质量指标。

在一种可能的实现方式中，训练模块603，用于对于任两个第一参考文本，将任两个第一参考文本中排序顺序在前的第一参考文本的预测质量指标减去排序顺序在后的第一参考文本的预测质量指标，得到质量指标差值，基于质量指标差值确定任两个第一参考文本对应的损失，排序顺序在前的第一参考文本的质量高于排序顺序在后的第一参考文本的质量；基于每两个第一参考文本对应的损失，对第二网络模型进行训练，得到质量指标确定模型。

在一种可能的实现方式中，训练模块603，用于基于各个第一参考文本的参考质量指标，对第一网络模型进行训练，得到第三网络模型；基于第三网络模型不满足训练结束条件，通过第三网络模型基于样本对局数据确定多个第二参考文本，任一个第二参考文本用于描述样本游戏对局的事件；通过质量指标确定模型基于样本对局数据和多个第二参考文本，确定各个第二参考文本的参考质量指标；基于各个第二参考文本的参考质量指标，对第三网络模型进行训练，得到文本生成模型。

在一种可能的实现方式中，训练模块603，用于基于第三网络模型的模型参数和第一网络模型的模型参数，确定参考信息，参考信息用于描述模型参数的变化情况；基于参考信息和各个第二参考文本的参考质量指标，确定第三网络模型的损失；基于第三网络模型的损失，对第三网络模型进行训练，得到文本生成模型。

上述装置中，先通过第一网络模型基于样本对局数据确定多个第一参考文本。接着，通过质量指标确定模型基于样本对局数据和各个第一参考文本，确定各个第一参考文本的参考质量指标。之后，基于各个第一参考文本的参考质量指标，对第一网络模型进行训练，得到文本生成模型。通过第一参考文本的参考质量指标对第一网络模型进行训练，有利于使模型朝着能生成高质量文本的方向进行优化，提高文本生成模型的准确性，从而使文本生成模型能生成高质量的文本。此外，通过质量指标确定模型确定第一参考文本的参考质量指标，避免了人工标注，可以提高文本生成模型的训练效率。

应理解的是，上述图6提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7所示为本申请实施例提供的一种文本生成装置的结构示意图，如图7所示，该装置包括：

获取模块701，用于获取目标游戏对象进行目标游戏对局的目标对局数据；

确定模块702，用于通过文本生成模型基于目标对局数据确定目标参考文本，目标参考文本用于描述目标游戏对局的事件，文本生成模型是按照与图2相关的文本生成模型的训练方法训练得到的。

在一种可能的实现方式中，确定模块702，用于获取目标风格信息，目标风格信息用于描述目标参考文本的文本风格；通过文本生成模型对目标风格信息和目标对局数据进行编码处理，得到目标文本特征，目标文本特征用于描述具有目标风格信息所描述的文本风格且与目标对局数据相关的文本的特征；通过文本生成模型对目标文本特征进行解码处理，得到目标参考文本。

上述装置中的文本生成模型是通过第一参考文本的参考质量指标对第一网络模型进行训练得到的，且第一网络模型用于根据样本对局数据生成第一参考文本，实现了使第一网络模型朝着能生成高质量文本的方向进行优化，提高了文本生成模型的准确性，从而使得文本生成模型能够根据目标对局数据生成质量较高的目标参考文本。

应理解的是，上述图7提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的终端设备800的结构框图。该终端设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器801所执行以实现本申请中方法实施例提供的文本生成模型的训练方法或者文本生成方法。

在一些实施例中，终端设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807和电源808中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在终端设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端设备800的不同表面或呈折叠设计；在另一些实施例中，显示屏805可以是柔性显示屏，设置在终端设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

电源808用于为终端设备800中的各个组件进行供电。电源808可以是交流电、直流电、一次性电池或可充电电池。当电源808包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端设备800还包括有一个或多个传感器809。该一个或多个传感器809包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、光学传感器814以及接近传感器815。

加速度传感器811可以检测以终端设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端设备800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端设备800的侧边框时，可以检测用户对终端设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器814用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器814采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器814采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器815，也称距离传感器，通常设置在终端设备800的前面板。接近传感器815用于采集用户与终端设备800的正面之间的距离。在一个实施例中，当接近传感器815检测到用户与终端设备800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器815检测到用户与终端设备800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9为本申请实施例提供的服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器901和一个或多个的存储器902，其中，该一个或多个存储器902中存储有至少一条计算机程序，该至少一条计算机程序由该一个或多个处理器901加载并执行以实现上述各个方法实施例提供的文本生成模型的训练方法或者文本生成方法，示例性的，处理器901为CPU。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一种文本生成模型的训练方法或者文本生成方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序，该计算机程序为至少一条，该至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一种文本生成模型的训练方法或者文本生成方法。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品中存储有至少一条计算机程序，该至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一种文本生成模型的训练方法或者文本生成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载