导航：首页> 染料；涂料；抛光剂；天然树脂；黏合剂；其他类目不包含的组合物；其他类目不包含的材料的应用>自然语言生成模型的训练方法和装置

自然语言生成模型的训练方法和装置

文献发布时间：2023-06-19 11:49:09

技术领域

本公开涉及计算机技术领域，特别涉及一种自然语言生成模型的训练方法、自然语言生成模型的训练装置、自然语言的生成方法、自然语言的生成装置和非易失性计算机可读存储介质。

背景技术

近年来AI(Artificial Intelligence，人工智能)技术发展迅猛，其应用遍布人类生产生活的各个领域。NLP(Natural Language Processing，自然语言处理)是人工智能领域的一项重要应用，主要分为自然语言理解和NLG(Natural Language Generation,自然语言生成)两个分支。

自然语言生成是一项融合了人工智能、计算机科学和计算语言学的重要科学技术。它的主要目的是使计算机具有与人相同的表达和写作的功能，即使计算机能够根据一些关键的输入信息，经过一系列的处理、规划过程，来自动生成一段高质量的文本。该技术的应用已经非常广泛，其中最为常见的应用有机器翻译、聊天机器人和语音助手等。

在相关技术中，基于统计机器学习的方法对输入计算机的信息进行建模，从而生成文本。

发明内容

本公开的发明人发现上述相关技术中存在如下问题：自然语言生成模型训练的梯度方差过大，造成模型训练不稳定或者不收敛，从而导致自然语言生成效果差。

鉴于此，本公开提出了一种自然语言生成模型的训练技术方案，能够提高自然语言生成效果。

根据本公开的一些实施例，提供了一种自然语言生成模型的训练方法，包括：以各历史时刻的生成词为当前时刻的状态，以当前时刻的生成词的输出为动作，将自然语言生成处理建模为强化学习模型；根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数；根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异，确定第二目标函数；根据第一目标函数、第二目标函数的加权平均值，训练强化学习模型。

在一些实施例中，根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数包括：根据各时刻的状态动作函数与其前一时刻的状态动作函数的差异，确定优势函数。

在一些实施例中，确定优势函数包括：根据时刻0～t-1的动作a

在一些实施例中，根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数包括：利用强化学习模型，输出的各时刻的生成词的生成概率；根据各时刻的生成词的优势函数和生成概率，确定第一目标函数。

在一些实施例中，根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异，确定第二目标函数包括：根据各时刻的标注结果与语料库中各词语之间的差异，确定各时刻的先验概率；利用强化学习模型，输出的各时刻的生成词的生成概率；根据各时刻的先验概率与生成概率的差异的加权平均值，确定第二目标函数。

在一些实施例中，根据各时刻的标注结果与语料库中各词语之间的差异，确定各时刻的先验概率包括：根据各时刻的标注结果的词向量与语料库中各词语的向量的相似度，确定各时刻的先验概率。

在一些实施例中，根据各时刻的先验概率与生成概率的差异的加权平均值，确定第二目标函数包括：根据各时刻的生成词的优势函数，确定相应时刻的先验概率与生成概率的差异的权重，权重与优势函数负相关。

在一些实施例中，根据第一目标函数、第二目标函数的加权平均值，训练强化学习模型包括：根据第一目标函数、第二目标函数的加权平均值，确定综合目标函数；以综合目标函数最小化为条件，训练强化学习模型。

在一些实施例中，训练方法还包括：利用完成训练的强化学习模型，生成自然语言数据。

在一些实施例中，生成自然语言数据包括：利用完成训练的强化学习模型，将输入的第一语言数据，翻译为第二语言数据。

根据本公开的另一些实施例，提供一种自然语言的生成方法，包括：以各历史时刻的生成词为当前时刻的状态，以当前时刻的生成词的输出为动作，将自然语言生成处理建模为强化学习模型；根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数；根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异，确定第二目标函数；根据第一目标函数、第二目标函数的加权平均值，训练强化学习模型；利用完成训练的强化学习模型，生成自然语言数据。

在一些实施例中，生成自然语言数据包括：利用完成训练的强化学习模型，将输入的第一语言数据，翻译为第二语言数据。

根据本公开的又一些实施例，提供一种自然语言生成模型的训练装置，包括：建模单元，用于以各历史时刻的生成词为当前时刻的状态，以当前时刻的生成词的输出为动作，将自然语言生成处理建模为强化学习模型；确定单元，用于根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数，根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异，确定第二目标函数；训练单元，用于根据第一目标函数、第二目标函数的加权平均值，训练强化学习模型。

在一些实施例中，确定单元根据各时刻的状态动作函数与其前一时刻的状态动作函数的差异，确定优势函数。

在一些实施例中，确定单元根据时刻0～t-1的动作a

在一些实施例中，确定单元利用强化学习模型，输出的各时刻的生成词的生成概率，根据各时刻的生成词的优势函数和生成概率，确定第一目标函数。

在一些实施例中，确定单元根据各时刻的标注结果的词向量与语料库中各词语的向量的相似度，确定各时刻的先验概率。

在一些实施例中，确定单元根据各时刻的标注结果与语料库中各词语之间的差异，确定各时刻的先验概率，利用强化学习模型，输出的各时刻的生成词的生成概率，根据各时刻的先验概率与生成概率的差异的加权平均值，确定第二目标函数。

在一些实施例中，确定单元根据各时刻的生成词的优势函数，确定相应时刻的先验概率与生成概率的差异的权重，权重与优势函数负相关。

在一些实施例中，训练单元根据第一目标函数、第二目标函数的加权平均值，确定综合目标函数，以综合目标函数最小化为条件，训练强化学习模型。

在一些实施例中，训练装置还包括：生成单元，用于利用完成训练的强化学习模型，生成自然语言数据。

在一些实施例中，生成单元利用完成训练的强化学习模型，将输入的第一语言数据，翻译为第二语言数据。

根据本公开的再一些实施例，提供自然语言的生成装置，包括：建模单元，用于以各历史时刻的生成词为当前时刻的状态，以当前时刻的生成词的输出为动作，将自然语言生成处理建模为强化学习模型；确定单元，用于根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数，根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异，确定第二目标函数；训练单元，用于根据第一目标函数、第二目标函数的加权平均值，训练强化学习模型；生成单元，用于利用完成训练的强化学习模型，生成自然语言数据。

根据本公开的再一些实施例，提供一种自然语言生成模型的训练装置，包括：存储器；和耦接至存储器的处理器，处理器被配置为基于存储在存储器装置中的指令，执行上述任一个实施例中的自然语言生成模型的训练方法。

根据本公开的再一些实施例，提供一种自然语言的生成装置，包括：存储器；和耦接至存储器的处理器，处理器被配置为基于存储在存储器装置中的指令，执行上述任一个实施例中的自然语言的生成方法。

根据本公开的再一些实施例，提供一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一个实施例中的自然语言生成模型的训练方法或者自然语言的生成方法。

在上述实施例中，基于优势函数的策略梯度构建目标函数，具有更小的梯度方差；基于标注结果与模型输出结果的差异构建目标函数，能够解决训练偏差无知问题。这样，可以保证模型训练更加稳定，更容易收敛，提高模型的训练效果，从而提高自然语言生成效果。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开：

图1示出本公开的自然语言生成模型的训练方法的一些实施例的流程图；

图2示出图1的步骤140的一些实施例的流程图；

图3示出本公开的自然语言生成模型的训练方法的一些实施例的示意图；

图4示出本公开的自然语言生成模型的训练装置的一些实施例的框图；

图5示出本公开的自然语言生成模型的训练装置或者自然语言的生成装置的一些实施例的框图；

图6示出本公开的自然语言生成模型的训练装置或者自然语言的生成装置的另一些实施例的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

如前所述，利用深度神经网络对输入计算机的信息进行建模都采用解码器-编码器神经网络(例如Transformer和Seq2Seq模型)。在训练这类模型时，一般采用利用交叉熵损失函数通过MLE(Maximum Likelihood Estimation，最大化后验概率)的方式来训练自然语言生成模型。这种方式具有如下的技术问题：模型训练与模型测试、推理不一致问题；模型的曝光偏差问题；负多样性无知问题。

关于模型训练与模型测试、推理不一致问题，其原因在于以MLE方法是在词的级别通过最大化条件概率训练模型，是通过贪心采样的方法选取每个最优词组成文本。但是，按贪心采样方法每一步得到的单词生成的文本并不一定是最优的。

并且，模型测试或者推理阶段常常使用序列级的评估标准(例如常用的BLEU(Bilingual Evaluation Understudy，双语评估替补)是从整个序列的角度来评估文本生成的好坏。因此，往往造成自然语言生成模型在训练时表现较好，测试或者推理时表现较差。

关于模型的曝光偏差问题，主要存在于自回归的解码器-编码器神经网络，自回归的解码的每一次解码需要依赖上一步的输出。但是，在解码阶段生成文本序列中的每一个词时，MLE训练方法是将标签词输入模型作为输出下一个单词的时所需的输入信息。

该方法被称为teacher-forcing训练方法。此方法的缺陷在于，模型在测试或推理时是没有标签的。因此，需要将模型每一步输出的信息作为输出下一个词的时所需的输入信息。但是，模型在训练的时候，这些信息从未曝光过(即从未加入训练过)，从而导致模型在测试推理时表现较差。

关于负多样性无知问题，MLE训练方法通常是以交叉熵损失函数为优化目标。然而，交叉熵损失函数通常将模型预测错误的样本一视同仁，即无论模型预测的错误与真实标签差距有多大，交叉熵损失函数都会给这些错误样本赋予相同的“分数”。这样的训练方法会降低模型生成的文本的多样性。

另外，基于强化学习的自然语言生成算法存在以下问题：负多样性无知问题、训练梯度方差过大问题。

关于负多样性无知问题，是因为在自然语言生成模型的训练中，强化学习常使用BLEU等评估标注作为奖励值给预测的文本进行打分。但是，这些评估标准仍然会给错误程度不同的预测样本赋予相同的分数。

关于训练梯度方差过大问题，是因为强化学习采用了策略梯度(PolicyGradient)的方法。但是，策略梯度算法在估计奖励值时容易导致模型训练时梯度方差过大，从而导致模型训练不稳定或者不收敛。

针对上述技术问题，本公开在使模型在训练的时候，对于不同的错误预测样本能给予其更合理的分数。从而，能通过训练得到更准确，多样性更丰富的自然语言生成模型。

而且，本公开通过设计梯度方差更小的强化学习算法来训练模型，使得模型训练的过程更加稳定，得到更加准确的自然语言生成模型。例如，可以通过如下的实施例实现本公开的技术方案。

图1示出本公开的自然语言生成模型的训练方法的一些实施例的流程图。

如图1所示，在步骤110中，以各历史时刻的生成词为当前时刻的状态，以当前时刻的生成词的输出为动作，将自然语言生成处理建模为强化学习模型。

在一些实施例中，可以将自然语言生成模型的训练过程定义为一个强化学习问题。强化学习的过程是一个马尔科夫决策过程，因此，需要将自然语言生成过程定义为一个马尔科夫决策过程。

在一些实施例中，马尔科夫决策过程包含一个五元组(S，A，T，R，γ)，S为状态空间，A为动作空间，T是状态转移函数，R为奖励值，γ为折扣因子。可以通过最大化奖励值，利用强化学习方法来训练自然语言生成模型。

例如，奖励值的评估方法可以为BLEU、ROUGE(Recall-Oriented Understudy forGisting Evaluation，召回向候补摘要评估)、METEOR等。

例如，关于状态S，t时刻的状态S

例如，关于动作空间A，模型生成一个词语代表一个动作，t时刻的动作表示为a

例如，关于状态转移函数T，其定义了从当前时刻的状态S

例如，关于奖励值R，当前时刻生成的句子长度小于L时，奖励值为0；当前时刻生成的句子长度等于L时，生成EOS(结束标识符)，用于标识整个句子生成完毕，并计算当前的奖励值。t时刻的奖励值可以根据各种评价方法计算：

在一些实施例中，可以根据自然语言生成任务的不同类型，采用不同的评估方法确定奖励值r。例如，对于机器翻译类任务，可以采用BLEU方法确定奖励值r；对于摘要总结类任务，可以采用ROUGE方法确定奖励值r。

例如，关于状态转移概率T，状态转移概率P(S

例如，关于折扣因子γ，其作用是对不同的时刻t赋予不同的权重。在自然语言生成任务中，可以认为每一个单词的重要程度相同，即γ恒等于1。

在步骤120中，根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数。

在一些实施例中，根据各时刻的状态动作函数与其前一时刻的状态动作函数的差异，确定优势函数。

例如，t时刻的优势函数为A

然而，自然语言生成模型中没有单独的价值网络来估计状态价值V

例如，Q

由上述公式可知，V

因此，可以通过如下计算公式确定优势函数：

这样，只需要对Q值进行估计即可确定相应时刻的优势函数。

在一些实施例中，在强化学习的定义中，Q值即奖励值的期望。在自然言生成模型训练过程中，利用每一步输出的词语(如w

在一些实施例中，对于输出的每一个词语，都可以预测出一个完整的句子。因此，可以计算每个完整的奖励值，用于计算Q值。

例如，根据时刻0～t-1的动作a

例如，可以使用K步蒙特卡洛模拟法，在t时刻输出单词时，预测K条t+1时刻到整个结束时刻L的句子，计算这K条句子的奖励值的平均值作为t时刻的Q值：

在一些实施例中，利用强化学习模型，输出的各时刻的生成词的生成概率；根据各时刻的生成词的优势函数和生成概率，确定第一目标函数。例如，可以通过如下公式计算第一目标函数L

在步骤130中，根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异，确定第二目标函数。

在一些实施例中，根据各时刻的标注结果与语料库中各词语之间的差异，确定各时刻的先验概率。例如，根据各时刻的标注结果的词向量与语料库中各词语的向量的相似度，确定各时刻的先验概率。

利用强化学习模型，输出的各时刻的生成词的生成概率；根据各时刻的先验概率与生成概率的差异的加权平均值，确定第二目标函数。

例如，根据各时刻的生成词的优势函数，确定相应时刻的先验概率与生成概率的差异的权重，权重与优势函数负相关。

在一些实施例中，可以基于自适应因子和先验分布的KL散度计算第二目标函数。

例如，首先，可以使用word2vec预训练算法对语料库进行预训练，得到预训练好的词向量；然后，基于预训练好的词向量，计算t时刻的先验概率P

也就是说，当t时刻模型输出某个生成词语w

例如，可以计算该标签词语的词向量与字典内所有词语的余弦相似度，与标签语义越相近的词语的余弦相似度越高；使用Softmax函数，对计算出来的所有相似进行归一化处理，得到t时刻的先验分布p

在一些实施例中，得到先验概率P

在一些实施例中，自适应因子与优势函数A

在步骤140中，根据第一目标函数、第二目标函数的加权平均值，训练强化学习模型。

在一些实施例中，利用完成训练的强化学习模型，生成自然语言数据。例如，利用完成训练的强化学习模型，将输入的第一语言数据，翻译为第二语言数据。

在一些实施例中，可以通过图2中的实施例实现步骤140。

图2示出图1的步骤140的一些实施例的流程图。

如图2所示，在步骤1410中，根据第一目标函数、第二目标函数的加权平均值，确定综合目标函数。

在一些实施例中，使用基于优势函数的第一目标函数(策略梯度损失函数)和基于KL散度的第二目标函数，确定综合目标函数为：

L(θ)＝-L

β为可以根据实际情况调整的权重参数。

在步骤1420中，以综合目标函数最小化为条件，训练强化学习模型。例如，可以基于综合目标函数，利用梯度下降法训练自然语言生成模型。

图3示出本公开的自然语言生成模型的训练方法的一些实施例的示意图。

如图3所示的整体训练流程，在强化学习训练过程中，利用蒙特卡洛模拟法基于t时刻生成的w

基于各预测句子的K个奖励值和Q值计算优势函数，通过优势函数来加权策略梯度训练目标。

在一些实施例，为了解决偏差无知问题，可以对字典进行预训练，得到训练好的词向量。例如，在模型训练时，在每个时刻根据当前时刻的标注结果，利用预训练的词向量计算先验概率分布。如各时刻的标注结果为“The”、“cat”、“is”、“eating”、“an”、“apple”。

在一些实施例中，计算模型输出的生成概率分布与先验概率分布的KL散度，用于衡量模型输出的生成概率分布概率与先验概率分布的接近程度。例如，为了防止KL散度对输出过度矫正，可以利用优势函数对KL散度进行加权，并将其作为优化目标的一部分。

在一些实施例中，本公开的技术方案可以为步骤A、步骤B、步骤C、步骤D4个步骤。步骤A、B用于计算基于优势函数的策略梯度目标函数作为第一目标函数；步骤C基于自适应因子的KL散度计算第二目标函数；步骤D将上述优化目标相加得到综合目标函数，对模型进行训练。

在步骤A中，可以将自然语言生成模型的训练过程定义为一个强化学习问题。强化学习的过程是一个马尔科夫决策过程，因此，需要将自然语言生成过程定义为一个马尔科夫决策过程。

例如，奖励值的评估方法可以为BLEU、ROUGE(Recall-Oriented Understudy forGisting Evaluation，召回向候补摘要评估)、METEOR等。

例如，关于状态S，t时刻的状态S

例如，关于动作空间A，模型生成一个词语代表一个动作，t时刻的动作表示为a

例如，关于状态转移函数T，其定义了从当前时刻的状态S

例如，关于奖励值R，当前时刻生成的句子长度小于L时，奖励值为0；当前时刻生成的句子长度等于L时，生成EOS(结束标识符)，用于标识整个句子生成完毕，并计算当前的奖励值。

例如，关于状态转移概率T，状态转移概率P(S

例如，关于折扣因子γ，其作用是对不同的时刻t赋予不同的权重。在自然语言生成任务中，可以认为每一个单词的重要程度相同，即γ恒等于1。

在步骤B中，t时刻的优势函数为A

然而，自然语言生成模型中没有单独的价值网络来估计状态价值V

例如，Q

而且，如前所述，基于强化学习的自然语言生成问题的定义可知，状态转移概率和折扣因子都恒等于1，t时刻的奖励值r

因此，可以通过如下计算公式确定优势函数：

这样，只需要对Q值进行估计即可确定相应时刻的优势函数。

在一些实施例中，在强化学习的定义中，Q值即奖励值的期望。在自然言生成模型训练过程中，利用每一步输出的词语(如w

在一些实施例中，对于输出的每一个词语，都可以预测出一个完整的句子。因此，可以计算每个完整的奖励值，用于计算Q值。

例如，根据时刻0～t-1的动作a

例如，可以使用K步蒙特卡洛模拟法，在t时刻输出单词时，预测K条t+1时刻到整个结束时刻L的句子，计算这K条句子的奖励值的平均值作为t时刻的Q值。

在一些实施例中，利用强化学习模型，输出的各时刻的生成词的生成概率；根据各时刻的生成词的优势函数和生成概率，确定第一目标函数。

在步骤C中，可以使用word2vec预训练算法对语料库进行预训练，得到预训练好的词向量；然后，基于预训练好的词向量，计算t时刻的先验概率P

也就是说，当t时刻模型输出某个生成词语w

在一些实施例中，得到先验概率P

在一些实施例中，自适应因子与优势函数A

在步骤D中，使用基于优势函数的第一目标函数(策略梯度损失函数)和基于KL散度的第二目标函数，确定综合目标函数。例如，可以基于综合目标函数，利用梯度下降法训练自然语言生成模型。

上述实施例中，基于优势函数的策略梯目标函数，解决了现有方法训练过程中梯度方差太大导致模型训练难以收敛的问题；基于自适应因子的KL散度目标函数，衡量了模型输出分布与一个预训练的先验分布的距离，解决了传统交叉熵损失函数和策略梯度目标函数存在的偏差无知问题。

此外，基于优势函数的自适应因子能够自动调节KL散度的权重，使两个优化目标更好的联合训练。从而，防止了自适应因子的KL散度目标对模型进行词语级别的过渡训练

图4示出本公开的自然语言生成模型的训练装置的一些实施例的框图。

如图4所示，自然语言生成模型的训练装置4包括建模单元41、确定单元42、训练单元43。

建模单元41以各历史时刻的生成词为当前时刻的状态，以当前时刻的生成词的输出为动作，将自然语言生成处理建模为强化学习模型.

确定单元42根据强化学习模型输出的各时刻的生成词的优势函数，确定第一目标函数；根据各时刻的标注结果的概率分布与各时刻的生成词的概率分布之间的差异，确定第二目标函数。

在一些实施例中，确定单元42根据各时刻的状态动作函数与其前一时刻的状态动作函数的差异，确定优势函数。

在一些实施例中，确定单元42根据时刻0～t-1的动作a

在一些实施例中，确定单元42利用强化学习模型，输出的各时刻的生成词的生成概率，根据各时刻的生成词的优势函数和生成概率，确定第一目标函数。

在一些实施例中，确定单元42根据各时刻的标注结果的词向量与语料库中各词语的向量的相似度，确定各时刻的先验概率。

在一些实施例中，确定单元42根据各时刻的标注结果与语料库中各词语之间的差异，确定各时刻的先验概率，利用强化学习模型，输出的各时刻的生成词的生成概率，根据各时刻的先验概率与生成概率的差异的加权平均值，确定第二目标函数。

在一些实施例中，确定单元42根据各时刻的生成词的优势函数，确定相应时刻的先验概率与生成概率的差异的权重，权重与优势函数负相关。

训练单元43根据第一目标函数、第二目标函数的加权平均值，训练强化学习模型。

在一些实施例中，训练单元43根据第一目标函数、第二目标函数的加权平均值，确定综合目标函数，以综合目标函数最小化为条件，训练强化学习模型。

在一些实施例中，训练装置4还包括：生成单元44，用于利用完成训练的强化学习模型，生成自然语言数据。

在一些实施例中，生成单元44利用完成训练的强化学习模型，将输入的第一语言数据，翻译为第二语言数据。

图5示出本公开的自然语言生成模型的训练装置或者自然语言的生成装置的一些实施例的框图。

如图5所示，在一些实施例中，自然语言生成模型的训练装置5包括：存储器51以及耦接至该存储器51的处理器52，处理器52被配置为基于存储在存储器51中的指令，执行本公开中任意一个实施例中的自然语言生成模型的训练方法。

在一些实施例中，自然语言的生成装置5包括：存储器51以及耦接至该存储器51的处理器52，处理器52被配置为基于存储在存储器51中的指令，执行本公开中任意一个实施例中的自然语言的生成方法。

其中，存储器51例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader、数据库以及其他程序等。

图6示出本公开的自然语言生成模型的训练装置或者自然语言的生成装置的另一些实施例的框图。

如图6所示，在一些实施例中，自然语言生成模型的训练装置6包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行前述任意一个实施例中的自然语言生成模型的训练方法。

在一些实施例中，自然语言的生成装置6包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行前述任意一个实施例中的自然语言的生成方法。

存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序Boot Loader以及其他程序等。

装置6还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间例如可以通过总线860连接。其中，输入输出接口630为显示器、鼠标、键盘、触摸屏、麦克、音箱等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质包括但不限于磁盘存储器、CD-ROM、光学存储器等上实施的计算机程序产品的形式。

至此，已经详细描述了根据本公开的自然语言生成模型的训练方法、自然语言生成模型的训练装置、自然语言的生成方法、自然语言的生成装置和非易失性计算机可读存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本公开的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：程维;
专利申请人：北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司;

上一篇：一种中药饮片用防污染发酵机及其工作方法
下一篇：一种PET耐高温胶带的生产方法