掌桥专利:专业的专利平台
掌桥专利
首页

文本生成模型训练方法、文本生成方法、装置及电子设备

文献发布时间:2024-07-23 01:35:21


文本生成模型训练方法、文本生成方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域,具体而言,涉及一种文本生成模型训练方法、文本生成方法、装置及电子设备。

背景技术

强化学习(Reinforcement Learning,RL)是人工智能领域机器学习的重要分支之一,其核心思想来源于行为心理学中的奖励和惩罚机制,在强化学习中,智能体通过与环境的交互,根据从环境中得到的反馈来调整自己的行为,以达到累积奖励最大化或实现特定目标的目的。

自然语言处理是人工智能研究的重要分支,其目标是使计算机理解并生成自然语言。在自然语言处理中,文本生成是重要的研究方向之一,旨在根据给定的输入或用户需求,自动生成符合语法和语义规则的文本。

在将强化学习方法应用于自然语言处理任务时,需定义动作空间,在文本生成场景中需要将词表作为动作空间,然而,词表中包含的词汇数量非常多,例如,常用汉字多达3500以上,这会导致动作空间非常大,耗费极大的训练成本和计算成本。

发明内容

本发明解决的问题是如何降低强化学习方法应用于自然语言处理任务时的训练成本和计算成本。

为解决上述问题,本发明提供一种文本生成模型训练方法,所述文本生成模型包括策略网络和价值网络,所述文本生成模型训练方法包括:

对第一训练数据进行编码,得到第一向量;

基于所述第一向量,通过所述策略网络确定预设动作空间中各动作的概率分布,根据所述概率分布指导蒙特卡洛树搜索,生成第二训练数据;其中,所述预设动作空间为预设词表,所述预设词表包括文字笔画集合以及笔画位置关系集合;

采用所述第二训练数据训练所述价值网络;

采用经训练的所述价值网络,优化所述策略网络,以获得训练好的所述文本生成模型。

可选地,所述第一训练数据包括期望文本序列;根据所述概率分布指导蒙特卡洛树搜索,生成第二训练数据包括:

从根节点开始,根据所述概率分布选择子节点进行探索,直至达到叶子节点;

当所述叶子节点对应的句子还未生成结束时,扩展至少一个新的子节点;

在所述新的子节点上,基于所述策略网络进行预演,生成预演文本序列;

将所述预演文本序列与所述期望文本序列进行对比,获得所述预演文本序列对应的奖励,根据所述奖励执行回传操作,更新所有经过的节点的价值估计,根据所述价值估计生成所述第二训练数据;其中,每个节点对应一次动作执行。

可选地,所述采用经训练的所述价值网络,优化所述策略网络包括:

采用所述策略网络确定在当前时间步所处状态下,所述预设动作空间中各动作的概率分布,根据所述概率分布进行当前时间步所处状态下的动作选择,其中,当前时间步所处状态下的动作选择指生成预测文本序列中当前时间步的字词,所述预测文本序列包括多个时间步的字词;

采用经训练的所述价值网络对所述当前时间步的字词进行评分;

基于所述当前时间步的字词的评分结果优化所述策略网络;

更新所述当前时间步,返回执行所述采用所述策略网络确定在当前时间步所处状态下,所述预设动作空间中各动作的概率分布,根据所述概率分布进行当前时间步所处状态下的动作选择,直至所述预测文本序列生成结束。

可选地,所述对第一训练数据进行编码,得到第一向量包括:

将所述第一训练数据中的文字进行分层拆解,直至拆解至所述预设词表中的最小笔画单元,得到笔画及笔画位置关系序列;

基于所述预设词表,将所述笔画及笔画位置关系序列向量化,得到所述第一向量。

本发明还提出一种文本生成方法,基于如上所述文本生成模型训练方法获得的文本生成模型,所述文本生成方法包括:

对接收到的输入文本进行编码,得到第二向量;

以预设词表作为预设动作空间,在所述第二向量基础上,根据策略网络和/或价值网络生成预测文本序列,其中,所述预设词表包括文字笔画集合以及笔画位置关系集合。

可选地,所述在所述第二向量基础上,根据策略网络和/或价值网络生成预测文本序列包括:

基于所述第二向量,采用所述策略网络确定所述预设动作空间中各动作的概率分布,并根据所述概率分布执行相应选词动作,以生成所述预测文本序列;

或者,基于所述第二向量,采用所述价值网络确定所述预设动作空间中各动作的价值评分,根据所述价值评分执行相应选词动作,以生成所述预测文本序列。

本发明还提出一种文本生成模型训练装置,包括:

编码模块,其用于对第一训练数据进行编码,得到第一向量;

处理模块,其用于基于所述第一向量,通过所述策略网络确定预设动作空间中各动作的概率分布,根据所述概率分布指导蒙特卡洛树搜索,生成第二训练数据;其中,所述预设动作空间为预设词表,所述预设词表包括文字笔画集合以及笔画位置关系集合;

优化模块,其用于采用所述第二训练数据训练所述价值网络;采用经训练的所述价值网络,优化所述策略网络,以获得所述文本生成模型。

本发明还提出一种文本生成装置,包括:

编码模块,其用于对接收到的输入文本进行编码,得到第二向量;

预测模块,其用于以预设词表作为预设动作空间,在所述第二向量基础上,基于策略网络和/或价值网络生成预测文本序列,其中,所述预设词表包括文字笔画集合以及笔画位置关系集合。

本发明还提出一种电子设备,包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于当执行所述计算机程序时,实现如上所述的文本生成模型训练方法,或者如上所述的文本生成方法。

本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包含至少一段代码,所述至少一段代码可由处理器执行,实现如上所述的文本生成模型训练方法,或者如上所述的文本生成方法。

与现有技术相比,本发明至少具有如下有益效果:

比起传统词表,文字笔画的数量以及笔画位置关系的数量相对较少,使得预设词表较小,将其作为动作空间,可极大缩小动作空间的大小,采用小动作空间,减小问题的复杂度,简化优化算法的设计,降低文本生成模型的训练成本和计算量,提高生成模型的训练效率和性能。此外,通过缩小文本生成模型的词表大小,能拉平词频分布曲线,使得不同词汇的优化更加均衡,提高文本生成模型的优化效果。

通过在训练过程中,采用策略网络指导蒙特卡洛树搜索的方法生成第二训练数据,由于神经网络可以学习到复杂的语言模式和规则,而蒙特卡洛树搜索可以帮助模型在生成序列时进行更深入的探索,结合神经网络的表达能力和蒙特卡洛树搜索的探索能力生成第二训练数据,能使最终训练所得的价值网络评价准确性更高,性能更优,从而使文本生成模型具有更优的性能。

附图说明

图1为本发明实施例文本生成模型训练方法一流程示意图;

图2为本发明实施例文本生成模型训练方法中文字拆解方法一示意图;

图3为本发明实施例文本生成方法一流程示意图;

图4为本发明实施例文本生成模型训练装置一示意图;

图5为本发明实施例文本生成装置一示意图

图6为本发明实施例电子设备一结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

强化学习中的典型概念包括:智能体、状态、动作与奖励,动作空间是指智能体在给定环境中可以采取的所有可能动作的集合。本发明实施例中,将策略网络作为智能体,将已生成的文本序列作为状态,将每一个时间步选取的词语作为动作。智能体与环境进行交互,获得智能体每次交互所处的状态,在该状态下所做出的动作以及环境对该动作的奖励,将该组数据(状态、动作、奖励)作为训练数据,对智能体进行一次训练,按照上述过程反复进行多次交互,直至满足收敛条件。

本发明实施例可实现不同应用场景下的文本生成任务,包括但不限于文本翻译场景、人机对话交互场景等。本文以文本翻译场景、人机对话交互场景为例进行解释说明。在文本翻译场景下,本发明实施例中文本生成模型的任务是:给定源语言文本,生成翻译文本;在人机对话交互场景下,本发明实施例中文本生成模型的任务是:给定对话历史,生成机器回复。

本发明实施例中,文本生成模型是一个序列到序列的模型,包括策略网络和价值网络。在每一步中,策略网络会生成预设词表中每一个词的概率分布,并基于预设词表中每一个词的概率分布从预设词表中抽取一个词作为下一步的动作,策略网络可采用Transformer模型或LSTM网络等模型。为了更好地训练策略网络,同时训练一个价值网络来评估每次策略网络作出的动作(即下一个词的生成)的质量,并基于价值网络对策略网络输出动作的评价优化策略网络,直至达到优化目标。除策略网络和价值网络外,文本生成模型还可包括编码器和解码器,编码器将输入文本按照预设词表向量化,转换为计算机可读的形式,再将其输入到策略网络,再根据策略网络的输出和/或价值网络的输出生成预测文本序列,由解码器将向量化的预测文本序列按照预设词表还原成自然语言文本,以完成文本生成任务。

如图1,所述文本生成模型训练方法包括:

步骤S100,对第一训练数据进行编码,得到第一向量。

根据具体的文本生成任务,准备第一训练数据,例如,文本翻译场景下,第一训练数据包括源语言文本和目标翻译文本,例如,英译中时,将英文样本作为源语言文本,对应的中文样本作为目标翻译文本。在人机对话交互场景下,第一训练数据包括对话文本。

在准备好第一训练数据之后,可将其存储在某一数据库中,在执行本发明文本生成模型训练方法对应代码时,基于该数据库的地址从中调取第一训练数据。第一训练数据也可从其他途径获取,此处对第一训练数据的获取方式或获取途径不做限定。

可选地,所述步骤S100包括:按照预设词表,将第一训练数据向量化,得到第一向量。其中,预设词表包括第一词表和第二词表。

第一词表包括字母表,具体可以包括印欧语系下一种或多种语言的字母表,例如英文字母表、德文字母表、法文字母表、西班牙字母表等,若第一训练数据是英文,则编码器将其直接分解到字母级别,按照第一词表转化成向量,由于英文中每个单词均能拆分成字母组合,因而可设置一包含字母的预设英文词表,由于字母数量极其有限,因而可以缩小词表,缩小动作空间。

第二词表包括文字笔画集合和笔画位置关系集合,例如汉语笔画、韩语笔画、日语笔画,若第一训练数据是中文,则编码器将其拆解到笔画级别,按照中文词表转化为向量。汉语、韩语、日语等语言的每个文字均能拆解成多种笔画的组合,文字笔画集合包含多种笔画,如“丿”、“丶”、“亅”,笔画位置关系集合定义多种笔画之间的相对位置关系,如上下关系、左右关系、包围关系。

进一步地,所述步骤S100可包括:将第一训练数据中的文字进行分层拆解,直至拆解至预设词表中的最小笔画单元,得到笔画及笔画位置关系序列;基于预设词表,将笔画及笔画位置关系序列向量化,得到第一向量。

其中,每一层拆解时,将该层对应的笔画位置关系设置于拆解所得笔画之后或之前。

一实施方式中,在第一层拆解时,从整体上判断文字各部分偏旁部首之间的位置关系,将各部分偏旁部首之间的位置关系置于拆解所得的偏旁部首之前;执行第二层拆解时,对第一层拆解所得的每一个偏旁部首,判断偏旁部首中各笔画之间的位置关系,将偏旁部首中各笔画之间的位置关系置于该偏旁部首拆解所得笔画之前;若还未拆解至预设词表中的最小笔画单元,则继续拆解。

参见图2,以“乏”字为例,“乏”字第一层拆解时,可按上下结构可以拆分为“丿”和“之”,然后对“之”进行第二层拆解,可以继续按上下结构拆分为“丶”和“②”,然后对“②”进行第三层拆解,可以继续按上下结构拆分为“フ”和“乁”,逐层拆解,直至拆分出的字符无法进一步被分解,即为拆解完成,得到笔画及笔画位置关系序列:

比起传统词表,文字笔画的数量以及笔画位置关系的数量相对较少,其大小通常在100-200之间,组成了一个较小的词表,将其作为强化学习策略网络的动作空间,可极大缩小动作空间的大小,采用小动作空间,减小问题的复杂度,简化优化算法的设计,降低文本生成模型的训练成本和计算量,提高生成模型的训练效率和性能。此外,传统词表常常面临词表中词频分布的长尾现象,少数词汇的频率非常高,占据了大部分的词频,而其他词汇则出现频率较低,造成了词库空间的浪费,而且这种长尾现象导致优化模型时对于少数高频词汇的过度优化,而忽视了其他词汇的优化。而本实施例通过缩小文本生成模型的词表大小,能拉平词频分布曲线,使得不同词汇的优化更加均衡,提高生成模型的优化效果。

步骤S200,基于第一向量,通过策略网络确定预设动作空间中各动作的概率分布,根据概率分布指导蒙特卡洛树搜索,生成第二训练数据;其中,预设动作空间为预设词表,预设词表包括文字笔画集合以及笔画位置关系集合。

一实施方式中,定义策略网络π(s|a),s表示状态,a表示选词动作,策略网络可生成在状态s下,作为动作空间的预设词表中各个词的分布概率,基于各个词的分布概率选词;在第一训练数据的基础上,采用策略网络π(s|a)进行多次的随机动作,采集在此过程中的“状态-动作-奖励”三元组,根据“状态-动作-奖励”三元组估计状态s下动作a的价值,将“状态-动作-价值”作为第二训练数据。

其中,策略网络可为经过初步训练的网络,具体可采用策略梯度算法(policygradient)对其进行初步训练,策略网络基于输入文本生成对应的预测文本序列,可将其生成预测文本序列时每个时间步的奖励设置为0,在整个预测文本序列生成完毕时,给其一个总奖励,基于总奖励更新策略网络中的参数,实现对策略网络的初步训练。再基于初步训练的策略网络,生成第二训练数据,采用第二训练数据训练价值网络。

蒙特卡洛树搜索(Monte Carlo Tree Search)主要包含四个步骤,分别是选择操作、扩展操作、预演操作以及回传操作,可采用策略网络,指导蒙特卡洛树搜索进行预演,生成预演文本序列,再基于预演文本序列的价值评分生成第二训练数据。

可选地,所述第一训练数据包括期望文本序列;根据所述概率分布指导蒙特卡洛树搜索,生成第二训练数据包括:

从根节点开始,根据所述概率分布选择子节点进行探索,直至达到叶子节点;

当所述叶子节点对应的句子还未生成结束时,扩展至少一个新的子节点;

在所述新的子节点上,基于所述策略网络进行预演,生成预演文本序列;

将所述预演文本序列与所述期望文本序列进行对比,获得所述预演文本序列对应的奖励,根据所述奖励执行回传操作,更新所有经过的节点的价值估计,根据所述价值估计生成所述第二训练数据;其中,每个节点对应一次动作执行。

以上从根节点开始选择子节点,到根据奖励执行回传操作为一次蒙特卡洛迭代,可进行多次蒙特卡洛迭代,获得多个节点的价值估计,每个节点包含有状态转移时执行的动作(即选词动作),节点的价值估计指对该动作的评价,根据多个节点的价值估计生成第二训练数据,采用第二训练数据训练出的价值网络可评价每个动作的价值,即评估每一个时间步的选词动作的价值。

蒙特卡洛树的节点表示状态,每个节点保存有状态转移时执行的动作、历史上该节点被选择的次数、该节点的价值估计。根节点指蒙特卡洛树的起始节点,代表初始状态,在每次迭代/每个时间步下均从根节点开始探索。从根节点开始往下探索,采用策略网络从根节点对应状态下的多个动作中选取概率最大的动作,即从预设词表中选取概率最大的字词,执行该概率最大的动作之后,状态转移至下一节点,判断下一节点是否为叶子节点,若是,则扩展新的子节点,在该新的子节点基础上进行预演,若否,则继续采用策略网络从下一节点对应状态下的多个动作中选取概率最大的动作。

在新的子节点上,预演从该新的子节点开始,按照策略网络从预设词表中选词生成句子,直至句子生成结束,从根节点到最终的叶子节点的路径即预演文本序列。

期望文本序列指真实的目标文本序列,将预演文本序列与期望文本序列进行对比,可对预演文本序列的好坏进行评价,例如可采用Bleu分数作为其好坏评价指标,可将其作为预演文本序列对应的奖励。

重复多次预演,生成多个预演文本序列,基于预演文本序列对应的奖励进行多次回传,对各节点的数据进行多次更新,从而获得蒙特卡洛树各节点对应状态下所执行动作的价值数据,将其作为第二训练数据训练价值网络,使得价值网络能够评估每个动作的价值,即评估每一个时间步的选词动作的价值。

通过在训练过程中,采用策略网络指导蒙特卡洛树搜索的方法(即根据所述概率分布选择子节点进行探索)生成第二训练数据,由于神经网络可以学习到复杂的语言模式和规则,而蒙特卡洛树搜索可以帮助模型在生成序列时进行更深入的探索,通过基于神经网络的策略网络预测下一个字词的概率,进行选词动作,采用蒙特卡洛树搜索来选择最佳的预演文本序列,可结合神经网络的表达能力和蒙特卡洛树搜索的探索能力生成第二训练数据,使最终训练所得的价值网络评价准确性更高,性能更优,从而使文本生成模型具有更优的性能。

步骤S300,采用第二训练数据训练价值网络。

第二训练数据包含每个节点对应状态下选词操作的价值数据,将其作为每个动作的期望价值,以此训练价值网络,使得训练获得的价值网络能够评价特定状态下选词操作的质量。

步骤S400,采用经训练的价值网络,优化策略网络,以获得训练好的文本生成模型。

训练好的价值网络可以评估特定状态下所采取选词操作的价值,因而可采用训练好的价值网络,优化策略网络的参数。

可选地,所述采用经训练的价值网络,优化策略网络包括:

采用策略网络确定在当前时间步所处状态下,预设动作空间中各动作的概率分布,根据概率分布进行当前时间步所处状态下的动作选择,其中,当前时间步所处状态下的动作选择指生成预测文本序列中当前时间步的字词,预测文本序列包括多个时间步的字词;

采用经训练的价值网络对当前时间步的字词进行评分;

基于当前时间步的字词的评分结果优化策略网络;

更新当前时间步,返回执行所述采用所述策略网络确定在当前时间步所处状态下,所述预设动作空间中各动作的概率分布,根据所述概率分布进行当前时间步所处状态下的动作选择,直至预测文本序列生成结束。

其中,可采用第三训练数据执行上述的策略网络优化操作。

采用策略网络处理输入文本和已生成的文本序列等状态数据,得到当前时间步的选词结果,采用价值网络对策略网络当前时间步的选词结果做出评价,采集状态、动作、评分组成的三元组集合,优化策略网络的参数。

更新当前时间步,指将时间步推移至下一时间步,采用策略网络生成输入文本对应预测文本序列中下一时间步的词语,直至预测文本序列生成结束。

现有的自然语言生成模型在优化过程中通常采用中介的目标函数,如最小化交叉熵损失函数。然而,这种方法存在一定的局限性,不能直接优化生成模型的最终目标。为了克服这一局限性,本实施例通过设置并训练价值网络,用以评估状态或状态-动作对的价值,以直接优化文本生成模型的目标,使得文本生成模型能够更好地适应实际应用场景,取得更好的优化效果。

在一些实施例子中,步骤S400之后,还包括:基于优化好的策略网络生成第四训练数据,根据第四训练数据优化价值网络,以获得优化后的文本生成模型。

在优化好策略网络后,策略网络的性能得到明显提升,而由于价值网络是基于初始的策略网络生成的第二训练数据训练生成,价值网络的性能可能比优化后的策略网络差,此时,可基于优化好的策略网络生成第四训练数据,根据第四训练数据再次优化价值网络,以提升价值网络的性能,从而进一步优化文本生成模型。

其中,可采用策略网络指导蒙特卡洛树搜索,生成第四训练数据。其具体生成过程如第二训练数据,可参照第二训练数据的生成过程,此处不赘述。

本发明实施例通过采用包括文字笔画集合以及笔画位置关系集合的词表作为动作空间,以缩小文本生成模型的词表大小,实现更平均的优化效果,并结合基于价值网络的强化学习方法,直接优化文本生成模型的最终目标,从而提高文本生成模型自然语言生成的质量和适应性。

本发明实施例中,所述文本生成方法,基于如上所述文本生成模型训练方法获得的文本生成模型,如图3,所述文本生成方法包括:

步骤S10,对接收到的输入文本进行编码,得到第二向量。

步骤S20,以预设词表作为预设动作空间,在第二向量基础上,根据策略网络和/或价值网络生成预测文本序列,其中,所述预设词表包括文字笔画集合以及笔画位置关系集合。

其中,根据应用场景的不同,输入文本也存在不同,例如,文本翻译场景下,输入文本为源语言文本;在人机对话交互场景下,输入文本为历史对话文本。

将输入文本输入文本生成模型,根据预设词表将输入文本转化为向量,再执行后续处理。其中,预设词表包括第一词表和第二词表。第一词表包括字母表,具体可以包括印欧语系下一种或多种语言的字母表,例如英文字母表、德文字母表、法文字母表、西班牙字母表等,若输入文本是英文,则编码器将其直接分解到字母级别,按照第一词表转化成向量。第二词表包括文字笔画集合和笔画位置关系集合,例如汉语笔画、韩语笔画、日语笔画,若输入文本是中文,则编码器将其拆解到笔画级别,按照中文词表转化为向量。

本发明实施例中,文字笔画的数量以及笔画位置关系的数量相对较少,预设词表较小,将其作为动作空间,可极大缩小动作空间的大小,采用小动作空间,能减小问题的复杂度,简化优化算法的设计,降低文本生成模型的训练成本和计算量,提高生成模型的训练效率和性能;此外,通过本发明实施例中的预设词表,可拉平词频分布曲线,使得不同词汇的优化更加均衡,提高生成模型的优化效果。

可选地,所述在所述第二向量基础上,根据策略网络和/或价值网络生成预测文本序列包括:

基于所述第二向量,采用所述策略网络确定所述预设动作空间中各动作的概率分布,并根据所述概率分布执行相应选词动作,以生成所述预测文本序列。其中,在基于上述文本生成模型训练方法训练获得文本生成模型后,策略网络能较为准确地确定每个选词动作的概率,执行概率最高的选词动作,生成预测文本序列每个时间步的词语,从而生成质量较高的预测文本序列。

可选地,所述在所述第二向量基础上,根据策略网络和/或价值网络生成预测文本序列包括:

基于所述第二向量,采用所述价值网络确定所述预设动作空间中各动作的价值评分,根据所述价值评分执行相应选词动作,以生成所述预测文本序列。其中,在基于上述文本生成模型训练方法训练获得文本生成模型后,价值网络也能准确地评估每个选词动作的价值,基于其对每个选词动作的评估,选取价值最高的选词动作,生成预测文本序列每个时间步的词语,从而生成质量较高的预测文本序列。

一些实施方式中,以预设词表作为动作空间,根据所述策略网络和所述价值网络选择所述预测文本序列中每个时间步的词语。在基于上述文本生成模型训练方法训练获得文本生成模型后,可基于策略网络确定每个选词动作的概率,基于价值网络评估每个选词动作的价值,根据每个选词动作的价值和概率共同确定预测文本序列中每个时间步的词语,例如,可将价值网络评估的价值转换为概率,与策略网络确定的每个选词动作的概率加权融合,确定最终概率,再基于最终概率确定预测文本序列中每个时间步的词语;也可将策略网络确定的每个选词动作的概率转化为价值,与价值网络评估的价值加权融合,确定每个选词动作的最终价值,再基于最终价值确定预测文本序列中每个时间步的词语。由此可综合策略网络和价值网络各自的优势,生成质量较高的预测文本序列。

本发明实施例中,如图4,所述文本生成模型训练装置,包括:

编码模块,其用于对第一训练数据进行编码,得到第一向量;

处理模块,其用于基于所述第一向量,通过所述策略网络确定预设动作空间中各动作的概率分布,根据所述概率分布指导蒙特卡洛树搜索,生成第二训练数据;其中,所述预设动作空间为预设词表,所述预设词表包括文字笔画集合以及笔画位置关系集合;

优化模块,其用于采用所述第二训练数据训练所述价值网络;采用经训练的所述价值网络,优化所述策略网络,以获得所述文本生成模型。

其相对于现有技术所具有的有益效果如所述文本生成模型训练方法,此处不赘述。

本发明实施例中,如图5,所述文本生成装置,包括:

编码模块,其用于对接收到的输入文本进行编码,得到第二向量;

预测模块,其用于以预设词表作为预设动作空间,在第二向量基础上,根据策略网络和/或价值网络生成预测文本序列,其中,所述预设词表包括文字笔画集合以及笔画位置关系集合。

其相对于现有技术所具有的有益效果如所述文本生成方法,此处不赘述。

本发明实施例中,如图6,所述电子设备,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上所述的文本生成模型训练方法,或者如上所述的文本生成方法。

一些实施方式中,电子设备为手机、个人电脑等用户智能终端。

一些实施方式中,电子设备实施为云服务器、网络服务器、应用服务器或管理服务器等具有数据处理功能的设备或服务器,电子设备通过处理器执行存储器上的计算机程序,实现如上所述的文本生成模型训练方法。电子设备还可与用户终端交互,通过交互接口接收来自用户终端的翻译请求或对话请求等文本生成请求,通过数据处理的处理器执行存储器中存储的数据,实现如上所述的文本生成方法,示例性的,用户终端可以接收用户输入的一段中文,然后向电子设备发起请求,使得电子设备将该一段中文翻译成英文,从而得到针对该一段中文的英文译文。

存储器可以是一个统称,包括本地存储以及存储历史数据的数据库,数据库可以在电子设备上,也可以在其它网络服务器上。

本发明实施例中,所述计算机可读存储介质存储有计算机程序,所述计算机程序包含至少一段代码,所述至少一段代码可由处理器执行,实现如上所述的文本生成模型训练方法,或者如上所述的文本生成方法。

应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”;术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”;术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。

虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。

相关技术
  • 宫廷服饰文本主题生成方法、装置、电子设备及存储介质
  • 文本生成模型训练方法和装置、文本生成方法和装置
  • 文本生成模型训练方法和装置、文本生成方法和装置
技术分类

06120116678646