掌桥专利:专业的专利平台
掌桥专利
首页

文本生成方法、装置、计算机设备、存储介质

文献发布时间:2023-06-19 18:32:25


文本生成方法、装置、计算机设备、存储介质

技术领域

本申请涉及自然语言处理技术领域,特别是涉及一种文本生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

传统技术中,可以通过企业人员人工解读与惠企项目相关的惠企政策文件,从惠企政策文件中的不同位置处抽取得到惠企项目的申报条件、优惠内容、所需申报材料等信息,进而利用抽取到的信息重新编排生成相应的申报文本进行惠企项目申报。然而,采用传统技术中的文本生成方法时,由于不同行政机关的发文风格差异较大,企业人员需要单独解读每篇惠企政策文件,从而导致文本生成费时费力。

发明内容

基于此,有必要针对上述技术问题,提供一种高效率的文本生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面,本申请提供了一种文本生成方法。所述方法包括:

获取待处理文本,对所述待处理文本中的文本段落进行词嵌入处理,得到与所述文本段落对应的段落向量;

根据所述段落向量和目标段落类别下的样本向量,确定所述段落向量和所述目标段落类别之间的联合概率分布,根据所述联合概率分布确定所述文本段落为所述目标段落类别下的目标段落;

将所述目标段落输入至预训练的神经网络模型,通过所述神经网络模型输出与所述目标段落中的段落分句对应的分句类别;

根据所述分句类别和所述分句类别下的段落分句,生成目标文本。

在其中一个实施例中,所述根据所述分句类别和所述分句类别下的段落分句,生成目标文本,包括:

从所述分句类别中确定出目标分句类别,对同一所述目标分句类别下的段落分句进行聚类,生成与所述目标分句类别对应的聚类结果;

根据与所述目标分句类别对应的聚类结果,生成所述目标文本。

在其中一个实施例中,所述获取待处理文本,对所述待处理文本中的文本段落进行词嵌入处理,得到与所述文本段落对应的段落向量,包括:

获取所述待处理文本,对所述待处理文本进行分词处理得到文本分词;

根据所述文本段落的总数量和所述文本分词对应的段落数量,确定所述文本分词与所述文本段落对应的分词权重;

获取所述文本分词在所述文本段落中的词频,采用与所述文本段落对应的调节因子对所述词频进行处理,确定所述文本分词与所述文本段落之间的相关性;

根据所述文本分词的分词权重和相关性,对所述文本段落进行词嵌入处理,得到与所述文本段落对应的所述段落向量。

在其中一个实施例中,所述根据所述段落向量和目标段落类别下的样本向量,确定所述段落向量和所述目标段落类别之间的联合概率分布,根据所述联合概率分布确定所述文本段落为所述目标段落类别下的目标段落,包括:

获取所述段落向量中的分词向量在所述样本向量中的分词词频,以及所述分词向量在所述段落向量和所述样本向量中的联合词频;

根据所述分词词频、所述联合词频以及所述目标段落类别对应的类别概率,生成所述段落向量和所述目标段落类别之间的联合概率分布;

根据所述联合概率分布确定所述文本段落属于所述目标段落类别的目标概率,响应于所述目标概率符合预设条件的判断结果,将所述文本段落作为所述目标段落。

在其中一个实施例中,所述将所述目标段落输入至预训练的神经网络模型,通过所述神经网络模型输出与所述目标段落中的段落分句对应的分句类别,包括:

将所述目标段落输入至预训练的所述神经网络模型,通过所述神经网络模型采用预先存储的分词字典对所述目标段落中的文本分词进行匹配,确定与所述文本分词对应的词向量,生成所述目标段落中段落分句的分句向量;

通过所述神经网络模型对所述分句向量进行卷积池化处理,确定与所述段落分句对应的分句类别。

在其中一个实施例中,所述神经网络模型的训练方法包括:

采用多个所述样本分句作为训练数据,将每个所述样本分句对应的分句类别作为标签输入至初始神经网络模型进行训练,通过所述初始神经网络模型输出与每个所述样本分句对应的初始分句类别;

根据每个所述样本分句的初始分句类别和标签,确定所述初始神经网络模型的偏差参数;

根据所述偏差参数对所述初始神经网络模型进行反向更新,直至更新后的所述初始神经网络模型的目标偏差参数符合更新停止条件,将更新后的所述初始神经网络模型作为预训练的所述神经网络模型。

第二方面,本申请还提供了一种文本生成装置。所述装置包括:

段落向量获取模块,用于获取待处理文本,对所述待处理文本中的文本段落进行词嵌入处理,得到与所述文本段落对应的段落向量;

目标段落确定模块,用于根据所述段落向量和目标段落类别下的第一样本向量,确定所述段落向量和所述目标段落类别之间的联合概率分布,根据所述联合概率分布确定所述文本段落为所述目标段落类别下的目标段落;

分句类别确定模块,用于将所述目标段落输入至预训练的神经网络模型,通过所述神经网络模型输出与所述目标段落中的段落分句对应的分句类别;

目标文本生成模块,用于根据所述分句类别和所述分句类别下的段落分句,生成目标文本。

第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项实施例所述的文本生成方法。

第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一项实施例所述的文本生成方法。

第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面任一项实施例所述的文本生成方法。

上述文本生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待处理文本,对待处理文本中的文本段落进行词嵌入处理,得到与文本段落对应的段落向量,根据段落向量和目标段落类别下的样本向量,确定段落向量和目标段落类别之间的联合概率分布,根据联合概率分布确定文本段落为目标段落类别下的目标段落,能够基于统计概率分类的原理对文本段落进行分类,从而提高文本段落的分类效率。通过将目标段落输入至预训练的神经网络模型,通过神经网络模型输出与目标段落中的段落分句对应的分句类别,根据分句类别和分句类别下的段落分句,生成目标文本,不仅能够减少输入神经网络模型的数据量,提高神经网络模型的分类效率,还能够利用神经网络分类原理对段落分句进行分类,提高分句类别的准确率,从而实现提高目标文本的生成效率以及准确率。

附图说明

图1为一个实施例中文本生成方法的流程示意图;

图2为一个实施例中段落向量生成步骤的流程示意图;

图3为一个实施例中目标段落确定步骤的流程示意图;

图4为一个实施例中神经网络模型训练步骤的流程示意图;

图5为另一个实施例中文本生成方法的流程示意图;

图6为一个实施例中文本生成装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。

在一个实施例中,如图1所示,提供了一种文本生成方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。

其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能电视、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本实施例中,该方法包括以下步骤:

步骤S102,获取待处理文本,对待处理文本中的文本段落进行词嵌入处理,得到与文本段落对应的段落向量。

具体地,服务器可以从本地存储中读取得到或者从互联网上下载得到待处理文本,其中,待处理文本可以用于表征需要进行分类抽取的非结构化文本,譬如包含项目申报信息的惠企政策文本、包含活动举办信息的活动推广文本等。对待处理文本进行全文分词处理,得到待处理文本中的多个文本分词。

对于待处理文本中的每个文本段落都执行以下操作:获取文本段落中每个文本分词的出现次数,确定每个文本分词和文本段落对应的词频。根据词频对文本段落中的每个文本分词进行词嵌入处理,将文本分词转换为对应的分词向量,从而得到与待处理文本中每个文本段落对应的段落向量。

步骤S104,根据段落向量和目标段落类别下的样本向量,确定段落向量和目标段落类别之间的联合概率分布,根据联合概率分布确定文本段落为目标段落类别下的目标段落。

其中,目标段落类别可以用于表征包含用户所需内容的有效段落,譬如惠企政策文件中的申报条件段落、项目内容段落、申报材料段落等。

具体地,服务器中可以预先存储有目标段落类别下的样本向量。可以采用统计概率算法(譬如逻辑回归算法、支持向量机算法、朴素贝叶斯算法等)对文本段落的段落向量和目标段落类别下的样本向量进行处理,生成段落向量与目标段落类别之间的联合概率分布。

根据联合概率分布,确定文本段落属于目标段落类别的目标概率。将目标概率与预设概率阈值进行比较,在目标概率大于预设概率阈值的情况下,可以确定文本段落属于目标段落类别下的目标段落。其中,预设概率阈值可以是一个固定的数值,或者,也可以是根据文本段落属于非目标段落类别的概率(可以参照上述目标概率的确定方法获取)确定的。

步骤S106,将目标段落输入至预训练的神经网络模型,通过神经网络模型输出与目标段落中的段落分句对应的分句类别。

具体地,服务器中可以预先部署有预训练的神经网络模型。其中,预训练的神经网络模型可以是多分类模型,譬如采用多个分句类别下的若干个样本分句作为训练数据,将每个样本分句对应的分句类别作为标签进行训练得到的多分类神经网络模型(譬如卷积神经网络模型CNN、循环神经网络模型RNN、双向预训练语言模型BERT等)。

将目标段落输入至预训练的神经网络模型,通过神经网络模型对目标段落中的每个段落分句进行处理,生成与每个段落分句对应的分句向量。在神经网络模型的全连接层中对每个段落分句的分句向量进行卷积池化处理,确定每个段落分句的分句向量特征。对每个段落分句的分句向量特征与多个分句类别下的样本分句的样本分句特征进行匹配,从而确定段落分句对应的分句类别。通过神经网络模型输出与目标段落中每个段落分句对应的分句类别。

步骤S108,根据分句类别和分句类别下的段落分句,生成目标文本。

其中,分句类别可以包括多种,譬如惠企政策文件中的申报条件句、项目内容句、申报材料句等。

具体地,服务器可以根据文本段落中每个段落分句的分句类别,对同一分句类别下的段落分句进行聚类,形成与分句类别对应的段落分句集合。按照预设的分句类别顺序,对与每个分句类别对应的段落分句集合进行排序组合,生成结构化的目标文本。

上述文本生成方法、装置、计算机设备、存储介质和计算机程序产品,通过获取待处理文本,对待处理文本中的文本段落进行词嵌入处理,得到与文本段落对应的段落向量,根据段落向量和目标段落类别下的样本向量,确定段落向量和目标段落类别之间的联合概率分布,根据联合概率分布确定文本段落为目标段落类别下的目标段落,能够基于统计概率分类的原理对文本段落进行分类,从而提高文本段落的分类效率。通过将目标段落输入至预训练的神经网络模型,通过神经网络模型输出与目标段落中的段落分句对应的分句类别,根据分句类别和分句类别下的段落分句,生成目标文本,不仅能够减少输入神经网络模型的数据量,提高神经网络模型的分类效率,还能够利用神经网络分类原理对段落分句进行分类,提高分句类别的准确率,从而实现提高目标文本的生成效率以及准确率。

在一个实施例中,步骤S108,根据分句类别和分句类别下的段落分句,生成目标文本,包括:从分句类别中确定出目标分句类别,对同一目标分句类别下的段落分句进行聚类,生成与目标分句类别对应的聚类结果,根据与目标分句类别对应的聚类结果,生成目标文本。

具体地,服务器可以根据用户的文本需求,从分句类别中确定出一个或多个目标分句类别。根据目标分句类别从目标段落中抽取出在每个目标分句类别下的段落分句。对同一目标分句类别下的段落分句进行聚类处理,生成与每个目标分句类别对应的聚类结果。按照目标分句类别对应的文本顺序,对与每个目标分句类别对应的聚类结果进行排列组合,生成目标文本。

本实施例中,通过从分句类别中获取目标分句类别,按照目标分句类别对目标段落进行段落分句抽取、聚类,按照目标分句类别的聚类结果生成目标文本,能够利用目标分句类别对目标段落中的段落分句进行细粒度筛选,进一步提高聚类结果的准确率,从而使得目标文本更符合用户的文本需求,提高目标文本的准确率。

在一个实施例中,如图2所示,步骤S102,获取待处理文本,对待处理文本中的文本段落进行词嵌入处理,得到与文本段落对应的段落向量,包括:

步骤S202,获取待处理文本,对待处理文本进行分词处理得到文本分词。

具体地,服务器可以获取待处理文本,对待处理文本进行数据清洗处理,去除待处理文本中的标点符号或停用词,得到清洗后的待处理文本。采用分词算法(譬如,正向最大匹配法、逆向最大匹配法、双向最大匹配法等)对清洗后的待处理文本进行全文分词处理,得到多个文本分词。

步骤S204,根据文本段落的总数量和文本分词对应的段落数量,确定文本分词与文本段落对应的分词权重。

具体地,服务器可以获取待处理文本中文本段落的总数量。对每个文本分词执行以下操作:获取待处理文本中包含文本分词的段落数量,也即文本分词对应的段落数量。对文本段落的总数量和文本分词对应的段落数量进行运算处理,确定文本分词对于待处理文本的分词权重(文本分词的分词权重和文本分词对应的段落数量之间呈反比关系,也即文本分词对应的段落数量越高时,文本分词相对于文本段落的分词权重越低)。

步骤S206,获取文本分词在文本段落中的词频,采用与文本段落对应的调节因子对词频进行处理,确定文本分词与文本段落的相关性。

具体地,服务器可以获取待处理文本中每个文本段落的段落长度,对每个文本段落的段落长度进行处理,确定与文本段落对应的平均长度。对每个文本段落执行以下操作:获取每个文本分词在文本段落中的词频。对文本段落的段落长度和与文本段落对应的平均长度进行运算处理,确定与文本段落对应的调节因子。采用文本段落的调节因子对每个文本分词的词频进行运算处理,得到每个文本分词与文本段落对应的相关性。

步骤S208,根据文本分词的分词权重和相关性,对文本段落进行词嵌入处理,确定与文本段落对应的段落向量。

具体地,服务器可以采用BM25算法(Okapi BM25,一种基于概率检索模型提出的算法)对每个文本分词的分词权重以及相关性进行运算处理,确定每个文本分词与文本段落对应的相关性得分。按照相关性得分,对文本段落中的每个文本分词进行词嵌入处理,将文本分词转换为对应的分词向量,从而得到与每个文本段落对应的段落向量。

本实施例中,通过采用统计概率的原理确定文本分词与文本段落对应的分词权重以及相关性,基于分词权重和相关性确定文本分词的相关性得分,进而对文本段落进行词嵌入处理,确定与文本段落对应的段落向量,能够提高段落向量的生成效率,同时由于段落向量的生成算法实现较为简单,还能够降低段落向量的生成成本。

在一个实施例中,如图3所示,步骤S104,根据段落向量和目标段落类别下的样本向量,确定段落向量和目标段落类别之间的联合概率分布,根据联合概率分布确定文本段落为目标段落类别下的目标段落,包括:

步骤S302,获取段落向量中的分词向量在样本向量中的分词词频,以及分词向量在段落向量和样本向量中的联合词频。

具体地,服务器可以将段落向量和样本向量进行分词向量匹配,记录段落向量中的每个分词向量匹配成功的次数,确定段落向量中的每个分词向量在样本向量中的分词词频。利用段落向量和样本向量组合形成向量集合,获取段落向量中的每个分词向量在向量集合中的出现次数,确定每个分词向量在向量集合中的分词词频,也即分词向量在段落向量和样本向量中的联合词频。

步骤S304,根据分词词频、联合词频以及目标段落类别对应的类别概率,生成段落向量和目标段落类别之间的联合概率分布。

具体地,服务器可以对段落向量中的每个分词向量在目标段落类别下的样本向量中的分词词频进行运算处理,确定段落向量与目标段落类别对应的条件概率。对段落向量中每个分词向量在向量集合中的联合词频进行运算处理,确定与段落向量对应的特征概率。从而,利用段落向量与目标段落类别对应的条件概率、与段落向量对应的特征概率以及目标段落类别对应的类别概率,生成段落向量和目标段落类别之间的联合概率分布。

步骤S306,根据联合概率分布确定文本段落属于目标段落类别的目标概率,响应于目标概率符合预设条件的判断结果,将文本段落作为目标段落。

具体地,服务器可以采用朴素贝叶斯算法对段落向量和目标段落类别之间的联合概率分布进行运算处理,确定文本段落属于目标段落类别的目标概率。参照上述实施例中提供的目标概率确定方法,获取文本段落属于非目标段落类别的概率。比较文本段落的目标概率和文本段落属于非目标段落类别的概率,在确定目标概率大于文本段落属于非目标段落类别的概率的情况下,响应于目标概率符合预设条件的判断结果,将文本段落作为目标段落。

可选地,上述步骤S302~S306的操作能够通过预训练的二分类模型实现。

其中,二分类模型可以是通过采用目标段落类别下的样本向量以及非目标段落类别下的样本向量作为训练数据进行朴素贝叶斯训练得到的。譬如,服务器可以采用若干个目标段落类别下的样本向量以及非目标段落类别下的样本向量作为训练数据输入至初始二分类模型。利用初始二分类模型执行以下操作:

根据目标段落类别下的样本向量的第一样本数量和非目标段落类别下的样本向量的第二样本数量,确定目标段落类别下的样本向量在训练数据中的出现概率,也即目标段落类别对应的类别概率。

从训练数据中随机抽取一个待分类样本向量。参照上述步骤S302~S306的操作,确定待分类样本向量属于目标段落类别的第一样本概率。同理地,将上述步骤S302~S306的操作中的目标段落类别下的样本向量替换为非目标段落类别下的样本向量,可以得到待分类样本向量属于非目标段落类别的第二样本概率。在第一样本概率大于第二样本概率的情况下,确定待分类样本向量属于目标段落类别,得到待分类样本向量的初始分类结果。

根据待分类样本向量实际所属的段落类别和初始分类结果,确定初始二分类模型的分类准确率。根据分类准确率对初始二分类模型的模型参数进行调整,对调整后的初始二分类模型重复上述操作进行训练,直至满足训练停止条件,得到预训练的二分类模型。其中,训练停止条件可以是满足预设训练次数,或者,也可以是调整后的初始二分类模型的分类准确率达到预设准确率阈值。

一个示例中,在待处理文本为包含项目申报信息的惠企政策文本的情况下,可以将待处理文本中的申报条件段落、项目内容段落、申报材料段落标注为目标段落类别下的文本段落,将待处理文本中的除申报条件段落、项目内容段落、申报材料段落之外的段落标注为非目标段落类别的文本段落。利用待处理文本中的文本段落以及文本段落对应的类别标签对初始二分类模型进行朴素贝叶斯训练,得到预训练的二分类模型。后续,可以直接采用预训练的二分类模型实现对惠企政策文本的粗粒度段落分类。

本实施例中,通过根据段落向量中的分词向量对应的分词词频和联合词频,以及目标段落类别的类别概率,生成段落向量和目标段落类别之间的联合概率分布,根据联合概率分布确定目标概率,在目标概率符合预设条件的情况下,将文本段落作为目标段落类别下的目标段落,能够利用统计概率分类原理对文本段落进行粗粒度分类,从而提高目标段落的确定效率。

在一个实施例中,步骤S106,将目标段落输入至预训练的神经网络模型,通过神经网络模型输出与目标段落中的段落分句对应的分句类别,包括:

将目标段落输入至预训练的神经网络模型,通过神经网络模型采用预先存储的分词字典对目标段落中的文本分词进行匹配,确定与文本分词对应的词向量,生成目标段落中段落分句的分句向量。通过神经网络模型对分句向量进行卷积池化处理,确定与段落分句对应的分句类别。

具体地,服务器中可以部署有预训练的神经网络模型,神经网络模型中预先存储有分词字典,分词字典中存储有文本分词和词向量之间的映射关系。通过将目标段落输入至预训练的神经网络模型。利用神经网络模型按照预设分句长度阈值,依次从目标段落中选取若干个段落分句,对选取的若干个段落分句进行分词处理,得到段落分句中的文本分词。采用神经网络模型中预先存储的分词字典与段落分句中的每个文本分词进行匹配,确定与每个文本分词对应的词向量,从而形成与每个段落分句对应的分句向量。

利用神经网络模型对分句向量进行多次卷积池化处理,将每次卷积池化处理提取到的向量特征输入至全连接层,在全连接层中对每次卷积池化处理后得到的向量特征进行运算处理,得到分句向量的分句向量特征。获取与多个分句类别对应的类别向量特征,根据类别向量特征和分句向量特征的相似度,确定出与段落分句对应的分句类别。

可选地,上述分句类别的确定操作能够通过预训练的双向预训练语言模型实现。具体地,服务器可以通过双向预训练语言模型对当前处理的段落分句进行分词处理,得到段落分句中的文本分词。采用贪婪最长优先匹配算法对段落分句中的文本分词和神经网络模型中预存储的分词字典进行匹配,实现对段落分句的分词嵌入处理,得到与段落分句对应的文本序列(Token Embedding)。根据段落分句中的文本分词的位置信息,实现对段落分句的位置嵌入,得到与段落分句对应的位置序列(Transformer Positional Embedding)。根据当前处理的段落分句在被选取的若干个段落分句中的上下文信息,实现对段落分句的分句嵌入处理,生成与当前处理的段落分句对应句子序列(Segment Embedding)。对分句序列、位置序列和令牌序列进行运算处理,生成段落分句的分句向量。

通过双向预训练语言模型在卷积层对分句向量进行卷积池化处理,在隐藏层对卷积层的输入张量和输出张量进行线性转换处理,生成对应的线性转换矩阵。采用多头注意力机制算法对线性转换矩阵进行运算处理,得到分句向量的注意力概率。在全连接层对分句向量的注意力概率进行线性转换处理,得到分句向量的分句向量特征。获取与多个分句类别对应的类别向量特征,根据类别向量特征和分句向量特征的相似度,确定出与段落分句对应的分句类别。

本实施例中,通过神经网络模型采用字典匹配的方式将段落分句转换为分句向量,根据分句向量确定与段落对应的分句类别,能够基于神经网络分类原理实现对段落分句的细粒度分类,从而提高分句类别的准确率。

在一个实施例中,如图4所示,提供了一种神经网络模型的训练方法,包括:

步骤S402,采用多个样本分句作为训练数据,将每个样本分句对应的分句类别作为标签输入至初始神经网络模型进行训练,通过初始神经网络模型输出与每个样本分句对应的初始分句类别。

具体地,服务器中可以部署有初始神经网络模型。通过采用多个已标注的样本分句作为训练数据,将每个样本分句对应的分句类别作为标签输入至初始神经网络模型进行训练。通过初始神经网络模型对每个样本分句进行分词处理,得到每个样本分句中的样本分词。随机从分词处理后得到的多个文本分词中选择出若干个目标分词,对目标分词进行掩码处理,得到掩码处理后的样本分句。根据掩码处理后的样本分句中样本分词的位置和对应的词向量,以及与掩码处理后的样本分句相邻的样本分句信息,生成与样本分句对应的样本分句向量。获取同一分句类别下的多个样本分句对应的样本分句向量,确定与分句类别对应的类别向量特征。根据样本分句向量特征和类别向量特征,确定出与每个样本分句对应的初始分句类别。

步骤S404,根据每个样本分句的初始分句类别和标签,确定初始神经网络模型的偏差参数。

步骤S406,根据偏差参数对初始神经网络模型的模型参数进行反向更新,将更新后的初始神经网络模型作为预训练的神经网络模型。

具体地,服务器可以通过初始神经网络模型根据每个样本分句的初始分句类别和每个样本分句对应的标签,确定初始分句类别的准确率,也即初始神经网络模型的初始分类准确率。利用初始分类准确率估算初始神经网络模型的损失函数,得到与初始神经网络模型对应的偏差参数,也即损失函数的值。

从初始神经网络的全连接层开始反向向前传播偏差参数,利用偏差参数更新初始神经网络中每一层的模型参数,得到反向更新后的初始神经网络模型。重复上述反向更新操作,获取每次反向更新后的初始神经网络模型的偏差参数,采用梯度下降法对偏差参数进行迭代求解,直至得到偏差参数的最小值,停止对初始神经网络模型的反向更新。记录当前的模型参数,将此时的初始神经网络模型作为预训练的神经网络模型。

本实施例中,通过根据初始神经网络模型的偏差参数进行反向更新,训练得到预训练的神经网络模型,能够对整个神经网络模型的模型参数进行更新,降低参数更新时的方差,从而降低神经网络模型的训练成本。

在一个实施例中,如图5所示,提供了一种文本生成方法的流程示意图,包括:

步骤S502,获取待处理文本,根据文本段落的总数量和文本分词对应的段落数量,确定文本分词与文本段落对应的分词权重。

步骤S504,获取文本分词在文本段落中的词频,采用与文本段落对应的调节因子对词频进行处理,确定文本分词与文本段落之间的相关性。

步骤S506,根据文本分词的分词权重和相关性,对文本段落进行词嵌入处理得到与文本段落对应的段落向量。

具体地,服务器可以获取待处理文本,对待处理文本进行全文分词处理,得到待处理文本中多个文本分词。对待处理文本中的每个文本段落中的文本分词执行以下处理:

获取待处理文本中文本段落的总数量和文本分词所在的文本段落的数量,确定文本分词与文本段落对应的分词权重。根据文本段落的段落长度以及待处理文本中文本段落的平均长度,确定文本段落的调节因子。采用调节因子对文本分词在文本段落中的词频进行处理,确定文本分词与文本段落之间的相关性。

采用BM25算法根据每个文本分词与文本段落对应的分词权重以及每个文本分词与文本段落对应的相关性,对文本段落进行词嵌入处理,生成与文本段落对应的段落向量。具体的段落向量的生成操作可以参照上述实施例中提供的段落向量的生成方法实现,在此不作具体阐述。

步骤S508,获取段落向量中的分词向量在样本向量中的分词词频,以及分词向量在段落向量和样本向量中的联合词频。

步骤S510,根据分词词频、联合词频以及目标段落类别对应的类别概率,生成段落向量和目标段落类别之间的联合概率分布,根据联合概率分布确定出属于目标段落类别的目标段落。

具体地,服务器中可以部署有预训练的二分类模型,其中二分类模型是通过采用目标段落类别下的样本向量以及非目标段落类别下的样本向量作为训练数据进行朴素贝叶斯训练得到的。将段落向量输入至预训练的二分类模型,利用二分类模型获取段落向量中的分词向量在训练数据的样本向量中的分词词频,以及分词向量在段落向量和训练数据的样本向量中的联合词频。

利用二分类模型根据段落向量中分词向量的分词词频、联合词频以及预先存储的目标段落类别的类别概率,生成段落向量与目标段落类别之间的联合概率分布。采用朴素贝叶斯算法对联合概率分布进行运算处理,得到文本段落属于目标段落类别的目标概率以及文本段落属于非目标段落类别的非目标概率。在目标概率大于非目标概率的情况下,确定文本段落属于目标段落类别,将文本段落作为目标段落。具体的目标段落确定操作可以参照上述实施例中提供的目标段落的确定方法实现,在此不作具体阐述。

步骤S512,将目标段落输入至预训练的神经网络模型,通过神经网络模型采用分词字典确定与目标段落中的文本分词对应的词向量,生成目标段落中段落分句的分句向量。

具体地,服务器中可以部署有预训练的双向预训练语言模型(BidirectionalEncoder Representations from Transformer,简称BERT),双向预训练语言模型中预先存储有文本分词与词向量之间的映射关系。将目标段落输入至双向预训练语言模型,通过双向预训练语言模型采用模型中预先存储的分词字典对目标段落中段落分句的文本分词进行匹配,确定与每个文本分词对应的词向量,得到与段落分句对应的文本序列(TokenEmbedding);获取段落分句中每个文本分词的位置信息,生成与段落分句对应的位置序列(Transformer Positional Embedding);获取段落分句在目标段落中的上下文信息,生成与段落分句对应句子序列(Segment Embedding);根据与段落分句对应的文本序列、位置序列以及句子序列对段落分句进行向量转换,生成与段落分句对应的分句向量。

步骤S514,通过神经网络模型对分句向量进行卷积池化处理,确定与段落分句对应的分句类别,从分句类别中确定出目标分句类别,对同一目标分句类别下的段落分句进行聚类生成目标文本。

具体地,服务器可以通过双向预训练语言模型对分句向量进行卷积池化处理,确定与段落分句对应的分句类别。从分句类别中确定出用户所需的目标分句类别。从目标段落中抽取出目标分句类别下的段落分句,对同一目标分句类别下的段落分句进行聚类,生成与目标分句类别对应的聚类结果,根据聚类结果生成目标文本。具体的目标文本生成操作可以参照上述实施例中提供的目标文本生成方法实现,在此不作具体阐述。

可选地,在一些实施例,以待处理文本为惠企政策文本为例,对上述二分类模型和双向预训练语言模型的训练过程进行说明:

具体地,服务器从互联网中公开的政策文件数据库中下载得到预设数量份(譬如50份)的待处理文本。对待处理文本中的目标段落类别下的目标段落(譬如申报条件段落、项目内容段落、申报材料段落)以及目标段落中的目标分句类别下的段落分句(譬如申报条件句、项目内容句、申报材料句)进行人工标注。其中,待处理文本中的目标段落类别下的目标段落与非目标段落类别下的文本段落之间的词频相关性可以如下表5.1所示:

表5.1

从上表5.1中可知,目标段落类别下的目标段落与非目标段落类别下的文本段落之间不存在显著的强相关性关系,也即从文本段落维度来看,每种段落类别下的文本段落具有一定的用词倾向性。此时,采用统计概率分类原理对文本段落进行分类,即可实现较高的分类准确率以及分类效率。

譬如,可以对每份待处理文本进行全文分词处理,按照文本分词所在文本段落对分词处理得到的文本分词进行段落聚类,得到与文本段落对应的文本分词集合。采用与文本段落对应的文本分词集合作为训练数据,将文本段落对应的类别标注作为标签,按照统计概率分类原理对初始二分类模型进行朴素贝叶斯训练,得到预训练的二分类模型。

而目标段落中的目标分句类别下的段落分句与非目标分句类别下的段落分句之间的词频相关性如下表5.2所示:

表5.2

从上表5.2中可知,申报条件句和申报材料句在词频方面有着较强的相关性。譬如,申报材料的标题内容很多用词和申报条件里的用词是一模一样的。此时采用统计概率分类原理对段落分句进行分类的准确率较低。因此,需要采用分类准确率更高的神经网络分类原理对段落分句进行分类。

譬如,可以采用已标注的目标分句类别下的段落分句以及非目标分句类别下的段落分句作为训练数据,将段落分句对应的类别标注作为标签对初始双向预训练语言模型进行训练。通过初始双向预训练语言模型生成与段落分句对应分句向量,将分句向量输入至全连接层进行多分类预测,得到分句向量对应的分类结果。根据分句向量的分类结果以及对应的标签,确定初始双向预训练语言模型的偏差参数。采用偏差参数对初始双向预训练语言模型进行反向更新,对反向更新后的初始双向预训练语言模型采用偏差梯度估算更新后的偏差参数,直至偏差参数符合训练停止条件时,得到预训练的双向预训练语言模型。

优选地,每次输入初始双向预训练语言模型的段落分句的字段长度可以为16字节。初始双向预训练语言模型的训练迭代周期可以为4,初始双向预训练语言模型中全连接层训练的分句类别的数量可以为4。

此时,通过对文本段落采用统计概率分类原理进行粗粒度分类,能够降低文本段落的分类训练成本,同时达到较高的分类准确率。而对目标段落下的段落分句采用神经网络进行细粒度分类,能够提高对段落分句的分类准确率。此外,通过从待处理文本中先提取出目标段落类别下的目标段落,然后对目标段落进行后续的段落分句分类,还能够降低后续神经网络模型处理的数据量,从而有利于提高后续段落分句分类的效率以及降低神经网络模型的训练成本。

本实施例中,通过获取待处理文本,对待处理文本中的文本段落进行词嵌入处理,得到与文本段落对应的段落向量,根据段落向量和目标段落类别下的样本向量,确定段落向量和目标段落类别之间的联合概率分布,根据联合概率分布确定文本段落为目标段落类别下的目标段落,能够基于统计概率分类的原理对文本段落进行分类,从而提高文本段落的分类效率。通过将目标段落输入至预训练的神经网络模型,通过神经网络模型输出与目标段落中的段落分句对应的分句类别,根据分句类别和分句类别下的段落分句,生成目标文本,不仅能够减少输入神经网络模型的数据量,提高神经网络模型的分类效率,还能够利用神经网络分类原理对段落分句进行分类,提高分句类别的准确率,从而实现提高目标文本的生成效率以及准确率。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其他的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本生成方法的文本生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本生成装置实施例中的具体限定可以参见上文中对于文本生成方法的限定,在此不再赘述。

在一个实施例中,如图6所示,提供了一种文本生成装置600,包括:段落向量获取模块602、目标段落确定模块604、分句类别确定模块606和目标文本生成模块608,其中:

段落向量获取模块602,用于获取待处理文本,对待处理文本中的文本段落进行词嵌入处理,得到与文本段落对应的段落向量;

目标段落确定模块604,用于根据段落向量和目标段落类别下的第一样本向量,确定段落向量和目标段落类别之间的联合概率分布,根据联合概率分布确定文本段落为目标段落类别下的目标段落;

分句类别确定模块606,用于将目标段落输入至预训练的神经网络模型,通过神经网络模型输出与目标段落中的段落分句对应的分句类别;

目标文本生成模块608,用于根据分句类别和分句类别下的段落分句,生成目标文本。

在一个实施例中,目标文本生成模块608,包括:分句聚类单元,用于从分句类别中确定出目标分句类别,对同一目标分句类别下的段落分句进行聚类,生成与目标分句类别对应的聚类结果;文本生成单元,用于根据与目标分句类别对应的聚类结果,生成目标文本。

在一个实施例中,段落向量获取模块602,包括:文本分词单元,用于获取待处理文本,对待处理文本进行分词处理得到文本分词;权重确定单元,用于根据文本段落的总数量和文本分词对应的段落数量,确定文本分词与文本段落对应的分词权重;相关性确定单元,用于获取文本分词在文本段落中的词频,采用与文本段落对应的调节因子对词频进行处理,确定文本分词与文本段落之间的相关性;词嵌入单元,用于根据文本分词的分词权重和相关性,对文本段落进行词嵌入处理,得到与文本段落对应的段落向量。

在一个实施例中,目标段落确定模块604,包括:词频获取单元,用于获取段落向量中的分词向量在样本向量中的分词词频,以及分词向量在段落向量和样本向量中的联合词频;概率分布生成单元,用于根据分词词频、联合词频以及目标段落类别对应的类别概率,生成段落向量和目标段落类别之间的联合概率分布;概率获取单元,用于根据联合概率分布确定文本段落属于目标段落类别的目标概率,响应于目标概率符合预设条件的判断结果,将文本段落作为目标段落。

在一个实施例中,分句类别确定模块606,包括:向量生成单元,用于将目标段落输入至预训练的神经网络模型,通过神经网络模型根据目标段落中段落分句的上下文信息,对段落分句进行词嵌入处理,生成段落分句的分句向量;特征获取单元,用于通过神经网络模型对段落分句的分句向量进行卷积池化处理,得到与段落分句对应的分句向量特征;类别确定单元,用于通过神经网络模型根据分句向量特征,确定与段落分句对应的分句类别。

在一个实施例中,文本生成装置600还包括:模型训练模块,用于采用多个样本分句作为训练数据,将每个样本分句对应的分句类别作为标签输入至初始神经网络模型进行训练,通过初始神经网络模型输出与每个样本分句对应的初始分句类别;根据每个样本分句的初始分句类别和标签,确定初始神经网络模型的偏差参数;根据偏差参数对初始神经网络模型的模型参数进行反向更新,将更新后的初始神经网络模型作为预训练的神经网络模型。

上述文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本向量、联合概率分布等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本生成方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可以存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其他介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以作出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 基于文本的视频生成方法、装置、计算机设备及存储介质
  • 词表生成方法、文本分类方法、装置、设备及存储介质
  • 样本存储路径生成方法、装置、计算机设备及存储介质
  • 文本处理方法、装置、计算机可读存储介质和计算机设备
  • 文本处理方法、装置、设备、计算机设备和存储介质
  • 文本生成方法、文本生成装置及计算机可读存储介质
  • 文本生成方法、装置、计算机设备及计算机可读存储介质
技术分类

06120115601901