掌桥专利:专业的专利平台
掌桥专利
首页

一种动基于GAN的文本信息分类方法、装置及存储介质

文献发布时间:2023-06-19 11:32:36


一种动基于GAN的文本信息分类方法、装置及存储介质

技术领域

本申请涉及信息处理领域,尤其涉及一种动基于生成对抗网络(GAN)的文本信息分类方法、装置及计算机可读存储介质。

背景技术

传统的文本信息分类方法主要是通过基于带有标签的训练数据来训练模型的。但实际上,带有标签的训练数据是非常有限,还存在大量的有用数据是没有标签的,例如,日志信息。如果能在训练模型时引入这些没有标签的数据,会大大提高模型精度,并相应提高使用模型进行文本信息分类的准确度。

因此,如何在训练模型的过程中引入没有标签的数据,以使得该模型在实际应用于文本信息分类时得到更为准确的分类结果,就成为一个尚待解决的技术问题。

发明内容

本申请人创造性地提供一种动基于生成对抗网络的文本信息分类方法、装置及存储介质。

根据本申请实施例第一方面,一种基于生成对抗网络的文本信息分类方法,该方法包括:获取待分类文本信息;根据待分类文本信息和第一文本信息分类模型得到待分类文本信息所属的分类,第一文本信息分类模型是基于生成对抗网络,使用有标签的文本数据和无标签的文本数据训练得到文本信息分类模型;输出分类。

根据本申请一实施方式,在根据待分类文本信息和第一文本信息分类模型得到待分类文本信息所属的分类之前,该方法还包括:构建生成对抗网络模型;使用有标签的文本数据和无标签的文本数据对生成对抗网络模型进行训练得到第一文本信息分类模型。

根据本申请一实施方式,使用有标签的文本数据和无标签的文本数据对生成对抗网络模型进行训练得到第一文本信息分类模型,包括:对有标签的文本数据进行向量转换得到第一向量表示;对无标签的文本数据进行向量转换得到第二向量表示;将第一向量表示和第二向量表示输入到生成对抗网络模型的判别模型进行数据来源判别,其中,将第一向量表示判别为1,将第二向量表示判别为0;将第一向量表示和第二向量表示输入到生成对抗网络模型的文本信息分类模型进行分类,其中,将第一向量表示分类到0至K-1类别中的对应类,将第二向量表示分类到第K类,其中K为大于等于2的自然数;对生成对抗网络进行对抗模型训练得到第一文本信息分类模型。

根据本申请一实施方式,进行向量转换,包括:使用BERT预训练模型进行向量转换。

根据本申请一实施方式,该方法还包括:对判别模型进行极小极大化(min-max)训练,其中,训练使用梯度反转层(GRL)实现梯度负向回传。

根据本申请一实施方式,判别模型使用如下损失函数:

E

其中E表示数学期望,Pg表示第二向量表示,Pr表示第一向量表示,f

根据本申请一实施方式,无标签的文本数据包括随机生成的高斯噪音数据。

根据本申请实施例第二方面,提供一种基于生成对抗网络的文本信息分类装置,该装置包括:信息获取模块,用于获取待分类文本信息;分类确定模块,用于根据待分类文本信息和第一文本信息分类模型得到待分类文本信息所属的分类,第一文本信息分类模型是基于生成对抗网络,使用有标签的文本数据和无标签的文本数据训练得到文本信息分类模型;分类输出模块,用于输出分类。

根据本申请一实施方式,该装置还包括:生成对抗网络模型构建模块,用于构建生成对抗网络模型;第一文本信息分类模型训练模块,用于使用有标签的文本数据和无标签的文本数据对生成对抗网络模型进行训练得到第一文本信息分类模型。

根据本申请实施例第三方面,提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的基于生成对抗网络的文本信息分类方法。

本申请实施例提供一种基于生成对抗网络的文本信息分类方法、装置即计算机可读存储介质。首先,会构建一个生成对抗网络模型;然后,使用有标签的文本数据和无标签的文本数据对该生成对抗网络模型进行训练得到一个文本信息分类模型;之后,使用该分类模型进行文本信息的分类。如此,可利用大量的无标签的文本数据,例如日志信息,对文本信息分类模型进行训练,从而使得文本信息分类模型的精度更高,文本信息的分类结果更准确,进而使基于文本信息分类的应用(例如,垃圾邮件识别、系统错误分类、情感分析等)的效果更好。

需要理解的是,本申请的实施并不需要实现上面的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本申请的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1为本申请实施例基于生成对抗网络的文本信息分类方法的实现流程示意图;

图2为本申请实施例生成对抗网络模型对抗训练的基本过程示意图;

图3为本申请实施例基于生成对抗网络的文本信息分类装置的组成结构示意图。

具体实施方式

为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

图1示出了本申请实施例基于生成对抗网络得文本信息分类方法的实现流程。参考图1,本申请实施例提供一种基于生成对抗网络的文本信息分类方法,该方法包括:操作110,获取待分类文本信息;操作120,根据待分类文本信息和第一文本信息分类模型得到待分类文本信息所属的分类,第一文本信息分类模型是基于生成对抗网络,使用有标签的文本数据和无标签的文本数据训练得到文本信息分类模型;操作130,输出分类。

其中,文本信息指文本格式的信息,包括:从文本文件中读取的文件内容;从数据库中文本类型和字符串字段查询到的文本信息以及从各个网页内容爬取的文本信息等等。

文本信息分类指给定文本信息,将文本信息分类为K个类别中的一个或多个,K为大于等于2的自然数。文本信息分类常常应用于系统错误分类、垃圾邮件识别和情感分析等应用中。

有标注的文本数据指已经标注了期望分类的文本信息所形成的训练数据;而无标注的文本数据则是没有给出期望分类的文本信息所形成的训练数据。

目前,常用的文本信息分类方法都是基于深度学习文本信息分类模型,例如,fastText模型、TextCNN模型、TextRNN模型等。但这些模型都需要使用大量已标注的文本信息进行训练才能达到较好的模型精度和应用效果,而带有标签的训练数据又是非常有限,普遍存在的更多的数据都是没有标签的,例如,日志信息。如果对这些没有标签的文本数据进行人工标注的话,需要花费大量的人力物力和时间成本。

生成对抗网络模型通过框架中的至少两个模块:生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习,可以产生较为准确的输出结果。其中,生成模型可以用于学习现有数据的特征生成新的数据,而判别模型则对新生成的数据进行判别,判断该信息的真伪。通过两个模型的对抗和博弈,以及各自模型的深入学习过程,判别模型辨识真伪的能力也会越来越强,而相应地,生成模型生成的数据可以越来越能够以假乱真。

由此,本申请发明人创造性地想到利用生成对抗网络的对抗训练方法,将有标签的文本数据和无标签的文本数据进行混合,同时交给生成模型和判别模型,其中,用生成模型进行分类,而使用判别模型去判别这些数据的来源。当对抗训练进行持续一段时间并达到某一精度之后,生成模型可以更准确地模拟出无标签数据的真实分类,从而成为一个精度较高的文本分类模型。

因此,在操作120中,本申请实施例使了上述训练方法得到的文本分类模型,即第一文本信息分类模型对文本进行分类。由于,第一文本信息分类模型使用了大量的无标签数据,并经过判别模型的对抗训练,其精度相对于仅使用有标签数据且没经过对抗训练的模型的精度要高,分类结果更准确。

需要说明的是图1所示的实施例仅为本申请基于生成对抗网络的文本信息分类方法最基本的一个基本实施例,实施者还可在其基础上进行进一步细化和扩展。

根据本申请一实施方式,在根据待分类文本信息和第一文本信息分类模型得到待分类文本信息所属的分类之前,该方法还包括:构建生成对抗网络模型;使用有标签的文本数据和无标签的文本数据对生成对抗网络模型进行训练得到第一文本信息分类模型。

在构建生成对抗网络模型时,可使用任何现有的或适用的用于实现深度学习的相关程序库,例如,Keras,或开源的人工智能框架,例如,OpenAI等工具构建生成对抗网络模型,具体过程可包括:导入程序包;定义变量;建立生成器和判别器;定义优化器等步骤。

本申请实施例并不限定实施者构建生成对抗模型所采用的具体方式或方法,但理论上,构建易于使用且优化效果较好的生成对抗网络模型,可大大简化和缩短训练过程,使模型更快收敛。

之后,就可以将有标签的文本数据和无标签的文本数据进行编码和转换,作为构建好的生成对抗网络模型的训练数据集,对该生成对抗网络模型进行对抗训练。

根据本申请一实施方式,使用有标签的文本数据和无标签的文本数据对生成对抗网络模型进行训练得到第一文本信息分类模型,包括:对有标签的文本数据进行向量转换得到第一向量表示;对无标签的文本数据进行向量转换得到第二向量表示;将第一向量表示和第二向量表示输入到生成对抗网络模型的判别模型进行数据来源判别,其中,将第一向量表示判别为1,将第二向量表示判别为0;将第一向量表示和第二向量表示输入到生成对抗网络模型的文本信息分类模型进行分类,其中,将第一向量表示分类到0至K-1类别中的对应类,将第二向量表示分类到第K类,其中K为大于等于2的自然数;对生成对抗网络进行对抗模型训练得到第一文本信息分类模型。

文本数据是不能直接输入生成对抗网络,需要转换成计算机可以识别并用来进行运算的数学表达,即向量表示。在有标签文本数据和无标签文本数据转换之后,就可以输入到预先建立的生成对抗网络模型的文本信息分类模型和判别模型中进行学习了。

在对判别模型进行训练时,可以将有标注的文本数据所对应的第一向量的期望输出标注为1,将无标注的文本数据所对应的第二向量的期望输出标注为0。如此,使判别模型充分学习有标注的文本数据和无标注文本数据的区别,当文本分类模型根据有标注的文本数据和无标注文本数据生成的分类结果都使判别模型无法区分数据来源的时候,就说明文本分类模型已经学习到了无标注文本数据的特征,并可以对其进行准确分类,也就得到期望的、可以用于实际应用的第一文本分类模型。

在对文本信息分类模型进行训练时,可以将有标注的文本数据所对应的第一向量的期望输出标注为文本数据本身标注的类型,即0至K-1类别中的对应类,将无标注的文本数据所对应的第二向量的期望输出标注为K类。如此,在初始状态时,可以通过这种最容易区分数据来源的方式输出数据的分类。因此,很容易被判别模型识破,即判别模型经过一段时间学习,一看到K类型就直到这类数据是来自无标注文本数据。

而文本信息分类模型被识别后,会进一步学习有标注文本数据的特征,并试图生成新的分类结果将无标注文本数据的类别改变为0至K-1类别中的任一类,并输出该分类结果让判别模型再次进行判别;如果判别模型将该分类结果的数据来源判别为来自有标注文本数据1时,说明文本信息分类模型已学习到该无标注文本数据的类别;如果判别模型将该分类结果的数据来源仍判别为来自无标注文本数据0时,说明文本信息分类模型还未学习到该无标注文本数据的类别,文本信息分类模型可以根据损失函数进行调优再次对无标注文本数据进行分类。如此,经过多次迭代、优化和与判别模型的博弈就可以得到一个可以学习到无标注文本数据特征并对其进行分类的文本信息分类模型。而上述过程,正是通过生成对抗网络模型的对抗训练过程来实现的。

将第一向量表示和第二向量表示输入到生成对抗网络模型的文本信息分类模型进行分类,其中,将第一向量表示分类到0至K-1类别中的对应类,将第二向量表示分类到第K类

根据本申请一实施方式,进行向量转换,包括:使用BERT预训练模型进行向量转换。

BERT作为Word2Vec的替代者,在NLP领域的多个方向大幅刷新了精度,而预训练的语言模型已经被证明可以用更少的数据进行学习就可以取得较好的模型精度。因此,在进行向量转换时使用BERT预训练模型能得到更高的模型精度,为后续的文本信息分类模型打下很好的数据基础。

根据本申请一实施方式,该方法还包括:对判别模型进行极小极大化训练,其中,训练使用梯度反转层实现梯度负向回传。

极小极大化问题是一类常见且重要的数学规划问题,此类问题是为了找出失败的最大可能性中的最小值,对抗训练和生成对抗网络中也需要解决这样的问题,这就是本实施方式中所指的极小极大训练。

在本实施方式中,采用了梯度反转层实现梯度负向回传,可以最大化二分类误差,即尽可能使文本信息分类模型分不清数据的来源。如此,在判别模型完成极小极大化训练后,再与文本信息分类模型进行对抗训练,可以使文本信息分类模型的精度更高。

根据本申请一实施方式,判别模型使用如下损失函数:

E

其中E表示数学期望,Pg表示第二向量表示,Pr表示第一向量表示,f

根据本申请一实施方式,无标签的文本数据包括随机生成的高斯噪音数据。

在本实施方式中,在进行对抗训练时,除了使用无标签的文本数据,还使用了随机生成的高斯噪音数据。如此,可进一步提高文本信息分类模型的鲁棒性和容错性。

图2示出了本申请实施例生成对抗网络模型对抗训练的基本过程的示意图。

如图2所示,生成对抗网络模型对抗训练的基本过程主要包括:

首先,将有标注文本数据201和无标注文本数据202(包括随机生成的高斯噪音数据)输入到BERT预训练模型203中进行向量转换,并获取相应的第一向量表示204(对应于有标注文本数据201)和第二向量表示205(对应于无标注文本数据202);

之后,将第一向量表示204和第二向量表示205作为判别模型207的输入,进行数据来源判别,有标记文本判别为1,无标记文本判别为0,该判别模型通过梯度反转层实现梯度负向回传,完成极小极大化训练;

此外,将第一向量表示204和第二向量表示205作为文本分类模型205的输入,将第一向量表示204对应分类到0,1,……,K-1类别(有标注文本数据所标注的类别),第二向量表示205对应分类到第K类;

随后,应用随机梯度下降方法进行对抗模型的对抗和学习,直到文本信息分类模型206达到了预期的模型精度。此时,就得到了可以实际应用,对文本信息进行分类的第一文本信息分类模型。

需要说明的是,图2所示的实施例也仅为本申请基于生成对抗网络的文本信息分类方法,对如何使用有标注文本数据和无标注文本数据对生成对抗网络模型进行对抗训练的一个示例性说明,并非对本申请实施例的实施方式或应用场景的限定,实施者可根据具体实施需要和实施条件采用任何适用的实施方式应用于任何适用的应用场景中。

进一步地,本申请实施例还提供一种基于生成对抗网络的文本信息分类装置,如图3所示,该装置30包括:信息获取模块301,用于获取待分类文本信息;分类确定模块302,用于根据待分类文本信息和第一文本信息分类模型得到待分类文本信息所属的分类,第一文本信息分类模型是基于生成对抗网络,使用有标签的文本数据和无标签的文本数据训练得到文本信息分类模型;分类输出模块303,用于输出分类。

根据本申请一实施方式,该装置30还包括:生成对抗网络模型构建模块,用于构建生成对抗网络模型;第一文本信息分类模型训练模块,用于使用有标签的文本数据和无标签的文本数据对生成对抗网络模型进行训练得到第一文本信息分类模型。

根据本申请一实施方式,第一文本信息分类模型训练模块包括:第一向量转换模块,用于对有标签的文本数据进行向量转换得到第一向量表示;第二向量转换模块,用于对无标签的文本数据进行向量转换得到第二向量表示;判别模型学习模块,用于将第一向量表示和第二向量表示输入到生成对抗网络模型的判别模型进行数据来源判别,其中,将第一向量表示判别为1,将第二向量表示判别为0;文本信息分类模型学习模块,用于将第一向量表示和第二向量表示输入到生成对抗网络模型的文本信息分类模型进行分类,其中,将第一向量表示分类到0至K-1类别中的对应类,将第二向量表示分类到第K类,其中K为大于等于2的自然数;对抗模型训练模块,用于对生成对抗网络进行对抗模型训练得到第一文本信息分类模型。

根据本申请一实施方式,向量转换模块具体用于使用BERT预训练模型进行向量转换。

根据本申请一实施方式,该装置30还包括:判别模型极小极大化训练模块,用于对判别模型进行极小极大化(min-max)训练,其中,训练使用梯度反转层实现梯度负向回传。

根据本申请实施例第三方面,提供一种计算机存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的基于生成对抗网络的文本信息分类方法。

这里需要指出的是:以上针对基于生成对抗网络的文本信息分类装置的描述和以上针对计算机存储介质实施例的描述,与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本申请对基于生成对抗网络的文本信息分类装置实施例的描述和对计算机存储介质实施例的描述尚未披露的技术细节,请参照本申请前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种动基于GAN的文本信息分类方法、装置及存储介质
  • 文本信息分类方法、装置、计算机设备及存储介质
技术分类

06120112965775