掌桥专利:专业的专利平台
掌桥专利
首页

文本分类方法、装置、计算机设备及其存储介质

文献发布时间:2024-04-18 19:59:31


文本分类方法、装置、计算机设备及其存储介质

技术领域

本申请涉及人工智能技术领域,特别是涉及一种文本分类方法、装置、计算机设备及其存储介质。

背景技术

为满足用户对文本的处理和存储需求,需要对文本进行分类处理,例如,当用户需要对文本进行存储时,需要先确定文本的文本类别,进而根据文本类别将文本存储在该文本类别对应的存储位置。

现有技术中可通过提取文本的局部特征,实现根据局部特征,确定文本的文本类别,但是,现有技术的文本分类准确性较低,无法准确获取文本的文本类别。

发明内容

基于此,有必要针对上述技术问题,提供一种能够准确获取文本的文本类别的文本分类方法、装置、计算机设备及其存储介质。

第一方面,本申请提供了一种文本分类方法。该方法包括:

采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示;

基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络;

基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

在其中一个实施例中,特征网络包括特征提取网络和特征融合网络,基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征,包括:

基于特征提取网络,确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征;

基于特征融合网络,对第一上下文关联特征和第二上下文关联特征进行融合,得到待分类文本对应的目标上下文关联特征。

在其中一个实施例中,特征提取网络包括第一特征提取通道和第二特征提取通道,第一特征提取通道中包括第一双向长短期记忆网络,第二特征提取通道中包括第二双向长短期记忆网络,基于特征提取网络,确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征,包括:

根据第一双向长短期记忆网络,确定第一文本表示对应的第一上下文关联特征,其中,第一双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接;

根据第二双向长短期记忆网络,确定第二文本表示对应的第二上下文关联特征,其中,第二双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接。

在其中一个实施例中,第一特征提取通道中还包括第一注意力模块,根据第一特征提取通道中的第一双向长短期记忆网络,确定第一文本表示对应的第一上下文关联特征,包括:

根据第一双向长短期记忆网络,确定第一文本表示对应的第一候选关联特征;

将第一候选关联特征输入至第一注意力模块,得到第一注意力模块输出的第一文本表示对应的第一上下文关联特征。

在其中一个实施例中,第二特征提取通道中还包括第二注意力模块,根据第二特征提取通道中的第二双向长短期记忆网络,确定第二文本表示对应的第二上下文关联特征,包括:

根据第二双向长短期记忆网络,确定第二文本表示对应的第二候选关联特征;

将第二候选关联特征输入至第二注意力模块,得到第二注意力模块输出的第二文本表示对应的第二上下文关联特征。

在其中一个实施例中,采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示,包括:

根据词向量转换模型word2vec量化方法对待分类文本进行向量化处理,得到第一文本表示;

根据词向量无监督学习glove量化方法对待分类文本进行向量化处理,得到第二文本表示。

在其中一个实施例中,方法还包括:

对目标文本进行分词处理,得到目标分词文本;

对目标分词文本进行预处理,得到待分类文本;其中,预处理包括格式化处理和清洗处理中的至少一项。

第二方面,本申请还提供了一种文本分类装置。该装置包括:

量化模块,用于采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示;

第一确定模块,用于基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络;

第二确定模块,用于基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

第三方面,本申请还提供了一种计算机设备。计算机设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:

采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示;

基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络;

基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

第四方面,本申请还提供了一种计算机可读存储介质。计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示;

基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络;

基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

第五方面,本申请还提供了一种计算机程序产品。计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示;

基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络;

基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

上述文本分类方法、装置、计算机设备及其存储介质,通过确定待分类文本对应的第一文本表示和第二文本表示,实现了根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果,由于本申请在确定待分类文本对应的分类结果的过程中,是先根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果,并且,第一文本表示和第二文本表示是待分类文本采用不同量化方法进行量化处理得到的,因此,本申请在确定待分类文本的分类结果时考虑待分类文本的不同文本表示形式,避免了根据单一文本表示确定待分类文本的分类结果时存在分类误差;并且,通过第一文本表示和第二文本表示对应的目标上下文关联特征确定分类结果,相比起现有技术中仅根据局部特征确定分类结果的过程,本申请能够更加准确的确定待分类文本对应的分类结果。

附图说明

图1为本申请实施例提供的一种文本分类方法的应用环境图;

图2为本申请实施例提供的一种文本分类方法的流程图;

图3为本申请实施例提供的确定目标上下文关联特征的步骤流程图;

图4为本申请实施例提供的确定第一文本表示和第二文本表示的步骤流程图;

图5为本申请实施例提供的确定待分类文本的步骤流程图;

图6为本申请实施例提供的另一种文本分类方法的流程图;

图7为本申请实施例提供的确定待分类文本对应的分类结果的流程框图;

图8为本申请实施例提供的第一种文本分类装置的结构框图;

图9为本申请实施例提供的第二种文本分类装置的结构框图;

图10为本申请实施例提供的第三种文本分类装置的结构框图;

图11为本申请实施例提供的第四种文本分类装置的结构框图;

图12为本申请实施例提供的第五种文本分类装置的结构框图;

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在本申请的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

基于上述情况,本申请实施例提供的文本分类方法,可以应用于如图1所示的应用环境中。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本分类方法的获取数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。

本申请公开了一种文本分类方法、装置、计算机设备及其存储介质,通过确定待分类文本对应的第一文本表示和第二文本表示,实现了根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果。

在一个实施例中,如图2所示,图2为本申请实施例提供的一种文本分类方法的流程图,提供了一种文本分类方法,图1中的计算机设备执行的文本分类方法可以包括以下步骤:

步骤201,采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示。

需要说明的是,为保证后续能够准确确定待分类文本对应的分类结果,避免根据单一文本表示确定待分类文本的分类结果时存在分类误差,因此,可采用两种不同的量化方法确定待分类文本对应的第一文本表示和第二文本表示。

进一步说明,确定待分类文本对应的第一文本表示和第二文本表示的方法有很多,例如,可通过文本量化方法对待分类文本进行量化处理,或者,通过独热编码量化方法对待分类文本进行量化处理,或者,通过词频-逆文档频率量化方法对待分类文本进行量化处理,或者,通过词向量转换模型word2vec量化方法对待分类文本进行量化处理,或者,通过词向量无监督学习glove量化方法对待分类文本进行量化处理。

步骤202,基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征。

其中,特征提取网络包括双向长短期记忆网络。

需要说明的是,目标上下文关联特征指的是在待分类文本的上下文内容中,会对确定待分类文本对应的分类结果造成影响的特征,因此,当需要确定待分类文本对应的目标上下文关联特征时,可将第一文本表示和第二文本表示输入至预先训练的特征提取网络的双向长短期记忆网络,并获取双向长短期记忆网络的输出结果,该输出结果即为待分类文本对应的目标上下文关联特征。

其中,双向长短期记忆网络可根据工作人员预先设置的样本文本表示进行训练,具体的,工作人员对样本文本表示进行样本上下文关联特征标注,并根据标注有样本上下文关联特征的样本文本表示,对双向长短期记忆网络进行训练,得到训练后的双向长短期记忆网络。

进一步说明,为提高确定待分类文本对应的分类结果的准确性,可根据特征提取网络中增设注意力模块,实现根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征,具体的,将第一文本表示和第二文本表示输入至预先训练的特征提取网络的双向长短期记忆网络,并获取双向长短期记忆网络输出的候选关联特征,将候选关联特征输入至注意力模块,获取注意力模块输出的待分类文本对应的目标上下文关联特征。

其中,注意力模块用于确定目标上下文关联特征对确定待分类文本对应的分类结果的影响权重,若某一目标上下文关联特征对确定待分类文本对应的分类结果的影响较大,则该目标上下文关联特征对应的影响权重较大;若某一目标上下文关联特征对确定待分类文本对应的分类结果的影响较小,则该目标上下文关联特征对应的影响权重较小。

步骤203,基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

其中,分类网络指的是预先训练的卷积神经网络的全连接层。

需要说明的是,当需要确定待分类文本对应的分类结果时,可将目标上下文关联特征输入至卷积神经网络的全连接层(即为分类网络),获取全连接层的输出结果,根据输出结果,确定待分类文本对应的分类结果。

进一步说明,若全连接层的输出结果并非待分类文本对应的分类结果,而是分类结果对应的结果参数,则当根据输出结果,确定待分类文本对应的分类结果时,具体可包括以下内容:获取全连接层输出的结果参数,根据预先设定的参数与分类结果对照表,确定该结果参数对应的分类结果,该分类结果即为待分类文本对应的分类结果。

其中,参数与分类结果对照表中记录头不同参数分别对应的不同分类结果,参数与分类结果对照表可根据工作人员的历史经验和实际情况进行设定和调整。

上述文本分类方法,通过确定待分类文本对应的第一文本表示和第二文本表示,实现了根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果,由于本申请在确定待分类文本对应的分类结果的过程中,是先根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果,并且,第一文本表示和第二文本表示是待分类文本采用不同量化方法进行量化处理得到的,因此,本申请在确定待分类文本的分类结果时考虑待分类文本的不同文本表示形式,避免了根据单一文本表示确定待分类文本的分类结果时存在分类误差;并且,通过第一文本表示和第二文本表示对应的目标上下文关联特征确定分类结果,相比起现有技术中仅根据局部特征确定分类结果的过程,本申请能够更加准确的确定待分类文本对应的分类结果。

在一种实施例中,为满足用户对文本的处理和存储需求,需要对文本进行分类处理,但是现有技术中可通过提取文本的局部特征,进而根据局部特征确定文本的文本类别的方法准确性较低,无法准确获取文本的文本类别,为解决上述技术问题,已知特征网络包括特征提取网络和特征融合网络,如图3所示,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征,具体可包括以下内容:

步骤301,基于特征提取网络,确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征。

其中,第一上下文关联特征指的是根据第一文本表示在待分类文本上下文中确定的会对确定待分类文本对应的分类结果造成影响的特征;第二上下文关联特征指的是根据第二文本表示在待分类文本上下文中确定的会对确定待分类文本对应的分类结果造成影响的特征。

需要说明的是,特征提取网络包括第一特征提取通道和第二特征提取通道,第一特征提取通道中包括第一双向长短期记忆网络,第二特征提取通道中包括第二双向长短期记忆网络,因此,当需要确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征时,具体可包括以下内容:根据第一双向长短期记忆网络,确定第一文本表示对应的第一上下文关联特征,其中,第一双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接;根据第二双向长短期记忆网络,确定第二文本表示对应的第二上下文关联特征,其中,第二双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接。

在本申请的一种实施例中,当需要确定第一文本表示对应的第一上下文关联特征时,可将第一文本表示输入至第一特征提取通道中的第一双向长短期记忆网络,并获取第一双向长短期记忆网络的输出结果,该输出结果即为第一文本表示对应的第一上下文关联特征。

在本申请的另一种实施例中,当需要确定第二文本表示对应的第二上下文关联特征时,可将第二文本表示输入至第二特征提取通道中的第二双向长短期记忆网络,并获取第二双向长短期记忆网络的输出结果,该输出结果即为第二文本表示对应的第二上下文关联特征。

进一步说明,为保证进一步提高后续确定待分类文本对应的分类结果的准确性,可根据第一注意力模块和第二注意力模块,确定第一上下文关联特征和第二上下文关联特征对确定待分类文本对应的分类结果的影响权重,进而,保证根据确定影响权重的第一上下文关联特征和第二上下文关联特征,能够更加准确的确定待分类文本对应的分类结果。

在申请的一种实施例中,第一特征提取通道中还包括第一注意力模块,因此,当需要确定第一文本表示对应的第一上下文关联特征时,具体可包括以下内容:根据第一双向长短期记忆网络,确定第一文本表示对应的第一候选关联特征;将第一候选关联特征输入至第一注意力模块,得到第一注意力模块输出的第一文本表示对应的第一上下文关联特征。

在申请的另一种实施例中,当需要确定第二文本表示对应的第二上下文关联特征时,具体可包括以下内容:根据第二双向长短期记忆网络,确定第二文本表示对应的第二候选关联特征;将第二候选关联特征输入至第二注意力模块,得到第二注意力模块输出的第二文本表示对应的第二上下文关联特征。

步骤302,基于特征融合网络,对第一上下文关联特征和第二上下文关联特征进行融合,得到待分类文本对应的目标上下文关联特征。

需要说明的是,对第一上下文关联特征和第二上下文关联特征进行融合的方法有很多,例如:可通过RCNN(Region-CNN,区域卷积神经网络)特征融合法对第一上下文关联特征和第二上下文关联特征进行融合,或者,采用图像金字塔特征融合对第一上下文关联特征和第二上下文关联特征进行融合,或者,采用多尺度特征融合法对第一上下文关联特征和第二上下文关联特征进行融合。综上内容可知,对第一上下文关联特征和第二上下文关联特征进行融合的方法有很多,在此不对第一上下文关联特征和第二上下文关联特征进行融合的方法进行限定。

上述文本分类方法,通过确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征,并将第一上下文关联特征和第二上下文关联特征进行融合,使得后续能够根据融合后的目标上下文关联特征确定待分类文本对应的分类结果能够更加准确。

在一种实施例中,如图4所示,当需要采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示时,具体可包括以下内容:

步骤401,根据词向量转换模型word2vec量化方法对待分类文本进行向量化处理,得到第一文本表示。

需要说明的是,当需要采用word2vec量化方法对待分类文本进行向量化处理时,可将待分类文本输入至词向量转换模型(word2vec模型)中,并获取词向量转换模型的输出结果,该输出结果即为第一文本表示。

步骤402,根据词向量无监督学习glove量化方法对待分类文本进行向量化处理,得到第二文本表示。

需要说明的是,当需要采用glove量化方法对待分类文本进行向量化处理时,可统计待分类文本在上下文中的出现次数,进而根据待分类文本在上下文中的出现次数,实现根据glove量化方法对待分类文本进行向量化处理,得到第二文本表示。

上述文本分类方法,通过采用word2vec量化方法和glove量化方法对待分类文本进行量化处理,得到第一文本表示和第二文本表示,实现在确定待分类文本的分类结果时考虑待分类文本的不同文本表示形式,避免了根据单一文本表示确定待分类文本的分类结果时存在分类误差。

在一种实施例中,如图5所示,当需要确定待分类文本时,具体可包括以下内容:

步骤501,对目标文本进行分词处理,得到目标分词文本。

需要说明的是,对目标文本进行分词处理的方法有很多,例如,可基于字典分词法对目标文本进行分词处理;或者,基于理解分词法对目标文本进行分词处理;或者,基于统计分词法对目标文本进行分词处理,综上内容可知,对目标文本进行分词处理的方法有很多,在此不进行一一赘述,下面将针对上述三种对目标文本进行分词处理的方法进行详细说明:

作为一种实现方式,当需要基于理解分词法对目标文本进行分词处理时,可将目标文本中的字符与预设字典中的词条进行匹配,并将匹配成功的字符作为一个目标分词文本。

作为另一种实现方式,当需要基于统计分词法对目标文本进行分词处理时,可利用人工智能技术,集合汉语语法、语义等知识,对目标文本进行语义拆分,得到拆分后的字符即为目标分词文本。

作为又一种实现方式,当需要基于统计分词法对目标文本进行分词处理时,可统计目标文本中每一字符与其他字符的相邻出现频率,若某几个字符的相邻出现频率较高则将该几个字符作为一个目标分词文本。

步骤502,对目标分词文本进行预处理,得到待分类文本;其中,预处理包括格式化处理和清洗处理中的至少一项。

需要说明的是,对目标分词文本进行格式化处理指的是对目标分词文本进行格式、字符长短的统一处理,以保证后续在对目标分词文本进行处理时,不会因为目标分词文本的格式不统一而影响最终确定待分类文本对应的分类结果的准确性受到影响。

进一步说明,对目标分词文本进行清洗处理指的是对目标分词文本中包含的停用词、标点符号和特殊字符进行删除处理,以保证后续在对目标分词文本进行处理时,不会因为目标分词文本中的停用词、标点符号和特殊字符而影响最终确定待分类文本对应的分类结果的准确性受到影响。

上述文本分类方法,通过对目标文本进行分词处理,并对分词得到的目标分词文本进行预处理,得到待分类文本,保证了后续能够顺利确定待分类文本对应的分类结果。

在一种实施例中,如图6所示,当需要确定待分类文本对应的分类结果时,具体可包括以下内容:

步骤601,对目标文本进行分词处理,得到目标分词文本。

步骤602,对目标分词文本进行预处理,得到待分类文本。

步骤603,根据词向量转换模型word2vec量化方法对待分类文本进行向量化处理,得到第一文本表示。

步骤604,根据词向量无监督学习glove量化方法对待分类文本进行向量化处理,得到第二文本表示。

步骤605,根据第一双向长短期记忆网络,确定第一文本表示对应的第一候选关联特征。

步骤606,将第一候选关联特征输入至第一注意力模块,得到第一注意力模块输出的第一文本表示对应的第一上下文关联特征。

步骤607,根据第二双向长短期记忆网络,确定第二文本表示对应的第二候选关联特征。

步骤608,将第二候选关联特征输入至第二注意力模块,得到第二注意力模块输出的第二文本表示对应的第二上下文关联特征。

步骤609,基于特征融合网络,对第一上下文关联特征和第二上下文关联特征进行融合,得到待分类文本对应的目标上下文关联特征。

步骤610,基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

在本申请的一种实施例中,如图7所示,将经过预处理的待分类文本通过word2vec量化方法和glove量化方法对待分类文本进行向量化处理,得到第一文本表示和第二文本表示;并通过第一特征提取通道的第一双向长短期记忆网络和第一注意力模块,确定第一文本表示对应的第一上下文关联特征;其中,第一双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接;通过第二特征提取通道的第二双向长短期记忆网络和第二注意力模块,确定第二文本表示对应的第二上下文关联特征;其中,第二双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接;基于特征融合网络,对第一上下文关联特征和第二上下文关联特征进行融合,得到待分类文本对应的目标上下文关联特征;将目标上下文关联特征输入至卷积神经网络的全连接层,得到全连接层输出的待分类文本对应的分类结果。

上述文本分类方法,通过确定待分类文本对应的第一文本表示和第二文本表示,实现了根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果,由于本申请在确定待分类文本对应的分类结果的过程中,是先根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果,并且,第一文本表示和第二文本表示是待分类文本采用不同量化方法进行量化处理得到的,因此,本申请在确定待分类文本的分类结果时考虑待分类文本的不同文本表示形式,避免了根据单一文本表示确定待分类文本的分类结果时存在分类误差;并且,通过第一文本表示和第二文本表示对应的目标上下文关联特征确定分类结果,相比起现有技术中仅根据局部特征确定分类结果的过程,本申请能够更加准确的确定待分类文本对应的分类结果。

应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的文本分类方法的文本分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个文本分类装置实施例中的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。

在一个实施例中,如图8所示,提供了一种文本分类装置,包括:量化模块10、第一确定模块20和第二确定模块30,其中:

量化模块10,用于采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示。

第一确定模块20,用于基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络。

第二确定模块30,用于基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

上述文本分类装置,通过确定待分类文本对应的第一文本表示和第二文本表示,实现了根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果,由于本申请在确定待分类文本对应的分类结果的过程中,是先根据第一文本表示和第二文本表示,确定目标上下文关联特征,进而,根据目标上下文关联特征,确定待分类文本对应的分类结果,并且,第一文本表示和第二文本表示是待分类文本采用不同量化方法进行量化处理得到的,因此,本申请在确定待分类文本的分类结果时考虑待分类文本的不同文本表示形式,避免了根据单一文本表示确定待分类文本的分类结果时存在分类误差;并且,通过第一文本表示和第二文本表示对应的目标上下文关联特征确定分类结果,相比起现有技术中仅根据局部特征确定分类结果的过程,本申请能够更加准确的确定待分类文本对应的分类结果。

在一个实施例中,如图9所示,提供了一种文本分类装置,该文本分类装置中第一确定模块20包括:确定单元21和融合单元22,其中:

确定单元21,用于基于特征提取网络,确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征。

融合单元22,用于基于特征融合网络,对第一上下文关联特征和第二上下文关联特征进行融合,得到待分类文本对应的目标上下文关联特征。

在一个实施例中,如图10所示,提供了一种文本分类装置,该文本分类装置中确定单元21包括:第一确定子单元211和第二确定子单元212,其中:

第一确定子单元211,用于根据第一双向长短期记忆网络,确定第一文本表示对应的第一上下文关联特征,其中,第一双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接。

第一确定子单元具体用于根据第一双向长短期记忆网络,确定第一文本表示对应的第一候选关联特征;将第一候选关联特征输入至第一注意力模块,得到第一注意力模块输出的第一文本表示对应的第一上下文关联特征。

第二确定子单元212,用于根据第二双向长短期记忆网络,确定第二文本表示对应的第二上下文关联特征,其中,第二双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接。

第二确定子单元具体用于根据第二双向长短期记忆网络,确定第二文本表示对应的第二候选关联特征;将第二候选关联特征输入至第二注意力模块,得到第二注意力模块输出的第二文本表示对应的第二上下文关联特征。

在一个实施例中,如图11所示,提供了一种文本分类装置,该文本分类装置中量化模块10包括:第一处理单元11和第二处理单元12,其中:

第一处理单元11,用于根据词向量转换模型word2vec量化方法对待分类文本进行向量化处理,得到第一文本表示。

第二处理单元12,用于根据词向量无监督学习glove量化方法对待分类文本进行向量化处理,得到第二文本表示。

在一个实施例中,如图12所示,提供了一种文本分类装置,该文本分类装置还包括:分词模块40和预处理模块50,其中:

分词模块40,用于对目标文本进行分词处理,得到目标分词文本。

预处理模块50,用于对目标分词文本进行预处理,得到待分类文本;其中,预处理包括格式化处理和清洗处理中的至少一项。

上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示;

基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络;

基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

基于特征提取网络,确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征;

基于特征融合网络,对第一上下文关联特征和第二上下文关联特征进行融合,得到待分类文本对应的目标上下文关联特征。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据第一双向长短期记忆网络,确定第一文本表示对应的第一上下文关联特征,其中,第一双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接;

根据第二双向长短期记忆网络,确定第二文本表示对应的第二上下文关联特征,其中,第二双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据第一双向长短期记忆网络,确定第一文本表示对应的第一候选关联特征;

将第一候选关联特征输入至第一注意力模块,得到第一注意力模块输出的第一文本表示对应的第一上下文关联特征。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据第二双向长短期记忆网络,确定第二文本表示对应的第二候选关联特征;

将第二候选关联特征输入至第二注意力模块,得到第二注意力模块输出的第二文本表示对应的第二上下文关联特征。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据词向量转换模型word2vec量化方法对待分类文本进行向量化处理,得到第一文本表示;

根据词向量无监督学习glove量化方法对待分类文本进行向量化处理,得到第二文本表示。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

对目标文本进行分词处理,得到目标分词文本;

对目标分词文本进行预处理,得到待分类文本;其中,预处理包括格式化处理和清洗处理中的至少一项。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示;

基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络;

基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

基于特征提取网络,确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征;

基于特征融合网络,对第一上下文关联特征和第二上下文关联特征进行融合,得到待分类文本对应的目标上下文关联特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据第一双向长短期记忆网络,确定第一文本表示对应的第一上下文关联特征,其中,第一双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接;

根据第二双向长短期记忆网络,确定第二文本表示对应的第二上下文关联特征,其中,第二双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据第一双向长短期记忆网络,确定第一文本表示对应的第一候选关联特征;

将第一候选关联特征输入至第一注意力模块,得到第一注意力模块输出的第一文本表示对应的第一上下文关联特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据第二双向长短期记忆网络,确定第二文本表示对应的第二候选关联特征;

将第二候选关联特征输入至第二注意力模块,得到第二注意力模块输出的第二文本表示对应的第二上下文关联特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据词向量转换模型word2vec量化方法对待分类文本进行向量化处理,得到第一文本表示;

根据词向量无监督学习glove量化方法对待分类文本进行向量化处理,得到第二文本表示。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

对目标文本进行分词处理,得到目标分词文本;

对目标分词文本进行预处理,得到待分类文本;其中,预处理包括格式化处理和清洗处理中的至少一项。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

采用两种不同的量化方法,对待分类文本进行量化处理,得到待分类文本对应的第一文本表示和第二文本表示;

基于特征网络,根据第一文本表示和第二文本表示,确定待分类文本对应的目标上下文关联特征;其中,特征提取网络包括双向长短期记忆网络;

基于分类网络,根据目标上下文关联特征,确定待分类文本对应的分类结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

基于特征提取网络,确定第一文本表示对应的第一上下文关联特征,以及第二文本表示对应的第二上下文关联特征;

基于特征融合网络,对第一上下文关联特征和第二上下文关联特征进行融合,得到待分类文本对应的目标上下文关联特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据第一双向长短期记忆网络,确定第一文本表示对应的第一上下文关联特征,其中,第一双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接;

根据第二双向长短期记忆网络,确定第二文本表示对应的第二上下文关联特征,其中,第二双向长短期记忆网络中的各层网络均采用密集连接的方式进行连接。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据第一双向长短期记忆网络,确定第一文本表示对应的第一候选关联特征;

将第一候选关联特征输入至第一注意力模块,得到第一注意力模块输出的第一文本表示对应的第一上下文关联特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据第二双向长短期记忆网络,确定第二文本表示对应的第二候选关联特征;

将第二候选关联特征输入至第二注意力模块,得到第二注意力模块输出的第二文本表示对应的第二上下文关联特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据词向量转换模型word2vec量化方法对待分类文本进行向量化处理,得到第一文本表示;

根据词向量无监督学习glove量化方法对待分类文本进行向量化处理,得到第二文本表示。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

对目标文本进行分词处理,得到目标分词文本;

对目标分词文本进行预处理,得到待分类文本;其中,预处理包括格式化处理和清洗处理中的至少一项。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

相关技术
  • 一种模拟管道突缩时天然气水合物生成的实验装置及实验方法
  • 一种深水天然气水合物井口稳定性实验装置及方法
  • 一种深水浅层天然气水合物井下燃烧的开采方法和装置
  • 一种天然气水合物储存和再气化装置及方法
  • 从设置有储存罐的船上卸载的系统和从往返和再气化船输送天然气的方法
技术分类

06120116521939