掌桥专利:专业的专利平台
掌桥专利
首页

文本分类方法、装置、计算机设备和介质

文献发布时间:2023-06-19 10:06:57


文本分类方法、装置、计算机设备和介质

技术领域

本申请涉及人工智能领域,尤其涉及一种文本分类方法、装置、计算机设备和介质。

背景技术

随着互联网的高速发展和大数据时代的到来,文本分类成为当前自然语言处理领域的一个热点研究问题。

现有的文本分类方法一般通过深度学习算法进行文本类别的预测。深度学习算法在对文本类别的预测过程中非常依赖于所选择的文本特征,通过将文本转化为词向量,使用词向量确定各文本特征之间的距离关系。然而,深度学习算法无法消除同义词对文本分类的干扰,降低了文本分类的准确性。

因此如何提高文本分类的准确性成为亟需解决的问题。

发明内容

本申请提供了一种文本分类方法、装置、计算机设备和介质,通过对待分类文本进行项集挖掘,得到包含多个强关联词的高效用项集,可以根据高效用项集的词向量矩阵进行分类预测,提高了文本分类的准确性。

第一方面,本申请提供了一种文本分类方法,所述方法包括:

获取待分类文本,对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集,其中,所述高效用项集包括至少两个词组;

对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵;

将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别。

第二方面,本申请还提供了一种文本分类装置,所述装置包括:

项集挖掘模块,用于获取待分类文本,对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集,其中,所述高效用项集包括至少两个词组;

向量化模块,用于对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵;

分类预测模块,用于将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别。

第三方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器;

所述存储器,用于存储计算机程序;

所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如上述的文本分类方法。

第四方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如上述的文本分类方法。

本申请公开了一种文本分类方法、装置、计算机设备和介质,通过对待分类文本进行项集挖掘,可以得到待分类文本对应的包含多个强关联词的高效用项集,后续可以对包含多个强关联词的高效用项集进行文本分类,解决了同义词对文本分类的干扰问题;通过对高效用项集中的每个词组进行向量化,可以得到待分类文本对应的词向量矩阵;通过将词向量矩阵输入文本分类模型中进行分类预测,提高了文本类别的预测准确性。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请的实施例提供的一种文本分类方法的示意性流程图;

图2是本申请实施例提供的一种文本分类的预测过程的示意图;

图3是本申请实施例提供的对待分类文本进行项集挖掘的子步骤的示意性流程图;

图4是本申请实施例提供的确定项集的效用值的子步骤的示意性流程图;

图5是本申请实施例提供的根据词向量矩阵进行分类预测的子步骤的示意性流程图;

图6是本申请实施例提供的一种文本分类模型的训练过程的子步骤的示意性流程图;

图7是本申请实施例提供的一种文本分类装置的示意性框图;

图8是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。

应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本申请的实施例提供了一种文本分类方法、装置、计算机设备和介质。其中,该文本分类方法可以应用于服务器或终端中,通过对待分类文本进行项集挖掘,得到包含多个强关联词的高效用项集,可以根据高效用项集的词向量矩阵进行分类预测,提高了文本分类的准确性。

其中,服务器可以为独立的服务器,也可以为服务器集群。终端可以是智能手机、平板电脑、笔记本电脑和台式电脑等电子设备。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

如图1所示,文本分类方法包括步骤S10至步骤S30。

步骤S10、获取待分类文本,对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集,其中,所述高效用项集包括至少两个词组。

示例性的,待分类文本可以是用户上传至服务器或终端的文本文件,也可以是存储在服务器或终端的本地磁盘中的文本文件,还可以是存储在区块链的节点中的文本文件。

在一些实施例中,可以接收用户对文本文件的文本选中操作,根据文本选中操作将选中的文本文件确定为待分类文本。

需要说明的是,项集挖掘是指挖掘待分类文本中的关联性强的词组,作为高效用项集。其中,高效用项集包括至少两个词组。

请参阅图2,图2是本申请实施例提供的一种文本分类的预测过程的示意图。如图2所示,先对待分类文本进行项集挖掘,得到待分类文本对应的高效用项集;然后对高效用项集中的每个词组进行向量化,得到待分类文本对应的词向量矩阵;最后,将待分类文本对应的词向量矩阵输入文本分类模型中进行分类预测,得到待分类文本对应的文本类别。

请参阅图3,图3是步骤S10中对待分类文本进行项集挖掘,得到待分类文本对应的高效用项集的子步骤的示意性流程图,包括步骤S101至步骤S103。

步骤S101、对所述待分类文本进行分词处理,得到所述待分类文本对应的多个词组。

示例性的,待分类文本可以包括至少一个语句。可以理解的是,对待分类文本进行分词处理,是指将待分类文本中的每个语句进行分词。

在一些实施例中,对待分类文本进行分词处理,得到待分类文本对应的多个词组,可以包括:基于预设的分词库,对待分类文本中的每个语句进行分词处理,得到待分类文本对应的多个词组。

示例性的,预设的分词库可以为jieba库。需要说明的是,jieba库可以利用中文词库,分析汉字与汉字之间的关联几率,以及分析汉字词组的关联几率,还可以根据用户自定义的词组进行分类。示例性的,jieba库可以包括精确模式、全模式以及搜索引擎模式,不同模式通过不同的函数实现。例如,精确模式可以通过lcut(s)函数实现;全模式可以通过lcut(s,cut_all=Ture)函数实现;搜索引擎模式可以通过lcut_for_search(s)函数实现。

在本申请实施例中,可以通过jieba库对待分类文本中的每个语句进行分词处理,得到待分类文本对应的多个词组。

在一些实施例中,对待分类文本进行分词处理,得到待分类文本对应的多个词组之后,还可以包括:基于预设的停用词库,对多个词组进行过滤处理,得到过滤处理后的多个词组。

示例性的,预设的停用词库可以预先创建,并存储在本地磁盘或数据库中。可以理解的是,停用词库用于停用文本或语句中的低价值的词。其中,低价值的词是指对文本或语句影响不大、频率很高的词。例如,低价值的词可以包括但不限于“一些”、“一切”、“一方面”、“一般”、“上下”、“啊”、“按照”、“比如”、“了”、“从而”、“以及”“和”等等。

在本申请实施例中,在得到待分类文本对应的多个词组之后,可以调用停用词库对多个词组进行可以过滤处理,得到过滤处理后的词组。示例性的,通过停用词库将多个词组中的低价值的词组删除。

通过基于预设的停用词库对待分类文本的分词后的多个词组进行过滤处理,可以将低价值的词组删除,避免低价值的词组对文本类别的预测造成影响。

步骤S102、对所述多个词组进行组合,得到所述待分类文本对应的多个项集。

示例性的,可以对多个词组中的至少两个进行组合。例如,若有词组A、B、C、D,则可以对词组A、B、C、D进行组合,得到的项集可以包括(AB)、(AC)、(AD)、(BC)、(BD)、(CD)、(ABC)(ABD)(ACD)、(BCD)以及(ABCD)。

通过对待分类文本的多个词组进行组合,可以得到多个包含至少两个词组的项集,后续可以根据项集对应的效用值确定高效用项集。

步骤S103、确定每个所述项集对应所述待分类文本的效用值,将对应的效用值不小于预设效用阈值的项集,确定为所述待分类文本对应的所述高效用项集。

需要说明的是,效用值用于表示项集在待分类文本中出现的次数。例如,若项集在待分类文本中出现的次数越高,则项集对应的效用值越大。

请参阅图4,图4是步骤S103中确定每个项集对应待分类文本的效用值的子步骤的示意性流程图,具体可以包括以下步骤S1031至步骤S1033。

步骤S1031、将每个所述项集中每个所述词组在所述待分类文本的每个语句中出现的次数,确定为每个所述词组对应每个所述语句的第一效用值。

示例性的,若待分类文本由一组语句组成,即D={T

示例性的,对于每个词组对应每个语句的第一效用值可以表示为U(i

示例性的,对于词组A,若词组A在某个语句中出现的次数为1,则可以确定词组A对应的第一效用值为1,可以表示为(A,1)。

步骤S1032、将每个所述项集中的各个词组对应各个所述语句的第一效用值之和,确定为每个所述项集对应每个所述语句的第二效用值。

示例性的,对于每个项集对应每个语句的第二效用值可以表示为U(X,T

步骤S1033、将每个所述项集对应各个所述语句的第二效用值之和,确定为每个所述项集对应所述待分类文本的所述效用值。

示例性的,每个项集对应待分类文本的效用值可以表示为U(X,D),其中,U(X,D)可以定义为:项集X对应各个语句T

在本申请实施例中,项集对应待分类文本的效用值,以表1为例进行说明。

表1

在表1中,待分类文本包括T1、T2、T3和T4四个语句。在T1语句中,词组A对应的第一效用值为U({A},T1)=1,词组C对应的第一效用值为U({C},T1)=3。

示例性的,对于项集AC,在T1语句中的第二效用值为U({AC},T1)=4;项集AC在待分类文本中的效用值为U({AC})=4。

示例性的,对于项集AE,项集AE在T1语句中的第二效用值为U({AE},T1)=3,在T2语句中的第二效用值为U({AE},T2)=3,则可以确定项集在待分类文本中的效用值为U({AE})=6。

在一些实施方式中,在确定每个项集对应待分类文本的效用值之和,将对应的效用值不小于预设效用阈值的项集,确定为待分类文本对应的高效用项集。

可以理解的是,效用值表示项集中的词组在待分类文本中同时出现的次数较多,当项集对应的效用值不小于预设效用阈值,表示该项集中的词组为强关联词。

示例性的,预设效用阈值可以根据实际情况设定,具体数值在此不作限定。其中,预设效用阈值可以表示为Q。例如,若项集X对应的效用值U(X)≥E,则可以确定项集X为高效用项集。

示例性的,若项集AC大于预设效用阈值Q,则可以确定项集AC为高效用项集。若项集AE大于预设效用阈值Q,则可以确定项集AE为高效用项集。若项集BC小于预设效用阈值Q,则不将项集BC作为高效用项集。

通过确定每个项集对应待分类文本的效用值,可以筛选出效用值不小于预设效用阈值的项集,从而可以得到包含多个强关联词的高效用项集;后续在根据高效用项集对应的词向量矩阵进行分类预测时,可以消除同义词对文本分类的干扰,提高文本分类的预测准确性。

步骤S20、对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵。

在一些实施例中,对高效用项集中的每个词组进行向量化,得到待分类文本对应的词向量矩阵,可以包括:从区块链中获取词向量模型;将每个词组输入词向量模型进行向量化,得到待分类文本对应的词向量矩阵。

示例性的,在本申请实施例中,可以预先对词向量模型进行训练,得到训练后的词向量模型。需要强调的是,为进一步保证上述训练后的词向量模型的私密和安全性,上述训练后的词向量模型还可以存储于一区块链的节点中。在对高效用项集中的每个词组进行向量化时,可以从区块链的节点中调用词向量模型对每个词组进行向量化处理,得到待分类文本对应的词向量矩阵。

其中,在词向量矩阵中,每一行可以表示一个词组对应的词向量。

示例性的,词向量模型可以包括但不限于word2vec(词向量)模型、glove(Globalvectors for word representation)模型以及BERT(Bidirectional EncoderRepresentations from Transformer)模型等等。

通过对高效用项集中的每个词组进行向量化,可以得到待分类文本对应的词向量矩阵,后续可以将词向量矩阵输入文本分类模型中进行分类预测。

步骤S30、将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别。

示例性的,文本分类模型为训练后的文本分类模型。其中,文本分类模型可以包括但不限于卷积神经网络(Convolutional Neural Network,CNN)、Han模型以及或循环神经网络(Recurrent Neural Network,RNN)等等。

通过将词向量矩阵输入训练后的文本分类模型中进行分类预测,可以提高待分类文本对应的文本类别的预测准确性。

在本申请实施例中,以文本分类模型为卷积神经网络为例,对文本分类的预测过程进行详细说明。示例性的,卷积神经网络可以包括卷积层、池化层、全连接层以及归一化层。

请参阅图5,图5是步骤S30中将词向量矩阵输入文本分类模型中进行分类预测,得到待分类文本对应的文本类别的子步骤的示意性流程图,具体可以包括以下步骤S301至步骤S303。

步骤S301、将所述词向量矩阵输入所述卷积层中进行卷积处理,得到所述词向量矩阵对应的特征图像。

需要说明的是,卷积处理是指对词向量矩阵中的高层次特征进行抽取。

示例性的,可以使用预设的卷积滤波器对训练样本进行特征提取,得到训练样本对应的特征图像。其中,卷积滤波器的卷积核个数、各卷积核的尺寸以及卷积步长可以根据实际情况设定,具体数值在此不作限定。

示例性的,使用不同窗口大小的n个滤波器对词向量矩阵进行卷积操作,得到词向量矩阵对应的特征图像s=(y

步骤S302、将所述特征图像输入所述池化层进行池化处理,得到池化处理后的所述特征图像。

需要说明的是,池化是对图像的某一个区域用一个值代替,如用最大值或平均值代替。如果采用最大值,则为最大值池化(Max-pooling);如果用平均值代替,叫做均值池化(Mean-pooling)。池化操作可以降低图像尺寸以及实现平移、旋转不变性。这是因为输出值由图像的一片区域计算得到,对于平移和旋转并不敏感。在本申请实施例中,可以采用最大值池化对特征图像进行池化处理。

示例性的,最大值池化的计算公式可以表示为:

q=max(s)

示例性的,将特征图像s=(y

步骤S303、将池化处理后的所述特征图像输入所述全连接层进行进行全连接处理,并通过所述归一化层对全连接处理的结果进行归一化处理,得到所述待分类文本对应的文本类别。

需要说明的是,全连接层(Fully connected layers,FC)在整个卷积神经网络中起到“分类器”的作用,全连接层用于连接上一层所有的特征,并将输出值送到归一化层。

示例性的,可以根据卷积神经网络中的归一化层,对全连接层输出的特征向量进行归一化处理,输出的是待分类文本对应的类别概率分布。示例性的,归一化层可以通过softmax函数输出类别概率分布。

示例性的,softmax函数的表达式为:

式中,c表示类别,q表示全连接层输出的特征向量;j表示特征向量q中第j个元素。

示例性的,类别概率分布可以包括类别概率与类别概率对应的类别。

其中,类别可以包括但不限于保险、医疗、金融、旅游、体育、科技以及农业等等类别。

在本申请实施例中,可以将最大类别概率对应的类别,确定为待分类文本对应的文本类别。例如,若类别概率分布包括第1-4个类别对应的类别概率为:0.20,0.02,0.08,0.70,则可以确定第4类别为待分类文本对应的文本类别。

请参阅图6,图6是本申请实施例提供的一种文本分类模型的训练过程的子步骤的示意性流程图。如图6所示,文本分类模型的训练过程,具体可以包括以下步骤S401至步骤S404。

步骤S401、获取预设数量的原始文本对应的高效用项集的词向量矩阵,并根据所述原始文本对应的真实类别对每个词向量矩阵进行类别标注,将类别标注后的所述词向量矩阵作为训练样本。

在本申请实施例中,可以对初始的文本分类模型进行训练,得到训练后的文本分类模型。其中,初始的文本分类模型可以是卷积神经网络。

示例性的,可以收集预设数量的原始文本,对原始文本进行项集挖掘,得到原始文本对应的高效用项集;然后对高效用项集中的每个词组进行向量化,得到原始文本对应的词向量矩阵。

具体的项集挖掘过程和词组的向量化,可以参见上述实施例的详细描述,具体实现过程在此不再赘述。

示例性的,原始文本可以是多个不同类别的文本。

在一些实施例中,可以根据原始文本对应的真实类别对每个词向量矩阵进行类别标注,得到类别标注后的词向量矩阵。然后类别标注后的词向量矩阵作为训练样本。其中,类别标注后的词向量矩阵携带有真实类别。

示例性的,真实类别可以包括但不限于保险、医疗、金融、旅游、体育、科技以及农业等等。

通过将原始文本中的高效用项集的词向量矩阵作为训练样本,对初始的文本分类模型进行训练,可以通过高效用项集中多个强关联词的组合,使得训练后的文本分类模型可以更准确地预测文本所属的类别;同时还可以消除同义词对文本分类的干扰,从而提高了文本分类的效果。

步骤S402、将所述训练样本输入所述文本分类模型中进行分类训练,得到所述训练样本对应的预测类别。

示例性的,将训练样本输入文本分类模型中,依次通过文本分类模型中的卷积层、池化层、全连接层以及归一化层进行处理,输出训练样本对应的预测类别。

步骤S403、基于预设的损失函数,根据所述训练样本对应的预测类别以及所述训练样本对应的真实类别,计算损失函数值。

需要说明的是,损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越小,通常模型的性能越好。

示例性的,损失函数可以包括但不限于0-1损失函数、绝对值损失函数、对数损失函数、平方损失函数以及指数损失函数等等。在本申请实施例中,预设的损失函数可以是对数损失函数。通过对数损失函数,根据训练样本对应的预测类别以及训练样本对应的真实类别,计算每一轮训练的损失函数值。

步骤S404、基于预设的梯度下降算法,根据所述损失函数值调整所述文本分类模型中的参数并进行下一轮训练,直至得到的损失函数值小于预设损失阈值时,结束训练,得到训练后的所述文本分类模型。

示例性的,可以基于梯度下降算法,根据损失函数值对文本分类模型的参数进行调整,以使文本分类模型的损失函数值达到最小值。

其中,梯度下降算法可以包括但不限于批量梯度下降法、随机梯度下降法以及小批量梯度下降法等等。

在一些实施方式中,若损失函数值小于或者等于预设损失阈值,则训练结束。若损失函数值大于预设损失阈值,则根据梯度下降算法调整文本分类模型中的参数,进行下一轮的训练并计算每一轮的损失函数值;当计算得到的损失函数值小于预设损失阈值或不再变小时,则训练结束,得到训练后的文本分类模型。

其中,预设损失阈值可以根据实际情况进行设定,具体数值在此不作限定。

在一些实施例中,为进一步保证上述训练后的文本分类模型的私密和安全性,上述训练后的文本分类模型还可以存储于一区块链的节点中。当需要使用训练后的文本分类模型时,可以从区块链的节点中获取。

通过基于损失函数和梯度下降算法对初始的文本分类模型进行训练,使得文本分类模型快速收敛并提高训练后的文本分类模型的文本分类的预测准确度。

上述实施例提供的文本分类方法,通过基于预设的停用词库对待分类文本的分词后的多个词组进行过滤处理,可以将低价值的词组删除,避免低价值的词组对文本类别的预测造成影响;通过对待分类文本的多个词组进行组合,可以得到多个包含至少两个词组的项集,后续可以根据项集对应的效用值确定高效用项集;通过确定每个项集对应待分类文本的效用值,可以筛选出效用值不小于预设效用阈值的项集,从而可以得到包含多个强关联词的高效用项集;后续在根据高效用项集对应的词向量矩阵进行分类预测时,可以消除同义词对文本分类的干扰,提高文本分类的预测准确性;通过对高效用项集中的每个词组进行向量化,可以得到待分类文本对应的词向量矩阵,后续可以将词向量矩阵输入文本分类模型中进行分类预测;通过将词向量矩阵输入训练后的文本分类模型中进行分类预测,可以提高待分类文本对应的文本类别的预测准确性。

请参阅图7,图7是本申请的实施例还提供一种文本分类装置1000的示意性框图,该文本分类装置用于执行前述的文本分类方法。其中,该文本分类装置可以配置于服务器或终端中。

如图7所示,该文本分类装置1000,包括:项集挖掘模块1001、向量化模块1002和分类预测模块1003。

项集挖掘模块1001,用于获取待分类文本,对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集,其中,所述高效用项集包括至少两个词组。

向量化模块1002,用于对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵。

分类预测模块1003,用于将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别。

需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

上述的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8,图8是本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以是服务器或终端。

请参阅图8,该计算机设备包括通过系统总线连接的处理器和存储器,其中,存储器可以包括非易失性存储介质和内存储器。

处理器用于提供计算和控制能力,支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文本分类方法。

应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:

获取待分类文本,对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集,其中,所述高效用项集包括至少两个词组;对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵;将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别。

在一个实施例中,所述处理器在实现对所述待分类文本进行项集挖掘,得到所述待分类文本对应的高效用项集时,用于实现:

对所述待分类文本进行分词处理,得到所述待分类文本对应的多个词组;对所述多个词组进行组合,得到所述待分类文本对应的多个项集;确定每个所述项集对应所述待分类文本的效用值,将对应的效用值不小于预设效用阈值的项集,确定为所述待分类文本对应的所述高效用项集。

在一个实施例中,所述处理器在实现对所述待分类文本进行分词处理,得到所述待分类文本对应的多个词组时,用于实现:

基于预设的分词库,对所述待分类文本中的每个语句进行分词处理,得到所述待分类文本对应的多个所述词组。

在一个实施例中,所述处理器在实现对所述待分类文本进行分词处理,得到所述待分类文本对应的多个词组之后,还用于实现:

基于预设的停用词库,对多个所述词组进行过滤处理,得到过滤处理后的多个所述词组。

在一个实施例中,所述处理器在实现确定每个所述项集对应所述待分类文本的效用值时,用于实现:

将每个所述项集中每个所述词组在所述待分类文本的每个语句中出现的次数,确定为每个所述词组对应每个所述语句的第一效用值;将每个所述项集中的各个词组对应各个所述语句的第一效用值之和,确定为每个所述项集对应每个所述语句的第二效用值;将每个所述项集对应各个所述语句的第二效用值之和,确定为每个所述项集对应所述待分类文本的所述效用值。

在一个实施例中,所述处理器在实现对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵时,用于实现:

从区块链中获取词向量模型;将每个所述词组输入所述词向量模型进行向量化,得到所述待分类文本对应的所述词向量矩阵。

在一个实施例中,所述文本分类模型包括卷积层、池化层、全连接层以及归一化层;所述处理器在实现将所述词向量矩阵输入文本分类模型中进行分类预测,得到所述待分类文本对应的文本类别时,用于实现:

将所述词向量矩阵输入所述卷积层中进行卷积处理,得到所述词向量矩阵对应的特征图像;

将所述特征图像输入所述池化层进行池化处理,得到池化处理后的所述特征图像;

将池化处理后的所述特征图像输入所述全连接层进行进行全连接处理,并通过所述归一化层对全连接处理的结果进行归一化处理,得到所述待分类文本对应的文本类别。

在一个实施例中,所述处理器在实现对所述高效用项集中的每个词组进行向量化,得到所述待分类文本对应的词向量矩阵时,用于实现:

获取预设数量的原始文本对应的高效用项集的词向量矩阵,并根据所述原始文本对应的真实类别对每个词向量矩阵进行类别标注,将类别标注后的所述词向量矩阵作为训练样本;将所述训练样本输入所述文本分类模型中进行分类训练,得到所述训练样本对应的预测类别;基于预设的损失函数,根据所述训练样本对应的预测类别以及所述训练样本对应的真实类别,计算损失函数值;基于预设的梯度下降算法,根据所述损失函数值调整所述文本分类模型中的参数并进行下一轮训练,直至得到的损失函数值小于预设损失阈值时,结束训练,得到训练后的所述文本分类模型。

本申请的实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序中包括程序指令,所述处理器执行所述程序指令,实现本申请实施例提供的任一项文本分类方法。

其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字卡(Secure Digital Card,SD Card),闪存卡(Flash Card)等。

进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

相关技术
  • 文本分类方法、文本分类装置、计算机设备及存储介质
  • 文本分类方法、文本分类装置和计算机可读存储介质
技术分类

06120112422729