掌桥专利:专业的专利平台
掌桥专利
首页

文本分类方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 11:32:36


文本分类方法、装置、计算机设备和存储介质

技术领域

本发明涉及自然语言处理技术领域,特别是涉及文本分类方法、装置、计算机设备和存储介质。

背景技术

随着网络技术的快速发展,海量的信息资源以文本的形式存在。如何对这些文本进行有效的分类,从海量的文本中快速、准确、全面的挖掘有效信息,已经成为了自然语言处理研究领域的热点之一。文本分类方法是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。文本分类方法技术在日常生活中具有广泛的应用,例如,对专利文本的技术划分等等。

与一般文本相比,专利文本具有结构特殊、专业性强、领域词汇较多等特点,需要采用更加针对的分类方法。专利文本分类方法属于自然语言处理领域,一般包括数据预处理、文本特征表示、分类器选择及效果评价等步骤,其中文本特征表示与分类器选择最为重要,将直接影响分类结果的准确性。

现有技术中,基于传统机器学习的文本分类方法,如TF-IDF文本分类方法是仅以“词频”度量词的重要性,后续构成文档的特征值序列,词之间各自独立,无法反映序列信息;易受数据集偏斜的影响,如某一类别的文档偏多,会导致IDF低估;处理方法是需要增加类别权重。没有考虑类内、类间分布偏差(被用于特征选择时)。基于深度学习的文本分类方法,如Facebook开源的FastText文本分类方法,Text-CNN文本分类方法,Text-RNN文本分类方法等。TextCNN能够在很多任务里面能有不错的表现,但CNN有个最大问题是固定filter_size的视野,一方面无法建模更长的序列信息,另一方面filter_size的超参调节也很繁琐。CNN本质是做文本的特征表达工作,而自然语言处理中更常用的是递归神经网络(RNN,RecurrentNeuralNetwork),能够更好的表达上下文信息。CNN和RNN用在文本分类方法任务中尽管效果显著,但都有一个不足的地方就是不够直观,可解释性不好,特别是在分析badcase时候感受尤其深刻。

发明内容

本申请提供了一种文本分类方法、装置、计算机设备和存储介质。

第一方面提供了一种文本分类方法,所述方法包括:

从原始文本中提取待分析的目标文本数据;

对所述目标文本数据进行预处理,得到所述目标文本数据的分词结果;

将所述分词结果输入与训练好的文本分类模型中,所述文本分类模型基于所述分词结果得到所述目标文本数据对应的目标字向量、目标词向量和目标位置向量以及基于所述目标字向量、所述目标词向量和所述目标位置向量得到所述目标文本数据的目标分类标签;其中,所述文本分类模型为经过训练的alber模型。

在一些实施例中,在从原始文本中提取待分类的文本数据之前,还包括:

提取待所述原始文本中关键词,并构成关键词集;

基于TF-IDF模型确定所述关键词集在各个类别的语料库中的词频-逆文档频率;

基于所述原始文本的关键词集在各个类别的语料库中的词频-逆文档频率,确定所述原始文本属于各个类别的置信度;

根据所述原始文本属于各个类别的置信度,确定所述原始文本的一级分类标签;

将所述一级分类标签与预设的一级分类标签信息进行匹配,并根据匹配结果确定是否采用所述文本分类模型对所述原始文本进行文本分类。

在一些实施例中,所述对所述文本数据进行预处理,得到分词结果,包括:

对所述目标文本数据进行去停用词、去重中的一种,得到第二文本数据,对所述第二文本数据进行分词操作,得到分词结果。

在一些实施例中,所述方法还包括:预训练所述文本分类模型,所述预训练所述文本分类模型,包括:

获取第一训练样本集,所述第一训练样本集中包含第一训练文本,且所述第一训练文本包含对应的第一分类标签;

基于所述第一训练样本集,以所述第一分类标签为分类目标预训练albert模型,得到初始文本分类模型;

判断所述初始文本分类模型的分类结果的准确率是否大于预设阈值,

如果大于所述预设阈值,则以所述初始文本分类模型为最终的文本分类模型;

如果不大于所述预设阈值,则对所述第一训练文本对应的分类标签进行纠错,并基于纠错后的第一训练样本集对所述初始文本分类模型进行迭代,直至所述初始文本分类模型的分类结果的准确率大于预设阈值。

在一些实施例中,所述判断所述初始文本分类模型的分类结果的准确率是否大于预设阈值,包括:

获取第二训练样本集,所述第二训练样本集中包含第二训练文本;

基于所述初始文本分类模型,得到所述第二训练样本集中的第二训练文本对应的预测分类标签;

根据所述预测分类标签和所述第二训练文本对应的第二分类标签,判断所述初始分类模型的分类结果的准确率是否大于预设阈值,其中,所述第二分类标签是通过用户人工标注的第二分类标签。

在一些实施例中,所述基于所述第一训练样本集,以所述第一分类标签为分类目标预训练albert模型,得到初始文本分类模型,包括:

将所述第一训练样本集按照预设的比例分为训练数据和验证数据;

将所述训练数据输入待训练的初始文本分类模型进行模型训练;

基于所述验证数据对训练后的所述初始文本分类模型进行验证,并根据验证结果得到优化后的初始文本分类模型。

在一些实施例中,所述对所述第一训练文本对应的分类标签进行纠错,包括:

对所述预测结果进行审核,得到预测正确的第一训练文本和预测错误的第一训练文本;

将所述预测错误第一训练文本进行人工标注,以将所述预测错误第一训练文本的标签正确标注。

第二方面提供了一种文本分类装置,包括:

目标文本获取模块,用于从原始文本中提取待分析的目标文本数据;

分词模块,用于对所述目标文本数据进行预处理,得到所述目标文本数据的分词结果;

分类模块,用于将所述分词结果输入与训练好的文本分类模型中,所述文本分类模型基于所述分词结果得到所述目标文本数据对应的目标字向量、目标词向量和目标位置向量以及基于所述目标字向量、所述目标词向量和所述目标位置向量得到所述目标文本数据的目标分类标签;其中,所述文本分类模型为经过训练的alber模型。

第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述文本分类方法的步骤。

第四方面提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述文本分类方法的步骤。

上述文本分类方法、装置、计算机设备和存储介质,上述文本分类方法,首先,从原始文本中提取待分析的目标文本数据;其次,对所述目标文本数据进行预处理,得到所述目标文本数据的分词结果;然后,基于所述分词结果得到所述目标文本数据对应的目标字向量、目标词向量和目标位置向量;最后,将所述分词结果输入与训练好的文本分类模型中,所述文本分类模型基于所述分词结果得到所述目标文本数据对应的目标字向量、目标词向量和目标位置向量以及基于所述目标字向量、所述目标词向量和所述目标位置向量得到所述目标文本数据的目标分类标签。因此,采用albert模型对文本数据进行处理,获得的字向量序列中包含了文本数据的文本信息以及上下文信息,因此其融合了全文语义信息,包含的文本信息更全面,更有利于后续的文本分类,从而有助于提高文本分类的准确性,改善分类效果。

附图说明

图1为一个实施例中提供的文本分类方法的实施环境图;

图2为一个实施例中计算机设备的内部结构框图;

图3为一个实施例中文本分类方法的流程图;

图4为一个实施例中文本分类装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

图1为一个实施例中提供的文本分类方法的实施环境图,如图1所示,在该实施环境中,包括计算机设备110以及终端120。

计算机设备110为文本分类服务器,终端120为待分类的文本获取设备,具有文本分类结果输出界面,当需要进行文本分类时,通过终端120获取待分类的文本,并通过计算机设备110对待分类文本进行分类。

需要说明的是,终端120以及计算机设备110可为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。计算机设备110以及终端110可以通过蓝牙、USB(Universal SerialBus,通用串行总线)或者其他通讯连接方式进行连接,本发明在此不做限制。

图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、存储介质、存储器和网络API接口。其中,该计算机设备的存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种文本分类方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种文本分类方法。该计算机设备的网络API接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

为了方便理解,下面首先对本申请实施例中涉及的名词进行说明。

albert模型:由谷歌在2018年发布的一种语言模型,该模型通过联合所有层中的双向转换器来训练深度双向表示。albert模型融合了众多自然语言处理模型的优点,在多项自然语言处理任务中均取得较优效果。相关技术中,albert模型的模型输入向量为字向量(TokenEmbedding)、位置向量(PositionEmbedding)和句向量(SegmentEmbedding)的向量之和。其中,字向量为文字的向量化表示,位置向量用于表征字在文本中所处的位置,句向量用于表征句子在文本中的先后顺序。

预训练(pre-training):一种通过使用大型数据集对神经网络模型进行训练,使神经网络模型学习到数据集中的通用特征的过程。预训练的目的是为后续神经网络模型在特定数据集上训练提供优质的模型参数。本申请实施例中的预训练指利用无标签训练文本训练albert模型的过程。

微调(fine-tuning):一种使用特定数据集对预训练神经网络模型进行进一步训练的过程。通常情况下,微调阶段所使用数据集的数据量小于预训练阶段所使用数据集的数据量,且微调阶段采用监督式学习的方式,即微调阶段所使用数据集中的训练样本包含标注信息。本申请实施例中的微调阶段指利用包含分类标签的训练文本训练albert模型。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

如图3所示,在一个实施例中,提出了一种文本分类方法,该文本分类方法可以应用于上述的计算机设备110中,具体可以包括以下步骤:

步骤101、从原始文本中提取待分析的目标文本数据;

其中,原始文本可以是专利文本,专利文本具有结构特殊、专业性强、领域词汇较多等特点,需要采用更加针对的分类方法。专利文本分类属于自然语言处理领域,一般包括数据预处理、文本特征表示、分类器选择及效果评价等步骤,其中文本特征表示与分类器选择最为重要,将直接影响分类结果的准确性。

在本实施例中,提取专利文本中的说明书摘要、权利要求书和说明书标题部分的文本数据作为目标文本数据。

步骤102、对目标文本数据进行预处理,得到目标文本数据的分词结果;

在本实施例中,对目标文本数据进行预处理的目的在于提取原始文本数据中的有用数据,或者删除原始文本中的噪音数据,从而可以对原始文本数据中与提取目的无关的文本数据进行删除。

在一些实施例中,上述步骤102可以包括:对目标文本数据进行去停用词、去重中的一种,得到第二文本数据,对第二文本数据进行分词操作,得到分词结果。

其中,在删除噪音数据时,通过去重的方式去除原始文本数据中的重复数据;通过删除的方式去除原始文本数据中的噪音数据等,从而可以将原始文本数据中的噪音数据进行去除。

停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言文本之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词(Stop Words)。

在本实施例中,去停用词可以去掉自然语言文本中对文本特征没有任何贡献作用的字词,例如标点符号、语气、人称、无意义的乱码和空格等。选取的去停用词的方法为停用词表过滤,停用词表过滤可以是通过已经构建好的停用词表和文本数据中的词语进行一一匹配,如果匹配成功,那么这个词语就是停用词,需要将该词删除。

为了获得向量形式的目标文本数据,需要首先对第二文本数据进行分词。分词是词法分析中的基本任务,分词算法根据其核心思想主要分为两类:一种是基于词典的分词,先把文本数据按照词典切分成词,再寻找词的最佳组合方式;另一种是基于字的分词,即由字构词,先把句子分成一个个字,再将字组合成词,寻找最优的切分策略,同时也可以转化成序列标注问题。本实施例在进行分词时采用的分词算法可以包括:基于规则的分词方法、基于理解的分词方法或者基于统计的分词方法。

其中,基于规则的分词方法(例如基于字符串匹配的分词方法)是按照一定的策略将待分析的汉字串与一个“充分大的”词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的基于规则的分词方法包括:正向最大匹配法(由左到右的方向);逆向最大匹配法(由右到左的方向);最少切分(使每一句中切出的词数最小)。正向最大匹配法是将一段字符串进行分隔,其中分隔的长度有限制,然后将分隔的子字符串与词典中的词进行匹配,如果匹配成功则进行下一轮匹配,直到所有字符串处理完毕,否则将子字符串从末尾去除一个字,再进行匹配,如此反复。逆向最大匹配法则与此正向最大匹配法类似。

基于理解的分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。基于理解的分词方法的基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。基于统计的分词方法:从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。从而字与字相邻共现的频率或概率能够较好的反映成词的可信度。通过对文本数据中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。在实际应用时,统计分词系统可以使用一部基本的分词词典进行串匹配分词,同时使用统计方法识别一些新词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

经过上述分词处理后,原始文本数据由一系列的关键词表示,但是这种文本形式的数据不能直接被后续的分类算法所处理,而应该转化为数值形式,因此需要对这些关键词进行词向量形式转化,以获取待分类的文本数据,其为文本向量的形式。

步骤103、将分词结果输入与训练好的文本分类模型中,文本分类模型基于分词结果得到目标文本数据对应的目标字向量、目标词向量和目标位置向量以及基于目标字向量、目标词向量和目标位置向量得到目标文本数据的目标分类标签;其中,文本分类模型为经过训练的alber模型。

其中,将分词结果输入预先训练好的文本分类模型中,文本分类模型是预先训练好的albert模型,为了使alber模型既能够学习到文字的上下文关系,又能够学习得到拼音与文字之间的映射关系,本申请实施例中,训练albert模型时,使用到三个度的向量,即字向量、词向量和位置向量。

可选的,字向量采用词向量(wordtovector,word2vec)模型对文字进行转化得到。

在本实施例中,步骤103可以包括以下步骤:

步骤1031、根据文本数据的词性和位置信息,获取文本数据对应的词向量。在本实施例中,使用位置编码给文本数据加上位置信息,并使用初始词向量表示添加位置信息的文本数据;获取文本数据的词性,并将词性转换为词性向量;将初始词向量与词性向量相加,得到文本数据对应的词向量。

步骤1032、将词向量输入至albert模型中进行数据处理,得到文本数据的词矩阵。

步骤1033、根据词矩阵,获取文本数据的字向量序列。在本实施例中,使用词矩阵,预测文本数据中两个语句是否为上下句、两个语句中掩盖词和掩盖词的词性特征,并对词性特征归一化处理,得到文本数据的字向量序列。

应当理解的是,本实施例中使用的albert模型是经过预先训练得到的模型,因此在对文本数据进行处理时,只需要将文本数据输入至该预先训练的albert模型中即可获得其对应的字向量序列。

其中,为了使alber模型能够实现文本分类,需要在alber模型中设置分类器。可选的,该分类器的分类类别及数量与文本分类模型所需实现的分类任务相关,该分类器可以是多分类分类器(比如softmax分类器)。本申请实施例并不对分类器的具体类型进行限定。

在一些实施例中,上述文本分类方法,在从原始文本中提取待分类的文本数据之前,还包括:

步骤100a、提取原始文本中关键词,并构成关键词集;

步骤100b、基于TF-IDF模型确定关键词集在各个类别的语料库中的词频-逆文档频率;

具体地,确定该类别的语料库的文本特征中与关键词相匹配的文本特征,将相匹配的文本特征的词频-逆文档频率,作为该关键词的词频-逆文档频率。其中,根据句号、问号、感叹号和分号等标点符号,将某一类别的语料库中的文本分割为若干句子,提取每个句子中的文本特征。根据提取的文本特征,分别为各个类别建立文本特征库。分别在各个类别下,统计各个文本特征的频率。统计各文本特征的逆文档频率,即总类别数与包含该文本特征的类别数之商的自然对数值,并在各个类别下,分别计算各文本特征的词频-逆文档频率。

步骤100c、基于原始文本的关键词集在各个类别的语料库中的词频-逆文档频率,确定原始文本属于各个类别的置信度;

具体地,针对每个类别,分别进行以下操作:确定关键词在该类别的语料库中出现的次数;根据关键词在该类别的语料库中的词频-逆文档频率和关键词在该类别的语料中出现的次数,确定原始文本相对于该类别的类条件概率;根据原始文本相对于该类别的类条件概率,确定该待分类文本属于该类别的置信度。

步骤100d、根据原始文本属于各个类别的置信度,确定原始文本的一级分类标签;

具体地,将原始文本属于各个类别的置信度中,置信度最大的类别作为待分类文本的一级分类标签。

步骤100e、将一级分类标签与预设的一级分类标签信息进行匹配,并根据匹配结果确定是否采用文本分类模型对原始文本进行文本分类。

可以理解的是,在上述步骤101至104中得到的目标分类标签是专利文本最底层的分类标签,例如,专利文本有三级分类标签,一级分类标签只有一个分类,而二级分类标签有至少两个,三级分类标签至少有两个。因此,在该步骤中,首先通过TF-IDF模型根据原始文件的关键词进行一级分类标签,如果该专利文件的一级分类标签预设的一级分类标签不匹配,则无需原始文件进行标签分类了,初始分类标签是人为设置的级别高于底层分类标签的标签。

在一些实施例中,上述文本分类方法,还包括:预训练文本分类模型,预训练文本分类模型,包括:

步骤1001、获取第一训练样本集,第一训练样本集中包含第一训练文本,且第一训练文本包含对应的第一分类标签;

可选的,第一训练样本集是与文本分类相关的特定数据集,其中的训练文本包含对应的分类标签,该分类标签可以通过人工标注,且该分类标签属于文本分类模型的分类结果。在一个示意性的例子中,当文本分类模型用于对专利文本进行分类时,分类标签包括具体不同的技术领域,例如,云计算、图像处理等。本申请实施例并不对分类标签的具体内容进行限定。

步骤1002、基于第一训练样本集,以第一分类标签为分类目标预训练albert模型,得到初始文本分类模型;

上述步骤1002可以包括:

将第一训练样本集按照预设的比例分为训练数据和验证数据;

将训练数据输入待训练的初始文本分类模型进行模型训练;

基于验证数据对训练后的初始文本分类模型进行验证,并根据验证结果得到优化后的初始文本分类模型。

在该步骤中,第一训练样本集按照按9:1比例分开,90%用作训练集,10%用作验证集,模型用90%数据训练后,生成预测模型,开始对10%样本做预测,根据结果对模型参数进行适当调优,以得到初始文本分类模型。

步骤1003、判断初始文本分类模型的分类结果的准确率是否大于预设阈值,

步骤1004、如果大于,则以初始文本分类模型为最终的文本分类模型;

步骤1005、如果不大于,则对第一训练文本对应的分类标签进行纠错,并基于纠错后的第一训练样本集对初始文本分类模型进行迭代,直至初始文本分类模型的分类结果的准确率大于预设阈值。

可以理解的是,步骤1005中基于纠错后的第一训练样本集对初始文本分类模型进行迭代,也就是可以基于全部或部分纠错后的第一训练样本集对初始文本模型进行优化,至于具体迭代的次数需要判断微调后的初始文本分类模型的分类结果的准确率是否大于预设阈值,如果大于则停止迭代,如果不大于,则继续对初始文本分类模型进行优化训练。

上述步骤1003中,判断初始文本分类模型的分类结果的准确率是否大于预设阈值,可以包括:

1003a、获取第二训练样本集,第二训练样本集中包含第二训练文本;

1003b、基于初始文本分类模型,得到第二训练样本集中的第二训练文本对应的预测分类标签;

1003c、根据预测分类标签和第二训练文本对应的第二分类标签,判断初始分类模型的分类结果的准确率是否大于预设阈值,其中,第二分类标签是通过用户人工标注的第二分类标签。

本实施例中,采用不同于第一训练样本集的第二训练样本集作为验证初始文本分类模型的分类结果准确率的验证数据,其一扩展了初始分类模型的训练数据,其二,避免了由于第一训练样本集的原始的分类标签的错误造成的初始文本分类模型的准确率低的问题。

上述步骤1005中,对第一训练文本对应的分类标签进行纠错,可以包括:

1005a、对预测结果进行审核,得到预测正确的第一训练文本和预测错误的第一训练文本;

1005b、将预测错误第一训练文本进行人工标注,以将预测错误第一训练文本的标签正确标注。

本实施例中,针对初始文本分类模型初期预测的不准确的情况,本实施例对模型进行迭代,使得模型预测的更加准确。

在一些实施例中,计算机设备采用梯度下降或反向传播算法,根据预测结果与分类标签之间的误差对albert模型的网络参数进行调整,直至误差满足收敛条件。

在一种可能的实施方式中,由于预训练的albert模型已经学习到了文字的上下文关系,因此进行微调时所采用的第二训练样本集的数据量远小于第一训练样本集的数据量。

与预训练过程类似的,为了使文本分类模型能够学习到文本分类与文字拼音之间的映射关系,除了将第二训练文本中文字的字向量、位置向量和句向量作为输入,对albert模型进行微调。

在一种可能的实施方式中,微调过程中,计算机设备将第二训练样本集的第二字向量、第二目标词向量和第二目标位置向量作为albert模型的输入向量,得到albert模型输出的文本分类预测结果,进而以第二训练文本对应的分类标签为监督,对albert模型进行微调,最终训练得到文本分类模型。

如图4所示,在一个实施例中,提供了一种文本分类装置,该文本分类装置可以集成于上述的计算机设备110中,具体可以包括

目标文本获取模块411,用于从原始文本中提取待分析的目标文本数据;

分词模块412,用于对目标文本数据进行预处理,得到目标文本数据的分词结果;

向量获取模块413,用于获取目标分类文本中文字对应的目标字向量、目标位置向量以及目标句向量;

分类模块414,用于将目标字向量、目标词向量和目标位置向量输入文本分类模型,得到文本分类模型输出的目标分类标签,目标分类标签为采用权利要求1至4任一的文本分类模型的训练方法训练得到的文本分类模型。

在一个实施例中,提出了一种计算机设备,计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:从原始文本中提取待分析的目标文本数据;对目标文本数据进行预处理,得到目标文本数据的分词结果;基于分词结果得到目标文本数据对应的目标字向量、目标词向量和目标位置向量;将目标字向量、目标词向量和目标位置向量输入预先训练好的文本分类模型,得到文本分类模型输出的目标分类标签,其中,文本分类模型为经过微调的alber模型。

在一个实施例中,在从原始文本中提取待分类的文本数据之前,还包括:基于TF-IDF模型获取原始文本中提取关键词,并构成关键词集;根据关键词集,确定原始文本的一级分类标签;将一级分类标签与预设的一级分类标签信息进行匹配,并根据匹配结果确定是否采用文本分类模型对原始文本进行文本分类的步骤。

在一个实施例中,原始文本是专利文本数据,从原始文本中提取待分类的文本数据,包括:提取专利文本中的说明书摘要、权利要求书和说明书标题部分的文本数据作为待分类的文本数据。

在一个实施例中,将分词结果输入预先训练好的albert模型,得到文本数据对应的字向量序列,包括:根据文本数据的词性和位置信息,获取文本数据对应的词向量;将词向量输入至albert模型中进行数据处理,得到文本数据的词矩阵;根据词矩阵,获取文本数据的字向量序列。

在一个实施例中,判断初始文本分类模型的分类结果的准确率是否大于预设阈值,包括:获取第二训练样本集,第二训练样本集中包含第二训练文本;基于初始文本分类模型,得到第二训练样本集中的第二训练文本对应的预测分类标签;根据预测分类标签和第二训练文本对应的第二分类标签,判断初始分类模型的分类结果的准确率是否大于预设阈值,其中,第二分类标签是通过用户人工标注的第二分类标签。

在一个实施例中,基于第一训练样本集,以第一分类标签为分类目标预训练albert模型,得到初始文本分类模型,包括:将第一训练样本集按照预设的比例分为训练数据和验证数据;将训练数据输入待训练的初始文本分类模型进行模型训练;基于验证数据对训练后的初始文本分类模型进行验证,并根据验证结果得到优化后的初始文本分类模型。

在一个实施例中,对第一训练文本对应的分类标签进行纠错,包括:

对预测结果进行审核,得到预测正确的第一训练文本和预测错误的第一训练文本;

将预测错误第一训练文本进行人工标注,以将预测错误第一训练文本的标签正确标注。

在一个实施例中,提出了一种存储有计算机可读指令的存储介质,该计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:从原始文本中提取待分析的目标文本数据;对目标文本数据进行预处理,得到目标文本数据的分词结果;基于分词结果得到目标文本数据对应的目标字向量、目标词向量和目标位置向量;将目标字向量、目标词向量和目标位置向量输入预先训练好的文本分类模型,得到文本分类模型输出的目标分类标签,其中,文本分类模型为经过微调的alber模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 文本分类方法、文本分类装置、计算机设备及存储介质
  • 文本分类方法、文本分类装置和计算机可读存储介质
技术分类

06120112964917