掌桥专利:专业的专利平台
掌桥专利
首页

语料库的快速文本分类方法

文献发布时间:2023-06-19 09:49:27


语料库的快速文本分类方法

技术领域

本发明涉及语料库文本分类技术领域,具体为语料库的快速文本分类方法。

背景技术

语料库,是指经过科学取样和加工的大规模电子文本库,其作用是通过借助计算机分析工具,让研究者可以开展相关的语言理论及应用研究,由于语料库是承载语言知识的基础资源,因而语料库是研究员和学者开展语言学研究的主要数据依托之一,而且语料库中存放的是在实际使用中真实出现过的语言材料,因而语料库也是语言学研究方法的重要理论来源之一,其主要应用于词典编纂、语言教学、传统语言研究及自然语言处理中基于统计或实例的研究等方面,随着时代的不断发展及计算机技术的不断提高,文本分类是指基于分类体系的自动分类,其分类依据是某个或多个文本特性,由于文本之间具有相似性,所以文本分类无法达到最完美的结果,只有根据分类特性和评价标准的完善度选出最优的分类结果,专利号为CN103823824A公开了一种借助互联网自动构建文本分类语料库的方法及系统,其通过按照词性进行分类,分类依据过于简单和单一,无法对近义词语料进行准确有效的分类,对目的性明确的研究员和学而言显得颇为不便,因此发明出语料库的快速文本分类方法变得尤为重要;

现有的语料库的快速文本分类方法,往往按照词性进行分类,不可以对语料库中的语料进行快速且准确的分类,从而不能够提高语料分类的效率和准确性,不便于研究员和学者对语料进行深度剖析和研究,为此,我们提出语料库的快速文本分类方法。

发明内容

本发明的目的在于提供语料库的快速文本分类方法,以解决上述背景技术中提出的现有的语料库的快速文本分类方法,往往按照词性进行分类,不可以对语料库中的语料进行快速且准确的分类,从而不能够提高语料分类的效率和准确性,不便于研究员和学者对语料进行深度剖析和研究的问题。

为实现上述目的,本发明提供如下技术方案:语料库的快速文本分类方法,所述分类方法包括以下步骤:

(1)选择需要使用的现有语料库;

(2)提取语料库中的信息数据,对信息数据进行预处理;

(3)将预处理结果输入向量空间模型;

(4)进行特征词处理;

(5)为特征词选择分类器;

(6)将分类器进行效果评价;

(7)利用分类器对语料库进行分类。

优选的,步骤(1)中所述现有语料库特指中文语料库,其语料库类型具体为单语类型。

优选的,步骤(2)中所述信息数据是指具有相似度近的中文文本语料集,所述预处理具体表现为:对从语料库中提取的信息数据进行分词处理和去除停用词处理,从而得到训练样本集;

其中,所述训练样本集是指得到关键字的集合构成了初始特征项集合,简称特征集,所述分词处理具体表现为:将中文文本语料集中的语料文本划分为若干个单词,其采用的分词技术是基于统计的分词算法,所述基于统计的分词算法是指把字与字相邻共现的频率作为成词的可信度评价标准,其对语料中相邻共现的各个字的组合频率进行统计,所述停用词包含两类:一类是指应用广泛并在所有语料中均频繁出现的词,另一类是指某些虚词,其包括语气助词、副词、介词、连接词及感叹词,所述停用词通过符号代替,并将其从分词结果中去掉,得到有效的单词组合,所述符号包括“()”、“、”、“-”、“/”、和“&”。

优选的,步骤(3)中所述向量空间模型是指语料文本和查询均包含用特征项表达的揭示其内容的独立属性,而每个属性均可以看成是向量空间的一个维度,因而语料文本和查询可表示为某些属性的集合,忽略语料文本中的段落、句子及词语之间的复杂关系,文本与查询之间具有相似度,其相似度用向量间的距离来衡量,

其中,相似度的计算方法采用余弦系数法,所述余弦系数法是指用向量之间的夹角余弦来表示语料文本与查询间的相似度,夹角越小,语料文本和查询间的相似度越大。

优选的,步骤(4)中所述特征处理是指经过预处理后会得到几万个特征词,其中,特征词在语料中出现次数少,称为弱频相关词,而特征词出现频率高,称为强频相关词,通过去除弱频相关词并抽取强频相关词以构成特征集;

所述特征处理包括特征提取方法和特征词权重确定,所述特征提取方法采用的是频率统计,所属频率统计包括词频和文档频率,所述特征词权重确定是指在所提取的信息数据中抽取能够表示文本特征的词组成特征项,并为之赋予相应的权重,其特征词权重的算法为布尔权重法。

优选的,步骤(5)中所述分类器又称分类模型,是指将未知类别的语料文本映射到指定的类别空间,所述分类器采用的是贝叶斯算法,贝叶斯算法基于贝叶斯定理。

优选的,步骤(6)中所述效果评价包括有效性、计算复杂度和描述的简洁三个方面,所述有效性包括查全率、查准率、和F-测量三个指标。

本发明的上述技术方案具有如下有益的技术效果:通过提取语料库中的信息数据,对信息数据进行预处理有利于将现有语料库中的文本语料格式化为统一格式,便于后续统一处理,通过将预处理结果输入向量空间模型有利于将文本分解为基本处理单元进而得到特征词,最后通过特征词生成特征项,通过进行特征词处理,有利于反映信息数据的特征,从而便于确定特征项的权重,通过为特征词选择分类器,选择合适的分类算法有利于提高语料库的分类速度和分类准确性,通过对分类器进行效果评价,有利于了解和判定分类器的分类能力。

附图说明

图1为本发明提出的语料库的快速文本分类方法的结构示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。

如图1所示,语料库的快速文本分类方法,分类方法包括以下步骤:

(1)选择需要使用的现有语料库;

(2)提取语料库中的信息数据,对信息数据进行预处理;

(3)将预处理结果输入向量空间模型;

(4)进行特征词处理;

(5)为特征词选择分类器;

(6)将分类器进行效果评价;

(7)利用分类器对语料库进行分类。

步骤(1)中现有语料库特指中文语料库,其语料库类型具体为单语类型。

步骤(2)中信息数据是指具有相似度近的中文文本语料集,预处理具体表现为:对从语料库中提取的信息数据进行分词处理和去除停用词处理,从而得到训练样本集;

其中,训练样本集是指得到关键字的集合构成了初始特征项集合,简称特征集,分词处理具体表现为:将中文文本语料集中的语料文本划分为若干个单词,其采用的分词技术是基于统计的分词算法,基于统计的分词算法是指把字与字相邻共现的频率作为成词的可信度评价标准,其对语料中相邻共现的各个字的组合频率进行统计,停用词包含两类:一类是指应用广泛并在所有语料中均频繁出现的词,另一类是指某些虚词,其包括语气助词、副词、介词、连接词及感叹词,停用词通过符号代替,并将其从分词结果中去掉,得到有效的单词组合,符号包括“()”、“、”、“-”、“/”、和“&”。

步骤(3)中向量空间模型是指语料文本和查询均包含用特征项表达的揭示其内容的独立属性,而每个属性均可以看成是向量空间的一个维度,因而语料文本和查询可表示为某些属性的集合,忽略语料文本中的段落、句子及词语之间的复杂关系,文本与查询之间具有相似度,其相似度用向量间的距离来衡量,有利于将文本分解为基本处理单元进而得到特征词,

其中,相似度的计算方法采用余弦系数法,余弦系数法是指用向量之间的夹角余弦来表示语料文本与查询间的相似度,夹角越小,语料文本和查询间的相似度越大。

步骤(4)中特征处理是指经过预处理后会得到几万个特征词,其中,特征词在语料中出现次数少,称为弱频相关词,而特征词出现频率高,称为强频相关词,通过去除弱频相关词并抽取强频相关词以构成特征集;

特征处理包括特征提取方法和特征词权重确定,特征提取方法采用的是频率统计,所属频率统计包括词频和文档频率,特征词权重确定是指在所提取的信息数据中抽取能够表示文本特征的词组成特征项,并为之赋予相应的权重,其特征词权重的算法为布尔权重法,有利于反映信息数据的特征。

步骤(5)中分类器又称分类模型,是指将未知类别的语料文本映射到指定的类别空间,分类器采用的是贝叶斯算法,贝叶斯算法基于贝叶斯定理。

步骤(6)中效果评价包括有效性、计算复杂度和描述的简洁三个方面,有效性包括查全率、查准率、和F-测量三个指标。

需要说明的是,本发明为一种基于语料库的近义词辨析方法,通过选择需要使用的现有语料库来确定语料库类型,进而确定分类方法的选择和分类成本的预估,然后对现有语料库中的部分文本语料进行提取,所提取的文本语料称为信息数据,然后对信息数据在进行预处理,预处理包括分词和停用词,英文文本每个单词之间均用空格区分,分别非常简单,而中文文本区分靠符号和段落,因而非常麻烦和模糊,因此在对语料进行特征词处理时需要进行分词,而且中文中包含许多虚词,包括语气助词、副词、介词、连接词及感叹词,需要对这些词进行停用词处理,停用词处理方式主要是用“()”、“、”、“-”、“/”、和“&”对这些词进行替代,有利用对特征词的提取,然后将预处理后的结果输入向量空间模型,有利于生成特征集,然后进行特征词处理,得到弱频相关词和强频相关词,然后去除弱频相关词并抽取强频相关词以构成特征集,通过特征集为特征词选择分类器,根据分类器的算法完成对语料文本的分配,所述分类器采用贝叶斯方法,有利于对语料文本进行准确及快速的分类,从而提高语料分类的效率和准确性,便于研究员和学者对语料进行深度剖析和研究,接着将分类器依据有效性、计算复杂度和描述的简洁三个方面进行效果评价,有利于测试和了解分类器的处理速度和准确性,最后利用测试通过的分类器进行语料分类。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进均落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

相关技术
  • 语料库的快速文本分类方法
  • 一种基于半监督学习的多标签语料库文本分类方法
技术分类

06120112315585