掌桥专利:专业的专利平台
掌桥专利
首页

一种文档自动聚类方法

文献发布时间:2023-06-19 19:28:50



技术领域

本发明属于文本数据挖掘技术领域,具体涉及一种文档自动聚类方法。

背景技术

在文本数据挖掘中,文本分类是一项重要的研究内容,被广泛应用于Web 搜索、日志分析、信息过滤、情感分析等领域中。对文本数据进行分类的前提是提取文本信息的特征并将其向量化,常用的方法有词袋模型,如一元、二元和n元模型等;此外,还可以采用基于频率的特征提取方法。在n元模型中,当n取值较大时可以捕获单词的语义信息,然而,它们都面临数据稀疏的问题,其分类应用的准确性也不高。

自编码器是深度学习中一种重要的训练模型,在自然语言处理中取得较好的效果,它将输入数据向量化,然后通过最小化重建输入数据的误差对特征进行提取。如果输入数据是文本,输出数据是对输入的重建,那么就可以将中间的隐藏层向量理解为输入数据的特征向量。对隐藏层向量可以进行特征提及、聚类分析,将文本数据中相似的部分划分为同一个类,从而进一步实现我们的目的。由于文本数据本身具有纬度高和稀疏性等特征,因此自编码器在文本挖掘领域还有待提高。

发明内容

本发明的目的在于提供一种文档自动聚类方法,能够提取文本数据的低维、抽象的特征向量,实现对特征向量的聚类分析,从文档中准确提取目标文本并进行相应的处理。

本发明的技术方案如下:一种文档自动聚类方法,该方法具体包括:

S1、读取待处理的文档,并对所述文档中的文本内容进行清洗和分词处理,并利用停用词表,对分词进行匹配输出,并对输出结果进行向量化处理,获得高维稀疏文本向量;

S2、将所述文本向量输入自编码器进行编码和译码处理,并通过全局调整函数,提取低维抽象特征向量;

S3、根据聚类文档目标,对所述特征向量进行聚类处理,并直到获得的所有向量簇不再发生变化为止,从中选取最符合目标的向量簇;

S4、利用所述向量簇,对所述文档中的文本数据进行定位输出。

所述步骤S1中对文本内容进行清洗和分词处理后的向量化处理过程具体包括:

利用TF-IDF方法对所述分析匹配输出结果进行向量化处理,并输出高维稀疏文本向量X为:

W

X(d)=(w

其中:Z

所述步骤S2中将文本向量输入自编码器进行编码和译码处理的具体步骤为:

将步骤S1获得的所述文本向量X输入自编码器,对所述文本向量X进行加权处理,输入层与隐藏层的权重矩阵W与输入的偏倚向量b作为加权参数,用双曲正切函数tanh对加权结果进行编码计算,得到隐藏层向量h为:

h=tanh(WX+b)

对编码后获得的隐藏层向量h进行译码处理,在保证输入输出向量误差最小的前提下,重建输出向量y:

y=tanh(W

W

所述文本向量输入自编码器进行编码和译码处理还包括通过构建损失函数,进行损失判断的步骤为:

构建损失函数,若输入向量与输出向量进行损失函数计算值不符合无损失范围,则重新训练自编码器后,在进行编码和译码处理;

对应输入向量x、输出向量y进行损失函数值计算所构建的损失函数 J(W,b,x,y)为:

其中,λ为参数惩罚项系数,又称权重衰减参数,β为稀疏性惩罚因子的权重,ρ为稀疏性参数,

所述步骤S2中通过全局调整函数,提取低维抽象特征向量具体包括:

利用全局调整函数,对隐藏层向量的绝对值小的元素舍去,转移至绝对值大的元素当中:

按照正负将隐藏层向量h的所有元素分成两个序列A和B,并按照绝对值分别将A和B中的元素从小到大进行排序;使得

设置约束参数n,若

所述步骤S1中对所述文档中的文本内容进行清洗和分词处理的具体步骤为:

对所述文档中读取到的文本数据进行文字清洗,去除文本非中文、英文字符、指定的符号和其他非法字符;进行繁简转化,以及英文字母统一转换为小写;

利用前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用动态规划查找最大概率路径,寻找获得基于词频的最大切分组合,实现对清洗后的文本数据分词。

所述步骤S1中利用停用词表,对分词进行匹配输出的具体过程为:

调用满足需求的停用词表,对文档中文本数据的分词进行匹配,若分词结果中包含停用词则直接剔除,获得分词匹配输出结果为:

x=(t

m代表词袋中词的总数;t

所述步骤S3中选取最符合目标的向量簇的具体步骤为:

S3.1、根据目标文档的格式,按照目标文本的格式,输入一段相似的文本数据,并将该段文字进行处理获得低维抽象特征向量,并将获得的特征向量作为聚类中心;

S3.2、从全局调整函数对隐藏层向量进行稀疏化获得的特征向量集中随机选取K个聚类中心;

S3.3、对数据集中的每一个向量,分别计算与当前已有的聚类中心的距离,并将其划分为与距离最短的聚类中心同一类;

S3.4、重新进行聚类中心计算;

S3.5、重复步骤S3.3、S3.4,直到聚类中心不在发生变化后,获得K+1个向量簇;

S3.6、利用步骤S3.1中的特性向量对步骤S3.5中获得的K+1个向量簇进行评选,选择与步骤S3.1中特性向量最接近的向量簇作为目标向量簇。

所述步骤S3.2中随机选取K个聚类中心的过程具体为:

对聚类中心的选取中,使各个聚类中心之间尽可能远离;

假设已经选取了n个初始聚类中心(0

所述步骤S4中利用所述向量簇,对所述文档中的文本数据进行定位输出的具体过程为:

对获得的目标向量簇的向量进行逆向分析,并结合现有的文档文本定位算法,将向量所指向的文本数据进行定位,对文本数据进行高亮处理,重新输出经过处理后的文档;对所述文本定位结果进行统计,并将统计结果另输出为统计页码定位的配套文档。

本发明的显著效果在于:本发明所述的一种文档自动聚类方法具有以下优点:(1)本发明利用自编码器进行无监督学习,利用大数据自身来学习特征的方式,比人工提取的形式更能有效地保证数据的本质特征,实现对Word文档进行目标文本聚类,其结果对于许多自然语言处理任务,比如观点提取、文本分类等也能起到较好的扩展应用;相比现有的方法,本发明具备更高的准确性和更低的运算复杂度,具有更强的实用性;(2)本发明设计的隐藏层特征向量稀疏化处理方法和有效性判定约束条件,在保障向量特征明显的前提下,尽可能压缩向量规模,并且能够很好地还原文本数据,并且结合文本定位算法,对分析结果进行可视化处理;相比现有方法,本发明的稀疏化处理方法和约束条件使得本发明的方法更具鲁棒性;相对于现有的文本聚类方法,本发明的方法操作简单,易于实现,并且,由于本方法的计算复杂度较低,本发明的方法可部署于小型的嵌入式设备中,因此,本发明对相关机构或普通用户均更强的具有实用价值以及更好的易用性。

附图说明

图1为本发明所述的一种文档自动聚类方法流程示意图;

图2为本发明所述的自编码器整体信息处理流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细说明。

如图1、图2所示,一种文档自动聚类方法,该方法具体包括如下步骤:

S1、采集待处理的文档,并对文档中的文本内容进行预处理后,开展高维稀疏向量化;

S1.1、采集待处理的文档,读取文档中的文本数据;

获取待处理文档的文件路径和文件名,采集该文档,并读取文档中的文本数据;

S1.2、对文档中的文本数据进行清洗和分词预处理;

S1.2.1、对文档中的文本数据进行清洗;

对如word文档中读取到的文本数据进行文字清洗,去除文本非中文、英文字符,或者去除指定的符号,或其他非法字符;进行繁简转化,将一个或多个空格用一个空格代替;将大写英文字母统一转换为小写等;

S1.2.2、将清洗过的文本数据进行分词;

利用前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用动态规划查找最大概率路径,寻找获得基于词频的最大切分组合;

S1.3、利用停用词表,对分词进行匹配输出,并对输出结果进行向量化处理;

S1.3.1、调用满足需求的停用词表,对文档中文本数据的分词进行匹配,若分词结果中包含停用词则直接剔除,获得分词匹配输出结果为:

x=(t

m代表词袋中词的总数;t

S1.3.2、利用TF-IDF方法对文本预处理结果进行向量化处理,获得文本向量;

利用词频乘以反文档频率(TF(d,t)×IDF(d,t))来计算特征权值W(d,t),输出高维稀疏文本向量结果;

W

X(d)=(w

其中:Z

S2、将高维稀疏文本向量输入自编码器中进行编码和译码处理,通过全局调整函数,提取低维抽象特征向量;

S2.1、利用自编码器,对获得的文本向量进行编码处理,获得隐藏层向量;

对步骤S1获得的高维稀疏文本向量X进行加权处理,输入层与隐藏层的权重矩阵W与输入的偏倚向量b作为加权参数,用双曲正切函数tanh对加权结果进行编码计算,得到隐藏层向量h,编码函数如下:

h=tanh(WX+b)

S2.2、对编码后的隐藏层向量进行译码处理,重建输出向量;

对编码后获得的隐藏层向量h进行译码处理,在保证输入输出向量误差最小的前提下,重建输出向量y:

y=tanh(W

W

S2.3、构建损失函数,若输入向量与输出向量进行损失函数计算值不符合无损失范围,则重新训练自编码器,并对高维稀疏文本向量进行编码和译码处理;

对应输入向量x、输出向量y进行损失函数值计算所构建的损失函数 J(W,b,x,y)为:

其中,λ为参数惩罚项系数,又称权重衰减参数,β为稀疏性惩罚因子的权重,ρ为稀疏性参数,

S2.4、利用全局调整函数对隐藏层向量进行稀疏化,输出低维抽象特征向量;

利用全局调整函数,对隐藏层向量的绝对值小的元素舍去,转移至绝对值大的元素当中,压缩向量,获得低维特征向量;

S2.4.1、按照正负将隐藏层向量h的所有元素分成两个序列A和B,并按照绝对值分别将A和B中的元素从小到大进行排序;使得

S2.4.2、设置约束参数n,若

S3、根据聚类文档目标,对获得的低维抽象特征向量进行聚类,直到获得的所有向量簇不再发生变化为止,从中选取最符合目标的簇;

S3.1、根据目标文档的格式,获得低维抽象特征向量作为聚类中心;

按照目标文本的格式,输入一段相似的文本数据,并将该段文字进行上述步骤处理获得低维抽象特征向量,并将获得的特征向量作为聚类中心;

S3.2、从全局调整函数对隐藏层向量进行稀疏化获得的特征向量集中随机选取K个聚类中心;

对聚类中心的选取中,使各个聚类中心之间尽可能远离;

假设已经选取了n个初始聚类中心(0

S3.3、对数据集中的每一个向量,分别计算与当前已有的聚类中心的距离,并将其划分为与距离最短的聚类中心同一类;

S3.4、重新进行聚类中心计算;

S3.5、重复步骤S3.3、S3.4,直到聚类中心不在发生变化后,获得K+1个向量簇;

S3.6、利用步骤S3.1中的特性向量对步骤S3.5中获得的K+1个向量簇进行评选,选择与步骤S3.1中特性向量最接近的向量簇作为目标向量簇;

S4、利用所获得的向量簇及待处理的文档,分别重新构建并输出带有内容标识的文档和对目标文本进行统计页码定位的配套文档;

S4.1、对获得的目标向量簇的向量进行逆向分析,并结合现有的文档文本定位算法,将向量所指向的文本数据进行定位,对文本数据进行高亮处理,重新输出经过处理后的文档;

S4.2、对上述文本定位结果进行统计,并将统计结果另输出为统计页码定位的配套文档。

技术分类

06120115925239