掌桥专利:专业的专利平台
掌桥专利
首页

文本聚类方法、装置、电子设备及计算机可读存储介质

文献发布时间:2023-06-19 11:32:36


文本聚类方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及文本数据处理技术领域,特别是涉及一种文本聚类方法、装置、电子设备及计算机可读存储介质。

背景技术

聚类是数据挖掘技术中非常重要的一种无监督分类技术,可以发现数据的聚集特征。聚类的目的是根据设定的测度准则,将数据集划分成若干个独立的或者有部分重叠的元素的子集合,每个子集合内部元素相似度越高越好,子集合与子集合之间的差异性越大越好。聚类技术在生物信息处理、模式识别、图像信息处理、文本数据挖掘、气象分析、医疗卫生保健、雷达信号分析等众多领域都得到了成功的应用。

传统聚类算法一般分为划分聚类、层次聚类、密度聚类、网格聚类以及模型聚类等几种类型。划分聚类最具代表性的算法包括k-means和FCM(Fuzzy C-means Algorithm,模糊c-均值聚类算法)算法,其中FCM算法对象的隶属度范围为[0,1],相比K-means其具有更强的适应性。

而医疗文本处理时需要对数据进行初步分析,聚类发现文本内在结构,然而上述聚类技术方案对不确定知识的表达能力较弱,聚类效果不是很理想,并且传统聚类方法往往使用梯度下降基于所有文本优化目标函数,如果文本数量巨大时,聚类效率较低。

发明内容

本申请提供一种文本聚类方法、装置及电子设备,以解决现有技术中传统聚类方法往往使用梯度下降基于所有文本优化目标函数,如果文本数量巨大时,聚类效率较低的问题。

为了解决上述问题,本申请公开了一种文本聚类方法,包括:

获取指定领域的多个待聚类文本;

基于预置神经网络模型和多个所述待聚类文本,获取每个所述待聚类文本对应的文本向量表征;

重复从多个所述文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集;

采用随机梯度下降算法对所述多个文本向量子集进行处理,计算得到隶属度矩阵;

基于粗糙集理论和所述隶属度矩阵,确定每个所述文本向量子集对应的上近似集和下近似集;

基于每个所述文本向量子集对应的上近似集和下近似集,输出多个所述待聚类文本对应的文本聚类结果。

可选地,所述获取指定领域的多个待聚类文本,包括:

获取所述指定领域的文本数据;

对所述文本数据进行预处理,获取多个所述待聚类文本。

可选地,所述基于预置神经网络模型和多个所述待聚类文本,获取每个所述待聚类文本对应的文本向量表征,包括:

获取每个所述待聚类文本中的字和词分别对应的字向量和词向量;

基于所述字向量和所述词向量,确定每个所述待聚类文本对应的向量矩阵;

将各所述向量矩阵输入至预置神经网络模型,得到每个所述待聚类文本的文本向量表征。

可选地,所述重复从多个所述文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集,包括:

设置聚类数目和模糊指数;

从多个所述文本向量表征选取所述聚类数目的文本向量表征,作为初始聚类中心;

迭代执行从多个所述文本向量表征随机选取预置个数的文本向量表征,获取所述聚类数目的文本向量子集。

可选地,所述采用随机梯度下降算法对所述多个文本向量子集进行处理,计算得到隶属度矩阵,包括:

根据当前迭代次数、所述聚类数目、所述模糊指数和所述当前迭代次数对应的文本向量子集的初始聚类中心和所述当前迭代次数对应的文本向量子集中的文本向量表征,确定所述当前迭代次数对应的文本向量子集的隶属度值。

可选地,所述基于粗糙集理论和所述隶属度矩阵,确定每个所述文本向量子集对应的上近似集和下近似集,包括:

获取多个所述隶属度矩阵中的最大隶属度值阵和最小隶属度值;

基于所述隶属度矩阵、所述最大隶属度值、所述最小隶属度值和每个所述文本向量子集中的文本向量表征,确定每个所述文本向量子集的上近似集和下近似集。

可选地,所述基于每个所述文本向量子集对应的上近似集和下近似集,输出多个所述待聚类文本对应的文本聚类结果,包括:

基于各所述上近似集和各所述下近似集,计算得到各所述文本向量子集的新聚类中心;

根据各所述新聚类中心、各所述下近似集的模糊下近似集紧密度和各所述文本向量子集的边界集对应的模糊边界集紧密度,确定目标函数;

根据各所述目标函数和多个所述待聚类文本,确定所述文本聚类结果。

为了解决上述问题,本申请公开了一种文本聚类装置,包括:

待聚类文本获取模块,用于获取指定领域的多个待聚类文本;

文本向量表征获取模块,用于基于预置神经网络模型和多个所述待聚类文本,获取每个所述待聚类文本对应的文本向量表征;

文本向量子集获取模块,用于重复从多个所述文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集;

隶属度矩阵计算模块,用于采用随机梯度下降算法对所述多个文本向量子集进行处理,计算得到隶属度矩阵;

近似集确定模块,用于基于粗糙集理论和所述隶属度矩阵,确定每个所述文本向量子集对应的上近似集和下近似集;

文本聚类结果输出模块,用于基于每个所述文本向量子集对应的上近似集和下近似集,输出多个所述待聚类文本对应的文本聚类结果。

可选地,所述待聚类文本获取模块包括:

文本数据获取单元,用于获取所述指定领域的文本数据;

待聚类文本获取单元,用于对所述文本数据进行预处理,获取多个所述待聚类文本。

可选地,所述文本向量表征获取模块包括:

字词向量获取单元,用于获取每个所述待聚类文本中的字和词分别对应的字向量和词向量;

向量矩阵确定单元,用于基于所述字向量和所述词向量,确定每个所述待聚类文本对应的向量矩阵;

文本向量表征获取单元,用于将各所述向量矩阵输入至预置神经网络模型,得到每个所述待聚类文本的文本向量表征。

可选地,所述文本向量子集获取模块包括:

聚类数目设置单元,用于设置聚类数目和模糊指数;

初始聚类中心获取单元,用于从多个所述文本向量表征选取所述聚类数目的文本向量表征,作为初始聚类中心;

文本向量子集获取单元,用于迭代执行从多个所述文本向量表征随机选取预置个数的文本向量表征,获取所述聚类数目的文本向量子集。

可选地,所述隶属度矩阵计算模块包括:

隶属度值确定单元,用于根据当前迭代次数、所述聚类数目、所述模糊指数和所述当前迭代次数对应的文本向量子集的初始聚类中心和所述当前迭代次数对应的文本向量子集中的文本向量表征,确定所述当前迭代次数对应的文本向量子集的隶属度值;

隶属度矩阵计算单元,用于根据各所述隶属度值,计算得到所述隶属度矩阵。

可选地,所述近似集确定模块包括:

隶属度值获取单元,用于获取多个所述隶属度值中的最大隶属度值和最小隶属度值;

近似集确定单元,用于基于所述隶属度矩阵、所述最大隶属度值、所述最小隶属度值和每个所述文本向量子集中的文本向量表征,确定每个所述文本向量子集的上近似集和下近似集。

可选地,所述文本聚类结果输出模块包括:

聚类中心计算单元,用于基于各所述上近似集和各所述下近似集,计算得到各所述文本向量子集的新聚类中心;

目标函数确定单元,用于根据各所述新聚类中心、各所述下近似集的模糊下近似集紧密度和各所述文本向量子集的边界集对应的模糊边界集紧密度,确定目标函数;

文本聚类结果确定单元,用于根据各所述目标函数和多个所述待聚类文本,确定所述文本聚类结果。

为了解决上述问题,本申请公开了一种电子设备,包括:

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的文本聚类方法。

为了解决上述问题,本申请公开了一种计算机可读存储介质,存储有计算机指令,当所述计算机指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的文本聚类方法。

与现有技术相比,本申请包括以下优点:

本申请实施例提供的文本聚类方案,通过获取指定领域的多个待聚类文本,基于预置神经网络模型和多个所述待聚类文本,获取每个待聚类文本对应的文本向量表征,重复从多个文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集,采用随机梯度下降算法对多个文本向量子集进行处理,计算得到每个文本向量子集对应的隶属度矩阵,基于粗糙集理论和各隶属度矩阵,确定每个文本向量子集对应的上近似集和下近似集,基于每个文本向量子集对应的上近似集和下近似集,输出多个待聚类文本对应的文本聚类结果。本申请实施例利用粗糙集对不确定知识的表达能力的计算,并使用随机梯度下降算法求解,提高了聚类方法对大规模复杂数据的处理能力和运行效率。

附图说明

图1示出了本申请实施例提供的一种文本聚类方法的步骤流程图;

图2示出了本申请实施例提供的另一种文本聚类方法的步骤流程图;

图3示出了本申请实施例提供的一种上近似集和下近似集的示意图;

图4示出了本申请实施例提供的一种文本聚类装置的结构示意图;

图5示出了本申请实施例提供的一种待聚类文本获取模块的结构示意图;

图6示出了本申请实施例提供的一种文本向量表征获取模块的结构示意图;

图7示出了本申请实施例提供的一种文本向量子集获取模块的结构示意图;

图8示出了本申请实施例提供的一种隶属度矩阵计算模块的结构示意图;

图9示出了本申请实施例提供的一种近似集确定模块的结构示意图;

图10示出了本申请实施例提供的一种文本聚类结果输出模块的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1,示出了本申请实施例提供的一种文本聚类方法的步骤流程图,该文本聚类方法具体可以包括如下步骤:

步骤101:获取指定领域的多个待聚类文本。

在本申请实施例中,指定领域是指某个专业的技术领域,如医学领域、数学领域、化学领域等,具体地,可以根据业务需求而定。

待聚类文本是指指定领域的需要进行聚类处理的文本。

在某些示例中,可以从指定领域的平台上获取多个待聚类文本,例如,可以使用爬虫技术指定领域的平台上收集中文文本数据,以作为待聚类文本。

在某些示例中,可以采用预设关键词从互联网中搜索指定领域的多个待聚类文本,例如,采用一个或多个指定领域的关键词,通过百度搜索等方式获取指定领域的中文文本数据,以作为待聚类文本。

可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。

在获取指定领域的多个待聚类文本之后,执行步骤102。

步骤102:基于预置神经网络模型和多个所述待聚类文本,获取每个所述待聚类文本对应的文本向量表征。

文本向量表征是指每个待聚类文本所对应的向量表征。

在获取指定领域的多个待聚类文本之后,可以获取每个待聚类文本的字词向量,然后将字词向量输入至预置神经网络模型,从而得到每个待聚类文本的文本向量表征。具体地,将在下述实施例中进行详细描述,本申请实施例在此不再加以赘述。

在基于预置神经网络模型和多个待聚类文本,获取每个待聚类文本对应的文本向量表征之后,执行步骤103。

步骤103:重复从多个所述文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集。

设定个数是指由业务人员预先设置的选择文本向量表征的个数,设定个数可以为100、150等,具体地,可以根据业务需求而定,本申请实施例对此不加以限制。

文本向量子集是指从多个文本向量表征中随机选取指定个数的文本向量表征,所形成的向量子集。

在获取多个待聚类文本对应的文本向量表征之后,可以重复从多个文本向量表征中随机选取设定个数的文本向量表征,以得到多个文本向量子集,例如,多个文本向量表征可以包括:向量1、向量2、向量3、...、向量n,设定个数为15,首先,从向量1、向量2、向量3、...、向量n中随机选取10个向量形成文本向量子集;然后,再从向量1、向量2、向量3、...、向量n中随机选取10个向量形成文本向量子集;紧接着再从向量1、向量2、向量3、...、向量n中随机选取10个向量形成文本向量子集;...。从而得到多个文本向量子集。

可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。

在重复从多个文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集之后,执行步骤104。

步骤104:采用随机梯度下降算法对所述多个文本向量子集进行处理,计算得到隶属度矩阵。

随机梯度下降算法(Stochastic Gradient Descent,SGD):在机器学习算法中,有时候需要对原始的模型构建损失函数,然后通过优化算法对损失函数进行优化,以便寻找到最优的参数,使得损失函数的值最小。而在求解机器学习参数的优化算法中,使用较多的就是基于梯度下降的优化算法。

在获取多个文本向量子集之后,可以采用随机梯度下降算法,计算得到隶属度矩阵,具体地,可以针对每个文本向量子集依次计算每个文本向量子集的隶属度值,结合各隶属度值可以得到隶属度矩阵。

本申请通过采用随机梯度下降算法求解,该算法收敛速度较快。

在采用随机梯度下降算法对所述多个文本向量子集进行处理计算得到隶属度矩阵之后,执行步骤104。

步骤105:基于粗糙集理论和所述隶属度矩阵,确定每个所述文本向量子集对应的上近似集和下近似集。

粗糙集理论是一种数据分析处理理论,是关于不精确、不相容、不完备数据处理的数学理论,是经典集合论的重要发展,为真实世界数据的知识表示、学习、归纳和挖掘等方面的研究提供了一种有效的处理技术和方法。

在采用随机梯度下降算法计算得到隶属度矩阵之后,可以基于粗糙集理论和隶属度矩阵,确定出每个文本向量子集对应的上近似集和下近似集。对于此过程,将在下述实施例中进行详细描述,本申请实施例在此不再加以赘述。

本申请通过对不确定知识的表达能力改进的算法,算法对复杂数据的处理能力更强。

在基于粗糙集理论和隶属度矩阵,确定出每个文本向量子集对应的上近似集和下近似集之后,执行步骤106。

步骤106:基于每个所述文本向量子集对应的上近似集和下近似集,输出多个所述待聚类文本对应的文本聚类结果。

文本聚类结果是指将多个待聚类文本划分至多个类簇之后,将每个待聚类文本规划至每个类簇之后得到的聚类结果。

在得到每个文本向量子集的上近似集和下近似集之后,可以结合每个文本向量的上近似集和下近似集输出得到多个待聚类文本对应的文本聚类结果。

在获取每个文本向量子集的上近似集和下近似集的过程中,可以优化目标函数,并输出类簇中心,通过计算每个待聚类文本与类簇中心之间的余弦距离,从而划分得到多个类簇中,得到文本聚类结果,具体地,将在下述实施例中进行详细描述,本申请实施例在此不再加以赘述。

本申请利用粗糙集对不确定知识的表达能力的计算,并使用随机梯度下降算法求解,提高了聚类方法对大规模复杂数据的处理能力和运行效率。

本申请实施例提供的文本聚类方法,通过获取指定领域的多个待聚类文本,基于预置神经网络模型和多个所述待聚类文本,获取每个待聚类文本对应的文本向量表征,重复从多个文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集,采用随机梯度下降算法对多个文本向量子集进行处理,计算得到每个文本向量子集对应的隶属度矩阵,基于粗糙集理论和各隶属度矩阵,确定每个文本向量子集对应的上近似集和下近似集,基于每个文本向量子集对应的上近似集和下近似集,输出多个待聚类文本对应的文本聚类结果。本申请实施例利用粗糙集对不确定知识的表达能力的计算,并使用随机梯度下降算法求解,提高了聚类方法对大规模复杂数据的处理能力和运行效率。

参照图2,示出了本申请实施例提供的另一种文本聚类方法的步骤流程图,该文本聚类方法具体可以包括如下步骤:

步骤201:获取所述指定领域的文本数据。

在本申请实施例中,指定领域是指某个专业的技术领域,如医学领域、数学领域、化学领域等,具体地,可以根据业务需求而定。

文本数据是指获取的指定领域的需要进行聚类处理的文本数据。

在某些示例中,可以从指定领域的平台上获取文本数据,例如,可以使用爬虫技术指定领域的平台上收集中文文本数据。

在某些示例中,可以采用预设关键词从互联网中搜索指定领域的文本数据,例如,采用一个或多个指定领域的关键词,通过百度搜索等方式获取指定领域的中文文本数据。

可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。

在获取指定领域的文本数据之后,执行步骤202。

步骤202:对所述文本数据进行预处理,获取多个所述待聚类文本。

在获取指定领域的文本数据之后,可以对文本数据进行预处理,如去除助词、标点符号、特殊字符、以及数据冗余信息进行删减和转换等处理操作,可以获取得到多个待聚类文本。

在对文本数据进行预处理获取多个待聚类文本之后,执行步骤203。

步骤203:获取每个所述待聚类文本中的字和词分别对应的字向量和词向量。

在获取多个待聚类文本之后,可以对待聚类文本进行预训练,如采用word2vec等词向量训练工具对待聚类文本进行预训练等。

通过将词向量化表示,并且考虑词之间的关系,word2vec一般有CBOW和Skip-Gram两种模型结构。CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,输出是特定词的词向量,通过深度学习训练出相应的固定维度的词向量。Skip-Gram模型输入是中心词,输出是上下文。使用预训练模型可以大大缩减字的编码空间大小,编码信息包含上下文信息。这里使用Skip-Gram模型获得预训练模型,存储为Q。

通过上述方式获取每个待聚类文本中的字和词分别对应的字向量和词向量之后,执行步骤204。

步骤204:基于所述字向量和所述词向量,确定每个所述待聚类文本对应的向量矩阵。

向量矩阵是指结合待聚类文本的字向量和词向量所形成的矩阵。

基于每个待聚类文本中的字和词分别对应的字向量和词向量,可以构成每个待聚类文本对应的向量矩阵,具体地,句子表征:输入一个句子,句子表征是将句子表示成向量。句子按照字查找预训练模型Q,假设句子s有n个单字,字向量是d维向量,那么对于句子s,便可以得到n行d列的矩阵。例如,输入句子“怎么判断是否患有甲状腺疾病?”,遍历“怎/么/判/断/是/否/患/有/甲/状/腺/疾/病”中每个字,假设字向量维度为300,则该句子的字向量为13*300的矩阵。

在基于字向量和词向量,确定每个待聚类文本对应的向量矩阵之后,执行步骤205。

步骤205:将各所述向量矩阵输入至预置神经网络模型,得到每个所述待聚类文本的文本向量表征。

预置神经网络模型是指用于输出待聚类文本的文本向量表征的网络模型,如双向长短期记忆网络(BILSTM)等,在将向量化后的矩阵输入到双向长短期记忆网络之后,可以得到携有上下文信息的句子表示,每个句子表征的输出为1*300的向量。所有句子向量化后存储为文本文件形式,文件内容第一行有两列,第一列表示句子个数,第二列为句子的向量维度,第二行之后的每一行代表一个句子的向量。

在将各向量矩阵输入至预置神经网络模型之后,可以得到每个待聚类文本的文本向量表征,进而,执行步骤206。

步骤206:设置聚类数目和模糊指数。

聚类数目和模糊指数是指由业务人员预先设置的初始聚类数目和初始模糊指数,例如,可以设置模糊指数为m

对于聚类数目和模糊指数的设定值可以根据实际情况而定,本申请实施例对此不加以限制。

在设置聚类数目和模糊指数之后,执行步骤207。

步骤207:从多个所述文本向量表征选取所述聚类数目的文本向量表征,作为初始聚类中心。

初始聚类中心是指在设定聚类数目之后,从多个文本向量表征中随机选取聚类数目的文本向量表征,设定的聚类中心。例如,设定的聚类数目为10,则可以从多个文本向量表征中随机选取10个文本向量表征,以作为每个聚类数目所对应的初始聚类中心。

在设置聚类数目和模糊指数之后,可以从多个文本向量表征中选取聚类数目的文本向量表征,作为初始聚类数目。

在获取初始聚类中心之后,执行步骤208。

步骤208:迭代执行从多个所述文本向量表征随机选取预置个数的文本向量表征,获取所述聚类数目的文本向量子集。

预置个数是指由业务人员预先设置的用于从多个文本向量表征中选择向量表征的数量,预置个数可以为100、1000等,具体地,可以根据业务需求而定,本申请实施例对于预置个数的数值不加以限制。

文本向量子集是指从多个文本向量表征中随机选取预置个数的文本向量表征,所形成的向量子集。

在本申请中,形成的文本向量子集的数目是与初始设置的聚类数目相同的数目,如在聚类数目为10时,则形成的文本向量子集的数目即为10;而在聚类数目为20时,则形成的文本向量子集的数目即为20。

在设置聚类数目之后,可以迭代执行从多个文本向量表征中随机选取预置个数的文本向量表征,以获取聚类数目的文本向量子集,例如,多个文本向量表征为:向量1、向量2、...、向量n,聚类数目为10,预置个数为10,则从向量1、向量2、...、向量n中随机选取10个向量,作为第一个文本向量子集,再从向量1、向量2、...、向量n中随机选取10个向量,作为第二个文本向量子集,...,最后从向量1、向量2、...、向量n中随机10个向量,作为第十个文本向量子集。

可以理解地,上述示例仅是为了更好地理解本申请实施例的技术方案而列举的示例,不作为对本申请实施例的唯一限制。

在迭代执行从多个文本向量表征随机选取预置个数的文本向量表征,获取聚类数目的文本向量子集之后,执行步骤209。

步骤209:根据当前迭代次数、所述聚类数目、所述模糊指数和所述当前迭代次数对应的文本向量子集的初始聚类中心和所述当前迭代次数对应的文本向量子集中的文本向量表征,确定所述当前迭代次数对应的文本向量子集的隶属度值。

在获取聚类数目的文本向量子集之后,可以根据当前迭代次数、聚类数目、模糊指数和当前迭代次数对应的文本向量子集的初始聚类中心和当前迭代次数对应的文本向量子集中的文本向量表征,确定出当前迭代次数对应的文本向量子集的隶属度值,具体地,可以结合下述公式(1)计算得到隶属度矩阵。

上述公式(1)中,μ

在获取每个文本向量子集对应的隶属度值之后,可以根据每个文本向量子集对应的隶属度值和当前迭代次数,计算得到隶属度值。

在确定当前迭代次数对应的文本向量子集的隶属度值之后,执行步骤210。

步骤210:根据各所述隶属度值,计算得到所述隶属度矩阵。

在获取到每个文本向量子集的隶属度值之后,可以结合多个隶属度值计算得到隶属度矩阵。具体地,可以结合各隶属度值形成隶属度矩阵。

在根据各隶属度值计算得到隶属度矩阵之后,执行步骤211。

步骤211:获取多个所述隶属度值中的最大隶属度值和最小隶属度值。

最大隶属度值是指多个隶属度值中的最大值。

最小隶属度值是指多个隶属度值中的最小值。

在获取每个文本向量子集对应的隶属度值之后,可以获取多个隶属度值中的最大隶属度值和最小隶属度值。

在获取多个隶属度值中的最大隶属度值和最小隶属度值之后,执行步骤212。

步骤212:基于所述隶属度矩阵、所述最大隶属度值、所述最小隶属度值和每个所述文本向量子集中的文本向量表征,确定每个所述文本向量子集的上近似集和下近似集。

在获取隶属度矩阵、最大隶属度值、最小隶属度值和每个文本向量子集中的文本向量表征,确定出每个文本向量子集的上近似集和下近似集。具体地,设δ为划分阀值,若u

阀值δ用来衡量样本x

其中,u

在基于隶属度矩阵、最大隶属度值、最小隶属度值和每个文本向量子集中的文本向量表征,确定每个文本向量子集的上近似集和下近似集之后,执行步骤213。

步骤213:基于各所述上近似集和各所述下近似集,计算得到各所述文本向量子集的新聚类中心。

在确定每个文本向量子集的上近似集和下近似集之后,可以基于各上近似集和各下近似集,计算得到各文本向量子集的新聚类中心,具体地,可以结合下述公式(2)计算新的聚类中心。

上述公式(2)中,

在基于各上近似集和各下近似集计算得到各文本向量子集的新聚类中心之后,执行步骤214。

步骤214:根据各所述新聚类中心、各所述下近似集的模糊下近似集紧密度和各所述文本向量子集的边界集对应的模糊边界集紧密度,确定目标函数。

在根据各聚类中心、各下近似集的模数下近似集紧密度和各文本向量子集的边界集对应的模糊边界集紧密度,可以确定出目标函数,具体地,可以结合下述公式(3)计算。

上述公式(3)中,f为目标函数。

上述公式(3)中,分子越小,类簇聚集程度越高,分母越大,类簇的分离程度越大。当f取最小值时,聚类效果最好。

在根据各新聚类中心、各下近似集的模糊下近似集紧密度和各文本向量子集的边界集对应的模糊边界集紧密度,确定目标函数之后,执行步骤215。

步骤215:根据各所述目标函数和多个所述待聚类文本,确定所述文本聚类结果。

在获取各目标函数之后,可以根据各目标函数和多个待聚类文本,确定出文本聚类结果,具体地,可以结合各目标函数计算得到聚类中心,然后,将数据集中每个元素与中心点之间根据最小距离原则,划分到相应的子集中,距离使用余弦相似度公式计算,最后输出每个类别包含的数据集作为最终聚类结果。

本申请在文本向量化的基础上,通过粗糙集上近似、下近似以及边界集表征识的不确定性,聚类时通过子集的上近似和下近似元素计算聚类中心,设置阀值衡量样本的归属特征,使用权重调节因子平衡下近似集与边界集的重要性,距离计算使用余弦相似度,并利用随机梯度下降算法优化目标函数求解,实现了对大规模文本数据的有效聚类。

本申请实施例提供的文本聚类方法,通过获取指定领域的多个待聚类文本,基于预置神经网络模型和多个所述待聚类文本,获取每个待聚类文本对应的文本向量表征,重复从多个文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集,采用随机梯度下降算法对多个文本向量子集进行处理,计算得到每个文本向量子集对应的隶属度矩阵,基于粗糙集理论和各隶属度矩阵,确定每个文本向量子集对应的上近似集和下近似集,基于每个文本向量子集对应的上近似集和下近似集,输出多个待聚类文本对应的文本聚类结果。本申请实施例利用粗糙集对不确定知识的表达能力的计算,并使用随机梯度下降算法求解,提高了聚类方法对大规模复杂数据的处理能力和运行效率。

参照图4,示出了本申请实施例提供的一种文本聚类装置的结构示意图,如图4所示,该文本聚类装置300具体可以包括如下模块:

待聚类文本获取模块310,用于获取指定领域的多个待聚类文本;

文本向量表征获取模块320,用于基于预置神经网络模型和多个所述待聚类文本,获取每个所述待聚类文本对应的文本向量表征;

文本向量子集获取模块330,用于重复从多个所述文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集;

隶属度矩阵计算模块340,用于采用随机梯度下降算法对所述多个文本向量子集进行处理,计算得到隶属度矩阵;

近似集确定模块350,用于基于粗糙集理论和所述隶属度矩阵,确定每个所述文本向量子集对应的上近似集和下近似集;

文本聚类结果输出模块360,用于基于每个所述文本向量子集对应的上近似集和下近似集,输出多个所述待聚类文本对应的文本聚类结果。

可选地,如图5所示,所述待聚类文本获取模块310包括:

文本数据获取单元311,用于获取所述指定领域的文本数据;

待聚类文本获取单元312,用于对所述文本数据进行预处理,获取多个所述待聚类文本。

可选地,如图6所示,所述文本向量表征获取模块320包括:

字词向量获取单元321,用于获取每个所述待聚类文本中的字和词分别对应的字向量和词向量;

向量矩阵确定单元322,用于基于所述字向量和所述词向量,确定每个所述待聚类文本对应的向量矩阵;

文本向量表征获取单元323,用于将各所述向量矩阵输入至预置神经网络模型,得到每个所述待聚类文本的文本向量表征。

可选地,如图7所示,所述文本向量子集获取模块330包括:

聚类数目设置单元331,用于设置聚类数目和模糊指数;

初始聚类中心获取单元332,用于从多个所述文本向量表征选取所述聚类数目的文本向量表征,作为初始聚类中心;

文本向量子集获取单元333,用于迭代执行从多个所述文本向量表征随机选取预置个数的文本向量表征,获取所述聚类数目的文本向量子集。

可选地,如图8所示,所述隶属度矩阵计算模块340包括:

隶属度值确定单元341,用于根据当前迭代次数、所述聚类数目、所述模糊指数和所述当前迭代次数对应的文本向量子集的初始聚类中心和所述当前迭代次数对应的文本向量子集中的文本向量表征,确定所述当前迭代次数对应的文本向量子集的隶属度值;

隶属度矩阵计算单元342,用于根据各所述隶属度值,计算得到所述隶属度矩阵。

可选地,如图9所示,所述近似集确定模块350包括:

隶属度值获取单元351,用于获取多个所述隶属度值中的最大隶属度值阵和最小隶属度值;

近似集确定单元352,用于基于所述隶属度矩阵、所述最大隶属度值、所述最小隶属度值和每个所述文本向量子集中的文本向量表征,确定每个所述文本向量子集的上近似集和下近似集。

可选地,如图10所示,所述文本聚类结果输出模块360包括:

聚类中心计算单元361,用于基于各所述上近似集和各所述下近似集,计算得到各所述文本向量子集的新聚类中心;

目标函数确定单元362,用于根据各所述新聚类中心、各所述下近似集的模糊下近似集紧密度和各所述文本向量子集的边界集对应的模糊边界集紧密度,确定目标函数;

文本聚类结果确定单元363,用于根据各所述目标函数和多个所述待聚类文本,确定所述文本聚类结果。

本申请实施例提供的文本聚类装置,通过获取指定领域的多个待聚类文本,基于预置神经网络模型和多个所述待聚类文本,获取每个待聚类文本对应的文本向量表征,重复从多个文本向量表征中随机选取设定个数的文本向量表征,得到多个文本向量子集,采用随机梯度下降算法对多个文本向量子集进行处理,计算得到每个文本向量子集对应的隶属度矩阵,基于粗糙集理论和各隶属度矩阵,确定每个文本向量子集对应的上近似集和下近似集,基于每个文本向量子集对应的上近似集和下近似集,输出多个待聚类文本对应的文本聚类结果。本申请实施例利用粗糙集对不确定知识的表达能力的计算,并使用随机梯度下降算法求解,提高了聚类方法对大规模复杂数据的处理能力和运行效率。

对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

另外地,本申请实施例还提供了一种电子设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述的文本聚类方法。

本申请实施例还提供了一种计算机可读存储介质,存储有计算机指令,当所述计算机指令由电子设备的处理器执行时,使得电子设备能够执行上述任一项所述的文本聚类方法。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上对本申请所提供的一种文本聚类方法、一种文本聚类装置、一种电子设备和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 文本聚类方法、装置、电子设备及计算机可读存储介质
  • 文本聚类方法、装置、设备及计算机可读存储介质
技术分类

06120112965782