掌桥专利:专业的专利平台
掌桥专利
首页

一种基于完全监督的局部分析文本数据降维方法

文献发布时间:2023-06-19 18:46:07


一种基于完全监督的局部分析文本数据降维方法

技术领域

本发明涉及文本降维技术领域,尤其涉及一种基于完全监督的局部分析文本数据降维方法。

背景技术

随着计算机网络技术、数据存储技术不断向前发展,大量的信息被收集并存储。如今,各个组织机构、企业、互联网都积累了海量的数据,然而其数据量仍以前所未有的速度增长,计算机对数据处理的压力越发巨大,因此急迫需要对文本进行降维处理,有助于后续计算机的分类、聚类等数据挖掘工作。同事由于文本含有大量的噪声和冗余信息,在一定降维操作中可以消除,能够有效的减小问题的处理规模,从而大大提高分类器速度与精度。因此,关于文本降维的研究,具有一定的理论意义。

目前降维算法在很多领域被广泛应用,这些降维算法主要分为两个部分,一部分为线性降维算法,另外一部分为非线性降维算法。线性方式是假设其内部结构数据符合线性分布规则。在众多线性降维算法中,其中最著名的两个分别是PCA与LDA。尽管线性降维算法很容易被实现,然而线性方式忽略了数据上的非线性结构。

为此,流形学习应运而生,它的基本假设是高维数据样本嵌入低维欧式空间中的光滑流形上。基于该重要的假设,流形学习的方法的目的是将高维数据映射到低维空间上,使得该低维的数据能够反映原高维数据上的结构特征。众多的流形学习算法逐渐被提出来,例如LLE,ISOMAP,LE,LTSA等。这些算法在非线性流形而言,能很好地保持数据特性。然而,这些基于流形的降维算法是无监督的,因此对分类的区分能力较差。此外,流行学习算法难以解决外来的数据问题。

发明内容

本发明提供了一种基于完全监督的局部分析文本数据降维方法,解决了对分类的区分能力较差,且难以解决外来的数据的技术问题。

有鉴于此,本发明提供了一种基于完全监督的局部分析文本数据降维方法,包括以下步骤:

获取文本数据,构建高维数据集;

基于K-近邻法则,找出所述高维数据集中每个高维样本点的最近的k个点,组成最近邻局部;

基于完全监督局部分析算法构建完全监督局部目标函数,求解出局部排列矩阵;

通过所述局部排列矩阵获得全局排列矩阵,对所述完全监督局部目标函数进行简化,得到简化完全监督局部目标函数;

基于完全监督局部投影算法,通过对所述简化完全监督局部目标函数进行特征值分解,获取全局投影矩阵,根据所述全局投影矩阵求解所述高维数据集降维后的低维数据。

优选地,基于K-近邻法则,找出所述高维数据集中每个高维样本点的最近的k个点,组成最近邻局部的步骤具体包括:

设所述高维数据集为X=[x

基于K-近邻法则,依次以所述高维数据集中每个样本点为中心点计算中心点与其它样本点的欧式距离,将所述中心点对应的所有样本点按照欧式距离进行升序排列,取前k个样本点组成相应的最近邻局部,记为

优选地,基于完全监督局部分析算法构建完全监督局部目标函数,求解出局部排列矩阵的步骤具体包括:

基于完全监督局部分析算法构建完全监督局部目标函数为,

式中,c代表最近邻局部有c种类别数据点,N

式中,T表示转置符号,N

式中,N

将q类样本点的位置e

通过完全监督局部目标函数得到局部排列矩阵L

优选地,通过所述局部排列矩阵获得全局排列矩阵,对所述完全监督局部目标函数进行简化,得到简化完全监督局部目标函数的步骤具体包括:根据所述局部排列矩阵通过下式获得全局排列矩阵为,

将局部排列矩阵L

将全局排列矩阵L代入到中继简化完全监督局部目标函数中,得到简化完全监督局部目标函数为,

优选地,基于完全监督局部投影算法,通过对所述简化完全监督局部目标函数进行特征值分解,获取全局投影矩阵,根据所述全局投影矩阵求解所述高维数据集降维后的低维数据的步骤具体包括:

基于完全监督局部投影算法,对所述简化完全监督局部目标函数进行简化,得到投影简化目标函数为,

式中,Y=W

设定W

根据全局投影矩阵W通过Y=W

从以上技术方案可以看出,本发明具有以下优点:

本发明通过K-近邻法则对高位数据集进行分割,形成多个互相交叠的局部,通过探索局部邻域中的不同类别数据的几何信息,再利用完全监督局部分析算法构建完全监督局部目标函数,求解出局部排列矩阵,使得在降维过程中局部内同类数据点尽可能接近,不同类间尽可能分离,能有效学习局部内邻居几何结构,提高系统分类能力,再综合考虑各个局部的几何排列信息运用特征值求解方式获得全局投影矩阵,从而相应可以求解出高维数据集降维后的低维数据,这能有效解决外来样本问题。

附图说明

图1为本发明实施例提供的一种基于完全监督的局部分析文本数据降维方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了便于理解,请参阅图1,本发明提供的一种基于完全监督的局部分析文本数据降维方法,包括以下步骤:

S1、获取文本数据,构建高维数据集;

S2、基于K-近邻法则,找出高维数据集中每个高维样本点的最近的k个点,组成最近邻局部。

其中,通过K-近邻法则对样本点进行分类。

S3、基于完全监督局部分析算法构建完全监督局部目标函数,求解出局部排列矩阵。

需要说明的是,由于将高维数据通过KNN划分为逐个局部,因为是完全监督局部,也即划分样本数据的类别是清楚的,完全监督局部分析算法就是使降维后的数据,不同类的数据尽可能分散,同类样本尽可能接近。

其中,局部排列矩阵是一种重新排列的过程,表示的是从高位到低维间的排列矩阵。

S4、通过局部排列矩阵获得全局排列矩阵,对完全监督局部目标函数进行简化,得到简化完全监督局部目标函数;

S5、基于完全监督局部投影算法,通过对简化完全监督局部目标函数进行特征值分解,获取全局投影矩阵,根据全局投影矩阵求解高维数据集降维后的低维数据。

本发明提供的一种基于完全监督的局部分析文本数据降维方法,通过K-近邻法则对高位数据集进行分割,形成多个互相交叠的局部,通过探索局部邻域中的不同类别数据的几何信息,再利用完全监督局部分析算法构建完全监督局部目标函数,求解出局部排列矩阵,使得在降维过程中局部内同类数据点尽可能接近,不同类间尽可能分离,能有效学习局部内邻居几何结构,提高系统分类能力,再综合考虑各个局部的几何排列信息运用特征值求解方式获得全局投影矩阵,从而相应可以求解出高维数据集降维后的低维数据,这能有效解决外来样本问题。

在一个具体实施例中,步骤S2具体包括:

S201、设高维数据集为X=[x

S202、基于K-近邻法则,依次以高维数据集中每个样本点为中心点计算中心点与其它样本点的欧式距离,将中心点对应的所有样本点按照欧式距离进行升序排列,取前k个样本点组成相应的最近邻局部,记为

在一个具体实施例中,步骤S3具体包括:

S301、基于完全监督局部分析算法构建完全监督局部目标函数为,

其中,上式第一项表示在低维上使目标数据点同类的邻近点尽可能接近,第二项则表示不同类的样本数据之间的距离尽可能大。

式中,c代表最近邻局部有c种类别数据点,N

式中,T表示转置符号,N

式中,N

S302、将q类样本点的位置e

S303、通过完全监督局部目标函数得到局部排列矩阵L

在一个具体实施例中,步骤S4具体包括:

S401、根据局部排列矩阵通过下式获得全局排列矩阵为,

其中,上式是考虑了整体的结构,故对局部排列矩阵进行运算得到全局排列矩阵。

S402、将局部排列矩阵L

S403、将全局排列矩阵L代入到中继简化完全监督局部目标函数中,得到简化完全监督局部目标函数为,

在一个具体实施例中,步骤S5具体包括:

S501、基于完全监督局部投影算法,对所述简化完全监督局部目标函数进行简化,得到投影简化目标函数为,

式中,Y=W

S502、设定W

S503、根据全局投影矩阵W通过Y=W

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120115686028