掌桥专利:专业的专利平台
掌桥专利
首页

一种基于PageRank和互信息的多标签分类器链图像识别方法

文献发布时间:2023-06-19 19:28:50


一种基于PageRank和互信息的多标签分类器链图像识别方法

技术领域

本发明涉及一种基于PageRank和互信息的多标签分类器链图像识别方法,属于数据挖掘中多标签分类技术领域。

背景技术

现实世界中的对象往往是复杂的并且同时具有多个语义,因此,为了解决实际问题,近些年来,多标签分类的需求日益增长,并且已经专门设计并成功使用了许多机器学习技术,包括文本分类、语义图像注释、生物信息学分析以及医疗诊断等诸多领域。

分类器链方法及其变型是利用标签关系方面的一类有效技术,它将标签按照某种次序排成链,然后依次对链上的标签构建分类器。其中,链后面的标签可利用链前面标签所学习到的分类结果。虽然分类器链算法实现简单,但已在很多文献的实验报道中指出,分类器链算法利用标签关系取得了比不用标签关系的方法更好的性能。

发明内容

本发明要解决的技术问题是提供了一种基于PageRank和互信息的多标签分类器链图像识别方法,以用于解决以往的分类器链算法中预测顺序的随机性、忽略特征与标签的依赖的问题,避免标签组合爆炸。

本发明的技术方案是:一种基于PageRank和互信息的多标签分类器链图像识别方法,其首先利用互信息来计算标签与标签之间和标签与特征之间的相关性,然后,将特征类比成网页,用标签的相关关系代替网页的链接关系,最后,借助PageRank算法中按照网页被访问概率给网页排序的思想生成标签训练顺序,生成分类器链,从而对图像进行识别。

具体步骤为:

互联网中的网络节点结构复杂,且相互链接,可以看作一个复杂网络,链接分析通过网页之间的相关性进行排序。而在多标签分类问题中,标签数目巨大,标签与标签之间也存在着一定的相关性,因此也可以视作一个复杂网络模型。本发明将标签与网页进行类比,通过链接分析的思想,来对标签进行排序。

将标签与网页类比,生成标签相似网络,将标签视为网页,网页之间存在链接关系,而标签之间存在相似关系.将标签视为网页,则标签的相似视为网页的链接,网页之间的链接关系被视为标签之间的相关关系,网页的出入链视为标签之间的相似链,每个网页的出入链数量等于标签与其他与之相似的标签之间的相似链数量,将分类器链的标签排序问题,转化为网页排序问题。

Step1:测量不同标签之间的相关性,计算任意两个类别之间的互信息,并将二进制互信息组合成标签集的总体度量。

计算标签之间和标签与特征之间的互信息,存入相关性矩阵MI给出两个标签l

其中,P(l

标签相似度的计算分为两个步骤,分别处理标签之间的相似度计算和标签与特征之间的相似度计算。

Step2:得到标签相似度矩阵之后,根据标签之间的相似关系,构造标签相似网络,从而计算标签重要度,得到标签重要度排序,即可得到标签顺序,从而生成分类器链.

标签的重要度用LabelRank得分衡量,简称为LR值,PM-CC算法通过预设每个标签的LR值为1/N,N为标签总数,然后根据标签之间的链接关系,进行迭代,直到LR值收敛.LR值的范围为0-10,最高为10。当LabelRank低于1或2时,表示这个标签并不重要,当LabelRank大于7时,表示这个标签重要性很高,应当排在分类器链的首部。

LR值的计算公式如下:

其中,S(X)表示与标签X相关的所有标签的集合,n

待LR值计算完成之后,按照LR值大小来排序,得到标签顺序。

Step3:得到标签顺序后,PM-CC首先取出链头的标签,将特征与链头的标签视为单标签分类问题进行训练,再将链头的标签出链作为附加特征训练当前链头的标签,直到链头为空,得到最终的模型,进行分类预测:

对于标签空间y=(y

训练阶段的特征向量为:

x

预测阶段的特征向量为:

其中,

分类器链进行预测时,公式定义为:

从而获得最终的模型,对图像进行识别分类。

本发明的有益效果是:本发明采用互信息的特性,既衡量了标签间的相关程度,又计算了特征与标签之间的相关程度,全面刻画了标签的相关性。另一方面,依据标签相关性,本文利用PageRank算法的思想,计算获得标签的重要度并进行了排序,确定了分类器链中合适的标签顺序。本发明与现有技术相比,主要解决了充分考虑标签相关性,寻求合适标签顺序从而得到更好的图像分类性能。

附图说明

图1是本发明的总流程图;

图2是本发明Yeast数据集中的标签相似网络;

图3是本发明分类器链方法出链过程示意图;

图4是本发明分类器链训练过程图。

具体实施方式

下面结合附图和具体实施方式,对本发明作进一步说明。

实施例1:如图1-4所示,一种基于PageRank和互信息的多标签分类器链图像识别方法,其首先利用互信息来计算标签与标签之间和标签与特征之间的相关性,然后,将特征类比成网页,用标签的相关关系代替网页的链接关系,最后,借助PageRank算法中按照网页被访问概率给网页排序的思想生成标签训练顺序,生成分类器链,从而对图像进行识别。

具体步骤为:

互联网中的网络节点结构复杂,且相互链接,可以看作一个复杂网络,链接分析通过网页之间的相关性进行排序。而在多标签分类问题中,标签数目巨大,标签与标签之间也存在着一定的相关性,因此也可以视作一个复杂网络模型。本发明将标签与网页进行类比,通过链接分析的思想,来对标签进行排序。

将标签与网页类比,生成标签相似网络,将标签视为网页,网页之间存在链接关系,而标签之间存在相似关系.将标签视为网页,则标签的相似视为网页的链接,网页之间的链接关系被视为标签之间的相关关系,网页的出入链视为标签之间的相似链,每个网页的出入链数量等于标签与其他与之相似的标签之间的相似链数量,将分类器链的标签排序问题,转化为网页排序问题。

Step1:测量不同标签之间的相关性,计算任意两个类别之间的互信息,并将二进制互信息组合成标签集的总体度量。

计算标签之间和标签与特征之间的互信息,存入相关性矩阵MI给出两个标签l

其中,P(l

标签相似度的计算分为两个步骤,分别处理标签之间的相似度计算和标签与特征之间的相似度计算。

Step2:得到标签相似度矩阵之后,根据标签之间的相似关系,构造标签相似网络,从而计算标签重要度,得到标签重要度排序,即可得到标签顺序,从而生成分类器链.

标签的重要度用LabelRank得分衡量,简称为LR值,PM-CC算法通过预设每个标签的LR值为1/N,N为标签总数,然后根据标签之间的链接关系,进行迭代,直到LR值收敛.LR值的范围为0-10,最高为10。当LabelRank低于1或2时,表示这个标签并不重要,当LabelRank大于7时,表示这个标签重要性很高,应当排在分类器链的首部。

LR值的计算公式如下:

其中,S(X)表示与标签X相关的所有标签的集合,n

待LR值计算完成之后,按照LR值大小来排序,得到标签顺序。

Step3:得到标签顺序后,PM-CC首先取出链头的标签,将特征与链头的标签视为单标签分类问题进行训练,再将链头的标签出链作为附加特征训练当前链头的标签,直到链头为空,得到最终的模型,进行分类预测:

对于标签空间y=(y

训练阶段的特征向量为:

x

预测阶段的特征向量为:

其中,

分类器链进行预测时,公式定义为:

从而获得最终的模型,对图像进行识别分类。

以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

技术分类

06120115926699