掌桥专利:专业的专利平台
掌桥专利
首页

基于类图神经网络的图像分类方法

文献发布时间:2023-06-19 19:30:30



技术领域

本发明涉及图像数据处理技术领域,具体而言,涉及一种基于类图神经网络的图像分类方法。

背景技术

随着深度学习模型、优化算法以及高性能GPU的出现,使得各领域的计算机辅助研究得到了快速发展。在过去几年中,深度学习在各种视觉理解任务上取得了令人印象深刻的成果,如图像分类、对象检测或语义分割。然而,它们的成功在很大程度上依赖于应用基于梯度的优化例程的能力,这些例程的计算成本很高,并且能够访问大量的训练数据集,而这些数据通常很难获取。例如,在图像分类的情况下,每个类需要有数千或数百个可用的训练示例,而优化例程需要数百天的GPU时间。此外,基于深度学习的模型可以识别的课程集在训练后保持不变。如果需要识别新的类,通常需要为每个类收集数百数千个训练示例,并在这些新类上重新训练或微调模型。更糟糕的是,后一个训练阶段将导致模型“忘记”最初训练的类别。相反,人类只能从一个或几个例子中快速学习一个新的视觉概念,并在以后可靠地识别它。快速获取知识的能力被认为与人类大脑中的元学习过程有关,该过程在学习新的视觉概念时利用过去关于世界的经验。更重要的是,人类在学习新的视觉概念时不会忘记过去的视觉概念。用机器模仿这种行为是一个具有挑战性的研究问题,具有许多实际优势,也是这项工作的主题。这方面的研究通常被称为少镜头目标识别。更具体地说,少镜头目标识别方法能够解决学习识别每个类别的训练数据只有少数的问题。为了弥补训练数据的稀缺性,他们采用元学习策略,通过对此类少样本任务的分布进行训练(由训练期间可用的数据集形成),学习如何有效地识别具有少量训练数据的一组类 ) 与测试时遇到的少数任务相似(但不一样)。少镜头学习也与迁移学习相关,因为学习到的元模型通过利用以前通过解决不同的类似任务集获得的知识来解决新任务。有一大类少数快照学习方法,其中包括基于度量学习的方法,这些方法学习测试示例和训练示例之间的距离度量,这些方法通过访问存储该任务训练示例的内存模块来学习将测试示例映射到类标签,学习如何为新类生成模型参数的方法,这些新类可以访问其中少数可用的训练数据,基于梯度下降的方法,学习如何通过少量的梯度下降迭代将模型快速适应给定的少数镜头识别任务,和训练数据幻觉方法,学习如何幻觉一个类的更多示例,允许访问其少量的训练数据。在图形的端到端学习或在图形上训练的神经网络方面已经做了大量工作。这些方法中的大多数要么从图中提取特征,要么学习传播模型,根据边的类型在节点之间传输证据,实现过程复杂。目前GCN在图像的应用通常是将整个图块作为一个节点以构建整个WSI的图结构,因此丢失了微观图片之间的关系特征。

发明内容

本发明在于提供一种基于类图神经网络的图像分类方法,其能够缓解上述问题。

为了缓解上述的问题,本发明采取的技术方案如下:

本发明提供了一种基于类图神经网络的图像分类方法,包括以下步骤:

S1、将图片分割成若干单元图,获取各单元图的图像掩码;

S2、对于每个单元图,利用获得的图像掩码提取单元图像特征;

S3、计算各单元图之间的距离,将距离小于边分配阈值的两个单元图之间均分配一条边;

S4、利用各单元图的单元图像特征形成节点集,利用所有分配的边形成边集,利用节点集和边集构建图结构;

S5、构建图卷积神经网络分类模型;

S6、将图结构的节点特征输入图神经分类网络模型,输出得到图像分类结果。

在本发明的一较佳实施方式中,步骤S2中,单元图像特征为前/背景平均差异、图强度标准偏差、图强度偏度、图强度平均熵、灰度共生矩阵的差异、灰度共生矩阵的同质性、灰度共生矩阵的角二阶矩、偏心率、面积、轴的最大值、轴的最小值、周长、稳定性、方向以及中心坐标中的三种以上的组合。

在本发明的一较佳实施方式中,步骤S3中,边分配阈值为80像素。

在本发明的一较佳实施方式中,步骤S4中,图结构表示为G=(V,E),V 为节点特征矩阵,E 为边集,对于每个节点 j ,其具有 f维的节点特征x

在本发明的一较佳实施方式中,步骤S5中,图卷积神经网络分类模型包括图卷积模块、图池化模块和全连接网络。

在本发明的一较佳实施方式中,图池化模块包括分层池化和全局池化,在每次图卷积之后进行分层池化,在分层池化之后再进行全局池化。

在本发明的一较佳实施方式中,图卷积模块、全局池化模块和分层池化模块均有三级;第一级图卷积模块的输入侧为整个图卷积神经网络分类模型的输入侧;第一级图卷积模块的输出侧连接第一级分层池化模块的输入侧;第一级分层池化模块的输出侧连接第二级图卷积模块的输入侧和第一级全局池化模块的输入侧;第二级图卷积模块的输出侧连接第二级分层池化模块的输入侧;第二级分层池化模块的输出侧连接第三级图卷积模块的输入侧和第二级全局池化模块的输入侧;第三级图卷积模块的输出侧连接第三级分层池化模块的输入侧;第三级分层池化模块的输出侧连接第三级全局池化模块的输入侧;三级全局池化模块的输出侧均连接全连接网络的输入侧,全连接网络的输出侧作为整个图卷积神经网络分类模型的输出侧。

在本发明的一较佳实施方式中,图的节点特征计算公式为:

Z=δ(SAGEConv(V,B)),

其中,V 为节点特征矩阵,B 是邻接矩阵,SAGEConv是GraphSAGE的卷积运算符。

与现有技术相比,本发明的有益效果是:

将图片看做一个一个的更小的图片,每个小图片看做一个节点,并测量这些更微小的节点之间的距离,通过距离衡量是否拥有更相似属性,继而能除了能学习到像素邻域的信息,还能学习到卷积核之外的信息,利用单元图之间的拓扑结构对图片进行几何结构建模,使模型学习到图片本身特征的同时,还学习到单元图之间的关系特征,提出了图卷积神经网络的图像分类方法,通过提取图中小图作为图结构中的节点,把小图之间的关系视为图结构中的边,通过图卷积模块使节点能融合多尺度信息,由于图像中的图片较多,构建出的图结构会存在大量的冗余节点,将分层池化和全局池化结合,最终获得具有代表性的节点特征作为图结构的表达。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1是本发明图像分类方法的流程图;

图2是本发明的分层池化图;

图3是本发明的全局池化示意图;

图4是本发明的图卷积神经网络分类网络结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

请参照图1,本发明提供了一种基于类图神经网络的图像分类方法,其中,所需分类的图片可以是车辆图片,或人像或者其它目标的图片。

图像分类方法包括以下步骤:

1)将图片分割成若干单元图,获取各单元图的图像掩码。

2)对于每个单元图,利用获得的图像掩码提取单元图像特征。

其中,单元图像特征包括图像的形状和外观特征。一般为前/背景平均差异、图强度标准偏差、图强度偏度、图强度平均熵、灰度共生矩阵的差异、灰度共生矩阵的同质性、灰度共生矩阵的角二阶矩、偏心率、面积、轴的最大值、轴的最小值、周长、稳定性、方向以及中心坐标中的三种以上的组合。

3)计算各单元图之间的欧式距离,将距离小于边分配阈值的两个单元图之间均分配一条边。

分配阈值的大小一般根据需要而定,例如图像精度越高,阈值则越小,反之则越大。一般我们设计的边分配阈值为80像素,能够较好表达一般图像中各单元之间的关系,不会出现过于稠密或稀疏的图结构,并将这个数值作为超参数。

在图结构中,将图结构中的边定义为两个单元图之间的相互关系,距离更相近的那些节点我们认为在学习中拥有更相似的属性,这些点就是我们需要学习的卷积核之外的图片信息因此在两个单元图之间的距离固定,则在它们之间分配一条边,此外,为了能够使节点融合到更多邻接节点的信息,本发明将欧式距离小于80像素的两个单元图之间均分配一条边。

4)利用各单元图的单元图像特征形成节点集,利用所有分配的边形成边集,利用节点集和边集构建图结构。

在本发明中,图结构表示为G=(V,E),V 为节点特征矩阵,E 为边集,对于每个节点j ,其具有 f维的节点特征x

5)构建图卷积神经网络分类模型。

在本发明中,图卷积神经网络分类模型包括图卷积模块、图池化模块和全连接网络,见图4所示。为了提高模型的泛化能力,图池化模块包括分层池化和全局池化,在每次图卷积之后进行分层池化,减少一定数量的节点,增加图卷积神经网络分类模型的鲁棒性并能够提取具有一般性的节点特征,图卷积中分层池化如图2所示。可以看出,分层池化引入了额外的训练参数投影向量 p ,节点特征矩阵 X

图结构构建完成后,图像的分类任务(例如车辆检测任务)即可视为对图的分类问题。图卷积神经网络分类模型通过节点迭代聚合学习节点特征的表示,在网络的隐藏层中计算新的节点特征向量,整个图的表示可以通过汇集学习到的所有新节点特征获得。本发明采用具有聚合特征的GraphSAGE图卷积模块,对于一个给定的节点,它将第 k 层的节点v 特征的输出表示为 k-1 层的节点 v 特征与第 k 层节点 v 的所有邻接节点特征聚合的拼接。

其中,

图的节点特征计算公式为:

Z=δ(SAGEConv(V, B)),

其中,V 为节点特征矩阵,B 是邻接矩阵,SAGEConv是GraphSAGE的卷积运算符。

6)将图结构的节点特征输入图神经分类网络模型,输出得到图像分类结果。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120115936605