掌桥专利:专业的专利平台
掌桥专利
首页

基于旋转等变性的图卷积层的球形图像分类与分割方法

文献发布时间:2024-04-18 20:02:18


基于旋转等变性的图卷积层的球形图像分类与分割方法

技术领域

本发明涉及视频通信技术领域,具体地,涉及一种基于旋转等变性的图卷积层的球形图像分类与分割方法。

背景技术

全景相机产生的具有360度全景视角的球面图像能由用户自由调整视角,从而使用户享受到身临其境的感觉。目前全景相机被比较广泛地运用在虚拟现实(VR)和增强现实(AR)中,涉及的应用领域包含无人机,机器人,自动驾驶和地球气候预测等。卷积神经网络(CNN)在欧氏空间中的视觉数据各项任务中取得了令人瞩目的性能,例如图像识别,目标检测,语义分割等。卷积神经网络的成功很大程度上来源于具有权重共享的平移等变特性,能够适应于平面图像、视频的天然数据结构。但是球面图像数据属于非欧空间,直接将卷积神经网络应用于球面图像会面临畸变以及等变性的问题。因此如何将欧氏空间中的卷积神经网络模型推广到非欧氏空间的球面图像中是球面图像数据分析和识别的关键。

鉴于卷积神经网络在欧氏空间数据上的成功经验,设计具有旋转等变性的卷积神经网络是学习球面图像表示的一种有效方式。经过对现有技术的检索发现,目前主要有两种实现旋转等变的卷积神经网络的方式。第一种方式设计各向同性的卷积核直接在球面上进行卷积,例如,Coors等人在《European Conference on ComputerVision 2018,pages518–533》会议上发表的题为“SphereNet:Learning spherical representationsfor detection and classification in omnidirectional images”的文章,该文章提出根据球形图像投影到二维平面的畸变程度改变传统卷积神经网络的卷积核形状,从而一定程度补偿畸变带来的识别性能下降。但是该文章没有保证旋转的等变性,对球面上高纬度的物体识别效果很差,性能不稳定。第二种方式将球面数据映射到SO(3)旋转群中,然后在SO(3)空间中进行卷积,例如,Cohen等人在《6th International Conference on LearningRepresentations,Vancouver,BC,Canada,April 2018.》会议上发表了题为“SphericalCNNs”的文章,该文章通过引入谱域中具有旋转等变性质的球形互相关操作,设计了直接处理球形图像的球形卷积神经网络。但是球形互相关操作执行的每一步都需要进行傅里叶变换,这导致很高的计算复杂度和极大的内存占用。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于旋转等变性的图卷积层的球形图像分类与分割方法。

根据本发明的一个方面,提供一种获取具有旋转等变性的图卷积层的方法,基于球形图,采用注意力机制获取具有旋转等变性的图卷积层。

优选地,设定球形图为G=(V,E,A),其中V是节点的集合,E是边的集合,A是邻接矩阵,A

将欧式空间中的卷积神经网络拓展为球面图上的邻域信息聚合,根据两个节点之间的局部注意力值和全局注意力值计算得到中心节点对于邻域节点的注意力;

将所述注意力作为信息聚合的系数,聚合得到中心节点新的表示:

其中,λ

优选地,所述局部注意力

其中,所述内容相关度为

其中,所述结构相关度为

将所述内容相关度和所述结构相关度分别进行归一化,

将归一化后的内容相关度和结构相关度组合起来,获得局部注意力,

其中,α(·)和β(·)是用于调整特征相关度和结构相关度的转移函数。

优选地,第l层的节点i的全局注意力

其中V

根据本发明的第二个方面,提供一种球形图像分类方法,采用上述方法获得的具有旋转等变性的图卷积层,设计具有旋转不变性的球形图像分类框架用于球面图像分类任务。

优选地,包括:

利用基于注意力机制的图卷积层组成的网络对球形信号进行特征提取,得到若干个具有旋转等变性的球面信号;

对每个所述球面信号的所有节点上的信号值分别进行均值和方差的统计并拼接成为特征向量;

所述特征向量对于旋转具有不变性,用于球面图像分类任务。

根据本发明的第三个方面,提供一种球形图像分割方法,采用上述方法获得的具有旋转等变性的图卷积层,设计具有旋转等变性的球形图像分割框架用于球面图像分割任务。

优选地,包括:

利用基于注意力机制的图卷积层组成的网络对球形信号进行特征提取,得到一系列具有旋转等变性的球面信号;

按照Unet框架对所述球面信号进行上采样以及卷积,得到一个与输入图分辨率相同的输出图;

对所述输出图的每个像素进行分类,得到球形图像的分割结果。

根据本发明的第四个方面,提供一种球形图像分类系统,包括:

图卷积层模块,所述图卷积层模块采用上述的方法获得具有旋转等变性的图卷积层;

分类模块,所述分类模块基于所述图卷积层,设计具有旋转不变性的球形图像分类框架用于球面图像分类任务。

根据本发明的第五个方面,提供一种球形图像分割系统,包括:

图卷积层模块,所述图卷积层模块采用上述的方法获得具有旋转等变性的图卷积层;

分割模块,所述分割模块基于所述图卷积层,设计具有旋转等变性的球形图像分割框架用于球面图像分割任务。

根据本发明的第六个方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的方法,或,运行上述系统。

根据本发明的第七个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的方法,或,运行上述系统。

与现有技术相比,本发明具有如下的有益效果:

本发明实施例中的获取具有旋转等变性的图卷积层的方法,其采用注意力机制得到图卷积层,使得该图卷积层能在图卷积层具有旋转等变的基础上使得卷积核各向异性,能克服现有球面卷积网络为了具有旋转等变性而采用各向同性卷积核的问题,能有效缓解使用各向同性卷积核导致模型表达能力下降的问题。

该卷积层具有旋转等变性的性质,可以广泛应用于视频通信技术领域,且其克服现有技术中存在的计算复杂度和极大的内存的缺陷。

本发明实施例中的基于旋转等变性的图卷积层的球形图像分类方法与分割方法,其各自分别基于注意力机制构建具有旋转等变性质的图卷积层;图像分类方法构造过渡层实现了具有旋转不变性的球形图像分类;图像分割方法基于Unet框架实现了具有旋转等变性的球形图像分割。该球形图像分类方法与分割方法都具有良好的实用性和扩展性,能够对旋转的图像具有很强的特征提取能力和识别能力。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:

图1为本发明一实施例中的获取具有旋转等变性的图卷积层的方法流程图;

图2为本发明一优选实施例中的图卷积层的获取流程图;

图3为本发明一优选实施例中的基于注意力机制的图卷积具体的操作示意图;

图4为本发明一实施例中的一种球形图像分类的流程图;

图5为本发明一优选实施例中的球形图像分类方法的系统框图;

图6为本发明一实施例中的一种球形图像分割的流程图;

图7为本发明一优选实施例中的球形图像分割方法的系统框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。

参见图1,本发明提供一个实施例,一种获取具有旋转等变性的图卷积层的方法,基于球形图,采用注意力机制获取具有旋转等变性的图卷积层。

采用注意力机制得到图卷积层能在图卷积层具有旋转等变的基础上使得卷积核各向异性,能克服现有球面卷积网络为了具有旋转等变性而采用各向同性卷积核的问题,能有效缓解使用各向同性卷积核导致模型表达能力下降的问题。

该卷积层具有旋转等变性的性质,可以广泛应用于视频通信技术领域,且其克服现有技术中存在的计算复杂度和极大的内存的缺陷。

参见图2,在本发明的一个优选实施例中,提供获得图卷积层的优选过程,具体为:

S101,基于测地线二十面体采样方式构建球形图;

S102,基于S101中构建的球形图,采用注意力机制获得具有旋转等变性的图卷积层。

在本发明的一个优选实施例中,实施了S101构建球形图的优选过程,具体为:

S1011,不断细分测地线二十面体的每一个三角形面,并找到每个三角形面的三条边的中心点,将三个中心点两两相连从而形成新的四个三角形;

S1012,发射从球心到新的三角形边的中心点的一条射线,找到射线与球面相交的交点,以该交点替代原测地线二十面体三角形边的中心点与原三角形的顶点相连,且三个新的交点两两相连,形成新的测地线二十面体。交点作为构造的球形图的节点,连边作为构造的球形图的边。

其中新的节点作为构建的球星图的节点,一般的,除了正二十面体的十二个顶点有五个相邻的节点外,球形图的其他每个节点均有六个相邻节点。

在本发明的一个优选实施例中,实施了S102获得图卷积层的优选过程,具体为:

在构造的球形图上,采用注意力机制设计具有旋转等变性的图卷积。

在本实施例中,首先对球形图进行定义。具体的,通过构造的球形图表示球形图像,表示球形图为G=(V,E,A),其中:V是大小为|V|=N的球面图节点的集合,E是球面图节点连边的集合,A是邻接矩阵,A

本实施例中,设计具有旋转等变性的图卷积,是将欧式空间中的卷积神经网络拓展为球面图上的邻域信息聚合,根据两个节点之间的局部注意力值和全局注意力值计算得到中心节点对于邻域节点的注意力,将注意力作为信息聚合的系数聚合得到中心节点新的表示:

其中,λ

旋转不影响各个节点的特征,不影响中心节点聚合邻居节点的方式。因此,本实施例中的图卷积方式不会因为旋转而改变聚合之后的特征,对构造的球形图具有旋转等变的性质。

参见图3,一较佳实施例中,局部注意力

其中,内容相关度的获取过程如下:

对于给定的一个图G=(V,E),其中V是节点的集合,E是边的集合,用

其中W∈R

其中,结构相关度的获取过程如下:

为了提升模型的表达能力,需要扩大感受野,也就是扩大信息聚合的邻域范围。考虑的邻域范围从仅包含直接与中心节点邻接的节点,扩展到所有距离中心节点k跳以内的节点。由于球面采样图上点的分布是几乎规则的,节点之间的距离大致相同,所有邻接节点对之间的结构相关程度大致相同,节点之间的结构相关度只和距离的跳数有关。使用反比函数—得到与跳数成反比的结构相关度:

其中,

一较佳实施例中,将上述实施例中获得内容相关度和结构相关度组合起来,获得局部注意力,具体过程如下:

对内容相关度和结构相关度分别进行归一化,

然后将他们组合起来得到最终的局部注意力

其中,α(·)和β(·)是用于调整特征相关度和结构相关度的转移函数。为了简化运算,定义α(·)=α,β(·)=β,α和β是标量,因此节点i对节点j之间在第l层的局部注意力值是特征相关都和结构相关度的加权平均。

局部注意力根据节点间的特征相关性和结构相关性综合得到中心节点对邻域节点的注意力值。

参见图3,一较佳实施中,全局注意力采用自注意力机制,用输入特征(每一层卷积中节点的输入表示)作为计算注意力的标准。

第l层的节点i的全局注意力

其中V

全局注意力模块可以增大重要节点的注意力值,促进重要节点信息的传播以达到最大程度保留重要信息的目的。

参见图4,基于相同的发明构思,在本发明的另一个实施例中,提供一种球形图像分类方法,包括:

S201,采用上述方法获得的具有旋转等变性的图卷积层;

S202,基于S201中的图卷积层,设计具有旋转不变性的球形图像分类框架用于球面图像分类任务。

参见图5,一较佳实施例中,S202的较佳实施过程,包括:

S2021,利用基于注意力机制的图卷积层和池化层构成的网络对球形信号进行特征提取,得到若干个具有旋转等变性的球面信号;

S2022,对S2021中获得的每个球面信号的所有节点上的信号值分别进行均值和方差的统计并拼接成为特征向量;

S2023,S3022的特征向量对于旋转具有不变性,有利于球形图像的分类。

本实施例构造过渡层实现了具有旋转不变性的球形图像分类;该球形图像分类方法具有良好的实用性和扩展性,能够对旋转的图像具有很强的特征提取能力和识别能力。

参见图6,基于相同的发明构思,在本发明的另一个实施例中,提供一种球形图像分割方法,包括:

S301,采用上述的方法获得的具有旋转等变性的图卷积层;

S302,基于S301中的图卷积层,设计具有旋转等变性的球形图像分割框架用于球面图像分割任务。

参见图7,一较佳实施例中,S302的较佳实施过程,包括:

S3021,利用基于注意力机制的图卷积层和池化层构成的网络对球形信号进行特征提取,得到一系列具有旋转等变性的球面信号;

S3022,按照Unet框架对S3021中的球面信号进行上采样以及卷积,得到一个与输入图分辨率相同的输出图;

S3023,对S2022的输出图的每个像素进行分类,得到球形图像的分割结果。

本实施例基于Unet框架实现了具有旋转等变性的球形图像分割,该球形图像分割方法具有良好的实用性和扩展性,能够对旋转的图像具有很强的特征提取能力和识别能力。

基于相同的发明构思,本发明的其他实施例中,提供一种球形图像分类系统,包括:图卷积层模块和分类模块;图卷积层模块采用上述的方法获得具有旋转等变性的图卷积层;分类模块基于图卷积层,设计具有旋转不变性的球形图像分类框架用于球面图像分类任务。

本发明上述实例中各模块/单元具体可以参照上述实施例中球形图像分类方法对应的步骤的实现技术,在此不再赘述。

基于相同的发明构思,本发明的其他实施例中,提供一种球形图像分割系统,包括:图卷积层模块和分割模块;图卷积层模块采用上述的方法获得具有旋转等变性的图卷积层;分割模块基于图卷积层,设计具有旋转等变性的球形图像分割框架用于球面图像分割任务。

本发明上述实例中各模块/单元具体可以参照上述实施例中球形图像分割方法对应的步骤的实现技术,在此不再赘述。

基于相同的发明构思,本发明的其他实施例中,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行上述的方法,或,运行上述系统。

基于相同的发明构思,本发明的其他实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行上述的方法,或,运行上述系统。

在本发明的其他实施例中,提供一个具体应用实施例。

本实施例中关键参数的设置为:实验数据为S-MNIST,S-CIFAR-10,ModelNet40及2D3DS。其中S-MNIST,S-CIFAR-10,ModelNet40是用于分类任务的数据集,2D3DS是用于分割任务的数据集。S-MNIST及S-CIFAR-10的构造首先将MNIST及CIFAR-10数据集放置于球面的切平面上,然后通过球形投影将图像投影到整个球面上。ModelNet40数据集包括40类3D物体,其有9843个训练样本,2468个测试样本。为了对3D物体进行分类,需要将它投影到球面上,通过从球心发射中心射线,记录射线与3D物体相交点到球心点的距离,及射线的sin和cos值,形成3通道数据,并对3D物体的凸包进行同样的投影以增加另外3通道数据,形成6通道的信号。2D3DS数据集是用于球面图像分割数据集,其中的实体类别共有13类。对所述构图层,构造的球形图为G

整个球形图像分类网络由六个图卷积层,两个图池化层及一个过渡层组成,每三个图卷积层为一组,后接一个图池化层。每层图卷积层有8个注意力头,所有的图卷积层输出都会经过ReLU激活函数。对所有数据集均采用动量优化方法,动量为0.9,批量大小为16,共训练100个epoch。为了防止过拟合,采用了批量归一化的方式,丢弃因子设为0.9,动量衰减率为5e-4。

整个球形图像分割网络由十五个图卷积层,两个图池化层,两个图上采样层组成,每三个图卷积层为一组,在下采样阶段,每三个图卷层为一组,后接一个图池化层,在上采样阶段,一个上采样后接三个图卷积层,最后利用三个图卷积层卷积得到最终的分割输出。每层图卷积层有8个注意力头,所有的图卷积层输出都会经过ReLU激活函数。对所有数据集均采用动量优化方法,动量为0.9,批量大小为16,共训练100个epoch。为了防止过拟合,采用了批量归一化的方式,丢弃因子设为0.9,动量衰减率为5e-4。

本实施例为适应卷积神经网络特性,解决球形图像投影到二维平面的图像畸变问题,提出了基于注意力图卷积神经网络的球形图像分类与分割模型。本实施中的球形图像分类与分割方法对旋转的图像具有很强的特征提取能力和识别能力,具有良好的实用性和扩展性,为球形图像的分析打下了坚实基础。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。上述各优选特征在互不冲突的情况下,可以任意组合使用。

相关技术
  • 基于超像素分割和卷积反卷积网络的SAR图像分类方法
  • 旋转等变的图卷积神经网络的球形图像分类方法及系统
技术分类

06120116582249