掌桥专利:专业的专利平台
掌桥专利
首页

三维图像分割方法、系统、存储介质及电子设备

文献发布时间:2023-06-19 10:24:22


三维图像分割方法、系统、存储介质及电子设备

技术领域

本发明涉及三维图像分割领域,具体地说,尤其涉及一种基于自我监 督深度子空间聚类的三维图像分割方法、系统、存储介质及电子设备。

背景技术

图像分割(imagesegmentation)技术是计算机视觉领域的重要研究方 向,是图像语义理解的重要一环。图像分割是指将图像分成若干具有相似 性质区域的过程,从数学角度来看,图像分割是将图像划分成互不相交的 区域的过程。近年来,随着深度学习技术的逐步深入,图像分割技术有了 突飞猛进的发展,该技术相关的场景物体分割、人体前背景分割、人脸人 体Parsing、三维重建等技术已经在无人驾驶、增强现实、安防监控等行业 都得到广泛的应用。

深度学习技术的出现,带动了图像和语音领域的快速发展,相关任务 的精度不断被刷新。根据使用的标注数据情况,深度学习可以分为强监督 学习、弱监督和无监督学习。强监督学习使用大量完整准确的数据训练模 型,弱监督学习则使用标注不够完整和准确的标签数据进行训练;相对的, 无监督学习则不使用标注数据,在训练的过程中,通过自身来产生标注数 据,从而监督指导网络学习。无监督学习不依赖于大量的标注数据,因此 具有很大的应用场景,有很多的学者进行研究,并尝试应用在实际任务中。

图像分割技术发展至今,有许多经典方法,比如基于图论的方法、基 于像素聚类的方法和基于深度语义的方法等,各种方法根据其算法特点, 具有一定的应用场景。

基于图论的方法利用图论邻域的理论和方法,将图像映射为带权无向 图,把像素视为节点,将图像分割问题看作是图的顶点划分问题,利用最 小剪切准则得到图像的最佳分割。此类方法把图像分割问题与图的最小割 (min-cut)问题相关联,通常做法是将待分割的图像映射为带权无向图G= (V,E),其中V={v

基于聚类的方法是使用将机器学习中的聚类方法用于解决图像分割问 题,典型的方法包括k-means、谱聚类、SLIC (SimpleLinearIterativeClustering)等。

其一般步骤是:

1)初始化一个粗糙的聚类;

2)使用迭代的方式将颜色、亮度、纹理等特征相似的像素点聚类到同 一个超像素或者超体素,迭代直至收敛,从而得到最终的图像分割结果。

基于深度语义的分割方法,是利用深度学习的卷积网络模型进行训练, 经过一系列的卷积层、池化层、上采用层和分类层,提取原始图像中的高 层信息,最后进行像素级或体素级的分类,从而实现图像分割。这类方法 是近年来学者们的研究热点,涌现出许多经典的模型,比如FCN (FullConvolutionalNetworks)、DeepLab系列和PSPNet(PyramidScene Parsing Network)等众多的网络模型。

但是在实际使用中发现,现有的图像分割方法存在以下缺点:

1、基于图论的分割方法非常依赖于图像中像素或体素间颜色灰度信息 对比度,当遇到一些颜色灰度差别小的模糊图像时,其处理结果就不够理 想。

2、基于聚类的方法受初始分割结果的影响比较大,第一次粗糙的聚类 结果每次可能不相同,使得后面迭代的结果就会有差别,因此这类方法不 够稳定。

3、基于语义分割的深度学习方法,一般使用的是强监督学习模型,通 过大量的标注数据来训练模型,提取有效特征。然而,现实生活中的图像 处理任务,大量的标注数据的成本较高,限制了其使用场景。

因此急需开发一种克服上述缺陷的基于自我监督深度子空间聚类的三 维图像分割方法、系统、存储介质及电子设备,从而在实际场景中不需要 依赖大量标注数据,通过提取有效的特征,来有效地实现图像分割。

发明内容

针对上述问题,本发明提供一种三维图像分割方法,其中,包括:

超体素结果获得步骤:通过超体素生成算法对三维图像进行初始分割, 获得超体素;

超体素特征矩阵获得步骤:以所述超体素为单位计算所述超体素的特 征后进行聚合获得超体素特征矩阵;

聚类结果获得步骤:根据所述超体素特征矩阵通过自我监督深度子空 间聚类网络模型获得聚类结果;

图像分割步骤:将所述聚类结果映射回所述三维图像后,完成所述三 维图像的图像分割。

上述的三维图像分割方法,其中,所述超体素结果获得步骤中包括: 对所述三维图像使用超体素生产算法进行初始分割,将所述三维图像划分 成一系列的超体素块,以获得目标数量的所述超体素。

上述的三维图像分割方法,其中,所述超体素特征矩阵获得步骤包括:

拼接步骤:将所述超体素中不同类别的特征进行拼接,获得所述超体 素的特征;

聚合步骤:将所有的超体素特征向量聚合在一起,获得所述超体素特 征矩阵。

上述的三维图像分割方法,其中,所述聚类结果获得步骤包括:

训练步骤:对所述自我监督深度子空间聚类网络模型进行训练;

聚类结果输出步骤:根据所述超体素特征矩阵通过训练后的所述自我 监督深度子空间聚类网络模型输出聚类结果。

本发明还提供一种三维图像分割系统,其中,包括:

超体素结果获得单元,通过超体素生成算法对三维图像进行初始分割, 获得超体素;

超体素特征矩阵获得单元,以所述超体素为单位计算所述超体素的特 征后进行聚合获得超体素特征矩阵;

聚类结果获得单元,根据所述超体素特征矩阵通过自我监督深度子空 间聚类网络模型获得聚类结果;

图像分割单元,将所述聚类结果映射回所述三维图像后,完成所述三 维图像的图像分割。

上述的三维图像分割系统,其中,所述超体素结果获得单元对所述三 维图像使用超体素生产算法进行初始分割,将所述三维图像划分成一系列 的超体素块,以获得目标数量的所述超体素。

上述的三维图像分割系统,其中,所述超体素特征矩阵获得单元包括:

拼接模块,将所述超体素中不同类别的特征进行拼接,获得所述超体 素的特征;

聚合模块,将所有的超体素特征向量聚合在一起,获得所述超体素特 征矩阵。

上述的三维图像分割系统,其中,所述聚类结果获得单元包括:

训练模块,对所述自我监督深度子空间聚类网络模型进行训练;

聚类结果输出模块,根据所述超体素特征矩阵通过训练后的所述自我 监督深度子空间聚类网络模型输出聚类结果。

本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储 器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述 计算机程序时实现如上述中任一项所述的三维图像分割方法。

本发明还提供一种存储介质,其上存储有计算机程序,其中,该程序被 处理器执行时实现如上述中任一项所述的三维图像分割方法。

综上所述,本发明相对于现有技术其功效在于:本发明在超体素的基础 上,不使用标注数据的情况下,完成三维图像的自动分割。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从 说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其 他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获 得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地, 下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的三维图像分割方法的流程图;

图2为图1中步骤S2的分步骤流程图;

图3为图1中步骤S3的分步骤流程图;

图4为本发明的三维图像分割方法的应用流程图;

图5为本发明的基于自我监督深度子空间聚类网络的示意图;

图6为本发明的三维图像分割系统的结构示意图;

图7为本发明的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说 明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发 明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件 是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等, 并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以 相同技术用语描述的元件或操作。

关于本文中所使用的方向用语,例如:上、下、左、右、前或后等, 仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本 创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等, 均为开放性的用语,即意指包含但不限于。

关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的 “多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微 变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言, 此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实 施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员 应当了解,前述提及的数值可依实际需求而调整,并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供 本领域技术人员在有关本申请的描述上额外的引导。

以下对本发明使用的相关术语进行解释:

超体素:图像中具有相似颜色、纹理等特征的相邻体素点集合。

深度子空间:原始特征经过神经网络特有的非线性特征变换,获取的 特征所在空间。

自监督学习:在不需要人工标注数据的情况下,数据自己生成标签, 监督模型进行学习训练,并完成特定任务。

本发明旨在发明一种基于自我监督深度子空间聚类的三维图像分割方 法,在不需要标签数据的情况下,以一种无监督学习的方式进行三维图像 分割。

请参照图1-图3,图1为本发明的三维图像分割方法的流程图;图2 为图1中步骤S2的分步骤流程图;图3为图1中步骤S3的分步骤流程图。 如图1所示,本发明的三维图像分割方法,包括:

超体素结果获得步骤S1:通过超体素生成算法对三维图像进行初始分 割,获得超体素;

超体素特征矩阵获得步骤S2:以所述超体素为单位计算所述超体素的 特征后进行聚合获得超体素特征矩阵;

聚类结果获得步骤S3:根据所述超体素特征矩阵通过自我监督深度子 空间聚类网络模型获得聚类结果;

图像分割步骤S4:将所述聚类结果映射回所述三维图像后,完成所述 三维图像的图像分割。

进一步地,所述超体素结果获得步骤S1中包括:对所述三维图像使用 超体素生产算法进行初始分割,将所述三维图像划分成一系列的超体素块, 以获得目标数量的所述超体素。

再进一步地,所述超体素特征矩阵获得步骤S2包括:

拼接步骤:将所述超体素中不同类别的特征进行拼接,获得所述超体 素的特征;

聚合步骤:将所有的超体素特征向量聚合在一起,获得所述超体素特 征矩阵。

更进一步地,所述聚类结果获得步骤S3包括:

训练步骤:对所述自我监督深度子空间聚类网络模型进行训练;

聚类结果输出步骤:根据所述超体素特征矩阵通过训练后的所述自我 监督深度子空间聚类网络模型输出聚类结果。

基于本发明的三维图像分割方法,在超体素的基础上,不使用标注数 据的情况下,完成三维图像的自动分割。

请参照图4-图5,图4为本发明的三维图像分割方法的应用流程图; 图5为本发明的基于自我监督深度子空间聚类网络的示意图。结合图4-图 5以一具体实施例说明本发明的三维图像分割方法的具体工作过程如下。

步骤1:对原始的三维图像使用超体素生成算法进行初始分割,获取超 体素。

具体地说,在本步骤中,对原始三维图像使用超体素生产算法进行初 始分割,将原始三维图像划分成一系列的超体素块,生产目标数量的超体 素。超体素是图像中具有相似颜色、纹理等特征的相邻体素点集。本发明 使用的超体素生产算法是迭代空间模糊聚类算法(IterativeSpatial Fuzzy Clustering,ISFC),该算法在选定的特征和相似度计算方式上,将相似度 高的体素点聚集在一起,作为一个超体素。

步骤2:以超体素为单位,计算其基础特征。

具体地说,在本步骤中,以超体素为单位,计算其中的特征,比如灰 度直方图、局部二值化模式(LocalBinaryPattern,LBP)以及SIFT等特 征。将超体素中不同类别的特征进行拼接,作为超体素的特征。所有的超 体素特征向量聚合在一起,得到超体素特征矩阵。为了减小超体素中异常 体素点对整体的影响,同时保持所有超体素特征的一致性,需要对其进行 归一化预处理。

步骤3:将超体素特征矩阵送入到自我监督深度子空间聚类网络模型进 行训练。

具体地说,在本步骤中,通过自我监督深度子空间聚类网络模型进行 训练,将上一步获取的超体素特征矩阵送入到自我监督深度子空间聚类网 络(Self-SupervisedDeepSubspaceClustering Net,S3CN)模型中进行训 练,在没有标签数据的情况下,将不同类别的超体素进行聚类。

1)S3CN模型由三部分构成,自动编码器(Auto-encode,AE),自表示 层(Self-Expression Layer,SEL)和谱聚类(SpectralClustering,SC), 如图5表示。

2)自动编码器由编码器和解码器构成,编码器由三层全连接层组成, 维度逐渐减少;解码器也由三层全连接层组成,维度逐渐增加,两者成对 称结构。编码器将原始特征进行非线性提取,然后再经过自表示层,进行 线性重组,最后送入到解码器,将特征还原到原始维度。

如图5所示,

其中W

自表示模块是一个N×N的矩阵,N代表每幅三维图像生成的超体素数 量,编码器最后一层的输出结果Z,在自表示层C的作用下,获取通过其他 超体素线性表示后的重构数据CZ。输入数据经过特征提取和自我表示两个 模块,得到三种损失,如公式(4.2)、(4.3)和(4.4)所示。

L

在获取超体素间的自表示系数矩阵C之后,通过公式(2.5)构造亲和 度矩阵A,接着对A使用谱聚类算法,即图2中的谱聚类模块,获取分割结 果Q;上一次的结果Q可以反过来指导下一次亲和度矩阵A的构造,目标损 失函数如公式(2.6)所示:

其中聚类结果Q∈{0,1}

最后,S3CN模型的损失函数如公式(2.7)所示,将四个损失函数求和, 在迭代优化的过程中,逐步提高聚类结果。

L=L

步骤4:将超体素的聚类结果映射回原始三维图像,实现图像分割。

具体地说,在本步骤中,通过步骤3中的网络模型训练,获取聚类结果 Q,将其映射回原始三维图像,同一个超体素内的体素结果相同;从而实现 在不需要标签数据的情况下,完成三维图像的分割。

请参照图6,图6为本发明的三维图像分割系统的结构示意图。如图6 所示,本发明的三维图像分割系统包括:

超体素结果获得单元11,通过超体素生成算法对三维图像进行初始分 割,获得超体素;

超体素特征矩阵获得单元12,以所述超体素为单位计算所述超体素的 特征后进行聚合获得超体素特征矩阵;

聚类结果获得单元13,根据所述超体素特征矩阵通过自我监督深度子 空间聚类网络模型获得聚类结果;

图像分割单元14,将所述聚类结果映射回所述三维图像后,完成所述 三维图像的图像分割。

其中,所述超体素结果获得单元11对所述三维图像使用超体素生产算 法进行初始分割,将所述三维图像划分成一系列的超体素块,以获得目标 数量的所述超体素。

进一步地,所述超体素特征矩阵获得单元12包括:

拼接模块121,将所述超体素中不同类别的特征进行拼接,获得所述超 体素的特征;

聚合模块122,将所有的超体素特征向量聚合在一起,获得所述超体素 特征矩阵。

更进一步地,所述聚类结果获得单元13包括:

训练模块131,对所述自我监督深度子空间聚类网络模型进行训练;

聚类结果输出模块132,根据所述超体素特征矩阵通过训练后的所述自 我监督深度子空间聚类网络模型输出聚类结果。

请参照图7,图7为本发明的电子设备的结构示意图。如图7所示,本 实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理 器81以及存储有计算机程序指令的存储器82。

具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成 电路(Application Specific Integrated Circuit,简称为ASIC),或者 可以被配置成实施本申请实施例的一个或多个集成电路。

其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说 而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、 软盘驱动器、固态驱动器(Solid State Drive,简称为SSD)、闪存、光 盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus,简称为USB) 驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可 包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可 在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性 (Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器 (Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory, 简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM (Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为EPROM)、电可擦除PROM (ElectricallyErasable Programmable Read-Only Memory,简称为 EEPROM)、电可改写ROM(Electrically Alterable Read-Only Memory, 简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合 适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random AccessMemory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储 器(Fast PageMode Dynamic Random Access Memory,简称为FPMDRAM)、 扩展数据输出动态随机存取存储器(Extended Date Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据 文件,以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令,以实 现上述实施例中的任意一种三维图像分割方法。

在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中, 如图7所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互 间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备 之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/ 数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数 据通信。

总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。 总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线 (Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、 局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接 口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工 业标准架构(Extended Industry Standard Architecture,简称为EISA) 总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport, 简称为HT)互连、工业标准架构(Industry Standard Architecture,简 称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count, 简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture, 简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协 会局部(Video ElectronicsStandards Association Local Bus,简称为 VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的 情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了 特定的总线,但本申请考虑任何合适的总线或互连。

另外,结合上述实施例中处理方法,本申请实施例可提供一种计算机 可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令; 该计算机程序指令被处理器执行时实现上述实施例中的任意一种三维图像 分割方法。

综上所述,本发明采用本发明的三维图像分割方法,先生成超体素, 然后通过聚类实现无监督图像分割;同时本发明还采用基于自我监督深度 子空间聚类网络(Self-SupervisedDeepSubspaceClusteringNet,S3CN) 模型,由此本发明在超体素的基础上,不使用标注数据的情况下,完成三 维图像的自动分割。

尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改, 或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 三维图像分割方法、系统、存储介质及电子设备
  • 一种三维图像分割方法、系统及存储介质
技术分类

06120112530899