掌桥专利:专业的专利平台
掌桥专利
首页

一种应用多注意力机制的医学图像分割方法及系统

文献发布时间:2023-06-19 19:28:50


一种应用多注意力机制的医学图像分割方法及系统

技术领域

本发明涉及医学影像处理技术领域,具体涉及一种应用多注意力机制的医学图像分割方法及系统。

背景技术

图像分割在许多医学图像分析中起着至关重要的作用。它可以去除源图像中不相关的器官和组织,并标记感兴趣的区域,例如特定器官、病变和肿瘤区域。同时,分割后的图像可以为医生提供例如肿瘤或病变的位置、大小和形状,以及器官的解剖和代谢状态等关键信息。在最近的工作中,多模态医学图像分割得到了广泛的研究。例如,使用 MRI 进行脑肿瘤分割和前列腺分割、使用 PET 和 CT 进行肝脏分割和头颈部肿瘤分割、使用 CT 和MR 图像进行腹部多器官分割 (CHAOS) 等。

现有的多模态医学图像分割工作得到很迅猛的发展,有单注意力多模态的图像分割、也有双注意力机制的图像分割。但是它们大多数实际上都只基于一个模态图像做分割,使得图像分割能力还有上升的空间。

发明内容

为解决上述问题,本发明目的在于提供一种应用多注意力机制的医学图像分割方法,该医学图像分割方法选择在两个独立编码器中引入注意力机制,通过对不同模态图像之间跨模态图像特征互补信息的提取,建立了不同模态图像特征的联系,提升了图像分割能力,分割得到的图像更接近真实图像。还公开了一种应用多注意力机制的医学图像分割系统。

本发明通过下述技术方案实现:

一种应用多注意力机制的医学图像分割方法,包括以下步骤

S1、构建网络结构,所述网络结构包括编码器模块、解码器模块,所述编码器模块包括两个独立的编码器,在两个编码器之间设置有跨模态互补特征学习注意力模块CMFL;

S2、将两种互补模态的医学图像分别输入至两个编码器中,由跨模态互补特征学习注意力模块CMFL获取两种模态之间的跨模态图像特征位置响应权重信息,进行跨模态之间的图像特征互补,获得两种跨模态图像互补特征;

S3、将两种跨模态图像互补特征进行特征融合再通过解码器模块解码即可。

跨模态互补特征学习注意力模块CMFL通过计算一个模态的当前位置对另一个模态全局位置的响应权重来获得两种模态互补的重要信息,实现每个编码器提取的单个模态的深度图像特征与另一个模态的深度图像特征相补充。

跨模态互补特征学习注意力模块CMFL可以用以下公式表示:

(1)/>

(2)

(3)

(4)

(5)

(6)

其中

进一步的,S3特征融合过程中,还包括多尺度双重注意力模块即MSDA模块,所述MSDA模块包括位置注意力模块即PAM模块和通道注意力模块即CAM模块,具体过程:将两种跨模态互补特征图像经不同大小卷积核提取多尺度特征后,在通道维度拼接获得拼接特征图像,然后采用并行方式用PAM模块和CAM分别捕获位置特征依赖关系和通道特征依赖关系,最后将PAM和CAM两个模块的输出进行融合。提取和融合多模态医学图像中的互补信息仍然是一项具有挑战性的任务。本发明的这条实施方式是将CMFL和MSDA模块结合在一起,基于编码器-解码器和跳跃连接架构的多重注意力深度融合网络,用于多模态图像分割,不同于现有的多模态医学图像分割工作只对某个位置进行多模态特征融合,本发明在编码器和跳过连接部分进行两次多模态特征融合,在两个独立编码器之间引入注意力机制对不同模态图像特征进行跨模态互补,且在解码前引入双重注意力机制,更加充分提取和利用跨模态的互补信息,更精确的提取和融合多模态图像中最相关的特征,使得图像分割能力进一步得到提升。在此实施方式所反应的是本发明中CMFL和MSDA模块在提升图像分割能力上的协同作用。

S3中的解码过程使用的解码器为残差解码器,残差解码器从最深的 MSDA 模块的输出开始,在使用转置卷积进行上采样之前进行两次卷积,之后的每一次上采样都采用同样的方式,将上采样后的图像特征与对应层级的MSDA模块得到的图像特征经跳跃连接进行拼接,拼接后利用残差块融合高低层图像特征,获得分割的最终特征图像。

以ResNet50作为编码器的特征提取骨架。

如前所述的医学图像分割方法的图像分割系统,包括网络架构,所述网络架构包括编码器模块、解码器模块、融合模块,所述编码器模块包括两个独立的编码器,在两个编码器之间设置有跨模态互补特征学习注意力模块CMFL;两个独立的编码器用于接收互补的两个模态图像,通过CMFL模块获取跨模态之间的图像特征位置响应权重信息,进行跨模态之间的图像特征互补,获得两种跨模态图像互补特征;融合模块用于将两种跨模态图像互补特征融合后输送至解码器模块解码。

融合模块包括多尺度双重注意力模块即MSDA模块,所述MSDA模块包括位置注意力模块即PAM模块和通道注意力模块即CAM模块;所述MSDA模块用于将两种跨模态互补特征图像经不同大小卷积核提取多尺度特征后,在通道维度拼接获得拼接特征图像,然后采用并行方式用PAM模块和CAM分别捕获位置特征依赖关系和通道特征依赖关系,最后将PAM和CAM两个模块的输出进行融合。

本发明与现有技术相比,具有如下的优点和有益效果:

本发明中两个编码器不是完全独立的,而是通过CMFL注意力模块连接起来的,通过该模块,每个编码器提取的单个模态的深度图像特征可以与另一个模态的特征相补充,本发明这种双路径编码器不仅保留了它们自己模态的特定特征,而且还从跨模态中学习互补特征,提升了图像整体分割能力。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:

图1为实施例的网络架构图。

图2为CMFL模块架构图,C、H 和 W 分别表示输入特征图的通道数、高度和宽度;

图3为MSDA 模块架构图;

图4为残差解码器的实现细节图:

图5为前列腺数据集的定性比较结果图:

图6为:BraTS 数据集的定性比较结果。其中图5和图6中的(a) - (e) 分别表示对比例2、对比例1、对比例3、本发明和真实标签获得的结果。

图7所示是PAM(左)和CAM(右)的实现细节图。

实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例

构建网络架构:我们网络基于具有跳跃连接的编码器-解码器架构,包括双编码器-融合模块-解码模块。

本发明所提出网络的架构也可以如图 1 所示,整个网络架构可以分为三个部分:左边的由 CMFL 注意力模块引导的双编码器,中间的由MSDA模块组成的多模态特征融合结构,右边的残差解码器。

为了让编码器有足够的深度来学习医学图像中更深层次的语义信息并获得更好的分割结果,我们使用ResNet50作为编码器的特征提取骨架。此外,我们使用两个编码器并将两种模态的医学图像作为每个编码器的输入,它可以学习每个模态特有的语义特征。同时,两个编码器也不是完全独立的,它们是通过CMFL注意力模块连接起来的。通过该模块,每个编码器提取的单个模态的深度图像特征可以与另一个模态的特征相补充。这种双路径编码器不仅保留了它们自己模态的特定特征,而且还从跨模态中学习互补特征。然后,来自双编码器不同层的富含跨模态互补信息的特征图被发送到MSDA模块进行特征融合。MSDA模块的作用是从双编码器中保留有效特征,去除冗余特征,以获得最有利于提高分割效果的信息。最后,融合后的多模态信息通过残差解码器恢复到原始特征尺度。其中,残差解码器可以最大限度地保留高层语义信息,提高最终的分割效果。下面,我们将详细描述CMFL 模块、MSDA 模块和残差解码器。

跨模态互特征学习(CMFL)注意模块:利用多模态图像之间的互补信息可以显着提高分割精度。通常的做法是只使用单独的编码器从不同的模态中提取各自的语义特征,然后将它们发送到融合模块进行多模态特征融合。然而,由于每个单独的编码器只包含与自己的模态相对应的特定特征,这种融合方法不能很好地利用不同模态之间的互补信息。因此,为了让模型在特征提取阶段获得更多的互补信息,我们提出了一个跨模态互特征学习注意模块,称为CMFL模块。该模型在编码阶段具有更大的感受野,使得当前模态对应的编码器可以注意到另一个模态编码的特征信息。因此,CMFL 模块通过计算当前模态的当前位置对另一个模态的任何位置的响应权重来获得两种模态互补的重要信息。CMFL 模块可以用以下公式表示。

(1)

(2)

(3)

(4)

(5)

(6)

其中

图 2 是 CMFL 模块的架构图。如图所示,单个模态的每个位置是通过对另一个模态的所有位置的特征进行加权来获得的。 将T1、T2模态的输入特征图

这样,编码器不仅关注自身模态的信息,还综合考虑了跨模态的互补信息。 同时,随着编码器深度的加深,提取的互补信息会越来越丰富,从而提高最终的分割性能。

多尺度双注意模块(MSDA):该模块的任务是进一步融合和保留编码器学习到的丰富特征。从以前的工作中,我们知道在医学图像分割任务中,多尺度特征对于提高分割性能很重要。注意机制具有建模长距离依赖关系的天赋,并且可以专注于最有利于分割的两种模态之间的互补信息。因此,我们使用 MSDA 模块来进一步融合多模态特征。MSDA 模块的实现细节如图 3 所示。

在实现中,我们首先用不同大小的卷积核从跨模态特征输出

由于之前的1×1、3×3、5×5等小型卷积核只能提取边界和局部特征,因此不具备对整个特征图的长距离依赖性进行建模的能力。因此,在 MSDA 中引入了 PAM 来对更广泛和更丰富的位置信息进行建模。另一方面,传统的 CAM在通道级别对不同实例(不同类)的特征依赖关系进行建模。对于多模态分割任务,来自多尺度块的通道维度包含来自编码器的多模态特征,CAM可以更好地对这些特征的依赖关系进行建模,从而获得更好的融合结果。

残差解码器:解码器的目的是恢复特征尺度,提取深度信息,得到最终的语义分割图。传统的线性插值、转置卷积等解码方法往往会导致高层语义信息的丢失,从而影响最终的分割效果。为了让解码器在恢复特征尺度的同时最大限度地保留高级语义信息,我们设计了一个残差解码器。残差解码器的实现细节如图 4 所示。解码器从最深的 MSDA 模块的输出开始,在使用转置卷积进行上采样之前进行两次卷积。之后的每一次上采样都采用同样的方式,将上采样后的特征与MSDA部分对应层级的特征进行拼接。如图1所示,解码过程中对应层级的跳跃连接一共有四层,将上采样后的图像特征与每一层级的MSDA模块得到的图像特征经跳跃连接进行拼接,拼接后利用残差块融合高低层特征,同时最大限度保留原始信息,提高最终分割结果。

数据集与预处理:为了将最近方法的分割性能与我们提出的方法进行比较,我们使用标准评估指标,包括平均Dice系数 (DSC)、Jaccard 相似系数 (JC)、灵敏度 (SE) 和特异性 (SP)。这四个指标的取值范围为[0, 1],取值越大,分割结果越好。

我们使用多模态脑肿瘤分割挑战 BraTS 2019数据集和医学图像分割十项全能(MSD) 中的 Task05_Prostate数据集进行对比实验和消融实验。BraTS2019训练数据集包括 259个高级胶质瘤(HGG) 和 76个低级胶质瘤(LGG),由临床医生和放射科医生手动注释,每个病例包含四种模态(T1、T2、flair、T1ce)。MR图像大小均为 (240, 240, 155)。我们只从 BraTS 中随机选择 60个案例作为我们的训练数据集,以避免耗时的问题。同时,我们只选择T1、T2模态进行实验。这是因为两种模态 T1 和 T2 是互补的(T1 提供解剖信息,T2提供病变代谢信息)。此外,我们的分割目标是脑肿瘤的水肿区域,而不是对胶质瘤进行分级,并且没有必要同时使用所有四种模态。另外,Task05_Prostate 训练数据集包含 48 个具有 T2 加权和表观扩散系数 (ADC) 模态的前列腺 MRI。

我们将所有病例的 3D或4D MRI 根据横截面划分为多个切片并转换为 png 格式,同时所有切片的统一大小为 [128, 128]。同时,我们按照 8:1:1的比例划分了训练集、验证集和测试集。我们主要使用不同角度的旋转,水平和垂直镜像,并添加随机椒盐噪声和高斯噪声进行数据增强。除测试集外,数据增强使用相同的操作。

训练细节:实验中,模型训练的软硬件条件如下:Ubuntu20.04 LTS、AMD® Ryzen9 9500x 12核处理器ⅹ24、NVIDIA GeForce RTX 3090和Pytorch1.7.1。训练过程中的最大迭代次数为 300 个 epoch,其中在每个 epoch 之后进行模型验证。 我们将批次大小设置为 16。我们使用Adam 优化器来更新网络权重,初始学习率为

(7)

其中

在这两个数据集中,医学图像中每个扫描切片中对象的比例往往较小。训练期间的大量背景区域可能会使模型陷入局部最优。因此,我们将交叉熵损失和Dice损失结合起来作为总损失函数。这个损失函数主要是用来解决前背景不平衡的问题。 我们的整体损失函数描述如下。

(8)

其中

交叉熵损失函数是图像分割任务最常用的。它通过以下等式计算:

(9)

如公式 (9) 所示。其中

Dice损失是图像分割中常用的损失函数,这是预测样本和实际样本之间重叠量的量度。该度量的范围从0到1,其中Dice分数为1表示完整的重叠。其公式如下:

(10)

其中

实验结果:为了验证所提出方法的有效性,我们选择了几种公开可用的多模态医学图像分割方法进行对比实验。

对比例1为:T. Zhou, et al., Canu, "A multi-modality fusion networkbased on attention mechanism for brain tumor segmentation"。

对比例2为:Y. Zhang, et al., "Modality-aware mutual learning formulti-modal medical image segmentation"。

对比例3为:R. Wang, et al., "Pairwise semantic segmentation viaconjugate fully convolutional network"。

表 1 显示了 Prostate 和 BraTS 测试数据集的对比实验的定量结果。我们使用四个评估指标 DSC、JC、SE 和 SP 在两个数据集上对测试方法进行定量评估。表格每列中的粗体数字代表相应评估指标的最佳结果。从对Prostate数据集的实验定量结果可以看出,我们的方法可以达到 0.946 的最高平均 DSC 分数,比不是基于注意力机制的方法---对比例2高出约 8%。此外,比基于单一注意力机制的方法----对比例3和对比例1高出 2%和 4%。对于度量指标SE,我们的平均分数比对比例2和对比例3 都高约 3%,但与对比例1相比,我们的分数略差(约0.5%)。我们的方法在 JC 和 SP 下也取得了更好的效果。

表 1. 我们对Prostate数据集(左)和 BraTS 数据集(右)的比较实验的定量结果

从 BraTS 数据集的实验定量结果可以看出,我们的方法可以达到 0.898 的平均DSC 分数,比不是基于注意力机制的方法----对比例2高出约4%,比基于单一注意力机制的方法----对比例3和对比例1分别高出4%和5%。同样,对于 SE 指标,我们的平均得分分别比对比例2和对比例3 的得分分别高出约5%和7%。然而,与对比例1 相比,我们的分数略差(0.8%)。我们的方法在 JC 和 SP 下也取得了更好的效果。从以上分析可以发现,对比方法的性能对于不同的多模态数据集并不稳定,但我们的方法仍然适用并取得了令人满意的结果。

图5和图6显示了对比实验的可视化结果。我们将每种方法的分割掩码和真实标签叠加在高分辨率 T2 模态图像上,以直观地比较模型的分割性能。所有分割结果和groundtruth都用绿色掩码标记。可以观察到,对于前列腺数据集(图6),主要困难在于目标体积小,因此容易出现过分割(图6中的(a)和图6中的(b))和欠分割(图6中的(c))。可视化结果表明,我们提出的方法优于所有比较方法。对于 BraTS 数据集(图6),主要困难在于对象的形状不同和对象的大小变化大,因此模型难以准确地分割对象的边界。如图6所示,虽然对比法可以粗略的分割出目标的形状,但边界的分割效果并不理想,在边界处容易误分割(例如矩形框标注的位置)图 6中的框。相比之下,我们的方法可以在两个数据集上获得更接近真实标签的结果。

消融实验结果:为了验证不同组件对分割性能的贡献,我们在不同的设置下进行了消融实验。表 2 显示了我们在Prostate数据集和 BraTS 数据集下的消融实验结果。在本实验中,Dual-ResUNet 使用由 ResUNet50 组成的独立编码器对两种模态的图像进行独立的特征提取。并且在skip connection中,通过通道拼接两种模态的特征图,然后通过1×1卷积对通道进行压缩。 我们将此 Dual-ResUNet 结果作为基线。表 2 中的结果显示了我们提出的 CMFL 和 MSDA 模块的优势。

表2. Prostate数据集(左)和 BraTS 数据集(右)的消融实验结果

CMFL 的贡献:为了研究 CMFL 模块在我们的方法中的重要性,我们在Baseline基础上使用 CMFL 模块进行基于多模态特征提取,同时保持 Baseline 其他部分的网络结构不变。如表2第二行所示,加入CMFL模块后,模型在Prostate数据集和BraTS数据集上的整体分割能力分别达到了91.9%和87.5%。

MSDA的贡献:为了研究MSDA模块在我们方法中的重要性,我们在Baseline基础上将MSDA模块添加到skip connection中用于多模态特征融合,同时保持Baseline其他部分的网络结构不变。如表2第三行所示,加入MSDA模块后,模型在Prostate数据集和BraTS数据集上的整体分割能力分别达到了91.2%和87.0%。

CMFL和MSDA 共同贡献:为了研究这两个模块的联合作用在我们的方法中的重要性,我们将 CMFL 模块和 MSDA 模块都添加到 Baseline中。模型和我们提出的方法之间只差一个残差连接。如表2第四行所示,同时添加两个模块后,模型在Prostate数据集和BraTS数据集上的整体分割能力分别达到了94.3%和88.3%。

从上述实验结构可以看出,CMFL 和 MSDA在本发明中起到了明显的协同作用,它们共同对于本发明的图像特征分割模型的整体分割能力有着明显的协同提升效应。

残差解码器的贡献:从表 2 的第四行和第五行,我们可以看到残差解码器在我们模型中的重要性。尽管在Prostate数据集上,我们方法的分割性能在去除残差解码器后仅下降了0.3%,但残差解码器仍然对 BraTS 数据集的分割精度贡献了1.5%。这是因为 BraTS数据集中分割目标的形状差异很大,分割难度大,有利于残差解码器利用维护高级语义信息的优势。对于前列腺数据集,分割目标的形状相对固定,分割难度较小,残差解码器的作用较小。然而,总的来说,残差解码器的加入有助于提高分割精度。

本发明中,未详细描述的均是现有技术。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

技术分类

06120115928044