掌桥专利:专业的专利平台
掌桥专利
首页

一种基于卷积Transformer的多模态医学图像分割方法

文献发布时间:2024-04-18 19:52:40


一种基于卷积Transformer的多模态医学图像分割方法

技术领域

本发明涉及医学图像分割技术领域,具体涉及一种基于卷积Transformer的多模态医学图像分割方法。

背景技术

医学图像在医生了解患者病因中起着重要的作用,伴随着科学技术的发展,医学图像数量呈指数级增长,由于不同模态的医学图像对于患者的诊断往往起着互补的作用,所以如何有效的利用多模态医学图像是一个重要的问题。

伴随着机器学习和深度学习的发展,计算机辅助诊断在临床医学起着至关重要的作用。通过对医学图形进行分割帮助医生进行辅助诊断也是计算机视觉中常见的任务;通过卷积神经网络提取特征是常用的方法;但是这种卷积只能对局部特征进行提取,感受野十分有限,即使通过不同程度的下采样或者空洞卷积其效果提升并不是特别明显。

Transformer(提高模型精度的方法)的出现解决了卷积感受野的局限,Transformer通过多头自注意力机制来获取全局信息,将图像张量展平计算其中的权值矩阵建立全局的依赖关系通过对于全局的依赖关系进行特征的提取。但是Transformer使得参数计算量十分庞大,对于越大的医学图像往往需要更多的计算资源,这使得在Transformer在医学图形分割中的发展受到了限制,上述问题亟待解决,为此,提出一种基于卷积Transformer的多模态医学图像分割方法。

发明内容

本发明所要解决的技术问题在于:如何在不影响精度的前提下提出能有效降低Transformer运算量的多模态医学图像分割模型,提供了一种基于卷积Transformer的多模态医学图像分割方法,使用双路并行的Dense卷积与Transformer相结合,通过使用卷积自注意力机制代替多头自注意力机制,使得参数运算大大减少,并且通过构建金字塔的特征融合方法,使得卷积的高层次的语义信息和低层次的细节信息相融合,实现了高精度的医学图像分割,进而为医疗诊断提供更为精准的图像依据。

本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:

S1:数据集划分

获取多模态医学图像数据集,随机划分训练集和测试集;

S2:图像预处理

读取到数据集中的原始图像后,对原始图像进行预处理;

S3:构建模型

构建基于卷积Transformer的多模态医学图像分割模型;

S4:模型训练

使用组合损失函数计算模型损失,对步骤S3中构建的模型进行训练,获取最优模型;

S5:图像分割

将待分割图像输入步骤S4得到的最优模型中,输出分割结果。

更进一步地,所述步骤S2包括以下处理过程:

S21:读取到原始图像后,将原始图像进行正则化;

S22:再通过中心裁剪的方式,对图像背景进行裁剪。

更进一步地,在所述步骤S3中,基于卷积Transformer的多模态医学图像分割模型采用U-Net网络的编码器-解码器对称结构,包括编码器、解码器、特征融合模块,其中,编码器、解码器均为五层,每一层均为一个Double Block模块,编码器、解码器的对应层之间跳跃连接,融合模块与解码器中各个Double Block模块分别连接,特征融合模块使用特征金字塔的特征后融合方式。

更进一步地,所述Double Block模块采用双路并行结构,包括稠密卷积模块、ConvTF Block模块,稠密卷积模块和ConvTF Block模块在分别获取进入Double Block模块的张量后,分别进行卷积操作和获取注意力机制权重操作,最后ConvTF Block模块与稠密卷积模块的张量进行拼接再通过一个1×1的卷积进行通道数还原。

更进一步地,所述稠密卷积模块的处理过程如下:

X

X

其中,input为进入稠密卷积模块的张量,X

更进一步地,所述ConvTF Block模块使用5×5、11×11、21×21的不同卷积核大小的卷积操作替换自注意力机制中获取全局权值的操作,具体操作过程如下:

Q=Conv

K=Conv

V=Conv

Attention=Softmax(Q×K)

其中,input为进入ConvTF Block模块的张量,Conv为卷积操作,kernel为卷积核大小,padding为卷积填充长度,Concat表示进行张量拼接操作,Q、K、V分别为查询向量、索引向量、内容向量,Softmax为激活函数。

更进一步地,解码器中每一层均获得一个特征图,特征融合模块先将每一层特征图全部进行上采样到最终输出分割结果尺寸一样,再进行张量拼接,得到一个特征金字塔的形状通过一个1×1的卷积核进行张量还原,最终获得输出分割结果:

F=Conv

其中,F为最终分割结果,F

更进一步地,在所述步骤S4中,损失函数部分使用Dice Loss与Focal Loss的组合损失来约束模型迭代方向,具体实现过程如下:

其中,FP

更进一步地,在所述步骤S5中,还利用测试集中经过预处理的多模态医学图像对步骤S4得到的最优模型进行测试。

本发明相比现有技术具有以下优点:该基于卷积Transformer的多模态医学图像分割方法,通过使用多模态数据,使得医学图像可以得到充分利用;通过使用卷积Transformer模块,与传统基于自注意力机制的Transformer模块相比,卷积Transformer模块获得神经网络在获取全局特征的同时,减少了运算量;使用特征金字塔后融合方式,使得最后的分割结果保留卷积的高层次的语义信息的同时包含低层次的细节信息;通过DiceLoss和Focal Loss共同约束模型迭代方向,解决Dice Loss再反向传播存在不利的影响,使得训练更加稳定。

附图说明

图1是本发明实施例一中基于卷积Transformer的多模态医学图像分割模型的结构示意图;

图2是本发明实施例一中Double Block模块的结构示意图;

图3是本发明实施例一中ConvTF Block模块的结构示意图;

图4是本发明实施例二中基于卷积Transformer的多模态医学图像分割方法的实施过程示意图;

图5是本发明实施例二中的输出结果图。

具体实施方式

下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

实施例一

本实施例提供一种技术方案:一种基于卷积Transformer的多模态医学图像分割方法,包括以下步骤:

一、原始图像预处理

1)读取到原始图像后,将原始图像进行正则化;

2)医学图像背景在整幅图像中比例较大,并且背景对于分割没有任何帮助,由于需要分割的区域在图像中间,通过将数据进行中心化,去除对分割没有影响的黑色背景,使得数据平衡;

3)对于多模态数据,通过将各个模态的切片或者切片合并组合为多通道,最后保存为数组的形式,得到预处理完毕的数据。

二、构建基于卷积Transformer的多模态医学图像分割模型

1)多模态医学图像分割模型采用U-Net网络的编码器-解码器对称结构,如图1所示,其中编码器和解码器为5层,每一层均为一个Double Block模块(双路并行特征提取模块);并且通过跳跃连接使得解码器可以获取更多编码器的特征;最后使用特征金字塔的特征后融合方式,使得最终分割结果拥有很多的特征信息。

2)Double Block模块使用双路并行结构,如图2所示,局部特征提取使用稠密卷积模块,由于稠密卷积模块不需要重新学习多余的特征图,所以与传统卷积网络相比具有更少的参数,稠密卷积模块的具体处理过程如下:

X

X

其中,input为进入稠密卷积模块的张量,X

使用稠密卷积模块将网络的每一个卷积层与之前卷积层相连,实现了特征重复利用,同时一定程度上减少了参数的数量,提升梯度的反向传播,使得特征提取地更全面。

3)ConvTF Block模块(卷积自注意力机制模块)的结构如图3所示,为了避免多头自注意力机制产生的过多的参数计算,ConvTF Block模块使用5×5、11×11、21×21的不同卷积核大小的卷积操作替换自注意力机制中获取全局权值的操作,具体操作过程如下:

Q=Conv

K=Conv

V=Conv

Attention=Softmax(Q×K)

其中,input为进入ConvTF Block模块的张量,Conv为卷积操作,kernel为卷积核大小,padding为卷积填充长度,Concat表示进行张量拼接操作,Q、K、V分别为查询向量、索引向量、内容向量,Softmax为激活函数。

最后ConvTF Block模块与稠密卷积模块的张量进行拼接再通过一个1×1的卷积进行通道数还原。

特征融合模块,解码器每一层都会获得一个特征图,通过首先将每一层特征图全部进行上采样到最终输出结果尺寸一样,再进行张量拼接,得到一个特征金字塔的形状通过一个1×1的卷积核进行张量还原,最终获得输出分割结果:

F=Conv

其中,F为最终分割结果,F

三、通过Dice Loss+Focal Loss的组合损失函数约束模型的迭代方向

损失函数部分使用Dice Loss+Focal Loss的组合损失来约束模型迭代方向,具体实现过程如下:

其中,FP

实施例二

下面主要结合附图和具体实施例对该发明作进一步的说明。

本实施例选取脑部多模态MRI图像来进行分析,选取Flair,T1,T1ce,T2四个模态医学图像来说明本发明实施后的相应结果如图5所示,具体实施步骤如下(见图4):

A.获取多模态医学图像数据集,随机划分训练集和测试集;

B.计算机读取多模态MRI图像的原始图像,首先对数据进行预处理:先对各个模态数据分别进行正则化;再通过中心裁剪的方式,对医学图像背景进行裁剪,减少网络运算量;

C.构建基于卷积Transformer的多模态医学图像分割模型,在原有的U-Net网络的基础上使用Double Block的双路并行结构代替原有卷积模块;同时添加特征金字塔的后融合方式;

D.使用Dice Loss和Focal Loss的组合损失函数计算模型损失,对模型进行训练,获取最优模型;

E.使用A中的测试集对D中的最优模型进行预测,并且使用分割评价指标对最优模型进行评价。

实施上述步骤后,最终输出结果如图5所示,图5中网络预测结果即本最优模型的预测结果。

综上所述,上述实施例的基于卷积Transformer的多模态医学图像分割方法,改进了基于U-Net网络的医学图像分割模型,在传统加入Transformer获取全局特征的基础上使用基于卷积Transformer进行替换,将稠密卷积和卷积Transformer进行结合得到DoubleBlock作为网络的编码器和解码器,并且使用特征金字塔的后融合方式,使得最终分割结果包含高层次的语义信息的同时也包含低层次的细节信息;使用Dice Loss和Focal Loss共同约束模型迭代方向使得模型梯度收敛方向,使得模型收敛效果更好,获得的最终医学图像分割结果更加精确。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 一种基于Transformer和UNet的多模态医学图像分割方法和系统
  • 一种基于交叉融合卷积与可变形注意力Transformer的3D医学图像分割方法
技术分类

06120116333999