掌桥专利:专业的专利平台
掌桥专利
首页

一种基于改进注意力机制的医学图像分类方法

文献发布时间:2024-04-18 20:01:30


一种基于改进注意力机制的医学图像分类方法

技术领域

本发明涉及人工智能技术领域,具体涉及一种基于改进注意力机制的医学图像分类方法。

背景技术

近年来,以深度学习为中心的计算机视觉技术引起了人们的关注,并逐渐应用于医学领域。其中,肿瘤是判断生命体组织是否正常的重要局部特征,对医学图像中的肿瘤进行分类,可以为医生诊断提供重要依据。

深度学习网络在医学图像处理中取得了巨大进展,涌现了许多新型神经网络,但其应用于脑肿瘤分类相对较少。由于来自不同病理类型的肿瘤可能呈相似外观,导致分类困难。现有的深度卷积神经网络虽然显著提高了模型的分类能力,但也导致模型参数数量急剧增加,难以训练,从而影响结果。此外,用于脑肿瘤分类的方法没有充分利用图像的全局和局部显著特征,以及特征图的通道特性,因此识别准确率有待进一步提高。

获得精准的深度学习模型需要对大规模的病灶样本数据进行特征映射和参数优化调整。然而,随着人工智能的发展,社会对于数据隐私和安全保护的关注度在不断提高,这使得不能将各个医疗机构的图像数据直接收集汇合在一起,形成了各自孤立的数据孤岛。医学图像的一个重要特点是不平衡性。由于受各自属性及地域环境的影响,医院的数据分布差异极大,这给利用这些数据带来了挑战。为了克服数据孤岛和隐私保护的难题,研究人员提出了联邦学习这一框架,其旨在让分散的各参与方在不向其他参与方批露隐私数据的前提下,协作进行机器学习的模型训练,做到“数据不动模型动,数据可用不可见”。这一框架不仅可以保护各参与方的隐私性,还能利用各方的小规模图像数据共同构建一个与自己方单独训练相比更好的模型。

在脑肿瘤图像四分类任务上,已经有一些代表性的研究成果。[Vankdothu,R.,Hameed,M.A.,&Fatima,H.(2022).Abrain tumor identification and classificationusing deep learningbased on CNN-LSTM method.Computers and ElectricalEngineering,101,107960]中VANKDOTHU等人结合了CNN和LSTM,实现了92%的准确率;[Alnowami,M.,Taha,E.,Alsebaeai,S.,Anwar,S.M.,&Alhawsawi,A.(2022).MR imagenormalization dilemma and theaccuracy of brain tumor classificationmodel.Journal of Radiation Research and Applied Sciences,15(3),33-39]中ALNOWAMI等人评估了不同的数据预处理方法对DenseNet性能的影响,实现了96.52%的最优准确率;[Rajeev,S.K.,Rajasekaran,M.P.,Vishnuvarthanan,G.,&Arunprasath,T.(2022).A biologically-inspired hybrid deep learning approach for braintumorclassification from magnetic resonance imaging using improved gaborwavelet transform andElmann-BiLSTM network.Biomedical Signal Processing andControl,78,103949.]中RAJEEV等人先采用改进的Gabor小波变换(improved Gaborwavelet transform,IGWT)提取脑肿瘤特征,再输入混合的Elman双向LSTM(Elmanbidirectional LSTM,EBiLSTM)进行分类,准确率达到了98.4%。这些方法有的需要额外的传统特征提取方法,有的容易出现梯度消失及过拟合问题。

专利公开号为CN104834943A的申请文件公开一种基于深度学习的脑肿瘤分类方法,该技术采用Gabor小波变换,算法复杂度高:提取不同尺度和方向上的Gabor小波纹理特征需要进行大量的计算,因此算法复杂度较高。受图像质量影响大:Gabor小波纹理特征提取方法对图像质量要求较高,对于低质量的图像,特征提取的效果可能较差。

专利公开号为CN104834935A的申请文件公开了一种稳定的脑肿瘤非监督疾病分类学成像方法,该技术容易受到噪声影响:MRSI数据中容易出现噪声,这些噪声会影响NMF和PCA的结果,因此需要对数据进行预处理和降噪处理。空间分布恢复不准确:由于MRSI数据的空间分辨率较低,因此空间分布恢复可能存在误差,尤其是对于组织分布较为复杂的区域。

发明内容

针对现有技术中的上述不足,本发明提供了一种基于改进注意力机制的医学图像分类方法。

为了达到上述发明目的,本发明采用以下技术方案来实现。

本发明提供了一种基于改进注意力机制的医学图像分类方法,包括以下步骤:

S1、获取用于分类的医学图像数据集,并对医学图像数据集进行预处理;

S2、构建基于改进注意力机制的医学图像分类网络模型,利用预处理后的医学图像数据集进行模型训练;基于改进注意力机制的医学图像分类网络模型具体包括:依次连接的特征预提取模块、若干结构相同的添加改进注意力机制的深度特征提取模块和特征输出模块;所述特征提取模块用于对输入的原始图像提取图像特征;所述添加改进注意力机制的深度特征提取模块包括由改进通道注意力机制单元和深度可分离空间注意力机制单元组成的改进注意力机制模块;所述改进通道注意力机制单元对输入特征图采用压缩输入特征映射的空间维度方法计算输入特征图中每个通道的权重,并将计算的通道权重通过乘法逐通道加权到输入特征图上;所述深度可分离空间注意力机制单元对通道加权后的特征图利用特征间的空间关系计算特征图中每个特征点的权重,并将计算的特征权重通过乘法逐通道加权到特征图上;

S3、利用训练后的基于改进注意力机制的医学图像分类网络模型对待分类医学图像进行分类,得到待分类医学图像的分类结果。

进一步地,步骤S1中对图像数据集进行预处理具体包括:

S11、对医学图像数据集中的各个医学图像进行去除噪声、增强对比度、归一化的预处理;

S12、对步骤S11处理后的医学图像数据集进行随机旋转、翻转、缩放的数据增强处理;

S13、将医学图像数据集中所有医学图像调整为统一尺寸,并根据每个医学图像的图像信息对相应的医学图像添加分类标签。

进一步地,所述特征预提取模块具体包括:

依次连接的卷积层、批归一化层、激活层和最大池化层。

进一步地,所述改进通道注意力机制单元具体包括:

最大池化层、平均池化层、通道注意力卷积层和激活层;

所述最大池化层和平均池化层分别对输入特征图进行最大池化和平均池化操作后,经过通道注意力在通道维度上进行卷积操作,最后经过激活层得到输入特征图中每个通道的权重。

改进通道注意力机制单元的计算公式为:

F

F

M

其中,F表示输入特征图,F

进一步地,所述深度可分离空间注意力机制单元具体包括:

最大池化层、平均池化层、深度可分离卷积层和激活层;

所述最大池化层和平均池化层对输入特征图沿着每一个特征点的通道方向依次进行最大池化和平均池化操作并堆叠起来生成一个特征描述符,然后通过深度可分离卷积层聚合空间特征,最后经过激活层得到特征图中每个特征点的权重。

深度可分离空间注意力机制单元的计算公式为:

M

其中,Wconv

进一步地,所述添加改进注意力机制的深度特征提取模块还包括位于改进注意力机制模块前的卷积残差块和位于改进注意力机制模块后的两个残差块。

进一步地,所述特征输出模块具体包括:

依次连接的平均池化层、展开层和全连接层。

进一步地,步骤S2中利用预处理后的医学图像数据集进行模型训练具体包括:

将医学图像数据集分发到多个本地设备上;

对基于改进注意力机制的医学图像分类网络模型进行初始化,并由中心服务器初始化一个全局模型,并将全局模型发送到各个本地设备;

在每个本地设备上,使用本地图像数据对模型进行训练,在训练过程中由本地设备计算模型参数更新;

将每个本地设备计算的模型参数更新发送到中心服务器,由中心服务器采用FedAvg聚合算法将各个模型参数更新进行加权平均,得到全局模型参数更新;

由中心服务器使用全局模型参数更新全局模型,并将更新后的全局模型发送回各个本地设备;

重复进行本地训练、模型聚合和全局模型更新,直到模型收敛或达到预定的训练轮数。

本发明具有以下有益效果:

本发明通过构建基于改进注意力机制的医学图像分类网络模型,能够降低模型的参数数量和计算复杂度,提高模型的计算效率和泛化能力,并且进一步提高网络的性能,使得医学图像的分类准确率与精确度得到了提高,在保持模型性能和泛化能力的前提下,还能提高模型的计算效率。

附图说明

图1为本发明实施例提供的基于改进注意力机制的医学图像分类方法的流程示意图。

图2为添加改进注意力机制的深度特征提取模块网络框架示意图。

图3为改进注意力机制模块原理示意图。

图4为改进通道注意力机制单元原理示意图。

图5为深度可分离空间注意力机制单元原理示意图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

实施例

如图1所示,本发明实施例提供了一种基于改进注意力机制的医学图像分类方法,包括以下步骤S1至S3:

S1、获取用于分类的医学图像数据集,并对医学图像数据集进行预处理;

在本发明的一个可选实施例中,本实施例首先获取用于分类的医学图像数据集,以对后续构建的医学图像分类网络模型进行训练。

本实施例在获取医学图像数据集后,对医学图像数据集进行预处理,具体包括:

S11、对医学图像数据集中的各个医学图像进行去除噪声、增强对比度、归一化的预处理,以提高图像质量;

S12、对步骤S11处理后的医学图像数据集进行随机旋转、翻转、缩放的数据增强处理,以提高进行模型训练时的鲁棒性;

S13、将医学图像数据集中所有医学图像调整为统一尺寸,并根据每个医学图像的图像信息对相应的医学图像添加分类标签。

具体而言,本实施例采用transforms.Resize将图片大小调整为224*224,并将每张图片所在的文件夹名称作为分类标签,本实施例中给出了四种分类类型:第一图像类型、第二图像类型、第三图像类型和第四图像类型,例如第一图像类型代表神经胶质瘤,第二图像类型代表脑膜瘤,第三图像类型代表无肿瘤,第四图像类型代表脑下垂体;对于不同类型的图像分别标记为0(代表第一图像类型),1(代表第二图像类型),2(代表第三图像类型),3(代表第四图像类型)。最后将医学图像数据集划分为训练集、验证集和测试集,并将医学图像及其对应的标签分别存储在不同的文件夹中。

S2、构建基于改进注意力机制的医学图像分类网络模型,利用预处理后的医学图像数据集进行模型训练;

在本发明的一个可选实施例中,本实施例在步骤S2中构建的基于改进注意力机制的医学图像分类网络模型,是在Resnet50的基础上进行的改进,主要在Resnet50的每个块的卷积输出后加上了改进注意力机制模块,并对Resnet50作出了一些调整。

本实施例提供的基于改进注意力机制的医学图像分类网络模型具体包括:

依次连接的特征预提取模块、添加改进注意力机制的第一深度特征提取模块、添加改进注意力机制的第二深度特征提取模块、添加改进注意力机制的第三深度特征提取模块、添加改进注意力机制的第四深度特征提取模块和特征输出模块。

本实施例通过特征预提取模块对输入的原始图像提取图像特征,然后依次通过添加改进注意力机制的第一深度特征提取模块、添加改进注意力机制的第二深度特征提取模块、添加改进注意力机制的第三深度特征提取模块、添加改进注意力机制的第四深度特征提取模块逐步提取特征图像,最后经过特征输出模块进行类别输出,通过在各个深度特征提取模块中添加改进注意力机制模块,能够增强改进注意力机制模块进行图像卷积的特征表示能力,从而提高模型在学习特征表示时的准确性和精细度。

本实施例中特征预提取模块具体包括:

依次连接的卷积层、批归一化层、激活层和最大池化层。

本实施例利用特征预提取模块对输入的原始图像依次进行卷积操作、批归一化操作,然后通过Leaky ReLU激活函数进行激活,最后进行最大池化操作,得到预提取的图像特征。

本实施例通过在卷积操作和批归一化操作后通过Leaky ReLU激活函数进行激活,可以解决梯度消失或者神经元死亡的问题,从而提高模型的性能。

Leaky ReLU激活函数定义为:

f(x)=max(0,x)+min(0.01x,0)

其中max函数表示取两个数中的较大值,min函数表示取两个数中的较小值。当输入x为正数时,f(x)=max(0,x),即返回x本身;当输入x为负数时,f(x)=max(0,x)+min(0.01x,0),即返回一个小于x的负数,其绝对值为0.01倍的x的绝对值。

本实施例中添加改进注意力机制的第一深度特征提取模块、添加改进注意力机制的第二深度特征提取模块、添加改进注意力机制的第三深度特征提取模块、添加改进注意力机制的第四深度特征提取模块结构相同,均具体包括:

依次连接的卷积残差块(CONV BLOCK)、改进注意力机制模块(DSCBAM模块)、两个残差块(Identity BLOCK,ID BLOCK)。

本实施例的卷积残差块(CONV BLOCK)具体包括第一卷积块、第二卷积块、第三卷积块、第四卷积块和激活层,其中第一卷积块、第二卷积块、第三卷积块依次连接,第四卷积块通过跳跃连接输入特征图和第三卷积块的输出特征图,最后连接激活层。第一卷积块和第二卷积块结构相同,均包括卷积层、批归一化层和ReLU激活层,第三卷积块和第四卷积块结构相同,均包括卷积层和批归一化层。

本实施例的残差块(ID BLOCK)具体包括第一卷积块、第二卷积块、第三卷积块和激活层,其中第一卷积块、第二卷积块、第三卷积块依次连接,残差块的输入特征图和第一卷积块输出特征图跳跃连接作为第二卷积块的输入特征图,残差块的输入特征图和第二卷积块的输出特征图跳跃连接作为第三卷积块的输入特征图,残差块的输入特征图和第三卷积块的输入出特征图连接后最后输入激活层。第一卷积块和第二卷积块结构相同,均包括卷积层、批归一化层和ReLU激活层,第三卷积块包括卷积层和批归一化层。

本实施例的改进注意力机制模块具体包括:

改进通道注意力机制单元和深度可分离空间注意力机制单元;

所述改进通道注意力机制单元对输入特征图采用压缩输入特征映射的空间维度方法计算输入特征图中每个通道的权重,并将计算的通道权重通过乘法逐通道加权到输入特征图上;

所述深度可分离空间注意力机制单元对通道加权后的特征图利用特征间的空间关系计算特征图中每个特征点的权重,并将计算的特征权重通过乘法逐通道加权到特征图上。

本实施例的改进通道注意力机制单元具体包括:

最大池化层、平均池化层、通道注意力卷积层和激活层;

所述最大池化层和平均池化层分别对输入特征图进行最大池化和平均池化操作后,经过通道注意力在通道维度上进行卷积操作,最后经过激活层得到输入特征图中每个通道的权重。

为了解决通道注意力机制单元在计算生成通道注意力时,全连接层的计算量巨大的问题,本实施例在并行的最大池化层和平均池化层后,使用一个卷积核大小为1x1的通道注意力卷积层在通道维度上进行卷积操作,实现对每个通道上的特征进行加权求和并输出新的图像特征,从而降低模型的参数数量和计算复杂度。

本实施例的改进通道注意力机制单元的计算公式为:

F

F

M

其中,F表示输入特征图,F

本实施例的深度可分离空间注意力机制单元具体包括:

最大池化层、平均池化层、深度可分离卷积层和激活层;

所述最大池化层和平均池化层对输入特征图沿着每一个特征点的通道方向依次进行最大池化和平均池化操作并堆叠起来生成一个特征描述符,然后通过深度可分离卷积层聚合空间特征,最后经过激活层得到特征图中每个特征点的权重。

本实施例在串行的最大池化层和平均池化层后,采用一个深度可分离卷积层来聚合空间特征,从而提高模型的计算效率和泛化能力。深度可分离卷积包括两个子操作:深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)。深度卷积(Depthwise Convolution)使用与空间注意力模块相同的卷积核大小,即7x7,以保持空间特征聚合的能力。逐点卷积(Pointwise Convolution)使用1x1的卷积核,以将各通道的信息进行整合。

本实施例的深度可分离空间注意力机制单元的计算公式为:

M

其中,Wconv

本实施例的特征输出模块具体包括:

依次连接的平均池化层、展开层和全连接层。

本实施例利用特征输出模块对添加改进注意力机制的第四深度特征提取模块提取的特征图进行平均池化操作后,通过展开层对特征图进行维度展开,最后经过全连接层输出预测类别。

本实施例在步骤S2中利用预处理后的医学图像数据集进行模型训练具体包括:

将医学图像数据集分发到多个本地设备上;

对基于改进注意力机制的医学图像分类网络模型进行初始化,并由中心服务器初始化一个全局模型,并将全局模型发送到各个本地设备;

在每个本地设备上,使用本地图像数据对模型进行训练,在训练过程中由本地设备计算模型参数更新;

将每个本地设备计算的模型参数更新发送到中心服务器,由中心服务器采用FedAvg聚合算法将各个模型参数更新进行加权平均,得到全局模型参数更新;

由中心服务器使用全局模型参数更新全局模型,并将更新后的全局模型发送回各个本地设备;

重复进行本地训练、模型聚合和全局模型更新,直到模型收敛或达到预定的训练轮数。

最后,本实施例利用测试集检验医学图像分类结果,通过准确度,精确度,召回率,F1-score来评价全局模型性能。

在训练结束后,需要对全局模型进行评估,并选择最佳的模型。利用测试集检验图像分类结果,为了全面评价模型性能,通过以下指标来评估,下面公式中的TP、FP、TN、FN分别表示:预测为正、实际为正;预测为正、实际为负;预测为负、实际为负;预测为负、实际为正。

准确性(Accuracy,A)表示样本中预测正确的数目与样本总数的比值,计算公式如下:

精度(Precision,P)表示正确预测为正的样本与全部预测为正的样本比值,计算公式如下:

召回率(Recall,R)又称查全率,表示正确预测为正的样本与所有正样本的比值,计算公式如下:

F1 Score(F1)同时兼顾了分类模型的精度和召回率,可看作是模型精度和召回率的一种加权平均,计算公式如下:

通过上述指标进行模型测试可以发现,本发明能够有效地提高了网络的性能,使得医学图像的分类准确率与精确度得到了提高,在保持模型性能和泛化能力的前提下,还能提高模型的计算效率。

本实施例通过上述训练方式,在不泄露患者隐私的情况下,可以利用多个本地设备进行训练,从而提高训练效率与模型准确度。

S3、利用训练后的基于改进注意力机制的医学图像分类网络模型对待分类医学图像进行分类,得到待分类医学图像的分类结果。

应用例

本发明将所提出的模型在脑肿瘤图像数据集上进行实验,本发明将训练集随机划成10份,分给10个本地客户端。在客户端数目为3情况下进行实验,对比实验效果。

本实验使用的数据集是Brain Tumor MRIDataset,数据集中包含7023张脑肿瘤MRI图片,分为四类,胶质瘤,脑膜瘤,垂体瘤,无肿瘤。其中使用5712张图片进行训练,使用1311张图片进行测试。胶质瘤图片1621张,脑膜瘤图片1645张,垂体瘤图片1757张,无肿瘤2000张。

本实验在linux服务器环境下进行,CPU为Intel(R)Xeon(R)CPU E5-267,实验环境为CUDA版本11.0,Python版本3.6.9,Pytorch1.5.1。

为了显示本发明模型在脑肿瘤分类方面的性能,本发明选用了传统卷积网络VGG16,EfficientNetB0,DenseNet等网络模型与本发明提出的方法在相同的脑肿瘤数据集上进行测试对比,实验结论如表1所示:

表1不同方法在脑肿瘤数据集上的分类准确率

可以从表中看出,本发明提出的基于改进注意力机制的医学图像分类方法相比于传统的卷积神经网络在脑肿瘤分类的准确性上有所提高。

本发明利用多个本地客户端进行训练,提高了训练效率与模型准确度。改进的注意力机制模块有效的降低了模型的参数数量和计算复杂度,提高了模型的计算效率和泛化能力。实验表明,在Brain Tumor MRIDataset上,本发明的新模型相比传统的神经网络VGG16提高了4.8%,DenseNet提高了6.9%,EfficientNetB0提高了6.3%。说明本申请方法对脑肿瘤图像分类性能提升明显。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

技术分类

06120116561146