掌桥专利:专业的专利平台
掌桥专利
首页

一种基于注意力机制的医学图像分类方法

文献发布时间:2024-04-18 20:01:55


一种基于注意力机制的医学图像分类方法

技术领域

本发明涉及图像处理技术领域,尤其涉及一种基于注意力机制的医学图像分类方法。

背景技术

空间域图像能更直观的被大脑理解,展示图像平面本身,而由空间域图像实施小波变换得到的频域图像,在实现某些图像处理的时候更加简单高效。然而,先将空间域图像转换成了频域图像,而后输入到神经网络中进行学习,这样直接丢弃空间域信息,会损失部分细节信息;此外,所迁移使用的ResNet骨干网络的权重是基于空间域图像训练所得,在基于频域图像进行参数微调时,不能达到最优结果;同时,医学图像分类任务中所处理的图像,如病理切片图和CT图,相较于一般领域的图像具有更高的分辨率,且图像蕴含的正常像素点通常远大于病灶区域像素样本,而大量的正常的冗余区域会带来干扰噪声,从而降低图像分类任务的准确率。

发明内容

鉴于此,本发明的目的在于提供一种基于注意力机制的医学图像分类方法,通过提取强化频域特征和空间域特征,将频域特征和空间域特征进行融合,充分利用多元信息;并考虑到高频纹理信息的重要性,将多个高频分量转为权重加权的相应位置的低频分量中,既未改变需处理的特征维度,同时在低频信息中嵌入纹理信息;同时引入通道注意力权重,自适应选择重要的维度特征,抑制无效信息,从而提升医学图像分类的准确率。

为实现上述发明目的,本发明提供一种基于注意力机制的医学图像分类方法,所述方法包括以下步骤:

S1:基于ResNet-50骨干网络构建的双分支网络架构,所述ResNet-50骨干网络包括五个卷积模块:Conv1、Conv2、Conv3、Conv4、Conv5,双分支网络架构根据ResNet-50骨干网络的五个卷积模块对应将网络划分了五个阶段,即Stage 1至Stage 5,并将Stage 2至Stage 5阶段的双分支网络均分为上下两个分支,其中上分支为原始的ResNet-50骨干网络,下分支每个阶段都构建频域强化模块FDEM;

S2:将给定特征图M∈R

S3:在Stage 1阶段,使用Conv1模块将特征图M∈R

S4:在Stage 2阶段,使用双分支网络上分支的Conv2模块提取输入的特征图M

S5:在Stage 3至Stage 5阶段中重复S4中分别提取和融合空间域和频域信息的操作,并以融合后的新特征图作为下一阶段的输入,直到得到Stage 5的输出特征图M

S6:引入注意力机制,将特征图M

需要说明的是,S1至S5中输出Stage i阶段的特征图M

其中,C

进一步需要说明的是,在S2至S5的Stage i阶段中,所述频域强化模块FDEM提取输入的特征图M

S101:使用一个1x1卷积层将输入特征图F

S102:将升维后的特征输入到多频段信息融合模块MIFM中,将不同频段的频域信息进行融合,得到最终的频域特征图Fre∈R

S103:构建瓶颈块,对频域特征图Fre进行减少语义间隙处理,得到语义特征图S∈R

进一步需要说明的是,S102中多频段信息融合模块MIFM将不同频段的频域信息进行融合的具体步骤为:

S111:将S101中得到的F′按照频率高低不同,通过二维离散小波变换函数将F′分解得到四个频域分量:低低频LL、低高频LH、高低频HL、高高频HH,其中F

S112:将两个高频分量LH与HL进行相加融合,并使用Sigmoid激活函数获取融合后高频分量的特征权重W1;

S113:将生成的特征权重与同尺寸的低频分量逐点相乘,实现对低频信息的加权;

S114:最终得到频域融合模块的输出特征图Out∈R

所述S111至S113的过程可表示为:

F

W1=σ(F

Out=F

其中,DWT表示二维离散小波变换函数,σ表示Sigmoid激活函数。

进一步需要说明的是,S103中构建瓶颈块,对频域特征图Fre进行减少语义间隙处理,得到语义特征图S∈R

S121:使用一个1x1逐点卷积层将通道数压缩至原先通道数的1/8;

S122:使用卷积核大小为3x3、步幅为1的卷积层提取相邻像素点的上下文信息;

S123:使用一个1x1逐点卷积层将通道数恢复至原先通道数,得到语义特征图S∈R

F′=Conv1(F

所述S121至S123的过程可表示为:

Fre=FDEM(F′)

S=Conv1(Conv3(Conv1(Fre)))

其中,Convi表示卷积核大小为i的卷积层操作。

优选地,S6中引入注意力机制,将特征图M

S131:将特征图M

S132:使用两个全连接层为每个频域特征通道生成权重,其中,每个全连接层后面紧跟着ReLu非线性激活函数,用于学习和拟合通道间复杂的相关性;

S133:使用Sigmoid激活函数将每个频域特征权重转为(0,1)范围内的实数,得到每个通道的重要程度的特征权重向量V,并将提取的频域特征与生成的权重向量V相乘,得到最终图像分类的输出结果F

所述S131至S132的计算过程可表示为:

V=σ(FC

F

其中,GAP表示全局平均池化操作,FC指代对应的全连接层,σ代表Sigmoid激活函数。

与现有技术相比,本发明的有益效果是:

1、同时提取频域特征和空间域特征,充分利用多元信息,可提升医学图像分类准确率。

2、进行上、下两分支的特征融合,并在融合的过程中考虑高频纹理信息的重要性,并将多个高频分量转为权重加权的相应位置的低频分量中,在获取多元信息的同时,既未改变需处理的特征维度,同时在低频信息中嵌入纹理信息。

3、引入通道注意力权重,自适应选择重要的维度特征,抑制无效信息,从而提升医学图像分类准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的优选实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于注意力机制的医学图像分类方法整体流程示意图。

图2是本发明实施例提供的频域强化模块FDEM结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所列举实施例只用于解释本发明,并非用于限定本发明的范围。

参照图1,本实施例提供一种基于注意力机制的医学图像分类方法,所述方法包括以下步骤:

S1:基于ResNet-50骨干网络构建的双分支网络架构,所述ResNet-50骨干网络包括五个卷积模块:Conv1、Conv2、Conv3、Conv4、Conv5,双分支网络架构根据ResNet-50骨干网络的五个卷积模块对应将网络划分了五个阶段,即Stage 1至Stage 5,并将Stage 2至Stage 5阶段的双分支网络均分为上下两个分支,其中上分支为原始的ResNet-50骨干网络,下分支每个阶段都构建频域强化模块FDEM;

S2:将给定特征图M∈R

S3:在Stage 1阶段,使用Conv1模块将特征图M∈R

S4:在Stage 2阶段,使用双分支网络上分支的Conv2模块提取输入的特征图M

S5:在Stage 3至Stage 5阶段中重复S4中分别提取和融合空间域和频域信息的操作,并以融合后的新特征图作为下一阶段的输入,直到得到Stage 5的输出特征图M

S6:引入注意力机制,将特征图M

用户将需要分类的医学图像特征图M输入双分支网络中,上、下两个分支分别提取频域特征和空间域特征,将上、下两分支提取处理后的空间域信息、频域信息进行相加融合,以获取多元信息,在构建频域分支时,引入了通道注意力权重,自适应选择重要的维度特征,抑制无效信息,从而提升医学图像分类的准确率。

需要说明的是,S1至S5中输出Stage i阶段的特征图M

其中,C

参照图2,进一步需要说明的是,在S2至S5的Stage i阶段中,所述频域强化模块FDEM提取输入的特征图M

S101:使用一个1x1卷积层将输入特征图F

S102:将升维后的特征输入到多频段信息融合模块MIFM中,将不同频段的频域信息进行融合,得到最终的频域特征图Fre∈R

S103:构建瓶颈块,对频域特征图Fre进行减少语义间隙处理,得到语义特征图S∈R

进一步需要说明的是,S102中多频段信息融合模块MIFM将不同频段的频域信息进行融合的具体步骤为:

S111:将S101中得到的F′按照频率高低不同,通过二维离散小波变换函数将F′分解得到四个频域分量:低低频LL、低高频LH、高低频HL、高高频HH,其中F

S112:将两个高频分量LH与HL进行相加融合,并使用Sigmoid激活函数获取融合后高频分量的特征权重W1;

S113:将生成的特征权重与同尺寸的低频分量逐点相乘,实现对低频信息的加权;

S114:最终得到频域融合模块的输出特征图Out∈R

所述S111至S113的过程可表示为:

F

W1=σ(F

Out=F

其中,DWT表示二维离散小波变换函数,σ表示Sigmoid激活函数。

本实施例将F′分解成四个频域分量,其中LL频域分量保留了大部分的原始图像信息,LH和HL分量分别包含了垂直和水平方向的纹理信息,HH频域分量反映了对角方向的高频边缘轮廓信息,但HH频域分量会引入噪声信息,使得展示的信息较为嘈杂,故优选地,本实施例只采用LL、LH、HL三个频域分量。同时,通过将高频分量LH、HL进行相加融合,并使用Sigmoid激活函数获取融合后的高频分量特征权重W1,并将生成的特征权重与同尺寸的低频分量逐点相乘,实现对低频信息的加权,这即是将高频分量嵌入到对应位置的低频分量的操作。该操作不需要增加特征维度,从而无需过多地增加计算负担,就可实现不同频段间的信息融合。

进一步需要说明的是,由于在ResNet-50骨干网络中,每个阶段的卷积模块都是由多个瓶颈块组成的,因此,为避免上、下两个分支的语义信息抽象程度不同而存在语义间隙,本实施例构造了一个瓶颈块,用来提取语义特征图。

优选地,S103中构建瓶颈块,对频域特征图Fre进行减少语义间隙处理,得到语义特征图S∈R

S121:使用一个1x1逐点卷积层将通道数压缩至原先通道数的1/8;

S122:使用卷积核大小为3x3、步幅为1的卷积层提取相邻像素点的上下文信息;

S123:使用一个1x1逐点卷积层将通道数恢复至原先通道数,得到语义特征图S∈R

所述S121至S123的过程可表示为:

F′=Conv1(F

Fre=FDEM(F′)

S=Conv1(Conv3(Conv1(Fre)))

其中,Convi表示卷积核大小为i的卷积层操作。

优选地,S6中引入注意力机制,将特征图M

S131:将特征图M

S132:使用两个全连接层为每个频域特征通道生成权重,其中,每个全连接层后面紧跟着ReLu非线性激活函数,用于学习和拟合通道间复杂的相关性;

S133:使用Sigmoid激活函数将每个频域特征权重转为(0,1)范围内的实数,得到每个通道的重要程度的特征权重向量V,并将提取的频域特征与生成的权重向量V相乘,得到最终图像分类的输出结果F

所述S131至S132的计算过程可表示为:

V=σ(FC

F

其中,GAP表示全局平均池化操作,FC指代对应的全连接层,σ代表Sigmoid激活函数。

本发明通过提取强化频域特征和空间域特征,将频域特征和空间域特征进行融合,充分利用多元信息;并考虑到高频纹理信息的重要性,将多个高频分量转为权重加权的相应位置的低频分量中,既未改变需处理的特征维度,同时在低频信息中嵌入纹理信息;同时引入通道注意力权重,自适应选择重要的维度特征,抑制无效信息,从而提升医学图像分类的准确率。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种具有收放电脑显示器功能的放置台
  • 一种用于放置滤清器负压检测装置的工作台
  • 一种可调节高度的气缸座生产用放置台
  • 一种吸塑机模具放置吸塑台板
  • 一种沉降式链式珠宝首饰放置台
  • 一种危险废弃物放置台及使用方法
  • 一种危险废弃物放置架
技术分类

06120116574816