掌桥专利:专业的专利平台
掌桥专利
首页

基于结构重参数化的幽门螺杆菌内镜图像分类方法

文献发布时间:2024-04-18 19:59:31


基于结构重参数化的幽门螺杆菌内镜图像分类方法

技术领域

本发明涉及医学图像处理技术领域,尤其涉及基于结构重参数化的幽门螺杆菌内镜图像分类方法,旨在实现性能与规模均衡的幽门螺杆菌内镜图像分类模型。

背景技术

幽门螺杆菌(Helicobacter Pylori,HP)感染识别的本质是对内镜图像中可疑病变区域的识别,近年来已有相关研究使用卷积神经网络(Convolutional Neural Network,CNN)对是否感染HP的胃部内窥镜图像进行分类,该方法不仅能减少医生的工作量,也能减少某些情况下主观因素带来的假阴性或假阳性。2017年Shichijo等人提出将预训练的GoogLeNet用于胃部内窥镜图像HP感染的诊断,实验结果显示基于CNN的敏感性、特异性、准确率分别为81.9%、83.4%、83.1%,而内窥镜医生的这些值分别为79%、83.2%、82.4%,显然与内窥镜医生手动诊断相比,基于CNN的内镜图像HP感染的诊断有更高的准确率。2018年Nakashima等人提出使用GoogLeNet分别对白光成像(WLI)、蓝光成像(BLI)、关联彩色成像(CLI)三种不同内镜图像的HP感染进行识别,结果显示BLI和CLI的效果明显好于WLI。同年Itoh等人提出使用GoogLeNet对上消化道内窥镜图像HP感染识别,结果显示敏感性和特异性分别为86.7%和86.7%,AUC为0.956,进一步证明CNN辅助诊断HP感染是可行的。2019年Shichijo等人使用包括根除HP后患者数据在内的近10万张图像作为训练集,使用GoogLeNet进行学习,研究结果表明该方法可以引入临床实践,并有可能显著减少内窥镜医生的工作量。同样为检验CNN使用内镜图像评估HP感染的准确性,Zheng等人提出使用预训练的ResNet50进行迁移学习,并根据单个胃部图像、不同胃部图像、同一患者的多个胃部图像构建了三个不同的模型,实验结果表明了该方法的有效性。Mohan等人综合分析了已有的各种基于深度学习的HP内镜图像分类方法,结果显示基于CNN方法的准确性、敏感度、特异性分别为87.1%,86.3%和87.1%,而内窥镜医生的表现分别为83%、80%和84%,两者的表现相当。

然而医用的诊断设备却没有计算机强大的计算能力与存储能力,若要实现内窥镜图像的分类只能连接云端或后期接入计算机进行识别,这会给医生与病人带来不好的体验。在医学内窥镜系统中部署幽门螺杆菌感染识别的卷积神经网络模型,首先要面临的问题是卷积神经网络中巨大的参数量与计算量,而一般的医学内窥镜系统是一个计算与存储资源有限的设备。因此,设计一种适用于胃部内窥镜图像幽门螺杆菌感染识别的卷积神经网络模型具有重要的意义。

发明内容

本发明的目的是提出一种基于结构重参数化方法(Structural Re-parameterization)的幽门螺杆菌内镜图像分类方法。该方法针对现有的ResNet18和MobileNetV3,提出了两种基于结构重参数化方法的轻量化模型:RepResNet18和RepMobileNetV3,用于幽门螺杆菌内镜图像分类。RepResNet18和RepMobileNetV3在实现了幽门螺杆菌内镜图像分类的同时,有效平衡了模型的性能、参数量与计算量,提高了幽门螺杆菌内镜图像分类的准确率和AUC。

本发明是通过以下技术方案实现的。

本发明所述的一种基于结构重参数化的幽门螺杆菌内镜图像分类方法,包括以下步骤:

步骤1、构建数据集:将采集到的胃部内窥镜图像数据集进行预处理,如去掉图像周围的黑边和数据增强,以使模型更好的提取图像中的病变特征,所述的数据增强包括镜像翻转、旋转和对比度增强。

步骤2、针对ResNet18中的残差模块Res,构建改进的基于结构重参数化与深度可分卷积的残差模块RepRes;

针对MobileNetV3中的瓶颈模块Bneck,构建改进的基于结构重参数化与深度可分卷积的瓶颈模块RepBneck。

步骤3、用改进的残差模块RepRes、瓶颈模块RepBneck,构建改进的基于结构重参数化的轻量化网络RepResNet18和RepMobileNetV3,并在胃部内窥镜图像数据集上进行训练。

步骤4、在胃部内窥镜图像数据集上,使用提出的RepResNet18和RepMobileNetV3进行训练,并将输出类别设置为两类,具体为幽门螺杆菌感染阳性和阴性。

步骤5、利用结构重参数化方法将训练好的RepResNet18和RepMobileNetV3中新增分支与主分支融合,并将其用于幽门螺杆菌内镜图像分类的推理或部署。

进一步地,本发明步骤3所述的基于结构重参数化的轻量化网络RepResNet18和RepMobileNetV3分别由残差模块RepRes和瓶颈模块RepBneck堆叠而成。

首先,为了进一步减少ResNet18网络的参数量,使用深度可分卷积代替原来网络中的3×3普通卷积。为了加强3×3深度卷积特征提取的能力,向该卷积层加入大小为1×1的深度卷积分支和恒等映射分支,再将三者的结果相加,并输入到ReLU激活函数中。对于1×1卷积,也额外引入了恒等映射分支,再将两者相加并通过ReLU激活函数。改进后的残差模块,既可以加强前向传播时的特征复用,也能减少反向传播时的梯度消失等问题。RepResNet18的残差模块中每个卷积层后都有BN层,包括跨单层的恒等映射分支,用于加速网络收敛。

RepResNet18网络的整体结构和原始的ResNet18结构基本相同,不同的是将每个3×3的普通卷积均替换为深度可分卷积,且深度可分卷积的各个卷积层均引入了额外的恒等映射分支和1×1的深度卷积分支。在RepResNet18网络完成训练后,应用结构重参数化方法,可以将每个含多分支的卷积层融合为一个3×3深度卷积或1×1卷积,最后的模型可用于推理部署。RepResNet18网络的优势在于,在训练时利用多分支模型的特征提取优势进行特征提取,在模型完成训练后可以将多分支结构等效转换为单路结构,不仅减少了参数量,也加快了推理速度。

RepMobileNetV3的瓶颈结构与MobileNetV3的瓶颈结构不同,同样为了进一步提升MobileNetV3模型的特征提取能力,为瓶颈结构中的3×3深度卷积引入了大小为1×1的深度卷积分支和恒等映射分支,再将三者的结果相加,并输入到ReLU激活函数和挤压激励模块,最后的输出为其与最初输入到瓶颈模块特征图的和。值得注意的是,RepMobileNetV3网络并未使用原模型中的h-swish激活函数,而是使用了ReLU激活函数,这是由于该激活函数具有计算量小、不会出现梯度消失等优点。为进一步减少模型的参数量,将原始网络中5×5的深度卷积替换为3×3的深度卷积,同时为了保证其性能,加入了额外的大小为3×3的深度卷积,即将大小为5×5的深度卷积替换为并行的两个3×3的深度卷积。模型训练完成后,分别对每个模块应用结构重参数化方法,将多分支的卷积层融合为一个卷积层。RepMobileNetV3网络在训练完成后,对其应用结构重参数化方法,融合每个RepBneck中的多分支结构为单路结构,最后整个模型的结构与初始的MobileNetV3网络基本相同。

进一步地,本发明步骤5所述的利用结构重参数化方法将训练好的RepResNet18和RepMobileNetV3中新增分支与主分支融合,主要包括卷积层与BN层的融合,3×3卷积分支与1×1卷积分支的融合,3×3卷积分支与恒等映射分支的融合。

假设输入为x,卷积层的权重矩阵用W表示,不考虑卷积层的偏置项,卷积层的公式可表示为:

Conv(x)=W(x) (1)

BN层的公式为:

其中γ和β是可学习的伸缩因子,μ是输入数据的均值,σ

BN(Conv(x))=W

所以,卷积层与BN层融合后相当于一个带偏置项的卷积层。

为使1×1卷积与3×3卷积获得相等大小的特征图,需在3×3卷积处设置Padding=1,且卷积的步长均为1。观察3×3卷积中间的元素,即图中黑色的元素,发现其卷积的路径与1×1卷积的路径相同。于是,只要将1×1卷积的权重与3×3卷积中间元素的权重相加,即可实现两者的融合。

为了将3×3卷积与恒等映射分支融合,需要先用一个卷积层来表示恒等映射。假设输入特征图的大小为3×3,通道数为2,为了以卷积的方式得到原始特征图,可以定义两个大小为1×1的卷积核,并将每个通道对应的权重置为1,其它通道置为0,于是就可以用固定权重的1×1卷积来表示恒等映射分支了,再以同样的方式将其转化为3×3卷积,最后实现了所有分支的融合。

本发明的基于结构重参数化的幽门螺杆菌内镜图像分类方法,与现有技术相比,具有以下技术创新:

1、使用裁剪、镜像翻转、旋转和对比度增强等方法,预处理采集到的胃部内窥镜图像数据集,提高了幽门螺杆菌内镜图像分类的准确率和AUC;

2、针对现有的ResNet18和MobileNetV3,提出了两种基于结构重参数化的轻量化模型:RepResNet18和RepMobileNetV3,用于幽门螺杆菌内镜图像分类。在提出的RepResNet18和RepMobileNetV3中,主要使用深度可分卷积提取特征,有效的降低了模型参数量,并为其引入了额外的1×1深度卷积分支和恒等映射分支,强化了模型特征提取能力。

3、针对训练后的RepResNet18和RepMobileNetV3,利用结构重参数化方法,将新增分支中的参数与主分支融合,进一步降低了模型参数量。

附图说明

图1为本发明提出的使用重参数化方法前后RepResNet18的残差模块示意图。其中,(a)训练时的基本结构,(b)推理或部署时的基本结构。

图2为本发明提出的使用重参数化方法前后RepMobileNetV3的瓶颈模块示意图。

其中,(a)训练时的基本结构,(b)推理或部署时的基本结构。

图3为本发明中1×1卷积与3×3卷积融合示意图。

图4为本发明中使用1×1卷积获得原始特征示意图。

图5为本发明使用的内窥镜下部分HP阳性图片。

图6为本发明所述的实施例中不同模型的混淆矩阵。

图7为本发明所述的实施例中不同模型的ROC曲线。x轴(False Positive Rate)假阳性率,y轴(True Positive Rate)真阳性率,Receiver Operating Characteristic(ROC)接收者操作特征曲线。

图8为本发明提出的RepResNet18和RepMobileNetV3与改进前模型在HP阳性图片的可视化结果对比。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本实施例所使用的数据集为内窥镜下的胃部图像数据集,由本发明人所在课题组进行收集和整理。数据集全部来源于从2020年至2021年在南昌大学第一附属医院经过内镜检查的953位患者的数据,其中阳性患者403人,阴性患者555人。该数据集所属的所有患者都经过活检,对于活检结果为幽门螺杆菌感染阳性的患者,其内窥镜下的胃部图像均标注为阳性,反之,标注为阴性。

根据京都胃炎分类标准,胃镜下支持Hp感染的胃黏膜形态改变包括:弥漫性发红、黏膜肿胀、点状发红、白色混浊黏液、鸡皮样、皱襞肿大蛇行、增生性息肉、肠上皮化生、黄色瘤、萎缩。胃镜下不支持Hp感染的胃黏膜形态表现包括:胃体下部和胃角可见集合细静脉的规则排列(RAC)、陈旧性出血斑、多发白色扁平隆起、胃底腺息肉、脊状发红、隆起性糜烂。

采集到的数据集的整体图像分辨率较大,且包含很多与胃部无关的信息,如图像拍摄时间、设备配置信息。所以,需要将图像中的无关信息消除,并将图像分辨率调整至适合输入到卷积神经网络中的尺寸。所以,本发明使用相关的图像处理工具对整个图像按行和列扫描,当扫描到的行或者列的大部分像素的灰度值为0时,将其确定为裁剪边界,最后将图像缩放到较小的分辨率。

由于采集到的原始数据由不同设备拍摄,造成胃部图像呈现的轮廓也有所不同,所以最后将裁剪后的图片缩放到一致的分辨率。除了图中黑色区域的无关信息,采集到的数据集仍存在一些问题,如某些图像拍摄模糊或存在较大区域的反光等问题,所以需要将这些可能会干扰分类结果的数据去除,最后得到阳性数据2637张,阴性数据4002张。剔除干扰数据后,数据集的数量变得更少了,且存在类别不均衡问题,即阴性数据与阳性数据的数量不一致,所以需要对该数据集进行数据增强。本发明所使用的数据增强方式包括镜像翻转、旋转和对比度增强。

本实施例的实验环境为Windows操作系统,AMD Ryzen 9 5900XCPU,显卡为NVIDIAGeForce RTX 3090,代码使用Python语言实现,使用Pytorch深度学习框架进行训练和测试,开发环境为PyCharm。为了解决胃部内窥镜图像预处理后存在的样本不均衡问题,本发明随机从经过数据增强后的阳性数据和阴性数据中各选择10000张,组成最后的训练集和测试集。在实验时,将训练集和测试集的比例划分为4:1,即训练集16000张,测试集4000张。在模型训练时,batch_size设置为128,epochs设置为150,使用Adam优化器更新网络的参数,初始学习率为0.001,并使用余弦退火算法调整学习率。在实际训练时,将输入图像随机裁剪为224×224的大小,作为网络的输入。

步骤1、构建数据集:将采集到的胃部内窥镜图像数据集进行预处理,如去掉图像周围的黑边和数据增强,以使模型更好的提取图像中的病变特征。

步骤2、针对ResNet18,构建改进的基于结构重参数化与深度可分卷积的残差模块RepRes;针对MobileNetV3,构建改进的基于结构重参数化与深度可分卷积的瓶颈模块RepBneck。

步骤3、构建改进的基于结构重参数化的轻量化网络RepResNet18和RepMobileNetV3,并在胃部内窥镜图像数据集上进行训练。

步骤4、在胃部内窥镜图像数据集上,使用提出的RepResNet18和RepMobileNetV3进行训练,并将输出类别设置为两类,具体为幽门螺杆菌感染阳性和阴性。

步骤5、利用结构重参数化方法将训练好的RepResNet18和RepMobileNetV3中新增分支与主分支融合,并将其用于幽门螺杆菌内镜图像分类的推理或部署。

步骤3所述的基于结构重参数化的轻量化网络RepResNet18和RepMobileNetV3分别由残差模块RepRes和瓶颈模块RepBneck堆叠而成。

首先,为了进一步减少ResNet18网络的参数量,使用深度可分卷积代替原来网络中的3×3普通卷积。为了加强3×3深度卷积特征提取的能力,向该卷积层加入大小为1×1的深度卷积分支和恒等映射分支,再将三者的结果相加,并输入到ReLU激活函数中。对于1×1卷积,也额外引入了恒等映射分支,再将两者相加并通过ReLU激活函数。改进后的残差模块,既可以加强前向传播时的特征复用,也能减少反向传播时的梯度消失等问题。RepResNet18的残差模块中每个卷积层后都有BN层,包括跨单层的恒等映射分支,用于加速网络收敛。

RepResNet18网络的整体结构和原始的ResNet18结构基本相同,不同的是将每个3×3的普通卷积均替换为深度可分卷积,且深度可分卷积的各个卷积层均引入了额外的恒等映射分支或1×1的深度卷积分支。在RepResNet18网络完成训练后,应用结构重参数化方法,可以将每个含多分支的卷积层融合为一个3×3深度卷积或1×1卷积,最后的模型可用于推理部署。RepResNet18网络的优势在于,在训练时利用多分支模型的特征提取优势进行特征提取,在模型完成训练后可以将多分支结构等效转换为单路结构,不仅减少了参数量,也加快了推理速度。

RepMobileNetV3的瓶颈结构与MobileNetV3的瓶颈结构不同,同样为了进一步提升MobileNetV3模型的特征提取能力,为瓶颈结构中的3×3深度卷积引入了大小为1×1的深度卷积分支和恒等映射分支,再将三者的结果相加,并输入到ReLU激活函数和挤压激励模块,最后的输出为其与最初输入到瓶颈模块特征图的和。值得注意的是,RepMobileNetV3网络并未使用原模型中的h-swish激活函数,而是使用了ReLU激活函数,这是由于该激活函数具有计算量小、不会出现梯度消失等优点。为进一步减少模型的参数量,将原始网络中5×5的深度卷积替换为3×3的深度卷积,同时为了保证其性能,加入了额外的大小为3×3的深度卷积,即将大小为5×5的深度卷积替换为并行的两个3×3的深度卷积。模型训练完成后,分别对每个模块应用结构重参数化方法,将多分支的卷积层融合为一个卷积层。RepMobileNetV3网络在训练完成后,对其应用结构重参数化方法,融合每个RepBneck中的多分支结构为单路结构,最后整个模型的结构与初始的MobileNetV3网络基本相同。

步骤5所述的利用结构重参数化方法将训练好的RepResNet18和RepMobileNetV3中新增分支与主分支融合,主要包括卷积层与BN层的融合,3×3卷积分支与1×1卷积分支的融合,3×3卷积分支与恒等映射分支的融合。

假设输入为x,卷积层的权重矩阵用W表示,不考虑卷积层的偏置项,卷积层的公式可表示为:

Conv(x)=W(x)

BN层的公式为:

其中γ和β是可学习的伸缩因子,μ是输入数据的均值,σ

BN(Conv(x))=W

所以,卷积层与BN层融合后相当于一个带偏置项的卷积层。

为使1×1卷积与3×3卷积获得相等大小的特征图,需在3×3卷积处设置Padding=1,且卷积的步长均为1。观察3×3卷积中间的元素,即图中黑色的元素,发现其卷积的路径与1×1卷积的路径相同。于是,只要将1×1卷积的权重与3×3卷积中间元素的权重相加,即可实现两者的融合。

为了将3×3卷积与恒等映射分支融合,需要先用一个卷积层来表示恒等映射。假设输入特征图的大小为3×3,通道数为2,为了以卷积的方式得到原始特征图,可以定义两个大小为1×1的卷积核,并将每个通道对应的权重置为1,其它通道置为0,于是就可以用固定权重的1×1卷积来表示恒等映射分支了,再以同样的方式将其转化为3×3卷积,最后实现了所有分支的融合。

本发明提出了使用结构重参数化方法对ResNet18和MobileNetV3网络进行改进,且不增加额外的参数。最终本实施例获得的幽门螺杆菌内镜图像分类方法的各指标结果如下表1。为了更进一步体现本发明的优势及有效性,使用相同的训练参数,选择了ResNet18、ResNet50、MobileNetV2、ShuffleNetV2、MobileNetV3与本发明提出的RepResNet18和RepMobileNetV3分别在为胃部内窥镜图像上进行实验对比,选择了多个评估指标,包括准确率(Accuracy)、受试者工作特征(Receiver Operating Characteristic,ROC)曲线下的面积(Area Under the Curve,AUC)、参数量(Params)和计算量(FLOPs)。表1结果显示,RepResNet18可实现Accuracy和AUC均增加0.3%,而Params和FLOPs减少83%以上;RepMobileNetV3可实现Accuracy增加0.5%,AUC增加0.1%,而Params减少0.05M,FLOPs减少10M。

表1各模型综合性能对比

以上所述仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形、改进及替代,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求。

相关技术
  • 一种基于数字激光全息快速检测透镜中心偏的装置及方法
  • 一种光学镜片检测设备及检测方法
  • 一种基于中红外可调谐激光器的甲醛检测装置及检测方法
  • 一种液晶屏色偏缺陷检测方法及装置
  • 一种红外光学镜片的中心偏检测装置及方法
  • 一种红外光学镜片的中心偏检测装置
技术分类

06120116520529