掌桥专利:专业的专利平台
掌桥专利
首页

一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法

文献发布时间:2024-04-18 19:57:31


一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法

技术领域

本发明涉及计算机视觉,医学,Transformer及深度学习领域技术,尤其涉及基于深度学习的结肠息肉分割方法。

背景技术

随着世界人口老龄化的加剧和风险因素不断增加,全球范围内的结直肠癌患者数量呈上升趋势。结直肠癌多数是由良性腺瘤恶性病变所致。腺瘤的早期形态为结肠息肉,恶化时则会导致癌症。早期息肉筛查可以大大降低结直肠癌的发病率。在各种筛查手段中,结肠镜检查被认为是腺瘤筛查的金标准。

早期息肉自动分割方法往往采用非线性扩散过率,基于形状先验的边界检测,聚类等。但这些传统息肉分割方法由于准确率较低,数据特异性强,先验知识依赖严重等问题,难以在临床环境中广泛适用。

深度学习是机器学习的一种,目的在于学习样本数据的内在规律和表示层次,适用于各种下游任务。深度网络往往从网络输入数据中捕捉低层表示,逐渐提取特征,形成更加抽象的高层表示,属性类别等。目前,深度学习已经在推荐搜索,自然语言处理,目标检测,语义分割,图像生成等领域广泛应用。

目前已经存在一部分基于深度学习的结肠息肉分割方法,它们大多基于编码器-解码器架构,编码器用于训练集的特征提取,解码器输出息肉像素位置的二值图像,实现息肉位置的分割,检测。但现有的方法大多数难以在临床环境中广泛应用,主要涉及以下两个问题:特征利用不充分和各级特征在融合过程中存在的语义冲突和信息冗余。因此,改进的基于特征融合和注意力机制的结肠息肉分割方法可以充分地利用编码器提取的特征,并缓解来自不同层级特征融合带来的冲突冗余问题。

发明内容

本发明的目的是深入探索特征融合方案和注意力机制在自动结肠息肉分割领域的作用。

为了实现上述目的,本发明采用的技术方案是:设计一种基于特征融合和注意力机制的潜在癌变息肉临床诊断方法,包括以下步骤:

1)、根据五个公开的临床结肠镜息肉分割数据集划分自动息肉分割所需的训练集和测试集;

2)、对数据集进行预处理,将划分好的数据集统一尺寸,训练集归一化;

3)、将步骤二经过预处理的数据输入基于Pytorch开源框架实现的神经网络中,提取训练集图像特征;

4)、计算深度网络模型输出的息肉位置预测图与临床医学专家标注的标签之间的损失,训练并优化自动息肉分割模型,记录模型性能达到最优时模型参数;

5)、将测试集图像样本调整到统一尺寸,为模型加载训练时性能最优的保存权重,根据模型第一层和第二层输出的预测图计算最终分割预测,获得息肉位置分割图像。

具体地,步骤1)的数据集使用Kvasir,CVC-ClinicDB,CVC-ColonDB,ETIS,CVC-300。Kvasir包括1000张结肠镜检查图像及其掩码,图像分辨率从332×487到1920×1072像素不等。CVC-ClinicDB包括612个不同的结肠镜检查序列中提取的29个图像帧及由临床专家标注的分割掩模,图像的分辨率为384×288。CVC-ColonDB由380张分辨率为574×500的静态图像组成。ETIS包括196张1225×966分辨率的息肉图像。CVC-300包括60张分辨率大小为574×500的结肠镜检查图像。训练集由612张Kvasir数据集图像和838张CVC-ClinicDB数据集图像组成。测试集由五个数据集其它数据构成。

步骤2)将划分好的训练集调整尺寸大小为352×352,并以[0.485,0.456,0.406],[0.229,0.224,0.225]进行归一化。

步骤3)网络如图1所示,详细描述如下:

网络采用编码器-解码器的结构。编码器采用PVTv2网络对输入网络的数据集进行提取,得到4个不同分辨率的特征图,记为x

多尺度注意力模块:其结构如图2所示:经过卷积核大小为1的卷积层降低通道后的编码器特征x

T=Attention

Attention

Attention

其中T和M分别代表多尺度注意力模块的输出特征图和经过多尺度模块后的特征图。Attention

深层特征增强模块:其结构如图3所示:x

全局注意力模块:其结构如图4所示:对于解码器特征图

其中f代表计算所得的全局注意力权重,K和V代表调整维度后的解码器特征图,T

接下来,全局注意力权重f会与Q相乘。经过权重调整后的特征图会经过卷积核大小为1的卷积层调整通道数,以残差的方式与D

D

其中,Y是经过残差连接后的特征图,D

步骤4)计算深度网络模型输出的息肉位置预测图与临床医学专家标注的标签之间的损失采用加权IoU损失和加权BCE损失。它们会对所有像素分配权重,更加关注对损失计算影响较大的像素。基本损失函数记为:

其中,X表示模型的预测输出,Y表示真实值,

L

其中,G表示真实值。P

附图说明

图1为本发明网络模型整体框架图;

图2为多尺度注意力模块图;

图3为深层特征增强模块图;

图4为全局注意力模块图。

技术分类

06120116458783