掌桥专利:专业的专利平台
掌桥专利
首页

巴氏涂片宫颈细胞图像分类方法及系统

文献发布时间:2024-04-18 19:58:30


巴氏涂片宫颈细胞图像分类方法及系统

技术领域

本发明涉及细胞图像处理的技术领域,具体而言,涉及一种巴氏涂片宫颈细胞图像分类方法及系统。

背景技术

宫颈癌是第四大最常见的癌症,新发病例和死亡主要发生在中低收入国家。巴氏涂片检查是最有效的宫颈癌预防工具之一,但传统的宫颈细胞病理图像分析是需要具有专业知识的临床医生在显微镜下进行人工阅片来完成的,这一阅片过程是非常耗时的,且容易出现错误。如果能够提升巴氏涂片宫颈细胞图像分类的自动化进程,利用计算机辅助诊断系统辅助医生阅片,将给宫颈细胞病理图像的分析带来诸多好处。

传统的宫颈细胞图像分类技术有很多,主要包括支持向量机、决策树、K最邻近算法,贝叶斯等等。传统算法大多数的主要思想是提取宫颈细胞的形态特征、纹理特征和颜色特征等输入到各传统算法分类器中进行分类。但是传统的宫颈细胞图像分类技术分类的准确率在达到一定高度后遇到了瓶颈期。因此,越来越多的学者将注意力转换到深度学习技术。

其中,基于卷积神经网络的宫颈细胞图像分类技术得到了广泛应用,现有的相关技术虽然都采用了搭建好的卷积神经网络去提取图像特征,但是依然存在以下缺点:

(1)方案均使用一种卷积神经网络(Convolutional Neural Networks,CNN)模型,对图片提取的特征不够全面,因此具有局限性;

(2)方案均为小卷积核设计的CNN,且CNN模型的感受也有限,不能很好地提取图片的全局特征。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

为此,本发明的第一目的在于提出一种基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法。

本发明的第二目的在于提出一种基于卷积神经网络的巴氏涂片宫颈细胞图像分类系统。

为了实现上述目的,本发明的第一方面的技术方案,提供了一种巴氏涂片宫颈细胞图像分类方法,基于卷积神经网络,所述分类方法包括:获取宫颈细胞的巴氏涂片在显微镜下的图像数据集;对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集;按照预设比例将所述n类样本集中的宫颈细胞图像划分为训练集和验证集;对所述训练集中的每个宫颈细胞图像进行数据增强;构建第一卷积神经网络,所述第一卷积神经网络中的卷积核为大卷积核;构建第二卷积神经网络,所述第二卷积神经网络中的卷积核为小卷积核;将数据增强后的训练集分别输入被微调后的所述第一卷积神经网络和第二卷积神经网络,并对所述第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量;将未数据增强的验证集分别输入被微调后的所述第一卷积神经网络和第二卷积神经网络,并对所述第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第三特征向量和M维的第四特征向量;将所述N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量;将所述N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量;构建宫颈细胞图像的分类网络;其中,所述宫颈细胞图像的分类网络为有监督学习的分类网络;将所述训练集对应的融合后的特征向量输入所述宫颈细胞图像的分类网络进行训练;将所述验证集对应的融合后的特征向量输入训练好的所述宫颈细胞图像的分类网络,并输出所述宫颈细胞图像的分类结果。

优选地,将数据增强后的训练集分别输入被微调后的所述第一卷积神经网络和第二卷积神经网络,并对所述第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量的步骤之前,还包括:使用任意图像数据集预训练所述第一卷积神经网络、第二卷积神经网络;输出预训练模型,并将所述预训练模型的权重作为所述第一卷积神经网络、第二卷积神经网络的初始化权重;将所述第一卷积神经网络、第二卷积神经网络的最后一层全连接层的神经元的数量调整为n;基于数据增强后的训练集,训练权重被初始化后的所述第一卷积神经网络和第二卷积神经网络,以微调所述第一卷积神经网络和第二卷积神经网络的权重。

优选地,对所述训练集中的每个宫颈细胞图像进行数据增强的步骤之前,还包括:对所述训练集中的每个宫颈细胞图像进行裁剪得到对应的单细胞图像;对每个单细胞图像进行缩放,按原图像的长宽比例缩放至长边长度为m像素;若图像并非正方形,则在缩放后,用灰度值为0的像素填充短边至长度为m像素,以得到边长为m像素的正方形图像。

优选地,对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集的步骤,具体包括:根据贝塞斯达系统,对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到6类样本集;所述6类样本集分别为:上皮内病变或恶性肿瘤阴性、意义不明的非典型鳞状细胞、低级别鳞状上皮内病变、不能排除高级别病变的非典型鳞状细胞、高级别鳞状上皮内病变、以及鳞状细胞癌。

优选地,所述宫颈细胞图像的分类网络为多层感知机或支持向量机;所述第一卷积神经网络为RepLKNet模型,所述第二卷积神经网络为DenseNet模型。

本发明的第二方面的技术方案,还提供了一种巴氏涂片宫颈细胞图像分类系统,基于卷积神经网络,所述分类系统包括:获取模块,用于获取宫颈细胞的巴氏涂片在显微镜下的图像数据集;分类模块,用于对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集;划分模块,用于按照预设比例将所述n类样本集中的宫颈细胞图像划分为训练集和验证集;数据增强模块,用于对所述训练集中的每个宫颈细胞图像进行数据增强;卷积神经网络构建模块,用于构建第一卷积神经网络,所述第一卷积神经网络中的卷积核为大卷积核;所述卷积神经网络构建模块,还用于构建第二卷积神经网络,所述第二卷积神经网络中的卷积核为小卷积核;特征提取模块,用于将数据增强后的训练集分别输入被微调后的所述第一卷积神经网络和第二卷积神经网络,并对所述第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量;所述特征提取模块,还用于将未数据增强的验证集分别输入被微调后的所述第一卷积神经网络和第二卷积神经网络,并对所述第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第三特征向量和M维的第四特征向量;特征融合模块,用于将所述N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量;所述特征融合模块,还用于将所述N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量;分类网络构建模块,用于构建宫颈细胞图像的分类网络;其中,所述宫颈细胞图像的分类网络为有监督学习的分类网络;分类网络训练模块,用于将所述训练集对应的融合后的特征向量输入所述宫颈细胞图像的分类网络进行训练;分类结果输出模块,用于将所述验证集对应的融合后的特征向量输入训练好的所述宫颈细胞图像的分类网络,并输出所述宫颈细胞图像的分类结果。

优选地,所述的巴氏涂片宫颈细胞图像分类系统,还包括:权重初始化模块,用于使用任意图像数据集预训练所述第一卷积神经网络、第二卷积神经网络;所述权重初始化模块,还用于输出预训练模型,并将所述预训练模型的权重作为所述第一卷积神经网络、第二卷积神经网络的初始化权重;网络调整模块,用于将所述第一卷积神经网络、第二卷积神经网络的最后一层全连接层的神经元的数量调整为n;卷积网络训练模块,用于基于数据增强后的训练集,训练权重被初始化后的所述第一卷积神经网络和第二卷积神经网络,以微调所述第一卷积神经网络和第二卷积神经网络的权重。

优选地,所述的巴氏涂片宫颈细胞图像分类系统,还包括:单细胞图像裁剪模块,用于对所述训练集中的每个宫颈细胞图像进行裁剪得到对应的单细胞图像;缩放模块,用于对每个单细胞图像进行缩放,按原图像的长宽比例缩放至长边长度为m像素;若图像并非正方形,则在缩放后,用灰度值为0的像素填充短边至长度为m像素,以得到边长为m像素的正方形图像。

优选地,所述分类模块,具体用于:根据贝塞斯达系统,对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到6类样本集;所述6类样本集分别为:上皮内病变或恶性肿瘤阴性、意义不明的非典型鳞状细胞、低级别鳞状上皮内病变、不能排除高级别病变的非典型鳞状细胞、高级别鳞状上皮内病变、以及鳞状细胞癌。

优选地,所述宫颈细胞图像的分类网络为多层感知机或支持向量机;所述第一卷积神经网络为RepLKNet模型,所述第二卷积神经网络为DenseNet模型。

本发明的有益效果:

本发明提供的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法,通过获取宫颈细胞的巴氏涂片在显微镜下的图像数据集,再对图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集,以便后面构建的有监督学习的宫颈细胞图像的分类网络对输入的巴氏涂片宫颈细胞图像进行分类。

进一步地,通过按照预设比例将n类样本集中的宫颈细胞图像划分为训练集和验证集,对训练集中的每个宫颈细胞图像进行数据增强,再通过构建卷积核为大卷积核的第一卷积神经网络和卷积核为小卷积核的第二卷积神经网络,将第一卷积神经网络和第二卷积神经网络作为特征提取器,即将数据增强后的训练集分别输入被微调后的第一卷积神经网络和第二卷积神经网络,并对第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量,将进行数据增强后的训练集输入第一卷积神经网络和第二卷积神经网络,有利于特征提取器提取到训练集中的每个宫颈细胞图像的关键语义信息。

进一步地,通过将N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量,再将N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量,即采用串行融合的方法将特征提取器提取到的特征向量进行融合,同时由于大卷积核的第一卷积神经网络具有大感受野,第一卷积神经网络更适合提取全局特征,而小卷积核的第二卷积神经网络更适合提取局部特征,因此融合第一卷积神经网络和第二卷积神经网络提取的特征,使得本发明的特征提取器能更好地提取到图片的全局特征,提取到的特征更加全面。

进一步地,通过构建有监督学习的宫颈细胞图像的分类网络,将提取到的特征更加全面的训练集对应的融合后的特征向量输入到宫颈细胞图像的分类网络进行训练,使得宫颈细胞图像的分类网络更能学习到宫颈细胞图像的关键语义信息,最后将验证集对应的融合后的特征向量输入训练好的宫颈细胞图像的分类网络,并输出宫颈细胞图像的分类结果,相较于传统的单独使用小卷积核设计的CNN或者单独使用大卷积核设计的CNN,本发明输出宫颈细胞图像的分类结果更加准确,同时大大地提升了巴氏涂片宫颈细胞图像分类的自动化进程,进而给宫颈细胞图像的病理分析带来诸多方便。

本发明的附加方面和优点将在下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

图1示出了本发明的一个实施例的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法的流程示意图;

图2示出了本发明的一个实施例的基于卷积神经网络的巴氏涂片宫颈细胞图像分类系统的示意框图;

图3示出了本发明的一个实施例的计算机装置的示意框图;

图4示出了本发明的另一个实施例的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法的示意框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互结合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不限于下面公开的具体实施例的限制。

图1示出了本发明的一个实施例的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法的流程示意图。如图1所示,该图像分类方法,包括:

步骤102,获取宫颈细胞的巴氏涂片在显微镜下的图像数据集;

步骤104,对图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集;

步骤106,按照预设比例将n类样本集中的宫颈细胞图像划分为训练集和验证集;

步骤108,对训练集中的每个宫颈细胞图像进行数据增强;

步骤110,构建第一卷积神经网络,第一卷积神经网络中的卷积核为大卷积核;

步骤112,构建第二卷积神经网络,第二卷积神经网络中的卷积核为小卷积核;

步骤114,将数据增强后的训练集分别输入被微调后的第一卷积神经网络和第二卷积神经网络,并对第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量;

步骤116,将未数据增强的验证集分别输入被微调后的第一卷积神经网络和第二卷积神经网络,并对第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第三特征向量和M维的第四特征向量;

步骤118,将N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量;

步骤120,将N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量;

步骤122,构建宫颈细胞图像的分类网络;其中,宫颈细胞图像的分类网络为有监督学习的分类网络;

步骤124,将训练集对应的融合后的特征向量输入宫颈细胞图像的分类网络进行训练;

步骤126,将验证集对应的融合后的特征向量输入训练好的宫颈细胞图像的分类网络,并输出宫颈细胞图像的分类结果。

本发明提供的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法,通过获取宫颈细胞的巴氏涂片在显微镜下的图像数据集,再对图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集,以便后面构建的有监督学习的宫颈细胞图像的分类网络对输入的巴氏涂片宫颈细胞图像进行分类。

进一步地,通过按照预设比例将n类样本集中的宫颈细胞图像划分为训练集和验证集,对训练集中的每个宫颈细胞图像进行数据增强,再通过构建卷积核为大卷积核的第一卷积神经网络和卷积核为小卷积核的第二卷积神经网络,将第一卷积神经网络和第二卷积神经网络作为特征提取器,即将数据增强后的训练集分别输入被微调后的第一卷积神经网络和第二卷积神经网络,并对第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量,将进行数据增强后的训练集输入第一卷积神经网络和第二卷积神经网络,有利于特征提取器提取到训练集中的每个宫颈细胞图像的关键语义信息。实际上,宫颈细胞图像的训练集、验证集中的每一张图片,输入第一卷积神经网络和第二卷积神经网络网络后都对应一个特征向量。对于特征图来说,包括:宽、高、和通道数,而当宽、高为1时,就退化为特征向量,宽、高也就没有了意义。而对于特征向量来说,这里面的通道数即是特征向量的维度。

进一步地,通过将N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量,再将N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量,即采用串行融合的方法将特征提取器提取到的特征向量进行融合,同时由于大卷积核的第一卷积神经网络具有大感受野,第一卷积神经网络更适合提取全局特征,而小卷积核的第二卷积神经网络更适合提取局部特征,因此融合第一卷积神经网络和第二卷积神经网络提取的特征,使得本发明的特征提取器能更好地提取到图片的全局特征,提取到的特征更加全面。

进一步地,通过构建有监督学习的宫颈细胞图像的分类网络,将提取到的特征更加全面的训练集对应的融合后的特征向量输入到宫颈细胞图像的分类网络进行训练,使得宫颈细胞图像的分类网络更能学习到宫颈细胞图像的关键语义信息,最后将验证集对应的融合后的特征向量输入训练好的宫颈细胞图像的分类网络,并输出宫颈细胞图像的分类结果,相较于传统的单独使用小卷积核设计的CNN或者单独使用大卷积核设计的CNN,本发明输出宫颈细胞图像的分类结果更加准确,同时大大地提升了巴氏涂片宫颈细胞图像分类的自动化进程,进而给宫颈细胞图像的病理分析带来诸多方便。

具体实施例中,n类样本集中的宫颈细胞图像中的80%为训练集,n类样本集中的宫颈细胞图像中的20%为验证集。

数据增强的方式包括其中之一或其中几个的组合:随机裁剪、颜色抖动、随机灰度化、高斯模糊、随机solarize和随机水平翻转。

在本发明的一个实施例中,将数据增强后的训练集分别输入被微调后的所述第一卷积神经网络和第二卷积神经网络,并对所述第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量的步骤之前,还包括:使用任意图像数据集预训练所述第一卷积神经网络、第二卷积神经网络;输出预训练模型,并将所述预训练模型的权重作为所述第一卷积神经网络、第二卷积神经网络的初始化权重;将所述第一卷积神经网络、第二卷积神经网络的最后一层全连接层的神经元的数量调整为n;基于数据增强后的训练集,训练权重被初始化后的所述第一卷积神经网络和第二卷积神经网络,以微调所述第一卷积神经网络和第二卷积神经网络的权重。

在本实施例中,通过微调第一卷积神经网络和第二卷积神经网络的权重,使得第一卷积神经网络和第二卷积神经网络能够更好更快地提取到图像数据集中的每个宫颈细胞图像的特征。其中,n对应于宫颈细胞图像的类别,即本发明中的样本集的分类的数量。

在本发明的一个实施例中,对所述训练集中的每个宫颈细胞图像进行数据增强的步骤之前,还包括:对所述训练集中的每个宫颈细胞图像进行裁剪得到对应的单细胞图像;对每个单细胞图像进行缩放,按原图像的长宽比例缩放至长边长度为m像素;若图像并非正方形,则在缩放后,用灰度值为0的像素填充短边至长度为m像素,以得到边长为m像素的正方形图像。

在本实施例中,对训练集中的每个宫颈细胞图像进行数据增强前,通过统一对每个宫颈细胞图像进行预处理,使得后面的第一卷积神经网络和第二卷积神经网络能更好地提取到图像中的特征。

具体地,对训练集中的每个宫颈细胞图像进行裁剪得到对应的单细胞图像,即以细胞核为中心将宫颈细胞从图像上裁剪出来,窗口的尺寸应大到能够将整个细胞核包含在裁剪图像中,并且小到能够防止在同一裁剪图像中出现多个细胞核,最后对每个单细胞图像进行缩放至边长为m像素的正方形图像。

在本发明的一个实施例中,对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集的步骤,具体包括:根据贝塞斯达系统,对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到6类样本集;所述6类样本集分别为:上皮内病变或恶性肿瘤阴性、意义不明的非典型鳞状细胞、低级别鳞状上皮内病变、不能排除高级别病变的非典型鳞状细胞、高级别鳞状上皮内病变、以及鳞状细胞癌。

宫颈癌是最常见的妇科恶性肿瘤,主要组织学的类型是鳞状细胞癌,其次是腺癌。在本发明中,贝塞斯达系统(TBS),正式名称为贝塞斯达宫颈细胞学报告系统,是一个报告宫颈或阴道细胞学诊断的系统,用于报告子宫颈抹片的检查结果。

在贝塞斯达系统中,鳞状细胞异常被分为5类:

第1类为:意义不明的非典型鳞状细胞(ASC-US);

第2类为:非典型鳞状细胞,不能排除高级别病变(ASC-H);

第3类为:低级别鳞状上皮内病变(LSIL);

第4类为:高级别鳞状上皮内病变(HSIL);

第5类为:鳞状细胞癌(SCC);

宫颈细胞图像还有如下分类:正常(即上皮内病变或恶性肿瘤(NILM)阴性)。

在本发明的一个实施例中,所述宫颈细胞图像的分类网络为多层感知机或支持向量机;所述第一卷积神经网络为RepLKNet模型,所述第二卷积神经网络为DenseNet模型。

图2示出了本发明的一个实施例的基于卷积神经网络的巴氏涂片宫颈细胞图像分类系统的示意框图。如图2所示,基于卷积神经网络的巴氏涂片宫颈细胞图像分类系统200,包括:

获取模块202,用于获取宫颈细胞的巴氏涂片在显微镜下的图像数据集;

分类模块204,用于对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集;

划分模块206,用于按照预设比例将所述n类样本集中的宫颈细胞图像划分为训练集和验证集;

数据增强模块208,用于对所述训练集中的每个宫颈细胞图像进行数据增强;

卷积神经网络构建模块210,用于构建第一卷积神经网络,所述第一卷积神经网络中的卷积核为大卷积核;

卷积神经网络构建模块210,还用于构建第二卷积神经网络,所述第二卷积神经网络中的卷积核为小卷积核;

特征提取模块212,用于将数据增强后的训练集分别输入被微调后的所述第一卷积神经网络和第二卷积神经网络,并对所述第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量;

特征提取模块212,还用于将未数据增强的验证集分别输入被微调后的所述第一卷积神经网络和第二卷积神经网络,并对所述第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第三特征向量和M维的第四特征向量;

特征融合模块214,用于将所述N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量;

特征融合模块214,还用于将所述N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量;

分类网络构建模块216,用于构建宫颈细胞图像的分类网络;其中,所述宫颈细胞图像的分类网络为有监督学习的分类网络;

分类网络训练模块218,用于将所述训练集对应的融合后的特征向量输入所述宫颈细胞图像的分类网络进行训练;

分类结果输出模块220,用于将所述验证集对应的融合后的特征向量输入训练好的所述宫颈细胞图像的分类网络,并输出所述宫颈细胞图像的分类结果。

本发明提供的基于卷积神经网络的巴氏涂片宫颈细胞图像分类系统200,通过获取宫颈细胞的巴氏涂片在显微镜下的图像数据集,再对图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集,以便后面构建的有监督学习的宫颈细胞图像的分类网络对输入的巴氏涂片宫颈细胞图像进行分类。

进一步地,通过按照预设比例将n类样本集中的宫颈细胞图像划分为训练集和验证集,对训练集中的每个宫颈细胞图像进行数据增强,再通过构建卷积核为大卷积核的第一卷积神经网络和卷积核为小卷积核的第二卷积神经网络,将第一卷积神经网络和第二卷积神经网络作为特征提取器,即将数据增强后的训练集分别输入被微调后的第一卷积神经网络和第二卷积神经网络,并对第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量,将进行数据增强后的训练集输入第一卷积神经网络和第二卷积神经网络,有利于特征提取器提取到训练集中的每个宫颈细胞图像的关键语义信息。实际上,宫颈细胞图像的训练集、验证集中的每一张图片,输入第一卷积神经网络和第二卷积神经网络网络后都对应一个特征向量。对于特征图来说,包括:宽、高、和通道数,而当宽、高为1时,就退化为特征向量,宽、高也就没有了意义。而对于特征向量来说,这里面的通道数即是特征向量的维度。

进一步地,通过将N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量,再将N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量,即采用串行融合的方法将特征提取器提取到的特征向量进行融合,同时由于大卷积核的第一卷积神经网络具有大感受野,第一卷积神经网络更适合提取全局特征,而小卷积核的第二卷积神经网络更适合提取局部特征,因此融合第一卷积神经网络和第二卷积神经网络提取的特征,使得本发明的特征提取器能更好地提取到图片的全局特征,提取到的特征更加全面。

进一步地,通过构建有监督学习的宫颈细胞图像的分类网络,将提取到的特征更加全面的训练集对应的融合后的特征向量输入到宫颈细胞图像的分类网络进行训练,使得宫颈细胞图像的分类网络更能学习到宫颈细胞图像的关键语义信息,最后将验证集对应的融合后的特征向量输入训练好的宫颈细胞图像的分类网络,并输出宫颈细胞图像的分类结果,相较于传统的单独使用小卷积核设计的CNN或者单独使用大卷积核设计的CNN,本发明输出宫颈细胞图像的分类结果更加准确,同时大大地提升了巴氏涂片宫颈细胞图像分类的自动化进程,进而给宫颈细胞图像的病理分析带来诸多方便。

具体实施例中,n类样本集中的宫颈细胞图像中的80%为训练集,n类样本集中的宫颈细胞图像中的20%为验证集。

数据增强的方式包括其中之一或其中几个的组合:随机裁剪、颜色抖动、随机灰度化、高斯模糊、随机solarize和随机水平翻转。

在本发明的一个实施例中,基于卷积神经网络的巴氏涂片宫颈细胞图像分类系统200,还包括:

权重初始化模块222,用于使用任意图像数据集预训练所述第一卷积神经网络、第二卷积神经网络;

权重初始化模块222,还用于输出预训练模型,并将所述预训练模型的权重作为所述第一卷积神经网络、第二卷积神经网络的初始化权重;

网络调整模块224,用于将所述第一卷积神经网络、第二卷积神经网络的最后一层全连接层的神经元的数量调整为n;

卷积网络训练模块226,用于基于数据增强后的训练集,训练权重被初始化后的所述第一卷积神经网络和第二卷积神经网络,以微调所述第一卷积神经网络和第二卷积神经网络的权重。

在本实施例中,通过微调第一卷积神经网络和第二卷积神经网络的权重,使得第一卷积神经网络和第二卷积神经网络能够更好更快地提取到图像数据集中的每个宫颈细胞图像的特征。其中,n对应于宫颈细胞图像的类别,即本发明中的样本集的分类的数量。

在本发明的一个实施例中,基于卷积神经网络的巴氏涂片宫颈细胞图像分类系统200,还包括:

单细胞图像裁剪模块228,用于对所述训练集中的每个宫颈细胞图像进行裁剪得到对应的单细胞图像;

缩放模块230,用于对每个单细胞图像进行缩放,按原图像的长宽比例缩放至长边长度为m像素;若图像并非正方形,则在缩放后,用灰度值为0的像素填充短边至长度为m像素,以得到边长为m像素的正方形图像。

在本实施例中,对训练集中的每个宫颈细胞图像进行数据增强前,通过统一对每个宫颈细胞图像进行预处理,使得后面的第一卷积神经网络和第二卷积神经网络能更好地提取到图像中的特征。

具体地,对训练集中的每个宫颈细胞图像进行裁剪得到对应的单细胞图像,即以细胞核为中心将宫颈细胞从图像上裁剪出来,窗口的尺寸应大到能够将整个细胞核包含在裁剪图像中,并且小到能够防止在同一裁剪图像中出现多个细胞核,最后对每个单细胞图像进行缩放至边长为m像素的正方形图像。

在本发明的一个实施例中,分类模块204,具体用于:根据贝塞斯达系统,对所述图像数据集中的每个宫颈细胞图像进行标记和分类,得到6类样本集;所述6类样本集分别为:上皮内病变或恶性肿瘤阴性、意义不明的非典型鳞状细胞、低级别鳞状上皮内病变、不能排除高级别病变的非典型鳞状细胞、高级别鳞状上皮内病变、以及鳞状细胞癌。

宫颈癌是最常见的妇科恶性肿瘤,主要组织学的类型是鳞状细胞癌,其次是腺癌。在本发明中,贝塞斯达系统(TBS),正式名称为贝塞斯达宫颈细胞学报告系统,是一个报告宫颈或阴道细胞学诊断的系统,用于报告子宫颈抹片的检查结果。

在贝塞斯达系统中,鳞状细胞异常被分为5类:

第1类为:意义不明的非典型鳞状细胞(ASC-US);

第2类为:非典型鳞状细胞,不能排除高级别病变(ASC-H);

第3类为:低级别鳞状上皮内病变(LSIL);

第4类为:高级别鳞状上皮内病变(HSIL);

第5类为:鳞状细胞癌(SCC);

宫颈细胞图像还有如下分类:正常(即上皮内病变或恶性肿瘤(NILM)阴性)。

在本发明的一个实施例中,所述宫颈细胞图像的分类网络为多层感知机或支持向量机;所述第一卷积神经网络为RepLKNet模型,所述第二卷积神经网络为DenseNet模型。

如图3所示,一种计算机装置300包括:存储器302、处理器304及存储在存储器302上并可在处理器304上运行的计算机程序,处理器304执行计算机程序时实现如上述任一实施例中的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法的步骤。

本发明提供的计算机装置300,处理器304执行计算机程序时,通过获取宫颈细胞的巴氏涂片在显微镜下的图像数据集,再对图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集,以便后面构建的有监督学习的宫颈细胞图像的分类网络对输入的巴氏涂片宫颈细胞图像进行分类。

进一步地,通过按照预设比例将n类样本集中的宫颈细胞图像划分为训练集和验证集,对训练集中的每个宫颈细胞图像进行数据增强,再通过构建卷积核为大卷积核的第一卷积神经网络和卷积核为小卷积核的第二卷积神经网络,将第一卷积神经网络和第二卷积神经网络作为特征提取器,即将数据增强后的训练集分别输入被微调后的第一卷积神经网络和第二卷积神经网络,并对第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量,将进行数据增强后的训练集输入第一卷积神经网络和第二卷积神经网络,有利于特征提取器提取到训练集中的每个宫颈细胞图像的关键语义信息。实际上,宫颈细胞图像的训练集、验证集中的每一张图片,输入第一卷积神经网络和第二卷积神经网络网络后都对应一个特征向量。对于特征图来说,包括:宽、高、和通道数,而当宽、高为1时,就退化为特征向量,宽、高也就没有了意义。而对于特征向量来说,这里面的通道数即是特征向量的维度。

进一步地,通过将N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量,再将N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量,即采用串行融合的方法将特征提取器提取到的特征向量进行融合,同时由于大卷积核的第一卷积神经网络具有大感受野,第一卷积神经网络更适合提取全局特征,而小卷积核的第二卷积神经网络更适合提取局部特征,因此融合第一卷积神经网络和第二卷积神经网络提取的特征,使得本发明的特征提取器能更好地提取到图片的全局特征,提取到的特征更加全面。

进一步地,通过构建有监督学习的宫颈细胞图像的分类网络,将提取到的特征更加全面的训练集对应的融合后的特征向量输入到宫颈细胞图像的分类网络进行训练,使得宫颈细胞图像的分类网络更能学习到宫颈细胞图像的关键语义信息,最后将验证集对应的融合后的特征向量输入训练好的宫颈细胞图像的分类网络,并输出宫颈细胞图像的分类结果,相较于传统的单独使用小卷积核设计的CNN或者单独使用大卷积核设计的CNN,本发明输出宫颈细胞图像的分类结果更加准确,同时大大地提升了巴氏涂片宫颈细胞图像分类的自动化进程,进而给宫颈细胞图像的病理分析带来诸多方便。

具体实施例中,n类样本集中的宫颈细胞图像中的80%为训练集,n类样本集中的宫颈细胞图像中的20%为验证集。

数据增强的方式包括其中之一或其中几个的组合:随机裁剪、颜色抖动、随机灰度化、高斯模糊、随机solarize和随机水平翻转。

本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例中的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法的步骤。

本发明提供的计算机可读存储介质,计算机程序被处理器执行时,通过获取宫颈细胞的巴氏涂片在显微镜下的图像数据集,再对图像数据集中的每个宫颈细胞图像进行标记和分类,得到n类样本集,以便后面构建的有监督学习的宫颈细胞图像的分类网络对输入的巴氏涂片宫颈细胞图像进行分类。

进一步地,通过按照预设比例将n类样本集中的宫颈细胞图像划分为训练集和验证集,对训练集中的每个宫颈细胞图像进行数据增强,再通过构建卷积核为大卷积核的第一卷积神经网络和卷积核为小卷积核的第二卷积神经网络,将第一卷积神经网络和第二卷积神经网络作为特征提取器,即将数据增强后的训练集分别输入被微调后的第一卷积神经网络和第二卷积神经网络,并对第一卷积神经网络和第二卷积神经网络中的最后一层全连接层的输入端的特征向量分别进行提取,以分别得到N维的第一特征向量和M维的第二特征向量,将进行数据增强后的训练集输入第一卷积神经网络和第二卷积神经网络,有利于特征提取器提取到训练集中的每个宫颈细胞图像的关键语义信息。实际上,宫颈细胞图像的训练集、验证集中的每一张图片,输入第一卷积神经网络和第二卷积神经网络网络后都对应一个特征向量。对于特征图来说,包括:宽、高、和通道数,而当宽、高为1时,就退化为特征向量,宽、高也就没有了意义。而对于特征向量来说,这里面的通道数即是特征向量的维度。

进一步地,通过将N维的第一特征向量和M维的第二特征向量进行拼接得到训练集对应的融合后的特征向量,再将N维的第三特征向量和M维的第四特征向量进行拼接得到验证集对应的融合后的特征向量,即采用串行融合的方法将特征提取器提取到的特征向量进行融合,同时由于大卷积核的第一卷积神经网络具有大感受野,第一卷积神经网络更适合提取全局特征,而小卷积核的第二卷积神经网络更适合提取局部特征,因此融合第一卷积神经网络和第二卷积神经网络提取的特征,使得本发明的特征提取器能更好地提取到图片的全局特征,提取到的特征更加全面。

进一步地,通过构建有监督学习的宫颈细胞图像的分类网络,将提取到的特征更加全面的训练集对应的融合后的特征向量输入到宫颈细胞图像的分类网络进行训练,使得宫颈细胞图像的分类网络更能学习到宫颈细胞图像的关键语义信息,最后将验证集对应的融合后的特征向量输入训练好的宫颈细胞图像的分类网络,并输出宫颈细胞图像的分类结果,相较于传统的单独使用小卷积核设计的CNN或者单独使用大卷积核设计的CNN,本发明输出宫颈细胞图像的分类结果更加准确,同时大大地提升了巴氏涂片宫颈细胞图像分类的自动化进程,进而给宫颈细胞图像的病理分析带来诸多方便。

具体实施例中,n类样本集中的宫颈细胞图像中的80%为训练集,n类样本集中的宫颈细胞图像中的20%为验证集。

数据增强的方式包括其中之一或其中几个的组合:随机裁剪、颜色抖动、随机灰度化、高斯模糊、随机solarize和随机水平翻转。

下面将以一个具体的实施例来展示本发明的技术方案。

如图4所示,首先进行数据采集,再进行预处理与数据增强,再依次进行特征提取、特征融合,最后将融合后的特征输入MLP(多层感知机)进行分类。

具体地,所述数据采集包括:采集宫颈细胞的巴氏涂片在显微镜下的数字照片;进一步地,根据贝塞斯达系统,对每个宫颈细胞图像进行标记,将数字照片分为6类;

其中,第1类为:正常(即上皮内病变或恶性肿瘤(NILM)阴性);

第2类为:ASC-US(意义不明的非典型鳞状细胞);

第3类为:LSIL(低级别鳞状上皮内病变);

第4类为:ASC-H(非典型鳞状细胞,不能排除高级别病变);

第5类为:高级别鳞状上皮内病变(HSIL);

第6类为:鳞状细胞癌(SCC);

再进行裁剪单细胞图像,具体为:以细胞核为中心将宫颈细胞从宫颈涂片图像上裁剪出来,窗口的尺寸应大到能够将整个细胞核包含在裁剪图像中,并且小到能够防止在同一裁剪图像中出现多个细胞核。

所述预处理与数据增强包括:

进行预处理。将图片统一缩放到224×224;并且在缩放前用0将图像填充为正方形。

进行数据增强。所述数据增强的方式包括:RandAugment和水平翻转。

进一步地,所述特征提取包括:

调整RepLKNet31B模型及DenseNet121模型,使用ImageNet上的预训练模型的权重来初始化模型的参数;

使用调整后的RepLKNet31B模型和DenseNet121模型作为特征提取器,分别从输入的图像中提取1024维和1024维的特征。

进一步地,所述特征融合包括:

选择串行融合方法:如果两个输入特征的维度是m和n,则输出特征的维度为m+n;融合过程为将小核CNN(DenseNet)提取的1024维特征和大核CNN(RepLKNet)提取的1024维特征进行拼接,得到2048维的特征。

进一步地,将融合后的特征输入多层感知机进行分类包括:

设计多层感知机模型;使用反向传播算法训练多层感知机模型;输出分类结果。该多层感知机模型应包含输入层、一个或多个隐藏层及输出层。本方法所设计的多层感知机具有2个隐藏层(神经元的数量分别为128和64),使用ReLU作为激活函数。并且为了减少过拟合,在全连接层之间添加了Dropout(随机失活)层和Batch Normalization(批归一化)层。

实验数据:在SIPaKMeD数据集上使用五重交叉验证评估所提出的方法的有效性。具体来说,划分数据集实验采用五折交叉验证,即将数据集划分为5份,每次实验拿1份作为验证集,其余作为训练集,共做5次实验。评估指标如表1所示。

表1评估指标

其中,TP为真阳性,TN为真阴性,FP为假阳性,FN为假阴性。Precision(准确率)、Recall(召回率)、F1-Score(F1分数)、Accuracy(准确率)。

本发明的对比实验选择了10个模型,包括9个小核CNN模型(Inception ResNetV2,Xception,MobileNet V2,GoogLeNet,DenseNet121,Shufflenet V2 x1.0,ResNet50,Vgg16,Alexnet)和1个大核CNN模型(RepLKNet),将上述10个模型分别作为作为特征提取器。最后得出的试验数据表如表2所示。

从试验数据表上的数据来看,本发明所提出的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法优于所有其它的CNN模型。并且发明所提出的方法比单独使用RepLKNet31B进行特征提取的准确率高出0.52%,比单独使用DenseNet121的准确率高出0.75%,即发明所提出的方法比单独使用RepLKNet31B或DenseNet121更有效,这证明了本发明所提出的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法的有效性。

本发明所提出的基于卷积神经网络的巴氏涂片宫颈细胞图像分类方法的优势:

(1)首次将具有大卷积核设计的CNN(卷积神经网络)——ReplKnet应用于宫颈细胞分类。现有技术使用的都是小卷积核设计的CNN,这些CNN模型的感受野有限,不能很好地提取图片的全局特征。

(2)提出了一种结合大卷积核设计的CNN(RepLKNet)和小卷积核设计的CNN(DenseNet)的方法。

根据感受野(ERF)理论,感受野(ERF)与成比例,其中K是内核大小,L是深度,即层数。因此在获取感受野方面上,增大卷积核的尺寸比增加网络深度更高效。传统的CNN通过堆叠大量的小空间卷积(例如,3x3卷积)来扩大感受野。而RepLKNet大量使用超大卷积(例如,27x27、31x31等)。

具有大卷积核设计的RepLKNet具有较大的感受野,更适合提取全局特征。而传统的小卷积核CNN(卷积神经网络)感受野较小,更适合提取局部特征。本发明提出的方法融合了RepLKNet和DenseNet这两种CNN提取的特征,得到的特征更全面。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 子宫颈内的巴氏涂片取样头探针
  • 一种新型巴氏染色方法及异常宫颈细胞自动识别方法
技术分类

06120116503023