掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及深度学习技术领域,特别涉及一种肺结核识别系统。

背景技术

结核病是由结核分枝杆菌引起的慢性传染病,可侵及许多脏器,以肺部结核感染最为常见。如果在早期阶段没有发现,可能会危及生命。若能及时诊断,并予合理治疗,大多可获临床痊愈。肺结核分为原发型的肺结核、血行播散型的肺结核、继发型肺结核,继发型的肺结核又分为浸润型的肺结核、慢性纤维空洞型肺结核。原发型肺结核的肺CT表现主要为肺门,以及纵隔淋巴结的增大,血行播散型的肺结核肺CT表现主要为双肺满布粟粒样的结节,而且分布均匀,结节大小不均一。浸润型的肺结核肺部CT表现为主要病变在双肺上叶的尖段、后段以及下叶的背段,通常还可以见到结核球,结核球内部常可以看到斑点或者是环状的钙化,结核球周围还可以见到卫星灶,有时可以见到结核的空洞,常常为薄壁空洞,有时也可以见到厚壁不规则的空洞。慢性纤维空洞型的肺结核肺CT的表现主要为厚壁空洞,空洞壁周围会有大量的纤维粘连、渗出以及干酪样的改变。

结核病的早期诊断可以预防疾病的进一步传播。结核病诊断常用以下3种方法。1.肺结核病免疫学诊断2.胸部Ⅹ线检查3、痰结核菌检查。其中,肺结核病免疫学诊断常用的有结核菌素纯蛋白衍化物(PPD)试验和血中、痰中结核抗体检测阳性检查,这种诊断方式虽然对结核病的诊断有很大帮助,但是需要极专业的医生实验几个小时才能得出诊断结果,比较耗时且造成医疗资源的浪费;痰结核菌检查常用痰涂片检查和痰结核菌培养方式诊断,这种诊断方式结果可信度高,并能做结核菌药敏试验,但需时6-8周,应用受到限制;Ⅹ线检查胸部Ⅹ线检查不但可以早期发现结核病,而且可以确定病灶的部位、性质、范围,了解发病情况及用于治疗效果的判断,并且开展方便,病人乐于接受。

近年来,计算机视觉领域得到广泛的应用,应用计算机视觉帮助诊断人类疾病,确定病灶位置和形状,是医学领域的一大突破发展,这得益于机器学习算法和深度学习算法的发展。利用深度学习方法提取肺部图像特征可以帮助诊断结核病,大大减轻了医生的工作量,且与人的诊断相比,基于计算机的诊断方法可以产生更准确的输出性能,有较少的误诊,从而可以使用更少的资产进行更有效的大规模筛选。

想要将深度学习应用于小型图像数据集,通常不会贸然采用复杂网络并且从头开始训练(training from scratch),因为训练代价高,且很难避免过拟合问题。相对的,通常会采用一种更高效的方法——使用预训练网络。预训练网络的使用通常有两种方式,一种是利用预训练网络简单提取图像的特征,之后可能会利用这些特征进行其他操作(比如和文本信息结合以用于image caption,或者简单的进行分类);另一种是对预训练的网络进行裁剪和微调,以适应自己的任务。

第一种方式训练代价极低,因为它就是简单提取个特征,不涉及训练;缺点是保存提取出来的特征需要占用一定空间,且无法使用图像增强(而图像增强对于防止小型数据集的过拟合非常重要)。第二种方式可以使用图像增强,但训练代价也会大幅增加。(当然相对于从头训练来说,使用预训练网络的训练代价肯定要低得多)。

发明内容

本发明的目的是提供一种基于预训练模型的肺结核识别系统,能够获得更加丰富和抽象的特征表达,提高预测精度。

本发明的目的是这样实现的:一种基于预训练模型的肺结核识别系统,包括:

图像采集模块,用以采集人体胸部CT图片;

图像预处理模块,对采集到的CT图片进行预处理;

特征提取模块,用以对预处理后的图片进行特征提取并且进行降维;

分类模块,用以对降维后的图片进行分类,得出识别结果。

作为本发明的进一步改进,所述图像预处理模块包括:

图片大小适配模块,用以将调整图片大小;

图片色彩调节模块,用以将彩色图片变为黑白图片;

直方图均衡化模块,用以对黑白图片进行直方图均衡化处理,查看像素分布;

数据划分模块,将数据集划分为训练集和测试集,分别用于训练肺结核识别模型和测试模型效果,其中训练集和测试集划分比例为8:2;

数据标签编码模块,对数据集和测试集标签进行编码,编码目的是为了便于计算;

正则化模块,用以将图像像素正则化到0-1之间。

作为本发明的进一步改进,所述特征提取模块采用DensetNet201网络,并对其进行修改,具体为:在Densetnet201网络结构的基础上,去掉了原结构的最后一层Dense层,然后添加了一层全局平均池化层和三层Dense层。

作为本发明的进一步改进,所述分类模块采用XGBoost分类器。

与现有技术相比,本发明的有益效果在于:

(1)本发明使用深度学习预训练模型DensetNet201用于肺部特征提取:DenseNet201网络层数较深,能够获得更加丰富和抽象的特征表达。而且DenseNet网络将每一层与其余层密集连接,可以确保各层之间的信息流动达到最大,实现特征重用,可以有效避免梯度消失或者爆炸问题;

(3)使用机器学习XGBoost算法用于结果分类:XGBoost是一种提升树模型,它将许多树模型集成在一起,形成一个很强的分类器;XGBoost对损失函数做了二阶泰勒展开,并且在目标函数中加入了正则项,用来权衡目标函数和模型的复杂程度,防止过拟合;XGBoost支持并行处理,可以大大缩短运算时间;

(4)将深度学习预训练模型DenseNet201与机器学习XGBoost分类器相结合,以自动化和有效的方式协助对TB感染者进行早期诊断。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明系统结构示意图。

图2为胸片处理流程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示的一种基于预训练模型的肺结核识别系统,其特征在于,包括:

图像采集模块,用以采集人体胸部CT图片;

图像预处理模块,用以对采集到的CT图片进行预处理;包括:

图片大小适配模块,用以将调整图片大小;

图片色彩调节模块,用以将彩色图片变为黑白图片;

直方图均衡化模块,用以对黑白图片进行直方图均衡化处理,查看像素分布;

数据划分模块,将数据集划分为训练集和测试集,分别用于训练肺结核识别模型和测试模型效果,其中训练集和测试集划分比例为8:2,数据集是用来训练模型的图片,是从开源的网站获得,这些图片都是被标记过的,是正常图片还是肺结核图像,把这些图片送到模型中去学习正常的图片什么样,不正常的怎么样;可选用三个很有名的数据集NLM,Belarus,and RSNA;

数据标签编码模块,对数据集和测试集标签进行编码;

正则化模块,用以将图像像素正则化到0-1之间;

特征提取模块,用以对预处理后的图片进行特征提取并且进行降维,具体采用DensetNet201网络,并对其进行修改,具体为:在Densetnet201网络结构的基础上,去掉了原结构的最后一层Dense层,然后添加了一层全局平均池化层和三层Dense层;

分类模块,用以对降维后的图片进行分类,得出识别结果,采用XGBoost分类器。

如图2所示,本发明工作过程如下:

1.读取胸片图片;

2.图片大小适配;

3.变成黑白图片;

4.直方图均衡化查看像素分布;

5.数据集和数据标签划分;

6.将标签从文本形式编码成数字形式,便于计算;

7.将图像像素正则化到0-1之间;

8.加载预训练模型Densenet201,去掉densene201最后的全连接层;

9.用去掉最后一层的densene201模型去提取图像特征;

10.添加平均池化层和四层dense层,为了对图像进行降维,便于送入分类器去分类;

11.加载分类器XGBoost模型;

12.将DenseNet201提取到的特征送入XGBoost模型进行分类,得到结果。

为了评估本发明性能,使用以下实验评价指标展现模型效果:Accuracy、Precision、Recall、F1,其中Accuracy表示预测对的样本数占样本总数的比例,Precision表示预测为正的样本中有多少是真正的正样本,Recall表示样本中的正例有多少被预测正确了,F1是基于召回率和精确率计算的,计算公式如下所示:

其中,True Positive(TP)表示预测为正例实际为正例的个数,False Positive(FP)表示预测为正例实际为负例的个数,True Negative(TN)表示预测为负例实际为负例的个数,False Negative(FN)表示预测为负例实际为正例的个数;具体而言,TP就是用测试图片送入模型去判断它是不是肺结核的图片,如果模型预测的是肺结核图片,然后医生确认他确实是肺结核图片,就说明预测正确,就是TP;其他同理;TN就是系统预测的是肺结核图片,但是实际上经医生诊断不是肺结核图片,就是TN。

DenseNet201-XGBoost模型分类效果如下表:

由上述实验结果可知:本文所提出的基于预训练模型DenseNet201-XGBoost的肺结核识别模型,在肺结核识别应用上面具有很好的效果,预测精度可达99%。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

相关技术
  • 基于预训练模型的肺结核识别系统
  • 基于预训练模型的分布式文本模型训练方法、装置、终端设备
技术分类

06120113210550