掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及图像处理与算法技术领域,具体而言,涉及一种磨玻璃肺结节自动分类方法及系统。

背景技术

肺癌是肺部疾病之中发病率和死亡率持续增加的疾病之一,是全世界男性和女性癌症死亡的主要原因。肺结节是肺癌早期出现的主要征象之一,可以作为肺癌评估的有效标志物。肺结节是指肺部直径小于3厘米的圆形或类圆形的局灶性阴影。肺结节可出现在肺内任何区域,但是在形态、大小、密度和边缘上存在差异。磨玻璃肺结节(ground glassnodule,GGN)是一种特殊类型的肺部小结节,在高分辨率计算机断层扫描(computedtomography,CT)上表现为像磨砂玻璃质地的密度轻度增高的云雾状淡薄影。临床研究表明持续存在的肺部局限性GGN为早期肺腺癌或癌前病变的可能性较大。因此,早期发现和及时处理GGN对肺癌的早诊和预后有着重要意义。

根据临床分类标准将肺腺癌分为浸润前病变、微浸润腺癌(minimally invasiveadenocarcinoma,MIA)以及浸润性腺癌(invasive adenocarcinoma,IA)。肺腺癌各亚型侵袭性逐渐增强,预后差异性显著,而临床上对于表现为GGN的早期肺腺癌各亚型的处理方法有着较大差异。因此,准确判断表征肺微浸润性腺癌和浸润性腺癌的磨玻璃肺结节,可为正确的治疗方案提供依据,对改善患者预后具有重要的临床价值。

由于GGN可见于肺部多种病变、病因相当复杂,良恶性GGN的处理和预后也截然不同,因此鉴别GGN的良性病变和早期肺腺癌各亚型成为临床医生所面临的一大问题。目前主要通过影像学等手段来鉴别GGN的良恶性。近年来,基于机器学习的图像分类算法在不同的分类任务上取得了良好的进展,特别是在医学图像的分类问题中取得了较好的效果,其中基于监督学习的方式仍然是机器学习任务中的主流方式。随机森林(random forest,RF)是一种常用的机器学习分类算法,在二分类问题中具有较好的表现。为了使RF具有较好的分类表现,需要根据数据的特点设计特征的种类、提取特征并提供给RF分类器。

肺结节的灰度特征是相对最为基本的特征之一。此外,虽然肺结节的形状并不固定,但良性结节与恶性结节在形态上有较大差异,所以形态特征也是一种重要的图像特征。为细致地区分肺结节,纹理特征也常用于区分良恶性肺结节。由于肺结节具有多样性和复杂性,单一的特征往往不能全面地表征肺结节,因此为了全面地量化肺结节特征,需要提取不同类型的特征,主要包括灰度特征、形态特征、纹理特征。不同类型的结节性质分类诊断很大程度上依赖于结节的特征提取。由于肺结节是一个三维实体,在二维切面上提取的肺结节特征不能完整的表达结节的空间特征,三维特征在一定程度上能够更加全面的描述肺结节的特性,从而提高对肺结节良恶性分类的准确性。体绘制方法能够将二维肺结节图像重建成三维立体图像,有利于医生直观地进行观察和判断以及后续特征提取工作。本发明结合图像处理方法、特征工程以及机器学习技术,提出了一种基于胸部CT影像的自动分类方法,实现表征肺微浸润性腺癌和浸润性腺癌的磨玻璃肺结节的准确识别。

发明内容

为了解决现有图像处理技术中的分类问题,本公开实施例提供了一种磨玻璃肺结节自动分类方法及系统,实现对表征肺微浸润性腺癌和浸润性腺癌的磨玻璃肺结节的自动分类,提高放射科医生的工作效率。本方法主要包含四大模块:数据采集,肺结节区域提取及三维建模,特征提取与特征选择,训练随机森林分类器并评估分类器性能。本算法通过临床医生标注的胸部CT图像,提取肺结节区域并对所提取区域进行三维建模,基于此获取肺结节的三维图像特征,将经过基于最大相关-最小冗余(max-relevance and min-redundancy,mRMR)特征选择方法后的特征输入随机森林分类器并训练分类器,实现对表征微浸润性腺癌和浸润性腺癌的肺结节的分类。本发明通过从胸部CT图像提取肺结节区域并进行三维建模,以及提取肺结节图像特征的操作,高效地完成磨玻璃肺结节的准确分类。同时,通过建立肺结节分类准确度的数值分析方法,为分类算法的可行性提供临床指导意义。

第一方面,本公开实施例提供了一种磨玻璃肺结节自动分类方法及系统,包括以下步骤:针对高分辨率胸部CT图像进行数据采集以及人工标注;对采集后的所述胸部CT图像依次进行肺结节区域提取以及三维建模操作;对肺结节区域的提取和肺结节三维建模操作后的所述图像进行肺结节三维特征提取操作,并对特征提取操作后的所述特征进行特征选择操作;将特征选择操作后的所述特征输入随机森林分类器进行分类器训练操作,设计评价体系用于评价磨玻璃肺结节中微浸润性腺癌和浸润性腺癌的分类结果,并对该方法进行临床可行性分析。

在其中一个实例中,所述针对高分辨率胸部CT图像进行数据采集以及人工标注,包括:从医院影像归档和通信系统(picture archiving and communication systems,PACS)系统中筛选出符合要求的高分辨率胸部CT图像,由经验丰富的影像科医师标注每张胸部CT图像的肺结节区域。

在其中一个实例中,所述对采集后的所述胸部CT图像进行肺结节区域提取操作,包括:针对影像科医师标注的肺结节区域边缘和周边区域的灰度值在CT图像上存在明显差异的特点,通过采用边缘检测和形态学图像处理方法,获得肺结节区域图像。

在其中一个实例中,所述对采集后的所述胸部CT图像进行三维建模操作,包括:针对二维层面的肺结节区域图像,采用基于体绘制的三维数据场多表面显示方法对肺结节进行三维建模,获得肺结节的三维模型。首先采用灰度加权法提取肺结节图像边界体元,然后对边界体元进行赋予阻光度的操作并进行光度合成计算。随后,将边界体元作为不同物质的混合体,并采用三线性插值对视线方向与体素内等值面的交点进行计算。最后为了提高三维肺结节的显示质量,根据交点的法向量进行光照效应计算。

在其中一个实例中,所述对肺结节区域的提取和肺结节三维建模操作后的所述图像进行肺结节三维特征提取操作,包括:针对所述三维建模后的三维肺结节模型进行图像特征提取,获取三维肺结节的形态、灰度及纹理特征。提取的形态特征包括表面积、体积、表面积、长轴长度、短轴长度;灰度特征包括灰度均值、灰度方差、峰度、曲折度;纹理特征包括三维局部二值模式、灰度共生矩阵和灰度游程矩阵的相关统计量。

在其中一个实例中,所述对对特征提取操作后的所述特征进行特征选择操作,包括:采用mRMR特征选择方法,该方法在特征选择过程中不仅考虑到了特征和标签之间的相关性,同时考虑了特征和特征之间的相关性。通过互信息(mutual information,MI)作为度量标准,找到原始特征集合中与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征。主要步骤如下:为计算特征之间的联合分布和边缘分布,将数据归一化至[0,255]之间,并且将每一维特征使用合理的数据结构进行存储;计算特征之间、特征与响应变量之间的分布及互信息;对特征进行基于最大相关和最小冗余的评分,并将特征根据评分进行排序,选择出排序靠前的一组特征作为重要特征。

在其中一个实例中,所述将特征选择操作后的所述特征输入随机森林分类器进行分类器训练操作包括:采用k折交叉验证的方法训练随机森林分类器,其中随机森林分类算法的流程如下:

用N表示训练样本数,M表示特征数;

输入特征数m,用于确定决策树上一个节点的决策结果,其中m<

从N个训练样本中以有放回抽样的方式,取样N次,形成训练集,并用未抽到的样本作预测,评估其误差;

对于每一个节点,随机选择m个特征,并基于该特征集计算该节点的最佳分裂方式;

每棵决策树会完整成长,最终建立完整的树状分类器。

在其中一个实施例中,还包括:结合表征肺微浸润性腺癌和浸润性腺癌的磨玻璃肺结节的分类结果,设计一种评价磨玻璃肺结节分类准确度的评价体系,通过准确率、敏感性、特异性以及受试者工作特征(receiver operating characteristic,ROC)曲线对训练结果进行评估,完成基于影像组学特性的磨玻璃肺结节分类方法的临床可行性分析。

本发明提供的一种磨玻璃肺结节自动分类方法及系统,本方法通过临床医生标注的胸部CT图像,提取肺结节区域并对所提取区域进行三维建模,基于此获取肺结节三维特征,将经过基于mRMR特征选择方法后的特征输入随机森林分类器并训练分类器,实现对表征微浸润性腺癌和浸润性腺癌的肺结节的分类。本发明通过从胸部CT图像提取肺结节区域并进行三维建模,以及提取肺结节图像三维特征的操作,高效地完成磨玻璃肺结节的准确分类。同时,通过建立肺结节分类准确度的数值分析方法,为分类算法的可行性提供临床指导意义。该方法能够实现磨玻璃肺结节的精确自动分类,辅助医生定量定性分析肺结节,减轻工作量的同时提高准确性。

第二方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的磨玻璃肺结节的分类方法。

第三方面,本发明实施例提供了一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面所述的方法。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍:

图1为本发明一个实施例中的一种磨玻璃肺结节自动分类方法及系统的步骤流程示意图;

图2为本发明另一个实施例中的一种磨玻璃肺结节自动分类方法及系统的步骤流程示意图;

图3为本发明一个实施例中的肺结节三维建模的原理阐述示意图。

具体实施方式

下面结合附图和实施例对本申请进行进一步的详细介绍。

在下述介绍中,术语“第一”、“第二”仅为用于描述的目的,而不能理解为指示或暗示相对重要性。下述介绍提供了本公开的多个实施例,不同实施例之间可以替换或者合并组合,因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而,如果一个实施例包含特征A、B、C,另一个实施例包含特征B、D,那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例,尽管该实施例可能并未在以下内容中有明确的文字记载。

为了使本发明的目的、技术方案及优点更加清楚明白,以下通过实施例,并结合附图,对本发明一种磨玻璃肺结节自动分类方法及系统的具体实施方式进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,为一个实施例中的一种磨玻璃肺结节自动分类方法及系统的流程示意图。具体包括以下步骤:

步骤101,针对高分辨率胸部CT图像进行数据采集以及肺结节标注。

具体的,针对高分辨率胸部CT图像进行数据采集以及肺结节标注,包括:从医院影像归档和通信系统系统中筛选出符合要求的高分辨率胸部CT图像,由经验丰富的影像科医师标注每张胸部CT图像的肺结节区域。

进一步地,对采集后的所述高分辨率胸部CT图像进行肺结节区域的提取还包括:针对影像科医师标注的肺结节区域边缘和周边区域的灰度值在CT图像上存在明显差异的特点,通过采用边缘检测和形态学图像处理方法,获得肺结节区域图像。

步骤102中,对所述提取的肺结节区域图像进行肺结节三维建模。

具体的,对所述提取的肺结节区域图像进行肺结节三维建模,包括:首先采用灰度加权法提取三维重建图像边界体元,然后对边界体元进行赋予阻光度的操作并进行光度合成计算。随后,将边界体元作为不同物质的混合体,并采用三线性插值对视线方向与体素内等值面的交点进行计算。同时,为了提高图像的显示质量,根据交点的法向量进行光照效应计算,最后采用投影成像法显示最终的图像。

步骤103中,对肺结节区域CT图像以及肺结节三维模型进行肺结节特征提取。

具体的,对肺结节区域CT图像以及肺结节三维模型进行肺结节特征提取,包括:将每一个患者的肺结节三维模型作为一个样本提取包括形态特征、灰度特征、纹理特征等不同类型的图像特征从而全面地量化肺结节。提取的形态特征包括表面积、体积、表面积、长轴长度、短轴长度;灰度特征包括灰度均值、灰度方差、峰度、曲折度;纹理特征包括三维局部二值模式、灰度共生矩阵和灰度游程矩阵的相关统计量。

步骤104中,采用mRMR特征选择方法对上述提取的特征进行选择操作,构建用于建模的特征矩阵并对训练样本分配标签。

具体的,采用mRMR方法对上述提取的特征进行选择操作,构建用于建模的特征矩阵包括:为计算特征之间的联合分布和边缘分布,将数据归一化至[0,255]之间,并且将每一维特征使用合理的数据结构进行存储;计算特征之间、特征与响应变量之间的分布及互信息;对特征进行基于最大相关和最小冗余的评分,并将特征根据评分进行排序。该方法不仅考虑特征和分类结果之间的相关性,同时考虑特征间的相关性。在使用该方法进行特征选择的过程中,通过互信息作为度量标准,找到原始特征集合中与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征,作为分类方法的输入特征向量。

进一步地,对训练样本分配标签还包括:经mRMR方法获得的二维特征矩阵的每一行代表一张肺结节CT图像的二维特征表示。因此,针对二维特征矩阵每一行分配标签,即代表对每一张肺结节CT图像分配标签。其中,表征肺微浸润腺癌的磨玻璃肺结节被分配的标签为0,表征浸润性腺癌的磨玻璃肺结节被分配的标签为1,标签用于指导分类器的训练以及评估分类结果。同理,经mRMR方法获得的三维特征矩阵的每一行代表每位患者的肺结节CT三维重建图像的三维特征表示。其中,表征肺微浸润腺癌的磨玻璃肺结节被分配的标签为0,表征浸润性腺癌的磨玻璃肺结节被分配的标签为1。

步骤105中,将训练样本输入随机森林分类器进行训练并评估分类器性能,实现对磨玻璃肺结节中表征微浸润性腺癌和浸润性腺癌的分类。

具体的,将训练样本输入随机森林分类器进行训练并评估分类器性能包括:分别将表征三维特征的特征矩阵输入随机森林分类器并采用十折交叉验证的方式训练随机森林分类器,在训练过程中采用网格搜索算法使得分类器自动选择最优参数,实现肺结节的精准分类。训练结束后,通过准确率、敏感性、特异性以及ROC曲线对训练结果进行评估,获得的训练结果用于对磨玻璃肺结节中表征微浸润性腺癌和浸润性腺癌类别进行分类。

为了更清楚的理解与应用本发明提出的胸部CT图像的处理方法,进行以下示例。需要说明的是,本发明的保护范围不局限以下示例。

图2所示,为本发明另一个实施例中的一种磨玻璃肺结节自动分类方法及系统的步骤流程示意图,具体包括:

步骤201.数据标注与处理。首先对高分辨率胸部CT图像进行肺结节区域的人工标注,随后利用肺结节区域边缘与非肺结节区域在灰度值上存在明显差异,采用边缘检测和形态学图像处理方法自动提取出肺结节区域,最后对肺结节区域CT图像进行三维建模。

具体的,基于步骤201中,对高分辨率胸部CT图像进行肺结节区域的提取的具体步骤为:由经验丰富的影像科医师对高分辨率胸部CT图像的肺结节区域进行人工标注。

此外,基于步骤201中,提取肺结节区域的具体步骤为:由于影像科医师对高分辨率胸部CT图像的肺结节区域进行标注,所标注的边界颜色为绿色,因此首先将RGB图像转换为灰度图像,将转换后的图像与原始图像(即未进行肺结节区域标注的胸部CT图像)相减获得肺结节区域闭合边界。在获得的肺结节区域闭合边界的基础上,在闭合边界区域内利用孔洞填充的操作获得肺结节区域掩膜图像。最后,将肺结节区域掩膜图像与原始图像相乘,获得肺结节区域。其中,背景区域灰度值定义为0,肺结节区域保留原始的图像灰度。

进一步地,基于步骤201中,对肺结节区域CT图像进行三维建模的具体步骤为:如图3所示,为本发明一个实施例中的肺结节三维建模的原理阐述示意图。具体的,采用灰度梯度加权提取出三维重建图像的边界体元,对边界上的体元赋予相应的阻光度并进行光亮度合成计算,将边界上的体元作为不同物质的混合体,采用与方向有关的三维线性插值来计算视线方向与体素内等值面的交点,根据交点的法向量进行光照效应计算以提高显示图像的质量,最后采用投影成像方法展示最终的肺结节三维模型。

步骤202.特征提取与选择。以重建的肺结节为基础,提取肺结节三维图像特征,随后利用mRMR方法选取有效特征并构建特征矩阵。

具体的,基于步骤202中,提取肺结节的三维图像特征的具体步骤为:肺结节三维特征的提取基于重建后的肺结节三维模型,提取肺结节的灰度特征,包括灰度均值、灰度方差、曲折度和峰值度。提取肺结节的三维形态特征,包括表面积、体积、表面积与体积的比值、紧密度和矩形度等。提取肺结节的三维纹理特征,包括灰度共生矩阵和灰度游程矩阵的相关统计量作为肺结节的。由于重建的肺结节在计算机中表示为一组三维数据,因此为全面衡量肺结节的纹理特征,需要计算肺结节三维模型中包含13个方向的灰度共生矩阵和灰度游程矩阵,在此基础上计算该矩阵的相关统计量,最后分别对各个统计量求取平均值作为肺结节的三维纹理特征的。其中灰度共生矩阵的计算方法为:通过计算获得13个方向的灰度共生矩阵,并计算出各个矩阵的能量、熵、对比度等特征,随后分别对各个特征求取平均值作为肺结节的三维纹理特征的一部分。灰度游程矩阵的计算方法与灰度共生矩阵的计算方法类似,同样通过计算获得13个方向的灰度游程矩阵,并计算各个矩阵的短游程优势、长游程优势、低灰度级游程优势、高灰度级游程优势、短游程低灰度级优势、短游程高灰度级优势等统计量,随后分别对各个统计量求取平均值作为肺结节的三维纹理特征的一部分。

进一步地,基于步骤202中,利用mRMR方法选取有效特征并构建特征矩阵的具体步骤为:通过互信息作为度量标准,找到原始特征集合中与最终输出结果相关性最大,但是特征彼此之间相关性最小的一组特征。其中特征集S与类别c的相关性由各个特征f

特征集S中所有特征的冗余由特征f

mRMR标准将D与R结合,定义如下:

在实际应用中,采用增量搜索算法搜索特征子集得到mRMR标准的近似最优解。

步骤203.分类器训练与分类。将三维特征的特征矩阵输入随机森林分类器并采用十折交叉验证的方式训练随机森林分类器,训练过程中采用网格搜索算法使得分类器自动选择最佳参数以提高分类其性能。训练结束后,通过准确率、敏感性、特异性以及ROC曲线对分类器性能进行评估,获得的训练结果用于对磨玻璃肺结节中表征微浸润性腺癌和浸润性腺癌类别进行分类。

具体的,对分类器性能进行评估的具体步骤为:在随机森林分类器训练和测试完成后,我们获得样本的混淆矩阵以及评估分类器性能的指标,计算ROC曲线,通过混淆矩阵我们可以计算分类查全率和查准率,最终以查全率、查准率和ROC曲线的曲线下面积作为评价分类器性能的指标。当表征浸润性腺癌的肺结节被分类正确时,用真阳性(truepositive,TP)表示,否则用假阳性(false positive,FP)表示;当表征微浸润性腺癌的肺结节被分类正确时,用真阴性(true negative,TN)表示,否则用假阴性(false negative,FN)表示。查全率和查准率计算公式如下:

本公开实施例提出了一种磨玻璃肺结节自动分类方法及系统,实现对表征微浸润性腺癌和浸润性腺癌的磨玻璃肺结节的自动分类,方法可分为3个部分。在第一部分数据标注和处理中,影像科医生对高分辨率胸部CT图像的肺结节区域进行人工标注,根据人工标注,使得病灶区域边缘和非病灶区域在灰度值上存在明显差异,因此可以通过邻域像素之间的运算提取边缘点并获得闭合的连通边界,随后利用形态学操作得到肺结节掩膜图像。然后采用一种基于体绘制的三维数据场多表面显示方法对肺结节进行三维建模;在第二部分特征提取与选择中,对肺结节进行三维图像特征提取,针对病灶中的冗余特征,采用mRMR方法对上述提取的特征进行特征选择处理,构建用于建模的特征矩阵;在第三部分训练随机森林分类器并分类中,将mRMR方法选取的特征作为训练样本输入随机森林分类器,表征微浸润性腺癌和浸润性腺癌的磨玻璃肺结节分别被标记为0和1。本发明采用十折交叉验证的方式训练分类器并对磨玻璃肺结节进行分类,最后用查准率、查全率以及曲线下面积评估分类器的性能。

本发明实施例还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,该程序被图1或图2中处理器执行。

本发明实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行上述图1或图2的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为示例性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

另外,如在此使用的,在以“至少一个”开始的项的列举中使用的“或”指示分离的列举,例如“A、B或C的至少一个”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。

为了示例和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术分类

06120112201010