掌桥专利:专业的专利平台
掌桥专利
首页

基于胸部CT图像的EGFR基因突变检测方法和系统

文献发布时间:2023-06-19 11:39:06


基于胸部CT图像的EGFR基因突变检测方法和系统

技术领域

本发明涉及人工智能和医学影像分析技术领域,更具体地,涉及基于胸部CT图像的EGFR基因突变检测方法、系统和计算机可读存储介质。

背景技术

肺癌(Lung cancer,LC)为肺部最多见的恶性肿瘤,全球每年约有180万人患病。近50年来发病率明显增高。肺癌在临床上分为小细胞肺癌和非小细胞肺癌(non-small celllung cancer,NSCLC)两类,其中NSCLC约占80%,最多见的NSCLC组织学亚型为腺癌和鳞状细胞癌(squamous cell carcinoma,SQCC)。表皮生长因子受体(epidermal growth factorreceptor,EGFR)酪氨酸激酶抑制剂(tyrosine kinase inhibitors,TKIs)可提高EGFR基因敏感突变肺癌患者中位生存期,并改善其生存质量,而EGFR基因突变阴性或非敏感突变患者并不能从中获益,因此,在给予肺癌患者靶向药物治疗前,检测其EGFR基因状态极其重要。

在胸部疾病的诊治中,胸部CT(computerized tomographic scanning,电子计算机断层扫描)是使用最广泛的影像学检查。常见的胸部CT包括胸部平扫CT和胸部增强CT。目前有一些基于胸部CT图像上的影像组学特征对肺癌患者的EGFR基因突变状态进行预测的方法,但是现有的方法都是仅仅适用于一种类型CT图像,因此应用范围较小,限制了临床上的应用。

发明内容

鉴于上述问题,本发明提出了一种基于胸部CT图像的EGFR基因突变检测方法、系统和计算机可读存储介质。

一种基于胸部CT图像的EGFR基因突变检测方法,包括:

接收待处理的胸部CT图像;

从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;

根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和

根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。

在其中一个实施例中,所述从所述胸部CT图像上提取多个目标影像组学特征的特征变量,包括:

对所述待处理的胸部CT图像进行肿瘤区域分割,得到待处理的胸部CT图像的肿瘤区域;和

从待处理的胸部CT图像的肿瘤区域内提取多个目标影像组学特征的特征变量。

在其中一个实施例中,所述目标影像组学特征通过以下方法获得:

从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量,所述目标样本胸部CT图像集合中的部分样本胸部CT图像对应EGFR基因突变阳性,部分样本胸部CT图像对应EGFR基因突变阴性,所述目标样本胸部CT图像集合中的部分样本胸部CT图像为平扫CT图像,部分样本胸部CT图像为增强CT图像;

对所有影像组学特征,通过进行两次曼-惠特尼U检验,筛选出候选影像组学特征,所述候选影像组学特征在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;和

对所有候选影像组学特征,进行特征降维,得到多个目标影像组学特征。

在其中一个实施例中,所述从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量;包括:

对目标样本胸部CT图像集合中的每个样本胸部CT图像进行肿瘤分割,得到每个样本胸部CT图像的肿瘤区域;和

从每个样本胸部CT图像的肿瘤区域内分别提取多个影像组学特征的特征变量。

在其中一个实施例中,所述对所有候选影像组学特征进行特征降维,得到多个目标影像组学特征,包括:

针对所有候选影像组学特征,计算其中的每一对影像组学特征的皮尔森相关系数r;

对于|r|大于预设值的每一对影像组学特征,保留其中EGFR突变阳性和EGFR突变阴性上差异显著性较大的影像组学特征,保留的影像组学特征和|r|小于等于预设值的每一对影像组学特征组成低相关性影像组学特征集合;和

在所述低相关性影像组学特征集合中,采用Boruta算法进行筛选,得到多个目标影像组学特征。

在其中一个实施例中,所述根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了EGFR基因突变的概率,包括:

将所述评分值与预设的评分截断值进行比较,根据比较结果确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高或EGFR基因突变概率低。

在其中一个实施例中,所述根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,包括:

接收待处理的胸部CT图像所属患者的目标临床特征的特征值和目标放射学特征的特征值;

分别获取所述目标临床特征的特征值、目标放射学特征的特征值和所述评分值在诺模图上对应的得分,并将所有得分进行加和计算得到待处理的胸部CT图像对应的总得分;和

根据所述总得分,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果。

本发明另一方面,还提供一种基于胸部CT图像的EGFR基因突变检测系统,包括:

数据接收模块,用于接收待处理的胸部CT图像;

特征变量提取模块,用于从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;

评分获取算模块,用于根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和

确定模块,用于确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。

在其中一个实施例中,一种基于胸部CT图像的EGFR基因突变检测系统,包括:

一个或多个处理器;

存储器;

一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置为执行以上所述的基于胸部CT图像的EGFR基因突变检测方法。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上所述的基于胸部CT图像的EGFR基因突变检测方法。

上述一种基于胸部CT图像的EGFR基因突变检测方法、系统和计算机可读存储介质,其中的目标影像组学特征在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异,从而使得该方法可以对胸部平扫CT图像进行评估也可以基于胸部增强CT图像进行评估,因此该方法应用范围更广。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他的附图。

图1示出了根据本发明一个实施例的基于胸部CT图像的EGFR基因突变检测方法的流程图。

图2示出了根据本发明一个实施例的从所述胸部CT图像上提取多个目标影像组学特征的特征变量的流程图。

图3示出了根据本发明一个实施例的目标影像组学特征筛选方法的流程图。

图4示出了根据本发明一个实施例的从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量的流程图。

图5示出了根据本发明一个实施例的对所有候选影像组学特征进行特征降维的流程图。

图6示出了根据本发明一个实施例中的一种基于胸部CT图像的EGFR基因突变检测系统的结构框图。

图7示出了根据本发明另一个实施例中的一种计算机设备的内部结构图。

图8示出了根据本发明中的实验例2中的诺模图。

图9示出了根据本发明中的实验例1中的NECT-模型和实验例2中的诺模图的ROC曲线图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获取的所有其他实施例,都属于本发明保护的范围。

本发明中所有的统计分析均使用R软件(版本3.5.0)和SPSS 22.0(IBM,Armonk,NY,美国)进行。

在一个实施例中,如图1所示,提供一种基于胸部CT图像的EGFR基因突变检测方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。在本实施例中该方法包括以下步骤:

步骤100,接收待处理的胸部CT图像。

其中,步骤100所接收的待处理的胸部CT图像,可以为胸部增强CT图像也可以为胸部平扫CT图像;为了使得数据处理过程更加规范化,具体来说图像为DICOM(DigitalImaging and Communications in Medicine,医学数字成像和通信)格式。从临床应用上来说,本方法对肺癌患者的EGFR基因突变状态进行判断,因此接收的是肺癌患者的胸部CT图像。在具体临床上,肺癌患者可能只做了胸部平扫CT或者只做了胸部增强CT,因此该步骤中接收的胸部CT图像的类型以患者能够提供的为准。

步骤200,从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异。

在步骤200中,从所述胸部CT图像上提取多个目标影像组学特征的特征变量,具体来说可以是直接从胸部CT图像上提取多个目标影像组学特征的特征变量,也可以是从滤波变换后的胸部CT图像上提取多个目标影像组学特征的特征变量。更为优选的,是直接从胸部CT图像提取部分影像组学特征,从滤波变换后的胸部CT图像上提取部分影像组学特征。上述滤波变换是指采用滤波器(如小波滤波器和LoG(Laplacian of Gaussian)滤波器)对胸部CT图像进行变换。优选的,本发明中对胸部CT图像进行的滤波变换,以及目标影像组学特征的特征变量的提取都是在开源Python工具包PyRadiomics上进行。

其中的目标影像组学特征是从大量的影像组学特征中筛选得到的,特征变量是对应的目标影像组学特征在胸部CT图像上体现出的具体的特征值。目标影像组学特征至少满足如下条件:在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异。这样的条件设置是为了保证本方法可以适用于不同的CT图像类型,从而增强临床实用性和方便性,使得无论患者所做的无论是平扫CT还是增强CT都可以采用本发明中的方法进行EGFR基因突变状态的评估,从而避免因为需要特定图像类型而增大患者的经济负担。

其中显著性差异是统计学上的专有名词,它是从统计学的角度对数据差异性的评价。其中的第一显著性水平和第二显著性水平可以相同也可以不同。通常情况下,显著性水平为0.05水平或0.01水平。

步骤300,根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值。

步骤400,根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结构反映了EGFR基因突变的概率。

在步骤300中,其中的回归模型是利用训练样本对目标影像组学特征的特征变量进行回归建模得到的,将步骤200中提取得到的特征变量输入到回归模型中,就会得到一个评分值。具体来说,回归模型中的回归系数与特征变量是一一对应的,其中的评分值是将特征变量与对应的回归系数的乘积进行求和得到的。在步骤400中,具体来说,其中的检测结过可以是EGFR基因突变的概率,或者检测结果也可以是EGFR基因突变概率高或EGFR基因突变概率低。如果检测结果是EGFR基因突变概率高或EGFR基因突变概率低,那么步骤400包括:将所述评分值与预设的评分截断值进行比较,根据比较结果确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高或EGFR基因突变概率低。更为具体来说,当评分值大于等于评分截断值时,则判断所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高;当评分值小于评分截断值时,判断所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率低。

上述基于胸部CT图像的EGFR基因突变检测方法,可以基于平扫CT图像进行EGFR基因突变检测,也可以基于增强CT图像进行EGFR基因突变检测,因此应用范围更广。

在一个实施例中,如图2所示,步骤200,从所述胸部CT图像上提取多个目标影像组学特征的特征变量,包括:

步骤210,对所述待处理的胸部CT图像进行肿瘤区域分割,得到待处理的胸部CT图像的肿瘤区域。

步骤220,从待处理的胸部CT图像的肿瘤区域内提取多个目标影像组学特征的特征变量。

在步骤210中,对所述待处理的胸部CT图像进行肿瘤区域分割,得到待处理的胸部CT图像的肿瘤区域的过程可以是手动分割、半自动分割或者自动分割。由于该方法是针对基于肺癌患者的胸部CT图像进行评估,因此胸部CT图像上的肿瘤区域是我们的感兴趣区域(region of interest,ROI)。肿瘤区域的分割,可以是由有丰富的影像科经验的医生在一些医学软件或者医学图像处理平台(如InferScholar)上手动勾画。当然,根据实际情况和需要,本领域技术人员也可以采用半自动或者全自动的分割的方法进行感兴趣区域的分割,在此不做赘述。

在本实施例中,通过肿瘤区域的分割,可以减少图像处理时间,提高图像处理精度。

在以上实施例中,其中的目标影像组学特征是预先筛选出来的,具体来说通过图3所示的方法筛选得到的。影像组学是将影像以高通量方式转换为可挖掘的数据。

在一个实施例中,如图3所示,目标影像组学特征通过以下步骤获得:

步骤310,从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量,所述目标样本胸部CT图像集合中的部分样本胸部CT图像对应EGFR基因突变阳性,部分样本胸部CT图像对应EGFR基因突变阴性;所述目标样本胸部CT图像集合中的部分样本胸部CT图像为平扫CT图像,部分样本胸部CT图像为增强CT图像。

假设在步骤310中需要提取10个特定的影像组学特征的特征变量,目标样本胸部CT图像集合中有10个胸部CT图像。具体的来说步骤310是在每个胸部CT图像上分别提取10个特定的影像组学特征的特征变量,因此每个影像组学特征对应于10个不同的特征变量。

在步骤310中,所提取的影像组学特征可以分为三个组,第一组包括若干个形态特征,第二组包括若干强度特征,第三组包括若干灰度纹理特征;其中形态特征用于反映肺癌肿瘤病灶的形态学信息,强度特征用于反映肺癌肿瘤病灶在CT图像上的图像强度信息,灰度纹理特征用于反映肺癌病灶在胸部CT图像上的体素空间分布强度等级信息以及呈现肺癌病灶对应组织表面和内部的特征信息。

进一步的,多个影像组学特征的特征变量的提取是在原始的胸部CT图像和滤波变换后的胸部CT图像中进行。通过从原始的胸部CT图像和滤波变换后的胸部CT图像上分别提取影像组学特征的特征变量,可以拓宽影像组学特征的范围,从而保证目标影像组学特征的筛选基础。

步骤320,对所有影像组学特征,通过进行两次曼-惠特尼U检验,筛选出候选影像组学特征,所述候选影像组学特征在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异。

在步骤320中,对影像组学特征的特征变量在胸部CT类型和EGFR基因突变状态上进行差异性的分析,应用了两次曼-惠特尼U检验。

下面对通过曼-惠特尼U检验,筛选在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异的影像组学特征的过程进行具体说明:

对于某个影像组学特征X,假设总共有m个样本,采用曼-惠特尼U检验来检验影像组学特征X在胸部CT类型上是否有显著差异,将m个样本按照CT类型分为两组,假设其中平扫CT组有m

假设影像组学特征X在胸部CT类型上没有显著差异,检验具体步骤入下:(1)将m个特征变量混合并按照大小顺序排序编排等级,其中最小的等级为1,第二小的等级为2,以此类推(如果几个特征变量相等,则取这几个特征变量在给出等级之前的排序值的平均值);(2)分别求出平扫CT组和增强CT组的等级和为R

筛选在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异的影像组学特征的过程,与筛选在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异的影像组学特征的过程类似,在此不做赘述。

步骤330,对所有候选影像组学特征进行特征降维,得到多个目标影像组学特征。

在步骤330中,对候选影像组学特征进行降维,筛选出对于EGFR基因突变状态的判断更加重要的影像组学特征,后续根据这些重要的影像组学特征对EGFR基因突变状态进行判断时,避免了不重要特征的干扰,因此判断结果会更加准确。

在一个实施例中,如图4所示,步骤310,所述从目标样本胸部CT图像集合中的每个样本胸部CT图像上分别提取多个影像组学特征的特征变量,包括:

步骤311,对目标样本胸部CT图像集合中的每个样本胸部CT图像进行肿瘤分割,得到每个样本胸部CT图像的肿瘤区域;和

步骤312,从每个样本胸部CT图像的肿瘤区域内分别提取多个影像组学特征的特征变量。

在本实施中,对于步骤311的引入,对目标样本胸部CT图像集合中的每个样本胸部CT图像进行肿瘤分割,在肿瘤区域内进行多个影像组学特征的提取,使得特征提取的范围缩小,从而减少图像处理时间,提高图像处理精度。

在一个实施例中,如图5所示,步骤330针对所有候选影像组学特征进行特征降维,得到多个目标影像组学特征,包括:

步骤331,针对所有候选影像组学特征,计算其中的每一对影像组学特征的皮尔森相关系数r。

步骤332,对于|r|大于预设值的每一对影像组学特征,保留其中在EGFR突变阳性和EGFR突变阴性上差异显著性较大的影像组学特征,保留的影像组学特征和|r|小于等于预设值的每一对影像组学特征组成低相关性影像组学特征集合。

在步骤331和步骤332中,所有候选影像组学特征的相关性进行筛选,在筛选中对于每一对影像组学特征的特征变量求解一个皮尔森相关系数r值。其中两个影像组学特征的皮尔逊相关系数定义为两个影像组学特征的特征变量之间的协方差和标准差的商。当|r|>0.85表示这一对影像组学特征相关性较高,因此只需要保留其中的一个影像组学特征即可代表这一对影像组学特征与EGFR基因突变的相关性;此时保留的是在EGFR突变阳性和EGFR突变阴性上差异显著性较大的影像组学特征,在EGFR突变阳性和EGFR突变阴性上差异显著性较大表示该影像组学特征对于EGFR基因突变阳性和EGFR基因突变阴性区分能力越强。对于|r|≤0.85每一对影像组学特征,由于两个影像组学特征相关性较低,因此两个影像组学特征均予以保留。保留的所有影像组学特征组成低相关性影像组学特征集合,这些影像组学特征之间相关性较低。

步骤333,在所述低相关性影像组学特征集合中,采用Boruta算法进行筛选,得到多个目标影像组学特征。

在步骤333中,通过Boruta算法进行筛选,得到的是用于判断EGFR基因突变阳性或者EGFR基因突变阴性的重要特征。Boruta算法是一个基于随机森林分类算法的包装器。随机森林分类算法是一种比较快速的分类算法,通常不需要调整参数就可以实现,并给出了特征重要性的数值估计。它是一种通过多个无偏的弱分类器-决策树的投票来进行分类的集成方法。具体操作方法为常规的技术手段,在此不做赘述。

在一个实施例中,步骤400,根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述概率高或EGFR基因突变的概率,包括:

将所述评分值与预设的评分截断值进行比较,根据比较结果确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变概率高或EGFR基因突变概率低。

在本实施例中,其中的截断值是EGFR基因突变阳性和EGFR基因突变阴性的判断阈值。在本实施例中,截断值是根据回归模型得到的。具体来说,将训练样本中每个样本的EGFR基因突变状态与所对应的评分值进行匹配,获取截断值。更为具体来说,在利用训练样本对目标影像组学特征的特征变量进行回归建模之后,将训练样本集合中每个样本的EGFR基因突变状态与每个样本所对应的评分值,拟合得到受试者工作特征曲线(receiveroperating characteristic curve,简称ROC曲线),根据ROC曲线计算截断值。

截断值具体计算方法如下:根据训练样本集合中的每个样本的EGFR基因突变状态与每个样本所对应的训练评分值绘制ROC曲线,根据ROC曲线上的坐标点得到一系列灵敏度和1-特异度的值;通过计算约登指数(约登指数=灵敏度+特异度-1)并根据约登指数进行排序,对应最大约登指数的训练评分值即为截断值。在本实施例中,采用SPSS软件绘制ROC曲线,然后进行截断值的计算。在一些其他的实施例中,还可以采用其他的方式获得ROC曲线。当然也可以采用一些可以直接给出截断值的软件进行截断值的计算。

在一个实施例中,步骤400,根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,包括:

接收待处理的胸部CT图像所属患者的目标临床特征的特征值和目标放射学特征的特征值;

分别获取所述目标临床特征的特征值、目标放射学特征的特征值和所述评分值在诺模图上的得分,并将所述得分进行加和计算得到待处理胸部CT图像对应的总得分;和

根据所述总得分,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果。

优选的,其中根据所述总得分,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,包括:

根据所述总得分,在所述诺莫图上获取胸部CT图像所属患者的对应的EGFR基因突变概率值。

在本实施例中,目标临床特征和目标放射学特征都是经过筛选得到的。优选的,其中的目标临床特征包括吸烟史,目标放射学特征包括间质性肺疾病和肺气肿。

在本发明中,训练样本集合中,每个样本还包括对应的患者的临床特征的特征值和放射学特征的特征值。其中临床特征主要是通过采集和检查得到的,例如年龄、性别、吸烟史、肺功能、病理类型和慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)。放射学特征是有经验的胸部放射可医生对训练样本集合中的胸部CT图像进行分析得到的,包括肿瘤大小、肿瘤位置、肿块或结节,肿瘤形态、肿瘤的不透明性、肺间质性变化、支气管炎、支气管扩张、肺气肿、淋巴结病和胸膜增厚胸水等。

目标临床特征和目标放射学特征的筛选方法包括:首先对得到的所有临床特征和放射学特征进行单因素分析,选择可以作为EGFR基因突变阳性的预测因子的临床特征和放射组学特征;然后对所有可以作为EGFR基因突变阳性的预测因子的临床特征和放射组学特征进行多因素分析,得到可以作为EGFR基因突变阳性的独立预测因子的临床特征和放射组学特征;所述可以作为EGFR基因突变阳性的独立预测因子的临床特征和放射组学特征分别对应于目标临床特征和目标放射学特征。更为具体的,其中单因素分析指的采用的单因素Logistic回归方法对临床特征和放射学特征进行分析,多元素分析指的是采用多因素Logistic回归方法进行分析。

在本实施例中,其中诺模图是在训练样本集合中绘制的,具体来说包括以下步骤:首先采用训练样本集合每个样本的评分值、目标临床特征的特征值和目标放射学特征的特征值进行多元逻辑回归分析;然后根据多元逻辑回归得到的回归系数的大小来制定评分标准,给每个评分值、目标临床特征的特征值和目标放射学特征的特征值每种取值水平赋予一个的得分,将所有得分进行加和计算得到样本的总得分;最后通过总得分与EGFR基因突变发生概率之间的转换函数来进行换算得到EGFR基因突变发生概率。

在本实施例中,总得分结合了目标临床特征的特征值、目标放射学特征的特征值和评分值的特性,使得整体结果具有更好的临床适用性,并且根据后续的验证例可知诺莫图具有较好的评估性能。

在一个实施例中,如图6所示,提供了一种基于胸部CT图像的EGFR基因突变检测系统,包括:数据接收模块710、特征变量提取模块720、评分值获取模块730和确定模块740;其中:

数据接收模块710,用于接收待处理的胸部CT图像;

特征变量提取模块720,用于从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;

评分值获取模块730,用于根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和

确定模块740,用于确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。

关于一种基于胸部CT图像的EGFR基因突变检测系统的具体限定可以参见上文中对于一种基于胸部CT图像的EGFR基因突变检测方法的限定,在此不再赘述。上述基于胸部CT图像的EGFR基因突变检测系统具体来说为一种电子设备,在该电子设备中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在本发明实施例中,提供了一种基于胸部CT图像的EGFR基因突变检测系统,具体来说该系统为一种电子设备,该电子设备可以为计算机设备,该计算机设备可以是终端,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于表型的基因优先级排序方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

在一个实施例中,提供了一种基于胸部CT图像的EGFR基因突变检测系统,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

接收待处理的胸部CT图像;

从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;

根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和

根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。

本实施例中的基于胸部CT图像的EGFR基因突变检测系统具体来说可以为一种计算机设备。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

接收待处理的胸部CT图像;

从所述胸部CT图像上提取多个目标影像组学特征的特征变量,其中,每个所述目标影像组学特征,在第一显著性水平上不具有胸部平扫CT和胸部增强CT的显著性差异,在第二显著性水平上具有EGFR突变阳性和EGFR突变阴性的显著性差异;

根据回归模型和所述特征变量,得到与所述待处理的胸部CT图像对应的评分值;和

根据所述评分值,确定所述待处理的胸部CT图像所属的肺癌患者EGFR基因突变检测结果,所述检测结果反映了所述EGFR基因突变的概率。

为了更好的说明本发明中的方法的优越性,下面结合具体实验例对本发明中的方法进行进一步的说明和性能验证。本发明实验例中的训练组和验证组的所有胸部CT图像是使用两种多探测器CT系统之一(Brilliance CT,荷兰Phillips Healthcare;日本ToshibaCT,日本东京)扫描的受试者得到的。所有受试者均在仰卧姿势下,使用或不使用对比材料进行扫描检查。扫描参数如下:100-120kVp,100mA,检测器准直为64×或128×0.625mm,350×350mm的视场和512×512矩阵使用肺重建内核。其中增强CT是在平扫CT之后,首先使用自动注射器(Ulrich)以3.0mL/s的速率将85mL非离子碘化造影剂(350mg碘/mL,Omnipaque,GEHealthcare)注射入肘前静脉CT Plus 150,Ulrich Medical);在注射造影剂之后以25秒的延迟再次执行CT扫描。从图片存档和通信系统(PACS)工作站以DICOM格式检索得到了5mm的平扫CT图像(N-CT)和增强CT图像(E-CT)。

实验例1不同目标影像组学特征筛选方法对应的回归模型及性能评估

如表1所示为本发明中的入组患者统计情况,如表1所示,将患者分为训练组和验证组。训练组包括327名肺癌患者,在训练组中,每个患者做过一种CT图像,其中有167人为平扫CT图像(N-CT),160人对应的是增强CT图像(E-CT)。验证组包括66名肺癌患者,在验证组每个患者都是做过两种CT图像(N-CT&E-CT)。

表1

训练组和验证组的患者的EGFR基因突变状态如表1所示,突变型表示患者为EGFR基因突变阳性,野生型表示患者为EGFR基因突变阴性。

本实验例中的目标影像组学特征的筛选和建模过程如下:(1)针对训练组中的所有患者的CT图像,首先在研究平台InferScholar上,由具有15年胸科医生手动进行肺癌肿瘤区域划分,获得ROI;(2)在开源Python工具包PyRadiomics上,从训练组患者的CT图像上划分的ROI中进行特征变量提取,具体来说在划分得到的ROI对应的原始CT图像和经过滤波变换的图像(小波变换和LoG变换)上进行特征变量提取,总共得到1016个影像组学特征对应的特征变量。(3)对提取到的所有影像组学特征进行第一次曼-惠特尼U(Mann-WhitneyU)检验,保留在CT图像类型上在0.05水平没有显著性差异的影像组学特征。(4)在保留的在CT图像类型上在0.05水平没有显著性差异的影像组学特征中,进行第二次Mann-Whitney U检验,保留在EGFR基因突变阳性和EGFR基因突变阴性上在0.05水平有显著性差异的影像组学特征。(5)在保留的在EGFR基因突变阳性和EGFR基因突变阴性上在0.05水平有显著性差异的影像组学特征中,计算其中的每一个影像组学特征对的皮尔森(Pearson)相关系数r。(6)对于其中|r|>0.85的影像组学特征对,剔除该影像组学特征对中第二次Mann-WhitneyU检验中在EGFR基因突变阳性和EGFR基因突变阴性上差异显著性较大的影像组学特征,所述保留的影像组学特征和|r|≤0.85的影像组学特征对组成低相关性影像组学特征集合。(7)在低相关性影像组学特征集合中,采用Boruta算法进行筛选,得到目标影像组学特征集合,经过上述的筛选之后,1016个影像组学特征最终留下了5个目标影像组学特征。(8)在训练组中,对得到的5个目标像组学特征的特征变量进行多元逻辑回归分析,得到逻辑回归模型(NECT-模型),获得回归系数和评分值Rad score,其中Rad-score=Σ(回归系数*特征变量)。

为了更好说明本发明中的方法的优越性,在本实验例中还构建了作为对照组的N-模型、E-模型和NE-模型。

N-模型对应的4个目标影像组学特征是从训练组中的所有的N-CT图像上提取和筛选得到,具体来说是在训练组所有的N-CT图像上,执行步骤(1)至(2)和步骤(4)至(8),最终得到N-模型。

E-模型对应的3个目标影像组学特征是从训练组中的所有的E-CT图像上提取和筛选得到,具体来说是在训练组所有的E-CT图像上,执行步骤(1)至(2)和步骤(4)至(8),最终得到E-模型。

NE-模型对应的7个目标影像组学特征是从训练组中的所有CT图像上提取和筛选得到,具体来说是在训练组所有CT图像上,执行步骤(2)至(2)和步骤(4)至(8),最终得到NE-模型。

表2示出了本验证例中的四个模型所对应的目标影像组学特征。在N-模型、E-模型和NE-模型的目标影像组学特征提取中均没有进行步骤(3)中的第一次Mann-Whitney U检验。如表2所示,其中N-模型最终筛选出4个影像组学特征,E-模型最终筛选出3个影像组学特征,NE-模型最终筛选出7个影像组学特征。

表2

在如表1所示的验证组上,通过ROC曲线对N-模型、E-模型、NE-模型和NECT-模型的性能进行分析,具体分析结果如表3所示。

表3

如表3所示,其中E-模型的性能优于N-模型(AUC:E-模型0.637vs.N-模型0.537)。与基于一种CT类型的模型相比,混合了两种CT类型的模型性能更好,NE-模型在N-CT的性能优于N-模型(AUC:N-模型0.537vs.NE-模型0.601),NE-模型在E-CT的性能与E-模型的性能相当(AUC:E-模型0.637vs.NE-模型0.638)。NECT-模型在两种CT类型上均具有较高的性能,在N-CT上AUC为0.659,在E-CT上的AUC为0.680。NECT-模型所用的影像组学特征在特征的筛选过程中在CT类型上进行了Mann-Whitney U检验,使得得到的影像组学特征在是在两种CT类型无显著显著性差异;由表3中的验证结果可知,本发明中的特征筛选方法提高了模型在两种CT类型上对EGFR基因突变状态的判别性能。

实验例2诺模图的构建及其与NECT-模型的性能对比实验

针对表1中的训练组中的患者进行临床特征和放射学特征的筛选,其中临床特征包括年龄、性别、吸烟史、病理类型和慢性阻塞性肺疾病(chronic obstructive pulmonarydisease,COPD)等,其中放射学特征包括肿瘤的大小、位置、类型(mass or nedule)和不透明性,肺间质改变、支气管炎、支气管扩张、肺气肿、淋巴结病、胸膜增厚和胸腔积液,肿瘤影像学特征为分叶、针状、空化和胸膜收缩,间质性肺疾病(ILD)等。

对所有的临床特征和放射学特征进行单因素分析,以评估它们是否可以用作EGFR基因突变阳性的预测因子。然后对可以作为EGFR基因突变阳性的预测因子的所有临床特征和放射学特征,进行多因素分析获得可以作为独立预测因子的目标临床特征和目标放射学特征。最终筛选得到的目标临床特征为吸烟史,目标放射学特征为间质性肺疾病(ILD)和肺气肿(emphysema)。

在得到目标临床特征和目标放射学特征之后,构建诺模图。大致过程如下:首先采用实验例1中的NECT-模型得到的评分值Rad score、目标临床特征的特征值和目标放射学特征的特征值进行多元逻辑回归分析;然后根据多元逻辑回归得到的回归系数的大小来制定评分标准,给每个评分值、目标临床特征的特征值和目标放射学特征的特征值的每种取值水平赋予一个的得分,将所有得分进行加和计算得到总分数,最后通过总分数与EGFR基因突变发生概率之间的转换函数来计算每个样本发生EGFR基因突变的概率,得到的诺模图如图8所示。

在表1所示的验证组中,利用ROC曲线对NECT-模型和诺模图进行性能分析,得到如图9所示的ROC曲线图。其中Radiomics-N和Radiomics-E表示的是NECT-模型分别在验证组中的平扫CT图像上和平扫CT图像上的ROC曲线;Nomogram-N和Nomogram-E代表的是诺模图分别在在验证组中的平扫CT图像上和平扫CT图像上的ROC曲线。如图9所示,Radiomics-N和Radiomics-E的AUC值分别为0.659和0.680,Nomogram-N和Nomogram-E的AUC值分别为0.793和0.786;因此诺模图对EGFR基因突变的评估性能优于NECT-模型。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 基于胸部CT图像的EGFR基因突变检测方法和系统
  • 基于胸部横断面CT图像的肺部分割提取方法及系统
技术分类

06120113001055