掌桥专利:专业的专利平台
掌桥专利
首页

基于深度学习CT影像组学的结直肠癌生存期预测方法

文献发布时间:2023-06-19 09:58:59


基于深度学习CT影像组学的结直肠癌生存期预测方法

技术领域

本发明属于医学图像处理技术领域,可用于智慧医疗疾病诊断,介绍了一种基于深度学习CT影像组学的结直肠癌生存期预测方法,最终得出结直肠癌病人的五年无病生存期(DFS)概率。

背景技术

结直肠癌是一种胃肠道中常见的恶性肿瘤,其发病率和死亡率都很高。根据 2018年国际肿瘤研究机构对全球调查结果显示,其中结直肠癌发病率排名第三,仅次于肺癌和乳腺癌。死亡率排在第二,仅次于肺癌。在国内,经济条件较发达的地区与东南沿海地区发病率与死亡率也是处于显著增加的趋势。

准确预测病人的生存期具有重要的临床价值以及社会价值。对于医生而言, (尤其对于年轻的经验不足的医生)准确预测病人的生存期可帮助医生更好地了解患者病情,得出诊断,做出最优得医疗决策。对于病人而言,准确预测病人的生存期,可为病人提供科学的生存预期,从而更好了解自身的身体状况。从而指导病人科学依从治疗计划,避免过度医疗,减轻家庭经济负担,也有助于改善医患关系。

随着影像学和人工智能技术的发展,计算机断层扫描(CT)、正电子发射断层扫描(PET)、核磁共振(MR)等成像技术在肿瘤的诊断、诊疗、预后等扮演者越来越重要的角色。医学影像的作用也从以往的疾病诊断和筛查等传统分析方式逐渐转变为个体化精确诊疗。未来医学发展的主流方向是精确医学,精确医学需要考虑到个体差异性预防以及相应的诊断和治疗策略。人工智能与医学结合也是未来医学未来发展的必经之路,人工智能的实现离不开机器学习,而深度学习就是其中的技术之一。可将深度学习技术与CT影像组学特征结合用于结直肠癌病人的生存期预测。

发明内容

针对上述问题,本发明提供了一种基于深度学习CT影像组预测CRC(结直肠癌)病人生存期的一种新方法;特别是提出了一种基于深度学习CT影像组学的结直肠癌生存期预测方法。

本发明的技术方案是:基于深度学习CT影像组学的结直肠癌生存期预测方法,具体步骤包括如下:

步骤(1.1)、获取数据:所述的数据包括临床数据和CT影像组学数据;

步骤(1.2)、对CT影像组学数据进行结直肠肿瘤区域标注;

步骤(1.3)、对获取数据进行预处理;

步骤(1.4)、构建基于深度神经网络的特征学习模型,得到结直肠癌CT 影像组学数据的深度高通量特征;

步骤(1.5)、利用Lasso回归对结直肠癌CT影像组学数据的深度高通量特征降维,并建立患者的风险评分模型;

步骤(1.6)、根据患者的影像组学风险评分S,使用影像组学标签评分值的中值得到截断值T,将患者分为生存期高风险组和生存期低风险组;

步骤(1.7)、对得到的深度高通量特征使用绘画KM曲线并采用数据分析软件进行曲线评估与验证;

步骤(1.8)、构建深度神经网络多任务逻辑回归模型进行生存期概率预测。

进一步的,其特征在于,在步骤(1.1)中,具体的:

(1.1.1)、临床数据:包括病人的年龄、性别、生存状态:1或者0及自从拍CT图像起至发生感兴趣时间;其中,1代表死亡,0代表存活;

(1.1.2)、CT影像组学数据:即患者所拍摄的CT图像数据。

进一步的,在步骤(1.2)中,所述对CT影像组学数据进行结直肠肿瘤区域标注的具体操作方式如下:将CT影像组学数据按照单位顺序批次导入ITK-SNAP 中,对其进行手工标注,选择出肿瘤所在的感兴趣区域,并将标注完的CT影像组学数据保存成nii文件。

进一步的,在所述步骤(1.3)中,对获取的数据进行预处理的具体操作步骤如下:

对数据进行预选择删除,剔除标准如下:

(1.3.1)、临床信息记录不完全的信息,其中不完全的原因包括:失访、退出及终止;

(1.3.2)、生存时间观察过程的截止是由其他原因引起,而非由于死亡事件引起;

(1.3.3)、根据步骤(1.2)获取到感兴趣区域nii文件,结合原有的CT 影像组学数据进行感兴趣区域特征提取,各个单位得到包含感兴趣区域的特征三维矩阵f(P,P,P),式中,P代表矩阵尺寸大小。

进一步的,在步骤(1.4)中,所述基于深度神经网络的特征学习模型,其具体描述如下:将各个单位得到包含感兴趣区域的特征矩阵作为网络的输入,其特征矩阵尺寸大小为[M×P×P×P],其中,M代表总单位数;P代表总单位中各个单位的特征矩阵维度;

将其放入特征选择器中进行特征选择;其中,特征选择器由N

上述每层卷积层之后都有最大池化操作,池大小为m×m×m每一层卷积都具有线性整流函数;损失函数采用均方误差,其公式如下:

其中,y

进一步的,在步骤(1.5)中,所述结直肠癌CT影像组学数据进行有效降维的具体操作方法如下:首先,选取到深度神经网络的特征学习模型全连接层的M ×K个节点信息作为第一次有效特征降维,其中M代表总单位数,K为节点信息个数;将数据标准化;

接着,采用最小绝对收缩选择算子Lasso回归对特征进行进一步的有效降维, 并得出每个人的风险系数评分S;所述Lasso回归损失函数如下式:

其中,xi表示各个单位特征标签,yi表示各个单位的时间标签,λ表示正则化系数,

进一步的,在步骤(1.7)中,对选择的特征进行曲线评估与验证的具体操作步骤如下:

(1.7.1)、将步骤(1.6)中得到的截断值T,绘制出相应的KM曲线,使得结果可视化,得到两条生存概率曲线;

(1.7.2)、在利用KM方法得到不同的生存概率曲线后,通过数据分析软件进行卡方检验,最后得出P值;

(1.7.3)、根据P值来判断两条曲线是否有显著性差异。

进一步的,在所述步骤(1.8)中,构建深度神经网络多任务逻辑回归模型进行生存期概率预测的具体操作步骤如下:

(1.8.1)、将步骤(1.5)得出来的最终有效特征以及时间标签和生存状态标签一起导入深度神经网络多任务逻辑回归模型中;

其中,深度神经网络多任务逻辑回归模型的每个层使用如下激活函数:

Layer#1:M1个神经元,使用激活函数:h

Layer#2:M2个神经元,使用激活函数:h

Layer#3:M3个神经元,使用激活函数:h

其中,LeakyReLu表示带泄露修正线性单元函数,ReLu表示修正线性单元函数;

将时间轴划分为J-时间区间,使得

在每个间隔a

当一个单元在间隔a

其中,a

0代表未发生;

概率密度函数:

其中,exp()代表以自然数e为底的指数函数;

生存函数:

其中,

(1.8.2)、其中训练集与测试集的比例设置为8:2,将结果可视化;

(1.8.3)、使用一致性指数评估深度神经网络多任务逻辑回归模型的辨识力:其中一致性指数代表对深度神经网络多任务逻辑回归模型辨识力的整体评估,一致性指数的数值范围在0-1之间,数值1为最佳预测模型,数值0.5为随机预测模型,0为不适用的模型;所述一致性指数的计算公式如下:

其中,C-index表示一致性指数,ηi表示一个单位i的风险评分;1Tj

(1.8.4)、使用IBS对深度神经网络多任务逻辑回归模型的精确度进行评估:其数值范围在0-1之间,其中,0为最佳可能值;IBS<0.25表示有用的模型;其中,IBS计算公式为:

其中,IBS表示综合布里氏评分,用来评估模型预测生存函数的精确度。N 为数据样本数,

本发明的有益效果是:本发明用深度学习技术与CT影像组学标签结合对结直肠癌病人进行生存期预测;该项技术依赖于CT成像,且CT影像在临床上较易获得;在医学上,在得到病人拍摄CT图像后导入系统分析,结果可为医师(特别是年轻经验不足的放射科医生)提供参考,以便更好地了解病人病情并进行下一步决策;另外对于患者方面,也有助于更好了解自己病情;

CT图像含有丰富的特征,但是由于CT图像尺寸大,切片数量过多,从而导致数据量较大,冗余特征较多;本发明通过DL特征选择器和最小绝对收缩算子 Lasso回归实现数据降维,从而得出低维度有利于预测的有效特征;

另外,本发明构建了深度神经网络多任务逻辑回归(DNN-MTLR)模型,其提供了与CoxPH模型相似的结果,但是无需依赖后者所需要的假设,使用DNN-MTLR 模型可以用来估计在每个中心线内发生感兴趣事件的可能性。

附图说明

图1是本发明的流程示意图;

图2是本发明使用ITK-SNAP人工标注示意图;

图3是本发明中DL特征选择器网络模型图;

图4是本发明中高低风险分组-KM曲线图;

图5是本发明中DNN-MTLR网络模型图;

图6是本发明采用DNN-MTLR模型预测的结果图;

图7是本发明的具体实施例预测图。

具体实施方式

为了更清楚地说明本发明的技术方案,下面结合附图对本发明的技术方案做进一步的详细说明:

如图1所述;基于深度学习CT影像组学的结直肠癌生存期预测方法,最终得出结直肠癌病人的五年无病生存期(DFS)概率,具体步骤包括如下:

步骤(1.1)、获取数据:所述的数据包括临床数据和CT影像组学数据;

步骤(1.2)、对CT影像组学数据进行结直肠肿瘤区域标注;

步骤(1.3)、对获取数据进行预处理;

步骤(1.4)、构建基于深度神经网络的特征学习模型,得到结直肠癌CT 影像组学数据的深度高通量特征;

步骤(1.5)、利用Lasso回归对结直肠癌CT影像组学数据的深度高通量特征降维,并建立患者的风险评分模型;

步骤(1.6)、根据患者的影像组学风险评分S,使用影像组学标签评分值的中值得到截断值T,将患者分为生存期高风险组(S>T)和生存期低风险组(S

步骤(1.7)、对得到的深度高通量特征使用绘画KM曲线并采用数据分析软件进行曲线评估与验证;

步骤(1.8)、构建深度神经网络多任务逻辑回归(DNN-MTLR)模型进行生存期概率预测。

进一步的,在步骤(1.1)中,具体的:

(1.1.1)、临床数据:包括病人的年龄、性别、生存状态:1或者0及自从拍CT图像起至发生感兴趣时间;其中,1代表死亡,0代表存活;

(1.1.2)、CT影像组学数据:即患者所拍摄的CT图像数据。

进一步的,在步骤(1.2)中,所述对CT影像组学数据进行结直肠肿瘤区域标注的具体操作方式如下:将CT影像组学数据按照单位顺序批次导入ITK-SNAP 中,对其进行手工标注,选择出肿瘤所在的感兴趣区域,并将标注完的CT影像组学数据保存成nii文件;标注结果如图2所示。

进一步的,在所述步骤(1.3)中,对数据进行预处理的具体操作步骤如下:

对数据进行预选择删除,剔除标准如下:

(1.3.1)、临床信息记录不完全的信息,其中不完全的原因包括:失访(指失去联系)、退出(死于非研究因素或非处理因素而退出研究)、终止(在设计规定的时间已到而终止观察,但研究对象仍然存活);

(1.3.2)、生存时间观察过程的截止是由其他原因引起,而非由于死亡事件引起;

(1.3.3)、根据步骤(1.2)获取到感兴趣区域nii文件,结合原有的CT 图像数据进行感兴趣区域特征提取,各个单位得到包含感兴趣区域的特征三维矩阵f(32,32,32)。

进一步的,在步骤(1.4)中,如图3所示,所述基于深度神经网络的特征学习模型,其具体描述如下:将各个单位得到包含感兴趣区域的特征矩阵作为网络的输入,其特征矩阵尺寸大小为[M×P×P×P],其中,M代表总单位数;P代表总单位中各个单位的特征矩阵维度;

将其放入特征选择器中进行特征选择;其中,特征选择器由N

上述每层卷积层之后都有最大池化操作,池大小为m×m×m每一层卷积都具有线性整流函数(RELU);损失函数采用均方误差(MSE),其公式如下:

其中,y

进一步的,在步骤(1.5)中,所述结直肠癌CT影像组学数据进行有效降维的具体操作方法如下:首先,选取到深度神经网络的特征学习模型全连接层的 600×6400个节点信息作为第一次有效特征降维;将数据标准化;

接着,采用最小绝对收缩选择算子Lasso回归对特征进行进一步的有效降维, 并得出每个人的风险系数评分S;其中Lasso回归损失函数如下式:

其中,xi代表各个单位特征标签,yi代表各个单位的时间标签,λ代表正则化系数,

进一步的,在步骤(1.6)中,将患者分为生存期高风险组(S>T)和生存期低风险组(ST取为生存期较短的高风险组,S

进一步的,在步骤(1.7)中,对选择的特征进行曲线评估与验证的具体操作步骤如下:

(1.7.1)、将步骤(1.6)中得到的截断值T,绘制出相应的KM曲线,使得结果可视化,得到两条生存概率曲线;

(1.7.2)、在利用KM方法得到不同的生存概率曲线后,只通过直接的观察来确定多条曲线之间是否具有显著性差异是不充分的,借助IBM SPSS Statistics 26来进行log-rank test,最后得出P值;

(1.7.3)、根据P值来判断两条曲线是否有显著性差异;通常认为P<0.05 为有统计学差异;所得结果P<0.01,具有统计学差异。

进一步的,在所述步骤(1.8)中,构建深度神经网络多任务逻辑回归(DNN-MTLR)模型进行生存期概率预测的具体操作步骤如下:

(1.8.1)、将步骤(5)得出来的最终有效特征以及时间标签和生存状态标签一起导入深度神经网络多任务逻辑回归(DNN-MTLR)模型中;其中,DNN-MTLR 模型如图5所示;

每个层使用如下激活函数:

Layer#1:326个神经元,使用激活函数:h

Layer#2:652个神经元,使用激活函数:h

Layer#3:1304个神经元,使用激活函数:h

其中,LeakyReLu为带泄露修正线性单元函数,ReLu为修正线性单元函数;

将时间轴划分为J-时间区间,使得

在每个间隔a

其中,a

代表未发生;

概率密度函数:

其中,exp()代表以自然数e为底的指数函数;

生存函数:

其中,

(1.8.2)、其中训练集与测试集的比例设置为8:2,将结果可视化;

(1.8.3)、使用一致性指数(C-index)DNN-MTLR模型评估深度神经网络多任务逻辑回归模型的辨识力:其中C-index代表对深度神经网络多任务逻辑回归模型辨识力的整体评估,得出C-index:(0.82).1为最佳预测模型,数值0.5为随机预测模型,0为不适用的模型。得出其C-index计算公式为:

其中,C-index表示一致性指数,ηi表示一个单位i的风险评分;1Tj

(1.8.4)、使用综合布里氏评分(IBS)对深度神经网络多任务逻辑回归 (DNN-MTLR)模型的精确度进行评估:其中,IBS代表评估模型预测生存函数的精确度,IBS数值:(0.06),其中,0为最佳可能值;IBS<0.25代表有用的模型;其中,IBS计算公式为:

其中,IBS表示综合布里氏评分,用来评估模型预测生存函数的精确度。N 为数据样本数,

具体实施例:

(1)、获取数据:得到病人甲的CT影像组学数据。

(2)、对CT影像组学影像组学数据进行结直肠肿瘤区域标注。

(3)、对获取的数据进行预处理,得到时间与状态标签。

(4)、构建基于深度神经网络的特征学习模型,得到病人甲的CT影像组学深度高通量特征。

(5)、利用lasso回归算子对CT影像组学数据的深度高通量特征进行降维处理,并建立病人甲的风险评分模型。

(6)根据病人甲的影像组学风险评分,将病人甲分为高风险组。

(7)对得到的深度高通量特征进行评估与验证。

(8)、将降维得到的特征放入深度神经网络多任务逻辑回归模型进行生存期概率预测,最终得出预测结果。

其中结果如图7所示,其中按年统计的概率结果如下表所示:

结果显示,可将此类方法用于对结直肠癌病人的生存期预测。

相关技术
  • 基于深度学习CT影像组学的结直肠癌生存期预测方法
  • 一种基于影像组学的生存期预测方法及装置
技术分类

06120112369293