一种判断膀胱癌肌层浸润状态的系统及其应用
文献发布时间:2023-06-19 13:26:15
技术领域
本发明属于生物医学领域,具体涉及一种判断膀胱癌肌层浸润状态的系统及其应用。
背景技术
膀胱癌(BCa)在全球癌症发病率中排名第九,是泌尿系统最常见的恶性肿瘤之一。病理学上,膀胱癌可分为非肌层浸润性膀胱癌(NMIBC)和肌层浸润性膀胱癌(MIBC)。与NMIBC相比,MIBC的恶性程度较高、复发率更高,进展更快。因此,MIBC的治疗不同于NMIBC。病理学活组织检查是诊断膀胱癌肌层浸润的金标准。然而,活组织检查的操作和诊断取决于操作者,由于不可能对肿瘤的每个部位进行取样,在活检样本不足或者质量差的情况下,MIBC可能被错误诊断为NMIBC,从而影响治疗方法的选择。
因此,有必要探索膀胱癌术前评估肌层浸润的其他方法,以补充现有方法的不足,以及更便于准确的选择合适的治疗方案。计算机断层扫描(CT)是膀胱癌患者最常用的术前评估方法,用于确定肿瘤病灶的位置、数量、大小、与周围组织的关系、淋巴结转移和远处转移。但传统的CT图像不能用于评估BCa中的肌层浸润状态,因为其软组织分辨率不理想,无法区分膀胱壁的不同层。
近年来,新兴领域影像组学的发展使人们能够深入挖掘CT图像的生物学性质,并对肿瘤的整体形态和纹理模式进行全面、无创和定量的观察。
发明内容
CT影像组学提供有关肌层浸润的信息来促进BCa术前评估的潜力尚未被探索。因此,本发明旨在提供一种判断膀胱癌肌层浸润状态的模型及其应用,为临床治疗方案的选择提供参考。
一方面本发明提供了一种特征组合,所述特征组合包括如下27个特征:
original_shape_Maximum2DdiameterColumn、
original_shape_Maximum2DDiameterSlice、
original_firstorder_Uniformity、
log-sigma-1-0-mm-3D_glszm_ZonePercentage、
log-sigma-2-0-mm-3D_glcm_Autocorrelation、
log-sigma-2-0-mm-3D_glcm_JointEnergy、
log-sigma-2-0-mm-3D_glszm_GrayLevelNonUniformity、
log-sigma-3-0-mm-3D_firstorder_Kurtosis、
log-sigma-4-0-mm-3D_glszm_GrayLevelNonUniformity、
log-sigma-4-0-mm-3D_glszm_SizeZoneNonUniformity、
log-sigma-4-0-mm-3D_gldm_LowGrayLevelEmphasis、
wavelet-LLH_glcm_JointAverage、
wavelet-LLH_glszm_LargeAreaLowGrayLevelEmphasis、
wavelet-LLH_glszm_SmallAreaEmphasis、
wavelet-LHL_gldm_HighGrayLevelEmphasis、
wavelet-LHH_glrlm_HighGrayLevelRunEmphasis、
wavelet-LHH_glrlm_ShortRunEmphasis、
wavelet-HLL_firstorder_Kurtosis、
wavelet-HLL_glrlm_HighGrayLevelRunEmphasis、
wavelet-HLL_glrlm_RunEntropy、
wavelet-HLL_glszm_LargeAreaHighGrayLevelEmphasis、
wavelet-HLH_firstorder_Skewness、
wavelet-HLH_glrlm_HighGrayLevelRunEmphasis、
wavelet-HLH_gldm_GrayLevelVariance、
wavelet-HHH_glszm_HighGrayLevelZoneEmphasis、
wavelet-HHH_glszm_SizeZoneNonUniformity、
wavelet-LLL_firstorder_Median;
或者,所述特征组合包括如下8个特征:
original_shape_Maximum2DDiameterColumn、
original_shape_Maximum2DDiameterSlice、
log-sigma-1-0-mm-3D_glszm_ZonePercentage、
log-sigma-2-0-mm-3D_glszm_GrayLevelNonUniformity、
wavelet-LHL_gldm_HighGrayLevelEmphasis、
wavelet-LHH_glrlm_HighGrayLevelRunEmphasis、
wavelet-HLL_firstorder_Kurtosis、
wavelet-LLL_firstorder_Median。
所述特征名称中包括三部分,分别以“_”连接,具体为“第一特征名称_第二特征名称_第三特征名称”,所述第一特征名称是滤波处理方式,所述第二特征名称是该特征所属于的特征矩阵。
所述“original”是指不进行滤波处理。
所述“wavelet”是指小波滤波器滤波处理,具体地可以是在xyz方向分别为高通(H)/低通(L)的小波滤波器滤波,总共有8种。
优选地,本发明所涉及的wavelet包括wavelet-LLH、wavelet-LHL、wavelet-LHH、wavelet-HLL、wavelet-HLH、wavelet-HHH。
所述“log-sigma-n-0-mm-3D”是指采用sigma参数为“n”mm的拉普拉斯高斯滤波器滤波处理。
优选地,所述n选自1、2、3、4。
优选地,所述“特征矩阵”包括以下:
第一阶特征(First Order Features)、
2D形状特征(Shape Features(2D))、
3D形状特征(Shape Features(3D))、
Gray Level Co-occurrence Matrix(GLCM)特征矩阵、
Gray Level Size Zone Matrix(GLSZM)特征矩阵、
Gray Level Run Length Matrix(GLRLM)特征矩阵、
Neighbouring Gray Tone Difference Matrix(NGTDM)特征矩阵、
Gray Level Dependence Matrix(GLDM)特征矩阵。
优选地,所述“特征矩阵”选自第一阶特征(First Order Features)、2D形状特征(Shape Features(2D))、GLCM特征矩阵、GLSZM特征矩阵、GLRLM特征矩阵、GLDM特征矩阵。
所述“firstorder”是指通过常用的和基本的度量(commonly used and basicmetrics)来描述由掩模(mask)定义的图像区域内体素强度(voxel intensities)的分布。
所述“Maximum2DDiameterColumn”是指最大2D直径;具体地,是指行切片(通常为冠状面)平面中肿瘤表面网格顶点之间的最大成对欧氏距离。
所述“Maximum2DDiameterSlice”是指最大2D直径;具体地,行-列(通常为轴向)平面中肿瘤表面网格顶点之间的最大成对欧氏距离。
所述“Median”是指ROI内的灰度强度的中值。
其他“第三特征名称”的计算公式如本发明表2所示。
另一方面,本发明提供了一种可用于判断膀胱癌肌层浸润状态的特征的筛选方法,所述方法包括以下步骤:
S1:收集受试者成像信息;
S2:肿瘤病灶分割;
S3:影像组学特征提取;
S4:特征筛选。
优选地,所述S1中,受试者进行了术前CT泌尿系成像(CTU),并且受试者没有以下任意一种情况:
(i)接受了术前治疗,
(ii)TURBT标本没有显示肌层组织,
(iii)术前增强CT图像未发现肉眼可见肿瘤。
优选地,所述成像信息中,如有多个膀胱癌病变,仅对最大的膀胱癌病变进行影像组学分析。
优选地,所述S2中分割的操作通过自动和/或手动校准。
优选地,所述自动是通过Deepwise(深睿)研究平台的水平集分割算法进行。
优选地,所述S3使用Pyradiomics tool对特征进行提取。
优选地,所述提取的对象是重新采样过的图像。
优选地,所述重新采样包括利用小波滤波器(wavelet filte)对图像xyz方向分别进行高通(high-pass)或低通(low-pass)过滤,利用不同σ参数的拉普拉斯高斯滤波器(Laplacian of Gaussian filter)对图像进行预处理。
优选地,所述σ包括1-5mm;更优选地,1、2、3、4mm;
优选地,所述S4中,所述特征都通过z评分标准化(z-score normalization)进行标准化。
优选地,所述S4包括对所有特征进行MRMR特征选择处理;
优选地,所述特征筛选方法的筛选结果是前述27个特征的特征组合。
另一方面,本发明提供了使用前述27个特征的特征组合或筛选得到的特征组合构建用于检测膀胱癌肌层浸润状态、筛选膀胱癌肌层浸润的图像的模型的构建方法;
优选地,所述构建方法中还包括对特征进行回归分析。
优选地,所述验证优化的方法是十折交叉验证。优选地,所述回归包括线性回归(Linear Regression)、逻辑回归(Logistic Regression)、多项式回归(PolynomialRegression)、逐步回归(Stepwise Regression)、岭回归(Ridge Regression)、套索回归(Lasso Regression)、ElasticNet回归。
优选地,所述回归分析是逻辑回归分析。
优选地,所述构建方法中还包括验证优化模型的步骤。
优选地,所述S4中,使用模型在训练集上执行十折交叉验证(10-run 10-foldcross-validation)程序。
优选地,所述筛选方法中还包括S5:验证的步骤。
优选地,最终构建的模型由前述8个特征的特征组合组成。
另一方面,本发明提供了前述特征组合的特征提取方法,所述方法包括采集受试者图像,对图像进行重新采样,获得前述特征组合。
本发明所述“特征”皆为“影像组学特征”,二者有相同含义,可以相互替换。
另一方面,本发明提供了一种检测膀胱癌肌层浸润状态、筛选膀胱癌肌层浸润的图像的方法,所述方法包括以下步骤:
S1:收集受试图像;
S2:肿瘤病灶分割;
S3:影像组学特征提取;
S4:根据特征判断是否有肌层浸润。
另一方面,本发明提供了一种检测膀胱癌肌层浸润状态、筛选膀胱癌肌层浸润的图像的系统,所述系统包括根据从图像上提取的前述特征组合计算风险值进行判断的计算装置。
优选地,所述计算装置中的计算公式是:
1/[1+exp(-0.358+0.0388*original_shape_Maximum2DDiameterColumn
+0.9112*original_shape_Maximum2DDiameterSlice
-0.3466*log-sigma-1-0-mm-3D_glszm_ZonePercentage
+0.4695*log-sigma-2-0-mm-3D_glszm_GrayLevelNonUniformity
-0.0784*wavelet-LHL_gldm_HighGrayLevelEmphasis
-0.0274*wavelet-LHH_glrlm_HighGrayLevelRunEmphasis
-0.1288*wavelet-HLL_firstorder_Kurtosis
+0.3057*wavelet-LLL_firstorder_Median)]
优选地,所述图像是CT图像。
优选地,所述图像是经过重新采样的,所述重新采样包括利用小波滤波器(wavelet filte)对图像进行高通(high-pass)或低通(low-pass)过滤,利用不同σ参数的拉普拉斯高斯滤波器(Laplacian of Gaussian filter)对图像进行预处理。
优选地,所述图像通过自动和/或手动校准。
优选地,所述自动是通过Deepwise研究平台的水平集分割算法进行。
优选地,所述系统包括收集原始CT图像的收集装置、重新采样装置、病灶分隔装置、前述计算装置中的一种或多种。
优选地,所述原始CT图像包括使用任一CT仪器采集的图像。
优选地,所述CT仪器包括GE能谱CT(Discovery CT 750HD scanner,GE MedicalSystems,USA)、西门子双源双能CT(Somatom Definition Flash,Siemens Healthcare,Germany)、64排CT(Brilliance CT,Royal Philips,Netherlands)。
优选地,所述重新采样装置通过小波滤波器和/或拉普拉斯高斯滤波器对图像进行预处理。
优选地,所述病灶分隔装置通过自动和/或手动校准图像。
更优选地,所述病灶分隔装置通过Deepwise平台的水平集分割算法(level setsegmentation algorithm)自动描绘病变区域,然后放射科医生手动校准不准确的肿瘤边缘。
优选地,所述系统还包括输出判断结果的输出装置。
另一方面,本发明提供了一种检测膀胱癌肌层浸润状态、筛选膀胱癌肌层浸润的图像的设备,所述设备包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用程序指令,当程序指令被执行时,用于执行以下操作:收集原始CT图像、病灶分隔、重新采样、计算得到最终结果;
优选地,所述原始CT图像包括使用任一CT仪器采集的图像;
优选地,所述CT仪器包括但不限于GE能谱CT、西门子双源双能CT、64排CT;
优选地,所述病灶分隔包括通过自动分割和/或手动校准图像;
优选地,所述自动分割是通过深睿研究平台的水平集分割算法进行;
优选地,所述重新采样包括利用小波滤波器对图像xyz方向分别进行高通或低通过滤、利用不同σ参数的拉普拉斯高斯滤波器对图像进行预处理;
优选地,所述σ包括1-5mm;更优选地,1、2、3、4mm。
另一方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述筛选方法、构建方法、提取方法、或检测膀胱癌肌层浸润状态、筛选膀胱癌肌层浸润的图像的方法。
另一方面,本发明提供了前述特征组合、系统、设备、计算机可读存储介质在检测膀胱癌肌层浸润状态、筛选膀胱癌肌层浸润的图像中的应用。
另一方面,本发明提供了前述特征组合、系统、设备、计算机可读存储介质在制备检测膀胱癌肌层浸润状态、筛选膀胱癌肌层浸润的图像的产品中的应用。
附图说明
图1为图像分析流程图。
图2为本发明所提供的模型中的部分特征的β系数。
图3为本发明所提供的模型在各个数据集中的效果验证,A:ROC,B:校准曲线。
图4为内部和外部测试集中本发明所提供的模型的得分分布和患者实际肌层浸润状态的对应关系,A:内部测试集,B:外部测试集。
具体实施方式
下面结合实施例对本发明做进一步的说明,以下所述,仅是对本发明的较佳实施例而已,并非对本发明做其他形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更为同等变化的等效实施例。凡是未脱离本发明方案内容,依据本发明的技术实质对以下实施例所做的任何简单修改或等同变化,均落在本发明的保护范围内。
1、患者信息
表1.患者信息
纳入研究的患者包括在我院接受经尿道膀胱肿瘤切除术(TURBT)或根治性膀胱切除术前20天内进行术前CT泌尿系成像(CTU)的患者。如果患者(i)接受了任何术前治疗,(ii)他们的TURBT标本在切除后没有显示肌层组织;或(iii)术前增强CT图像未发现肉眼可见肿瘤,则排除在外。
经过以上标准筛选,本研究共纳入441例BCa患者,包括340名男性和101名女性。患者的平均年龄为65±12.9岁。根据收治时间和地点,在第一医疗中心2014年5月至2017年9月收治的293例患者列为训练集,2017年10月至2018年7月收集的73例患者列为内部测试集,在第二医疗中心收集的75例患者列为外部测试集。
MIBC在训练集中占25.9%(76/293),在内部测试集中占5%(15/73),在外部测试集中占3%(31/75)。在外部测试集中,MIBC的比例在统计学上更高(P<0.001)。
此外,在训练集和测试集之间,年龄、病变数量和CT值在不同数据集之间存在显著差异,但是性别比和病变大小之间没有显著差异(P>0.05)。具体患者信息如表1所示。
2、CT成像信息收集
第一医疗中心CT检测所使用的仪器是GE能谱CT(Discovery CT 750HD scanner,GE Medical Systems,USA)或者西门子双源双能CT(Somatom Definition Flash,SiemensHealthcare,Germany)。
第二医疗中心CT检测所使用的仪器是64排CT(Brilliance CT,Royal Philips,Netherlands)。
扫描参数如下:管电压120kV,自动管电流调节(西门子CT和GE CT)或300mA(飞利浦CT);准直64×0.6毫米(西门子CT)或64×0.625毫米(GE CT、飞利浦CT);螺距0.9;图像矩阵512×512;切片厚度/切片间隔,1mm/1mm(西门子CT、飞利浦CT)或0.625毫米/0.625毫米(GE Discovery CT)。
患者的扫描范围为从膈顶到盆底进行扫描。增强扫描后,患者注射100毫升非离子对比剂(Ultravist 370,德国拜耳制药公司),然后以4-4.5毫升/秒的速率静脉注射100毫升生理盐水。在胸腹主动脉交界处达到120Hu的团注触发阈值后的25s、75s和300s即可获得皮质髓质期、肾实质期和排泄期图像。但后续分析仅使用轴位肾实质期图像。
两位经验丰富的放射科医生(7年和15年的泌尿生殖系统成像经验)一起查看了所有CT图像,并记录了肿瘤的数量、大小和CT值。对于具有多个BCa病变的患者,仅选择最大的肿瘤进行影像组学分析。任何分歧都以协商一致方式解决。
3、肿瘤病灶分割
一位经验丰富的放射科医生(7年泌尿系统成像经验和6年肿瘤分割经验)在不知道任何临床病理信息的情况下,通过深睿研究平台(http://label.deepwise.com)半自动描绘整个肿瘤的3D感兴趣肿瘤体积(VOI)。首先通过平台的水平集分割算法(level setsegmentation algorithm)自动描绘病变区域,然后放射科医生手动校准不准确的肿瘤边缘。图像分析的总体工作流程如图1所示。
随机选择训练集中93个病变,8周后由同一名放射科医生和另一名放射科医生(2年泌尿生殖系统成像和肿瘤分割经验)重新分割,计算组内和组间相关系数(ICC)。
4、影像组学特征提取
使用Python软件包Pyradiomics tool(version 2.1.2,下载网址:https://pyradiom ics.readthedocs.io/en/latest/index.html)提取肿瘤VOI内的影像组学特征。为了抵消CT空间分辨率不均匀造成的干扰,对所有图像重新采样,使三个解剖方向上的像素大小均为1.0毫米。然后利用小波滤波器(wavelet filte)对图像进行高通(high-pass)或低通(low-pass)过滤,利用不同σ参数的拉普拉斯高斯滤波器(Laplacian of Gau ssian filter)对图像进行预处理,以增强图像的粗纹理或细纹理。基于原始图像和过滤后的图像,共提取了1218个特征,包括252个描述肿瘤内部CT值统计分布的一阶特征,14个描述肿瘤形态的特征,以及描述肿瘤纹理的特征:308个灰度共生矩阵特征(GLCM)、224个灰度游程长度矩阵特征(GLRLM)、224个灰度大小区域矩阵特征(GLSZM)和196个灰度相关性矩阵特征(GLDM)。
5、特征筛选和模型建立
排除组内或组间一致性小于0.8的特征,以增强模型的再现性。在特征选择和模型构建之前,所有特征都通过z评分标准化(z-score normalization)进行标准化。通过最大相关性和最小冗余(MRMR)特征选择方法选择放射特征的最佳子集,保留与肌层浸润最相关的特征和与其他病例特征最不相关的特征。
经过以上标准筛选出的27个特征,特征的命名规则:特征名称中包括三部分,分别以“_”连接,具体为第一特征名称_第二特征名称_第三特征名称,该名称中“第一特征名称”的含义是滤波处理方式,该名称中“第二特征名称”的含义是该特征所属于的特征矩阵,27个特征和该名称中“第三特征名称”的含义如下表2所示。
表2. 27个特征和该名称中“第三特征名称”的含义
第二特征名称部分解释如下:
log-sigma-1-0-mm-3D:采用sigma参数为1mm的拉普拉斯高斯滤波器滤波;
log-sigma-2-0-mm-3D:采用sigma参数为2mm的拉普拉斯高斯滤波器滤波;
log-sigma-3-0-mm-3D:采用sigma参数为3mm的拉普拉斯高斯滤波器滤波;
log-sigma-4-0-mm-3D:采用sigma参数为4mm的拉普拉斯高斯滤波器滤波;
wavelet-LLH:采用xyz方向分别为低通、低通、高通的小波滤波器滤波;
wavelet-LHL:采用xyz方向分别为低通、高通、低通的小波滤波器滤波;
wavelet-LHH:采用xyz方向分别为低通、高通、高通的小波滤波器滤波;
wavelet-HLL:采用xyz方向分别为高通、低通、低通的小波滤波器滤波;
wavelet-HLH:采用xyz方向分别为高通、低通、高通的小波滤波器滤波;
wavelet-HHH:采用xyz方向分别为高通、高通、高通的小波滤波器滤波;
以上特征经过逻辑回归(LR)分析,构建判断膀胱癌肌层浸润状态的模型。为了找到模型的最优参数,在训练集上执行十折交叉验证(10-run 10-fold cross-validation)程序,并将验证的结果组合起来形成交叉验证结果。对于每个交叉验证(cross-validation)阶段,使用自适应合成采样(ADASYN)方法处理训练折叠的MIBC和NMIBC的不平衡量,而验证折叠保持不变。具有最高ROC值的LR模型的超参数(惩罚项类型和C值)被选中。
6、模型验证
基于以上优化后的参数,使用整个训练集来获得最终模型。通过训练集、交叉验证结果、内部测试集、外部测试集评估模型的性能。模型的准确性、敏感性和特异性根据交叉验证结果最大化Youden指数的阈值进行评估。此外,决策曲线分析(DCA)和校准曲线用于评估模型的临床实用性。为了进一步解释该模型,将LR模型的特征对应的β系数可视化。LR模型的特征对应的β系数如图2所示,图2仅显示重要性不为零的特征。
最终获得的模型在各数据集中的效能如表3所示。
表3.各数据集中的效能
该模型在训练集(AUC 0.885,95%CI:0.841-0.929)和交叉验证集(AUC 0.856,95%CI:0.807-0.906)中,区分MIBC和NIMBC的能力优异。在内部测试集中,模型的AUC略有下降(0.820,95%CI:0.698–0.941)。在外部测试集中,模型的AUC为0.784表现稍差(95%CI:0.674-0.893)。其他参数包括准确度(0.782,95%CI:0.729–0.827)、敏感性(0.742,95%CI:0.551–0.875)和特异性(0.750,95%CI:0.594–0.863)大约在0.75左右;所有数据集cutoff值为0.4813547338438404。
所有数据集中本发明所提供的模型的ROC曲线如图3a所示,校准曲线如图3b所示,模型预测结果与真实病理分析结果之间具有较好的一致性。在外部训练集中,该模型的预测性能显示更接近完美校准。
图4分别说明了内部和外部测试集中预测得分的分布和单个患者的肌层侵袭性状态。
以上实施例证明,本发明提供了一种判断膀胱癌肌层浸润状态的模型,其在临床中的应用效果,具有较好的应用价值。