掌桥专利:专业的专利平台
掌桥专利
首页

一种易于铜死亡的肝内胆管癌患者的精准诊断模型的构建方法及其应用

文献发布时间:2024-04-18 20:01:55


一种易于铜死亡的肝内胆管癌患者的精准诊断模型的构建方法及其应用

技术领域

本发明属于生物医学技术领域,具体涉及一种易于铜死亡的肝内胆管癌患者的精准诊断模型的构建方法及其应用。

背景技术

肝内胆管癌(Intrahepatic cholangiocarcinoma,ICC)是一种起源于次级胆管及其分支上皮的腺癌,约占原发性肝癌的20%,仅次于肝细胞癌(Hepatocellularcarcinoma,HCC)。ICC起病隐匿,且极易侵犯肝周器官、组织、神经和淋巴结,因而大多数患者在诊断时通常往往处于疾病晚期阶段,彼时已缺乏有效的治疗手段。尽管ICC的治疗方法(肝切除术、放化疗、免疫治疗和靶向治疗等)在过去几十年中发展迅速,接受治疗的ICC患者的1年生存率有所提高,但5年生存率依旧不如意(仅20%-40%),远比接受治疗的HCC患者预后差(50%-70%)。近年来,精准医疗的概念受到越来越多的关注。每个ICC患者在病因、发病机制、免疫组化特征等方面都有巨大的差异。针对上述情况,急需精准的诊疗策略以提高ICC的远期生存率。程序性细胞死亡(Programmed cell death,PCD)主要包括凋亡、自噬、铁死亡、焦亡、坏死性凋亡和铜死亡,可显著影响恶性肿瘤的发生和转移。在这些PCD类型中,铜死亡是一种新提出的机制,由铜稳态失衡导致,并由蛋白脂酰化介导。具体而言,铜死亡是通过铜与三羧酸循环TCA的脂酰化成分直接结合而发生的。这导致了脂酰化蛋白质聚集,和铁硫簇蛋白质丢失,进而引发蛋白质毒性应激,并最终致使细胞死亡。考虑到铜死亡研究在ICC诊疗领域的广泛前景以及尚无研究者进行相应的探索,因此,构建易于铜死亡的肝内胆管癌患者的精准诊断模型,以期为相应患者的临床诊疗提供有益思路具有重要意义。

发明内容

本发明的目的是针对现有技术的不足,提供一种易于铜死亡的肝内胆管癌患者的精准诊断模型的构建方法及其应用,以期为相应患者的临床诊疗提供有益思路。本发明团队的研究表明,与不易铜死亡的ICC患者相比,易于铜死亡的ICC患者(该类患者具有铜死亡通路高表达和其他PCD通路的不高表达(低表达或表达无差异)的特点),具有更令人满意的远期预后和对铜载体Elesclomol的反应更敏感。

本发明采用的方案具体如下:

一种易于铜死亡的肝内胆管癌患者的精准诊断模型的构建方法,包括以下步骤:

步骤一:收集肝内胆管癌患者的组织RNA测序数据构建训练集;

步骤二:收集程序性细胞死亡相关的基因,构建泛PCD基因集;

步骤三:基于泛PCD基因集进行训练数据集的单样本基因集富集分析,基于ssGSEA分析结果,使用ConsensusClusterPlus进行无监督聚类分析,将训练集中的肝内胆管癌患者分为两个亚型:C1对应于易于铜死亡的ICC患者和C2对应于不易于铜死亡的ICC患者;

步骤四:通过加权基因共表达网络分析对训练数据集的组织转录组测序矩阵进行处理,得到共表达模块,取差异最明显的共表达模块与亚型间的差异基因之间的交集,得到交集基因,最后从交集基因中筛选出易于铜死亡的肝内胆管癌患者的关键基因;

步骤五:基于关键基因构建获得肝内胆管癌患者的精准诊断模型。

进一步地,所述步骤四中,从交集基因中筛选出易于铜死亡的肝内胆管癌患者的关键基因具体为:

采用多种机器学习算法分别从交集基因中筛选出可用以识别易于发生铜死亡的ICC患者的关键基因,再取多种机器学习算法筛选结果的交集获得最终的易于铜死亡的肝内胆管癌患者的关键基因。

进一步地,肝内胆管癌患者的精准诊断模型表示如下:

评分=CASP1基因表达量*13.2+CD274基因表达量*57.5+GZMB基因表达量*11.1+DAPP1基因表达量*10.5+EPSTI1基因表达量*9.7-44.7,评分越低,表示患者易于铜死亡的可能性越高。

进一步地,还包括基于验证集对构建获得的肝内胆管癌患者的精准诊断模型的验证步骤。

一种所述构建方法构建易于铜死亡的肝内胆管癌患者的精准诊断模型在构建肝内胆管癌患者Elesclomol化疗敏感性预测装置、肝内胆管癌患者预后预测装置中的应用。

一种肝内胆管癌患者Elesclomol化疗敏感性预测装置,包括:

数据获取单元,用于获取患者的CASP1、CD274、GZMB、DAPP1和EPSTI1基因表达水平;

预测模块,用于基于权利要求1-4任一项所述构建方法构建易于铜死亡的肝内胆管癌患者的精准诊断模型计算获得患者的评分,其中,评分越低的患者,易于铜死亡的可能性越高,对Elesclomol化疗敏感性越高。

一种肝内胆管癌患者预后预测装置,包括:

数据获取单元,用于获取患者的CASP1、CD274、GZMB、DAPP1和EPSTI1基因表达水平;

预测模块,用于基于所述构建方法构建易于铜死亡的肝内胆管癌患者的精准诊断模型计算获得患者的评分,其中,评分越低的患者,易于铜死亡的可能性越高,生存期越长,预后越好。

本发明的有益效果是

本发明提供一种易于铜死亡的肝内胆管癌患者的精准诊断模型的构建方法及其应用,这有助于临床医生对易于铜死亡的肝内胆管癌亚型进行早期预测,可指导临床医生为易于铜死亡的肝内胆管癌患者提供积极且精准的诊疗方案。

附图说明

下面结合附图和实施例对本发明进一步说明;

图1是基于ssGSEA分析结果的一致性聚类的聚类热图(k=2);

图2是C1和C2人群的ssGSEA结果的差异图;

图3是训练集中的C1和C2人群的Kaplan-Meier生存分析曲线图;

图4是C2 vs C1的GSEA分析结果图,包括单核细胞通路(A)、铜稳态(B)、PD1通路(C)以及通过PD1阻断肿瘤免疫(D);

图5是在训练集的C1和C2人群之间进行的WGCNA分析结果图;

图6为采用支持向量机递归特征消除(SVM-REF)算法,从特定交集(差异最明显的WGCNA共表达模块与亚型间的差异基因之间的交集)基因中筛选出易于铜死亡的ICC患者的关键基因,A为SVM-REF的误差曲线图,B为SVM-REF的正确率曲线图;

图7为采用最小绝对收缩和选择算法(LASSO)算法,从特定交集(差异最明显的WGCNA共表达模块与亚型间的差异基因之间的交集)基因中筛选出易于铜死亡的ICC患者的关键基因,A为LASSO系数路径图,B为LASSO回归分析交叉验证曲线;

图8为采用随机森林算法(RF)算法,从特定交集(差异最明显的WGCNA共表达模块与亚型间的差异基因之间的交集)基因中筛选出易于铜死亡的ICC患者的关键基因,A为随机森林筛选出来的基因及其重要性,B为随机森林数据的误差率;

图9为采用三种机器学习算法,从特定交集(差异最明显的WGCNA共表达模块与亚型间的差异基因之间的交集)基因中筛选出易于铜死亡的ICC患者的关键基因的示意图;

图10是基于5个关键基因构建的易于铜死亡的肝内胆管癌患者的精准诊断模型的列线图模型;

图11是易于铜死亡的肝内胆管癌患者的精准诊断模型在训练集中的内部验证(ROC分析)结果曲线;

图12是易于铜死亡的肝内胆管癌患者的精准诊断模型在训练集中的内部验证(校准曲线分析)结果图;

图13是易于铜死亡的肝内胆管癌患者的精准诊断模型在训练集中的内部验证(决策曲线分析)结果图;

图14是多中心数据集中的C1 vs C2的化疗敏感性分析,其中,A为FU-ICC数据集的化疗敏感性分析,B为SRRSH-ICC数据集的化疗敏感性分析,C为GSE26566数据集的化疗敏感性分析,D为E-MTAB-6389数据集的化疗敏感性分析;

图15是SRRSH-ICC队列中C1与C2人群的生存分析(按列线图评分=164.899进行分组)的结果图。

具体实施方式

本发明提供了一种易于铜死亡的肝内胆管癌患者的精准诊断模型的构建方法及其应用。本发明旨在构建易于铜死亡的肝内胆管癌患者的精准诊断模型,以期为相应患者的临床诊疗提供有益思路。

下面结合具体的实施例对本发明的效果作进一步说明。

本发明的一种易于铜死亡的肝内胆管癌患者的精准诊断模型的构建方法,包括以下步骤:

步骤一:从已发表文献中下载ICC患者的组织RNA测序数据FU-ICC(n=255)作为训练集(Dong L,et al.Proteogenomic characterization identifies clinicallyrelevant subgroups of intrahepatic cholangiocarcinoma.Cancer Cell.2022Jan 10;40(1):70-87.e15.);此外,本发明纳入3个验证集,分别是SRRSH-ICC队列(来自于浙江大学医学院附属邵逸夫医院,n=65),GSE26566(来自于Gene Expression Omnibus(GEO)网站,https://www.ncbi.nlm.nih.gov/geo/,n=104)和E-MTAB-6389(来自于EuropeanMolecular Biology Laboratory-European Bioinformatics Institute(EMBL-EBI)网站,https://www.ebi.ac.uk/biostudies/arrayexpress/studies/E-MTAB-6389#o1,n=78)。数据集的相应信息见表1和表2。本发明将训练集和验证集数据进行标准化和均一化后进行后续的研究。

表1纳入研究的数据集的基本信息

表2纳入数据集的临床特征

步骤二:从Gene Set Enrichment Analysis(GSEA))中收集PCD的基因集(http://www.gsea-msigdb.org/gsea/msigdb/index.jsp)(包括凋亡、自噬、铁死亡、焦亡、坏死性凋亡),并收集了文献中有关铜死亡的基因集,最终归纳出包含六种PCD通路的泛PCD基因集,如表3所示。

表3包含六种程序性细胞死亡通路(PCD)的基因总结(泛PCD基因集)

步骤三:易于铜死亡的ICC患者的筛选

首先,基于泛PCD基因集进行训练数据集的单样本基因集富集分析(Singlesample gene set enrichment analysis,ssGSEA),基于ssGSEA分析结果,使用ConsensusClusterPlus进行无监督聚类分析,即采用欧氏距离的凝聚式km聚类方法,并对80%的样本进行十次重复采样。使用经验累积分布函数图确定最佳的聚类数目,并通过主成分分析(PCA)验证聚类分析的效果。只有当以下三个条件同时满足时,随后构建的易于铜死亡的肝内胆管癌患者的精准诊断模型才能符合本发明的要求:①铜死亡通路高表达和其他PCD通路(基于GSEA网站)的不高表达(低表达或表达无差异)作为区分易于铜死亡的ICC亚型的特征;②易于铜死亡的ICC患者与不易发生铜死亡的患者的远期预后存在显著差异;③铜死亡亚型影响ICC患者的临床化疗敏感性。对泛PCD途径进行了一致性聚类的ssGSEA分析的结果如图1-2所示,当k=2时,观察到k=2至10聚类的最佳稳定性结果(图1)。根据训练数据集中的255名ICC患者,将其分为两个亚型:C1(n=141,易于铜死亡的ICC患者)和C2(n=114,不易于铜死亡的ICC患者),其临床特征参见表2。

图2显示了C1和C2之间的ssGSEA分析结果存在的差异。具体而言,铜死亡途径在C1中表现出比C2更为活跃的特征。相比之下,C1中其他PCD通路的表达水平(包括凋亡、自噬、铁死亡、焦亡和坏死性凋亡)低于C2,或者在两个队列之间没有明显差异。因此,C1队列可以被定义为易于发生铜死亡的ICC患者。Kaplan-Meier生存分析显示,C1队列的远期预后比C2队列更为令人满意(P=0.0037)(图3)。

已知(Gene Set Enrichment Analysis,GSEA)分析有助于揭示两群人的潜在特征差异,本研究的GSEA结果表明,与C1相比,C2患者在单核细胞通路、铜稳态、PD1通路以及通过PD1阻断癌症免疫治疗等通路上具有更丰富的表达(P<0.05)(图4)。

步骤四:易于铜死亡ICC患者的关键基因的筛选

为了筛选出能够区分易于铜死亡的ICC患者的关键基因,首先通过加权基因共表达网络分析(Weighted Gene Co-expression Network Analysis,WGCNA)对训练数据集的组织转录组测序矩阵进行处理,共得到了25个共表达模块,其中黑色模块(p=7e-27,第一显著)和白色模块(p=7e-25,第二显著)与C1之间存在最明显的差异,并且与C1呈负相关(图5)。然后,将这些共表达模块所包含的基因与亚型间的差异基因进行了交集分析,并得到25个交集基因。最终,采用三种机器学习算法(支持向量机递归特征消除,SVM-REF;随机森林,RF;最小绝对收缩和选择算法,LASSO)筛选交集基因中的可用以识别易于发生铜死亡的ICC患者的关键基因(图6-9)。

SVM-REF筛选出的前十个基因分别是CASP1、EPSTI1、GZMB、XAF1、DAPP1、CXCL9、CXCL11、CCL8、CD274和IDO1;通过RF筛选获得的前十个基因是CASP1、CD274、EPSTI1、GZMB、SAMD9L、ETV7、DAPP1、GBP4、RARES3和OAS2;LASSO筛选的基因为ADAMDEC1、CASP1、CCL8、CD274、CXCL10、CXCL11、CXCL9、GBP5、GZMB、IDO1、NCF1、RARRES3、DAPP1、EPSTI1、ETV7、IFI6、OAS2和XAF1。使用这三种机器学习算法获得的关键基因为上述列出基因的交集,即CASP1、CD274、GZMB、DAPP1和EPSTI1(图9)。

步骤五:易于铜死亡的肝内胆管癌患者的精准诊断模型的构建

使用从上述筛选策略中获得的五个关键基因构建了易于铜死亡的肝内胆管癌患者的精准诊断模型,公式如下:评分=CASP1基因表达量*13.2+CD274基因表达量*57.5+GZMB基因表达量*11.1+DAPP1基因表达量*10.5+EPSTI1基因表达量*9.7-44.7,评分越低,表示患者易于铜死亡的可能性越高。图10所示为对应诊断模型的logistic列线图模型形式。

为了进行内部验证,对区分训练集中的C1和C2队列的列线图模型进行ROC分析,采用训练数据集的受试者工作特征(Receiver operating characteristic,ROC)曲线来计算曲线下面积(Area under the curve,AUC),列线图模型的AUC值为0.959(0.938–0.980)。结果表明,本实施例构建的列线图具有良好的区分能力。此外,根据ROC分析,用于区分C1和C2队列的列线图模型的最佳截断值为164.899(图11)。绘制应用于训练集的模型的校准曲线,以评估预测结果与实际结果之间的差异;列线图模型的校准曲线表明了预测结果和实际结果之间的差异并不明显(图12)。使用决策曲线分析(Decision curve analysis,DCA)来评估列线图模型是否有利于训练集的临床应用;DCA分析表明,列线图模型在训练集数据中有一定的临床应用价值(图13)。

外部验证主要集中在列线图模型的临床应用,包括化疗敏感性和生存分析。训练集的化疗敏感性分析表明,与C2相比,C1队列对伊利司莫Elesclomol的IC50值更低(P<0.05),即C1队列可能对Elesclomol有更敏感的化疗反应。然而,C1队列对一线ICC化疗药物(如吉西他滨、顺铂和紫杉醇)没有表现出更好的反应性(图14A)。根据训练集列线图得分的截断值(164.899),验证集可分为易于和不易于铜死亡的ICC患者。与在训练集观察到的趋势一致,验证集的化疗敏感性分析表明,与C2相比,C1队列可能对Elesclomol有更敏感的化疗反应(P<0.005),而两组对一线ICC化疗药物的反应没有显著差异(图14B-D)。与前述趋势相一致(图3),SRRSH-ICC数据集的生存分析也表明,与C2相比,C1队列通常具有更令人满意的远期预后(P=0.040)(图15)。

综上,研究表明,与不易铜死亡的ICC患者相比,易于铜死亡的ICC患者(该类患者具有铜死亡通路高表达和其他PCD通路的不高表达(低表达或表达无差异)的特点),具有更令人满意的远期预后和对铜载体Elesclomol的反应更敏感,构建获得的肝内胆管癌患者的精准诊断模型可用于构建肝内胆管癌患者Elesclomol化疗敏感性预测装置、肝内胆管癌患者预后预测装置,具体地,一种肝内胆管癌患者Elesclomol化疗敏感性预测装置,包括:

数据获取单元,用于获取患者的CASP1、CD274、GZMB、DAPP1和EPSTI1基因表达水平;

预测模块,用于基于所述构建方法构建获得的肝内胆管癌患者的精准诊断模型计算获得患者的评分,其中,评分越低的患者,易于铜死亡的可能性越高,对Elesclomol化疗敏感性越高。一种肝内胆管癌患者预后预测装置,包括:

数据获取单元,用于获取患者的CASP1、CD274、GZMB、DAPP1和EPSTI1基因表达水平;

预测模块,用于基于所述构建方法构建易于铜死亡的肝内胆管癌患者的精准诊断模型计算获得患者的评分,其中,评分越低的患者,易于铜死亡的可能性越高,生存期越长,预后越好。

上述装置中,如需直接确定患者属于哪类人群,可从均一化和标准化的组织RNA测序数据中得到CASP1、CD274、GZMB、DAPP1和EPSTI1基因表达量,接着通过列线图公式和列线图得分的截断值(164.899)直接确定所属分组;如只需比较两群人的列线图评分高低和易于铜死亡的可能性高低,可通过qPCR或免疫组化,判断两群人的列线图评分高低。

本发明的一种肝内胆管癌患者预后预测装置、一种肝内胆管癌患者Elesclomol化疗敏感性预测装置可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。

装置实施例可以通过软件实现,也以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的从硬件层面而言,主要包括处理器、内存、网络接口、以及非易失性存储器,所述处理器执行所述计算机程序时实现依据于所述构建方法构建易于铜死亡的肝内胆管癌患者的精准诊断模型计算获得患者的评分,并依据评分进行肝内胆管癌患者Elesclomol化疗敏感性预测和肝内胆管癌患者预后预测。除此之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。

除此之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。

技术分类

06120116569038