掌桥专利:专业的专利平台
掌桥专利
首页

一种用于胃癌患者的预后风险评估系统

文献发布时间:2023-06-19 11:14:36


一种用于胃癌患者的预后风险评估系统

技术领域

本发明涉及医学领域,具体而言,涉及一种用于胃癌患者的预后风险评估系统。

背景技术

根据世界卫生组织于发布的2018年最新全球癌症统计数据显示,胃癌的发病率与死亡率分别位居第五位和第三位,是东亚地区的特色癌症,发病率可达32.1/10万人,死亡率为13.2/10万人,其中,日本、韩国、中国的发病率与死亡率高居世界前列[1],因此,胃癌的预防与治疗应引起高度重视。胃癌的诊断常常较晚,尽管手术、放化疗、分子靶向及免疫治疗的进展改善了其总体预后,但仍不令人满意[2-4],探索有效的生物标记物,以对胃癌患者进行早期诊断及预后预测是迫在眉睫的。

DNA序列在很多疾病中不一定发生变化,大部分疾病中发生的变化是在表观遗传学水平,其次,与特定基因的广泛突变变异相比,启动子高甲基化发生在所有形式的癌症中的相同基因定义区域中[5]。所以采用表观遗传学水平中最常见的DNA甲基化差异表达对胃癌患者进行预后预测是比较可靠的。DNA甲基化是一个主要的表观遗传修饰,参与细胞增殖、分化,发育,凋亡,肿瘤以及其他疾病的发生等众多重要生命活动,也是最早被发现的DNA修饰类型之一。已有研究表明DNA甲基化能引起染色质结构和DNA稳定性等发生改变,从而调控基因的表达[6]。位于启动子区域的异常DNA甲基化通常导致抑癌基因的沉默或原癌基因的高表达,从而促进肿瘤的进展[7],其中抑癌基因甲基化最为常见,可作为早期的肿瘤标志物。目前有多项研究表明一些特定的DNA甲基化位点与胃癌密切相关,例如抑癌基因中细胞周期相关基因P16、MDGA2[8,9],细胞凋亡相关基因PCDH10、BCL6B[10,11]、信号转导相关基因FOXF2、RUNX3[12,13],以及原癌基因中RAS、c-myc[14,15]等。这些DNA甲基化位点的发现使其在胃癌的预后甚至治疗方面具有广阔的应用价值。然而,只有少量的DNA甲基化位点作为基础肿瘤标记物(NDRG4、BMP3和SEPTIN9)被批准纳入指南,转化成功率较低值得我们反思,这个问题的答案是多方面的,主要原因与测试样本小,病人选择存在偏差,研究设计与数据分析方法滞后,缺乏实质性的临床价值等因素有关,妨碍了我们彻底评估生物标志物的临床价值。随着生物信息学的发展,通过大数据、合理、科学的建立胃癌预后模型能够很好地解决上述问题。

申请号为201811346520.2的中国专利公开了“胶质母细胞瘤危险分层模型及其在临床预后评估的应用”,其是通过DNA甲基化特征的识别,构建胶质母细胞瘤预后模型。该技术在DNA甲基化层面对胶质母细胞瘤的特征进行整合,而DNA序列在胃癌中不一定发生变化,大部分疾病中发生的变化是在表观遗传学水平,其次,与特定基因的广泛突变变异相比,启动子高甲基化发生在所有形式的癌症中的相同基因定义区域中。所以采用表观遗传学水平中最常见的DNA甲基化差异表达对胃癌患者进行预后预测是比较可靠的。但该模型设计的DNA甲基化位点较多,成本较高,需要找到更合理的、更具代表性的DNA甲基化位点构建模型。

背景技术部分的引用文件如下:

[1]BRAY F,FERLAY J,SOERJOMATARAM I,et al.2018.Global cancerstatistics 2018:GLOBOCAN estimates of incidence and mortality worldwide for36cancers in 185countries[J].CA:a cancer journal for clinicians,68(6):394-424

[2]CATS A,JANSEN E P M,VAN GRIEKEN N C T,et al.2018.Chemotherapyversus chemoradiotherapy after surgery and preoperative chemotherapy forresectable gastric cancer(CRITICS):an international,open-label,randomisedphase 3trial[J].Lancet Oncol,19(5):616-628

[3]BANG Y J,XU R H,CHIN K,et al.2017.Olaparib in combination withpaclitaxel in patients with advanced gastric cancer who have progressedfollowing first-line therapy(GOLD):a double-blind,randomised,placebo-controlled,phase 3 trial[J].Lancet Oncol,18(12):1637-1651

[4]SUNDAR R,HUANG K K,QAMRA A,et al.2019.Epigenomic promoteralterations predict for benefit from immune checkpoint inhibition inmetastatic gastric cancer[J].Ann Oncol,30(3):424-430

[5]FU D G.2015.Epigenetic alterations in gastric cancer(Review)[J].Mol Med Rep,12(3):3223-3230

[6]NERI F,RAPELLI S,KREPELOVA A,et al.2017.Intragenic DNA methylationprevents spurious transcription initiation[J].Nature,543(7643):72-77

[7]DAS P M,SINGAL R.2004.DNA methylation and cancer[J].J Clin Oncol,22(22):4632-4642

[8]HIBI K,KOIKE M,NAKAYAMA H,et al.2003.A cancer-prone case with abackground of methylation of p16 tumor suppressor gene[J].Clin Cancer Res,9(3):1053-1056

[9]WANG K,LIANG Q,LI X,et al.2016.MDGA2 is a novel tumour suppressorcooperating with DMAP1 in gastric cancer and is associated with diseaseoutcome[J].Gut,65(10):1619-1631

[10]YU J,CHENG Y Y,TAO Q,et al.2009.Methylation of protocadherin 10,anovel tumor suppressor,is associated with poor prognosis in patients withgastric cancer[J].Gastroenterology,136(2):640-651 e641

[11]XU L,LI X,CHU E S,et al.2012.Epigenetic inactivation of BCL6B,anovel functional tumour suppressor for gastric cancer,is associated with poorsurvival[J].Gut,61(7):977-985

[12]HIGASHIMORI A,DONG Y,ZHANG Y,et al.2018.Forkhead Box F2Suppresses Gastric Cancer through a Novel FOXF2-IRF2BPL-beta-CateninSignaling Axis[J].Cancer Res,78(7):1643-1656

[13]SAKAKURA C,HASEGAWA K,MIYAGAWA K,et al.2005.Possible involvementof RUNX3 silencing in the peritoneal metastases of gastric cancers[J].ClinCancer Res,11(18):6479-6488

[14]NISHIGAKI M,AOYAGI K,DANJOH I,et al.2005.Discovery of aberrantexpression of R-RAS by cancer-linked DNA hypomethylation in gastric cancerusing microarrays[J].Cancer Res,65(6):2115-2124

[15]LICCHESI J D,VAN NESTE L,TIWARI V K,et al.2010.Transcriptionalregulation of Wnt inhibitory factor-1by Miz-1/c-Myc[J].Oncogene,29(44):5923-5934

发明内容

本发明提供一种用于胃癌患者的预后风险评估系统,用以解决上述现有技术存在的问题。

为达到上述目的,本发明提供了一种用于胃癌患者的预后风险评估系统,其包括:

胃癌甲基化数据获取模块,用于从UCSC Xena数据库中获取TCGA胃癌甲基化谱以及从GEO数据库中获取胃癌甲基化谱数据集GSE30601,其中,TCGA胃癌甲基化谱包括第一甲基化数据集和第二甲基化数据集,第一甲基化数据集为Illumina HumanMethylation450BeadChip并且包含2个正常样本和395个胃癌样本,第二甲基化数据集为IlluminaHumanMethylation27BeadChip并且包含25个正常样本和48个胃癌样本,胃癌甲基化谱数据集GSE30601包含94个正常样本和203个胃癌样本;

差异甲基化位点获取模块,其用于执行以下操作:将TCGA胃癌甲基化谱作为训练集,将胃癌甲基化谱数据集GSE30601作为验证集,对训练集中的27个正常样本和443个胃癌样本中的甲基化数据进行背景校正和归一化处理,以|logFC|>m,FDR

预后模型构建模块,将多个高甲基化位点和多个低甲基化位点分别对应的甲基化值与对应患者的生存数据进行合并,以P<0.01为阈值,P为对患者进行分类的阈值,进行单变量Cox比例风险回归分析,得到能够显著影响胃癌患者生存的甲基化位点,通过LASSO回归分析去除冗余甲基化位点后进行T次模拟,通过交叉验证获取去除重叠后的甲基化位点,得到剩余的N个预后相关的差异甲基化位点,对N个预后相关的差异甲基化位点利用多变量Cox回归分析构建每个患者的11-DNA甲基化位点风险评分公式:

Riskscore=[cg07990939甲基化水平*(-8.908)]+[cg08317263甲基化水平*(-1.739)]+[cg10301990甲基化水平*(-4.088)]+[cg10968649甲基化水平*(-20.267)]+[cg13801416甲基化水平*(-1.009)]+[cg19614321甲基化水平*(-1.779)]+[cg20074795甲基化水平*(12.778)]+[cg21052164甲基化水平*(-0.941)]+[cg26069252甲基化水平*(7.734)]+[cg26089280甲基化水平*(-8.569)]+[cg27662379甲基化水平*(-7.672)],

Riskscore为患者的11-DNA甲基化位点风险评分,上式中的甲基化标记物的特征及其相关系数如下表:

在本发明的一实施例中,m为1,n为0.01。

在本发明的一实施例中,T为10000。

本发明提供的用于胃癌患者的预后风险评估系统具有以下有益技术效果:

1.从TCGA、GEO数据库中下载了大量的胃癌甲基化谱、表达谱及临床数据;构建了胃癌预后模型,为筛选胃癌预后预测分子标志物提供了新的理论依据;

2.构建的胃癌预后模型能够很好的预测胃癌及胃癌患者的预后生存,敏感性与特异性优于其他同类型模型;

3.筛选的甲基化位点比较新颖,后续对这些甲基化位点的研究将具有重要的意义。

4.据查证,该模型为首个11-差异甲基化位点胃癌预后模型,位点少,成本低。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为胃癌的临床病例特征;

图2为胃癌中差异甲基化位点的甲基化热图;

图3为单变量Cox比例风险回归分析结果中最显著差异的前20个甲基化位点的森林图;

图4为LASSO回归分析,进行10000次模拟的结果;

图5为LASSO回归分析中每个甲基化位点对应的Coefficients值;

图6为TCGA胃癌数据集中预后模型所含的差异甲基化位点在低风险组和高风险组中甲基化热图;

图7为预后模型的ROC分析;

图8为预后模型相关差异甲基化位点的Kaplan-Meier生存分析;

图9为通过R软件包survival进行单因素独立预后分析的森林图;

图10为通过R软件包survival进行多因素独立预后分析的森林图;

图11为对胃癌中11个差异甲基化位点的预后模型进行ROC分析的结果图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明公开了一种用于胃癌患者的预后风险评估系统,其包括:

胃癌甲基化数据获取模块,用于从UCSC Xena数据库中获取TCGA胃癌甲基化谱以及从GEO数据库中获取胃癌甲基化谱数据集GSE30601,其中,TCGA胃癌甲基化谱包括第一甲基化数据集和第二甲基化数据集,第一甲基化数据集为Illumina HumanMethylation450BeadChip并且包含2个正常样本和395个胃癌样本,第二甲基化数据集为IlluminaHumanMethylation27BeadChip并且包含25个正常样本和48个胃癌样本,胃癌甲基化谱数据集GSE30601包含94个正常样本和203个胃癌样本;

UCSC Xena数据库的网址为https://xena.ucsc.edu/,GEO数据库的网址为https://www.ncbi.nlm.nih.gov/geo/,该两个数据库中的数据均是公开的,故本发明涉及的研究不需要道德批准或知情同意,可以参考文献[16]和[17]。如图1所示为胃癌的临床病例特征。

差异甲基化位点获取模块,其用于执行以下操作:将TCGA胃癌甲基化谱作为训练集,将胃癌甲基化谱数据集GSE30601作为验证集,对训练集中的27个正常样本和443个胃癌样本中的甲基化数据进行背景校正和归一化处理,以|logFC|>m,FDR

本实施例中,取m为1,n为0.01,在胃癌样本中筛选出高甲基化位点的个数为1842,低甲基化位点的个数为899,如图2所示为胃癌中差异甲基化位点的甲基化热图。

预后模型构建模块,将多个高甲基化位点和多个低甲基化位点分别对应的甲基化值与对应患者的生存数据进行合并,以P<0.01为阈值,P为对患者进行分类的阈值,进行单变量Cox比例风险回归分析,得到能够显著影响胃癌患者生存的甲基化位点,通过LASSO回归分析去除冗余甲基化位点后进行T次模拟,通过交叉验证获取去除重叠后的甲基化位点,得到剩余的N个预后相关的差异甲基化位点,对N个预后相关的差异甲基化位点利用多变量Cox回归分析构建每个患者的11-DNA甲基化位点风险评分公式:

Riskscore=[cg07990939甲基化水平*(-8.908)]+[cg08317263甲基化水平*(-1.739)]+[cg10301990甲基化水平*(-4.088)]+[cg10968649甲基化水平*(-20.267)]+[cg13801416甲基化水平*(-1.009)]+[cg19614321甲基化水平*(-1.779)]+[cg20074795甲基化水平*(12.778)]+[cg21052164甲基化水平*(-0.941)]+[cg26069252甲基化水平*(7.734)]+[cg26089280甲基化水平*(-8.569)]+[cg27662379甲基化水平*(-7.672)],

Riskscore为患者的11-DNA甲基化位点风险评分,上式中的甲基化标记物的特征及其相关系数如下表:

上表中,HR为危险比;CI为95.0%置信区间;SE为系数标准误差;z值为Wald z-统计值。

本实施例中,能够显著影响胃癌患者生存的甲基化位点共有137个,其中,最显著差异的前20个甲基化位点的森林图如图3所示,T取值为10000,N为25。图4为LASSO回归分析,进行10000次模拟的结果;图5为LASSO回归分析中每个甲基化位点对应的Coefficients值,图6为TCGA胃癌数据集中预后模型所含的差异甲基化位点在低风险组和高风险组中甲基化热图。图7为预后模型的ROC分析,由图7可知,所构建的预后模型AUC值为0.747,这表明基于胃癌中差异表达甲基化位点的预后模型在生存预测中具有一定潜力。图8为预后模型相关差异甲基化位点的Kaplan-Meier生存分析,横坐标为生存时间,纵坐标为生存率,图形底部轴线上每个时间点高低风险的病人数目,由图8可以确定构建的差异甲基化位点相关的预后模型在预测胃癌患者临床预后中的作用,以得知高危和低危人群之间的不同生存时间,Kaplan-Meier分析显示,高危组的患者生存率明显低于低危组。

本案发明人还进行了以下研究:

为了解预后模型以及胃癌患者的不同临床特征对预后生存的影响,从TCGA数据库胃癌临床数据中获得了所有样本的表型信息,并单独提取风险模型样本,以及对应的年龄,性别等表型及临床信息,对风险模型中这些信息与患者的生存状况进行合并,最后剩余315个胃癌患者的相关信息。然后通过R软件包survival进行单因素和多因素独立预后分析,如图9和图10所示,左侧表示胃癌临床特征,中间为p值,Hazard ratio表示风险率,Hazardratio>1,表示该临床特征为高风险因素,Hazard ratio<1,表示该临床特征为低风险因素,发现预后风险模型计算的胃癌患者的Riskscore值和肿瘤位置不论在单因素cox分析还是多因素cox分析中,均是显著的高风险因素,与胃癌患者的生存状况显著相关(P<0.05)。图11为对胃癌中11个差异甲基化位点的预后模型进行ROC分析的结果图,由图11可知,所构建的预后模型AUC值最大,为0.782,这表明基于胃癌中差异甲基化位点的预后模型在生存预测中具有一定潜力。

本案发明人基于构建的甲基化预后模型计算TCGA数据库中获取的胃癌患者的风险评分,然后与临床特征进行相关性分析,发现风险值与胃癌患者的N分期和肿瘤位置显著相关,与其它临床特征无显著相关。

本发明中所述的差异甲基化位点获取,是采用文献[18]的手段对训练集样本甲基化数据进行背景校正和归一化处理,以正常样本为对照,通过wilcox.test筛选胃癌样本中差异甲基化位点(文献[19]),其中以|log2FC|>1,FDR<0.01为阈值被认为具有生物学意义。然后通过R软件包pheatmap绘制胃癌中差异甲基化位点甲基化热图。TCGA数据库中包括两种不同的甲基化测序数据;一个是450K芯片,一个是27K芯片,450K数据更加全面,包括了27K中大部分数据。450K和27K芯片均是通过β值(即位点的甲基化率)来表示甲基化水平的;所以是将在两种芯片中同时存在的甲基化位点对应的样本进行合并的;由于采用甲基化率去表示甲基化水平,所以通过limma包中normalizeBetweenArrays进行归一化处理。

本发明中的预后模型构建,采用“survival”包,通过单变量Cox回归分析确定与胃癌患者生存相关的差异甲基化的预后相关甲基化位点,并对P<0.01的最显著差异的前20个甲基化位点绘制森林图。基于筛选的预后相关甲基化位点,通过glmnet包采用LASSO回归分析,进行10000次模拟,通过交叉验证获取去除重叠后的甲基化位点。利用多变量Cox回归分析构建每个患者的风险评分公式。根据风险评分公式,以危险度中位数为分界点,将患者分为低危组和高危组。通过Kaplan-Meier评估两组之间的生存差异,并使用对数秩统计方法进行比较。ROC曲线用于研究模型预测的准确性(文献[19])。

预后风险模型的独立预后因子分析,为了解预后模型以及胃癌患者的不同临床特征对预后生存的影响,从TCGA数据库胃癌临床数据中获得了所有样本的表型信息,并单独提取风险模型样本,以及对应的年龄,性别等表型及临床信息,对风险模型中这些信息与患者的生存状况进行合并,并通过R软件包survival进行单因素和多因素独立预后分析来检验预后风险模型及胃癌患者的临床特征在预测胃癌患者预后中的作用(文献[20])。

预后风险评分功能分析,为了解甲基化预后模型在胃癌中的临床效用,基于构建的甲基化预后模型计算TCGA数据库中获取的胃癌患者的评分,与胃癌患者的临床数据进行合并,去除临床性状缺失的样本,并对患者的评分与临床特征进行相关性分析,两组间比较使用t.test方法,两组以上间比较使用kruskal.test方法,其中P<0.05被认为具有统计学意义。

参考文献:

[16]WANG K,LI L,FU L,et al.2019.Integrated Bioinformatics Analysisthe Function of RNA Binding Proteins(RBPs)and Their Prognostic Value inBreast Cancer[J].Frontiers in pharmacology,10:140

[17]KURASHIGE J,HASEGAWA T,NIIDA A,et al.2016.Integrated MolecularProfiling of Human Gastric Cancer Identifies DDR2 as a Potential Regulator ofPeritoneal Dissemination[J].Scientific reports,6:22371

[18]ZHANG C,ZHANG B,MENG D,et al.2019.Comprehensive analysis of DNAmethylation and gene expression profiles in cholangiocarcinoma[J].Cancer cellinternational,19:352

[19]XU R,WEI W,KRAWCZYK M,et al.2017.Circulating tumour DNAmethylation markers for diagnosis and prognosis of hepatocellular carcinoma[J].Nature materials,16(11):1155-1161

[20]

本发明提供的用于胃癌患者的预后风险评估系统具有以下有益技术效果:

1.从TCGA、GEO数据库中下载了大量的胃癌甲基化谱、表达谱及临床数据;构建了胃癌预后模型,为筛选胃癌预后预测分子标志物提供了新的理论依据;

2.构建的胃癌预后模型能够很好的预测胃癌及胃癌患者的预后生存,敏感性与特异性优于其他同类型模型;

3.筛选的甲基化位点比较新颖,后续对这些甲基化位点的研究将具有重要的意义。

4.据查证,该模型为首个11-差异甲基化位点胃癌预后模型,位点少,成本低。

本案涉及的部分英文缩写及其对应的中文含义如下:

TCGA:《癌症基因组图集》;GEO:基因表达综合;LASSO:最小绝对收敛和选择算子;FDR:错误发现率;GSEA:基因集富集分析;RiskScore:胃癌预后风险评分;ROC:受试者工作特征;CEP290:中央体蛋白290;CCDC69:包含69的螺旋线圈域;UBXN8:UBX结构域蛋白8;KDM4A:赖氨酸脱甲基酶4A;AKR1B:醛酮还原酶家族1部件B;RASSF2:Ras相关域家族成员2;KDELR3:KDEL内质网的蛋白受体3;CHRNB2:胆碱能受体烟碱β2亚基;EGR1:早期生长反应1;ARMC9:犰狳重复包含9;RPN1:核黄素1。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

相关技术
  • 一种用于胃癌患者的预后风险评估系统
  • 一种用于预测结直肠癌预后风险的试剂盒及其预测装置和预测模型的训练方法
技术分类

06120112856833