掌桥专利:专业的专利平台
掌桥专利
首页

基因标志物在非小细胞肺癌复发预测中的应用、微小残留病灶的检测方法和预测装置

文献发布时间:2023-06-19 18:32:25


基因标志物在非小细胞肺癌复发预测中的应用、微小残留病灶的检测方法和预测装置

技术领域

本发明涉及一种基因标志物在非小细胞肺癌复发预测中的应用、微小残留病灶的检测方法和预测装置,属于分子生物医学技术领域。

背景技术

非小细胞肺癌是最常见的肺癌类型之一。在接受肿瘤切除手术后,大约有30%-50%非小细胞肺癌患者在术后会发生复发或转移,这可能是由于术后患者体内仍然存在影像学或实验方法无法检测到的微小残留病灶(MRD),这些肿瘤复发的潜在来源与患者较差的预后有着紧密的关系。研究表明,早期非小细胞肺癌患者在肿瘤切除手术后,MRD阳性的患者复发风险相对较高。因此,非小细胞肺癌术后的微小残留病灶的监测测对肿瘤复发风险评估和临床预后治疗十分重要。现存的仅依靠循环肿瘤基因组突变分析检测方法(target-sequencing based ctDNA mutation method),在对微小残留病灶(MRD)的检测中,存在低敏感性问题。特别是在对术后早期的微小残留病灶的检测,这种传统的循环肿瘤基因组突变检测方法的灵敏度普遍较低。因此,临床上对高灵敏度的微小残留病灶的早期检测有迫切需求, 通过对术后早期的微小残留病灶的检测,实现对复发风险的预测。

发明内容

本发明提供了一种对非小细胞肺癌患者术后血浆样本cfDNA进行WGS测序,通过高通量低深度的测序结果,获取DNA片段化信息,统计在不同纵向时间下,在不同碱基对长度峰值下的短片段与长片段的比值(Fragment Size Ratio, FSR),分别利用术后7天以及术后6个月的片段比值特征,建立正则化Cox比例风险模型(Regularized Cox Regression),利用留一法交叉验证(leave one out)训练并验证模型,计算出每个患者的复发概率。实现对高风险复发患者和低风险复发患者的区分,对临床预后治疗有重要的指导性作用。

检测基因标志物的试剂在用于制备非小细胞肺癌术后复发预测试剂中的应用,所述的基因标志物是指cfDNA中第一、第二、第三、第四片段在全部片段中所占的比例;

所述的第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度。

所述的cfDNA来源于患者术后第7天-第6个月的血浆。

一种非小细胞肺癌术后复发预测模型的构建方法,包括如下步骤:

步骤1,从患者术后血浆中提取cfDNA,进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;

步骤2,将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在该窗口中全部cfDNA片段中的比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;

步骤3,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型。

所述的步骤1中,从患者术后血浆中提取cfDNA是在患者术后第7天-第6个月内进行。

所述的步骤2中,将参考基因组划分为多个窗口是以5Mb为长度进行划分。

所述的步骤3中,Cox比例风险回归模型中进行正则化处理。

一种非小细胞肺癌术后复发预测装置,包括:

提取模块,用于从患者术后血浆中提取cfDNA;

测序模块,用于对提取cfDN进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;

统计模块,用于将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在该窗口中全部cfDNA片段中的比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;

预测模块,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型。

一种计算机可读取介质,其记载有能够运行以下非小细胞肺癌术后复发预测步骤的计算机程序:

步骤1,对患者术后血浆中提取cfDNA进行测序,并比对于参考基因组,获得其在参考基因组上的位置,以及获得各个cfDNA片段的长度;

步骤2,将参考基因组划分为多个窗口,分别统计出比对于各个窗口中的第一、第二、第三、第四片段的cfDNA在该窗口中全部cfDNA片段中的比例,作为第一、第二、第三、第三特征值;第一、第二、第三、第四片段分别具有151-220bp、311-400bp、100-150bp和221-300bp的碱基长度;

步骤3,分别将各个窗口中的第一、第二、第三、第四特征值作为Cox比例风险回归模型的自变量,建立发生生复发风险概率的模型;

步骤4,将待测样本执行步骤1-步骤2,将结果输入至步骤3中获得的模型中,计算出复发风险概率。

有益效果

对87个非小细胞肺癌患者肿瘤切除术后7天及76个患者术后6个月的WGS cfDNA片段化长度比例进行统计和分析,训练正则化比例风险模型。本发明首次基于血浆cfDNA高通量低深度测序的片段化结果进行对非小细胞肺癌的微小残留病灶的检测,并利用术后不同的纵向时间点的样本对复发风险进行预测。该模型比现存的仅依靠循环肿瘤基因组突变分析检测方法具有更高的灵敏性,能更有效地对术后高风险复发人群和低风险复发人群进行分类,对术后辅助治疗有重要的指导作用。

附图说明

图1是模型构建过程示意图;

图2是cfDNA的片段大小分布图;

图3 是利用留一法验证的术后7天样本的模型和术后6个月样本模型的AUC曲线图;

图4是复发和非复发患者在术后7天样本模型和术后6个月样本模型所预测出的分数分布;

图5是根据术后7天样本的模型分类结果和术后6个月样本的模型分类结果的高风险复发人群和低风险复发人群的生存曲线图;

图6是术后7天样本模型及术后6个月样本模型的灵敏度和特异性图。

具体实施方式

本发明首先需要对血液样本中对cfDNA的提取,建库,测序等步骤;本发明使用DNeasy Blood & Tissue Kit(Qiagen)从血浆样本中提取基因组DNA,再使用Qubit 3.0 荧光计和dsDNA HS Assay Kit (ThermoFisher Specific)测量提取出的DNA的数量,最后使用KAPA Hyper Prep Kit(KAPA Biosystems)进行建库。

本发明的模型构建过程采用的数据集情况如下:

2017年4月至2019年1月期间,总共100名非小细胞肺癌患者参与该研究。其中两名患者随后撤回准许退出研究,10名患者信息在随访中丢失,最后共88名患者参与研究,这些患者都是病理诊断为非小细胞肺癌,且接受了肿瘤切除手术。血浆cfDNA 样本在术后7天和术后6个月被提取。其中一名患者的血浆样本未通过质量控制测试被排除。剩余87名参与研究的患者信息如下表:

其中76名患者在术后6个月的随访中没有丢失,样本信息用于建立术后6个月的模型。

血浆cfDNA样本的提取和测序方法:

患者在接受肿瘤切除手术后的第7天和6个月后,对患者进行液体活检,采用紫色血液收集管(EDTA抗凝管)收集患者10ml全血样本,及时离心分离血浆(2小时内),在-80摄氏度冷冻保存下,转至实验室分析。转运至实验室后,血浆样本采用QIAGEN血浆DNA提取试剂盒按照说明书进行ctDNA提取。对采集到的cfDNA样本建库后,进行WGS~5乘测序。在获得了下机数据之后,将数据比对至人类参考基因组上,获得相应的读段的碱基数据信息。

数据处理:

本发明的标志数据,主要利用cfDNA 的片段化长度信息作为模型输入特征:

对于DNA片段的大小比例,其反映的是cfDNA读段的长度大小在有微小残留病灶患者和不具有微小残留病灶患者的分布特征。利用短DNA片段和长DNA片段所占比例进行正则化比例风险模型的建立,从而监测患者在特定纵向时间点下是否有微小残留病灶。

cfDNA读段长度数据是通过如下方法获取得到的:在比对好的bam当中,记录了每一条读段的质量,长度和比对位置信息,人类参考基因组选用来自加利福尼亚大学克鲁兹分校(University of California, Santa Cruz, UCSC)提供的hg19序列。将人类参考基因组按照5Mb长度,切割成541个窗口。在每个窗口下,根据读段长度的分布频率,找到两个频率峰值(如图2所示,呈双峰分布),计算在两个峰值范围内的所定义的长读段数比例(第一峰值:151-220bp 及 第二峰值:311-400bp)和短读段比例(第一峰值:100-150bp,第二峰值:221-300bp)。由此得到541个窗口下的2164个比例值(541*4=2164),比例值是由峰值范围内的cfDNA的数量/该窗口中全部cfDNA读段的数量计算得到。

本发明的标志数据,主要利用Cox比例风险模型(Penalized Cox Models)算法建模及留一法进行验证。

Cox比例风险回归(Penalized Cox Proportional Hazards Model)提供了一个能够衡量个体相对风险的方式。它可以同时研究多个因素和事件结局发生情况,发生时间的关系,而且允许有截尾数据存在。该模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,校正混杂因素以及做出预测分析。在多因素情况下,风险概率的计算需要同时考虑生存时间T和自变量X,因此用h(t,x)来表示t时刻的风险函数,若设定自变量取值为0,则称h(t,0)为t时刻的基准风险函数。固定时间t,取风险函数和基准风险函数之比可得到t时刻下的风险比值HR,该HR是关于自变量X的函数,且不再依赖于时间T,所以称之为比例风险模型。为了防止模型过拟合,可以在损失函数上加上正则项,缩小解空间,从而减少求出过拟合解的可能性,可以根据现有的Cox比例风险回归方法的基础上加入正则项,可以根据实际的样本情况进行调整,本专利不作具体限制。

在获得87位患者术后7天和76位患者术后6个月的复发情况和cfDNA片段化数据后,将DNA片段化长度比例(FSR)统计结果作为输入值(每个样本的输入向量中包括2164个读段片段大小比例构成的特征值),通过正则化Cox比例风险模型进行建模,并计算出每为患者在特定纵向时间(术后7天或术后6个月)的复发风险概率。根据这个复发风险概率值将所有患者分为高风险人群和低风险人群。

留一法(Leave one out)交叉验证:

常用的交叉验证中,把一个大的数据集分为K个小数据集,其中k-1个作为训练集,剩余K个作为验证集,在训练和测试的时候依次选择训练集和它对应的测试集,最终的结果是这K次验证的平均值。留一法是交叉验证的其中一种,这里使K等于数据集中的数据个数(K = N),每次只使用一个样本作为验证集,剩余的全部作为训练集,该方法每回合中几乎所有样本皆用于训练模型,因此最接近原始样本的分布,所得的结果也比较可靠。

基于以上的训练组和验证组的建模过程,结果如下:

最终术后7天模型中,未复发患者风险评分范围为(-18.074 ~ 11.068),中位数为-1.920;复发人群风险评分范围为(-5.335 ~ 23.471),中位数为4.98;分组截断值为5.89。最终

有71人低于截断值被分为低分险组,16人高于截断值被分为高分险组;术后6个月模型中,未复发患者风险评分范围为(-10.115 ~ 6.793),中位数为-1.3;复发患者风险评分范围为(-7.848 ~ 73.182),中位数为3.715;分组截断值为3.515。最终有60 人低于截断值被分为低分险组,16人高于截断值被分为高分险组。

最终术后7天模型区分复发人群和非复发人群的结果AUC为78.2%(95%CI:68-86.3%),模型的敏感性达到56.5%(95%CI34.5-76.8%),特异性达到85.9%(95%CI:75-93.4%);术后6个月模型区分复发人群和非复发人群的结果AUC为78.9%(95%CI:68.1-87.5%),模型的敏感性达到57.9%(95%CI:33.5%-79.7%),特异性达到86%(95%CI:84.2–93.7%).

该分组随后作为影响因子纳入多元的Cox回归分析中。

样本的多因素(本专利片段化模型的结果,基因组突变,年龄,性别,患者吸烟室,是否接受辅助治疗,癌症分期)纳入Cox比例风险模型的构建,其中各影响因子的风险率结果如下:

以上实施例的解释和说明不构成对本专利保护范围的限制。

相关技术
  • 一种筛查结直肠癌术后微小残留病灶及预测复发风险的循环肿瘤DNA检测系统及应用
  • 一种筛查结直肠癌术后微小残留病灶及预测复发风险的循环肿瘤DNA检测系统及应用
技术分类

06120115601693