掌桥专利:专业的专利平台
掌桥专利
首页

一种基于机器学习的胰腺癌诊断方法

文献发布时间:2023-06-19 19:30:30



技术领域

本发明属于胰腺疾病诊断领域,具体涉及基于机器学习的胰腺癌诊断方法。

背景技术

胰腺癌(5年相对生存率为9%,对于有远处转移的患者,这一比率进一步降低到只有3%。高死亡率的一个主要原因是早期检测胰腺癌的方法仍然有限,这对于胰腺癌患者接受手术切除至关重要。目前,糖类抗原19-9(CA19-9)是辅助检测胰腺癌的最常用的临床血清生物标志物,对切除前有症状的患者可达到79-90%的敏感性和75-90%的特异性。然而,几项大型人群研究已经证明,CA19-9在无症状人群中检测胰腺癌无效,因为其阳性预测值较低,基本上排除了它用于胰腺癌的早期筛查(Kim等人,2004)。

胰腺癌的典型早期症状,包括腹部和背部疼痛、腹泻、体重减轻和黄疸,并不是特异性的,可能与其他胃肠道疾病相关。这种并发症在慢性胰腺炎的诊断中特别常见,特别是慢性胰腺炎患者长期发展为胰腺癌的风险明显更高。因此,在慢性胰腺炎患者中筛选胰腺癌患者需要准确的胰腺癌与慢性胰腺炎的鉴别诊断。然而,目前慢性胰腺炎和胰腺癌之间的鉴别诊断的准确率为65%或更低,还有很多需要改进的地方。因此需要既稳定又一致的鉴别慢性胰腺炎及胰腺癌的特异性标记物。

发明内容

本发明提供了一种对患者血浆样本的DNA甲基化进行检测,并根据目标甲基化标志物的甲基化水平数据和CA19-9的检测结果构建机器学习模型诊断胰腺癌,以实现更高准确率更低成本的胰腺癌无创精准诊断的目的。

本发明第一方面提供一种诊断胰腺癌或构建胰腺癌诊断模型的方法,包括:

(1)获取对象样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和对象的CA19-9水平,

(2)利用数学模型使用甲基化状态或水平计算获得甲基化评分,

(3)将甲基化评分与CA19-9水平合并数据矩阵,

(4)基于数据矩阵构建胰腺癌诊断模型,

任选的(5)获得胰腺癌评分;根据胰腺癌评分诊断胰腺癌。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有基因序列,或其上游或下游20kb以内的序列:SIX3、TLX2、CILP2。优选地,所述DNA序列包含选自以下任一组的基因序列:(1)SIX3、TLX2;(2)SIX3、CILP2;(3)TLX2、CILP2;(4)SIX3、TLX2、CILP2。

在一个或多个实施方案中,所述的片段长度为1-1000bp,优选1-700bp。所述片段包含至少一个CpG二核苷酸。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有序列或其互补序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变。优选地,所述DNA序列包含选自以下任一组的序列或其互补序列:(1)SEQ ID NO:1、SEQ ID NO:2,(2)SEQ ID NO:1、SEQ ID NO:3,(3)SEQ ID NO:2、SEQ ID NO:3,(4)SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3。

在一个或多个实施方案中,步骤(1)包括检测对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平。

在一个或多个实施方案中,所述方法在步骤(1)之前还包含DNA抽提和/或质检。

在一个或多个实施方案中,步骤(1)包括使用引物分子和/或探针分子检测甲基化状态或水平。

在一个或多个实施方案中,所述引物分子包含与所述DNA序列或其片段杂交的引物分子。所述引物分子能扩增出所述DNA序列或其片段。在一个或多个实施方案中,所述引物序列为甲基化特异的或非特异的。所述引物分子至少9bp。

在一个或多个实施方案中,所述探针分子包含与所述DNA序列或其片段杂交的探针分子。在一个或多个实施方案中,所述探针还含有可检测物。在一个或多个实施方案中,所述可检测物是5’端荧光报告基团和3’端标记淬灭基团。在一个或多个实施方案中,所述荧光报告基因选自Cy5、FAM和VIC。优选地,所述探针的序列包含MGB(Minor groovebinder)或者LNA(Locked nucleic acid)。所述探针分子至少12bp。

在一个或多个实施方案中,所述检测包括但不限于:基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱。

在一个或多个实施方案中,所述检测是DNA测序。在一个或多个实施方案中,所述DNA测序的测序深度大于或等于5M,优选至少7M,11M,13M,或15M。

在一个或多个实施方案中,所述检测是MethylTitan测序法检测。

在一个或多个实施方案中,所述样品来自哺乳动物的组织、细胞或者体液,例如胰腺组织或血液。所述哺乳动物优选为人。在一个或多个实施方案中,所述样品是细针穿刺活检物。在一个或多个实施方案中,所述样品是血浆。

在一个或多个实施方案中,所述样品包括基因组DNA或cfDNA。

在一个或多个实施方案中,所述DNA序列经转化,其中未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。所述转化使用酶促方法进行,优选脱氨酶处理,或所述转化使用非酶促方法进行,优选用亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其组合处理。

在一个或多个实施方案中,所述DNA序列经甲基化敏感型限制性内切酶处理。

在一个或多个实施方案中,CA19-9水平是血液或血浆CA19-9水平。

在一个或多个实施方案中,步骤(2)所述数学模型是支持向量机模型。

在一个或多个实施方案中,步骤(4)所述胰腺癌诊断模型是逻辑回归模型。

在一个或多个实施方案中,步骤(5)包括:根据胰腺癌评分是否达到阈值来诊断胰腺癌。

在一个或多个实施方案中,所述诊断胰腺癌是鉴别胰腺癌和胰腺炎。

本发明第二方面还提供一种诊断胰腺癌方法,包括:

(1)获取对象样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和对象的CA19-9水平,

(2)利用数学模型使用甲基化状态或水平计算获得甲基化评分,

(3)根据如下所示的模型获得胰腺癌评分,根据胰腺癌评分诊断胰腺癌:

其中M为步骤(2)中计算的样品的甲基化评分,C为样品的CA19-9水平。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有基因序列,或其上游或下游20kb以内的序列:SIX3、TLX2、CILP2。优选地,所述DNA序列包含选自以下任一组的基因序列:(1)SIX3、TLX2;(2)SIX3、CILP2;(3)TLX2、CILP2;(4)SIX3、TLX2、CILP2。

在一个或多个实施方案中,所述的片段长度为1-1000bp,优选1-700bp。所述片段包含至少一个CpG二核苷酸。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有序列或其互补序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变。优选地,所述DNA序列包含选自以下任一组的序列或其互补序列:(1)SEQ ID NO:1、SEQ ID NO:2,(2)SEQ ID NO:1、SEQ ID NO:3,(3)SEQ ID NO:2、SEQ ID NO:3,(4)SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3。

在一个或多个实施方案中,步骤(1)包括检测对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平。

在一个或多个实施方案中,所述方法在步骤(1)之前还包含DNA抽提和/或质检。

在一个或多个实施方案中,步骤(1)包括使用引物分子和/或探针分子检测甲基化状态或水平。

在一个或多个实施方案中,所述引物分子包含与所述DNA序列或其片段杂交的引物分子。所述引物分子能扩增出所述DNA序列或其片段。在一个或多个实施方案中,所述引物序列为甲基化特异的或非特异的。所述引物分子至少9bp。

在一个或多个实施方案中,所述探针分子包含与所述DNA序列或其片段杂交的探针分子。在一个或多个实施方案中,所述探针还含有可检测物。在一个或多个实施方案中,所述可检测物是5’端荧光报告基团和3’端标记淬灭基团。在一个或多个实施方案中,所述荧光报告基因选自Cy5、FAM和VIC。优选地,所述探针的序列包含MGB(Minor groovebinder)或者LNA(Locked nucleic acid)。所述探针分子至少12bp。

在一个或多个实施方案中,所述检测包括但不限于:基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱。

在一个或多个实施方案中,所述检测是DNA测序。在一个或多个实施方案中,所述DNA测序的测序深度大于或等于5M,优选至少7M,11M,13M,或15M。

在一个或多个实施方案中,所述检测是MethylTitan测序法检测。

在一个或多个实施方案中,所述样品来自哺乳动物的组织、细胞或者体液,例如胰腺组织或血液。所述哺乳动物优选为人。在一个或多个实施方案中,所述样品是细针穿刺活检物。在一个或多个实施方案中,所述样品是血浆。

在一个或多个实施方案中,所述样品包括基因组DNA或cfDNA。

在一个或多个实施方案中,所述DNA序列经转化,其中未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。所述转化使用酶促方法进行,优选脱氨酶处理,或所述转化使用非酶促方法进行,优选用亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其组合处理。

在一个或多个实施方案中,所述DNA序列经甲基化敏感型限制性内切酶处理。

在一个或多个实施方案中,CA19-9水平是血液或血浆CA19-9水平。

在一个或多个实施方案中,步骤(2)所述数学模型是支持向量机模型。

在一个或多个实施方案中,步骤(3)包括:根据胰腺癌评分是否达到阈值来诊断胰腺癌。优选地,所述模型的阈值约为0.885。

在一个或多个实施方案中,所述诊断胰腺癌是鉴别胰腺癌和胰腺炎。

本发明第三方面提供一种构建胰腺癌诊断模型的方法,包括:

(1)获取对象基因组DNA区段的甲基化单倍型比值和测序深度,

任选的(2)对所述甲基化单倍型比值和测序深度数据进行预处理,

(3)进行交叉验证增量特征筛选,获得特征甲基化区段,

(4)对特征甲基化区段的甲基化检测结果构建数学模型,得到甲基化评分,

(5)根据甲基化评分与对应的CA19-9水平构建胰腺癌诊断模型。

在一个或多个实施方案中,步骤(1)包括:

1.1)对对象样品进行DNA甲基化检测,获得测序读段(read)数据,

1.2)任选对测序数据进行预处理,例如去接头和/或拼接处理,

1.3)将测序数据比对到参考基因组,获得甲基化区段的位置和测序深度信息,

1.4)根据下式计算区段的甲基化单倍型比值(MHF):

其中i表示目标甲基化区域,h表示目标甲基化单倍型,N

在一个或多个实施方案中,所述甲基化检测通过MethylTitan测序法进行。

在一个或多个实施方案中,所述样品是cfDNA。

在一个或多个实施方案中,针对目标区域内的每一个甲基化单倍型计算甲基化单倍型比值。

在一个或多个实施方案中,步骤(2)包括:2.1)将甲基化单倍型比值状态和测序深度信息数据合并成数据矩阵。

在一个或多个实施方案中,步骤(2)还包括:2.2)在数据矩阵中去除缺失值比例高于5-15%(例如10%)的位点。

在一个或多个实施方案中,步骤(2)还包括:2.3)对每个深度小于300(例如小于200)的数据点当作缺失值处理,并对缺失值进行填充(例如使用K最近邻方法)。

在一个或多个实施方案中,步骤(3)包括:使用数学模型在训练数据中进行交叉验证增量特征筛选,其中使数学模型的AUC增加的DNA区段为特征甲基化区段。在一个或多个实施方案中,所述数学模型是支持向量机模型(SVM)。

在一个或多个实施方案中,步骤(3)包括:

(3.1)根据DNA区段的甲基化单倍型比值和测序深度对DNA区段的相关性排序,获得相关性高的候选甲基化区段,

(3.2)进行交叉验证增量特征筛选,其中候选甲基化区段按照相关性排序(例如回归系数从大到小),每次加入一个或多个候选甲基化区段数据,对测试数据进行预测,其中,交叉验证AUC的均值增加的候选甲基化区段是特征甲基化区段。

在一个或多个实施方案中,步骤(3.1)为:(3.1)根据DNA区段的甲基化单倍型比值和测序深度相对对象表型构建逻辑回归模型,筛选出回归系数大的DNA区段,组成候选甲基化区段。

在一个或多个实施方案中,步骤(3.2)中的预测通过构建模型(例如支持向量机模型)进行。

在一个或多个实施方案中,步骤(4)中的数学模型是向量机(SVM)模型。

在一个或多个实施方案中,步骤(4)中的甲基化检测结果是甲基化单倍型比值和测序深度的合并矩阵。

在一个或多个实施方案中,步骤(5)包括,将甲基化评分与CA19-9水平合并数据矩阵,基于数据矩阵构建胰腺癌诊断模型,

在一个或多个实施方案中,步骤(5)中的胰腺癌诊断模型是逻辑回归模型。

本发明还提供(a)DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和(b)CA19-9水平在构建胰腺癌诊断模型中的应用。

在一个或多个实施方案中,所述胰腺癌诊断模型是逻辑回归模型。

在一个或多个实施方案中,所述胰腺癌诊断模型如本文第一、第二和第三方面任一实施方案中所述。

在一个或多个实施方案中,构建胰腺癌诊断模型的方法如本文第一、第二和第三方面任一实施方案所述。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有基因序列,或其上游或下游20kb以内的序列:SIX3、TLX2、CILP2。优选地,所述DNA序列包含选自以下任一组的基因序列:(1)SIX3、TLX2;(2)SIX3、CILP2;(3)TLX2、CILP2;(4)SIX3、TLX2、CILP2。

在一个或多个实施方案中,所述的片段长度为1-1000bp,优选1-700bp。所述片段包含至少一个CpG二核苷酸。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有序列或其互补序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变。优选地,所述DNA序列包含选自以下任一组的序列或其互补序列:(1)SEQ ID NO:1、SEQ ID NO:2,(2)SEQ ID NO:1、SEQ ID NO:3,(3)SEQ ID NO:2、SEQ ID NO:3,(4)SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3。

在一个或多个实施方案中,CA19-9水平是血液或血浆CA19-9水平。

本发明另一方面还提供检测DNA甲基化的试剂或装置和检测CA19-9水平的试剂或装置在制备诊断胰腺癌的试剂盒中的用途,所述检测DNA甲基化的试剂或装置用于确定对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有基因序列,或其上游或下游20kb以内的序列:SIX3、TLX2、CILP2。

在一个或多个实施方案中,所述DNA序列包含选自以下任一组的基因序列:(1)SIX3、TLX2;(2)SIX3、CILP2;(3)TLX2、CILP2;(4)SIX3、TLX2、CILP2。

在一个或多个实施方案中,所述DNA序列包括DNA正义链或反义链。

在一个或多个实施方案中,所述的片段长度为1-1000bp,优选1-700bp。

在一个或多个实施方案中,所述片段包含至少一个CpG二核苷酸。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有序列或其互补序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变。

在一个或多个实施方案中,所述DNA序列包含选自以下任一组的序列或其互补序列:(1)SEQ ID NO:1、SEQ ID NO:2,(2)SEQ ID NO:1、SEQ ID NO:3,(3)SEQ ID NO:2、SEQID NO:3,(4)SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3。

在一个或多个实施方案中,所述检测DNA甲基化的试剂包含引物分子和/或探针分子。

在一个或多个实施方案中,所述检测DNA甲基化的试剂包含与所述DNA序列或其片段杂交的引物分子。所述引物分子能扩增出所述DNA序列或其片段。在一个或多个实施方案中,所述引物序列为甲基化特异的或非特异的。所述引物分子至少9bp。

在一个或多个实施方案中,所述检测DNA甲基化的试剂包含与所述DNA序列或其片段杂交的探针分子。在一个或多个实施方案中,所述探针还含有可检测物。在一个或多个实施方案中,所述可检测物是5’端荧光报告基团和3’端标记淬灭基团。在一个或多个实施方案中,所述荧光报告基因选自Cy5、FAM和VIC。优选地,所述探针的序列包含MGB(Minorgroove binder)或者LNA(Locked nucleic acid)。所述探针分子至少12bp。

在一个或多个实施方案中,所述CA19-9水平是血液或血浆水平。

在一个或多个实施方案中,检测CA19-9水平的试剂是基于免疫反应的检测试剂;包括:CA19-9的抗体、和任选的缓冲液、洗涤液等。

在一个或多个实施方案中,所述试剂盒是无创诊断试剂盒。

在一个或多个实施方案中,所述试剂盒是辅助诊断试剂盒。

在一个或多个实施方案中,所述对象是哺乳动物,优选人。

在一个或多个实施方案中,所述对象是诊断为胰腺炎(例如慢性胰腺炎)的对象。

在一个或多个实施方案中,所述样品来自哺乳动物的组织、细胞或者体液,例如胰腺组织或血液,优选是细针穿刺活检物或血浆。

在一个或多个实施方案中,所述样品包括基因组DNA或cfDNA。

在一个或多个实施方案中,所述DNA序列经转化,其中未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基。所述转化使用酶促方法进行,优选脱氨酶处理,或所述转化使用非酶促方法进行,优选用亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其组合处理。

在一个或多个实施方案中,所述DNA序列经甲基化敏感型限制性内切酶处理。

在一个或多个实施方案中,所述试剂盒还包括PCR反应试剂。优选地,所述PCR反应试剂包括DNA聚合酶、PCR缓冲液、dNTP、Mg2+。

在一个或多个实施方案中,所述试剂盒还包括检测DNA甲基化的其他试剂,所述其他试剂是选自以下方法的一个或多个中所用的试剂:基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱。优选地,所述其他试剂选自以下一种或多种:重亚硫酸盐、亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其衍生物,甲基化敏感或不敏感的限制性内切酶,酶切缓冲液,荧光染料,荧光淬灭剂,荧光报告剂,外切核酸酶,碱性磷酸酶,内标,对照物。

在一个或多个实施方案中,PCR的反应液包含Taq DNA聚合酶、PCR缓冲液(buffer)、dNTPs、KCl、MgCl2和(NH4)2SO4。优选地,Taq DNA聚合酶为热启动Taq DNA聚合酶。优选地,Mg2+终浓度为1.0-10.0mM。

在一个或多个实施方案中,所述诊断包括:通过构建本文任一实施方案中所述胰腺癌诊断模型进行计算,并根据评分诊断胰腺癌。

本发明另一方面还提供诊断胰腺癌的试剂盒,包含:

(a)检测DNA甲基化的试剂或装置,用于确定对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和

(b)检测CA19-9水平的试剂或装置。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有基因序列,或其上游或下游20kb以内的序列:SIX3、TLX2、CILP2。

在一个或多个实施方案中,所述DNA序列包括DNA正义链或反义链。

在一个或多个实施方案中,所述的片段长度为1-1000bp,优选1-700bp。

在一个或多个实施方案中,所述片段包含至少一个CpG二核苷酸。

在一个或多个实施方案中,所述DNA序列选自以下一个或多个(例如至少2个)或所有序列或其互补序列:SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3,或与其具有至少70%相同性的变体,所述变体中的甲基化位点未发生突变。

在一个或多个实施方案中,所述CA19-9水平是血液或血浆水平。

在一个或多个实施方案中,检测CA19-9水平的试剂是基于免疫反应的检测试剂;包括:CA19-9的抗体、和任选的缓冲液、洗涤液等。

在一个或多个实施方案中,所述试剂盒适用于本文任一实施方案所述的用途。

在一个或多个实施方案中,所述检测DNA甲基化的试剂包含引物分子和/或探针分子。

在一个或多个实施方案中,所述检测DNA甲基化的试剂包含与所述DNA序列或其片段杂交的引物分子。所述引物分子能扩增出所述DNA序列或其片段。在一个或多个实施方案中,所述引物序列为甲基化特异的或非特异的。所述引物分子至少9bp。

在一个或多个实施方案中,所述检测DNA甲基化的试剂包含与所述DNA序列或其片段杂交的探针分子。在一个或多个实施方案中,所述探针还含有可检测物。在一个或多个实施方案中,所述可检测物是5’端荧光报告基团和3’端标记淬灭基团。在一个或多个实施方案中,所述荧光报告基因选自Cy5、FAM和VIC。优选地,所述探针的序列包含MGB(Minorgroove binder)或者LNA(Locked nucleic acid)。所述探针分子至少12bp。

在一个或多个实施方案中,所述试剂盒是无创诊断试剂盒。

在一个或多个实施方案中,所述对象是哺乳动物,优选人。

在一个或多个实施方案中,所述样品来自哺乳动物的组织、细胞或者体液,例如胰腺组织或血液。在一个或多个实施方案中,所述样品是细针穿刺活检物。在一个或多个实施方案中,所述样品是血浆。

在一个或多个实施方案中,所述样品包括基因组DNA或cfDNA。

在一个或多个实施方案中,所述DNA序列经转化,其中未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基。所述转化使用酶促方法进行,优选脱氨酶处理,或所述转化使用非酶促方法进行,优选用亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐或其组合处理。

在一个或多个实施方案中,所述DNA序列经甲基化敏感型限制性内切酶处理。

在一个或多个实施方案中,所述试剂盒还包括PCR反应试剂。优选地,所述PCR反应试剂包括DNA聚合酶、PCR缓冲液、dNTP、Mg2+。

在一个或多个实施方案中,所述试剂盒还包括检测DNA甲基化的试剂,所述试剂是选自以下方法的一个或多个中所用的试剂:基于重亚硫酸盐转化的PCR、DNA测序、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱。优选地,所述试剂选自以下一种或多种:重亚硫酸盐及其衍生物、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。

在一个或多个实施方案中,所述诊断胰腺癌是鉴别胰腺癌和胰腺炎。

本发明另一方面还提供一种用于诊断胰腺癌或构建胰腺癌诊断模型的装置,所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:

(1)获取对象样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和对象的CA19-9水平,

(2)利用数学模型使用甲基化状态或水平计算获得甲基化评分,

(3)将甲基化评分与CA19-9水平合并数据矩阵,

(4)基于数据矩阵构建胰腺癌诊断模型,

任选的(5)获得胰腺癌评分;根据胰腺癌评分诊断胰腺癌。

所述装置的其他特征如本文第一方面中所述。

本发明另一方面还提供一种用于诊断胰腺癌或构建胰腺癌诊断模型的装置,所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:

(1)获取对象样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和对象的CA19-9水平,

(2)利用数学模型使用甲基化状态或水平计算获得甲基化评分,

(3)根据如下所示的模型获得胰腺癌评分,根据胰腺癌评分诊断胰腺癌:

其中M为步骤(2)中计算的样品的甲基化评分,C为样品的CA19-9水平。

所述装置的其他特征如本文第二方面中所述。

本发明另一方面还提供一种构建胰腺癌诊断模型的装置,所述装置包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:

(1)获取对象基因组DNA区段的甲基化单倍型比值和测序深度,

(2)根据DNA区段的甲基化单倍型比值和测序深度相对对象表型构建逻辑回归模型,

(3)进行交叉验证增量特征筛选,其中AUC增加的DNA区段为特征甲基化区段,

(4)对特征甲基化区段的甲基化检测结果构建数学模型,得到甲基化评分,

(5)根据甲基化评分与对应的CA19-9水平构建胰腺癌诊断模型。

所述装置的其他特征如本文第三方面中所述。

附图说明

图1是本发明根据一个实施方式的技术方案流程图。

图2是3个甲基化标志物在训练组中的甲基化水平分布。

图3是3个甲基化标志物在测试组中的甲基化水平分布。

图4是CA19-9,胰腺癌和胰腺炎区分预测模型pp_model和cpp_model在测试集中ROC曲线。

图5是CA19-9,胰腺癌和胰腺炎区分预测模型pp_model和cpp_model在测试集样本中的预测得分分布(数值进行了最大最小值均一化处理)。

具体实施方式

本发明探究了DNA甲基化和CA19-9水平与胰腺癌和胰腺炎关系。旨在通过无创的方法利用标志物群DNA甲基化水平和CA19-9水平作为胰腺癌和慢性胰腺炎鉴别标志物,提高胰腺癌无创诊断的精确性。

发明人发现,如果在胰腺癌标志物筛选以及诊断中结合CA19-9水平,可以显著提高诊断精确性。

本发明首先提供一种物筛选胰腺癌甲基化标志物的方法,包括:(1)获取对象基因组(例如cfDNA)DNA区段的甲基化单倍型比值和测序深度,任选的(2)对所述甲基化单倍型比值和测序深度数据进行预处理,(3)进行交叉验证增量特征筛选,获得特征甲基化区段。

步骤(1)的获取可以是甲基化检测后的数据分析或者直接从文件中读取。在进行甲基化检测的实施方案中,步骤(1)包括:1.1)对对象样品进行DNA甲基化检测,获得测序读段(read)数据,1.3)将测序数据比对到参考基因组,获得甲基化区段的位置和测序深度信息,1.4)根据下式计算区段的甲基化单倍型比值(MHF):

其中i表示目标甲基化区域,h表示目标甲基化单倍型,N

步骤(2)包括将甲基化单倍型比值状态和测序深度信息数据合并成数据矩阵的步骤。此外,为了使结果更精确,步骤(2)还包括:在数据矩阵中去除缺失值比例高于5-15%(例如10%)的位点,并且对每个深度小于300(例如小于200)的数据点当作缺失值处理,并用K最近邻方法对缺失值进行填充。

在一个或多个实施方案中,步骤(3)包括:使用数学模型在训练数据中进行交叉验证增量特征筛选,其中使数学模型的AUC增加的DNA区段为特征甲基化区段。其中,数学模型可以是支持向量机模型(SVM)或随机森林模型。优选地,步骤(3)包括:(3.1)根据DNA区段的甲基化单倍型比值和测序深度对DNA区段的相关性排序,获得相关性高的候选甲基化区段,和(3.2)进行交叉验证增量特征筛选,其中候选甲基化区段按照相关性排序(例如回归系数从大到小),每次加入一个或多个候选甲基化区段数据,对测试数据进行预测,其中,交叉验证AUC的均值增加的候选甲基化区段是特征甲基化区段。其中,步骤(3.1)具体可为:根据DNA区段的甲基化单倍型比值和测序深度相对对象表型构建逻辑回归模型,筛选出回归系数大的DNA区段,组成候选甲基化区段。步骤(3.2)中的预测可通过构建模型(例如支持向量机模型或随机森林模型)进行。

在获取特征甲基化区段之后,可将其与CA19-9水平结合以构建更精确的胰腺癌诊断模型。因此,在构建胰腺癌诊断模型的方法中,除了上述步骤(1)-(3)之外,还包括(4)对特征甲基化区段的数据构建数学模型,得到甲基化评分,和(5)将甲基化评分与CA19-9水平合并数据矩阵,基于数据矩阵构建胰腺癌诊断模型。步骤(4)中的“数据”是特征甲基化区段的甲基化检测结果,优选为甲基化单倍型比值和测序深度的合并矩阵。

步骤(4)中的数学模型可以是任何通常用于诊断数据分析的数学模型,例如支持向量机(SVM)模型、随机森林、回归模型等。本文中,示例性的该数学模型是向量机(SVM)模型。

步骤(5)中的胰腺癌诊断模型可以是任何用于诊断数据分析的数学模型,例如支持向量机(SVM)模型、随机森林、回归模型等。本文中,示例性的胰腺癌诊断模型是如下所示的逻辑回归胰腺癌模型:

其中M为样本的甲基化评分,C为样品的CA19-9水平。在一个或多个实施方案中,模型阈值为0.885,高于该值判断为胰腺癌,低于或等于该值则判断为非胰腺癌。

在具体实施方案中,基于机器学习的鉴别胰腺炎和胰腺癌的方法包括:

(1)抽取待测胰腺癌或胰腺炎患者血液,并收集患者年龄,性别,CA19-9检测值等信息;(2)获取待测胰腺癌或胰腺炎的患者样本的血浆,提取cfDNA,采用MethylTitan方法进行建库测序,获得测序读段;(3)测序数据预处理,包括对对测序仪产生的测序数据进行去接头和拼接处理;(4)将上述预处理之后的测序数据,比对到参考基因组序列,确定每条片段的位置;(5)MHF(Methylated Haplotype Fraction)甲基化数值矩阵的计算:一个目标甲基化区域可能有多个甲基化单倍型(haplotype),对于目标区域内的每一个甲基化haplotype都需要进行该值的计算,MHF的计算公式示例如下:

其中i表示目标甲基化区间,h表示目标的甲基化haplotype,Ni表示位于目标甲基化区间的reads数目,Ni,h表示包含目标甲基化haplotype的reads数目;(6)针对参考基因组的位置,获取该位置上的甲基化单倍型比值状态和测序深度信息,将甲基化单倍型比值状态和测序深度信息数据合并成数据矩阵。去除缺失值比例高于10%的位点,并对每个深度小于200的数据点当作缺失值处理,使用K最近邻(KNN)方法对缺失值进行填充;(7)将所有样本分为两份,一份为训练集,另一份为测试集;(8)根据训练集样本分组发现特征甲基化区段:每个甲基化区段对于表型构建逻辑回归模型,对每个扩增的目标区域筛选出回归系数最显著的甲基化区段,组成候选甲基化区段。将训练集随机分成十份做十倍交叉验证增量特征筛选。每个区域的候选甲基化区段按照回归系数显著性进行从大到小排序,每次加入一个甲基化区段数据,对测试数据进行预测(构建向量机(SVM)模型预测)。判别的指标为10次交叉验证AUC的均值,如果训练数据的AUC增加则保留该候选甲基化区段作为特征甲基化区段,否则舍弃;(9)将步骤(8)筛选得到的特征甲基化区段在训练集中的数据带入支持向量机(SVM)模型中,并在测试集中验证模型的性能;(10)将步骤(9)中的训练集SVM模型的预测分数同训练集样本对应的CA19-9的测量值的合并数据矩阵带入逻辑回归模型,并在测试集中验证合并CA19-9之后模型性能。

根据上述方法,发明人筛选到三个基因与胰腺癌诊断(特别是胰腺癌和胰腺炎的鉴别)相关:SIX3、TLX2、CILP2。本文中,术语“基因”包括所涉基因的在基因组上的编码序列和非编码序列。其中非编码序列包括内含子、启动子和调节元件或序列等。

进一步地,胰腺癌和胰腺炎的鉴别与选自以下的任意1个区段或随机2个或全部3个区段的甲基化水平相关:位于SIX3基因区域的SEQ ID NO:1,TLX2基因区域的SEQ ID NO:2,CILP2基因区域的SEQ ID NO:3。

本文所述“胰腺癌和胰腺炎鉴别相关序列”包括上述3个基因、其上游或下游20kb以内的序列、上述3个序列(SEQ ID NO:1-3)或其互补序列。

上述3个序列在人染色体中的位置如下所述:SEQ ID NO:1:chr2的45028785-45029307,SEQ ID NO:2:chr2的74742834-74743351,SEQ ID NO:3:chr19的19650745-19651270。本文中,各序列和甲基化位点的碱基编号对应于参考基因组HG19。本文所述基因或其片段中的可甲基化的位点可通过常规检测(例如测序)或在NCBI上查询获得,参见专利申请CN202110680924。

本文中,检测DNA甲基化的方法本领域周知,例如基于重亚硫酸盐转化的PCR(例如甲基化特异性PCR)、DNA测序(如亚硫酸氢盐测序、全基因组甲基化测序、简化甲基化测序)、甲基化敏感的限制性内切酶分析法、荧光定量法、甲基化敏感性高分辨率熔解曲线法、基于芯片的甲基化图谱分析、质谱(例如飞行质谱)。在一个或多个实施方案中,检测包括检测基因或位点处的任一条链。DNA测序的测序深度通常大于或等于5M,优选至少7M,11M,13M,或15M。在具体实施方案中,甲基化检测通过MethylTitan测序法进行,包括如下步骤:首先将提取的DNA进行亚硫酸氢盐转化和去磷酸化,然后连接上带有UMI(unique molecularidentifier)的通用接头,纯化之后合成第二条链,再进行多重PCR的扩增,得到目标的甲基化区域;其中将一部分PCR产物连接上barcodes(条形码序列)和接头构建测序文库,文库在Illumina NextSeq或NovaSeq测序仪上进行PE150(双端150bp)测序。

因此,本发明涉及检测DNA甲基化的试剂。本领域周知上述检测DNA甲基化的方法中所用的试剂。在涉及DNA扩增的检测方法中,检测DNA甲基化的试剂包括引物。所述引物序列为甲基化特异的或非特异的。优选地,所述引物的序列可以包括非甲基化特异的封闭序列(Blocker)。检测DNA甲基化的试剂还可包括探针。通常,探针的序列的5’端标记荧光报告基团,3’端标记淬灭基团。示例性地,所述探针的序列包含MGB或者LNA。

本文所述“引物”是指在核苷酸聚合作用起始时,引导合成的一种具有特定核苷酸序列的核酸分子。引物通常是人工合成的两段寡核苷酸序列,一个引物与靶区域一端的一条DNA模板链互补,另一个引物与靶区域另一端的另一条DNA模板链互补,其功能是作为核苷酸聚合作用的起始点。引物通常至少9bp。体外人工设计的引物被广泛用于聚合酶链反应(PCR)、qPCR、测序和探针合成等。通常,引物被设计为扩增的产物长度为1-2000bp、10-1000bp、30-900bp、40-800bp、50-700bp、或至少150bp、至少140bp、至少130bp、至少120bp。

如本文所述,DNA或RNA的碱基之间可发生转化。本文所述“转化”、“胞嘧啶转化”或“CT转化”是利用非酶促或酶促方法处理DNA,将未修饰的胞嘧啶碱基(cytosine,C)转化为与鸟嘌呤结合能力低于胞嘧啶的碱基(例如尿嘧啶碱基(uracil,U))的过程。本领域周知进行胞嘧啶转化的非酶促或酶促方法。示例性地,非酶促方法包括使用转化试剂例如亚硫酸氢盐、酸式亚硫酸盐或焦亚硫酸盐处理,例如亚硫酸氢钙、亚硫酸氢钠、亚硫酸氢钾、亚硫酸氢铵、重硫酸钠、重硫酸钾和重硫酸铵等。示例性地,酶促方法包括脱氨酶处理。经转化的DNA任选经纯化。适用于本文的DNA纯化方法本领域周知。

本发明还提供一种用于诊断胰腺癌的试剂盒,所述试剂盒包含检测DNA甲基化的试剂或装置,和检测CA19-9水平的试剂或装置。

检测DNA甲基化的试剂用于确定对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平。示例性的检测DNA甲基化的试剂包括本文所述的引物和/或探针,用于检测发明人发现的胰腺癌和胰腺炎鉴别相关序列的甲基化水平。

本文所述“杂交”主要指在严谨条件下的核酸序列配对。示例性严谨条件为在0.1×SSPE(或0.1×SSC)、0.1%SDS的溶液中,65℃条件下杂交并洗膜。

所述试剂盒还可包括经转化的阳性标准品,其中未甲基化的胞嘧啶转化为不与鸟嘌呤结合的碱基。所述阳性标准品可以是完全甲基化的。此外,试剂盒还包含检测DNA甲基化所需的其他试剂。示例性地,检测DNA甲基化的其他试剂可包含以下的一种或多种:重亚硫酸盐及其衍生物、PCR反应试剂、甲基化敏感或不敏感的限制性内切酶、酶切缓冲液、荧光染料、荧光淬灭剂、荧光报告剂、外切核酸酶、碱性磷酸酶、内标、对照物。其中PCR反应试剂包括聚合酶、PCR缓冲液(buffer)、dNTP、Mg

本文所述CA19-9水平主要是体液(例如血液或血浆)中的CA19-9水平。检测CA19-9水平的试剂可以是任何本领域已知可以用于CA19-9检测方法所用的试剂,例如基于免疫反应的检测试剂,包括但不限于:CA19-9的抗体、和任选的缓冲液、洗涤液等。本发明中使用的示例性检测方法通过化学发光免疫分析法进行CA19-9含量的检测,具体步骤:首先用化学发光标记物(吖啶酯)标记CA19-9抗体,经标记的抗体和CA19-9抗原发生免疫反应形成CA19-9抗原-吖啶酯标记抗体复合物,然后加入氧化剂(H

本发明还包括诊断胰腺癌的方法,包括:(1)获取对象样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,和对象的CA19-9水平,(2)利用数学模型(例如支持向量机模型或随机森林模型)使用甲基化状态或水平计算获得甲基化评分,(3)将甲基化评分与CA19-9水平合并数据矩阵,(4)基于数据矩阵构建胰腺癌诊断模型(例如逻辑回归模型),任选的(5)获得胰腺癌评分;根据胰腺癌评分是否达到阈值来诊断胰腺癌。所述方法在步骤(1)之前还可包含DNA抽提和/或质检。本发明特别适合从胰腺炎患者中分辨胰腺癌,即鉴别胰腺癌和胰腺炎。

本文中,样品来自哺乳动物对象,优选人。样品可来自任何器官(例如胰腺)、组织(例如上皮组织、结缔组织、肌肉组织和神经组织)、细胞或者体液(例如血液、血浆、血清、组织液、尿液)。通常,只要所述样品包含基因组DNA或cfDNA(Circulating free DNA or Cellfree DNA)即可。cfDNA称为循环游离DNA或者细胞游离DNA,是释放到血浆中的降解的DNA片段。示例性地,所述样品是胰腺癌活检物,优选是细针穿刺活检物。或者,所述样品是血浆或cfDNA。

所述对象例如是诊断为胰腺炎或曾经诊断患有胰腺炎(既往确诊)的患者。即,在一个或多个实施方案中,所述方法在诊断为慢性胰腺炎的患者(包括既往确诊的患者)中鉴定胰腺癌。当然,本发明方法并不限于上述对象,也可以用于对未经诊断的对象直接进行胰腺炎或胰腺癌的诊断、鉴别。

在具体实施方案中,步骤(1)包括检测对象的样品中DNA序列或其片段的甲基化水平或所述DNA序列或其片段中一个或多个CpG二核苷酸的甲基化状态或水平,例如使用本文所述的引物分子和/或探针分子检测甲基化状态或水平。

检测甲基化状态或水平以及检测CA19-9水平的方法如本文他处所述。一种具体的检测甲基化状态或水平的方法包括:用转化试剂处理基因组DNA或cfDNA,使未甲基化的胞嘧啶转化为与鸟嘌呤结合能力低于胞嘧啶的碱基(例如尿嘧啶);使用引物进行PCR扩增,所述引物适用于扩增本文所述胰腺癌和胰腺炎鉴别相关序列的经转化的序列;通过扩增产物的有或无、或者序列鉴定(例如基于探针的PCR检测鉴定或DNA测序鉴定)确定至少一个CpG的甲基化水平。

或者步骤(1)还可包括:用甲基化敏感的限制性内切酶处理基因组DNA或cfDNA;使用引物进行PCR扩增,所述引物适用于扩增具有本文所述胰腺癌和胰腺炎鉴别相关序列中至少一个CpG的序列;通过扩增产物的有或无确定至少一个CpG的甲基化水平。

本文所述“甲基化水平”包括所涉序列中任意数量和任意位置的CpG的甲基化水平的关系。所述关系可以是甲基化水平参数(例如0或1)的加减或数学算法的计算结果(例如均值、百分比、份数、比例、程度或利用数学模型进行的计算)、包括但不限于甲基化水平度量值、甲基化单倍型比值、或甲基化单倍型负荷。例如,甲基化水平可代表区域内多个CpG位点甲基化水平的平均值。这里的每个CpG位点甲基化水平是指该位点甲基化C的百分比。因此,区域的甲基化水平上升或下降并不表示区域中所有CpG位点的甲基化水平都上升或下降。本领域知晓将检测DNA甲基化的方法(例如简化甲基化测序)所得结果转化为甲基化水平的过程。术语“甲基化状态”显示具体CpG位点的甲基化,通常包括甲基化的或未甲基化的(例如甲基化状态参数0或1)。

术语“甲基化评分”或“基于甲基化的疾病预测值”含义相同,表示使用数学模型对甲基化状态或水平进行计算获得的疾病预测值。本领域知晓常规数学模型分析的方法,示例性的方法是支持向量机(SVM)数学模型。例如,对于差异甲基化标志物,对训练组样本构建支持向量机(SVM),利用模型统计检测结果的准确率,敏感性和特异性以及预测值特征曲线(ROC)下面积(AUC),统计测试集样本预测得分。

在优选的实施方案中,模型训练过程如下:首先根据每个位点甲基化水平获取差异甲基化区段并构建差异甲基化区域矩阵,例如可通过例如samtools软件从HG19基因组单个CpG双核苷酸位置的甲基化水平数据构建甲基化数据矩阵;然后进行SVM模型训练。

示例性的SVM模型训练过程如下:

a)使用python软件(v3.6.9)的sklearn软件包(v0.23.1)构建训练模型交叉验证训练模型的训练模式,命令行:model=SVR()。

b)使用sklearn软件包(v0.23.1),输入数据矩阵,构建SVM模型,model.fit(x_train,y_train)其中,x_train表示训练集数据矩阵,y_train表示训练集的表型信息。

本文还涉及获取与胰腺癌和胰腺炎相关甲基化单倍型比值的方法。以甲基化靶向测序(MethylTitan)获得的甲基化数据为例,筛选并测试标志物位点的过程如下:原始双端测序读数——读数合并得到合并的单端读数——去接头得到去接头的读数——Bismark比对到人DNA基因组形成BAM文件——samtools提取每条读段的CpG位点甲基化水平形成haplotype文件——统计C位点甲基化单倍型比值比例形成meth文件——计算MHF(Methylated Haplotype Fraction)甲基化数值——Coverage 200过滤位点形成meth.matrix矩阵文件——按照NA值大于0.1过滤位点进行过滤——随预先将样本分为训练集和测试集——对于训练集的每个单倍型对表型构建逻辑回归模型,选取每个甲基化单倍型比值的回归P值——统计每个MethylTitan扩增区域内选取P值最显著的甲基化单倍型比值代表该区域的甲基化单倍型比值水平通过支持向量机建模——形成训练集的结果(ROC图)并用模型预测测试集进行验证。具体地,获取与胰腺癌相关甲基化单倍型比值的方法包括如下步骤:(1)获取待测胰腺癌或胰腺炎的患者样本的血浆,提取cfDNA,采用MethylTitan方法进行建库测序,获得测序读段;(2)测序数据预处理,包括对对测序仪产生的测序数据进行去接头和拼接处理;(3)将上述预处理之后的测序数据,比对到人基因组的HG19参考基因组序列,确定每条片段的位置。步骤(2)的数据可来源于Illumina测序平台双端150bp测序。步骤(2)的去接头是分别去除两条双端测序数据5’端和3’端的测序接头,以及去除接头之后的低质量碱基去除处理。步骤(2)的拼接处理是,将双端测序数据合并还原为原文库片段。这样可以更好地进行比对,准确定位测序片段。示例性地,测序文库长度在180bp左右,双端150bp可以完全覆盖整条文库片段。步骤(3)包括:(a)将HG19参考基因组数据分别进行CT和GA转化,构建两套转化后的参考基因组,并分别对转化后的参考基因组构建比对索引;(b)将上部合并好的测序序列数据同样进行CT和GA转化;(c)分别对上述转化后的参考基因组序列进行比对,最后汇总比对结果确定测序数据在参考基因组的位置。

此外,获取甲基化单倍型比值的方法还包括(4)MHF的计算;(5)构建甲基化单倍型比值MHF数据矩阵;和(6)根据样本分组构建每个甲基化单倍型比值的逻辑回归模型。步骤(4)包括通过步骤(3)得到的比对结果,针对HG19参考基因组的位置,获取该位置上的甲基化单倍型比值状态和测序深息。步骤(5)包括将甲基化单倍型比值状态和测序深度信息数据合并成数据矩阵。其中,对每个深度小于200的数据点当作缺失值处理,使用K最近邻(KNN)方法对缺失值进行填充。步骤(6)包括根据使用逻辑回归对上述矩阵中的每个位置进行统计建模,筛选在两组之间具有显著回归系数的单倍型。

根据发明人的发现,将甲基化评分与CA19-9水平结合可以显著提高诊断精确性。具体地,甲基化评分与CA19-9水平合并成数据矩阵,然后基于数据矩阵构建胰腺癌诊断模型(例如逻辑回归模型),获得胰腺癌评分。

甲基化评分与CA19-9水平的数据矩阵任选经过标准化处理。标准化可以使用本领域常规标准化方法。本发明实施例中示例性使用RobustScaler标准化方法,标准化公式如下:

其中x和x’分别为均一化前后的样本数据,median为样本的中位数,IQR为样本的四分位距。

与甲基化评分类似,本领域知晓常规数学模型的方法以及通过数据矩阵确定阈值的过程,例如通过支持向量机(SVM)数学模型、随机森林模型或逻辑回归模型。示例性的方法是逻辑回归模型。例如,对于差异甲基化标志物,对训练组样本逻辑回归模型,利用模型统计检测结果的准确率,敏感性和特异性以及预测值特征曲线(ROC)下面积(AUC),统计测试集样本预测得分。当结合甲基化水平和CA19-9水平的胰腺癌评分满足某一阈值时,则鉴定为胰腺癌,否则为慢性胰腺炎。

本文所述“多个”表示任意整数。优选地,“一个或多个”中的“多个”可为例如大于或等于2的任意整数,包括2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个或更多个。

实施例

下面结合附图和具体实施例对本发明作进一步详细的说明。下列实施例中,未注明具体条件的实验方法,通常按常规条件中所述的方法进行。

实施例1:甲基化靶向测序筛选特征甲基化位点

发明人收集了总计94个胰腺癌患者血液样本、25个慢性胰腺炎患者血液样本,所有入组患者签署知情同意书。胰腺癌患者具有既往胰腺炎诊断史。样本信息见下表。

通过MethylTitan的方法获得血浆DNA的甲基化测序数据,鉴别出其中的DNA甲基化分类标志物,流程参考图1,具体过程如下:

1、血浆cfDNA样本的提取

采用streck血液收集管收集患者2ml全血样本,及时离心分离血浆(3天内),转运至实验室后,采用QIAGEN QIAamp Circulating Nucleic Acid Kit试剂盒根据说明书提取cfDNA。

2、测序及数据预处理

1)文库用Illumina Nextseq 500测序仪进行双端测序。

2)Pear(v0.6.0)软件将Illumina Hiseq X10/Nextseq 500/Nova seq测序仪下机的双端150bp测序的同一片段双端测序数据合并成一条序列,最短重叠长度20bp,合并之后最短30bp。

3)使用Trim_galore v0.6.0、cutadapt v1.8.1软件对合并后的测序数据进行去接头处理。在序列的5’端去除接头序列为“AGATCGGAAGAGCAC”,并去除两端测序质量值低于20的碱基。

3、测序数据比对

本文使用的参考基因组数据来自UCSC数据库(UCSC:HG19,http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz)。

1)首先将HG19使用Bismark软件分别进行胞嘧啶到胸腺嘧啶(CT)和腺嘌呤到鸟嘌呤(GA)的转化,并且分别对转换后的基因组使用Bowtie2软件构建索引。

2)将预处理的数据同样进行CT和GA转化。

3)使用Bowtie2软件分别将转化后的序列比对到转化后的HG19参考基因组,最短种子序列长度20,种子序列不允许错配。

4、MHF的计算

对于每个目标区域HG19的CpG位点,根据上述比对结果,获取每个位点对应的甲基化状态。本文中位点的核苷酸编号对应于HG19的核苷酸位置编号。一个目标甲基化区域可能有多个甲基化haplotype,对于目标区域内的每一个甲基化haplotype都需要进行该值的计算,MHF的计算公式示例如下:

其中i表示目标甲基化区间,h表示目标的甲基化haplotype,N

5、甲基化数据矩阵

1)将训练集和测试集的各个样本的甲基化测序数据分别合并成数据矩阵,对每个深度低于200的位点做缺失值处理。

2)去除缺失值比例高于10%的位点。

3)对于数据矩阵的缺失值,利用KNN算法进行缺失数据插补。

6、根据训练集样本分组发现特征甲基化区段

1)每个甲基化区段对于表型构建逻辑回归模型,对每个扩增的目标区域筛选出回归系数最显著的甲基化区段,组成候选甲基化区段。

2)将训练集随机分成十份做十倍交叉验证增量特征筛选。

3)每个区域的候选甲基化区段按照回归系数显著性进行从大到小排序,每次加入一个甲基化区段数据,对测试数据进行预测(支持向量机(SVM)模型)。

4)步骤3)使用2)生成的10份数据每次都计算10次,最后的AUC取10次的平均值。如果训练数据的AUC增加则保留该候选甲基化区段作为特征甲基化区段,否则舍弃。

筛选出的特征甲基化标志物在HG19中的分布情况具体如下:位于SIX3基因区域的SEQ ID NO:1,TLX2基因区域的SEQ ID NO:2,CILP2基因区域的SEQ ID NO:3。上述甲基化标志物的水平在胰腺癌患者cfDNA中上升或下降(表1)。上述3个标志物区域的序列如SEQ IDNO:1-3所示。

训练集和测试集中胰腺癌与慢性胰腺炎人群的甲基化标志物的甲基化水平均值分别如表1和表2所示。三个甲基化标志物在训练集和测试集中胰腺癌和慢性胰腺炎患者甲基化水平的分布分别如图2和图3所示。从图表中可以看出,三个甲基化标志物的甲基化水平在胰腺癌和慢性胰腺炎人群中差异明显,具备良好的区分效果。

表1:DNA甲基化标志物在训练集的甲基化水平

表2:DNA甲基化标志物在测试集的甲基化水平

实施例2:构建基于机器学习的分类预测模型

为了验证利用标志物DNA甲基化水平(如甲基化单倍型比值)进行胰腺癌-慢性胰腺炎患者分类器的潜在能力,在训练组中,基于3个DNA甲基化标志物的组合构建支持向量机疾病分类模型pp_model,同时构建了基于支持向量机模型预测分值和CA19-9测量值合并数据矩阵的逻辑回归疾病分类模型cpp_model,在测试组中验证两个模型的分类预测效果。按照比例来划分训练组与测试组,其中训练组80例(样本1-80),测试组为39例(样本80-119)。

使用发现的DNA甲基化标志物在训练集中构建支持向量机模型。

1)将样本预先分为2份,其中1份用于训练模型,1份用于模型测试。

2)为了开发利用甲基化标志物进行胰腺癌鉴别的潜力,基于基因标志物开发了疾病分类系统。利用训练集中甲基化标志物水平进行了SVM模型训练。具体训练过程如下:

a)使用python软件(v3.6.9)的sklearn软件包(v0.23.1)构建训练模型,命令行:pp_model=SVR()。

b)使用sklearn软件包(v0.23.1),输入甲基化数值矩阵,构建SVM模型,pp_model.fit(train_df,train_pheno)其中,train_df表示训练集甲基化数值矩阵,train_pheno表示训练集的表型信息,pp_model表示使用三个甲基化标志物数值矩阵构建的SVM模型。

c)将训练集和测试集数据分别带入pp_model模型得到预测分值:train_pred

=pp_model.predict(train_df)

test_pred=pp_model.predict(test_df)

其中train_df,test_df分别为训练集和测试集甲基化数值矩阵,train_pred,

test_pred分别是训练集和测试集数据的pp_model模型预测分值。

3)为了提升鉴别胰腺癌和胰腺炎患者的能力,模型中纳入了CA19-9的检测值,具体的过程如下:

d)将训练集的SVM模型预测值和对应的CA19-9测量值数据合并为数据矩阵并进行标准化处理:

Combine_scalar_train=RobustScaler().fit(combine_train_df)

Combine_scalar_test=RobustScaler().fit(combine_test_df)

scaled_combine_train_df=Combine_scalar_train.transform

(combine_train_df)

scaled_combine_test_df=Combine_scalar_test.transform(combine_test_df)

其中combine_train_df,combine_test_df分别表示测试集,训练集样本经过本实施例构建的pp_model预测模型得到的预测分数与CA19-9合并的数据矩阵;scaled_combine_train_df,scaled_combine_test_df分别表示经过标准化之后的训练集和测试集数据矩阵。

e)使用训练集pp_model模型预测分值和CA19-9测量值的合并标准化数据矩阵构建逻辑回归模型,并使用该模型对测试集pp_model模型预测分值和CA19-9合并标准化数据矩阵进行预测:

cpp_model=LogisticRegression().fit(scaled_combine_train_df,train_pheno)

combine_test_pred=cpp_model.predict(scaled_combine_test_df)

其中cpp_model表示使用纳入CA19-9检测值并标准化之后的训练集数据矩阵拟合的逻辑回归模型;combine_test_pred表示cpp_model在测试集的预测分值。

在构建模型的过程中,将胰腺癌类型编码为1,慢性胰腺炎类型编码为0,根据模型预测分值分布,分别将pp_model,cpp_model阈值设置为0.892,0.885,基于两个模型,当预测分值高于阈值时判别为胰腺癌患者,反之为胰腺炎患者。

两种模型对训练集和测试集样本的预测分数分别见表3和表4,预测分数的分布状况见图5。两个机器学习模型和单独使用CA19-9测量值的ROC曲线见图4,其中单独使用CA19-9 AUC值为0.84,pp_model的AUC值为0.88,cpp_model的AUC值为0.90,使用三个甲基化marker构建的SVM模型(pp_model)性能明显优于CA19-9,pp_model模型预测值加入CA19-9检测值构建的逻辑回归模型cpp_model性能又优于pp_model。

使用确定的阈值在测试集进行统计(CA19-9使用公认的37阈值),敏感性和特异性见表5,cpp_model在测试集中在特异性为100%情况下,对胰腺癌患者的敏感性可达87%,性能优于pp_model和CA19-9。

另外统计了CA19-9判别阴性(<37)的样本中两个模型的表现,结果见表6,可看出cpp_model在测试集中对于CA19-9判别阴性的胰腺癌患者仍可以达到63%的敏感性,特异性为100%。

表3:两个模型在训练集的预测得分以及判别结果

/>

/>

表4:两个模型在测试集的预测得分以及判别结果

/>

表5:CA19-9和两个机器学习模型的敏感性和特异性

表6:两个机器学习模型在CA19-9判别阴性样本中的表现

本研究通过血浆cfDNA中甲基化标志物的甲基化水平来研究慢性胰腺炎对象血浆及胰腺癌人群血浆的差异,并筛选出3个具有明显差异的DNA甲基化标志物。基于上述DNA甲基化标志物群,并纳入CA19-9检测值,通过支持向量机和逻辑回归的方法,建立恶性胰腺癌风险预测模型,在诊断为慢性胰腺炎的患者中可以有效区分胰腺癌和慢性胰腺炎患者且具有较高的灵敏度和特异性,适用于慢性胰腺炎患者中胰腺癌的筛查与诊断。

序列表

<110> 上海鹍远生物技术有限公司

江苏鹍远生物技术有限公司

<120> 一种基于机器学习的胰腺癌诊断方法

<130> 215332

<160> 3

<170> SIPOSequenceListing 1.0

<210> 1

<211> 523

<212> DNA

<213> Homo sapiens

<400> 1

taatttatgg aatccaccgt cacactctct ccgagcagcc agctccccgc ttaacgggga 60

aattgaagca gacagccttt gtctaaacac ttcttttgcc cagaatatct taattttcct 120

atttgaatgt ttaataaggt ttggggtgca gcagcttcct tttaattgtg acggtgcggc 180

cgcttgggcg tgatcccttg gctggggctg cagggggccc gtcctccagg ggcgcagagg 240

gaaggaccag cgtttccaag ccgggctctg gccgccggcg cgagagcgag gccaaggtct 300

gggggcagtt cagggggacc ccgaagtcgg gacggcccag aaacgctttg cccacagcca 360

ccgccctttc ctttgtgagt ttccccaaag ccgtcggtgc gacccggcgc cgactctcct 420

cctcttctcc ctgcgagggc ccgcgccgcc cgggcccagt cctgggggat agatccctcg 480

gggcccaacg gctgggccac cgccggtctc cggccactgc tgc 523

<210> 2

<211> 518

<212> DNA

<213> Homo sapiens

<400> 2

aagccgcgca cgtccttctc ccgctcacag gtgctggagt tggagcggcg cttcctgcgc 60

cagaagtacc tggcctctgc ggagagggcg gcgctggcca aggccttgcg catgaccgac 120

gcacaggtca aaacgtggtt ccagaaccga cgcaccaagt ggcggtgagg cgcggcgcgg 180

gcgagggcgg actggggttc ccgagcaggg cctggtgaga agcgacgcgg cgggcgcccc 240

gctgaccccg cgtctccctc ccttaggcgc cagacggcgg aggagcgcga ggccgagcgg 300

caccgcgcgg gccggctgct cctgcatctg cagcaggacg cgttgccacg gccgctgcgg 360

ccgccgctgc ccccggaccc tctctgcctg cacaactcgt cgctcttcgc gctgcagaac 420

ctgcagccct gggccgagga caacaaagtg gcttcagtgt ccgggctcgc ctcggtggtg 480

tgagcgacgc ccgtccgatc ggcgtggagc gccgggcc 518

<210> 3

<211> 526

<212> DNA

<213> Homo sapiens

<400> 3

ttcaagatct aagtgagagg ccggtcagac agaggcaaga gctcagcgca ccgggatgga 60

ccaggtcagg ccctgggcgg cagaactggg gtcgcgggga acccagtctg ccctgcacct 120

gtttcaggcc gctggctcgg gtcgtgggcg cgctcggcta gccggtgccc accgggggag 180

ggggctgaga cagcaagtaa ggcctttgca cgcatgcatg ggggcctaca ggccgccgcc 240

ctggtcccag cgcgtgcggt gcccgcagag gccagcgagt ggacgtcctg gttcaacgtg 300

gaccaccccg gaggcgacgg cgacttcgag agcctggctg ccatccgctt ctactacggg 360

ccagcgcgcg tgtgcccgcg accgctggcg ctggaagcgc gcaccacgga ctgggccctg 420

ccgtccgccg tcggcgagcg cgtgcacttg aaccccacgc gcggcttctg gtgcctcaac 480

cgcgagcaac cgcgtggccg ccgctgctcc aactaccacg tgcgct 526

技术分类

06120115934671