掌桥专利:专业的专利平台
掌桥专利
首页

AML和MDS共检分析方法、应用、系统、设备及介质

文献发布时间:2024-04-18 19:58:30


AML和MDS共检分析方法、应用、系统、设备及介质

技术领域

本发明属于基因检测技术,具体涉及一种AML和MDS共检分析方法、应用、系统、设备及介质。

背景技术

血液肿瘤是一类具有高度异质性的疾病,其诊疗需要结合形态学、免疫学、遗传学和分子生物学进行综合分析。近年越来越多的分子改变被发现,一方面,这些分子层面的改变对血液肿瘤的分型进行了重新定义,另一方面,以分子生物学为基础的分型也为血液肿瘤的预后分组提供了依据,让精准诊断和精准治疗成为可能。

急性髓系白血病(Acute myeloid leukemia,AML)是一种造血干细胞的恶性疾病,其特征是髓系异常分化母细胞的克隆扩增。未成熟髓细胞增殖的后果包括未成熟祖细胞的积聚,损害正常的造血,导致严重感染、贫血和出血。一些患者还可能出现髓外疾病,包括中枢神经系统受累。骨髓增生异常肿瘤(Myelodysplastic syndromes,MDS)同样是起源于造血干细胞的一组异质性髓系克隆性疾病,其特点是造血细胞发育异常,表现为无效造血、难治性血细胞减少和高风险向急性髓系白血病(AML)转化。MDS转化为AML的概率很高。据统计,有30%~40%MDS最终会转化为AML。一旦转化为AML,治愈难度加大,且患者会在短期内病情恶化。对于AML和MDS这两种疾病,及时诊断并开始治疗至关重要,这就要求用于诊断的检测方法快速且准确。

目前的基因变异检测技术主要包括实时荧光定量PCR(qPCR)、sanger测序和二代测序(Next-generation sequencing,NGS)。qPCR是一种在DNA扩增反应中,通过荧光化学物质检测每次聚合酶链式反应循环后产物总量,从而对待测样品中的特定DNA序列进行定量分析的方法。具有技术简单,成本低廉的优点,但是只能检测已知位点,且能同时检测的位点数和样本数较少。Sanger测序是根据核苷酸在某一固定的点开始,随机在某一个特定的碱基处终止,并且在每个碱基后面进行荧光标记,产生以A、T、C、G结束的四组不同长度的一系列DNA链,然后通过电泳检测具有不同荧光标记的DNA链长度,从而获得DNA碱基序列的一种方法。Sanger测序准确率率高,测序片段长,但同样存在低通量、低灵敏度的缺点。二代测序是一种短读长测序,通过检测大量的DNA小片段,再使用特定生物信息学算法将检测结果与参考基因序列比对,从而发现变异的方法。作为新的分子生物学技术,NGS具有通量高、灵敏度高、成本低等优势,是探索血液肿瘤的分子发病机制并指导临床诊疗的重要手段。

但是,目前的二代测序产品针对AML和MDS的检测,同时存在靶点不全面和靶点过多的缺点。靶点不全面会导致一些重要的基因变异漏检,从而不能正确地指导用药。而靶点过多时,为了保证准确度,在同样测序深度的情况下,数据量会比较庞大,增加了测序成本和生信分析的时间,不利于检测的普及和效率的提高。检测范围过大还会产生许多无法解释的,意义未明的变异,这些变异对疾病的治疗没有指导作用。

发明内容

本发明的目的在于提供一种AML和MDS共检分析方法、应用、系统、设备及介质,既能实现AML和MDS共检,又能避免基因组合过大带来的数据量庞大和成本高的问题,也能节约检测时间,适用于AML和MDS的大规模快速诊断。

本发明第一方面公开一种AML和MDS共检分析方法,包括:

获取待检测的DNA文库的基因组测序序列,所述基因组测序序列包括:AML和MDS相关的基因组合;

将所述基因组测序序列与基因组参考序列进行比对,将所述基因组测序序列与基因组参考序列进行比对,得到包含所述基因组测序序列的各个位点对应的单核苷酸变异的第一变异频率和小片段插入或缺失的第二变异频率的第一变异频率表;

将所述第一变异频率表中的小于第一预设阈值的第一变异频率、小于第二预设阈值的第二变异频率、及预设位点对应的第三变异频率过滤后,得到过滤后的第一变异频率表。

可选的,所述第一预设阈值和第二预设阈值的确定方法,包括:

获取正常人的DNA的基因组正常序列;

将所述基因组正常序列与基因组参考序列进行比对,得到包含各个位点的单核苷酸变异的变异频率和小片段插入或缺失的变异频率的第二变异频率表;

统计所述第二变异频率表中小于1%的变异频率,得到单核苷酸变异的第一95百分位上限和小片段插入或缺失的第二95百分位上限;

将所述第一95百分位上限作为第一预设阈值,将所述第二95百分位上限作为第二预设阈值。

可选的,所述预设位点的选取方法,包括:

获取多例正常人的DNA的基因组正常序列;

将各个所述基因组正常序列与基因组参考序列进行比对,得到对应的各个位点的变异频率;

筛选出在20%以上的正常人中出现变异的位点,得到假阳性变异位点集;

从所述假阳性变异位点集中筛选出第一位点和第二位点,其中,所述第一位点为chr20_31022441_31022441_-_G,所述第二位点为chr20_31022442_31022442_G_-;

计算所述基因组测序序列中第一位点和第二位点的变异频率的差值,若该差值不小于第三预设阈值,则认为第一位点或第二位点的变异是真的,将所述假阳性变异位点集中除去第一位点或第二位点后的所有位点作为预设位点,若该差值小于第三预设阈值,则认为第一位点和第二位点的变异是假的,将所述假阳性变异位点集中的所有位点作为预设位点。

可选的,所述第三预设阈值的确定方法包括:

计算各个所述基因组正常序列中第一位点和第二位点的变异频率的差值,经过统计得到第一差值均值、最大值和第三95百分位上限;

计算基因组样本序列中第一位点和第二位点的变异频率的差值,经过统计得到第二差值均值、最小值和5百分位下限,其中,所述基因组样本序列的基因组样本包括:第一位点变异的第一样本和无变异的第二样本,所述第一样本和第二样本混合后第一位点的变异频率在预设频率段;

根据所述第一差值均值、最大值、第三95百分位上限、第二差值均值、最小值和5百分位下限得到第三预设阈值。

可选的,所述AML和MDS相关的基因组合包括表1所示的基因:

表1 AML和MDS相关的panel

其中,RefSeqID(RefSeq Accession Number)表示的是美国国家生物信息技术中心(NCBI)提供的具有生物意义上的非冗余的基因和蛋白质片段序列的数据库中的编号。

本发明第二方面公开了一种AML和MDS相关的基因组合在构建AML和MDS共检的DNA文库中的应用,所述基因组合包括表1所示的基因。

本发明第三方面公开了一种能共检AML和MDS相关基因组合的探针组合在构建AML和MDS共检的DNA文库中的应用,所述基因组合包括表1所示的基因:

本发明第四方面公开了一种ML和MDS共检分析系统,包括:

序列获取模块,用于获取待检测的DNA文库的基因组测序序列,所述基因组测序序列包括:AML和MDS相关的基因组合;

序列比对模块,用于将所述基因组测序序列与基因组参考序列进行比对,得到包含所述基因组测序序列的各个位点对应的单核苷酸变异的第一变异频率和小片段插入或缺失的第二变异频率的第一变异频率表;

位点过滤模块,用于将所述第一变异频率表中的小于第一预设阈值的第一变异频率、小于第二预设阈值的第二变异频率、及预设位点对应的第三变异频率过滤后,得到过滤后的第一变异频率表。

本发明第五方面公开了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述的方法的步骤。

本发明第六方面公开了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的方法的步骤。

本发明所提供的技术方案具有以下的优点及效果:通过获取正常人的基因组正常序列,将基因组正常序列与基因组参考序列比对后,得到第二变异频率表,对第二变异频率表中小于1%的变异频率进行统计,得到单核苷酸变异的变异频率的95百分位上限和小片段插入或缺失位点的变异频率的95百分位上限,综合这两种变异的数据,将第一95百分位上限作为第一预设阈值,将第二95百分位上限作为第二预设阈值,即第一变异频率小于第一预设阈值的位点及第二变异频率小于第二预设阈值的位点均认为是假阳性,在生信流程中过滤,以提高单核苷酸变异和小片段插入或缺失的检测准确率;然后通过计算第一位点和第二位点“重复”和“缺失”的差值,并将该差值与通过建立人群基线设定了第三阈值进行比较,来判断第一位点和第二位点变异的真假,以提高了单核苷酸串联重复区域变异判读的灵敏度和准确性。

附图说明

图1是本发明提供的方法的流程示意图;

图2是本发明提供的基线样本集中SNV的低频变异统计图;

图3是本发明提供的基线样本集中indel的低频变异统计图;

图4是本发明提供的基线样本和阴性样本中chr20:g.31022441dup与chr20:g.31022442del频率差值统计图;

图5是本发明提供的第一样本和第二样本中chr20:g.31022441dup与chr20:g.31022442del频率差值统计图;

图6是本发明提供的SNV精密性统计图;

图7是本发明提供的indel精密性统计图;

图8是本发明提供的实施例一的操作流程图;

图9是本发明提供的实施例一的生物信息学分析的示例流程图;

图10是本发明提供的AML和MDS共检分析模型的结构框图;

图11是本发明实施例中计算机设备的内部结构图。

具体实施方式

为了便于理解本发明,下面将参照说明书附图对本发明的具体实施例进行更详细的描述。

除非特别说明或另有定义,本发明所使用的“第一、第二…”仅仅是用于对名称的区分,不代表具体的数量或顺序。

除非特别说明或另有定义,本发明所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

AML(Acutemyeloid leukemia,急性髓系白血病)是一种造血干细胞的恶性疾病,其特征是髓系异常分化母细胞的克隆扩增。未成熟髓细胞增殖的后果包括未成熟祖细胞的积聚,损害正常的造血,导致严重感染、贫血和出血。MDS(Myelodysplastic syndromes,骨髓增生异常综合症),同样是起源于造血干细胞的一组异质性髓系克隆性疾病,其特点是造血细胞发育异常,表现为无效造血、难治性血细胞减少和高风险向急性髓系白血病(AML)转化。

本发明参考COSMIC数据库、TCGA数据库、WHO世界卫生组织血液淋巴分类、中国/欧洲/美国临床实践指南/专家共识等,以及参考其它实验室及临床机构对AML和MDS的研究进展,所选择基因依据指南中引入的基因变异对现有的AML和MDS危险度预后分层系统所做的详细分类与关联,同时基于重要基因及其变异作为精准预后评估的分子生物学检测指标,在AML和MDS的诊断、预后分层、治疗决策支持上发挥重要的辅助作用的文献调研及应用参考,最后确定共检AML和MDS相关的基因组合(panel)中检测基因数为46个,性别位点5个,Panel大小93.8kb。覆盖基因的重要外显子编码区,变异类型包括点变异、小片段插入缺失、大片段插入缺失。AML和MDS相关的panel,包括表1所示的基因。

如图1所示,本发明提供了一种AML和MDS共检分析方法,包括:

步骤1、获取待检测的DNA文库的基因组测序序列,所述基因组测序序列包括:AML和MDS相关的基因组合;

具体地,待检测的基因组测序序列对应的DNA是从从外周血/骨髓中提取出来的DNA,提取出待检测的DNA,经过文库构建、探针杂交、文库捕获与洗脱、产物扩增与纯化、文库质量控制后,进行上机测序,得到待检测的DNA文库的基因组测序序列,在本发明中使用illumina测序平台的边合成边测序技术,通过可逆终止化学反应实现对数百万个片段同时进行大规模平行测序。illumina测序平台通过不断更新测序试剂和完善算法软件系统,可有效减少同聚物和重复序列的测序错误,具有较高的碱基覆盖度和准确性。

步骤2、将所述基因组测序序列与基因组参考序列进行比对,得到包含所述基因组测序序列的各个位点对应的单核苷酸变异(single nucleotide variants,SNV)的第一变异频率和小片段插入或缺失(Insertion and Deletion,indel)的第二变异频率的第一变异频率表;具体地,如能够用STAR软件和/或bwa软件将基因组测序序列比对到基因组参考序列,在本实施例中,基因组参考序列是hg19参考基因组,第一变异频率表中包括基因组测序序列中各个位点及其对应的变异频率。

步骤3、将所述第一变异频率表中的小于第一预设阈值的第一变异频率、小于第二预设阈值的第二变异频率、及预设位点对应的第三变异频率过滤后,得到过滤后的第一变异频率表。

在实际应用中,由于illumina测序平台依赖于PCR(Polymerase Chain Reaction,聚合酶链式反应,)扩增,PCR过程容易引入碱基错配,因此首先需要去除由碱基错配导致的低频假阳性变异,也就是对第一变异频率小于第一预设阈值的第一假阳性位点及其第一变异频率和第二变异频率小于第二预设阈值的第二假阳性位点及其第二变异频率进行过滤,然后对特殊的DNA序列中产生的假阳性位点进行去除,如高GC片段导致的测序错误,也就是对预设位点进行过滤,在过滤掉第一假阳性位点及其对应的变异频率、第二假阳性位点及其对应的变异频率和预设位点及其对应的变异频率后,得到了过滤后的第一变异频率表。本发明筛选了AML和MDS相关的panel进行检测,在实现两病共检的同时又能保证panel不会太大,同时兼顾了检测质量和检测成本,另外,经过过滤后,不会产生大量数据增加分析报告的难度,同时生信流程输出的变异位点(也就是过滤后的第一变异频率表中包括的位点)既能囊括重要的、真实的变异位点,又保证了分析的准确性,也就是说使用本发明中的AML和MDS共检分析方法能够提高AML和MDS共检的准确性。

进一步地,所述第一预设阈值和第二预设阈值的确定方法,包括:

获取正常人的DNA的基因组正常序列;

将所述基因组正常序列与基因组参考序列进行比对,得到包含各个位点的单核苷酸变异的变异频率和小片段插入或缺失的变异频率的第二变异频率表;

统计所述第二变异频率表中小于1%的变异频率,得到单核苷酸变异的第一95百分位上限和小片段插入或缺失的第二95百分位上限;

将所述第一95百分位上限作为第一预设阈值,将所述第二95百分位上限作为第二预设阈值。

在实际应用中,优选30例正常人的骨髓样本,建立正常人群SNV/indel数据库,用于过滤其后患者检测结果。通过illumina测序平台对各个骨髓样本进行测序,得到对应的基因组正常序列,形成基线样本,由于基线样本来源于正常人,理论上不应存在低频变异,因此,将基因组正常序列与基因组参考序列比对后,得到第二变异频率表,对第二变异频率表中小于1%的变异频率进行统计,如图2和图3所示,得到SNV变异频率的95百分位上限为0.87%,indel变异频率的95百分位上限为0.93%,综合这两种变异的数据,将第一预设阈值设置为0.87%,第二预设阈值设置为0.93%,即第一变异频率小于0.87%的位点(也就是第一假阳性位点)及第二变异频率小于0.93%的位点(也就是第二假阳性位点)均认为是假阳性,在生信流程中过滤,筛选出如碱基错配导致的假阳性,以提高SNV和indel的检测准确率,从而提高AML和MDS共检分析的准确率,其中,95百分位上限表示95thpercentile,在一组数据所构成的样本集合中,若小于一样本值的样本数量在整个样本集合中占到百分之95,那么该样本的值就是95百分数所对应的95百分位上限。

进一步地,所述预设位点的选取方法,包括:

获取多例正常人的DNA的基因组正常序列;

将各个所述基因组正常序列与基因组参考序列进行比对,得到对应的各个位点的变异频率;

筛选出在20%以上的正常人中出现变异的位点,得到假阳性变异位点集;

从所述假阳性变异位点集中筛选出第一位点和第二位点,其中,所述第一位点为chr20_31022441_31022441_-_G,所述第二位点为chr20_31022442_31022442_G_-;

计算所述基因组测序序列中第一位点和第二位点的变异频率的差值,若该差值不小于第三预设阈值,则认为第一位点或第二位点的变异是真的,将所述假阳性变异位点集中除去第一位点或第二位点后的所有位点作为预设位点,若该差值小于第三预设阈值,则认为第一位点和第二位点的变异是假的,将所述假阳性变异位点集中的所有位点作为预设位点。

在实际应用中,除了碱基错配导致的假阳性,特殊的DNA序列也可能产生假阳性,例如高GC片段导致的测序错误。这样的测序错误往往存在普遍性,会在多个样本中重复出现,因此,在过滤掉第一假阳性位点和第二假阳性位点后,统计基线样本集中变异出现频率,在20%以上的基因组正常序列中出现的变异认为是非特异的假阳性变异,筛选出所有的非特异的假阳性变异的位点,得到假阳性变异位点集,包括表2所示的变异位点,所述变异位点是与hg19参考基因组进行比对的:

表2假阳性变异位点

其中,ref_batch表示从30例样本中选取出的对应位点产生变异的样本数量,如表2中第2行第2列的[15|30]表示30例样本中有15例样本检出chr10_112337259_112337259_-_T这个位点的突变,然后用15除以30得到50%的占比,在假阳性变异位点集中,包含两个有临床意义的位点(也就是第一位点和第二位点),若将第一位点和第二位点过滤会导致重要位点漏检,若输出第一位点和第二位点则会增加低频假阳性位点,给判读增加难度。对于chr20:g.31022441dup(也就是第一位点变异)和chr20:g.31022442del(也就是第二位点变异)这种在所有样本中都有较高变异频率(>1%)的单核苷酸串联重复区域的变异,其中,dup:是指染色体某些片段的DNA序列重复,结果为部分结构基因序列重复造成编码基因序列的重排;del:指染色体某些片段的DNA序列丢失,结果为部分结构基因序列丢失造成编码基因序列的重排,若第三预设阈值偏低则会造成较多的假阳性,第三预设阈值偏高则降低了该位点的灵敏度。因此,通过计算“重复”和“缺失”的差值确定第三预设阈值,来判断变异的真假,提高了单核苷酸串联重复区域变异判读的灵敏度和准确性,在第一位点的变异频率减去第二位点的变异频率的差值大于第三预设阈值的情况下,则认为第一位点的变异是真的,在第二位点的变异频率减去第一位点的变异频率的差值大于第三预设阈值的情况下,则认为第二位点的变异是真的,在认为第一位点或第二位点的变异是真的情况下,将所述假阳性变异位点集中除去第一位点或第二位点后的所有位点作为预设位点,在认为第一位点和第二位点的变异是假的情况下,将所述假阳性变异位点集中的所有位点作为预设位点。

进一步地,所述第三预设阈值的确定方法包括:

计算各个所述基因组正常序列中第一位点和第二位点的变异频率的差值,经过统计得到第一差值均值、最大值和第三95百分位上限;

计算基因组样本序列中第一位点和第二位点的变异频率的差值,经过统计得到第二差值均值、最小值和5百分位下限,其中,所述基因组样本序列的基因组样本包括:第一位点变异的第一样本和无变异的第二样本,第一样本和第二样本混合后第一位点的变异频率在预设频率段;

根据所述第一差值均值、最大值、第三95百分位上限、第二差值均值、最小值和5百分位下限得到第三预设阈值。

在实际应用中,通过在IGV(Integrative Genomics Viewer,基因组浏览器)查看第一位点和第二位点的情况,发现第一位点和第二位点在同一区域,这一区域为8个鸟苷酸(G)串联重复区域,31022441_31022441_-_G代表这个区域的测序结果为9个G串联重复,31022442_31022442_G_-则代表这个区域的测序结果为7个G串联重复。由于基线样本来源于健康人群,则可以假设所有基线样本的第一位点和第二位点的变异都是假的,至于已用其他方法验证过ASXL1未检测到第一位点和第二位点的变异的阴性临床样本也可以认为这两种变异是假的,ASXL1基因位于染色体20q11。若变异来源于illumina测序平台的随机错误,那么缺失和重复的几率是接近的,所以基线样本和阴性临床样本中这两种变异的频率差值应当在一定范围内。因此,对基线样本和阴性临床样本中的第一位点变异和第二位点变异的频率差值进行统计,得到差值均值为0.84%,最大值为2.48%,95百分位上限为2.08%,如图4所示。

将包含chr20:g.31022441dup变异的第一样本用无变异的第二样本稀释,使chr20:g.31022441dup的变异频率在5%-10%(也就是预设频率段)之间,并统计第一位点变异和第二位点变异的差值,如图5所示,得到差值均值为6.46%,最小值为3.08%,5百分位下限为3.08%,根据图4和图5的统计结果,将频率差值优选为3%设定为第三预设阈值,其中,5百分位下限表示5th percentile,在一组数据所构成的样本集合中,若小于这个样本值的样本数量在整个样本集合中占到百分之5,那么该样本的值就是5百分数所对应的5百分位下限。

在本发明中为了验证AML和MDS共检分析方法的准确性,检测了正常人骨髓样本(共30例)、骨髓DNA标准品(共1例),普通人群标准品(共1例)、其他检测方法的检测的临床样本(共18例)。将检测结果与对应样本的预期结果进行比对来探究检测方法的准确性。各个样本的检测数据经过步骤3输出的检测结果与预期结果比对,进行准确度统计,统计数据见表3和表4。

表3 SNV准确性分析

SNV统计结果如下:

阳性预测值PPV=134/(134+4)*100%=97.10%;

阳性符合率PPA=134/(134+2)*100%=98.53%;

阴性预测值NPV=2853/(2853+2)*100%=99.93%;

阴性符合率NPA=2853/(2853+4)*100%=99.86%;

总符合率P=(134+2853)/(134+4+2853+2)*100%=99.80%;

表4 indel准确性分析

indel统计结果如下:

阳性预测值PPV=86/(86+0)*100%=100.00%;

阳性符合率PPA=86/(86+0)*100%=100.00%;

阴性预测值NPV=2250/(2250+0)*100%=100.00%;

阴性符合率NPA=2250/(2250+0)*100%=100.00%;

总符合率P=(86+2250)/(86+0+2250+0)*100%=100.00%;

本AML和MDS共检分析方法的准确性符合要求,证明了实验流程和生信分析流程的合理性。为了验证AML和MDS共检分析方法的检测精密性,本发明还对同一样本设置了批间重复和批内重复,统计不同重复所得到的位点变异频率发现,变异频率的检测值和理论值成线性分布,R

本发明还提供了一种AML和MDS相关的基因组合在构建AML和MDS共检的DNA文库中的应用,所述基因组合包括表1所示的基因。

在实际应用中,AML和MDS相关的Panel用于构建AML和MDS共检的DNA文库时,可以设计能够特异性检测AML和MDS相关的Panel中所包含的基因的外显子区域或热点区域的探针,利用探针构建AML和MDS共检的DNA文库。

本发明还提供了一种能共检AML和MDS相关基因组合的探针组合在构建AML和MDS共检的DNA文库中的应用,所述基因组合包括表1所示的基因。

下面通过实施例,并结合附图,对本发明的技术方案作进一步详细的说明。

实施例一

采用探针捕获的方式富集目的片段,所述探针为采用常规设计的探针,使用illumina平台完成二代测序,如图8所示,具体包括以下步骤:

(1)DNA提取

从外周血/骨髓中提取出来的DNA。

(2)文库构建

AML和MDS共检分析文库的构建阶段可以采用市售的通用DNA文库构建试剂盒产品,包括且不仅限于以下试剂:凯杰的QIAseq FX DNA LibraryKit、罗氏的KAPA HyperplusKits、广州齐凯的Modular DNA Library Kit。以下以QIAseq FX DNA Library Kit举例说明:

a、酶切、末端修复和A碱基的添加:将DNA酶切成主带在200~300bp的DNA片段,对DNA片段进行末端的修复和A碱基的添加。按表5的反应体系和以下反应程序进行反应:4℃,1min;32℃,18min;65℃,30min;4℃,∞。

表5酶切、末端修复和A碱基的反应体系

b、对上述步骤a的反应产物进行接头连接及纯化,按表6反应体系和以下反应程序进行反应:20℃,15min;4℃,∞。

表6接头连接及纯化反应体系

c、文库片段筛选:在50μL文库中加入35μL(0.7*)Agencourt AMPure XP beads,混匀后移取80μL上清至新的96孔板中,并加入10μL(0.9*)Agencourt AMPure XP beads,混匀后弃上清;用80%乙醇清洗磁珠两次,加入22μLResuspension Buffer重悬磁珠,室温静置2分钟,微离心后放置磁力架上2分钟,转移20μL上清进行下一步PCR反应。

d、按表7的反应体系和以下反应程序进行反应:98℃,2min;[98℃,20s;60℃,30s;72℃,30s]8cycle;10℃,∞。产物可采用磁珠进行纯化,得到AML和MDS共检分析文库。

表7纯化产物扩增体系

(3)探针杂交

a、由于检测目的区域较小,因此将原本8个样本混合杂交调整为16个样本混合杂交,每个样品吸取100ng等量混合于同一PCR管,总量1600ng,进行杂交。

b、取一PCR管按表8将各组分混合。

表8文库杂交体系

c、将混合后的组分放至真空抽滤系统(60℃)干燥成干粉。

d、往干燥后的PCR管分别加入表9中各组分,室温放置5min,放置PCR仪器上运行程序变性杂交:[95℃,10min];[60℃,∞]。

表9文库杂交体系

e、将探针与文库进行过夜杂交(约12-18小时)。

(4)文库捕获与洗脱

a、吸取100μl Capture Beads清洗两次,每次使用200μl1X Bead Wash Buffer,将杂交的样本加到Capture Beads中,混匀后65℃反应45min。

b、在捕获后磁珠中加入100μL预热的1X Wash Buffer I,混匀后弃上清。

c、加入200μL预热的1XStringent Wash Buffer,振荡混匀,65℃孵育5min后弃上清,此步骤重复两次。

d、分别用200μl1X Wash BufferI,200μl 1X Wash Buffer II,200μl 1XWashBuffer III清洗磁珠。

e、加入20μl ddH2O重悬Capture Beads。

(5)产物扩增与纯化

按表10加入Mix,混匀后置于PCR仪上反应,反应程序为:[98℃,45s];[98℃,15s;65℃,30s;72℃,30s;8cycles];[72℃,1min];[10℃,∞]。扩增产物用磁珠纯化。

表10产物扩增体系

(6)文库质量控制

使用Qubit测定文库浓度,文库浓度处于20~50ng/μL;采用Agilent 2100生物分析仪(DNA 1000Kit)测定文库片段大小,文库片段主峰在300-500bp。

(7)上机测序

可以采用illumina平台不同型号测序仪进行测序,包括且不仅限于Miniseq/Nextseq/Miseq/Hiseq/Novaseq等,测序长度为2*150bp。

(8)生物信息学分析

如图9所示,将测序得到的基因组测序序列(也就是测序原始数据)转化为fastq文件,基因组测序序列包括:AML和MDS相关的基因组合,AML和MDS相关的基因组合包括表1所示的基因。通过bwa软件,将fastq文件中的基因组测序序列比对到基因组参考序列上得到rawbam文件,将rawbam文件中的基因组测序序列进行排序,并去除因PCR扩增产生的重复,由此得到rmdupbam文件。随后,对rmdupbam文件进行目标区域覆盖度、测序深度、测序均一性等分析统计,能够检测snv变异位点(snvcalling)和indel变异位点,并对snv变异位点和indel变异位点进行注释,得到基因组测序序列的各个位点对应的单核苷酸变异的第一变异频率和小片段插入或缺失的第二变异频率的第一变异频率表,将所述第一变异频率表中的小于第一预设阈值的第一变异频率、小于第二预设阈值的第二变异频率、及预设位点对应的第三变异频率过滤后,得到过滤后的第一变异频率表,并将过滤后的第一变异频率表输出。

进一步地,所述第一预设阈值和第二预设阈值的确定方法,包括:

获取正常人的DNA的基因组正常序列;

将所述基因组正常序列与基因组参考序列进行比对,得到包含各个位点的单核苷酸变异的变异频率和小片段插入或缺失的变异频率的第二变异频率表;

统计所述第二变异频率表中小于1%的变异频率,得到单核苷酸变异的第一95百分位上限和小片段插入或缺失的第二95百分位上限;

将所述第一95百分位上限作为第一预设阈值,将所述第二95百分位上限作为第二预设阈值。

进一步地,所述预设位点的选取方法,包括:

获取多例正常人的DNA的基因组正常序列;

将各个所述基因组正常序列与基因组参考序列进行比对,得到对应的各个位点的变异频率;

筛选出在20%以上的正常人中出现变异的位点,得到假阳性变异位点集;

从所述假阳性变异位点集中筛选出第一位点和第二位点,其中,所述第一位点为chr20_31022441_31022441_-_G,所述第二位点为chr20_31022442_31022442_G_-;

计算所述基因组测序序列中第一位点和第二位点的变异频率的差值,若该差值不小于第三预设阈值,则认为第一位点或第二位点的变异是真的,将所述假阳性变异位点集中除去第一位点或第二位点后的所有位点作为预设位点,若该差值小于第三预设阈值,则认为第一位点和第二位点的变异是假的,将所述假阳性变异位点集中的所有位点作为预设位点。

进一步地,所述第三预设阈值的确定方法包括:

计算各个所述基因组正常序列中第一位点和第二位点的变异频率的差值,经过统计得到第一差值均值、最大值和第三95百分位上限;

计算基因组样本序列中第一位点和第二位点的变异频率的差值,经过统计得到第二差值均值、最小值和5百分位下限,其中,所述基因组样本序列的基因组样本包括:第一位点变异的第一样本和无变异的第二样本,所述第一样本和第二样本混合后第一位点的变异频率在预设频率段;

根据所述第一差值均值、最大值、第三95百分位上限、第二差值均值、最小值和5百分位下限得到第三预设阈值。

如图10所示,本发明还提供了一种AML和MDS共检分析系统,包括:

序列获取模块10,用于获取待检测的DNA文库的基因组测序序列,所述基因组测序序列包括:AML和MDS相关的基因组合;

序列比对模块20,用于将所述基因组测序序列与基因组参考序列进行比对,得到包含所述基因组测序序列的各个位点对应的单核苷酸变异的第一变异频率和小片段插入或缺失的第二变异频率的第一变异频率表;

位点过滤模块30,用于将所述第一变异频率表中的小于第一预设阈值的第一变异频率、小于第二预设阈值的第二变异频率、及预设位点对应的第三变异频率过滤后,得到过滤后的第一变异频率表。

关于AML和MDS共检分析系统的具体构成可以参见上文中对于AML和MDS共检分析方法的构成,在此不再赘述。上述AML和MDS共检分析系统的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种AML和MDS共检分析方法。

本领域技术人员可以理解,图11中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行上述各实施例中描述的AML和MDS共检分析方法。

本发明实施例还公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例中描述的AML和MDS共检分析方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

相关技术
  • 嵌入式系统设备的应用系统更换方法、装置及存储介质
  • 应用程序的功能演示方法、系统、介质和电子设备
  • 基于共享安全应用的密钥传递方法及系统、存储介质、设备
  • 应用的测试方法、系统、电子设备和存储介质
  • 控制应用串口打印的方法、系统、设备及存储介质
  • 共炮检距域Beam叠前时间偏移成像方法、系统、介质及应用
  • 共炮检距域Beam叠前时间偏移成像方法、系统、介质及应用
技术分类

06120116496765