掌桥专利:专业的专利平台
掌桥专利
首页

基于孕妇外周血内胎儿游离脱氧核糖核酸的单基因检测方法和装置

文献发布时间:2024-04-29 00:47:01


基于孕妇外周血内胎儿游离脱氧核糖核酸的单基因检测方法和装置

技术领域

本发明涉及医学领域和数据处理领域,更具体地涉及基于孕妇外周血内胎儿游离脱氧核糖核酸的单基因检测方法和装置。

背景技术

出生缺陷是指胎儿在母体子宫内的生长发育异常,导致出生时已存在的先天性缺陷。出生缺陷是造成婴幼儿死亡和残疾的主要原因,已成为影响人民群众健康水平的重大公共卫生问题,社会和经济负担沉重。

孕期母体血浆中胎儿游离DNA(cfDNA)的发现,推动了无创产前筛查(NIPS)技术的发展及其临床应用。

由于胎儿游离DNA中含有胎儿的遗传信息,因此可以通过适当的检测方法(定量PCR、数字PCR、高通量测序等)来筛查染色体异常,获得胎儿遗传缺陷的风险,而且其无创性也可以避免孕妇流产的风险。目前已广泛应用于染色体非整倍体的无创产前筛查(NIPS),可在孕早期(9-12周)进行,以母体外周血为样本,取样方法简单、安全,对T21、T18、T13等染色体非整倍体检测具有较高的灵敏度(约97-99%)和较低的假阳性率(<0.1%)。

目前主流的NIPS检测方法主要是基于下一代测序(NGS),利用大规模并行测序(massively parallel sequencing)的原理,分析样本中母体和胎儿DNA片段的读数(reads)深度,并进行数据分析。

孕妇血浆游离DNA通常会在多个相关区域包含多个位点的突变,与染色体非整倍体变异不同,与单基因病相关的胎儿单碱基变异(SNV)只能基于单个位点进行检测。

虽然已经开发了一些用于检测胎儿单基因突变(如单碱基变异(SNV))的NIPS检测方法,然而,目前的方法尚难以满意,存在假阳性率高等缺点。

因此,本领域迫切需要开发新的高灵敏度和高特异性的、基于孕妇外周血内胎儿游离脱氧核糖核酸进行单基因检测的方法和装置。

发明内容

本发明的目的就是提供高灵敏度和高特异性的、基于孕妇外周血内胎儿游离脱氧核糖核酸进行单基因检测的方法和装置。

在本发明的第一方面,提供了一种胎儿单基因突变的检测装置,所述装置包括:

(a)数据输入模块,所述数据输入模块用于输入待分析样本的核酸数据,所述的核酸数据包括基于孕妇外周血内胎儿游离脱氧核糖核酸的序列数据;

(b)区域筛选模块,所述区域筛选模块被配置为对所述的待分析样本的核酸数据进行分析,从而确定含潜在的胎儿单基因突变的感兴趣的待检测区域;

(c)胎儿单基因突变检测模块,所述胎儿单基因突变检测模块被配置为对所述的感兴趣的待检测区域的核酸数据进行分析,从而确定潜在的胎儿单基因突变;

(d)假阳性单基因突变过滤模块,所述假阳性单基因突变过滤模块被配置为所述的潜在的胎儿单基因突变进行分析,从而排除或过滤掉假阳性的单基因突变,并获得经假阳性过滤后的胎儿单基因突变分析结果;

其中,所述的假阳性单基因突变过滤模块(也称为ACD-FMID过滤器或过滤模块)包括选自下组的子模块:等位基因计数分布检验子模块(ACD子模块)、插入片段中值分布差异检验子模块、插入片段中值差检验子模块、或其组合;和

(e)输出模块,所述输出模块用于输出所述的经假阳性过滤后的胎儿单基因突变分析结果。

在另一优选例中,所述的假阳性单基因突变过滤模块(或ACD-FMID过滤器)包括三个子模块:ACD子模块,插入片段中值分布差异检验子模块,和插入片段中值差检验子模块。

在另一优选例中,所述的ACD子模块被配置为执行进行Beta二项分布分析,从而获得Beta二项分布的对数累积分布函数值,并将对数累积分布函数值小于-10或大于-0.001时,则提示该当前突变为假阳性。

在另一优选例中,所述的插入片段中值分布差异检验子模块被配置为执行选自下组的一项或多项假设检验:

(J1)韦尔奇T检验(预设正态分布,两组数据的样本量与方差不同);

(J2)柯尔莫可洛夫-斯米洛夫检验(数据的分布未知,小样本量数据);

(J3)进行等值校正的克鲁斯卡尔-沃利斯H检验(预设卡方分布,两组数据样本量不同,且n>5);

(J4)进行等值校正的曼-惠特尼U检验(两组数据样本量不同,且n>20,更适用于定序变量而非定距变量);

其中,取所述假设检验P值中的最小值,当该最小值>0.001时,则提示当前突变为假阳性。

在另一优选例中,所述的插入片段中值分布差异检验子模块被配置为执行所述四项假设检验。

在另一优选例中,所述的插入片段中值差检验子模块被配置为执行:将参考型与突变型插入片段长度组的中值进行比较,并且当RefInsMid-AltInsMid满足<=0.5时,则提示当前突变为假阳性,

其中,RefInsMid为经过邻域校正后的参考型插入片段长度组的中值;

AltInsMid为经过邻域校正后的突变型插入片段长度组的中值。

在另一优选例中,对于一个待定的突变标记,当以下所有三个子过滤器的过滤条件同时得到满足时,则将该突变标记为假阳性:等位基因计数分布检验子模块(ACD子模块)、插入片段中值分布差异检验子模块、插入片段中值差检验子模块。

在另一优选例中,所述区域筛选模块被配置为执行人为噪音位点过滤和/或重复区域过滤,从而确定出含潜在的胎儿单基因突变的感兴趣的待检测区域(也称为“合格区域”)。

在另一优选例中,所述的区域筛选模块包括:人为噪音位点过滤子模块、重复区域过滤子模块、或其组合。

在另一优选例中,所述的检测装置还包括:单基因突变的预过滤-校正模块,所述的预过滤-校正模块被配置为对潜在胎儿单基因突变进行预过滤-校正处理,其中,所述的过滤-校正处理选自下组:深度-变异比例过滤、插入片段平滑处理、母胎邻域校正、或其组合。

在另一优选例中,所述的单基因突变的预过滤-校正模块包括选自下组的子模块:深度-变异比例过滤子模块、插入片段平滑处理子模块、母胎邻域校正子模块、或其组合。

在另一优选例中,所述的单基因突变选自下组:单碱基变异、短片段插入删除(Indel)变异、或其组合。

在另一优选例中,所述的单基因包括选自表B的一个或多个或全部基因。

在另一优选例中,所述的核酸数据包括待分析样本的单基因的编码外显子区域测序数据。

在另一优选例中,所述的测序数据包括NGS的测序数据。

在另一优选例中,所述的数据输入模块选自下组:测序仪、扫描仪、键盘、平板电脑(PAD)、智能手机、或其组合。

在另一优选例中,所述的检测装置包括一处理器,以及一储存器。

在另一优选例中,所述的储存器中存储有假阳性单基因突变过滤模块进行过滤或校验的阈值数据。

在另一优选例中,所述的输出模块包括显示器、打印机、平板电脑(PAD)、智能手机。

在另一优选例中,所述的各模块通过有线或无线方式连接。

在本发明的第二方面,提供了一种对胎儿单基因突变进行数据分析的方法,所述方法包括:

(a)提供数据,所述数据包括待分析样本的核酸数据,所述的核酸数据包括基于孕妇外周血内胎儿游离脱氧核糖核酸的序列数据;

(b)区域筛选,对所述的待分析样本的核酸数据进行分析,从而确定含潜在的胎儿单基因突变的感兴趣的待检测区域;

(c)胎儿单基因突变检测,对所述的感兴趣的待检测区域的核酸数据进行分析,从而确定潜在的胎儿单基因突变;

(d)假阳性单基因突变过滤,对所述的潜在的胎儿单基因突变进行分析,从而排除或过滤掉假阳性的单基因突变,并获得经假阳性过滤后的胎儿单基因突变分析结果;

其中,所述的假阳性单基因突变过滤处理包括选自下组的校验:等位基因计数分布检验、插入片段中值分布差异检验、插入片段中值差检验、或其组合。

在另一优选例中,所述方法还包括:

(e)输出所述的经假阳性过滤后的胎儿单基因突变分析结果。

在另一优选例中,所述的方法是非诊断方法。

应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。

附图说明

图1显示了正阳性的胎儿突变体的片段短于假阳性的胎儿突变体。

图2显示了母源游离DNA片段和具有单碱基变异(SNV)的胎儿游离DNA片段的区别示意图。

图3显示了本发明的流程示意图。

图4显示了本发明一个实施例中,在不同过滤条件下分析灵敏度和分析阳性预测值(PPV)对比结果。

具体实施方式

本发明人经过广泛而深入的研究,首次开发了一种具有极高灵敏度和极高特异性的、基于孕妇外周血内胎儿游离脱氧核糖核酸进行单基因检测的方法和装置。具体地,本发明的方法和装置可基于胎儿游离DNA的特有特征,通过特定的过滤、校正等数据处理,尤其是通过ACD-FMID过滤,显著降低了假阳性的胎儿单碱基变异。在此基础上完成了本发明。

术语和缩写

FEMNNIC:母胎邻域插入片段长度校正(FEMNNIC)

NIPS:无创产前筛查(non-invasive prenatal screening)

COATE-seq:协同等位基因敏感靶富集测序(coordinative allele-aware targetenrichment sequencing)

ACD:等位基因计数分布(Allele Count Distribution)

FMID:胎儿-母亲插入片段大小分布(Fetal-Maternal Insert-sizeDistribution)

如本文所用,术语“过滤器”和“过滤模块”可互换使用,指对数据或突变进行过滤处理的模块或单元。

本发明方法的技术原理与概述

胎儿单碱基位点的测序过程可以抽象成一个从已知突变型DNA分子比例先验知识的DNA分子群体中随机抽样的过程,因此,某个特定胎儿突变位点的突变型序列有效测序深度应该符合基于胎儿浓度与理论DNA分子输入量的贝塔二项分布模型。

来自于胎儿的DNA分子片段会比来自于妈妈的平均短约10bp,所以理论上来说,大部分真阳性胎儿突变(并非全部)的突变型序列片段长度应该比来自于妈妈的片段长度更短。而大部分假阳性胎儿突变(并非全部)的突变型序列片段长度应该与来自于妈妈的片段长度相似或更长,如图1所示。

参见图1,首先定义,插入片段相对长度K为某个突变位点的,参考型/突变型插入片段长度中位数/(参考型插入片段长度中位数+突变型插入片段长度中位数);图中橙色蓝色分别为突变型与参考型的插入片段相对长度,左图为真阳性突变的情况,右图为假阳性突变的情况(X轴表示每个突变位点,Y轴表示插入片段相对长度)。可以看到大部分真阳性突变的突变型插入片段长度更短,而大部分假阳性突变的突变型插入片段长度与参考型相似或更长。

基于上述原理,我们开发了一套可以较大幅度降低假阳性率的多维突变过滤器ACD-FMID,它综合利用了胎儿浓度信息以及孕妇游离DNA片段的长度信息来识别假阳性突变。

参见图2,其中显示了母源游离DNA片段和具有单碱基变异(SNV)的胎儿游离DNA片段的区别。

概括来说,对于每一个突变型序列,首先进行了母胎邻域插入片段长度校正(FEMNNIC)。具体的,对于每个突变型插入片段长度,我们使用二分查找算法来定位与其插入片段长度最为相似的参考型序列,并将此序列排除在过滤器的计算范围之外。在对所有突变型序列循环完成上述操作后,可以近似认为,剩余的参考型片段大部分来自于母亲。

紧接着,对于FEMNNIC过滤后的每个突变的参考型/突变型插入片段长度,考虑到它们具备混合分布的特性,可基于四种不同的假设进行多次假设检验。同时还会对突变型插入片段长度中值分布进行假设检验,以确认它在统计学上与参考型插入片段长度中值分布是否有显著区别,以及突变型是否比参考型更短。

最终,基于上述所有信息,我们会对某个胎儿突变的真实性给出一个综合性判断与参考。

本发明方法

在本发明中,可通过已知的方法(包括测序、PCR等),对孕期母体血浆中胎儿游离DNA(cfDNA)进行检测,从而获得胎儿游离DNA中胎儿的遗传信息。

代表性的获得遗传信息(或核酸数据)的方法可参见已公开的文献,其中包括(但并不限于)CN 2020108156738(发明名称为:染色体和单基因病同步产前筛查的设备、试剂盒和分析系统)(该文献通过引用被全文引入本申请)。

以下结合本发明的一个优选例,进一步描述本发明方法。参见图3,其中显示了本发明的一个优选例的流程示意图。

总体而言,本发明方法包括:

S1:提供待分析样本的核酸数据(如对应于一个或多个待检测区域的DNA序列数据;

S2:对待检测区域进行筛选(或过滤),从而确定感兴趣的待检测区域(也称为“合格的待检测区域”);

S3:检测位于感兴趣的待检测区域内的胎儿单基因突变,从而获得潜在的单基因突变(包括单碱基变异、短片段插入删除变异、或其组合);

S4:对所述的潜在胎儿单基因突变进行预过滤和/或校正处理;典型地,所述的预过滤和/或校正处理包括(但并不限于):深度-变异比例过滤、插入片段平滑处理、母胎邻域校正、或其组合;

S5:对所述的潜在胎儿单基因突变进行ACD-FMID过滤,去除假阳性的单基因突变,并获得经假阳性过滤后的胎儿单基因突变分析结果。

在本发明中,ACD-FMID过滤器优选地包括三个子模块:ACD子模块,插入片段中值分布差异检验子模块(四项假设检验),和插入片段中值差检验子模块。

在本发明中,对于某个待标记的突变来说,优选地,只有当三个子模块都认为该突变为假阳性时,ACD-FMID过滤器才认为该突变为假阳,而在其他所有情况,均认为该突变为真阳。

本发明的方法可以最大程度的保证突变检测的灵敏性不受影响,在此前提下,尽可能多地过滤掉假阳。此种倾向性充分考虑了临床应用过程中的实际情况,即灵敏度优先,保证检出,尽可能杜绝假阴的原则。

胎儿单碱基变异和短片段插入删除变异检测区域的过滤

在本发明方法,包括对待检测区域进行筛选的步骤,这可通过区域筛选模块实现。

优选地,本发明的区域筛选宜包括人为噪音位点过滤。

对于人群中常见良性突变或者人为噪音位点过滤而言,当同时满足下列条件时,人为噪音位点过滤器会被用于过滤单碱基变异和短片段插入删除变异检测结果,即满足以下条件即被过滤器视作常见良性突变或者人为噪音位点而非真阳性的致病突变。

·在本地数据库已有血浆游离DNA样本里,待测突变出现频率>0.33且该突变在gnomAD数据库或本地数据库中检测目标人群的出现频率≤0.2。

·待测突变在本地已有样本数据库的胚系突变比例中位数<0.1且gnomAD数据库或本地数据库中检测目标人群的出现频率≤0.2。

胎儿单碱基变异和短片段插入删除变异的检测

所有位于前述合格区域内的孕妇血游离DNA样本的胎儿单碱基变异和短片段插入删除变异,可通过标准的或常规的分析流程来进行检测,例如通过标准的BWA-GATK-MuTect2分析流程来进行检测。

深度-变异比例过滤

在本发明中,该过滤步骤虽然是任选的,但优选包含该过滤步骤。

典型地,在该过滤步骤中,去除所有测序深度低于预定深度阈值(如100-250,较佳地150-250,更佳地180-220)的位点。

在本发明的一个优选例中,当采用来自COATE-seq的测序数据时,可将预定深度阈值定为180-220(如200),并过滤掉所有测序深度低于预定深度阈值的单基因中的突变位点。

插入片段长度平滑处理

由于基因组复杂区域所导致的比对困难与错误会引发插入片段长度计算的种种问题,因此在本发明优选例中,可对那些计算值异常的插入片段长度进行平滑操作,以更好地适应后面的过滤过程。

典型地,当插入片段长度小于预定的下限值V1(如20±2)时,可统一被平滑为V1(即20±2);当插入片段长度大于预定的上限值V2(如600±100)时,可统一被平滑为V2(即600±100)。

母胎邻域插入片段校正

先对参考型与突变型序列对的插入片段长度进行组内升序排序,对于突变型序列对组内的每一个插入片段长度,使用二分查找算法定位出其在参考型序列对组内长度最为相近的插入片段长度值,然后将找出的这个插入片段长度值从参考型序列对组中删除。

ACD-FMID过滤器

在本发明中,对于一个待定的突变标记,当以下所有三个子过滤器(ACD过滤器,FMID子过滤器1-插入片段长度差异校验,FMID子过滤器2-插入片段长度中值差校验)的过滤条件同时得到满足时,则将该突变标记为假阳性。

对于一个待定的突变标记,当以下所有三个子过滤器(ACD过滤器,FMID子过滤器1-插入片段长度差异校验,FMID子过滤器2-插入片段长度中值差校验)的过滤条件有至少一个不满足时,则将该突变仍标记为真阳性。

1.ACD过滤器:

ACD子模块被配置为执行进行Beta二项分布分析,从而获得Beta二项分布的对数累积分布函数值,并将对数累积分布函数值小于-10或大于-0.001时,则提示该当前突变可能为假阳性。

本发明人研究发现,当Beta二项分布的对数累积分布函数值小于-10或大于-0.001时,支持该当前突变为假阳性。

Beta二项分布累积分布函数公式如下:

·x定义为某个特定突变的突变型序列深度

·n定义为某个特定突变的总测序深度

·α定义为某个特定突变的突变型DNA分子数的理论值

·β定义为某个特定突变的参考型DNA分子数的理论值

·d

·d

·m定义为孕妇游离DNA样本的平均DNA量(ng为单位)(假定每个细胞含6pg DNA,即每组染色单体3pg)

·f定义为样本的胎儿百分比

2.FMID子过滤器1-插入片段长度差异校验:

本发明的插入片段中值分布差异检验子模块(即FMID子过滤器1)被配置为执行选自下组的一项或多项假设检验(优选进行四项假设检验):

(J1)韦尔奇T检验;

(J2)柯尔莫可洛夫-斯米洛夫检验;

(J3)进行等值校正的克鲁斯卡尔-沃利斯H检验;

(J4)进行等值校正的曼-惠特尼U检验;

其中,取所述假设检验P值中的最小值,当该最小值>0.001时,则提示当前突变可能为假阳性。

本发明人的研究分析表明,对于所述取所述四种假设检验各自P值中的最小值,当该最小值>0.001时,支持当前突变为假阳性。

其中,四种假设检验分别为:

1.韦尔奇T检验(预设正态分布,两组数据的样本量与方差不同)

2.柯尔莫可洛夫-斯米洛夫检验(数据的分布未知,小样本量数据)

3.进行等值校正的克鲁斯卡尔-沃利斯H检验(预设卡方分布,两组数据样本量不同,且n>5)

4.进行等值校正的曼-惠特尼U检验(两组数据样本量不同,且n>20,更适用于定序变量而非定距变量)

韦尔奇T检验:

·N

·N

·s

·

统计量t的分布可以使用T分布来逼近,其双尾P值可以通过该分布的累积分布函数计算得到

柯尔莫可洛夫-斯米洛夫检验:

·F

·F

·sup定义为上确界函数

·n定义为突变型序列插入片段长度组的样本量

·m定义为参考型序列插入片段长度组的样本量

统计量D

进行等值校正的克鲁斯卡尔-沃利斯H检验:

对所有突变型,参考型插入片段长度组内的数据进行升序排序,并对每个长度值(不论相等与否)分配排名序号(秩)。

对任何插入片段长度值相等的情况,更新等值长度的排名序号(秩)为所有当前等值长度排名序号的算术平均值。

·g定义为组的数量,则g=2(插入片段长度:突变型&参考型)

·N定义为所有组的观察值总数

·n

·r

·G定义为在所有观察值中,出现插入片段长度等值情况的亚组的数量

·t

统计量H的分布可以通过k=g-1自由度的卡方分布来逼近,其P值可以通过以下累积分布函数来计算:

进行等值校正的曼-惠特尼U检验:

·定义X

·定义Y

对所有X,Y长度组内的数据进行升序排序,并对每个长度值(不论相等与否)分配排名序号(秩)。

对任何插入片段长度值相等的情况,更新等值长度的排名序号(秩)为所有当前等值长度排名序号的中位值。

·t

·k定义为去重后的排名序号(秩)的总数量

统计量U可以被标准化为Z,并通过标准正态分布来逼近,其双尾P值可以通过以下累积分布函数来计算:

3.FMID子过滤器2-插入片段长度中值差校验:

在本发明中,插入片段中值差检验子模块(即FMID子过滤器2)被配置为执行:将参考型与突变型插入片段长度组的中值进行比较,并且当RefInsMid-AltInsMid满足<=0.5时,则提示当前突变可能为假阳性,

其中,RefInsMid为经过邻域校正后的参考型插入片段长度组的中值;而AltInsMid为经过邻域校正后的突变型插入片段长度组的中值。

本发明人研究表明,可分别定义RefInsMid及AltInsMid为经过邻域校正后的参考型与突变型插入片段长度组的中值,当RefInsMid-AltInsMid满足<=0.5时,支持当前突变为假阳性。

胎儿单基因突变的检测装置

本发明还提供了一种基于孕妇外周血内胎儿游离脱氧核糖核酸进行单基因检测的装置。

典型地,本发明的所述检测装置如本发明第一方面中所述。

在本发明中,可以采用人为输入方式或通过自动化采集方式来输入核酸数据。典型地,所述的核酸数据输入模块选自下组:测序仪、扫描仪、键盘、平板电脑(PAD)、智能手机、或其组合。

优选地,在本发明中,所述的检测装置包括一处理器,以及一储存器,其中所述的储存器中存储有假阳性单基因突变过滤模块进行过滤或校验的阈值数据。此外,所述的储存器中还可储有用于区域筛选处理、单基因突变的预过滤-校正处理的各自的阈值数据。

在本发明中,代表性的输出模块包括(但并不限于):显示器、打印机、平板电脑(PAD)、智能手机。

本发明的检测装置可以是一体机的形式,也可以是分散式的。例如,核酸数据输入模块可以独立的,并且将采集或输入的核酸数据数据通过有线或无线的方式传递到本地的处理模块,或通过无线或通讯方式上传到非本地的处理模块(例如,远程中心的服务器),从而实现远程筛查或数据分析。

在一个实施例中,当位于远程的处理模块对核酸数据进行判别后,可以将辅助筛查结果(即单基因突变分析结果)通过无线方式回传给连接于网络的输出设备,例如平板电脑(PAD)、智能手机,从而实现快速NIPS筛查。

本发明的主要优点包括:

(a)本发明方法适用于对胎儿单基因突变进行NIPS检测,并且具有非常高的灵敏度;

(b)本发明方法可以显著降低假阳的胎儿单基因突变,具有显著提高的特异性。

(c)本发明方法可用于同时检测染色体非整倍体以及胎儿单碱基变异。

下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件,例如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring HarborLaboratory Press,1989)中所述的条件,或按照制造厂商所建议的条件或常见的NGS(next-generation sequencing)测序文库制备方法。

为了验证本发明的胎儿单基因病变异检测装置(或方法)的性能,在本实施例1和2中进行了两次独立的性能验证。

实施例1性能验证1:

使用28对孕妇血与胎儿羊水样本,对465个基因的编码外显子区域(1.44M)进行捕获测序,并使用胎儿单基因变异检测装置进行数据分析得到结果。

对所有胎儿羊水样本,分子标签深度>=100且突变比例>=30%的胚系单碱基变异&短片段插入删除变异(标准BWA-GATK-HaplotypeCaller流程)被用做孕妇血游离DNA样本胎儿单碱基变异&短片段插入删除变异变异检测的金标准结果。对孕妇血游离DNA样本,那些分子标签深度>=200且突变比例>=1%的位点被用于最终的性能验证。

总共获得了5157个真阳性胎儿突变,分析灵敏性与特异性分别为99.50%和99.99%。

当不对变异检测结果使用任何过滤器时,分析阳性预测值与分析阴性预测值分别为86.2%和100%。在本发明中,当引入ACD-FMID过滤器后,分析阳性预测值在假阴性仅出现极少量增加(假阳性位点降低297个,假阴性位点新增4个)的前提下,提高了4.5%至90.7%。

在本实施例中,检测性能的提高充分说明,对插入片段长度与胎儿浓度信息的合理应用,可以有效的降低胎儿突变的假阳性率。

性能验证1结果(ACD-FMID vs无过滤)

为了进一步表明ACD-FMID过滤器的性能,本发明人对比了三种不同过滤条件(无过滤,仅ACD过滤,ACD-FMID过滤)下,分析灵敏度与分析阳性预测值的变化趋势。

可以看到,随着过滤条件的逐渐严格(严格程度:无过滤

三种不同过滤条件的结果如图4和表A所示。

表A.不同过滤条件下分析灵敏度&分析阳性预测值对比

实施例2性能验证2:

通过实验室性能验证及临床实验验证的数据分析与总结,得到当前胎儿单基因变异检测装置的整体分析性能评估结果。

本发明的检测装置(或方法)可以定性检测孕周为12+0周及以上的单胎妊娠孕妇外周血血浆中胎儿游离脱氧核糖核酸(DNA),通过分析样本中胎儿游离DNA的64个基因的变异情况,对胎儿的92种显性单基因病进行产前筛查(表B)。

本检测只报告检测范围内基因编码外显子及上下游10bp内含子和内含子深处的已知致病变异,检测基因全外显子覆盖。

表B:检测范围内64个基因的变异造成的92种单基因病列表

/>

/>

/>

1.检测系统信息

装置名称:孕妇外周血胎儿游离DNA单基因病检测装置

验证涉及仪器设备:吉因加生物医学工程有限公司Gene+Seq-2000基因测序仪及华大智造MGISEQ-2000

试剂及厂商:

DNA提取试剂:天根生化科技(北京)有限公司生产的“核酸提取或纯化试剂”,备案凭证号:京昌械备20200099号。

环化试剂:苏州吉因加生物医学工程有限公司生产的“环化反应通用试剂盒”,备案凭证号:苏苏械备20200574号。

测序试剂:苏州吉因加生物医学工程有限公司生产的“测序反应通用试剂盒(测序法)”,备案凭证号:苏苏械备20190424号。

建库试剂:北京博昊云天科技有限公司生产的“孕妇外周血胎儿游离DNA单基因病检测试剂盒”

2.检测方法:

在本检测中,首先将从孕妇血浆中提取的游离DNA进行末端修复,在DNA片段两端连接包含有分子标签和样本标签的接头,构建成为测序可识别的全基因组DNA文库。然后,将构建的DNA文库与标记有生物素的DNA单链探针进行杂交,捕获与探针互补的靶标游离DNA片段。杂交完成后,加入链霉亲和素标记磁珠,磁珠上的链霉亲和素与生物素标记的寡核苷酸探针-DNA片段杂交复合物通过强非共价键作用结合。然后通过洗脱过程去除非靶区域序列及其它杂质,得到含靶区域特异性的捕获产物的文库。随后通过高温使捕获后的DNA文库变性成单链并环化形成单链环状DNA,结合滚环扩增技术将单链环状DNA进行扩增形成扩增产物DNA纳米球。最后,对扩增产物DNA纳米球进行DNA末端终止边合成边测序反应,根据四种不同的荧光信号确认碱基种类读取DNA序列。本装置采用靶向探针捕获目标单基因区域的DNA序列并结合高深度测序,检测可以造成严重出生缺陷的显性单基因突变,实现了对胎儿基因组中64个基因92种显性单基因病的筛查。

3.验证过程及结果

3.1分析性能验证结果

评价方法:分析性能验证使用总计37组孕妇血浆cfDNA+孩子gDNA配对样本,在约240K大小的探针捕获范围内,针对突变频率1-20%,测序深度大于等于200x的SNV位点,进行了性能验证分析。

对于符合上述条件的SNV检测结果,经三组过滤器的过滤,最终得到真阳性突变总计520个,假阳性位点4个,真阴性位点8882347个,假阴性位点1个(chr16:2117854,假基因位点,Q30深度过低导致无法正常检测)。

评价结果:

分析灵敏度为99.8%(95%CI,98.8%-100%),分析特异性为100%(95%CI,100%-100%),分析阳性预测值99.2%(95%CI,97.9%-99.8%),分析阴性预测值100%(95%CI,100%-100%)。

表1分析性能验证结果

3.2批次内及批次间重复性实验结果

评价方法:选取5例测试样本(4例阴性及1例阳性)进行批次内及批次间重复性实验。每例样本批次内重复3次,批次间重复3次。

评价结果:4个单基因阴性和1个单基因阳性样本的批次内和批次间结果一致性均为100%。

表2批次内及批次间重复性实验结果

/>

3.3临床验证结果

评价方法:本次临床验证中对总计473例孕妇血浆样本进行了好韵添筛查,并且通过对相应的羊水细胞或流产物标本进行一代测序或全外显子组测序的金标准验证。本检测靶向区域目标基因编码外显子及上下游10bp内含子>97%的区域测序深度大于200X。主要使用BWA(Burrows-Wheeler Aligner)、Picard Tools和GATK(Genome Analysis Toolkit)等软件进行测序数据分析。

本检测发现的变异采用ANNOVAR进行注释,采用RefSeq、dbNSFP、ClinVar、gnomAD和HGMD等数据库筛选已知或疑似致病变异,基于变异造成的功能效应,参考大规模人群变异频率数据库,采用多种工具预测错义变异的功能影响(PolyPhen-2、SIFT等)以及非编码调控序列的剪接效应(SpliceSiteFinder、GeneSplicer等),以及查阅科学文献等,进行变异的分析解读和致病性评估。本检测根据2015年美国医学遗传学与基因组学学会(ACMG)发布的《序列变异解读标准和指南》,结合本地数据库,人工对变异进行致病性评估。本检测仅报告检测范围内基因的编码外显子及上下游10bp内含子区域内,评级为致病或疑似致病的变异,序列变异使用HGVS命名法。

评价结果:

结果如表3所示。最终测试得到真阳性23例,真阴性450例,无假阳性和假阴性。临床检测灵敏度为100%(95%CI,82.2%-100%),特异性为100%(95%CI,98.9%-100%),阳性预测值100%(95%CI,82.2%-100%),阴性预测值100%(95%CI,98.8%-100%)。

表3临床验证结果

验证结论

通过分析性能验证的37例孕妇血浆及临床验证的473例孕妇血浆样本,在样本符合质控要求的前提下,好韵添对目标检测基因区域的检测性能达到预期指标,检测灵敏度和特异性均接近100%(见表3)。

实施例3

在本实施例中,以具体样本A为例,给出了针对一个突变的判断分析过程和结果。

将待检测区域t定义为原始捕获探针覆盖范围。按方法学描述,经人为噪音过滤,重复区域过滤,得到筛选后的待检测区域T。

样本A(B007_PP041_109_2180508P2PO)经提取,探针捕获,建库,测序,数据拆分获得原始测序结果Q。按方法学描述,对Q进行变异检测,深度&变异比例过滤后,得到的变异检测结果集合M。

已知样本A的目标区域平均有效测序深度为881.14x,胎儿浓度为26.76%,定义孕妇游离DNA样本的平均原始DNA量为23ng,

针对M中的某个突变m1(chr12:49037311T>C):

已知突变m1总深度880x,参考型深度827x,突变型深度53x,突变AF=5.8%,按方法学描述,执行插入片段平滑与母胎邻域校正两项操作,得到校正后的插入片段长度分布向量L1,基于该向量,结合计算公式,可得到:

1.突变m1的贝塔二项分布对数累积函数P值为-27.2768,由于-27.2768处于[-0.001,-10]范围外,不满足突变保留条件,需继续执行FMID子模块进行判断。

2.突变m2的韦尔奇T检验P值为0.0035,柯尔莫可洛夫-斯米洛夫检验P值为0.0072,进行等值校正的克鲁斯卡尔-沃利斯H检验P值为0.0047,进行等值校正的曼-惠特尼U检验P值为0.0047,四种假设检验的最小P值为0.0035,0.0035>0.001,不满足突变保留条件,需继续执行FMID子模块进行判断。

3.突变m2的插入片段长度中值差为13,满足突变保留条件。

综合上述计算结果,按流程图判断逻辑,满足至少一个ACD-FMID过滤子模块的突变保留条件,该突变保留。

针对M中的某个突变m2(chr7:94427037C>T):

已知突变m2总深度995x,参考型深度926x,突变型深度69x,突变AF=7.2%,按方法学描述,执行插入片段平滑与母胎邻域校正两项操作,得到校正后的插入片段长度分布向量L2,基于该向量,结合计算公式,可得到:

1.突变m2的贝塔二项分布对数累积函数P值为-19.4201,-19.4201处于[-0.001,-10]范围外,不满足突变保留条件,需继续执行FMID子模块进行判断。

2.突变m2的韦尔奇T检验P值为0.8518,柯尔莫可洛夫-斯米洛夫检验P值为0.3254,进行等值校正的克鲁斯卡尔-沃利斯H检验P值为0.8407,进行等值校正的曼-惠特尼U检验P值为0.8409,四种假设检验的最小P值为0.3254,0.3254>0.001,不满足突变保留条件,需继续执行FMID子模块进行判断。

3.突变m2的插入片段长度中值差为-3,不满足突变保留条件。

综合上述计算结果,按流程图判断逻辑,所有ACD-FMID过滤子模块保留条件均不满足,该突变被过滤。

讨论

在本发明中,本发明人开发了一种基于孕妇外周血内胎儿游离脱氧核糖核酸的单基因检测方法和装置。

具体地,本发明人基于胎儿游离DNA的特有特征,开发一种新的算法同时分析孕妇血浆中游离DNA的突变等位基因比例和突变所在游离DNA片段长度,并根据胎儿单基因突变真阳性和假阳性位点的特征设计多重过滤器用于甄别胎儿单基因突变位点。

在本发明中,通过特有的过滤、校正等数据处理,尤其是通过ACD-FMID过滤,显著降低了假阳性的胎儿单碱基变异,从而使NIPS分析结果更准确,具有高灵敏度和高特异性等优点。

在本发明提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

相关技术
技术分类

06120116593681