掌桥专利:专业的专利平台
掌桥专利
首页

用于推测人亲缘关系等级的SNP位点组合及其应用

文献发布时间:2024-04-18 19:59:31


用于推测人亲缘关系等级的SNP位点组合及其应用

技术领域

本发明涉及一种用于推测人亲缘关系等级的SNP位点组合,涉及生物信息技术领域。

背景技术

单核苷酸多态性(Single Nucleotide Polymorphism,SNP)是法医学领域的第三代遗传标记,具有分布广泛,突变率低,遗传稳定性高的特点,可进行个体身份识别、亲缘关系分析、生物地理推断、体貌表型预测等,是法医个体鉴定的重要遗传标记。基于SNP进行亲缘关系尤其是远距离亲缘关系推测的技术又称为法医SNP系谱技术,通常采用全基因组SNP芯片或全基因组重测序获得高密度SNP分型数据信息,进而通过计算模型对7级以内的亲缘关系进行推测。

但是,从法医生物检材中获取的DNA往往条件有限,普遍存在微量、降解的情况。全基因组重测序SNP分析成本高、对DNA样品需求大,很难适用于法医学应用;全基因组SNP芯片对DNA质量要求很高,法医应用场景有限。因此,需要根据全基因组SNP分析结果,筛选并构建可用于推测亲缘关系的低密度SNP位点组合。

发明内容

本发明提供一种用于推测人亲缘关系等级的SNP位点组合及其在推测人亲缘关系等级中的应用,该组合为低密度SNP位点组合,在满足亲缘关系等级分析需求的基础上,更适合法医样本鉴定。

本发明第一方面提供一种用于推测人亲缘关系等级的SNP位点组合,包括9000个SNP位点,所述9000个SNP位点的信息如表2所示。

本发明第二方面提供一种用于检测上述SNP位点组合的引物、探针或基因芯片。

本发明第三方面提供上述SNP位点组合在如下任一方面中的应用:

(1)构建DNA芯片、捕获测序或其它应用性试剂盒;

(2)推测亲缘关系等级;

(3)亲缘关系遗传分析。

本发明第四方面提供上述引物、探针或基因芯片在如下任一方面中的应用:

(1)构建DNA芯片、捕获测序或其它应用性试剂盒;

(2)推测亲缘关系等级;

(3)亲缘关系遗传分析。

本发明第五方面提供一种推测亲缘关系等级的方法,根据上述SNP位点组合进行亲缘关系等级的推测。

在一种具体实施方式中,包括如下步骤:

采集待判定亲缘关系的第一个体和第二个体的DNA;

获取所述第一个体和第二个体的SNP位点组合的分型数据;

当所述第一个体和第二个体的亲缘关系假定为m级时,则计算第一个体和第二个体在m级亲缘关系下的SNP位点组合的基因型联合似然函数P(P(s1,s2,...,s9000,v

当所述第一个体和第二个体的亲缘关系无假定等级时,则计算第一个体和第二个体分别在1~7级亲缘关系下的SNP位点组合的基因型联合似然函数P(P(s1,s2,...,s9000,v

在一种具体实施方式中,所述亲缘关系等级的定义为:

当第一个体和第二个体为直系,亲缘关系等级为第一个体和第二个体相隔的减数分裂次数;当第一个体和第二个体为全同胞系,亲缘关系等级为第一个体和第二个体到共同祖先的减数分裂次数之和减1;当第一个体和第二个体为半同胞系,亲缘关系等级为第一个体和第二个体到各自共同祖先的减数分裂次数之和。

在一种具体实施方式中,采集待判定亲缘关系的第一个体和第二个体的生物样本,根据所述生物样本获取第一个体和第二个体的DNA。

在一种具体实施方式中,设计用于检测所述SNP位点组合的引物、探针或基因芯片,使用所述引物、探针或基因芯片对所述第一个体和第二个体的DNA进行检测,获取所述第一个体和第二个体的SNP位点组合的分型数据。

在一种具体实施方式中,所述SNP位点组合的基因型联合似然函数的计算方式包括如下步骤:

获取9000个SNP位点对应的基因型在人群中的频率;

根据假定亲缘关系等级和隐马尔可夫模型获取9000个SNP位点对应的遗传向量v表示的基因流的概率;

根据式3计算9000个SNP位点组合的基因型联合似然函数:

P(s1,s2,...,s9000,v

式3中,P(v

本发明提供一种低密度SNP位点组合,包括9000个SNP位点组合,在满足亲缘关系等级分析需求的基础上,位点数量适用于现场常见生物检材的检测,法医场景适用性强。基于上述9000个SNP位点组合,本发明建立了基于似然比的系谱关系推断算法,用于法医系谱学5级(含)以内亲缘关系的准确预测,准确性为99%,无假阴性。

附图说明

图1为本发明一实施例提供的SNP位点组合在人染色体上的分布图;

图2为本发明一实施例提供的9kSNP间的厘摩距离和物理距离分布图;

图3为本发明一实施例提供的9kSNP的MAF分布图;

图4a为一级亲缘关系的LR分布图;

图4b为二级亲缘关系的LR分布图;

图4c为三级亲缘关系的LR分布图;

图4d为四级亲缘关系的LR分布图;

图4e为五级亲缘关系的LR分布图;

图4f为六级亲缘关系的LR分布图;

图4g为七级亲缘关系的LR分布图;

图5在真实家系中基于lgLR区分亲属关系对和无关对的ROC曲线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1 9kSNP位点的筛选

对人全基因组进行检测,并通过如下筛选方法,筛选得到9kSNP位点组合,筛选方法包括:

1.1、初步筛选:a、使用Wegene GSA芯片和Wegene CGA芯片对人全基因组SNP位点进行检测,Wegene GSA芯片检测到69万SNPs,Wegene CGA芯片检测到71万SNPs,选择交集位点共541,756个SNPs;b、删除X、Y和mtSNPs,保留常染色体SNPs,剩余500,753个SNPs;c、选择与The Single Nucleotide Polymorphism Database数据库(dbSNP151)重合位点,剩余463,744个SNPs;d、挑选出二等位基因,删除多等位基因位点,剩余387,026个SNPs;e、剔除同一位置有其他突变的位点,剩余386,731个SNPs;f、与千人基因组数据找交集位点,剩余386,077个SNPs;g、删除东亚人群中MAF(Minor Allele Frequency)为0的位点,剩余374,010个SNPs;g、剔除芯片分型检出率低于99.9%的位点,剩余311,979个SNPs。

1.2、精细筛选:a、设定位点数的目标为9200个;b、按染色体的厘摩长度比例把位点数分配至各染色体;c、染色体的厘摩长度除以被分配的位点数量,得到片段厘摩长度;d、每个片段里挑选MAF最高的位点;e、某些片段中不包含初步筛选的311,979个位点,调整设定位点数的目标为9000个;f、每个片段挑选MAF最高的位点,不含初步筛选位点的片段不挑选;g、从挑选出的位点中选择MAF较大的9000个位点。

最终确定的位点数为9000,每条染色体分配的SNP位点数以及在人染色体上的分布如表1和图1所示,图1中显示空缺的位置,主要原因是芯片设计的位点不包含该区域,可能原因有:该区域为着丝粒区域;该区域位点基本没有频率信息等。所有SNP位点的ID见表2。

通过将挑选的SNP位点组合,在常染色体上根据其厘摩距离和物理距离作图,依据两两间摩尔距离和物理距离统计数目绘制直方图,如图2所示,挑选的位点在厘摩距离上基本均匀分布,在物理距离上,也较分散。

对设计的SNP位点组合计算MAF值并绘制直方图,如图3所示,大多数点的MAF值接近50%,这些点包含更多的频率信息,能够帮助区分是否有亲缘关系的样本对。

表1每条染色体分配的SNP位点信息

表2 9kSNP位点组合

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

表2中,chr表示SNP位点所在染色体的编号,pos表示SNP位点所在染色体的位置,id表示SNP位点的识别编号。

实施例2基于9kSNP的亲缘关系等级计算准确性评估

2.1、实际亲缘关系样本集DNA提取和检测

采集中国7个志愿者家系共304个成员的唾液样本,其中,包含4525对1~7级亲缘关系(244对亲子(PO)、131对全同胞(FS)、333对2级(2nd)、439对3级(3rd)、602对4级(4th)、915对5级(5th)、976对6级(6th)、885对7级(7th))亲缘关系,25270对无亲缘关系(UN)。所有参与者均签署知情同意书,并通过了公安部物证鉴定中心伦理委员会批准(编号:2022-017)。

提取唾液DNA,使用NanoDrop 2000c超微量分光光度计检测DNA的浓度和纯度。随后对所有DNA样本的9kSNP位点进行分型检测,对数据进行质控后对亲缘关系等级进行计算。

2.2、亲缘关系等级计算

假设亲缘关系等级b,确定第1个SNP位点对应的遗传向量v表示的基因流的概率,具体计算方法表示为2

根据千人基因组计划1000Genomes Project数据库第三期中的东亚人群的位点频率(数据库来源网站为:http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/gambian_genome_variation_project/data/),确定第1个SNP位点对应的基因型在东亚人群中出现的频率,即为fn;例如,以亲子关系的第一个体和第二个体为例,第一个体对应的基因型为{A,T},第二个体对应的基因型为{A,C},则A、C、T在群体中的频率分别为f

根据式3计算第1个SNP位点对应的概率P(S1)=2

同理,当计算第2个SNP位点对应的概率时,由于遗传连锁等因素,第N个SNP位点的遗传向量传递状态概率依赖于第N-1个SNP位点的状态,即P(v

通过调整亲缘关系等级状态,则可以计算出两个个体在m级亲缘关系等级下的基因型联合似然函数和没有亲缘关系等级下的基因型联合似然函数,将二者根据式1所示的公式进行计算,获得LR值。

采用相同的方法,可对其他亲缘关系等级的LR进行计算。

可以理解,本发明采集的志愿者样本为东亚人群,则确定SNP位点对应的基因型在东亚人群中出现的频率,当针对的人群发生变化时,对应的基因型频率数据库也需要相应改变,具体可根据本领域常规技术手段进行确认。

2.3、亲缘关系等级假定已知场景下的准确性

当两两个体的亲缘关系假定已知(亲缘关系等级假定已知是指在法医鉴定过程中,第一个体和第二个体的亲缘关系等级存在一个可能的假定等级)时:根据已知亲缘关系作出假设获得相应的lgLR,以lgLR为横坐标,以分布情况为纵坐标,绘制对应亲缘关系的LR分布图,如图4a~4g所示,在4级亲缘以内,lgLR分布图无重叠,表明9k位点组合能够区分4级以内的亲缘关系与无关个体;从5级开始,lgLR分布出现少部分重叠,并且随着亲缘等级增加,无关个体的lgLR值逐渐增大,有亲缘个体的lgLR值逐渐减小,导致重叠区域变大。

基于不同等级亲缘lgLR值的分布,本发明统计了灵敏度、特异度、系统效能、阳性预测值、阴性预测值、假阳性率、假阴性率以及错误率等参数来评估9k位点集基于LR法的亲缘推断效能。所有基于概率的法医学方法,必须设置一个合适的阈值t用于平衡假阳性率和假阴性率。在亲缘关系推断中,假阳性会把不相关的个人纳入结果中,而假阴性结果则排除了存在亲缘关系的个人,并且有可能把不相关个人纳入存在亲缘关系的结果中。

本发明采用单阈值方法平衡结果可靠性。

灵敏度指“有关”的调查亲缘关系对应的所有关系对中,预测结果同样是“有关”的关系对,所占的比例;灵敏度=A/(A+C)。

特异度指调查亲缘关系为“无关”的所有关系对中,预测结果是“无关”的关系对,所占的比例;特异度=D/(B+D)。

假阴性率指“有关”的调查亲缘关系对应的所有关系对中,预测结果是“无关”的关系对,所占的比例;假阴性率=C/(A+C)。

假阳性率指调查亲缘关系为“无关”的所有关系对中,预测结果是“有关”的关系对,所占的比例;假阳性率=B/(B+D)。

阳性预测值指预测结果是“有关”的所有关系对中,调查亲缘是“有关”的关系对,所占的比例;阳性预测值=A/(A+B)。

阴性预测值指预测结果是“无关”的所有关系对中,调查亲缘是“无关”的关系对,所占的比例;阴性预测值=D/(C+D)。

错误率指调查亲缘对应的所有关系对中,调查亲缘是“有关”预测为“无关”和调查亲缘是“无关”预测为“有关”的关系对,所占的比例;错误率=(B+C)/(A+B+C+D)。

系统效能指调查亲缘对应的所有关系对中,调查亲缘“有关”预测为“有关”和调查亲缘“无关”预测为“无关”的关系对,所占的比例;系统效能=(A+D)/(A+B+C+D)。

表3 9k系谱SNP对于假定已知亲缘关系的亲缘推断效能

由表3可知,当t=0时,3级以内的亲缘关系推断系统效能达到100%,错误率为0;4级到6级的亲缘关系推断系统效能分别为99.90%、97.82%、91.05%,错误率分别为0.10%、2.18%、8.95%;7级的亲缘推断效能最低(82.16%),错误率也较高(17.84%)。从4级到7级的时候,随着阈值t的增加,系统效能增加,错误率降低。因此,当阈值t=0时,9k位点集基于LR法能够准确推断≤4级的亲缘关系;当阈值t=2时,9k位点集基于LR法能够准确推断≤5级的亲缘关系,也可以为6级亲缘的推断提供参考。6级的假阴性率较高(>10%),在应用时需要谨慎判别。

2.4AUC值评估

为了便于计算,基于所有关系对的lgLR值,分析不同等级亲缘关系对与无关关系对的受试者工作特征曲线(Receiver Operating Characteristic,ROC)。采用ROC曲线下面积(Area Under roc Curve,AUC)值评估9k位点对于亲缘关系等级推断的效能:

M为正样本个数;N为负样本个数。AUC取值一般在0.5-1之间,AUC值越大,分类器分类效果越好。

对于2.3中的结果进行AUC计算,计算结果如图5所示,1st、2nd、3rd以及4th亲缘等级的AUC值为1,表明9k位点集在4级以内的亲缘推断效能达到最大;另外,5th和6th的AUC分别为0.997和0.961,表明9k位点集在5级和6级的亲缘推断效能也较高。

2.5、亲缘关系等级未知场景下的准确性

当两两个体的亲缘关系未知时,取LR最大值时的亲缘关系等级假设为最终预测的亲缘关系等级。将304个个体的两两关系对的预测亲缘关系等级与实际调查的亲缘关系等级进行比较,从而评估9k系谱SNP对于未知亲缘关系的推断效能。表4中展示了304个个体的两两关系对的预测亲缘关系等级以及调查亲缘等级情况,并统计了绝对准确性(AC)、置信区间准确性(CIA)、预测可信度(PR)以及假阴性(FN)和假阳性(FP)等用来评估亲缘推断效能的指标。

其中,绝对准确性(Accuracy,AC)=此等级中预测亲缘结果与调查亲缘结果一致的关系对/此等级所有调查亲缘关系对;

置信区间准确性(Confidence interval accuracy,CIA)=此等级中预测亲缘结果为调查亲缘结果±1级的关系对/此等级所有调查亲缘关系对;

预测可信度(Predicted reliability,PR)=此等级的预测亲缘结果为“有关”的关系对/此等级所有预测亲缘关系对;

假阴性(False negative,FN)=此等级的预测亲缘结果为“无关”的关系对/此等级所有调查亲缘关系对;

假阳性(False positive,FP)=调查亲缘关系为“无关”的关系对中预测亲缘结果为“有关”的关系对/所有调查亲缘关系为“无关”的关系对。

表4 9k系谱SNP对于未知亲缘关系的亲缘推断效能

结果显示,在亲缘关系4级在内的预测可信度均为100%,并且不存在假阴性和假阳性;另外,5级的预测可信度达到99.77%,且假阴性率、假阳性率均较低;在4级以内的调查亲缘关系中,其置信区间准确率均高于99.70%,5级调查亲缘的置信区间准确率也达到96%;从6级开始,随着亲缘关系等级的增加,假阴性和假阳性率逐渐增加,绝对准确率、置信区间准确度以及预测可信度逐渐降低。因此,对于亲缘关系等级未知的情况,本方法也可以实现对≤5级的亲缘关系的准确预测。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 一种基于虚拟现实技术的心理健康教育系统
  • 一种基于虚拟现实技术的心理健康教育系统
技术分类

06120116523980