掌桥专利:专业的专利平台
掌桥专利
首页

一种基于DH系混样建库和基因型填充的基因型分型方法及其应用

文献发布时间:2024-04-18 19:52:40


一种基于DH系混样建库和基因型填充的基因型分型方法及其应用

技术领域

本发明涉及基因预测技术领域,尤其是涉及一种基于DH系混样建库和基因型填充的基因型分型方法及其应用。

背景技术

育种是一门复杂的技术,传统育种工作主要依赖于育种家的经验和机遇,凭借育种家的经验和肉眼筛选,存在很大的周期长、盲目性、不可预测性,不适合大规模的商业化育种体系。双单倍体系(doubled haploid,以下简称DH系)育种是通过利用诱导系诱导产生单倍体植株,再通过染色体组加倍使植物恢复正常染色体数的育种方法,其能够在较短时间(2代)内选育出DH纯系,大大缩短育种年限,是加速种质材料纯化、缩短育种年限的有效途径。在DH系育种中,全基因组基因型检测是育种过程中的重要工具,全基因组基因型检测通常是利用基因芯片技术实现,基因芯片通过汇集有代表性特征的DNA信息,可以提前对材料的基因型进行检测,进而实现对材料表现的评估与预测,可有效缩短育种周期,因此被广泛应用于纯度鉴定、重要功能基因鉴定、背景筛选等应用场景。

相关技术中,液相基因芯片是一种新型的基因型检测技术,该技术基于基因型靶向测序检测技术,通过设计目标区域探针与靶向区间序列互补结合对目标区域进行定点捕获,且能够在液相中同时快速完成成千上万个探针杂交反应的试剂盒,然后对捕获富集的目标区间进行二代测序,从而获得目标区间内的所有SNP/InDel位点的基因型,实现对材料的基因型检测,然而利用液相基因芯片进行全基因组基因型检测的成本较高。此外,基于现阶段动植物育种中所用的育种基因芯片基本为国外所垄断的固相芯片,固相芯片的制造、检测试剂和仪器设备完全依赖进口,成本高、风险大,育种基因芯片及相关基因型分型技术成为种业“卡脖子”核心关键技术之一,同时高密度基因芯片在大群体单样基因型检测应用成本高,极大地限制了基因型检测在育种中的实际应用。

因此,亟需寻求一种基于DH系混样建库和基因型填充的基因型分型方法及其应用,其能够快速、准确地鉴定大规模DH子代基因型,降低基因型检测成本,提高育种效率。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于DH系混样建库和基因型填充的基因型分型方法及其应用,能够快速、准确、高效、高通量的鉴定大规模DH子代基因型,可以大幅度降低基因型检测成本和时间。

本发明还提出一种上述基因型分型方法在植物育种中的应用。

本发明还提出一种系统,采用上述的基因型分型方法进行检测。

本发明还提出一种计算机可读介质,所述计算机可读介质存储有计算机程序,其中,所述计算机程序能被处理器执行以实现上述的基因型分型方法步骤。

本发明的第一方面,提供一种基于DH系混样建库和基因型填充的基因型分型方法,包括以下步骤:

步骤S1、对不同DH群体的亲本进行高密度基因型检测;

步骤S2、对所述不同DH群体的子代群体进行混样和低密度基因型检测,获得DH子代混样低密度基因型数据;

步骤S3、对所述DH子代混样低密度基因型数据进行拆分,得到DH子代单样低密度基因型数据;

步骤S4、利用步骤S1的检测数据,对所述DH子代单样低密度基因型数据进行填充,得到DH子代高密度基因型数据。

根据本发明实施例的基因型分型方法,至少具有如下有益效果:采用本发明的基因型分型方法,其DH子代基因型的平均拆分一致性高达99.58%,平均填充一致性高达99.09%。此外本发明的基因型分型方法效率高、成本低,当DH群体大小为50时,可以节约实验55%成本,当群体大小为100时可以节约实验成本62%,且由于只需要检测DH子代混样及DH亲本,检测样本只需要检测原本样本量的一半,检测时间得到有效缩短。

在本发明的一些实施方式中,所述不同DH群体为两个不同DH群体。

在本发明的一些实施方式中,步骤S1中,所述高密度基因型检测的方法包括采用固相SNP芯片检测、液相SNP芯片检测、扩增子测序、简化基因组测序、全基因组重测序中的一种。

优选地,所述高密度基因型检测的方法包括56K固相芯片检测、50K cGPS液相芯片检测和10K液相芯片检测中的任一种。

在本发明的一些实施方式中,所述高密度基因型检测为10K液相SNP芯片检测。

在本发明的一些实施方式中,步骤S2中,所述低密度基因型检测的方法包括固相SNP芯片检测、液相芯片检测、扩增子测序、简化基因组测序中的一种。

其中,低密度基因型检测的方法是指标记密度相对于步骤S1中高密度基因型检测方法更低的分型方法。

在本发明的一些实施方式中,所述低密度基因型检测的方法包括1K液相SNP芯片检测或1K mGPS液相芯片检测。

优选地,所述低密度基因型检测为1K液相SNP芯片检测。

在本发明的一些实施方式中,所述混样包括分别取所述不同DH群体中的一个子代样本并提取基因组DNA进行混合。

在本发明的一些实施方式中,所述混样为等比例混样。

在本发明的一些实施方式中,所述拆分具体包括以下步骤:

步骤S11、质控:利用所述亲本的高密度基因型检测数据对所述DH子代混样低密度基因型数据进行矫正;

步骤S12、亲本推断:根据所述DH子代混样基因型纯合或杂合,利用亲本的基因型推测出等位基因来源亲本;

步骤S13、基因型推断:利用推测出来等位基因来源亲本,根据就近原则进一步推测DH子代单样的基因型数据,获DH子代单样1K基因型数据。

优选地,所述拆分具体包括以下步骤:

1、质控:利用所述亲本的高密度基因型数据对DH子代混样低密度基因型数据进行矫正;

2、亲本推断:根据DH子代混样基因型纯合或杂合,利用亲本的基因型来推测出等位基因来源亲本;

3、基因型推断:利用推测出来位点的亲本来源,进一步推测DH子代单样基因型,获得DH子代单样1K基因型数据。

在本发明的一些实施方式中,所述亲本推断步骤中由于DH子代的等位基因都是来源于亲本,可以利用亲本的基因型推测出DH子代的等位基因来源亲本,具体推测示例如下:

在本发明的一些实施方式中,若存在其他未确定亲本的等位基因,则根据染色体位置采取就近原则推测;

优选地,所述就近原则推测是指此位置以及离它最近标记的区间片段内的位置其亲本全划分为来自此最近标记的亲本。

在本发明的一些实施方式中,所述填充具体包括以下步骤:

步骤S21、过滤掉所述不同DH群体亲本的高密度基因型检测数据中的缺失位点,并利用填充软件分别获取不同DH群体的reference panel;

步骤S22、利用填充软件基于不同DH群体的reference panel对所述DH子代单样低密度基因型数据进行填充。

优选地,所述填充具体包括以下步骤:

1、质控:对亲本高密度基因型进行质控;

2、referenc panel构建:使用Minimac3构建亲本高密度基因型reference panel,并转换格式为M3VCF格式;

3、target panel构建:构建DH子代群体的低密度target panel;

4、基因型填充:利用填充软件Minimac3基于亲本高密度基因型reference panel对DH子代群体的低密度target panel进行填充。

本发明的第二方面,提供了一种上述的基于DH系混样建库和基因型填充的基因型分型方法在植物育种中的应用。

本发明的第三方面,提供了一种系统,采用上述的基因型分型方法进行检测。

本发明的第四方面,提供了一种计算机可读介质,所述计算机可读介质存储有计算机程序,其中,所述计算机程序能被处理器执行以实现上述的基因型分型方法步骤。

根据本发明实施例的应用,至少具有如下有益效果:将本发明的基于DH系混样建库和基因型填充的基因型分型方法应用于实际的育种工作,可快速、准确、高效、高通量的鉴定大规模DH子代基因型,能够大幅度降低基因型检测成本和时间。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。

附图说明

下面结合附图和实施例对本发明做进一步的说明,其中:

图1为本发明实施例的基因型分型技术流程图;

图2为本发明实施例DH1群体与DH2群体混样示意图;

图3为本发明实施例DH群体拆分准确性及填充准确性。

具体实施方式

以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。

本发明的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。

实施例1:技术开发流程

本发明提供的一种基于DH系混样建库和基因型填充的基因型分型方法的技术流程(如图1所示),其具体包括以下流程:

(1)通过对DH群体亲本进行高密度基因型检测,并对不同双亲DH子代群体中的个体进行混样建库及低密度基因型检测,获得DH子代混样低密度基因型数据;

(2)通过对DH子代混样低密度基因型数据进行拆分,得到DH子代单样拆分低密度基因型;

(3)基于DH亲本高密度基因型数据对DH子代单样拆分基因型低密度基因型进行填充,最终得到DH子代高密度基因型数据。

将本发明提供的一种基于DH系混样建库和基因型填充的基因型分型方法应用于实际的育种工作,可快速、准确、高效、高通量的鉴定大规模DH子代基因型,并大幅度降低基因型检测成本和时间。

实施例2:一种基于DH系混样建库和基因型填充的基因型分型方法

本实施例提供了一种基于DH系混样建库和基因型填充的基因型分型方法。

(一)DH亲本高密度基因型检测

对两个不同DH群体的4个亲本(如图2所示,分别为DH1亲本:a、b;DH2亲本:c、d)进行高密度基因型检测(如10K SNP液相基因型数据),其高密度基因型检测可以用固相SNP芯片、液相SNP芯片等基因型检测技术,不同的物种可以用不同的密度和检测技术,如水稻可以用水稻56K固相芯片、50K cGPS液相芯片、10K液相芯片检测技术;玉米可用10K cGPS液相芯片检测技术,其他物种根据已有芯片类型进行检测。

(二)DH子代群体混样1K SNP芯片基因型检测

对上述两个不同的DH群体的子代群体(DH1子代1-20和DH2子代1-20)进行混样建库和低密度基因型检测,即分别从DH1子代1-20和DH2子代1-20各选1个DH子代个体,分别提取DNA,并取等量DNA进行混样,构建DH子代混样(子代混样mix1-20),进行1K液相SNP芯片基因型检测,按照上述方法分别从两个DH子代群体中选择个体进行混样建库及低密度基因型检测,总共得到20个DH子代混样1K基因型。

具体的,可以根据每个物种的不同采用不同密度的检测技术,如水稻可以用水稻1KmGPS液相芯片,玉米可用玉米1K mGPS液相芯片,其他物种根据已有芯片类型进行检测。

(三)DH子代混样1K基因型数据拆分

基于上述两个不同DH群体的4个亲本的高密度基因型检测数据(10K SNP液相基因型数据)对20个DH子代混样(子代混样mix1-20)1K基因型数据进行拆分,得到DH1子代1-20、DH2子代1-20各20个单样1K基因型数据,即拆分后总共得到40个DH子代单样1K基因型数据。具体拆分方法如下:

(1)质控及矫正:首先分别对DH1亲本和DH2亲本的高密度基因型进行质控,对20个DH子代混样(子代混样mix1-20)1K基因型数据进行质控,基于DH亲本及子代群体特征,对基因型数据进行矫正,其中包括亲本杂合位点矫正和子代混样mix基因型矫正;

(2)亲本推断:根据子代混样(子代混样mix1-20)1K基因型是纯合或杂合,因为DH子代的等位基因都是来源于亲本,可以利用亲本的基因型推测出DH子代的等位基因来源亲本;具体的,其亲本推断示例如表1所示。

表1:亲本推断

(3)基因型推断:利用推测出来等位基因来源亲本进一步推测DH1子代单样1K基因型数据,若存在其他未确定亲本的等位基因,则根据染色体位置采取就近原则推测,既此位置以及离它最近标记的区间片段内的位置其亲本全划分为来自此最近标记的亲本,然后根据亲本的对应的基因型,推测DH1子代单样1K基因型数据,采用上述方法推测DH1子代1-20、DH2子代1-20各20个单样1K基因型数据。

基于对两个不同DH群体的4个亲本(DH1亲本:a、b;DH2亲本:c、d)的10K SNP液相基因型数据,对20个DH子代混样(子代混样mix1-20)1K基因型数据进行拆分,拆分过程利用到遗传单倍型理论,单倍型指决定同一性状的紧密连锁的基因构成的基因型,至少两个基因座甚至整个染色体,单倍型块具有共同遗传的特征。

(四)DH子代单样1K基因型数据填充

1、质控及referenc panel构建:根据上述4个DH亲本的高密度基因型检测数据(10K SNP液相基因型数据),以每个群体的两个DH亲本为依据(DH1亲本:a、b;DH2亲本:c、d),分别构建DH1群体、DH2群体的10K reference panel。

具体的,首先分别对DH1亲本(a和b)和DH2亲本(c和d)的高密度基因型进行质控,过滤有缺失的位点;然后通过Minimac3填充软件转换亲本VCF格式基因型文件为M3VCF格式(Minimac3--refHaps parents.recode.vcf--processReference--prefixparents.recode),具体方法可参考文献Fuchsberger C,Abecasis G R,Hinds DA.Minimac2:Faster genotype imputation[J].Bioinformatics,2014,31(5):782-4,M3VCF格式存储referenc panel的单倍型信息,将单倍型划分为不同的block,相比VCF格式,该格式占用磁盘小,读取速度快,内存消耗小。

2、target panel构建:根据20个子代混样(子代mix1-20)拆分后得到的20个DH1子代1-20单样1K基因型数据和20个DH2子代1-20单样1K基因型数据,分别构建DH1子代、DH2子代群体的1K target panel。

具体的,首先分别对DH1子代1-20和DH2子代1-20的拆分后各20个单样1K基因型进行质控,过滤掉完全缺失的位点;然后用shapeit对基因型数据进行定相(Phasing)分析(shapeit--input-vcf DH1_SNP.recode.vcf-O DH1_SNP.hapdata–force),具体可参考文献:

Delaneau O,Marchini J,Zagury J F.Alinear complexity phasing methodfor thousands of genomes[J].Nature Methods,2011,9(2):179-181,并转换定相(Phasing)后的haps格式的基因型文件为VCF格式。

3、基因型填充:利用填充软件Minimac3基于DH1群体、DH2群体的亲本10Kreference panel分别将DH1子代1-20和DH2子代1-20的拆分后各20个单样1K基因型填充至10K SNP位点基因型(Minimac3--refHaps parents.recode.m3vcf.gz--haps DH1_SNP.haps.vcf--prefix DH1_SNP.imputed),得到两个群体各20个DH子代群体填充后10K基因型数据。

(五)DH子代1K基因型数据拆分及填充一致性检测

通过对两个DH群体(DH1群体、DH2群体)的子代群体混合建库,检测20个DH子代混样(子代混样mix1-20)的1K mGPS基因型数据,对20个DH子代混样的1K基因型数据拆分,获得40个DH子代单样的拆分1K基因型数据。然后比较40个DH子代单样的拆分1K基因型数据与40个DH子代的真实检测单样的1K基因型数据的一致性,一致性=相同基因型位点数/总位点数,结果表明40个DH子代基因型的平均拆分一致性为99.58%。

进一步的,将40个DH子代单样的拆分基因型数据(1K)填充至10K,比较40个DH子代的10K填充基因型数据与40个DH子代的10K真实检测基因型数据的一致性,一致性=相同基因型位点数/总位点数,结果表明40个DH子代的平均填充一致性为99.09%(具体如图3所示)。

综上所示,本发明开发了一种基于DH系混样建库和基因型填充的基因型分型方法,该方法通过对不同双亲DH子代群体个体进行混样建库及低密度基因型检测、拆分,然后结合亲本高密度液相芯片基因型及基因型填充技术,得到了DH子代高密度液相基因型分型数据。

采用本发明的基因型分型方法,其DH子代基因型的平均拆分一致性高达99.58%,平均填充一致性高达99.09%。此外本发明的基因型分型方法效率高、成本低,当DH群体大小为50时,可以节约实验55%成本,当群体大小为100时可以节约实验成本62%,且由于只需要检测DH子代混样及DH亲本,检测样本只需要检测原本样本量的一半,检测时间得到有效缩短。

上面对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。此外,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

技术分类

06120116335202