掌桥专利:专业的专利平台
掌桥专利
首页

一种大麦40K SNP液相芯片

文献发布时间:2023-06-19 16:12:48



技术领域

本发明属于植物分子标记技术领域,涉及一种大麦40K SNP液相芯片,具体涉及一种基于靶向捕获高通量测序技术开发的含4万个SNP标记位点的大麦全基因组液相芯片。

背景技术

大麦是全世界的重要粮食作物之一,其种植面积和总产量均居全球第4 位。大麦兼具食用、饲用和工业酿造用价值,近年来,因其具有“高蛋白、高纤维素、高维生素、低脂肪、低糖”的“三高两低”特性而作为一种保健食品越来越受到重视。青稞作为大麦的一种特色类型,还是我国藏区和高原特色作物,对藏区的社会、经济和文化建设以及发展独具意义。因此,加快大麦优异新品种的培育,推动大麦产业可持续发展具有重要意义。

然而,当前大麦育种面临着诸多问题,如,遗传瓶颈愈发严重,选择效率低、育种周期长、突破性品种培育难度大等。因而,以大数据、组学技术为核心的分子育种是打破大麦育种瓶颈、实现大麦育种突破的关键和核心。与此同时,高通量SNP芯片是开展作物高通量基因分型、种质鉴定、QTL定位、全基因组关联分析、基因组选择等分子育种研究所不可或缺的重要工具。

目前,还没有一款针对大麦开发的SNP芯片。大麦的基因分析或者遗传定位等研究主要还是采用基于电泳分离的以DNA片段长度差异为区分的SSR (简单序列重复)标记、AFLP(扩增片段长度多态性)等第二代分子标记技术;也有部分研究采用了基于单核苷酸多态性(SNP)的GBS(Genotyping by sequencing,基于测序的基因分型)等第三代分子标记技术,但是这类技术门槛高、成本高。

SNP芯片具有检测方便、成本低、通量高、灵敏度高以及并行检测等优势,相比与固相SNP芯片,液相SNP芯片还具有灵活、可变,可自由选择检测通量以及不需要设计固相探针等优势;因此,开发一款大麦SNP液相芯片,多种密度组合,经济、高效、实用性强,可为大麦分子育种、打破种业卡脖子问题提供重要技术支撑。

发明内容

本发明的目的在于提供一种大麦40K SNP液相芯片,即,开发一款大麦专用的,同时,可均匀覆盖大麦全基因组,且代表性强、多态性高、特异性高、通用性强的大麦SNP液相芯片,填补现有大麦分子标记缺少野生大麦和青稞遗传信息的瓶颈,还可广泛应用于栽培大麦、野生大麦、青稞等各种不同类型的大麦,为大麦高通量基因分型、基因定位、指纹印迹、全基因组选择等分子育种研究提供不可或缺的重要工具。

本发明的解决上述技术问题的技术方案如下。

一种大麦40K SNP液相芯片,该大麦40K SNP液相芯片通过下述方法获得:

(1)选取大麦及青稞为种质材料进行重测序,再对测序结果进行质控、与参考基因组映射,鉴定与筛选出SNP位点;

(2)根据SNP位点的指标,结合位点在染色体上的位置,分析其上下游序列并设计测序引物,挑选能够用于芯片开发的SNP位点;

(3)运用靶向测序基因分型技术开发该大麦40K SNP液相芯片。

进一步地,该大麦40K SNP液相芯片,步骤(1)包括如下过程:

S1.在全球范围的不同生态区选择具有代表性的不同大麦以及青稞为种质材料,提取幼嫩叶片总DNA并进行测序;其中,选用的种质材料包括野生大麦、大麦农家种、大麦栽培品种以及青稞,共计155份;采用Illumina标准方法进行DNA文库构建,DNA片段长度为500bp,测序策略为PE150,测序深度为10×,每个品系测50G数据量;

S2.将测序获得的原始数据进行质控,获得高质量的clean reads,再将其与参考基因组进行映射,获得各样品的比对结果;

S3.将比对结果进行SNP位点的鉴定、提取、过滤,得到SNP位点。

通过上述步骤(1)的3个过程,所获得的SNP位点总数为45045617个。

进一步地,该大麦40K SNP液相芯片,步骤(2)的过程为,根据步骤 (1)获得的SNP位点的染色体位置、最小等位位点频率、缺失率、杂合率的指标,结合位点在染色体上的位置,对其上下游序列进行分析,并设计测序引物,筛选获得能够用于芯片开发的SNP位点。

更近一步地,步骤(2)包括如下过程:

S1.按照最小等位位点频率>0.3、缺失率<5%、杂合率<5%,从步骤 (1)获得的SNP位点中挑选出均匀覆盖大麦的7条染色体,共计76517个位点;

S2.根据位点在染色体上的位置,对其上下游序列进行分析,并设计测序引物,筛选获得能够用于芯片开发的SNP位点。

通过上述步骤(2)的2个过程,挑选出能够用于芯片开发的SNP位点为 40519个。

进一步地,该大麦40K SNP液相芯片,步骤(3)包括如下过程:

S1.根据步骤(2)获得的SNP位点的上下游序列,对每一个待测位点设计一条覆盖目标SNP的液相探针,并将其用生物素进行标记;

S2.基于DNA碱基互补配对原理,将探针与待测基因型的DNA样品在溶液中进行杂交,与基因组的目标区域互补配对形成双链;

S3.利用链霉亲和素包衣的磁珠将携带有生物素的DNA片段进行吸附和富集,得到包含目标SNP位点的DNA片段;

S4.将所有位点在所有待测品系中进行捕获和富集得到的DNA片段进行混合,并加上识别序列,经过扩增、建库和二代测序,获取每个目标SNP在特定个体中的基因分型结果,获得的探针序列即为大麦液相SNP芯片信息。

通过上述步骤(3)的4个过程,获得的探针序列为40519个。

一种大麦40K SNP液相芯片,可应用于大麦高密度遗传图谱构建、大麦种质鉴定、全基因组关联分析、全基因组选择、QTL定位、大麦分子育种。

本发明大麦40K SNP液相芯片的有益效果为,本发明属于DNA检测用 SNP(单核苷酸多态性)芯片,涉及生命科学的植物分子标记及分子育种领域,是基于靶向捕获高通量测序技术开发的包含有40519个SNP标记位点的大麦全基因组液相芯片,为大麦高密度遗传图谱构建、大麦种质鉴定、高通量基因分型、QTL定位、全基因组关联分析、全基因组选择和大麦分子育种提供重要的工具;该芯片可在大麦遗传育种研究单位和育种企业广泛推广和应用,并将全面提升大麦分子育种的效率。

附图说明

图1为本发明实施例2中筛选出的SNP位点在大麦7条染色体上的分布;

图2为靶向测序基因分型技术的原理图;

图3为本发明实施例3中基于大麦40K液相SNP芯片构建的大麦高密度遗传图谱;

图4为本发明实施例4中基于大麦40K液相SNP芯片进行大麦重要农艺性状的QTL定位;

图5为本发明实施例5中基于大麦40K液相芯片的青稞群体结构分析;

图6至图13均为本发明实施例5中基于大麦40K液相芯片的青稞8个农艺性状的全基因组关联分析;具体的,图6为单株生物量;图7为根重;图8为主穗粒数;图9为穗长;图10为穗下节长;图11为有效穗粒数;图12为有效穗数;图13为株高。

具体实施方式

实施例1

一种大麦40K SNP液相芯片,通过如下主要过程获得:基于来自全球不同生态区、不同类型的大麦材料进行全基因组重测序,获得了超过4500万个SNP 位点;再根据这些SNP位点的指标,结合位点在染色体上的位置,分析上下游序列,从中挑选出代表性强、多态性好、染色体分布均匀的能够用于芯片开发的40,519个SNP位点;最后利用靶向测序基因型分型(Genotyping by Targeted Sequencing,GBTS)技术,也就是只对这40,519个目标位点进行靶向深度重测序的液相芯片技术,开发了大麦的40K液相SNP芯片,并将该芯片命名为Barley SNP 40K Array。

实施例2

一种大麦40K SNP液相芯片,通过如下方法获得。

(1)大麦重测序及SNP位点的鉴定与筛选

S1.为了保证大麦材料的代表性,根据实验室保存的近2000份材料的农艺性状结合分子标记分析,根据地区来源和类型,选择具有代表性的155份大麦种质为材料,这些材料来源广泛、代表性强,包括全球范围的不同生态区的43 份野生大麦(包括南黎凡特、北黎凡特、东黎凡特、伊朗、高加索等地区)、54 份大麦农家种(中东、东欧、澳大利亚、美国、中国等)、27份栽培品种(美国、加拿大、英国、德国等20个国家)以及31份青稞材料(野生、地方种和栽培种);挑选各个品系10-15棵饱满完整的种子,置于培养皿浸湿的滤纸上,待其萌发、露白后,放置于20℃光照培养箱培养,待三叶期取其幼嫩叶片,用植物总DNA提取试剂盒提取总DNA(天根,北京);将提取的DNA琼脂糖电泳质检、并测定浓度,然后200ng/ul保存备用。

提取的DNA经质检合格后,用于高通量DNA测序;首先,构建DNA-seq 测序文库,文库构建采用标准程序进行,即,采用Illumina标准方法进行DNA 文库构建,具体参见Illumina说明书(文库构建及测序由华大基因提供技术服务),DNA片段长度为500bp,测序策略为PE150,测序深度为10×,每个品系测50G数据量(文库构建及测序由华大基因提供技术服务)。

S2.测序后,将测序获得的原始数据,采用序列质控软件Trimmomatic软件进行质控,去除低质量序列和接头序列等,即,去除测序过程中在reads两头添加的接头,降低比对误差率,得到高质量的clean reads;以大麦基因组信息 Morex v1.0为参考基因组,利用BWA-mem软件将获得的clean reads与参考基因组进行映射(mapping),得到各样品的比对结果文件。

S3.利用GATK软件中的MarkDuplicates工具标记比对结果中的重复序列,从而过滤调由于PCR产生的重复序列得到新的比对文件;再用GATK的 HaplotypeCaller工具对得到的比对文件进行基因组变异事件鉴定,得到单碱基突变(SNP)以及多碱基插入或缺失突变(INDEL);调用GATK软件中的 Variant Filtration子程序对所有变异事件进行过滤,得到高质量的变异数据集;利用GATK的SelectVariants工具从所有变异事件中筛选出SNP位点,得到的 SNP根据其最大(<0.95)和最小(>0.05)等位基因频率,最大和最小等位基因数量,最大缺失率进行筛选过滤,得到最终的45045617万个SNP位点。

(2)挑选用于芯片开发的SNP位点

S1.根据步骤(1)分析获得的4500多万个SNP位点的染色体位置、最小等位位点频率(MAF)、缺失率(NA)、杂合率等指标,挑选出均匀覆盖大麦的7 条染色体,具体为MAF值大于0.3、缺失率小于5%、杂合率小于5%的位点,此时,共获得76517个位点。

S2.根据这些位点在染色体上的位置,对其上下游序列进行分析,判断是否合适设计探针(测序引物),并设计相关测序引物,最终筛选获得均匀覆盖全基因组、多态性高、特异性强、通用性好的40519个能够用于芯片开发的SNP位点。

上述步骤(2)中挑选用于芯片开发的SNP位点的过程表格如下。

上述步骤(2)中筛选出的SNP位点在大麦7条染色体上的分布如图1所示。

(3)开发大麦40K SNP液相芯片

将挑选出的40519个候选SNP位点,运用靶向测序基因分型技术 (Genobaits技术)开发成大麦液相芯片。靶向测序基因分型技术,又叫液相芯片技术,就是对目标位点进行捕获后再进行深度重测序,并与参考基因组映射,最终得到SNP分型结果的技术。该技术涉及到液相探针杂交的靶向捕获和高通量DNA测序技术。

具体的,液相探针杂交的靶向基因分型技术基于DNA碱基互补配对原理 (其原理如图2所示),对每一个待测位点设计一条覆盖目标SNP(单核苷酸多态性)的探针,用生物素标记所有探针,探针在液态中可以与基因组的目标区域互补配对形成双链。利用链霉亲和素包衣的磁珠将携带有生物素的分子吸附,经过洗脱、扩增、建库和测序最终可还原目标SNP在特定个体中的基因分型状态。

具体过程如下。

S1.根据这40519个候选SNP位点上下游序列,对每一个待测位点设计一条覆盖目标SNP的特异性的液相探针,并将其用生物素(Biotin)进行标记。

S2.基于DNA碱基互补配对原理,将探针与待测基因型的DNA样品在溶液中进行杂交,从而在液体状态下,与基因组的目标区域互补配对形成双链。

S3.利用链霉亲和素包衣的磁珠将携带有生物素的DNA片段进行吸附和富集,得到包含目标SNP位点的DNA片段。

S4.将所有位点在所有待测品系中进行捕获和富集得到的DNA片段进行混合,并加上识别序列(barcode),经过扩增、建库和二代测序,最终可高通量地获取到每个目标SNP在特定个体中的基因分型结果,实现高通量的SNP基因分型;即,该40519个探针序列就是开发的大麦40K液相SNP芯片信息。

因而,本发明开发了一种包含40519个SNP位点的大麦液相芯片,芯片中每个位点特异性好、通用性强、多态性高。

实施例3

为了进一步评估该40K液相SNP芯片在实际大麦分子育种中的价值,现将其应用于大麦高密度遗传图谱的构建(如图3所示)。具体过程及结果如下。

利用本发明的液相SNP芯片对Steptoe×Morex DH群体的125个个体进行基因分型,共获得16972个多态性位点,从而构建了大麦首张高密度SNP遗传图谱;该遗传图谱中,遗传距离总计为2023.33cM,包含有7个连锁群,平均图距2.10cM(如图3所示);另外,分布于大麦7条染色体上的标记数目也较为平均,各染色体上的标记数从103个到165个,其中,1号染色体最短,为 225.38cM,2号染色体最长,达393.11cM;基于该图谱,对该群体11个重要农艺性状进行了QTL定位,鉴定到300多个候选位点。

实施例4

为了进一步评估该40K液相SNP芯片在实际大麦分子育种中的价值,现将其应用于大麦重要农艺性状的QTL定位(如图4所示);具体过程及结果如下:对114大麦DH群体采用IciMapping软件基于完备区间作图法(inclusive composite interval mapping,ICIM)对穗下节长性状进行初步定位,其中,单环境完全区间映射(ICIM-ADD)主要用于进行加性QTL检测;完全区间上位QTL 模型(ICIM-EPI)主要用于进行上位QTL检测;在两个模型中,缺失的表型被删除,扫描步长设置为1.0cM和5.0cM,选择的LOD值分别设置为3.0和5.0; QTL的命名方法按照QTL+性状+染色体命名;结果共检测到6个与穗下节长有关的QTL位点,分别位于2,3,7号染色体上,可解释表型变异的8.30%- 21.08%;除了Qped7-1之外,其余5个位点的贡献率都大于10,视为主效QTL 位点。

实施例5

为了进一步评估该40K液相SNP芯片在实际大麦分子育种中的价值,现利用其对青稞进行遗传多样性和群体结构以及全基因组关联分析(如图5至图13 所示)。具体过程及结果如下。

利用40K液相芯片对216个青稞进行基因分型,共获得了26943个多态性位点;基于这些位点,对群体结构进行了分析,可将这些材料明显分成4个大的群体(如图5所示);然后,基于基因型和8个表型结果进行全基因组关联分析,共得到726个显著关联位点(如图6至图13所示),通过对显著信号位点周围500kb连锁区域进行统计,一共包含5022个基因。其中, HORVU3Hr1G096510基因为生长素早期响应基因,在穗长、有效穗数、主穗粒数中均有发现,包含八个SNP位点(chr3H_652862483,chr3H_652863727, chr3H_652864756,chr5H_23369206,chr5H_23373028,chr5H_23374748, chr5H_23388475,chr3H_653802073)。

通过上述实施例3至实施例5中本发明液相SNP芯片在大麦和青稞应用上的效果评估,证明本发明可广泛应用于大麦、野生大麦、青稞的遗传图谱构建、QTL定位、全基因组关联分析等研究。该芯片可在大麦遗传育种研究单位和育种企业广泛推广和应用,并将全面提升大麦分子育种的效率。

技术分类

06120114740394