一种适用于高通量靶向基因组甲基化检测的文库构建方法及其试剂盒
文献发布时间:2023-06-19 16:04:54
技术领域
本发明涉及生物技术领域,尤其涉及一种适用于高通量靶向基因组甲基化检测的文库构建方法及其试剂盒。
背景技术
DNA甲基化的特征是在DNA甲基转移酶(DNMT)的作用下,胞嘧啶中嘧啶环第5位碳原子上添加上甲基基团(-CH
近年来,甲基化的高通量检测技术不断更新迭代,基于下一代测序技术(NGS)的高通量测序方法具有准确,灵敏度高,通量大等优势,已经成为研究甲基化标志物的主流高通量检测技术。DNA经亚硫酸氢盐处理后,其胞嘧啶残基转化为尿嘧啶残基,5-甲基胞嘧啶(5mC)则保持不变。转化后的DNA通过特定探针捕获或特定引物PCR,对目标区域进行靶向检测。亚硫酸氢盐检测法可以达到单碱基精度,是当前的主流技术手段。
目前,基于亚硫酸盐转化的NGS高通量甲基化检测方法的主要策略是直接对亚硫酸盐处理后变性的DNA单链分子进行连接建库的方式,来完成文库构建。由于亚硫酸盐处理后的单链分子无法同时在两端连接上接头,都需要先连接一侧接头,然后再连接第二接头,至少两步连接才能完成单链分子的文库构建。而文库后续的靶向捕获与NGS测序和前一种策略类似。此类技术由于需要对单链分子进行两次连接建库,大幅提升了建库的复杂性,而多次连接也会大幅降低文库分子的建库转化效率,导致针对单链分子的建库转化效率不足10%,难以满足对于稀有甲基化分子的检测。
同时,在后续的研究中发现,单一的高保真DNA聚合酶对于亚硫酸盐处理后的DNA线形扩增效率较低,难以检测稀有的甲基化分子,特别是当甲基化分子占比低于1%时。因此,亟需一种适用于高通量靶向基因组甲基化检测的文库构建方法及其试剂盒。
发明内容
本发明的目的是针对现有技术中的不足,通过在高保真DNA聚合酶中添加其他类型的DNA聚合酶,以有效提高线形扩增效率,并提升文库转化效率,最终达到有效检测稀有的甲基化DNA分子(占比0.3%)。
为实现上述目的,本发明采取的技术方案是:
本发明的第一方面是提供一种适用于高通量靶向基因组甲基化检测的文库构建方法,步骤包括:
S1、将片段化DNA中非甲基化的C碱基转化为U碱基;
S2、通过若干线性扩增引物对包括靶向区域的步骤S1转化后的片段化DNA进行线性扩增;
S3、在步骤S2线性扩增后的产物中加入连接酶以及接头;
S4、对步骤S3连接后的产物进行PCR扩增,即得DNA测序文库分子;
其中,所述线性扩增引物包括:第一通用序列和特异性靶向序列,所述线性扩增所采用的酶组合物包括:至少一种具有3’-5’外切酶活性的高保真DNA聚合酶和/或至少一种不具有3’-5’外切酶活性的DNA聚合酶;所述接头包括:第二通用序列;所述PCR扩增所采用的引物特异性结合所述第一通用序列以及所述第二通用序列。
优选地,所述将片段化DNA中非甲基化的C碱基转化为U碱基的方法包括:亚硫酸氢盐转化法或酶转化法。
优选地,所述线性扩增引物如SEQ ID NO.11-20中的至少一种所示。
优选地,所述至少一种具有3’-5’外切酶活性的高保真DNA聚合酶包括:Apo-Enchant Polymerase I、Platinum
优选地,所述至少一种具有3’-5’外切酶活性的高保真DNA聚合酶包括:Apo-Enchant Polymerase I和/或KOD-MuLti&Epi-
优选地,所述至少一种不具有3’-5’外切酶活性的DNA聚合酶包括:rTth DNAPolymerase或rTaq DNA Polymerase中的至少一种。
优选地,所述至少一种不具有3’-5’外切酶活性的DNA聚合酶包括:rTth DNAPolymerase。
优选地,所述线性扩增所采用的酶组合物包括:Apo-Enchant Polymerase I和rTth DNA Polymerase。
优选地,所述线性扩增所采用的酶组合物包括:Apo-Enchant Polymerase I、KOD-MuLti&Epi-
本发明的第二方面是提供一种适用于如上所述文库构建方法的试剂盒,包括:线性扩增引物、线性扩增酶组合物、连接酶、接头以及PCR扩增引物。
本发明采用以上技术方案,与现有技术相比,具有如下技术效果:
本发明的文库构建方法通过在高保真DNA聚合酶中添加其他类型的DNA聚合酶,以有效提高线形扩增效率,并提升文库转化效率,最终达到有效检测稀有的甲基化DNA分子(占比0.3%)。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合具体实施例对本发明作进一步说明,但不作为本发明的限定。
实施例1
本实施例是分别以普通片段化DNA和经亚硫酸氢盐转化后的DNA为模板,比较单一线性扩增DNA聚合酶及不同聚合酶组合,通过PCR检测和NGS测序评估单引物多重扩增体系的线性扩增效率和文库转化效率。
检测DNA样本与制备:检测样本为来自于健康人全血样本提取后的基因组DNA,基因组DNA通过超声打断成长度约为150bp片段DNA后,使用Qubit定量后备用。
线形扩增引物序列如表1所示,供应商均为上海百力格生物科技有限公司。
表1
其中,所有的引物3’末端都有C3 spacer功能基团修饰。划线的序列表示通用序列,非划线的序列表示与靶向目标区域互补的序列。所有引物的倒数第2至倒数第4的磷脂键的氧被硫代修饰。
基因组DNA和亚硫酸盐转化后的DNA及线形扩增产物的PCR检测用引物和MGB探针如表2所示,F-EGFR21、R-EGFR21和MGB-EGFR21分别是PCR检测EGFR基因的前后引物和MGB探针。F-RASSF1、R-RASSF1和MGB-RASSF1分别是检测RASSF1基因亚硫酸盐转化后基因序列的前后引物和MGB探针。PCR定量用的DNA校准品由上海生工合成获得。2×Realtime PCRMaster Mix定量PCR检测预混体系购自日本TOYOBO。
表2
其他试剂:EZ DNA Methylation-Lightning
实验使用仪器如表3所示。
表3
实验步骤包括:S1、亚硫酸氢盐转化样本DNA与DNA定量:取200ng片段化DNA采用亚硫酸盐转化试剂盒EZ DNA Methylation-Lightning
表4
表5
表6
表7
S2、线性靶向扩增:按照OPERA
表8
表9
线性扩增结束后按照OPERA
S3、文库分子构建:按照OPERA
S3-1、单链连接反应,按照表10配制连接反应体系,在反应孔中加入1.3μL相应的OPERA建库用单链接头,最后加入20μL单引物线性扩增纯化产物。快速离心10sec,平板振荡器混匀2000rpm,30sec,放到普通PCR仪中,按说明书进行连接反应程序,进行连接反应:60℃,1hr;90℃,3min。
表10
S3-2、预扩库反应,按照表11配制相应的反应混合液。含有Index标签的OPERA建库用预扩库引物单独加入,根据待扩增的样本数,在1.5mL离心管内配制好除前引物之外的相应反应体系,然后分装到8连管中,后加入对应的Index前引物。快速离心10秒,放到PCR仪中反应。扩库反应程序如表12所示,后续按照说明书纯化预扩增文库分子。
表11
表12
S3-3、文库扩增与定量,按照表13配制相应的反应体系。分装到8联管内。往扩库反应管内加入相应的纯化后预扩增产物。快速离心10秒,放到PCR仪中反应。扩库反应程序如表14所示。后续按照说明书纯化预扩增文库分子,并使用文库定量试剂对文库分子进行定量。
表13
表14
S4、文库测序与生信分析:将制备好的文库在Illumina的NovaSeq6000平台进行150bp双端测序,获得FASTQ的原始下机数据。
针对未转化DNA样本,测序结果以人基因组为参考基因组,通过BWA比对后,分析靶向Ontarget reads数,后续通过Fg-bio对样本数据使用单分子标签(Unique MolecularIndex,UMI)进行去重分析,计算出去重后的reads数和文库分子转化效率。
针对亚硫酸盐转化后的DNA样本,测序结果以人基因组为参考基因组,通过BisMark比对后,分析靶向Ontarget reads数,后续通过Fg-bio对样本数据使用UMI进行去重分析,计算出去重后的reads数和文库分子转化效率。
实验结果及分析如下:
①不同线性扩增DNA聚合酶及组合对DNA目标基因线性扩增效率的影响
不同测试条件的线性扩增倍数如表15所示,线性扩增倍数=线性扩增纯化后拷贝数/线性扩增前输入拷贝数,本实施例中输入拷贝数为3000。
表15
结果显示,单引物扩增建库技术针对亚硫酸盐转化后DNA与未转化DNA有极大的差异,单一的高保真聚合酶(条件1-4)可以较好的扩增未转化DNA,最优的高保真聚合酶Apo-Enchant Polymerase I的线形扩增效率达到9.21,而非高保真聚合酶扩增效率极低,几乎没有产物(条件5-6)。但是对亚硫酸盐转化后DNA而言,单一的高保真聚合酶的扩增效率大幅降低(条件7-8),条件9-10,KOD-MuLti&Epi-
②不同线性扩增DNA聚合酶及组合对靶向文库转化效率的影响
不同测试条件的样本总靶向reads数如表16所示,使用UMI去重后获得的去重后靶向reads如表17所示。靶向文库转化效率=去重后的各靶点平均reads数/线性扩增前输入拷贝数,本实施例中输入拷贝数为3000,不同测试条件的靶向文库转化效率如表18所示。
表16
表17
表18
结果显示,单引物扩增建库技术针对亚硫酸盐转化后DNA与未转化DNA有极大的差异,单一的高保真聚合酶可以较好的扩增未转化DNA,整体文库转化效率在8%-123%之间,而非高保真聚合酶文库转化效率极低。但是对亚硫酸盐转化后DNA而言,单一的高保真聚合酶的文库转化效率只有7%-19%。而单一非保真聚合酶如rTaq和rTth的文库转化效率更低只有2%。在高保真聚合酶存在的情况下加入非保真聚合酶能显著提升文库转化效率,其中rTth的效果显著优于rTaq。进一步,KOD酶作为第三种聚合酶添加到高保真聚合酶和rTth的体系时,能起到提升到文库转化效率的作用,从而达到最优效果,平均文库转化效率达到36%-103%。
实施例2
本实施例是测试本发明的甲基化建库方法对不同甲基化程度质控品检出能力,测试甲基化标准品CpGenome Human Methylated DNA Standard Set购自Millipore Sigma。非甲基化的参考品为人白细胞提取的基因组DNA。两者混合按照质量浓度配制成甲基化程度不同的梯度质控品分别为10%,5%,1%,0.5%,0.1%和0%。
实验材料和仪器:亚硫酸盐转化试剂盒为ZYMO公司的商用试剂盒EZ DNAMethylation-Lightning
实验步骤如下:
S1、片段化甲基化梯度质控品的制备
测试甲基化标准品为CpGenome Human Methylated DNA Standard Set,非甲基化的参考品为人白细胞提取的基因组DNA。两者混合按照质量浓度配制成甲基化程度不同的梯度质控品分别为10%,5%,1%,0.5%,0.1%和0%。每种质控品取2微克,使用超声打断仪打断成150bp左右的DNA片段。
S2、亚硫酸氢盐转化样本DNA与DNA定量
取200ng片段化DNA采用亚硫酸盐转化试剂盒EZ DNA Methylation-Lightning
S3、线性靶向扩增
同实施例1按照OPERA
表19
S4、文库分子构建
按照OPERA
S5、文库测序与生信分析
将制备好的文库在Illumina的NovaSeq6000平台进行150bp双端测序,获得FASTQ的原始下机数据。测序结果以人基因组为参考基因组,通过BisMark比对后,分析靶向Ontarget reads数,后续通过Fg-bio对样本数据使用UMI进行去重分析,计算出去重后的平均reads数和文库分子转化效率。最终根据去重后BAM文件的并参照引用文献(Guo,S.,etal.,Identification of methylation haplotype blocks aids in deconvolution ofheterogeneous tissue samples and tumor tissue-of-origin mapping from plasmaDNA.Nat Genet,2017.49(4):p.635-642.)的甲基化区域的分析方法,分析各个靶向甲基化区域的甲基化程度,再计算每个样本的所有甲基化区域的平均值,通过t-TEST比较不同质控品与阴性参考品的统计学差异,计算P值。
实验结果如下:
1、不同的线形扩增体系的文库分子转化效率。
使用UMI去重后获得的去重后靶向reads如表20所示。本实施例中输入拷贝数为3000,不同测试条件的靶向文库转化效率如表20所示。
表20
上述结果与实施例1结果类似,Apo-Enchant Polymerase I+KKOD-MuLti&Epi-
2、靶向甲基化区域的甲基化程度检测
不同测试条件下的靶向区域的平均甲基化程度如表21所示,通过t-TEST比较不同甲基化质控品与阴性参考品0%的统计学差异,计算P值,以P小于0.05作为显著性差异的标准。
表21
检测结果显示,Apo-Enchant Polymerase I+KOD-MuLti&Epi-
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
序列表
<110> 上海羿鸣生物科技有限公司
<120> 一种适用于高通量靶向基因组甲基化检测的文库构建方法及其试剂盒
<160> 26
<170> SIPOSequenceListing 1.0
<210> 1
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
tcgtcggcag cgtcagatgt gtataagaga cagcctgatc agccaggagg atacacacg 59
<210> 2
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
tcgtcggcag cgtcagatgt gtataagaga cagtgccaag ccacagagtt ggagaagag 59
<210> 3
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
tcgtcggcag cgtcagatgt gtataagaga cagcaagtat aaccccacgt gaacgag 57
<210> 4
<211> 62
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
tcgtcggcag cgtcagatgt gtataagaga cagtggatat tgcagcagtc agagccctta 60
ac 62
<210> 5
<211> 61
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
tcgtcggcag cgtcagatgt gtataagaga caggatccag acaactgttc aaactgatgg 60
g 61
<210> 6
<211> 63
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
tcgtcggcag cgtcagatgt gtataagaga cagcctggca gccaggaacg tactggtgaa 60
aac 63
<210> 7
<211> 66
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
tcgtcggcag cgtcagatgt gtataagaga cagggcctgc tgaaaatgac tgaatataaa 60
cttgtg 66
<210> 8
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
tcgtcggcag cgtcagatgt gtataagaga cagtgcccga agtgtaagcc caactacag 59
<210> 9
<211> 64
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
tcgtcggcag cgtcagatgt gtataagaga cagtctcgat tgaggatctt ttcttcacgg 60
ttgc 64
<210> 10
<211> 62
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
tcgtcggcag cgtcagatgt gtataagaga cagagtcttc cagtgtgatg atggtgagga 60
tg 62
<210> 11
<211> 72
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
tcgtcggcag cgtcagatgt gtataagaga cagaatccga caacacctcc attctatctc 60
caataacacc ct 72
<210> 12
<211> 71
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
tcgtcggcag cgtcagatgt gtataagaga cagctaccta attccaattc ccctacaaac 60
ttcgtcctcc a 71
<210> 13
<211> 72
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
tcgtcggcag cgtcagatgt gtataagaga cagaaaccaa atttccctcc accttaacct 60
tcccaattac tc 72
<210> 14
<211> 73
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
tcgtcggcag cgtcagatgt gtataagaga cagcacatct aaaactattc tccatatttc 60
aaccaacacc ttc 73
<210> 15
<211> 69
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
tcgtcggcag cgtcagatgt gtataagaga cagcttcctt ccctccttcg tcccctcctc 60
acaccccac 69
<210> 16
<211> 74
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
tcgtcggcag cgtcagatgt gtataagaga cagcctaaat acaaaaacta taaaacccga 60
aaacgaaact aaac 74
<210> 17
<211> 68
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
tcgtcggcag cgtcagatgt gtataagaga cagccttcga accccacaat ccctacaccc 60
aaatttcc 68
<210> 18
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
tcgtcggcag cgtcagatgt gtataagaga cagcaacaac caacccaaca cccaccttc 59
<210> 19
<211> 71
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
tcgtcggcag cgtcagatgt gtataagaga cagacccacc ttcgaaatcc gaaataatcc 60
catccaacta c 71
<210> 20
<211> 73
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
tcgtcggcag cgtcagatgt gtataagaga cagctacata aaatccccta aacaaccaaa 60
taatctccgt ccc 73
<210> 21
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 21
tactggtgaa aacaccgca 19
<210> 22
<211> 18
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 22
ttccgcaccc agcagttt 18
<210> 23
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 23
tgtcaagatc acagattttg ggc 23
<210> 24
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 24
gtggggattt ttttttttta gt 22
<210> 25
<211> 15
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 25
ctcacacccc acccc 15
<210> 26
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 26
agtaaagttg gtttttagaa ata 23