掌桥专利:专业的专利平台
掌桥专利
首页

基于片段化酶的DNA文库制备方法

文献发布时间:2023-06-19 10:41:48


基于片段化酶的DNA文库制备方法

技术领域

本发明涉及生物测序领域,特别是涉及一种基于片段化酶的DNA文库制备方法。

背景技术

新一代测序(Next-generation sequencing,NGS,又称高通量测序、二代测序)可以一次性测定大量核酸序列,被广泛用于基因组、转录组研究,在医学、法医等领域也有诸多应用。由于其超高的测序能力,在科研和临床中有极为重要的应用。新一代测序技术为科学研究带来了一次革命性的改变。一次几十万到几百万条DNA序列的测序,使得一次对一个物种从DNA到RNA的遗传信息全貌解析成为可能,使人类对自然和自身的认知上升到一个新的层面。随着目前基因测序的测序通量的增多,测序的成本降低,进而被广泛使用。

新一代测序技术的飞速发展,使得测序通量大幅增加,要求上游样本处理尽可能简单快速,以提高NGS整个流程的工作效率。对新一代测序技术而言,文库构建,尤其是DNA文库构建,基本可以分为两步:第一步文库的构建和第二步文库的上机测序。

第一步文库的构建,一般分为DNA的随机打断、末端修复、接头连接、连有接头的DNA片段的PCR扩增、及质控以达到上机的测序要求。具体地,由于Illumina测序策略本身的问题,导致测序长度不能太长,因此将基因组DNA用物理或生物酶法将长片段的基因片段化(打断);打断后若产生平末端的序列,需要用酶补平;完成补平后,使用酶在3'端加上一个特异的A碱基尾;随后利用互补配对的原则,添加接头序列(一部分是测序时需要的引物序列,另一部分是建库扩增时需要的引物序列);进行PCR扩增富集,使DNA样品浓度满足上机要求。

第二步针对已构建的文库,使用Illumina、Ion Torrent等公司的测序仪进行上机测序。Illumina公司的Hiseq系列测序平台是高通量测序平台的代表之一,承担全球80%以上的核酸测序工作。Illumina新一代测序技术采用边合成边测序的原理,在碱基延伸过程中形成正确的碱基互补配对,根据碱基所携带的不同荧光标记结合荧光检测元件,在碱基延伸过程中对核酸片段进行快速、高通量的测定。

基因组测序之初的关键步骤,是构建测序文库中,核酸样本的准备。测序文库的质量在很大程度上影响测序质量的好坏。文库质量在现有制备方法的不同步骤中会受到不同程度的影响:首先,通过物理或生物酶法片段化基因组中引起的差异;其次,建库过程中的试剂繁多,反应复杂,且对不同的样品,建库结果存在明显的区别;最后,文库构建过程中繁琐的操作步骤和漫长的反应时间,影响文库的质量。

综上所述,本领域需要开发一种高效快速、易于操作、步骤简单的测序建库方法。

发明内容

本发明的目的在于提供一种高效快速、易于操作、步骤简单的测序建库方法。

本发明的目的是提供一种一步法快速制备DNA文库的方法及其应用。在本发明的第一方面,提供了一种片段化酶,所述的片段化酶为H1组蛋白元件和FokI蛋白元件融合形成的融合蛋白,所述融合蛋白具有式I或II结构:

Z0―L1―Z1―L2―Z2 (I)

Z0―L1―Z2―L2―Z1 (II)

式中,

Z0为无,或者选自:信号肽、标签序列、或其组合;

Z1为H1组蛋白元件;

Z2为FokI蛋白元件;

L1为无或接头序列;

L2为无或接头序列;

“―”为键。

在另一优选例中,所述的H1组蛋白元件具有如SEQ ID NO.:5的11-214位所示的氨基酸序列。

在另一优选例中,所述的FokI蛋白元件具有如SEQ ID NO.:5的215-410位所示的氨基酸序列。

在另一优选例中,所述的片段化酶的氨基酸序列如SEQ ID No: 5中第1-410位或SEQ ID No: 5中第11-410位所示。

在另一优选例中,所述的片段化酶具有随机切割DNA的活性。

在另一优选例中,所述的片段化酶可将基因组DNA随机切割为长度d的DNA片段。

在另一优选例中,d为30-250bp,较佳地,50-200bp,更佳地,50-150bp。

在另一优选例中,所述的片段化酶为Hifase,其具有如SEQ ID NO.:5的11-410位所示的氨基酸序列。

在另一优选例中,所述的片段化酶还包含用于协助表达和/或纯化的标签序列。

在另一优选例中,所述的标签序列包括6His标签。

在本发明的第二方面,提供了一种片段化DNA的方法,包括步骤:

(a) 提供一如本发明第一方面所述的片段化酶;

(b) 将所述片段化酶与DNA样品混合反应,获得DNA片段;

其中,获得的DNA片段的长度为30-250bp,较佳地,50-200bp,更佳地,50-150bp。

在另一优选例中,所述细胞选自下组:体细胞、生殖细胞、干细胞、或其组合。

在另一优选例中,所述细胞为人胚肾细胞(293T)。

在另一优选例中,步骤(b)中,反应条件为30~35℃,30~60min。

在另一优选例中,步骤(b)中,片段化酶:DNA样品的比例选自0.005~1.5μg:1~1000ng。

在另一优选例中,步骤(b)中,片段化酶:DNA样品的质量比为50:1至1:10,较佳地20:1至1:2。

在另一优选例中,步骤(b)中,获得所述DNA片段的5'端含有粘性末端。

在另一优选例中,所述粘性末端的长度选自3-5个nt,较佳地,选自3、4、5nt。

在另一优选例中,步骤(b)中,获得所述DNA片段的5'端的核苷酸带有磷酸基团。

在另一优选例中,所述的片段化酶的氨基酸序列如SEQ ID No: 5中第1-410位或SEQ ID No: 5中第11-410位所示。

在本发明的第三方面,提供了一种如本发明第一方面所述的片段化酶的用途,用于制备构建DNA测序文库的试剂;或用于对DNA样品进行片段化处理的试剂。

在另一优选例中,所述的片段化为随机片段化。

在本发明的第四方面,提供了一种DNA测序文库的构建方法,包括步骤:

(a) 提供一基因组DNA样品;

(b) 对所述DNA样品,通过如本发明第一方面所述的片段化酶进行片段化反应,获得含有DNA片段的第一混合物;

(c) 向(b)中所述第一混合物中的DNA片段的两端添加接头,获得含末端带有接头的DNA片段的第二混合物;

(d) 用特异性引物对上一步骤中获得的末端带有接头的DNA片段进行扩增,从而获得所述DNA测序文库。

在另一优选例中,步骤(b)和(c),在同一反应体系中同时、或先后进行。

在另一优选例中,步骤(b)和(c)中,在同一反应体系中,片段化酶:DNA样品:接头的含量比选自0.005~1.5μg:1~1000ng:2~30μmol。

在另一优选例中,步骤(b)和(c)中,在同一反应体系中,DNA样品:接头的含量比选自1~1000ng:2~30μmol。

在另一优选例中,所述步骤(d)之前还包括步骤(d1):将步骤(c)中获得的第二混合物通过磁珠进行纯化,获得经纯化的末端带有接头的DNA片段。

在另一优选例中,步骤(b)中,所述片段化反应条件包括:30~35℃,30~60min。

在另一优选例中,在步骤(b)中,DNA样品的长度为46.71-248.96Mb。

在另一优选例中,在步骤(b)中,DNA片段(即DNA片段化产物)的长度为30-250bp,较佳地,50-200bp,更佳地,50-150bp。

在另一优选例中,在步骤(b)中,还包括对所述的DNA片段进行末端修饰。

在另一优选例中,所述末端修饰包括:补平末端,添加3'端A碱基。

在另一优选例中,所述末端修饰通过DNA聚合酶进行。

在另一优选例中,所述DNA聚合酶为TaqDNA聚合酶。

在另一优选例中,步骤(b)中,片段化酶:DNA样品的质量比选自0.005~1.5μg:1~1000ng。

在另一优选例中,片段化酶:DNA样品的质量比为50:1至1:10,较佳地20:1至1:2。

在另一优选例中,DNA样品:接头的含量比为1~1000ng:2~30μmol。

在另一优选例中,步骤(c)中,所述接头的序列选自下组:

Novo i5 接头:

AATGATATTCCGGCGACCGAGATCTAACACACTCTTTCCCTACACGACGCTCTTGT(SEQ ID NO.:1);

Novo i7 接头:

CAAGAGCGTCGTCGGCATACTTCTCCGTGAGATGTGACTGGAGTTCAGACGTGTGCTCTTTCCGTC(SEQ ID NO.:2)。

在另一优选例中,所述添加接头的反应条件选自:15~25℃,15~25min。

在另一优选例中,步骤(c)中,添加接头的反应通过DNA连接酶进行。

在另一优选例中,所述DNA连接酶选自:T

在另一优选例中,步骤(d)中,所述特异性引物为特异性扩增所述第二混合物中的末端带有接头的DNA片段的引物。

在另一优选例中,所述特异性引物选自下组:

Novo i5 引物:

AATGATATTCCGGCGACCGAGATCTAACACACTCTTTCCCTAC(SEQ ID NO.:3);

Novo i7 引物:

CAAGCAGAATTCCGGCATACTTCTCCGTGAGATGTGACTGGAGC(SEQ ID NO.:4)。

在另一优选例中,所述扩增包括PCR扩增、Q-PCR、和/或RT-PCR。

在本发明的第五方面,提供了一种构建DNA测序文库的试剂盒,所述试剂盒包括:

(Z1) 如本发明第一方面所述的片段化酶;

(Z2) 其他用于构建DNA测序文库的试剂;

(Y) 说明书,所述的说明书记载了使用方法。

在另一优选例中,所述其他用于构建DNA测序文库的试剂包括:

(a)TaqDNA聚合酶、T

(b)磁珠;

(c)反应缓冲液;

(d)接头序列。

在另一优选例中,所述的使用方法包括:用如本发明的第四方面所述的方法构建测序文库。

在另一优选例中,所述试剂盒还包括:特异性结合于接头序列的特异性引物。

在本发明的第六方面,提供了一种核酸分子,所述核酸分子编码如本发明第一方面所述的片段化酶。

在本发明的第七方面,提供了一种载体,所述载体含有如本发明第六方面所述的核酸分子。

在本发明的第八方面,提供了一种宿主细胞,所述宿主细胞含有如本发明第七方面所述的载体,或染色体中整合有外源的如本发明第六方面所述核酸分子,或表达如本发明第一方面所述的片段化酶。

在另一优选例中,所述细胞为分离的细胞,和/或所述细胞为基因工程化的细胞。

在本发明的第九方面,提供了一种制备蛋白的方法,所述方法包括步骤:

(a)培养如本发明第八方面所述的宿主细胞,从而得到如本发明第一方面所述的片段化酶。

在另一优选例中,所述方法还包括步骤:(b)纯化步骤(a)中得到的片段化酶。

本发明的有益效果包括:

使用新的片段化酶进行一步法快速制备的DNA文库,所得到的DNA文库在片段覆盖度分布方面均与传统方法保持一致,并且其文库得率(DNA样本量转化成可测序文库的比率)呈良好的线性关系,文库构建效率高(成功率和时间成本等)。本发明的一管式建库方法为二代测序提供了一种新的快速的建库方案。

应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。

附图说明

图1显示了Hifase的表达载体和SDS-PAGE电泳结果。其中,1A显示了Hifase的表达载体示意图,1B显示了Hifase的SDS-PAGE电泳图。

图2显示了本发明一步法快速DNA建库的示意图,其中adapter为接头, Novo i5接头包含P5、i5、Rd1 SP片段,Novo i7接头包含P7、i7 index(i7标志)、Rd2 SP片段,index用以区分不同样本,Rd1 SP、Rd2 SP为Read1和Read2测序引物结合区,“NNNN”为补平5'端粘性末端的4个碱基。

图3显示了片段化酶Hifase在不同时间打断基因组的情况。其中,从左到右的各泳道分别显示对基因组样品打断5min、10min、15min、20 min、30 min、40 min、60 min后的片段大小,其中泳道M为DNA分子marker。

图4显示了一步法快速DNA建库的琼脂糖凝胶结果;其中,各泳道如下:泳道1:Hifase片段化结果;泳道2和泳道4:片段化、末端扩增加A尾及加接头一管式反应结果;泳道3和泳道5:分别为泳道2和4的PCR富集结果。

图5显示了对200 ng DNA为起始量进行建库的质控结果。图中横坐标为片段大小(bp),纵坐标为荧光强度(FU),每一个峰代表分布在一定碱基长度的DNA片段的浓度大小。图中所示在35bp和10380bp的峰为高灵敏度DNA Markers的峰,250-400bp的峰为实施例中建库得到的DNA片段库(两次重复)。

图6显示了本发明的Hifase酶的氨基酸序列(带有His标签,SEQ ID No: 5),其中,第11-214位为H1组蛋白部分;215-410位为FokI部分。

具体实施方式

本发明人经过广泛而深入地研究,构建了一种新型片段化酶Hifase,所述片段化酶为H1组蛋白和FokI蛋白的融合蛋白。本发明的片段化酶可以高效地将基因组随机打断成50~150bp左右的片段,适合后续DNA文库的构建。本发明还提供了基于上述片段化酶一步法构建DNA测序文库的方法。具体地,将DNA样品片段化、末端修复、末端添加A尾及接头连接反应的步骤整合成一步,进行一管式反应。后续通过纯化、富集即可获得高质量的基因组DNA文库。通过本发明的建库方法,仅需1.5小时,即可获得稳定的高质量文库,DNA文库片段覆盖度的分布集中。在此基础上完成了本发明。

术语

在描述本发明之前,应当理解本发明不限于所述的具体方法和实验条件,因为这类方法和条件可以变动。还应当理解本文所用的术语其目的仅在于描述具体实施方案,并且不意图是限制性的,本发明的范围将仅由所附的权利要求书限制。

除非另外定义,否则本文中所用的全部技术与科学术语均具有如本发明所属领域的普通技术人员通常理解的相同含义。

如本文所用,在提到具体列举的数值中使用时,术语“约”意指该值可以从列举的值变动不多于1%。例如,如本文所用,表述“约100”包括99和101和之间的全部值(例如,99.1、99.2、99.3、99.4等)。

如本文所用,术语“含有”或“包括(包含)”可以是开放式、半封闭式和封闭式的。换言之,所述术语也包括“基本上由…构成”、或“由…构成”。

本发明所用氨基酸三字母代码和单字母代码如J.biol.chem,243,p3558 (1968)中所述。

如本文所用,术语“任选”或“任选地”意味着随后所描述的事件或情况可以发生但不是必须发生。

本发明所述的“序列同一性”表示当具有适当的替换、插入或缺失等突变的情况下最佳比对和比较时,两个核酸或两个氨基酸序列之间的同一性程度。本发明中所述的序列和其具有同一性的序列之间的序列同一性可以至少为85%、90%或95%,优选至少为95%。非限制性实施例包括85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%,97%, 98%, 99%, 100%。

如本文所用,“本发明的片段化酶”、“片段化酶Hifase”、“Hifase酶”可互换使用,皆指本发明第一方面中所述的新型内切酶,该内切酶可用作制备文库的片段化酶。应理解,所述术语还包括与具有Hifase酶相同的片段化功能(尤其是随机片段化功能)的本发明片段化酶的活性片段、融合蛋白或突变蛋白。

优选地,本发明提供了一种片段化酶Hifase,其核心部分为H1组蛋白元件和FokI蛋白元件形成的融合蛋白(可在两者之间加入或不加入接头),例如不含接头的长度约400个氨基酸的融合蛋白。优选地,该融合蛋白具有如SEQ ID NO.:5的11-410位所示的氨基酸序列。

MGSSHHHHHH

其中,SEQ ID NO.:5序列中的第11-214位为H1组蛋白部分;第215-410位为FokI部分(如图6所示)。

在另一优选例中,带有His标签的Hifase蛋白的氨基酸序列如SEQ ID NO.:5所示,其核苷酸序列如SEQ ID NO.:6所示,其中下划线部分(第31-645位)为H1组蛋白的编码序列,第646位-1236位为FokI元件的编码序列。

ATGGGCAGCAGCCATCATCATCATCATCAC

本发明的片段化酶Hifase具有许多优点,非常适合作为文库的片段化酶。具体特点为:

(1)Hifase酶的反应属于酶依赖型,不受底物(即基因组)的浓度、含量限制,酶反应中只考虑酶的添加量;

(2)Hifase酶的片段化时间会随着酶量(0.005~1.3μg)的增加而缩短;

(3)Hifase酶能够将基因组随机打断成一定长度范围(50~150bp左右)的小片段,非常适合文库的构建;

(4)Hifase酶不识别特定的序列位点,没有GC碱基偏好性,可对基因组随机切割,适合所有基因组(包括复杂生物的基因组和DNA序列)的片段化;

(5)Hifase酶可以将加入的基因组DNA全部打断成小片段,极大地避免了重要序列片段的损失;

(6)Hifase酶的反应条件相对宽松,具有实用性;

(7)Hifase酶随机切割成的DNA片段的5'末端为粘性末端(长度为4nt)而非平末端;

(8)Hifase酶随机切割成的DNA片段的5'末端含有磷酸基团,反应中不需额外添加磷酸激酶。

特别地,由于本发明中的片段化Hifase酶随机切割成的DNA片段具有粘性末端,因此一步法建库反应中不需要额外添加一般建库所需要的末端修复酶。在本发明的一步法建库反应中,仅通过Taq聚合酶便可实现序列补平及加A尾操作,进而优化了反应体系,减少了试剂种类,大大缩短反应时间。

特别地,使用Taq聚合酶进行添加A尾的反应,极大地提高了反应效率;较佳地,可达90%,更佳地,可达100%。此外,添加A尾的反应效率的提高,使得后续与接头(adapter)的连接反应由传统方法中低于30%的效率提升至80%左右,提高了反应成功率。

融合蛋白

如本文所用,“本发明融合蛋白”、“重组融合蛋白”均指本发明第一方面所述的融合蛋白。

具体地,本发明所述融合蛋白包括式I或式II所示的结构:

Z0―L1―Z1―L2―Z2 (I)

Z0―L1―Z2―L2―Z1 (II)

式中,

Z0为无,或者选自:信号肽、标签序列、或其组合;

Z1为H1组蛋白元件;

Z2为FokI蛋白元件;

L1为无或接头序列;

L2为无或接头序列;

“―”为键。

如本文所用,术语“融合蛋白”还包括具有上述活性的变异形式。这些变异形式包括(但并不限于):1-3个(通常为1-2个,更佳地1个)氨基酸的缺失、插入和/或取代,以及在C末端和/或N末端添加或缺失一个或数个(通常为3个以内,较佳地为2个以内,更佳地为1个以内)氨基酸。例如,在本领域中,用性能相近或相似的氨基酸进行取代时,通常不会改变蛋白质的功能。又比如,在C末端和/或N末端添加或缺失一个或数个氨基酸通常也不会改变蛋白质的结构和功能。此外,所述术语还包括单体和多聚体形式的本发明多肽。该术语还包括线性以及非线性的多肽(如环肽)。

本发明还包括上述融合蛋白的活性片段、衍生物和类似物。如本文所用,术语“片段”、“衍生物”和“类似物”是指基本上保持本发明融合蛋白的功能或活性的多肽。本发明的多肽片段、衍生物或类似物可以是(i)有一个或几个保守或非保守性氨基酸残基(优选保守性氨基酸残基)被取代的多肽,或(ii)在一个或多个氨基酸残基中具有取代基团的多肽,或(iii)多肽与另一个化合物(比如延长多肽半衰期的化合物,例如聚乙二醇)融合所形成的多肽,或(iv)附加的氨基酸序列融合于此多肽序列而形成的多肽(与前导序列、分泌序列或6His等标签序列融合而形成的融合蛋白)。根据本文的教导,这些片段、衍生物和类似物属于本领域熟练技术人员公知的范围。

一类优选的活性衍生物指与本发明的氨基酸序列相比,有至多3个,较佳地至多2个,更佳地至多1个氨基酸被性质相似或相近的氨基酸所替换而形成多肽。这些保守性变异多肽最好根据表A进行氨基酸替换而产生。

表A

本发明还提供本发明融合蛋白的类似物。这些类似物与本发明的多肽的差别可以是氨基酸序列上的差异,也可以是不影响序列的修饰形式上的差异,或者兼而有之。类似物还包括具有不同于天然L-氨基酸的残基(如D-氨基酸)的类似物,以及具有非天然存在的或合成的氨基酸(如β、γ-氨基酸)的类似物。应理解,本发明的多肽并不限于上述例举的代表性的多肽。

此外,还可以对本发明融合蛋白进行修饰。修饰(通常不改变一级结构)形式包括:体内或体外的多肽的化学衍生形式如乙酰化或羧基化。修饰还包括糖基化,如那些在多肽的合成和加工中或进一步加工步骤中进行糖基化修饰而产生的多肽。这种修饰可以通过将多肽暴露于进行糖基化的酶(如哺乳动物的糖基化酶或去糖基化酶)而完成。修饰形式还包括具有磷酸化氨基酸残基(如磷酸酪氨酸,磷酸丝氨酸,磷酸苏氨酸)的序列。还包括被修饰从而提高了其抗蛋白水解性能或优化了溶解性能的多肽。

术语“编码本发明融合蛋白的多核苷酸”可以是包括编码本发明融合蛋白的多核苷酸,也可以是还包括附加编码和/或非编码序列的多核苷酸。

本发明还涉及上述多核苷酸的变异体,其编码与本发明有相同的氨基酸序列的多肽或融合蛋白的片段、类似物和衍生物。这些核苷酸变异体包括取代变异体、缺失变异体和插入变异体。如本领域所知的,等位变异体是一个多核苷酸的替换形式,它可能是一个或多个核苷酸的取代、缺失或插入,但不会从实质上改变其编码的融合蛋白的功能。

本发明还涉及与上述的序列杂交且两个序列之间具有至少50%,较佳地至少70%,更佳地至少80%相同性的多核苷酸。本发明特别涉及在严格条件(或严紧条件)下与本发明所述多核苷酸可杂交的多核苷酸。在本发明中,“严格条件”是指:(1)在较低离子强度和较高温度下的杂交和洗脱,如0.2×SSC,0.1%SDS,60℃;或(2)杂交时加有变性剂,如50%(v/v)甲酰胺,0.1%小牛血清/0.1% Ficoll,42℃等;或(3)仅在两条序列之间的相同性至少在90%以上,更好是95%以上时才发生杂交。

本发明的融合蛋白和多核苷酸优选以分离的形式提供,更佳地,被纯化至均质。

本发明多核苷酸全长序列通常可以通过PCR扩增法、重组法或人工合成的方法获得。对于PCR扩增法,可根据本发明所公开的有关核苷酸序列,尤其是开放阅读框序列来设计引物,并用市售的cDNA库或按本领域技术人员已知的常规方法所制备的cDNA库作为模板,扩增而得有关序列。当序列较长时,常常需要进行两次或多次PCR扩增,然后再将各次扩增出的片段按正确次序拼接在一起。

一旦获得了有关的序列,就可以用重组法来大批量地获得有关序列。这通常是将其克隆入载体,再转入细胞,然后通过常规方法从增殖后的宿主细胞中分离得到有关序列。

此外,还可用人工合成的方法来合成有关序列,尤其是片段长度较短时。通常,通过先合成多个小片段,然后再进行连接可获得序列很长的片段。

目前,已经可以完全通过化学合成来得到编码本发明蛋白(或其片段,或其衍生物)的DNA序列。然后可将该DNA序列引入本领域中已知的各种现有的DNA分子(或如载体)和细胞中。

应用PCR技术扩增DNA/RNA的方法被优选用于获得本发明的多核苷酸。特别是很难从文库中得到全长的cDNA时,可优选使用RACE法(RACE-cDNA末端快速扩增法),用于PCR的引物可根据本文所公开的本发明的序列信息适当地选择,并可用常规方法合成。可用常规方法如通过凝胶电泳分离和纯化扩增的DNA/RNA片段。

表达载体

本发明也涉及包含本发明的多核苷酸的载体,以及用本发明的载体或本发明融合蛋白编码序列经基因工程产生的宿主细胞,以及经重组技术产生本发明所述多肽的方法。

通过常规的重组DNA技术,可利用本发明的多聚核苷酸序列可用来表达或生产重组的融合蛋白。一般来说有以下步骤:

(1).用本发明的编码本发明融合蛋白的多核苷酸(或变异体),或用含有该多核苷酸的重组表达载体转化或转导合适的宿主细胞;

(2).在合适的培养基中培养的宿主细胞;

(3).从培养基或细胞中分离、纯化蛋白质。

本发明中,编码融合蛋白的多核苷酸序列可插入到重组表达载体中。术语“重组表达载体”指本领域熟知的细菌质粒、噬菌体、酵母质粒、植物细胞病毒、哺乳动物细胞病毒如腺病毒、逆转录病毒或其他载体。只要能在宿主体内复制和稳定,任何质粒和载体都可以用。表达载体的一个重要特征是通常含有复制起点、启动子、标记基因和翻译控制元件。

本领域的技术人员熟知的方法能用于构建含本发明融合蛋白编码DNA序列和合适的转录/翻译控制信号的表达载体。这些方法包括体外重组DNA技术、DNA合成技术、体内重组技术等。所述的DNA序列可有效连接到表达载体中的适当启动子上,以指导mRNA合成。这些启动子的代表性例子有:大肠杆菌的lac或trp启动子;λ噬菌体PL启动子;真核启动子包括CMV立即早期启动子、HSV胸苷激酶启动子、早期和晚期SV40启动子、反转录病毒的LTRs和其他一些已知的可控制基因在原核或真核细胞或其病毒中表达的启动子。表达载体还包括翻译起始用的核糖体结合位点和转录终止子。

此外,表达载体优选地包含一个或多个选择性标记基因,以提供用于选择转化的宿主细胞的表型性状,如真核细胞培养用的二氢叶酸还原酶、新霉素抗性以及绿色荧光蛋白(GFP),或用于大肠杆菌的四环素或氨苄青霉素抗性。

包含上述的适当DNA序列以及适当启动子或者控制序列的载体,可以用于转化适当的宿主细胞,以使其能够表达蛋白质。

宿主细胞可以是原核细胞,如细菌细胞;或是低等真核细胞,如酵母细胞;或是高等真核细胞,如哺乳动物细胞。代表性例子有:大肠杆菌,链霉菌属;鼠伤寒沙门氏菌的细菌细胞;真菌细胞如酵母、植物细胞(如人参细胞)。

本发明的多核苷酸在高等真核细胞中表达时,如果在载体中插入增强子序列时将会使转录得到增强。增强子是DNA的顺式作用因子,通常大约有10到300个碱基对,作用于启动子以增强基因的转录。可举的例子包括在复制起始点晚期一侧的100到270个碱基对的SV40增强子、在复制起始点晚期一侧的多瘤增强子以及腺病毒增强子等。

本领域一般技术人员都清楚如何选择适当的载体、启动子、增强子和宿主细胞。

用重组DNA转化宿主细胞可用本领域技术人员熟知的常规技术进行。当宿主为原核生物如大肠杆菌时,能吸收DNA的感受态细胞可在指数生长期后收获,用CaCl

获得的转化子可以用常规方法培养,表达本发明的基因所编码的多肽。根据所用的宿主细胞,培养中所用的培养基可选自各种常规培养基。在适于宿主细胞生长的条件下进行培养。当宿主细胞生长到适当的细胞密度后,用合适的方法(如温度转换或化学诱导)诱导选择的启动子,将细胞再培养一段时间。

在上面的方法中的重组多肽可在细胞内、或在细胞膜上表达、或分泌到细胞外。如果需要,可利用其物理的、化学的和其它特性通过各种分离方法分离和纯化重组的蛋白。这些方法是本领域技术人员所熟知的。这些方法的例子包括但并不限于:常规的复性处理、用蛋白沉淀剂处理(盐析方法)、离心、渗透破菌、超处理、超离心、分子筛层析(凝胶过滤)、吸附层析、离子交换层析、高效液相层析(HPLC)和其它各种液相层析技术及这些方法的结合。

一步法建库的构建方法

本发明提供了一种基于Illumina测序平台的一步法快速DNA文库的建库方法,该建库方法包括:将DNA(基因组或DNA序列)与本发明的片段化酶、Taq聚合酶、T

本发明中的建库方法,通过采用一管式反应将DNA片段化、末端修复、添加A尾、接头连接,这4个独立的步骤合为一步,极大地缩短建库的时间,简化操作步骤。通过本发明的建库方法,仅需1.5 小时即可获得稳定高质量文库。

本发明适合进行1ng~1μg之间的生物基因组和大片段dsDNA序列样本的高效转化,操作简便,性能稳定,整体测序结果良好。

本发明的片段化酶特别适合用于制备高质量的DNA测序文库,尤其适用于高通量测序仪。配合index序列或Barcode序列,可以方便地实现对几十甚至几百个样本的高通量测序。

高通量测序仪的明显特点就是通量高,能在一个反应内完成数百万甚至数亿的测序反应,往往是几十甚至几百个样本混合在一起的数据。为了将这些样本进行区分,需要对文库中的接头进行标记,每一个样本中含有特定的接头,每个接头序列中含有特定的标签序列,这段特定的标签序列就是index(索引或标志的含义,也称作Barcode)。Index作为高通量测序中接头的一个必要组成部分,就是把每条测序数据(Reads)进行还原分类,以明确属于哪一样本。不同测序平台Index的位置,常用长度,数量都不完全相同。如对于LifeIonTorrent平台的index序列通常在10~12bp,不固定长度;Illumina测序平台序列则使用6bp或8bp的index序列。在本发明的具体实施例中,优选使用8bp的index序列。

基于DNA样品构建测序文库的试剂盒

本发明还提供了一种用上述方法构建测序文库的试剂盒,所述试剂盒包括:

(Z1) 片段化酶Hifase;

(Z2) 其他用于构建DNA测序文库的试剂;

(Y) 说明书,所述的说明书记载了使用方法。

在另一优选例中,所述其他用于构建DNA测序文库的试剂包括:

(a)TaqDNA聚合酶、T

(b)磁珠;

(c)反应缓冲液;

(d)接头序列。

在另一优选例中,所述试剂盒还包括:特异性结合于接头序列的特异性引物。

一种优选的试剂盒包括:

片段化酶Hifase(0.1μg/μL,0.2-13μl);

TaqDNA聚合酶(5U/μl,0.5μl);T

磁珠:50 μl DNA Selection Beads(1×,Beads:DNA=1:1)

反应缓冲液:5×Reaction Buffer具体包含100 mM Tris-HCl(pH8.0)、100 mMMgCl

接头序列:如SEQ ID NO: 1所示的Novo i5 接头(10μmol/L,1~2μl)和SEQ IDNO: 2所示的Novo i7接头(10μmol/L,1~2μl)。

特异性引物:如SEQ ID NO: 3所示的Novo i5 PCR 引物(10μmol/L,2.5μl)和SEQID NO: 4所示的Novo i7 PCR引物(10μmol/L,2.5μl)。

如本文所用,“mM”、“μM”中,mM表示mmol/L,μM表示μmol/L。

在具体实施例中,所述片段化酶Hifase的添加量随基因组浓度的增加而增加。较佳地,一种优选的DNA与接头(Adapter)和Hifase的推荐使用量如表1所示:

表1. 1ng-1μgDNA与接头(Adapter)和Hifase的推荐使用量

本发明的主要优点包括:

1)本发明中的新型片段化酶能够高效地将基因组随机打断成一定长度范围(50~150bp左右)的小片段,反应时间短,条件宽松,非常适合文库的构建。

2)本发明的一步法建库反应中,不需要一般建库所需要的多种末端修复酶,仅通过Taq聚合酶便可实现序列补平及加A尾操作,进而优化了反应体系,减少了使用的试剂种类。

3)本发明的建库方法,将DNA样品片段化、末端修复、末端添加A尾及接头连接反应的步骤整合成一步,进行一管式反应,该反应极大地缩短建库时间和简化操作步骤,避免多步操作中可能的失误,减少原始材料的损失。

4)本发明的建库方法适合进行1ng~1μg之间的生物基因组和大片段dsDNA序列样本的高效转化,操作简便,性能稳定,测序结果良好。

下面结合具体实施例,进一步陈述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明详细条件的实验方法,通常按照常规条件如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring Harbor LaboratoryPress,1989)中所述的条件,或按照制造厂商所建议的条件。除非另外说明,否则百分比和份数按重量计算。

引物

表2.本发明中的接头和引物序列

*其中下划线表示本发明中一种8bp的index序列,对于多样本共同测序时,该下划线的index序列可以被相应的用于不同样本的index序列替换,以便区别不同的样本。

实施例1:Hifase的制备和表征

重组融合蛋白Hifase的制备包含以下步骤:

1)Hifase表达质粒的构建:全基因合成如SEQ ID NO.:6所示的DNA序列,PCR扩增引入NdeI和xhoI酶切位点,酶切回收片段并连接到pET30a载体上,转化DH5a,测序获得正确的阳性表达质粒;

2) Hifase的表达:将步骤1)中获得的正确质粒转化到BL 21宿主菌中,将带有质粒的宿主菌接种于摇瓶中培养,在菌体浓度达到OD为0.2-0.6时,加入0.1-1mM IPTG诱导表达,继续培养2-4小时后收集菌体;

3) Hifase的分离纯化:将步骤2)中收获的菌体破碎后收集包涵体,包涵体变复性获得折叠正确的溶解蛋白,再通过离子交换和疏水层析获得高纯度的重组融合蛋白Hifase。

图1显示了Hifase的表达载体和SDS-PAGE电泳结果。其中,1A显示了Hifase的表达载体示意图,1B显示了Hifase的SDS-PAGE电泳图。

实施例2:片段化酶Hifase在不同时间打断基因组的情况

使用细胞/组织基因DNA提取试剂盒(Generay,货号GK0122)从人293T细胞中提取基因组DNA,将提取的基因组使用Nanodrop确定浓度。取160ng基因组进行片段化反应。反应体系如下(表3):

表3. 片段化反应体系

其中反应中采用的10×Hifasen Buffer具体包含100 mM Tris-HCl(pH8.0)、100mM MgCl

使用移液器轻轻吹打充分混匀,分别将管放PCR仪,37℃反应5min、10min、15min、20 min、30 min、40 min、60 min。观察片段化情况。

如图3所示,在30min后,基本不再进行打断反应,且打断后的片段基本在100bp左右(50~150bp)。

实施例3:一步法快速DNA建库

以200ng基因组DNA(人293T细胞基因组)为初始样本,进行一步法建库。如图2显示了本发明一步法快速DNA建库的示意图。具体包括如下步骤:

1、样品及材料准备

a.样品:起始样本为1ng-1μg溶于Nuclease Free Water或不含EDTA的10mM Tris-HCl(pH8.0)中的基因组DNA(A260/A280在1.8-2.0之间)。

b.材料、试剂和仪器:新鲜配制的80% 乙醇、纯化磁珠、接头序列、5×ReactionBuffer、片段化酶Hifase、TaqDNA聚合酶、T

2、片段化、末端扩增加A及加接头一管式反应。加入以下试剂(表4)配置反应体系:

表4. 一管式反应的试剂组分

其中,反应中采用的5×Reaction Buffer具体包含100 mM Tris-HCl(pH8.0)、100mM MgCl

表5 一管式反应的PCR反应程序设置

3、一管式反应产物进行DNA片段长度分选纯化步骤

该步骤使用DNA片段分选纯化磁珠(百迈格生物,货号:BMSX)将一管式反应产物进行纯化,可除去未连接的接头序列或接头二聚体等无效产物。

纯化操作步骤:

1)准备工作:将DNA片段分选纯化磁珠由冰箱中取出,室温平衡至少30 min。配制80%乙醇;

2)涡旋振荡或充分颠倒磁珠以保证充分混匀;

3)吸取50 μl DNA Selection Beads(1×,Beads:DNA=1:1)至一管式反应产物中,室温孵育5 min;

4)将 PCR管短暂离心并置于磁力架中分离磁珠和液体,待溶液澄清后(约 5min),小心移除上清;

5)保持PCR管始终置于磁力架中,加入100 μl新鲜配制的 80%乙醇漂洗磁珠,室温孵育 30 sec后,小心移除上清;

6)重复步骤 5);

7)保持PCR管始终置于磁力架中,开盖干燥不超过 5 min;

8)将PCR管从磁力架中取出,加入21 μl RNase Free Water,使用移液器轻轻吹打至充分混匀,室温静置5 min(如纯化产物需保存,可使用 TE Buffer 洗脱)。将 PCR 管短暂离心并置于磁力架中静置,待溶液澄清后(约5 min),小心移取20μl上清至新PCR管中,切勿触碰磁珠。可纯化获得20ul 产物直接作为文库扩增的模板。

4、文库扩增

该步骤将对纯化的一管式反应产物进行PCR扩增富集(表6)。

表6 文库PCR扩增的反应试剂

将上述反应液轻柔混匀并短暂离心使反应液聚集管底,按以下程序(表7)进行反应:

表7 文库PCR扩增的反应程序设置

*针对不同样本起始量设置不同的扩增循环数。

图4显示了一步法快速DNA建库的琼脂糖凝胶结果。

5、文库质量控制

通常情况下,构建好的文库需要通过浓度检测和长度分布检测来进行质量评价,所述的浓度检测可使用qubit,结合picogreen染料;所述的质量评价可使用 Agilent 2100DNA 1000 Chip 进行确定。

实验结果(见图5)显示,本发明的一步法建库方法通过两次重复实验获得的DNA片段在250-400bp之间,大小集中,分布稳定,片段符合优秀文库的一般标准(呈现出单一的、圆滑的峰,且接近正态分布,长度范围在150-700bp之间)。

在本发明提及的所有文献都在本发明中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本发明的上述讲授内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本发明所附权利要求书所限定的范围。

序列表

<110> 吴江近岸蛋白质科技有限公司

<120> 基于片段化酶的DNA文库制备方法

<130> P2020-2818

<160> 6

<170> SIPOSequenceListing 1.0

<210> 1

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

aatgatattc cggcgaccga gatctaacac actctttccc tacacgacgc tcttgt 56

<210> 2

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

caagagcgtc gtcggcatac ttctccgtga gatgtgactg gagttcagac gtgtgctctt 60

tccgtc 66

<210> 3

<211> 43

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

aatgatattc cggcgaccga gatctaacac actctttccc tac 43

<210> 4

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

caagcagaat tccggcatac ttctccgtga gatgtgactg gagc 44

<210> 5

<211> 410

<212> PRT

<213> 人工序列(Artificial Sequence)

<400> 5

Met Gly Ser Ser His His His His His His Ser Ser Gly Leu Val Pro

1 5 10 15

Arg Gly Ser His Met Thr Glu Asn Ser Thr Ser Ala Pro Ala Ala Lys

20 25 30

Pro Lys Arg Ala Lys Ala Ser Lys Lys Ser Thr Asp His Pro Lys Tyr

35 40 45

Ser Asp Met Ile Val Ala Ala Ile Gln Ala Glu Lys Asn Arg Ala Gly

50 55 60

Ser Ser Arg Gln Ser Ile Gln Lys Tyr Ile Lys Ser His Tyr Lys Val

65 70 75 80

Gly Glu Asn Ala Asp Ser Gln Ile Lys Leu Ser Ile Lys Arg Leu Val

85 90 95

Thr Thr Gly Val Leu Lys Gln Thr Lys Gly Val Gly Ala Ser Gly Ser

100 105 110

Phe Arg Leu Ala Lys Ser Asp Glu Pro Lys Lys Ser Val Ala Phe Lys

115 120 125

Lys Thr Lys Lys Glu Ile Lys Lys Val Ala Thr Pro Lys Lys Ala Ser

130 135 140

Lys Pro Lys Lys Ala Ala Ser Lys Ala Pro Thr Lys Lys Pro Lys Ala

145 150 155 160

Thr Pro Val Lys Lys Ala Lys Lys Lys Leu Ala Ala Thr Pro Lys Lys

165 170 175

Ala Lys Lys Pro Lys Thr Val Lys Ala Lys Pro Val Lys Ala Ser Lys

180 185 190

Pro Lys Lys Ala Lys Pro Val Lys Pro Lys Ala Lys Ser Ser Ala Lys

195 200 205

Arg Ala Gly Lys Lys Lys Gln Leu Val Lys Ser Glu Leu Glu Glu Lys

210 215 220

Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile

225 230 235 240

Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu

245 250 255

Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys

260 265 270

His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly

275 280 285

Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly

290 295 300

Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val

305 310 315 320

Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp

325 330 335

Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser

340 345 350

Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His

355 360 365

Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile

370 375 380

Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg

385 390 395 400

Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe

405 410

<210> 6

<211> 1236

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

atgggcagca gccatcatca tcatcatcac agcagcggcc tggtgccgcg cggcagccat 60

atgacggaaa atagcaccag cgccccagcc gccaaaccaa aacgcgccaa agccagcaag 120

aagagcaccg accacccaaa atacagcgac atgatcgtgg ccgccatcca agccgagaaa 180

aatcgcgccg gtagcagccg ccagagcatc cagaaataca tcaagagcca ctataaggtg 240

ggcgagaacg ccgacagcca gatcaagctg agcatcaagc gcctcgttac cacgggcgtt 300

ctgaaacaga ccaaaggcgt tggcgcgagc ggtagctttc gtctggccaa aagtgatgag 360

ccgaagaaga gcgtggcctt caagaagacg aagaaggaga tcaagaaggt ggccaccccg 420

aaaaaagcca gtaaaccgaa gaaagcggcg agcaaagcgc cgaccaagaa accgaaagcg 480

acgccggtga agaaggcgaa gaaaaaactg gcggccacgc cgaaaaaggc caagaagccg 540

aagaccgtga aagccaaacc ggtgaaggcg agcaaaccga aaaaagcgaa gccggttaag 600

ccgaaagcca aaagcagcgc caaacgcgcc ggcaagaaaa aagcccagct ggtgaaaagc 660

gaactggaag agaagaagag tgagctgcgc cacaaactca agtacgttcc gcacgagtac 720

atcgaactca tcgagatcgc ccgcaatagc acgcaagatc gcattctgga aatgaaagtg 780

atggagtttt ttatgaaagt gtacggctac cgcggcaaac atctgggcgg cagtcgcaaa 840

ccagatggtg ccatttacac ggttggcagc ccaatcgact acggcgtgat cgttgacacc 900

aaggcgtaca gcggcggcta caatctgccg atcggccaag ccgatgagat gcagcgttac 960

gtggaagaga accagacccg caataaacac attaatccaa acgaatggtg gaaagtgtac 1020

ccgagcagcg tgaccgagtt caagtttctc ttcgtgagcg gccatttcaa gggcaactac 1080

aaggcgcaac tgacccgcct caaccacatt accaactgca acggcgccgt gctgagcgtt 1140

gaagagctgc tgatcggtgg cgaaatgatc aaagccggta cgctcacgct ggaagaagtt 1200

cgccgcaagt ttaacaacgg cgagatcaac ttttaa 1236

相关技术
  • 基于片段化酶的DNA文库制备方法
  • 一种基于片段化萤光素酶-DNA嵌合体互补的发光体系、构建方法及其应用
技术分类

06120112645930