掌桥专利:专业的专利平台
掌桥专利
首页

单链DNA的扩增

文献发布时间:2024-04-18 19:58:53


单链DNA的扩增

技术领域

本发明涉及用于选择性扩增单链DNA的方法、试剂盒和组合物。本发明可用于产生归一化的cDNA部分,并且其可用于多种RNA和DNA测序应用中以扩增具有预附接衔接子的DNA模板。

背景技术

RNA测序已成为了解生物学的强有力工具(Stark,R.,Grzelak,M.&Hadfield,J.RNAsequencing:the teenage years.Nat.Rev.Genet.20,631-656(2019))。其应用范围从药物开发到改善农业。RNA测序通常用于鉴定生物样品之间的差异。这些可以是用于研究疾病抗性的来自受感染动物和对照动物的样品或者是用于了解生长和发育的在一段时间内来自同一样品类型的样品。由RNA测序产生的主要结果是样品中所表达的所有基因和同种型的发现和对表达的量化。大多数细胞和组织共有通常被称为管家基因的许多相同的高表达基因。这些基因通常负责基本的细胞功能,并因此不提供细胞特异性特征。由于这些管家基因通常构成样品中RNA的大部分,RNA测序数据通常由这些无信息RNA的测序读段(read)来主导。该现象对从RNA测序项目中产生良好结果产生了两个主要的负面作用;首先,对所讨论的病症具有特异性的基因和同种型难以检测,并且其次,所产生的数据在很大程度上是冗余的。

第一个主要的负面作用具有两个后果。首先是,检测目的基因所需的测序量必须足够大以处理由目的基因的相对丰度低所引起的采样低效。第二点是,在一些情况下,低丰度的靶基因可能根本无法鉴定。这可以通过仍在进行努力注释人基因组来证明,即使在数千个测序项目之后,完整的人转录组仍然难以捉摸,新的同种型和基因被定期报道。由于真核转录组的复杂性来源于产生组合排列的选择性剪接,因此寻找新的RNA将可能是持续的努力。

这两个后果通过限制研究人员从其测序实验中产生理想结果的能力而最终阻碍了科学进步。这些后果也造成将RNA测序应用于更宽范围用途的不可行性。例如,用于诊断和治疗追踪时,所需的测序量在时间和成本二者上均是令人望而却步的。

第二个主要的负面作用(产生冗余数据)也具有两个主要后果。首先是,更多的数据需要更多的处理时间,这提高了RNA测序实验的总成本和时间。这些成本均包括另外计算所需的能量和负责处理数据的生物信息学家的工作时间二者。第二个后果是冗余数据导致需要更多存储。随着测序变得更普遍,数据存储已成为一个重要的问题。为了让RNA测序技术承担更多的角色,需要更高效的数据生成来降低存储需求。

为了解决高丰度管家基因降低目的基因的取样效率的问题,开发了互补DNA(complementary DNA,cDNA)归一化(Alex S.Shcheglov,Pavel A.Zhulidov,EkaterinaA.Bogdanova,D.A.S.Normalization of cDNA Libraries,Nucleic AcidsHybrid.CHAPTER 5,(2014))。由于RNA测序通常依赖于RNA向双链cDNA的转换,因此cDNA归一化利用了cDNA的生物化学特性以在cDNA文库中产生独特基因和同种型的均匀分布。理论上,如果所有独特的RNA序列都以相同的相对丰度表示,则产生最大的非靶向取样效率。因此,归一化的目的是重新分布cDNA文库以尽可能接近地满足该标准。

先前已经开发了两种形式的全长cDNA归一化:双链特异性核酸酶(DuplexSpecific Nuclease,DSN)方法(Zhulidov,P.A.et al.Simple cDNA normalization usingkamchatka crab duplex-specific nuclease.Nucleic Acids Res.32,e37(2004))和羟基磷灰石柱方法(Andrews-Pfannkoch,C.,Fadrosh,D.W.,Thorpe,J.&Williamson,S.J.Hydroxyapatite-mediated separation of double-stranded DNA,single-strandedDNA,and RNA genomes from natural viral assemblages.Appl.Environ.Microbiol.76,5039-5045(2010))。这两种方法均依赖于cDNA链的变性和再杂交。当单链cDNA在溶液中到处移动时,更高丰度的序列具有更大的可能性找到与其匹配的互补序列来再杂交。因此,当再杂交达到其极限时,剩余的单链cDNA代表归一化的序列文库。

这两种方法之间的区别在于其从再杂交的双链cDNA分子中分离单链cDNA文库的方法。

在DSN方法中,使用特异性切割双链DNA的酶来分解溶液中的所有双链cDNA。然后对溶液进行纯化,并对超过一定长度的cDNA序列进行尺寸选择。然后使用聚合酶链式反应(Polymerase Chain Reaction,PCR)扩增这些序列。

在柱方法中,使变性和再杂交的cDNA文库通过填充有羟基磷灰石颗粒的加热柱。羟基磷灰石优先与较大的DNA分子结合。结合的DNA的尺寸由溶解cDNA文库的磷酸盐缓冲液的浓度控制。因此,磷酸盐缓冲液的浓度必须在一定的序列长度范围内专门针对cDNA分子进行调整。使用提高浓度的磷酸盐缓冲液通过柱以提取提高尺寸的DNA分子来洗脱cDNA。由于单链cDNA大约是再杂交的cDNA尺寸的一半,因此如果已知平均cDNA序列长度,则可以控制单链部分的洗脱。所得洗脱液旨在富集单链cDNA,然后使用PCR对其进行扩增。

在DSN和柱方法二者中,在归一化之前必须将已知的衔接子附接至cDNA的末端以促进PCR扩增(以便可以使用合适的引物)。

由于这两种方法本质上都是消减法,其中会耗竭大部分cDNA,因此起始cDNA的量对于DSN方法通常需要高于1μg,并且对于柱方法通常需要高于4μg。

由于DSN方法使用切割所有双链cDNA的酶,理论上其可以用匹配高丰度序列的部分来耗竭低丰度序列。这种作用也可以提高形成PCR嵌合体的可能性。当不完整的单链cDNA序列充当为其他序列的引物,从而以自然界中不存在的方式组合所述序列时,就形成了PCR嵌合体。PCR嵌合体代表新同种型的假阳性并且很难与真正的替代同种型区分开来。验证PCR嵌合体通常需要深入的生物化学测定。低丰度序列的耗竭和PCR嵌合体潜在的提高二者均使得DSN方法不适合于许多RNA测序应用。

由于柱方法仅允许在窄的尺寸范围内分离高丰度和低丰度部分,因此其针对较长的cDNA序列具有明显的偏倚。其结果是丢失较长RNA序列的代表性。这种作用使其不适合用于许多RNA测序应用。

因此,正是考虑到这些问题,才设计出了本发明。

发明内容

在其最广泛的方面,本发明提供了用于从cDNA样品中选择性扩增低丰度cDNA的方法、组合物和试剂盒。本发明提供了cDNA样品的非耗竭归一化,特别是通过提高cDNA样品中低丰度cDNA的量来归一化cDNA样品。本发明与先前的归一化技术相比的优点包括:

1.所需起始材料的量少得多;

2.降低过度耗竭导致基因缺失的风险;

3.降低产生PCR伪影的倾向,所述伪影可产生用于转录物发现/检测的假阳性;

4.当使用所述方法、组合物和试剂盒时,发生模板转换寡核苷酸(templateswitching oligo,TSO)清除(在没有衔接子情况下的cDNA清除)。

根据本发明,提供了选择性扩增单链cDNA的方法,所述方法包括:

(i)提供包含双链cDNA模板的cDNA样品,每个模板具有已知的5'预附接衔接子和已知的3'预附接衔接子;

(ii)使所述cDNA样品变性以产生单链cDNA模板;

(iii)将所述cDNA样品再缔合以产生缔合后单链cDNA模板与缔合后双链cDNA模板的混合物;

(iv)使5'衔接子复合物与至少一个缔合后单链cDNA模板的5'预附接衔接子退火,并使3'衔接子复合物与同一缔合后单链cDNA模板的3'预附接衔接子退火,其中每个衔接子复合物包含至少一种寡核苷酸;

(v)将来自5'衔接子复合物的寡核苷酸与缔合后单链cDNA模板的5'预附接衔接子连接,并将来自3'衔接子复合物的寡核苷酸与同一缔合后单链cDNA模板的3'预附接衔接子连接;以及

(vi)使用对所连接的寡核苷酸具有特异性的引物来选择性扩增cDNA样品。

在一个实施方案中:

(A)5'衔接子复合物是前寡核苷酸二聚体,其包含:

(i)用于与缔合后单链cDNA模板的5'预附接衔接子连接的前lig-寡核苷酸;和

(ii)用于与5'预附接衔接子和前lig-寡核苷酸退火的前连接-寡核苷酸(frontlink-oligonucleotide),所述前连接-寡核苷酸包含与5'预附接衔接子互补的区域和与前lig-寡核苷酸互补的区域,

使得在退火时,前lig-寡核苷酸的末端与5'预附接衔接子的末端相邻,以使得能够在连接位点处将前lig-寡核苷酸与5'预附接衔接子连接;以及

(B)3'衔接子复合物是后寡核苷酸二聚体,其包含:

(i)用于与缔合后单链cDNA模板的3'预附接衔接子连接的后lig-寡核苷酸;和

(ii)用于与3'预附接衔接子和后lig-寡核苷酸退火的后连接-寡核苷酸,所述后连接-寡核苷酸(back link-oligonucleotide)包含与3'预附接衔接子互补的区域和与后lig-寡核苷酸互补的区域,

使得在退火时,后lig-寡核苷酸的末端与3'预附接衔接子的末端相邻,以使得能够在连接位点处将后lig-寡核苷酸与3'预附接衔接子连接。

合适地:

(A)前连接-寡核苷酸包含:

(i)在与5'预附接衔接子互补的区域近端的前连接-寡核苷酸末端处的模板突出端区域,所述模板突出端区域与缔合后单链cDNA模板的相应区域是非互补的;和/或

(ii)在与前lig-寡核苷酸互补的区域近端的前连接-寡核苷酸末端处的lig-寡核苷酸突出端区域,所述lig-寡核苷酸突出端区域与前lig-寡核苷酸的相应区域是非互补的;和/或

(B)后连接-寡核苷酸包含:

(i)在与3'预附接衔接子互补的区域近端的后连接-寡核苷酸末端处的模板突出端区域,所述模板突出端区域与缔合后单链cDNA模板的相应区域是非互补的;和/或

(ii)在与后lig-寡核苷酸互补的区域近端的后连接-寡核苷酸末端处的lig-寡核苷酸突出端区域,所述lig-寡核苷酸突出端区域与后lig-寡核苷酸的相应区域是非互补的。

合适地,模板突出端和/或lig-寡核苷酸突出端的长度为约1bp至约20bp。模板突出端和/或lig-寡核苷酸突出端可以为2bp至19bp、3bp至18bp、2bp至17bp、3bp至16bp、2bp至15bp、3bp至14bp、2bp至13bp、3bp至12bp、2bp至11bp、3bp至10bp、2bp至9bp、3bp至8bp、2bp至7bp、3bp至6bp、2bp至5bp、3bp至5bp、或2bp至4bp。优选地,模板突出端和/或lig-寡核苷酸突出端为3bp。

模板突出端和/或lig-寡核苷酸突出端可以为至少2bp,或至少3bp。优选地,模板突出端和/或lig-寡核苷酸突出端为至少3bp。

合适地,前连接-寡核苷酸和前lig-寡核苷酸的组合长度小于约300bp,和/或后连接-寡核苷酸和后lig-寡核苷酸的组合长度小于约300bp。

合适地,前连接-寡核苷酸和/或后连接-寡核苷酸的长度小于200bp。

合适地,前寡核苷酸二聚体和/或后寡核苷酸二聚体具有至少一个非平端。

合适地,前连接-寡核苷酸和/或后连接-寡核苷酸在连接位点的任一侧提供至少5bp的互补结合。

合适地,前寡核苷酸二聚体的核苷酸序列与后寡核苷酸二聚体的核苷酸序列是不同且非互补的。

合适地,前寡核苷酸二聚体和后寡核苷酸二聚体中的至少一者可在超过30℃的温度下与缔合后单链cDNA模板退火。

合适地,前寡核苷酸二聚体的浓度和/或后寡核苷酸二聚体的浓度超过cDNA样品中预测的总单链cDNA浓度或总cDNA的浓度。

合适地,再缔合cDNA样品的步骤的持续时间为0至24小时,任选0至8小时、1至7小时、1至24小时或7至24小时。

在第二方面,本发明提供了用于如上所述的方法中的寡核苷酸二聚体组合物,其用于通过将寡核苷酸与具有已知的5'预附接衔接子和3'预附接衔接子的缔合后单链cDNA模板的5'端和3'端连接来选择性扩增单链cDNA,其中所述组合物包含:

(A)前寡核苷酸二聚体,其包含:

(i)用于与缔合后单链cDNA模板的5'预附接衔接子连接的前lig-寡核苷酸;和

(ii)用于与5'预附接衔接子和前lig-寡核苷酸退火的前连接-寡核苷酸,所述前连接-寡核苷酸包含与5'预附接衔接子互补的区域和与前lig-寡核苷酸互补的区域,

使得在退火时,前lig-寡核苷酸的末端与5'预附接衔接子的末端相邻,以使得能够在连接位点处将前lig-寡核苷酸与5'预附接衔接子连接;以及

(B)后寡核苷酸二聚体,其包含:

(i)用于与缔合后单链cDNA模板的3'预附接衔接子连接的后lig-寡核苷酸;和

(ii)用于与3'预附接衔接子和后lig-寡核苷酸退火的后连接-寡核苷酸,所述后连接-寡核苷酸包含与3'预附接衔接子互补的区域和与后lig-寡核苷酸互补的区域,

使得在退火时,后lig-寡核苷酸的末端与3'预附接衔接子的末端相邻,以使得能够在连接位点处将后lig-寡核苷酸与3'预附接衔接子连接。

在一个实施方案中:

(A)前连接-寡核苷酸包含:

(i)在与5'预附接衔接子互补的区域近端的前连接-寡核苷酸末端处的模板突出端区域,所述模板突出端区域与缔合后单链cDNA模板的相应区域是非互补的;和/或

(ii)在与前lig-寡核苷酸互补的区域近端的前连接-寡核苷酸末端处的lig-寡核苷酸突出端区域,所述lig-寡核苷酸突出端区域与前lig-寡核苷酸的相应区域是非互补的;和/或

(B)后连接-寡核苷酸包含:

(i)在与3'预附接衔接子互补的区域近端的后连接-寡核苷酸末端处的模板突出端区域,所述模板突出端区域与缔合后单链cDNA模板的相应区域是非互补的;和/或

(ii)在与后lig-寡核苷酸互补的区域近端的后连接-寡核苷酸末端处的lig-寡核苷酸突出端区域,所述lig-寡核苷酸突出端区域与后lig-寡核苷酸的相应区域是非互补的。

合适地,模板突出端和/或lig-寡核苷酸突出端的长度为约1bp至约20bp。模板突出端和/或lig-寡核苷酸突出端可以为2bp至19bp、3bp至18bp、2bp至17bp、3bp至16bp、2bp至15bp、3bp至14bp、2bp至13bp、3bp至12bp、2bp至11bp、3bp至10bp、2bp至9bp、3bp至8bp、2bp至7bp、3bp至6bp、2bp至5bp、3bp至5bp、或2bp至4bp。优选地,模板突出端和/或lig-寡核苷酸突出端为3bp。

模板突出端和/或lig-寡核苷酸突出端可以为至少2bp,或至少3bp。优选地,模板突出端和/或lig-寡核苷酸突出端为至少3bp。

合适地,前连接-寡核苷酸和前lig-寡核苷酸的组合长度小于约300bp,和/或后连接-寡核苷酸和后lig-寡核苷酸的组合长度小于约300bp。

合适地,前连接-寡核苷酸和/或后连接-寡核苷酸的长度小于200bp。

合适地,前寡核苷酸二聚体和/或后寡核苷酸二聚体具有至少一个非平端。

合适地,在组合物的使用中,前连接-寡核苷酸和/或后连接-寡核苷酸在连接位点的任一侧提供至少5bp的互补结合。

合适地,前寡核苷酸二聚体的核苷酸序列与后寡核苷酸二聚体的核苷酸序列是不同且非互补的。

合适地,前寡核苷酸二聚体和/或后寡核苷酸二聚体可在超过30℃的温度下与缔合后单链cDNA模板退火。

本发明的另一方面提供了如上所述的方法或如上所述的寡核苷酸二聚体组合物在RNA或DNA测序过程中的用途,所述测序过程任选地用于发现新的RNA和/或检测低丰度RNA,进一步任选地其中所述测序是单细胞测序。

本发明的另一方面提供了如上所述的方法或如上所述的寡核苷酸二聚体组合物在用于发现新的微生物和/或检测低丰度微生物的宏基因组测序的过程中的用途。

本发明的另一方面提供了如上所述的方法或如上所述的寡核苷酸二聚体组合物在筛查DNA或RNA样品或者筛查遗传样品中感染性疾病的存在的过程中的用途。

本发明的另一方面提供了如上所述的方法或如上所述的寡核苷酸二聚体组合物在检测核酸生物标志物、任选地疾病生物标志物、进一步任选地癌症生物标志物的过程中的用途。

在一些具体实施方案中,根据本发明的所有方面,所述方法还包含报告结果。结果可以是RNA或DNA序列的形式,微生物或疾病存在或不存在的指示,和/或疾病生物标志物的存在或不存在或水平的指示。

本发明的另一方面提供了选择性扩增试剂盒,其用于从cDNA样品中选择性扩增低丰度cDNA和/或用于选择性扩增包含已知衔接子序列的cDNA,所述cDNA样品包含具有已知5'预附接衔接子和3'预附接衔接子的cDNA模板,所述试剂盒包含用于制备如上所述寡核苷酸二聚体组合物的工具和用于实施如上所述选择性扩增方法的工具。

在一些具体实施方案中,用于制备寡核苷酸二聚体组合物的工具可包含如本文中所述的前lig-寡核苷酸、前连接-寡核苷酸、后lig-寡核苷酸和/或后连接-寡核苷酸。在另一些实施方案中,用于制备寡核苷酸二聚体组合物的工具可包含如本文中所述的前寡核苷酸二聚体和/或后寡核苷酸二聚体。

用于实施选择性扩增方法的工具可包含对前和/或后lig-寡核苷酸具有特异性的引物。

在一些具体实施方案中,试剂盒还可包含杂交缓冲液。杂交缓冲液可以包含HEPES1M(pH=7.5)、NaCl 5M和H

在另一些实施方案中,试剂盒还可包含用于在将cDNA用作cDNA样品之前将磷酸基团添加至cDNA中的引物。这些引物基于已知的5'预附接衔接子和已知的3'预附接衔接子序列。

在一些具体实施方案中,试剂盒还可包含用于PCR的合适试剂,包括聚合酶、二核苷酸三磷酸(dinucleotide triphosphate,dNTP)、MgCl

在另一些实施方案中,试剂盒还可包含用于将RNA逆转录成cDNA的合适试剂,包括逆转录酶。可以使用任何合适的逆转录酶。合适的缓冲液也是公知和可商购获得的,并且可以包括在逆转录主混合物中,该主混合物包括逆转录所需的大部分组分。

本发明的另一方面提供了用于如本文中所述方法的试剂组,其包含:

前lig-寡核苷酸、前连接-寡核苷酸、后lig-寡核苷酸和/或后连接-寡核苷酸;和

对前lig-寡核苷酸和/或后lig-寡核苷酸具有特异性的引物。

前lig-寡核苷酸、前连接-寡核苷酸、后lig-寡核苷酸和/或后连接-寡核苷酸可以作为如本文中所述的寡核苷酸二聚体组合物提供。

该试剂组还可包含以下中的一种或更多种、多至全部:杂交缓冲液(任选地包含HEPES1M(pH=7.5)、NaCl 5M和H

在一个实施方案中,该试剂组包含:

前lig-寡核苷酸、前连接-寡核苷酸、后lig-寡核苷酸和/或后连接-寡核苷酸;

对前lig-寡核苷酸和/或后lig-寡核苷酸具有特异性的引物;

杂交缓冲液;

连接酶;

连接酶缓冲液;和

用于将磷酸基团添加至cDNA的引物对。

本发明方法的另一个重要方面是选择具有已知衔接子序列的cDNA的能力。这方面可以应用于单细胞测序,其中衔接子是将读段分配给单个细胞所必需的。在该应用中,cDNA文库中出现了没有细胞标识条码/衔接子的cDNA序列。这些被称为模板转换寡核苷酸(TSO)人工产物,并且在单细胞测序项目中是不期望的,因为不能分配给来源细胞。可以将本发明方法应用于仅选择具有所期望衔接子序列的cDNA序列,从而有效地限制了TSO人工产物的测序。本发明方法也可以用单细胞cDNA文库进行,以既去除TSO人工产物又提高每个细胞的转录组覆盖率。

当本发明的方法用于cDNA样品的归一化时,发生TSO清除。然而,TSO清除也可以在没有归一化的情况下进行,在这种情况下,不需要包括再缔合cDNA样品以产生缔合后单链cDNA模板与缔合后双链cDNA模板的混合物的步骤。

因此,根据本发明的另一方面,提供了选择性扩增包含已知衔接子序列的cDNA的方法,所述方法包括:

(i)提供包含双链cDNA模板的cDNA样品,模板的一部分具有已知的5'预附接衔接子和已知的3'预附接衔接子;

(ii)使所述cDNA样品变性以产生单链cDNA模板;

(iii)使5'衔接子复合物与至少一个单链cDNA模板的5'预附接衔接子退火,并使3'衔接子复合物与同一单链cDNA模板的3'预附接衔接子退火,其中每个衔接子复合物包含至少一种寡核苷酸;

(v)将来自5'衔接子复合物的寡核苷酸与单链cDNA模板的5'预附接衔接子连接,并将来自3'衔接子复合物的寡核苷酸与同一单链cDNA模板的3'预附接衔接子连接;以及

(vi)使用对所连接的寡核苷酸具有特异性的引物来选择性扩增cDNA样品。

上述选择性扩增单链cDNA的方法的实施方案对选择性扩增包含已知衔接子序列的cDNA的方法进行了必要的修改,并且为简明起见不再重复。寡核苷酸二聚体组合物适合用于如本文中所限定的选择性扩增包含已知衔接子序列的cDNA的方法中。如本文中所限定的选择性扩增包含已知衔接子序列的cDNA的方法可用于RNA或DNA测序过程中,其任选地用于发现新的RNA和/或检测低丰度RNA,进一步任选地其中所述测序是单细胞测序。同样地,该方法可用于发现新的微生物和/或检测低丰度微生物的宏基因组测序的过程中,用于筛查DNA或RNA样品或者筛查遗传样品中感染性疾病的存在的过程中,或者用于检测核酸生物标志物(任选地疾病生物标志物,进一步任选地癌症生物标志物)的过程中。本文中所限定的试剂盒和试剂组也适合用于选择性扩增包含已知衔接子序列的cDNA的方法中。

在一些实施方案中,根据本发明的所有方面,cDNA样品包含不超过700ng、500ng、100ng、20ng、10ng、5ng或1ng的起始cDNA。cDNA样品可包含1至500ng、5至100ng或10至50ng的起始cDNA。

在一些具体实施方案中,根据本发明的所有方面,来自样品的RNA首先被逆转录为cDNA。样品类型包括血液样品(特别是来自血浆以及血清的血液样品)、其他体液,例如唾液、尿液或淋巴液。其他样品类型包括固体组织,包括冷冻组织或福尔马林固定的石蜡包埋(formalin fixed,paraffin embedded,FFPE)材料。RNA可以是信使RNA(messenger RNA,mRNA)、微小RNA(microRNA,miRNA)等。在这样的实施方案中,RNA通常使用逆转录酶进行逆转录以形成互补DNA(complementary DNA,cDNA)分子。使用逆转录酶将RNA逆转录为cDNA的方法在本领域中是公知的。可以使用任何合适的逆转录酶,合适的逆转录酶的一些实例在本领域中是广泛可得的。最初的cDNA分子可以是单链的,直到DNA聚合酶已用来产生互补链。市售试剂盒(例如NEBNext单细胞/低输入cDNA合成&扩增模块)可用于将RNA转化成具有5'和3'衔接子的双链cDNA。基于5'和3'衔接子的引物可用于将磷酸基团添加至cDNA。在将cDNA用作cDNA样品之前,可以进行cDNA纯化步骤(例如用ProNex或Ampure珠)。

由于本发明只需要少量的起始cDNA,因此这可以从少量的RNA中产生和/或在cDNA的产生期间不需要另外的PCR循环。RNA样品可包含不超过3μg、2μg、1μg、500ng、100ng、10ng或1ng的起始RNA。RNA样品可以包含1ng至3μg、10ng至2μg或100ng至1μg的起始RNA。

具体实施方式

现在将参照以下实例和附图仅通过示例的方式来进一步详细地描述本发明的上述方面和另一些方面,其中:

图1是示出了将连接序列添加至单链cDNA模板末端的示意性概图;

图2是根据本发明的cDNA归一化过程的一个实施方案的示意性概图;

图3是如所示的前和后寡核苷酸二聚体结构与单链cDNA模板退火的示意性概图,图3A是其细节,并且图3B提供了使用本文中所述的一些示例性序列表示的图示;

图4是示出了来自输入cDNA的凝胶电泳的长度分布的图;

图5是示出了由根据本发明的cDNA归一化过程的实施方案产生的归一化cDNA的凝胶电泳的长度分布的图;和

图6示出了使用纳米孔cDNA测序根据本发明归一化的归一化cDNA和输入cDNA的饱和曲线。

为了解决当前cDNA归一化技术中的问题,本发明人开发了改进的选择性扩增方法。本发明方法使用与上述DSN方法和柱方法相同的变性和再杂交过程。然而,本发明方法通过使用非耗竭或添加机制而不同于当前的方法。换言之,本发明提供了用于提高样品中低丰度cDNA量的方法和工具。这些方法和工具可用于测序过程中的cDNA归一化,或用于将受益于低丰度cDNA扩增的其他过程,例如微生物或生物标志物的发现、检测或鉴定。

在本发明的上下文中,提供以下术语和方法的解释以更好地描述本公开内容并在本公开内容的实践中提供指导。

短语“选择性扩增”用于描述由本发明人开发的优先于其他DNA模板而扩增特定DNA模板(例如,在包含单链和双链cDNA混合物的样品中仅扩增单链cDNA)的方法。该术语在本文中也用于描述优先扩增特定种类的DNA,例如低丰度DNA。

术语“衔接子”用于描述添加至DNA模板末端的短DNA序列,例如通常在通过将衔接子与cDNA模板连接的RNA测序中使用的那些。“3’预附接衔接子”是指具有已被添加至cDNA模板的3'端的已知核苷酸序列的衔接子。“5’预附接衔接子”是指具有已被添加至cDNA模板的5'端的已知核苷酸序列的衔接子。

术语“归一化”和“归一化分数”是指使样品中不同转录物的丰度水平化的过程。这可以通过降低高丰度转录物的量的现有技术方法来实现,或者通过使用本发明的方法来选择性扩增低丰度转录物来实现。

如本发明上下文中使用的短语“缔合后单链cDNA模板”是指通过将双链cDNA样品去缔合和再缔合(即变性和再杂交)以形成单链cDNA与双链cDNA的混合物而产生的单链cDNA模板。在再缔合之后保持单链的单链cDNA被称为缔合后单链cDNA。如果不进行再缔合步骤,则在本文中所限定的实施方案中,短语“缔合后单链cDNA模板”与“单链cDNA模板”是可互换的。

如本文中所使用的短语“连接的衔接子-cDNA模板”是指通过将衔接子与cDNA模板连接而形成的cDNA模板。

本发明涵盖“衔接子复合物”,其适合于与缔合后单链cDNA模板的末端退火。术语“衔接子复合物”是指包含多于一种组分的衔接子。

如本发明上下文中所使用的术语“前寡核苷酸二聚体”、“前k-接头”和“前二聚体”是指可以与缔合后单链cDNA模板的5'端退火的衔接子复合物。如本发明的上下文中所使用的术语“后寡核苷酸二聚体”、“后k-接头”和“后二聚体”是指可以与缔合后单链cDNA模板的3'端退火的衔接子复合物。

如本发明的上下文中所使用的术语“前lig-寡核苷酸”和“前lig”是指前二聚体的寡核苷酸组分。本发明的上下文中所使用的术语“后lig-寡核苷酸”或“后lig”是指后二聚体的寡核苷酸组分。

如在本发明的上下文中所使用的术语“前连接-寡核苷酸”和“前连接子(frontlink)”是指前二聚体的寡核苷酸组分。本发明上下文中所使用的术语“后连接-寡核苷酸”和“后连接子(back link)”是指后二聚体的寡核苷酸组分。

术语“突出端”在本发明的上下文中用于描述本发明的二聚体序列的突出端区域,其中突出端区域与其所配对的区域是非互补的,一旦与缔合后单链cDNA模板退火,使得突出端区域不与其所配对的区域结合。

使用对所连接的寡核苷酸具有特异性的引物选择性扩增单链cDNA。由于单链DNA是模板,特异性引物对中一个引物的引物区域与单链DNA分子互补。特异性引物对中的另一个引物包含与扩增循环期间形成的互补单链DNA分子互补并因此与之杂交的引物区域。因此,一个引物与一个连接的寡核苷酸互补,并且另一个引物(至少部分地)包含另一个所连接的寡核苷酸的序列。

柱方法

如上所述,羟基磷灰石柱方法依赖于cDNA链的变性和再杂交。当单链cDNA在溶液中到处移动时,更高丰度的序列具有更大的可能性找到与其匹配的互补序列进行再杂交。在柱方法中,变性和再杂交的cDNA文库穿过填充有羟基磷灰石颗粒的加热柱。羟基磷灰石优先与较大的DNA分子结合。由于单链cDNA大约是再杂交的cDNA尺寸的一半,因此如果已知平均cDNA序列长度,则可以控制单链部分的洗脱。因而发生的洗脱旨在富集单链cDNA,然后使用PCR对其进行扩增。

用4μg cDNA起始样品如Andrews-Pfannkoch et al.(Andrews-Pfannkoch,C.,Fadrosh,D.W.,Thorpe,J.&Williamson,S.J.Hydroxyapatite-mediated separation ofdouble-stranded DNA,single-stranded DNA,and RNA genomes from natural viral assemblages.Appl.Environ.Microbiol.76,5039-5045(2010)中所述进行羟基磷灰石柱方法。当使用2μg或更少的cDNA时,羟基磷灰石柱方法不产生可用的产量。

由于柱方法基于通过尺寸的分离,该方法导致较长RNA序列(长于4kb)的代表性损失,这在归一化之前和之后的长度分布中是可观察到的。

DSN方法

至于柱方法,DSN方法依赖于cDNA链的变性和再杂交。由于单链cDNA在溶液中到处移动,更高丰度的序列具有更大的可能性找到与之匹配的互补序列进行再杂交。在DSN方法中,使用特异性切割双链DNA的酶来分解溶液中的所有双链cDNA。

市售的Evrogen Trimmer-2cDNA归一化试剂盒使用DSN方法。用1μg cDNA起始样品根据制造商的说明使用该试剂盒。然而,为了产生足够用于长读段RNA测序的材料,发现有必要使用2μg cDNA。

发现DSN方法完全消除了高丰度RNA,并且预期对于与高丰度RNA具有序列相似性的RNA也是如此。因此,观察到过度耗竭,其中高丰度RNA不仅在数量上减少,而且从样品中完全去除。表1示出了第1至20等级的过度耗竭,并显示了较低等级(55、64、77、92和98)的选择,其中RNA显著减少但没有完全耗竭。

表1–用DSN方法过度耗竭高丰度RNA

另外,DSN方法创造了可产生人工嵌合序列的条件,这可以显示为基因预测的假阳性。

选择性扩增方法

本发明方法在图1至3中示出。总的来说,参照图2,将包含具有已知的5'和3'预附接衔接子的cDNA的cDNA样品变性以提供单链cDNA样品;然后将样品再杂交或再缔合以提供单链cDNA与双链cDNA的混合物。该单链cDNA代表低丰度的cDNA。然后通过将寡核苷酸添加至5'和3'预附接衔接子来修饰再缔合样品中的单链cDNA。使用针对这些寡核苷酸的引物扩增cDNA样品。该过程选择性地提高了再缔合样品中仅单链cDNA的含量,从而提高了样品中低丰度cDNA的含量,从而提供了归一化的样品。

用于选择性扩增方法的输入cDNA文库是双链的,并且双链模板各自包含已知核苷酸序列的5'预附接衔接子和已知核苷酸序列的3'预附接衔接子。由于本发明方法是一种添加方法,与现有技术的归一化方法相比需要较低量的起始cDNA。在DSNase方法中,需要最少1μg输入cDNA,而在柱方法中,需要最少4μg输入cDNA。在测试中,发现本发明方法可以应用少至20ng的起始cDNA。

本发明方法的第一阶段包括将输入cDNA与杂交缓冲液组合,并将溶液加热至变性温度-约98摄氏度,以产生变性的单链cDNA模板。在5至10分钟之后,然后将溶液降低至再杂交温度-约68摄氏度。将溶液在该温度下孵育0至24小时,这取决于所需的归一化量。7小时是再缔合步骤的典型持续时间。该步骤产生了包含缔合后双链cDNA模板和缔合后单链cDNA模板的再缔合或再杂交的样品。

在孵育之后,添加本发明的寡核苷酸二聚体(本发明人称为K-接头)。这些寡核苷酸二聚体在下文更详细地讨论。此时,可以使溶液在68摄氏度下孵育0至1小时。5分钟是该孵育步骤的典型持续时间。然后将溶液降低至K-接头的退火温度,其通常在40至60摄氏度,例如44摄氏度。将溶液在该温度下孵育10分钟至2小时,例如25分钟。该步骤使K接头与缔合后单链cDNA模板退火。

在该孵育期之后,将DNA连接酶与连接混合物一起添加。将溶液在该同一温度下孵育0.5至2小时,例如1小时,并随后降低至室温。该步骤导致连接的衔接子-cDNA模板的形成,其中将来自K-接头的寡核苷酸与缔合后单链cDNA模板的每个末端连接。此时,cDNA可以被纯化(例如使用Pronex或Ampure珠)或者可以使用基于K-接头序列的引物直接用于PCR扩增。

在PCR扩增之后,然后使用任何合适的工具纯化cDNA,并且所得cDNA代表归一化的cDNA文库。

在PCR扩增之前,可以除去缔合后双链cDNA模板,但是在测试之后,本发明人已经表明,将双链cDNA留在溶液中不会对归一化过程产生负面影响。事实上,也可以对缔合后双链cDNA进行分析和使用,例如以获得基因表达的估计。这涉及使用针对已知5'预附接衔接子和已知3'预附接衔接子的引物的另外的(PCR)选择性扩增步骤,其中分子条码包含在引物中。首先使用基于K-接头序列的引物进行PCR扩增,随后通过使用针对已知5'预附接衔接子和已知3'预附接衔接子的引物进行单PCR循环。可以暂停PCR以添加另一些引物用于最后的循环。或者,可以在PCR之后使用基于K-接头序列的引物纯化cDNA,并使用针对已知5'预附接衔接子和已知3'预附接衔接子的引物进行单个循环的新的PCR。在这两种情况下,产物将是由源自缔合后双链cDNA模板的序列和源自缔合后单链cDNA模板的序列构成的两种可区分部分的混合物。分子条码添加允许在测序分析期间鉴定源分子。本发明的这方面可用于多重测序。

寡核苷酸二聚体复合物的设计

本发明的寡核苷酸二聚体组合物包含前寡核苷酸二聚体和后寡核苷酸二聚体(前K接头和后K接头),其二者均与缔合后单链cDNA的同一条链退火。

参照图3和3A,每个K-接头包含两种寡核苷酸序列;一种称为连接-寡核苷酸(也称为“连接子”;在图3和3A中称为“LU衔接子接头”),并且另一种称为lig-寡核苷酸(也称为“lig”;在图3和3A中称为“LU衔接子”。

连接子序列包含与已知的3'/5'预附接衔接子序列(其先前添加至cDNA中)互补的区域和与lig互补的区域。

如还在图3和3A中所描绘的,连接子可以设计为在一端具有与已知预附接衔接子序列是非互补的突出端区域,该区域被称为“模板突出端”。连接子的对端可以具有与lig序列是非互补的类似突出端,这被称为“lig突出端”或“lig-寡核苷酸突出端”。

连接子的目的是与缔合后单链cDNA模板的预附接衔接子和lig二者退火,在这样的方式中,在使用中,cDNA模板的一端与lig的一端相邻。通过以这种方式定位cDNA模板和lig,可以使用DNA连接酶将cDNA模板与lig连接,从而将lig序列添加至cDNA模板的末端。将lig序列添加至单链cDNA模板的5'和3'端二者。前K接头和后K接头用于将这些lig分别添加至cDNA模板的5'和3'端。

在上述方法中,一旦lig已经添加至单链cDNA模板的每个末端,就使用基于添加的lig序列的引物来选择性扩增已经成功与前lig序列和后lig序列二者连接的单链cDNA部分。以这种方式,可使用PCR仅扩增低丰度的缔合后单链cDNA部分。

K-接头的特定结构为整体归一化性能提供了优势,其中前K-接头和后K-接头具有由其特定结构特征提供的不同功能。

可以设计与单链cDNA模板的5'端结合的前K-接头(在图中示出为原始RNA序列的反向互补序列),使得K-接头在PCR扩增期间不充当为引物。

为了提供另外的优点,前K-接头在lig侧没有平端以允许使用可以在选择性扩增过程中进行平端连接的DNA连接酶。提供具有非平端K-接头复合物的lig侧也避免了与溶液中其他K-接头复合物或与双链cDNA的连接。

由于前接头具有指向远离模板的5'至3'方向性,因此接头本身不能充当为模板的引物。然而,在一些情况下,前lig或PCR引物可潜在地在PCR扩增期间与接头退火,并经历聚合酶延伸以呈现连接子的模板侧序列。在模板侧提供具有突出端的连接子避免了延伸的lig/引物充当为没有将lig序列添加至其末端的cDNA序列的引物,即高丰度的序列。因此,可以提供用于后连接子的模板突出端结构。

可以设计与单链cDNA模板的3'端结合的后K-接头(在图中示出为原始RNA序列的反向互补序列),使得K-接头在PCR扩增期间不充当为引物。这可以通过使用模板突出端来实现,该突出端如上所述并在图3和3A中示出。

出于与前K-接头可以被设计为在lig侧具有突出端相同的原因,后K-接头可以在lig侧没有平端情况下提供。如果后K-接头复合物的lig侧具有平端,在一些情况下,lig可潜在地与另一些K-接头复合物或与样品中的双链cDNA连接,这可能导致cDNA模板的连接。

突出端还用于降低K-接头复合物的退火温度,使得其在使用较高退火温度的PCR扩增期间较小可能充当为彼此的引物。突出物可降低非期望引发。作为补充或替代,突出端可提供能够测量非期望引发量的指示剂。例如,如果具有其突出端的K-接头复合物能够引发模板,那么将可以在测序数据中看到突出端序列,并可以推断出其是非期望引发的产物。

所有突出端理想地应为约1bp至约20bp,优选3bp。可以使用更长的突出端,但其将使设计更困难,因为随着突出端变得更长,防止非期望引发的序列组合物更少。

cDNA模板和连接子之间以及连接子和lig之间的互补区域应足够长,以便在待使用的连接酶活性温度下退火。缺口修复连接酶对于该过程是特别优选的,该过程通常在连接位点的任一侧需要约五个或更多个互补碱基。

连接子和相应lig的组合长度理想地应小于约300bp,优选地小于约200bp,以降低在纯化过程期间的遗留(carry)。

示例性序列表示:

所有示例性序列结构都以5'至3'方向提供。同样在如图3B中示出。

前连接子:

前lig:

后连接子:

后lig:

X–与5'/3'预附接衔接子互补的核苷酸

O–突出端序列

F–与待连接的前lig互补的序列

F–前lig的序列

B–与待连接的后lig互补的序列

B–后lig的序列

该方法中使用的寡核苷酸和单链cDNA模板的实例:

来自NEB/PacBio cDNA合成试剂盒的引物序列

Iso-Seq表达Fwd:

Iso-Seq表达Rev:

前连接子:

前lig和引物:

后连接子:

后lig:

引物:

突出端以加下划线示出。寡核苷酸之间的互补区域以粗体示出。

单链cDNA模板:

(即5'-3'–5'预附接衔接子的序列,由N表示的cDNA的序列和3'预附接衔接子的序列;与前连接-寡核苷酸和后连接-寡核苷酸互补的区域以粗体示出)。

寡核苷酸二聚体的制备

一旦经设计,二聚体可以使用本领域公知的标准技术来制备。

寡核苷酸-cDNA模板的扩增

在将lig与cDNA模板的3'和5'端连接之后,可以使用合适的cDNA纯化方法纯化所得溶液的cDNA。纯化步骤可以跳过,但是跳过可导致PCR扩增的效率降低。

在纯化之后或连接之后,可使用基于lig序列的正向和反向引物对所得物质进行PCR扩增。可以选择比模板/连接子/lig的互补区域具有更高退火温度的引物序列以避免不需要的引发。

如果需要的话,可以通过首先进行qPCR实验以确定扩增曲线的拐点来确定最佳PCR循环的次数。

然后可以将从PCR扩增中得到的cDNA纯化并用作任何下游过程(例如测序)的输入。

选择性扩增样品的验证

选择性扩增或归一化的作用可以通过使用凝胶电泳测量cDNA文库的长度分布来间接测量,或者使用测序来直接测量。

为了使用凝胶电泳鉴定归一化的作用,可以将输入cDNA的长度分布图与归一化的cDNA进行比较。输入cDNA将通常显示出沿着长度分布的峰,其对应于高丰度转录物序列(图4)。

归一化的cDNA将具有类似于没有尖峰的正态分布的长度分布(图5)。这代表了通过转录序列的均匀分布。

当使用测序直接测量归一化时,优选的测序方法是长读段测序。这允许鉴定不同的同种型。直接测量的结果可以是每个基因的读段数目的图,或者是显示出随着测序深度的提高而鉴定出的新的基因数目的饱和图。

为了验证本发明方法,本发明人对输入cDNA文库和通过本发明方法产生的cDNA文库二者均进行了纳米孔cDNA测序。他们比较了每个文库的饱和曲线(图6)。本发明方法的曲线比输入cDNA的曲线高出多倍。这表明cDNA文库分布更加均匀。

选择性扩增的应用

本发明的选择性扩增方法的主要应用是改进低丰度基因和同种型的发现和检测。当将本发明方法与测序组合时,提高了鉴定样品中所有独特基因的取样效率。这可用于转录组注释或用于鉴定新的基因和同种型。转录组注释主要用于比较生物学工作以了解不同物种的生物学。新的基因和同种型的发现可以帮助鉴定参与负责目的性状的生物机制的基因。例如,本发明方法可用于帮助鉴定负责生物体对疾病响应的基因,或者甚至参与产生疾病的基因(在肿瘤生成的情况下)。

本发明方法可应用于在末端具有已知衔接子并且长度可通过PCR方法进行扩增的任何双链cDNA文库。这意味着其可以用于DNA测序。本发明方法的另一个应用是用于提高在宏基因组测序期间的取样效率以增强鉴定样品中低丰度微生物的能力。这可以用于了解微生物组,并用于鉴定可能参与疾病或维持健康的微生物。

本发明方法的另一个应用是用于提高来自感染性疾病的基因组序列的检测。这可用于扩增病毒、细菌或真菌的基因组序列,也可与靶向方法结合使用以提高总检测限。这也可以用于大规模筛选,其中在使用基于PCR或测序的方法进行测试之前将许多样品混合。

本发明方法的另一个重要方面是选择具有已知lig序列的cDNA的能力。这方面可以应用于单细胞测序,其中衔接子是将读段分配至单个细胞所必需的。在该应用中,cDNA文库中出现了没有细胞标识条码/衔接子的cDNA序列。这些被称为模板转换寡核苷酸(TSO)人工产物,并且由于不能分配至起源细胞而在单细胞测序项目中是不期望的。本发明方法可以应用于短暂的再杂交步骤以仅选择具有所期望lig序列的cDNA序列,从而有效地限制了TSO人工产物的测序。本发明方法也可以用单细胞cDNA文库进行以去除TSO人工产物并提高每个细胞的转录组覆盖率二者。

讨论

本发明的选择性cDNA扩增方法代表了实现低丰度核酸的更大非靶向发现/检测的创新方法。

其与现有的归一化方法的不同之处在于使用添加法而当前的方法使用耗竭法。添加法使得本发明方法使用明显更少量的起始cDNA。添加法也防止了过度耗竭和人工嵌合,其是DSNase方法所特有的。本发明方法也仅在PCR扩增有长度偏差的程度上有长度偏差。因此,其可以用更长的cDNA分子成功地运行。

因此,可以看出本发明的方法、衔接子、组合物、二聚体和试剂盒具有宽范围的商业和学术应用。下面列出了这些应用的一些实例,每个实例构成了本发明的另一方面:

·用于发现新的RNA的RNA/DNA测序

·用于检测低丰度RNA的RNA/DNA测序

·用于检测样品中的所有RNA或DNA的RNA/DNA测序(包括单细胞测序的应用)。

·用于发现新的微生物的宏基因组测序

·用于检测低丰度微生物的宏基因组测序

·用于检测样品中所有表达的微生物的宏基因组测序

·用包括qPCR和微阵列测定的靶向方法提供更好的信噪比区分的DNA文库处理步骤。

·用于需要检测DNA和RNA序列的诊断流水线(包括用于确定癌症存在和癌症类型的癌症诊断)。

·用于RNA/DNA筛查流水线,例如对基因编辑的质量控制以筛查如基因编辑导致的RNA产生问题。

·用于监测响应于医学治疗的生物状态的治疗追踪。

·用于鉴定将帮助设计或开发药物的生物标志物的药物开发(包括疫苗开发)。

·用于筛查样品中感染性疾病(例如细菌、病毒和真菌)的存在。

序列表

<110> • THE UNIVERSITY COURT OF THE UNIVERSITY OF EDINBURGH

<120> 单链DNA的扩增

<130> P221362.WO.01

<150> GB2105947.2

<151> 2021-04-26

<160> 8

<170> BiSSAP 1.3.6

<210> 1

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 1

ggcaatgaag tcgcagggtt g21

<210> 2

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 2

aagcagtggt atcaacgcag ag 22

<210> 3

<211> 40

<212> DNA

<213> 人工序列

<220>

<223> 寡核苷酸

<400> 3

atagcgttga taccactgct tctcacgaca gactcgctaa 40

<210> 4

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 寡核苷酸

<400> 4

tggactgatg cgagtctgtc gtgag25

<210> 5

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> 寡核苷酸

<400> 5

aatgacgctg gacgaacacg gcaatgaagt cgcagaca 38

<210> 6

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 寡核苷酸

<400> 6

gtgttcgtcc agcgtccagg tgagtgg27

<210> 7

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 7

ccactcacct ggacgctgga cgaacac27

<210> 8

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 模板

<220>

<221> misc_structure

<222> 23

<223> /注释=“单链cDNA模板:即5’-3’ – 5’预附接衔接子的序列,由N表示的cDNA的序列和3’预附接衔接子的序列”

<400> 8

aagcagtggt atcaacgcag agnnnnnnnn nnnnnnnnca accctgcgac ttcattgcc59

相关技术
  • 一种DNA分子量标准片段扩增单链引物、扩增方法以及DNA分子量标准的制备方法
  • 一种DNA分子量标准片段扩增单链引物、扩增方法以及DNA分子量标准的制备方法
技术分类

06120116507036