掌桥专利:专业的专利平台
掌桥专利
首页

复合表面结合的转座体复合物

文献发布时间:2023-06-19 11:17:41


复合表面结合的转座体复合物

以引用方式并入任何优先权申请

本申请要求2019年1月11日提交的美国临时专利申请第62/791,509号和2019年4月30日提交的美国临时专利申请第62/840,610号的优先权权益,这些专利申请据此全文以引用方式并入。

技术领域

本公开涉及用于在不使用PCR扩增的情况下生成带标签的核酸片段的文库的方法、组合物和试剂盒,包括用于使用固定在固体载体上的转座体复合物将核酸(例如,DNA)片段化并加标签的方法和组合物。

背景技术

用于核酸样本的下一代测序(NGS)的当前方案通常采用将DNA或RNA转化成可测序的片段化模板的文库的样本制备过程。样本制备方法通常需要多个步骤和材料转移以及昂贵的仪器来实现片段化,这会使这些方法变得困难、繁琐、昂贵且低效。此外,使用引物的扩增在文库内容中引入偏差,从而将偏差引入所得的测序数据中。例如,PCR扩增步骤可生成缺口,由于聚合酶不能有效地复制富含GC的区域,因此缺口在富含GC的区域中加剧。这些缺口在从文库中得到的测序数据中形成偏差。具有PCR扩增步骤的文库制备过程可具有显著降低的插入和缺失(indel)检出性能。具有多个扩增重复序列的一些区域可能难以准确测序,并且具有富含GC的启动子的DNA可能在基因组内表现出低覆盖度。此外,许多文库制备方法与样本索引的掺入不兼容,或者需要多个额外步骤来引入此类索引。

需要简短、高效和准确的文库制备程序。本文描述了解决这些问题并适应单索引法和双索引法的各种方法、组合物和试剂盒。

发明内容

本公开涉及用于在不使用PCR扩增来掺入片段标签(诸如引物序列和/或索引序列)的情况下生成带标签的核酸片段的文库的方法、组合物和试剂盒,包括用于使用固定在固体载体上的转座体复合物将核酸(例如,DNA)片段化并加标签的方法和组合物。

本文提供的一些实施方案涉及包含附接多核苷酸的转座体复合物。在一些方面,本公开涉及转座体复合物,该转座体复合物包含:(a)转座酶;(b)第一转座子,该第一转座子包含3’转座子端序列和5’衔接子序列;(c)第二转座子,该第二转座子包含5’转座子端序列和3’衔接子序列,其中5’转座子端序列与3’转座子端序列的至少一部分互补;和(d)附接多核苷酸,包含:(i)与两个衔接子序列中的一个衔接子序列杂交的附接衔接子序列和(ii)结合元件。通常,将转座子端序列一起退火,形成由转座酶识别的双链转座子端序列。在一些方面,结合元件固定到固体载体以提供固定化转座体复合物。

在一些方面,本公开涉及包含第一转座子、第二转座子和附接多核苷酸的退火的转座子/附接多核苷酸杂交体。

在一些方面,本公开涉及制备包含转座体复合物的退火的转座子/附接多核苷酸杂交体的方法,该方法包括使第一转座子、第二转座子和附接多核苷酸退火。在一些方面,本公开涉及制备转座体复合物的方法,该方法包括用转座酶处理退火的转座子/附接多核苷酸杂交体。在一些方面,该方法提供了通过结合元件将转座体复合物固定到固体载体来制备固定化转座体复合物的方法。

在一些方面,本公开涉及转座体复合物,该转座体复合物包含:(a)转座酶;(b)第一转座子,该第一转座子包含3’转座子端序列和5’衔接子序列;(c)第二转座子,该第二转座子包含3’衔接子序列和与3’转座子端序列的至少一部分互补的5’转座子端序列;和(d)结合元件,该结合元件通过可切割接头而附接到5’衔接子序列。在一些方面,结合元件固定到固体载体,提供固定化转座体复合物。在一些方面,本公开涉及包含第一转座子、第二转座子和结合元件的退火的寡核苷酸构建体。

在一些方面,本公开涉及生成带标签的核酸片段的文库的方法,该方法包括在足以将靶核酸片段化成多个靶片段并将3’转座子端序列的3’端接合到靶片段的5’端以产生多个带5’标签的靶片段的条件下,使该靶核酸与如本文所述的多个固定化转座体复合物接触。

本文提供的一些实施方案涉及用于在不使用PCR扩增的情况下生成带标签的核酸片段的文库的试剂盒。在一些实施方案中,该试剂盒包含如本文所述的固定化转座体复合物。

在一些方面,本公开涉及生成带标签的核酸片段的文库的方法,该方法包括在足以将靶核酸片段化成多个靶片段并将第一转座子的3’端接合到靶片段的5’端以产生多个带5’标签的靶片段的条件下使固定化转座体复合物与该靶核酸接触;处理固体载体以移除未结合的核酸;或者任选地通过如下方式来处理该固体载体以从复合物中移除转座酶:(a)加热该固体载体和/或(b)用酶变性剂洗涤该固体载体,其中该酶变性剂任选地包括十二烷基硫酸钠(SDS)、盐酸胍、脲或蛋白酶;用聚合酶和连接酶处理所述多个带5’标签的靶片段以延伸和连接这些带5’标签的靶片段,以产生完全双链带标签的片段,任选地其中用聚合酶和连接酶处理是在DNA二级结构破坏剂(disruptor)的存在下进行的,其中该破坏剂任选地为DMSO;从该固体载体移除该完全双链带标签的片段,任选地其中移除包括施加足以从该固体载体切割该完全双链带标签的片段的热和/或变性剂,任选地其中该变性剂为NaOH;以及使用捕获小珠选择该完全双链带标签的片段,任选地其中该捕获小珠为磁性小珠,进一步任选地其中执行两个单独的选择步骤。

在一些实施方案中,固定化转座体复合物包含:固体载体;和固定到该固体载体的转座体复合物,其中该转座体复合物包含:转座酶;第一转座子,该第一转座子包含3’转座子端序列和锚定序列(Anchor);第二转座子,该第二转座子包含5’转座子端序列和B15’序列;和附接多核苷酸,该附接多核苷酸包含锚定序列互补序列(Anchor’)、A14’序列、间隔区和P5’序列以及包含生物素的结合元件,其中该生物素固定到该固体载体。在一些实施方案中,方法还包括对完全双链带标签的片段中的一个或多个完全双链带标签的片段进行测序。

在一些实施方案中,方法包括在足以将靶核酸片段化成多个靶片段并将每个第一转座子的3’端接合到靶片段的5’端以产生由第一固定化转座体复合物生成的多个第一带5’标签的靶片段和由第二固定化转座体复合物生成的多个第二带5’标签的靶片段的条件下,使第一固定化转座体复合物和第二固定化转座体复合物与该靶核酸接触。在一些实施方案中,第一固定化转座体复合物包含固体载体和固定到该固体载体的第一转座体复合物,其中该第一转座体复合物包含:转座酶;第一转座子,该第一转座子包含3’转座子端序列和锚定序列;第二转座子,该第二转座子包含5’转座子端序列;和第一附接多核苷酸,该第一附接多核苷酸包含(i)锚定序列互补序列、A14’序列、间隔区和P5’序列,和(ii)包含生物素的结合元件,其中该生物素固定到该固体载体。在一些实施方案中,第二固定化转座体复合物包含固体载体和固定到该固体载体的第二转座体复合物,其中该第二转座体复合物包含:转座酶;第一转座子,该第一转座子包含3’转座子端序列和锚定序列;第二转座子,该第二转座子包含5’转座子端序列;和第二附接多核苷酸,该第二附接多核苷酸包含(i)锚定序列互补序列、B15’序列、间隔区和P7’序列,和(ii)包含生物素的结合元件,其中该生物素固定到该固体载体。在一些实施方案中,该方法包括用连接酶处理多个带5’标签的靶片段,以通过使该带5’标签的靶片段与第一索引寡核苷酸和第二索引寡核苷酸的池接触,将每个带5’标签的靶片段连接到第一索引寡核苷酸或第二索引寡核苷酸,其中每个第一索引寡核苷酸包含A14序列、i5序列和P5序列并且可与第一带5’标签的靶片段结合;并且其中每个第二索引寡核苷酸包含B15序列、i7序列和P7序列,并且可与第二带5’标签的靶片段结合,以产生连接到索引寡核苷酸的多个带5’标签的靶片段;任选地通过如下方式来处理该固体载体以从复合物中移除转座酶:(a)加热该固体载体和/或(b)用酶变性剂洗涤该固体载体,其中该酶变性剂任选地包括十二烷基硫酸钠(SDS)、盐酸胍、脲或蛋白酶;以及用聚合酶处理连接到索引寡核苷酸的所述多个带5’标签的靶片段,以延伸并产生完全双链带标签的片段。在一些实施方案中,接触第一固定化转座体复合物和第二固定化转座体复合物以及用连接酶处理多个带5’标签的靶片段是在单个反应中执行的。在一些实施方案中,双链带标签的片段在溶液中产生。

附图说明

图1是示出了在不使用PCR扩增的情况下生成带标签的核酸片段的文库的方法的实施方案的流程图。在第一步中,提供如本文所述并固定在固体载体上的转座体复合物。将靶核酸施加于固体载体,并进行片段标签化(Tagmentation)反应,从而生成带标签的且片段化的核酸。施加具有索引序列的索引混合物,并进行延伸和连接。最后,对带标签的核酸片段进行索引。在一些实施方案中,索引与延伸和连接同时发生,并且在其他实施方案中,索引在延伸和连接之后发生。在其他实施方案中,步骤的布置不同,诸如实施例9中所示。

图2A至图2B示出了在不使用PCR扩增的情况下制备带标签的核酸片段的文库的示意图和方法。图2A是转座体复合物的示例性构型,其中生物素(B)通过可切割接头而附接到一个转座子。在转座体复合物的该示例性实施方案中,该转座体复合物包含:转座酶;第一转座子,该第一转座子包含3’转座子端序列和5’衔接子序列;第二转座子,该第二转座子包含3’衔接子序列和与3’转座子端序列的至少一部分互补的5’转座子端序列;和结合元件,该结合元件通过可切割接头而附接到5’衔接子序列(图2A)。图2B示意性地示出了在不使用PCR扩增而是使用来自图2A的固定到固体载体(固体载体未示出)的示例性转座体复合物的情况下制备带标签的核酸片段的文库的方法的示例性步骤,包括片段标签化并洗涤、延伸和连接以及移除小珠的步骤。图2B示出了片段标签化、延伸和连接、从固体载体切割的步骤,在片段标签化中,将来自靶核酸的插入片段附加上标签。

图3A至图3C示出了在不使用PCR扩增的情况下生成带标签的核酸片段的文库的方法的示例性步骤。图3A示出了通过带有生物素(B,固体载体未示出)的附接多核苷酸固定到固体载体的转座体复合物。为简单起见,二聚体的描述示于图3A中,但未示于图3B至图3C中。图3B示出了仍与转座酶复合的带标签的且片段化的核酸(上图)和移除转座酶后的结构(下图)。图3B示出了具有结合到第一转座子的核酸片段(插入片段)的转座体复合物,其中该插入片段的5’端附接到3’转座子端序列。使用本文所述的方法移除转座酶,例如使用移除转座酶的试剂,诸如使用十二烷基硫酸钠(SDS)。图3C示出了在缺口填充和延伸(延伸和连接)后的结构(上图)以及在去杂交以从固体载体移除所生成的片段后的结构(下图)。如图3C所示,将索引加到固体载体,并与第二转座子的附接多核苷酸杂交。具体地,如图3C的实施方案所示,具有引物序列(P5序列)、索引序列(i5序列)和锚定序列的i5索引在互补序列处与附接多核苷酸杂交,使得P5与P5’杂交,并且Anchor与Anchor’杂交。类似地,在图3C的实施方案中,具有引物序列(P7)、索引序列(i7)和衔接子序列(B15序列)的i7索引在互补序列处与第二转座子杂交,使得P7与P7’杂交,i7与i7’杂交,并且B15与B15’杂交。在使固体载体与索引接触后,使用延伸和连接混合物(ELM)将片段延伸并连接。然后用试剂(诸如用NaOH)处理固体载体以使链序列变性,从而生成带标签的核酸片段。示出了转座体复合物的一个实施方案,其具有Tn5转座酶以及第一转座子和第二转座子。第一转座子包含与第二转座子的5’转座子端序列(ME’序列)杂交的3’转座子端序列(ME序列)。第二转座子还包含3’衔接子序列(B15’序列)。第一转座子包含5’衔接子序列(A14序列),其显示为与附接多核苷酸的附接衔接子序列(A14’序列)杂交。附接多核苷酸还包含锚定序列(Anchor’)、间隔区、引物序列(P5’序列)和附接到结合元件(B)的接头。转座体复合物是二聚体,具有两个二聚化的转座体单体。

图4A至图4E示出了比较经由示例性生物素(B,固体载体未示出)固定到固体载体的转座体复合物的各种构型的示意图,该转座体复合物包括索引小珠和通用小珠,每个小珠均在单索引模式和双索引模式下示出,对于在不使用PCR扩增的情况下生成带标签的核酸片段的文库的方法的实施方案,使用转座体复合物的变型,其中转座子和/或附接多核苷酸的组分彼此相比发生改变、排列或变化。图4A示出了附接到固体载体的转座体复合物的各种构型。图4A示出了转座体复合物的实施方案,显示了转座酶以及第一转座子和第二转座子,并通过附接多核苷酸而附接到固体载体。图4B示出了片段标签化后的各种构型。图4B示出了进行单索引或双索引的索引小珠或通用小珠的片段标签化反应,其中固体载体与结合到第一转座子的3’转座子端的核酸片段(插入片段)接触。图4C示出了延伸和连接之后的各种构型。图4C示出了进行单索引或双索引的索引小珠或通用小珠的延伸和连接,其中固体载体与索引混合物接触,该索引混合物与转座子或附接多核苷酸杂交,并且其中核酸片段被延伸。图4D示出了索引后的各种构型(未示出用于单索引的索引小珠,因为对该构型的索引在图4C中已完成)。图4D示出了进行双索引的索引小珠或进行单索引或双索引的通用小珠的索引。如图4D所示,进行单索引的索引小珠在图4C的延伸-连接步骤中已完成。固体载体与索引混合物接触,并将核酸片段加标签以用于索引。图4E示出了各种构型的示例性结果,显示了归一化读取频率随插入片段大小的变化。图4E示出了来自进行单索引或双索引的索引小珠或通用小珠的带标签的核酸片段的归一化读取频率。图4A至图4E具体地示出了转座体复合物的实施方案,其被布置为用于单索引的索引小珠(左上图)、用于单索引的通用小珠(右上图)、用于双索引的索引小珠(左下图)和用于双索引的通用小珠。对于图4A至图4E所示的索引小珠的实施方案,对于单索引和双索引(左图),附接多核苷酸在3’衔接子序列(B15’序列)处与第二转座子杂交。对于图4A至图4E所示的通用小珠的实施方案,对于单索引和双索引(右图),附接多核苷酸在5’衔接子序列(A14序列)处与第一转座子杂交。在一些实施方案中,可由原始样本制备归一化文库,使得从原始样本中提取核酸并将其直接输入到本文所述的系统或方法中,其中自归一化样本在一系列样本类型中提供紧密的CV。

图5A和图5B示出了用于非索引的示例性转座体复合物的示意图,显示了与含P7序列的转座子(图5A)或含P5序列的转座子(图5B)杂交的附接多核苷酸。具体地,图5A和图5B示出了与第一转座子上的5’衔接子序列(A14序列)接合的引物序列(P5序列)和与第二转座子上的3’衔接子序列(B15’序列)接合的引物序列(P7’序列),从而提供非索引的转座体复合物。附接多核苷酸可使用5’结合元件(B)在第二转座子上杂交(图5A),或使用3’结合元件(B)在第一转座子上杂交(图5B)。

图6A至图6D示出了包含i5索引序列的示例性转座体复合物的示意图。图6A示出了复合物,其中包含硝基序列和锚定序列的附接多核苷酸可与索引寡核苷酸杂交,然后该索引寡核苷酸可连接到第一转座子的5’端。在图6A中,该转座体复合物包含:含有3’转座子端序列(ME)和5’衔接子序列(A14)的第一转座子,含有5’转座子端序列(ME’)和3’衔接子序列(B15’)的第二转座子,以及含有与第一转座子中的A14杂交的附接衔接子序列(A14’)和结合元件(生物素)的附接多核苷酸。在这种情况下,附接多核苷酸还包含硝基吲哚序列(与任一i5索引区结合的通用序列)和引物序列(P5’)。第二转座子的B15’区可与包含互补序列(B15)、索引区和P7引物序列的多核苷酸杂交,P7引物序列本身与P7’-i7’索引分子退火。i7’索引区的5’端与3’衔接子序列的3’端的连接用于生成完全双链区。

图6B示出了包含锚定序列和间隔区的附接多核苷酸,该附接多核苷酸可与索引寡核苷酸杂交,然后该索引寡核苷酸可连接到第一转座子的5’端。在图6B中,第一转座子包含3’转座子端序列(ME)和5’衔接子序列(A14),并且第二转座子包含5’转座子端序列(ME’)和3’衔接子序列(B15’),如图6A所示。然而,在这种情况下,附接多核苷酸包含衔接子互补序列(A14’)、Anchor’序列、2×sp18间隔区、引物互补序列(P5’)和生物素结合元件。i5索引包含锚定序列(与Anchor’互补)、i5索引区和引物序列(P5)。i5索引跨间隔区与附接多核苷酸上的互补锚定序列和引物序列杂交。

图6C示出了包含间隔区和A14’序列的附接多核苷酸,该附接多核苷酸可与索引寡核苷酸杂交,然后该索引寡核苷酸可连接到第一转座子的5’端处的序列X。在图6C中,第一转座子包含3’转座子端序列(ME)和5’衔接子序列X,并且第二转座子包含5’转座子端序列(ME’)和3’衔接子序列(B15’)。附接多核苷酸包含5’衔接子序列(X’)的互补序列、第二衔接子序列(A14’)、间隔区(2×sp18)、引物互补序列(P5’)和生物素结合元件。5’衔接子序列(X’)与第一转座子5’衔接子序列(X)杂交。i5索引包含第二衔接子序列的互补序列(A14)、2×sp18间隔区和引物序列(P5)。i5索引跨间隔区与附接多核苷酸上的第二衔接子序列和引物互补序列杂交,并且第二衔接子序列的互补序列的3’端连接到序列X。此外,使包含5’引物序列(P7)、i7索引区和3’衔接子序列的互补序列(B15)的i7索引退火,并且使3’衔接子序列的3’端延伸以产生双链区域。

图6D示出了包含间隔区和A14’序列的附接多核苷酸,该附接多核苷酸可与索引寡核苷酸杂交,然后该索引寡核苷酸可连接到第一转座子的5’端处的序列X。在这种情况下,索引寡核苷酸包含双链引物区。在图6D中,第一转座子、第二转座子和附接多核苷酸如图6C所示。i7索引包含双链引物(P7/P7’)、i7索引区和3’衔接子序列的互补序列(B15)。i7索引中的双链区域可在延伸连接反应期间形成(退火),例如,不需要在反应本身之前使i7索引退火。P7’寡核苷酸可包含在反应混合物中。i7索引经由B15区退火,并且自第二转座子的延伸和连接形成双链区。该方法的示例在实施例5中示出。

图7A至图7B示出了在使用和不使用PCR扩增的情况下执行生成带标签的核酸片段的文库的方法的示例性结果,包括indel查准率和查全率提高的结果(图7A)以及富含GC的启动子中覆盖度改善的结果(图7B)。使用四种方法生成这些数据,两种使用PCR(TruSeq

图8示出了来自含有已知的100%GC重复扩增(FMR1)的样本的测序文库的结果,该测序文库使用Nextera

图9A至图9C示出了使用八个索引对连同图6C的系统制备的文库的%CV结果(图9A中的数据)以及连同图6D的系统制备的文库的%CV结果(图9B和图9C中的两个反应条件的数据),如实施例5中所述。

图10示出了采用PCR文库制备方法(Nextera Flex或基于管的Nextera)对基因RNPEPL1的区域中的缺口覆盖度测序的图形表示,但使用本文所述的无PCR方法则缺口覆盖度较少(下面的两个图)。

具体实施方式

片段化核酸文库通常由用于下一代测序(NGS)应用的基因组核酸形成。本公开提供了用于生成片段化核酸文库的方法、组合物和试剂盒,该片段化核酸文库附加上执行测序操作所需的序列(包括索引),而无需使用PCR通过扩增来添加序列(本文也称为无PCR文库生成或无PCR文库制备)。这种无PCR转座体文库制备方法可减少和/或消除由用于文库制备的当前片段标签化方法中的PCR引起的偏差。

片段标签化是指转座酶用于将核酸片段化并加标签。片段标签化包括通过转座体复合物修饰DNA,该转座体复合物包含与包含转座子端序列的接头(本文称为转座子)复合的转座酶。片段标签化导致DNA的片段化和接头与双链体片段的两条链的5’端的连接同时发生。一般来讲,在移除转座酶的纯化步骤后,通过PCR将额外序列加到适应片段的末端。

本文所述的方法、组合物、系统和试剂盒涉及复合的杂交寡核苷酸,包含那些杂交体的转座体复合物(包括固定在表面上的复合物),以及该转座体复合物用于无PCR文库生成的用途。如本文所述,转座体复合物包括将靶DNA分子片段化并加标签的转座酶和相关联的转座子。在一些方面,复合的杂交寡核苷酸是可切割的并且包括结合元件,并且在其他方面,复合的杂交寡核苷酸包含具有结合元件的附接多核苷酸。在一些方面,附接多核苷酸是与转座体复合物中的转座子杂交并且固定在固体载体(诸如载玻片、流通池或小珠)上的核酸序列。由于附接多核苷酸与转座子的杂交,转座体复合物可通过附接多核苷酸间接固定在固体载体上。附接多核苷酸与固体载体的结合通过附接多核苷酸上的结合元件发生。通过转座体复合物捕获靶核酸,然后将该核酸片段化并加标签(“片段标签化”)。寡核苷酸系统被设计成允许经由片段标签化、延伸和/或连接步骤掺入索引和测序所需的任何标签,而无需PCR扩增。因此,在一些方面,可延伸并连接带标签的片段,并且在不扩增的情况下进行索引,以在不使用PCR扩增的情况下生成核酸片段的文库。

基于溶液的标签具有缺点并且需要若干劳动密集型步骤。另外,可能在用于引入标签序列的PCR扩增步骤期间引入偏差。例如,降低的indel可能是由于聚合酶脱落导致的PCR结果。此外,PCR聚合酶在某些区域(诸如高GC区域或AT或其他序列重复区域)有困难,这会导致基因组中出现缺口或错误的结构变异检出,或遗漏的重复扩增。

本文提供的方法、组合物、系统和试剂盒克服了这些缺点,并且允许在对样本操纵或转移的最低要求下进行无偏差的样本制备和测序。本文所述的方法、组合物、系统和试剂盒涉及在不使用PCR扩增的情况下生成文库。无PCR的方法减少和/或消除了由PCR引起的偏差,包括:减少缺口的数量和频率,特别是在难以进行PCR的富含GC的区域中;提高indel检出性能,包括提高indel查全率和indel查准率;提高重复扩增的检出;以及提高在富含GC的启动子中的覆盖度。本申请公开了用于进行无PCR片段标签化以改进核酸文库生成的各种转座体复合物设计。

此外,本文所述的方法、组合物、系统和试剂盒可在少于核酸样本制备和使用其他方法(诸如基于PCR的方法)分析的时间段内进行。因此,在一些实施方案中,生成如本文所述的带标签的核酸片段的文库的方法可在小于约5小时,例如小于5小时、小于4小时、小于3小时或小于2小时的时间段内进行。在一些实施方案中,生成如本文所述的带标签的核酸片段的文库的方法可进行约90分钟至约300分钟范围内的时间段,诸如90分钟、105分钟、120分钟、135分钟、150分钟、165分钟、180分钟、195分钟、210分钟、225分钟、240分钟、255分钟、270分钟、285分钟或300分钟,或者进行由前述值中任两个值所限定范围内的时间量。

此外,在一些实施方案中,使用本文所述的方法、组合物、系统和试剂盒导致非时间依赖性的核酸片段化,转座体的固定导致一致的插入片段大小,并且饱和允许整合提取和无定量文库制备。

本文所述的方法、组合物、系统和试剂盒的额外优点涉及转座体复合物在固体表面上的固定,并且包括例如减少手动和总的文库制备时间、成本和试剂要求,降低样本起始量要求,以及能够使用未纯化或降解的样本作为文库制备的起点。此外,即使在使用不同的样本起始浓度时,本文所述的转座体复合物也产生相对于溶液相方法具有更一致插入片段大小的文库。

在一些实施方案中,可使用任何合适的核酸测序平台对通过本文所公开的方法获得的核酸文库进行测序,以确定靶序列的核酸序列。在一些方面,感兴趣的序列与一种或多种先天性或遗传性疾病、致病性、抗生素抗性或基因修饰有关或相关联。测序可用于确定短串联重复序列、单核苷酸多态性、基因、外显子、编码区、外显子组或其部分的核酸序列。因此,本文所述的方法和组合物涉及创建可测序文库,该文库可用于但不限于癌症和疾病诊断、预后和治疗、DNA指纹应用(例如,DNA数据库、刑事案件工作)、宏基因组研究和发现、农业基因组学应用以及病原体鉴定和监测。

在一些实施方案中,附接衔接子序列与5’衔接子序列的至少一部分杂交,并且结合元件位于附接多核苷酸的3’端。在一些实施方案中,附接衔接子序列与3’衔接子序列的至少一部分杂交,并且结合元件位于附接寡核苷酸的5’端。

除非另有定义,否则本文所用的所有技术和科学术语的含义与本领域的普通技术人员通常理解的含义相同。除非另有说明,否则本文引用的所有专利、申请、公开的申请和其他出版物均全文以引用方式并入。在本文术语有多个定义的情况下,除非另有说明,否则以本节中的定义为准。如在说明书和所附权利要求书中所用的,单数形式“一个”、“一种”和“所述”包括复数指代物,除非上下文另有明确规定。除非另有说明,否则采用质谱、NMR、HPLC、蛋白质化学、生物化学、重组DNA技术和药理学的常规方法。除非另有说明,否则使用“或”或“和”表示“和/或”。此外,术语“包括”以及其他形式(诸如“包含”、“含有”和“具有”)的使用不是限制性的。如本说明书中所用,无论是在过渡短语中还是在权利要求的正文中,术语“包括”和“包含”都将被解释为具有开放式含义。即,术语应与短语“至少具有”或“至少包括”同义地解释。当在过程的上下文中使用时,术语“包括”表示该过程至少包括所列举的步骤,但是也可包括额外步骤。当在化合物、组合物或设备的上下文中使用时,术语“包含”是指该化合物、组合物或设备至少包含所列举的特征或组分,但是也可包含额外特征或组分。

本文所用的章节标题仅用于组织目的,而不应理解为限制所述主题。

本文提供的一些实施方案涉及用于在不使用PCR扩增的情况下生成带标签的核酸片段的文库的组合物。在一些实施方案中,该组合物包含固体载体和固定到固体载体的转座体复合物。在一些实施方案中,该转座体复合物包含转座酶、第一转座子、附接多核苷酸和第二转座子。在一些实施方案中,第一转座子包含3’转座子端序列和5’衔接子序列。在一些实施方案中,附接多核苷酸包含与5’衔接子序列杂交的附接衔接子序列和结合元件。在一些实施方案中,第二转座子包含5’转座子端序列和3’衔接子序列。在一些实施方案中,转座体复合物通过附接多核苷酸固定到固体载体。在一些实施方案中,附接多核苷酸还包含引物序列。

在一些实施方案中,结合元件包含或为任选取代的生物素。在一些实施方案中,结合元件经由接头连接到附接多核苷酸。在一些实施方案中,结合元件包含或为生物素接头。在一些实施方案中,结合元件包含或为3’、5’或内部生物素。

在一些实施方案中,3’转座子端序列包含嵌合端(ME)序列,并且5’转座子端序列包含ME’序列。在一些实施方案中,5’衔接子序列包含A14序列,并且附接衔接子序列包含A14’序列。在一些实施方案中,3’衔接子序列包含B15’序列。在一些实施方案中,3’衔接子序列与索引衔接子序列的至少一部分互补。在一些实施方案中,索引衔接子序列包含B15序列。在一些实施方案中,附接多核苷酸的一部分包含引物序列,诸如P5’引物序列。在一些实施方案中,附接多核苷酸的引物序列与索引寡核苷酸序列的至少一部分(诸如P5引物序列)互补。

在一些实施方案中,转座体复合物经由如本文所述的结合元件(和任选的接头)固定在固体载体上。在一些实施方案中,固体载体为小珠、顺磁性小珠、流通池、微流体设备的表面、管、板的孔、载玻片、图案化表面或微粒。在一些实施方案中,固体载体包含或为小珠。在一个实施方案中,小珠为顺磁性小珠。在一些实施方案中,固体载体包含多个固体载体。在一些实施方案中,转座体复合物固定在多个固体载体上。在一些实施方案中,所述多个固体载体包含多个小珠。在一些实施方案中,多个转座体复合物以至少10

基于转座子的技术可用于将DNA片段化,例如,如在NEXTERA

转座反应是其中一个或多个转座子在随机位点或几乎随机位点处插入靶核酸中的反应。转座反应中的组分包括转座酶(或能够将如本文所述的核酸片段化并加标签的其他酶,诸如整合酶)和转座子元件,该转座子元件包括与转座酶(或如本文所述的其他酶)结合的双链转座子端序列,以及附接到这两个转座子端序列之一的衔接子序列。双链转座子端序列的一条链被转移到靶核酸的一条链上,而互补转座子端序列链则没有被转移(非转移转座子序列)。根据需要或期望,衔接子序列可包含一种或多种功能序列或组分(例如,引物序列、锚定序列、通用序列、间隔区或索引标签序列)。

“转座体复合物”由至少一种转座酶(或如本文所述的其他酶)和转座子识别序列构成。在一些此类系统中,转座酶与转座子识别序列结合以形成能够催化转座反应的功能性复合物。在一些方面,转座子识别序列为双链转座子端序列。转座酶与靶核酸中的转座酶识别位点结合并将转座子识别序列插入靶核酸中。在一些此类插入事件中,转座子识别序列(或端序列)的一条链被转移到靶核酸中,导致切割事件。可容易地适于与转座酶一起使用的示例性转座程序和系统。

可与本文提供的某些实施方案一起使用的示例性转座酶包括(或编码自):Tn5转座酶、睡美人(Sleeping Beauty,SB)转座酶、哈氏弧菌(Vibrio harveyi)、MuA转座酶和包含R1和R2端序列的Mu转座酶识别位点、金黄色葡萄球菌(Staphylococcus aureus)Tn552、Ty1、Tn7转座酶、Tn/O和IS10、水手转座酶、Tc1、P元件、Tn3、细菌插入序列、逆转录病毒和酵母的逆转座子。更多示例包括IS5、Tn10、Tn903、IS911和转座酶家族酶的工程化版本。本文所述的方法还可包括转座酶的组合,而不仅仅是单个转座酶。

在一些实施方案中,转座酶是Tn5、Tn7、MuA或哈氏弧菌转座酶或其活性突变体。在其他实施方案中,转座酶是Tn5转座酶或其突变体。在其他实施方案中,转座酶是Tn5转座酶或其突变体。在其他实施方案中,转座酶是Tn5转座酶或其活性突变体。在一些实施方案中,Tn5转座酶是高活性Tn5转座酶或其活性突变体。在一些方面,Tn5转座酶是如PCT公布第WO2015/160895号中所述的Tn5转座酶,其以引用方式并入本文。在一些方面,Tn5转座酶是相对于野生型Tn5转座酶在具有第54、56、372、212、214、251和338位处的突变的高活性Tn5。在一些方面,Tn5转座酶是相对于野生型Tn5转座酶具有下列突变的高活性Tn5:E54K、M56A、L372P、K212R、P214R、G251R和A338V。在一些实施方案中,Tn5转座酶是融合蛋白。在一些实施方案中,Tn5转座酶融合蛋白包含融合的延伸因子Ts(Tsf)标签。在一些实施方案中,Tn5转座酶是相对于野生型序列包含在第54、56和372位氨基酸处的突变的高活性Tn5转座酶。在一些实施方案中,高活性Tn5转座酶是融合蛋白,任选地其中该融合蛋白是延伸因子Ts(Tsf)。在一些实施方案中,识别位点是Tn5型转座酶识别位点(Goryshin和Reznikoff,J.Biol.Chem.,第273卷:第7367页,1998年)。在一个实施方案中,使用与高活性Tn5转座酶形成复合物的转座酶识别位点(例如,EZ-Tn5

在一些实施方案中,转座体复合物包含转座酶的两个分子的二聚体。在一些实施方案中,转座体复合物是同源二聚体,其中转座酶的两个分子各自结合到相同类型的第一转座子和第二转座子(例如,结合到每个单体的两个转座子的序列是相同的,从而形成“同源二聚体”)。在一些实施方案中,本文所述的组合物和方法采用转座体复合物的两个群体。在一些实施方案中,每个群体中的转座酶是相同的。在一些实施方案中,每个群体中的转座体复合物是同源二聚体,其中第一群体在每个单体中具有第一衔接子序列,并且第二群体在每个单体中具有不同的衔接子序列。

在一些实施方案中,转座酶复合物包含具有第一单体和第二单体的转座酶(例如,Tn5转座酶)二聚体。在一些方面,每个单体包含第一转座子、第二转座子和附接多核苷酸,其中第一转座子在其3’端包含转座子端序列(也称为3’转座子端序列)并且在其5’端包含衔接子序列(也称为5’衔接子序列);第二转座子在其5’端包含转座子端序列(也称为5’转座子端序列)并且在其3’端包含衔接子序列(也称为3’衔接子序列);并且附接多核苷酸包含与第一转座子的5’衔接子序列杂交的附接衔接子序列、引物序列和接头。在一些实施方案中,第二转座子的5’转座子端序列与第一转座子的3’转座子端序列至少部分地互补。在一些实施方案中,附接多核苷酸的附接衔接子序列与第一转座子的5’衔接子序列至少部分地互补。在一些实施方案中,附接多核苷酸的接头包含结合元件。

在本文所述方法的任何实施方案中,第一转座子包含3’转座子端序列,并且第二转座子包含5’转座子端序列。在一些实施方案中,5’转座子端序列与3’转座子端序列至少部分地互补。在一些实施方案中,互补的转座子端序列杂交以形成与转座酶(或如本文所述的其他酶)结合的双链转座子端序列。在一些实施方案中,转座子端序列为嵌合端(ME)序列。因此,在一些实施方案中,3’转座子端序列为ME序列,并且5’转座子端序列为ME’序列。

在本文所述方法的任何实施方案中,第一转座子包含5’衔接子序列,并且第二转座子包含3’衔接子序列。衔接子序列可包含一种或多种功能序列或组分,这些功能序列或组分选自引物序列、锚定序列、通用序列、间隔区、索引序列、捕获序列、条形码序列、切割序列、测序相关序列以及它们的组合。在一些实施方案中,衔接子序列包含引物序列。在其他实施方案中,衔接子序列包含引物序列和索引或条形码序列。引物序列也可以是通用序列。本公开不限于可使用的衔接子序列的类型,并且技术人员将认识到可用于文库制备和下一代测序的额外序列。通用序列是两个或更多个核酸片段共有的核苷酸序列区域。任选地,所述两个或更多个核酸片段还具有序列差异区域。可存在于多个核酸片段的不同成员中的通用序列可允许使用与通用序列互补的单个通用引物来复制或扩增多个不同序列。

在一些实施方案中,附接多核苷酸包含与5’衔接子序列杂交的附接衔接子序列。在一些实施方案中,附接衔接子序列与5’衔接子序列至少部分地互补。在一些实施方案中,衔接子序列为A14序列或B15序列。因此,在一些实施方案中,5’衔接子序列为A14序列并且附接衔接子序列为A14’序列。在一些实施方案中,3’衔接子序列为B15’序列。在一些实施方案中,衔接子序列是用于杂交的任何序列(本文称为序列X)。在一些实施方案中,序列X包含16-20个核苷酸。在一些实施方案中,序列X具有与衔接子序列类似的解链温度(Tm)。在一些实施方案中,当序列X的Tm具有与衔接子序列的Tm相似的解链温度时,测序结果得到改善。在一些实施方案中,序列X具有与A14序列或B15序列类似的解链温度。在一些实施方案中,序列X的Tm为53°-56°。在一些实施方案中,通过片段标签化反应将衔接子序列转移到核酸片段的5’端。

在任一实施方案中,衔接子序列或转座子端序列,包括A14-ME、ME、B15-ME、ME’、A14、B15和ME提供如下:

A14-ME:5’-TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG-3’(SEQ ID NO:1)

B15-ME:5’-GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG-3’(SEQ ID NO:2)

ME’:5’-phos-CTGTCTCTTATACACATCT-3’(SEQ ID NO:3)

A14:5’-TCGTCGGCAGCGTC-3’(SEQ ID NO:4)

B15:5’-GTCTCGTGGGCTCGG-3’(SEQ ID NO:5)

ME:AGATGTGTATAAGAGACAG(SEQ ID NO:6)

本文所述的转座体复合物的实施方案包括附接多核苷酸。如本文所用,附接多核苷酸是在一端与转座子杂交并在第二端与表面结合的多核苷酸。因此,通过附接多核苷酸将本文所述的转座体复合物固定到固体载体。在一些实施方案中,附接多核苷酸包含与第一转座子的衔接子序列或第二转座子的衔接子序列杂交的附接衔接子序列、引物序列和接头。在一些实施方案中,该接头包含结合元件。

如本文所述,附接衔接子序列可与第一转座子或第二转座子的衔接子序列至少部分地互补。在一些实施方案中,附接衔接子序列与5’衔接子序列杂交。在其中5’衔接子序列为A14序列的实施方案中,当附接衔接子序列与5’衔接子序列杂交时,附接衔接子序列为A14’序列。在一些实施方案中,衔接子序列为序列X。在一些实施方案中,附接衔接子序列与3’衔接子序列杂交。在其中3’衔接子序列为B15’序列的实施方案中,当附接衔接子序列与3’衔接子序列杂交时,附接衔接子序列为B15’序列。在这些实施方案的任一个实施方案中,附接衔接子序列可与第一转座子或第二转座子的衔接子序列完全互补或与第一转座子或第二转座子的衔接子序列部分互补。

在一些实施方案中,附接多核苷酸包含引物序列。在一些实施方案中,引物序列为P5引物序列或P7引物序列或其互补序列(例如,P5’或P7’)。P5和P7引物在由Illumina,Inc.销售的商业流通池的表面上使用,用于在各种Illumina平台上测序。引物序列在美国专利公布第2011/0059865号中有所描述,该专利公布全文以引用方式并入本文。P5和P7引物(其可以是在5’端封端的炔烃)的示例包括如下引物:

P5:AATGATACGGCGACCACCGAGAUCTACAC(SEQ ID NO:7)

P7:CAAGCAGAAGACGGCATACGAG*AT(SEQ ID NO:8)

以及它们的衍生物。在一些示例中,P7序列包括在G*位置处的经修饰的鸟嘌呤,例如8-氧代-鸟嘌呤。在其他示例中,*表示G*与相邻的3’A之间的键为硫代磷酸酯键。在一些示例中,P5和/或P7引物包括非天然接头。任选地,P5和P7引物中的一者或两者可包括polyT尾。poly T尾通常位于上文所示序列的5’端处,例如介于5’碱基和末端炔烃单元之间,但在一些情况下可位于3’端处。poly T序列可包含任何数量(例如2个至20个)的T核苷酸。虽然P5和P7引物作为示例提供,但应当理解,任何合适的引物都可用于本文提出的示例中。具有引物序列(包括P5和P7引物序列)的索引序列用来添加P5和P7以激活用于测序的文库。虽然P5和P7引物作为示例提供,但应当理解,任何合适的扩增引物都可用于本文提出的示例中。

如本文所用,接头的一个示例为将结合元件共价连接到附接多核苷酸的核苷酸部分的末端并且可用于将附接多核苷酸固定到固体载体的部分。接头可为可切割接头,例如能够被切割以从固体载体移除附接多核苷酸并因此移除转座体复合物或片段标签化产物的接头。本文所用的可切割接头是可通过化学或物理手段切割的接头,该化学或物理手段例如光解、化学切割、热切割或酶切割。在一些实施方案中,切割可通过生物化学、化学、酶、亲核、还原敏感剂或其他手段进行。可切割接头可包含选自以下的部分:限制性核酸内切酶位点;至少一种可用RNA酶切割的核糖核苷酸;在某些化学试剂的存在下可切割的核苷酸类似物;可光解的接头单元;可通过用(例如)高碘酸盐处理而被切割的二醇键;可用化学还原剂切割的二硫化物基团;可进行光化学切割的可切割部分;以及可通过肽酶或其他合适的手段切割的肽。切割可通过将可切割的核苷酸或核碱基掺入可切割接头(诸如尿嘧啶或8-氧代-鸟嘌呤)中酶促地介导。

在一些实施方案中,本文所述的接头可共价和直接附接到附接多核苷酸,例如,形成-O-键,或者可通过另一基团诸如磷酸盐或酯共价附接。另选地,本文所述的接头可共价附接到附接多核苷酸的磷酸基团,例如,经由磷酸基团共价附接到3’羟基,从而形成–O–P(O)

如本文所用,结合元件是可用于共价或非共价结合到结合配偶体的部分。在一些方面,结合元件在转座体复合物上,并且结合配偶体在固体载体上。在一些实施方案中,结合元件可以结合或非共价结合到固体载体上的结合配偶体,从而将转座体复合物非共价附接到固体载体。在一些实施方案中,结合元件能够(共价或非共价)结合到固体载体上的结合配偶体。在一些方面,结合元件(共价或非共价)结合到固体载体上的结合配偶体,从而产生固定的转座体复合物。

在此类实施方案中,结合元件包含或为例如生物素,并且结合配偶体包含或为亲和素或链霉亲和素蛋白。在其他实施方案中,结合元件/结合配偶体组合包含或为FITC/抗FITC、地高辛/地高辛抗体或半抗原/抗体。其他合适的结合对包括但不限于二硫代生物素-亲和素、亚氨基生物素-亲和素、生物素-亲和素、二硫代生物素-琥珀酰化亲和素、亚氨基生物素-琥珀酰化亲和素、生物素-链霉亲和素和生物素-琥珀酰化亲和素。在一些实施方案中,结合元件为生物素,并且结合配偶体为链霉亲和素。

在一些实施方案中,结合元件可通过化学反应结合到结合配偶体,或者通过与固体载体上的结合配偶体反应共价结合,从而将转座体复合物共价附接到固体载体。在一些方面,结合元件/结合配偶体组合包含或为胺/羧酸(例如,在本领域普通技术人员已知的条件下经由标准肽偶联反应诸如EDC或NHS介导的偶联结合)。两种组分的反应通过酰胺键接合结合元件和结合配偶体。另选地,结合元件和结合配偶体可以是两个点击化学配偶体(例如,叠氮化物/炔烃,它们反应形成三唑键)。

在一些实施方案中,附接多核苷酸还包含额外序列或组分,诸如通用序列、间隔区、锚定序列或索引标签序列或它们的组合。通用序列是两个或更多个核酸片段共有的核苷酸序列区域。任选地,该两个或更多个核酸片段还具有序列差异区域。可存在于多个核酸片段的不同成员中的通用序列可允许使用与通用序列互补的单个通用引物来复制或扩增多个不同序列。

在一些实施方案中,第一转座子还包含5’衔接子序列的5’引物序列,并且附接多核苷酸包含(i)与5’衔接子序列互补并杂交的部分和(ii)互补引物序列(参见例如图4A,单索引,通用小珠)。此类构建体可用作单索引应用的通用小珠,因为不采用索引标签序列。

在一些实施方案中,第一转座子还包含5’衔接子序列的5’引物序列,并且附接多核苷酸包含索引标签序列和引物序列(参见例如图4A,单索引,索引小珠)。

在一些实施方案中,第一转座子包含5’衔接子序列,并且附接多核苷酸包含(i)与5’衔接子序列互补并杂交的部分,(ii)间隔区,和(iii)引物序列(参见例如图4A,通用小珠,双索引)。

在一些实施方案中,第二转座子包含3’衔接子序列,并且附接多核苷酸包含(i)与3’衔接子序列互补并杂交的部分,(ii)索引标签序列,和(iii)引物序列(参见例如图4A,双索引,索引小珠)。

在一些实施方案中,附接多核苷酸包含间隔区(参见例如图4A)或间隔区和锚定区(参见例如图3)。如本文所用,间隔区是序列,是指不携带已知基因功能的任何结构或编码信息的核酸序列。附接多核苷酸上的间隔区能够与具有不同序列(例如,具有一系列i5序列)的索引寡核苷酸比对。在一些实施方案中,间隔区为通用序列。在一些实施方案中,间隔区为非DNA间隔子。在一些实施方案中,间隔区包含通用碱基,诸如肌苷或硝基吲哚。在一些实施方案中,间隔区包含sp18接头。如本文所用,sp18接头是具有C18间隔子(18个原子的六乙二醇间隔子)的标准修饰接头,并且长度等于4个碱基对。因此,2×sp18接头的长度等于8个碱基对。在一些实施方案中,间隔区包含2×sp18合成接头。在一些实施方案中,间隔区包含一个或多个C18间隔子,诸如1、2、3、4、5、6或更多个C18间隔子。在一些实施方案中,间隔区包含两个C18间隔子(其长度等于8个核苷酸)。在一些实施方案中,间隔子为C9间隔子,长度等于2个碱基对。在一些实施方案中,间隔区包含一个或多个C9间隔子(三乙二醇间隔子),诸如1、2、3、4、5、6或更多个C9间隔子。在一些实施方案中,间隔子是与现有索引一起使用的常规间隔子,诸如10碱基对间隔子。在一些实施方案中,间隔区是间隔子的组合,例如,一个或多个C18间隔子和一个或多个C9间隔子的组合,或本文所述的任何间隔子的任何组合。在一些实施方案中,间隔区的长度等于2、3、4、5、6、7、8、9、10、12、15、20或30个碱基对。在一些实施方案中,间隔区的长度大约等于8或10个碱基对或核苷酸。在一些实施方案中,间隔区被特别选择为与索引区相同的长度。在一些实施方案中,索引区为8个核苷酸长,并且间隔区包含两个C18间隔子。在一些实施方案中,索引区为10个核苷酸长,并且间隔区包含两个C18间隔子和一个C9间隔子。

在一些方面,附接多核苷酸包含锚定序列。在一些实施方案中,锚定序列为GGATATGCTCGG(SEQ ID NO:22)。在一些实施方案中,锚定序列为A14序列(SEQ ID NO:4)。如本文所用,锚定区是指与索引寡核苷酸中的锚定互补区互补并能使这两种组分杂交的DNA序列(参见例如图3B)。在一些方面,锚定区与索引寡核苷酸的锚定互补区的一部分互补,其中索引寡核苷酸包含锚定互补区和索引标签序列(-Anchor’–Index Tag Sequence–)。在一些实施方案中,锚定序列与多个索引寡核苷酸共有的锚定互补区互补。在一些实施方案中,多个索引寡核苷酸中的每个索引标签序列相同(无索引)或不同(索引)。在一些实施方案中,索引标签序列为i5序列。附接多核苷酸还可包含用于提高附接多核苷酸结合到索引的效率和功能的额外序列元件或组分,这些序列元件或组分包括例如引物序列、锚定序列、通用序列、间隔区、索引序列、捕获序列、条形码序列、切割序列、测序相关序列以及它们的组合。在一些实施方案中,附接多核苷酸包含A14’序列。

可实现转座体复合物的变型,包括转座酶、转座子和附接多核苷酸。例如,可实现转座体复合物的构型、设计、杂交、结构元件和整体布置上的变型。本文提供的公开内容和附图提供了几种变型,但应当理解,可容易地实现本公开范围内的额外变型。

术语“固体表面”、“固体载体”和其他语法等同形式物是指适于或可被修饰成适于转座体复合物的附接的任何材料。如本领域技术人员将会理解的,可能的基板的数量很多。可能的基板包括但不限于玻璃和改性或官能化的玻璃、塑料(包括丙烯酸、聚苯乙烯以及苯乙烯和其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、特氟隆等)、多糖、多面体有机倍半硅氧烷(POSS)材料、尼龙或硝化纤维、陶瓷、树脂、二氧化硅或基于二氧化硅的材料(包括硅和改性硅)、碳、金属、无机玻璃、塑料、光纤束、小珠、顺磁性小珠和各种其他聚合物。

合适的小珠组合物包括但不限于塑料、陶瓷、玻璃、聚苯乙烯、甲基苯乙烯、丙烯酸聚合物、顺磁性材料、氧化钍溶胶、碳石墨、二氧化钛、乳胶或交联葡聚糖(诸如琼脂糖凝胶)、纤维素、尼龙、交联胶束和特氟隆,以及本文概述的用于固体载体的任何其他材料。在某些实施方案中,微球体是磁性微球体或小珠,例如顺磁性颗粒、球体或小珠。小珠无需为球形的;可使用不规则的颗粒。另选地或除此之外,小珠可为多孔的。小珠尺寸在纳米(例如,100nm)至毫米(例如,1mm)的范围内,其中约0.2微米至约200微米的小珠是优选的,约0.5微米至约5微米的小珠是特别优选的,但在一些实施方案中可使用更小或更大的小珠。小珠可用结合配偶体包被,例如,小珠可用链霉亲和素包被。在一些实施方案中,小珠是链霉亲和素包被的顺磁性小珠,例如Dynabeads MyOne链霉亲和素C1小珠(ThermoScientific,目录号65601)、链霉亲和素MagneSphere顺磁性颗粒(Promega目录号Z5481)、链霉亲和素磁性小珠(NEB目录号S1420S)和MaxBead链霉亲和素(Abnova目录号U0087)。固体载体也可以是载玻片,例如已经被修饰使得转座体复合物可被固定于其上的流通池或其他载玻片。

在一些实施方案中,结合配偶体以1000pmol/mg至约6000pmol/mg、或约2000pmol/mg至约5000pmol/mg、或约3000pmol/mg至约5000pmol/mg、或约3500pmol/mg至约4500pmol/mg的密度存在于固体载体或小珠上。

在一个实施方案中,固体表面为样本管的内表面。在另一个实施方案中,固体表面为捕获膜。在一个示例中,捕获膜为生物素捕获膜(例如,得自Promega Corporation)。在另一个示例中,捕获膜为滤纸。在本公开的一些实施方案中,固体载体由惰性基板或基质(例如,载玻片、聚合物小珠等)构成,该惰性基板或基质已例如通过施加包含反应性基团的中间材料层或涂层被官能化,该反应性基团允许共价附接到分子诸如多核苷酸。此类载体的示例包括但不限于负载在惰性基板诸如玻璃上的聚丙烯酰胺水凝胶,尤其是如WO2005/065814和US2008/0280773中所述的聚丙烯酰胺水凝胶,这些专利的内容全文以引用方式并入本文。在WO2016/189331和US2014/0093916A1中描述了在固体表面上将DNA片段标签化(片段化并加标签)以构建片段标签化的DNA文库的方法,这些专利全文以引用方式并入本文。在一些实施方案中,经由结合元件将本文所述的转座体复合物固定到固体载体。在一些此类实施方案中,固体载体包含链霉亲和素作为结合配偶体,并且结合元件为生物素。

在一些实施方案中,转座体复合物以特定的密度或密度范围固定在固体载体诸如小珠上。在一些实施方案中,固体载体上复合物的密度是指固定反应期间溶液中转座体复合物的浓度。复合物密度假定固定反应是定量的。一旦复合物以特定密度形成,则该密度对于该批表面结合的转座体复合物保持恒定。可稀释所得的小珠,并且所得的复合物在稀释溶液中的浓度为小珠的制备密度除以稀释因子。稀释的小珠原液保留了制备时的复合物密度,但复合物以较低浓度存在于稀释溶液中。稀释步骤不改变小珠上复合物的密度,因此影响文库产量,但不影响插入片段(片段)大小。在一些实施方案中,密度介于约5nM和约1000nM之间,或介于约5nM和150nM之间,或介于约10nM和800nM之间。在其他实施方案中,密度为约10nM、或约25nM、或约50nM、或约100nM、或约200nM、或约300nM、或约400nM、或约500nM、或约600nM、或约700nM、或约800nM、或约900nM、或约1000nM。在一些实施方案中,密度为约100nM。在一些实施方案中,密度为约300nM。在一些实施方案中,密度为约600nM。在一些实施方案中,密度为约800nM。在一些实施方案中,密度为约100nM。在一些实施方案中,密度为约1000nM。

本文提供的一些实施方案涉及试剂盒,该试剂盒包含如本文所述的转座体复合物和包含索引序列的索引混合物。本文提供的一些实施方案涉及试剂盒,该试剂盒包含具有固体载体以及其上固定的如本文所述的转座体复合物的组合物,以及包含索引序列的索引混合物。在一些实施方案中,索引混合物包含i5索引序列和i7索引序列,其中i5索引序列与附接多核苷酸互补并杂交,并且其中i7索引序列与3’衔接子序列互补并杂交。

本公开还提供了制备如本文所述的固定化转座体复合物的方法。本文提供的一些实施方案涉及生成带标签的核酸片段的文库的方法。在一些实施方案中,该方法包括提供其上固定有转座体复合物的固体载体,在足以将靶核酸片段化成多个靶片段并将第一转座子的3’端接合到靶片段的5’端以产生多个带5’标签的靶片段的条件下将靶核酸施加到固体载体,并且施加包含索引序列的索引混合物以激活文库进行测序。在一些实施方案中,转座体复合物包含:与第一转座子和第二转座子结合的转座酶、包含3’转座子端序列和5’衔接子序列的第一转座子、包含附接衔接子序列和结合元件的附接多核苷酸,以及包含5’转座子端序列和3’衔接子序列的第二转座子。

在一些实施方案中,方法包括生成带标签的核酸片段的文库,该方法包括在足以将靶核酸片段化成多个靶片段并将第一转座子的3’端接合到靶片段的5’端以产生多个带5’标签的靶片段的条件下使固定化转座体复合物与该靶核酸接触。

在一些方面,方法还包括:处理固体载体以移除未结合的核酸;或者任选地通过如下方式来处理该固体载体以从复合物中移除转座酶:(a)加热该固体载体和/或(b)用酶变性剂洗涤该固体载体,其中该酶变性剂任选地包括十二烷基硫酸钠(SDS)、盐酸胍、脲或蛋白酶。

在一些实施方案中,接触包括将生物样本添加到转座体复合物。在一些实施方案中,该生物样本包括细胞裂解物或全细胞,或者选自血液、血浆、血清、淋巴、粘液、痰液、尿液、精液、脑脊液、支气管抽吸物、粪便、浸渍组织和固定组织FFPE。

在一些方面,接触还包括使多个索引寡核苷酸与附接多核苷酸杂交,其中所述多个索引寡核苷酸包含相同或不同的索引序列。

在一些方面,方法还包括用聚合酶和连接酶处理多个带5’标签的靶片段以延伸和连接链,以产生完全双链带标签的片段。在一些方面,用聚合酶和连接酶处理是在DNA二级结构破坏剂的存在下进行的,其中该破坏剂任选地为DMSO。在一些方面,用聚合酶和连接酶处理是在作为引物序列的互补序列的寡核苷酸的存在下进行的,其中该寡核苷酸为P7’寡核苷酸,并且其中该引物序列为P7序列。在一些实施方案中,聚合酶包含缺乏核酸外切酶活性的T4 DNA聚合酶突变体。

在一些方面,方法还包括从固体载体移除完全双链带标签的片段。在一些方面,移除包括施加足以从固体载体切割完全双链带标签的片段的热和/或变性剂。

在一些方面,方法还包括对带5’标签的靶片段或完全双链带标签的片段中的一个或多个带5’标签的靶片段或完全双链带标签的片段进行测序。在一些方面,在接触之后和测序之前不通过PCR对片段进行定量。在一些方面,核酸是DNA或RNA。在一些方面,3’衔接子序列与索引衔接子序列的至少一部分互补。在一些方面,附接多核苷酸的引物序列与索引引物序列的至少一部分互补。在一些方面,附接多核苷酸的引物序列与索引多核苷酸的索引引物序列互补。

在一些实施方案中,方法还包括洗涤固体载体以移除未结合的核酸。在一些实施方案中,方法还包括处理固体载体以移除转座酶。在一些实施方案中,处理固体载体包括用酶变性剂洗涤固体载体。在一些实施方案中,酶变性剂包括乙酸、二甲基亚砜(DMSO)、二硫苏糖醇、乙醇、甲醛、甲酰胺、戊二醛、盐酸胍、高氯酸锂、巯基乙醇、丙二醇、蛋白酶、碳酸氢钠、十二烷基硫酸钠(SDS)、水杨酸钠、磺基水杨酸、三氯乙酸、三(2-羧乙基)膦(TCEP)或脲。在一些实施方案中,处理固体载体包括加热固体载体以移除转座酶。在一些实施方案中,施加靶核酸包括将生物样本与转座体复合物混合。核酸不需要完全纯化或根本不需要纯化,并且可以是生物样本的一部分或与蛋白质、其他核酸物质、其他细胞组分和/或任何其他污染物的混合物。在一些实施方案中,生物样本包括细胞裂解物。在一些实施方案中,生物样本包括全细胞。在一些实施方案中,生物样本选自体液、血液、血浆、血清、淋巴、粘液、痰液、尿液、精液、脑脊液、支气管抽吸物、粪便、浸渍组织和固定组织福尔马林固定石蜡包埋组织(FFPE)。

在一些实施方案中,施加索引混合物包括使索引序列与附接多核苷酸和第二转座子杂交。在一些实施方案中,索引混合物包含延伸-连接混合物(ELM)。在一些实施方案中,ELM包含聚合酶和连接酶。在一些实施方案中,ELM是用于索引的单独连接的分开ELM。在一些实施方案中,聚合酶包括T4 DNA聚合酶或其突变体(诸如缺乏核酸外切酶活性的T4 DNA聚合酶,或突变体T4 DNA聚合酶,或缺乏核酸外切酶活性的突变体T4DNA聚合酶)。在一些实施方案中,连接酶包括大肠杆菌(E.coli)DNA连接酶。在一些实施方案中,延伸-连接反应在DNA二级结构破坏剂诸如DMSO的存在下进行。在一些实施方案中,方法还包括使来自固体载体的多个带5’标签的靶片段变性。在一些实施方案中,可通过施加足以从固体载体切割带5’标签的靶片段的热和/或变性剂来实现变性。在一些实施方案中,方法还包括对带5’标签的靶片段或其连接产物中的一个或多个带5’标签的靶片段或其连接产物进行测序。在一些实施方案中,核酸是DNA或RNA。

在一些方面,此类方法包括在适于使附接多核苷酸与第一转座子或第二转座子杂交的条件下,使如本文所述的第一转座子和第二转座子与结合到表面的附接多核苷酸接触。在一些方面,用于制备固体载体结合的转座体复合物的方法包括在足以使结合元件与结合配偶体(共价地或非共价地)结合的条件下,将如本文所述的转座体复合物与包含结合配偶体的固体载体一起温育。然后在适于形成转座体复合物的条件下使包含附接多核苷酸以及第一转座子和第二转座子的固定化杂交多核苷酸与转座酶接触。

在一些实施方案中,如本文所述的第一转座子和第二转座子彼此退火,并且第一转座子与附接多核苷酸退火。然后将退火的多核苷酸装载到转座酶诸如Tn5转座酶上,从而形成转座体复合物,然后使其与固体载体诸如小珠接触并结合。在一些实施方案中,退火的转座子结合到固体载体诸如小珠,然后转座酶与转座子复合,从而形成结合到固体载体的转座体。

在一些方面,提供了由靶核酸制备片段的方法,方法包括:提供包含如本文所述固定在其上的转座体复合物的固体载体;在足以将靶核酸片段化成多个靶片段并将第一转座子的3’端接合到靶片段的5’端以产生多个带5’标签的靶片段的条件下将靶核酸施加到固体载体。在一些方面,方法还包括施加包含索引序列的索引混合物。在一些实施方案中,片段化条件是适于通过使用转座体复合物将靶核酸片段化并加标签进行片段标签化的条件。

在本文所述方法的一些实施方案中,在片段化并加标签后,方法还包括洗涤固体载体以移除未结合的核酸。在本文所述方法的一些实施方案中,在片段化并加标签后,方法还包括移除转座酶。转座酶的移除可在化学条件下完成,例如用试剂洗涤固体载体以移除转座酶。在一些实施方案中,试剂为十二烷基硫酸钠(SDS)。

在一些实施方案中,方法还包括使固体载体与索引混合物接触。与索引混合物接触用于用特定的索引将片段加标签并激活用于测序的文库。在一些实施方案中,索引混合物包含与转座子或附接多核苷酸杂交以将核酸片段加标签或索引的寡核苷酸。因此,例如,寡核苷酸包含索引,并且该寡核苷酸的其他区域与转座子或附接多核苷酸互补并与其杂交。以举例的方式,在一个实施方案中,具有引物序列(P5序列)、索引序列(i5序列)和锚定序列的i5索引在互补序列处与附接多核苷酸杂交,使得P5与P5’杂交,并且Anchor与Anchor’杂交。在一些实施方案中,i5序列与附接多核苷酸的硝基吲哚(硝基)序列结合。在一些实施方案中,硝基吲哚序列与任何i5索引序列互补并与其杂交。在一个实施方案中,具有引物序列(P7)、索引序列(i7)和衔接子序列(B15序列)的i7索引在互补序列处与第二转座子杂交,使得P7与P7’杂交,i7与i7’杂交,并且B15与B15’杂交。在一些实施方案中,索引混合物包含双链索引。在使固体载体与索引混合物接触后,使用延伸和连接混合物(ELM)将片段连接并延伸。ELM可包含,例如,T4 DNA聚合酶和大肠杆菌DNA连接酶。示例性的聚合酶包括但不限于Bst DNA聚合酶I的Bst大片段、大肠杆菌DNA聚合酶I(Klenow片段)、Klenow片段(3’-5’外切-)、T4 DNA聚合酶、T7 DNA聚合酶、Deep VentR。(外切-)DNA聚合酶、DeepVentR DNA聚合酶、Therminator II DNA聚合酶、AmpliTherm DNA聚合酶、SP6 DNA聚合酶或Taq聚合酶,或任何前述聚合酶的突变体、类似物或衍生物。示例性的连接酶包括但不限于T4 DNA连接酶、T4 RNA连接酶、Taq DNA连接酶、大肠杆菌DNA连接酶、Pfu DNA连接酶和TthDNA连接酶。在一些实施方案中,ELM是分开的ELM反应,例如,以允许差异索引的索引连接和索引延伸,例如,以允许分开i5连接和i7延伸。然后用试剂(诸如用NaOH)处理固体载体以使链序列变性,从而生成带标签的核酸片段。

在一些实施方案中,片段沉积在流通池上。在一些实施方案中,片段与接枝到流通池或表面的互补引物杂交。在一些实施方案中,测序片段的序列通过阵列测序或下一代测序方法(诸如边合成边测序)进行检测。

表1示出了转座体复合物中用于生成带标签的核酸片段的文库的示例性序列。

在一些方面,生成带标签的核酸片段的文库的方法包括在足以将靶核酸片段化成多个靶片段并将第一转座子的3’端接合到靶片段的5’端以产生多个带5’标签的靶片段的条件下使固定化转座体复合物与该靶核酸接触;处理固体载体以移除未结合的核酸;或者任选地通过如下方式来处理该固体载体以从复合物中移除转座酶:(a)加热该固体载体和/或(b)用酶变性剂洗涤该固体载体,其中该酶变性剂任选地包括十二烷基硫酸钠(SDS)、盐酸胍、脲或蛋白酶;用聚合酶和连接酶处理所述多个带5’标签的靶片段以延伸和连接这些带5’标签的靶片段,以产生完全双链带标签的片段,任选地其中用聚合酶和连接酶处理是在DNA二级结构破坏剂的存在下进行的,其中该破坏剂任选地为DMSO;从该固体载体移除该完全双链带标签的片段,任选地其中移除包括施加足以从该固体载体切割该完全双链带标签的片段的热和/或变性剂,任选地其中该变性剂为NaOH;以及使用捕获小珠选择该完全双链带标签的片段,任选地其中该捕获小珠为磁性小珠,进一步任选地其中执行两个单独的选择步骤。

在一些实施方案中,固定化转座体复合物包含:固体载体;和固定到该固体载体的转座体复合物,其中该转座体复合物包含:转座酶;第一转座子,该第一转座子包含3’转座子端序列和锚定序列(Anchor);第二转座子,该第二转座子包含5’转座子端序列和B15’序列;和附接多核苷酸,该附接多核苷酸包含锚定序列互补序列(Anchor’)、A14’序列、间隔区和P5’序列以及包含生物素的结合元件,其中该生物素固定到该固体载体。在一些实施方案中,方法还包括对完全双链带标签的片段中的一个或多个完全双链带标签的片段进行测序。

在一些实施方案中,可使用组合的片段标签化和索引步骤从DNA样本制备双索引双端文库。通过避免单独的片段标签化步骤和索引步骤,该方案具有易于使用且持续时间更短的优点。此外,该方案可避免变性步骤并产生双链文库,而无需由变性的单链样本产生双链样本的单独步骤。该方案还可避免某些洗涤步骤,从而进一步减少了工作流程所需的时间。

该方法使用第一固定化转座子复合物和第二固定化转座子复合物。在第一固定化转座子复合物中,第一转座子中的序列X为锚定序列,并且附接多核苷酸中的序列X’为锚定序列互补序列。在第二固定化转座子复合物中,第一转座子中的序列X为锚定序列,并且附接多核苷酸中的序列X’为锚定序列互补序列。第一固定化转座子复合物和第二固定化转座子复合物的锚定序列可以是非互补的,以避免交叉杂交。第一转座子复合物可包含示例性的第一附接多核苷酸,该第一附接多核苷酸包含(i)锚定序列互补序列、A14’序列、间隔区和P5’序列,和(ii)包含生物素的结合元件,并且第二转座子复合物可包含示例性的第二附接多核苷酸,该第二附接多核苷酸包含(i)锚定序列互补序列、B15’序列、间隔区和P7’序列,和(ii)包含生物素的结合元件。

在组合的片段标签化和索引中,可将包含第一转座体复合物和第二转座体复合物的固体载体连接的转座体(BLT,即固定化转座子复合物)的悬浮液添加到每个孔中。索引步骤然后可在单一反应溶液中进行,其中索引1(i7)衔接子、索引2(i5)衔接子和对簇生成测序所需的序列在与片段标签化相同的反应溶液中连接。第一索引寡核苷酸可包含A14序列、i5序列和P5序列,并且第二索引寡核苷酸可包含B15序列、i7序列和P7序列。用于片段标签化/连接步骤的条件包括片段标签化缓冲液和添加到靶DNA、第一转座体复合物和第二转座体复合物以及第一索引寡核苷酸和第二索引寡核苷酸的混合物的大肠杆菌DNA连接酶。该组合的片段标签化和索引步骤可进行不同的时间,例如从至少1分钟到至少15分钟,或者从至少5分钟到至少15分钟。

然后可使用各种方法停止片段标签化和索引反应,包括加热固体载体和/或用酶变性剂洗涤固体载体,诸如任选地使用十二烷基硫酸钠(SDS)、盐酸胍、脲或蛋白酶。无论是通过加热和/或通过洗涤步骤,停止反应的时间可在至少1分钟到至少5分钟之间变化。

连接到索引寡核苷酸的带5’标签的靶片段可用聚合酶处理以延伸并产生完全双链带标签的片段。延伸反应可进行不同的时间,例如从至少1分钟到至少10分钟,或者从至少2分钟到至少10分钟。

此外,包括组合的片段标签化和索引的文库制备也可避免qPCR步骤,因为最终产物是溶液中的双链DNA文库。

在一些实施方案中,接触第一固定化转座体复合物和第二固定化转座体复合物以及用连接酶处理多个带5’标签的靶片段是在单个反应中执行的。

在一些实施方案中,双链带标签的片段在溶液中产生。

一些实施方案还包括使用捕获小珠选择该完全双链带标签的片段,任选地其中该捕获小珠为磁性小珠,进一步任选地其中执行两个单独的选择步骤。

在一些实施方案中,方法还包括对完全双链带标签的片段中的一个或多个完全双链带标签的片段进行测序。

靶核酸可以是包含DNA、RNA、cDNA等的任何类型。例如,靶核酸可处于多种纯化状态,包括纯化的核酸。在一些实施方案中,生物样本包含以与体内存在的比例大致相同的比例存在的核酸(诸如DNA)、蛋白质、其他核酸物质、其他细胞组分和/或任何其他污染物的混合物。例如,在一些实施方案中,组分以与完整细胞中存在的比例相同的比例存在。因为本文提供的方法允许核酸或DNA通过片段标签化过程结合到固体载体,所以可在片段标签化发生后通过洗涤固体载体来移除其他污染物。生物样本可包括例如粗制细胞裂解物或全细胞。例如,在本文示出的方法中施加于固体载体的粗制细胞裂解物不需要经受传统上用于从其他细胞组分分离核酸的一个或多个分离步骤。

因此,在一些实施方案中,生物样本不仅可包含来自任何来源的纯化核酸,还可包含例如存在于血液、血浆、血清、淋巴、粘液、痰液、尿液、精液、脑脊液、支气管抽吸物、粪便和浸渍组织中的未纯化核酸或其裂解物,或包含核酸或DNA材料的任何其他生物样本。靶核酸可来自组织样本、肿瘤样本、癌细胞或活检样本。靶核酸可为无细胞DNA(cfDNA)。

靶核酸可来自任何物种,或来自物种的混合物。例如,靶核酸可来自哺乳动物(诸如人、狗、猫、牛、猪、绵羊或其他家养动物)或其他物种(诸如鱼、细菌、病毒、真菌或古细菌)。核酸可来自环境样本,诸如土壤或水。

在一些实施方案中,靶核酸为DNA。在一个此类实施方案中,DNA为双链的。在另一些实施方案中,双链DNA包含基因组DNA。在一些其他实施方案中,靶核酸为RNA或其衍生物、或cDNA。在一些实施方案中,靶核酸为上游反应的产物,诸如扩增或复制事件,例如扩增子。在一些实施方案中,靶核酸为亚硫酸氢盐处理的DNA。

在一些实施方案中,在本文所述的片段标签化方法之前处理生物样本(原始样本或提取物)以纯化靶核酸。在一些实施方案中,生物样本为原始样本或原始样本裂解物(例如,血液、唾液、一种或多种细胞)。在一些实施方案中,处理方法包括提供原始样本、原始样本裂解物或预处理样本(例如,血液或唾液样本),将样本与裂解缓冲液和蛋白酶K混合,温育混合物以裂解样本中的细胞并从细胞释放DNA,从而提供用于本文所述的片段标签化方法的靶核酸。只要生物样本含有足以进行分析的核酸,就没有特别要求一定量的生物样本。因此,生物样本的量可包括约1μL至约500μL,诸如1μL、2μL、3μL、4μL、5μL、6μL、7μL、8μL、9μL、10μL、15μL、20μL、25μL、30μL、35μL、40μL、45μL、50μL、60μL、70μL、80μL、90μL、100μL、150μL、200μL、250μL、300μL、350μL、400μL、450μL或500μL,或由前述值中任两个值限定的范围内的量。

原始样本或原始样本裂解物(诸如血液)中的组分或已收集在Oragene收集管中的预处理样本(诸如唾液)中的添加剂(收集管中的稳定剂)可抑制片段标签化反应。因此,本文提供了用于处理原始样本、原始样本裂解物或预处理样本以克服该问题的方法。在一些实施方案中,该方法包括提供原始样本、原始样本裂解物或预处理样本(例如,血液或唾液样本),将样本与裂解缓冲液、蛋白酶K和DNA捕获或纯化小珠(例如,SPRI小珠、包含羧基基团的小珠,其中小珠任选地为磁性小珠)混合,温育混合物以裂解样本中的细胞并从细胞释放DNA,从而捕获DNA纯化小珠或SPRI小珠上的DNA,并从混合物中分离包含捕获的DNA的小珠。分离起到移除上清液中存在的潜在片段标签化抑制剂的作用。该方法还包括任选地洗涤包含捕获的DNA的小珠,以及从小珠洗脱DNA以提供靶核酸。

在一些实施方案中,靶核酸以足以生成用于测序的文库的量存在。在一些实施方案中,靶核酸的量为10ng-500ng,诸如10ng、20ng、30ng、40ng、50ng、60ng、70ng、80ng、90ng、100ng、200ng、300ng、400ng或500ng的gDNA的量,或由前述值中任两个值限定的范围内的量。在一些实施方案中,靶核酸是以50ng的量存在的gDNA。

本文提供的一些方法包括分析核酸的方法。此类方法包括制备靶核酸的模板核酸的文库,从模板核酸的文库获得序列数据,以及任选地组装靶核酸的序列表示。由转座体介导的片段标签化产生的DNA片段可根据任何合适的测序方法进行测序,例如直接测序或下一代测序(包括边合成边测序、边连接边测序、杂交测序、基于释放质子检测的测序)可使用电检测器和得自Ion Torrent(Guilford,CT,Life Technologies子公司)的相关技术、纳米孔测序等。在一些实施方案中,DNA片段在固体载体诸如流通池上测序。可容易地适于与通过本公开的方法产生的核酸文库一起使用的示例性SBS程序、流体系统和检测平台描述于:例如Bentley等人,Nature,第456卷:第53-59页(2008年),WO 04/018497、US 7,057,026、WO91/06678;WO 07/123744、US 7,329,492、US 7,211,414、US 7,315,019、US 7,405,281和US2008/0108082,这些文献中的每一篇均以引用方式并入本文。

本文所述的方法不限于所使用的任何特定类型的测序仪器。

以下实施例用于描述但不限制本文提供的公开内容。

进行实验以将无PCR测序数据与PCR测序数据进行比较。使用TruSeq无PCR、TruSeqNano(+PCR)、Nextera Flex(+PCR)和本发明方法制备文库,然后测序至25X覆盖度。每种方法有两个重复,总共有八个文库。图7A显示,与使用PCR的方法(黑色条和白色条,分别代表TruSeq Nano和Nextera Flex)相比,无PCR方法(带条纹条和带格纹条,分别代表本发明方法和TruSeq无PCR)具有提高的indel查准率和查全率。图7B显示,富含GC的启动子区域的覆盖度在无PCR方法中也得到提高(下面的两个图,本发明的方法在左下图中,而TruSeq无PCR在右下图中)。

步骤A1.固定化转座体复合物—索引小珠的形成。如下的混合物:(1)具有3’嵌合端(ME)序列(SEQ ID NO:6)、第一标签序列(A14)和5’引物序列(P5’)的第一转座子(25μM最终浓度);(2)具有5’互补嵌合端序列(ME’;SEQ ID NO:3)和第二标签序列(B15’)(37.5μM最终浓度);和(3)包含与第二标签序列(B15)互补的3’序列、索引序列(在这种情况下,表1中的i701)和在5’末端具有生物素的5’引物序列(P7)的附接多核苷酸(25μM最终浓度),该混合物通过用10mM Tris-HCl(pH 8.0)、1mM EDTA和25mM NaCl处理,在95℃下加热10分钟,然后经过大约15分钟冷却至10℃来进行退火。然后将退火的转座子/附接多核苷酸(基于附接多核苷酸的2μM最终浓度)与转座酶(6.1μM最终浓度)混合并在37℃温育过夜以形成溶液相转座体复合物(图4A,索引小珠图)。然后通过与链霉亲和素包被的小珠混合,将溶液相转座体复合物固定在固体载体上。在一些示例中,固定可在HT1缓冲液(Illumina)的存在下进行,该缓冲液是有助于形成生物素-链霉亲和素键的高盐缓冲液。在HT1中旋转1小时后,将小珠沉淀并在HT1缓冲液和50%甘油标准储存缓冲液(Illumina)(9:1)的混合物中洗涤一次。然后将小珠重悬于含有50mM Tris pH 7.5、30mM NaCl和0.1%Tween 20的360μL缓冲液中。加入40μL EPX2(Illumina),并将小珠在室温下再旋转10分钟。将小珠再次沉淀,然后重悬于396μL相同缓冲液中,用4μL单链结合蛋白(5mg/mL)处理,并再次旋转10分钟。将小珠再次沉淀,在9:1的HT1:标准储存缓冲液混合物中洗涤一次,并重悬于15%甘油标准储存缓冲液(Illumina)中。将所得的索引小珠用于单索引和双索引片段标签化方案中。

步骤A2.固定化转座体复合物—通用小珠的形成。如步骤A1所述制备退火的转座子,不同之处在于附接多核苷酸包含与第一标签序列(A14’)互补的5’序列和在3’末端具有生物素的3’引物序列(P5’)(用于单索引),以及任选居间的通用硝基吲哚序列(用于双索引)。转座体复合物由退火的转座子制备并固定在固体载体上,如步骤A1所述。如所指出的那样,将所得的通用小珠用于单索引和双索引片段标签化方案中。

步骤B.片段标签化。将DNA(例如,约50pg至5μg)与固定化转座体复合物和50μL片段标签化缓冲液(10mM Tris乙酸酯(pH 7.6)、5mM乙酸镁和10%二甲基甲酰胺,如美国专利第9,080,211号、第9,085,801号和第9,115,396号中所述,这些专利中的每一篇以引用方式并入)混合,并将所得的混合物在55℃下温育5分钟。生成固定在小珠上的带标签的DNA片段的文库。片段标签化反应混合物用10μL包含5%SDS、100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween 20的终止缓冲液处理,并且将所得混合物在37℃下温育5分钟以使转座体复合物中的转座酶变性。然后将具有固定化DNA片段的小珠在磁体上沉淀,并在洗涤缓冲液(100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween)中洗涤三次以除去任何残余SDS。通过磁捕获将小珠与上清液分离,并使用100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween 20进一步洗涤。所有四种方法的所得片段标签化的片段在图4B中示出。

步骤C.延伸、连接和索引。延伸和连接通过以下步骤进行:使小珠与包含T4 DNA聚合酶(核酸外切酶-)和大肠杆菌DNA连接酶的延伸和连接混合物(ELM)接触并在30℃下温育15分钟,然后在16℃下温育15分钟,从而缺口填充在片段的3’端和ME’序列的5’端之间的DNA片段,并且延伸单链区域以通过掺入来自附接多核苷酸的剩余序列来产生完全双链的产物(图4C)。在某些情况下,也在该步骤期间添加索引。如图4D的右上图所示,通过添加具有双链引物序列(P7/P7’)、双链索引序列(在这种情况下,i701/i701’)和具有与第二标签序列(B15)互补的3’序列的单链突出区的寡核苷酸,将索引添加到通用小珠/单索引构建体。对于索引小珠/双索引法(图4D,左下图),索引试剂包括双链引物序列(P5/P5’)、双链索引序列(在这种情况下,i501/i501’)和具有与第一序列标签(A14’)互补的5’序列的单链突出区。对于通用小珠/双索引法(图4D,右下图),索引试剂与通用小珠/单索引情况相同,但使包含互补引物序列(P5)和索引序列(i5)的额外的第二索引试剂与A14序列的5’端杂交并连接。

反应混合物用10μL包含5%SDS、100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween 20的终止缓冲液处理,并且将所得混合物在37℃下温育5分钟以使转座体复合物中的转座酶变性。然后将具有固定化DNA片段的小珠在磁体上沉淀,并在洗涤缓冲液(100mMTris-HCl(pH 7.5)、100mM NaCl和0.1%Tween)中洗涤三次以除去任何残余SDS。通过磁捕获将小珠与上清液分离,并使用100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween 20进一步洗涤。

步骤D.带标签的片段的释放。在第三次洗涤后,将小珠重悬于100μL 0.2N NaOH中以使文库片段变性并将它们从小珠释放。通过按照标准SPRI纯化方案将100μL上清液直接添加到180μL SPRI小珠中并在15μL Illumina重悬缓冲液中洗脱来纯化文库。通过qPCR对文库进行定量,然后通过稀释至约3200pM的5μL溶液并在室温下用5μL的0.2N NaOH变性5分钟,以准备好在

具有单索引或双索引的索引小珠或通用小珠的结果示于图4E中并且汇总于下表2中。

使用本文所述的方法,克服了通常用PCR引入的测序数据中的偏差。例如,使用本文所述的无PCR方法,对所得的核酸片段的文库进行测序,并且序列在富含GC的区域中不具有显著的缺口,如通常在使用PCR时所观察到的。

在该实施例中,使用Nextera

步骤1.转座体复合物的形成。包含5’生物素、三个T残基、然后三个U残基、P5、A14和ME的生物素酰化的寡核苷酸(50μM),其序列为:/5Biosg/TTUUUAATGATACGGCGACCACCGAGATCTACACTCGTCGGCAGCGTCAGATGTGTATAAGAGACA(SEQ ID NO:20)

以及包含ME’_B15’_P7’的寡核苷酸(75μM),其序列为:CTGTCTCTTATACACATCTCCGAGCCCACGAGACATCTCGTATGCCGTCTTCTGCTTG(SEQ ID NO:21)

二者用10mM Tris-HCl(pH 8.0)、1mM EDTA和25mM NaCl处理,加热至95℃10分钟,然后以-0.1℃/秒冷却至10℃。然后将退火的转座子与转座酶混合,使得生物素酰化的寡核苷酸的最终浓度为2μM,转座酶浓度为4μM。将混合物在37℃下温育过夜以形成溶液相转座体复合物。然后通过与链霉亲和素包被的小珠和HT1缓冲液(Illumina)混合并在室温下旋转1小时将溶液相转座体复合物固定在固体载体上。接着将小珠在HT1缓冲液中洗涤三次,然后重悬于15%甘油标准储存缓冲液(Illumina)中(图2A)。

步骤2.片段标签化。将DNA(例如,约50pg至5μg)与固定化转座体复合物和50μL片段标签化缓冲液(10mM Tris乙酸酯(pH 7.6)、5mM乙酸镁和10%二甲基甲酰胺,如美国专利第9,080,211号、第9,085,801号和第9,115,396号中所述,这些专利中的每一篇以引用方式并入)混合,并将所得的混合物在55℃下温育5分钟。生成固定在小珠上的带标签的DNA片段的文库。片段标签化反应混合物用10μL包含5%SDS、100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween 20的终止缓冲液处理,并且将所得混合物在37℃下温育5分钟以使转座体复合物中的转座酶变性。然后将具有固定化DNA片段的小珠在磁体上沉淀,并在洗涤缓冲液(100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween)中洗涤三次以除去任何残余SDS。通过磁捕获将小珠与上清液分离,并使用100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween 20进一步洗涤。

步骤3.延伸和连接。延伸和连接通过以下步骤进行:使小珠与包含T4 DNA聚合酶(核酸外切酶-)和大肠杆菌DNA连接酶的延伸和连接混合物(ELM)接触并在30℃下温育15分钟,然后在16℃下温育15分钟,从而缺口填充在片段的3’端和ME’序列的5’端之间的DNA片段。反应混合物用10μL包含5%SDS、100mM Tris-HCl(pH7.5)、100mM NaCl和0.1%Tween 20的洗涤缓冲液处理,并且将所得混合物在37℃下温育5分钟以使转座体复合物中的转座酶变性。然后将具有固定化DNA片段的小珠在磁体上沉淀,并在洗涤缓冲液(100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween)中洗涤三次以除去任何残余SDS。通过磁捕获将小珠与上清液分离,并使用100mM Tris-HCl(pH 7.5)、100mM NaCl和0.1%Tween 20进一步洗涤。

步骤4.带标签的片段的释放。第三次洗涤后,将小珠重悬于含有50mM乙酸钾、20mMtris-乙酸酯、10mM乙酸镁和100μg/mL BSA的缓冲液中。加入5μL含有尿嘧啶DNA糖基化酶和核酸内切酶VIII的酶混合物,将文库在37℃下温育30分钟。酶一起作用以切割附接寡核苷酸中的U并将文库片段释放到溶液中。通过按照标准大小选择SPRI纯化方案(右0.5x和左0.7-0.8x)将100μL上清液直接添加至SPRI小珠并在15μL Illumina重悬缓冲液中洗脱来纯化文库。通过qPCR对所得文库进行定量(图2B)。

可使用索引变化的延伸-连接反应的替代方案(实施例2C)。在一些情况下,由于某些索引序列中的二级结构,i7索引的延伸效率低下。因此,对于图6C的构建体,研究了八个不同的索引对。如图9A所示,索引池的%CV为76%。发现在延伸-索引反应期间添加P7’寡核苷酸可提高某些索引对的性能,这可能是由于与P7序列的杂交可破坏或防止二级结构形成。在这种情况下,延伸-索引反应还包括连接。在延伸-连接-索引反应期间,以2.5μM添加P7’(具有用于连接的5’磷酸)。对于图6D所示的构建体,图9B示出了小于30%的八个索引对的%CV。

向P7’寡核苷酸延伸-连接-索引反应中加入DMSO进一步改善了%CV。在该实施方案中,对于图6D的构建体,DMSO以5%加入延伸-连接-索引反应中。延伸-连接反应含有用于延伸和连接的所有必要的酶和组分。将反应在37℃下温育30分钟,然后继续正常工作流程。如图9C所示,八个不同索引对的%CV小于20%。该结果使系统无需量化来自每个样本的文库的DNA输出即可调整索引性能的变化。

该实施例展示了用于将转座体复合物固定在管中(诸如PCR管中)以进行无PCR全基因组测序的方法和系统。这些方法与实施例2中所述的方法类似地进行,并且整个制备可在同一管中进行。

管中固定化转座体复合物的形成。如下的混合物:(1)具有3’嵌合端(ME)序列(SEQID NO:6)、第一标签序列(A14)和5’引物序列(P5)的第一转座子(25μM最终浓度);(2)具有5’互补嵌合端序列(ME’;SEQ ID NO:3)和第二标签序列(B15’)(37.5μM最终浓度);和(3)包含与第二标签序列(B15)互补的3’序列、索引序列和在5’末端具有生物素的5’引物序列(P7)的附接多核苷酸(25μM最终浓度),该混合物通过用10mM Tris-HCl(pH 8.0)、1mM EDTA和25mM NaCl处理,在95℃下加热10分钟,然后经过大约15分钟冷却至10℃来进行退火。该附接多核苷酸包含与第一标签序列(A14’)互补的5’序列和在3’末端具有生物素的3’引物序列(P5’)(用于单索引)。在一些实施方案中,附接多核苷酸包含居间的通用硝基吲哚序列(用于双索引)。然后将退火的转座子/附接多核苷酸(基于附接多核苷酸的2μM最终浓度)与转座酶(6.1μM最终浓度)混合并在37℃温育过夜以形成溶液相转座体复合物。然后通过在PCR管中将复合物(具有生物素)与链霉亲和素包被的表面混合,将溶液相转座体复合物固定在PCR管的表面上。在一些示例中,固定可在HT1缓冲液(Illumina,San Diego,CA)的存在下进行,该缓冲液是有助于形成生物素-链霉亲和素键的高盐缓冲液。温育1小时后,在TWB缓冲液(Illumina,San Diego,CA)的混合物中洗涤PCR管。将其上固定有转座体的所得管用于单索引和双索引片段标签化方案中。

包括片段标签化、延伸、连接和索引的步骤的文库制备工作流程如实施例2中所概述的进行。在完成如实施例2中所概述的步骤之后,生成固定到管表面的文库片段。用50μL的0.2N NaOH冲洗管以使文库片段变性并将其从管的表面释放。通过qPCR对文库进行定量,然后通过稀释至约3200pM的5μL溶液并在室温下用5μL的0.2N NaOH变性5分钟,以准备好在

测序的结果在图10中示出,该图示出了已知难以测序的基因组(基因RNPEPL1)区域中的覆盖度。使用PCR的两种文库制备方法(Nextera Flex和基于管的Nextera)示出了其中没有序列覆盖基因的区域的缺口,用矩形边界框表示。发现两种无PCR的方法在该区域中具有良好的覆盖度,如在图10中表示为“无PCR Flex”和“无PCR的基于管的Nextera”的部分所示。

以下实施例展示了用于将转座体复合物固定在管中(诸如PCR管中)以进行无PCR全基因组测序的方法和系统。方法与实施例2所述的方法类似地进行,但没有包含可切割接头的附接核苷酸或没有切割接头的步骤。该方法采用三种单独的寡核苷酸。该方法的额外组分包括Tn5转座子、SDS、延伸-连接混合物(ELM)和链霉亲和素包被的表面(诸如小珠或板)。

如下的混合物:(1)具有ME序列、第一标签序列(A14)、i5序列和5’引物序列(P5)的第一转座子;(2)具有5’互补嵌合端序列(ME’)、第二标签(B15’)、i7’序列和3’引物序列(P7’)的第二转座子;和(3)包含P7序列和结合元件(诸如生物素)的附接多核苷酸可被制备并附接到表面(诸如链霉亲和素包被的板或小珠)。转座体可在片段标签化缓冲液中的模板核酸的存在下,在单个步骤中构建并附接到表面。

片段标签化在55℃下进行5分钟。PEG可包含在片段标签化反应中。用SDS处理混合物以移除Tn5转座酶。进行ELM并移除上清液。该方法不需要SPRI捕获小珠,并且因此不需要经由小珠装载密度调整插入片段大小。可将片段在NaOH中洗脱,以用于测序准备。

以下实施例展示了用于从DNA样本制备至多96个双索引双端文库的方法和系统。方法类似于实施例2中所述的方法进行,但使用与捕获小珠一起温育的两个步骤以允许在没有最终qPCR步骤的情况下进行制备。由于qPCR可为耗时的(长达两小时),因此该方案具有易用性和较短持续时间的优点。该方法与25ng至1000ng的DNA输入兼容。对于人DNA样本和其他大的复杂基因组,DNA输入可大于200ng。对于200ng至1000ng的DNA输入,不需要对初始DNA样本进行定量和归一化。对于25ng至200ng的DNA输入,在测序前对文库进行定量和归一化。

该方法使用如图6D所述的第一转座子,其中该第一转座子中的序列X为ATCTGACTATCCCCTGCG(SEQ ID NO:23),并且附接多核苷酸中的序列X’为CGCAGGGGATAGTCAGAT(SEQ ID NO:24)。锚定序列为A14,并且间隔区由2个C18碳间隔子和1个C9碳间隔子(非DNA序列)组成。

片段标签化。将10mM Tris-HCl(约2μL至30μL)中的DNA加入96孔PCR板的每个孔中,使得总输入量(ng)在所需范围内。如果DNA体积<30μL,则将无核酸酶的水加入DNA样本,使总体积达到30μL。将小珠连接的转座体(BLT)的悬浮液(10μL)加入每个孔,然后添加10μL的片段标签化缓冲液。将BLT以约50nM至1000nM的浓度装载在小珠上。将它们重悬于15%甘油标准储存缓冲液中,该15%甘油标准储存缓冲液由15%甘油、100mM NaCl、50mM TrisHCl(pH 7.5)、0.1mM EDTA、1mM DTT、0.1%triton X-100组成。用移液管吸取样本进行混合,直至小珠完全重悬,将板密封并置于41℃的热循环仪上5分钟,然后保持在10℃下。15秒、30秒、45秒、60秒、75秒、90秒、105秒、120秒和300秒的片段标签化时间提供类似的产量,随着温育时间的缩短,插入片段的长度变长(例如,15秒产生的插入片段大小比60秒、120秒或300秒产生的插入片段大小更长)。在一些示例中,片段标签化时间缩短至1分钟。

向每个孔中加入10μL包含SDS的终止片段标签化缓冲液,并且用移液管吸取所得混合物直至小珠完全重悬,然后将混合物温育1分钟至5分钟。将板置于磁力架上2分钟至5分钟,移除上清液并弃去。将板从磁体移除,并且将150μL片段标签化洗涤缓冲液直接添加到每个孔中的小珠上。通过移液管混合样本,并且将板置于磁力架上,直至溶液澄清(大约2分钟至5分钟)。该步骤从样本中移除SDS。

延伸/连接。通过延伸/连接添加索引1(i7)衔接子、索引2(i5)衔接子和对簇生成测序所需的序列。当板仍在磁力架上时,移除上清液并弃去。将板从磁力架上取下,向每个孔加入45μL延伸连接混合物,然后用移液管移取以重悬小珠。接下来,将适当的索引衔接子(5μL)加入每个样本,并且将板密封并置于37℃的热循环仪上5分钟,50℃下5分钟,然后保持在10℃下。37℃和50℃温育时间段可各自进行1分钟、3分钟或5分钟,并且所有变型产生类似的文库产量。较短的温育时间段产生具有增加的片段大小的文库,而较长的温育时间段产生较高浓度的连接产物。然后将板置于磁力架上2分钟至5分钟,然后移除上清液。

向孔中加入75μL片段标签化洗涤缓冲液,并用移液管吸取混合物以使片段标签化小珠重悬。弃去上清液,将板离心并置于磁体上2分钟至5分钟。向每个孔中加入45μL的0.2NNaOH以使片段变性。用移液管吸取每个孔中的混合物以重悬片段标签化小珠,并将板在室温下温育1分钟至5分钟。

文库纯化。向每个孔中加入36μL捕获小珠(诸如Ampure XP小珠)并混合孔内容物以重悬小珠,然后温育1分钟、3分钟或5分钟。将板置于磁力架上大约1分钟至5分钟直至上清液澄清。

向第二96孔板的每个孔中加入42μL捕获小珠。然后,将来自第一96孔板的每个孔的76μL上清液加入具有捕获小珠的第二96孔板。通过移液管混合样本并温育1分钟、3分钟或5分钟,然后将样本置于磁力架上,直至上清液澄清(大约1分钟至5分钟)。在一些示例中,省略了第二捕获小珠步骤。

单或双捕获小珠纯化方案,以及每个小珠纯化步骤的1分钟、3分钟或5分钟温育是合适的。

在捕获小珠纯化之后,弃去上清液,并且在不混合的情况下用180μL新鲜80%乙醇洗涤捕获小珠两次,并在室温下温育,之后弃去上清液。通过移液管移除残余的乙醇,将板风干并从磁力架移除。

向每个孔中加入15μL至22μL重悬缓冲液,并通过用移液管吸取混合孔内容物以重悬小珠。将板在室温下温育2分钟,然后置于磁力架上直至上清液澄清(大约2分钟)。将来自每个孔的总共14μL至20μL上清液转移到第三96孔PCR板。该板是最终的DNA文库,并被制备用于如上所述的测序。

该方案采用具有捕获小珠的两个纯化步骤,并且消除了qPCR步骤,从而允许在较短时间内完成文库制备。例如,当使用总共20分钟的短磁体温育步骤时,使用这些方法在30分钟内制备样本。

该方案可在其他容器诸如微量离心管中进行。

在一些实施方案中,为了实现最佳簇密度,将相等的文库体积合并,并且在测序之前对合并的池定量。当使用200ng至1000ng的DNA输入时,在一些情况下,通过将来自每个文库的等体积合并在1.7mL微量离心管中,涡旋混合,然后离心来合并文库。使用ssDNA Qubit试剂盒定量文库池,以确定池的浓度。当使用25ng至200ng的DNA输入时,在一些示例中,使用ssDNA Quibit试剂盒单独定量每个文库。

在一些示例中,测序在NovaSeq6000卡盒上进行。

以下实施例展示了使用组合的片段标签化和索引步骤从DNA样本制备双索引双端文库的方法和系统。方法类似于实施例2中所述的方法进行,但是在一个步骤中组合片段标签化和索引。通过避免单独的片段标签化步骤和索引步骤,该方案具有易于使用且持续时间更短的优点。此外,该方案可避免变性步骤并产生双链文库,而无需由变性的单链样本产生双链样本的单独步骤。该方案还可避免某些洗涤步骤,从而进一步减少了工作流程所需的时间。

为了示出可使用给定长、中或短时间段进行的反应来制备这些文库,可分别在正常工作流速、快速工作流速和超快速工作流速下处理三组样本。

该方法使用第一固定化转座子复合物和第二固定化转座子复合物。在第一固定化转座子复合物中,第一转座子中的序列X为锚定序列,并且附接多核苷酸中的序列X’为锚定序列互补序列。在第二固定化转座子复合物中,第一转座子中的序列X为锚定序列,并且附接多核苷酸中的序列X’为锚定序列互补序列。包含在第一固定化转座子复合物和第二固定化转座子复合物中的锚定序列可以是非互补的,以避免交叉杂交。第一转座子复合物可包含示例性的第一附接多核苷酸,该第一附接多核苷酸包含(i)锚定序列互补序列、A14’序列、间隔区和P5’序列,和(ii)包含生物素的结合元件,并且第二转座子复合物可包含示例性的第二附接多核苷酸,该第二附接多核苷酸包含(i)锚定序列互补序列、B15’序列、间隔区和P7’序列,和(ii)包含生物素的结合元件。

片段标签化和索引。将10mM Tris-HCl(约2μL至30μL)中的DNA加入96孔PCR板的每个孔中,使得总输入量(ng)在所需范围内。将包含第一转座体复合物和第二转座体复合物的小珠连接的转座体(BLT,即固定化转座子复合物)的悬浮液添加到每个孔中。索引步骤在单一反应溶液中进行,其中索引1(i7)衔接子、索引2(i5)衔接子和对簇生成测序所需的序列在与片段标签化相同的反应溶液中连接。在该示例中,第一索引寡核苷酸包含A14序列、i5序列和P5序列,并且第二索引寡核苷酸包含B15序列、i7序列和P7序列。用于片段标签化/连接步骤的条件包括片段标签化缓冲液和添加到靶DNA、第一转座体复合物和第二转座体复合物以及第一索引寡核苷酸和第二索引寡核苷酸的混合物的大肠杆菌DNA连接酶,总体积为20μL。片段标签化和索引反应在41℃的温度下进行三个不同的时间间隔(对于三个不同的样本):15分钟(正常工作流程)、5分钟(快速工作流程)和1分钟(超快速工作流程)。

在组合的片段标签化和索引反应后,向每个孔加入5μL的0.6%SDS并在37℃下温育,以通过用SDS洗涤以使转座酶变性来终止片段标签化反应。终止步骤进行三个不同的时间间隔(对于三个不同的样本):5分钟(正常工作流程)、5分钟(快速工作流程)和1分钟(超快速工作流程)。虽然终止步骤针对正常工作流程和快速工作流程进行相同的时间段,但由于其他步骤中的时间差,快速工作流程的总时间仍然较短。

延伸。向每个孔中加入75μL延伸混合物(DNA聚合酶、dNTP和缓冲液),并且延伸反应在100μL反应体积中在<68℃下进行。延伸步骤进行三个不同的时间间隔(对于三个不同的样本):10分钟(正常工作流程)、2分钟(快速工作流程)和1分钟(超快速工作流程)。该延伸步骤可在溶液中产生双链DNA文库。可用捕获小珠进行文库纯化。

总体而言,正常工作流程和快速工作流程的库产量与具有单独的片段标签化步骤和索引步骤的方法相当,而超快速工作流程的文库产量可能足以满足多种用途,尤其是考虑到甚至更快工作流程的额外便利性。具有组合的片段标签化和索引的方法可允许索引寡核苷酸与未成功地将DNA样本片段化的转座酶(即,片段标签化副产物)结合。此外,组合的片段标签化和索引可生成在两端具有P5/P5序列或P7/P7序列的文库产物,并且这些具有纯合端的文库产物可能无法正确测序。然而,对于许多应用,即使生成一些副产物,起始DNA样本的量也足以实现测序结果。

已经描述了多个实施方案。然而,应当理解,可进行各种修改。因此,其他实施方案也在以下权利要求书的范围内。

TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG

GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAG

phos-CTGTCTCTTATACACATCT

TCGTCGGCAGCGTC

GTCTCGTGGGCTCGG

AGATGTGTATAAGAGACAG

AATGATACGGCGACCACCGAGAUCTACAC

CAAGCAGAAGACGGCATACGAG*A

AATGATACGGCGACCACCGAGATCTACACTCGTCGGCAGCGTCAGATGTGTATAAGAGACAG

5Phos/CTGTCTCTTATACACATCTCCGAGCCCACGAGAC

5Biosg/CAAGCAGAAGACGGCATACGAGATTCGCCTTAGTCTCGTGGGCTCGG/3ddC/

GACGCTGCCGACGAGTGTAGATCTCGGTGGTCGCCGTATCATT/3Bio/

5Phos/TCGTCGGCAGCGTCAGATGTGTATAAGAGACAG

GACGCTGCCGACGACCC/i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd//i5NitInd/GTGTAGATCTCGGTGGTCGCCGTATCATT/3Bio/

GACGCTGCCGACGACCGAGCATATCC/iSp18//iSp18/GTGTAGATCTCGGTGGTCGCCGTATCATT/3BioTEG/

AATGATACGGCGACCACCGAGATCTACACTAGATCGC

5Phos/TAAGGCGAATCTCGTATGCCGTCTTCTGCTTG/3ddC/

CAAGCAGAAGACGGCATACGAGATTCGCCTTAGTCTCGTGGGCTCGG/3ddC/

AATGATACGGCGACCACCGAGATCTACACTAGATCGCGGATATGCTCGG

/5Biosg/TTUUUAATGATACGGCGACCACCGAGATCTACACTCGTCGGCAGCGTCAGATGTGTATAAGAGACA

CTGTCTCTTATACACATCTCCGAGCCCACGAGACATCTCGTATGCCGTCTTCTGCTTG

GGATATGCTCGG

ATCTGACTATCCCCTGCG

CGCAGGGGATAGTCAGAT

序列表

<110> ILLUMINA CAMBRIDGE LIMITED

<120> 复合表面结合的转座体复合物

<130> 01243-0011-00PCT

<150> US 62/840,610

<151> 2019-04-30

<150> US 62/791,509

<151> 2019-01-11

<160> 24

<170> PatentIn 3.5版

<210> 1

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 用于转座体复合物中的示例性序列

<400> 1

tcgtcggcag cgtcagatgt gtataagaga cag 33

<210> 2

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 用于转座体复合物中的示例性序列

<400> 2

gtctcgtggg ctcggagatg tgtataagag acag 34

<210> 3

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 用于转座体复合物中的示例性序列

<220>

<221> 尚未归类的特性

<222> (1)..(1)

<223> 5' 磷酸基团

<400> 3

ctgtctctta tacacatct 19

<210> 4

<211> 14

<212> DNA

<213> 人工序列

<220>

<223> 示例性附接衔接子序列

<400> 4

tcgtcggcag cgtc 14

<210> 5

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 示例性附接衔接子序列

<400> 5

gtctcgtggg ctcgg 15

<210> 6

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 用于转座体复合物中的示例性序列

<400> 6

agatgtgtat aagagacag 19

<210> 7

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 示例性引物

<400> 7

aatgatacgg cgaccaccga gauctacac 29

<210> 8

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 示例性引物

<220>

<221> 尚未归类的特性

<222> (22)..(22)

<223> 任选修饰的鸟嘌呤,例如8-氧代-鸟嘌呤

<220>

<221> 尚未归类的特性

<222> (22)..(23)

<223> 任选的硫代磷酸酯键

<400> 8

caagcagaag acggcatacg agat 24

<210> 9

<211> 62

<212> DNA

<213> 人工序列

<220>

<223> 示例性5'转座子臂

<400> 9

aatgatacgg cgaccaccga gatctacact cgtcggcagc gtcagatgtg tataagagac 60

ag 62

<210> 10

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 示例性3'转座子臂

<220>

<221> 尚未归类的特性

<222> (1)..(1)

<223> 5' 磷酸基团

<400> 10

ctgtctctta tacacatctc cgagcccacg agac 34

<210> 11

<211> 48

<212> DNA

<213> 人工序列

<220>

<223> 示例性附接寡核苷酸

<220>

<221> 尚未归类的特性

<222> (1)..(1)

<223> 5'生物素

<220>

<221> 尚未归类的特性

<222> (48)..(48)

<223> 3'二脱氧-C

<400> 11

caagcagaag acggcatacg agattcgcct tagtctcgtg ggctcggn 48

<210> 12

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 示例性附接寡核苷酸

<220>

<221> 尚未归类的特性

<222> (43)..(43)

<223> 3'生物素

<400> 12

gacgctgccg acgagtgtag atctcggtgg tcgccgtatc att 43

<210> 13

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 示例性5'转座子臂

<220>

<221> 尚未归类的特性

<222> (1)..(1)

<223> 5' 磷酸基团

<400> 13

tcgtcggcag cgtcagatgt gtataagaga cag 33

<210> 14

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> 示例性附接寡核苷酸

<220>

<221> 尚未归类的特性

<222> (18)..(25)

<223> Int 5-硝基吲哚

<220>

<221> 尚未归类的特性

<222> (54)..(54)

<223> 3'生物素

<400> 14

gacgctgccg acgacccnnn nnnnngtgta gatctcggtg gtcgccgtat catt 54

<210> 15

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 示例性附接寡核苷酸

<220>

<221> 尚未归类的特性

<222> (27)..(28)

<223> Int间隔子18

<220>

<221> 尚未归类的特性

<222> (57)..(57)

<223> 3'生物素-TEG

<400> 15

gacgctgccg acgaccgagc atatccnngt gtagatctcg gtggtcgccg tatcatt 57

<210> 16

<211> 37

<212> DNA

<213> 人工序列

<220>

<223> 示例性i501索引寡核苷酸

<400> 16

aatgatacgg cgaccaccga gatctacact agatcgc 37

<210> 17

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 示例性i701索引寡核苷酸

<220>

<221> 尚未归类的特性

<222> (1)..(1)

<223> 5' 磷酸基团

<220>

<221> 尚未归类的特性

<222> (33)..(33)

<223> 3'二脱氧-C

<400> 17

taaggcgaat ctcgtatgcc gtcttctgct tgn 33

<210> 18

<211> 48

<212> DNA

<213> 人工序列

<220>

<223> 示例性i701索引寡核苷酸

<220>

<221> 尚未归类的特性

<222> (48)..(48)

<223> 3'二脱氧-C

<400> 18

caagcagaag acggcatacg agattcgcct tagtctcgtg ggctcggn 48

<210> 19

<211> 49

<212> DNA

<213> 人工序列

<220>

<223> 示例性i501索引寡核苷酸

<400> 19

aatgatacgg cgaccaccga gatctacact agatcgcgga tatgctcgg 49

<210> 20

<211> 66

<212> DNA

<213> 人工序列

<220>

<223> 用于转座体复合物中的示例性序列

<220>

<221> 尚未归类的特性

<222> (1)..(1)

<223> 5'生物素

<400> 20

ttuuuaatga tacggcgacc accgagatct acactcgtcg gcagcgtcag atgtgtataa 60

gagaca 66

<210> 21

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 用于转座体复合物中的示例性序列

<400> 21

ctgtctctta tacacatctc cgagcccacg agacatctcg tatgccgtct tctgcttg 58

<210> 22

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 示例性锚定序列

<400> 22

ggatatgctc gg 12

<210> 23

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 示例性序列X

<400> 23

atctgactat cccctgcg 18

<210> 24

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 示例性序列X'

<400> 24

cgcaggggat agtcagat 18

相关技术
  • 复合表面结合的转座体复合物
  • 用于蚀刻铝质小型体表面的方法、具有经蚀刻表面的铝质小型体以及包含此类小型体的材料复合物
技术分类

06120112876265