掌桥专利:专业的专利平台
掌桥专利
首页

比较具有不同特征的多核苷酸拷贝

文献发布时间:2023-06-19 19:07:35


比较具有不同特征的多核苷酸拷贝

本申请要求2020年5月28日提交的美国临时专利申请号63/031,230的优先权,该专利申请的全部内容据此并入本文中。

序列表

本申请包含2021年5月18日创建的序列表;该文件为ASCII格式,被命名为H2055903.txt,大小为1KB。该文件据此全文以引用方式并入本申请中。

背景技术

许多当前测序平台使用“边合成边测序”(SBS)技术和基于荧光的检测方法。在一些示例中,将从待测序的一个或多个核苷酸群体分离的数量庞大的多核苷酸连接到基底表面并进行复制。然后可以对表面连接的拷贝执行SBS。制作多核苷酸的拷贝或扩增多核苷酸并对拷贝进行测序,增大了测序期间发射的荧光信号,从而增强了测序过程。

可以通过固相核酸扩增方法合成连接到基底的多核苷酸拷贝,该方法允许扩增产物固定在固体载体上,以便形成包括固定核酸分子簇的阵列。这种阵列上的每个簇或集落是目标多核苷酸链的多个拷贝,以及与之互补的多条固定的多核苷酸链。簇扩增方法或成簇方法是其中合成目标多核苷酸的表面连接拷贝和互补序列以便进行SBS的方法的示例。可以用于产生表面连接拷贝等的另外一些合适方法的示例包括桥式扩增法、动力学排除扩增法(“ExAmp”)或其他方法。

成簇包括使用聚合酶来合成表面连接的簇。然而,某些聚合酶和聚合方法的已知问题是,存在与目标多核苷酸的各种特征相关的定量合成偏向。例如,在一些情况下,鸟嘌呤(G)-胞嘧啶(C)碱基对的百分比较低的目标多核苷酸相比具有相对较高GC含量的多核苷酸,成簇方法可能偏向于扩增前者的更多拷贝。在其他情况下,相对较短的目标多核苷酸相比相对较长的多核苷酸,成簇方法可能偏向于扩增前者的更多拷贝。在还有一些其他示例中,偏向的其他理论来源(诸如多核苷酸样品制备方法或其他差异)可能影响多核苷酸的相对扩增水平。

发明内容

至少鉴于前述内容,测序技术因此将从用于确定在成簇过程和其他扩增过程中存在此类偏向的方法,以及此类技术的有关鉴定、分离和修饰的多个方面中获益,这些方面可以最大限度减小此类偏向,因而产生更准确的测序结果。

在一个方面,提供了一种方法,包括制作两个或更多个包含标识符序列的多核苷酸群体的拷贝,其中这些拷贝连接到基底;将寡核苷酸与所述标识符序列杂交;以及比较与所述两个或更多个多核苷酸群体的拷贝杂交的寡核苷酸的量,其中所述两个或更多个多核苷酸群体之间或者连接到基底的所述两个或更多个多核苷酸群体的拷贝的制作方法之间有至少一种特征存在差异。

在一个示例中,至少一种特征选自长度、鸟嘌呤-胞嘧啶含量和制备方法。在另一个示例中,至少一种特征包括鸟嘌呤-胞嘧啶含量。在又一个示例中,至少一种特征包括长度。在还有一个示例中,至少一种特征包括制备方法。在另一个示例中,连接到基底的所述两个或更多个多核苷酸群体的拷贝的制作方法之间有至少一种特征存在差异。在又一个示例中,所述寡核苷酸包含荧光团。

在一个示例中,该方法还包括检测与连接到基底的所述两个或更多个多核苷酸群体的拷贝杂交的寡核苷酸的量之间的差异,其中该差异为至少约10%。在另一个示例中,该差异为至少约20%。在又一个示例中,该差异为至少约30%。

在一个示例中,至少一种特征包括组合,并且该组合包括鸟嘌呤-胞嘧啶含量、长度、制备方法和连接到基底的所述两个或更多个多核苷酸群体的拷贝的制作方法中的两者或更多者,所述两个或更多个多核苷酸群体包括三个或更多个多核苷酸群体,并且所述三个或更多个多核苷酸群体中每一者的组合不同于另一个多核苷酸群体的组合。

另一个示例还包括检测与连接到基底的所述三个或更多个多核苷酸群体中的两个或更多个多核苷酸群体的拷贝杂交的寡核苷酸的量之间的差异,其中该差异为至少约10%。在一个示例中,该差异为至少约20%。在另一个示例中,该差异为至少约30%。

在另一个方面,提供了一种方法,包括制作两个或更多个包含标识符序列的多核苷酸群体的拷贝,其中这些拷贝连接到基底;将包含荧光团的寡核苷酸与所述标识符序列杂交;以及检测与所述两个或更多个多核苷酸群体的拷贝杂交的寡核苷酸的量,其中所述两个或更多个多核苷酸群体之间或者连接到基底的所述两个或更多个多核苷酸群体的拷贝的制作方法之间有至少一种特征存在差异,并且所述至少一种特征选自长度、鸟嘌呤-胞嘧啶含量、制备方法,以及连接到基底的所述两个或更多个多核苷酸群体的拷贝的制作方法。

在一个示例中,至少一种特征包括鸟嘌呤-胞嘧啶含量。在另一个示例中,至少一种特征包括长度。在又一个示例中,至少一种特征包括制备方法。在还有一个示例中,连接到基底的所述两个或更多个多核苷酸群体的拷贝的制作方法之间有至少一种特征存在差异。

另一个示例还包括检测与所述两个或更多个多核苷酸群体的拷贝杂交的寡核苷酸的量之间的差异,其中该差异为至少约10%。在一个示例中,该差异为至少约20%。在又一个示例中,该差异为至少约30%。

附图说明

当参考附图阅读以下详细描述时将更好地理解本公开的这些和其他特征、方面和优点,其中:

图1示出了根据本文所公开方法的一个示例的各方面的流程图。

图2示出了根据本公开各方面的一个方法示例的要素的图示。

图3是在一个示例中示出根据本公开各方面从与起始于不同比例的装载DNA的多核苷酸拷贝杂交的荧光标记寡核苷酸检测到的平均强度的差异的图。

图4是在一个示例中比较在成簇过程中以总DNA的40%、50%或60%装载的多核苷酸成簇后的荧光检测强度的图。

图5示出了根据本文所公开方法的一个示例的各方面的流程图。

具体实施方式

本公开涉及一种用于评估复制多核苷酸中的偏向的方法,诸如作为SBS过程的一部分。特别地,包括一种用于鉴定存在从给定群体相比从不同群体制作相对更多或更少的多核苷酸拷贝的偏向的方法。不同群体的多核苷酸可以通过一个群体与另一个群体不同的特征来彼此区分。特征可以是群体中多核苷酸的任何特性,包括多核苷酸链的物理属性,或者多核苷酸群体经受的作为样品制备的多个方面的过程。

例如,来自一个群体的多核苷酸相对于来自另一个群体的多核苷酸,可以具有更低或更高的C和/或G碱基与A和/或T碱基的比率。在另一个示例中,来自某个群体的多核苷酸的长度可以是多个核苷酸,且一个群体的多核苷酸的长度不同于另一个群体的多核苷酸的长度。在另一个示例中,不同的多核苷酸群体可能经历了不同的制备方法。例如,它们可能经历了将目标分子片段化成较短的多核苷酸以进行复制和测序的不同方法,或者将寡核苷酸序列或标识符添加到多核苷酸(有时称为加索引、加索引标签或加条形码的方法,这是一种对多核苷酸加标签或加索引以便鉴定随后由其产生的拷贝的方式)的不同方法,或者从初始样品分离多核苷酸序列(诸如分离预定尺寸或在预定尺寸范围内的选定多核苷酸)的不同方法。在其他示例中,从一个多核苷酸群体形成簇的方法可以不同于从不同多核苷酸群体形成簇的方法。

在一些示例中,任何特征,无论是直接与不同群体的多核苷酸的物理特性相关,间接指示多核苷酸本身由于其制备、储存、处理、操作、制备或成簇过程而产生的特性,还是涉及其他特性(诸如可能与多核苷酸一起存在的其他组分)等,都可以区分两个或更多个群体。如本文所公开的方法可以用于确定特征的差异是否导致复制的偏向(诸如在成簇过程期间),这种偏向导致多核苷酸从一个群体复制的量或速率相对于从另一个群体复制的量或速率不成比例地偏高。

在一些示例中,群体可以在多于一种特征方面(包括GC含量、长度、制备方法,或者制作拷贝的方法(诸如在成簇期间))存在差异。例如,群体可以在长度方面(例如,多核苷酸群体中的核苷酸数目)和GC含量方面(例如,多核苷酸群体中的G和/或C残基相比多核苷酸群体中的A和/或T残基的相对量)存在差异。或者,它们可以在这些方面和制备方法、成簇期间的复制方法、或者前述两者或更多者的任意组合方面存在差异。在一些示例中,群体可以在一个或多个特征方面、或者在任何两个或更多个特征的组合方面、或者在任何三个或更多个特征的组合方面(诸如长度、GC含量、或者制备多核苷酸以便复制或成簇的方法,以及/或者复制方法(诸如成簇方法))存在差异。

制备不同多核苷酸群体(其中多核苷酸构成这些群体的特征)的方法的差异可以赋予这些群体不同的结构特性,诸如以下各方面的差异:获得预期尺寸多核苷酸的有效性、群体内多核苷酸尺寸的一致性、群体内有多少多核苷酸正确地具有与之连接的衔接子或其他序列,等等,所有这些差异都可能导致偏向或复制差异,这些偏向或复制差异在成簇后变得明显。本文所公开的方法可以用于探知制备方法中的差异造成的此类影响。

在一些示例中,可以预先选择两个或更多个多核苷酸群体中的一个或多个多核苷酸群体的特征,包括前述任一种特征,或者前述任何两种或更多种特征彼此的组合。例如,确定成簇过程或复制过程的另一方面是否引起、增加、减少、消除或以其他方式影响多核苷酸长度、GC含量、制备过程或其他特征、或制作拷贝的方法,或者前述方面中的两者或更多者的任意组合的偏向可能是有利的。因此,可以预先选择多核苷酸群体的特征,并且可以将这些特征设定为反映这种潜在或假设的偏向原因或来源、所执行的成簇过程或其他复制过程,以及所比较的两个或更多个多核苷酸群体的拷贝量。一个群体具有比另一个群体更大的拷贝量(用每个群体在拷贝开始时的起始量进行标准化)可以表示在所使用的复制条件下对具有预先选择的特征的多核苷酸的偏向或对抗。

这种方法的一个示例在图1的流程图中展示。制备两个或更多个多核苷酸群体用于复制,诸如通过成簇方法。制备方法包括将一种寡核苷酸序列添加到一个多核苷酸群体中,以及将另一种寡核苷酸序列添加到另一个多核苷酸群体中。在其中使用多于两个多核苷酸群体的一个示例中,可以将一种寡核苷酸序列添加到一个群体的多核苷酸中,该寡核苷酸序列不同于添加到每个其他群体的多核苷酸中的寡核苷酸序列,使得每个群体的多核苷酸均包含对于该群体的多核苷酸具有特异性的寡核苷酸序列,并且该寡核苷酸序列不同于添加到任何其他群体的多核苷酸中的寡核苷酸。由于多核苷酸群体具有此类寡核苷酸序列(称为标识符序列)的差异,因此可以同具有与之互补的序列的寡核苷酸杂交。例如,添加到两个或更多个多核苷酸群体中的每个标识符序列均可以能够与来自其两个或更多个群体中的任何其他群体的多核苷酸的标识符序列不能与之杂交的寡核苷酸序列杂交。如下文进一步解释的,根据如本文所公开的方法,存在序列标识符因而能够区分来自不同群体的多核苷酸可以允许鉴定来自给定群体而不是任何其他群体的多核苷酸的拷贝。

然后可以拷贝两个或更多个群体的单链多核苷酸,其中拷贝连接到基底。例如,如上文所提及的,可以根据固态排阻扩增成簇方法、桥式扩增成簇方法或其他方法来执行复制。在一个非限制性示例中,多核苷酸的3'端可以与连接到基底的引物序列杂交,并且执行聚合过程以产生多核苷酸的互补序列,该互补序列从表面连接的引物开始并延伸为与每个多核苷酸的5'端互补。然后可以从其表面连接的互补序列扩增来自两个或更多个群体的多核苷酸。根据桥式PCR方法,作为非限制性示例,然后可以将两个或更多个群体的多核苷酸的表面连接互补序列的游离3'端与连接到基底的另一个引物序列杂交。然后可以通过聚合酶反应复制这些互补序列,产生从表面延伸的两个或更多个多核苷酸群体的多核苷酸的拷贝,及其互补序列。然后可以将表面结合的互补序列和拷贝彼此解杂交,并执行另一轮聚合,其中复制两个或更多个多核苷酸群体的多核苷酸的表面连接拷贝及其互补序列(在它们的游离3'端与作为聚合酶反应起始位点的表面连接引物杂交后),然后将表面连接的多核苷酸的互补对彼此解杂交。通过重复该过程,可以形成连接到基底的两个或更多个多核苷酸群体的拷贝及其互补序列的簇。在其他示例中,也可以采用其他类似的制作多核苷酸群体拷贝的方法,无论是PCR、滚环扩增法、多重置换扩增法、随机引物扩增法,还是等温扩增法等。

然后可以确定来自两个或更多个多核苷酸群体之一的多核苷酸的基底连接拷贝的量。例如,可以添加能够与两个或更多个群体之一的多核苷酸的标识符序列杂交的寡核苷酸,使得其与所述多核苷酸上存在的所述标识符序列杂交。能够杂交的寡核苷酸可以包括可检测的标记物,诸如在给定波长的电磁辐射的刺激下能够发射可检测的荧光的荧光标记物。通过诱导此类杂交的寡核苷酸发荧光并检测发射的荧光量,可以评估来自两个或更多个群体之一的多核苷酸的拷贝量。

然后可以将所述寡核苷酸解杂交,接着与另一种寡核苷酸一起孵育,该另一种寡核苷酸能够与两个或更多个多核苷酸群体中的另一个群体的多核苷酸的标识符序列杂交。所述另一种能够杂交的寡核苷酸可以包括可检测的标记物,诸如在给定波长的电磁辐射的刺激下能够发射可检测的荧光的荧光标记物。通过诱导此类另一种杂交的寡核苷酸发荧光并检测发射的荧光量,可以评估来自两个或更多个群体中的另一个群体的多核苷酸的拷贝量。在其中潜在的复制偏向由来自多于两个多核苷酸群体的多核苷酸的特征或特征组合引起或导致的一个示例中,可以重复以下过程:将能够杂交的寡核苷酸与各个核苷酸群体的多核苷酸的每种标识符序列杂交,测量杂交的寡核苷酸的量,之后将其解杂交(如果随后将进行另一种寡核苷酸的杂交),以获得每种类型寡核苷酸的量的测量结果,作为来自两个或更多个多核苷酸群体中的每个多核苷酸群体的多核苷酸的拷贝量的量度。

在一个示例中,与两个或更多个多核苷酸群体中的每个多核苷酸群体的拷贝杂交的寡核苷酸的量之间的差异可以通过比较相关量(例如,从能够与相应的标识符序列杂交的寡核苷酸发射的荧光的相关量)来检测。例如,样品可以包括含有不同标识符序列并且通过具有不同特征来表征的两个多核苷酸群体。不同的样品可以包括不同相对比例的来自这两个群体中的每个群体的多核苷酸。例如,一个群体可以构成样品总核苷酸含量的约0%、约5%、约10%、约15%、约20%、约25%、约30%、约35%、约40%、约45%、约50%、约55%、约60%、约65%、约70%、约75%、约80%、约85%、约90%或约100%,另一个群体则构成样品的余量。然后可以根据本文公开内容(诸如在成簇过程中)制作这些群体的拷贝和互补序列。

接着可以将寡核苷酸与多核苷酸群体的拷贝的标识符序列杂交。可以测量杂交的寡核苷酸的量,诸如,在其中寡核苷酸包含荧光团的一个示例中,还可以对荧光发射进行检测和定量,作为与给定群体的标识符序列杂交的寡核苷酸的总量的量度。以这种方式,可以测量和比较与每个群体杂交的寡核苷酸的量,以给出复制后每个群体的多核苷酸拷贝的相对丰度的指示。在一个示例中,当样品包括不同相对比例的每种多核苷酸群体时,差异可能是可检测的。例如,当一个群体在诸如通过成簇进行复制之前构成样品核苷酸含量的约0%、约5%、约10%、约15%、约20%、约25%、约30%、约35%、约40%或约45%,而另一个群体构成余量时,差异可能是可检测的。

在一个示例中,从包含与每个群体的标识符序列杂交的荧光团的寡核苷酸测量荧光发射,并探知荧光的差异。例如,能够与一个多核苷酸群体的标识符序列杂交的寡核苷酸可以包含与能够与另一个寡核苷酸群体的标识符序列杂交的寡核苷酸不同且这种不同可被检测到的荧光团,使得来自一种寡核苷酸的荧光发射可以独立于来自另一种寡核苷酸的荧光发射被检测,反之亦然(例如,Alexa 647、Alexa 532等)。在一个示例中,从与一种标识符序列杂交的寡核苷酸发射的荧光相比从与另一种标识符序列杂交的寡核苷酸发射的荧光可以多或少至少约10%、或者多或少至少约15%、或者多或少至少约20%、或者多或少至少约25%、或者多或少至少约30%、或者多或少至少约35%、或者多或少至少约40%、或者多或少至少约45%、或者多或少至少约50%。在另一个示例中,从与一种标识符序列杂交的寡核苷酸发射的荧光相比从与另一种标识符序列杂交的寡核苷酸发射的荧光可以多或少约10%、或者多或少约15%、或者多或少约20%、或者多或少约25%、或者多或少约30%、或者多或少约35%、或者多或少约40%、或者多或少约45%、或者多或少约50%。

图2中示出了一个示例。在最左边的小图中,示出了两种多核苷酸,分别来自两个多核苷酸群体中的每一者。每种多核苷酸均包含索引或标识符序列。在一个实际的示例中,可以使用来自两个或更多个群体中的每一者的多种多核苷酸。示出了将在其上发生固相复制的表面。在该示例中,表面是流通池的表面。引物(例如,引物P5和P7)连接到表面,多核苷酸3’端的一部分与引物互补并能够与之杂交。然后将多核苷酸与表面连接的引物杂交,接着通过聚合酶延伸引物,以形成多核苷酸的互补序列。接下来将多核苷酸解杂交,留下表面连接的互补序列,这些互补序列已从表面连接的引物延伸。因此形成了多核苷酸群体的表面连接拷贝,使用两个或更多个群体的多核苷酸的表面连接互补序列作为模板进行聚合。然后将这些链线性化并彼此解杂交,接着重复该过程。通过反复地重复该过程,扩增两个或更多个群体的多核苷酸的表面连接拷贝及其表面连接互补序列的数目,从而产生表面连接簇。然后可以从基底(诸如通过酶裂解)除去代表该群体的多核苷酸的拷贝或互补序列的一组链。参见图2中指示“成簇和线性化”的箭头。

如果区分两个或更多个群体中的一个群体与另一个群体的特征或特征组合在复制过程中引起偏向,或者如果复制过程中的差异带来了影响,则这种偏向可以反映在来自一个群体的多核苷酸的表面连接拷贝的量与来自另一个群体的多核苷酸的表面连接拷贝的量相比之间的差异上。此类差异可以通过杂交寡核苷酸探针来探知,该寡核苷酸探针能够与一个群体的标识符序列杂交、但不能与任何其他群体的标识符序列杂交,并且携带可检测的连接物,诸如荧光标记物。如图2的第三幅小图所示,可以将这种探针与一个群体的拷贝杂交,洗掉过量未结合的探针,然后通过测量在用已知从连接到寡核苷酸探针的荧光标记物诱导发射的一定波长的电磁辐射刺激表面后发射荧光的量来检测杂交探针的量。

随后,可以将第一探针解杂交并洗掉,之后与另一探针杂交。这另一种寡核苷酸能够与另一个群体的标识符序列杂交(但不能与任何其他群体的标识符序列杂交),并且携带可检测的连接物,诸如荧光标记物。如图2的最后一幅小图所示,可以将这另一种探针与这另一个群体的拷贝杂交,洗掉过量未结合的探针,然后通过测量在用已知从连接到所述另一种寡核苷酸探针的荧光标记物诱导发射的一定波长的电磁辐射刺激表面后发射荧光的量来检测杂交探针的量。从第一杂交探针检测到的荧光量与从第二杂交探针检测到的荧光量的比较结果表明了来自两个或更多个群体中的两个群体的多核苷酸连接到表面的拷贝数的差异。

通过将该差异与来自两个或更多个多核苷酸群体中的每一者的用于启动成簇过程的多核苷酸的量的差异进行比较,可以鉴定区分所述两个或更多个多核苷酸群体的一种或多种特征对复制偏向或由复制方法产生的偏向的影响。也就是说,通过相互比较与两个或更多个群体中每一者的拷贝杂交的每种这样的寡核苷酸的量,用来自每个群体的用于复制的多核苷酸的相对量进行标准化,可以探知存在给定的复制偏向及其量值。例如,如果特征引起复制中的偏向,则来自两个或更多个多核苷酸群体的通过所述特征来表征(诸如较高的GC含量、较长的长度、样品制备方法、前述两者或更多者的任意组合等)的一个群体的多核苷酸的拷贝的相对量可以超过来自所述两个或更多个多核苷酸群体的通过所述特征来有差别地表征(诸如较低的GC含量、较短的长度、不同的样品制备方法,或者前述两者或更多者的其他不同组合等)的另一个群体的多核苷酸的拷贝的相对量。反过来,检测到这种差异可以指示偏向于或对抗复制通过所述特征或特征组合来表征的多核苷酸。

固态扩增过程导致从与表面结合的初始群体形成多核苷酸的拷贝和互补序列。这些多核苷酸的拷贝包括标识符序列。进而,所述拷贝的互补序列包括标识符序列的互补序列,并且所述标识符序列的互补序列还可以能够唯一地杂交到不与连接到表面的多核苷酸的其他拷贝或互补序列杂交的寡核苷酸探针。使寡核苷酸与多核苷酸的表面结合拷贝上的标识符序列杂交并测量这种杂交的寡核苷酸的量,表明了多核苷酸在复制过程中发生复制的量。类似地,使寡核苷酸与多核苷酸拷贝的表面结合互补序列上的标识符序列杂交并测量这种杂交的寡核苷酸的量,也表明了多核苷酸在复制过程中发生复制的量。对能够与表面连接的多核苷酸拷贝的标识符序列或表面连接的互补序列上的标识符序列的互补序列杂交或者与前述标识符序列或前述标识符序列的互补序列杂交的探针的量的检测可以用作多核苷酸群体发生复制的量的指示。

虽然在一些示例中,来自两个群体的多核苷酸可以具有彼此相同的标识符序列,但是在其他示例中,来自两个或更多个群体的多核苷酸可以包括彼此相同的标识符序列。例如,多核苷酸可以包含多于一种标识符序列,来自两个或更多个多核苷酸群体中所有群体的多核苷酸可以具有对于每个群体不同的第一标识符序列。它们可以具有在两个或更多个群体中的两个或更多个群体之间共用但不同于所述两个或更多个群体中的任何其他群体的第二标识符序列。这些群体可以具有也由一些群体共用但与其他群体存在差异的第三标识符序列。这些群体还可以具有由所有群体共用的第四标识符序列。在该示例中,这些群体之间在给定的标识符序列处的差异可以使得能够在这种杂交序列处与一种序列杂交的寡核苷酸不能在这种标识符序列处与另一种序列杂交。因此,产生表面结合的拷贝和互补序列的多核苷酸来自的群体可以通过杂交对于给定的标识符序列具有特异性的探针来确定。

在一个非限制性示例中,可能存在四个多核苷酸群体。两个群体可以具有比另外两个群体更高的GC含量,并且两个群体可以具有比另外两个群体长度更长的多核苷酸。长度和GC含量可以在这四个群体之间混合,其中第一群体具有较长的多核苷酸且GC含量高,第二群体具有较长的多核苷酸且GC含量低,第三群体具有较短的多核苷酸且GC含量高,第四群体具有较短的多核苷酸且GC含量低。每个群体可以具有一个、两个、三个、四个或更多个标识符序列。对于每个群体,第一标识符序列可以是唯一的。第二标识符序列可以区分不同长度的群体,其中第一群体和第二群体具有彼此相同的第二标识符序列,第三群体和第四群体具有彼此相同的标识符序列,第一群体和第二群体的第二标识符序列不同于第三群体和第四群体的第二标识符序列。第三标识符序列可以区分不同GC含量的群体,其中第一群体和第三群体具有彼此相同的第二标识符序列,第二群体和第四群体具有彼此相同的标识符序列,第一群体和第三群体的第三标识符序列不同于第二群体和第四群体的第三标识符序列。第四标识符序列可以由所有群体共用。

在复制之后,对于给定标识符序列的序列具有特异性的探针的杂交及其杂交的测量结果可以根据区分不同群体或由不同群体共用的特征,指示表面结合拷贝的不同量,即,关于多核苷酸的不同群体或差异组合发生复制的量。例如,可以通过测量对于第一杂交序列的每种序列具有特异性的探针的杂交来分别确定每个群体的量。较长的多核苷酸和较短的多核苷酸的复制量可以通过测量寡核苷酸与第二标识符序列的每种序列的杂交来确定。高GC含量多核苷酸和低GC含量多核苷酸的复制量可以通过测量核苷酸与第三标识符序列的每种序列的杂交来确定。另外,整体复制总量可以通过测量核苷酸与第四标识符序列的杂交来确定。在其他示例中,在多核苷酸的一些或全部群体中可以包括更多或更少数目的标识符序列,并且这些标识符序列可以在不同群体中以不同方式组合。在其他示例中,可以有可能以给定的标识符序列存在的多于两种序列,诸如在对给定特征的几个示例进行比较的情况下(例如,低、中或高GC含量,或者较短、中等和较长的多核苷酸长度,等等)。

在成簇之后,但在寡核苷酸与标识符序列杂交之前,如上所述,两个或更多个群体的多核苷酸的拷贝和互补序列与表面结合。在评估寡核苷酸与标识符序列的杂交之前除去表面结合互补序列可能是有利的。或者,在另一个示例中,在测量寡核苷酸与表面结合互补序列上的标识符序列的互补序列的杂交之前除去表面结合拷贝可能是有利的。除去两个或更多个群体的多核苷酸的表面结合拷贝或互补序列可以通过以下方式来实现:在表面结合引物中包括可以被选择性地切割的残基,此类拷贝和互补序列从该残基延伸,在成簇后除去从该残基延伸的拷贝或互补序列。例如,引物可以包括脱氧尿苷(dU)部分。随后用酶制剂(诸如LMX1)处理可以在dU残基处切割引物,并释放从其延伸的多核苷酸。在另一个示例中,表面连接的引物可以包括8-氧代鸟嘌呤(oxo-G)残基。随后用酶制剂(诸如LMX2)处理可以在oxo-G残基处切割引物,并释放从其延伸的多核苷酸。

此外,可以修改或比较复制过程(诸如成簇过程)的多个方面,以确定这样的方面是否减少、消除、部分消除、恶化或以其他方式影响由多核苷酸群体的特征引起的偏向。例如,如果将多核苷酸与两个或更多个不同群体区分开的特征导致、引起根据本文所公开方法的特征,或者被确定为与根据本文所公开方法的特征相关联,则可以在不同条件下进行复制(诸如成簇过程),并且可以确定复制条件中的此类差异对这种偏向造成的影响。制作多核苷酸群体的拷贝的过程的一个方面(例如成簇过程的多个方面)可以是特征,并且这种特征可以在不同群体之间存在差异。在一个示例中,来自两个不同群体且在第一特征方面(诸如GC含量、长度和/或制备方法,作为非限制性示例)存在差异的多核苷酸可以在两种不同条件(第二特征)中的每一种下复制。然后可以将来自这两个群体的多核苷酸在一组条件下复制时的拷贝量的任何差异(表示第一特征与复制中的偏向相关)与来自这两个群体的多核苷酸在另一组条件下复制时的拷贝量的任何差异进行比较。如果这些差异彼此不同,则表示由于与该特征相关的偏向而引起的复制条件的差异可能受到这些条件的影响(也就是说,可能受到第二特征的影响)。在另一个示例中,区别特征可以是制作两个或更多个多核苷酸群体的拷贝的方法的一个方面,诸如成簇方法的一个方面,此时其他特征都是相同的。

在一个示例中,以两个群体在一组条件下复制时被复制的量之间的差异反映的特征相关偏向可以比以这两个群体在另一组条件下复制时被复制的量之间的差异反映的特征相关偏向更小或更大(由这两个群体之间的拷贝量的差异更小或更大表示)。可以对在其下发生复制的任何组分、情况、环境或其他方面进行修改,或测试其对偏向的影响,其中偏向以两个多核苷酸群体有关被复制的量有差别的特征中的差异反映。例如,可以对以下各项进行修改和比较:不同的聚合酶、聚合反应中的添加剂(诸如聚乙二醇、盐、核苷酸等)、基底、基底的聚合物涂层、流通池特性、温度、时间选择、聚合循环的数目、用于多核苷酸拷贝及其互补序列的再杂交或线性化的组分(例如,LMX1或LMX2,其用于一些生物化学过程中,在成簇以释放表面连接的多核苷酸的子组之后但在重新合成表面连接的多核苷酸以便进行后续测序轮次之前使用),或者任何其他条件。可以将一种条件的多于一个示例与多于一个其他示例进行比较。另外,可以修改多种条件,以确定例如这些条件之间在特征相关的复制偏向上是否存在相互作用。此外,可以如上所述比较多个特征对偏向的单独影响和组合影响,并且可以测试一种或多种条件在单独使用时、组合使用时或者在这两种情况下对任何一种或多种特征相关偏向的影响。

根据本公开的方法提供了优于用来评估在成簇中或者在下一代测序技术中所采用的其他复制过程中的潜在偏向的其他方法的优点。例如,如本文所公开的,可以在不需要对复制的多核苷酸测序的情况下评估偏向来源。可以鉴定潜在的偏向来源,以及最小化、消除或以其他方式影响偏向的可能的调整,而不必额外耗费时间、费用和计算资源来执行和分析多核苷酸测序。此外,本文所公开的示例提供了用于评估多种可能的偏向来源以及多种变量的高通量方法,所述偏向来源诸如为单独或组合的多核苷酸特征的形式,而所述变量的修改可以导致消除或以其他方式修改复制中的偏向,所述变量诸如复制(例如成簇)在其下发生或根据其发生的条件,或者在SBS过程中的测序之前出现的能够以其他方式影响多核苷酸复制的任何方面的条件。

关于评估可归因于作为特征的GC含量的偏向,可以通过平均相对GC含量来表征多核苷酸群体。例如,已知某些种类的微生物具有相对于(例如)人(其基因组平均具有大致相等比例的GC和AT含量)更高或更低的平均GC含量百分比。已知一些微生物(诸如红细菌(Rhodobacter)菌群的细菌)具有升高的GC含量,诸如高于60%的GC含量。已知其他微生物(诸如蜡状芽孢杆菌(Bacillus cereus))具有较低的GC含量,诸如低于40%的GC含量。在一个示例中,GC含量可以是特征。多核苷酸群体可以是从以下来源制备的多核苷酸:红细菌,该群体代表相对于其他群体GC含量较高作为特征;人类,该群体代表相对于其他群体GC含量中等作为特征;或蜡状芽孢杆菌,该群体代表相对于其他群体GC含量较低作为特征。这里使用的“较高”和“较低”是相对的。因此,在使用人类作为群体的情况下,可以具有相对于另一个群体较高或较低的GC含量作为特征,具体取决于这另一个群体(例如,分别为蜡状芽孢杆菌和红细菌)的GC含量。

在其他示例中,多核苷酸可以来自具有预先确定的GC含量的合成来源或人工来源,其中,预先确定的GC含量是通过例如以下方式建立的:直接测定样品的多核苷酸序列,或者以化学计量方式控制给定类型核苷酸掺入链中的相对量,第二种方式取决于其合成方法(例如,使用不依赖于模板的方法进行序列合成)。多核苷酸群体可以包括任何预期的或已知的GC百分比,其中GC百分比意指鸟嘌呤和胞嘧啶核碱基的总组合数在核碱基总数(G、C、A和T的总数)中所占的百分比。群体可以由GC含量限定作为整体的群体的特性,即使该群体的各个多核苷酸可以具有不同于作为整体的群体的GC含量的GC含量。

群体可以具有约5%的GC含量、约10%的GC含量、约15%的GC含量、约20%的GC含量、约25%的GC含量、约30%的GC含量、约35%的GC含量、约40%的GC含量、约45%的GC含量、约50%的GC含量、约55%的GC含量、约60%的GC含量、约65%的GC含量、约70%的GC含量、约75%的GC含量、约80%的GC含量、约85%的GC含量、或约90%的GC含量,或者任何居间量的GC含量。明确地包括所有其他可能的比较作为本公开的方面。

关于评估可归因于多核苷酸长度的偏向,可以通过平均相对多核苷酸长度来表征多核苷酸群体。例如,核酸分子可以分离自样品,诸如细胞或其他生物来源,并且在样品制备期间通过各种方法中的任一种进行片段化。通过调整片段化方法中所使用的参数(诸如超声处理时间),可以产生各种长度的多核苷酸。然后可以从所得的片段中分离出所需长度的多核苷酸。群体可以由多核苷酸长度限定作为整体的群体的特性,即使该群体的各个多核苷酸可以具有不同于这样确定的群体多核苷酸长度的长度。在另一个示例中,作为群体特征的多核苷酸长度可以通过从设计的模板聚合具有预先确定的长度的多核苷酸来预先确定。

多核苷酸群体可以具有以下长度或更长的长度:约100个核苷酸、约150个核苷酸、约200个核苷酸、约250个核苷酸、约300个核苷酸、约350个核苷酸、约400个核苷酸、约450个核苷酸、约500个核苷酸、约550个核苷酸、约600个核苷酸、约650个核苷酸、约700个核苷酸、约750个核苷酸、约800个核苷酸、约850个核苷酸、约900个核苷酸、约950个核苷酸、约1,000个核苷酸、约1,050个核苷酸、约1,200个核苷酸、约1,250个核苷酸、约1,300个核苷酸、约1,350个核苷酸、约1,400个核苷酸、约1,450个核苷酸、约1,500个核苷酸、约1,550个核苷酸、约1,600个核苷酸、约1,650个核苷酸、约1,700个核苷酸、约1,750个核苷酸、约1,800个核苷酸、约1,850个核苷酸、约1,900个核苷酸、约1,950个核苷酸、约2000个核苷酸。

特征还可以包括群体制备的其他方面,诸如通过不同的文库制备方法或来自不同供应商的文库制备试剂盒制备的核苷酸群体(DNA文库)。还可以比较成簇过程的各方面的效果,以确定此类条件是否影响以及如何影响与特征相关的偏向或假设偏向。通过一个或多个特征彼此区分的两个或更多个多核苷酸群体中的每一者可以经历一个、两个或更多个复制过程,诸如成簇过程,且条件在两个或更多个过程之间变化。复制偏向是否由一种条件和/或另一种条件下的特征差异引起,或者偏向的量或存在是否根据其经受的具体复制条件而存在差异,可以指示与该特征相关的偏向是否可以通过如此修改这种条件而改变。在一个示例中,可以修改多种条件,或者可以比较一种条件的几个不同示例。可以修改的条件的示例包括用于固态复制的反应溶液的组分、复制轮次或多轮复制持续时间、温度等,其中固态复制诸如成簇过程(诸如使用的聚合酶、pH、多核苷酸或任何组分的浓度、使用的线性化酶(诸如LMX1或LMX2或其他)、包括的性能添加剂(诸如GP32或UvsX或其他核苷酸结合蛋白、聚乙二醇、磷酸肌酸,或其他添加剂)、基底表面的类型,或者固相PCR或成簇在其上发生的表面的聚合物涂层的类型、存在或厚度)。在一些示例中,制备多核苷酸群体的方法和/或复制方法(诸如在从多核苷酸群体形成簇期间)的任何方面可以根据本文所公开的方法进行修改和评价,以确定偏向的可能性。

在制作拷贝的方法(例如,ExAmp方法、桥式方法或其他成簇方法)中使用的试剂中可以作为特征而变化的参数的非限制性示例包括各种酶的浓度(和比率)、添加剂(浓度和比率)、溶液pH、溶液中包含的用于复制的多核苷酸浓度,以及溶液中包含的用于复制的核苷酸浓度。

复制发生时的温度(例如,在一个示例中,等于、高于或低于约20摄氏度)、聚合或洗涤步骤的持续时间、试剂补充方法或持续时间、试剂进入流通池或所使用的其他基底的流速等的非限制性示例可以相应地修改和询问。成簇时间可以作为特征而变化(例如,小于约30分钟,或在约30分钟至约1小时内,或在约1小时至约2小时内,或在约2小时至约3小时内,或在约3小时至约4小时内,或在约4小时至约5小时内,或在约5小时至约6小时内,或在约6小时至约7小时内,或在约7小时至约8小时内,或在约8小时至约9小时内,或在约9小时至约10小时内,或在约10小时至约11小时内,或在约11小时至约12小时内,或在约12小时至约24小时内,或在约24小时至约36小时内,或在约36小时至约48小时内,或在约48小时至约72小时内,或更长时间)。复制或成簇过程的每个方面的持续时间(诸如试剂在溶液中孵育的持续时间)可以作为特征而变化(例如,约10秒、或约20秒、或约30秒、或约40秒、或约50秒、或约60秒、或约70秒、或约80秒、或约90秒、或约100秒、或约110秒、或约120秒,或更长时间)。

流体速度或试剂流过流通池的速率可以作为特征而变化(例如,流速可以为约10ul/min、或约20ul/min、或约30ul/min、或约40ul/min、或约50ul/min、或约60ul/min、或约70ul/min、或约80ul/min、或约90ul/min、或约100ul/min、或约110ul/min、或约120ul/min、或约130ul/min、或约140ul/min、或约150ul/min,或更高的速率)。可以作为特征而修改的其他方面包括pH(例如,高于、低于或等于约pH 7.5)、缓冲液的类型(例如,基于Tris的缓冲液,或其他缓冲液),以及缓冲液或者成簇溶液的另外一种或一些组分的浓度(例如,约100nM,或者小于或大于约100nM)。

在一个示例中,来自两个或更多个群体的多核苷酸可以在溶液中混合,然后可以将该溶液添加到基底(诸如流通池)中用于复制,包括例如通过成簇方法复制。两个或更多个群体的多核苷酸上的不同标识符序列允许鉴定表面连接拷贝是哪个群体的拷贝。在一个示例中,可以控制添加的多核苷酸总量占来自某个群体的多核苷酸的相对比例,并且该相对比例可以在几种不同的溶液中变化。例如,添加到流通池或流通池通道的一种溶液中的多核苷酸的总数可以具有大致相等比例的来自两个多核苷酸群体中每一者的多核苷酸。添加到流通池或流通池通道的另一种溶液中的多核苷酸的总数可以具有约25%来自一个多核苷酸群体的多核苷酸和约75%来自另一个多核苷酸群体的多核苷酸,而添加到流通池或流通池通道的又一种溶液中的多核苷酸的总数可以具有约75%来自另一个多核苷酸群体的多核苷酸和约25%来自这一个多核苷酸群体的多核苷酸。来自一个群体和另一个群体的多核苷酸的比例之间的任何其他分割可以用于不同的溶液中(例如,约5%/95%、约10%/90%、约15%/85%、约20%/80%、约25%/75%、约30%/70%、约35%/65%、约40%/60%、约45%/55%、约50%/50%、约55%/45%、约60%/40%、约65%/35%、约70%/30%、约75%/25%、约80%/20%、约85%/15%、约90%/10%、约95%/5%,或者任何居间的相对比例)。

文库制备

可以按任何合适的方式制备包含多核苷酸的文库,以将寡核苷酸衔接子连接到目标多核苷酸上。如本文所用,“文库”是来自给定的来源或样品的多核苷酸群体。文库包括多个目标多核苷酸。如本文所用,“目标多核苷酸”是期望包括在复制过程(诸如成簇过程)中的多核苷酸。目标多核苷酸基本上可以是任何已知或未知序列的多核苷酸。其可以是例如基因组DNA或cDNA的片段。目标多核苷酸可以来源于已被随机片段化的初级多核苷酸样品。通过在每个目标片段的末端处放置引物序列,诸如标识符序列、与表面连接引物互补的序列等,可以将目标多核苷酸加工成适于扩增的模板。这些目标多核苷酸也可以从初级RNA样品通过逆转录成cDNA而获得。

如本文所用,术语“多核苷酸”和“寡核苷酸”可以互换使用,是指包含通常通过磷酸二酯键彼此共价结合的两个或更多个核苷酸单体的分子。多核苷酸通常含有比寡核苷酸更多的核苷酸。出于说明而非限制的目的,多核苷酸可以被认为含有15个、20个、30个、40个、50个、100个、200个、300个、400个、500个或更多的核苷酸,而寡核苷酸则可以被认为含有100个、50个、20个、15个或更少的核苷酸。

多核苷酸和寡核苷酸可以包括脱氧核糖核酸(DNA)或核糖核酸(RNA)。这些术语应当被理解为包括由核苷酸类似物制成的DNA或RNA的类似物作为等同物,并且适用于单链(诸如有义或反义)多核苷酸和双链多核苷酸。如本文所用,该术语还涵盖cDNA,即由RNA模板例如通过逆转录酶的作用产生的互补DNA或拷贝DNA。

初级多核苷酸分子可以来源于双链DNA(dsDNA)形式(例如基因组DNA片段、PCR和扩增产物等),或者可能来源于单链形式,如DNA或RNA,然后被转化为dsDNA形式。举例来说,可以使用本领域熟知的标准技术将mRNA分子复制成双链cDNA。初级多核苷酸的精确序列对于本文所提出的公开内容通常并不重要,可以是已知的,也可以是未知的。

在一些示例中,初级目标多核苷酸是RNA分子。在此类示例的一个方面,首先使用本领域已知的技术将分离自特定样品的RNA转化为双链DNA。然后可以用文库特异性标签对该双链DNA加索引标签。可以从分离自不同来源或样品的RNA平行生成包含文库特异性索引标签的这种双链DNA的不同制备物。随后,可以将包含不同文库特异性索引标签的不同双链DNA制备物混合,一同复制,然后借助文库特异性索引标签序列的存在,关于每个测序片段从其分离/来源于其的群体确定每个测序片段的身份。

在一些示例中,初级目标多核苷酸是DNA分子。例如,初级多核苷酸可以代表生物体的完整遗传互补序列,并且是基因组DNA分子,诸如人DNA分子,既包括内含子和外显子这两种序列(编码序列),还包括非编码调节序列,诸如启动子序列和增强子序列。然而,可以设想还可以使用多核苷酸序列或基因组DNA的特定子集,诸如特定染色体或其一部分。在许多示例中,初级多核苷酸的序列是未知的。DNA目标多核苷酸可以在片段化过程(诸如随机片段化过程)之前或之后,以及在连接衔接子寡核苷酸之前、期间或之后进行化学处理或酶处理。

在一个示例中,将初级目标多核苷酸片段化为适合测序的适当长度。目标多核苷酸能够以任何合适的方式片段化。优选地,目标多核苷酸被随机片段化。随机片段化是指通过例如酶、化学或机械手段以无序方式将多核苷酸片段化。可以采用任何合适的片段化方法。为清楚起见,经由较大一段多核苷酸的较小片段的特异性PCR扩增生成此类较小片段并不等同于将这较大一段多核苷酸片段化,因为这较大一段多核苷酸保持完整,也就是说,不被PCR扩增片段化(尽管本文所公开方法的执行对象可以是通过任一种技术产生的多核苷酸群体)。此外,随机片段化被设计成产生与包括和/或围绕断裂的核苷酸的序列同一性或位置无关的片段。

在一些示例中,随机片段化是通过机械手段(诸如雾化或超声处理)产生长度为约50个碱基对至长度为约1500个碱基对(诸如长度为50个至700个碱基对或长度为50个至500个碱基对)的片段。

通过机械手段(例如,雾化、超声处理和Hydroshear)将多核苷酸分子片段化可以产生具有3'悬垂平端和5'悬垂平端的异质混合物的片段。可以使用本领域已知的方法或试剂盒(例如Lucigen DNA终止子末端修复试剂盒)修复片段末端,以生成最适宜插入例如克隆载体的平端位点的末端。在一些示例中,核酸群体的片段末端是平端。这些片段末端可以是平端,并且是磷酸化的。可以经由酶处理(例如使用多核苷酸激酶)来引入磷酸部分。

在一些示例中,目标多核苷酸序列用单一悬垂核苷酸通过例如某些类型的DNA聚合酶(诸如Taq聚合酶或Klenow exo minus聚合酶)的活性来制备,所述DNA聚合酶具有非模板依赖性末端转移酶活性,其将单一脱氧核苷酸(例如脱氧腺苷(A))添加到例如PCR产物的3'端。此类酶可以用于将单一核苷酸“A”添加到目标多核苷酸双链体的每条链的3'平端。因此,可以通过与Taq或Klenow exo minus聚合酶反应将“A”添加到目标多核苷酸双链体的每条末端修复链的3'端,而衔接子多核苷酸构建体可以是T构建体,其具有存在于该衔接子构建体的每个双链体区的3'端上的相容的“T”悬垂部。该末端修饰还防止目标多核苷酸的自连接,使得偏向于形成组合的连接衔接子-目标多核苷酸。

在一些示例中,通过标签片段化实现片段化。在此类方法中,采用转座酶将双链多核苷酸片段化,然后将通用引物序列连接到双链多核苷酸的一条链中。所得分子可以是间隙填充分子,并且可以使用引物进行延伸(例如通过PCR扩增),所述引物的3'端具有与所连接的通用引物序列互补的序列,5'端则含有衔接子的其他序列。

衔接子能够以任何其他合适的方式连接到目标多核苷酸。在一些示例中,衔接子可以在单步过程中引入。在一些示例中,衔接子可以在多步过程(诸如两步过程)中引入,该多步过程涉及将衔接子的一部分连接到具有通用引物序列的目标多核苷酸上。第二步包括使用引物进行延伸(例如通过PCR扩增),所述引物的3'端具有与所连接的通用引物序列互补的序列,5'端则含有衔接子的其他序列。可以进行额外的延伸,以提供连接到先前延伸得到的多核苷酸的5'端的额外的序列。

在一些示例中,将整个衔接子与片段化的目标多核苷酸连接。优选地,连接的衔接子包括与双链目标多核苷酸连接的双链区。优选地,该双链区尽可能短,而不丧失功能。在该语境中,“功能”是指双链区在标准反应条件下形成稳定双链体的能力。在一些示例中,标准反应条件是指用于酶催化的多核苷酸连接反应的反应条件(例如,在4℃至25℃范围内的温度下,在适合于酶的连接缓冲液中孵育),其使得形成衔接子的两条链在衔接子与目标分子连接期间保持部分退火。连接方法利用连接酶(诸如DNA连接酶)来实现或催化两条多核苷酸链(在这种情况下,为衔接子双链体寡核苷酸和目标多核苷酸双链体的两条多核苷酸链)的末端的连接,使得形成共价键。衔接子双链体寡核苷酸可以含有5'-磷酸部分,以便促进与目标多核苷酸3'-OH的连接。目标多核苷酸可以含有5'-磷酸部分,该部分是剪切过程的残留物,或是使用酶处理步骤添加的,并且已进行末端修复,任选地通过一个或多个悬垂碱基延伸,从而得到适合连接的3'-OH。在该语境中,连接意指先前未共价连接的多核苷酸链的共价连接。在一个方面,这种连接通过在两条多核苷酸链之间形成磷酸二酯键而发生,但是也可以使用其他共价连接方式(例如非磷酸二酯骨架键)。

任何合适的衔接子可以经由任何合适的方法(诸如上文论述的那些)连接到目标多核苷酸。衔接子包括文库特异性索引标签序列。在将样品固定以供测序之前,可以将该索引标签序列连接到来自每个文库的目标多核苷酸。该索引标签本身不是由目标多核苷酸的一部分形成的,而是成为扩增模板的一部分。索引标签可以是作为模板制备步骤的一部分添加到靶标的合成的核苷酸序列。因此,文库特异性索引标签是连接到特定文库的每个目标分子的核酸序列标签,其存在指示或用于鉴定从中分离出这些目标分子的文库。

优选地,索引标签序列的长度为20个核苷酸或更少的核苷酸。例如,索引标签序列的长度可以是1至10个核苷酸,或4至6个核苷酸。四核苷酸索引标签提供了在同一阵列上复用256个样品的可能性,六碱基索引标签则使得能够在同一阵列上处理4,096个样品。

衔接子可以包含多于一个索引标签(或标识符序列),从而可以增大复用的可能性。

衔接子可以包括双链区,以及包含两条非互补单链的区域。衔接子的双链区可以具有任何合适数目的碱基对。优选地,双链区是短双链区,其通常包括5个或更多个连续碱基对,由两条部分互补的多核苷酸链退火形成。衔接子的这种“双链区”是指其中两条链退火的区域,并不暗示任何特定的结构构象。在一些示例中,该双链区包括20个或更少的连续碱基对,诸如10个或更少的、或者5个或更少的连续碱基对。

通过包含表现出比标准沃森-克里克碱基对更强的碱基配对的非天然核苷酸,可以增加双链区的稳定性,因此潜在地缩短其长度。衔接子的两条链在双链区域中可以是100%互补的。

当衔接子连接到目标多核苷酸时,非互补单链区可以形成待测序多核苷酸的5'端和3'端。术语“非互补单链区”是指衔接子的以下区域:其中形成衔接子的两条多核苷酸链的序列表现出一定程度的非互补性,使得这两条链不能在用于PCR反应的标准退火条件下彼此完全退火。

非互补单链区由形成双链区的同两条多核苷酸链的不同部分提供。单链部分长度的下限通常将通过例如提供用于结合引物以供引物延伸、PCR和/或测序的合适序列的功能来确定。理论上不存在不匹配区域长度的上限,只不过通常有利的是使衔接子的总长度最小化,例如,以便在一个或多个连接步骤之后促进未结合的衔接子从衔接子-目标构建体分离。因此,通常优选的是,衔接子的非互补单链区长度为50个或更少的连续核苷酸,诸如长度为40个或更少的、30个或更少的、或者25个或更少的连续核苷酸。

文库特异性索引标签序列可以位于衔接子的单链区或双链区中,或者跨越衔接子的单链区和双链区。优选地,索引标签序列位于衔接子的单链区中。

除索引标签序列外,衔接子还可以包括任何其他合适的序列。例如,衔接子可以包括通用延伸引物序列,其通常位于衔接子和所得的用于测序的多核苷酸的5'端或3'端。通用延伸引物序列可以与结合到固体基底表面的互补引物杂交。互补引物包括游离的3'端,聚合酶或其他合适的酶可以从该3'端添加核苷酸,以使用杂交的文库多核苷酸作为模板延伸序列,使得文库多核苷酸的反向链偶联到固体表面。这种延伸可以是测序运行或簇扩增的一部分。

在一些示例中,衔接子包括一个或多个通用测序引物序列。通用测序引物序列可以与测序引物结合,以允许对索引标签序列、目标序列或者索引标签序列和目标序列测序。

衔接子的精确核苷酸序列通常并不重要,并且可以由用户选择,使得期望的序列元件最终包括在来源于衔接子的模板文库的共用序列中,以例如提供特定组的通用延伸引物和/或测序引物的结合位点。

衔接子寡核苷酸可以包含核酸外切酶抗性修饰,诸如硫代磷酸酯键。

优选地,将衔接子连接到目标多肽的两端以产生具有第一衔接子-目标-第二衔接子核苷酸序列的多核苷酸。第一衔接子和第二衔接子可以相同,也可以不同。如果第一衔接子和第二衔接子是不同的,则第一衔接子和第二衔接子中的至少一者包括文库特异性标识符序列。

“第一衔接子-目标-第二衔接子序列”或“衔接子-目标-衔接子”序列是指衔接子相对于彼此以及相对于目标的取向,不一定意味着该序列可能不包括额外的序列,诸如接头序列。

可以采用类似的方式制备其他文库,每个文库包括至少一个文库特异性索引标签序列或索引标签序列组合,其不同于来自其他文库的索引标签序列或索引标签序列组合。

如本文所用,“连接”或“结合”在衔接子相对于目标序列的语境中可互换使用。如上所述,可以使用任何合适的方法将衔接子连接到目标多核苷酸上。例如,衔接子可以通过以下方式连接到目标:通过用连接酶连接;通过以下操作的组合,即连接衔接子的一部分,以及用含有衔接子的另外或剩余部分的引物通过延伸(诸如PCR)添加衔接子的另外或剩余部分;通过转座以结合衔接子的一部分,以及用含有衔接子的另外或剩余部分的引物通过延伸(诸如PCR)添加衔接子的另外或剩余部分;等等。优选地,连接的衔接子寡核苷酸与目标多核苷酸共价结合。

在衔接子连接到目标多核苷酸后,可以使所得的多核苷酸经受净化过程,通过除去至少一部分未结合的衔接子来提高衔接子-目标-衔接子多核苷酸的纯度。可使用任何合适的净化处理,诸如电泳、尺寸排阻色谱法等。在一些示例中,可以采用固相反向固定(SPRI)顺磁珠从未连接的衔接子分离衔接子-目标-衔接子多核苷酸。虽然此类方法可以提高所得的衔接子-目标-衔接子多核苷酸的纯度,但是可能保留一些未连接的衔接子寡核苷酸。

扩增固定的衔接子-目标-衔接子分子的方法包括但不限于桥式扩增法和动力学排除法。扩增可以使用一种或多种固定的引物来执行。固定的引物可以是平坦表面上的引物苔。

如本文所用,术语“固相扩增”是指在固体载体上进行的或与固体载体相关联的任何核酸扩增反应,使得扩增产物的全部或一部分在形成时固定在该固体载体上。具体地,该术语涵盖固相聚合酶链反应(固相PCR)和固相等温扩增,该固相PCR和固相等温扩增是类似于标准溶液相扩增的反应,不同的是正向扩增引物和反向扩增引物中的一者或两者被固定在固体载体上。固相PCR包括系统诸如乳液,其中一个引物锚定在小珠上,另一个引物在自由溶液中;和固相凝胶基质中的群体形成,其中一个引物锚定在表面上,一个引物锚定在自由溶液中。

在一些示例中,固体载体包括图案化表面。“图案化表面”是指在固体载体的暴露层中或该暴露层上的不同区域的布置。术语流通池“支撑件”或“基底”是指可在其上添加表面化学物质的支撑件或基底。术语“图案化基底”是指凹入部限定在其中或在其上的支撑件。术语“非图案化基底”是指基本上平面的支撑件。基底在本文中也可称为“支撑件”、“图案化支撑件”或“非图案化支撑件”。支撑件可以是晶片、面板、矩形片材、管芯或任何其他合适的构型。支撑件通常为刚性的并且不溶于水性液体。支撑件可对用于修饰凹入部的化学物质呈惰性。例如,支撑件可以对用于形成聚合物涂层、将引物连接到诸如已沉积的聚合物涂层等的化学物质呈惰性。合适的支撑件的示例包括环氧硅氧烷、玻璃及改性或功能化的玻璃、多面体低聚倍半硅氧烷(POSS)及其衍生物、塑料(包括丙烯酸、聚苯乙烯以及苯乙烯和其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、聚四氟乙烯(诸如得自Chemours的

在一个示例中,凹入部可以是孔,使得图案化基底在其表面上包括孔阵列。孔可以是微孔或纳米孔。每个孔的尺寸可通过其体积、孔开口面积、深度和/或直径来表征。例如,这些区域中的一个或多个区域可以是存在一种或多种扩增引物的部分。这些部分可以由不存在扩增引物的间隙区域隔开。在一些示例中,该图案可以是呈行和列形式的特征部的x-y格式。在一些示例中,该图案可以是多个部分和/或间隙区域的重复布置。在一些示例中,该图案可以是多个部分和/或间隙区域的随机布置。

在一些示例中,固体载体在表面中包括孔或凹陷的阵列。这可以使用多种技术来制造,这些技术包括但不限于光刻法、压印技术、模制技术和微蚀刻技术。所使用的技术可以取决于阵列基底的组成和形状。

图案化表面中的特征部可以是玻璃、硅、塑料或其他合适的固体载体上的孔阵列中的具有图案化且共价连接的凝胶(诸如聚(N-(5-叠氮基乙酰胺基戊基)丙烯酰胺-共-丙烯酰胺)(PAZAM))的孔(例如,微孔或纳米孔)。该方法产生用于测序的凝胶垫,该凝胶垫在具有大量循环的测序运行中可为稳定的。聚合物与孔的共价连接有助于在多种用途期间以及在结构化基板的整个寿命期间将凝胶保持为结构化特征。然而,在许多示例中,凝胶无需共价连接到孔。例如,在一些条件下,未共价连接到结构化基底的任何部分的不含硅烷的丙烯酰胺可以用作凝胶材料。

在一些示例中,结构化基底可以通过以下方式来制作:将固体载体材料图案化为具有孔(例如,微孔或纳米孔),用凝胶材料(例如,PAZAM、SFA或其化学改性的变体,诸如SFA的叠氮化型式(azido-SFA))涂覆图案化载体,然后抛光已涂覆凝胶的载体(例如经由化学抛光或机械抛光),从而将凝胶保留在孔中,而从结构化基底表面上位于孔之间的间隙区域移除基本上所有凝胶或使这些间隙区域中的基本上所有凝胶失活。引物核酸可连接到凝胶材料。然后可以使目标核酸(例如,片段化的人基因组)的溶液与已抛光的基底接触,使得各个目标核酸可以经由与连接到凝胶材料的引物发生相互作用而接种到各个孔中;然而,由于不存在凝胶材料或该凝胶材料失活,靶核酸将不占用间隙区域。靶核酸的扩增将被限制在孔中,因为间隙区域中不存在凝胶或凝胶失活会阻止生长的核酸群体(nucleic acidcolony)的向外迁移。该过程便于制造、可规模化,并且可利用常规的微米或纳米制造方法。

本发明所公开的主题包括作为一个示例的“固相”扩增方法,其中只有一种扩增引物被固定(另一种引物存在于例如游离溶液中),在其他示例中,可以为固体载体提供固定的正向和反向两种引物。一些示例包括固定在固体载体上的“多个”相同的正向引物和/或“多个”相同的反向引物,因为扩增过程可以包括过量的引物来维持扩增。除非上下文另有指示,否则本文提到正向引物和反向引物均应当被解释为涵盖“多个”此类引物。

任何给定的扩增反应均包括对于要扩增的模板具有特异性的至少一种类型的正向引物和至少一种类型的反向引物。然而,在某些示例中,正向引物和反向引物可以包括相同序列的模板特异性部分,并且可以具有完全相同的核苷酸序列和结构(包括任何非核苷酸修饰)。换句话讲,可以仅使用一种类型的引物来实施固相扩增,并且此类单引物方法涵盖在本公开的范围内。其他示例可以使用包含相同的模板特异性序列但在其他一些结构特征方面存在差异的正向引物和反向引物。例如,一种类型的引物可以包含在另一种类型的引物中不存在的非核苷酸修饰。

术语“簇”和“集落”在本文中可互换使用,是指固体载体上包括多条相同的固定核酸链和多条相同的固定互补核酸链的离散位点。术语“簇阵列”是指由此类簇或群体形成的阵列。在该语境中,术语“阵列”不应当被理解为需要簇的有序布置。

术语“固相”或“表面”用于表示平面阵列,其中引物连接到平坦表面,例如玻璃、二氧化硅或塑料显微镜载片,或者类似的流通池装置;表示小珠,其中一个或两个引物连接到这些小珠并且这些小珠被扩增;或者表示在小珠已扩增后表面上的小珠阵列。

可以使用热循环过程或使温度保持恒定的过程来制备成簇阵列,然后通过改变试剂来执行延伸和变性的循环。在一个示例中,等温过程可以有利地包括使用较低温度。

应当理解,本文所述或本领域公知的任一种扩增方法可以与通用引物或目标特异性引物一起用于扩增固定的DNA片段。合适的扩增方法包括但不限于聚合酶链反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)和基于核酸序列的扩增(NASBA)。上述扩增方法可用于扩增一种或多种感兴趣核酸。例如,可利用PCR(包括多重PCR)、SDA、TMA、NASBA等扩增固定化DNA片段。在一些示例中,在扩增反应中包括特异性针对感兴趣的多核苷酸的引物。

其他合适的多核苷酸扩增方法可以包括寡核苷酸延伸和连接技术、滚环扩增(RCA)技术,或者寡核苷酸连接测定(OLA)技术。应当理解,这些扩增方法可被设计成用于扩增固定化DNA片段。例如,在一些示例中,扩增方法可以包括连接探针扩增,或者含有特异性针对感兴趣核酸的引物的寡核苷酸连接测定(OLA)反应。在一些示例中,该扩增方法可以包括引物延伸-连接反应,该反应含有特异性针对感兴趣核酸的引物。作为可以被特别设计用于扩增感兴趣核酸的引物延伸和连接引物的非限制性示例,扩增可以包括用于GoldenGate测定(Illumina,Inc.,San Diego,CA)的引物。

可以用于本公开的方法中的示例性等温扩增方法包括但不限于多重置换扩增法(MDA)或等温链置换核酸扩增法。可以用于本公开中的其他非基于PCR的方法包括例如链置换扩增法(SDA)或超支化链置换扩增法。等温扩增方法可以与链置换Phi 29聚合酶或BstDNA聚合酶大片段5'->3'exo-一起用于基因组DNA的随机引物扩增。这些聚合酶的使用利用了它们的高持续合成能力和链置换活性。高持续合成能力允许聚合酶产生长度为10kb-20kb的片段。如上所述,可使用具有低持续合成能力和链置换活性的聚合酶(诸如Klenow聚合酶)在等温条件下产生较小的片段。

DNA聚合酶可以包括已通过结构同源性分类成被标识为A、B、C、D、X、Y和RT的多个家族的那些聚合酶。家族A中的DNA聚合酶包括,例如,T7 DNA聚合酶、真核线粒体DNA聚合酶γ、大肠杆菌(E.coli)DNA Pol I(包括Klenow片段)、水生栖热菌(Thermus aquaticus)PolI和嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)Pol I。家族B中的DNA聚合酶包括,例如,真核DNA聚合酶a、6和E;DNA聚合酶C;T4 DNA聚合酶、Phi29 DNA聚合酶、超嗜热古菌(Thermococcus sp.)9

在一些示例中,可以使用动力学排除扩增(KEA)(也称为排斥扩增(ExAmp))来执行等温扩增。本公开的核酸文库可使用包括以下步骤的方法制成:使扩增试剂反应以产生多个扩增位点,该多个扩增位点各自包括来自已接种位点的单个靶核酸的扩增子的基本上克隆的群体。在一些示例中,扩增反应继续进行,直到生成足够数量的扩增子以将相应扩增位点填满。以这种方式将已接种的位点填充至容量抑制了靶核酸在该位点处着位和扩增,从而在该位点处产生扩增子的克隆群体。在一些示例中,即使扩增位点在第二目标核酸到达该位点之前未被填满,也能够实现明显的克隆性。在一些条件下,第一靶核酸的扩增可进行到制备了足够数量的拷贝的点,以有效地超出或压倒来自被转运到位点的第二靶核酸的拷贝的产生。例如,在使用直径小于500nm的环形特征上的桥式扩增过程的一个示例中,已确定在第一目标核酸的14个指数扩增循环之后,相同位点处来自第二目标核酸的污染所产生的污染扩增子的数量将不足以对Illumina测序平台上的边合成边测序分析产生不利影响。

在一些示例中,当过程以足够快的速率发生以有效地排除另一事件或过程发生时,可以发生动力学排除。以制作核酸阵列为例,其中该阵列的位点用来自溶液的目标核酸随机接种,并且在扩增过程中生成目标核酸的拷贝以将每个接种位点填满。根据本公开的动力学排除方法,接种和扩增过程可在扩增速率超过接种速率的条件下同时进行。因此,在已由第一靶核酸接种的位点处产生拷贝的相对较快速率将有效地排除第二核酸使其不接种用于扩增的位点。

动力学排除可以利用相对慢的速率来启动扩增(例如,以慢速率来制作目标核酸的第一拷贝),与之相比,利用相对快的速率来制作目标核酸(或目标核酸的第一拷贝)的后续拷贝。在前一段落的示例中,由于目标核酸接种以相对慢的速率(例如相对慢的扩散或转运速率)发生,与之相比,扩增通过用核酸种子的拷贝填充位点以相对快的速率发生,因此出现了动力学排斥。在另一个示例中,由于已在位点接种的目标核酸形成第一拷贝延迟(例如,活化延迟或缓慢),与之相比,制作后续拷贝以填充该位点的速率相对较快,因此可以出现动力学排斥。在该示例中,各个位点可能已接种有几种不同的目标核酸(例如,几种目标核酸可能在扩增之前就存在于每个位点处)。然而,任何给定的靶核酸的第一拷贝形成可被随机激活,使得第一拷贝形成的平均速率与后续拷贝生成的速率相比相对较慢。在这种情况下,虽然单个位点可能已接种有若干不同的靶核酸,但动力学排除将只允许扩增这些靶核酸中的一个靶核酸。更具体地,一旦第一靶核酸已被激活用于扩增,则该位点将用其拷贝快速填充至容量,从而防止在该位点处制备第二靶核酸的拷贝。

扩增试剂还可包括促进扩增子形成并且在一些情况下提高扩增子形成速率的组分。一个示例是重组酶。重组酶可通过允许反复侵入/延伸来促进扩增子形成。更具体地,重组酶可促进通过聚合酶进行靶核酸的侵入以及通过该聚合酶进行的引物的延伸,该聚合酶使用靶核酸作为扩增子形成的模板。该过程可被重复作为链式反应,其中由每轮入侵/延伸产生的扩增子用作后续轮中的模板。由于不需要变性循环(例如,经由加热或化学变性),因此该过程可比标准PCR更快速地发生。因此,重组酶促进的扩增可等温地进行。通常期望在重组酶促进的扩增试剂中包括ATP或其他核苷酸(或在一些情况下其非可水解的类似物)以促进扩增。重组酶和单链结合(SSB)蛋白的混合物是特别有用的,因为SSB可进一步促进扩增。用于重组酶促进的扩增的示例性制剂包括由TwistDx(Cambridge,UK)市售为TwistAmp试剂盒的那些制剂。

可包括在扩增试剂中以促进扩增子形成并且在一些情况下提高扩增子形成速率的组分的另一个示例是解旋酶。解旋酶可通过允许扩增子形成的链式反应来促进扩增子形成。由于不需要变性循环(例如,经由加热或化学变性),因此该过程可比标准PCR更快速地发生。因此,解旋酶促进的扩增可等温地进行。解旋酶和单链结合(SSB)蛋白的混合物是特别有用的,因为SSB可进一步促进扩增。用于解旋酶促进的扩增的示例性制剂包括来自Biohelle(Beverly,MA)的市售为IsoAmp试剂盒的那些制剂。

可包括在扩增试剂中以有利于扩增子形成并且在一些情况下提高扩增子形成速率的组分的另一个示例是起点结合蛋白。

本文阐述的方法的优点是它们并行提供了对多个靶核酸的快速且有效检测。因此,本公开提供了能够使用本领域已知的技术(诸如以上的示例)来制备和检测核酸的整合系统。因此,本公开的整合系统可以包括能够将扩增试剂和/或测序试剂递送到一个或多个固定化DNA片段的流体部件,该系统包括诸如泵、阀、贮存器、流体管线、温度控件等部件。流通池在整合系统中可以被配置用于和/或用于检测靶核酸。如针对流通池所例示的,整合系统的一个或多个流体部件可以用于扩增方法和检测方法。整合系统的一个或多个流体部件可以用于本文阐述的扩增方法,并且可以用于在测序方法(诸如上文举例说明的那些)中递送测序试剂。如本文所用,术语“流通池”旨在表示具有其中可以进行反应的室(即,流动通道)、用于将试剂递送到室的入口以及用于从室中移除试剂的出口的容器。在一些示例中,室使得能够检测在室中发生的反应或信号。例如,室可以包括允许对室中的阵列、光学标记分子等进行光学检测的一个或多个透明表面。如本文所用,“流动通道”或“流动通道区”可以是限定在两个粘结部件之间的区域,该区域可以选择性地接收液体样品。在一些示例中,流动通道可限定在图案化支撑件与盖之间,因此可与限定在图案化支撑件中的一个或多个凹入部流体连通。在其他示例中,流动通道可限定在非图案化支撑件与盖之间。其他示例可以包括用于分离反应物的盘、板或孔,包括用于交换试剂和反应的其他组分的自动化流体部件。例如,可以使用多孔板,包括例如96孔板或384孔板。

另选地,整合系统可包括单独的流体系统以执行扩增方法并执行检测方法。能够产生扩增核酸并且还能够确定核酸序列的整合测序系统的示例包括但不限于MiSeq

合适引物的非限制性示例包括P5引物和/或P7引物,其用于Illumina,Inc.销售的商业流通池的表面上,以便在HISEQ

作为非限制性示例,基底可以包括在任何前述SBS或其他平台中使用的基底,所述平台诸如对与表面连接的多核苷酸杂交的标记寡核苷酸进行自动成簇和成像的平台,然而也可以不必是被配备用于执行SBS过程本身的测序方面的平台。这种基底可以是流通池。

如本文所用,术语“凹入部”是指图案化支撑件中的离散凹面特征部,该离散凹面特征部具有完全被图案化支撑件表面的间隙区域包围的表面开口。凹入部可以在其表面中的开口处具有多种形状中的任一种,包括例如圆形、椭圆形、正方形、多边形、星形(具有任何数量的顶点)等。与该表面正交截取的凹入部的横截面可以为弯曲的、正方形、多边形、双曲线形、圆锥形、角形等。作为一个示例,凹入部可以是孔。同样如本文所用,“功能化凹入部”是指其中连接有引物(在一些示例中,通过聚合物(诸如PAZAM或类似聚合物)连接到凹入部的表面)的离散凹面特征部。

应当理解,本文提供的范围包括规定范围和规定范围内的任何值或子范围。作为一个示例,约100nm至约1,000nm的范围应当被解释为不仅包括明确列举的约100nm至约1,000nm的限值,而且还包括单个值(诸如约708nm、约945.5nm等)和子范围(诸如约425nm至约825nm、约550nm至约940nm等)。此外,当利用“约”和/或“基本上”来描述一个值时,它们意在涵盖相对于规定值的微小变化(最多至+/-10%)。

实施例

以下示例旨在示出本公开的特定示例,但绝不旨在限制其范围。

实施例1.评价不同多核苷酸尺寸(人类文库350bp、450bp和550bp,细菌文库350bp和550bp)和不同GC/AT含量(细菌文库)的线性度。

方法:使用不同比率的不同文库(群体长度、GC/AT含量、人类或细菌文库)在HiSeq

使用增益(40)、成像曝光时间(探针1为600ms,探针2为600ms至900ms)、曝光次数(3)和探针孵育时间(6分钟)对成簇后的表面连接拷贝进行成像。

在该实施例中,荧光强度用作簇扩增水平的读数。观察在该测定中检测到的荧光强度是否与簇扩增水平/文库输入量相关很重要。这两个因素的良好/线性相关性为该测定(以及用于该测定的数据分析方法)奠定了根本的基础。

结果

人类350bp文库:探针1和探针2具有相似的线性度,R

实施例2:测定灵敏度,用于确定可以检测到多大的DNA扩增差异百分比。

方法:使差异为10%的DNA输入在HiSeq

结果

来自用350bp红细菌成簇的13个流通池的数据汇总在图4中。JMP分析表明,红细菌350bp文库的40%、50%和60%DNA文库输入可以通过该测定分离,且这种分离具有统计学意义(95%)。使用具有不同插入片段尺寸或GC含量的文库(例如,人类350bp、450bp和550bp文库,红细菌550bp文库,以及蜡状芽孢杆菌350bp和550bp文库)发现了类似的测定灵敏度。

应当理解,前述概念和本文更详细讨论的附加概念(假设此类概念不相互矛盾)的所有组合都被设想为是本文所公开的发明主题的一部分。具体地,出现在本公开末尾的要求保护的主题的所有组合都被设想为是本文所公开的发明主题的一部分,并且可用于实现本文所述的益处和优点。

相关技术
  • 从具有不同时间点的源数据的存储库中的源数据的拷贝创建复原拷贝
  • 用于通过比较不同吸附器的压差特征调节制氧单元的方法
技术分类

06120115802868