掌桥专利:专业的专利平台
掌桥专利
首页

用于测序的引物寡核苷酸

文献发布时间:2023-06-19 10:35:20


用于测序的引物寡核苷酸

技术领域

本公开尤其涉及多核苷酸的测序。

背景技术

下一代测序(NGS)技术的改进极大地提高了测序速度和数据输出,导致现有测序平台巨大的样品通量。实现这种增加容量的一方面是多路复用,它会在文库制备过程中向待测序的各个多核苷酸片段添加独特的序列(被称为索引)。这允许在单次测序运行中同时合并和测序大量文库。由多路复用带来的通量增加会添加一层复杂性,因为在最终数据分析之前,需要在被称为多路分解的过程中识别并计算排序来自合并文库中的测序读段。

可将文库特异性索引序列添加至各文库的多核苷酸片段,从而可正确地鉴定各个被测序的多核苷酸片段的来源。在一些情况下,可将不止一个索引序列添加到给定的多核苷酸片段,以增加由索引序列提供信息的能力。例如,可将第一索引序列添加在包含片段的多核苷酸链的5’末端附近,并且可将第二索引序列添加在包含片段的多核苷酸链的3’末端附近。通过例如将包含索引序列的衔接子连接至待测序的多核苷酸片段的末端,可将索引序列添加至文库的多核苷酸片段。

衔接子还可包含除索引序列之外的序列,例如通用延伸引物序列和通用测序引物序列。通用延伸引物序列尤其可与偶联至固体表面的第一寡核苷酸杂交。第一寡核苷酸可具有游离的3’末端,聚合酶可利用杂交的文库多核苷酸作为模板从其添加核苷酸来延伸序列,导致文库多核苷酸的反向链与固体表面偶联。正向链和反向链的其他拷贝可通过簇扩增偶联至固体表面。簇扩增的一个实例是桥式扩增,其中结合至固体表面的先前扩增的多核苷酸的3’末端与结合至固体表面的第二寡核苷酸杂交。第二寡核苷酸可具有游离的3’末端,聚合酶可利用偶联的反向链多核苷酸作为模板从其添加核苷酸来延伸序列,导致文库多核苷酸的正向链经由第二寡核苷酸与固体表面偶联。可以重复该过程以产生偶联至固体表面的正向和反向链的簇。在测序之前,可将正向链或反向链例如通过切割去除。

测序引物可与偶联至固体支持物的多核苷酸链的一部分(被称为“模板链”)杂交。例如,如果存在的话,测序引物可与模板链的通用测序引物序列杂交。可通过利用模板链作为模板向测序引物多轮添加核苷酸并检测所添加核苷酸的身份来进行测序。测序引物的杂交可发生在模板链的某个位置,以允许索引序列以及模板链的靶序列的序列鉴定,或者可采用单独的测序引物分别测序索引序列和靶序列。因此,基于与靶序列相关的索引序列,可将靶序列索引到特定的来源文库。

在一些情况下,靶序列可能比可以可靠执行的测序循环数更长。在这种情况下,可将偶联至固体支持物的多核苷酸链的游离3’末端与具有游离3’末端的表面寡核苷酸杂交,利用偶联至固体支持物的多核苷酸链作为模板,可通过添加核苷酸来延伸表面寡核苷酸,以在被称为“配对末端转向(paired end turn)”的过程中形成拷贝链。可将模板链从固体表面切割并洗去,留下结合至固体表面的拷贝链。可在拷贝链进行靶序列的第二测序读取,以从靶序列相对于第一测序读取的相对末端获得序列信息。

如果模板链包含靶序列5’的第一索引序列和靶序列3’的第二索引序列,则在配对末端转向之后或在配对末端转向之前,通常利用配对末端转向中采用的表面引物来测序第二索引序列。两种情况都有缺点。例如,与从游离引物读取序列相比,从结合至固体表面的引物读取第二索引序列倾向于产生更高的噪音。在不需要或不期望进行第二读取的情况下,在配对末端转向之后读段索引序列将无法进行有效的多路分解。

发明概述

尝试利用包含与在配对末端转向中使用的表面引物相同的序列的游离引物来测序第一索引引物是不成功的。如本文所述,此类游离引物未产生足够强的信号以可靠地确定第二索引序列。尽管不希望受到理论的束缚,但据信表面引物与游离引物充分竞争以杂交模板链的3’末端,使得在利用游离引物测序第二索引期间获得的信号不足。

本公开尤其描述了多核苷酸测序方法,该方法采用测序寡核苷酸,该寡核苷酸以比表面寡核苷酸更大的亲和力与模板多核苷酸链的游离3’末端部分杂交。可将此类测序寡核苷酸用作引物,通过利用模板链作为模板延伸测序寡核苷酸来确定第二索引序列的序列。采用此类测序寡核苷酸的测序过程提供足够强的信号来确定第二索引序列的序列。

由于测序寡核苷酸是游离引物(未结合至固体表面),所以它不会受到与来自附着于固体表面的引物的测序有关的噪音问题困扰。另外,第二索引序列可在配对末端转向之前获得,从而在不需要或不期望第二读段时(配对末端转向后)允许更有效的测序。

在本文描述的一些实施方案中,方法包括:(i)提供固体表面,结合至固体表面且具有游离3’末端的表面寡核苷酸,和结合至固体表面且具有游离3’末端的模板多核苷酸,其中模板多核苷酸的游离3’末端的至少一部分被配置为与表面寡核苷酸的至少一部分杂交,使得可通过利用模板多核苷酸作为模板延伸表面寡核苷酸来合成拷贝多核苷酸;(ii)提供测序寡核苷酸,其中测序寡核苷酸以比表面寡核苷酸更大的亲和力与模板多核苷酸的游离3’末端的至少一部分杂交;以及(iii)利用模板多核苷酸作为模板延伸测序寡核苷酸。

延伸测序寡核苷酸可以是用于测序模板多核苷酸的一部分的过程中的步骤。第二索引的序列可在测序过程期间获得。

测序过程可进一步包括使索引引物与模板多核苷酸杂交,并利用模板多核苷酸作为模板延伸索引引物,以测序模板多核苷酸的第一索引序列。第一和第二索引序列优选是不同的。使索引引物与模板多核苷酸杂交并延伸索引引物来测序第一索引序列可在测序第二索引序列之前发生。

测序过程可进一步包括使第一读段引物与模板多核苷酸杂交,并利用模板多核苷酸作为模板延伸第一读段引物,以测序模板多核苷酸的第一读段序列。使第一读段引物与模板多核苷酸杂交并延伸第一读段引物以测序第一读段序列可在测序第一索引序列之后发生。使第一读段引物与模板多核苷酸杂交并延伸第一读段引物以测序第一读段序列可在测序第一索引序列和第二索引序列之后发生。

测序过程可进一步包括通过利用模板多核苷酸作为模板延伸表面寡核苷酸来合成拷贝多核苷酸。通过延伸表面多核苷酸来合成拷贝多核苷酸可在测序第一索引序列,第二索引序列和第一读段序列之后发生。测序过程可进一步包括使第二读段引物与拷贝多核苷酸杂交,并利用拷贝多核苷酸作为模板延伸第二读段引物,以测序拷贝多核苷酸的第二读段序列。

表面寡核苷酸的核苷酸序列可与测序寡核苷酸的至少一部分相同。测序寡核苷酸可包含经修饰的核苷酸,相对于天然核苷酸,其增强了碱基对与模板多核苷酸的核苷酸的结合。经修饰的核苷酸可以是锁核苷酸或桥连核苷酸。测序寡核苷酸可包含多个经修饰的核苷酸,相对于天然核苷酸,其增强了碱基对与模板多核苷酸的核苷酸的结合。例如,测序寡核苷酸的10%或更多的核苷酸可以是经修饰的核苷酸。在一些实施方案中,测序寡核苷酸的50%或更少的核苷酸可以是经修饰的核苷酸。经修饰的核苷酸可包含在与表面核苷酸具有相同序列的测序寡核苷酸的部分中。

一个或多个实施方案的细节在附图和以下说明书中阐述。其他特征、目的和优点根据说明书和附图以及根据权利要求书将是显而易见的。

应当理解的是,前面的一般描述和下面的详细描述都呈现了本公开主题的实施方案,并且旨在提供用于理解本公开要求保护的主题的性质和特征的概述或框架。包括附图以提供对本公开主题的进一步理解,并且附图被并入本说明书中并构成本说明书的一部分。附图示出了本公开主题的各种实施方案,并且与说明书一起用于解释本公开主题的原理和操作。另外,附图和说明书仅是说明性的,并不以任何方式限制权利要求的范围。

附图说明

当结合以下附图阅读时,可以最佳地理解本公开的具体实施方案的以下详细描述。

图1和2是示出本文所述方法的实施方案的概述的流程图。

图3和4是示出现有测序工作流程的示意图。

图5是示出采用测序寡核苷酸的测序工作流程的实施方案的示意图。

图6是示出表面寡核苷酸、测序寡核苷酸和模板多核苷酸链的3’部分的相互作用的示意图。

图7A和7B是示出表面寡核苷酸、测序寡核苷酸和模板多核苷酸链的3’部分的相互作用的示意图。表面寡核苷酸具有AATGATACGGCGACCACCGAGA(SEQ ID NO:1)的序列。测序寡核苷酸具有AATGATACGGCGACCACCGAGATCTACAC(SEQ ID NO:2)的序列。所示出的模板多核苷酸链的部分具有NNNNNNNNGNGTAGTAGATCTCGGTGGTCGCCGTATCATT(SEQ ID NO:3)的序列。

图8是在不同引物与模板多核苷酸杂交后每测序循环的信号强度的图。R1=读段(read)1。R2=经修饰的索引(index)2(使用HP19 v0引物)。R3=经修饰的索引2(使用HP19v1引物)。R4=经修饰的索引2(使用HP19 v2引物)。R5=索引1。R6=标准索引2。R7=读段2。在R5和R6之间进行配对末端转向。

图9是通过利用标准索引2引物和三种经修饰的索引2引物(HP19 v0,版本0;HP19v1;版本1;和HP19 v2,版本2)测序各种索引序列获得的读段计数的条形图。被测序的索引序列是AGGATAGG(SEQ ID NO:4),TCAGAGCC(SEQ ID NO:5),CATCCGGAA(SEQ ID NO:6),TTATGAGT(SEQ ID NO:7),ACGAATAA(SEQ ID NO:8),GATCTGCT(SEQ ID NO:9),AGCTCTATA(SEQ ID NO:10),GCCTCTAT(SEQ ID NO:11),CTTCGCTT(SEQ ID NO:12)。

图10是图9中利用HP19 v1和HP19 v2引物测序各种索引获得的读段计数与利用标准索引2引物获得的读段计数的相关性的图。

图11是不同引物与模板多核苷酸杂交后每测序循环的信号强度的图。R1=经修饰的索引2(利用HP19 v1引物)。R2=索引1。R3=读段1。R6=标准索引2。R7=读段2。在R3和R6之间进行配对末端转向。

图12是通过利用标准索引2引物和经修饰的索引2引物(HP19 v1,版本1)测序各种索引序列获得的读段计数的条形图。被测序的索引序列是AGGATAGG(SEQ ID NO:4),TCAGAGCC(SEQ ID NO:5),CATCCGGAA(SEQ ID NO:6),TTATGAGT(SEQ ID NO:7),ACGAATAA(SEQ ID NO:8),GATCTGCT(SEQ ID NO:9),AGCTCTATA(SEQ ID NO:10),GCCTCTAT(SEQ IDNO:11),CTTCGCTT(SEQ ID NO:12)。

示意图不一定按比例绘制。附图中使用的相同数字指代相同的组分,步骤等。然而,将理解的是,在指定附图中使用数字来指代组分并非旨在限制另一附图中用相同数字标记的组分。另外,使用不同的数字来指代组分并非旨在指示不同编号的组分不能与其他编号的组分相同或相似。

发明详述

现在将更详细地参考本公开主题的各种实施方案,其中一些实施方案在附图中示出。

除非另有说明,否则本文中使用的所有科学和技术术语具有本领域中通常使用的含义。本文提供的定义是为了促进理解本文中经常使用的某些术语,并不意味着限制本公开的范围。

如本文所用,单数形式的“一个”,“一种”和“该”包括复数指示物,除非上下文另外明确指出。因此,例如,提及“模板多核苷酸序列”包括具有两个或更多个此类“模板多核苷酸序列”的实例,除非上下文另外明确指出。

如本说明书和所附权利要求书中所使用的,术语“或”通常以包括“和/或”的意义使用,除非内容另外明确指出。术语“和/或”是指所列要素中的一个或全部,或所列要素中的任何两个或更多个的组合。在某些情况下使用“和/或”并不意味着在其他情况下使用“或”不能意味着“和/或”。

如本文所用,“具有”,“包括”,“包含”等以其开放式包容性含义使用,并通常意指“包括但不限于”。

“任选”或“任选地”是指随后描述的事件、情况或组分可能存在或可能不存在,并且该描述包括事件、情况或组分发生的实例,以及事件、情况或组分不发生的实例。

词语“优选”和“优选地”是指在某些情况下可提供某些益处的本公开的实施方案。然而,在相同或其他情况下,其他实施方案也可以是优选的。此外,对一个或多个优选实施方案的叙述并不意味着其他实施方案没有用,并且不旨在将其他实施方案排除在本发明技术范围之外。

另外,本文通过端点对数值范围的叙述包括归入该范围内的所有数字(例如,1至5包括1、1.5、2、2.75、3、3.80、4、5等)。当值的范围“大于”,“小于”等特定值的情况下,该值包括在该范围内。

除非另有明确说明,绝不意图将本文阐述的任何方法解释为要求其步骤以特定顺序进行。因此,在方法权利要求没有实际列举其步骤要遵循的顺序的情况下,或者在权利要求书或说明书中没有以其他方式具体说明步骤应被限制为特定顺序的情况下,绝不意图推断任何特定的顺序。然而,将理解的是,所提出的顺序是可以实施该方法的顺序的一个实施方案。任何一项权利要求中的任何所述单个或多个特征或方面可与任何其他一项或多项权利要求中的任何其他所述特征或方面进行组合或重新排列。

尽管可以使用过渡短语“包含”来公开特定实施方案的各种特征、要素或步骤,但是应理解的是,隐含了替代实施方案,包括可使用过渡短语“由……组成”或“基本上由……组成”来描述的那些实施方案。因此,例如,包括掺入步骤、检测步骤、去保护步骤和一个或多个洗涤步骤的方法的隐含替代实施方案包括其中方法由列举的步骤组成的实施方案和其中方法基本上由所列举的组成的实施方案。

如本文所用,在化合物、组合物或制品的上下文中,“提供”是指制备该化合物、组合物或制品,购买该化合物、组合物或制品,或者以其他方式获得该化合物、组合物或制品。

如本文所用,术语“链延伸酶”是使用多核苷酸作为模板链产生多核苷酸的拷贝副本的酶。例如,链延伸酶可以是具有聚合酶活性的酶。通常,DNA聚合酶与模板链结合,然后沿模板链向下移动,从而依次向核酸的生长链3’末端处的游离羟基基团添加核苷酸。DNA聚合酶通常从DNA模板合成互补DNA分子,而RNA聚合酶通常从DNA模板合成RNA分子(转录)。聚合酶可使用被称为引物的短RNA或DNA链来开始链生长。一些聚合酶可以置换它们向链中添加碱基的位点上游的链。此类聚合酶被认为是链置换的,意味着它们具有从被聚合酶读取的模板链中去除互补链的活性。具有链置换活性的示例性聚合酶包括但不限于大片段的Bst(嗜热脂肪芽孢杆菌(Bacillus stearothermophilus))聚合酶,exo-Klenow聚合酶或测序级T7 exo-聚合酶。一些聚合酶降解其前面的链,从而有效地将其替换为后面的生长链(5’核酸外切酶活性)。一些聚合酶具有降解其后面的链的活性(3’核酸外切酶活性)。已经通过突变或其他方式修饰了一些有用的聚合酶,以减少或消除3’和/或5’核酸外切酶活性。

如本文所用,术语“引物”及其衍生词通常是指可与感兴趣的靶序列杂交的任何多核苷酸。通常,引物起基底的作用,核苷酸可在其上通过聚合酶聚合;然而,在一些实施方案中,引物可掺入到合成的多核苷酸链中并提供可杂交另一个引物的位点,以引发与所合成的核酸分子互补的新链的合成。引物可由核苷酸或其类似物的任何组合组成。在一些实施方案中,引物是单链寡核苷酸或多核苷酸。

术语“多核苷酸”和“寡核苷酸”在本文可互换使用,是指任何长度的核苷酸的聚合物形式,并且可包括核糖核苷酸、脱氧核糖核苷酸、它们的类似物或它们的混合物。该术语仅指分子的一级结构。因此,该术语包括三链-,双链-和单链-脱氧核糖核酸(“DNA”),以及三链-、双链-和单链-核糖核酸(“RNA”)。如本文所用,“扩增的靶序列”及其衍生词通常是指通过使用靶特异性引物和本文提供的方法扩增靶序列而产生的多核苷酸序列。相对于靶序列,所扩增的靶序列可以是有义的(即正链)或反义的(即负链)。

在所提供方法中使用的合适的核苷酸包括但不限于,三磷酸脱氧核苷酸、三磷酸脱氧腺苷(dATP)、三磷酸脱氧胸苷(dTTP)、三磷酸脱氧胞苷(dCTP)和三磷酸脱氧鸟苷(dGTP)。任选地,在所提供方法中使用的核苷酸,无论是标记的或未标记的,都可包括抑制链延伸的阻断部分,例如可逆终止子部分。适用于标记的核苷酸上的标记物包括但不限于半抗原、放射性核苷酸、酶、荧光标记、化学发光标记和显色剂。

多核苷酸将通常包含磷酸二酯键,尽管在一些情况下核酸类似物可具有替代的主链,包括例如磷酰胺(Beaucage et al.,Tetrahedron 49(10):1925(1993))和其中的参考文献;Letsinger,J.Org.Chem.35:3800(1970);Sprinzl et al.,Eur.J.Biochem.81:579(1977);Letsinger et al.,Nucl.Acids Res.14:3487(1986);Sawai et al,Chem.Lett.805(1984),Letsinger et al.,J.Am.Chem.Soc.110:4470(1988);和Pauwelset al.,Chemica Scripta 26:141 91986)),硫代磷酸酯(Mag et al.,Nucleic AcidsRes.19:1437(1991);和美国专利号5,644,048),二硫代磷酸酯(Briu et al.,J.Am.Chem.Soc.111:2321(1989)),O-甲基亚磷酰胺连接(参见Eckstein,Oligonucleotides and Analogues:A Practical Approach,Oxford University Press),以及肽核酸主链和连接(参见Egholm,J.Am.Chem.Soc.114:1895(1992);Meier et al.,Chem.Int.Ed)。其他类似物核酸包括具有正主链(Denpcy et al.,Proc.Natl.Acad.Sci.USA 92:6097(1995);非离子主链(美国专利号5,386,023,5,637,684,5,602,240,5,216,141和4,469,863;Kiedrowshi et al.,Angew.Chem.Intl.Ed.English 30:423(1991);Letsinger et al.,J.Am.Chem.Soc.110:4470(1988);Letsinger et al.,Nucleoside&Nucleotide 13:1597(1994);Chapters 2and3,ASC Symposium Series 580,"Carbohydrate Modifications in AntisenseResearch",Ed.Y.S.Sanghui and P.Dan Cook;Mesmaeker et al.,Bioorganic&MedicinalChem.Lett.4:395(1994);Jeffs et al.,J.Biomolecular NMR 34:17(1994);TetrahedronLett.37:743(1996)),以及非核糖主链,包括描述于美国专利号5,235,033和5,034,506,以及Chapters 6and 7,ASCSymposium Series 580,"Carbohydrate Modifications inAntisense Research",Ed.Y.S.Sanghui and P.Dan Cook中的主链的类似物核酸。包含一种或多种碳环糖的多核苷酸也包括在多核苷酸的定义内(参见Jenkins et al.,Chem.Soc.Rev.(1995)pp169-176)。几种多核苷酸类似物描述于Rawls,C&E News June 2,1997page 35中。所有这些参考文献在此明确地通过引用并入。可进行核糖-磷酸主链的这些修饰以促进标记物的添加,或增加此类分子在生理环境中的稳定性和半衰期。

多核苷酸通常包含四个核苷酸碱基的特定序列:腺嘌呤(A);胞嘧啶(C);鸟嘌呤(G);和胸腺嘧啶(T)。当核酸是RNA时,还可存在尿嘧啶(U)例如作为胸腺嘧啶的天然替代物。尿嘧啶也可在DNA中使用。多核苷酸还可包括天然或非天然碱基。在这方面,天然脱氧核糖核酸多核苷酸可具有一个或多个选自腺嘌呤、胸腺嘧啶、胞嘧啶或鸟嘌呤的碱基,而核糖核酸可具有一个或多个选自尿嘧啶、腺嘌呤、胞嘧啶或鸟嘌呤的碱基。应当理解的是,在本文阐述的方法或组合物中使用的脱氧核糖核酸多核苷酸可包括例如尿嘧啶碱基,而核糖核酸可包括例如胸腺嘧啶碱基。核酸中可包括的示例性非天然碱基,无论具有天然主链还是类似结构,包括但不限于肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤、2-氨基嘌呤、5-甲基胞嘧啶、5-羟甲基胞嘧啶、2-氨基腺嘌呤、6-甲基腺嘌呤、6-甲基鸟嘌呤、2-丙基鸟嘌呤、2-丙基腺嘌呤、2-硫尿嘧啶、2-硫胸腺嘧啶、2-硫胞嘧啶、15-卤尿嘧啶、15-卤胞嘧啶、5-丙炔尿嘧啶、5-丙炔胞嘧啶、6-偶氮尿嘧啶、6-偶氮胞嘧啶、6-偶氮胸腺嘧啶、5-尿嘧啶、4-硫尿嘧啶、8-卤腺嘌呤或鸟嘌呤、8-氨基腺嘌呤或鸟嘌呤、8-硫醇腺嘌呤或鸟嘌呤、8-硫代烷基腺嘌呤或鸟嘌呤、8-羟基腺嘌呤或鸟嘌呤、5-卤代尿嘧啶或胞嘧啶、7-甲基鸟嘌呤、7-甲基腺嘌呤、8-氮杂鸟嘌呤、8-氮杂腺嘌呤、7-脱氮鸟嘌呤、7-脱氮杂腺嘌呤、3-脱氮鸟嘌呤、3-脱氮腺嘌呤等。任选地,核酸中可包含异胞嘧啶和异鸟嘌呤以减少非特异性杂交,如一般描述于美国专利号5,681,702,其通过引用整体并入本文。

多核苷酸中使用的非天然碱基可具有通用碱基配对活性,使得其能够与任何其他天然存在的碱基进行碱基配对。具有通用碱基配对活性的示例性碱基包括3-硝基吡咯和5-硝基吲哚。可以使用的其他碱基包括与天然存在的碱基的子集具有碱基配对活性的那些碱基,如肌苷,其与胞嘧啶、腺嘌呤或尿嘧啶碱基配对。

将核苷酸掺入多核苷酸链是指通过与核苷酸的5’磷酸基团形成磷酸二酯连接将核苷酸连接至多核苷酸链的游离3’羟基基团。待测序的多核苷酸模板可以是DNA或RNA,或甚至是包括脱氧核苷酸和核糖核苷酸两者的杂合分子。多核苷酸可包括天然存在和/或非天然存在的核苷酸和天然或非天然的主链连接。

本公开尤其描述了多核苷酸测序方法,该方法采用了测序寡核苷酸,其以比表面寡核苷酸更大的亲和力与模板多核苷酸链的游离3’末端部分杂交。可将此类测序寡核苷酸用作引物,通过利用模板链作为模板延伸测序寡核苷酸来确定第二索引序列的序列。采用此类多核苷酸的测序过程提供了足够强的信号来确定第二索引序列的序列。

由于测序寡核苷酸是游离的引物(未结合至固体表面),它不会受来自附着于固体表面的引物的测序有关的噪音问题困扰。另外,第二索引的序列可在配对末端转向之前获得,从而在不需要或不期望第二读段(配对末端转向之后)时允许更有效的测序。

图1是说明采用测序寡核苷酸的方法的实施方案的概况的流程图。该方法包括提供固体表面,结合至该固体表面且具有游离3’末端的表面寡核苷酸,以及结合至该固体表面且具有游离3’末端的模板多核苷酸(300)。模板多核苷酸的游离3’末端的至少一部分被配置为与表面寡核苷酸的至少一部分杂交,从而可通过利用模板多核苷酸作为模板延伸表面寡核苷酸来合成拷贝多核苷酸。该方法进一步包括提供测序寡核苷酸(310)。测序寡核苷酸以比表面寡核苷酸更大的亲和力与模板多核苷酸的游离3’末端的至少一部分杂交。该方法还包括利用模板多核苷酸作为模板来延伸测序寡核苷酸(320)。延伸测序寡核苷酸(320)可以是用于测序模板多核苷酸的一部分(如第二索引序列)的过程中的步骤。

图2同样是说明采用测序寡核苷酸的方法的实施方案的概况的流程图。该方法包括使测序寡核苷酸与模板多核苷酸杂交,该模板多核苷酸结合至与竞争性表面寡核苷酸结合的固体支持物的表面(350)。表面寡核苷酸和测序寡核苷酸与模板多核苷酸的相同序列杂交,因此被认为是竞争性的。测序寡核苷酸以比表面寡核苷酸更大的亲和力与模板多核苷酸杂交。该方法进一步包括利用模板多核苷酸作为模板来延伸测序寡核苷酸(360)。延伸测序寡核苷酸(360)可以是用于测序模板多核苷酸的一部分(如第二索引序列)的过程中的步骤。

为了说明的目的,以下关于图5描述了可利用测序寡核苷酸采用的测序方法的方面。在描述此类方面之前,在图3-4中呈现并描述了现有采用的测序工作流程,以提供与图5中所示和所述的方法相关的一些优点的背景。

参照图3,显示了现有采用的测序工作流程的概述。在所示的工作流程中,模板多核苷酸链100附着至固体表面200。模板多核苷酸链100包含游离的3’末端,且在5’末端附着至固体表面200。模板多核苷酸链100包括3’衔接子部分110和5’衔接子部分120之间的插入物120,其可能是未知序列。3’和5’衔接子部分110、120的序列是已知的。3’衔接子部分110包括3’末端部分70,其被配置为与结合至固体表面200的表面寡核苷酸330的至少一部分杂交(显示于左侧第三幅图)。可通过在配对末端(PE)转向过程中利用模板多核苷酸链100作为模板延伸表面寡核苷酸330来合成拷贝多核苷酸链110。

模板多核苷酸链100的3’衔接子部分110进一步包括第二索引序列60和第一引物杂交序列50。5’衔接子部分120包括5’末端部分10,第一索引序列20和第二引物杂交序列30。

在图3中所示的工作流程中,将第一读段引物310与模板链100的第一引物杂交序列50杂交,并且从模板链以3’至5’方向读取确定插入物40的至少3’部分的序列,因为在多个测序循环中第一读段引物310沿5’至3’方向延伸(未显示延伸)。

通过变性去除延伸的第一读段引物,并将第一索引引物320与模板多核苷酸链100的第二引物杂交序列30杂交。从模板链以3’至5’方向读取确定第一索引序列20的序列,因为在多个测序循环中第一索引引物320沿5’至3’方向延伸(未显示延伸)。

通过变性去除延伸的第一索引引物,并将模板链100的3’末端部分70与结合的表面寡核苷酸330杂交。在杂交之前,可从表面寡核苷酸330的3’末端去除封闭部分,以允许利用模板链100作为模板延伸表面寡核苷酸330。通过延伸表面寡核苷酸330,从模板链以3’至5’方向读取确定第二索引序列60的序列,因为在多个测序循环中表面寡核苷酸330沿5’至3’方向延伸(未显示延伸)。

表面寡核苷酸的延伸可持续直到在配对末端(PE)转向过程中产生作为模板链100的互补物的拷贝链110。因为拷贝链110是模板链100的互补物,所以与模板多核苷酸链的序列相对应的拷贝链110的序列在图3的右图中用撇号(prime)(’)表示。

可在5’末端附近切割模板链100,以从固体表面200释放模板链100。可将所释放的模板链洗去,留下附着于固体表面200的拷贝链110。第二读段引物340可与第二引物杂交序列的互补物30’杂交,且从拷贝链110以3’至5’方向读取,确定插入物的互补物40’的至少3’部分的序列(其对应于插入物40的5’部分),因为在多个测序循环中第二读段引物340以5’至3’方向延伸(未显示延伸)。

图3中所示且以上所述的工作流程图具有在配对末端(PE)转向之前确定第一和第二索引序列20、60两者的益处。因此,如果不需要或不期望第二读取(从第二读段引物340进行测序),则有效地获得关于两个索引序列的信息。然而,图3中所示的工作流程从附着至固体表面200的引物(表面寡核苷酸330)获得第一索引序列20的序列,相比使用未附着于固体表面的游离引物获得的序列,其倾向于导致更高的噪音和更低的可靠性。至少部分地,据信较高的噪音是由例如流动池的表面上过量的未封闭的表面引物引起的。除了期望的掺入至与簇链杂交的表面引物上外,在未使用的表面引物上还发生了非特异性掺入,特别是在高引物密度系统中。这导致从表面引物测序时更大噪音的测序读段。

参考图4,显示了另一现有测序工作流程的概述。在所示工作流程中,模板多核苷酸链100附着至固体表面200。模板多核苷酸链100包含游离的3’末端,并且在5’末端附着至固体表面200。模板多核苷酸链100包括位于3’衔接子部分110和5’衔接子部分120之间的插入物120,其可能是未知序列。3’和5’衔接子部分110、120的序列是已知的。3’衔接子部分110包括3’末端部分70,其被配置为与结合至固体表面200的表面寡核苷酸(图2中未显示,但指图3中的表面寡核苷酸330)的至少一部分杂交。通过在配对末端(PE)转向过程中利用模板多核苷酸链100作为模板延伸表面寡核苷酸来合成拷贝多核苷酸链110。

3’衔接子部分110进一步包括第二索引序列60和第一引物杂交序列50。5’衔接子部分120包括5’末端部分10,第一索引序列20和第二引物杂交序列30。

图4中所示的工作流程中,使第一读段引物310与模板链100的第一引物杂交序列50杂交,并从模板链以3’至5’方向读取,确定插入物40的至少3’部分的序列,因为在多个测序循环中第一读段引物310以5’至3’方向延伸(未显示延伸)。

通过变性去除延伸的第一读段引物,并使第一索引引物320与模板多核苷酸链100的第二引物杂交序列30杂交。从模板链以3’至5’方向读取,确定第一索引序列20的序列,因为在多个测序循环中第一索引引物320以5’至3’方向延伸(未显示延伸)。

通过变性去除延伸的第一索引引物,并使模板链100的3’末端部分70与结合的表面寡核苷酸(图4中未显示)杂交。在杂交之前,可从表面寡核苷酸330的3’末端去除封闭部分,以允许利用模板链100作为模板延伸表面寡核苷酸330。表面寡核苷酸的延伸可持续直到在配对末端(PE)转向过程中产生作为模板链100的互补物的拷贝链110。因为拷贝链110是模板链100的互补物,所以与模板链的序列相对应的拷贝链110的序列在图4中用撇号(’)表示。

可在5’末端附近切割模板链100,以从固体表面200释放模板链100。可将所释放的模板链洗去,留下附着于固体表面200的拷贝链110。将第二索引引物335与第一引物杂交序列的互补物50’杂交,并从拷贝链以3’至5’方向读取,确定第二索引序列的互补物60’的序列,因为在多个测序循环中第二索引引物335以5’至3’方向延伸(未显示延伸)。

通过变性去除延伸的第二索引引物,并可使第二读段引物340与第二引物杂交序列的互补物30’杂交。从拷贝链以3’至5’方向读取,确定插入物的互补物40’的至少3’部分(其对应于插入物40的5’部分)的序列,因为在多个测序循环中第一读段引物310以5’至3’方向延伸(未显示延伸)。

图4中所示和以上所述的工作流程具有从游离引物(第一索引引物310和第二索引引物335)确定第一和第二索引序列20、60两者的益处,这避免了如以上关于图3中所示的工作流程所示,与从结合至固体表面的引物获得索引序列之一相关的问题。然而,图4中所示的工作流程是在配对末端(PE)转向之后获得第一索引序列。在不需要或不期望第二读取(从第二读段引物340测序)的情况下,必须在获得第二索引的序列之前完成配对末端(PE)转向,这导致相对低效率的过程。

参照图5,显示了克服与图3和图4中所示的工作流程相关问题的测序工作流程的概述。具体地,图5中所示的测序工作流程从游离引物且在配对末端转向之前通过利用经修饰的第二索引引物337获得第一和第二索引序列,如下文更详细地描述。

类似于图3和图4,图5描绘了附着至固体表面200的模板多核苷酸链100。模板多核苷酸链100包含游离3’末端,并在5’末端附着至固体表面200。模板多核苷酸链100包括位于3’衔接子部分110和5’衔接子部分120之间的插入物120,其可能是未知序列。3’和5’衔接子部分的序列110、120是已知的。3’衔接子部分110包括3’末端部分70,其被配置为与结合至固体表面200的表面寡核苷酸(图5中未显示,但指图3中的表面寡核苷酸330)的至少一部分杂交。在配对末端(PE)转向过程中,可通过利用模板多核苷酸链100作为模板延伸表面寡核苷酸来合成拷贝多核苷酸链110。

3’衔接子部分110进一步包括第二索引序列60和第一引物杂交序列50。5’衔接子部分120包括5’末端部分10、第一索引序列20和第二引物杂交序列30。

图5中所示的工作流程中,使第一索引引物320与模板多核苷酸链100的第二引物杂交序列30杂交。从模板链100以3’至5’方向读取,确定第一索引序列20的序列,因为在多个测序循环中第一索引引物320以5’至3’方向延伸(未显示延伸)。

通过变性去除延伸的第一索引引物,并使经修饰的第二索引引物337与模板链100的3’末端部分70杂交,并从拷贝链以3’至5’方向读取,确定第二索引序列60的序列,因为在多个测序循环中经修饰的第二索引引物337以5’至3’方向延伸(未显示延伸)。

通过变性去除延伸的经修饰的第二索引引物,并使第一读段引物310与第一引物杂交序列50杂交。从模板链以3’至5’方向读取,确定插入物40的至少3’部分的序列,因为在多个测序循环中第一读段引物310以5’至3’方向延伸(未显示延伸)。

在确定第一索引序列20、第二索引序列60和插入物40的至少一部分之后,拷贝链110可通过以下来合成:使模板链100的3’末端部分70与结合至固体表面200的表面寡核苷酸(图5中未显示,但指的是图3中的表面寡核苷酸330)杂交,并利用模板多核苷酸链100作为模板在配对末端(PE)转向过程中延伸表面寡核苷酸。

可使第二读段引物340与拷贝链110中第二引物杂交序列的互补物30’杂交。从拷贝链以3’至5’方向读取,确定插入物的互补物40’的至少3’部分(对应于插入物40的5’部分)的序列,因为在多个测序循环中第一读段引物310以5’至3’方向延伸(未显示延伸)。

尽管在图5中未显示,但是经修饰的索引引物337和模板链100的3’末端部分70的杂交与模板链100的3’末端部分70和表面寡核苷酸(图5中未显示)的杂交竞争。发明人已发现,与表面寡核苷酸相同的序列且未经修饰的游离索引引物不能有效地用于获得第二索引序列60。为了在图5中所示和以上所述的工作流程中有效地获得第二索引序列60,第二索引引物337被修饰为具有对模板链100的3’末端部分70比表面寡核苷酸更大的亲和力。

例如,并且参考图6,当第二索引引物337被修饰为具有对模板链100的3’末端部分70比表面寡核苷酸330更大的亲和力时,第二索引引物337与模板链100的3’末端部分70的杂交是有利的。可延伸第二索引引物337以读取第二索引序列60的序列。在簇中任何模板链的3’末端(未显示)与表面寡核苷酸337杂交的程度上,表面寡核苷酸330的3’末端可被封闭以防止从表面寡核苷酸330延伸。

图7A-B示出表面寡核苷酸330、模板链的3’末端部分70和游离测序寡核苷酸337(可以是索引引物)的相互作用。表面寡核苷酸330的3’末端被封闭。可在拷贝链的配对末端转向合成之前去除封闭。

测序寡核苷酸337具有对模板链的3’末端部分70比表面寡核苷酸330更大的亲和力。因此,当测序寡核苷酸337在杂交条件下存在时,模板链的3’末端部分70优先与测序寡核苷酸337杂交。模板链如序列65(可以是索引序列)的测序,可通过利用模板链作为模板的测序循环期间在3’方向延伸测序寡核苷酸337而发生。

测序寡核苷酸337可以任何合适的方式修饰以增加对模板链的3’末端部分70的亲和力。例如,测序寡核苷酸可包含经修饰的核苷酸,其相对于天然核苷酸,增强了碱基对与模板多核苷酸的核苷酸的结合。此类经修饰的核苷酸是已知的,并且包括例如,锁核苷酸(LNA)和桥连核苷酸(BNA)。

通过化学合成寡核苷酸,例如通过标准的亚磷酰胺化学,可将LNA和BNA在所期望的位置掺入寡核苷酸中。LNA和BNA以及包含LNA和BNA的寡核苷酸是可商购的。

BNA是经修饰的RNA核苷酸,有时被称为受约束的或难接近的RNA分子。BNA单体可包含在核糖的2’,4’-位置掺入的五元、六元或七元桥连结构。BNA在结构上是刚性的寡核苷酸,对与互补碱基的杂交具有增加的亲和力。以下出版物提供了有关BNA的其他信息:(1)Obika,S.,et al.,(1997),"Synthesis of 2’-O,4’-C-methyleneuridine and-cytidine.Novel bicyclic nucleosides having a fixed C3,-endo sugar puckering,"Tetrahedron Letters.38(50):8735;(2)Obika,S.,et al.,(2001),"3’-amino-2’,4’-BNA:Novel bridged nucleic acids having an N3’-->P5’phosphoramidate linkage,"Chemical communications(Cambridge,England)(19):1992–1993;(3)Obika,S.,et al.,(2001),"A 2’,4’-Bridged Nucleic Acid Containing 2-Pyridone as a Nucleobase:Efficient Recognition of a C·G Interruption by Triplex Formation with aPyrimidine Motif,"Angewandte Chemie International Edition.40(11):2079;(4)Morita,K.,et al.,(2001),"2’-O,4’-C-ethylene-bridged nucleic acids(ENA)withnuclease-resistance and high affinity for RNA,"Nucleic AcidsResearch.Supplement.1(1):241–242;(5)Hari,Y.,et al.,(2003),"Selectiverecognition of CG interruption by 2’,4’-BNA having 1-isoquinolone as anucleobase in apyrimidine motif triplex formation,"Tetrahedron.59(27):5123;(6)Rahman,S.M.A.,et al.,(2007),"Highly Stable Pyrimidine-Motif TriplexFormation at Physiological pH Values by a Bridged Nucleic Acid Analogue,"Angewandte Chemie International Edition.46(23):4306–4309。

LNA单体包括连接核糖部分的2’氧和4’碳以将核糖“锁”在3’-内构象的另外的桥。

优选地,经修饰的核苷酸形成标准的Watson-Crick碱基对。例如,LNA碱基形成标准的Watson-Crick碱基对,但是锁构型提高了碱基配对反应的速率和稳定性(Jepsen etal.,Oligonucleotides,14,130-146(2004))。这些性质使得LNA对于本文描述的方法特别有用。

包含经修饰的核苷酸的测序寡核苷酸可使用本领域已知的任何方法来设计;许多算法是已知的,并且是可商购的(例如,在互联网上如exiqon.com)。参见,例如,You etal.,Nuc.Acids.Res.34:e60(2006);McTigue et al.,Biochemistry 43:5388-405(2004);和Levin et al.,Nuc.Acids.Res.34:e142(2006)。例如,类似于用于设计反义寡核苷酸的那些方法,“gene walk”方法可用于优化包含经修饰的核苷酸的测序寡核苷酸的序列。在一些实施方案中,GC含量为约30-60%之间。用于设计包含LNA的寡核苷酸的一般准则是本领域已知的;例如,LNA序列将与其他LNA序列非常紧密地结合,因此优选避免LNA内的显著互补性。在可能的情况下,应避免连续运行四个以上的LNA残基。在一些实施方案中,LNA是xylo-LNA(参见,例如,You et al.,Nucleic Acids Research,2006,Vol.34,No.8e60)。

有关LNA的其他信息,参见美国专利号6,268,490;6,734,291;6,770,748;6,794,499;7,034,133;7,053,207;7,060,809;7,084,125;和7,572,582;和美国授权前公布号20100267018;20100261175;和20100035968;Koshkin et al.Tetrahedron 54,3607-3630(1998);Obika et al.Tetrahedron Lett.39,5401-5404(1998);Jepsen et al.,Oligonucleotides 14:130-146(2004);Kauppinen et al.,Drug Disc.Today 2(3):287-290(2005);You et al.,Nucleic Acids Research,2006,Vol.34,No.8e60;Ponting etal.,Cell 136(4):629-641(2009),以及其中引用的参考文献。

在一些实施方案中,测序寡核苷酸包含不止一个经修饰的核苷酸,相对于天然核苷酸,其增强了碱基对与模板多核苷酸的核苷酸的结合。例如,测序寡核苷酸的10%或更多的碱基可以是增强碱基对结合的经修饰的碱基。在一些实施方案中,测序寡核苷酸的20%或更多或者30%或更多的碱基是增强碱基对结合的经修饰的碱基。在一些实施方案中,测序寡核苷酸的50%或更少的碱基是增强碱基对结合的经修饰的碱基。例如,测序寡核苷酸的约10%至约50%,约20%至约50%或约30%至约50%是增强碱基对结合的经修饰的碱基。

在一些实施方案中,表面寡核苷酸的序列或表面寡核苷酸的一部分的序列与测序寡核苷酸的至少一部分相同。如果测序寡核苷酸含有经修饰的核苷酸,则出于测序寡核苷酸的序列的目的,将认为经修饰的核苷酸相当于与经修饰的核苷酸碱基对的经修饰的核苷酸与相同的核苷酸碱基配对的相应天然的核苷酸。

测序寡核苷酸可在相对于表面寡核苷酸的3’末端包含另外的核苷酸。另外的核苷酸优选与模板多核苷酸链互补并杂交。

通常,从表面寡核苷酸进行的测序涉及核苷酸的几轮掺入,为此所掺入核苷酸的身份由于表面引物与模板链未紧接在索引序列之前的区域退火而无法确定。这几轮掺入可被称为“暗循环(dark cycles)”。可进行任何合适数量的掺入暗循环。例如,可进行2至20个掺入暗循环,例如可进行3至15个,5至10个或6至8个掺入暗循环。暗循环期间与延伸的表面寡核苷酸互补的模板链的序列优选是已知的。一旦进行了适当数量的掺入暗循环(利用模板寡核苷酸链作为模板的表面寡核苷酸的延伸),就可进行测序(确定后序循环中所掺入核苷酸的身份)。

相对于表面寡核苷酸引物,测序寡核苷酸可在相对于表面寡核苷酸的3’末端包括另外的核苷酸,并且可与模板链紧接在索引序列之前的区域退火。因此,当利用测序引物时,可能不需要暗循环或可以减少暗循环。图7B中所示的实施方案中,测序寡核苷酸337相对于表面寡核苷酸330在3’末端包括7个另外的核苷酸。

如全文所讨论,提供了用于测序多核苷酸的改进方法。示例性测序方法描述于例如Bentley et al.,Nature 456:53-59(2008),WO 04/018497;US 7,057,026;WO 91/06678;WO 07/123744;US 7,329,492;US 7,211,414;US 7,315,019;US 7,405,281和US2008/0108082,其各自通过引用并入本文。高通量或快速测序的一种有用方法是边合成边测序(SBS)。SBS技术包括但不限于Genome Analyzer系统(Illumina Inc.,San Diego,CA)和True Single Molecule Sequencing(tSMS)

本文所述的测序方法可使用任何合适的设备以任何合适的方式进行。在一些实施方案中,测序方法采用固体支持物,其上固定化有多个模板多核苷酸链。本文所用的术语“固定化”旨在涵盖经由共价或非共价键直接或间接附着于固体支持物。在具体实施方案中,所需要的是在意图使用支持物的条件下,例如在需要核酸扩增和/或测序的应用中,多核苷酸保持固定化或附着于支持物。例如,可使寡核苷酸或引物固定化,使得3’末端可用于酶促延伸和/或序列的至少一部分能够与互补序列杂交。固定化可通过与表面附着的引物杂交来实现,在这种情况下,固定化的引物或寡核苷酸可以处于3’-5’定向。可选择地,固定化可通过非碱基配对的杂交如共价附着来实现。

举例来说,可通过与引物的斑块(patch)中的一个或多个引物杂交或退火来将多核苷酸附着于表面。杂交可例如通过将衔接子连接至模板多核苷酸的末端来完成。衔接子的核酸序列可与引物的核酸序列互补,因而允许衔接子与表面上的引物结合或杂交。任选地,多核苷酸可以是单链或双链的,并且可将衔接子添加至多核苷酸的5’和/或3’末端。任选地,多核苷酸可以是双链的,并且可将衔接子连接到双链多核苷酸的3’末端上。任选地,可使用没有任何衔接子的多核苷酸。在一些实施方案中,可通过除与互补引物杂交以外的相互作用将模板多核苷酸附着于表面。例如,可使用化学连接将多核苷酸共价附着于表面,所述化学连接例如由点击化学或由诸如链霉抗生物素蛋白-生物素结合的受体-配体相互作用产生的那些化学连接。

引物寡核苷酸、寡核苷酸引物和引物在全文中可互换使用,并且是能够与一种或多种待扩增或测序的多核苷酸模板特异性退火的多核苷酸序列。通常,引物寡核苷酸是单链或部分单链的。引物还可含有非天然碱基、非核苷酸化学修饰或非天然主链连接的混合物,只要非天然实体不干扰引物的功能即可。任选地,固体支持物表面上的引物的斑块可包含一种或多种不同的多个引物分子。举例来说,斑块可包含第一、第二、第三、第四或更多的多个引物分子,每种多个具有不同的序列。将理解的是,对于在单个斑块中具有不同的多个引物的实施方案,不同的多个引物可以共享共有序列,只要不同的多个引物的至少一部分之间存在序列差异。例如,第一多个引物可与第二多个引物共享序列,只要一种多个中的引物具有在另一种多个中的引物中未发现的不同序列。

模板多核苷酸可在固体支持物的表面上扩增。多核苷酸扩增包括通过产生模板和/或其互补物的一个或多个拷贝来扩增存在的多核苷酸模板和/或其互补物或者增加其数目的过程。扩增可通过多种已知方法在包括但不限于热循环扩增或等温扩增的条件下进行。例如,用于进行扩增的方法描述于美国公开号2009/0226975;WO 98/44151;WO 00/18957;WO 02/46456;WO 06/064199;和WO 07/010251;其通过引用整体并入。简而言之,在所提供的方法中,扩增可发生在多核苷酸分子所附着的表面上。这种类型的扩增可被称为固相扩增,当用于提及多核苷酸时,其是指在表面(例如,固相支持物)上进行或与表面有关的任何多核苷酸扩增反应。通常,所扩增产物的全部或部分通过固定化引物的延伸来合成。固相扩增反应类似于标准溶液相扩增,不同之处在于扩增引物中的至少一种固定于表面(例如固体支持物)。

合适的条件包括提供用于扩增多核苷酸的合适的缓冲液/溶液。此类溶液包括,例如具有聚合酶活性的酶,三磷酸核苷酸,以及任选地,诸如DMSO或甜菜碱的添加剂。任选地,如美国专利号7,485,428(通过引用整体并入本文)中所述,扩增在存在重组酶试剂的情况下实施,其允许在没有热解链的情况下进行扩增。简而言之,诸如来自大肠杆菌的RecA蛋白(或来自其他门的RecA亲缘物)的重组酶试剂,在存在例如ATP、dATP、ddATP、UTP或ATPγS的情况下,将在单链DNA(例如引物)周围形成核蛋白丝。当该复合物与同源序列接触时,重组酶试剂将催化链侵入反应,并将引物与靶DNA的同源链配对。最初的配对链因链侵入而被置换,在该区域中留下单链DNA泡(bubble),其用作扩增的模板。

固相扩增可包括包含仅一个种类的固定化于表面的寡核苷酸引物的多核苷酸扩增反应。可选择地,该表面可包含多个第一和第二不同的固定化的寡核苷酸引物种类。固相核酸扩增反应通常包括两种不同类型的核酸扩增中的至少一种,即界面和表面(或桥式)扩增。例如,在界面扩增中,固体支持物包含通过与固定化寡核苷酸引物杂交而间接固定化于固体支持物的模板多核苷酸,固定化引物可在聚合酶催化的模板指导的延长反应过程中延伸(例如引物延伸),以产生保持附着于固相支持物的固定化多核苷酸。在延伸阶段之后,使多核苷酸(例如,模板及其互补产物)变性,使得模板多核苷酸被释放到溶液中并且可用于与另一固定化寡核苷酸引物杂交。模板多核苷酸可在1、2、3、4、5或更多轮引物延伸中获得,或者可在1、2、3、4、5或更多轮引物延伸后从反应物洗出。

在表面(或桥式)扩增中,固定化的多核苷酸与固定化寡核苷酸引物杂交。固定化的多核苷酸的3’末端为从固定化寡核苷酸引物延伸的聚合酶催化的模板指导的延长反应(例如,引物延伸)提供了模板。所产生的双链产物“桥连”两条引物,并且两条链共价附着于支持物。在下一个循环中,变性后产生一对固定化于固体支持物的单链(固定化模板和延伸引物产物),两条固定化的链都可用作新引物延伸的模板。

可将扩增用于产生固定化多核苷酸的克隆。例如,该方法可产生多核苷酸克隆的簇状阵列,类似描述于美国专利号7,115,400;美国公开号2005/0100900;WO 00/18957;和WO 98/44151中的那些,其通过引用整体并入本文。“簇”和“克隆”可互换使用,并且是指附着于表面具有相同序列和/或其互补物的多核苷酸的多个拷贝。通常,簇包含具有相同序列和/或其互补物的多核苷酸的多个拷贝,其通过其5’端附着于表面。组成簇的多核苷酸拷贝可以是单链或双链的形式。

因此,多个模板多核苷酸可处于簇中,每个簇包含相同序列的模板多核苷酸。可对多个簇进行测序,每个簇包含相同序列的多核苷酸。任选地,第一簇中的多核苷酸的序列不同于第二簇中的核酸分子的序列。任选地,簇通过将模板多核苷酸与固体表面上的引物退火,并在形成包含多个相同序列的模板多核苷酸的簇的条件下扩增模板多核苷酸来形成。扩增可以是加热或等温的。

每个克隆可包含相同序列的多核苷酸。在具体实施方案中,一个克隆的多核苷酸的序列不同于另一克隆的多核苷酸的序列。因此,每个克隆包含具有不同核酸序列的多核苷酸。克隆中所有固定化的多核苷酸通常通过扩增相同的多核苷酸来产生。在一些实施方案中,固定化多核苷酸的克隆可能包含一种或多种不具有固定化的多核苷酸的引物,在另外施加含有游离或未结合多核苷酸的溶液时,另一种不同序列的多核苷酸可与该固定化的多核苷酸结合。然而,由于克隆中没有足够数量的游离引物,该第二或侵入的多核苷酸可能无法扩增至显著数量。第二或侵入的多核苷酸通常小于单个克隆中多核苷酸总群体的1、0.5、0.25、0.1、0.001或0.0001%。因此,第二或侵入的多核苷酸可能无法被光学检测到,或者第二或侵入的多核苷酸的检测被认为是背景噪音,或不干扰克隆中原始固定化的多核苷酸的检测。在此类实施方案中,根据用于检测克隆的方法或装置的分辨率,克隆将显然是同质的或均匀的。

取决于所使用的条件,簇可以具有不同的形状、大小和密度。例如,簇可以具有基本上为圆形、多边形、圆环形或环形的形状。簇的直径或最大横截面可以为约0.2μm至约6μm,约0.3μm至约4μm,约0.4μm至约3μm,约0.5μm至约2μm,约0.75μm至约1.5μm,或任何介于中间的直径。任选地,簇的直径或最大横截面可以为至少约0.5μm,至少约1μm,至少约1.5μm,至少约2μm,至少约2.5μm,至少约3μm,至少约4μm,至少约5μm或至少约6μm。簇的直径可受许多参数影响,包括但不限于产生簇中进行的扩增循环数、多核苷酸模板的长度、多核苷酸模板的GC含量、引物附着的斑块形状、或附着至形成簇的表面的引物的密度。然而,如上所述,在所有情况下,簇的直径将不大于在其上形成簇的斑块。例如,如果斑块是珠子,则簇的大小将不大于珠子的表面积。簇的密度范围可以为至少约0.1/mm

簇,例如可以使用合适的成像手段如共聚焦成像设备或电荷耦合设备(CCD)或CMOS摄像机来检测。示例性成像装置包括但不限于描述于美国专利号7,329,860;5,754,291;和5,981,956;以及WO 2007/123744中的那些,其各自通过引用整体并入本文。可将成像设备用于确定表面上一个簇或多个簇的参考位置,例如一个或多个簇的位置、边界、直径、面积、形状、重叠和/或中心(和/或由此产生的可检测信号)。此类参考位置可被记录、归档、注释、转换为可解释的信号等,以产生有意义的信息。

如本文所用,术语支持物是指用于附着多核苷酸的基底。支持物是具有刚性或半刚性表面的材料,可将多核苷酸附着于其上或核酸可在其上被合成和/或修饰。支持物可包括任何树脂、凝胶、珠、孔、柱、芯片、流动池、膜、基质、板、过滤器、玻璃、可控孔玻璃(CPG)、聚合物支持物、膜、纸、塑料、塑料管或片、塑料珠、玻璃珠、玻片、陶瓷、硅芯片、多孔板、尼龙膜、光纤和PVDF膜。

支持物可以基本上是平面的,并且可包括任何平的晶片状基底和具有孔的平基底,例如微量滴定板,包括96孔板。示例性平基底包括芯片、载玻片、蚀刻基底、微量滴定板和流动池反应器,包括具有多个微流体通道的多泳道流动池反应器,例如cBot测序工作站中使用的八通道流动池(Illumina,Inc.,San Diego,CA)。示例性流动池描述于WO 2007/123744,其通过引用整体并入本文。任选地,流动池是图案化(patterned)流动池。合适的图案化流动池包括但不限于WO 2008/157640(其通过引用整体并入本文)中描述的流动池。

支持物还可以包括珠子,包括磁性珠、空心珠和固体珠。珠子可与平的支持物结合使用,此类平的支持物任选地还含有孔。珠子或可选择地微球,通常是指由刚性或半刚性材料制成的小物体。该物体可以具有特征为,例如球形、椭圆形、微球形或无论具有规则或不规则尺寸的其他公认的颗粒形状的形状。珠子的大小特别包括但不限于直径为约1μm、约2μm、约3μm、约5μm、约10μm、约20μm、约30μm、约40μm、约60μm、约100μm、约150μm或约200μm。可以与本文针对珠子和微球所描述的那些相似的方式使用其他颗粒。

支持物的组成可根据例如形式,化学和/或附着方法和/或核酸合成方法而变化。可根据本公开使用的支持物材料包括但不限于聚丙烯、聚乙烯、聚丁烯、聚氨酯、尼龙、金属和其他合适的材料。示例性组合物包括在多肽、多核苷酸和/或有机部分合成中使用的支持物和赋予其的化学功能。此类组合物包括,例如塑料、陶瓷、玻璃、聚苯乙烯、三聚氰胺、甲基苯乙烯、丙烯酸聚合物、顺磁性材料、氧化钍溶胶、碳石墨、二氧化钛、乳胶或交联葡聚糖如Sepharose

待测序的模板多核苷酸可使用已知的常规方法从任何生物样品获得。合适的生物样品包括但不限于血液样品、活检标本、组织外植体、器官培养物、生物流体或任何其他组织或细胞制品,或其部分或衍生物或从中分离。生物样品可以是原代细胞培养物或经培养适应的细胞系,包括但不限于可包含染色体整合或游离型重组核酸序列的基因工程改造的细胞系、已永生化或可永生化的细胞系、体细胞杂交细胞系、已分化或可分化的细胞系、转化的细胞系、干细胞、生殖细胞(如精子、卵母细胞)、转化的细胞系等。例如,多核苷酸分子可获自原代细胞、细胞系、新鲜分离的细胞或组织、冷冻的细胞或组织、石蜡包埋的细胞或组织、固定的细胞或组织、和/或激光切割的细胞或组织。生物样品可获自任何受试者或生物来源,包括例如人类或非人类动物,包括哺乳动物和非哺乳动物、脊椎动物和无脊椎动物,也可以是任何多细胞生物体或单细胞生物体,例如真核生物体(包括植物和藻类)或原核生物体、古细菌(archaeon)、微生物(例如细菌、古生菌(archaea)、真菌、原生生物、病毒)和水生浮游生物。

一旦获得了多核苷酸,就可使用各种可获得且已知的标准技术来制备在所提供方法中使用的不同序列的多种多核苷酸分子。多核苷酸分子制备的示例性方法包括但不限于Bentley et al.,Nature 456:49-51(2008);美国专利号7,115,40;和美国专利申请公开号2007/0128624;2009/0226975;2005/0100900;2005/0059048;2007/0110638;和2007/0128624中描述的那些,其各自通过引用整体并入本文。模板多核苷酸可包含多种序列,包括但不限于通用序列和已知或未知序列。例如,多核苷酸可包含位于5’和/或3’末端的已知序列的一个或多个区域(例如,衔接子)。此类模板多核苷酸可通过将衔接子附着于未知序列的多核苷酸的末端来形成。当多核苷酸在5’和3’末端上包含已知序列时,已知序列可以是相同或不同的序列。任选地,位于多核苷酸5’和/或3’末端的已知序列能够与固定化于表面的一个或多个引物杂交。例如,包含5’已知序列的多核苷酸可与第一多个引物杂交,而3’已知序列可与第二多个引物杂交。任选地,多核苷酸包含一个或多个可检测的标记物。一个或多个可检测的标记物可在多核苷酸分子内的5’末端、3’末端和/或任何核苷酸位置附着于多核苷酸模板。在所提供方法中使用的多核苷酸可包含待扩增和/或测序的多核苷酸,以及任选地5’末端和/或3’末端的短核酸序列。

添加到多核苷酸5’末端和/或3’末端的短核酸序列可以是通用序列。通用序列是两种或更多种多核苷酸共有的,即由两种或更多种多核苷酸共享的,核苷酸序列的区域,其中两种或更多种多核苷酸也具有序列差异区域。可存在于多种多核苷酸的不同成员中的通用序列可允许使用与通用序列互补的单一通用引物来复制或扩增多种不同序列。类似地,可存在于多核苷酸集合的不同成员中的至少一个、两个(例如,一对)或更多个通用序列可允许使用与通用序列互补的至少一个、两个(例如,一对)或更多个单一通用引物来复制或扩增多种不同序列。因此,通用引物包括可与此类通用序列特异性杂交的序列。多核苷酸可被修饰以将通用衔接子(例如,非靶核酸序列)附着至不同靶序列的一个或两个末端,所述衔接子为通用引物的杂交提供位点。该方法的优点在于不必为待产生、扩增、测序和/或以其他方式分析的各个多核苷酸设计特定的引物对;可使用单一引物对扩增不同的多核苷酸,条件是每个多核苷酸均通过在其5’末端和3’末端添加相同的通用引物结合序列进行修饰。

使用标准的已知方法,多核苷酸也可被修饰以包括任何期望的核酸序列。此类另外的序列可包括,例如限制性内切酶位点或索引标签,以允许鉴定给定核酸序列的扩增产物。

如本文所用,术语不同的用于提及两种或更多种多核苷酸时,是指两种或更多种多核苷酸具有不相同的核苷酸序列。例如,两种多核苷酸的不同之处可以在于与另一种多核苷酸相比的一种多核苷酸序列中的含量和核苷酸的顺序。该术语可用于描述多核苷酸,无论它们被称为拷贝、扩增子、模板、靶标、引物、寡核苷酸等。

公开了可用于所公开方法和组合物的材料、组合物和组分,可与所公开方法和组合物联合使用的材料、组合物和组分,可用于制备所公开方法和组合物的材料、组合物和组分,或作为所公开方法和组合物的产物的材料、组合物和组分。在本文中公开了这些材料和其他材料,并且应当理解的是,当公开这些材料的组合、子集、相互作用、群组等时,尽管可能没有明确地公开每个单独的和集体的组合和排列的具体参考,但是每个都是在本文中具体考虑和描述。例如,如果公开并讨论了方法并讨论了可对方法步骤进行的许多修改,则除非有相反的明确指示,否则具体考虑了方法步骤的每一个组合和排列以及可能的修改。同样地,这些的任何子集或组合也被具体考虑和公开。该概念适用于本公开的所有方面。因此,如果可进行多种另外的步骤,则应当理解的是,这些另外的步骤中的每一个都可以用所公开方法的任何具体方法步骤或方法步骤的组合来进行,并且每个此类组合或组合的子集被具体考虑并且应当被认为是公开的。

在整个申请中,引用了各种出版物。这些出版物的公开内容通过引用整体在此并入本申请。

实施例

1.

使用Illumina Inc.的

在Illumina Inc.

以下表1中呈现使用的引物和接枝的P5寡核苷酸的序列。

表1.引物的序列

HP19引物是经修饰的索引2引物,其使用接枝的P5寡核苷酸的序列作为起始序列。粗体和较大字体表示LNA修饰。

经修饰的测序寡核苷酸引物购自Qiagen。

各种版本的HP19引物相对于P5寡核苷酸在3’末端包括7个另外的核苷酸。使用P5寡核苷酸读取索引2序列时,在读取索引序列之前先进行7轮核苷酸的暗掺入。使用游离引物(例如HP19的各种版本)时,此类暗循环不是必需的,因为游离引物紧邻索引序列退火。因此,添加了7个另外的核苷酸,以便测序的第一个循环开始读取索引2序列。

2.

使用Illumina,Inc.

如图8中所示,使用HP19 v0引物时几乎没有检测到任何信号强度,该引物未包括经修饰的核苷酸来增强引物对靶多核苷酸链的P5’序列(R2)的杂交亲和力。相反地,HP19v1(R3)和HP19 v2(R4)引物(其包括经修饰的核苷酸)产生了用于待读取的索引2序列的足够的信号强度。HP19 v1(其具有最高百分比(8/26)的经修饰的碱基)提供了最高的信号强度(R3)。

提取针对R2、R3、R4和R6的i5索引表示,然后将其与已知索引进行比较。图9和10中呈现的图显示HP19 v1和HP19 v2两者如何提供与标准读段2索引读段中所收集的索引表示分布无法区分的索引表示分布。图9是读段计数的条形图,并且图10是HP19 v1和HP19 v2引物与标准读段2索引引物的相关性的图。

3.

使用Illumina,Inc.

索引分析表明,在第一读段(读段1)测序之前进行两个索引读段不会造成任何罚分(penalty)。提取针对R1和R4(后者视为参考)的i5索引表示,并在它们之间进行了比较。图12是显示读段计数的条形图,其显示HP19 v1如何提供与标准读段2索引读段中收集的索引表示分布无法区分的索引表示分布。

用于生成图11中呈现的结果的工作流程能够实现与使用经修饰的索引引物(例如HP12 v1和HP10 v2)相关的关键优势。例如,在不需要或不期望插入物大小或短的或另外的插入物测序的情况下,复杂的文库可独立于进行配对末端转向和读段2来多路分解。此外,可启用动态成像(例如,根据文库的组成来微调循环和图块(tile)数量的能力)。

独立于读段2的多路分解的能力提供了对索引表示很重要的应用中节省大量实施时间的可能性。例如,如果插入序列(或其足够的部分)可在单次较长的运行(读段1)而不是在两次较短的运行(读段1和读段2,其在配对末端转向后)中获得,则可以节省配对末端转向时间以及制备和再杂交读段2引物的时间。

已经描述若干实施方案。然而,将理解的是,可以进行各种修改。因此,其他实施方案在所附权利要求的范围内。

相关技术
  • 用于测序的引物寡核苷酸
  • 用于核酸PCR产物直接测序的测序引物和测序方法
技术分类

06120112603767