掌桥专利:专业的专利平台
掌桥专利
首页

用于在基因组的重复区域中可视化短读段的方法和系统

文献发布时间:2023-06-19 19:28:50


用于在基因组的重复区域中可视化短读段的方法和系统

引用合并

PCT申请表格与本说明书同时提交,作为本申请的一部分。本申请要求同时提交的PCT申请表格中确定的权益或优先权的每项申请以引用的方式全文并入本文并用于所有目的。

背景技术

串联重复序列(TR)是其中重复某些DNA基序的一段重复DNA。在某些惯例中,当重复基序(在本文中也称为重复单元)包括少于十个碱基对时,TR被认为是短串联重复序列(STR)或微卫星。当重复基序的范围为10到60个碱基对时,TR被认为是小卫星。

短串联重复序列(STR)在整个人类基因组中普遍存在。虽然我们对STR生物学的理解远不完全,但新兴的证据表明STR在基本的细胞过程中起重要作用。

重复扩增是其中生物体的TR具有比参考序列更多数目的重复基序的情况。由于当STR扩增超过一定大小时的重复扩增的不稳定性,重复扩增也被称为动态突变。STR扩增是多种严重神经障碍的主要原因,包括肌萎缩性脊髓侧索硬化症(ALS)、弗里德赖希共济失调(FRDA)、亨廷顿病(HD)和脆性X染色体综合征(FXS)。

识别重复扩增在这些遗传性疾病的诊断和治疗中至关重要。然而,在确定TR尤其是STR方面存在许多技术困难。一些困难与不完全穿过重复序列的短序列读段有关,这通常用于大规模并行测序技术。因此,期望开发使用短序列读段来对医学相关重复扩增进行检测和基因分型的方法。

由于检测和基因分型重复扩增的许多技术困难,对用于可视化STR基因型和用于确定基因型的序列读段数据的计算机工具有很大需求。此类工具可以帮助验证基因型判定并理解与STR相关的临床和生物学重要遗传特征。本文所公开的各种具体实施旨在对重复扩增进行检测和基因分型,并可视化STR的基因型以及用于确定基因型的序列数据。

发明内容

本发明所公开的具体实施涉及用于对基因座进行测序以及以图形方式可视化基因座的方法、装置、系统和计算机程序产品,该基因座包括重复序列,诸如可与遗传性疾病相关联的短串联重复序列。可视化方法产生序列堆积,其包括与多个单倍型(特别是包括重复序列的那些)比对的序列读段的图形表示。

本公开的第一方面提供了用于生成计算机图形的计算机实现的方法,每个图形表示与基因组区域的多个单倍型比对的序列读段,包括例如串联重复序列或结构变异体。该方法使用包括一个或多个处理器和系统存储器的计算机来实现。该方法包括:(a)使用该一个或多个处理器,将多个序列读段与对应于基因组区域的多个单倍型的多个单倍型序列上的一组比对位置进行比对,其中该多个序列读段从核酸样品的基因组区域获得;(b)由该一个或多个处理器估计该组比对位置的比对分数;(c)针对多次迭代重复(a)-(b),以针对多个不同比对位置组获得多个比对分数;(d)由该一个或多个处理器基于该多个比对分数,从该多个不同比对位置组中选择一组比对位置;以及(e)使用该一个或多个处理器生成表示该多个序列读段和多个单倍型的计算机图形,其中将该多个序列读段与在(d)中选择的该组比对位置处的多个单倍型进行比对。

在一些具体实施中,比对分数指示多个序列读段在多个单倍型序列上分布的均匀程度。

在一些具体实施中,基因组区域包括一个或多个串联重复序列。

在一些具体实施中,多个单倍型中的至少一个单倍型包括重复扩增。在一些具体实施中,每个单倍型包括等位基因。在一些具体实施中,多个单倍型包括两个单倍型。

在一些具体实施中,所选择的比对位置组在多组不同比对位置中具有最佳比对分数。在一些具体实施中,所选择的比对位置组具有超过选择标准的比对分数。

在一些具体实施中,多个单倍型中的至少一个单倍型包括结构变异体。在一些具体实施中,结构变异体长于50bp并且选自:缺失、复制、拷贝数变异体、插入、倒位、易位及它们的任何组合。在一些具体实施中,结构变异体包括短于50bp的变异体。在一些具体实施中,短于50bp的变异体包括单核苷酸多态性(SNP)。

在一些具体实施中,(a)包括:(i)确定每个读段与每个单倍型的可能比对位置,其中多个序列读段包括通过配对末端测序获得的读段对;(ii)从组成型读段的比对位置为每个读段对创建受约束的比对位置,使得(A)读段对的两个读段与相同的单倍型比对,并且(B)读段对的对应片段长度尽可能接近平均片段长度;以及(iii)从该受约束的比对位置中随机选择每个读段对的比对位置。

在一些具体实施中,比对分数包括与两个连续读段的起始位置之间的距离的平均值的均方根差。

在一些具体实施中,使用概率模型估计比对分数,假设读段对均匀分布在多个单倍型序列上。在一些具体实施中,比对分数包括在给定概率模型的情况下从比对位置组推导的多个序列读段的概率。在一些具体实施中,多个序列读段包括从核酸片段获得的配对末端读段,并且概率模型被配置为接收平均片段长度作为输入。在一些具体实施中,概率模型被配置为接收单倍型的长度作为输入。

在一些具体实施中,自单倍型开始的第k个读段对的单个比对位置x的概率,由p

其中

i是将读段对与其进行比对的单倍型,

H

L是平均片段长度,以及

n

在一些具体实施中,比对位置组的比对分数被估计为单个比对位置的概率的乘积。

在一些具体实施中,以上方法还包括估计与在所选择的比对位置组处的多个单倍型序列比对的多个序列读段的一个或多个测序指标。在一些具体实施中,一个或多个测序指标包括序列覆盖率。在一些具体实施中,一个或多个测序指标包括每个比对位置的序列覆盖率。在一些具体实施中,一个或多个测序指标包括比对质量分数。在一些具体实施中,一个或多个测序指标包括每个比对位置的比对质量分数。在一些具体实施中,一个或多个测序指标包括映射质量分数。

在一些具体实施中,多个序列读段包括至少100个序列读段。

在一些具体实施中,以上方法还包括使用不同的序列读段组对不同基因组区域执行操作(a)。在一些具体实施中,不同基因组区域包括至少100个不同基因组区域。

在一些具体实施中,以上方法还包括在操作(a)之前,将第一数目的序列读段与对应于基因组区域的一个或多个序列图比对,以获得多个序列读段和/或多个单倍型。在一些具体实施中,将第一数目的序列读段与序列图比对包括:(i)提供核酸样品的第一数目的序列读段;(ii)将第一数目的序列读段与各自通过序列图表示的一个或多个重复序列比对,其中序列图具有有向图的数据结构,该有向图具有表示核酸序列的顶点和连接这些顶点的有向边缘,并且其中该序列图包括一个或多个自环,每个自环表示重复子序列,每个重复子序列包括一个或多个核苷酸的重复单元的重复;(iii)确定该一个或多个重复序列的一个或多个基因型;以及(iv)提供第一数目的序列读段作为(a)的多个序列读段和/或一个或多个重复序列的一个或多个基因型。

在一些具体实施中,该方法还包括定相一个或多个重复序列的一个或多个基因型以确定(b)的多个单倍型。在一些具体实施中,该方法还包括最初将第二数目的序列读段与基因组比对,以提供第一数目的序列读段,其中第二数目的序列读段包括至少10,000个序列读段。

本公开的另一方面提供了用于生成计算机图形的系统,每个图形表示与基因组区域的多个单倍型比对的序列读段。

在一些具体实施中,该系统也包括用于对试验样品的核酸进行测序的测序仪。

在一些具体实施中,一个或多个处理器被配置为执行本文所述的各种方法。

本公开的另一方面提供了一种计算机程序产品,包括存储程序代码的非暂态机器可读介质,该程序代码在由计算机系统的一个或多个处理器执行时,使得计算机系统实现上述用于生成计算机图形的方法,每个图形表示与基因组区域的多个单倍型比对的序列读段。

在一些具体实施中,该程序代码包括用于执行本文所述方法的操作的代码。

附图说明

图1A是示出序列读段与参考序列上的重复序列比对困难的示意图。

图1B是示出根据某些公开的具体实施的、使用配对末端读段的序列读段的比对,以克服图1A所示困难的示意图。

图1C示出了具有CAG基序的串联重复序列的图示。

图1D示出了通过对长于读段长度的串联重复序列测序而生成的配对读段的图示。

图2A和图2B示出了即使使用配对末端读段也难以将读段与TR区域比对的情形。

图3A示意性地示出了常规读段堆积。

图3B示意性地示出了根据一些具体实施的读段堆积。

图4示出了根据一些具体实施的用于生成读段堆积的示意性工作流程。

图5示出了用于生成表示与基因组区域的单倍型比对的序列读段的计算机图形的过程50的流程图。

图6示出了用于生成表示包括多个单倍型的序列读段堆积的计算机图形的过程600的流程图。

图7示出了用于将序列读段与一组比对位置比对的过程700的流程图。

图8示出了例示根据一些具体实施对包括重复序列的基因座进行基因分型的过程的流程图。

图9示出了表示第一基因座的第一序列图。

图10示出了表示第二基因座的第二序列图。

图11示出了表示第三基因座的第三序列图。

图12示出了根据一些具体实施的用于确定HTT基因座处的变异体的基因型的过程的示意图,该HTT基因座包括两个STR序列。

图13示出了根据一些具体实施的用于确定林奇I型基因座处的变异体的基因型的过程的示意图,该林奇I型基因座包括SNV和STR。图12的左图示出了用于靶向基因分型的一般过程的示意图;右图示出了该过程在与林奇综合征I型相关联的基因座处对变异体进行基因分型的应用。

图14是提供了用于确定样品中是否存在重复序列扩增的方法示例的高级描述的流程图。

图15和图16是示出用于使用配对末端读段来检测重复扩增的方法示例的流程图。

图17是使用不与所关注的任何重复序列相关联的未比对读段来确定重复扩增的方法的流程图。

图18是用于处理试验样品的分散系统的框图。

图19示出了根据一些具体实施实现的ATXN3重复的读段堆积。

图20示出了根据一些具体实施实现的DMPK重复的读段堆积。

图21A示出了根据一些具体实施实现的HTT基因座的读段堆积。

图21B示出了通过常规方法产生的HTT基因座的读段堆积。

图22示出了根据一些具体实施的读段堆积,包括错误地判定的C9ORF72重复的扩增。

图23示出了根据一些具体实施的读段堆积,包括错误地判定的FMR1重复的扩增。

具体实施方式

本公开涉及用于识别和可视化所关注重复扩增(诸如医学上显著的重复序列的扩增)的方法、装置、系统和计算机程序产品。重复扩增的示例包括但不限于与遗传性疾病(诸如脆性X染色体综合征、ALS、亨廷顿病、弗里德希氏共济失调、脊髓小脑共济失调、脊髓延髓肌萎缩症、强直性肌营养不良症、马查多-约瑟夫氏病和齿状核红核苍白球路易体萎缩症)相关联的扩增。

除非另外指明,否则本文所公开的方法和系统的实践涉及分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序以及重组DNA领域中常用的常规技术和装置,这些技术和装置在本领域的技术范围内。此类技术和装置是本领域技术人员已知的,并且在许多文本和参考文献中有所描述(参见例如Sambrook等人,“Molecular Cloning:ALaboratory Manual”,第三版(Cold Spring Harbor),[2001]);和Ausubel等人,“CurrentProtocols in Molecular Biology”[1987])。

数值范围包括限定该范围的数字。在本说明书通篇中给出的每一最大数值限度旨在包括每一更低数值限度,如同此类更低数值限度在本文中明确地写出一样。在本说明书通篇中给出的每一最小数值限度将包括每一更高数值限度,如同此类更高数值限度在本文中明确地写出一样。在本说明书通篇中给出的每一数值范围将包括落入此类更宽数值范围内的每一更窄数值范围,如同此类更窄数值范围均在本文中明确写出一样。

本文提供的标题并非旨在限制本公开。

虽然本文的示例涉及人类并且语言主要针对人类,但本文所述的概念适用于来自任何植物或动物的基因组。本公开的这些和其他目的和特征将根据以下描述和所附权利要求变得更加显而易见,或者可通过如下文所述的本公开的实践来了解。

除非本文中另有定义,否则本文所用的所有技术和科学术语的含义与本发明所属领域的普通技术人员通常理解的含义相同。包括本文所包括的术语的各种科学词典是本领域技术人员熟知的并且是可用的。虽然与本文所述的方法和材料类似或等同的任何方法和材料也可用于本文所公开的实施方案的实践或测试,但本文描述了一些方法和材料。

下文紧接着定义的术语通过整体参考本说明书来进行更全面的描述。应当理解,本公开不限于所述的特定方法、方案和试剂,因为这些方法、方案和试剂可根据本领域技术人员使用它们的上下文而变化。

定义

如本文所用,除非上下文另有明确指示,否则单数术语“一个”、“一种”和“该”包括复数指代。

除非另外指明,否则分别地,以5'至3'的取向从左到右书写核酸,并且以氨基至羧基的取向从左到右书写氨基酸序列。

术语“多个”是指多于一个元件。例如,本文所用的术语是指使用本文所公开的方法足以识别试验样品和对照样品中重复扩增的显著差异的多个核酸分子或序列读段。

本文所用的术语“单倍型”是指染色体上连锁基因簇中的一组等位基因。在本文的各种具体实施中,单倍型包括TR的等位基因。

术语“单倍型序列”是指包括染色体上的一组等位基因的连续遗传序列。例如,单倍型序列可以包括两个侧接区域和一个STR序列(例如,图20),或包括两个侧接区域,夹着间插序列的两个相邻的STR序列(例如,图21A和图21B)。

术语“重复序列”是指包括较短序列的重复出现的核酸序列。较短的序列在本文中被称为“重复单元”或“重复基序”或简称为“基序”。重复单元的重复出现被称为重复单元的“重复”或“拷贝”。在许多情况下,重复序列的位置与编码蛋白质的基因相关联。在其他情况下,重复序列可位于非编码区域中。重复单元可在重复单元之间具有或不具有中断的情况下以重复序列出现。例如,在正常样品中,FMR1基因往往在CGG重复中包括AGG中断,例如,(CGG)10+(AGG)+(CGG)9。缺少中断以及具有少数中断的长重复序列的样品易于相关联基因的重复扩增,这可导致基因疾病,因为重复扩增高于特定数目。在本公开的各种实施方案中,重复的数目被计数为框内重复,而不管中断如何。用于估计框内重复的方法在下文进一步描述。

在各种实施方案中,重复单元中的每一个单元包括1至100个核苷酸。广泛研究的许多重复单元是三核苷酸或六核苷酸单元。已经充分研究并且适用于本文所公开的实施方案的一些其他重复单元包括但不限于4、5、6、8、12、33或42个核苷酸的单元。参见例如Richards,2001年Human Molecular Genetics,第10卷,第20期,第2187-2194页。本发明的应用不限于上述核苷酸碱基的具体数目,只要它们与具有多个重复或重复单元的拷贝的重复序列相比相对较短即可。例如,重复单元可包括至少3、6、8、10、15、20、30、40、50个核苷酸。另选地或除此之外,重复单元可包括至多约100、90、80、70、60、50、40、30、20、10、6或3个核苷酸。

重复序列可在进化、发育和诱变条件下扩增,从而产生相同重复单元的更多拷贝。这在本领域中被称为“重复扩增”。由于重复单元扩增的不稳定性质,该过程也称为“动态突变”。已证实一些重复扩增与遗传性疾病和病理症状相关联。其他重复扩增未被很好地理解或研究。本文所公开的方法可用于识别先前已知的和新的重复扩增两者。在一些实施方案中,具有重复扩增的重复序列长于约100、150、300或500碱基对(bp)。在一些实施方案中,具有重复扩增的重复序列长于约1000bp、2000bp、3000bp、4000bp、5000bp或10000bp等。

在图形理论中,顶点和边缘是从其中构建图形的两个基本单元。顶点或节点是定义图形并且可通过边缘连接的点之一。在图形的示意图中,顶点可由具有标记的形状表示,并且边缘由从一个顶点延伸到另一个顶点的线(无向边缘)或箭头(有向边缘)表示。

由边缘连接的两个顶点被称为边缘的端点。如果图形包含边缘(x,y),则称顶点x与另一个顶点y相邻。

无向图形由顶点集合和无向边缘集合(连接无序的顶点对)组成,而有向图由顶点集合和有向边缘集合(连接有序的顶点对)组成。

在图形理论中,每个边缘具有与其附接的两个(或在超图中,更多)顶点(称为其端点)。边缘可以是有向的或无向的;无向边缘也称为线,并且有向边缘也称为弧或箭头。

有向边缘是连接上游顶点和下游顶点的边缘,其中上游顶点出现在有向边缘之前并且下游顶点出现在有向边缘之后。

无向边缘是连接两个顶点的边缘,其中任一个顶点可出现在图形路径中的另一个之前。

环、自环和单节点环在本文中可互换使用。环具有一个节点和边缘,其中该边缘两端连接到所述一个节点。

循环是包括两个或更多个顶点的路径,其中循环的路径以相同的顶点开始和结束。简单循环是除开始和结束顶点之外不具有重复顶点或边缘的循环。

循环图是包括至少一个循环的图形。

无环图是不包括任何循环或自环的图形。

有向无环图(DAG)是没有任何循环或自环的有向图。

图形路径是顶点和边缘的序列,其中边缘的两个端点邻近序列中的边缘出现。有向图的图形路径具有出现在有向边缘(或弧或箭头)之前的上游顶点和出现在有向边缘之后的下游顶点。

泊松分布是表示给定数目的事件在固定时间间隔或空间中发生的概率的离散概率分布,如果这些事件以已知的恒定速率发生并且与自上次事件以来的时间无关的话。

完全指定的碱基符号包括G、A、T、C,分别表示鸟嘌呤、腺嘌呤、胸腺嘧啶和胞嘧啶。

不完全指定的核酸命名包括特别是如下的核酸命名。

嘌呤(腺嘌呤或鸟嘌呤):R

嘧啶(胸腺嘧啶或胞嘧啶):Y

腺嘌呤或胸腺嘧啶:W

鸟嘌呤或胞嘧啶:S

腺嘌呤或胞嘧啶:M

鸟嘌呤或胸腺嘧啶:K

腺嘌呤或胸腺嘧啶或胞嘧啶:H

鸟嘌呤或胞嘧啶或胸腺嘧啶:B

鸟嘌呤或腺嘌呤或胞嘧啶:V

鸟嘌呤或腺嘌呤或胸腺嘧啶:D

鸟嘌呤或腺嘌呤或胸腺嘧啶或胞嘧啶:N

术语“配对末端读段”是指从配对末端测序获得的读段,该配对末端测序从核酸片段的每个末端获得一个读段。配对末端测序涉及将DNA片段化为称为插入序列的序列。在一些协议(诸如Illumina使用的一些协议)中,来自较短插入序列的读段(例如,大约几十bp至几百bp)被称为短插入序列配对末端读段或简称为配对末端读段。相比之下,来自较长插入序列(例如,大约几千bp)的读段被称为配对读段。在本公开中,可使用短插入序列配对末端读段和长插入序列配对末端读段两者,并且关于用于分析重复扩增的过程不加以区分。因此,术语“配对末端读段”可指短插入序列配对末端读段和长插入序列配对读段两者,这在下文进一步描述。在一些实施方案中,配对末端读段包括约20bp至1000bp的读段。在一些实施方案中,配对末端读段包括约50bp至500bp、约80bp至150bp或约100bp的读段。应当理解,配对末端中的两个读段不需要位于被测序的片段的极端。相反,一个或两个读段可邻近片段的末端。此外,在配对末端读段的情况中,本文例示的方法可使用多种配对读段中的任一种配对末端来执行,而不管该读段是来源于片段的末端还是片段的其他部分。

如本文所用,术语“比对(alignment和aligning)”是指将读段与参考序列进行比较,从而确定参考序列是否包含该读段序列的过程。比对过程试图确定读段是否可映射到参考序列,但并不总是使得读段与参考序列比对。如果参考序列包含该读段,则该读段可映射到参考序列,或者在某些实施方案中,映射到参考序列中的特定位置。在一些情况下,比对简单地告知读段是否为特定参考序列的成员(即,该读段是否存在于该参考序列中)。例如,读段与人类13号染色体的参考序列的比对将告知该读段是否存在于13号染色体的参考序列中。提供该信息的工具可被称为集合成员资格测试仪(set membership tester)。在一些情况下,比对另外指示读段映射到的参考序列中的位置。例如,如果参考序列是人类全基因组序列,则比对可指示读段存在于13号染色体上,并且还可指示该读段存在于13号染色体的特定链和/或位点上。

比对的读段是就其核酸分子顺序而言识别为与已知参考序列诸如参考基因组匹配的一条或多条序列。比对的读段及其在参考序列上的确定位置构成序列标签。比对可手动进行,尽管其通常通过计算机算法来实现,因为不可能在实现本文所公开的方法的合理时间段内比对读段。来自比对序列的算法的一个示例是作为Illumina Genomics分析管线的一部分分布的高效核苷酸数据局部比对(ELAND)计算机程序。另选地,布隆(Bloom)过滤器或类似的集成员资格测试仪可用于将读段与参考基因组进行比对。参见2014年4月25日提交的美国专利申请14/354,528,其全文以引用方式并入本文。比对中序列读段的匹配可以是100%序列匹配或小于100%(例如,非完全匹配)。

本文所用的术语“映射”指通过比对将读段序列分配给较大的序列,例如参考基因组。

在一些情况下,两个配对末端读段中的一个末端读段与参考序列的重复序列比对,而两个配对末端读段中的另一个末端读段未与该参考序列的重复序列比对。在此类情况下,与参考序列的重复序列比对的配对读段被称为“锚读段”。与重复序列未比对但与锚读段配对的配对末端读段被称为锚定读段。因此,未比对的读段可锚定到重复序列并与重复序列相关联。在一些实施方案中,未比对的读段包括不能与参考序列比对的读段和与该参考序列比对不佳的读段两者。当将读段与具有高于某个标准的多个错配碱基的参考序列比对时,则认为该读段比对不佳。例如,在各种实施方案中,当读段与至少约1个、2个、3个、4个、5个、6个、7个、8个、9个或10个错配比对时,认为该读段比对不佳。在一些情况下,一对两个读段均与参考序列比对。在此类情况下,在各种具体实施中,两个读段均可被分析为“锚读段”。

术语“多核苷酸”、“核酸”和“核酸分子”可互换使用,并且是指共价连接的核苷酸(即,RNA的核糖核苷酸和DNA的脱氧核糖核苷酸)的序列,其中一个核苷酸的戊糖的3'位置通过磷酸二酯基团连接至下一个核苷酸的戊糖的5'位置。核苷酸包括任何形式的核酸的序列,包括但不限于RNA和DNA分子,诸如游离DNA(cfDNA)分子。术语“多核苷酸”包括但不限于单链多核苷酸和双链多核苷酸。

本文中术语“试验样品”是指通常来源于生物流体、细胞、组织、器官或生物体且包括核酸或核酸混合物的样品,该核酸或核酸混合物具有待筛选拷贝数变异的至少一种核酸序列。在某些实施方案中,样品具有至少一个核酸序列,该核酸序列的拷贝数疑似已发生变异。此类样品包括但不限于痰/口腔液、羊水、血液、血液级分或细针活检样品、尿液、腹膜液、胸膜液等。虽然样品通常取自人类受试者(例如,患者),但测定可用于任何哺乳动物的拷贝数变异(CNV),这些哺乳动物包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可按从生物来源获得的原样直接使用,或者经过预处理以改变样品的性质后使用。例如,此类预处理可包括由血液制备血浆、稀释粘性流体等。预处理的方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分失活、添加试剂、裂解等。如果对于样品采用此类预处理方法,则此类预处理方法通常使得所关注核酸保留在试验样品中,有时其浓度与未处理的试验样品(例如,即未受到任何此类预处理方法的样品)中的浓度成比例。就本文所述的方法而言,此类“经处理的”或“处理后的”样品仍被视为生物“试验”样品。

对照样品可以是阴性或阳性对照样品。“阴性对照样品”或“未受影响的样品”是指包括已知或预期具有重复的核酸的样品,该重复序列具有在非病原性范围内的多个重复。“阳性对照样品”或“受影响的样品”已知或预期具有这样的重复序列,该重复序列具有在病原性范围内的多个重复。阴性对照样品中重复序列的重复通常尚未扩增到正常范围之外,而阳性对照样品中重复序列的重复通常已经扩增到正常范围之外。因此,可将试验样品中的核酸与一个或多个对照样品进行比较。

本文中术语“所关注序列”是指与健康个体与患病个体的序列表现差异相关联的核酸序列。所关注序列可以是在疾病或遗传病症中扩增的染色体上的重复序列。所关注序列可以是染色体、基因、编码序列或非编码序列的一部分。

本文中术语“下一代测序(NGS)”是指允许对克隆扩增分子和单个核酸分子进行大规模平行测序的测序方法。NGS的非限制性实例包括边连接边测序和使用可逆染料终止子的边合成边测序。

本文中术语“参数”是指表征物理特性的数值。通常,参数以数值方式表征定量数据集和/或定量数据集之间的数值关系。例如,映射到给染色体的序列标签的数目和标签所映射的染色体长度之间的比率(或比率的函数)是参数。

本文中术语“判定标准”是指用作截断值以表征样品(诸如含有来自怀疑具有医学病症的生物体的核酸的试验样品)的任何数目或数量。可将阈值与参数值进行比较,以确定产生此参数值的样品是否表明生物体具有医学病症。在某些实施方案中,使用控制数据集计算阈值并将其用作诊断生物体中重复扩增的极限。在一些具体实施中,如果本文所公开的方法获得的结果超过阈值,则可诊断受检者具有重复扩增。本文所述方法的适当阈值可通过分析针对一组训练样品或对照样品计算的值来识别。阈值也可由经验参数诸如测序深度、读段长度、重复序列长度等来计算。另选地,已知具有重复扩增的受影响样品也可用于确认所选择的阈值可用于区分测试集中的受影响样品与未受影响样品。阈值的选择取决于用户希望必须进行分类的置信水平。在一些实施方案中,用于识别适当阈值的训练集包括至少10个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少200个、至少300个、至少400、至少500个、至少600个、至少700个、至少800个、至少900、至少1000个、至少2000个、至少3000个、至少4000个或更多个合格样品。使用更大的合格样品集来改善阈值的诊断效用可能是有利的。

术语“读段”是指来自核酸样品的一部分的序列读段。通常,尽管不是必须的,读段表示样品中邻接碱基对的短序列。读段可由样品部分的碱基对序列(ATCG形式)象征性地表示。读段可存储在存储器设备中并视情况进行处理,以确定该读段是匹配参考序列还是满足其他标准。读段可直接从测序装置获得或间接从所存储的关于样本的序列信息获得。在一些情况下,读段是足够长度(例如,至少约25bp)的DNA序列,其可用于识别更大的序列或区域,例如,其可被比对并映射到染色体或基因组区域或基因。

术语“基因组读段”用于指个体的全基因组中的任何片段的读段。

术语“位点”是指参考基因组上的唯一位置(即,染色体ID、染色体位置和取向)。在一些实施方案中,位点可以是残基、序列标签或片段在序列上的位置。

如本文所用,术语“参考基因组”或“参考序列”是指可用于参考来自受试者的识别序列的任何生物体或病毒的任何特定已知基因组序列,无论是部分的还是完整的。例如,可在ncbi.nlm.nih.gov的美国国家生物技术信息中心(National Center forBiotechnology Information)找到用于人类受试者以及许多其他生物体的参考基因组。“基因组”是指以核酸序列表达的生物体或病毒的完整遗传信息。

在各种实施方案中,参考序列显著大于与其进行比对的读段。例如,参考序列可以是比对读段的至少约100倍大、或至少约1000倍大、或至少约10,000倍大、或至少约10

在一个示例中,参考序列是全长人类基因组的序列。此类序列可称为基因组参考序列。在另一个示例中,参考序列限于特定的人类染色体,诸如13号染色体。在一些实施方案中,参考染色体是来自人类基因组版本hg19的Y染色体序列。此类序列可称为染色体参考序列。参考序列的其他示例包括其他物种的基因组,以及任何物种的染色体、亚染色体区域(诸如链)等。

在一些实施方案中,用于比对的参考序列的序列长度可以是读段长度的约1倍至约100倍。在此类实施方案中,比对和测序被认为是靶向比对或测序,而不是全基因组比对或测序。在这些实施方案中,参考序列通常包括所关注基因和/或重复序列。

在各种实施方案中,参考序列是衍生自多个个体的共有序列或其他组合。然而,在某些应用中,参考序列可取自特定个体。

本文中术语“临床相关序列”是指已知或疑似与遗传或疾病病症相关联或相牵连的核酸序列。确定是否存在临床相关序列可用于确定或确认医学病症的诊断,或提供用于疾病发展的预后。

当用于核酸或核酸混合物的上下文时,本文中术语“衍生的”是指从其来源中获得核酸的方式。例如,在一个实施方案中,衍生自两种不同基因组的核酸混合物意指核酸(例如cfDNA)由细胞通过自然发生的过程(诸如坏死或细胞凋亡)自然释放。在另一个实施方案中,衍生自两种不同基因组的核酸混合物意指从来自受试者的两种不同类型的细胞中提取核酸。

当用于获得特定定量值的上下文时,本文中术语“基于”是指使用另一数量作为输入来计算特定定量值作为输出。

本文中术语“患者样品”是指从患者,即医学关注、护理或治疗的接受者中获得的生物样品。患者样品可以是本文所述的任何样品。在某些实施方案中,患者样品通过非侵入性手术获得,例如外周血样品或粪便样品。本文所述的方法不需要限于人类。因此,考虑了各种兽医应用,在这种情况下,患者样品可以是来自非人类哺乳动物(例如,猫科动物、猪、马、牛等)的样品。

本文中术语“生物流体”是指取自生物来源的液体,并且包括例如血液、血清、血浆、痰、灌洗液、脑脊液、尿液、精液、汗液、泪液、唾液等。如本文所用,术语“血液”、“血浆”和“血清”明确地涵盖其级分或加工部分。类似地,在样品取自活检、拭子、涂片等的情况中,“样品”明确地涵盖衍生自活检、拭子、涂片等的处理级分或部分。

如本文所用,术语“对应于”有时是指存在于不同受试者的基因组中的核酸序列(例如基因或染色体)不必在所有基因组中具有相同的序列,而是用于提供所关注序列(例如基因或染色体)的同一性而非遗传信息。

如本文所用,术语“染色体”是指活细胞的携带遗传性的基因载体,其衍生自包含DNA和蛋白质组分(尤其是组蛋白)的染色质链。本文采用了常规的国际公认的个体人类基因组染色体编号系统。

如本文所用,术语“多核苷酸长度”是指参考基因组的序列或区域中核酸单体亚基(核苷酸)的绝对数目。术语“染色体长度”是指以碱基对给出的染色体的已知长度,例如,在以存在于万维网上|genome|.|ucsc|.|edu/cgi-bin/hgTracks?hgsid=167155613&chromInfoPage=处的人类染色体的NCBI36/hg18组件提供的长度。

本文中术语“受试者”是指人类受试者以及非人受试者,该非人受试者诸如哺乳动物、无脊椎动物、脊椎动物、真菌、酵母、细菌和病毒。虽然本文的示例涉及人类并且语言主要针对人类,但本文所公开的概念适用于来自任何植物或动物的基因组,并且可用于兽医学、动物科学、研究实验室等领域。

如本文所用,术语“引物”是指当置于诱导延伸产物合成的条件下(例如,该条件包括核苷酸、诱导剂(诸如DNA聚合酶)以及合适的温度和pH)时能够充当合成起始点的分离寡核苷酸。引物优选地可以是单链的以实现扩增的最大效率,但另选地可以是双链的。如果是双链,则在用于制备延伸产物之前首先对引物进行处理以分离其链。引物可以是寡脱氧核糖核苷酸。该引物足够长以在诱导剂的存在下引发延伸产物的合成。引物的确切长度将取决于许多因素,包括温度、引物来源、方法的用途和用于引物设计的参数。

简介

由相对较短的DNA片段的重复组成的序列,称为串联重复序列(TR),在整个基因组中发生(例如,图1C)。TR突变率可以比其他基因组区域高10倍至1000倍,使得TR成为人类遗传变化的主要促成因素。TR在很大程度上通过“滑动”发生突变,其中重复数目在代际之间增加或减少。逐渐增加的证据表明,TR在基本细胞过程中发挥作用,并且串联重复序列的大量扩增与各种神经障碍有关,包括肌萎缩侧索硬化症(ALS)、脆性X染色体综合征和各种形式的共济失调。

对包含TR的区域进行测序会产生部分或完全重叠重复序列的读段集合(图1D)。通过将这些读段的比对拼接在一起,可以确定每个单倍型上重复的长度。发明人开发了几种用于靶向和全基因组TR分析二者的若干方法。在下文中,申请人描述了一种用于对包含一个或多个相邻TR的区域进行靶向分析的方法ExpansionHunter,该方法可以估计短于和长于读段长度的重复序列的大小。此外也描述了用于可视化和显示由ExpansionHunter生成的读段的比对的方法、系统和计算机程序产品。

TR基因分型是一个非常困难的问题,即使是最好的方法,有时也会产生不正确的基因型判定。因此,重要的是拥有强大的可视化方法来检查用于对相关重复序列进行基因分型的读段的比对。另外,此类可视化方法使得可以检测重复基序的变化(例如,中断),这些变化可具有临床显著的影响。标准数据可视化管线通常限制为显示读段与参考基因组的比对,并且因此对于相对于参考扩增的重复序列或具有不同长度的等位基因的重复序列来说是不足的。为了解决这些问题,本公开的发明人开发了重复扩增查看器(REViewer)——一种用于可视化由ExpansionHunter输出的图形重新比对的读段的工具。REViewer通过定相相邻重复序列来确定单倍型序列,然后将读段比对分布给这些单倍型。所得的静态图像使得可以视觉评估给定基因型判定的准确性,并确定重复序列是否包含任何中断。

重复扩增具有生物学和医学意义,但难以对STR进行基因分型和使用短读段检测重复扩增,如下所述。非常需要开发用于对重复扩增进行检测和基因分型的技术,以及需要计算机实现的工具,以可视化序列读段数据和从该序列读段数据确定的基因型。此类工具可以帮助验证基因型判定并理解与STR相关的临床和生物学重要遗传特征。

STR扩增是许多严重神经障碍的主要原因。表1例示了与正常样品中的重复序列不同的少量病原性重复扩增。表中的列示出与重复序列相关联的基因、重复单元的核酸序列、正常和病原性序列(重复序列的不同截断值可用于不同的应用)的重复单元的示例性重复数目,以及与重复扩增相关联的疾病。

表1.病原性重复扩增的示例

涉及重复扩增的遗传性疾病在许多方面是异质的。重复单元的大小、扩增程度、相对于受影响基因的位置和病原性机制可因不同疾病而异。例如,ALS涉及核苷酸GGGGCC在位于染色体9开放阅读框72的短臂上的C9orf72基因中的六核苷酸重复扩增。相比之下,脆性X染色体综合征与影响X染色体上脆性X染色体精神发育迟缓1(FMR1)基因的CGG三核苷酸重复(三重重复)的扩增相关联。CGG重复的扩增可导致不能表达正常神经发育所需的脆性X染色体精神发育迟缓蛋白(FMRP)。根据CGG重复序列的长度,等位基因可被分类为正常(不受综合征的影响)、前突变(处于脆性X染色体相关联疾病的风险)或完全突变(通常受综合征的影响)。根据各种估计,在突变的FMR1基因中存在230个至4000个CGG重复,其在受影响的患者中引起脆性X染色体综合征,与之相比,在倾向于共济失调的携带者中存在60个至230个重复,并且在未受影响的个体中存在5个至54个重复。FMR1基因的重复扩增导致自闭症,因为发现约5%的自闭症个体具有FMR1重复扩增。McLennan等人,(2011年),“Fragile XSyndrome”,Current Genomics,第12卷第3期,第216-224页。脆性X染色体综合征的明确诊断涉及用于确定CGG重复数目的基因检测。

重复扩增相关疾病的各种一般特性已在多项研究中得到识别。重复扩增或动态突变通常表现为重复数目的增加,其中突变率与重复数目相关。罕见事件诸如重复中断的丢失可导致等位基因具有增加的扩增可能性,此类事件被称为创始者事件。重复序列中的重复数目与由重复扩增引起的疾病的严重程度和/或发作之间可存在关系。

因此,识别和判定重复扩增对于各种疾病的诊断和治疗是重要的。然而,识别重复序列,尤其是使用不完全穿过重复序列的读段具有各种挑战。首先,难以将重复序列与参考序列比对,因为在读段和参考基因组之间不存在明显的一对一映射。另外,即使读段与参考序列比对,读段也通常太短而不能完全覆盖医学相关的重复序列。例如,读段可以是约100bp。相比之下,重复扩增可跨越数百到数千个碱基对。例如,在脆性X染色体综合征中,FMR1基因可具有远超过1000个重复,跨越超过3000bp。因此100bp读段不能映射重复扩增的全长。此外,将短读段组装成较长序列可能无法克服短读段与长重复问题,因为由于一个读段中的重复与另一个读段中的重复的模糊比对,因此很难将短读段组装成较长序列。

比对是由于参考序列的不完整性、读段与参考序列上的位点之间的非独特对应性或与参考序列的显著偏差而导致信息丢失的主要原因。系统测序误差和影响读段准确性的其他问题是检测重复序列失败的次要因素。在一些实验方案中,约7%读段未比对或MAPQ评分为0。即使当研究人员致力于改进测序技术和分析工具时,也将总是存在显著量的不可比对和比对不佳的读段。本文所述的方法的具体实施依赖于不可比对或比对不佳的读段来识别重复扩增。

使用长读段来检测重复扩增的方法具有其自身的挑战。在下一代测序中,相比于使用较短读段的技术,当前可用的使用较长读段的技术更慢且更容易出错。此外,长读段对于一些应用是不可行的,诸如对无细胞DNA测序。母体血液中获得的游离DNA可用于产前遗传诊断。游离DNA作为通常短于200bp的片段存在。因此,使用长读段的方法对于使用游离DNA的产前遗传诊断是不可行的。本文所述的方法的具体实施使用短读段来识别医学相关的重复扩增。

此外,常规方法不被设计成处理具有多个重复的复杂基因座。此类基因座的重要示例包括使得侧接CCG重复的HD的CAG重复、使得侧接腺苷均聚物的FRDA的GAA重复、以及使得侧接ACT重复的8型脊髓小脑共济失调(SCA8)的CAG重复。甚至更极端的示例是CNBP基因中的CCTG重复,其扩增导致2型强直性肌营养不良症(DM2)。该重复与多态性TG和TCTG重复相邻(J.E.Lee和Cooper,2009年),使得与该基因座准确比对读段特别困难。另一种类型的复杂重复是多丙氨酸重复,其迄今为止已与至少九种疾病相关联(Shoubridge和Gecz,2012年)。聚丙氨酸重复由α-氨基酸密码子GCA、GCC、GCG或GCT的重复组成。

变异体簇可影响比对和基因分型准确性(Lincoln等人,2019年)。与低复杂性多态性序列相邻的变异体可能另外存在问题,因为用于变异体发现的方法可以在这样的基因组区域中输出不一致地表示的簇或假变异体判定。这部分地归因于此类区域在测序数据中的错误率升高(Benjamini和Speed,2012年;Dolzhenko等人,2017年)。一个示例是MSH2中邻近腺苷均聚物的单核苷酸变异(SNV),其引起林奇综合征I型(Froggatt等人,1999年)。

本文所公开的具体实施可处理如上所述的复杂基因座。它们使用序列图作为每个靶基因座的一般且灵活的模型。

在一些具体实施中,所公开的方法通过利用配对末端测序解决了前述在识别和判定重复扩增方面的挑战。配对末端测序涉及将DNA片段化为称为插入序列的序列。在一些协议(诸如Illumina使用的一些协议)中,来自较短插入序列的读段(例如,大约几十bp至几百bp)被称为短插入序列配对末端读段或简称为配对末端读段。相比之下,来自较长插入序列(例如,大约几千bp)的读段被称为配对读段。如上所述,短插入序列配对末端读段和长插入序列配对读段均可用于本文所公开的方法的各种具体实施中。

图1A是示出将序列读段与参考序列上的重复序列比对的某些困难的示意图,尤其是当比对从具有重复扩增的长重复序列的样品获得的序列读段时。在图1A的底部是参考序列101,其具有由垂直剖面线示出的相对较短的重复序列103。在图中间是患者样品的假想序列105,该假想序列具有也由垂直剖面线示出的具有重复扩增的长重复序列107。在图的顶部示出了在样品序列105的对应位点的位置处示出的序列读段109和序列读段111。在这些序列读段中的一些读段(例如读段111)中,一些碱基对源自长重复序列107,也如垂直剖面线所示并以圆圈突出显示。具有这些重复的读段111可能难以与参考序列101比对,因为重复在参考序列101上不具有清晰的对应位置。由于这些可能未比对的读段不能明显地与参考序列101中的重复序列103相关联,因此难以从这些可能未比对的读段111获得关于重复序列和重复序列扩增的信息。此外,因为这些读段往往短于具有重复扩增的长重复序列107,所以它们不能直接提供关于重复序列107的同一性或位置的确定信息。另外,读段111中的重复使得它们由于其在参考序列101上的模糊对应位置和读段111之间的模糊关系而难以组装。部分来自样品中的长重复序列107的读段(示出为半阴影线和半实心黑色的那些读段)可通过源自重复序列107外部的碱基比对。如果读段在重复序列107之外具有很少的碱基对,则读段的比对可能不佳或可能未比对。因此,具有部分重复的这些读段中的一些读段可被分析为锚读段,并且其他读段可被分析为锚定读段,如下文进一步所述。

图1B是示出如何在一些公开的实施方案中利用配对末端读段来克服图1A所示的困难的示意图。在配对末端测序中,从试验样品中核酸片段的两端进行测序。在图1B的底部示出了参考序列101和样品序列105,以及与图1A所示的读段等同的读段109和读段111。图1B的顶部示出了来源于试验样品序列105的片段125和读段1引物区域131以及读段2引物区域133,用于获得配对末端读段的两个读段135和137。片段125也被称为用于配对末端读段的插入序列。在一些实施方案中,可在存在或不存在PCR的情况下扩增插入序列。一些重复序列,诸如包括大量GC或GCC重复的那些,不能用包括PCR扩增在内的传统方法很好地测序。对于此类序列,扩增可以是无PCR的。对于其他序列,可用PCR进行扩增。

图1B中所示的插入序列125对应于或来源于样品序列105的区段,该区段侧接该图下半部处所示的两个竖直箭头。具体地,插入序列125具有对应于样品序列105中的长重复107的一部分的重复区段127。可针对各种应用来调节插入序列的长度。在一些实施方案中,插入序列可略短于所关注重复序列或具有重复扩增的重复序列。在其他实施方案中,插入序列可具有与重复序列或具有重复扩增的重复序列类似的长度。在另外的实施方案中,插入序列甚至可在一定程度上长于重复序列或具有重复扩增的重复序列。在下文进一步描述的一些实施方案中,此类插入序列可以是用于配对测序的长插入序列。通常,从插入序列获得的读段短于重复序列。因为插入序列比读段长,所以配对末端读段可比单末端读段更好地从样品中重复序列的更长区段捕获信号。

例示的插入序列125在插入序列的两个端部处具有两个读段引物区域131和133。在一些实施方案中,读段引物区域是插入序列固有的。在其他实施方案中,通过连接或延伸将引物区域引入至插入序列。在插入序列的左端示出的是读段1引物区域131,其允许读段1引物132与插入序列125杂交。读段1引物132的延伸产生标记为135的第一读段或读段1。在插入序列125的右端示出的是读段2引物区域133,其允许读段2引物134与插入序列125杂交,从而引发标记为137的第二读段或读段2。在一些实施方案中,插入序列125还可包括索引条形码区域(此处的图中未示出),从而提供在多重测序过程中识别不同样品的机制。在一些实施方案中,配对末端读段135和137可通过Illumina的合成平台测序获得。在此类平台上实施的测序过程的示例在下文中在测序方法部分中进一步描述,该过程创建两个配对末端读段和两个索引读段。

然后可将如图1B所示获得的配对末端读段与具有相对较短重复序列103的参考序列101比对。因此,一对读段的相对位置和方向是已知的。这允许诸如圆圈111中所示的不可比对或比对不佳的读段通过所读段的对应配对读段109与样品序列105中相对长的重复序列107间接相关联,如图1B的底部处所见。在例示性示例中,从配对末端测序获得的读段为约100bp,插入序列为约500bp。在该示例性设置中,两个配对末端读段的相对位置与其3'末端相距约300个碱基对,并且它们具有相反的方向。读段对之间的关系允许更好地将读段与重复区域相关联。在一些情况下,一对中的第一读段与参考序列上的重复区域侧接的非重复序列比对,并且这对中的第二读段不与参考序列正确比对。参见例如图1B的下半部中所示的一对读段109a和111a,其中该对读段中的左边读段109a为第一读段,右边读段111a为第二读段。鉴于两个读段109a和111a配对,尽管第二读段111a不能与参考序列101比对,但第二读段111a可与样品序列105中的重复区域107相关联。了解第二读段111a相对于第一读段109a的距离和方向,可以进一步确定第二读段111a在长重复区域107内的位置。如果在第二读段111a中的重复之间存在中断,则还可以确定该中断相对于参考序列101的位置。在本公开中,与参考序列比对的读段诸如左读段109a被称为锚读段。未与参考序列比对但与锚读段配对的读段诸如右读段111a被称为锚定读段。因此,未比对的序列可锚定至重复扩增并与重复扩增相关联。这样,可使用短读段来检测长重复扩增。虽然检测重复扩增的挑战通常由于测序难度增加而随扩增长度增加而增加,但本文所公开的方法可检测来自较长重复扩增序列的信号高于来自较短重复扩增序列的信号。这是因为随着重复序列或重复扩增变得更长,更多读段将锚定到扩增区域,更多读段可完全落入重复区域中,并且每个读段可发生更多重复。

图2A和图2B示出了即使使用配对末端读段也难以将读段与TR区域比对的情形。这是因为来源于TR区域的序列读段可能与TR区域中的不同基因组位置比对或与两个等位基因中的任何一者比对。

图2A示出了重复区域的两个等位基因,包括由阴影图案显示的重复序列和两个侧接区域。等位基因1显示在顶部,而等位基因2显示在底部。等位基因1具有比等位基因2更短的TR序列。一对序列读段(20)可以唯一地与两个等位基因中的每一个等位基因上的一个位置进行比对。图2B示出了来源于TR序列的两个等位基因和一对读段(22)。该对的两个读段可以与重复序列上的不同位置进行比对。即使约束了两个读段的相对位置,但它们仍然可以与重复序列上的多个位置进行比对。它们也可以与等位基因中的任一者进行比对。鉴于读段对的比对位置的不确定性,难以或不可能确定读段对实际来源的基因组区域的位置。这也使得难以可视化读段与等位基因的比对。

由于如上所述使用短读段对TR(尤其是STR)进行基因分型的技术困难,期望开发计算机实现的工具,以可视化序列读段数据和从序列读段数据确定的基因型。此类工具可以帮助验证基因型判定并理解与STR相关的临床和生物学重要遗传特征。例如,此类可视化工具使得可以检测重复基序的变化(例如,中断),这些变化可具有临床显著的影响。

可视化STR的序列读段堆积

因为难以将序列读段与重复区域进行比对,所以重要的是开发计算机实现的工具,以可视化与串联重复区域比对的序列读段,从而检查比对的质量并验证重复区域的基因型。然而,常规可视化工具将序列读段与标准参考序列进行比对。图3A示意性地示出了与包含STR序列的参考序列比对的序列读段的常规图形表示。与参考序列比对的参考读段和序列读段的图形表示被称为序列读段“堆积”。

如图3A所示的常规可视化工具使用未针对单个样品或受试者定制的标准参考序列。这种方法对可视化具有重复扩增的串联重复区域存在各种限制。它不能有效地反映单个样品串联重复序列的实际长度和细节。包括不在参考序列中的重复基序的序列读段可能会被截短。参见,例如序列读段32。如果单个样品的重复序列比参考序列中的重复序列短(未在本示例中示出),则来源于TR序列的序列读段可能会产生不均匀的覆盖率。

本公开的一些具体实施提供了计算机实现的工具,以生成用于可视化串联重复区域的计算机图形。这些工具生成序列读段堆积,每个堆积包括特定于样品的多个单倍型。在图3B所示的示例中,样品具有两种不同的单倍型。第一单倍型34在顶部示出,其具有比在底部示出的第二单倍型36更短的串联重复区域。将序列读段与两个单倍型中的每一个单倍型进行比对。当序列读段可以与单倍型上的多个位置进行比对时,通常在以阴影图案显示的串联重复区域内,序列读段均匀地分布在单倍型上,从而使在整个单倍型中呈现均匀覆盖率。

在一些具体实施中,单倍型可以包括如本文所示的一个重复序列。在其他具体实施中,单倍型可以包括多个重复序列。即使用于确定重复序列的基因型的基因分型工具不能有效地检测到这种变异体类型,它们也可用于可视化短插入缺失。尽管本文描述的各种具体实施可视化TR区域,但它们也可以用于可视化在不同单倍型上具有不同基因型的其他类型的变异体。

在各种具体实施中,每个序列堆积包括为样品定制的个性化单倍型。这使得能够更好地可视化重复区域的长度和序列。可以使用这些图来检测重复序列中以及紧邻该重复序列的序列中的中断。它也允许检查与单倍型的比对特性,提供了一种用于验证基因组区域中重复序列的基因型的方法。如下文的实验数据所示,当提供的单倍型正确时,序列读段倾向于均匀地分布在单倍型上,并且不同的基因组位置倾向于具有相似的覆盖率。

此外,一些具体实施允许具有生物学或临床意义的基序和核苷酸的可视化。在一些具体实施中,单倍型可以包括多个TR序列。在此类应用中,可能需要对序列数据进行定相并且将其组合成两个或多个染色体的单倍型。TR序列的基因型可以使用各种技术来确定,诸如下文所述的序列图技术和配对末端读段锚定技术。在一些具体实施中,来自全基因组的序列读段数据可以使用本文所述的技术进行预处理,以提供序列读段的子集。

图4示出了根据一些具体实施的示意性工作流程,这些具体实施使用序列图比对技术来获得用于可视化重复区域的序列读段和单倍型。图4的图1示出了从包含重复序列的所关注靶区域获得的序列读段。读段是配对末端读段。这些读段可以通过例如使用常规比对方法将全基因组读段与基因组进行比对,以及选择与靶区域比对或靶区域附近的读段来获得。

图4的图2示出了在获得靶区域的序列读段之后,将序列读段与表示靶区域的序列图进行比对。通过此序列图从左到右表示的重复区域包括左侧接区域、CAG串联重复序列、CAACAG间插序列、CCG串联重复序列和右侧接区域。

与序列图的读段比对提供了图3中所示的重新比对序列读段。下文参考图8至图13描述了关于将序列读段与序列图比对以获得重新比对读段的进一步细节。

与序列图的读段比对也确定了重复区域中STR序列的基因型。序列读段与序列图的比对确定了CAG STR的一个等位基因包括4个重复单元,并且其他等位基因包括78个重复单元。序列图比对也确定了一个等位基因中的CCG STR 7重复单元和另一等位基因中的10个重复单元。鉴于确定的基因型,在图4的图5中示出了两对可能的单倍型序列。一些具体实施涉及对基因型进行定相,以确定与重新比对的读段最匹配的单倍型对。如图6所示,最佳单倍型对具有包括4个CAG重复单元和7个CCG重复的第一单倍型,以及包括78个CAG重复和10个CCG重复的第二单倍型。

然后例示的具体实施使用重新比对的读段和最佳单倍型对来可视化重复区域的堆积。在一些具体实施中,不同的序列读段对可以具有不同的可能比对情形。例如,将序列读段对“a”与单倍型1上的一个位置和单倍型2上的一个相同位置进行比对。将序列读段对“b”与单倍型2上的多个位置进行比对。将序列读段对“c”与单倍型1上的单个位置进行比对。将序列读段对“d”与单倍型1上的一个位置以及单倍型2上的对应位置进行比对。

一些具体实施确定每对读段的所有可能的比对位置。某一对的两个读段都在相同的单倍型上比对。然后为所有读段对选择每个读段对的随机位置以确定一组比对位置。重复相同的随机选择,以获得多组比对位置。在各种具体实施中,获得至少1,000组、5,000组、10,000组、50,000组或100,000组比对位置。选择在两个单倍型上具有最均匀分布的比对位置组,以生成包括两个单倍型以及与这两个单倍型比对的序列读段对的堆积,如图8所示。

图5示出了用于生成表示与基因组区域的单倍型比对的序列读段的计算机图形的过程50的流程图。该图形包括如上所述的序列读段堆积。过程50涉及确定多个序列读段的多个比对位置组,这些序列读段与对应于基因组区域的多个单倍型的多个单倍型序列比对。参见框52。从核酸样品的基因组区域获得多个序列读段。过程50还涉及选择一组比对位置,该组比对位置比多个比对位置组中的其他比对位置组更均匀地分布在多个单倍型上。参见框54。过程50还涉及生成表示多个序列读段和多个单倍型的计算机图形。多个序列读段位于所选择的比对位置组处。在一些具体实施中,过程50可以包括在图6中描绘的过程600中描述的特征。

图6示出了用于生成表示包括多个单倍型的序列读段堆积的计算机图形的过程600的流程图。过程600涉及将多个序列读段与对应于基因组区域的多个单倍型的多个单倍型序列上的一组比对位置进行比对。参见框602。在一些具体实施中,多个序列读段包括至少100个、500个、1,000个、2,000个、3,000个、4,000个、5,000个、6,000个、7,000个、8,000个、9,000个或10,000个序列读段。

在一些具体实施中,多个单倍型中的至少一个单倍型包括重复扩增。在一些具体实施中,多个单倍型包括染色体对上的基因组区域中的两个单倍型。在各种具体实施中,多个单倍型包括至少2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个或100个单倍型。在各种具体实施中,基因组区域包括至少20bp、50bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1,000bp、2,000bp、3,000bp、4,000bp、5,000bp、6,000bp、7,000bp、8,000bp、9,000bp或10,000bp。

在一些具体实施中,多个单倍型中的至少一个单倍型包括结构变异体。在一些具体实施中,结构变异体长于50bp。结构变异体可以是缺失、复制、拷贝数变异体、插入、倒位、易位等。

在一些具体实施中,结构变异体短于50bp。在一些具体实施中,短于50bp的结构变异体包括单核苷酸多态性(SNP)。

图7示出了用于将序列读段与一组比对位置比对的过程700的流程图。在一些具体实施中,过程600的操作602可以根据过程700实现。过程700涉及确定每个读段与每个单倍型的可能比对位置,其中多个序列读段包括通过配对末端测序获得的读段对。

过程700还涉及从组成型读段的比对位置为每个读段对创建受约束的比对位置,使得(A)读段对的两个读段与相同的单倍型比对,(B)读段对的对应片段长度尽可能接近平均片段长度。

过程700也涉及从受约束的比对位置中随机选择每个读段对的比对位置。在一些具体实施中,使用不含替换技术的随机采样从受约束的比对位置中选择读段。这些技术可以更快地覆盖所有位置空间。在对所有位置采样之后,可以替换所有样品。在一些具体实施中,使用含替换技术的随机采样,其最终不需要替换并且有时可以比不含替换的随机采样更快地获得期望的位置组合。如果使用预设收敛标准(例如,期望的比对分数)而不是固定的迭代次数来停止搜索比对位置,则后一种方法可以节省时间。

返回图6,在一些具体实施中,过程600涉及将不同的序列读段组与不同的基因组区域进行比对。在一些不同的具体实施中,不同的基因组区域包括至少100个、200个、300个、500个、600个、700个、800个、900个、1,000个、5,000个或10,000个区域。

在一些具体实施中,可以使用本文所述的序列图比对技术获得多个单倍型。在其他具体实施中,可以使用下文所述的配对末端读段锚定技术来获得多个序列读段和/或多个单倍型。

在一些具体实施中,过程600涉及将第一数目的序列读段与对应于基因组区域的一个或多个序列图比对,以获得多个序列读段和/或多个单倍型。在一些具体实施中,将第一数目的序列读段与序列图进行比对包括提供核酸样品的第一数目的序列读段,并且将第一数目的序列读段与一个或多个重复序列比对,每个重复序列由序列图表示。序列图具有有向图的数据结构,该有向图具有表示核酸序列的顶点和连接顶点的有向边缘。序列图具有一个或多个自环,每个自环表示重复子序列,每个重复子序列包括一个或多个核苷酸的重复单元的重复。将第一数目的序列读段与序列图进行比对还包括确定一个或多个重复序列的一个或多个基因型,并且提供第一数目的序列读段作为(a)的多个序列读段和/或一个或多个重复序列的一个或多个基因型。

在一些具体实施中,过程600还包括定相一个或多个基因型以确定多个单倍型。在一些具体实施中,该过程还涉及最初将第二数目的序列读段与基因组进行比对以提供第一数目的序列读段。第二数目的序列读段可以是全基因组读段并且包括至少10,000个、100,000个、100万个序列读段。

过程600还涉及估计比对位置组的比对分数。参见框604。然后,过程600循环回到操作602以针对多个不同的比对位置组重复。在一些具体实施中,该过程可以循环定义的迭代次数。在各种具体实施中,该过程获得至少1,000组、2,000组、3,000组、4,000组、5,000组、6,000组、7,000组、8,000组、9,000组、10,000组、20,000组、50,000组、100,000组或500,000组不同的比对位置。在其他具体实施中,该过程重复迭代,直至比对分数满足标准。在其他具体实施中,比对位置的其他比对指标可用于设置标准以停止循环。例如,比对质量分数、映射质量分数或覆盖率可用于设置标准以结束循环。

在一些具体实施中,比对分数指示多个序列读段在对应于多个单倍型的多个单倍型序列上分布的均匀程度。当读段更均匀地分布时,覆盖水平在整个单倍型上变得更均匀。从概念上讲,假设具有相同长度的DNA片段用于生成读段并且DNA片段均匀地分布在基因组上,则最均匀的读段分布将在任何两个连续、非重叠的读段之间具有完全相同的距离。当读段分布不太均匀时,单个连续读段会进一步偏离所述距离的平均值。因此,在一些具体实施中,比对分数包括与两个连续读段的起始位置之间的距离的平均值的均方根差。比对分数越小,单倍型上的序列读段分布越均匀,并且比对分数越好。

在一些具体实施中,使用概率模型估计比对分数,假设读段对均匀分布在多个单倍型序列上。在一些具体实施中,比对分数为在给定概率模型的情况下从比对位置组推导的多个序列读段的概率。在一些具体实施中,多个序列读段包括从核酸片段获得的配对末端读段,并且概率模型被配置为接收平均片段长度作为输入。在一些具体实施中,概率模型被配置为接收单倍型的长度作为输入。

在一些具体实施中,自单倍型开始的第k个读段对的单个比对位置x的概率,由p

其中i是读段对与之比对的单倍型,H

过程600涉及基于多个比对分数,从多个不同的比对位置组中选择一组比对位置。在一些具体实施中,所选择的比对位置组在多组不同比对位置中具有最佳比对分数。在一些具体实施中,所选择的比对位置组具有超过选择标准的比对分数。在一些具体实施中,选择标准可以是比对分数的前1、2、3、4、5、10、20个百分位数。这可以允许在选择最终的比对位置组时考虑比对分数和一个或多个其他指标(例如,覆盖率、映射质量、比对质量)的组合。

在一些具体实施中,过程600任选地涉及生成表示多个序列读段和多个单倍型的计算机图形,多个序列读段位于所选择的比对位置组处。参见框608。

在一些具体实施中,过程600不需要操作608。替代地,它可以将序列读段分配至基因组区域的位置,这些被分配的位置可用于其他下游处理,而会或不会生成计算机图形。

一些具体实施涉及估计与在所选择的比对位置组处的多个单倍型序列比对的多个序列读段的一个或多个测序指标。在一些具体实施中,一个或多个测序指标包括序列覆盖率。在一些具体实施中,一个或多个测序指标包括每个比对位置的序列覆盖率。在一些具体实施中,一个或多个测序指标包括比对质量分数,其指示读段序列与参考序列之间匹配的质量。在一些具体实施中,一个或多个测序指标包括每个比对位置的比对质量分数。在一些具体实施中,一个或多个测序指标包括映射质量分数,其指示读段正确映射到基因组坐标的置信度。例如,读段可能被映射到若干基因组位置,在所有位置几乎完全匹配。在这种情况下,比对分数将是高的,但映射质量将是低的。

测序质量指标可以提供关于此过程中每个步骤的准确性的重要信息,包括文库制备、碱基判定、读段比对和变异体判定。通过Phred质量分数(Q分数)测量的碱基判定准确性是用于评估测序平台准确性的常见指标。它指示给定碱基被测序仪错误判定的概率。图24示出了根据一些具体实施对包括C9ORF72重复的基因组区域的读段的映射质量分数。顶部图示出了具有短重复的单倍型,并且底部图示出了具有长重复的单倍型。水平轴指示单倍型上的区间。垂直条指示区间处的读段的覆盖率,类似于直方图。根据一些具体实施,确定分配给单倍型的区间的读段的Q分数。Q分数大于11的读段反映在每个条的底部,而Q分数小于或等于11的读段反映在每个条的顶部。与顶部图中的短单倍型比对的98%读段具有大于11的Q分数。与底部图中的长单倍型比对的97%读段具有大于11的Q分数。根据一些具体实施确定每个区间的覆盖率。可以确定覆盖率的方差,从而提供读段分布均匀性的度量。长重复单倍型的平均覆盖率为26,并且短重复单倍型的平均覆盖率为18。总体而言,读段相对均匀地分布在单倍型内和单倍型之间。使用这些序列指标和导数度量,研究人员可以检查读段比对的质量并推断序列中等位基因的基因型的有效性,诸如下文所述的实施例1-5中的那些。

使用序列图在重复序列基因座处对变异体进行基因分型

图8示出了例示根据一些具体实施对包括重复序列的基因座进行基因分型的过程140的流程图。一些具体实施提供了用于对包含一个或多个相邻TR的区域进行靶向分析的方法,该方法可以估计短于和长于读段长度的重复序列的大小。在一些具体实施中,基因座在包含基因组位置和基因组位置处的基因座结构的变异体目录中是预定义的。图9、图10和图11示出了根据一些具体实施的三种不同序列图。

图12示出了根据一些具体实施的用于确定HTT基因座处的变异体的基因型的过程的示意图,该HTT基因座包括两个STR序列。图12中的图(a)示出了变异体目录的一部分,该变异体目录包括作为基因座规格的基因座及其结构。例如,忽略重复,基因座HTT处的序列为CAGCAACAGCGG(SEQ ID NO:2);基因座CNBP处的序列为CAGGCAGACA(SEQ ID NO:3)。

图13示出了根据一些具体实施的用于确定林奇I型基因座处的变异体的基因型的过程的示意图,该林奇I型基因座包括SNV和STR。图13框162示出了基因座规格的一般结构,并且框163示出了林奇I型(MSH2)的基因座规格的具体示例。

在变异体目录中,基因座结构使用正则表达语法的限制性子集来指定。例如,与HD连接的重复区域可以由表示其具有由CAACAG中断分开的可变数量的CAG和CCG重复的表达(CAG)*CAACAG(CGG)*或SEQ ID NO:2(忽略重复)来定义;与FRDA区域连接的区域对应于表达(A)*(GAA)*;与SCA8连接的区域对应于(CTA)*(CTG)*;由三个相邻重复组成的DM2重复区域由(CAGG)*(CAGA)*(CA)*或SEQ ID NO:3限定(忽略重复);与引起林奇综合征I型的A均聚物相邻的MSH2 SNV对应于(A|T)(A)*。

另外,允许常规表达包含多等位基因或“简并”碱基符号,其可以使用国际纯粹与应用化学联合会(IUPAC)符号(“核酸序列中不完全指定的碱基的命名法,Recommendations1984,国际生化联合命名委员会(NC-IUB)”1986)来指定。

与简并密码子中的碱基相对应的不完全指定的碱基在本文中被称为简并碱基。简并碱基使得有可能表示某些类别的不完美DNA重复序列,其中例如不同的碱基可出现在相同的位置。使用该符号,聚丙氨酸重复可由表达(GCN)*编码,并且聚谷氨酰胺重复序列可由表达(CAR)*编码。

在一些具体实施中,包括在基因座中的重复序列包括短串联重复(STR)序列。在一些具体实施中,FTR的延伸与脆性X染色体综合征、肌萎缩性脊髓侧索硬化症(ALS)、亨廷顿病、弗里德希氏共济失调、脊髓小脑共济失调、脊髓延髓肌萎缩症、强直性肌营养不良症、马查多-约瑟夫氏病或齿状核红核苍白球路易体萎缩症相关联。

过程140涉及从数据库中收集试验样品的核酸序列读段。参见框142。在一些具体实施中,核酸序列读段已初始与参考基因组比对,但此处的过程将序列读段与所关注基因座重新比对,如下文所解释。在另选的具体实施中,读段可直接与序列图比对,而不与参考基因组初始比对。

过程140涉及将序列读段与包含一个或多个重复序列的基因座的序列比对。参见框144。基因座的序列由存储在具有序列图的数据结构的系统存储器中的数据表示。序列图包括具有表示核酸序列的顶点和连接顶点的有向边缘的有向图。顶点中的核酸序列包含一个或多个核酸碱基。序列图包括一个或多个自环。每个自环表示一个或多个重复序列的重复序列。每个重复序列包括一个或多个核苷酸的重复单元的重复。

在一些具体实施中,在将初始比对的读段的子集与表示一个或多个所关注序列的一个或多个序列图比对之前,将序列读段与参考基因组初始比对以确定读段的基因组坐标。在一些具体实施中,将初始比对的读段与序列图进行比对,以确定几十到数千个区域(每个区域对应于序列图)处的重复扩增。在具体实施的每次判定期间与序列图重新比对的初始比对的读段的总数目可在数千至数百万个读段的范围内。

在一些具体实施中,将初始与所关注序列或基因座比对或所关注序列或基因座附近的读段选择为读段的子集,然后将该子集与重复序列比对,每个重复序列由序列图表示,该序列图具有表示一个或多个重复序列的一个或多个自环。在各种具体实施中,来自所关注序列或基因座的处于约10、50、100、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、50,000、100,000个碱基内的读段被认为是在所关注序列或基因座附近。在一些具体实施中,来自所关注基因座的处于约1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000个碱基内的读段在所关注基因座附近。一些原始读段可能初始比对不佳,因为例如它们包括难以明确比对的重复序列。在一些具体实施中,初始比对不佳(例如,如通过比对分数所测量的)但各自与(在配对末端读段对中的)所关注基因座或所关注基因座附近比对的读段配对的读段与序列图比对。在一些具体实施中,将初始与作为已知热点的脱靶区域比对以用于错比对读段的读段与序列图比对。

图9、图10和图11示出了根据一些具体实施的三种不同序列图。图9示出了表示包括具有三核苷酸重复单元CAG的重复序列的第一基因座的第一序列图1100。第一序列图1100包括分别表示两个侧接序列的顶点1102和1112。第一序列图还包括表示包括三核苷酸重复单元CAG的重复序列的顶点1106。第一序列图包括连接顶点1102(侧接序列)和顶点1106(CAG重复序列)的有向边缘1104,方向从顶点1102到顶点1106。边缘的方向指示两条核酸序列的相对位置。第一序列图还包括连接顶点1102(侧接序列)和顶点1106(CAG重复序列)的有向边缘1104,该方向从顶点1102到顶点1106。第一序列图还包括连接顶点1106(CAG重复序列)和顶点1112(侧接序列)的有向边缘1110,该方向从顶点1106到顶点1112。第一序列图还包括自环1108,该自环表示重复序列包括重复一次或多次的重复单元CAG(在顶点1106中示出)。从序列图的起始顶点到结束顶点的路径表示基因座的序列,其可包括重复序列附近诸如侧接序列的核苷酸。

图10示出了表示第二基因座的第二序列图1200。第二序列图1200包括分别表示两个侧接序列的顶点1202和1224。第二序列图还包括分别表示包括三核苷酸重复单元CAG的重复序列的顶点1206和包括三核苷酸重复单元CCG的重复序列的顶点1216。第二序列图还包括表示非重复序列CAACAG的顶点1212。第二序列图包括有向边缘1204、1210、1214和1220。这些有向边缘依方向地连接顶点1202、1206、1212、1216和1224,如图所示。第二序列图还包括自环1208,该自环表示重复序列包括重复一次或多次的重复单元CAG(在顶点1206中示出)。第二序列图还包括自环1218,该自环表示重复序列包括重复一次或多次的重复单元CCG(在顶点1216中示出)。

图11示出了表示第三基因座的第三序列图1300。第三序列图1300类似于第二序列图1200,但包括表示两个等位基因CAC和CAT的两条另选路径。这两个等位基因可以是SNV或SNP的等位基因。有向边缘1310、顶点1312和有向边缘1314表示CAC的第一等位基因。有向边缘1316、顶点1318和有向边缘1320表示CAT的第二等位基因。第三序列图包括在其他方面类似于第二序列图中的那些元素的元素,包括顶点1302、1306、1322和1328。第三序列图还包括指示重复序列CAG重复和CCG重复的自环1308和1324。第三序列图还包括有向边缘1304和1326。

在一些具体实施中,使用如下所述的技术将序列读段与序列图比对。

1.Kmer索引建立在整个图上,使得给定来自序列的kmer可以枚举此类kmer开始或结束的所有图节点。在一些情况下,kmer可在一个节点上开始并在另一个节点上结束。

2.对于每个图命中,提取两个子图:一个在kmer的正向上,一个在反向上。子图展开重复扩增直到剩余读段长度,并且不包括比假设重复未扩增的剩余读段长度更远离kmer命中的任何节点。该过程是广度优先搜索,并且产生包含以下各项的数据结构:

-子图中所有节点序列(包括扩增重复)的级联

-节点的索引,使得容易在smith-waterman过程上进行回溯时从序列中的偏移获得节点id

-对于每个节点起始偏移,具有进入的边缘的节点末端的偏移序列

-每个节点的索引,使得容易断定碱基是否在节点的起始处,并且枚举前任节点的所有结束偏移。

3.比对

-支持仿射间隙。

-在给出上述信息和罚分矩阵的情况下,找到序列的最佳评分比对。

有两种不同的接口可用:

-报告了最佳比对和第二最佳比对分数。

-最佳比对和第二最佳比对分数的整个阵列。

比对是对候选kmer和比对序列起点之间的间隙进行罚分的全局比对。在一些具体实施中,调整编译时间参数。

用于矩阵填充的当前算法可用于两个具体实施中:

-具有N*M复杂度的顺序环。

-固定长度编译时间参数的固定大小环的顺序环默认为16,gcc自动识别CPU上的SSE或AVX矢量指令并转换成SSE或AVX矢量指令。

在一些具体实施中,一个或多个重复序列的重复序列的特定重复单元包括至少一个不完全指定的核苷酸。在一些具体实施中,特定重复单元包括简并密码子。

在一些具体实施中,一个或多个自环包括表示两个或更多个重复序列的两个或更多个自环。参见例如图10、图11和图12中的图(b)。

在一些具体实施中,序列图还包括用于两个或更多个等位基因的两条或更多条另选路径。参见例如图11的参考标号1312和1318。还可参见图13,基因座林奇I型(MSH2)的参考标号165和167a,其中上路径包括核酸碱基A的顶点,并且下路径包括核酸碱基T的顶点。

在一些具体实施中,两个或更多个等位基因包括插入缺失或置换。在一些具体实施中,置换包括单核苷酸变异(SNV)或单核苷酸多态性(SNP)。参见例如图11的参考标号1312和1318。

在一些具体实施中,将序列读段与序列图比对包括:找到序列读段与序列图的路径之间的kmer匹配,然后将该路径延伸至完全比对。在一些具体实施中,比对包括提取围绕路径的子图;展开所述子图中的任何环以获得有向无环图;以及执行相对于有向无环图的序列读段的Smith-Waterman比对。

在一些具体实施中,将序列读段与序列图比对包括通过移除比对的低置信度末端而使该序列图收缩。在将读段与图比对后,该方法搜索其他类似的另选比对。这通过将原始读段与通过图的路径重新比对来完成,该路径与原始比对的路径重叠。这允许检测例如初始比对的一端或两端是否具有低置信度,这指示这两端可以不同方式比对。能够检测比对的高置信度部分和低置信度部分允许人们准确地确定读段支持哪些遗传变异体。

在一些具体实施中,将序列读段与序列图比对包括通过以下方式比对合并:将读段的子序列与序列图比对;以及合并子序列的比对以形成序列读段的完全比对。

在一些具体实施中,该过程还涉及基于包括基因座的基因座结构的基因座规格来生成序列图。在一些具体实施中,基因座规格在如上所述的变异体目录中定义。

还可参见图12中的图(b)至图(d),了解读段与HTT基因座的序列图的比对示意图。图13参考示意性地示出了用于执行读段与序列图的比对的基因座分析仪164,诸如基因座林奇I型(165)。

过程140还涉及使用与序列图比对的序列读段确定一个或多个重复序列的一个或多个基因型。参见框140。还可参见图12中的图(e),其示出了确定在HTT基因座处的两个STR(CAG和CCG)。左侧包括CAG重复序列的序列是CAGCAGCAGCAGCAG(SEQ ID NO:4)。左侧包括CCG重复序列的序列是CCGCCGCCGCCGCCG(SEQ ID NO:5)。

图13示出了用于确定林奇I型基因座处的包括具有A/T等位基因(169a)和A单体重复(169b)的SNV的变异体的变异体基因分型仪模块(168)。图13还示出了用于策划序列比对数据并将它们提供给变异体基因分型仪(168)的变异体分析仪模块(166),以及用于具有A/T等位基因(167a)和A单体重复(167b)的SNV的变异体分析仪的具体实施。来自基因分型仪的基因座结果在图13框170中示出,并且具体地示出为具有A/T等位基因(171a)和A单体重复(171b)的SNV的基因型。

在一些具体实施中,序列图包括两个等位基因的两条另选路径,并且该方法还涉及使用与所述两条或更多条另选路径比对的序列读段对两个或更多个等位基因进行基因分型。在一些具体实施中,对两个或更多个等位基因进行基因分型涉及将两个或更多个另选路径的覆盖度提供给概率模型,以确定两个或更多个等位基因的概率。在一些具体实施中,概率模型模拟等位基因的概率作为等位基因覆盖度的函数,该函数选自泊松分布、负二项分布、二项分布或β-二项分布。

在一些具体实施中,概率函数是泊松分布,并且其速率参数由在基因座处观察到的读段长度和平均深度来估计。

在基于泊松的模型中,等位基因的概率表达如下。

P(Y=y)=(C

·Y是碱基的读段覆盖率

·C是基因座处的平均深度

在一些具体实施中,平均深度C估计为:

C=LN/G

·G是基因座的长度

·L是读段长度

·N是所有读段的数目

图形工具库

在一些具体实施中,基本序列图功能应用图形工具库。工具库实现核心图抽象(图本身、图路径和图比对)、对它们的操作以及用于将线性序列与图比对的算法。

在一些具体实施中,序列图由节点和有向边缘组成。允许图包含自环(将节点连接到自身的边缘),但不包含其他循环。节点包含由核心碱基和IUPAC简并碱基代码组成的序列。

图形路径由路径穿过的节点序列以及第一节点上的路径的起始位置和最后节点上的结束位置限定。使用基于零的半开放坐标系来指定位置。该库定义对路径的多个操作,包括路径延伸和收缩、重叠检查和路径合并。

图比对编码线性查询序列(通常是测序的读段)如何与图比对。在一些具体实施中,图形比对包括图形路径和线性比对序列,该线性比对序列限定查询序列与图形路径的节点的比对。使用路径上的对应操作,图形比对可以与其他图形比对收缩或合并。路径收缩提供了用于移除比对的低置信度末端的机制,而比对合并被图形比对算法用于将查询序列的完全比对与子序列(例如,kmer)的比对拼接在一起。在一些具体实施中,比对算法通过找到查询序列和图之间的kmer匹配,然后将该匹配延伸至完全比对来操作。在一些具体实施中,比对包括提取对应于kmer匹配的路径周围的子图(展开过程中的任何环)。然后其针对所得的有向无环图执行Smith-Waterman比对。在一些具体实施中,算法支持仿射间隙罚分并且使用恒定长度的环来编写以使编译器能够生成SIMD代码。

在一些具体实施中,可利用搜索算法来获得图路径,该搜索算法涉及通过增加或减少由自环表示的重复单元的重复数目来延伸或收缩路径,直到比对达到搜索标准或收敛(例如,比对分数最大化)。

在一些具体实施中,从序列图生成多个图路径,每个图路径表示由自环表示的重复单元的重复的特定数目。查询序列与多个图形路径比对,然后选择满足比对标准的路径用于图比对。

应用架构

一些具体实施被设计为用于靶向变异体基因分型的一般工具(图13)。在每次运行期间,程序尝试对描述于变异体目录文件中的一组变异体

进行基因分型。彼此紧邻的变异体被分组到同一基因座中。基因座结构使用正则表达(RE)语法的限制性子集来指定。RE包含由核心碱基符号和IUPAC简并碱基代码组成的字母表上的序列,并且必须包含可能由序列中断分开的以下表达中的一者或多者:()?、(|)、()*、()+。这些表达分别对应于插入/缺失、置换、序列重复0次或更多次,以及序列重复至少一次。另外,对每个基因座的描述包含该基因座的一组参考区域和每个组成型变异体的参考坐标。

工作的大部分由LocusAanalyzer类的对象编排,LocusAanalyzer类的对象在初始化期间从对应的RE合成表示基因座的序列图。初始化之后,基因座分析仪通过以下方式处理相关读段:将相关读段与图比对,然后将所得比对结果传递至针对基因座中包含的每个变异体定义的VariantAnalyzer。VariantAnalyzer提取与基因分型相关联的信息并将其传递给执行实际基因分型的基因分型仪。然后使用由每个基因分型仪输出的结果来创建输出VCF文件。

例如,负责处理具有与林奇I型综合征相关联的病原性变异体的基因座的LocusAnalyzer利用SNV分析仪和STR分析仪(图S1,右图)。

Indel基因分型仪

一些STR可在附近具有小的插入或缺失(插入缺失)。此类插入缺失被建模为STR的侧接序列中的附加子图。映射到每个等位基因(或图路径)的读段的数量用泊松分布建模,该泊松分布的速率参数由在基因座处观察到的平均深度和读段长度来估计。在贝叶斯框架下计算基因型可能性。

识别重复扩增

使用本文所公开的实施方案,可以相对于常规方法以高效率、敏感性和/或选择性确定与重复扩增相关的各种遗传条件。本发明的一些实施方案提供了使用不完全穿过重复序列的序列读段来识别和判定医学相关的重复扩增(诸如引起脆性X染色体综合征精神发育迟缓的CGG重复扩增)的方法。短读段诸如100bp读段的长度不足以通过许多重复扩增进行测序。然而,当用本发明所公开的方法分析时,具有重复扩增的样品显示出包含大量重复序列的读段的统计意义上的显著过量。另外,极大的重复扩增包含未比对的读段对,其中两个读段完全或几乎完全由重复序列组成。使用正常样品来识别背景期望。

常规理念是在没有跨整个重复的读段的情况下不能检测到重复扩增。检测重复扩增的现有方法使用具有长读段的靶向测序,并且在一些情况下由于读段不够长而未能跨重复序列,因此是不成功的。一些公开的实施方案的结果已部分地得到惊喜结果,因为它们使用正常(非靶向)序列数据和仅约100bp的读段长度,但却带来用于检测重复扩增的非常高的灵敏度。本文所述的方法可使用具有比整个重复序列的长度短的插入长度(即两个序列读段和间插序列)的成对读段来检测重复扩增中的重复单元的数量。

转到根据一些实施方案的用于确定存在重复扩增的方法的细节,图14示出了提供对用于确定样品中重复序列的重复扩增存在与否的实施方案的高级描述的流程图。重复序列是包括被称为重复单元的短序列的重复出现的核酸序列。上表1提供了重复单元的示例、正常和病原性序列的重复序列中重复单元的重复数目、与重复序列相关的基因以及与重复扩增相关联的疾病。图14中的过程200从获得试验样品的配对末端读段开始。参见框202。已对配对末端读段进行处理以与包括所关注重复序列的参考序列比对。在一些情况下,比对过程也被称为映射过程。试验样品包括核酸并且可以是体液、组织等形式,诸如在下文的样品部分中进一步描述。序列读段已经历比对过程以被映射到参考序列。可使用各种比对工具和算法来尝试将读段与参考序列比对,如本公开其他地方所述。通常,在比对算法中,一些读段与参考序列成功比对,而其他读段可能未与参考序列成功比对或可能与参考序列的比对不佳。与参考序列连续比对的读段与参考序列上的位点相关联。比对的读段及其相关联的位点也称为序列标签。如上所述,一些包含大量重复的序列读段往往更难与参考序列比对。当将读段与具有高于某个标准的多个错配碱基的参考序列比对时,则认为该读段比对不佳。在各种实施方案中,当读段与至少约1、2、3、4、5、6、7、8、9或10个错配比对时,认为读段比对不佳。在其他实施方案中,当读段与至少约5%的错配比对时,认为读段比对不佳。在其他实施方案中,当读段与至少约10%、15%或20%错配碱基比对时,认为读段比对不佳。

如图2所示,过程200继续识别配对末端读段中的锚读段和锚定读段。参见框204。锚读段是与所关注的重复序列比对或所关注重复序列附近的配对末端读段中的读段。例如,锚读段可与参考序列上的位置比对,该参考序列与重复序列分开的序列长度小于插入序列的序列长度。分开长度可更短。例如,锚读段可与参考序列上的位置比对,该参考序列与重复序列分开的序列长度小于锚读段的序列长度或小于锚读段的组合序列长度以及将锚读段连接到锚定读段的序列(即,插入序列的长度减去锚定读段的长度)。在一些实施方案中,所关注重复序列可以是FMR1基因中的重复序列,包括重复单元CGG的重复。在正常参考序列中,FMR1基因中的重复序列包括重复单元CGG的约6-32个重复。当重复扩增至超过200个拷贝时,重复扩增趋于变成病原性的,从而导致脆性X染色体综合征。在一些实施方案中,当读段在所关注重复序列的1000bp内比对时,认为该读段在所关注序列附近比对。在其他实施方案中,可调节该参数,诸如在约100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1500bp、2000bp、3000bp、5000bp等内。另外,该过程还识别锚定读段,该锚定读段是与锚读段配对但与锚定读段的参考序列比对不佳或不能比对的读段。上文描述了比对不佳的读段的附加细节。

过程200还涉及至少部分地基于所识别的锚定读段来确定重复序列的重复扩增是否可能存在于试验样品中。参见框206。该测定步骤可涉及各种合适的分析和计算,如下文进一步所述。在一些实施方案中,该过程使用所识别的锚读段以及锚定读段来确定是否可能存在重复扩增。在一些实施方案中,分析所识别的锚读段和锚定读段中的重复次数,并将其与从理论上推导或从受影响的对照样品的经验数据推导的一个或多个标准进行比较。

在本文所述的各种实施方案中,重复作为框内重复获得,其中相同重复单元的两个重复落入相同的读段框中。阅读框是将核酸(DNA或RNA)分子中的核苷酸序列分成一组连续的、不重叠的三联体的方式。在翻译期间,三联体编码氨基酸,并且被称为密码子。因此,任何特定序列具有三个可能的阅读框。在一些实施方案中,根据三个不同的阅读框对重复进行计数,并且将三个计数中最大的计数确定为读段的对应重复的数目。

涉及附加操作和分析的过程的示例在图3中示出。图15示出了流程图,该流程图示出了使用具有大量重复的配对末端读段来检测重复扩增的过程300。过程300包括用于处理试验样品的附加上游动作。该过程通过对包括核酸的试验样品进行测序以获得配对末端读段而开始。参见框302。在一些实施方案中,试验样品可以各种方式获得和制备,如下文样品部分中进一步描述。例如,试验样品可以是生物流体(例如血浆)或如下所述的任何合适的样品。样品可使用非侵入性规程诸如简单的抽血来获得。在一些实施方案中,试验样品含有核酸分子(例如cfDNA分子)的混合物。在一些实施方案中,试验样品是含有胎儿和母体cfDNA分子混合物的母体血浆样品。

在测序之前,从样品中提取核酸。合适的提取方法和装置在本文其他地方有所描述。在一些具体实施中,该装置一起处理来自多个样品的DNA以提供多重文库和序列数据。在一些实施方案中,装置并行处理来自八个或更多个试验样品的DNA。如下所述,测序系统可处理提取的DNA以产生编码(例如,条形码)DNA片段的文库。

在一些实施方案中,可进一步处理试验样品中的核酸以制备用于多重或单重测序的测序文库,如下文测序文库制备部分中进一步描述。在处理和制备样品后,可通过各种方法对核酸进行测序。在一些实施方案中,可采用各种下一代测序平台和协议,这在下面的测序方法部分中进一步描述。

无论具体的测序平台和方案如何,在框302中,对样品中包含的核酸的至少一部分进行测序,以产生数万、数十万或数百万的序列读段,例如100bp读段。在一些实施方案中,读段包括配对末端读段。在其他实施方案中,诸如下文参考图5所述的那些,除了配对末端读段之外,还可使用包括超过数百、数千或数万个碱基的单末端长读段来确定重复序列。在一些实施方案中,序列读段包括约20bp、约25bp、约30bp、约35bp、约36bp,约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。预期的是,技术进步将使单末端读段能够大于500bp,从而在生成配对末端读段时,使读段能够大于约1000bp。

过程300继续将从框302获得的配对末端读段与包括重复序列的参考序列比对。参见框304。在一些实施方案中,重复序列易于扩增。在一些实施方案中,已知重复扩增与遗传性疾病相关联。在其他实施方案中,该重复序列的重复扩增此前尚未进行过研究来建立与遗传性疾病的关联。本文所公开的方法允许检测重复序列和重复扩增,而不管任何相关联的病理。在一些实施方案中,将读段与参考基因组例如hg18比对。在其他实施方案中,将读段与参考基因组(例如染色体或染色体片段)的一部分比对。独特地映射到参考基因组的读段被称为序列标签。在一个实施方案中,至少约3×10

在一些实施方案中,该过程可在比对之前过滤序列读段。在一些实施方案中,读段过滤是由测序仪中实现的软件程序启用的质量过滤过程,以过滤掉错误且低质量的读段。例如,Illumina的测序控制软件(SCS)以及序列和变异软件程序的共有评估,通过将测序反应生成的原始图像数据转化为强度评分、碱基评分、质量评分比对和另外的格式来过滤掉错误的和低质量的读段,以提供用于下游分析的生物相关信息。

在某些实施方案中,通过测序装置产生的读段以电子格式提供。使用如下所述的计算装置来实现比对。将各个读段与参考基因组进行比较,该参考基因组通常非常庞大(数百万个碱基对)以识别读段唯一地与参考基因组对应的位点。在一些实施方案中,比对程序允许读段与参考基因组之间的有限错配。在一些情况下,允许读段中的1、2、3或更多个碱基对与参考基因组中的对应碱基对错配,但仍然进行映射。在一些实施方案中,当读段与参考序列以不超过1、2、3或4个碱基对比对时,认为读段是比对的读段。相应地,未比对的读段是不能比对或比对不佳的读段。比对不佳的读段是具有比比对读段更多错配的读段。在一些实施方案中,当读段与参考序列以不超过1%、2%、3%、4%、5%或10%的碱基对比对时,认为读段是比对读段。

在将配对末端读段与包括所关注重复序列的参考序列比对之后,过程300继续识别配对末端读段中的锚读段和锚定读段。参见框306。如上所述,锚读段是与重复序列比对或重复序列附近的配对末端读段。在一些实施方案中,锚读段是在1kb的重复序列内比对的配对末端读段。锚定读段与锚读段配对,但它们不能与参考序列比对或与参考序列的比对不佳,如上所述。

过程300分析所识别的锚读段和/或锚定读段中重复单元的重复数目,以确定是否存在重复序列的扩增。更具体地讲,过程300涉及使用读段中的重复数目来获得锚读段和/或锚定读段中的高计数读段数目。高计数读段是重复数目超过阈值的读段。在一些实施方案中,高计数读段仅从锚定读段获得。在其他实施方案中,从锚读段和锚定读段两者获得高计数读段。在一些实施方案中,如果重复数目接近读段可能的最大重复数目,则认为读段是高计数读段。例如,如果读段是100bp,并且所考虑的重复单元为3bp,则重复的最大数目将是33。换句话讲,根据配对末端读段的长度和重复单元的长度计算最大值。具体地讲,可通过将读段长度除以重复单元的长度并将该数量四舍五入来获得最大重复数目。在该示例中,各种具体实施可将具有至少约28、29、30、31、32或33个重复的100bp读段识别为高计数读段。可基于经验因素和考虑因素向上或向下调整高计数读段的重复数目。在各种实施方案中,高计数读段的阈值是重复数目最大值的至少约80%、85%、90%或95%。

过程300然后基于高计数读段的数目确定是否可能存在重复序列的重复扩增。参见框310。在一些实施方案中,该分析将所获得的高计数读段与判定标准进行比较,并且如果超过该标准,则确定可能存在重复扩增。在一些实施方案中,判定标准从对照样品的高计数读段的分布获得。例如,分析已知具有或疑似具有正常重复序列的多个对照样品,并且以与上述相同的方式获得对照样品的高计数读段。可获得对照样品的高计数读段的分布,并且可估计具有大于特定值的高计数读段的未受影响样品的概率。该概率允许在给定该特定值处设定的判定标准的情况下确定灵敏度和选择性。在一些实施方案中,判定标准被设置为阈值,使得具有高计数读段大于阈值的未受影响样品的概率小于5%。换句话讲,p值小于0.05。在这些实施方案中,随着重复扩增,重复序列变得更长,更多的读段可能完全源自重复序列内,并且可以获得样品的更多高计数读段。在各种另选的具体实施中,可选择更保守的判定标准,使得具有比阈值更高计数读段的未受影响样品的概率小于约1%、0.1%、0.01%、0.001%、0.0001%等。应当理解,判定标准可基于各种因素以及提高试验的灵敏度或选择性的需要而向上或向下调节。

在一些实施方案中,代替根据经验获得来自对照样品的高计数读段的数目的判定标准或者除了根据经验获得来自对照样品的高计数读段的数目的判定标准之外,可以理论上获得判定标准以用于确定重复扩增。给定多个参数,包括配对末端读段的长度、具有重复扩增的序列的长度和测序深度,可以计算完全在重复内的预期读段数。例如,可使用测序深度来计算比对基因组中的读段之间的平均间距。如果将单个样品测序至30x深度,则测序的总碱基等于基因组的大小乘以深度。对于人类,这将相当于约3×10

在一些实施方案中,根据读段内重复序列的第一次和最后一次观察之间的距离计算判定标准,从而允许重复序列中的突变和测序误差。

在一些实施方案中,该过程还可包括诊断从其获得试验样品的个体具有升高的遗传疾病风险,该遗传性疾病诸如脆性X染色体综合征、ALS、亨廷顿病、弗里德希氏共济失调、脊髓小脑共济失调、脊髓延髓肌萎缩症、强直性肌营养不良症、马查多-约瑟夫氏病或齿状核红核苍白球路易体萎缩症。这种诊断可基于确定重复扩增可能存在于试验样品中,并且基于与重复扩增相关联的基因和重复序列。在其他实施方案中,当遗传性疾病未知时,一些实施方案可检测异常高的重复计数以新识别疾病的遗传原因。

图16是示出根据一些实施方案的用于检测重复扩增的另一过程的流程图。过程400使用试验样品的配对末端读段中的重复数目而不是高计数读段来确定重复扩增的存在。过程400开始于对包括核酸的试验样品进行测序以获得配对末端读段。参见框402,其等同于过程300的框302。过程400通过将配对末端读段与包括重复序列的参考序列比对而继续。参见框404,其等同于过程300中的框304。该过程通过配对末端读段中的识别锚读段和锚定读段继续进行,其中锚读段是与重复序列比对或重复序列附近的读段,并且锚定读段是与锚定件读段配对的未比对读段。在一些实施方案中,未比对的读段包括不能与参考序列比对的读段和与参考序列比对不佳的读段两者。

在识别锚读段和锚定读段之后,过程400从试验样品获得锚读段和/或锚定读段中的重复数目。参见框408。该过程随后获得从试验样品获得的所有锚读段和/或锚定读段的重复数目的分布。在一些实施方案中,仅分析来自锚定读段的重复数目。在其他实施方案中,分析锚读段和锚定读段两者的重复。然后将试验样品的重复数目的分布与一个或多个对照样品的分布进行比较。参见框410。在一些实施方案中,如果试验样品的分布在统计学上显著不同于对照样品的分布,则该方法确定重复序列的重复扩增存在于试验样品中。参见框412。过程400分析包括高计数和低计数读段的读段的重复数目,这不同于仅分析高计数读段的过程,诸如上文相对于过程300所述。

在一些实施方案中,试验样品的分布与对照样品的分布的比较涉及使用曼-惠特尼(Mann-Whitney)等级检验来确定两种分布是否显著不同。在一些实施方案中,如果试验样品的分布相对于对照样品更偏向于更高的重复数目,并且曼惠特尼等级试验的p值小于约0.0001或0.00001,则分析确定试验样品中可能存在重复扩增。可根据需要调节p值以提高测试的选择性或灵敏度。

上文相对于图2至图4所述的用于检测重复扩增的过程使用锚定读段,该锚定读段是与所关注重复序列比对的读段配对的未比对读段。这些过程的变化可包括在未比对的读段中搜索几乎完全由某种类型的重复序列组成的读段对,以发现可能医学相关的新的先前未识别的重复扩增。该方法不量化重复的精确数目,但有效地识别极端的重复扩增或异常值,这些扩增或异常值应被标记以用于进一步量化。与较长读段相结合,该方法能够识别和定量总长度高达200bp或更长的重复序列。

图17示出了使用不与所关注任何重复序列相关联的未比对读段来识别重复扩增的过程500的流程图。过程500可使用整个基因组未比对的读段来检测重复扩增。该过程通过对包括核酸的试验样品进行测序以获得配对末端读段而开始。参见框502。过程500通过将配对末端读段与参考基因组比对而继续进行。参见框504。该过程随后识别整个基因组的未比对读段。未比对读段包括不能与参考序列比对或与参考序列比对不佳的配对末端读段。在一些具体实施中,比对不佳的读段包括与参考序列比对的读段,其中比对质量分数或映射分数低于标准则为比对不佳的读段。在一些具体实施中,比对不佳的读段包括具有许多错配、插入、缺失碱基的比对读段。参见框506。该过程随后分析未比对读段中重复单元的重复数目,以确定重复扩增是否可能存在于试验样品中。该分析可以是对任何特定重复序列不可知的。该分析可应用于各种可能的重复单元,并且可将来自试验样品的不同重复单元的重复数目与多个对照样品的重复数目进行比较。上述试验样品和对照样品之间的比较技术可应用于该分析。如果比较显示试验样品具有异常高的重复数目,则可执行附加分析以确定试验样品是否包括所关注特定重复序列的重复扩增。参见框510。

在一些实施方案中,附加分析涉及非常长的序列读段,其可能跨具有医学上相关的重复扩增的长重复序列。该附加分析中的读段长于配对末端读段。在一些实施方案中,使用单分子测序或合成的长读段测序来获得长读段。在一些实施方案中,重复扩增与遗传性疾病之间的关系是本领域已知的。然而,在其他实施方案中,重复扩增与遗传性疾病之间的关系不需要在本领域中建立。

在一些实施方案中,分析操作510的未比对读段中重复单元的重复数目涉及与图3的操作308的未比对读段中重复单元的重复数目相当的高计数分析。该分析包括获得高计数读段的数量,其中高计数读段是重复数目超过阈值的未比对读段;以及将试验样品中高计数读段的数量与判定标准进行比较。在一些实施方案中,高计数读段的阈值是重复次数最大值的至少约80%,该最大值计算为配对末端读段的长度与重复单元的长度的比率。在一些实施方案中,高计数读段还包括与未比对读段配对并且具有比阈值更多重复的读段。

在一些实施方案中,在操作510的附加分析之前,该过程还涉及(a)识别与未比对的读段配对并且与参考基因组上的重复序列比对或该重复序列附近的配对末端读段;以及(b)提供重复序列作为操作510的所关注特定重复序列。然后,对所关注重复序列的附加分析可采用上文结合图2至图4所述的任何方法。

样品

用于确定重复扩增的样品可包括从包括核酸的任何细胞、流体、组织或器官中获得的样品,其中要确定所关注的一个或多个重复序列的重复扩增。在涉及胎儿诊断的一些实施方案中,有利的是从母体体液获得游离核酸,例如游离DNA(cfDNA)。可以通过本领域已知的各种方法从包括但不限于血浆、血清和尿液的生物样品中获得游离核酸,包括游离DNA(参见例如,Fan等人,Proc Natl Acad Sci,第105卷,第16266-16271页[2008];Koide等人,Prenatal Diagnosis,第25卷,第604-607页[2005];Chen等人,Nature Med.,第2卷,第1033-1035页[1996];Lo等人,Lancet,第350卷,第485-487页[1997];Botezatu等人,ClinChem.,第46卷,第1078-1084页,2000;以及Su等人,J Mol.Diagn.,第6卷,第101-107页[2004])。

在各种实施方案中,存在于样品中的核酸(例如,DNA或RNA)可在使用之前(例如,在制备测序文库之前)特异性地或非特异性地富集。DNA在以下例示性示例中用作核酸的示例。样品DNA的非特异性富集是指可用于在制备cfDNA测序文库之前增加样品DNA水平的样品基因组DNA片段的全基因组扩增。用于全基因组扩增的方法是本领域已知的。简并寡核苷酸引物PCR(DOP)、引物延伸PCR技术(PEP)和多重置换扩增(MDA)是全基因组扩增方法的示例。在一些实施方案中,样品未富集DNA。

包括应用本文所述方法的核酸的样品通常包括如上所述的生物样品(“试验样品”)。在一些实施方案中,待筛选用于重复扩增的核酸通过多种熟知的方法中的任一种进行纯化或分离。

因此,在某些实施方案中,样品包括经纯化或分离的多核苷酸或基本上由经纯化或分离的多核苷酸组成,或者其可包括样品,诸如组织样品、生物流体样品、细胞样品等。合适的生物流体样品包括但不限于血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳溢液、淋巴液、唾液、脑脊液、灌洗液、骨髓悬浮液、阴道液、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物、羊水、乳汁和白细胞析离样品。在一些实施方案中,样品是易于通过非侵入性手术获得的样品,例如血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳液、唾液或粪便。在某些实施方案中,样品是外周血样品或外周血样品的血浆和/或血清级分。在其他实施方案中,生物样品是拭子或涂片、活检标本或细胞培养物。在另一实施方案中,样品是两种或更多种生物样品的混合物,例如,生物样品可包括生物流体样品、组织样品和细胞培养样品中的两种或更多种。如本文所用,术语“血液”、“血浆”和“血清”明确地涵盖其级分或加工部分。类似地,在样品取自活检、拭子、涂片等的情况中,“样品”明确地涵盖衍生自活检、拭子、涂片等的处理级分或部分。

在某些实施方案中,样品可获自来源,包括但不限于来自不同个体的样品、来自相同或不同个体的不同发育阶段的样品、来自不同患病个体(例如怀疑患有遗传性疾病的个体)的样品、正常个体、在个体疾病的不同阶段获得的样品、从对疾病进行不同治疗的个体获得的样品、受到不同环境因素影响的个体的样品、对病理易感的个体的样品、从暴露于传染病因子的个体获得的样品等。

在一个示例性但非限制性的实施方案中,样品是从妊娠女性(例如,孕妇)中获得的母体样品。在这种情况下,可使用本文所述的方法分析样品以提供胎儿的潜在染色体异常的产前诊断。母体样品可以是组织样品、生物流体样品或细胞样品。作为非限制性示例,生物流体包括血液、血浆、血清、汗液、泪液、痰、尿液、痰、耳溢液、淋巴液、唾液、脑脊液、灌洗液、骨髓悬浮液、阴道液、经宫颈灌洗液、脑液、腹水、乳汁、呼吸道、肠道和泌尿生殖道的分泌物和白细胞析离样品。

在某些实施方案中,也可从体外培养的组织、细胞或其他含多核苷酸的来源中获得样品。培养的样品可从来源中获得,包括但不限于在不同培养基和条件(例如pH、压力或温度)中维持的培养物(例如组织或细胞)、维持不同时长的培养物(例如组织或细胞)、用不同的因子或试剂(例如候选药物或调节剂)处理的培养物(例如组织或细胞)、或不同类型的组织和/或细胞的培养物。

从生物来源分离核酸的方法是熟知的,并且将根据来源的性质而有所不同。本领域技术人员可以容易地从本文所述方法所需的来源分离核酸。在某些情况下,可能有利的是将核酸样品中的核酸分子片段化。片段化可以是随机的,或者它可以是特异性的,如例如使用限制性内切核酸酶消化所实现的。随机片段化的方法是本领域熟知的,并且包括例如限制性DNA酶消化、碱处理和物理剪切。

测序文库制备

在各种实施方案中,测序可在需要制备测序文库的各种测序平台上进行。制备通常涉及使DNA片段化(超声处理、雾化或剪切),然后进行DNA修复和末端抛光(平末端或A突出端),并且与平台特异性衔接子连接。在一个实施方案中,本文所述的方法可利用下一代测序技术(NGS),其允许在单次测序运行中以基因组分子(即,单重测序)或以包含索引基因组分子的合并样品(例如,多重测序对多个样品进行单独测序。这些方法可生成高达数十亿个DNA序列读段。在各种实施方案中,可使用例如本文所述的下一代测序技术(NGS)来确定基因组核酸和/或索引基因组核酸的序列。在各种实施方案中,可使用如本文所述的一个或多个处理器来执行对使用NGS获得的大量序列数据的分析。

在各种实施方案中,此类测序技术的使用不包括测序文库的制备。

然而,在某些实施方案中,本文设想的测序方法包括测序文库的制备。在一个例示性方法中,测序文库制备涉及随机采集待测序的衔接子修饰的DNA片段(例如,多核苷酸)。可通过逆转录酶的作用从DNA或RNA(包括DNA或cDNA的等同物或类似物,例如由RNA模板产生的互补或拷贝DNA的DNA或cDNA)中制备多核苷酸测序文库。多核苷酸可以双链形式(例如,dsDNA,诸如基因组DNA片段、cDNA、PCR扩增产物等)起始,或者在某些实施方案中,多核苷酸可以单链形式(例如,ssDNA、RNA等)起始并已转化为dsDNA形式。举例来说,在某些实施方案中,单链mRNA分子可拷贝成适用于制备测序文库的双链cDNA。初级多核苷酸分子的精确序列通常对文库制备方法并不重要,并且可以是已知的或未知的。在一个实施方案中,多核苷酸分子是DNA分子。更具体地,在某些实施方案中,多核苷酸分子表示生物体的整个遗传互补序列或生物体的基本上整个遗传互补序列,并且是基因组DNA分子(例如,细胞DNA、游离DNA(cfDNA)等),其通常包括内含子序列和外显子序列(编码序列),以及非编码调控序列诸如启动子和增强子序列。在某些实施方案中,初级多核苷酸分子包括人基因组DNA分子,例如存在于怀孕受试者的外周血中的cfDNA分子。

通过使用包含特定范围的片段大小的多核苷酸来促进一些NGS测序平台的测序文库的制备。此类文库的制备通常包括大的多核苷酸(例如,细胞基因组DNA)的片段化,以获得所需大小范围内的多核苷酸。

配对末端读段用于本文所公开的用于确定重复扩增的方法和系统。片段或插入长度长于读段长度,并且通常长于两个读段的长度之和。

在一些示例性实施方案中,样品核酸作为基因组DNA获得,将该基因组DNA片段化为大约100个或更多个、大约200个或更多个、大约300个或更多个、大约400个或更多个、或者大约500个或更多个碱基对的片段,并且NGS方法可容易地应用于这些片段。在一些实施方案中,配对末端读段从约100-5000bp的插入序列获得。在一些实施方案中,插入序列为约100-1000bp长。这些片段有时被实现为常规短插入序列配对末端读段。在一些实施方案中,插入序列为约1000-5000bp长。这些片段有时被实现为如上所述的长插入序列配对读段。

在一些具体实施中,长插入序列被设计用于评估非常长的扩增的重复序列。在一些具体实施中,可应用配对读段来获得由数千个碱基对间隔开的读段。在这些具体实施中,插入序列或片段在数百至数千个碱基对的范围内,其中两个生物素连接衔接子位于插入序列的两端。然后生物素连接衔接子连接插入序列的两端以形成环化分子,然后将其进一步片段化。选择包括生物素连接衔接子和原始插入序列的两个末端的子片段用于在平台上测序,该平台被设计用于对较短的片段进行测序。

可通过本领域技术人员已知的多种方法中的任意一种方法来实现片段化。例如,可通过机械方法来实现片段化,机械方法包括但不限于雾化、超声处理和水剪切。然而,机械片段化通常会在C-O、P-O和C-C键处切割DNA主链,从而产生具有断裂的C-O、P-O和/C-C键的平末端以及3'-和5'-突出端的异质混合物(参见,例如,Alnemri和Liwack,J Biol.Chem,第265卷,第17323-17333页[1990];Richards和Boyer,J Mol Biol,第11卷,第327-240页[1965]),其可能需要修复,因为它们可能缺乏后续酶促反应必需的5'-磷酸,例如测序衔接子的连接,这些测序衔接子是制备用于测序的DNA所需的。

相比之下,cfDNA通常以小于约300个碱基对的片段存在,因此片段化通常不是使用cfDNA样品生成测序文库所必需的。

通常,无论多核苷酸是强制片段化的(例如体外片段化的)还是作为片段天然存在的,它们均转化成具有5'-磷酸和3'-羟基的平末端DNA。标准方案,例如,使用例如本文他处所述的Illumina平台进行测序的方案,指示用户对样品DNA进行末端修复,在dA-加尾之前对末端修复的产品进行纯化,以及在文库制备的衔接子连接步骤之前对dA-加尾产品进行纯化。

本文所述的测序文库制备方法的各种实施方案无需执行标准方案通常要求的一个或多个步骤来获得可由NGS测序的经修饰的DNA产物。简化方法(ABB方法)、1步方法和2步方法是用于制备测序文库的方法的示例,其可见于2012年7月20日提交的专利申请13/555,037,该专利申请全文以引用方式并入本文。

测序方法

如上所述,将所制备的样品(例如测序文库)作为用于识别拷贝数变异程序的一部分进行测序。可利用多种测序技术中的任意一种技术。

一些测序技术是可商购获得的,例如从Affymetrix公司(Sunnyvale,CA)获得的边杂交边测序平台,从454Life Sciences(Bradford,CT)、Illumina/Solexa(San Diego,CA)和Helicos Biosciences(Cambridge,MA)获得的边合成边测序平台以及从AppliedBiosystems(Foster City,CA)获得的边连接边测序平台,如下所述。除了使用HelicosBiosciences的边合成边测序进行的单分子测序之外,其他单分子测序技术包括但不限于Pacific Biosciences的SMRT

虽然自动桑格法(Sanger method)被认为是“第一代”技术,但包括自动桑格测序(Sanger sequencing)的桑格测序也可用于本文所述的方法中。另外的合适测序方法包括但不限于核酸成像技术,例如原子力显微镜(AFM)或透射电子显微镜(TEM)。下文更详细地描述了示例性的测序技术。

在一些实施方案中,所公开的方法涉及通过使用Illumina的边合成边测序和基于可逆终止子的测序化学对数百万个DNA片段进行大规模并行测序来获得试验样品中的核酸的序列信息(例如,如Bentley等人,Nature,第6卷,第53-59页[2009]中所述)。模板DNA可以是基因组DNA,例如细胞DNA或cfDNA。在一些实施方案中,将来自分离细胞的基因组DNA用作模板,并且将其片段化成几百个碱基对的长度。在其他实施方案中,将cfDNA用作模板,并且不需要将其片段化,因为cfDNA是作为短片段存在的。例如,胎儿cfDNA在血流中以长度为约170个碱基对(bp)的片段循环(Fan et al.,Clin Chem,第56卷,第1279-1286页[2010]),并且不需要在测序之前将该DNA片段化。Illumina的测序技术依赖于将片段化的基因组DNA连接到锚寡核苷酸所结合的平面的光学透明表面。将模板DNA进行末端修复以产生5'-磷酸化的平末端,并且使用克列诺片段(Klenow fragment)的聚合酶活性将单个A碱基添加到平末端磷酸化的DNA片段的3'末端。此添加制备用于连接至寡核苷酸衔接子的DNA片段,所述寡核苷酸衔接子在其3'末端具有单个T碱基的突出端以提高连接效率。衔接子寡核苷酸与流通池锚寡核苷酸互补(不会与重复扩增分析中的锚/锚定读段混淆)。在有限稀释条件下,将接头修饰的单链模板DNA添加到流通池中,并通过与锚寡核苷酸杂交进行固定。将连接的DNA片段延伸并桥式扩增以产生具有数亿簇的超高密度测序流通池,每个簇包含约1,000个相同模板的拷贝。在一个实施方案中,随机片段化的基因组DNA在其进行簇扩增之前使用PCR进行扩增。另选地,使用无扩增基因组文库制备,并且仅使用簇扩增来富集随机片段化的基因组DNA(Kozarewa等人,Nature Methods,第6卷:第291-295页[2009])。使用稳健的四色DNA边合成边测序技术对模板进行测序,该技术采用具有可去除荧光染料的可逆终止子。使用激光激发和全内反射光学器件来实现高灵敏度荧光检测。将约几十至几百个碱基对的短序列读段与参考基因组进行比对,并且使用专门开发的数据分析管线软件来识别短序列读段与参考基因组的唯一映射。在第一次读取完成之后,模板可原位再生以能够从片段的相反端进行第二次读取。因此,可使用DNA片段的单末端或配对末端测序。

本发明的各种实施方案可使用允许配对末端测序的边合成边测序。在一些实施方案中,Illumina的边合成边测序涉及聚类片段。进行聚类是其中每个片段分子进行等温扩增的过程。在一些实施方案中,如此处所述的示例,片段具有连接至该片段的两个末端的两种不同衔接子,所述衔接子允许该片段与流通池泳道表面上的两种不同寡核苷酸杂交。片段还包括或连接至片段两端的两个索引序列,所述索引序列提供标记以在多重测序中识别不同的样品。在一些测序平台中,待测序的片段也称为插入序列。

在一些具体实施中,用于在Illumina平台中进行聚类的流通池是具有泳道的载玻片。每个泳道是涂覆有两种类型寡核苷酸的引物苔的玻璃通道。通过在表面上的两种类型寡核苷酸中的第一种寡核苷酸来实现杂交。该寡核苷酸与片段一个末端上的第一接头互补。聚合酶产生杂交片段的互补链。双链分子变性,并且原始模板链被洗掉。剩余的链与许多其他剩余的链平行,通过桥式应用进行克隆扩增。

在桥式扩增中,链的第二末端上的第二衔接子区域域与流通池表面上的第二类型的寡核苷酸杂交。聚合酶产生互补链,从而形成双链桥式分子。该双链分子变性,导致两个单链分子通过两种不同的寡核苷酸连接到流通池。然后反复重复该过程,并且同时在数百万个簇中进行,从而导致所有片段的克隆扩增。在桥式扩增之后,反向链被裂解并洗掉,仅留下正向链。封闭3'端以防止不需要的引发。

在聚类之后,测序开始于延伸第一测序引物以生成第一读段。在每次循环中,荧光标记的核苷酸竞争添加到正在增长的链中。基于模板的序列仅掺入一个荧光标记的核苷酸。在添加每个核苷酸后,簇由光源激发,并发出特征性荧光信号。循环次数决定了读段的长度。发射波长和信号强度决定了碱基判定。同时读取给定簇的所有相同的链。以大规模平行的方式对数以亿计的簇进行测序。在完成第一次读取时,将所读取的产物洗掉。

在包括两种索引引物的方案的下一步骤中,引入索引1引物并将其与模板上的索引1区域杂交。索引区域提供对片段的识别,这可用于在多重测序过程中解复用样品。生成与第一次读取类似地索引1读取。在完成索引1读取之后,将所读取的产物洗掉,并将链的3'末端去保护。然后模板链折叠并结合至流通池上的第二寡核苷酸。以与索引1相同的方式读取索引2序列。然后在步骤结束时洗掉索引2读段产物。

在读取两个索引后,通过使用聚合酶来延伸第二流通池寡核苷酸从而形成双链桥来启动读取2。该双链DNA变性,并且3'端被阻断。原正向链被切割并洗掉,留下反向链。读取2以引入读取2测序引物开始。与读取1一样,重复测序步骤直到实现所需长度。将读取2产物洗掉。该整个过程生成数百万个读段,表示所有片段。基于在样品制备期间引入的唯一索引来分离来自合并样品文库的序列。对于每个样品,对碱基判定的相似延伸的读段进行本地聚类。将正向和反向读段配对,从而产生邻接序列。将这些邻接序列与参考基因组进行比对以进行变异体鉴定。

上述边合成边测序示例涉及配对末端读段,其用于所公开方法的许多实施方案中。配对末端测序涉及从片段两个末端进行的2次读取。配对末端读段用于解决模糊比对。配对末端测序允许使用者选择插入序列(或待测序的片段)的长度并对插入序列的任一端进行测序,从而产生高质量、可比对的序列数据。因为每个配对读段之间的距离是已知的,所以比对算法可以使用该信息更精确地映射重复区域上的读段。这能更好地实现读段比对,特别是在基因组中难以测序的、重复的区域上。配对末端测序可检测重排,包括插入和缺失(插入缺失)和倒位。

配对末端读段可使用不同长度的插入序列(即,待测序的不同片段大小)。作为本公开中的默认含义,配对末端读段用于指从各种插入序列长度中获得的读段。在一些情况下,为了区分短插入序列配对末端读段与长插入序列配对末端读段,后者具体被称为配对读段。在包括配偶对读段的一些实施方案中,首先将两个生物素连接衔接子连接到相对长的插入序列(例如,几kb)的两个末端。然后所述生物素连接衔接子连接插入序列的这两个末端以形成环化分子。然后可通过进一步使该环状化分子片段化来获得包含所述生物素连接衔接子的亚片段。然后可通过与上述短插入序列配对末端测序相同的程序对以相反序列顺序包含原始片段的两个末端的亚片段进行测序。使用Illumina平台的配对测序的更多细节示于以下的网址在线公布中,该网址以引用方式并入:res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf

在DNA片段测序后,将预定长度(例如,100bp)的序列读段映射到已知的参考基因组或与其进行比对。所映射的或比对的读段及它们在参考序列上的对应位置也称为标签。本文所公开的用于确定重复扩增的许多实施方案的分析利用比对不佳或不能比对的读段以及比对读段(标签)。在一个实施方案中,参考基因组序列是NCBI36/hg18序列,其可在万维网上在以下网址获得:genome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)。另选地,参考基因组序列是GRCh37/hg19,其可在万维网上在以下网址获得:genome.ucsc.edu/cgi-bin/hgGateway。公共序列信息的其他来源包括GenBank、dbEST、dbSTS、EMBL(欧洲分子生物学实验室)和DDBJ(日本DNA数据库)。多种计算机算法可用于比对序列,包括但不限于BLAST(Altschul等人,1990年)、BLITZ(MPsrch)(Sturrock和Collins,1993年)、FASTA(Person和Lipman,1988年)、BOWTIE(Langmead等人,GenomeBiology,10:R25.1-R25.10[2009年])或ELAND(Illumina公司,San Diego,CA,USA)。在一个实施方案中,对血浆cfDNA分子的克隆扩增拷贝的一端进行测序,并通过Illumina基因组分析仪的生物信息学比对分析进行处理,该分析仪使用核苷酸数据库(ELAND)软件的高效大规模比对。

在一个例示性但非限制性的实施方案中,本文所述的方法包括使用Helicos True单分子测序(tSMS)技术的单分子测序技术(例如,如Harris T.D.等人,Science,第320卷,第106-109页[2008]中所述)获得试验样品中核酸的序列信息。在tSMS技术中,将DNA样品切割成大约100至200个核苷酸的链,并且将polyA序列添加到每个DNA链的3'端。每条链通过添加荧光标记的腺苷核苷酸进行标记。然后使DNA链与流通池杂交,该流通池包含数百万个固定到流通池表面的寡核苷酸-T捕获位点。在某些实施方案中,模板的密度可为约1亿模板/cm

在另一个例示性但非限制性的实施方案中,本文所述的方法包括使用454测序(Roche)获得试验样品中核酸的序列信息(例如,如Margulies,M.等人,Nature,第437卷,第376-380页[2005]中所述)。454测序通常涉及两个步骤。在第一步中,将DNA剪切成大约300至800个碱基对的片段,并且该片段是平末端的。然后将寡核苷酸衔接子连接至片段的末端。衔接子充当用于扩增和测序片段的引物。可使用例如含有5'-生物素标签的衔接子B将片段连接至DNA捕获小珠,例如链霉亲和素包被的小珠。连接在小珠上的片段在油-水乳液的液滴内进行PCR扩增。结果是每个小珠上有克隆扩增的DNA片段的多个拷贝。在第二步中,将小珠捕集在孔(例如皮升大小的孔)中。对每个DNA片段并行进行焦磷酸测序。添加一个或多个核苷酸产生光信号,该光信号由CCD相机记录在测序仪器中。信号强度与掺入的核苷酸数成比例。焦磷酸测序利用核苷酸添加时释放的焦磷酸盐(PPi)。在腺苷5'磷酸硫酸盐的存在下通过ATP硫酸化酶将PPi转化成ATP。荧光素酶使用ATP将荧光素转化为氧荧光素,并且该反应产生被测量和分析的光。

在另一个例示性但非限制性的实施方案中,本文所述的方法包括使用SOLiD

在另一个例示性但非限制性的实施方案中,本文所述的方法包括使用PacificBiosciences的单分子实时(SMRT

在另一个例示性但非限制性的实施方案中,本文所述的方法包括使用纳米孔测序获得试验样品中核酸的序列信息(例如,如Soni GV和Meller A,Clin Chem,第53卷,第1996-2001页[2007]中所述)。纳米孔测序DNA分析技术由许多公司开发,包括例如OxfordNanopore Technologies(Oxford,United Kingdom)、Sequenom、NABsys等。纳米孔测序是单分子测序技术,由此当单个分子的DNA穿过纳米孔时对其直接测序。纳米孔是直径通常为大约1纳米的孔。将纳米孔浸没在导电流体中并在其上施加电势(电压)由于离子传导通过纳米孔而导致轻微的电流。流动的电流量对纳米孔的尺寸和形状敏感。当DNA分子穿过纳米孔时,DNA分子上的每个核苷酸以不同程度阻塞纳米孔,从而以不同程度改变通过纳米孔的电流的大小。因此,当DNA分子通过纳米孔时,电流的这种变化提供DNA序列的读段。

在另一个例示性但非限制性的实施方案中,本文所述的方法包括使用化学敏感场效应晶体管(chemFET)阵列获得试验样品中核酸的序列信息(例如,如美国专利申请公布2009/0026082中所述)。在该技术的一个示例中,可将DNA分子置于反应室中,并且可将模板分子与结合到聚合酶的测序引物杂交。在测序引物的3'端将一种或多种三磷酸盐掺入新核酸链可通过chemFET识别为电流的变化。阵列可具有多个chemFET传感器。在另一个示例中,可将单个核酸连接到小珠,并且可在小珠上扩增核酸,并且可将各个小珠转移到chemFET阵列上的各个反应室,其中每个室具有chemFET传感器,并且可对核酸进行测序。

在另一个实施方案中,DNA测序技术是Ion Torrent单分子测序,其将半导体技术与简单的测序化学配对以将化学编码的信息(A、C、G、T)直接转化成半导体芯片上的数字信息(0、1)。在自然界中,当核苷酸通过聚合酶掺入DNA链中时,氢离子作为副产物释放。IonTorrent使用微机械孔的高密度阵列以大规模并行方式执行该生化过程。每个孔容纳不同的DNA分子。孔下面的是离子敏感层并且在离子传感器的下面。当将核苷酸例如C添加到DNA模板并随后掺入DNA链中时,氢离子将被释放。来自该离子的电荷将改变溶液的pH,这可由Ion Torrent的离子传感器检测。测序仪—基本上世界上最小的固态pH计—称为碱,直接从化学信息变为数字信息。Ion个人化基因组测序仪(PGM

在另一个实施方案中,本发明方法包括使用杂交测序获得试验样品中核酸的序列信息。边杂交边测序包括使多个多核苷酸序列与多个多核苷酸探针接触,其中所述多个多核苷酸探针中的每一个多核苷酸探针可任选地连接至基板。基底可以是包括已知核苷酸序列的阵列的平坦表面。与阵列的杂交模式可用于确定样品中存在的多核苷酸序列。在其他实施方案中,每个探针连接到小珠,例如磁性小珠等。可确定与小珠的杂交并用于识别样品内的多个多核苷酸序列。

在本文所述方法的一些实施方案中,序列读段为约20bp、约25bp、约30bp、约35bp、约40bp、约45bp、约50bp、约55bp、约60bp、约65bp、约70bp、约75bp、约80bp、约85bp、约90bp、约95bp、约100bp、约110bp、约120bp、约130bp、约140bp、约150bp、约200bp、约250bp、约300bp、约350bp、约400bp、约450bp或约500bp。预期的是,技术进步将使单末端读段能够大于500bp,在生成配对末端读段时,使读段能够大于约1000bp。在一些实施方案中,配对末端读段用于确定重复扩增,其包括约20bp至1000bp、约50bp至500bp或80bp至150bp长的序列读段。在各种实施方案中,配对末端读段用于评估具有重复扩增的序列。具有重复扩增的序列比读段长。在一些实施方案中,具有重复扩增的序列长于约100bp、500bp、1000bp或4000bp。通过将读段序列与参考序列进行比较以确定经测序的核酸分子的染色体来源来实现序列读段的映射,并且不需要特定的遗传序列信息。可允许小程度的错配(0-2个错配/读段)解释混合样品中参考基因组与基因组之间可能存在的微小多态性。在一些实施方案中,与参考序列比对的读段用作锚读段,并且与该锚读段配对但不能与参考序列比对或比对不佳的读段用作锚定读段。在一些实施方案中,比对不佳的读段每个读段可具有相对较大的错配百分比,例如每个读段具有至少约5%、至少约10%、至少约15%或至少约20%的错配百分比。

通常每个样品获得多个序列标签(即与参考序列比对的读段)。在一些实施方案中,至少约3×10

用于确定重复扩增的装置和系统

通常使用各种计算机执行的算法和程序来执行测序数据的分析和从其推导的诊断。因此,某些实施方案采用包括存储在一个或多个计算机系统或其他处理系统中或通过一个或多个计算机系统或其他处理系统传输的数据的过程。本文所公开的实施方案还包括用于执行这些操作的装置。该装置可被专门构造用于所需目的,或者其可以由存储在计算机中的计算机程序和/或数据结构来选择性地激活或重新配置的通用计算机(或计算机组)。在一些实施方案中,处理器组协同地(例如,经由网络或云计算)和/或并行地执行所述分析操作中的一些或全部操作。用于执行本文所述的方法的处理器或处理器组可以是各种类型,包括微控制器和微处理器,微处理器诸如可编程设备(例如,CPLD和FPGA)和不可编程设备(诸如门阵列ASIC或通用微处理器)。

一个实施方案提供用于确定包括重复序列的基因座处变异体的基因型的系统,该系统包括用于接收核酸样品并提供来自样品的核酸序列信息的测序仪;处理器;以及机器可读存储介质,该机器可读存储介质具有存储在其上的指令,该指令用于在所述处理器上执行以通过以下方式对该变异体进行基因分型:(a)从数据库收集试验样品的核酸序列读段;(b)将序列读段与各自由序列图表示的一个或多个重复序列比对,其中序列图具有有向图的数据结构,该有向图具有表示核酸序列的顶点和连接该顶点的有向边缘,并且其中该序列图包括一个或多个自环,每个自环表示重复子序列,每个重复子序列包括一个或多个核苷酸的重复单元的重复;以及(c)使用与所述一个或多个重复序列比对的序列读段确定所述一个或多个重复序列的一个或多个基因型。

在本文提供的系统中的任意一种系统的一些实施方案中,测序仪被配置为执行下一代测序(NGS)。在一些实施方案中,测序仪被配置为使用具有可逆染料终止子的边合成边测序来执行大规模并行测序。在其他实施方案中,测序仪被配置为执行边连接边测序。在其他实施方案中,测序仪被配置为执行单分子测序。

此外,某些实施方案涉及有形和/或非暂态计算机可读介质或计算机程序产品,其包括用于执行各种计算机实现的操作的程序指令和/或数据(包括数据结构)。计算机可读介质的示例包括但不限于半导体存储器设备、磁性介质(诸如磁盘驱动器)、磁带、光学介质(诸如CD)、磁光介质以及被专门配置为存储和执行程序指令的硬件设备,诸如只读存储器设备(ROM)和随机存取存储器(RAM)。计算机可读介质可由最终用户直接控制,或者所述介质可由最终用户间接控制。直接控制介质的示例包括位于用户设施处的介质和/或不与其他实体共享的介质。间接控制介质的示例包括用户可经由外部网络和/或经由提供共享资源(诸如“云”)的服务间接访问的介质。程序指令的示例包括诸如由编译器产生的机器代码以及包含可由计算机使用解释器执行的较高级代码的文件。

在各种实施方案中,在本发明所公开的方法和装置中采用的数据或信息以电子格式提供。此类数据或信息可包括来源于核酸样品的读段和标签、参考序列(包括仅提供或主要提供多态性的参考序列)、判定诸如重复扩增判定、咨询建议、诊断等。如本文所用,以电子格式提供的数据或其他信息可用于存储在机器上并在机器之间传输。常规地,电子格式的数据以数字方式提供,并且可作为位和/或字节存储在各种数据结构、列表、数据库等中。数据可以电子方式、光学方式等体现。

一个实施方案提供了用于生成输出的计算机程序产品,该输出指示试验样品中是否存在重复扩增。计算机产品可包含用于执行用于确定重复扩增的上述方法中的任何一者或多者的指令。如所解释的,计算机产品可包括非暂态和/或有形计算机可读介质,该非暂态和/或有形计算机可读介质具有记录在其上的计算机可执行或可编译逻辑(例如,指令),以用于使处理器能够确定锚定读段和该锚定读段中的重复,以及是否存在重复扩增。在一个示例中,计算机产品包括计算机可读介质,该计算机可读介质具有记录在其上的用于使处理器能够诊断重复扩增的计算机可执行或可编译的逻辑(例如,指令),该计算机可执行或可编译的逻辑包括:用于接收来自生物样品的至少一部分核酸分子的测序数据的接收程序,其中所述测序数据包括已经历与重复序列比对的配对末端读段;用于分析来自所述接收到的数据的重复扩增的计算机辅助逻辑;以及用于生成输出的输出程序,该输出指示重复扩增的存在、不存在或种类。

可将来自所考虑的样品的序列信息映射到染色体参考序列,以识别与所关注重复序列比对或锚定的配对末端读段,并识别重复序列的重复扩增。在各种实施方案中,参考序列存储在数据库诸如关系数据库或对象数据库中。

应当理解,对于无辅助的人类而言,执行本文所公开的方法的计算操作是不切实际的,甚至在大多数情况下是不可能的。例如,在没有计算装置辅助的情况下,将来自样品的单个30bp读段映射到人类染色体中的任意一条染色体可能需要多年的努力。当然,由于可靠的重复扩增判定通常需要将数千(例如,至少约10,000)或甚至数百万的读段映射到一条或多条染色体,因此该问题是复杂的。

在各种具体实施中,将原始序列读段与表示一个或多个所关注序列的一个或多个序列图比对。在各种具体实施中,至少10,000、100,000、500,000、1,000,000、5,000,000或10,000,000个读段与一个或多个序列图比对。在各种具体实施中,一个或多个序列图包括至少1、2、5、10、50、100、500、1000、5,000、10,000或50,000个序列图。

在一些具体实施中,在将初始比对的读段的子集与表示一个或多个所关注序列的一个或多个序列图比对之前,将原始序列读段与参考基因组初始比对以确定读段的基因组坐标。在各种具体实施中,至少10,000、100,000、500,000、1,000,000、5,000,000、10,000,000或100,000,000个读段与参考基因组初始比对。在一些具体实施中,将初始比对的读段与序列图重新比对以确定多个区域(每个区域对应于序列图)处的重复扩增。在具体实施的每次判定期间与序列图重新比对的读段的总数目可在数千至数百万个读段的范围内。在各种具体实施中,将至少100个、500个、1,000个、5,000个、10,000个、50,000个、100,000个、500,000个、1,000,000个、5,000,000个或10,000,000个读段与每个序列图重新比对。在各种具体实施中,一个或多个序列图包括至少1、2、5、10、50、100、500、1000、5,000、10,000或50,000个序列图。

本文所公开的方法可使用用于确定包含重复序列的基因座处变异体的基因型的系统来执行。该系统可包括:(a)用于从试验样品接收核酸的测序仪,该测序仪从样品提供核酸序列信息;(b)处理器;和(c)一个或多个计算机可读存储介质,该计算机可读存储介质具有存储在其上的指令,该指令用于在所述处理器上执行以对包括重复序列的基因座处的变异体进行基因分型。在一些实施方案中,该方法由其上存储有用于执行用于识别任何重复扩增的方法的计算机可读指令的计算机可读介质指示。因此,一个实施方案提供了一种计算机程序产品,该计算机程序产品包括存储程序代码的非暂态机器可读介质,该程序代码在由计算机系统的一个或多个处理器执行时,使该计算机系统实施用于识别包括核酸的试验样品中的重复序列的重复扩增的方法,其中该重复序列包括核苷酸的重复单元的重复。程序代码可包括:(a)用于收集来自数据库的试验样品的序列读段的代码;(b)用于将序列读段与各自由序列图表示的一个或多个重复序列比对的代码,其中序列图具有有向图的数据结构,该有向图具有表示核酸序列的顶点和连接该顶点的有向边缘,并且其中该序列图包括一个或多个自环,每个自环表示重复子序列,每个重复子序列包括一个或多个核苷酸的重复单元的重复;以及(c)用于使用与所述一个或多个重复序列比对的序列读段确定所述一个或多个重复序列的一个或多个基因型的代码。

在一些实施方案中,指令还可包括自动记录与提供试验样品的人类受检者的患者病历中的重复和锚定读段以及重复扩增存在与否的方法相关的信息。可由例如实验室、医师办公室、医院、健康维护组织、保险公司或个人病历网站来维护患者病历。此外,基于处理器实现的分析的结果,方法还可包括开处方、启动和/或改变从中获取试验样品的人类受试者的治疗。这可涉及对从受试者中获得的另外的样品执行一个或多个另外的测试或分析。

本发明所公开的方法还可使用计算机处理系统来执行,该计算机处理系统适于或被配置为执行用于识别任何重复扩增的方法。一个实施方案提供了适于或被配置为执行如本文所述的方法的计算机处理系统。在一个实施方案中,该装置包括测序设备,该测序设备适于或被构造用于对样品中的核酸分子的至少一部分进行测序,以获得本文其他地方所述的序列信息的类型。该装置还可包括用于处理样品的部件。此类部件在本文他处有所描述。

序列或数据可直接或间接地输入到计算机中或存储在计算机可读介质上。在一个实施方案中,计算机系统直接联接到读取和/或分析来自样品的核酸序列的测序设备。来自此类工具的序列或其他信息经由计算机系统中的接口提供。另选地,由系统处理的序列由序列存储源诸如数据库或其他储存库提供。一旦可供处理装置使用,存储器设备或大容量存储装置就会至少暂时地缓冲或存储核酸序列。此外,该存储器设备可存储各种染色体或基因组等的标签计数。该存储器还可存储用于分析呈现序列或映射数据的各种例程和/或程序。此类程序/例程可包括用于执行统计分析的程序等。

在一个示例中,用户将样品置于测序装置中。通过连接到计算机的测序装置来采集和/或分析数据。计算机上的软件允许数据采集和/或分析。可将数据存储、显示(经由监视器或其他类似设备)和/或发送到另一个位置。计算机可连接到互联网,该互联网用于将数据传输到由远程用户(例如,医师、科学家或分析员)使用的手持设备。应当理解,可在传输之前存储和/或分析数据。在一些实施方案中,采集原始数据并将其发送到将分析和/或存储该数据的远程用户或装置。传输可经由互联网进行,但也可经由卫星或其他连接进行。另选地,数据可存储在计算机可读介质上,并且该介质可发送到最终用户(例如,经由邮件)。远程用户可位于相同或不同的地理位置,包括但不限于建筑物、城市、州、国家或洲。

在一些实施方案中,方法还包括采集关于多条多核苷酸序列的数据(例如读段、标记和/或参考染色体序列)并将该数据发送到计算机或其他计算系统。例如,计算机可连接到实验室装备,例如样品采集装置、核苷酸扩增装置、核苷酸测序装置或杂交装置。然后,计算机可采集由实验室设备收集的适用数据。数据可在任何步骤存储在计算机上,例如,在实时收集时、在发送之前、在发送期间或与发送同时、或在发送之后。数据可存储在可从计算机提取的计算机可读介质上。所采集或存储的数据可例如经由局域网或广域网(诸如互联网)从计算机传输到远程位置。在该远程位置处,可对所传输的数据执行各种操作,如下所述。

在本文所公开的系统、装置和方法中,可存储、传输、分析和/或操纵的电子格式数据的类型如下:

通过对试验样品中的核酸测序而获得的读段

通过将读段与参考基因组或其他一个或多个参考序列进行比对而获得的标签

参考基因组或序列

指示基因座同一性、位置和结构的基因座规格

读段覆盖率

变异体的基因型

序列图

图形路径

图形比对信息

重复扩增的实际判定

诊断(与判定相关联的临床病症)

对来源于判定和/或诊断的进一步测试的建议

来源于判定和/或诊断的治疗和/或监测计划

可使用不同的装置在一个或多个位置处获得、存储、分析和/或操纵这些各种类型的数据。处理选项范围很广。在最简单的情况下,在处理试验样品的位置处(如医生办公室或其他临床环境)存储和使用所有或大部分的这些信息。在最复杂的情况下,在一个位置处获得样品,在不同位置处对其进行处理并且任选地测序,在一个或多个不同位置处将读段进行比对并且作出判定,并且在又一个位置(其可以是获得样品的位置)处准备诊断、建议和/或计划。

在各种实施方案中,用测序装置生成读段,然后将读段传输到远程位点,在此处对读段进行处理以产生重复扩增判定。在该远程位置处,例如,将读段与参考序列比对以产生锚读段和锚定读段。在处理操作中,可在不同位置采用以下操作:

样品采集

测序前的样品处理

测序

分析序列数据并导出重复扩增判定

诊断

向患者或医疗服务人员报告诊断和/或判定

开发用于进一步治疗、测试和/或监测的计划

这些操作中的任意一个或多个操作可以是自动化的,如本文他处所述。通常,序列数据的测序和分析以及得出重复扩增判定将通过计算来执行。其他操作可手动或自动执行。

图18示出了用于从试验样品中产生判定或诊断的分散系统的一个具体实施。样品收集位置01用于从患者获得试验样品。然后将样品提供给处理和测序位置03,在此处可如上所述对试验样品进行处理和测序。位置03包括用于处理样品的装置以及用于对经处理的样品进行测序的装置。如本文他处所述,测序的结果是读段的集合,其通常以电子格式提供并提供给网络诸如互联网,其由图18中的参考标号05指示。

将序列数据提供给执行分析和判定生成的远程位置07。该位置可包括一个或多个强大的计算设备,诸如计算机或处理器。在位置07处的计算资源已完成其分析并根据所接收的序列信息生成判定之后,将该判定中继回到网络05。在一些具体实施中,在位置07处不仅生成判定,而且还生成相关联的诊断。然后将该判定和/或诊断通过网络传输并返回至如图18所示的样品采集位置01。如所解释的,这仅仅是关于如何在各种位置之间划分与生成判定或诊断相关联的各种操作的许多变型中的一种变型。一种常见的变异体涉及在单个位置提供样品收集、处理和测序。另一种变型包括在与分析和判定生成相同的位置处提供处理和测序。

实验

实施例1:短重复

实施例1-3根据一些具体实施可视化经正确基因分型的重复区域。考虑ATXN3重复的读段堆积,其等位基因短于图19所示的读段长度。图19示出了具有基因型20/20的ATXN3重复的读段堆积,该基因型20/20在两个单倍型的重复区域1902中具有20个基序。序列中断对应于在大多数读段比对中具有错配的位置。

此图的每个图对应于单倍型。单倍型序列和读段根据它们与重复1902(橙色)或周围侧接序列(蓝色)的重叠来着色。示出了读段中的所有错配碱基,并且其中比对被剪裁的位置由锯齿状边缘指示。

堆积图显示,基因型判定受到读段的良好支持,因为每个等位基因受到许多跨越读段(跨越整个重复序列的读段)支持,并且因为不存在具有不一致比对的读段。(不一致的比对意味着读段与两种单倍型中的任一者不一致——例如,具有40个重复序列的读段与基因型20/20不一致。)有明显的重复序列中断的证据。例如,倒数第三个基序中的胞嘧啶突变为胸腺嘧啶。

实施例2:扩增的重复

图20描绘了具有规则大小等位基因2002和扩增的等位基因2204的DMPK重复。扩增的重复受到读段的良好支持,因为具体实施在整个重复中分配读段,以在整个单倍型上实现类似的读段覆盖率。请注意,重复中的读段的比对位置是随机选择的。短等位基因也受到大量跨越读段的良好支持。

实施例3:具有两个相邻重复的基因座

为了展示一些具体实施的更复杂的应用,将这些具体实施用于可视化包含两个相邻重复的HTT重复区域:致病CAG重复和相邻的“冗余”CCG重复。前面的重复被基因分型为14/17,后面的重复被基因分型为9/12。图21A示出了包含两个相邻的重复的HTT基因座的读段堆积,即CAG重复2104和2108CCG重复。堆积还包括左侧接序列2102、间插序列2106CAACAG和右侧接序列2110。

因此,图21A所示的单倍型中的一个单倍型包含大小分别为14和12的重复,而其他单倍型包含大小为17和9的重复。很明显,这两种单倍型都得到读段的良好支持。另外,堆积图显示,在两个单倍型上的CCG重复基序的第二拷贝中存在G至A突变。值得注意的是,覆盖水平相对均匀地跨越两个单倍型上的位置。

为了比较,图21B示出了使用常规工具和相同序列读段数据的HTT区域的序列堆积。堆积仅包括一条链参考序列,而不是两个个性化的单倍型。重复区域包括两个相邻的重复,即CAG重复(2124)和CCG重复(2128)。堆积还包括左侧接序列(2122)、间插序列CAACAG(2126)和右侧接序列(2130)。注意,序列读段不均匀地分布在参考序列之间。重复区域2128中的覆盖率低,大量读段被划分为延伸跨越具有低覆盖率或没有覆盖率的重复区域的区段。此迹象表明,数据与该区域的参考的基因型不匹配,但堆积并不能清楚地指示样品的真实基因型。

实施例4:高估重复大小

实施例4和5可视化基因分型不正确的重复区域。为了给出对应于假阳性重复扩增判定的堆积的示例,实施例4示出了来自具有纯合基因型10/10的C9ORF72重复区域的模拟读段。实践人员在C均聚物读段中加标,该读段与重复序列具有稍微接近的相似性,并且进行了一些具体实施,强制使重复基因型为10/30而不是10/10。图22示出了读段堆积,其包括使用模拟数据在一个单倍型上的2204重复区域中错误地判定C9ORF72重复的扩增。另一个单倍型上的重复区域2202未被扩增。正如预期的那样,堆积显示,除了一个读段之外,置于具有较长重复的单倍型上的所有读段也与较短的单倍型一致。只有一个比对不佳的读段支持扩增。在实践中,这将被认为是由单个低质量读段引起的可能的假阳性。

实施例5:低估重复大小

为了生成假阴性重复扩增判定的示例,实践人员模拟了具有基因型15/55的FMR1重复,并且然后强制生成对应于(不正确的)基因型15/30的读段堆积。图23示出了对应于基因型的FMR1重复堆积,其中在2304处最长等位基因的大小被低估,而最短等位基因2302的大小是正确的。注意,为了协调来源于大小为55的重复序列的读段,一些具体实施将比对的末端裁剪为最长等位基因的大小。因为存在过多的读段与具有30个基序的重复重叠,并且因为所有这些读段都由重复序列组成,因此实践人员可以得出结论,重复序列的大小可能被低估了。

本公开可以以其他特定形式体现而不脱离其精神或本质特征。所述实施方案在所有方面都应被视为仅为示例性的而非限制性的。因此,本公开的范围由所附权利要求书而非前述描述来指示。在权利要求的等效含义和范围内的所有改变都将包含在其范围内。

技术分类

06120115928030