掌桥专利:专业的专利平台
掌桥专利
首页

使用可变重复多重PCR测序的方法

文献发布时间:2023-06-19 10:27:30


使用可变重复多重PCR测序的方法

本申请要求于2018年8月8日提交的美国临时申请第62/716,082号的权益,此申请通过引用的方式并入本文中。

背景技术

许多疾病由遗传变异引起,例如体细胞突变。由于遗传变异通常仅发生在体内细胞的一部分中,所以通过下一代测序(NGS)检测它们可能具有挑战性。一个问题是每种文库制备方法和测序平台产生含有错误的序列读段,例如PCR错误和测序错误。虽然有时可以校正系统误差(例如,与包括测序循环数、链、序列上下文和碱基置换概率的已知参数相关的那些误差),但通常不能肯定地断言序列中的变异是由误差引起还是为“真实的”遗传变异。如果样品的量是有限的并且含有突变的多核苷酸仅以相对低的水平(例如小于5%)存在于样品中,如同从血液中分离的游离DNA所常有的情形,则这一问题更加严重。例如,如果样品在100个除了不含有突变以外在其它方面与含有突变的多核苷酸毫无二致的多核苷酸的背景中仅含有一个含有突变的多核苷酸的拷贝,则在对所述多核苷酸测序之后,常常不能断定变异(其可能仅在约1/100的序列读段中观察到)是否是在扩增或测序期间发生的错误。因此,导致疾病的体细胞突变的检测极难肯定地检测出。

发明内容

下文描述了有助于鉴定低频序列变异(例如,来自血液的游离DNA)的工作流程。在一些实施例中,所述方法可包含分析各自含有同一样品的不同部分的多个PCR反应,其中引物对中的至少一些处于超过一个PCR反应中,并且所述PCR反应中的至少一个含有其它一个或多个反应的一些但不是所有引物对。在所述方法中,一些引物对比其它引物对在更多的反应中,这取决于许多因素。

在一些实施例中,所述方法可以包含:

(a)获得在多重PCR反应中相容的多个引物对;

(b)建立至少两个多重PCR反应,所述多重PCR反应各自含有同一样品的不同部分,其中引物对中的至少一些处于超过一个PCR反应中,并且PCR反应中的至少一个含有其它一个或多个反应的一些但不是所有引物对,其中对于不在所有PCR反应中的引物对中的至少一些,包含引物对的反应的数量取决于通过引物对扩增的扩增子中预期的一个或多个序列变异的感知重要性、可能性和/或类型;

(c)热循环所述多重PCR反应以产生多个重复扩增子;

(d)对所述扩增子测序以产生序列读段;

(e)针对选定的序列变异分析来自重复扩增子的序列读段,以产生所选定的序列变异的得分,其中所述得分:i.是基于包含频率高于截止频率的序列变异的重复扩增子的数目;或ii.指示在所有重复中序列变异的组合证据的强度;以及

(f)根据得分识别序列变异。

根据所述方法实施的方式,所述方法可以具有优于常规方法的某些优点。例如,本发明的方法可以提供更高的鉴定所述方法的使用者认为更重要的遗传变异的概率,而不需要简单地增加多重PCR反应的数量。

附图说明

本领域技术人员应明白,以下描述的附图仅出于说明目的。这些附图不旨在以任何方式限制本发明的范围。

图1示意性地示出了可在所要求保护的方法中产生的一组多重PCR反应的实例。所述实例简单地说明了所述方法的一些原理,并且不应以任何方式限制所述方法。

图2示出了如何使用具有高于截止频率的所选定的序列变异的重复的数目来识别遗传变异。

图3示出了如何通过使用所有多个重复中的遗传变异的组合证据来识别遗传变异。

除非另外说明,本文使用的所有技术和科学术语具有与本领域普通技术人员通常所理解的相同的含义。此外,为了清楚和便于参考,定义了某些元素。

本文使用的核酸化学、生物化学、遗传学和分子生物学的术语和符号遵循本领域中的标准论文和教科书,例如,Komberg和Baker,《DNA复制(DNAReplication)》,第二版(W.H.Freeman,纽约,1992);Lehninger,《生物化学(Biochemistry)》,第二版(WorthPublishers,纽约,1975);Strachan和Read,《人类分子遗传学(Human MolecularGenetics)》,第二版(Wiley-Liss,纽约,1999);Eckstein,编辑,《寡核苷酸和类似物:实践方法(Oligonucleotides and Analogs:A Practical Approach)》(牛津大学出版社,纽约,1991);Galt,编辑,《寡核苷酸分析:实践方法(Oligonucleotide Synthesis:A PracticalApproach)》(IRL出版社,牛津,1984);等等。

术语“核苷酸”旨在包括不仅含有已知的嘌呤和嘧啶碱基,而且还含有已被修饰的其它杂环碱基的那些部分。这些修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其它杂环。此外,术语“核苷酸”包括含有半抗原或荧光标记的那些部分,并且不仅可以含有常规核糖和脱氧核糖,还可以含有其它糖。修饰的核苷或核苷酸还包括针对糖部分的修饰,例如,其中一个或多个羟基被卤素原子或脂族基团取代,或经官能化为醚、胺等。

术语“核酸”和“多核苷酸”在本文中可互换使用以描述由核苷酸(例如脱氧核糖核苷酸或核糖核苷酸)组成的任何长度的聚合物,所述长度例如大于约2个碱基,大于约10个碱基,大于约100个碱基,大于约500个碱基,大于1000个碱基,大于10,000个碱基,大于100,000个碱基,大于约1,000,000个,多达约10

本文所用的术语“核酸样品”表示含有核酸的样品。本文所用的核酸样品可以复合的,其中含有多种不同的含有序列的分子。来自哺乳动物(例如小鼠或人)的基因组DNA样品是复合样品的类型。复合样品可以具有大于约10

本文所用的术语“寡核苷酸”表示长度为约2至200个核苷酸、最多500个核苷酸的核苷酸的单链多聚体。寡核苷酸可以是合成的或可以酶促制备,并且在一些实施例中,长度为30至150个核苷酸。寡核苷酸可以含有核糖核苷酸单体(即,可以是寡核糖核苷酸)或脱氧核糖核苷酸单体,或为核糖核苷酸单体和脱氧核糖核苷酸单体两者。寡核苷酸的长度可以为例如10至20、21至30、31至40、41至50、51至60、61至70、71至80、80至100、100至150或150至200个核苷酸。

“引物”意指天然或合成的寡核苷酸,其一旦与多核苷酸模板形成双链体,就能够充当核酸合成的起点并且从其3′端沿着模板延伸,从而形成延伸的双链体。在延伸过程中加入的核苷酸序列由模板多核苷酸的序列决定。通过DNA聚合酶延伸引物。引物的长度通常与其在引物延伸产物的合成中的用途相容,并且通常为8至200个核苷酸长度,例如10至100或15至80个核苷酸长度。引物可以含有不与模板杂交的5′尾。

为了使扩增效率最大化,引物通常是单链的,但也可以是双链或部分双链的。所述定义中还包括如Zhang等人(《自然化学(Nature Chemistry)》20124:208-214)中所述的趾端交换(toehold exchange)引物,所述案通过引用的方式并入本文中。

因此,“引物”与模板互补,并且通过氢键或杂交与模板复合得到引物/模板复合物以引发通过聚合酶的合成,所述引物通过在DNA合成过程中加成与其3′端共价键连的碱基而延伸,引物的3′端与模板互补。

术语“杂交化”或“杂交”是指其中核酸链的区域退火并在正常杂交条件下与第二条互补核酸链形成稳定的双链体(同源双链体或异源双链体),并且在相同的正常杂交条件下未与不相关的核酸分子形成稳定的双链体的过程。双链体的形成是通过在杂交反应中使两个互补的核酸链区域退火来完成的。可以通过调节杂交反应发生的杂交条件使杂交反应具有高度特异性,从而使两条核酸链在正常严格条件下不会形成稳定的双链体,例如保留双链性区域的双链体,除非基本上或完全互补的两条核酸链在特定序列中含有一定数目的核苷酸。对于任何给定的杂交反应,“正常杂交或正常严格条件”很容易确定。参见例如Ausubel等人,《现代分子生物学实验指南(Current Protocols in Molecular Biology)》,John Wiley&Sons,Inc.,纽约,或Sambrook等人,《分子克隆实验指南(Molecular Cloning:A Laboratory Manual)》,美国冷泉港实验室出版社(Cold Spring Harbor LaboratoryPress)。本文所用的术语“杂交”或“杂交化”是指核酸链通过碱基配对与互补链结合的任何过程。

如果两个序列在中度至高度严格杂交条件下彼此特异性杂交,则认为核酸“可选择性地杂交”到参考核酸序列中。中度和高度严格杂交条件是已知的(参见例如Ausubel等人,《精编分子生物学实验指南(Short Protocols in Molecular Biology)》,第三版,Wiley&Sons 1995和Sambrook等人,《分子克隆实验指南(Molecular Cloning:ALaboratory Manual)》,第三版,2001,Cold Spring Harbor,纽约)。

本文所用的术语“双链体”或“双链的”描述碱基配对的(即杂交在一起的)两个互补的多核苷酸区域。

关于基因组或靶多核苷酸的“基因位点”、“位点”、“目标位点”、“区域”或“片段”是指基因组或靶多核苷酸的连续亚区域或片段。如本文所用,基因位点、位点或目标位点可指在基因组中核苷酸、基因或基因的一部分的位置,或其可指基因组序列的任何连续部分,无论其是否在基因内或与其相关联,例如编码序列。基因位点、位点或目标位点可以是单个核苷酸至几百或几千个核苷酸或更长长度的片段。通常,目标位点具有与其相关的参考序列(参见以下对“参考序列”的描述)。

本文所用的术语“参考序列”是指已知的核苷酸序列,例如,序列保藏在NCBI的Genbank数据库或其它数据库中的染色体区域。参考序列可以是野生型序列。

术语“多数”、“群体”和“集合”可互换使用,是指含有至少2个成员的事物。在某些情况下,多数、群体或集合可具有至少10个、至少100个、至少1,000个、至少10,000个、至少100,000个、至少10

术语“样品标识符序列”、“样品索引”、“多重标识符”或“MID”是附加到靶多核苷酸的核苷酸序列,其中所述序列识别靶多核苷酸的来源(即,从其中衍生靶多核苷酸的样品)。在使用中,用不同的样品标识符序列标记每个样品(例如,将一个序列添加到每个样品中,其中将不同的样品添加到不同的序列中),并且合并标记的样品。对合并的样品测序后,样品标识符序列可用于鉴定序列的来源。可以将样品标识符序列添加到多核苷酸的5′端或多核苷酸的3′端。在某些情况下,样品标识符序列中的一些可以在多核苷酸的5′端,剩余的样品标识符序列可以在多核苷酸的3′端。当样品标识符的元素在每一端都具有序列时,3′和5′样本标识符序列一起标识样品。在许多实施例中,样品标识符序列仅仅是添加到靶寡核苷酸上的碱基的子集。

术语“重复标识符序列”是指允许来自不同重复的序列读段彼此区分的附加序列。重复标识符序列以与上述样品标识符序列相同的方式起作用,除了它们用于样品的重复上而不是不同的样品上。

在可变的两个或更多个核酸序列的上下文中,术语“可变的”是指具有相对于彼此不同的核苷酸序列的两个或更多个核酸。换句话说,如果群体的多核苷酸具有可变序列,则所述群体的多核苷酸分子的核苷酸序列在分子之间可不同。术语“可变的”不应理解为要求群体中的每个分子具有与群体中的其它分子不同的序列。

术语“基本上”是指如通过相似性函数测量的接近重复的序列,相似性函数包括但不限于汉明(Hamming)距离、莱文斯赫坦(Levenshtein)距离、杰卡德(Jaccard)距离、余弦距离等(通常参见Kemena等人,《生物信息学(Bioinformatics)》2009 25:2455-65)。精确阈值取决于用于进行分析的样品制备和测序的错误率,较高的错误率需要较低的相似性阈值。在某些情况下,基本上相同的序列具有至少98%或至少99%的序列同一性。

本文中所用的术语“序列变异”是相对于样品中的其它分子以小于50%的频率存在的变体,其中样品中的其它分子与含有序列变异的分子基本上相同。在某些情况下,特定序列变异可以以小于20%、小于10%、小于5%、小于1%或小于0.5%的频率存在于样品中。

术语“核酸模板”旨在指在扩增期间被拷贝的起始核酸分子。在所述上下文中,拷贝可包括形成特定单链核酸的互补物。“起始”核酸可以包含已经过处理的核酸,例如经扩增、延伸、用衔接子标记等处理。

在加尾引物或具有5′尾的引物的上下文中,术语“加尾的”是指在其5′端具有不与和引物的3′端相同的靶标杂交或部分杂交的区域(例如,至少12至50个核苷酸的区域)的引物。

术语“初始模板”指含有待扩增靶序列的样品。本文所用的术语“扩增”是指使用靶核酸作为模板产生靶核酸的一个或多个拷贝。

本文所用的术语“扩增子”是指在PCR反应中通过特定引物对扩增的产物(或“条带”)。

本文所用的“重复扩增子”是指使用样品的不同部分扩增的相同扩增子。重复扩增子通常具有几乎相同的序列,除了模板中的序列变异、PCR错误和用于每个重复的引物的序列中的差异(例如,诸如重复标识符序列中引物的5′端中的差异等)。

“聚合酶链式反应”或“PCR”是其中使用一对或多对序列特异性引物扩增特定模板DNA的酶促反应。

“PCR条件”是进行PCR的条件,并且包括存在的试剂(例如,核苷酸、缓冲液、聚合酶等)以及温度循环(例如,通过适于变性、复性和延伸的温度循环),如本领域已知的那样。

“多重聚合酶链式反应”或“多重PCR”是对不同靶模板使用两个或更多个引物对的酶促反应。如果靶模板存在于反应中,则多重聚合酶链式反应产生两个或更多个扩增的DNA产物,所述扩增的DNA产物是使用相应数目的序列特异性引物对在单个反应中共扩增的。

本文所用的术语“序列特异性引物”是指仅在所研究样品中的独特位点结合并延伸的引物。在某些实施例中,“序列特异性”寡核苷酸可与所研究样品中独特的互补核苷酸序列杂交。

术语“下一代测序”是指进行核酸测序的所谓高度平行化方法,并且包含Illumina、LifeTechnologies、PacificBiosciences和Roche等目前所采用的边合成边测序或连接测序(sequencing-by-ligation)平台。下一代测序方法还可以包括但不限于例如由OxfordNanopore提供的纳米孔测序法或基于电子检测的方法,例如由LifeTechnologies商业化的IonTorrent技术。

术语“序列读段”是指测序仪的输出。序列读段通常含有长度为50至1000或更多个碱基的Gs、As、Ts和Cs的串,并且在许多情况下,序列读段的每个碱基可以与指示碱基识别的质量的得分相关联。

术语“评估...的存在”和“评价...的存在”包括任何形式的测量,包括确定元素是否存在和估算元素的量。术语“测定”、“测量”、“评价”、“评估”和“测定”可互换使用,并且包括定量和定性测定。评估可以是相对的或绝对的。“评估...的存在”包括确定存在的某物的量,和/或确定它是否存在。

如果两个核酸是“互补的”,则它们在高严格条件下相互杂交。术语“完全互补”用于描述其中一个核酸的每个碱基与另一个核酸中的互补核苷酸碱基配对的双链体。在许多情况下,互补的两个序列具有至少10个(例如至少12或15个)具有互补性的核苷酸。

“寡核苷酸结合位点”是指在靶多核苷酸中寡核苷酸所杂交的位点。如果寡核苷酸“提供”引物的结合位点,则引物可与所述寡核苷酸或其互补物杂交。

本文所用的术语“链”是指由通过共价键例如磷酸二酯键共价连接在一起的核苷酸组成的核酸。在细胞中,DNA通常以双链形式存在,因此,具有两条互补的核酸链,在本文中称为“顶部”和“底部”链。在某些情况下,染色体区域的互补链可以称为“正”和“负”链、“第一”和“第二”链、“编码”和“非编码”链、“Watson”和“Crick”链或“有义”和“反义”链。将链分配为顶部或底部链是任意的,并不暗示任何特定的取向、功能或结构。若干示例性哺乳动物染色体区域(例如BAC、组装体、染色体等)的第一链的核苷酸序列是已知的,并且可以在例如NCBI的Genbank数据库中找到。

本文所用的术语“延伸”是指使用聚合酶通过加成核苷酸来延伸引物。如果延伸退火成核酸的引物,则所述核酸用作延伸反应的模板。

本文所用的术语“测序”是指获得多核苷酸的至少10个连续核苷酸的同一性(例如,至少20、至少50、至少100或至少200或更多个连续核苷酸的同一性)的方法。

本文所用的术语“合并”是指组合(例如混合)两个或更多个样品或一个样品的多个重复,使得那些样品或重复内的分子在溶液中变得彼此夹杂。

本文所用的术语“合并样品”是指合并的产物。

在同一样品的不同部分的上下文中,本文中使用的术语“部分”是指样品的等分试样或部分。例如,如果将100μl样品中的1微升样品加入到10个不同PCR反应中的每一个反应中,则这些反应各自含有同一样品的不同部分。

本文所用的术语“来自血流的游离DNA”、“循环游离DNA”和“游离DNA”(“cfDNA”)是指在患者外周血中循环的DNA。游离DNA中的DNA分子可以具有小于1kb的中等大小(例如,在50bp至500bp、80bp至400bp、或100bp至1,000bp的范围内),尽管可以存在在所述范围之外的中等大小的片段。游离DNA可含有循环肿瘤DNA(ctDNA),即在癌症患者的血液中自由循环的肿瘤DNA或循环胎儿DNA(如果受试者是怀孕女性)。cfDNA可以通过离心全血除去所有细胞,然后从剩余的血浆或血清中分离DNA获得。此类方法是熟知的(参见例如Lo等人,《美国人类遗传学杂志(Am J Hum Genet 1998)》;62:768-75)。循环的游离DNA可以是双链或单链的。所述术语旨在涵盖在血流中循环的游离DNA分子以及存在于在血流中循环的细胞外囊泡(例如外泌体)中的DNA分子。

本文所用的术语“循环肿瘤DNA”(或“ctDNA”)是在患者的外周血中循环的衍生自肿瘤的DNA。ctDNA源于肿瘤并且直接源自肿瘤或源自循环肿瘤细胞(CTC),其是从原发性肿瘤脱落并进入血流或淋巴系统的存活的完整肿瘤细胞。ctDNA释放的确切机制尚不清楚,尽管推测其涉及来自垂死细胞的细胞凋亡和坏死,或来自活肿瘤细胞的活性释放。ctDNA可以是高度片段化的,并且在某些情况下可以具有约100bp至250bp(例如150bp至200bp)长的平均片段大小。从癌症患者分离的循环游离DNA样品中ctDNA的量变化很大:典型的样品含有少于10%的ctDNA,尽管许多样品含有少于1%的ctDNA,而一些样品含有超过10%的ctDNA。通常可以鉴定ctDNA分子,因为它们含有致瘤突变。

本文所用的术语“来自血流的无细胞RNA”、“循环的无细胞RNA”和“无细胞RNA”(“cfRNA”)是指在患者的外周血中循环的RNA。无细胞RNA可含有循环肿瘤RNA(ctRNA),即在癌症患者的血液中自由循环的肿瘤RNA或循环胎儿RNA(如果受试者是怀孕女性)。所述术语旨在涵盖在血流中循环的游离RNA分子以及在血流中循环的细胞外囊泡(例如外泌体)中存在的RNA分子。

如本文所用,术语“序列变异”是指序列改变的位置和类型的组合。例如,序列变异可通过变异的位置和在所述位置存在哪种类型的取代(例如,G变为A,G变为T,G变为C,A变为G等或G、A、T或C的插入/缺失等)来表示。序列变异可以是一个或多个核苷酸的取代、缺失、插入或重排。在本方法的上下文中,序列变异可通过例如PCR错误、测序错误或遗传变异生成。

本文所用的术语“遗传变异”是指存在于或认为可能存在于核酸样品中的变异(例如,核苷酸取代、插入/缺失或重排)。遗传变异可以来自任何来源。例如,遗传变异可以通过突变(例如体细胞突变)、器官移植或妊娠生成。如果序列变异识别为遗传变异,则所述识别表明样品可能含有所述变异;在某些情况下,“识别”可能是不正确的。在许多情况下,术语“遗传变异”可以用术语“突变”代替。例如,如果所述方法用于检测与由突变引起的癌症或其它疾病有关的序列变异,则“遗传变异”可以用术语“突变”代替。

本文所用的术语“识别”意在指示样品中是否存在特定序列变异。这可以包括例如提供含有序列变异的序列和/或注释具有序列变异的序列,指示所述序列在特定位置具有A至T的变异。

本文所用的术语“阈值”是指进行识别所需的证据的水平。阈值i.可以一个序列变异不同于另一个序列,以及ii.在某些情况下,可以根据需要独立于其它阈值而增加或减少,这取决于多种因素。

本文所用的术语“截止频率”是指序列读段的频率,在等于或高于所述频率时,可基于对照将重复鉴定为统计学上可能含有序列变异。如下文更详细地解释,在对含有存在于少数分子中的序列变异的PCR产物测序时,序列读段中的一些将来自变异分子,而另外一些并非来自变异分子(例如,来自“野生型”序列)。可以通过例如将来自变异分子的读段数除以读段总数来计算来自变异分子的读段频率。截止频率可以通过测序若干对照样品(例如,不含有序列变异的样品)来确立。截止频率i.可以一个序列变异不同于另一个序列变异,以及ii.在某些情况下,可以根据需要独立于其它截止频率而增加或减少,这取决于多种因素。

本文所用的术语“值”是指可指示证据强度的数字、字母、单词(例如,“高”、“中”或“低”)或描述符(例如,“+++”或“++”)。值可以含有一个成分(例如,单个数字)或一个以上的成分,这取决于如何分析值。

术语的其它定义可以出现在整个说明书中。还应当注意,权利要求书可以起草为排除任何任选的元件。因此,所述陈述旨在用作前置基础,用于结合权利要求要素的叙述使用诸如“单独地”、“仅”等排他性术语或使用“负面”限制。

具体实施方式

在更详细地描述本发明之前,应当明白,本发明不限于所描述的特定实施例,因为毫无疑问可以变化。还应当明白,这里使用的术语仅用于描述特定实施例的目的,而不旨在限制,因为本发明的范围将仅由所附权利要求书所限制。

在提供数值范围的情况下,应当明白,除非上下文另有明确说明,在所述范围的上限和下限之间的每个中间值至下限单位的十分之一,以及在所述陈述范围内的任何其它陈述值或中间值都涵盖在本发明内。

除非另外说明,本文使用的所有技术和科学术语具有与本发明所属的领域内的普通技术人员通常所理解的相同的含义。尽管类似于或等同于本文描述的那些方法和材料的任何方法和材料也可以用于本发明的实践或测试中,但是现在描述优选的方法和材料。

本说明书中引用的所有出版物和专利均通过引用的方式并入本文中,如同具体地和单独地指示每个单独的出版物或专利通过引用的方式并入本文中,以公开和描述与所引用的出版物相关的方法和/或材料。任何出版物的引用是为了其在申请日之前的公开,并且不应被解释为承认本发明由于在先发明而无权先于这种出版物。此外,所提供的出版日期可能不同于实际出版日期,这可能需要独立确认。

必须注意的是,如本文和所附权利要求书中所使用的单数形式的“一”、“一种”和“所述”包括复数指示物,除非上下文另外明确指出。还应当注意,权利要求书可以起草为排除任何任选的元件。因此,所述陈述旨在用作前置基础,用于结合权利要求要素的叙述使用诸如“单独地”、“仅”等排他性术语或使用“负面”限制。

本领域技术人员在阅读本公开内容后将明白,本文描述和示出的各个实施例中的每一个具有离散的部件和特征,这些部件和特征可以在不脱离本发明的范围或精神的情况下容易地与其它若干实施例中的任一个的特征分离或组合。任何列举的方法可以以列举的事件的顺序或以逻辑上可能的任何其它顺序来执行。

本文提供了使用在多重PCR反应中相容的多个引物对进行序列分析的方法。在所述上下文中,含有“相容”引物的多重PCR反应是这样的反应,其中引物对被设计成特异性地扩增目标区域,当使反应经受合适的热循环条件并使用适用于引物的适当的模板时,产生对应于PCR引物对的扩增子,同时最小化引物二聚体的产生。典型地,尽管不总是如此,每个引物对在多重PCR反应中扩增单个目标区域。用于进行多重PCR的条件和用于设计相容引物的程序是熟知的(参见,例如,Sint等人,《生态进展方法(Methods Ecol Evol.)》2012 3:898-90和Shen等人,《BMC生物信息学(BMC Bioinformatics)》2010 11:143)。可使用专门设计用于涉及多重PCR方法的引物对的多种不同程序中的任一种来设计相容的引物对。例如,可以使用例如Yamada等人(《核酸研究(Nucleic Acids Res.)》2006 34:W665-9)、Lee等人(《应用生物信息学(Appl.Bioinformatics)》2006 5:99-109)、Vallone等人(《生物技术(Biotechniques)》2004 37:226-31)、Rachlin等人(《BMC基因组学(BMC Genomics)》20056:102)或Gorelenkov等人(《生物技术(Biotechniques)》2001 31:1326-30)的方法来设计引物对。在一些实施例中,所述方法可使用至少5对相容引物,例如至少10对、至少50对、至少100对或至少1,000对相容引物。在一些实施例中,所述方法可以使用至少10个且至多50,000个引物对,至少10个且至多10,000个引物对,至少10个且至多5,000个引物对,至少10个且至多1,000个引物对或至少10个且至多500个引物对,其中每个引物对被设计成扩增不同的扩增子。扩增的扩增子可以具有任何合适的长度且长度可以变化。在一些实施例中,每个扩增子的长度独立地在50bp至500bp的范围内,尽管在一些实施例中可以使用更长或更短的扩增子。

在获得引物对后,所述方法可包含建立至少两个多重PCR反应(例如,至多10个多重PCR反应,诸如2、3、4、5、6、7、8、9或10个多重PCR反应),所述反应各自含有同一样品的不同部分(即,同一样品的不同等分试样)。在所述步骤中,多重PCR反应彼此不同,因为一些引物对可能在所有反应中,而其它引物对仅在一个或一些(但不是所有)反应中。例如,如果有三个多重PCR反应,则一些引物对可以在单个反应中,一些引物对可以在两个反应中,一些引物对可以在所有三个反应中。同样,如果有四个多重PCR反应,则一些引物对可以在单个反应中,一些引物对可以在两个反应中,一些引物对可以在三个反应中,一些引物对可以在所有四个反应中。在这些实施例中,引物对中的至少一些处于超过一个PCR反应中,并且PCR反应中的至少一个含有其它一个或多个反应的一些但不是所有引物对。含有特定引物对的PCR反应的数量由多种因素决定,包括但不限于:i.在由选定的引物对扩增的扩增子中发现遗传变异的可能性;ii.在由选定的引物对扩增的扩增子中发现与目标特定癌症相关的遗传变异的可能性,iii.获得样品的患者的治疗史;iv.在由选定的引物对扩增的扩增子中发现临床上显著的遗传变异的可能性;v.获得样品的患者先前所经历的测试;vi.预期在由选定的引物对扩增的扩增子中发现的遗传变异的误差分布(其中术语“误差分布”指示特定变异不是由遗传变异引起的频率)和/或vii.由选定的引物对扩增的扩增子的长度,或其任何组合。

例如,如果在由选定的引物对扩增的扩增子中检测到遗传变异的可能性相对于在由其它引物对扩增的扩增子中较高(如通过先前和正在进行的实验所预测的),则所述引物对可在更多的反应(例如,所有反应)中。相反,如果在由选定的引物对扩增的扩增子中检测到遗传变异的可能性相对于在由其它引物对扩增的扩增子中较低(如通过先前和正在进行的实验所预测),则所述引物对可在更少的反应(例如,一个或两个反应)中。在另一个实例中,如果在一个扩增子中发现与特定疾病或病症(例如目标癌症)相关的遗传变异的可能性相比于在其它扩增子中较高,则引物对可在更多的反应(例如所有反应)中。例如,如果人们对测试与非小细胞肺癌相关的突变更感兴趣,则扩增潜在含有那些突变的序列的引物对可能在更多的反应中。相反地,扩增潜在地含有与研究人员不感兴趣的疾病或病症相关的遗传变异的片段的引物对可能在更少的反应(例如,一个或两个反应)中。在另一个实例中,获得样品的患者的治疗史可用于确定多少反应含有特定引物对。在所述实例中,扩增具有与治疗抗性相关的遗传变异的序列的引物对可在更多的反应(例如,所有反应)中,而扩增具有与治疗抗性不相关的遗传变异的序列的引物对可在更少的反应中,例如,一个或两个反应中。在另一个实例中,扩增可能具有临床上可起作用的遗传变异(即,与成功治疗相关的遗传变异)的序列的引物对可以在更多的反应(例如,所有反应)中,而扩增不具有临床上可起作用的遗传变异的序列的引物对可以在更少的反应(例如,一个或两个反应)中。在另一个实例中,含有特定引物对的反应数目可通过获得样品的患者先前所经历的测试来确定。例如,如果已知患者具有特定的遗传变异,则扩增潜在地含有所述遗传变异的扩增子的引物对可以在更多(例如,全部)反应中,而不扩增潜在地含有所述遗传变异的扩增子的引物对可以在更少(例如,一个或两个)反应中。在另一个实例中,含有特定引物对的反应的数目可以通过在由引物对扩增的扩增子中发现的遗传变异的类型来确定。某些类型的序列变异(例如,插入/缺失和重排)不大可能由于PCR和/或测序错误生成,因此,靶向插入/缺失的引物对可以在更少的反应(例如,一个或两个反应)中。靶向具有较高背景的变异(例如,核苷酸取代)的引物对可在更多的反应(例如,所有反应)中。在另一个实例中,扩增较长产物的引物对可以比扩增较短产物的引物对在更多的反应中,因为当目标DNA如游离DNA那样被片段化时,扩增较长产物的引物对将比扩增较短产物的引物对更频繁地无法扩增可用的DNA。

图1显示了根据上述原理建立的四个多重PCR反应(R1、R2、R3和R4)的示意图。在所述实例中,扩增子A1相对于其它扩增子含有遗传变异的可能性较高,因此,产生所述扩增子的PCR引物对在所有反应中;扩增子A2相对于其他扩增子含有遗传变异的可能性较低,因此,产生所述扩增子的PCR引物对在两个反应中;扩增子A3相对于其他扩增子含有与目标特定癌症(例如非小细胞肺癌)相关的遗传变异的可能性较高,因此,产生所述扩增子的PCR引物对在所有反应中;扩增子A4相对于其他扩增子含有与目标特定癌症相关的遗传变异的可能性较低,因此,产生所述扩增子的PCR引物对在两个扩增子中;扩增子A5含有临床上可起作用的遗传变异的可能性较高,因此,产生所述扩增子的PCR引物对在所有反应中;扩增子A6含有临床上可起作用的遗传变异的可能性较低,因此,产生所述扩增子的PCR引物对仅在三个反应中;扩增子A7含有高背景遗传变异的可能性较高,因此,产生所述扩增子的PCR引物对在所有反应中;以及,扩增子A8含有低背景遗传变异(例如,插入缺失或易位)的可能性较高,因此,产生所述扩增子的PCR引物对在两个反应中。在一些实施例中,在较少反应中的PCR引物对可以在反应之间扩散,使得多重PCR反应中的每一个反应都含有大约相同数目的引物对。

在一些实施例中,产生含有遗传变异的可能性较高的扩增子的PCR引物对可能比产生含有遗传变异的可能性较低的扩增子的PCR引物对在更多的反应中;产生含有与目标特定癌症相关的遗传变异的可能性较高的扩增子的PCR引物对可能比产生含有所述目标特定癌症相关的遗传变异的可能性较低的扩增子的PCR引物对在更多的反应中;产生含有使患者产生治疗抗性的遗传变异的可能性较高的扩增子的PCR引物对可能比产生含有使患者产生所述治疗抗性的遗传变异的可能性较低的扩增子的PCR引物对在更多的反应中;产生含有临床上可起作用的遗传变异的可能性较高的扩增子的PCR引物对可能比产生含有临床上可起作用的遗传变异的可能性较低的扩增子的PCR引物对在更多的反应中;和/或产生含有高背景遗传变异的可能性较高的扩增子的PCR引物对可能比产生含有低背景遗传变异的可能性较高的扩增子的PCR引物对在更多的反应中。

在反应已经建立之后,所述方法包含将多重PCR反应置于合适的扩增条件下(例如热循环)以产生多个重复扩增子,其中“重复”扩增子是在两个或更多个反应中由相同引物扩增的扩增子。重复扩增子通常具有相同的序列(除了PCR错误、对应于样品中遗传变异的变异和PCR引物中的任何变异)。通过举例说明,图1中所示的所有扩增子都有重复:扩增子A1具有四个重复,扩增子A2具有两个重复,扩增子A3具有四个重复,等等。然后对扩增子测序以产生序列读段。

在扩增子的测序中,可对来自每个不同多重PCR反应的扩增子彼此分开测序,或者扩增子可以用重复标识符条形码化,然后在测序之前合并。在一些实施例中,多重PCR反应中的引物可具有含有重复标识符的5′尾,使得在PCR反应完成后,引物的5′尾的序列存在于扩增子中。在其它实施例中,可以不使用具有含有重复标识符的5′尾的引物进行多重PCR反应。在这些实施例中,PCR产物可以在第二轮扩增中用重复标识符进行条形码标记,所述第二轮扩增使用具有含有重复标识符的5′尾的PCR引物。无论哪种方式,都可以在测序之前使用具有提供与特定测序平台具有相容性的5′尾的引物扩增扩增子。在某些实施例中,除了重复标识符之外,所述步骤中使用的一个或多个引物可以另外含有样品标识符。如果引物具有样品标识符,则可以在测序之前合并来自不同样品的产物。在一些实施例中,靶特异性引物从5′至3′含有通用“标记”序列,任选的重复条形码序列,其后接设计用于目标靶的序列。用于进一步扩增初始多重序列的引物从5′到3′含有提供与特定测序平台的相容性的尾,样品条形码和任选的重复条形码,以及可结合靶特异性引物上存在的标记序列的部分或全部反向的互补体的序列。通常,正向和反向引物具有不同的标记序列。

用于扩增步骤的引物可与用于其中使用引物延伸的任何下一代测序平台相容,例如,Illumina的可逆终止方法、Roche的焦磷酸测序方法(454)、Life Technologies的连接测序(SOLiD平台)、LifeTechnologies的IonTorrent平台或PacificBiosciences的荧光碱基切割方法。此类方法的实例描述于以下参考文献中:Margulies等人(《自然(Nature)》2005 437:376-80);Ronaghi等人(《分析生物化学(Analytical Biochemistry)》1996 242:84-9);Shendure(《科学(Science)》2005 309:1728);Imelfort等人(《简明生物信息(BriefBioinform.)》2009 10:609-18);Fox等人(《分子生物学方法(Methods Mol Biol.)》2009;553:79-108);Appleby等人(《分子生物学方法(Methods Mol Biol.)》2009;513:19-39);English(《公共科学图书馆(PLoS One.)》2012 7:e47768)和Morozova(《基因组学(Genomics.)》2008 92:255-64),这些文献通过引用方式并入关于这些方法的一般描述和这些方法的特定步骤,包括用于每个步骤的所有起始产物、试剂和最终产物。

测序步骤可以使用任何方便的下一代测序方法进行并且可以产生至少10,000至少50,000、至少100,000、至少500,000、至少1M、至少10M、至少100M、至少1B或至少10B的序列读段。在某些情况下,读段可以是双末端(paired-end)读段。

然后对序列读段进行计算处理。初始处理步骤可以包括条形码的识别(包括样品标识符或重复标识符序列),以及修剪读段以去除低质量或衔接子序列。此外,可以运行质量评估度量标准以确保数据集具有可接受的质量。

在使序列读段经历初始处理后,对其进行分析以鉴定遗传变异。在游离DNA中识别遗传变异可能具有挑战性,因为变异序列通常为少数(例如,小于10%的序列)。因此,如果使用扩增子测序策略,每个扩增子的序列可能主要是野生型序列。由小于10%的序列表示的少数变异体难以与伪影(例如测序和/PCR错误)区分开。在本方法中,针对每个序列变异分析扩增子以产生得分,所述得分指示序列变异是否可能代表遗传变异(例如,样品中DNA中的突变),而不是PCR错误或测序伪影。在这些实施例中,所述方法可包含针对选定的序列变异分析来自重复扩增子的序列读段以产生所选定的序列变异的得分。在这些实施例中,得分可基于包含频率高于截止频率的序列变异的重复扩增子的数目,或可指示在所有重复中序列变异的组合证据的强度。序列变异可基于得分识别为遗传变异。在一些实施例中,遗传变异也可通过比较得分与阈值来识别。如果得分等于或高于阈值,则可以识别为遗传变异。

在得分基于包含频率高于截止频率的序列变异的重复扩增子的数目的实施例中,截止频率可基于指示由于扩增和/或测序错误生成序列变异的频率的误差分布。可以使用具有或不具有遗传变异的对照样品建立这种误差分布。在一些实施例中,可以基于对照样品的测序使用二项式、超分散二项式、β、正态、指数或γ概率分布模型来确定截止频率。在一些实施例中,误差分布可以显示扩增和/或测序错误在不同测序深度发生的频率。这种误差分布的例子如图2所示。在图2所示的实例中,可以针对多个样品将扩增子中每个位置处的序列变异的频率(即,对于某一位置,相对于序列读段的总数,所述位置处含有序列变异的序列读段的数目)对测序深度(即,序列读段的总数)作图,以建立每个位置的序列变异的背景水平(所述背景可能是由于测序伪影,而不是遗传变异)。在所述实例中,“截止频率”建立了鉴定统计上不可能成为背景的变异的基线。在这些实施例中,包含频率高于截止频率的序列变异的重复扩增子的数目提供了可用于确定变异是否是遗传变异的得分。例如,在图2所示的实例中,在四个重复中,有三个重复中的变体的频率高于截止频率。在所述实例中,得分可以是“3/4”,0.75,或简为“3”,指示已经在三个重复中肯定地识别出变异。然后将所述得分与阈值比较以确定所述变异是否有可能是遗传变异的结果。所述阈值可以随位置而变化,并且对于每种潜在的遗传变异不必相同。例如,在图2所示的实例中,阈值可以是例如2或3,在这种情况下,其数据示于图2中的变体可能是由于遗传变异引起的,因为发现存在所述变异的重复的数目等于或高于截止频率。如果在这个实例中阈值是4,则所述变异可能不识别为遗传变异,因为得分低于阈值。应当明白,阈值可以根据扩增子有多少个重复被测序和许多其它因素而增加或减少。截止频率也可以基于多个因素增加或减少。在一些实施例中,所述方法可以包含(i)对于特定扩增子的每个核苷酸位置,确定(例如绘制)误差分布,所述误差分布显示在不同测序深度发生扩增和/或测序错误的频率;(ii)基于所述序列的每个位置的分布,确定每个不同测序深度的截止频率,在等于或高于所述截止频率时,可以检测到遗传变异;(iii)对来自同一样品的多个重复扩增子测序以获得重复扩增子的多个读段;和(iv)对于扩增子的每个位置,确定序列读段中序列变异的频率是高于还是低于截止频率。等于或高于截止频率的扩增子数目提供了得分。在这些实施例中,术语“绘制”可以在计算进行,因此,所述方法可以不用实体绘制图表进行。

在其中得分指示所有重复中序列变异的组合证据的强度的实施例中,可以对数据进行频率论或贝叶斯的统计过程,并且可以将变异的证据概括为似然值,或者在贝叶斯分析的情况下概括为贝叶斯因子或后验概率。在这些实施例中,所述统计得分随其累积可由其它数据改变。例如,序列变异的组合证据(所述证据可以包括,例如,其中已经鉴定了具有变异的序列读段的重复的数目,以及对于每个扩增子而言如下列出的各项:i.具有变异的序列读段的数目;ii.扩增子的序列读段的总数;iii.在序列读段中遗传变异的频率;以及iv.其它度量标准)可以概括为得分(例如,P值等),并且可以将所述得分与阈值进行比较以确定所述变异是否可以识别为遗传变异。例如,如果概括组合证据的得分是0.91,而识别遗传变异的似然性阈值是0.95,则可能不会识别出遗传变异。另一方面,如果概括组合证据的得分是0.98,并且识别遗传变异的似然性阈值是0.95,则应识别出遗传变异。如果需要,这些分析方法以及阈值可以通过机器学习来完成。

然而,虽然实现了序列分析步骤,但针对每个变异所使用的阈值或截止频率本身可以随着数据累积和/或其它因素而增加或减少。例如,可以使用与上述类似的因素来增大或减少阈值和/或截止频率本身。例如,阈值和/或截止频率可以基于以下因素增加或减少:癌症患者中特定遗传变异的预期频率(在这种情况下,对于更常见的突变,阈值和/或截止频率可以较低),获得样品的患者的癌症类型(在这种情况下,对于与例如非小细胞肺癌的目标癌症相关的突变,阈值和/或截止频率可以较低),获得样品的患者的治疗史(在这种情况下,与治疗抗性相关的遗传变异的阈值和/或截止频率可以较低),遗传变异的临床意义(在这种情况下,与癌症治疗相关的遗传变异的阈值和/或截止频率可以较低),患者先前经历的测试(在这种情况下,对于在患者中已经鉴定的遗传变异,阈值和/或截止频率可以较低),变异的误差分布(在这种情况下,对于具有较低错误率的遗传变异,阈值和/或截止频率可以较低),在样品中发现的其它遗传变异(在这种情况下,对于样品中未共同发现的遗传变异,阈值和/或截止频率可以较低)和/或测序的总错误率。

在一些实施例中,样品可以是cfDNA,并且所述方法可以进一步包含对使用来自同一受试者的cfRNA扩增的相同区域中的至少一些进行测序(通过RT-PCR)。这可以使用相同的扩增子或不同的扩增子进行。在所述实施方案中,所述方法可以包括将使用cfDNA识别的遗传变异与使用cfRNA识别的遗传变异进行比较。如果在两个样品中都鉴定出变异,则可以将其鉴定为具有较高置信度的遗传变异。

在一些实施例中,样品可以是cfDNA,并且所述方法可以进一步包含对由来自同一受试者的白细胞DNA扩增的相同扩增子中的至少一些进行测序。在这些实施例中,所述方法可包括将使用cfDNA识别的遗传变异与使用白细胞DNA识别的遗传变异进行比较。如果在两个样品中都鉴定出变异,则可以将其鉴定为具有较低置信度或并非全部都为遗传变异。本实施例提供了一种鉴定可能由不确定潜能的克隆造血(CHIP)引起的变异(通常参见Funari等人,《血液(Blood)》2016 128:3176和Heuser等人,Dtsch Arztebl Int.2016 113:317-322)或可能是例如种系(germ line)变体的变异的方法。

在可选择的实施例中,所述方法可以通过增加或减少特定序列变异的阈值和/或截止频率来进行,而不改变扩增所述变异的重复PCR反应的数目。这些实施例可以包含:(a)获得在多重PCR反应中相容的多个引物对;(b)设置至少两个多重PCR反应,所述反应各自含有同一样品的不同部分,其中不同反应包含相同引物;

(c)热循环所述多重PCR反应以产生多个重复扩增子;(d)对所述扩增子测序以产生序列读段;(e)针对选定的序列变异分析来自重复扩增子的序列读段,以产生所选定的序列变异的得分,其中所述得分:i.是基于包含频率高于截止频率的序列变异的重复扩增子的数目;或ii.指示在所有重复中序列变异的组合证据的强度;和(f)基于得分识别序列变异为遗传变异,其中用于每个所选定的序列变异的得分和/或截止频率部分地基于:i.遗传变异的预期频率;ii.获得样品的患者的癌症类型;iii.获得样品的患者的治疗史;iv.遗传变异的临床意义;v.获得样品的患者先前经历的测试,vi.遗传变异的误差分布;vi.在样品中发现的其它遗传变异,和/或vii.测序的总错误率,或其任何组合。如何进行所述替代方法的细节可以改编自本公开的其他部分。

在一些实施例中,所述方法可以包含提供指示样品中是否存在遗传变异、遗传变异的类型和/或由遗传变异引起的氨基酸取代的报告。在一些实施例中,报告可另外列出与样品中鉴定的遗传变异相关的癌症的批准(例如,经FDA批准)疗法。所述信息可有助于诊断疾病(例如,患者是否患有癌症)和/或由医师做出治疗决定。

在一些实施例中,报告可以是电子形式,并且所述方法包含将报告发送到远程位置,例如发送给医生或其他医学专业人员,以帮助鉴定适当的行动步骤(例如用于诊断受试者)或鉴定对于受试者适当的治疗。例如,所述报告可以与其他度量标准一起使用以确定受试者是否对治疗敏感。

在任何实施例中,都可将报告发送到“远程位置”,其中“远程位置”意指不同于进行分析序列所在位置的位置。例如,远程位置可以是同一城市中的另一位置(例如办公室、实验室等),不同城市中的另一位置、不同州中的另一位置、不同国家中的另一位置等。因此,当一个物品被指示为“远离”另一个物品时,意味着这两个物品可以在同一房间中但分开,或者至少在不同房间或不同建筑物中,并且可以分开至少一英里、十英里或至少一百英里。“通信”信息是指在合适的通信信道(例如,专用或公共网络)上将表示所述信息的数据作为电信号进行传输。“发送”某项目是指从一个位置到下一个位置获取所述项目的任何手段,无论是通过物理地传送所述项目还是以其他方式(在可能的情况下),并且至少在为数据的情况下,包括物理地传送携带数据的介质或传送数据。通信介质的实例包括无线电或红外传输信道以及到另一计算机或联网设备的网络连接和因特网,包括电子邮件传输和记录在网站等上的信息,等等。在某些实施例中,可以由MD或其他授权的医学专业人员分析报告,并且可以将基于序列分析结果的报告发送给获得样品的患者。

在一些实施例中,可以从患者获得生物样品,并且可以使用所述方法分析样品。在特定实施例中,所述方法可用于鉴定和/或估算生物样品中的基因位点的变异拷贝的量,所述生物样品含有基因位点的野生型拷贝和基因位点的变异拷贝,其中变异拷贝相对于基因位点的野生型拷贝具有序列变异。在所述实例中,样品可以含有比基因位点的变异拷贝多至少2倍(例如,至少5倍、至少10倍、至少50倍、至少100倍、至少500倍、至少1,000倍、至少5,000倍或至少10,000倍)的基因位点的野生型拷贝。

在一些实施例中,所述方法不涉及对未富集/未扩增的样品进行鸟枪法测序或对整个外显子进行测序。相反,测序可以作为较大测序工作的一部分进行,所述较大测序工作靶向多达200个(例如,多达100个或多达50个)基因的编码序列的至少一部分,聚焦于AKT1、ALK、BRAF、CCND1、CDKN2A、CTNNB1、EGFR、ERBB2、ESR1、FGFR1、FGFR2、FGFR3、GATA3、GNA11、GNAQ、GNAS、HRAS、IDH1、IDH2、KIT、KRAS、MAP2K1、MET、MYC、NFE2L2、NRAS、NTRK1、NTRK3、PDGFRA、PIK3CA、PPP2R1A、PTEN、ROS1、STK11、TP53和U2AF1的编码序列以及其它基因、突变或与非小细胞肺癌相关的编码序列。在替代实施例中,所述方法可用于检测例如PIK3CA、NRAS、KRAS、JAK2、HRAS、FGFR3、FGFR1、EGFR、CDK4、BRAF、RET、PGDFRA、KIT或ERBB2中的致癌突变,其可与乳腺癌、黑素瘤、肾癌、子宫内膜癌、卵巢癌、胰腺癌、白血病、结肠直肠癌、前列腺癌、间皮瘤、神经胶质瘤、成神经管细胞瘤、红细胞增多症、淋巴瘤、肉瘤或多发性骨髓瘤相关(参见例如Chial 2008《原癌基因-致癌基因-癌症(Proto-oncogenes to oncogenesto cancer.)》《自然教育(Nature Education)》1:1)。

在一些实施例中,可以在第一位置(例如,在诸如医院或医生办公室的临床环境中)从患者收集样品,并且可以将样品运送到第二位置,例如实验室,在那里对其进行处理并且执行上述方法以生成报告。本文所述的“报告”是电子或有形文档,其包括提供指示样品中少数变异的存在和/或量的测试结果的报告元素。报告生成后,可将所述报告发送到另一位置(其可以是与第一位置相同的位置),其中它可以作为临床决策的一部分由医疗专业人员(例如,临床医生、实验室技术人员,或诸如肿瘤学家、外科医生,病理学家或病毒学家的医师)作出解释。

通过所述方法鉴定的遗传变异可用于诊断、预后或治疗诊断。

在一些实施例中,所述方法可用于指导治疗决定。在这些实施例中,所述方法可以是治疗方法,其包括进行或已经进行上述方法,并且如果鉴定出可起作用的治疗,则向患者施予治疗。可起作用的突变包括但不限于EGFR和BRAF中的激活突变,例如:EGFR中的G719X、外显子19缺失、V765A、T783A、V774A、S784P、L858R、S768I,以及BRAF中的V600E、L861X、L601G、K601E、L597V/Q/R和G469V/S/R/E/A。可起作用的突变还包括ALK和ROS1中的重排,例如,EML4-ALK、TFG-ALK、STRN-ALK、KIF5B-ALK、CD74-ROS1、SLC34A2-ROS1、SDC4-ROS1和EZR-ROS1融合。例如,可以给EGFR中具有激活突变的患者施用厄洛替尼(Tarceva)、阿法替尼(Gilotrif)、吉非替尼(Iressa)或奥西替尼(Tagrisso);可以给具有ALK融合的患者施用克唑替尼(Xalkori)、色瑞替尼(Zykadia)、艾乐替尼(Alecensa)或布加替尼(Alunbrig);可以给具有ROS1融合的患者施用克唑替尼(Xalkori)、恩曲替尼(RXDX-101)、劳拉替尼(PF-06463922)、克唑替尼(Xalkori)、恩曲替尼(RXDX-101)、劳拉替尼(PF-06463922)、罗普替尼(TPX-0005)、DS-6051b、色瑞替尼、恩沙替尼或卡博替尼;可以给BRAF中具有激活突变的患者达拉菲尼(Tafinlar)或曲美替尼(Mekinist)。还已知许多其他可起作用的突变,包括可用于指导用免疫检查点抑制剂治疗患者的突变。

在其它实施例中,所述方法可用于监测治疗。例如,所述方法可以包含:使用所述方法分析在第一时间点获得的样品,和通过所述方法分析在第二时间点获得的样品,并比较结果,即比较样品中哪些变异被识别及其等位基因频率。第一和第二时间点可以在治疗之前和之后,或者都为在治疗之后的两个时间点。例如,通过将从一个时间点获得的结果与另一个时间点获得的结果进行比较,所述方法可用于鉴定在治疗过程中出现的新变异(例如突变),或用于确定在治疗过程中先前鉴定的变异是否不再存在于受试者中。所述方法可用于确定在治疗过程中任何突变的等位基因频率是否已经改变(增加或减少)。可以通过检测突变的等位基因频率或存在突变的变化来监测患者对治疗的反应。如果存在多个突变,等位基因频率和等位基因频率变化可以通过平均地组合不同的突变和重复来确定,或者可替代地,它们可以(例如)基于可能的克隆性、临床显著性,与种系或CHIP相反的癌症中体细胞变化的概率和可实施性进行加权。如果确定患者可能对治疗有反应,则可以继续进行所述治疗,而如果确定患者可能没有反应,则可以将其变成替代疗法。

所述方法还可用于确定受试者是否无疾病,或疾病是否复发。

在一些实施例中,所述方法可用于分析微小残留疾病。在这些实施例中,所述方法中使用的引物对可以设计成扩增含有通过在较早时间点测序肿瘤材料、cfDNA或测序另一合适的样品先前在患者肿瘤中鉴定出的变异的序列。含有每个引物对的反应的数目可以根据如下状况而变化:例如,预测变体是否是驱动突变,在癌症中鉴定出变体的置信度,预测变体在癌症中是克隆还是亚克隆,变体是否位于通常对序列有噪声的碱基上,变体是否在预期或多或少片段化的基因组区域中(例如开放或封闭染色质),变体是癌症中存在的体细胞变化而不是CHIP或种系变化的置信度,变体的类型是否是点突变或插入/缺失,以及插入/缺失是长还是短。在一些实施例中,例如,基于变体是否被预测为驱动突变,变体是否被预测为癌症中的克隆或亚克隆,变体是否位于通常对序列有噪声的碱基处,可以增加或减少识别每个变体的阈值。在一些实施例中,可组合所有患者特异性变体的证据以确定患者是否仍具有残留疾病或无疾病。每个变体的重要性可以如上所述进行调整。

容易理解,所述方法的许多步骤,例如序列处理步骤和指示遗传变异的报告的生成可以在计算机上实现。因此,在一些实施例中,所述方法可以包含执行基于序列读段的分析来计算患者是否具有遗传变异的可能性的算法,并输出所述可能性。在一些实施例中,所述方法可以包含将序列输入到计算机中并且执行可以使用输入测量值来计算可能性的算法。

显然,所描述的计算步骤可以是计算机实现的,因此,用于执行这些步骤的指令可以作为可以记录在合适的物理计算机可读存储介质中的程序提出。可以在计算上分析测序读段。

本文所述方法的任何实施例可适于亚硫酸氢盐处理的DNA的分析。例如,所述方法可以适用于通过亚硫酸氢盐测序而不是遗传变异来检测表观遗传变异。在这样的实施例中,将重复分析亚硫酸氢盐处理的DNA。设计PCR引物以扩增一系列含有目标位点的CpG。含有不同CpG位点的每个扩增子的重复数目可以基于许多标准来区分优先次序,例如预期在目标样品中特定CpG位点被高甲基化或低甲基化的频率,这种低甲基化或高甲基化的显著性以及当读取特定CpG位点时所预期的噪声水平。同样,正如变体识别那样,也可对每一CpG位点调整阈值和截止频率,以便识别甲基化或未甲基化的CpG位点并确定DNA甲基化的程度。

相关技术
  • 使用可变重复多重PCR测序的方法
  • 基于定量PCR的使用重复DNA元件作为阴性对照预测用于下一代测序的靶标富集的效率的方法
技术分类

06120112549259