掌桥专利:专业的专利平台
掌桥专利
首页

评价基因组改变的组合物和方法

文献发布时间:2023-06-19 10:22:47



相关申请的交叉引用

本申请要求于2018年6月11日提交的美国临时申请No.62/683,469的权益。前述申请的内容通过引用整体并入本文。

序列表

本申请包含已以ASCII格式电子提交的序列表,并通过引用整体并入本文。所述ASCII副本于2019年6月6日创建,名为F2036-7072WO_SL.txt,大小为840字节。

发明领域

本发明涉及用于评估基因组改变的组合物和方法。

发明背景

癌细胞在癌症发生和发展过程中会积累突变。这些突变可能是DNA修复、复制或修饰的固有功能异常或暴露于外部诱变的结果。某些突变赋予癌细胞以生长优势,并在发生癌症的组织的微环境中被积极选择。虽然选择有利的突变有助于肿瘤发生,但随着突变的发展,产生肿瘤新抗原和随后的免疫识别的可能性也可能增加(Gubin和Schreiber.Science 350:158-9,2015)。因此,通过全外显子组测序(WES)测量的总突变负荷可用于指导患者治疗决策,例如,预测对癌症免疫疗法的持久响应。然而,将基因组研究转化为常规临床实践仍然存在问题,因为整个外显子组测序尚不广泛,而且价格昂贵、费时且具有技术挑战性。

因此,仍然需要新的方法,包括靶向患者样品的基因组或外显子组的子集的基因组图谱。

发明概述

一方面,本发明的特征在于多种靶标捕获试剂,包括第一靶标捕获试剂(R1)和第二靶标捕获试剂(R2),

其中

R1包括包含结合对的功能性第一成员的R1和任选地缺少所述结合对的功能性第一成员的R1;并且

R2包括包含结合对的功能性第一成员的R2和缺少所述结合对的功能性第一成员的R2;

其中所述结合对的第一成员能够结合到设置在底物上的所述结合对的第二成员,并且

其中包含所述结合对的功能性第一成员的R1的比例大于包含所述结合对的功能性第一成员的R2的比例。

在多种靶捕获试剂的一些实施方案中,包含所述结合对的功能性第一成员的R1的比例,比包含所述结合对的功能性第一成员的R2的比例大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

在多种靶标捕获试剂的一些实施方案中,每个R1能够形成第一片段/第一靶标捕获试剂(F1/R1)杂合体,并且每个R2能够形成第二片段/第二靶标捕获试剂(F2/R2)杂合体,并且其中F1、F2或两者均包含来自表1A-5A中描述的基因的对象区间。

在一些实施方案中,F1包含高测序深度事件。

在一些实施方案中,F2包含低测序深度事件,例如,其水平与确定一种或多种生物标志物例如肿瘤突变负荷(TMB)或微卫星不稳定性(MSI)有关。

在一些实施方案中,所述多种靶标捕获剂还包含第三靶标捕获试剂(R3),

其中R3包括包含所述结合对的功能性第一成员的R3和缺少所述结合对的功能性第一成员的R3;

其中所述结合对的第一成员能够结合到设置在底物上的所述结合对的第二成员,并且

其中包含所述结合对的功能性第一成员的R2的比例大于包含所述结合对的功能性第一成员的R3的比例(例如大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍)。

在多种靶标捕获试剂的一些实施方案中,每个R3能够形成第三片段/第一靶标捕获试剂(F3/R3)杂合体,并且其中F3包含来自表1A-5A中描述的基因的对象区间。

在多种靶标捕获试剂的一些实施方案中,包含结合对(例如本文所述的结合对)的功能性第一成员的R1与缺乏结合对的功能性第一成员的R1的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,缺乏结合对(例如,本文所述的结合对)的功能性第一成员的R1与包含结合对的功能性第一成员的R1的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,包含结合对(例如,本文所述的结合对)的功能性第一成员的R2与缺乏所述结合对的功能性第一成员的R2的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,缺乏结合对(例如,本文所述的结合对)的功能性第一成员的R2与包含所述结合对的功能性第一成员的R2的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,包含结合对(例如,本文所述的结合对)的功能性第一成员的R3与缺乏所述结合对的功能性第一成员的R3的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,缺乏结合对(例如,本文所述的结合对)的功能性第一成员的R3与包含所述结合对的功能性第一成员的R3的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一个实施方案中,A与B的比率为约2%至约50%,例如,约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%,其中:

A包含R1(例如,包含结合对的功能性第一成员的R1),和缺乏结合对(例如,本文所述的结合对)的功能性第一成员的R2;和

B包含R1(例如,包含结合对的功能性第一成员的R1),和包含结合对的功能性第一成员的R2。

在多种靶标捕获试剂的一个实施方案中,A与B的比率为约2%至约50%,例如,约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%,其中:

A包括包含所述结合对的功能性第一成员的R1,和缺乏结合对(例如,本文所述的结合对)的功能性第一成员的R2;和

B包括包含所述结合对的功能性第一成员的R1,和包含结合对的功能性第一成员的R2。

在一个实施方案中,通过实施例1所述的测定法确定多种靶标捕获试剂的比率。在一个实施方案中,所述比率基于第一测序深度,例如,包含高测序深度事件(例如,本文所述的高测序深度事件)的一个或多个亚基因组区间的测序深度来确定。在一个实施方案中,所述比率基于第二测序深度,例如不同亚基因组区间(例如一个或多个包含低测序深度事件的亚基因组区间)的测序深度来确定。在一个实施方案中,所述比率基于第一测序深度,例如,包含高测序深度事件(例如,本文所述的高测序深度事件)的一个或多个亚基因组区间的测序深度;和第二测序深度,例如不同亚基因组区间(例如一个或多个包含低测序深度事件的亚基因组区间)的测序深度来确定。在一个实施方案中,所述比率基于第一片段(F1),例如包含高测序深度事件的F1的测序深度来确定。在一个实施方案中,所述比率基于第二片段(F2),例如包含低测序深度事件的F2的测序深度来确定。在一个实施方案中,所述比率基于F1(例如包含高测序深度事件的F1)的测序深度和F2(例如包含低测序深度事件的F2)的测序深度来确定。

在一个实施方案中,所述比率基于一个或多个基因(例如预选基因)的测序深度来确定。在一个实施方案中,所述比率通过确定一个或多个基因或亚基因组区间(例如,预选基因或预选亚基因组区间)的测序深度来选择。在一个实施方案中,所述比率基于一个或多个基因(例如,预选基因或预选亚基因组区间)的测序深度来改变,例如增加或减少。在一个实施方案中,改变所述比率(例如增加或减少)以获得一个或多个基因或亚基因组区间的预选测序深度。

在一个实施方案中,多种靶标捕获试剂具有以下比率:包含结合对的功能性第一成员的靶标捕获试剂与缺乏允许第一测序深度的结合对的功能性第一成员的靶标捕获试剂的比率。在一个实施方案中,所述多种靶标捕获试剂具有以下比率:包含结合对的功能性第一成员的靶标捕获试剂与缺乏允许第二测序深度的结合对的功能性第一成员的靶标捕获试剂的比率。在一个实施方案中,第二测序深度不同于第一测序深度。在一个实施方案中,第一测序深度大于第二测序深度,例如,比第二测序深度大至少1.1、2、3、4、5、6、7、8、9或10倍。在一个实施方案中,第一测序深度比第二测序深度大约1.1至10倍,约1.1至9倍,约1.1至8倍,约1.1至7倍,约1.1至6倍,约1.1至5倍,约1.1至4倍,约1.1至3倍,约1.1至2倍,约2至10倍,约3至10倍,约4至10倍,约5至10倍,约6至10倍,约7至10倍,约8至10倍,或约9至10倍。在一个实施方案中,第一测序深度比第二个测序深度大约1.1倍、约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、9倍、约10倍。

在一个实施方案中,第二测序深度大于第一测序深度,例如,比第一测序深度大至少1.1、2、3、4、5、6、7、8、9或10倍。在一个实施方案中,第二测序深度比第一测序深度大约1.1至10倍,约1.1至9倍,约1.1至8倍,约1.1至7倍,约1.1至6倍,约1.1至5倍,约1.1至4倍,约1.1至3倍,约1.1至2倍,约2至10倍,约3至10倍,约4至10倍,约5至10倍,约6至10倍,约7至10倍,约8至10倍,或约9至10倍。在一个实施方案中,第二测序深度比第一测序深度大约1.1倍、约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍。

在一个实施方案中,第一测序深度,例如F1测序深度,是窄的高测序深度,例如,如实施例1中所描述。

在一个实施方案中,第二测序深度,例如F2测序深度,是宽的中等测序深度,例如,如实施例1中所描述。

在一个实施方案中,第一测序深度,例如F2测序深度,是窄的高测序深度,例如,如实施例1中所描述。

在一个实施方案中,第二测序深度,例如F1测序深度,是宽的中等测序深度,例如,如实施例1中所描述。

在一个实施方案中,F1包含高测序深度事件。在一个实施方案中,高测序深度事件包含可执行事件,例如本文所述的可执行事件。在一个实施方案中,高测序深度事件包含被测序至高测序深度(例如,比低测序深度事件大至少1、2、3、4、5、6、7、8、9或10倍)的序列(例如,亚基因组区间序列)。

在一个实施方案中,F1不包含低测序深度事件。

在一个实施方案中,F2包括低测序深度事件。在一个实施方案中,低测序深度事件包含事件。在一个实施方案中,低测序深度事件的水平与一种或多种生物标志物,例如肿瘤突变负荷(TMB)、微卫星不稳定性(MSI)或两者的确定相关。在一个实施方案中,低测序深度事件包含可执行事件,例如本文所述的可执行事件。在一个实施方案中,低测序深度事件不包含可执行事件,例如,不是本文所述的可执行事件。在一个实施方案中,低测序深度事件包含被测序至低测序深度(例如,比高测序深度事件小至少1、2、3、4、5、6、7、8、9或10倍)的序列(例如,亚基因组区间序列)。

在一个实施方案中,F2不包含高测序深度事件。

在一个实施方案中,多种靶标捕获试剂,例如R1、R2和/或R3,没有限制,例如过量(例如约100-2000X摩尔过量)。在一个实施方案中,多种靶标捕获试剂过量,例如约100X、200X、300X、400X、500X、600X、700X、800X、900X、1000X、1100X、1200X、1300X、1400X、1500X、1600X、1700X、1800X、1900X或2000X的摩尔过量。在一个实施方案中,多种靶标捕获试剂过量,例如约100-1900X、100-1800X、100-1700X、100-1600X、100-1500X、100-1400X、100-1300X、100-1200X、100-1100X、100-1000X、100-900X、100-800X、100-700X、100-600X、100-500X、100-400X、100-300X、100-200X、200-2000X、300-2000X、400-2000X、500-2000X、600-2000X、700-2000X、800-2000X、900-2000X、1000-2000X、1100-2000X、1200-2000X、1300-2000X、1400-2000X、1500-2000X、1600-2000X、1700-2000X、1800-2000X、或1900-2000X的摩尔过量。

在多种靶标捕获试剂的一个实施方案中,(i)包含第一成员的R2;(ii)不包含第一成员的R2;和(iii)F2的浓度,使得不包含第一成员的R2与包含第一成员的R2的比例影响包含第一成员的F2-R2的复合物的数量。

在多种靶标捕获试剂的一个实施方案中,(i)包含第一成员的R1;和(ii)不包括第一成员的R1;和(iii)F1的浓度,使得不包含第一成员的R1与包含第一成员的R1的比例影响包含第一成员的F1-R1的复合物的数量。

在另一方面,本文公开了一种分析样品的方法,包括:

使多个第一片段/第一靶标捕获试剂(F1/R1)杂合体与底物接触以形成F1/R1杂合体/底物复合物;以及

使多个第二片段/第二靶标捕获试剂(F2/R2)杂合体与底物接触形成F2/R2杂合体/底物复合物,

其中与底物结合的F1/R1杂合体的比例大于与底物结合的F2/R2杂合体的比例,

从而分析样品。

在一些实施方案中,所述R1的一部分和所述R2的一部分包含结合对的功能性第一成员。在一些实施方案中,所述结合对的所述第一成员能够结合到设置在底物上的所述结合对的第二成员。

在一些实施方案中,所述R1的一部分、所述R2的一部分或两者缺少结合对的功能性第一成员,例如,改变的或封闭的第一成员,其不能结合到设置在底物上的结合对的第二成员或针对它具有降低的结合亲和力。

在一些实施方案中,R1包括包含结合对的功能性第一成员的R1和缺少所述结合对的功能性第一成员的R1;并且R2包括包含结合对的功能性第一成员的R2和缺少所述结合对的功能性第一成员的R2。

在一些实施方案中,包含所述结合对的功能性第一成员的R1的比例大于包含所述结合对的功能性第一成员的R2的比例。

在一些实施方案中,包含所述结合对的功能性第一成员的R1的比例,比包含所述结合对的功能性第一成员的R2的比例大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

在一些实施方案中,F1包含高测序深度事件。

在一些实施方案中,F2包含低测序深度事件。在其他实施方案中,低测序深度事件的水平与确定一种或多种生物标志物例如肿瘤突变负荷(TMB)或微卫星不稳定性(MSI)有关。

在一些实施方案中,包含所述结合对的功能性第一成员的R1的比例和包含结合对的功能性第一成员的R2的比例使得在形成F1/R1杂合体/底物复合物和F2/R2杂合体/底物复合物时,F1/R1杂合体/底物复合物中F1的数量和F2/R2杂合体/底物复合物中F2的数量具有以下关系中的一种或两种:

(i)F1的数量大于或基本等于F2的数量;和/或

(ii)在第一对象区间中包含改变的F1的数量大于或基本等于在第二对象区间中包含改变的F2的数量。

在一些实施方案中,F1的数量,比F2的数量大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

在一些实施方案中,在第一对象区间中包含改变的F1的数量,比在第二对象区间中包含改变的F2的数量大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30,40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

在一些实施方案中,所述第一对象区间、所述第二对象区间或两者均来自表1A-5A中描述的基因。

在一些实施方案中,在所述样品中所述第一对象区间中的改变以约0.01-20%,例如约0.02-19%、0.03-18%、0.04-17%、0.05-16%、0.06-15%、0.07-14%、0.08-13%、0.09-12%、0.1-10%、0.2-9%、0.3-8%、0.4-7%、0.5-6%、0.6-5%、0.7-4%、0.8-3%、0.9-2%、1-1.9%、1.1-1.8%、1.2-1.7%、1.3-1.6%、或1.4-1.5%的突变等位基因频率(MAF)存在。在一些实施方案中,在所述样品中所述第一对象区间中的改变以等于或大于约0.1%(例如,等于或大于约0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%或0.9%,例如约0.1%至0.9%,0.2%至0.8%,0.3%到至.7%,或0.4%到至0.6%)的突变等位基因频率存在。在一些实施方案中,在所述样品中所述第二对象区间中的改变以等于或大于约1%(例如,等于或大于约2%、3%、4%、5%、6%、7%、8%或9%,例如约1%至9%,2%至8%,3%至7%,或4%至6%)的突变等位基因频率存在。

在一些实施方案中,F1、F2或两者包含来自表1A-5A中描述的基因的对象区间。

在一些实施方案中,将F1中的对象区间测序至第一深度,并且将F2中的对象区间测序至第二深度,其中所述第一深度比所述第二深度大至少1、2、3、4、5、6、7、8、9或10倍。

在一些实施方案中,F1包含来自表1A-5A中描述的基因的对象区间,并且其中所述对象区间包含改变,例如体细胞改变,例如癌症中的功能改变。

在一些实施方案中,所述对象区间被测序到至少约5,000X深度。

在一些实施方案中,F2包含来自表1A-5A中描述的基因的对象区间,并且其中所述对象区间包含改变,例如体细胞改变,其中所述改变的确定用于评估一种或多种基因组签名,例如连续/复合的生物标志物,例如肿瘤突变负荷(TMB),例如血液肿瘤突变负荷(bTMB)。

在一些实施方案中,所述对象区间被测序到至少约800X但小于约5,000X,例如,用于评估一种或多种基因组签名,例如连续/复合的生物标志物,例如肿瘤突变负荷(TMB),例如血液肿瘤突变负荷(bTMB)。

在一些实施方案中,所述本文公开的任何方法还包括使多个第三片段/第三靶标捕获试剂(F3/R3)杂合体与底物接触以形成F3/R3杂合体/底物复合物。

在一些实施方案中,R3包括包含所述结合对的功能性第一成员的R3和缺少所述结合对的功能性第一成员的R3。

在一些实施方案中,包含所述结合对的功能性第一成员的R2的比例大于包含所述结合对的功能性第一成员的R3的比例。

在一些实施方案中,包含所述结合对的功能性第一成员的R2的比例,比包含所述结合对的功能性第一成员的R3的比例大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

在多种靶标捕获试剂的一些实施方案中,包含结合对(例如本文所述的结合对)的功能性第一成员的R1与缺乏所述结合对的功能性第一成员的R1的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,缺乏结合对(例如本文所述的结合对)的功能性第一成员的R1与包含所述结合对的功能性第一成员的R1的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,包含结合对(例如本文所述的结合对)的功能性第一成员的R2与缺乏所述结合对的功能性第一成员的R2的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,缺乏结合对(例如本文所述的结合对)的功能性第一成员的R2与包含所述结合对的功能性第一成员的R2的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一些实施方案中,包含结合对(例如本文所述的结合对)的功能性第一成员的R3与缺乏所述结合对的功能性第一成员的R3的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。。

在多种靶标捕获试剂的一些实施方案中,缺乏结合对(例如本文所述的结合对)的功能性第一成员的R3与包含所述结合对的功能性第一成员的R3的比率为约2%至约50%,例如约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%。

在多种靶标捕获试剂的一个实施方案中,A与B的比例为约2%至约50%,例如,约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%,其中:

A包括R1(例如,包含结合对的功能性第一成员的R1),和缺乏结合对(例如,本文所述的结合对)的功能性第一成员的R2,和

B包括R1(例如,包含结合对的功能性第一成员的R1),和包含结合对(例如,本文所述的结合对)的功能性第一成员的R2。

在多种靶标捕获试剂的一个实施方案中,A与B的比例为约2%至约50%,例如,约3%至约40%,约4%至约30%,约5%至约25%,约8%至约20%,约10%至约15%,例如约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约21%、约22%、约23%、约24%、约25%、约26%、约27%、约28%、约29%、约30%、约31%、约32%、约33%、约34%、约35%、约36%、约37%、约38%、约39%、约40%、约41%、约42%、约43%、约44%、约45%、约46%、约47%、约48%、约49%或约50%,其中:

A包括包含结合对的功能性第一成员的R1;和缺乏结合对的功能性第一成员(例如,本文所述的结合对)的R2;和

B包括包含结合对的功能性第一成员的R1和包含结合对的功能性第一成员的R2。

在一个实施方案中,通过实施例1所述的测定法确定多种靶标捕获试剂的比率。在一个实施方案中,所述比率基于第一测序深度,例如,包括高测序深度事件(例如,本文所述的高测序深度事件)的一个或多个亚基因组区间的测序深度。在一个实施方案中,所述比率基于第二测序深度,例如不同亚基因组区间(例如一个或多个包含低测序深度事件的亚基因组区间)的测序深度来确定。在一个实施方案中,所述比率基于第一测序深度,例如,包含高测序深度事件(例如,本文所述的高测序深度事件)的一个或多个亚基因组区间的测序深度;和第二测序深度,例如不同亚基因组区间(例如一个或多个包含低测序深度事件的亚基因组区间)的测序深度来确定。在一个实施方案中,所述比率基于第一片段(F1),例如包含高测序深度事件的F1的测序深度来确定。在一个实施方案中,所述比率基于第二片段(F2),例如包含低测序深度事件的F2的测序深度来确定。在一个实施方案中,所述比率基于F1(例如包含高测序深度事件的F1)的测序深度和F2(例如包含低测序深度事件的F2)的测序深度来确定。

在一个实施方案中,所述比率基于一个或多个基因(例如预选基因)的测序深度来确定。在一个实施方案中,所述比率通过确定一个或多个基因或亚基因组区间(例如,预选基因或预选亚基因组区间)的测序深度来选择。在一个实施方案中,所述比率基于一个或多个基因(例如,预选基因或预选亚基因组区间)的测序深度来改变,例如增加或减少。在一个实施方案中,改变所述比率(例如增加或减少)以获得一个或多个基因或亚基因组区间的预选测序深度。

在一个实施方案中,多种靶标捕获试剂具有以下比率:包含结合对的功能性第一成员的靶标捕获试剂与缺乏允许第一测序深度的结合对的功能性第一成员的靶标捕获试剂的比率。在一个实施方案中,所述多种靶标捕获试剂具有以下比率:包含结合对的功能性第一成员的靶标捕获试剂与缺乏允许第二测序深度的结合对的功能性第一成员的靶标捕获试剂的比率。在一个实施方案中,第二测序深度不同于第一测序深度。在一个实施方案中,第一测序深度大于第二测序深度,例如,比第二测序深度大至少1.1、2、3、4、5、6、7、8、9或10倍。在一个实施方案中,第一测序深度比第二测序深度大约1.1至10倍,约1.1至9倍,约1.1至8倍,约1.1至7倍,约1.1至6倍,约1.1至5倍,约1.1至4倍,约1.1至3倍,约1.1至2倍,约2至10倍,约3至10倍,约4至10倍,约5至10倍,约6至10倍,约7至10倍,约8至10倍,或约9至10倍。在一个实施方案中,第一测序深度比第二个测序深度大约1.1倍、约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、9倍、约10倍。

在一个实施方案中,第二测序深度大于第一测序深度,例如,比第一测序深度大至少1.1、2、3、4、5、6、7、8、9或10倍。在一个实施方案中,第二测序深度比第一测序深度大约1.1至10倍,约1.1至9倍,约1.1至8倍,约1.1至7倍,约1.1至6倍,约1.1至5倍,约1.1至4倍,约1.1至3倍,约1.1至2倍,约2至10倍,约3至10倍,约4至10倍,约5至10倍,约6至10倍,约7至10倍,约8至10倍,或约9至10倍。在一个实施方案中,第二测序深度比第一测序深度大约1.1倍、约2倍、约3倍、约4倍、约5倍、约6倍、约7倍、约8倍、约9倍、约10倍。

在一个实施方案中,第一测序深度,例如F1测序深度,是窄的高测序深度,例如,如实施例1中所描述。

在一个实施方案中,第二测序深度,例如F2测序深度,是宽的中等测序深度,例如,如实施例1中所描述。

在一个实施方案中,第一测序深度,例如F2测序深度,是窄的高测序深度,例如,如实施例1中所描述。

在一个实施方案中,第二测序深度,例如F1测序深度,是宽的中等测序深度,例如,如实施例1中所描述。

在一个实施方案中,多种靶标捕获试剂,例如R1、R2和/或R3,没有限制,例如过量(例如约100-2000X摩尔过量)。在一个实施方案中,多种靶标捕获试剂过量,例如约100X、200X、300X、400X、500X、600X、700X、800X、900X、1000X、1100X、1200X、1300X、1400X、1500X、1600X、1700X、1800X、1900X或2000X的摩尔过量。在一个实施方案中,多种靶标捕获试剂过量,例如约100-1900X、100-1800X、100-1700X、100-1600X、100-1500X、100-1400X、100-1300X、100-1200X、100-1100X、100-1000X、100-900X、100-800X、100-700X、100-600X、100-500X、100-400X、100-300X、100-200X、200-2000X、300-2000X、400-2000X、500-2000X、600-2000X、700-2000X、800-2000X、900-2000X、1000-2000X、1100-2000X、1200-2000X、1300-2000X、1400-2000X、1500-2000X、1600-2000X、1700-2000X、1800-2000X或1900-2000X的摩尔过量。

在多种靶标捕获试剂的一个实施方案中,(i)包含第一成员的R2;(ii)不包含第一成员的R2;和(iii)F2的浓度,使得不包含第一成员的R2与包含第一成员的R2的比例影响包含第一成员的F2-R2的复合物的数量。

在多种靶标捕获试剂的一个实施方案中,(i)包含第一成员的R1;和(ii)不包括第一成员的Rl;和(iii)F1的浓度,使得不包含第一成员的R1与包含第一成员的R1的比例影响包含第一成员的F1-R1的复合物的数量。

在一些实施方案中,包含所述结合对的功能性第一成员的R2的比例和包含结合对的功能性第一成员的R3的比例使得在形成F2/R2杂合体/底物复合物和F3/R3杂合体/底物复合物时,F2/R2杂合体/底物复合物中F2的数量和F3/R3杂合体/底物复合物中F3的数量具有以下关系中的一种或两种:

(i)F2的数量大于或基本等于F3的数量;和/或

(ii)在第一对象区间中包含改变的F2的数量大于或基本等于在第二对象区间中包含改变的F3的数量。

在一些实施方案中,F2的数量,比F3的数量大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

在一些实施方案中,在第一对象区间中包含改变的F2的数量,比在第二对象区间中包含改变的F3的数量大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30,40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

在一些实施方案中,所述第二对象区间、所述第三对象区间或两者均来自表1A-5A中描述的基因。

在一些实施方案中,F1、F2或F3中的一个、两个或全部包含来自表1A-5A中描述的基因的对象区间。

在一些实施方案中,将F2中的对象区间测序至第二深度,并且将F3中的对象区间测序至第三深度,其中所述第二深度比所述第三深度大至少1、2、3、4、5、6、7、8、9或10倍。

在一些实施方案中,F3包含来自表1A-5A中描述的基因的对象区间,并且其中所述对象区间包含种系改变,例如,种系单核苷酸多态性(SNP)。

在一些实施方案中,对象区间被测序到至少约100X深度但小于约800X。

在一些实施方案中,本文公开的任何方法还包括提供来自受试者的样品。在一些实施方案中,所述样品包含DNA,例如基因组DNA,例如无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)。在一些实施方案中,所述样品包含RNA,例如mRNA。在一些实施方案中,所述方法还包括从RNA提供cDNA。

在一些实施方案中,本文公开的任何方法还包括从所述样品获得,例如分离核酸。

在一些实施方案中,本文公开的任何方法还包括使所述样品中的核酸片段化以提供F1和F2。

在一些实施方案中,本文公开的任何方法扩增F1以提供多个F1,以及扩增F2以提供多个F2。

在一些实施方案中,本文公开的任何方法还包括将衔接子序列连接到F1和F2以提供衔接子化的F1(AF1)和衔接子化的F2(AF2)。

在一些实施方案中,本文公开的任何方法还包括:扩增AF1以提供多个AF1,以及扩增AF2以提供多个AF2。

在一些实施方案中,本文公开的任何方法还包括使多个F1与R1接触以提供多个F1/R1杂合体,以及使多个F2与R2接触以提供多个F2/R2杂合体。

在一些实施方案中,本文公开的任何方法还包括使多个AF1与R1接触以提供多个AF1/R1杂合体,以及使多个AF2与R2接触以提供多个AF2/R2杂合体。

在一些实施方案中,本文公开的方法包括使多个F1/R1杂合体与底物接触以形成F1/R1杂合体/底物复合物,包括使多个AF1/R1杂合体与底物接触以形成AF1/R1杂合体/底物复合物;以及使多个F2/R2杂合体与底物接触以形成F2/R2杂合体/底物复合物,包括使多个AF2/R2杂合体与底物接触以形成AF2/R2杂合体/底物复合物。

在一些实施方案中,所述接触在溶液中或固体表面上发生。

在本文公开的任何方法的一些实施方案中,所述结合对的第一成员包含生物素部分,并且其中所述结合对的第二成员包含链霉亲和素或亲和素(或修饰形式,例如中性亲和素(NeutrAvidin)或捕获亲和素(CaptAvidin))部分。

在本文公开的任何方法的一些实施方案中,所述结合对的第一成员包含地高辛配基部分,并且其中所述结合对的第二成员包含抗地高辛配基抗体部分。

在本文公开的任何方法的一些实施方案中,所述结合对的第一成员包含FITC部分,并且其中所述结合对的第二成员包括抗FITC抗体部分。

在本文公开的任何方法的一些实施方案中,R1中所述结合对的第一成员与R1中的经由接头捕获F1(例如,与其杂交)的部分(例如,核苷酸序列)结合。在一些实施方案中,R2中所述结合对的第一个成员与经由接头捕获F2(例如,与其杂交)的部分(例如,核苷酸序列)结合。在一些实施方案中,所述接头是可剪切的接头。

在一些实施方案中,本文公开的任何方法还包括从所述多个F1/R1杂合体/底物复合物测序F1,以及从所述多个F2/R2杂合体/底物复合物测序F2。在一些实施方案中,F1被测序到比F2更大的深度,例如大至少1、2、3、4、5、6、7、8、9或10倍。

在另一方面,本公开提供了一种分析样品的方法,其包括:

a)提供多个第一片段/第一靶标捕获试剂(F1/R1)杂合体和多个第二片段/第二靶标捕获试剂(F2/R2)杂合体,

其中包含所述结合对的功能性第一成员的R1的比例大于包含所述结合对的功能性第一成员的R2的比例,并且

其中所述结合对的第一成员能够结合到设置在底物上的所述结合对的第二成员;

b)使多个F1/R1杂合体与底物接触以形成F1/R1杂合体/底物复合物,并使多个F2/R2杂合体与底物接触以形成F2/R2杂合体/底物复合物,

其中与所述底物结合的F1/R1杂合体的比例大于与所述底物结合的F2/R2杂合体的比例;

c)从多个F1/R1杂合体/底物复合物中测序F1,并从多个F2/R2杂合体/底物复合物中测序F2,

其中F1被测序到比F2更大的深度,

从而分析样品。

在一个方面,本文公开了一种分析样品的方法,其包括:

1)提供来自受试者的样品,例如,包含基因组DNA例如无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)的样品;

2)从样品中获得,例如分离核酸;

3)使所述核酸片段化以提供多个片段(F);

4)将衔接子序列连接至多个片段(F)以提供多个衔接子化的片段(AF);

5)扩增第一AF(AF1)以提供多个AF1,并且扩增第二AF(AF2)以提供多个AF2;

6)使多个AF1与第一靶标捕获剂(R1)接触,每个R1包含与AF1杂交的核苷酸序列,以提供多个AF1/R1杂合体,并使多个AF2与第二靶标捕获剂(R2)接触,每个R2包含与AF2杂交的核苷酸序列,以提供多个AF2/R2杂合体,

其中R1的一部分和R2的一部分包含结合对的功能性第一成员,并且其中所述结合对的第一成员能够与设置在底物上的所述结合对的第二成员结合,并且

其中R1的一部分、R2的一部分或两者缺少所述结合对的功能性第一成员;

7)使多个AF1/R1杂合体与底物接触以形成AF1/R1杂合体/底物复合物,并使多个AF2/R2杂合体与底物接触以形成AF2/R2杂合体/底物复合物,

其中与所述底物结合的AF1/R1杂合体的比例大于与所述底物结合的AF2/R2杂合体的比例;

8)从多个AF1/R1杂合体/底物复合物中测序AF1,并从多个AF2/R2杂合体/底物复合物中测序AF2,

任选地,其中AF1的测序深度大于AF2的测序深度,例如大至少1、2、3、4、5、6、7、8、9或10倍;

从而分析样品。

在一些实施方案中,本文公开的任何方法还包括从所述样品获取包含多个核酸分子的文库。

在一些实施方案中,本文公开的任何方法还包括使所述文库与靶标捕获试剂接触以提供选择的核酸分子,其中所述靶标捕获试剂与所述核酸分子杂交,从而提供文库捕获物。

在一些实施方案中,本文公开的任何方法还包括从所述文库或文库捕获物中的核酸分子获取包含改变(例如,体细胞改变)的对象区间的读取,从而获得所述对象区间的读取,例如,采用下一代测序方法。

在一些实施方案中,所述方法包括获取多个基因中对象区间的读取。

在一些实施方案中,所述多个基因包含突变形式的基因,例如所述突变基因与对细胞分裂、生长或存活的影响有关或与癌症有关。在一些实施方案中,所述多个基因包含至少约50个或更多,约100个或更多,约150个或更多,约200个或更多,约250个或更多,约300个或更多,约350个或更多、约400个或更多、约450个或更多、约500个或更多的基因,或约1,000个或更多的基因,或全外显子测序(WES)的所有基因。

在一些实施方案中,所述多个基因包含表1A-5A中描述的至少约50个或更多,约100个或更多,约150个或更多,约200个或更多,约250个或更多,约300个或更多,或所有基因。

在一些实施方案中,获取对象区间的读取包括对表1A-5A中描述的至少约50个或更多,约100个或更多,约150个或更多,约200个或更多,约250个或更多,约300个或更多,或所有基因的对象区间进行测序。

在一些实施方案中,对象区间被测序至大于约100X,大于约250X,大于约500X,大于约800X,大于约1,000X,大于约2,000X,大于约3,000X,大于约4,000X,或大于约5,000X的平均深度。

在一些实施方案中,对象区间被测序为大于约100X,大于约250X,大于约500X,大于约800X,大于约1000X,大于约2,000X,大于平均深度大于约3,000X,大于约4,000X,或大于约5,000X的平均深度,大于约95%,大于约97%,或大于约99%的基因(例如,外显子)被测序。

在一些实施方案中,本文公开的任何方法还包括通过比对方法来比对所述读取。

在一些实施方案中,本文公开的任何方法还包括从所述读取中分配核苷酸位置的核苷酸值。

在本文公开的任何方法的一些实施方案中,评估所述样品中的一个或多个基因组签名,例如连续/复合的生物标志物,例如肿瘤突变负荷(TMB),例如血液TMB(bTMB)。

在一些实施方案中,所述样品是血液样品,并且评估bTMB。

在一些实施方案中,本文公开的任何方法其还包括将所述样品中的改变表征为体细胞改变或种系改变。

在一些实施方案中,本文公开的任何方法还包含确定所述样品中的改变的接合性。

在一些实施方案中,本文公开的任何方法还包括响应于所述样品的分析而对所述样品或从其获得样品的受试者进行分类。

在一些实施方案中,本文公开的任何方法还包括提供报告,例如,以电子、基于网络或纸质的报告形式,给从其获取样品的受试者或其他人或实体、护理人员、医师、肿瘤学家、医院、诊所、第三方付款人、保险公司或政府办公室。

本文公开的任何组合物和方法可以与以下一个或多个实施方案组合。

多基因分析

本文所述的方法和组合物可用于评估对象区间集合,例如,来自本文所述的基因或基因产物的集合。

在某些实施方案中,所述基因集合包含多个突变形式的基因,这些基因与对细胞分裂、生长或存活的影响有关,或与癌症例如本文所述的癌症有关。

在某些实施方案中,所述基因集合包含至少约50或更多,约100或更多,约150或更多,约200或更多,约250或更多,约300或更多,约350或更多,约400或更多,约450或更多,约500或更多,约550或更多,约600或更多,约650或更多,约700或更多,约750或更多或约800或更多的基因,例如,本文所描述的基因。在一些实施方案中,所述基因集合包含表1A-5A中所描述的至少约50或更多,约100或更多,约150或更多,约200或更多,约250或更多,约300或更多,或所有选择的基因。

在某些实施方案中,所述方法包括从样品中获得包含多个肿瘤核酸分子的文库。在某些实施方案中,所述方法还包括使文库与所述靶标捕获试剂接触以提供选择的核酸分子,其中所述靶标捕获试剂与所述核酸分子杂交,从而提供文库捕获物。在某些实施方案中,所述方法还包括从所述文库或文库捕获物中的核酸分子获取包含改变(例如,体细胞改变)的对象区间的读取,从而获得所述对象区间的读取,例如,采用下一代测序方法。在某些实施方案中,所述方法还包括通过比对方法,例如本文所述的比对方法,来比对对象区间的读取。在某些实施方案中,所述方法还包括从对象区间的读取中分配核苷酸位置的核苷酸值,例如通过本文所述的突变调用方法。

在某些实施方案中,所述方法包括以下的一个、两个、三个、四个或全部:

(a)从样品中获得包含多个肿瘤核酸分子的文库;

(b)使所述文库与多种靶标捕获试剂接触以提供选择的肿瘤核酸分子,其中所述多种靶标捕获试剂与肿瘤核酸分子杂交,从而提供文库捕获物;

(c)从所述文库捕获物中的肿瘤核酸分子获取包含改变(例如,体细胞改变)的对象区间的读取,从而获得所述对象区间的读取,例如,采用下一代测序方法;

(d)通过比对方法,例如本文所述的比对方法来比对所述读取;或

(e)从所述读取中分配核苷酸位置的核苷酸值,例如通过本文所述的突变调用方法。

在某些实施方案中,所述获取对象区间的读取包括对至少约50或更多,约100或更多,约150或更多,约200或更多,约250或更多,约300或更多,350或更多,约400或更多,约450或更多,约500或更多,约550或更多,约600或更多,约650或更多,约700或更多,约750或更多或约800或更多的基因的对象区间进行测序。在某些实施方案中,获取对象区间的读取包括对表1A-5A中描述的至少约50个或更多,约100个或更多,约150个或更多,约200个或更多,约250个或更多,约300个或更多,或所有基因的对象区间进行测序。

在某些实施方案中,获取对象区间的读取包括以100X或更高的平均深度进行测序。在某些实施方案中,获取对象区间的读取包括以约250X或更大的平均深度进行测序。在其他实施方案中,获取对象区间的读取包括以约500X或更大的平均深度进行测序。在某些实施方案中,获得对象区间的读取包括以约800X或更大的平均深度进行测序。在其他实施方案中,获得对象区间的读取包括以约1,000X或更大的平均深度进行测序。在其他实施方案中,获取对象区间的读取包括以约1,500X或更大的平均深度进行测序。在其他实施方案中,获取对象区间的读取包括以约2,000X或更大的平均深度进行测序。在其他实施方案中,获得对象区间的读取包括以约2,500X或更大的平均深度进行测序。在某些实施方案中,获取对象区间的读取包括以约3,000X或更大的平均深度进行测序。在某些实施方案中,获取对象区间的读取包括以约3,500X或更大的平均深度进行测序。在某些实施方案中,获得对象区间的读取包括以约4,000X或更大的平均深度进行测序。在某些实施方案中,获得对象区间的读取包括以约4,500X或更大的平均深度进行测序。在某些实施方案中,获得对象区间的读取包括以约5,000X或更大的平均深度进行测序。在某些实施方案中,获取对象区间的读取包括以约5,500X或更大的平均深度进行测序。在某些实施方案中,获得对象区间的读取包括以约6,000X或更大的平均深度进行测序。

在某些实施方案中,获得对象区间的读取包括以约100X或更大的平均深度,大于约99%的被测序的基因(例如,外显子)进行测序。在某些实施方案中,获取对象区间的读取包括以约250X或更大的平均深度,大于约99%的被测序的基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约500X或更大的平均深度,大于约95%的被测序的基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约800X或更大的平均深度,大于约95%的被测序的基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以大于约1,000X的平均深度,大于约90%的被测序的基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约2,000X或更大的平均深度,大于约90%的被测序基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约3,000X或更大的平均深度,大于约90%的被测序基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约3,500X或更大的平均深度,大于约90%的被测序基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约4,000X或更大的平均深度,大于约90%的被测序基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约4,500X或更大的平均深度,大于约90%的被测序基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约5,000X或更大的平均深度,大于约90%的被测序基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约5,500X或更大的平均深度,大于约90%的被测序基因(例如,外显子)进行测序。在其他实施方案中,获得对象区间的读取包括以约6,000X或更大的平均深度,大于约90%的被测序基因(例如,外显子)进行测序。在某些实施方案中,获得对象区间的读取包括用约100X或更大,约250X或更大,约500X或更大,约1,000X或更大,约1,500X或更大,约2,000X或更大,约2,500X或更大,约3,000X或更大,约3500X或更大,约4,000X或更大,约4,500X或更大,约5,000X或更大,约5,500X或更大,或约6,000X或更大的平均深度,大于约99%的被测序基因(例如,外显子)进行测序。

在某些实施方案中,本文描述的方法提供本文描述的对象区间集合(例如,编码对象区间)的序列,例如核苷酸序列。在某些实施方案中,不使用包括匹配的正常对照(例如,野生型对照)、匹配的肿瘤对照(例如,原发性与转移性)或两者的方法提供序列。

样品

本文所述的方法和组合物可用于评估来自许多不同来源的各种类型样品中的对象区间。

在一些实施方案中,所述样品包含核酸,例如DNA、RNA或两者。在某些实施方案中,所述样品包含来自肿瘤的一种或多种核酸。在某些实施方案中,所述样品还包含来自肿瘤的一种或多种非核酸组分,例如细胞、蛋白质、碳水化合物或脂质。在某些实施方案中,所述样品还包含来自非肿瘤细胞或组织的一种或多种核酸。在某些实施方案中,所述样品获自实体瘤、血液肿瘤或其转移形式。在某些实施方案中,如本文所述,所述样品获自患有癌症的受试者或未接受治疗癌症的疗法、正在接受治疗癌症的疗法或已接受治疗癌症的受试者。

在一些实施方案中,所述样品包含以下中的一种或多种:癌变前细胞或恶性细胞;来自实体瘤、软组织肿瘤或转移性病变的细胞;来自手术切缘的组织或细胞;组织学上正常的组织;一种或多种循环肿瘤细胞(CTC);正常邻近组织(NAT);血液样品;或甲醛固定或多聚甲醛固定的石蜡包埋(FFPE)样品。在某些实施方案中,所述样品是血液样品。在某些实施方案中,所述样品是血浆样品。在某些实施方案中,所述样品包含无细胞DNA(cfDNA)。在某些实施方案中,所述样品包含循环肿瘤DNA(ctDNA)。在某些实施方案中,所述样品包含脑脊液(CSF)。在某些实施方案中,所述样品包含尿液。在某些实施方案中,所述样品包括胸腔积液。在某些实施方案中,所述样品包含腹水。在某些实施方案中,所述样品为FFPE样品。在某些实施方案中,所述样品包括切除涂片、穿刺活检涂片、细针抽吸涂片或细胞学涂片。

靶标捕获试剂

本文描述的组合物和方法提供了对大量基因和基因产物的优化测序,所述基因和基因产物来自一种或多种对象的样品(例如本文所述的癌症),通过适当选择靶标捕捉试剂(例如用于在溶液杂交中的靶标捕获试剂),用于选择要测序的靶核酸分子。被靶标捕获试剂捕获的靶核酸分子通常被底物回收。在一些实施方案中,例如通过结合至底物来回收被靶标捕获试剂捕获的靶核酸分子。在一些实施方案中,使用两组或更多组的多种靶标捕获试剂,每组多种靶标捕获试剂捕获不同的靶核酸分子。

在一些实施方案中,所述回收效率是被靶标捕获试剂捕获的靶核酸分子与总靶核酸分子之比,所述靶标捕获试剂被底物回收(例如结合至底物)。在一些实施方案中,至少两组多种靶标捕获试剂具有不同的回收效率。在一些实施方案中,当根据靶标对象区间对其进行调节时,所述回收效率与测序深度相关。在一些实施方案中,所述回收效率与相对于靶标对象区间的测序深度相关。在一些实施方案中,靶标捕获试剂的所述回收效率与包含功能性结合对的靶标捕获试剂的比例相关。

因此,在一些实施方案中,本文所述的方法包括使文库与两组、三组或更多组具有不同回收效率的多种靶标捕获试剂接触,以鉴定或分离选择的核酸分子(例如文库捕获物)。在一些实施方案中,所述文库在基本上相同的时间和/或在相同的样品容器(例如管)中与两组、三组或更多组具有不同回收效率的多种靶标捕获试剂接触。在一些实施方案中,两组、三组或更多组个具有不同回收效率的多种靶标捕获试剂,在基本上相同的时间和/或在相同的样品容器(例如管)中捕获靶核酸分子。在一些实施方案中,两组、三组或更多组具有不同回收效率的多种靶标捕获试剂所捕获的靶核酸分子,基本上在相同的时间和/或在同一样品容器(例如管)中被底物回收。

在一些实施方案中,所述第一多种靶标捕获试剂包括含有结合对的功能性第一成员的靶标捕获试剂和缺乏所述结合对的功能性第一成员的靶标捕获试剂,以及所述第二多种靶标捕获剂包括含有结合对的功能性第一成员的靶标捕获试剂和缺乏所述结合对的功能性第一成员的靶标捕获试剂,其中所述结合对的功能性第一成员能够结合到设置在底物上的所述结合对的功能性第二成员。在一些实施方案中,在所述第一多种靶标捕获试剂中包含所述结合对的功能性第一成员的靶标捕获试剂的比例,大于在所述第二多种靶标捕获试剂中包含所述结合对的功能性第一成员的靶标捕获试剂的比例,使得所述第一多种靶标捕获试剂的回收效率大于所述第二多种靶标捕获试剂的回收效率。

可以使用两组、三组、四组、五组或更多组的多种靶标捕获试剂的任何组合,例如,第一多种靶标捕获试剂和第二多种靶标捕获试剂的组合;第一多种靶标捕获试剂和第三多种靶标捕获试剂的组合;第一多种靶标捕获试剂和第四多种靶标捕获试剂的组合;第一多种靶标捕获试剂和第五多种靶标捕获试剂的组合;第二多种靶标捕获试剂和第三多种靶标捕获试剂的组合;第二多种靶标捕获试剂和第四多种靶标捕获试剂的组合;第二多种靶标捕获试剂和第五多种靶标捕获试剂的组合;第三多种靶标捕获试剂和第四多种靶标捕获试剂的组合;第三多种靶标捕获试剂和第五多种靶标捕获试剂的组合;第四多种靶标捕获试剂和第五多种靶标捕获试剂的组合;第一多种、第二多种和第三多种靶标捕获试剂的组合;第一多种、第二多种和第四多种靶标捕获试剂的组合;第一多种、第二多种和第五多种靶标捕获试剂的组合;第一多种、第二多种、第三多种和第四多种靶标捕获试剂的组合;第一多种、第二多种、第三多种、第四多种和第五多种靶标捕获试剂的组合等。

在一些实施方案中,所述方法包括:

(a)从样品中获得包含多个核酸分子(例如,靶核酸分子)的文库,例如,从样品例如本文所述的样品中获得多个肿瘤核酸分子;

(b)使所述文库与多个两组、三组或更多组的多种靶标捕获试剂接触,以提供选择的核酸分子(例如文库捕获物);

(c)例如通过包括测序的方法从核酸分子(例如从所述文库或文库捕获物的肿瘤核酸分子)获取对象区间的读取,例如采用下一代测序方法;

(d)通过比对方法,例如本文所述的比对方法来比对所述读取;和

(e)从所述读取中分配核苷酸位置的核苷酸值(例如,用贝叶斯方法或本文描述的方法,例如调用突变)。

在一些实施方案中,所述方法包括使所述文库与至少两组或三组多种靶标捕获试剂接触,其中每组多种靶标捕获试剂具有独特的(不同于多种靶标捕获试剂中的其他靶捕获试剂)回收效率。例如,每组独特的多种靶标捕获试剂产生独特的测序深度或与之相关。

在一个实施方案中,所述方法包括获得文库,其中从文库分别获得与亚基因组区间相对应的核酸分子和与表达的亚基因组区间相对应的核酸分子。在一个实施方案中,所述方法包括获得第一文库和第二文库,从第一文库获得与亚基因组区间相对应的核酸分子,从第二文库获得与表达的亚基因组区间相对应的核酸分子。在一个实施方案中,靶标捕获试剂用于提供包含亚基因组区间和表达的亚基因组区间的核酸分子或文库捕获物。在一个实施方案中,第一靶标捕获试剂用于提供包含亚基因组区间的核酸分子或文库捕获物,以及第二靶标捕获试剂用于提供包含表达的亚基因组区间的核酸分子或文库捕获物。

在一个实施方案中,第一多种靶标捕获试剂的回收效率,与第二多种靶标捕获试剂的回收效率相差至少2、5、10、25、50、100、200、300、400、500、600、700、800、900或1,000倍。在一个实施方案中,所述第一多种靶标捕获试剂和第二多种靶标捕获试剂提供的测序深度相差至少2、5、10、25、50、100、200、300、400、500、600、700、800、900或1,000倍。

在一些实施方案中,本文所用的所述测序深度水平(例如,测序深度的X倍水平)是指在检测和除去重复的读取(例如PCR重复的读取)之后的读取的数目(例如,独特的读取)。在其他实施方案中,评估重复读取,例如以支持拷贝数改变(CNA)的检测。

在一个实施方案中,所述靶标捕获试剂选择包含一个或多个重排的对象区间,例如包含基因组重排的内含子。在这样的实施方案中,设计所述靶标捕获试剂,使得重复序列被掩盖以增加选择效率。在那些具有已知连接(juncture)序列的重排的实施方案中,可以将互补的靶标捕获试剂设计为连接序列以增加选择效率。

在一些实施方案中,所述方法包括使用设计的靶标捕获试剂以捕获两个或更多个不同靶标类别,每个类别具有不同的设计策略。在一些实施方案中,本文公开的方法(例如,杂交捕获方法)和组合物捕获靶序列(例如,靶核酸分子)的子集,并提供靶序列的均匀覆盖度,同时使该子集之外的覆盖度最小化。在一个实施方案中,所述靶序列包括基因组DNA或其选择的子集之外的整个外显子组。在另一个实施方案中,所述靶序列包括大规模的染色体区域,例如整个染色体臂。本文公开的方法和组合物提供了用于实现复合的靶核酸序列(例如,核酸文库)的不同测序深度和覆盖模式的不同靶标捕获试剂。

在一个实施方案中,所述方法包括提供一个或多个核酸文库(例如,文库捕获物)的选择的核酸分子。例如,该方法包括:

提供一个或多个文库(例如,一个或多个核酸文库),其包含多个核酸分子,例如靶核酸分子(例如,包含多个肿瘤核酸分子和/或参考核酸分子);

使一个或多个文库(例如在基于溶液的反应中)与两组、三组或更多组的多种靶标捕获试剂(例如,寡核苷酸靶标捕获试剂)接触,以形成包含多种靶标捕获试剂/核酸分子杂合体的杂交混合物;

从所述杂交混合物中分离多种靶标捕获试剂/核酸分子杂合体,例如,通过使所述杂交混合物与结合实体接触,所述结合实体允许从所述杂交混合物中分离出所述多种靶标捕获试剂/核酸分子杂合体,

从而提供文库捕获物(例如,从一个或多个文库中选择的或富集的核酸分子亚组)。

在一个实施方案中,所述第一、第二或第三多种靶捕获试剂中的每一组具有独特的回收效率。在一些实施方案中,至少两组或全部三组多种靶标捕获试剂具有不同的回收效率值。例如,选自以下中的一种或多种的回收效率值:

(i)第一回收效率的值具有至少约5,000X或更高的测序深度,例如,具有大于第二回收效率值或第三回收效率值(例如,比第二回收效率值大约5-10倍(例如6-7倍);或比第三回收效率值大约40-60倍(例如45-50倍))的回收效率值;

(ii)第二回收效率值具有至少约800X或更高的测序深度,例如,具有大于第三回收效率值(例如,比第三回收效率值大约5-10倍(例如7-9倍))的回收效率值;或者

(iii)第三回收效率值具有至少约100X或更高的测序深度。

在某些实施方案中,通过以下中的一项或多项来修改回收效率值:不同靶标捕获试剂的微分表示、靶标捕获试剂子集的微分重叠、微分靶标捕获试剂参数、不同靶标捕获试剂的混合和/或使用不同类型的靶标捕获试剂。例如,可以通过改变下述中的一种或多种,例如在多种靶标捕获试剂内和/或在不同的多种靶标捕获试剂之间调节回收效率的改变(例如,每种靶标捕获试剂/靶类别的相对序列覆盖度):

(i)不同靶标捕获试剂的微分表示-可以在更多/更少的拷贝数中包含用于捕获给定靶标(例如靶核酸分子)的靶标捕获试剂设计,以增强/减少相对靶标测序深度;

(ii)靶标捕获试剂子集的微分重叠-捕获给定靶标(例如,靶核酸分子)的靶标捕获试剂设计,可以包含相邻靶标捕获试剂之间更长或更短的重叠,以增强/减少相对靶标测序深度;

(iii)微分靶标捕获试剂参数-捕获给定靶标(例如靶核酸分子)的靶标捕获试剂设计,可以包含序列修饰/较短长度,以降低捕获效率并降低相对靶标测序深度;

(iv)不同靶标捕获试剂的混合-设计成捕获不同靶标集合的靶标捕获试剂,可以以不同的摩尔比混合,以增强/减少相对靶标测序深度;

(v)不同修饰的靶标捕获试剂的混合-修饰为具有不同底物结合特性的靶标捕获试剂,可以以不同的摩尔比混合,以增强/减少相对靶标测序深度;

(vi)使用不同类型的寡核苷酸靶标捕获试剂-在某些实施方案中,所述靶标捕获试剂可包括:

(a)一种或多种化学(例如,非酶促)合成的(例如,单独合成的)靶标捕获试剂,

(b)一种或多种在阵列中合成的靶标捕获试剂,

(c)一种或多种酶促制备的(例如体外转录的)靶标捕获试剂;

(d)(a)、(b)和/或(c)的任何组合,

(e)一种或多种DNA寡核苷酸(例如天然存在的或非天然存在的DNA寡核苷酸),

(f)一种或多种RNA寡核苷酸(例如天然存在的或非天然存在的RNA寡核苷酸),

(g)(e)和(f)的组合,或

(h)以上任何的组合。

可以以不同的比例混合不同的寡核苷酸组合,例如选自以下的比例混合:1∶1、1∶2、1∶3、1∶4、1∶5、1∶10、1∶20、1∶50、1∶100、1∶1000等。在一个实施方案中,化学合成的靶标捕获试剂与阵列产生的靶标捕获试剂的比例选自1∶5、1∶10或1∶20。DNA寡核苷酸或RNA寡核苷酸可以是天然存在的或非天然存在的。在某些实施方案中,所述靶标捕获试剂包括一种或多种非天然存在的核苷酸以例如提高解链温度。示例性的非天然存在的寡核苷酸包括修饰的DNA核苷酸或RNA核苷酸。示例性的修饰核苷酸(例如,修饰的RNA核苷酸或DNA核苷酸),包括但不限于锁核酸(LNA),其中LNA核苷酸的核糖部分用下述修饰:连接2′氧和4′碳的额外桥;肽核酸(PNA),例如由通过肽键连接的重复N-(2-氨乙基)-甘氨酸单元组成的PNA;经修饰以捕获低GC区域的DNA或RNA寡核苷酸;双环核酸(BNA);交联的寡核苷酸;修饰的5-甲基脱氧胞苷;和2,6-二氨基嘌呤。其他修饰的DNA核苷酸和RNA核苷酸是本领域已知的。

在某些实施方案中,获得了靶序列(例如靶核酸分子)的基本上均匀或均一的覆盖度。例如,在每个靶标捕获试剂/靶类别内,可以通过修改靶标捕获试剂参数例如,通过以下中的一项或多项操作来优化覆盖度的均匀性:

(i)增加/减少靶标捕获试剂的表示或重叠,可用于增强/减少相对于同一类别中其他靶标而言被覆盖不足/被过度覆盖的靶标(例如,靶核酸分子)的覆盖度;

(ii)对于低覆盖度,难于捕获的靶序列(例如,高GC含量的序列),使用所述靶标捕获试剂扩展被靶向的区域,以覆盖例如相邻序列(例如,较少富含GC的相邻序列);

(iii)修饰靶标捕获试剂序列,可用于减少靶标捕获试剂的二级结构并提高其回收效率;

(iv)修改靶标捕获试剂长度,可用于补偿同一类别内不同靶标捕获试剂的熔融杂交动力学。可以直接修改靶标捕获试剂的长度(通过生产不同长度的靶标捕获试剂)或间接修改靶标捕获试剂的长度(通过生产长度一致的靶标捕获试剂,并用任意序列替换靶标捕获试剂末端);

(v)针对相同靶标区域(即正向链和反向链)修饰不同取向的靶标捕获试剂,可以具有不同的结合效率。可以选择具有为每个靶标提供最佳覆盖度的任一方向的靶标捕获试剂;

(vi)修改存在于每种靶捕获试剂上的结合实体例如捕获标签(例如生物素)的量,可以影响其结合效率。增加/降低靶向特异性靶标的靶标捕获试剂的标签水平,可用于增强/降低相对靶标覆盖度;

(vii)修改用于不同靶标捕获试剂的核苷酸类型,可用于影响与靶标的结合亲和力,并增强/降低相对靶标覆盖度;或者

(viii)使用修改的寡核苷酸靶捕获试剂(例如,具有更稳定的碱基对),可以用于补偿相对于高GC含量的低GC含量或正常GC含量的区域之间的熔融杂交动力学。

在其他实施方案中,通过调节包含结合对的功能性第一成员的靶标捕获试剂和缺乏所述结合对的功能性第一成员的靶标捕获试剂的相对丰度来调节回收效率。在一些实施方案中,所述结合对的第一成员能够结合到设置在底物上的所述结合对的第二成员,从而通过包含所述结合对的第二成员的底物回收由包含所述结合对的第一成员的靶标捕获试剂捕获的靶核酸分子。

在一个实施方案中,所述方法包括使用多种靶标捕获试剂,所述多种靶标捕获试剂包括从肿瘤细胞中选择肿瘤核酸分子(例如,包含对象区间的核酸分子)的靶标捕获试剂。所述肿瘤核酸分子可以是存在于肿瘤细胞中任何核苷酸序列,例如本文所述的存在于肿瘤细胞或癌症细胞中的突变的、野生型、参考或内含子核苷酸序列。在一个实施方案中,所述肿瘤核酸分子包括以低频率出现的改变(例如,一个或多个突变),例如,来自样品的约5%或更少的细胞在其基因组中具有改变。在其他实施方案中,所述肿瘤核酸分子包括来自样品的细胞以约10%的频率出现的改变(例如,一个或多个突变)。在其他实施方案中,所述肿瘤核酸分子包括来自内含子序列(例如本文所述的内含子序列)的亚基因组区间,存在于肿瘤细胞中的参考序列的亚基因组区间。

在其他实施方案中,所述方法包括扩增文库捕获物(例如,通过PCR)。在其他实施方案中,不扩增所述文库捕获物。

在另一方面,本发明的特征在于本文所述的靶标捕获试剂,以及本文所述的单个多种靶标捕获试剂的组合。所述靶标捕获试剂可以是试剂盒的一部分,该试剂盒可以任选地包含说明书、标准品、缓冲液或酶或其他试剂。

比对

本文公开的方法可以整合多种单独调整的比对方法或算法的使用,以优化测序方法中的性能,特别是在依赖对大量不同基因中大量不同遗传事件大规模平行测序的方法中,例如,分析例如来自本文所述癌症的样品的方法。

在一些实施方案中,用于分析读取的所述比对方法针对不同基因中多个变体的每一个变体未单独定制或未进行调整。在一些实施方案中,将针对不同基因中多个变体的至少一个子集,单独定制或调整的多重比对方法用于分析读取。在一些实施方案中,将针对不同基因中的多个变体中的每一个变体,单独定制或调整的多重比对方法用于分析读取。在一些实施方案中,调整可以是所测序的基因(或其他对象区间)、样品中的肿瘤类型、被测序的变体,或样品或受试者的特征的(一个或多个)函数。针对多个待测序对象区间单独调整选择或使用的比对条件,可以优化速度、灵敏度和特异性。当针对相对大量的不同对象区间的读取的比对进行优化时,该方法特别有效。

在一些实施方案中,用独特的比对方法比对来自X个独特的对象区间中每一个的读取,其中独特的对象区间(例如,对象区间或表达的对象区间)表示不同于其他X-1个对象区间,并且其中独特的比对方法表示与其他X-1比对方法不同,X至少为2。

在一个实施方案中,使用独特的比对方法比对来自至少X个基因(例如来自表1A-5A中的至少X个基因)的对象区间,并且X等于2、3、4、5、10、15、20、30、40,50、60、70、80、90、100、200、300、400、500或更大。

在一个实施方案中,方法包括选择或使用比对方法来分析例如比对读取,其中所述比对方法是以下中的一项或多项或全部的函数,对以下中的一项或多项或全部进行选择响应,或对以下一项或多项或全部进行优化:

(i)肿瘤类型,例如所述样品中的肿瘤类型;

(ii)被测序的所述对象区间(例如,对象区间或表达的对象区间)所在的所述基因或基因类型,例如,以变体或变体类型为特征的基因或基因类型,例如,突变或通过频率突变;

(iii)被分析的位点(例如核苷酸位置);

(iv)在被评估的对象区间(例如对象区间或表达的对象区间)内的变体类型,例如替代;

(v)样品的类型,例如本文所述的样品;和

(vi)被评估的所述对象区间中或附近的序列,例如,该对象区间(例如,对象区间或表达的对象区间)的未对准的预期倾向,例如,在该对象区间(例如,对象区间或表达的对象区间)中或附近的重复序列的存在。

如本文其他地方所提及的,在一些实施方案中,当针对相对大量的对象区间的读取的比对进行优化时,该方法特别有效。因此,在一个实施方案中,将至少X个独特的比对方法用于分析至少X个独特的对象区间的读取,其中独特表示不同于其他X-1个,并且X等于2、3、4、5、10、15、20、30、50、100、200、300、400、500、600、700、800、900、1,000或更大。

在一个实施方案中,分析来自表1A-5A的至少X个基因的对象区间,并且X等于2、3、4、5、10、15、20、30、40、50、60、70、80,90、100、200、300、400、500或更大。

在一个实施方案中,将独特的比对方法应用于至少3、5、10、20、30、40、50、60、70、80、90、100、200、300、400或500个不同基因的每一个中的对象区间。

在一个实施方案中,为至少20、30、40、60、80、100、120、140、160或180、200、300、400或500个基因(例如来自表1A-5A的基因)中的核苷酸位置分配核苷酸值。在一个实施方案中,将独特的比对方法应用于至少10%、20%、30%、40%或50%的分析的所述基因的每一个中的对象区间。

本文公开的方法能够快速且有效地比对棘手的读取,例如具有重排的读取。因此,在其中一个对象区间(例如,对象区间或表达的对象区间)的读取包含具有重排(例如易位)的核苷酸位置的实施方案中,所述方法可以包括使用经过适当调整的比对方法,适当调整的方法包括:

选择用于与读取比对的重排参考序列,其中该重排参考序列用重排比对(在一些实施方案中,所述参考序列与基因组重排不同);和

将读取与该重排参考序列进行比较,例如比对。

在一些实施方案中,使用不同的方法,例如另一种方法来比对棘手的读取。当针对相对大量的不同对象区间的读取比对进行优化时,这些方法特别有效。举例来说,分析样品的方法可以包括:

在第一组参数下(例如,第一映射定位算法或具有第一参考序列)进行读取的比较,例如比对比较,以及

确定所述读取是否满足第一比对标准(例如,读取可以与所述第一参考序列比对,例如,具有少的错配数量);

如果所述读取不满足所述第一比对标准,则在第二组参数下(例如,第二映射定位算法或具有第二参考序列)进行第二比对比较;和,

任选地,确定该读取是否满足所述第二标准(例如,所述读取可以与第二参考序列比对,且具有小于预定数量的错配),

其中所述第二组参数包括使用一组参数,例如与所述第一组参数相比,所述第二参考序列更可能导致与变体的读取的比对,例如重排,例如插入、删除或易位。

这些和其他比对方法在本文的其他地方,例如,在详细说明中的标题为“比对”的部分中进行了更详细的讨论。该模块的元素可以包含在分析肿瘤的方法中。在一些实施方案中,来自标题为“比对”的部分(在发明概述和/或发明详述中)的比对方法,与来自标题为“突变调用”的部分(在发明概述和/或发明详述中)的突变调用方法,和/或来自标题为“靶标捕获试剂”部分(在发明概述中)和/或发明详述中标题为“靶标捕获试剂的设计和构建”和“目标捕获试剂的竞争”部分中的靶标捕获试剂组合。所述方法可以应用于标题为“基因选择”的部分(在发明概述和/或发明详述中)的一组对象区间。

突变调用

本文公开的方法可以整合使用定制的或调整的突变调用参数以优化测序方法中的性能,特别是在依赖对大量不同基因中大量不同遗传事件大规模并行测序的方法中,例如来自例如来自本文所述的癌症的样品。

不希望受到理论的束缚,认为在一些实施方案中,突变调用确定观察的非参考改变例如本文所述的改变的期望概率。突变调用通常基于设定的阈值以提供足够的置信度来证明调用的改变是真实的,而不是噪声或测序或分析过程的其他假像的结果。

在一些实施方案中,不单独定制或微调多个对象区间中每个的突变调用。在一些实施方案中,单独定制或微调多个对象区间中至少一个子集的突变调用。在一些实施方案中,单独定制或微调多个对象区间中每个的突变调用。所述定制或调整可基于本文所述的一种或多种因素,例如,样品中的癌症类型、待测序的对象区间所在的所述基因或待测序的变体。选择或使用针对多个待测序对象区间精细调整的比对条件,可以优化速度、灵敏度和特异性。当针对相对大量的不同对象区间的读取的比对进行优化时,该方法特别有效。

在一些实施方案中,通过独特的调用方法为X个独特的对象区间中每一个的核苷酸位置分配核苷酸值,其中独特的对象区间表示不同于其他X-1个对象区间(例如,亚基因组区间、表达的亚基因组区间或两者),并且其中独特的调用方法表示不同于其他X-1调用方法,X至少为2。调用方法可以不同,从而是独特的,例如,通过依赖于不同的贝叶斯先验值。

在一个实施方案中,分配的该核苷酸值是这样一个值的函数,所述值是或表示在某种类型肿瘤的该核苷酸位置处观察到的显示变体例如突变的读取的先前(例如,文献)期望值。

在一个实施方案中,所述方法包括为至少10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个核苷酸位置分配核苷酸值(例如,调用突变),其中每个分配是唯一值(不同于其他分配的值)的函数,该唯一值是或表示在某种类型肿瘤的该核苷酸位置处观察到的显示变体例如突变的读取的先前(例如,文献)期望值。

在一个实施方案中,分配的该核苷酸值是这样一组值的函数,所述值表示如果所述变体以一定频率(例如1%、5%、10%等)存在于样品中,和/或如果不存在变体(例如,仅由于碱基调用错误而在读取中观察到),则在该核苷酸位置处观察到显示所述变体的读取的概率。

在一个实施方案中,本文所述的突变调用方法可以包括以下步骤:

在该X个对象区间的每一个中获取核苷酸位置:

(i)第一值,其是或表示在X类型肿瘤的该核苷酸位置处观察到的显示变体例如突变的读取的先前(例如,文献)期望值;和

(ii)第二组值,其表示如果所述变体以一定频率(例如1%、5%、10%等)存在于样品中,和/或如果不存在该变体(例如,仅由于碱基调用错误而在读取中观察到),则在该核苷酸位置处观察到显示所述变体的读取的概率;

响应于所述值,通过例如通过本文所述的贝叶斯方法加权,使用第一值(例如,计算突变存在的后验概率)在第二组的值之间进行比较,从所述读取中为每个该核苷酸位置分配核苷酸值(例如,调用突变),从而分析该样品。

在一个实施方案中,所述方法包括以下中的一项或多项或全部:

(i)为至少10、20、30、40、50、60、70、80、90,100、200、300、400、500、600、700、800、900或1,000个核苷酸位置分配核苷酸值(例如,调用突变),其中每个分配基于唯一的(不同于其他分配)的第一值和/或第二值;

(ii)(i)的方法分配,其中至少10、20、30、40、50、60、70、80、90、100、200、300、400或500个所述分配是使用第一值产生的,所述第一值是例如在肿瘤类型的少于5%、10%或20%细胞中的变体存在的概率的函数;

(iii)为至少X个核苷酸位置分配核苷酸值(例如,调用突变),每个核苷酸位置与变体相关,该变体具有独特的(不同于其他X-1分配)存在于某种类型的肿瘤,例如所述样品的肿瘤类型的概率,其中任选地,每个X分配都基于唯一的(不同于其他X-1分配)第一值和/或第二值(其中X=2、3、5、10、20、30、40、50、60、70、80、90、100、200、300、400或500);

(iv)在第一核苷酸位置处和第二核苷酸位置处分配核苷酸值(例如,调用突变),其中存在于某种类型的肿瘤(例如,所述样品的肿瘤)所述第一核苷酸位置处的第一变体中的可能性,比存在于所述第二核苷酸位置处的第二变体的可能性大至少2、5、10、20、30或40倍,其中任选地,每个分配都是基于唯一的(不同于其他分配)第一值和/或第二值;

(v)将核苷酸值分配给多个核苷酸位置(例如,调用突变),其中该多个核苷酸位置包括对落入一个或多个例如至少3、4、5、6、7或全部的下述概率百分比范围的变体分配:小于或等于0.01%;大于0.01%且小于或等于0.02%;大于0.02%且小于或等于0.03%;大于0.03%且小于或等于0.04%;大于0.04%且小于或等于0.05%;大于0.05%且小于或等于0.1%;大于0.1%且小于或等于0.2%;大于0.2%且小于或等于0.5%;大于0.5%且小于或等于1.0%;大于1.0%且小于或等于2.0%;大于2.0%且小于或等于5.0%;大于5.0%且小于或等于10.0%;大于10.0%且小于或等于20.0%;大于20.0%且小于或等于50.0%;以及大于50%且小于或等于100.0%,

其中概率范围是核苷酸位置处的变体存在于肿瘤类型(例如,所述样品的肿瘤类型)中概率范围,或核苷酸位置处的变体对于预选类型(例如,所述样品的肿瘤类型)的样品、来自样品的文库或来自文库的文库捕获物中的细胞以所列举百分比(%)存在的概率范围,以及

其中任选地,每个分配基于唯一的第一值和/或第二值(例如,在所列举的概率范围内不同于其他分配的唯一,或者在其他所列举的概率范围中的一个或多个或全部中不同于所述第一值和/或第二值的唯一)。

(vi)为至少1、2、3、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个核苷酸位置分配核苷酸值(例如,调用突变),所述核苷酸位置分别独立地具有变体,所述变体以少于50%、40%、25%、20%、15%、10%、5%、4%、3%、2%、1%、0.5%、0.4%、0.3%、0.2%或0.1%DNA的量存在于所述样品中,其中任选地,每个分配都是基于唯一的(不同于其他分配)第一值和/或第二值;

(vii)在第一核苷酸位置处和第二核苷酸位置处分配核苷酸值(例如,调用突变),其中所述样品的DNA中第一位置处的变体可能性,比所述样品的DNA中所述第二核苷酸位置处的变体的可能性大至少2、5、10、20、30或40倍,其中任选地,每个分配基于唯一的(不同于其他分配)第一值和/或第二值;

(viii)在以下一个或多个或全部中分配核苷酸值(例如,调用突变):

(1)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体以小于1%存在于该样品中的细胞、来自该样品的文库中的核酸、或来自该文库中文库捕获物的核酸;

(2)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体以1-2%存在于该样品中的细胞、来自该样品的文库中的核酸、或来自该文库中文库捕获物的核酸;

(3)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体存在于大于2%并且小于等于3%的该样品中的细胞、来自该样品的文库中的核酸或来自该文库中文库捕获物的核酸;

(4)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体存在于大于3%并且小于等于4%的该样品中的细胞、来自该样品的文库中的核酸或来自该文库中文库捕获物的核酸;

(5)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体存在于大于4%并且小于等于5%的该样品中的细胞、来自该样品的文库中的核酸或来自该文库中文库捕获物的核酸;

(6)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体存在于大于5%并且小于等于10%的该样品中的细胞、来自该样品的文库中的核酸或来自该文库中文库捕获物的核酸;

(7)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体存在于大于10%并且小于等于20%的该样品中的细胞、来自该样品的文库中的核酸或来自该文库中文库捕获物的核酸;

(8)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体存在于大于20%并且小于等于40%的该样品中的细胞、来自该样品的文库中的核酸或来自该文库中文库捕获物的核酸;

(9)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体存在于大于40%并且小于等于50%的该样品中的细胞、来自该样品的文库中的核酸或来自该文库中文库捕获物的核酸;或者

(10)至少1、2、3、4或5个核苷酸位置,所述核苷酸位置具有的变体存在于大于50%并且小于等于100%的该样品中的细胞、来自该样品的文库中的核酸或来自该文库中文库捕获物的核酸;

其中任选地,每个分配基于唯一的第一值和/或第二值(例如,不同于所列举的范围内(例如,(1)中的范围小于1%)的其他分配的唯一,或基于在一个或多个或全部其他列举的范围内确定的不同于第一值和/或第二值的唯一);或者

(ix)在X个核苷酸位置的每个位置处分配核苷酸值(例如,调用突变),每个核苷酸位置独立地具有(与在其他X-1核苷酸位置处的变体的可能相比)唯一的可能性(例如,存在于该样品的DNA中变体),其中,X等于或大于1、2、3、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000,并且其中每个分配基于唯一(不同于其他分配)的第一值和/或第二值。

在一些实施方案中,所述“阈值”用于评估读取,并从读取中选择核苷酸位置的值,例如,在基因的特定位置调用突变。在一些实施方案中,定制或微调多个对象区间中的每一个的阈值。定制或调整可以基于本文所述的一个或多个因素,例如,样品中的癌症类型、待测序的对象区间(亚基因组区间或表达的亚基因组区间)所处的基因、或者待测序的变体。这提供了对待测序的多个对象区间中的每个微调的调用。在一些实施方案中,当分析相对大量的不同亚基因组区间时,该方法特别有效。

因此,在另一个实施方案中,该方法包括以下突变调用方法:

对于每个该X个对象区间,获取阈值,其中,与其他X-1个阈值相比,所述获取的X个阈值中的每一个是唯一的,从而提供X个唯一阈值;

对于所述X个对象区间中的每一个,将观察值(其是在核苷酸位置处具有核苷酸值的读取的数目的函数)与其唯一阈值进行比较,从而将X个对象区间的唯一阈值应用于该X个对象区间中的每一个;和

任选地,响应于所述比较的结果,将核苷酸值分配给核苷酸位置,

其中X等于或大于2。

在一个实施方案中,所述方法包括将核苷酸值分配给至少2、3、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000个核苷酸位置,每个核苷酸位置独立地具有第一值,该第一值是小于0.5、0.4、0.25、0.15、0.10、0.05、0.04、0.03、0.02或0.01的概率的函数。

在一个实施方案中,所述方法包括向至少X个核苷酸位置中的每个位置处分配核苷酸值,每个核苷酸位置独立地具有与其他X-1个第一值相比唯一的第一值,并且其中该X个第一值中的每一个是小于0.5、0.4、0.25、0.15、0.10、0.05、0.04、0.03、0.02或0.01的概率的函数,其中X等于或大于1、2、3、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000。

在一个实施方案中,将至少20、30、40、60、80、100、120、140、160或180、200、300、400或500个基因,例如来自表1A-5A的基因中的核苷酸位置分配核苷酸值。在一个实施方案中,将唯一的第一值和/或第二值应用于至少10%、20%、30%、40%或50%的已分析的基因的每一个中的对象区间。

可以应用所述方法的实施方案,其中优化相对大量对象区间的阈值,例如,从以下实施方案中可以看出。

在一个实施方案中,将唯一的阈值应用于对象区间,例如至少3、5、10、20、30、40、50、60、70、80、90,100、200、300、400、500、600、700、800、900或1,000个不同基因的每一个中的亚基因组区间或者表达的亚基因组区间。

在一个实施方案中,将至少20、30、40、60、80、100、120、140、160或180、200、300、400或500个基因,例如来自表1A-5A的基因中的核苷酸位置分配核苷酸值。在一个实施方案中,将唯一阈值应用于至少10%、20%、30%、40%或50%的已分析基因的每一个中的亚基因组区间。

在一个实施方案中,将来自表1A-5A的至少5、10、20、30或40个基因中的核苷酸位置分配核苷酸值。在一个实施方案中,将唯一阈值应用于至少10%、20%、30%、40%或50%的已分析基因的每一个中的对象区间(例如,亚基因组区间或表达的亚基因组区间)。

在本文的其他地方,例如,在标题为“突变调用”的部分中更详细地讨论了这些和其他突变调用方法。该模块的元素可以包含在分析肿瘤的方法中。在实施方案中,将来自于标题为“突变调用”的部分中的比对方法与来自于标题为“比对”的部分中的比对方法(在发明概述和/或发明详述中)和/或来自于标题为“靶标捕获试剂”部分中的(在发明概述中)和/或标题为“靶标捕获试剂的设计和构建”和“靶标捕获试剂的竞争”(在发明详述中)的部分的靶标捕获试剂相结合。所述方法可以应用于标题为“基因选择”的部分(在发明概述和/或发明详述中)的一组对象区间。

SGZ分析

在某些实施方案中,根据本文描述的方法评估的改变是种系改变。在某些实施方案中,通过SGZ算法(例如,其描述于Sun et al.PLoS Comput Biol.2018;14(2):e1005965,和美国专利US9,792,403)鉴定种系改变。例如,当评估肿瘤突变负荷时,可以通过包括使用SGZ算法的方法或系统来排除种系改变。

在某些实施方案中,所述方法还包括将来自受试者的样品中的变体表征为体细胞事件或种系事件,所述方法包括:

a)对多个选择的对象区间的每一个、多个选择的种系SNP中的每一个以及变体进行测序;

b)获得:

i)序列覆盖度输入(SCI),对于多个选择的对象区间中的每一个来说,该序列覆盖度输入包括在选择的对象区间处的标准化序列覆盖度的值,其中SCI包括对象区间的读取数目与过程匹配的对照的读取数目的比较;

ii)SNP等位基因频率输入(SAFI),对于多个选择的种系SNP中的每一个来说,其包括样品中次要等位基因频率的值;和

iii)对于已表征的该变体,变体等位基因频率输入(VAFI),其包括样品中该变体的等位基因频率;

c)作为SCI和SAFI的函数,获取值:

多个基因组区段中每一个的基因组区段总拷贝数(C);

多个基因组区段中每一个的基因组区段次要等位基因拷贝数(M);和

样品纯度(p)

其中SCI、SAFI、C、M和p通过以下方式相互关联:

当SCI和SAFI分别标记为r

其中,r

d)获取突变类型的值g,该值表示该变体是体细胞的、亚克隆体细胞变体、种系或不可区分的,其中g、VAFI、p、C和M通过以下关系式彼此相关:

在一些实施方案中,g的值为0或接近0,表示该变体是体细胞变体;g的值为1或接近1,表示该变体是种系变体;g的值小于1但大于0,表示无法区分的结果;g的值明显小于0,表示该变体是亚克隆体细胞变体。

在一些实施方案中,所述样品纯度(p)是整体纯度值。

在一些实施方案中,M的值等于0且不等于C,表示不存在该变体;M等于C的非零值,表示所述变体的纯合子性;M等于0且等于C的值,表示该变体的纯合缺失;M不等于C的非零值,表示该变体的杂合性。

在一些实施方案中,多个选择的对象区间包括外显子。在一些实施方案中,所述变体与受试者中存在的肿瘤类型正相关。在一些实施方案中,所述方法还包括获取样品中所述变体的接合性的指示。在一些实施方案中,在不使用受试者匹配的正常对照的情况下,获取突变类型的值g。在一些实施方案中,标准化之前的平均测序深度为至少约100X、250X、500X、800X、1,000X、1,500X、2,000X、2,500X、3,000X、3,500X、4,000X、4.500X、5,000X、5,500X、6,000X、6,500X、7,000X、7,500X或8,000X。

肿瘤突变负荷

本文所述的方法和组合物可用于评估肿瘤突变负荷。

在某些实施方案中,所述方法包括从样品(例如,本文所述的样品)提供亚基因组区间的集合的序列;并确定突变负荷的值,其中所述值是所述亚基因组区间的集合中改变的数目的函数。在某些实施方案中,所述亚基因组区间的集合来自基因集合,例如,不包括整个基因组或外显子组的基因的集合。在某些实施方案中,所述亚基因组区间的集合是编码亚基因组区间的集合。在其他实施例中,所述亚基因组区间的集合包含一个或多个编码亚基因组区间和一个或多个非编码亚基因组区间。在某些实施方案中,所述突变负荷的值是亚基因组区间的集合中改变的数目(例如,体细胞改变)的函数。在某些实施方案中,所述改变的数目不包括功能性改变、种系改变或两者的数目。

本文所述的方法还可包括例如以下中的一项或多项:从样品中获得包含多个肿瘤核酸分子的文库;使所述文库与靶标捕获试剂接触以通过杂交提供选择的肿瘤核酸分子,从而提供文库捕获物;从所述文库捕获物中获得包括来自肿瘤核酸分子的改变的亚基因组区间的读取;通过比对方法比对读取;将读取核苷酸值分配给核苷酸位置;从分配的核苷酸位置的集合中选择亚基因组区间集合,其中所述亚基因组区间的集合来自基因集合。

在某些实施方案中,在来自受试者例如本文所述的受试者的样品中测量突变负荷。在某些实施方案中,所述突变负荷表示为百分数,例如包括来自参考群体的样品中的突变负荷。在某些实施方案中,所述参考全体包括患有与受试者相同类型的癌症的患者。在其他实施方案中,所述参考群体包括正在接受或已经接受与受试者相同类型的治疗的患者。在某些实施方案中,通过本文描述的方法例如通过评估表1A-5A所示的基因的集合中的改变(例如体细胞改变)的水平而获得的突变负荷,与整个基因组或外显子组突变负荷相关。

改变类型

在本文所述的方法或系统中,可以评估各种类型的改变(例如,体细胞改变),并将其用于分析基因组改变。例如,可以分析与癌症和/或肿瘤突变负荷相关的基因组改变。不希望被理论所束缚,认为在一些实施方案中,本文描述的方法可用于分析具有低肿瘤含量和/或少量肿瘤核酸的样品。

体细胞改变

在某些实施方案中,根据本文描述的方法评估的改变为体细胞改变。

在某些实施方案中,所述改变(例如体细胞改变)是编码短变体,例如碱基替换或插入缺失(插入或缺失)。在某些实施方案中,所述改变(例如,体细胞改变)为点突变。在其他实施方案中,所述改变(例如,体细胞改变)不是重排,例如,不是易位。在某些实施方案中,所述改变(例如,体细胞改变)为剪接变体。

在某些实施方案中,所述改变(例如,体细胞改变)是沉默突变,例如,同义改变。在其他实施方案中,所述改变(例如,体细胞改变)是非同义的单核苷酸变体(SNV)。在其他实施方案中,所述改变(例如体细胞改变)是乘客(passenger)突变,例如对细胞克隆的适应性没有可检测的影响的改变。在某些实施方案中,所述改变(例如,体细胞改变)是未知显著性(VUS)的变体,例如改变,其致病性既不能被确认也不能被排除。在某些实施方案中,所述改变(例如,体细胞改变)未被鉴定为与癌症表型相关。

在某些实施方案中,所述改变(例如,体细胞改变)与对细胞分裂、生长或存活的影响不相关,或未知与之相关。在其他实施方案中,所述改变(例如,体细胞改变)与对细胞分裂、生长或存活的影响有关。

在某些实施方案中,所述体细胞改变的增加水平是一种或多种类别或类型的体细胞改变(例如,重排、点突变、插入缺失或其任何组合)的增加水平。在某些实施方案中,所述体细胞改变的增加水平是一类或一种体细胞改变(例如,仅重排、仅点突变或仅插入缺失)的增加水平。在某些实施方案中,体细胞改变的增加水平是在某位置处(例如,核苷酸位置,例如,在一个或多个核苷酸位置处)或在某区域处(例如,在核苷酸区域处,例如在一个或多个核苷酸区域)的体细胞改变的增加水平。在某些实施方案中,体细胞改变的增加水平是体细胞改变(例如,本文描述的体细胞改变)的增加水平。

功能改变

在某些实施方案中,所述改变(例如,体细胞改变)为亚基因组区间中的功能改变。在其他实施方案中,所述改变(例如,体细胞改变)不是亚基因组区间中的已知功能改变。例如,当评估肿瘤突变负荷时,改变的数目(例如,体细胞改变)可以排除一种或多种功能改变。

在一些实施方案中,所述功能改变是与参考序列例如野生型或未突变的序列相比的改变,其对细胞分裂、生长或存活具有影响,例如促进细胞分裂、生长或存活。在某些实施方案中,通过将功能改变包括在功能改变的数据库中来鉴定功能改变,例如COSMIC数据库(cancer.sanger.ac.uk/cosmic;Forbes et al.Nucl.Acids Res.2015;43(D1):D805-D811)。在其他实施方案中,所述功能改变为具有已知功能状态的改变,例如,在COSMIC数据库中的作为已知体细胞改变而发生。在某些实施方案中,所述功能改变为具有可能功能状态的改变,例如肿瘤抑制基因中的截短。在某些实施方案中,所述功能改变是驱动突变,例如,通过增加细胞存活或繁殖,在其微环境中赋予克隆选择性优势的改变。在其他实施方案中,所述功能改变是能够引起克隆扩增的改变。在某些实施方案中,所述功能改变是能够引起以下中的一项、二项、三项、四项、五项或全部的改变:(a)生长信号的自足性;(b)对抗生长信号例如敏感性降低;(c)细胞凋亡降低;(d)复制潜能增加;(e)持续的血管生成;或者(f)组织浸润或转移。

在某些实施方案中,所述功能改变不是乘客突变,例如,不是对细胞克隆的适应性没有可检测的影响的改变。在某些实施方案中,所述功能改变不是未知显著性(VUS)的变体,例如不是其致病性既不能被确认也不被排除的改变。

在某些实施方案中,排除了表1A-5A中描述的基因中的多个(例如,约10%、20%、30%、40%、50%、60%、70%、80%、90%或更多)功能改变。在某些实施方案中,排除了表1A-5A中描述的一个基因中的所有功能改变。在某些实施方案中,排除了表1A-5A中描述的多个基因中的多个功能改变。在某些实施方案中,排除了表1A-5A中描述的所有基因中的所有功能改变。

种系改变

在某些实施方案中,所述改变是种系改变。在其他实施方案中,所述改变不是种系改变。在某些实施方案中,所述改变与例如与种系改变不相同或不相似,例如与种系改变是可区分的。例如,当评估肿瘤突变负荷时,改变的数目可以排除种系改变的数目。

在某些实施方案中,所述种系改变是单核苷酸多态性(SNP)、碱基替换、插入缺失(例如,插入或缺失)或沉默改变(例如,同义改变)。

在某些实施方案中,通过使用不采用与匹配的正常序列进行比较的方法来鉴定种系改变。在其他实施方案中,通过包括使用SGZ算法的方法来鉴定种系改变。在某些实施方案中,通过将种系改变包括在种系改变的数据库来鉴定种系改变,例如dbSNP数据库(www.ncbi.nlm.nih.gov/SNP/index.html;Sherry et al.Nucleic Acids Res.2001;29(1):308-311)。在其他实施方案中,通过将种系改变包括在两个或多个计数的ExAC数据库(exac.broadinstitute.org;Exome Aggregation Consortium et al.“Analysis ofprotein-coding genetic variation in 60,706humans,”bioRxiv preprint.October30,2015)中来鉴定种系改变。在一些实施方案中,通过将种系改变包括在1000GenomeProject数据库(www.1000genomes.org;McVean et al.Nature.2012;491,56-65)中来鉴定种系改变。在一些实施方案中,通过将种系改变包括在ESP数据库(Exome Variant Server,NHLBI GO Exome Sequencing Project(ESP),Seattle,WA(evs.gs.washington.edu/EVS/)中来鉴定种系改变。

基因选择

本文描述了用于分析的对象区间,例如亚基因组区间、表达的亚基因组区间或两者,例如用于基因或其他区域的集合或组的亚基因组区间的集合或组。

在一些实施方案中,所述方法包括例如通过下一代测序方法对对象区间进行测序,所述对象区间来自于至少5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500或更多个基因或基因产物,所述基因或基因产物来自所获得的核酸样品,其中所述基因选自表1A-5A。

在一些实施方案中,所述方法包括例如通过下一代测序方法对对象区间进行测序,所述对象区间来自于至少5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500或更多个基因或基因产物,所述基因或基因产物来自于所述样品,其中所述基因选自表1A-5A。

在另一个实施方案中,分析以下集合或组中的一个对象区间。例如,与肿瘤或癌症基因或基因产物以及参考(例如野生型)基因或基因产物相关的对象区间,可以提供来自样品的亚基因组区间的组或集合。

在一个实施方案中,所述方法从所述样品获取读取(例如序列)、对象区间的集合,其中所述对象区间选自下述中至少1、2、3、4、5、6、7或以下全部:

A)至少5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500或更多个对象区间,例如,亚基因组区间或表达的亚基因组区间或者两者,所述对象区间来自根据表1A-5A的突变或野生型基因;

B)至少5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500或更多个对象区间,所述对象区间来自于与肿瘤或癌症相关的基因或基因产物(例如是阳性或阴性的治疗反应预示物,是阳性或阴性的预后因子,或能够鉴别诊断肿瘤或癌症例如根据表1A-5A的基因);

C)至少5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500或更多个对象区间,其来自于存在于选自表1A-5A的基因中的亚基因组区间的突变或野生型基因或基因产物(例如,单核苷酸多态性(SNP);

D)至少5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500或更多个对象区间,其来自于存在于选自表1A-5A的基因中的亚基因组区间的突变或野生型基因(例如,单核苷酸多态性(SNP),其与下述中一项或多项相关:i)接受药物治疗的患者生存率更高(例如,接受紫杉醇治疗的乳腺癌患者的生存率更高);(ii)紫杉醇代谢;(iii)药物的毒性;或者(iv)药物的副作用;

E)涉及至少5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500个或更多个根据表1A-5A的基因或基因产物的多个易位改变;

F)选自表1A-5A的至少五个基因,其中例如在一个位置处的等位基因变异与肿瘤的类型相关,并且其中所述该等位基因变异以少于5%的量存在于该肿瘤类型的细胞中;

G)选自表1A-5A的至少5个基因,其嵌入富含GC的区域中;或

H)指示针对发展癌症的遗传(例如,种系风险)因子的至少五个基因(例如,选自表1A-5A的基因或基因产物)。

在另一个实施方案中,所述方法从样品中获取一组对象区间的读取,例如序列,其中对象区间选自表1A-1C中描述的5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400个或全部基因。

在另一个实施方案中,所述方法从样品中获取一组对象区间的读取,例如序列,其中对象选自表2A-2B中描述的5、6、7、8、9、10、15、20、25、30个或全部基因。

在另一个实施方案中,所述方法从样品中获取一组对象区间的读取,例如序列,其中对象区间选自表3A-3C中描述的5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、200、300个或全部基因。

在另一个实施方案中,所述方法从样品中获取一组对象区间的读取,例如序列,其中对象区间选自表4A-4B中描述的5、6、7、8、9、10、15、20、25、30、40、50、60、70、80个或全部基因。

这些和其他和亚基因组区间的集合和组,在本文其他地方,例如在标题为“基因选择”的部分(在发明概述和/或发明详述中)中进行了更详细的讨论。

应用

本文公开的方法允许整合许多优化元素,包括例如基于优化靶标捕获试剂(例如诱饵)的选择、优化比对和应用于例如基因组的癌症相关区段的优化突变调用。本文描述的方法提供了基于NGS的肿瘤分析,其可以在逐个癌症、逐个基因和逐个位点的基础上被优化。这可以应用于例如本文所述的基因/位点和肿瘤类型。该方法利用给定的测序技术优化了突变检测的灵敏度和特异性的水平。逐个癌症、逐个基因和逐个位点的优化提供了非常高水平的敏感性/特异性(例如,两者均>99%),这对于临床产品至关重要。

不希望被理论所束缚,认为在一些实施方案中,本文所述的方法可以应用于一般的测序应用,其将从在选择的基因组区域的检测中增加的灵敏度中受益。例如,那些应用包括但不限于具有基于患病率而增加的覆盖度的遗传性癌症小组(panel)、靶向特定疾病途径的其他全外显子组测序(WES)测试,以及对候选可操作性病灶事件进行富集的产前测试。

在一些实施方案中,本文所述的方法和组合物可用于例如基于改变的类型或分析的目的来调整(例如,调节或优化)一个或多个亚基因组区间的测序深度。例如,高灵敏度的体细胞突变调用可能需要高的测序深度,对肿瘤突变负荷(TMB)的评估可能需要中等的测序深度。在一些实施方案中,将少量亚基因组区间测序到较高的测序深度(例如,用于分析体细胞突变),并且将大量亚基因组区间测序到较低的测序深度(例如,用于评估TMB)。

在一些实施方案中,本文所述的方法和组合物可用于组合种系突变调用和体细胞突变调用。例如,可能需要高测序深度来用于调用体细胞突变(例如,以提高调用的敏感性),而不需要用于调用种系突变。在一些实施方案中,例如在相同的时间或单个捕获步骤可以调整本文所述的靶标捕获试剂(例如,诱饵),以增加与体细胞突变相关的对象区间的回收,并降低与种系突变相关的对象区间的回收。在一些实施方案中,调整靶标捕获试剂(例如,诱饵),包括改变一种或多种(例如,全部)靶标捕获试剂(例如,诱饵)的比例。本文所述的方法和组合物可用于例如分析具有临床意义的种系突变(例如BRCA1/2)。本文所述的方法和组合物还可用于例如与人白细胞抗原(HLA)分型的联合体细胞突变,例如用于确定背景突变率(pCV)。

在一些实施方案中,本文所述的方法和组合物可用于优化大规模动态范围基因表达谱。例如,可能需要高测序深度来分析高表达的基因,而不是分析低表达的基因。在一些实施方案中,可能需要高测序深度来分析低表达的基因。在一些实施方案中,可能需要高测序深度来分析低表达的基因,而不是分析高表达的基因。在一些实施方案中,在相同的时间或单个捕获步骤可以调整本文所述的靶标捕获试剂(例如,诱饵),以降低与高表达的基因相关的对象区间的回收,并增加与低表达的基因相关的对象区间的回收。

在一些实施方案中,本文所述的方法和组合物可用于组合拷贝数改变(CNA)调用和体细胞突变调用。例如,可能需要高测序深度来调用体细胞突变(例如,以提高调用的灵敏度),而非调用CNA。在一些实施方案中,在相同的时间或单个捕获步骤可以调整本文所述的靶标捕获试剂(例如,诱饵),以增加与体细胞突变相关的对象区间的回收,并降低已经扩增的对象区间的回收。

在一些实施方案中,所述方法还包括响应于对基因组改变,例如体细胞改变的评估而选择治疗。在一些实施方案中,所述方法还可以包括响应于对突变负荷的评估(例如增加或降低的突变负荷水平)而选择治疗。在一些实施方案中,所述方法还包括响应于基因组改变的评估来给予治疗。在一些实施方案中,所述方法还包括响应于基因组改变的评估,对样品或从其获得样品的受试者进行分类。在一些实施方案中,所述方法还包括确定从其获得样品的受试者的临床试验资格。在一些实施方案中,该方法还包括生成报告,例如,电子报告、基于网络的报告或纸质报告,并将其传递给患者或其他人或实体、护理人员、医师、肿瘤学家、医院、诊所、第三方付款人、保险公司或政府办公室。在一些实施方案中,报告包括来自本文描述的方法的输出。

本文所述的方法使用下一代测序技术从常规现实样品提供了临床级和监管级的综合分析,以及对一组综合的合理的可操作基因(通常可能为50至500个基因)进行基因组畸变畸变的解释说明,以告知最佳治疗决策和疾病管理决策。

本文所述的方法为肿瘤学家/病理学家提供了一站式购物,以发送样品并接收针对肿瘤的基因组和其他分子变化的全面分析和描述,以告知最佳治疗决策和疾病管理决策。

本文所述方法提供了一种耐用的,现实的临床肿瘤学诊断工具,该工具可获取标准的可用样品,并且在一项测试中提供了全面的基因组和其他分子畸变分析,从而为肿瘤学家提供了可能导致肿瘤发展的各种畸变的全面描述,有助于告知肿瘤科医生治疗决策。

本文所述的方法提供了具有临床级特性的患者癌症基因组的全面分析,例如通过下一代测序(NGS)进行全面分析。方法包括最相关的基因和潜在的改变,并包括对突变(例如插入缺失或碱基替换)、拷贝数、重排(例如易位)、表达和表观遗传标记中的一项或多项分析。遗传分析的输出可以通过描述性报告可操作结果来进行上下文描述。方法将使用与最新的相关科学和医学知识集合联系起来。

在一些实施方案中,所述方法分析衍生自人体的样品,以提供用于诊断、预防或治疗任何疾病(例如,癌症)或损害人类健康或评估其健康的信息。在一些实施方案中,所述方法根据临床实验室改进修正案(CLIA)和/或美国病理学协会(CAP)提供的指南进行。在一些实施方案中,该方法在CLIA和/或CAP认证的设备中执行。在一些实施方案中,所述方法根据食品和药品监督管理局(FDA)、欧洲药品管理局(EMA)、质量体系规范(QSR)、欧盟委员会(CE)、例如,CE体外诊断(CE-IVD),中国食品药品监督管理局(CFDA)或其他监管机构提供的指南进行。在一些实施方案中,所述方法在FDA、QSR、CE或CFDA认证的设备中进行。在一些实施方案中,该方法在QSR认证的设备中进行。在一些实施方案中,所述方法分析临床级样品,例如适合于临床实践、试验或患者护理管理的样品。在一些实施方案中,所述样品包括回顾性样品和/或预期样品。在一些实施方案中,所述回顾性样品包括在已经给予治疗之前或之后分析的样品,或者是研究样品。在一些实施方案中,所述回顾性样品包括来自未经治疗的受试者的样品。在一些实施方案中,使用本文描述的方法来分析预期样品,可以导致对例如从对象获得样品的其的治疗结果的预测,例如衍生自对象。

在一些实施方案中,例如,如本文所述,该方法用作诊断。在一些实施方案中,该方法用在伴随诊断中或与伴随诊断一起使用。在一些实施方案中,该方法用作辅助诊断。

在一些实施方案中,所述方法的有效性通过确定准确度、精确度、灵敏度、特异性、可报告范围或参考区间来确定(例如,在CLIA规范下)。在某些实施方案中,准确度由例如靶区域中已知变体(例如SNP,插入缺失)的覆盖度和特性(例如Phred分数)来确定来确定。在某些实施方案中,精确度由例如已知变体的不同操作者和仪器之间的序列复制和覆盖度分布来确定。在某些实施方案中,特异性是由假阳性率确定的,假阳性率是在例如具有良好表征的靶标的几个样品中在特定覆盖度阈值下鉴定假变体的程度。在某些实施方案中,灵敏度是通过似然性测试确定的,该似然性测试例如在具有良好表征的靶标的几个样品中检测已知变体。在某些实施方案中,可报告范围由一个或多个基因(例如具有重复区域、插入缺失或等位基因缺失)的内含子缓冲液和外显子区域来确定。在某些实施方案中,参考区间是通过例如在未受影响的群体中的序列变化背景测量来确定。

在一些实施方案中,该方法在包含下述的背景(例如,在CAP规范下)中进行:考虑了经验证的样品提取、文库制备、条形码、池化、靶标富集或生物信息学(例如,如何称呼精确和敏感的变体)中的一种或多种(例如,两个、三个、四个、五个或全部)。

本文所述的方法提供了增加患者护理的质量和效率。这包括以下情况的应用:肿瘤为罕见或研究欠佳的肿瘤,以至于没有标准的护理或患者对既定的治疗方法无能为力,并且针对进一步治疗的选择或临床试验参与的合理基础可能是有用的。例如,该方法允许在治疗的任何时候进行选择,在这些地方选择,肿瘤学家通过获得可用于决策的完整“分子图像”和/或“分子亚诊断”而受益。结果可用于确定患者是否符合参加临床试验的条件。

本文所述的方法可以包括例如以电子、基于网络或纸质的形式向患者或其他人或实体(例如护理人员,例如医师,例如肿瘤学家,医院、诊所、第三方付款人、保险公司或政府办公室)提供报告。该报告可以包含该方法的输出,例如核苷酸值的鉴定,是否存在改变、突变或野生型序列的指示,例如针对与所述样品的类型肿瘤相关的对象区间。所述报告还可以包含关于肿瘤突变负荷水平的信息。所述报告还可以包含关于一种或多种其他基因组标签的信息,例如连续/复合的生物标志物,例如微卫星不稳定性的水平,或是否存在杂合性(LOH)。所述报告还可以包含关于序列例如疾病中的改变、突变或野生型序列的作用的信息。此类信息可包含关于预后、抵抗力或潜在或建议的治疗选择的信息。所述报告可以包含关于治疗选择的可能有效性、治疗选择的可接受性或将治疗选择应用于患者的建议的信息,所述患者例如在测试中鉴定的以及在报告中鉴定的实施方式中具有序列改变的患者。例如,所述报告可以包含关于向患者施用药物的信息或建议,例如以一定剂量或以一种治疗方案施用,例如与其他药物组合的形式施用。在一个实施方案中,并非在所述方法中鉴定的所有突变都在报告中鉴定。例如,该报告可以限于具有与治疗(例如使用治疗选择)的癌症的发生、预后、阶段或易感性相关水平的基因突变。本文所表征的方法允许在实践所述方法的实体收到样品后的7、14或21天内将报告发送给例如本文所述的实体。因此,本发明所表征的方法允许快速的周转时间,例如,在接收样品的7、14或21天内。

本文所述的方法也可以用于评估组织学正常的样品,例如来自手术切缘的样品。如果检测到本文所述的一种或多种改变,则可以将组织重新分类为例如恶性或癌变前,和/或可以改变治疗过程。

在一些实施方案中,本文所述的方法可用于非癌症应用中,例如,在法医应用中(例如,鉴定为替代使用牙科记录或除使用牙科记录之外)、亲子鉴定,以及疾病诊断和预后,例如,传染病、自身免疫性疾病、囊性纤维化、亨廷顿氏舞蹈病(Huntington′sDisease)、阿尔茨海默氏病等。例如,通过本文所述的方法鉴定遗传改变可以表明个体存在或发展为特定疾病的风险。

系统

在另一方面,本发明特征在于一种用于评估样品中的基因组改变的系统。所述系统包括可操作地连接到存储器的至少一个处理器,所述至少一个处理器在执行时被配置为进行如本文所述的分析样品的方法。

除非另有定义,否则本文所用的所有技术术语和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。尽管与本文描述的那些类似或等同的方法和材料可用于本发明的实践或测试中,但是下面描述了合适的方法和材料。本文提及的所有出版物、专利申请、专利和其他参考文献通过引用整体并入本文。另外,所述材料、方法和实例仅是说明性的,并不意图是限制性的。

根据说明书的详细描述、说明书附图以及权利要求书,本发明的其他特征和优点将变得显而易见。

附图说明

图1是显示相对于没有阻断剂的三个基因(EGFR、NF1和TP53)的ATM和APC的靶标覆盖度的曲线图。y轴表示log2比率,x轴表示基因靶标。

图2是表示与所有其他NHC靶标区域相比,APC靶标区域的观察的和预期的中位数覆盖度的图。

图3是示出平均共有靶标覆盖度的直方图,其图示了窄的高覆盖度(NHC)靶标与阻断的降低覆盖度的非NHC靶标的分离。y轴表示计数,x轴表示靶标测序深度。

发明详述

本文所述的方法至少部分基于以下观察:通过优化针对不同靶标的靶标捕获试剂上的修饰的水平(例如,生物素化),可以以受控方式实现靶标的不同测序深度。在某些实施方案中,所述方法对可能含有亚克隆突变或具有较高临床重要性的特定基因组区域、外显子或RNA转录物提供更高的敏感性。在其他实施方案中,与用于评估种系SNP等位基因平衡的方法相比,所述方法针对评价了体细胞突变的靶标提供了更高的测序深度。

不希望受到理论的束缚,据信在一些实施方案中,本文所述的方法可以以较低的成本实现用于评价基因组改变的类似性能。

本文所述的方法允许提供靶标捕获试剂,其可在较小的一组基因中以高测序深度测量来自组织、血液、CTC、cfDNA或ctDNA的体细胞突变,并以较低测序深度在较大基因组区域上同时测量基因组签名(signature),例如,连续/复合的生物标志物(例如,肿瘤突变负荷,例如,血液肿瘤突变负荷)。在某些实施方案中,本文所述的方法允许以高测序深度测量体细胞改变和以低测序深度进行种系改变。在某些实施方案中,本文所述的方法允许以高测序深度测量体细胞变化,并以低测序深度测量拷贝数或结构变体(例如,长度约1Kb至3Mb)。在其他实施方案中,该方法可用于控制RNA测序或cDNA测序应用或其他在源样品中基因或序列的丰度不同的应用中特定基因的测序深度。在这种情况下,减少高丰度基因的序列覆盖度以提高测量较低丰度基因的效率可以是一个优势。不希望受理论的束缚,据信在一些实施方案中,本文所述的方法可用于标准化跨越不同靶标的测序覆盖度,其中一些靶标被靶标捕获试剂更有效和/或更具特异性地捕获,而其他靶标被靶标捕获试剂以较低效率地和/或较低特异性地捕获(例如,由于靶标中GC含量高或低,或两个不同靶标之间的相似性)。本文描述的方法的其他用途包括但不限于:基因表达谱分析、SNP鉴定和拷贝数改变(CNA)的确定。

用杂交捕获方法获得差异测序深度的挑战之一是,靶标捕获试剂相对于靶标DNA通常是高摩尔过量,这对于有效捕获(例如,确保靶标捕获的饱和度)是必需的,并允许定量测量靶标DNA的拷贝数(例如,如果捕获了大多数靶标DNA,则深度会与靶标的拷贝数近似成线性比例)。在这种情况下,增加或减少特定靶标捕获试剂的相对量,对获得的测序深度具有相对小的影响。

本文所述的方法,例如通过控制针对不同靶标的靶标捕获试剂上的修饰水平(例如生物素化),提供不同的测序深度。假设大多数靶标DNA被捕获(因为靶标捕获试剂过量),则针对修饰的特定靶标(例如,生物素化)的靶标捕获试剂的相对量,可以直接影响通过杂交捕获反应保留的特定靶标DNA的量。例如,如果靶标A的靶标捕获试剂为25%生物素化的,且靶标B的靶标捕获试剂为50%生物素化的,则可以预期靶标A DNA相对于靶标B DNA的相对量约为1∶2。由于通过以给定的比例混合未修饰的(例如,未生物素化的)靶标捕获试剂,易于降低特定类型的靶标捕获试剂的修饰(例如,生物素化)的水平,并且易于确定通过测序得到的不同靶标的输出测序深度比率,应当需要滴定反应以实现特定靶标的特定差异测序深度。

在一些实施方案中,可以通过不同的修饰、纯化方法或用于捕获的底物(例如,在溶液中对比在表面上),实现针对特定类型的靶标捕获试剂增加修饰的水平(例如,生物素化)。在其他实施方案中,通过降低针对表现较好的靶标捕获试剂的修饰的水平(例如,生物素化),和/或增加表现较差的靶标捕获试剂的修饰的水平(例如,生物素化),增加不同靶标测序深度的一致性以收紧所测量的靶标测序深度的分布。

定义

首先定义某些术语。在整个说明书中定义了其他术语。

如本文所用,冠词“一个/种(a/an)”指冠词的语法对象中的一个/种或多于一个/种(例如,至少一个/种)。

给定测量的性质或精度,“约(about)”和“大约(approximately)”通常意指所测量数量的可接受的误差程度。示例性误差程度在给定值或值范围的20%(%)以内,通常在10%以内,更通常在5%之内。

如本文所用,术语“高测序深度事件”指测序到高测序深度的序列(例如,亚基因组区间序列),例如至少2000X、2500X、3000X、3500X、4000X、4500X、5000X、5500X、6000X、6500X、7000X、7500X、8000X、8500X、9000X、9500X、10000X,或更高。在一个实施方案中,所述高测序深度事件与表型(例如癌症表型、对细胞分裂、生长或存活的影响)相关。在一个实施方案中,所述高测序深度事件与结果(例如,治疗结果、诊断或预后)具有相关性。在一个实施方案中,所述高测序深度事件是遗传事件,其与不想要的表型、病症或对疗法的反应的可能性具有相关性(例如,正相关或负相关)。在一个实施方案中,所述高测序深度事件包括改变,例如突变,其导致或驱动肿瘤发生,或与对治疗方式的响应性或非响应性相关。在一个实施方案中,所述高测序深度事件包括表1A-5A的任一项中所述基因中的遗传事件。在一个实施方案中,所述高测序深度事件包括表3C、3D、3E或5A中描述的基因中的遗传事件。在一个实施方案中,第一片段(F1)与高测序深度事件相关。在一个实施方案中,于F1或F1内存在高测序深度事件。在一个实施方案中,F1包括高测序深度事件。在一个实施方案中,第二片段(F2)与高测序深度事件不相关。在一个实施方案中,所述高测序深度事件于F2或F2内不存在。在一个实施方案中,F2不包含高测序深度事件。在一个实施方案中,所述高测序深度事件不是这样的事件,其水平与一种或多种生物标志物的确定相关,例如,肿瘤突变负荷(TMB)、微卫星不稳定性(MSI)或两者。在一个实施方案中,所述高测序深度事件包含可行动事件,例如本文所述的可行动事件。在一个实施方案中,所述高测序深度事件包含这样的序列(例如,亚基因组区间序列),其被测序到高测序深度,例如,比低测序深度事件大至少1、2、3、4、5、6、7、8、9或10倍的深度。

如本文所用,术语“低测序深度事件”指被测序至低测序深度的序列(例如,亚基因组区间序列),所述低测序深度例如小于2000X、1500X、1000X、900X、800X、700X、600X、500X、400X、300X、200X或更低。在一个实施方案中,所述低测序深度事件与表型(例如,癌症表型、对细胞分裂、生长或存活的影响)不相关。在一个实施方案中,所述低测序深度事件与结果(例如,治疗结果、诊断或预后)具有或不具有相关性。在一个实施方案中,所述低测序深度事件是与不想要的表型、病症或对治疗反应的可能性具有或不具有相关性(例如,正相关或负相关)的遗传事件。在一个实施方案中,所述低测序深度事件是没有表型的改变,例如,沉默突变或SNP。在一个实施方案中,所述低测序深度事件是表1A-5A的任一项中所述的基因中的遗传事件。在一个实施方案中,所述低测序深度事件不是表3C、3D、3E或5A中描述的基因中的遗传事件。在一个实施方案中,第二片段(F2)与低测序深度事件相关。在一个实施方案中,低测序深度事件存在于F2或F2内。在一个实施方案中,F2包含低测序深度事件。在一个实施方案中,第一片段(F1)与低测序深度事件不相关。在一个实施方案中,所述低测序深度事件不存在于F1或F1内。在一个实施方案中,F1不包括低测序深度事件。在一个实施方案中,所述低测序深度事件包含这样的事件,其水平与一种或多种生物标志物的确定相关,例如,肿瘤突变负荷(TMB)、微卫星不稳定性(MSI)或两者。在一个实施方案中,所述低测序深度事件包含可行动事件,例如本文所述的可行事件。在一个实施方案中,所述低测序深度事件不包含可行动事件,例如,不是本文所述的可行动事件。在一个实施方案中,所述低测序深度事件包含这样的序列(例如,亚基因组区间序列),其被测序到高测序深度,例如,比高测序深度事件低至少1、2、3、4、5、6、7、8、9或10倍的深度。

如本文所用,术语“可行动事件”或“可行动性”指与表型(例如癌症表型、对细胞分裂、生长或存活的影响)相关的序列(例如,亚基因组区间序列)。在一个实施方案中,可行动事件与结果(例如,治疗结果、诊断或预后)具有相关性。在一个实施方案中,可行动事件是与不想要的表型、病症或对治疗反应的可能性具有相关性(例如,正相关或负相关)的遗传事件。在一个实施方案中,可行动事件是这样的改变,例如突变,其导致或驱动肿瘤发生,或其与对治疗方式的响应性或非响应性相关。在一个实施方案中,可行动事件是表1A-5A的任一项中所述的基因中的遗传事件。在一个实施方案中,TMB或MSI的水平可以与可行动事件相关,但是当确定TMB或MSI的水平时识别出的一个或多个改变可以是可行动的,也可以不是可行动的。

在一个实施方案中,可以基于Hedley等,(2016)Nature Reviews 16(5)319-29中描述的方法来确定可行动事件,其全部内容通过引用并入本文。在一个实施方案中,可行动事件包含充分表征的复发突变。在一个实施方案中,可行动事件包含可以在细胞测定中导致转化的突变。在一个实施方案中,可行动事件包括可以改变例如增强,细胞对化合物的敏感性的突变。在一个实施方案中,可行动事件包含致病性的突变。

如本文所用,术语“获得(acquire/acquiring)”是指通过“直接获得”或“间接获得”物理实体或值来获得物理实体或值(例如,数值)的拥有。“直接获得”意指进行一个过程(例如,进行合成或分析方法)以获得物理实体或值。“间接获得”指从另一方或来源(例如,直接获得该物理实体或值的第三方实验室)接收该物理实体或值。直接获得物理实体包括进行一个过程,该过程包括物理物质例如起始材料的物理变化。示例性的变化包括:由两种或多种起始材料制成物理实体,剪切或破碎一种物质,分离或纯化一种物质,将两种或多种独立实体组合成混合物,进行包括破坏或形成共价或非共价键的化学反应。直接获得值包括进行一个过程,该过程中包括样品或另一种物质中的物理变化,例如,进行一个分析过程,该过程中包括物质(例如,样品、分析物或试剂)中的物理变化(有时在本文中称为“物理分析”),进行分析方法,例如包括以下一项或多项的方法:从另一种物质中分离或纯化一种物质(例如,分析物或其片段或其他衍生物);将分析物或其片段或其他衍生物与另一种物质(例如缓冲液、溶剂或反应物)组合;或例如通过破坏或形成分析物的第一和第二原子之间的共价或非共价键来改变该分析物或其片段或其他衍生物的结构;或例如通过破坏或形成试剂的第一和第二原子之间的共价或非共价键来改变该试剂或其片段或其他衍生物的结构。

如本文所用,术语“获得序列”或“获得读取”指通过“直接获得”或“间接获得”序列或读取来获得核苷酸序列或氨基酸序列的拥有。“直接获得”序列或读取意指进行一个过程(例如,进行合成或分析方法)以获得序列,诸如进行测序方法(例如,下一代测序(NGS)方法)。“间接获得”序列或读取指从另一方或来源(例如,直接获得该序列的第三方实验室)接收序列的信息或知识,或接收序列。获得的序列或读取不必是完整序列,例如,至少一个核苷酸的测序,或获得信息或知识,其将本文中公开的一种或多种改变鉴定为存在于受试者体内,构成获得序列。

直接获得序列或读取包括进行一个过程,该过程包括物理物质诸如起始材料(诸如,本文所述的样品)的物理变化。示例性的改变包括由两种或更多种起始材料制成物理实体,剪切或破碎物质,诸如基因组DNA片段;分离或纯化物质(例如,从组织中分离核酸样品);将两个或多个单独的实体组合成混合物,进行包括破坏或形成共价或非共价键的化学反应。直接获得值包括进行一个过程,该过程包括样品或另一种物质的物理变化,如上所述。所述片段的大小(例如,所述片段的平均大小)可以是2500bp或更小,2000bp或更小,1500bp或更小,1000bp或更小,800bp或更小,600bp或更小,400bp或更小,或200bp或更小。在一些实施方案中,所述片段(例如,cfDNA)的大小为约150bp至约200bp(例如,约160bp至约170bp)。在一些实施方案中,所述片段(例如,来自FFPE样品的DNA片段)的大小为约150bp至约250bp。在一些实施方案中,所述片段(例如,从FFPE样品中的RNA获得的cDNA片段)的大小为约100bp至约150bp。

如本文所用,术语“获得样品”指通过“直接获得”或“间接获得”样品来获得样品例如本文所述的样品的拥有。“直接获得样品”意指进行一个过程(例如,进行诸如手术或提取的物理方法)以获得样品。“间接获得样品”是指从另一方或来源(例如,直接获得样品的第三方实验室)接收样品。直接获得样品包括进行一个过程,该过程包括物理物质,例如起始材料如组织,例如人类患者中的组织或先前从患者分离的组织的物理变化。示例性的变化包括由起始材料制成物理实体,解剖或刮擦组织;分离或纯化物质(例如,样品组织或核酸样品);将两个或多个单独的实体组合成混合物;进行包括破坏或形成共价或非共价键的化学反应。直接获得样品包括进行一个过程,该过程包括样品或另一种物质的物理变化,例如,如上所述的。

如本文所用,基因或基因产物(例如,标志物基因或基因产物)的“改变”或“改变的结构”,指基因或基因产物中存在一个或多个突变,例如一个突变,与正常或野生型基因相比,其影响基因或基因产物的完整性、序列、结构、数量或活性。与正常或健康组织或细胞(例如,对照)中其数量、结构和/或活性相比,所述改变可以是癌组织或癌细胞中的数量、结构和/或活性,并且与疾病状态有关,诸如癌症。与正常、健康的组织或细胞相比,在癌组织或癌细胞中,例如,与癌症或与对抗癌疗法的反应性的预测性有关的改变,可以具有改变的核苷酸序列(例如,突变)、氨基酸序列、染色体易位、染色体内倒置、拷贝数、表达水平、蛋白质水平、蛋白质活性、表观遗传修饰(例如,甲基化或乙酰化状态,或翻译后修饰)。示例性突变包括,但不限于:点突变(例如,沉默、错义或无义)、缺失、插入、倒置、重复、扩增、易位、染色体间和染色体内重排。突变可以存在于基因的编码或非编码区域。在某些实施方案中,所述将改变被检测为重排,例如,包含一个或多个内含子或其片段的基因组重排(例如,在5′-和/或3′-UTR中的一个或多个重排)。在某些实施方案中,所述改变与表型,例如癌性表型(例如,癌症风险、癌症进展、癌症治疗或对癌症治疗的抗性中的一种或多种)相关(或不相关)。在一个实施方案中,所述改变(或肿瘤突变负荷)与以下一项或多项相关:癌症的遗传风险因子、阳性治疗响应预测因子(predictor)、阴性治疗响应预测因子、阳性预后因子、阴性预后因子或诊断因子。

如本文所用,术语“插入缺失(indel)”指细胞的核酸中一个或多个核苷酸的插入、缺失或两者。在某些实施方案中,插入缺失包括一个或多个核苷酸的插入和缺失,其中在核酸上插入和缺失相邻。在某些实施方案中,所述插入缺失导致核苷酸总数的净变化。在某些实施方案中,所述插入缺失导致约1至约50个核苷酸的净变化。

如本文所用,术语“克隆概况”指对象区间(或包含该对象区间的细胞)的一种或多种序列(例如等位基因或签名(signature))的出现、特性、变异性、分布、表达(亚基因组签名的转录拷贝的出现或水平)或丰度(例如相对丰度)。在一个实施方案中,所述克隆概况是当对象区间的多个序列、等位基因或签名存在于样品中时,针对该对象区间(或包含相同序列的细胞)的一个序列、等位基因或签名的相对丰度的值。例如,在一个实施方案中,克隆概况包括针对对象区间的多个VDJ或VJ组合中一个或多个的相对丰度的值。在一个实施方案中,克隆概况包括针对对象区间的所选V区段的相对丰度的值。在一个实施方案中,克隆概况包括在对象区间的序列内的多样性的值,例如由体细胞超突变引起的多样性。在一个实施方案中,克隆概况包括序列、等位基因或签名的表达出现或表达水平的值,例如,如通过包含该序列、等位基因或签名的表达的亚基因组区间的出现或水平所证明的。

如本文所用,术语“表达的亚基因组区间”指亚基因组区间的转录序列。在一个实施方案中,所述表达的亚基因组区间的序列会不同于由其转录的亚基因组区间,例如,因为某些序列可能不被转录。

如本文所用,术语“突变等位基因频率”(MAF)指突变等位基因在特定部位例如在样品中的相对频率。在一些实施方案中,突变等位基因频率表示为分数或百分比。

如本文所用,术语“签名”指对象区间的序列。签名可以诊断在对象区间的多种可能性之一的发生,例如,签名可以为以下诊断:在重排的重链或轻链可变区基因中选择的V区段的出现;选择的VJ接头的出现,例如重排的重链可变区基因中选择的V区段和选择的J区段的出现。在一个实施方案中,签名包括多个特定的核酸序列。因此,签名不限于特定的核酸序列,而是具有足够独特以至于它可以区分在对象区间的第一组序列或可能性与在对象区间的第二组可能性,例如,它可以区分第一V区段和第二V区段,允许例如评价多种V区段的使用。术语签名包括术语特定签名,其是特定核酸序列。在一个实施方案中,所述签名指示特定事件例如重排事件,或是该事件的产物。

如本文所用,术语“亚基因组区间”指基因组序列的一部分。在一个实施方案中,亚基因组区间可以是单个核苷酸位置,例如,该位置的变体与肿瘤表型(正或负)相关。在一个实施方案中,亚基因组区间包含多于一个的核苷酸位置。这样的实施方案包括长度至少2、5、10、50、100、150或250个核苷酸位置的序列。亚基因组区间可以包含整个基因或其一部分,例如编码区(或其部分)、内含子(或其部分)或外显子(或其部分)。亚基因组区间可包含天然存在的例如基因组DNA、核酸的全部或部分片段。例如,亚基因组区间可以对应于经受测序反应的基因组DNA的片段。在实施方案中,亚基因组区间是来自基因组来源的连续序列。在实施方案中,亚基因组区间包括在基因组中不连续的序列,例如,cDNA中的亚基因组区间可以包括由于剪接形成的外显子-外显子连接。

在一个实施方案中,亚基因组区间对应于重排的序列,例如B或T细胞中的序列,其是由于V区段与D区段,D区段与J区段,V区段与J区段,或J区段与分类区段的连接而产生的。

在一个实施方案中,所述亚基因组区间由一个序列表示。在一个实施方案中,所述亚基因组区间由多于一个序列表示,例如,覆盖VD序列的亚基因组区间可以由多于一个签名表示。

在一个实施方案中,亚基因组区间包含以下或由以下组成:单核苷酸位置;基因内区域或基因间区域;外显子或内含子,或其片段,通常为外显子序列或其片段;编码区或非编码区,例如启动子,增强子,5’非翻译区(5’UTR)或3’非翻译区(3’UTR),或其片段;cDNA或其片段;SNP;体细胞突变、种系突变,或两者兼有;改变,例如点突变或单个突变;缺失突变(例如,框内缺失、基因内缺失、全基因缺失);插入突变(例如,基因内插入);倒位突变(例如,染色体内倒位);反向复制突变;串联重复(例如,染色体内串联重复);易位(例如,染色体易位、非相互易位);重排(例如,基因组重排(例如,一个或多个内含子的重排,一个或多个外显子的重排,或其组合和/或其片段);重排的内含子可包括5’-UTR和/或3’-UTR);基因拷贝数的变化;基因表达的变化;RNA水平的变化;或其组合。“基因的拷贝数”指细胞中编码特定基因产物的DNA序列的数目。一般而言,对于给定的基因,哺乳动物的每个基因具有两个拷贝。所述拷贝数可以,例如通过基因扩增或复制而增加,或通过缺失而减少。

如本文所用,术语“对象区间”指亚基因组区间或表达的亚基因组区间。在一个实施方案中,亚基因组区间和表达的亚基因组区间相对应,这意味着表达的亚基因组区间包括从相应的亚基因组区间表达的序列。在一个实施方案中,亚基因组区间和表达的亚基因组区间是不对应的,这意味着所述表达的亚基因组区间不包含从不对应的亚基因组区间表达的序列,而是对应于不同的亚基因组区间。在一个实施方案中,亚基因组区间和表达的亚基因组区间部分地对应,意味着表达的亚基因组区间包括从相应的亚基因组区间表达的序列和从不同的相应亚基因组区间表达的序列。

如本文所用,术语“文库”是指核酸分子的集合。在一个实施方案中,所述文库包括核酸核酸分子的集合,例如完整基因组、亚基因组片段、cDNA、cDNA片段、RNA例如mRNA、RNA片段,或其组合的集合。一般而言,核酸分子是DNA分子,例如基因组DNA或cDNA。核酸分子可以被片段化,例如被剪切或酶促制备的基因组DNA。核酸分子包含来自受试者的序列,并且还可以包含不源自受试者的序列,例如衔接子序列、引物序列,或其他允许鉴定的序列,例如“条形码”序列。在一个实施方案中,所述文库核酸分子的一部分或全部包含衔接子序列。所述衔接子序列可以位于一端或两端。所述衔接子序列可用于例如测序方法(例如,NGS方法),用于扩增,用于逆转录,或用于克隆入载体。所述文库可以包含核酸分子的集合,例如靶标核酸分子(例如,肿瘤核酸分子、参考核酸分子,或其组合)。所述文库的核酸分子可以来自单个个体。在实施方案中,文库可包含来自多于一个受试者(例如2、3、4、5、6、7、8、9、10、20、30或更多个受试者)的核酸分子,例如可以组合来自不同受试者的两个或更多个文库以形成包含来自多于一个受试者的核酸分子的文库。在一个实施方案中,所述受试者是患有癌症或肿瘤,或具有患癌症或肿瘤的风险的人。

“文库捕获物”指文库的子集,例如富集对象区间的子集,例如通过与靶标捕获试剂杂交而捕获的产物。

如本文所用,“靶标捕获试剂”指能够捕获靶标的分子。靶标捕获试剂(例如,诱饵或靶标捕获寡核苷酸)可以包含核酸分子,例如DNA或RNA分子,可以与其杂交(例如,与其互补),从而允许捕获靶标核酸。在一个实施方案中,靶标捕获试剂包含DNA分子(例如,天然存在的或经修饰的DNA分子)、RNA分子(例如,天然存在的或经修饰的RNA分子),或其组合。在一些实施方案中,所述靶标捕获试剂还包含结合对的功能性第一成员,其能够结合至例如设置在底物上的结合对的第二成员。在其他实施方案中,所述靶标捕获试剂缺少结合对的功能性第一成员,例如,改变或阻断了结合对的第一成员,从而所述结合对的第一和第二成员之间的亲和力降低或消除。在一实施方案中,靶标捕获试剂适合于溶液相杂交。可以将包含结合对的功能性第一成员的靶标捕获试剂与缺少结合对的功能性第一成员的靶标捕获试剂混合,例如以不同的比例,以通过底物实现不同的回收效率,这可与不同的测序深度相关。在一些实施方案中,例如通过包含结合对的第一成员,例如结合对的功能性第一成员来修饰靶标捕获试剂。在一些实施方案中,所述靶标捕获试剂是未经修饰的,例如,不包括结合对的功能性第一成员,或结合对的第一成员被改变或阻断。

结合对的第一成员可以是可直接或间接附接于靶标捕获试剂的任何分子标签(tag),该靶标捕获试剂在起作用时,能够与底物特异性结合。结合对的第一成员可以是靶标捕获试剂序列上的亲和标签。在某些实施方案中,结合对的第一成员通过与所述结合对的第二成员,诸如亲和素分子,或结合半抗原或其抗原结合片段的抗体结合,而允许从杂交混合物中分离靶标捕获试剂/核酸分子杂合体。结合对的示例性第一成员包括但不限于:生物素分子、半抗原、抗体、抗体结合片段、肽和蛋白质。在一些实施方案中,所述底物包括珠子。

“互补的”指两条核酸链的区域之间或同一核酸链的两个区域之间的序列互补性。已知第一核酸区域的腺嘌呤残基能够与第二核酸区域的残基形成特异性氢键(“碱基配对”),如果该残基是胸腺嘧啶或尿嘧啶,则所述第二核酸区域与第一区域反平行。类似地,已知第一核酸链的胞嘧啶残基能够与第二核酸链的残基碱基配对,如果第二核酸链的残基是鸟嘌呤,所述第二核酸链与第一链反平行。如果当两个区域以反平行方式排列时,第一区域的至少一个核苷酸残基能够与第二区域的残基碱基配对,则核酸的第一区域与相同或不同核酸的第二区域互补。在某些实施方案中,所述第一区域包括第一部分,且所述第二区域包括第二部分,由此,当所述第一和第二部分以反平行方式布置时,所述第一部分的至少约50%,至少约75%,至少约90%,或至少约95%的核苷酸残基能够与第二部分中的核苷酸残基碱基配对。在其他实施方案中,所述第一部分的所有核苷酸残基能够与所述第二部分中的核苷酸残基碱基配对。

术语“癌症”和“肿瘤”在本文可互换使用。这些术语指具有致癌细胞典型特征的细胞的存在,诸如不受控制的增殖、永生、转移潜能、快速生长和增殖速率,以及某些特有的形态特征。癌细胞通常为肿瘤的形式,但这样的细胞可以单独存在于动物体内,也可以是非致瘤性癌细胞,诸如白血病细胞。这些术语包括实体瘤、软组织肿瘤或转移性病变。如本文所用,术语“癌症”包括恶化前的以及恶性的癌症。

如本文所用,“可能的”或“增加的可能性”指项目、物体、事物或人会发生的增加的可能性。因此,在一个实例中,相对于参考受试者或受试者组,可能对治疗有响应的受试者具有对治疗有响应的增加的可能性。

“不可能的”指相对于参考而言,事件、项目、物体、事物或人会发生的降低的可能性。因此,相对于参考受试者或受试者组,不可能对治疗有响应的受试者具有对治疗有响应的降低的可能性。

“对照核酸分子”指具有来自非肿瘤细胞的序列的核酸分子。

如本文所用,“下一代测序”或“NGS”或“NG测序”指任何测序方法,其以高通量的方式(例如,同时测序大于10

如本文所指,“核苷酸值”代表占据或分配给核苷酸位置的核苷酸的身份。典型的核苷酸值包括:失去的(例如,缺失);添加的(例如,插入一个或多个核苷酸,其身份可以包括也可以不包括);或存在(已占用);A;T;C;或G。其他值可以是,例如,不是Y,其中Y是A、T、G或C;A或X,其中X是T、G或C中的一个或两个;T或X,其中X是A、G或C中的一个或两个;G或X,其中X是T、A或C中的一个或两个;C或X,其中X是T、G或A中的一个或两个;嘧啶核苷酸;或嘌呤核苷酸。核苷酸值可以是核苷酸位置上一个或多个,例如2、3或4个碱基的频率(或本文所述的其他值,例如失去的或添加的)。例如,核苷酸值可在核苷酸位置包含A的频率和G的频率。

除非上下文另外明确指出,否则“或”在本文中用来意指术语“和/或”,并且可以与术语“和/或”互换使用。除非上下文另外明确指出,否则在本文中的一些地方使用术语“和/或”并不意指术语“或”的使用与术语“和/或”不可互换。

“初级对照”指样品中除正常邻近组织(NAT)以外的非肿瘤组织。血液是典型的初级对照。

如本文所用,“样品”指从目标来源获得的或衍生的生物样品,如本文所述的。在一些实施方案中,所述目标来源包括生物体,诸如动物或人。样品的来源可以是实体组织,其来自新鲜、冷冻和/或保存的器官、组织样品、活检、切除术、涂片或抽吸物;血液或任何血液成分;体液,诸如脑脊髓液、羊水、腹膜液或间质液;或来自受试者妊娠或发育中任何时间的细胞。在一些实施方案中,所述样品的来源是血液或血液成分。

在一些实施方案中,所述样品是或包含生物组织或流体。所述样品可以含有自然中不与组织天然混合的化合物,例如防腐剂、抗凝剂、缓冲剂、固定剂、营养物、抗生素等。在一个实施方案中,所述样品被保存为冷冻样品或甲醛固定或低聚甲醛固定的石蜡包埋的(FFPE)组织制剂。例如,所述样品可以包埋在基质中,例如FFPE块或冷冻样品。在另一个实施方案中,所述样品是血液或血液成分样品。在又一个实施方案中,所述样品是骨髓抽吸物样品。在另一个实施方案中,所述样品包含无细胞DNA(cfDNA)。不希望受理论的束缚,据信在一些实施方案中,所述cfDNA是来自凋亡或坏死细胞的DNA。一般而言,cfDNA由蛋白质(例如,组蛋白)结合并由核酸酶保护。CfDNA可用作非侵入性产前检查(NIPT)、器官移植、心肌病、微生物组和癌症的生物标志物。在另一个实施方案中,所述样品包含循环肿瘤DNA(ctDNA)。不希望受理论的束缚,据信在一些实施方案中,所述ctDNA是具有遗传或表观遗传学改变(例如,体细胞改变或甲基化签名)的cfDNA,其可以区分它是源自肿瘤细胞还是非肿瘤细胞。细胞。在另一个实施方案中,所述样品包含循环肿瘤细胞(CTC)。不希望受理论的束缚,据信在一些实施方案中,CTC是从原发性或转移性肿瘤脱落到循环中的细胞。在一些实施方案中,CTC凋亡是血液/淋巴中ctDNA的来源。

在一些实施方案中,生物学样品可以是或包括骨髓;血液;血细胞;腹水;组织或细针活检样品;含细胞的体液;游离的浮动核酸;痰;唾液;尿;脑脊液,腹膜液;胸膜液;粪便;淋巴;妇科液;皮肤拭子;阴道拭子;口腔拭子;鼻拭子;洗涤或灌洗液,诸如导管灌洗液或支气管肺泡灌洗液;抽吸物;刮屑;骨髓样本;组织活检样本;手术样本;粪便,其他体液,分泌物和/或排泄物;和/或由此产生的细胞等。在一些实施方案中,生物学样品是或包含获自个体的细胞。在一些实施方案中,获得的细胞是或包括来自从其获得样品的个体的细胞。

在一些实施方案中,样品是通过任何合适的手段直接从目标来源获得的“初级样品”。例如,在一些实施方案中,通过选自活检(例如,细针抽吸或组织活检)、手术、体液收集(例如血液,淋巴或粪便)等的方法获得初级生物样品。在一些实施方案中,从上下文中会清楚地看出,术语“样品”指通过处理初级样品(例如,通过去除一种或多种组分和/或通过向其添加一种或多种药剂),例如使用半透膜的过滤来获得的制剂。这样的“处理的样品”可以包括例如从样品提取的或通过使初级样品经受诸如mRNA的扩增或反转录,某些成分的分离和/或纯化等的技术获得的核酸或蛋白质。

在一个实施方案中,所述样品是与肿瘤相关的细胞,例如肿瘤细胞或肿瘤浸润淋巴细胞(TIL)。在一个实施方案中,所述样品包括一种或多种癌前的或恶性的细胞。在一个实施方案中,所述样品是从恶性血液肿瘤(或初癌)获得的,例如本文所述的恶性血液肿瘤(或初癌)。在某些实施方案中,所述样品获自实体瘤、软组织肿瘤或转移性病变。在其他实施方案中,所述样品包括来自手术切缘的组织或细胞。在另一个实施方案中,所述样品包括一个或多个循环肿瘤细胞(CTC)(例如,从血液样品获得的CTC)。在一个实施方案中,所述样品是不与肿瘤相关的细胞,例如非肿瘤细胞或外周血淋巴细胞。

如本文所用,“灵敏度”是检测异质序列群体中序列变体的方法的能力的量度。如果给定样品,其中序列变体以样品中至少F%的序列存在,则该方法对F%的变体具有S%的灵敏度,该方法可以以C%的置信度检测序列,S%灵敏度。举例来说,如果给定样品,其中变体序列以样品中至少5%的序列存在,则该方法对5%的变体具有90%的灵敏度;该方法可以以99%的置信度检测序列,十分之九(F=5%;C=99%;S=90%)。示例性灵敏度包括在C=90%、95%、99%和99.9%的置信水平,在F=1%、5%、10%、20%、50%、100%,对于序列变体,S=90%、95%、99%的灵敏度。

如本文所用,“特异性”是对将真实存在的序列变体与测序假像(artifact)或其他紧密相关的序列区分开的方法的能力的量度。这是避免假阳性检测的能力。假阳性检测可由样品制备过程中引入到目标序列中的错误、测序错误或紧密相关的序列(如假基因或基因家族的核酸分子)的无意测序(inadvertent sequencing)而引起的。如果将方法应用于N

如本文所用,“肿瘤核酸”指来自肿瘤或癌症的核酸分子。一般而言,其是来自肿瘤或癌症样品的DNA,例如基因组DNA或源自RNA的cDNA。在某些实施方案中,所述肿瘤核酸样品被纯化或分离(例如,将其从其天然状态中移出)。在一些实施方案中,所述肿瘤核酸是cfDNA。在一些实施方案中,所述肿瘤核酸是ctDNA。在一些实施方案中,所述肿瘤核酸是来自CTC的DNA。

如本文所用,“对照核酸”或“参考核酸”是指来自对照或参考样品的核酸分子。一般而言,它是DNA,例如基因组DNA或源自RNA的cDNA,不包含基因或基因产物的改变或变异。在某些实施方案中,所述参考或对照核酸样品是野生型或非突变序列。在某些实施方案中,所述参考核酸样品是纯化的或分离的(例如,从其天然状态中移出)。在其他实施方案中,所述参考核酸样品来自血液对照、正常相邻组织(NAT),或来自相同或不同受试者的任何其他非癌性样品。在一些实施方案中,所述参考核酸样品包含正常DNA混合物。在一些实施方案中,所述正常DNA混合物是过程匹配的对照。在一些实施方案中,所述参考核酸样品具有种系变体。在一些实施方案中,所述参考核酸样品不具有体细胞改变,例如,用作阴性对照。

核酸分子的“测序”,需要确定分子中至少1个核苷酸的身份(例如,DNA分子、RNA分子,或源自RNA分子的cDNA分子)。在实施方案中,确定了分子中少于所有核苷酸的身份。在其他实施方案中,确定了分子中大多数或所有核苷酸的身份。

如本文所用,“阈值”是作为将核苷酸值分配给对象区间(例如,亚基因组区间或表达的亚基因组区间)而需要存在的读取数量的函数的值。例如,它是在核苷酸位置,具有特定核苷酸值(例如“A”)的读取数量的函数,需要将该核苷酸值分配给亚基因组区间中的该核苷酸位置。阈值可以例如被表示为多个读取(例如整数)(或作为其函数),或表示为具有该值的读取的比例。举例来说,如果阈值为X,并且存在具有核苷酸值“A”的X+1读取,则将“A”的值分配给对象区间中的该位置(例如,亚基因组区间或表达的亚基因组区间)。所述阈值也可以表示为突变或变体期望、突变频率或贝叶斯先验的函数。在一个实施方案中,突变频率会需要在一个位置上具有核苷酸值例如A或G的读取的数目或比例,以调用该核苷酸值。在实施方案中,所述阈值可以是突变期望的函数,例如突变频率和肿瘤类型。例如,如果患者患有第一肿瘤类型,则在核苷酸位置的变体可以具有第一阈值,如果患者患有第二肿瘤类型,则其可以具有第二阈值。

如本文所用,“靶标核酸分子”指人们希望从核酸文库中分离的核酸分子。在一个实施方案中,所述靶标核酸分子可以是肿瘤核酸分子、参考核酸分子或对照核酸分子,如本文所述的。

如本文所用,“肿瘤核酸分子”或其他类似术语(例如,“与肿瘤或癌症相关的核酸分子”),指具有来自肿瘤细胞的序列的核酸分子。在一个实施方案中,所述肿瘤核酸分子包括具有含有与癌性表型相关的改变(例如,突变)的序列(例如,核苷酸序列)的对象区间。在其他实施方案中,所述肿瘤核酸分子包括具有野生型序列(例如,野生型核苷酸序列)的对象区间。例如,来自癌细胞中存在的杂合或纯合野生型等位基因的对象区间。肿瘤核酸分子可包括参考核酸分子。

如本文所用,“参考核酸分子”或其他类似术语(例如,“对照核酸分子”),指包含具有与癌性表型无关的序列(例如,核苷酸序列)的对象区间的核酸分子。在一个实施方案中,所述参考核酸分子包括,当突变时与癌性表型相关的基因或基因产物的野生型或非突变核苷酸序列。所述参考核酸分子可以存在于癌细胞或非癌细胞中。

如本文所用,“变体”指可以以亚基因组区间存在的结构,所述亚基因组区间可以具有多于一个结构,例如,多态性基因座处的等位基因。

“分离的”核酸分子是与存在于核酸分子的天然来源中的其他核酸分子分离的核酸分子。在某些实施方案中,“分离的”核酸分子不含核酸来源的生物体的基因组DNA中天然位于核酸侧翼的序列(诸如,蛋白质编码序列)(即,位于该核酸的5′和3′端的序列)。例如,在多种实施方案中,所述分离的核酸分子可含有小于约5kB、小于约4kB、小于约3kB、小于约2kB、小于约1kB、小于约0.5kB、或小于约0.1kB的核苷酸序列,其天然位于核酸来源的细胞的基因组DNA中的核酸分子的侧翼。此外,“分离的”核酸分子,诸如RNA分子或cDNA分子,可以例如当通过重组技术产生时,基本上不含其他细胞材料或培养基,或者例如当化学合成时,基本上不含化学前体或其他化学物质。

术语“基本上不含其他细胞材料或培养基”包括核酸分子的制剂,其中该分子与从其分离或重组产生的细胞的细胞组分中分离。因此,基本上不含细胞材料的核酸分子包括具有小于约30%、小于约20%、小于约10%或小于约5%(以干重计)的其他细胞物质或培养基的核酸分子的制剂。

如本文所用,“X是Y的函数”意指,例如一个变量X与另一个变量Y相关。在一个实施方案中,如果X是Y的函数,则可以暗示X和Y之间的因果关系,但并非一定存在。

仅为了易于阅读说明书和权利要求书,而给出例如(a)、(b)、(i)等标题。说明书或权利要求书中标题的使用,不要求以字母或数字顺序或它们显示的顺序执行这些步骤或元件。说明书或权利要求书中标题的使用,也不要求执行所有步骤或元件。

靶标捕获试剂的竞争

杂交捕获(例如,在溶液或固相中)可用于从整个基因组或转录组文库中富集目标基因。例如,杂交反应可以使用5′生物素化的靶标捕获试剂(例如,单链DNA(ssDNA)或双链DNA(dsRNA))与靶标区域杂交,随后将dsDNA捕获复合物与链霉亲和素包被的顺磁珠进行亲和捕获,用缓冲液严格洗涤以去除脱靶序列,以及富集后PCR以扩增靶标分子。在一些实施方案中,所述尽管目标是在靶标区域上具有均匀的覆盖度,但是在一组靶标捕获试剂中整个靶标的覆盖度的变化可以是靶序列特异性的,并且高GC或AT含量和重复序列可以导致过量或不足的捕获效率。为了驱动在输入的全基因组文库中有效地捕获独特靶标,通常在捕获反应中使用过量的冗余(例如,>50X)、平铺靶标捕获试剂(例如,诱饵)。由于靶标捕获试剂的过量和跨靶标捕获效率的差异,每个靶标的覆盖度通常在跨样品类型之间是可预测和可重现的,但是仅通过调整靶标捕获试剂的量就不能将其调整为高覆盖度和低覆盖度。

在某些应用中(例如,液体活检测定),需要针对具有可在基因组文库中以低频存在的目标改变的区域具有高的独特覆盖度。其他信息区域(例如,性别SNP、样品鉴定SNP、用于染色体拷贝数调用的单倍型SNP、肿瘤突变负荷或其他基因组签名(例如,连续/复合的生物标志物))可以不要求高的覆盖度,并且通常被捕获为一组目标捕获试剂中的一个成分,并在单独的反应中被过度测序或测序,然后以较低的深度进行测序。在某些实施方案中,在有限的文库材料使用中,处理相同样品文库的多个反应是低效率的,并且或增加测定工作流程的复杂性和更高的测序成本。

本文所述的方法使用例如未修饰的靶标捕获试剂和经修饰的(例如,5′生物素化的)靶标捕获试剂的组合,以在特定的每个靶标的基础上调节靶标覆盖度。在某些实施方案中,所述靶标捕获试剂上的修饰(例如,5′生物素)仅用于将基因组文库中的中靶(on-target)与非靶标分开,并且通过使用未经修饰的靶标捕获试剂,相同的反应条件可以继续进行,但是从基因组文库中提取并随后测序的靶标的量可以是经修饰的与未经修饰的靶标捕获试剂的比例。本文所述的方法允许使用单个靶标捕获试剂反应,并且包含具有低、高和中等靶标覆盖度的单个捕获文库。

样品

多种组织可以是本方法中使用的样品的来源。可以从受试者的样品(例如,包含肿瘤细胞的样品,血液样品,血液成分样品,包含无细胞DNA(cfDNA)的样品,包括循环肿瘤DNA(ctDNA)的样品,包含循环肿瘤细胞(CTC)的样品,或任何正常对照(例如,正常邻近组织(NAT)),分离基因组或亚基因组核酸(例如,DNA或RNA)。

在一些实施方案中,所述样品包含例如来自肿瘤的核酸,例如DNA、RNA或两者。所述核酸可以是DNA或RNA。在某些实施方案中,所述样品还包含例如来自肿瘤的非核酸组分,例如细胞、蛋白质、碳水化合物或脂质。在某些实施方案中,所述样品还包含来自正常细胞或组织的核酸。

在某些实施方案中,所述样品被保存为冷冻样品或甲醛固定或低聚甲醛固定的石蜡包埋(FFPE)组织制剂。例如,所述样品可以包埋在基质中,例如FFPE块或冷冻样品中。在某些实施方案中,所述样品是血液样品。在某些实施方案中,所述组织样品是血液成分样品。在某些实施方案中,所述样品是血浆样品。在某些实施方案中,所述样品是血清样品。在某些实施方案中,所述样品是cfDNA样品。在某些实施方案中,所述样品是ctDNA样品。在某些实施方案中,所述样品是CTC样品。在其他实施方案中,所述组织样品是骨髓抽吸物(BMA)样品。在某些实施方案中,所述样品是尿液样品。分离步骤可以包括单个染色体的流式分选;和/或微解剖对象的样品(例如,本文所述的样品)。

在其他实施方案中,所述样品包含一个或多个癌前的或恶性的细胞。在某些实施方案中,所述样品获自实体瘤、软组织肿瘤或转移性病变。在某些实施方案中,所述样品是获自恶性血液肿瘤或初癌。在其他实施方式中,样品包括来自手术切缘的组织或细胞。在某些实施方案中,所述样品包含肿瘤浸润淋巴细胞。所述样品可以是组织学上正常的组织。在一个实施方案中,所述样品包含一个或多个非恶性细胞。

在某些实施方案中,所述FFPE样品具有一种、两种或所有以下特性:(a)具有约10mm

在一个实施方案中,所述方法还包括获得样品,例如本文所述的样品。所述样品可以直接或间接获得。在一个实施方案中,例如通过分离或纯化从包含cfDNA的样品中获得所述样品。在一个实施方案中,例如通过分离或纯化从包含ctDNA的样品中获得所述样品。在一个实施方案中,例如通过分离或纯化从既包含恶性细胞又包含非恶性细胞(例如,肿瘤浸润淋巴细胞)的样品中获得所述样品。在一个实施方案中,例如通过分离或纯化从包含CTC的样品中获得所述样品。

在其他实施方案中,所述方法包括使用本文所述的方法评价样品,例如组织学正常的样品,例如来自手术切缘。不希望受到理论的束缚,据信在一些实施方案中,从组织学正常组织(例如,另外的组织学正常组织边缘)获得的样品可以仍具有本文所述的改变。该方法因此可以进一步包括基于所检测到的改变的存在来对样品进行重新分类。在一个实施方案中,例如来自不同受试者的多个样品,被同时处理。

在一个实施方案中,所述方法包括从样品中分离核酸以提供分离的核酸样品。在一个实施方案中,所述方法包括从对照中分离核酸以提供分离的对照核酸样品。在一个实施方案中,方法还包括拒绝没有可检测的核酸的样品。

在一个实施方案中,所述方法还包括确定初级对照是否可用,以及是否如此从所述初级对照中分离出对照核酸(例如,DNA)。在一个实施方案中,所述方法还包括确定在所述样品中是否存在NAT(例如,在没有初级对照样品可用的情况下)。在一个实施方案中,所述一种方法还包括例如通过从不伴有初级对照的样品中的NAT中宏观解剖非肿瘤组织,来获得富集非肿瘤细胞的子样品。在一个实施方案中,方法还包括确定没有初级对照和NAT可用,并且在没有匹配对照的情况下标记所述样品用于分析。

在一个实施方案中,方法还包括获得所述样品中核酸产率的值,并将获得的值与参考标准进行比较,例如,其中如果获得的值小于所述参考标准,则在文库构建之前扩增核酸。在一个实施方案中,方法还包括获得所述样品中核酸片段大小的值,并将所获得的值与参考标准进行比较,例如大小如平均大小,至少300、600或900bps。可以响应于该确定来调整或选择本文描述的参数。

在某些实施方案中,所述方法包括从老化的样品,例如老化的FFPE样品中分离核酸。所述老化样品可以是,例如,年龄为例如1岁、2岁、3岁、4岁、5岁、10岁、15岁、20岁、25岁、50岁、75岁、或100岁或更老。

核酸可以从多种大小的样品中获得。例如,可以从5至200μm或更大的样品中分离核酸。例如,所述样品可以测量5μm、10μm、20μm、30μm、40μm、50μm、70μm、100μm、110μm、120μm、150μm或200μm或更大。

从样品中分离DNA的方案是本领域已知的,例如,如国际专利申请公开WO2012/092426的实施例1中所提供的。从甲醛或低聚甲醛固定的、石蜡包埋的(FFPE)组织中分离核酸(例如,DNA)的其他方法公开于,例如Cronin M.et al.,(2004)Am J Pathol.164(1):35-42;Masuda N.et al.,(1999)Nucleic Acids Res.27(22):4436-4443;Specht K.et al.,(2001)Am J Pathol.158(2):419-429,Ambion RecoverAll

用于RNA分离的方案公开于,例如

分离的核酸(例如,基因组DNA)可以通过实践常规技术进行片段化或剪切。例如,基因组DNA可以通过物理剪切方法、酶促裂解方法、化学裂解方法和本领域技术人员公知的其他方法来片段化。核酸文库可以包含基因组的全部或基本全部的复杂性。在该上下文中,术语“基本上全部”指在程序的初始步骤中,实际上可造成一些不想要的基因组复杂性丢失的可能性。在核酸文库是基因组的一部分的情况下,例如,通过设计降低了基因组的复杂性的情况下,本文描述的方法也是有用的。在一些实施方案中,所述基因组的任何选择的部分可以与本文描述的方法一起使用。在某些实施方案中,所述整个外显子组或其子集是分离的。

在某些实施方案中,所述方法还包括从样品中分离核酸以提供文库(例如,本文所述的核酸文库)。在某些实施方案中,所述样品包括完整基因组,亚基因组片段或两者。所述分离的核酸可用于制备核酸文库。从整个基因组或亚基因组片段中分离和制备文库的方案是本领域已知的(例如,Illumina的基因组DNA样品制备试剂盒)。在某些实施方案中,所述基因组或亚基因组DNA片段是从受试者的样品(例如,本文所述的样品)中分离的。在一个实施方案中,所述样品是保存的样本,例如包埋在基质中,例如FFPE块或冷冻样品中。在某些实施方案中,所述分离步骤包括个体染色体的流式分选;和/或微解剖样品。在某些实施方案中,所述用于生成核酸文库的核酸的量小于5微克、小于1微克、或小于500ng、小于200ng、小于100ng、小于50ng、小于10ng、小于5ng或小于1ng。

在其他实施方案中,用于生成文库的核酸包括RNA或源自RNA的cDNA。在一些实施方案中,所述RNA包括总细胞RNA。在其他实施方案中,某些丰富的RNA序列(例如,核糖体RNA)已被耗尽。在一些实施方案中,所述总RNA制品中的聚(A)尾的mRNA部分已被富集。在一些实施方案中,通过随机引物cDNA合成方法产生所述cDNA。在其他实施方案中,通过含寡(dT)的寡核苷酸引发在成熟mRNA的聚(A)尾开始所述cDNA合成。消耗、聚(A)富集和cDNA合成的方法是本领域技术人员公知的。

在其他实施方案中,通过物理或酶促方法将核酸片段化或剪切,并且任选地,连接至合成衔接子,进行大小选择(例如,通过制备性凝胶电泳)和扩增(例如,通过PCR)。DNA剪切的替代方法是本领域已知的,描述于例如,如国际专利申请公开WO2012/092426中的实施例4。例如,替代的DNA剪切方法可以更自动化和/或更有效(例如,使用降解的FFPE样品)。也可以使用DNA剪切方法的替代方法来避免文库制备过程中的连接步骤。

在其他实施方案中,所述分离的DNA(例如,基因组DNA)被片段化或剪切。在一些实施方案中,所述文库包含少于50%的基因组DNA,诸如基因组DNA的亚级分,其是基因组的减少的代表或定义的部分,例如已经通过其他方式亚分级分离的。在其他实施方案中,所述文库包括所有或基本上所有基因组DNA。

在其他实施方案中,使用了核酸的片段化且连接有衔接子的组,而无需在杂合体选择之前进行明确的大小选择或扩增。在一些实施方案中,通过本领域技术人员公知的特异性或非特异性核酸扩增方法扩增所述核酸。在一些实施方案中,例如通过全基因组扩增方法,诸如随机引物链置换扩增,来扩增所述核酸。

例如,当源DNA或RNA的量有限时(例如,即使在全基因组扩增之后),可以使用少量核酸来进行本文所述的方法。在一个实施方案中,所述核酸包含小于约5μg、4μg、3μg、2μg、1μg、0.8μg、0.7μg、0.6μg、0.5μg、或400ng、300ng、200ng、100ng、50ng、10ng、5ng、1ng或更少的核酸样品。例如,通常可以从50-100ng的基因组DNA开始。但是,如果在杂交步骤(例如,溶液杂交)之前扩增基因组DNA(例如,使用PCR),则可以从更少的开始。因此,在杂交例如溶液杂交之前,扩增基因组DNA是可能的,但不是必须的。

在一个实施方案中,所述样品包含来自非癌细胞或非恶性细胞例如肿瘤浸润淋巴细胞的DNA、RNA(或源自RNA的cDNA)或两者。在一个实施方案中,所述样品包含来自非癌细胞或非恶性细胞(例如,肿瘤浸润淋巴细胞)的DNA、RNA(或源自RNA的cDNA)或两者,并且不包含或基本上不含来自癌细胞或恶性细胞的DNA、RNA(或源自RNA的cDNA)或两者。

在一个实施方案中,所述样品包含来自癌细胞或恶性细胞的DNA、RNA(或源自RNA的cDNA)。在一个实施方案中,所述样品包含来自癌细胞或恶性细胞的DNA、RNA(或源自RNA的cDNA),并且不包含或基本不含源自非癌细胞或非恶性细胞(例如,肿瘤浸润淋巴细胞)的DNA、RNA(或源自RNA的cDNA)或两者。

在一个实施方案中,所述样品包含来自非肿瘤细胞或非恶性细胞(例如,肿瘤浸润淋巴细胞)的DNA、RNA(或源自RNA的cDNA)或两者,以及来自癌细胞或恶性细胞的DNA、RNA(或源自RNA的cDNA)或两者。

在某些实施方案中,所述样品获自患有癌症的受试者。示例性癌症包括,但不限于:B细胞癌(例如多发性骨髓瘤)、黑色素瘤、乳腺癌、肺癌(诸如、非小细胞肺癌或NSCLC)、支气管癌、结肠直肠癌、前列腺癌、胰腺癌、胃癌、卵巢癌、泌尿膀胱癌、脑或中枢神经系统癌、外周神经系统癌、食道癌、宫颈癌、子宫或子宫内膜癌、口腔或咽癌、肝癌、肾癌、睾丸癌、胆道癌、小肠或阑尾癌、唾液腺癌、甲状腺癌、肾上腺癌、骨肉瘤、软骨肉瘤、血液组织癌、腺癌、炎性成纤维母细胞瘤、胃肠道间质瘤(GIST)、结肠癌、多发性骨髓瘤(MM)、骨髓增生异常综合症(MDS)、骨髓增殖性疾病(MPD)、急性淋巴细胞性白血病(ALL)、急性髓性白血病(AML)、慢性髓性白血病(CML)、慢性淋巴细胞性白血病(CLL)、真性红细胞增多症、霍奇金淋巴瘤、非霍奇金淋巴瘤(NHL)、软性组织肉瘤、纤维肉瘤、粘液肉瘤、脂肪肉瘤、成骨性肉瘤、脊索瘤、血管肉瘤、内皮肉瘤、淋巴管肉瘤、淋巴管内皮肉瘤、滑膜瘤、间皮瘤、尤因氏瘤(Ewing′s tumor)、平滑肌肉瘤、横纹肌肉瘤、鳞状细胞癌、基底细胞癌、腺癌、汗腺癌、皮脂腺癌、乳头状癌、乳头状腺癌、髓样癌、支气管癌、肾细胞癌、肝瘤、胆管癌、绒毛膜癌、精原细胞瘤、胚胎癌、维尔姆斯(Wilms)瘤、膀胱癌、上皮癌、神经胶质瘤、星形细胞瘤、髓母细胞瘤、颅咽管瘤、室管膜瘤、松果体瘤、血管母细胞瘤、听神经瘤、少突神经胶质瘤、脑膜瘤、神经母细胞瘤、视网膜母细胞瘤、滤泡性淋巴瘤、弥漫性大B细胞淋巴瘤、套细胞淋巴瘤、肝细胞癌、甲状腺癌、胃癌、头颈癌、小细胞癌、原发性血小板增多症、原因不明性髓样组织异生、嗜酸性粒细胞增多综合征、全身性肥大细胞增多症、熟悉的嗜酸性粒细胞增多症、慢性嗜酸性粒细胞性白血病、神经内分泌癌、类癌瘤等。

在一个实施方案中,所述癌症是恶性血液肿瘤(或初癌)。如本文所用,恶性血液肿瘤指造血或淋巴组织的肿瘤,例如,影响血液、骨髓或淋巴结的肿瘤。示例性恶性血液肿瘤包括但不限于:白血病(例如,急性淋巴细胞性白血病(ALL)、急性髓性白血病(AML)、慢性淋巴细胞性白血病(CLL)、慢性髓性白血病(CML)、毛细胞白血病、急性单核细胞性白血病(AMoL)、慢性粒细胞单核细胞性白血病(CMML)、青少年粒细胞单核细胞性白血病(JMML)、或大颗粒性淋巴细胞性白血病)、淋巴瘤(例如,与AIDS相关的淋巴瘤、皮肤T细胞淋巴瘤、霍奇金淋巴瘤(例如,经典霍奇金淋巴瘤或结节性淋巴细胞为主的霍奇金淋巴瘤)、蕈样真菌病、非霍奇金淋巴瘤(例如,B细胞非霍奇金淋巴瘤(例如,伯基特(Burkitt)淋巴瘤、小淋巴细胞性淋巴瘤(CLL/SLL))、弥漫性大B细胞淋巴瘤、滤泡性淋巴瘤、免疫母细胞性大细胞淋巴瘤、前体B淋巴母细胞性淋巴瘤、或套细胞淋巴瘤)或T细胞非霍奇金淋巴瘤(蕈样真菌病、间变性大细胞淋巴瘤、或前体T淋巴母细胞性淋巴瘤))、原发性中枢神经美国系统淋巴瘤、塞扎里(Sézary)综合征、瓦尔登斯特伦

在一些实施方案中,本文所述的样品也称为样本。

在一些实施方案中,所述样品是组织样品、血液样品或骨髓样品。

在一些实施方案中,所述血液样品包含无细胞DNA(cfDNA)。在一些实施方案中,cfDNA包含来自健康组织(例如,未患病的细胞)或肿瘤组织(例如,肿瘤细胞)的DNA。在一些实施方案中,来自肿瘤组织的cfDNA包含循环肿瘤DNA(ctDNA)。在一些实施方案中,从患有实体瘤例如肺癌、乳腺癌或结肠癌的患者获得,例如收集的ctDNA样品。

在一些实施方案中,所述样品,例如样本,是福尔马林固定的石蜡包埋的(FFPE)样本。在一些实施方案中,所述FFPE样本包括但不限于选自以下的样本:芯针活检、细针抽吸或积液细胞学。在一些实施方案中,所述样品包含FFPE块和一个原始的苏木精和曙红(H&E)染色的载玻片。在一些实施方案中,所述样品包含未染色的载玻片(例如,带正电的、未烘烤的和4-5微米厚;例如1、2、3、4、5、6、7、8、9、10或更多个这样的载玻片)和一个或多个H&E染色的载玻片。

在一些实施方案中,所述样品包含FPPE块或未染色的载玻片,例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16或更多个未染色的载玻片和一个或更多个H&E载玻片。在一些实施方案中,所述样品包括用福尔马林固定的并包埋到石蜡块中的组织,例如使用标准固定方法,例如如本文所述的。

在一些实施方案中,所述样品包含至少1-30mm

在一些实施方案中,所述样品包含至少1-5mm

在一些实施方案中,所述样品包含肿瘤内容物,例如包含肿瘤核。在一些实施方案中,所述样品包含具有至少5-50%、10-40%、15-25%或20-30%肿瘤核的肿瘤内容物。在一些实施方案中,所述样品包含至少20%肿瘤核的肿瘤内容物。在一些实施方案中,所述样品包含约30%肿瘤核的肿瘤内容物。在一些实施方案中,例如通过将肿瘤细胞的数目除以所有具有核的细胞的总数来确定(例如计算)肿瘤核的百分比。在一些实施方案中,当样品是(例如包含肝细胞的)肝脏样品时,可能需要更高的肿瘤含量。在一些实施方案中,肝细胞的细胞核具有其他(例如非肝细胞)体细胞核的DNA含量的两倍,例如双倍。在一些实施方案中,对改变进行检测的灵敏度,例如如本文所述的,取决于样品的肿瘤含量,例如较低的肿瘤含量可导致较低的检测灵敏度。

在一些实施方案中,从所述样品的有核细胞中提取DNA。在一些实施方案中,样品具有低的成核细胞性,例如,当样品主要由红细胞、含有过量细胞质的病变细胞,或具有纤维化的组织组成时。在一些实施方案中,具有低的成核细胞性的样品可能需要更多例如更大的组织体积(例如大于2mm

在一些实施方案中,使用标准固定方法来制备FPPE样品,例如样本,以保持核酸完整性。在一些实施方案中,所述标准固定方法包括使用10%中性缓冲的福尔马林,例如持续6-72小时。在一些实施方案中,所述方法不包括固定剂,诸如荷兰的Bouins、B5、AZF。在一些实施方案中,所述方法不包括脱钙。在一些实施方案中,所述方法包括脱钙。在实施方案中,用EDTA进行脱钙。在一些实施方案中,强酸例如盐酸、硫酸或苦味酸不用于脱钙。

在一些实施方案中,所述样品包含FPPE块或未染色的载玻片,例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16个或更多个未染色的载玻片和一个或多个H&E载玻片。在一些实施方案中,所述样品包含福尔马林固定的并包埋到石蜡块中的组织,例如使用标准固定方法,例如如本文所述的。

在一些实施方案中,所述样品包含外周全血或骨髓抽吸物。在一些实施方案中,所述样品,例如病变组织,包含至少20%的有核元件。在一些实施方案中,以约2.5ml的体积收集所述外周全血样品或骨髓抽吸物样品。在一些实施方案中,所述血液样品在收集的同一天,例如在环境温度,例如43-99°F或6-37℃运输。在一些实施方案中,所述血液样品不被冷冻或冷藏。

在一些实施方案中,所述样品包含分离的,例如提取的核酸,例如DNA或RNA。在一些实施方案中,所述分离的核酸例如在无核酸酶的水中包含DNA或RNA。

在一些实施方案中,所述样品包括血液样品,例如外周全血样品。在一些实施方案中,所述将外周全血样品收集在例如两个管中,例如每管约8.5ml血液。在一些实施方案中,通过例如根据CLSI H3-A6的静脉穿刺收集外周全血样品。在一些实施方案中,例如通过轻轻倒转,立即将血液混合例如约8-10次。在一些实施方案中,通过例如手腕的完全(例如充分的180°)翻转来进行倒转。在一些实施方案中,所述血液样品在采集的同一天,例如在环境温度,例如43-99°F或6-37℃运输。在一些实施方案中,所述血液样品不被冷冻或冷藏。在一些实施方案中,所述所收集的血液样品被保持例如保存在43-99°F或6-37℃。

受试者选择

在一些实施方案中,所述样品是从患有例如病症或疾病,例如过度增生性疾病(例如如本文所述)或非癌指征的受试者(例如患者)获得(例如收集)的。在一些实施方案中,所述疾病是过度增生性疾病。在一些实施方案中,所述过度增生性疾病是癌症,例如实体瘤或血液癌。在一些实施方案中,所述癌症是实体瘤。在一些实施方案中,所述癌症是血液癌,例如白血病或淋巴瘤。

在一些实施方案中,所述患者先前已经用靶向疗法,例如一种或多种靶向疗法进行了治疗。在一些实施方案中,针对先前已接受靶向疗法治疗(靶向疗法后)的患者,获得(例如收集)样品(例如样本)。在一些实施方案中,所述靶向疗法后的样品是完成靶向疗法之后获得的(例如收集)样品。

在一些实施方案中,所述患者先前未经靶向疗法治疗。在一些实施方案中,针对先前未经靶向疗法治疗的患者,所述样品包括切除术例如原始切除术,或复发例如疗法(例如非靶向疗法)后疾病复发。在一些实施方案中,所述样品是原发性肿瘤或转移(例如转移活检)或是其一部分。在一些实施方案中,所述样品获自与邻近部位(例如带有肿瘤细胞的邻近部位)相比,具有最高百分比的肿瘤(例如肿瘤细胞)的部位(例如肿瘤部位)。在一些实施方案中,所述样品获自与邻近部位(例如具有肿瘤细胞的邻近部位)相比,具有最大肿瘤核心的部位(例如肿瘤部位)获得的。

在一些实施方案中,所述疾病选自:非小细胞肺癌(NSCLC)、黑色素瘤、乳腺癌、结直肠癌(CRC)或卵巢癌。在一些实施方案中,本文所述的NSCLC包括具有例如EGFR改变(例如外显子19缺失或外显子21 L858R改变)、ALK重排或BRAF V600E的NSCLC。在一些实施方案中,本文所述的黑色素瘤包括具有BRAF改变的黑色素瘤,例如V600E和/或V600K。在一些实施方案中,本文所述的乳腺癌包括具有ERBB2(HER2)扩增的乳腺癌。在一些实施方案中,本文所述的结直肠癌包括具有野生型KRAS的结直肠癌,例如,在密码子12和/或13中不存在突变,或在密码子2、3和/或4中不存在突变。在一些实施方案中,本文所述的结直肠癌包括具有野生型NRAS,例如在密码子2、3和/或4中不存在突变的结直肠癌。在一些实施方案中,本文所述的结肠直肠癌包括具有野生型KRAS(例如,如本文所述)和野生型NRAS(例如,如本文所述)的结直肠癌。在一些实施方案中,本文所述的卵巢癌包括具有BRCA1和/或BRCA2改变的卵巢癌。

靶标捕获试剂的设计与构建

在一些实施方案中,靶标捕获试剂是这样的分子,其可以结合并从而允许捕获靶标分子。例如,靶标捕获试剂可以是诱饵分子(例如核酸分子,例如DNA或RNA分子),其可以与之杂交(例如互补),从而允许捕获靶核酸。在一些实施方案中,所述靶标捕获试剂(例如诱饵分子)是捕获寡核苷酸。在某些实施方案中,所述靶核酸是基因组DNA分子。在其他实施方案中,所述靶核酸是RNA分子或衍生自RNA分子的cDNA分子。在一个实施方案中,所述靶标捕获试剂是DNA分子。在一个实施方案中,所述靶标捕获试剂是RNA分子。在其他实施方案中,所述靶标捕获试剂包括结合对的第一成员,其允许由靶标捕获试剂和与所述靶标捕获试剂杂交的核酸分子形成的杂交体的结合与分离。在一实施方案中,所述靶标捕获试剂适用于溶液相的杂交。在一实施方案中,所述靶标捕获试剂适合于固相的杂交。在一个实施方案中,所述靶标捕获试剂既适用于溶液相杂交叉适用于固相杂交。

尽管也可以使用RNA分子,但通常将DNA分子用作靶标捕获试剂序列。在一些实施方案中,DNA分子靶标捕获试剂可以是单链DNA(ssDNA)或双链DNA(dsDNA)。

在一些实施方案中,RNA-DNA双链体比DNA-DNA双链体更稳定,因此提供了潜在的更好的核酸捕获。RNA靶标捕获试剂可以使用本领域已知的方法如本文其他地方所述制备,包括但不限于:从头化学合成法,以及使用DNA依赖性RNA聚合酶的DNA分子转录。在一个实施方案中,使用已知的核酸扩增方法,例如PCR,例如使用人DNA或合并的人DNA样品作为模板,生产该靶标捕获试剂序列。然后可以将所述寡核苷酸转化为RNA靶标捕获试剂。在一个实施方案中,例如基于向寡核苷酸的一端添加RNA聚合酶启动子序列而采用体外转录。在一个实施方案中,例如通过使用PCR或另一种核酸扩增方法,例如通过给每种带有RNA启动子序列的靶标特异性引物对的一个引物加尾,通过扩增或重新扩增靶标捕获试剂序列,将RNA聚合酶启动子序列添加到所述靶标捕获试剂的末端。在一个实施方案中,所述RNA聚合酶是T7聚合酶、SP6聚合酶或T3聚合酶。在一个实施方案中,所述RNA靶标捕获试剂用标签例如亲和标签标记。在一个实施方案中,所述RNA靶标捕获试剂是通过体外转录制备的,例如使用生物素化的UTP。在另一个实施方案中,在没有生物素的情况下生产RNA靶标捕获试剂,然后使用本领域众所周知的方法(例如补骨脂素交联)将生物素交联至该RNA分子。在一个实施方案中,所述RNA靶标捕获试剂是耐RNA酶的RNA分子,其可以例如通过在转录过程中使用经修饰的核苷酸来制备,以生产抗RNA酶降解的RNA分子。在一个实施方案中,所述RNA靶标捕获试剂仅对应于双链DNA靶标的一条链。通常,这种RNA靶标捕获试剂不是自我互补的,并且作为杂交驱动分子更有效。

可以从参考序列设计该靶标捕获试剂,使得该靶标捕获试剂最适合于选择参考序列的靶标。在一些实施方案中,使用混合碱基(例如简并性)设计靶标捕获试剂序列。例如,可以在所述靶捕获试剂序列中常见SNP或突变的位置处包含所述混合碱基,从而优化该靶标捕获试剂序列以捕捉两个等位基因(例如,SNP和非SNP;突变体和非突变体)。在一些实施方案中,使用多种寡核苷酸靶标捕获试剂而不是通过使用混合的简并寡核苷酸,可以靶向所有已知的序列变异(或其子集)。

在某些实施方案中,所述靶标捕获试剂包括长度为约100-300个核苷酸的寡核苷酸(或多个寡核苷酸)。通常,该靶标捕获试剂包括长度为约130-230个核苷酸,或约150-200个核苷酸的寡核苷酸(或多个寡核苷酸)。在其他实施方案中,所述靶标捕获试剂包括长度为约300-1000个核苷酸的寡核苷酸(或多个寡核苷酸)。

在一些实施方案中,寡核苷酸中的靶核酸分子特异性序列的长度为约40-1000个核苷酸,约70-300个核苷酸,约100-200个核苷酸,通常长度为约120-170个核苷酸。

在一些实施方案中,所述靶标捕获试剂包括结合对的第一成员。所述结合对的第一成员可以是靶标捕获试剂上的亲和标签。在一些实施方案中,所述亲和标签是生物素分子或半抗原。在某些实施方案中,所述结合对的第一成员通过与结合对的第二成员例如亲和素分子或结合半抗原的抗体或其抗原结合片段结合,而允许从杂交混合物中分离出靶标捕获试剂/核酸分子杂交体。

在其他实施方案中,所述靶标捕获试剂中的寡核苷酸含有针对相同靶核酸分子序列的正向和反向互补序列,据此具有反向互补核酸分子特异性序列的寡核苷酸也携带反向互补通用尾部。这可导致RNA转录出同一链,即彼此不互补。

在其他实施方案中,所述靶标捕获试剂包括在一个或多个位置上含有简并或混合碱基的寡核苷酸。在其他实施方案中,所述靶标捕获试剂包括存在于单个物种或生物群落的种群中的多个或基本上所有已知的序列变体。在一个实施方案中,所述靶标捕获试剂包括人类种群中存在的多个或基本上所有已知的序列变体。

在其他实施方案中,所述靶标捕获试剂包括cDNA序列或衍生自cDNA序列。在其他实施方案中,所述靶标捕获试剂包括从基因组DNA、cDNA或克隆的DNA扩增的扩增产物(例如PCR产物)。

在其他实施方案中,所述靶标捕获试剂包括RNA分子。在一些实施方案中,所述集合(set)包括经化学地、酶学地修饰的或体外转录的RNA分子,包括但不限于对RNA酶更稳定和具有抗性的RNA分子。

在其他实施方案中,所述靶标捕获试剂通过以下文献描述的方法生产:US 2010/0029498和Gnirke,A.et al.(2009)Nat Biotechnol.27(2):182-189,其通过引用并入本文。例如,可以通过获得最初在微阵列上合成的合成长寡核苷酸库,并扩增所述寡核苷酸以产生靶标捕获试剂序列,来生产生物素化的RNA靶标捕获试剂。在一些实施方案中,通过在靶标捕获试剂序列的一端添加RNA聚合酶启动子序列,并使用RNA聚合酶合成RNA序列,来生产靶标捕获试剂。在一个实施方案中,合成的寡脱氧核苷酸的文库可以从商业供应商,例如安捷伦(Agilent)科技公司获得,并使用已知的核酸扩增方法进行扩增。

因此,提供了一种制备上述靶标捕获试剂的方法。该方法包括,例如,选择一种或多种靶标捕获试剂,例如,靶标特异性诱饵分子寡核苷酸序列(例如,如本文所述的一种或多种突变捕获、参考或对照寡核苷酸序列);获得靶标捕获试剂(例如靶标特异性诱饵分子寡核苷酸序列)池(例如,通过微阵列合成来合成靶标特异性诱饵分子寡核苷酸序列的池);以及任选地,扩增所述靶标捕获试剂,例如靶标特异性诱饵分子寡核苷酸序列。

在其他实施方案中,所述方法还包括使用一种或多种生物素化的引物扩增(例如,通过PCR)寡核苷酸。在一些实施方案中,所述寡核苷酸在每个寡核苷酸的末端包括附接至微阵列的通用序列。所述方法可以进一步包括从该寡核苷酸去除该通用序列。这样的方法还可以包括去除寡核苷酸的互补链,使寡核苷酸退火,以及延伸寡核苷酸。在这些实施方案的一些中,用于扩增(例如,通过PCR)寡核苷酸的方法使用一种或多种生物素化的引物。在一些实施方案中,所述方法还包括选择扩增的寡核苷酸的大小。

在一个实施方案中,制备一种RNA靶标捕获试剂。所述方法包括根据本文所述的方法生产靶标捕获试剂序列的集合,在靶标捕获试剂序列的一端添加RNA聚合酶启动子序列,以及使用RNA聚合酶合成RNA序列。所述RNA聚合酶可以选自:T7 RNA聚合酶、SP6 RNA聚合酶或T3 RNA聚合酶。在其他实施方案中,通过扩增(例如,通过PCR)靶标捕获试剂序列,将所述RNA聚合酶启动子序列添加到所述靶标捕获试剂序列的末端。在通过PCR从基因组DNA或cDNA用特异性引物扩增靶标捕获试剂序列的实施方案中,在每对中的两个特异性引物之一的5′末端添加RNA启动子序列,将导致这样的PCR产物,其可以使用标准方法被转录为RNA靶标捕获试剂。

在其他实施方案中,可以使用人DNA或合并的人DNA样品作为模板来产生靶标捕获试剂。在这样的实施方案中,通过聚合酶链式反应(PCR)扩增该寡核苷酸。在其他实施方案中,通过滚环扩增或超支化滚环扩增来重扩增出经扩增的寡核苷酸。使用人DNA或合并的人DNA样品作为模板,也可以使用相同的方法来产生靶标捕获试剂序列。同样的方法也可以用于采用通过其他方法获得的基因组亚级分来产生靶标捕获试剂序列,这些方法包括但不限于:限制性酶切、脉冲场凝胶电泳、流式分选、CsCl密度梯度离心、选择性动力学重结合、染色体制备物的显微切割,以及本领域技术人员已知的其他分级分离方法。

在某些实施方案中,多种靶标捕获试剂中的靶标捕获试剂(例如,诱饵分子)的数目小于1,000。在其他实施方式中,多种靶标捕获试剂中的靶标捕获试剂(例如,诱饵分子)的数目大于1,000,大于5,000,大于10,000,大于20,000,大于50,000,大于100,000,或大于500,000。

所述靶标捕获试剂序列的长度可以为约70-1000个核苷酸。在一个实施方案中,所述靶标捕获试剂的长度为约100-300个核苷酸,110-200个核苷酸,或120-170个核苷酸。除了上述提到的以外,长度约为70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800和900个核苷酸的中等寡核苷酸,可用于本文所述的方法。在一些实施方案中,可以使用约70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220或230个碱基的寡核苷酸。

每个靶标捕获试剂序列可包括靶特异性(例如,核酸分子特异性)靶标捕获试剂序列和在一个或两个末端上的通用尾部。如本文所用,术语“靶标捕获试剂序列”可以指靶特异性靶标捕获试剂序列或整个寡核苷酸,其包括靶特异性“靶标捕获试剂序列”和寡核苷酸的其他核苷酸。所述靶标捕获试剂中的靶特异性序列的长度为约40-1000个核苷酸。在一个实施方案中,所述靶标特异性序列的长度为约70-300个核苷酸。在另一个实施方案中,所述靶标特异性序列的长度为约100-200个核苷酸。在又一个实施方案中,所述靶标特异性序列的长度为约120-170个核苷酸,通常为120个核苷酸。除上述提及之外,中等长度也可用于本文所述的方法中,例如约40、50、60、70、80、90、100、110、120、130、140、150,160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800和900个核苷酸的长度,以及上述长度之间的长度的靶标特异性序列。

在一个实施方案中,所述靶标捕获试剂是长度为约50-200个(例如,约50、60、80、90、100、110、120、130、140、150、160、170、190或200个核苷酸长度)的核苷酸的寡聚体(例如组成为RNA寡聚体、DNA寡聚体或它们的组合)。在一个实施方案中,每个靶标捕获试剂寡聚体包括约120-170个,或通常约120个核苷酸,其是靶标特异性靶标捕获试剂序列。所述靶标捕获试剂可在一个或两个末端包含另外的非靶特异性核苷酸序列。该额外的核苷酸序列可以用于例如PCR扩增或用作靶标捕获试剂标识符。在某些实施方案中,所述靶标捕获试剂另外包含如本文所述的结合对的第一成员(例如,亲和标签,例如生物素分子)。结合对的所述第一成员,例如生物素分子,可以在靶标捕获试剂的5′端、3′端或内部(例如,通过掺入生物素化的核苷酸)附接于该靶标捕获试剂。在一个实施方案中,所述生物素分子附接于该靶标捕获试剂的5′端。

在一个示例性实施方案中,所述靶标捕获试剂是长度约150个核苷酸的寡核苷酸,其中120个核苷酸是靶特异性的“靶标捕获试剂序列”。其他30个核苷酸(例如,每端15个核苷酸)是用于PCR扩增的通用任意尾部。所述尾部可以是用户选择的任何序列。例如,合成寡核苷酸的池可包括5′-ATCGCACCAGCGTGTN

本文所述的靶标捕获试剂序列可用于选择外显子和短靶标序列。在一个实施方案中,所述靶标捕获试剂的长度为约100-300个核苷酸。在另一个实施方案中,所述靶标捕获试剂的长度为约130-230个核苷酸。在另一个实施方案中,所述靶标捕获试剂的长度为约150-200个核苷酸。该靶标捕获试剂中的靶特异性序列(例如,用于选择外显子和短的靶标序列)的长度为约40-1000个核苷酸。在一个实施方案中,所述靶标特异性序列的长度为约70-300个核苷酸。在另一个实施方案中,所述靶标特异性序列的长度为约100-200个核苷酸。在另一个实施方案中,所述靶标特异性序列的长度为约120-170个核苷酸。

在一些实施方案中,长寡核苷酸可使捕获所述靶序列所需的寡核苷酸的数目最小化。例如,可以为每个外显子使用一种寡核苷酸。本领域公知,人基因组中编码蛋白质的外显子的平均长度和中位数长度分别为约164和120个碱基对。较长的靶标捕获试剂序列可以比较短的序列更具特异性,并且捕获效果更好。结果,每个寡核苷酸靶标捕获试剂序列的成功率都高于短的寡核苷酸的。在一个实施方案中,最小的靶标捕获试剂覆盖序列的大小为一个靶标捕获试剂(例如120-170个碱基)的大小,例如,用于捕获外显子大小的靶标。在确定靶标捕获试剂序列的长度时,还应考虑到,不必要的过长靶标捕获试剂捕捉更多直接邻近所述靶标相邻的不需要的DNA。较长的寡核苷酸靶标捕获试剂也可能比较短的寡核苷酸靶标捕获试剂更耐DNA样品中靶向区域的多态性。通常,所述靶标捕获试剂序列衍生自参考基因组序列。如果实际DNA样品中的靶序列偏离参考序列,例如,如果它包含一个单核苷酸多态性(SNP),则它与靶标捕获试剂的杂交效率可能较低,而因此可能在与靶标捕获试剂序列杂交的序列呈现不足或完全不存在。由于更长的合成靶标捕获试剂分子的存在,SNP引起等位基因缺失的可能性较小,原因是例如120-170个碱基的单个错配比20或70个碱基的单个错配对杂交稳定性的影响更小,它们分别是多重扩增和微阵列捕获中的典型靶标捕获试剂或引物长度。

为了选择与捕获靶标捕获试剂的长度相比更长的靶标,例如基因组区域,靶标捕获试剂序列的长度通常与上述短靶标的靶标捕获试剂的大小范围相同,除了无需仅出于使靶向相邻序列最小化的目的,而限制靶标捕获试剂序列的最大尺寸。可选地,寡核苷酸可以在更大的窗口平铺(通常为600个碱基)。此方法可用于捕获比典型外显子大得多(例如约500个碱基)的DNA片段。结果,选择了更多不需要的侧翼非靶标序列。

靶标捕获试剂的合成

该靶标捕获试剂可以是例如任何类型的寡核苷酸,例如DNA或RNA。所述DNA或RNA靶标捕获试剂(“寡靶标捕获试剂”)可以单独地合成,或者作为DNA或RNA靶捕获试剂可以阵列合成(例如,“阵列诱饵分子”)。寡核苷酸靶标捕获试剂,无论是以阵列形式还是作为分离的寡核苷酸提供,通常都是单链的。靶标捕获试剂可以另外包含本文所述的结合对的第一成员(例如,亲和标签如生物素分子)。所述结合对的第一成员,例如生物素分子,可以例如在该靶标捕获试剂的5′或3′端,通常在靶的5′端,附接于所述靶标捕获试剂。靶标捕获试剂可以通过本领域中描述的方法来合成,例如,其描述于国际专利申请公开WO 2012/092426或国际专利申请公开WO 2015/021080,其全部内容通过引用并入本文。

杂交条件

本发明中表征的方法包括使所述文库(例如,核酸文库)与多种靶标捕获试剂接触以提供选择的文库捕获物的步骤。所述接触步骤可以以溶液杂交方式进行。在某些实施方案中,所述方法包括通过一轮或多轮额外的溶液杂交来重复杂交步骤。在一些实施方案中,所述方法还包括使文库捕获物经受与靶标捕获试剂的相同或不同集合的一轮或多轮额外的溶液杂交。可以适用于本文方法的杂交方法在本领域中进行了描述,例如描述于国际专利申请公开WO 2012/092426中。

本发明的其他实施方案或特征如下:

在某些实施方案中,所述方法包括确定所述样品中与癌性表型(例如,本文所述的基因或基因产物中的至少10、20、30、50个或更多个改变)正相关或负相关的改变的存在与否。在其他实施方案中,所述方法包括确定基因组签名,例如连续/复合的生物标志物(例如,肿瘤突变负荷的水平)。在其他实施方案中,所述方法包括确定一个或多个基因组签名,例如连续/复合的生物标志物,例如微卫星不稳定性的水平,或杂合性(LOH)的存在或不存在。所述方法包括根据本文描述的任何方法,在基于溶液的反应中使所述样品中的核酸与所述靶标捕获试剂接触以获得文库捕获物;以及测序(例如,通过二代测序)文库捕获物的全部或子集,从而确定本文所述的基因或基因产物中改变存在或不存在。

在某些实施方案中,所述靶标捕获试剂包括长度为约100-300个核苷酸的寡核苷酸(或多个寡核苷酸)。通常,该靶标捕获试剂包括长度为约130-230个核苷酸,或约150-200个核苷酸的寡核苷酸(或多个寡核苷酸)。在其他实施方案中,所述靶标捕获试剂包括长度为约300-1000个核苷酸的寡核苷酸(或多个寡核苷酸)。

在其他实施方案中,所述靶标捕获试剂包括cDNA序列或衍生自cDNA序列。在一个实施方案中,所述cDNA是从RNA序列(例如肿瘤或癌细胞衍生的RNA,例如从肿瘤FFPE样品、血液样品或骨髓抽吸样品获得的RNA)制备的。在其他实施方案中,所述靶标捕获试剂包括从基因组DNA、cDNA或克隆的DNA扩增的扩增产物(例如PCR产物)。

在某些实施方案中,文库(例如,核酸文库)包括核酸分子的集合。如本文所述,所述文库的核酸分子可包括靶核酸分子(例如,肿瘤核酸分子,参考核酸分子和/或对照核酸分子;在本文中也分别称为第一、第二和/或第三核酸分子)。所述文库的核酸分子可以来自单个个体。在一些实施方案中,文库可包含来自一个以上受试者(例如2、3、4、5、6、7、8、9、10、20、30或更多个受试者),例如,两个或更多个受试者的核酸分子来自不同受试者的文库可以组合,以形成具有来自一个以上受试者的核酸分子的文库。在一个实施方案中,所述受试者是患有癌症或肿瘤或有患癌症或肿瘤的风险的人。

在一些实施方案中,所述方法包括使一个或多个文库(例如,一个或多个核酸文库)与多种靶标捕获试剂接触以提供核酸的选定亚组(例如文库捕获物)的步骤。在一个实施方案中,所述接触步骤在固体载体(例如阵列)中进行。用于杂交的合适固体支持物描述于,例如Albert,T.J.et al.(2007)Nat.Methods4(11):903-5;Hodges,E.et al.(2007)Nat.Genet.39(12):1522-7;以及Okou,D.T.et al.(2007)Nat.Methods 4(11):907-9,通过引用将其内容并入本文。在其他实施方案中,所述接触步骤以溶液杂交方式进行。在某些实施方案中,所述方法包括通过一轮或多轮额外的杂交来重复杂交步骤。在一些实施方案中,所述方法还包括使文库捕获物与靶标捕获试剂的相同或不同集合进行一轮或多轮额外杂交。

在其他的实施方案中,所述方法还包括对文库捕获物进行基因分型的步骤,从而鉴别出所选核酸的基因型。

在某些实施方案中,所述方法还包括以下一项或多项:

i)对样品指纹识别;

ii)定量样品中基因或基因产物(例如本文所述的基因或基因产物)的丰度(例如定量样品中转录物的相对丰度);

iii)将样品鉴别为属于特定受试者(例如,正常对照或癌症患者);

iv)鉴别出样品的基因特征(例如,一个或多个受试者的基因组成(例如,种族、人种、家族特征));

v)确定核酸样品中的倍性;确定样品中杂合性的损失;

vi)确定样品中是否存在本文所述的改变,例如核苷酸替换、拷贝数改变、插入/缺失或重排;

vii)确定样品中肿瘤突变负荷和/或微卫星不稳定性(和/或其他复合生物标志物)的水平;或者

viii)确定样品中肿瘤/正常细胞混合物的水平。

不同的寡核苷酸组合可以以不同的比例混合,例如选自1∶1、1∶2、1∶3、1∶4、1∶5、1∶10、1∶20、1∶50、1∶100、1∶1000等的比例。在一个实施方案中,化学合成的靶标捕获试剂(例如,诱饵分子)与阵列产生的靶标捕获试剂(例如,诱饵分子)的比例选自1∶5、1∶10或1∶20。DNA或RNA寡核苷酸可以是天然存在的或非天然存在的。在某些实施方案中,所述靶标捕获试剂(例如,诱饵分子)包括一种或多种非天然存在的核苷酸以例如提高解链温度。示例性的非天然存在的寡核苷酸包括经修饰的DNA或RNA核苷酸。示例性的经修饰的RNA核苷酸是锁核酸(LNA),其中,LNA核苷酸的核糖部分修饰有连接2′氧和4′碳的额外桥(Kaur,H;Arora,A;Wengel,J;Maiti,S;Arora,A.;Wengel,J.;Maiti,S.(2006).“Thermodynamic,Counterion,and Hydration Effects for the Incorporation of Locked Nucleic AcidNucleotides into DNA Duplexes”.Biochemistry 45(23):7347-55)。其他修饰的示例性DNA和RNA核苷酸,包括但不限于:由通过肽键连接的重复N-(2-氨乙基)-甘氨酸单元组成的肽核酸(PNA)(Egholm,M.et al.(1993)Nature 365(6446):566-8);修饰以捕获低GC区域的DNA或RNA寡核苷酸;双环核酸(BNA)或交联的寡核苷酸;修饰的5-甲基脱氧胞苷;以及2,6-二氨基嘌呤。其他经修饰的DNA和RNA核苷酸是本领域已知的。

在一个实施方案中,方法还包括获取文库,其中所述文库中所述核酸片段的尺寸小于或等于参考值,并且所述文库在DNA分离和制备文库之间没有片段化步骤的情况下制备。

在一个实施方案中,方法还包括获取核酸片段,并且如果所述核酸片段的尺寸等于或大于参考值并且被片段化,则将这种核酸片段制成文库。

在一个实施方案中,方法还包括例如通过向多个核酸分子中的每一个添加可鉴别的不同核酸序列(条形码),标记多个文库核酸分子中的每一个。

在一个实施方案中,方法还包括将引物附接于多个文库核酸分子的每一个。

在一个实施方案中,方法还包括提供多种靶标捕获试剂并选择多种靶标捕获试剂,所述选择响应于:1)患者特征,例如年龄、肿瘤的阶段、先前的治疗或耐药性;2)肿瘤类型;3)样品的特征;4)对照样品的特征;5)对照的存在或类型;6)分离的肿瘤(或对照)核酸样品的特征;7)文库特征;8)已知与样品中肿瘤类型有关的突变;9)未知与样品中肿瘤类型相关的突变;10)测序(或杂交或恢复)序列或鉴别突变的能力,例如,与具有高GC区或重排的序列相关的困难;或11)被测序的基因。

在一个实施方案中,方法还包括响应于例如确定所述样品中的少量肿瘤细胞,而选择出靶标捕获试剂或多种靶标捕获试剂,从而与第二基因的核酸分子相比,相对高效地捕获第一基因的核酸分子,例如,其中第一基因中的突变与所述样品的肿瘤类型的肿瘤表型相关,可选地,其中第二基因中的突变与所述样品的肿瘤类型的肿瘤表型不相关。

在一个实施方案中,所述方法还包括获取文库捕获物特征的值,例如核酸浓度,并将获取的值与该特征的参考标准进行比较。

在一个实施方案中,方法还包括:选择满足用于文库定量的参考标准的具有文库特征值的文库。

测序

本发明还包括对核酸测序的方法。在这些方法中,通过使用本文描述的方法,例如使用溶液杂交,从文库分离核酸分子,从而提供文库捕获物。可以对文库捕获物或其亚组进行测序。因此,具有本发明特征的方法还包括分析文库捕获物。在一个实施方案中,通过测序方法(例如本文所述的二代测序方法)来分析文库捕获物。该方法包括通过溶液杂交分离出文库捕获物,以及通过核酸测序对文库捕获物进行处理。在某些实施方案中,可以对文库捕获物重测序。

可以使用本领域已知的任何测序方法。通过选定的方法分离的核酸的测序,通常使用二代测序(NGS)进行。适用于本文的测序方法在本领域中已有描述,例如其描述于国际专利申请公开WO 2012/092426。

在一个实施方案中,所获取或分析的读取中至少10%、20%、30%、40%、50%、60%、70%、80%或90%用于来自本文所述基因的对象区间,例如,表1A-5A的基因。在一个实施方案中,至少0.01、0.02、0.03、0.04、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、2.0、5.0、10、15或30兆碱基(例如基因组碱基)被测序。在一个实施方案中,所述方法包括获得从本文描述的样品获得核苷酸序列读取。在一个实施方案中,通过NGS测序方法提供读取。

本文公开的方法可以用于检测受试者的基因组、整个外显子组或转录组中存在的改变,并且可以应用于DNA和RNA测序,例如靶向DNA和/或RNA测序。在一些实施方案中,对本文所述基因的转录物进行测序。在其他实施方案中,所述方法包括检测基因或基因产物的水平的变化(例如,增加或减少),例如本文所述的基因或基因产物的表达的变化。该方法可以任选地包括富集靶标RNA的样品的步骤。在其他实施方案中,所述方法包括去除样品中某些高丰度RNA例如核糖体或球蛋白RNA的步骤。所述RNA测序方法可以单独使用,或与本文所述的DNA测序方法结合使用。在一个实施方案中,所述方法包括进行DNA测序步骤和RNA测序步骤。该方法可以以任何顺序执行。例如,该方法可以包括通过RNA测序确认本文所述的改变的表达,例如,确认通过本发明的DNA测序方法检测到的突变或融合的表达。在其他实施方案中,所述方法包括进行RNA测序步骤,随后进行DNA测序步骤。

比对

比对是将读取与位置(例如基因组位置)进行匹配的过程。错位(例如,短读取的碱基对在基因组中不正确位置上的放置),例如,由于实际癌症突变周围的读取的序列上下文(例如,重复序列的存在)而导致的错位,会导致突变检测的敏感性降低,因为该替代性等位基因的读取可能偏离了替代性等位基因读取的主要堆积。如果有问题的序列上下文发生在不存在实际突变的地方,则错位可能会通过将参考基因组碱基的实际读取放置在错误的位置上而引入“突变的”等位基因的假读取。因为用于多重多基因分析的突变调用算法即使对低丰度突变也应敏感,所以这些错位可能会增加假阳性发现率/降低特异性。

如本文所讨论的,可以通过评价被分析基因中预期突变位点周围的比对质量(手动或以自动方式),来解决对于实际突变的敏感性降低。可以从癌症突变数据库(例如,COSMIC)评价这些位点。被鉴别为有问题的区域可通过使用选择的算法进行补救,该算法选择为在相关序列上下文中提供更好的性能,例如,通过使用较慢但更准确的比对算法(例如Smith-Waterman比对)进行比对优化(或重新比对)。在通用比对算法不能解决该问题的情况下,可以通过例如针对具有包含替换的高可能性的基因来调整最大差异错配罚分参数以创建定制的比对方法;根据某些肿瘤类型中常见的特定突变类型(例如黑色素瘤的C→T),来调整特定的错配罚分参数;或根据某些样品类型中常见的特定突变类型(例如FFPE中常见的替换),来调整特定的错配罚分参数。

可以通过手动或自动检查测序样品中的所有突变,来评估由于错位导致的经评价的基因区域中的特异性降低(假阳性率增加)。被发现由于错位而易于产生假突变的那些区域,可以接受与上述相同的比对补救措施。如果找不到可能的算法补救措施,则可以将问题区域的“突变”分类或从测试组中筛选出来。

本文公开的方法允许使用多种单独经调整的比对方法或算法来优化与重排相关的对象区间(例如插入缺失)的测序性能,尤其是以依赖于大量不同基因(例如来自样品的)的大量不同基因学事件的大规模平行测序的方法。在一些实施方案中,将针对不同基因中多个重排中每一个进行单独定制或调整的多重比对方法,用于分析读取。在一些实施方案中,调整可以是被测序的基因(或其他对象区间)(的一个或多个)、所述样品中的肿瘤类型、被测序的变体、或样品或受试者的特征的函数。精细调整到多个待测对象区间的比对条件的选择或使用,可以优化速度、灵敏度和特异性。当针对相对大量的不同对象区间的读取的比对进行优化时,该方法特别有效。在一些实施方案中,所述方法包括使用针对重新布置而优化的比对方法,以及针对与该重新布置不相关的对象区间而优化的其他比对方法。

在一些实施方案中,使用比对选择器。如本文所用,“比对选择器”是指允许或指导选择出比对方法的参数,例如,比对算法或参数,其可以优化对象区间的测序。比对选择器可以特定为或选择为下述函数,例如下述的一个或多个的函数:

1.序列上下文,例如对象区间(例如,待评价的核苷酸位置)的序列上下文,其与所述对象区间的读取错位倾向相关。例如,在基因组中其他地方重复的待评价对象区间中或附近的序列元件的存在会引起错位,从而降低性能。通过选择使错位最小化的算法或算法参数,可以提高性能。在这种情况下,比对选择器的值可以是序列上下文的函数,例如,存在或不存在这样的长度序列,其在基因组中(或得到分析的基因组的一部分)重复了至少很多次。

2.正在分析的肿瘤类型。例如,特定的肿瘤类型可以以增加的缺失率为特征。因此,可以通过选择对插入缺失更敏感的算法或算法参数来增强性能。在这种情况下,比对选择器的值可以是肿瘤类型的函数,例如,肿瘤类型的标识。在一个实施方案中,所述值是肿瘤类型的身份,例如实体瘤或血液系统恶性肿瘤(或癌变前)。

3.可以分析正在分析的基因或基因类型,例如,基因或基因类型。举例来说,致癌基因通常以替换或框内插入缺失为特征。因此,可以通过选择对这些变体特别敏感并且针对其他变体有特异性的算法或算法参数来增强性能。抑癌剂通常以移码插入缺失为特征。因此,可以通过选择对这些变体特别敏感的算法或算法参数来增强性能。因而,可以通过选择与对象区间匹配的算法或算法参数来增强性能。在这种情况下,比对选择器的值可以是基因或基因类型(例如,基因或基因类型的标识)的函数。在一个实施方案中,所述值是基因的身份。

4.被分析的位点(例如核苷酸位置)。在这种情况下,比对选择器的值可以是位点或位点类型(例如,位点或位点类型的标识)的函数。在一个实施方案中,所述数值是位点的身份。例如,如果包含该位点的基因与另一个基因高度同源,则正常/快速短读取比对算法(例如BWA)可能难以区分这两个基因,可能需要更严格的比对方法(Smith-Waterman)甚至组合方法(ARACHNE)。同样,如果基因序列包含低复杂度区域(例如AAAAAA),则可能需要更严格的比对方法。

5.与正在评价的对象区间相关联的变体或变体类型。例如,替换、插入、缺失、易位或其他重排。因此,可以通过选择对特定变体类型更敏感的算法或算法参数来增强性能。在这种情况下,比对选择器的值可以是变体类型(例如变量类型的标识)的函数。在一个实施方案中,所述值是变体的类型(例如替换)的身份。

6.样品(例如本文所述的样品)的类型。样品类型/质量会影响错误(非参考序列的假观察)率。因此,可以通过选择精确建模样本中真实错误率的算法或算法参数来增强性能。在这种情况下,比对选择器的值可以是样品类型(例如,样品类型的标识)的函数。在一个实施方案中,所述值是样品类型的身份。

通常,由于本文禁用的测序平台上的假插入缺失率相对较低,因此准确检测插入/缺失突变是比对中的一项工作(因而,即使对正确排列的插入/缺失进行少量观察,也可以作为突变的有力证据)。然而,在存在插入缺失的情况下,精确比对可能是困难的(尤其是随着插入缺失长度的增加)。除了与比对相关的一般问题(例如替换)外,插入缺失本身也会导致比对问题。(例如,不容易确定地放置二核苷酸重复序列的2bp缺失。)错误放置较短的(<15bp)含表观插入缺失的读取,可降低灵敏度和特异性。较大的插入缺失(在大小上接近单个读取的长度,例如36bp的读取)会导致根本无法比对读取,从而无法在标准的比对读取集合中检测到插入缺失。

癌症突变数据库可用于解决这些问题并提高性能。为了减少假阳性插入缺失的发现(提高特异性),可以检查通常预期插入缺失周围的区域是否存在因序列上下文而导致的有问题的比对,并以类似于上述替代方法进行处理。为了提高插入缺失检测的灵敏度,可以使用几种不同的方式来使用有关癌症中预期插入缺失的信息。例如,可以模拟包含预期插入缺失的短读取并尝试进行比对。可以研究比对,并且有问题的插入/缺失区域可以具有例如通过减少缺口开放/延伸罚分或通过比对部分读取(例如读取的前半部分或后半部分)来调整的比对参数。

可选地,不仅可以尝试与正常参考基因组进行初始比对,而且可以尝试与包含每个已知或可能的癌症插入缺失突变的基因组的替代版本进行初始比对。在这种方法中,最初未能比对或错误比对的插入/缺失读取被成功放置在基因组的替代的(突变的)版本上。

以这种方式,可以针对预期的癌症基因/位点优化插入缺失比对(并因而调用(calling))。如本文所用,序列比对算法体现了这样一种计算方法或方式,其用于通过评估读取序列和参考序列之间的相似性,来鉴别基因组中读取序列(例如,短读取序列,例如来自二代测序)最可能起源的位置。可以将多种算法应用于序列比对问题。一些算法相对较慢,但允许相对较高的特异性。这些包括例如基于动态编程的算法。动态编程是一种通过将复杂问题分解为更简单的步骤来解决它们的方法。其他方法相对更有效,但通常不那么彻底。这些包括例如为大规模数据库搜索而设计的启发式算法和概率方法。

在比对算法中使用比对参数来调节算法的性能,例如,以在读取序列和参考序列之间产生最佳的全局或局部比对。比对参数可以给出匹配、错配和插入缺失的权重。例如,较低的权重允许了有更多错配和插入缺失的比对。

序列上下文,例如重复序列(例如,串联的重复、散布的重复),低复杂度区域、插入缺失、假基因或旁系同源物的存在,可能会影响比对特异性(例如,导致错位)。如本文所用,错位是指将短读取的碱基对放置在基因组中的不正确位置上。

当基于肿瘤类型(例如,倾向于具有特定的突变或突变型的肿瘤类型)选择比对算法或调整比对参数时,可以增加比对的灵敏度。

当基于特定基因类型(例如,癌基因、肿瘤抑制基因)来选择比对算法或调解比对参数时,可以增加比对的灵敏度。不同类型的癌症相关基因中的突变,可能对癌症表型产生不同的影响。例如,突变体癌基因等位基因通常是显性的。突变体抑癌基因等位基因通常是隐性的,这意味着在大多数情况下,抑癌基因的两个等位基因都必须受到影响,才能显示出效果。

当基于突变型(例如,单核苷酸多态性、插入缺失(插入或缺失)、倒位、易位、串联重复)选择比对算法时或者调整比对参数时,可以调整(例如,增加)比对的灵敏度。

当基于突变位点调节(例如,突变热点)选择比对算法或者调整比对参数时,可以调整(例如,增加)比对的灵敏度。突变热点是指基因组中突变发生频率比正常突变率高100倍的位点。

当基于样品类型(例如,cfDNA样品、ctDNA样品、FFPE样品或CTC样品)选择比对算法时或调整比对参数时,可以调整(例如,增加)比对的灵敏度/特异性。

在一些实施方案中,NGS读取可以与已知参考序列比对或从头组装。例如,NGS读取可以与参考序列(例如,野生型序列)比对。NGS的序列比对方法描述于,例如R.et al.,Bioinformatics,2007,23:500-501;Butler J.et al.,Genome Res.,2008,18:810-820;以及Zerbino D.R.和Bimey E.,Genome Res.,2008,18:821-829。可以使用来自一个或多个NGS平台的读取数据(例如,混合Roche/454和Illumina/Solexa读取数据)来执行序列比对或组装。

比对的优化在本领域中进行了描述,例如,描述于国际专利申请公开WO 2012/092426中。

突变调用

碱基调用(calling)是指测序装置的原始输出。突变调用是指为要测序的核苷酸位置选择核苷酸值(例如A、G、T或C)的过程。通常,某个位置的测序读取(或碱基调用)将提供一个以上的值,例如,某些读取将给出一个T,而一些读取将给出G。突变调用是为序列分配核苷酸值(例如这些值中的一个)的过程。尽管将其称为“突变”调用,但可以将其应用于为任何核苷酸位置分配核苷酸值,例如,对应于突变等位基因、野生型等位基因、尚未表征为突变型或野生型的等位基因的位置,或者不以可变性为特征的位置。突变调用的方法可以包括以下一项或多项:基于参考序列每个位置的信息进行独立调用(例如,检查序列读取;检查碱基调用和质量得分;在给定潜在基因型的情况下计算观察到的碱基的概率和质量得分;以及分配基因型(例如,使用贝叶斯(Bayes)规则);消除假阳性(例如,使用深度阈值来拒绝读取深度远低于或高于预期的SNP;局部重新排列以消除由于小插入缺失量引起的假阳性);并进行基于连锁不平衡(LD)/预测(imputation)的分析以完善调用。

例如,用于计算与特定基因型和位置相关的基因型可能性的方程,描述于例如LiH.和Durbin R.Bioinformatics,2010;26(5):589-95。在评估来自某种癌症类型的样品时,可以使用针对特定癌症类型的特定突变的先前期望。这种可能性可以来自癌症突变的公共数据库,例如癌症中的体细胞突变目录(COSMIC)、HGMD(人类基因突变数据库)、SNP联盟、乳腺癌突变数据库(BIC)和乳腺癌基因数据库(BCGD)。

基于LD/预测的分析的实例,描述于例如Browning BL和YuZ.Am.J.Hum.Genet.2009,85(6):847-61。低覆盖度SNP调用方法的实例,描述于例如LiY.et al.,Annu.Rev.Genomics Hum.Genet.2009,10:387-406。

在比对之后,可以使用调用方法,例如贝叶斯突变调用方法,来进行对替换的检测;在每个对象区间中将该方法应用于每个碱基,例如待评价基因的外显子,其中观察到存在替代性等位基因。本方法将比较在存在突变的情况下观察读取数据的概率与仅存在碱基调用错误的情况下观察读取数据的概率。如果该比较足够有力地支持突变的存在,则可以调用突变。

已经开发出解决癌症DNA分析中50%或100%频率的有限偏差的方法(例如,SNVMix-Bioinformatics.2010March 15;26(6):730-736)。然而,本文公开的方法允许考虑在1%至100%样品DNA的的任何地方(尤其是低于50%的水平),存在突变体等位基因的可能性。该方法对于检测天然(多克隆)肿瘤DNA的低纯度FFPE样品中的突变特别重要。

贝叶斯突变检测方法的优点是,可以通过事先预期该位点存在突变,来加权对突变存在概率与仅碱基调用错误概率的比较。如果在给定癌症类型的频繁突变位点观察到替代性等位基因的一些读取,那么即使突变证据的数量不符合通常的阈值,也可以肯定地调用突变的存在。然后,对于甚至更罕见突变/更低纯度的样品,可以使用这种灵活性来提高检测灵敏度,或者可以使测试更强大从而降低读取覆盖度。在癌症中,基因组中的随机碱基对发生突变的可能性约为1e-6。在典型的多基因癌症基因组的小组中,许多位点发生特定突变的可能性可能高出几个数量级。这些可能性可以来自癌症突变的公共数据库(例如,COSMIC)。插入缺失调用是通过插入或删除在测序数据中发现与参考序列不同的碱基的过程,通常包括相关的置信度评分或统计证据度量。

插入/缺失调用的方法可以包括以下步骤:鉴别候选插入/缺失,通过局部重新比对计算基因型可能性,以及执行基于LD的基因型推断和调用。通常,使用贝叶斯方法获得潜在的插入缺失候选物,然后在贝叶斯框架中将这些候选物与参考序列一起进行测试。

产生候选插入缺失的算法,描述于例如McKenna A.et al.,Genome Res.2010;20(9):1297-303;Ye K.et al.,Bioinformatics,2009;25(21):2865-71;Lunter G.和Goodson M.Genome Res.2011;21(6):936-9;以及Li H.et al.,Bioinformatics 2009,Bioinformatics 25(16):2078-9。

产生插入缺失调用和个体水平基因型可能性的方法包括,例如Dindel算法(Albers C.A.et al.,Genome Res.2011;21(6):961-73)。例如,贝叶斯EM算法可用于分析读取,进行初始插入缺失调用,并为每个候选插入缺失生成基因型可能性,然后使用例如QCALL(Le S.Q.和Durbin R.Genome Res.2011;21(6):952-60)预测基因型。基于插入缺失的大小或位置可以调整(例如,增加或减少)参数,如对观察到插入缺失的提前预期。

在一个实施方案中,在该方法中进行的至少10%、20%、30%、40%、50%、60%、70%、80%或90%的突变调用,是针对来自本文描述的基因或基因产物的对象区间,例如表1A-5A的基因或基因产物。在一个实施方案中,本文所述的独特阈值的至少10%、20%、30%、40%、50%、60%、70%、80%或90%,是针对来自所述基因或基因产物的对象区间,例如来自表1A-5A的基因或基因产物。在一个实施方案中,注释的或报告的给第三方的至少10%,20%,30%,40%,50%,60%,70%,80%或90%的突变调用,是针对来源于本文所述的基因或基因产物的对象区间,例如来自表1A-5A的基因或基因产物。

在一个实施方案中,将核苷酸位置的分配值任选地与解释性注释一起发送给第三方。在一个实施方案中,核苷酸位置的分配值不传输给第三方。在一个实施方案中,多个核苷酸位置的分配值任选地与解释性注释一起传输给第三方,并且第二多个核苷酸位置的分配值不传输给第三方。

在一个实施方案中,所述方法包括例如通过条形码反卷积将一个或多个读取分配给受试者。在一个实施方案中,所述方法包括例如通过条形码反卷积将一个或多个读取指定为肿瘤读取或对照读取。在一个实施方案中,所述方法包括例如通过与参考序列比对,对所述一个或多个读取的每一个进行映射定位。在一个实施方案中,所述方法包括记住经调用的突变。

在一个实施方案中,所述方法包括注释出经调用的突变,例如,用突变结构(例如,错义突变)或功能(例如疾病表型)的指征来注释经调用突变。在一个实施方案中,所述方法包括获取肿瘤和对照核酸的核苷酸序列读取。在一个实施方案中,所述方法包括例如利用贝叶斯调用方法或非贝叶斯调用方法,针对每个对象区间(例如,亚基因组区间、表达的亚基因组区间或两者)调用核苷酸(例如,变体,例如突变)。在一个实施方案中,所述方法包括评价包括至少一个SNP的多个读取。在一个实施方案中,所述方法包括确定所述样品和/或对照读取中的SNP等位基因比率。

在一些实施方案中,所述方法还包括建立针对靶向的亚基因组区域的测序/比对假像的数据库。在一个实施方案中,所述数据库可以用于过滤出假突变调用,并提高特异性。在一个实施方案中,通过对无关样品或细胞系进行测序并记录非参考等位基因事件来构建数据库,这些非参考等位基因事件仅由于在这些正常样品中的一个或多个中随机出现测序错误,而比预期出现的频率更高。该方法可能将种系变异归类为假像,但是在涉及体细胞突变的方法中可以接受。如果需要,通过针对已知种系变异过滤此数据库(删除常见变体)和针对仅出现在一个个体中的假像过滤此数据库(消除稀有变异),可以改善将种系变异错误分类为假像的情况。

突变调用的优化在本领域中进行了描述,例如描述于国际专利申请公开WO 2012/092426中。

SGZ算法

各种类型的改变,例如体细胞改变和种系突变,可以通过本文所述的方法(例如,测序、比对或突变调用方法)来检测。在某些实施方案中,通过使用SGZ(体细胞-种系-接合性)算法的方法进一步鉴别种系突变。

在临床实践中,通常不会获得匹配的正常对照。不希望受到理论的束缚,据信在一些实施方案中,尽管充分表征的基因组改变不要求对正常组织进行解释,在不存在匹配的正常对照的情况下,在关于它们是种系还是体细胞的问题上至少某些改变是未知的。SGZ是一种计算方法,用于预测从癌症样本的二代测序中,鉴别出的变体的体细胞起源相对于种系起源,以及纯合状态相对杂合状态或亚克隆状态。

SGZ方法不要求匹配的正常对照,因此可以在临床环境中广泛应用。通过对改变的等位基因频率(AF)建模,并考虑到肿瘤的含量、肿瘤倍性和局部拷贝数,SGZ预测每个鉴别出改变的体细胞状态与种系状态。预测的准确性取决于测序的深度和拷贝数模型的拟合,这可以通过测序到高深度,覆盖癌症相关基因和全基因组范围内的单核苷酸多态性(SNP)来实现。使用基于SNP AF的读取深度和局部可变性的统计信息进行调用。

在一些实施方案中,所述方法还包括表征来自受试者例如人例如癌症患者的组织(例如肿瘤)或样品中的变体,例如突变,所述方法包括:

a)获取:

i)序列覆盖输入(SCI),其包含对于多个选择的对象区间(例如外显子)中的每一个,在所选的对象区间处的归一化序列覆盖度的值;

ii)SNP等位基因频率输入(SAFI),其包含对于多个选择的种系SNP中的每一个,肿瘤或样品中等位基因频率的值;

iii)变体等位基因频率输入(VAFI),其包含对于肿瘤或样品中的所述变体(例如突变)的等位基因频率;

b)获取数值(作为SCI和SAFI的函数):

C,对于多个基因组区段中的每一个,其中C是基因组区段总拷贝数;

M,对于多个基因组区段中的每一个,其中M是基因组区段次要等位基因拷贝数;以及

p,其中p是样品纯度;以及

c)获取以下一项或两项:

i)变体类型(例如,突变类型,例如g)的值,其指示该变体(例如,突变体)是体细胞、亚克隆体细胞变体,种系的或不可区分的,并且是VAFI、p、C和M的函数;

ii)肿瘤或样品中变体(例如突变)的接合性的指征,作为C和M的函数。

在一个实施方案中,可以无需分析来自受试者的非肿瘤组织而进行分析。在一个实施方案中,在不分析来自受试者的非肿瘤组织的情况下进行分析,例如,未对来自相同受试者的非肿瘤组织进行测序。

在一个实施方案中,SCI包含作为对象区间(例如,来自样品)的读取数目的函数(例如比率的对数)的数值,以及对照(例如过程匹配的对照)的读取数目。在一个实施方案中,SCI包含至少10、25、50、100、150、200、250、300、350、400、450、500、1,000、2,000、3,000、4,000,5,000、6,000、7,000、8,000、9,000或10,000个对象区间(例如外显子)的数值,例如log r数值。在一个实施方案中,SCI包含至少100个对象区间(例如外显子)的数值,例如logr数值。在一个实施方案中,SCI包含1,000-10,000、2,000-9,000、3,000-8,000、3,000-7,000、3,000-6,000、或4,000-5,000个对象区间(例如外显子)的数值,例如log r数值。在一个实施方案中,SCI包含来自至少10、25、50、100、150、200、250、300、350、400、450、500,1,000、2,000、3,000或4,000个基因的对象区间(例如外显子)的数值,例如log r数值。

在一个实施方案中,SCI中包含的至少一个、多个或基本上所有的值被校正,以与GC含量相关。

在一个实施方案中,来自样品的对象区间(例如外显子)具有至少10、20、30、40、50、100、150、200、250、300、350、400、450、500、600、700,800、900或1,000个读取。在一个实施方案中,样品中的多个,例如至少10、25、50、100、150、200、250、300、350、400、450、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000或10,000个对象区间(例如外显子)具有多个读取。在一个实施方案中,读取的数目是至少10、20、30、40、50、100、150、200、250、300、350、400、450、500、600、700、800、900或1,000个。在一个实施方案中,多个种系SNP包含至少10、25、50、100、150、200、250、300、350、400、450、500、1,000、2,000、3,000、4,000、5000、6000、7000,8000、9000、10,000或15,000个种系SNP。

在一个实施方案中,多个种系SNP包含至少100个种系SNP。在一个实施方案中,多个种系SNP包含500-5,000、1,000-4,000、或2,000-3,000个种系SNP。在一个实施方案中,所述等位基因频率是次要等位基因频率。在一个实施方案中,所述等位基因频率是备选等位基因,例如,人基因组参考数据库中除标准等位基因以外的等位基因。

在一个实施方案中,所述方法包括表征样品中的多个变体,例如突变体。在一个实施方案中,所述方法包括表征至少2、3、4、5、6、7、89、10、25、50、100、150、200、250、300、350、400、450或500个变体(例如突变体)。在一个实施方案中,所述方法包括在至少2、3、4、5、6、7、8、9、10、25、50、100、150、200、250、300、350,400、450或500个不同的基因中表征变体(例如突变体)。

在一个实施方案中,所述方法包括针对至少2、3、4、5、6、7、8、9、10、25、50、100、150、200、250、300、350、400、450,或500个变体(例如突变体),获取VAFI。在一个实施方案中,所述方法包括针对至少2、3、4、5、6、7、8、9、10、25、50、100、150、200、250、300、350、400、450或500个变体(例如突变体),执行步骤a)、b)和c)中的一个、两个或全部。在一个实施方案中,C、M和p的值是,具有或可以获自:通过将全基因组范围的拷贝数模型拟合到SCI和SAFI之一或两者。在一个实施方案中,C、M和p的值拟合SCI和SAFI的多个全基因组拷贝数模型输入。在一个实施方案中,基因组片段包含多个对象区间(例如外显子),例如已经分配了SCI值的对象区间。

在一个实施方案中,基因组区段包含至少10、20、30、40、50、60、70、80、90、100、125、150、175、200、225、250、275、300、400或500个对象区间,例如外显子。在一个实施方案中,基因组区段包含10-1,000、20-900、30-700、40-600、50-500、60-400、70-300、80-200、80-150、或80-120、90-110,或大约100个对象区间,例如外显子。在一个实施方案中,基因组区段包含100-10,000、100-5,000、100-4,000、100-3,000、100-2,000,或100-1,000的对象区间,例如外显子。在一个实施方案中,基因组区段包括10-1,000、20-900、30-700、40-600、50-500、60-400、70-300、80-200、80-150、或80-120、90-110个、或约100个基因组SNP(已为其分配了SAFI值)。在一个实施方案中,基因组区段包含100-10,000、100-5,000、100-4,000、100-3,000、100-2,000,或100-1,000的基因组SNP(已为其分配了SAFI值)。

在一个实施方案中,多个基因组区段的每一个的特征在于具有以下之一或两者:

归一化序列覆盖度的测量值,例如log r,其相差不超过预选的量,例如,基因组区段边界内对象区间(例如外显子)的log

种系SNP的SNP等位基因频率相差不超过预先选择的数量,例如,基因组区段边界内对象区间(例如外显子)的种系SNP等位基因频率值相差不超过参考值,或基本上恒定;

在一个实施方案中,包含在基因组片段中或组合形成基因组区段的对象区间(例如外显子)的数量,是基因组区段数量的至少2、5、10、15、20、50或100倍。在一个实施方案中,对象区间例如外显子的数目,是基因组区段数目的至少3、4、5、6、7、8、9、10、11、12、13、14或15倍。

在一个实施方案中,提供了基因组区段的边界。在一个实施方案中,所述方法包括将对象区间(例如外显子)的序列组装成基因区段。

在一个实施方案中,所述方法包括用本文描述的方法组装对象区间的序列,例如,包括循环二元分割(CBS)的方法,基于HMM的方法,基于小波的方法或沿染色体聚类的方法。

在一个实施方案中,使全基因组拷贝数模型拟合于SCI,该拟合包括使用以下方程:

在一个实施方案中,ψ=(∑

在一个实施方案中,使全基因组拷贝数模型拟合于SAFI,该拟合包括使用以下方程:

在一个实施方案中,所述拟合包括使用吉布斯(Gibbs)采样。在一个实施方案中,所述拟合包括使用例如马尔可夫链蒙特卡洛(MCMC)算法,例如ASCAT(肿瘤的等位基因特异性拷贝数分析)、OncoSNP或PICNIC(预测癌症中的整体拷贝数)。在一个实施方案中,所述拟合包括使用蒙特泊利斯-黑斯廷(Metropolis-Hastings)MCMC。在一个实施方案中,所述拟合包括使用非贝叶斯方式,例如频率学派方法,例如,使用最小二乘方拟合。

在一个实施方案中,通过确定将VAFI、p、C和M的值拟合于体细胞/种系细胞状态模型来确定g。在一个实施方案中,所述方法包括获取所述变体(例如突变)的杂合性的指征。在一个实施方案中,样品纯度(p)是整体纯度,例如,对于所有基因组区段而言都是相同的。

在一个实施方案中,通过以下方式获取g的数值:

在一个实施方案中,接近于0的g值(例如与0没有显著差异的),表明该变体是体细胞变体。在一个实施方案中,0或接近0的g值(例如在0至小于0.4的g值内),表明该变体是体细胞变体。在一个实施方案中,接近1的g值(例如与1没有显著差异的),表明该变体是种系变体。在一个实施方案中,1或接近1的g值(例如在大于0.6至1的g值内),表明该变体是种系变体。在一个实施方案中,g值小于1但大于0,例如,如果它小于1且大于0个一个量,例如,如果g为0.4-0.6,则表明结果不可区分。

在一个实施方案中,g的值显著小于0,表明是亚克隆体细胞变体。

在一个实施方案中,通过以下方式获取g的值:

在一个实施方案中,例如当样品纯度低于约40%时,例如为约10%至30%,例如约10%至20%,或约20%至约30%时,则确定体细胞/种系细胞状态。

在一个实施方案中,当M的值等于0不等于C时,表明不存在变体(例如突变),例如在肿瘤中不存在;M等于C的非零值表明变体(例如突变)的纯合性,例如具有杂合性(LOH)丧失;M等于0等于C的M值表明变体(例如突变)的纯合缺失,例如在肿瘤中不存在;M不等于C的非零值表明变体(例如突变)的杂合性。

在一个实施方案中,所述方法包括获取所述变体例如突变的接合性的指征。在一个实施方案中,如果M=C≠0,则将突变状态确定为纯合的(例如,LOH)。在一个实施方案中,如果M=C=0,则将突变状态确定为纯合缺失。在一个实施方案中,当0<M<C,确定突变状态为杂合子。在一个实施方案中,如果M=0且C≠0,则肿瘤不存在突变。在一个实施方案中,例如当样品纯度大于约80%,例如在约为90%-100%,例如约90%-95%,或约95%-100%时,确定接合性。

在一个实施方案中,对照是来自一个受试者的整倍体(例如二倍体)组织的样品,而不是样品来自该受试者,或者是来自来自一个或多个(例如,至少2、3、4或5个)受试者的混合整倍体(例如二倍体)组织的样品,而不是样品来自该受试者。在一个实施方案中,所述方法包括例如通过二代测序(NGS)对每个选择的对象区间和每个选择的种系SNP进行测序。在一个实施方案中,归一化之前的序列覆盖度是至少约10X,20X,30X,50X,100X,250X,500X,750X,800X,900X,1,000X,1,500X,2,000X,2,500X,3,000X,3,500X,4,000X,4,500X,5,000X,5,500X,6,000X,6,500X,7,000X,7,500X,8,000X,8,500X,9,000X,9,500X或10,000X的测序深度。

在一个实施方案中,所述受试者已接受抗癌疗法。在一个实施方案中,所述受试者已经接受抗癌疗法,并且对该疗法有抗性或表现出疾病进展。在一个实施方案中,所述受试者已经接受了选自以下的抗癌疗法:已经被FDA、EMA或其他监管机构批准的治疗药剂;以及或未经FDA,EMA或其他监管机构批准的治疗药剂。在一个实施方案中,受试者在临床试验的过程中已经接受了抗癌疗法,例如I期、II期或III期临床试验(或在此类试验的美国以外等效项目)。在一个实施方案中,所述变体与受试者中存在的肿瘤类型正相关,例如与治疗的发生或抗药性正相关。在一个实施方案中,所述变体与受试者中存在的肿瘤类型没有正相关。在一个实施方案中,所述变体与除受试者中存在的肿瘤类型以外的肿瘤正相关。在一个实施方案中,所述变体是与受试者中存在的肿瘤类型没有正相关的变体。

在一个实施方案中,所述方法可以例如在数据库(例如,机器可读数据库)中存储,提供包含或传输用于以下项中的一个或多个的描述符的报告或传输该描述符:肿瘤中其他突变的存在、不存在或频率,例如,与样品中的肿瘤类型相关的其他突变,与样品中的肿瘤类型不相关的其他突变,或与样品中的肿瘤类型以外的肿瘤相关的其他突变;变体的特征;等位基因或基因;或肿瘤类型,例如,肿瘤类型的名称,肿瘤是原发性还是继发性;受试者特征;或治疗性的替代方案、建议或选择。

在一个实施方案中,与变体的表征有关的描述符包括用于接合性或种系相对体细胞状态的描述符。在一个实施方案中,与受试者特征有关的描述符包括以下一项或多项的描述符:受试者的身份;一位或者多位受试者的年龄、性别、体重或其他类似特征、职业;受试者的病史,例如肿瘤或其他疾病的发生;受试者的家族病史,例如共享或不共享变体的亲戚;或受试者的先前治疗史,例如接受的治疗,对先前施用的抗癌疗法的响应,例如疾病抵抗力、响应性或进展。

SGZ算法也描述于:Sun et al.PLoS Comput Biol.2018;14(2):e1005965;Sun etal.Cancer Research 2014;74(19S):1893-1893;国际申请公开WO2014/183078、美国专利US9,792,403和美国申请公开US2014/0336996,它们的内容通过整体引用并入本文。

肿瘤突变负荷

本文所述的方法和组合物可用于评估肿瘤突变负荷(TMB)。

术语“突变负荷(mutational burden/mutation burden)”,“突变负载(mutaionload/mutational load)”在本文中可互换使用。在肿瘤的情况下,突变负荷在本文中也称为“肿瘤突变负荷(tumor mutational burden/tumor mutation burden)”或“TMB”。不希望被理论所束缚,据信在一些实施方案中,所述TMB可以被认为是一种基因组签名,例如连续/复合的生物标志物。

如本文所用,术语“突变负荷(mutational burden/mutation burden)”是指一个基因集合中每个既定单位(例如,每兆碱基)中某种改变(例如,一种或多种改变,例如,一种或多种体细胞改变)的水平(例如数量)。突变负荷可以,例如基于整个基因组或外显子组,或基于基因组或外显子组的子集,来测量。在某些实施方案中,基于基因组或外显子组的子集测量的突变负荷可用于推断确定整个基因组或外显子组的突变负荷。

在一个实施方案中,所述方法包括:

a)提供来自样品的一个对象区间集合(例如编码对象区间)的序列,例如核苷酸序列,其中该对象区间集合来自一个基因集合;以及

b)确定突变负荷的值,其中所述值是该对象区间集合中某种改变(例如,一种或多种改变),例如体细胞改变(例如,一个或多种体细胞改变)的数量的函数。

在某些实施方案中,所述改变的数量不包括对象区间中的功能性改变。在其他实施方案中,所述改变的数量不包括对象区间中的种系改变。在某些实施方案中,所述改变的数量不包括对象区间中的功能性改变和对象区间中的种系改变。

在某些实施例中,所述对象区间集合包含编码对象区间。在其他实施方案中,所述对象区间集合包含非编码对象区间。在某些实施方案中,所述对象区间集合包含编码对象区间。在其他实施例中,所述对象区间集合包含一个或多个编码对象区间和一个或多个非编码对象区间。在某些实施方案中,约5%或更多,约10%或更多,约20%或更多,约30%或更多,约40%或更多,约50%或更多,约60%或更多,约70%或更多,约80%或更多,约90%或更多或约95%或更多对象区间集合中的对象区间是编码对象区间。在其他实施方案中,约90%或更少,约80%或更少,约70%或更少,约60%或更少,约50%或更少,约40%或更少,约30%或更少,约20%或更少,约10%或更少,或约5%或更少对象区间集合中的对象区间是非编码对象区间。

在其他实施方案中,所述对象区间集合不包含整个基因组或整个外显子组。在其他实施方案中,所述编码对象区间集合不包含整个外显子组。

在某些实施方案中,所述基因集合不包含整个基因组或整个外显子组。在其他实施方案中,所述基因集合包含或由一个或多个如表1A-5A所示的基因组成。

在某些实施方案中,所述值表示为该基因集合的函数。在某些实施方案中,所述值表示为该基因集合的编码区的函数。在其他实施方案中,所述值表示为该基因集合的非编码区的函数。在某些实施方案中,所述值表示为该基因集合的外显子的函数。在其他实施方案中,所述值表示为该基因集合的内含子的函数。

在某些实施方案中,所述值表示为经测序的基因集合的函数。在某些实施方案中,所述值表示为经测序的基因集合的编码区的函数。在其他实施方案中,所述值表示为经测序的基因集合的非编码区的函数。在某些实施方案中,所述值表示为经测序的基因集合的外显子的函数。在其他实施方案中,所述值表示为经测序的基因集合的内含子的函数。

在某些实施方案中,所述值表示为所述基因集合的多个位置的改变(例如,体细胞改变)数量的函数。在某些实施方案中,所述值表示为所述基因集合的编码区的多个位置的改变(例如,体细胞改变)数量的函数。在其他实施方案中,所述值表示为所述基因集合的非编码区的多个位置的改变(例如,体细胞改变)数量的函数。在某些实施方案中,所述值表示为所述基因集合的外显子的多个位置的改变(例如,体细胞改变)数量的函数。在其他实施方案中,所述值表示为所述基因集合的内含子的多个位置的改变(例如,体细胞改变)数量的函数。

在某些实施方案中,所述值表示为在经测序的所述基因集合的多个位置的改变(例如,体细胞改变)数量的函数。在某些实施方案中,所述值表示为经测序的所述基因集合的编码区的多个位置的改变(例如,体细胞改变)数量的函数。在其他实施方案中,所述值表示为在经测序的基因集合的非编码区的多个位置的改变(例如,体细胞改变)数量的函数。在某些实施方案中,所述值表示为所经测序的基因集合的外显子的多个位置的改变(例如,体细胞改变)数量的函数。在其他实施方案中,所述值表示为在经测序的基因集合的内含子的多个位置的改变(例如,体细胞改变)数量的函数。

在某些实施方案中,所述值表示为每个单位的某种改变(例如,体细胞改变)数量的函数,例如,每兆碱基中某种体细胞改变数量的函数。

在某些实施方案中,所述值表示为所述基因集合中每兆碱基的改变(例如,体细胞改变)数量的函数。在某些实施方案中,所述值表示为所述基因集合的编码区域中每兆碱基的改变(例如,体细胞改变)数量的函数。在其他实施方案中,所述值表示为所述基因集合的非编码区中每兆碱基的改变(例如,体细胞改变)数量的函数。在某些实施方案中,所述值表示为所述基因集合的外显子中每兆碱基的改变(例如,体细胞改变)数量的函数。在其他实施方案中,所述值表示为所述基因集合的内含子中每兆碱基的改变(例如,体细胞改变)数量的函数。

在某些实施方案中,所述值表示为经测序的基因集合中每兆碱基的改变(例如,体细胞改变)数量的函数。在某些实施方案中,所述值表示为经测序的基因集合的编码区域中每兆碱基的改变(例如,体细胞改变)数量的函数。在其他实施方案中,所述值表示为经测序的基因集合的非编码区域中每兆碱基的改变(例如,体细胞改变)数量的函数。在某些实施方案中,所述值表示为经测序的基因集合的外显子中每兆碱基的改变(例如,体细胞改变)数量的函数。在其他实施方案中,所述值表示为经测序基因集合的内含子中每兆碱基的改变(例如,体细胞改变)数量的函数。

在某些实施方案中,将所述突变负荷外推至所述基因组的较大部分,例如外显子组或整个基因组,例如,以获得总的突变负荷。在其他实施方案中,将所述突变负荷外推到至所述外显子组的较大部分,例如整个外显子组。

在某些实施方案中,所述样品来自受试者。在某些实施方案中,所述受试者患有疾病,例如癌症。在其他实施方案中,所述受试者正在接受或已经接受治疗,例如免疫治疗。

在某些实施方案中,所述突变负荷表达为百分位数,例如占参考群体样品中的突变负荷的百分位数。在某些实施方案中,所述参考群体包括患有与受试者相同类型的癌症的患者。在其他实施方案中,所述参考群体包括正在接受或已经接受与受试者相同类型的治疗的患者。

在某些实施例中,所述方法包括:

(i)从样品获取包含多个肿瘤核酸分子的文库;

(ii)使文库与靶标捕获试剂接触以提供所选的肿瘤核酸分子,其中所述靶标捕获试剂与肿瘤核酸分子杂交,从而提供文库捕获物;

(iii)例如通过下一代测序方法,从所述文库捕获物中获取包含改变(例如体细胞改变)的对象区间的读取;

(iv)通过比对方法使比对所述读取;

(v)从所述读取为核苷酸位置分配核苷酸值;

(vi)从经分配的核苷酸位置集合选择对象区间(例如,编码对象区间)集合,其中所述对象区间集合来自一个基因集合;和

(vii)确定突变负荷的值,其中所述值是所述对象区间集合中的改变(例如,一种或多种改变),例如体细胞改变(例如,一种或多种体细胞改变)数量的函数。

在某些实施方案中,改变(例如,体细胞改变)数量不包括对象区间中的功能性改变。在其他实施方案中,改变数量不包括对象区间中的种系改变。在某些实施方案中,改变数量(例如,体细胞改变)不包括对象区间中的功能性改变和对象区间中的种系改变。

国际申请公开WO2017/151524中描述了评估肿瘤突变负荷的其他方法,其内容通过引用整体并入本文。

基因选择

所选择的基因或基因产物(本文也称为“靶标基因或基因产物”)可包括包含基因内区域或基因间区域的对象区间。例如,所述对象区间可以包括外显子或内含子或其片段,通常为外显子序列或其片段。所述对象区间可以包括编码区或非编码区,例如启动子、增强子、5′非翻译区(5′UTR)、或3′非翻译区(3′UTR)或其片段。在其他实施方案中,所述对象区间包括cDNA或其片段。在其他实施方案中,所述对象区间包括例如本文所述的SNP。

在其他实施方案中,所述对象区间包括基因组中的基本上所有外显子,例如,如本文所述的一个或多个对象区间(例如,来自所选基因或目标基因产物(例如,与本文所述癌表型相关的基因或基因产物)的外显子。在一个实施方案中,所述对象区间包括体细胞突变、种系突变或两者。在一个实施方案中,所述对象区间包括改变,例如点或单突变、缺失突变(例如,框内缺失、基因内缺失、全基因缺失)、插入突变(例如、基因内插入)、倒位突变(例如染色体内倒位)、连接突变、连锁插入突变、倒排重复突变、串联重复(例如染色体内串联重复)、易位(例如染色体易位、非相互易位)、重排、基因拷贝数变化或其组合。在某些实施方案中,所述对象区间占样品中肿瘤细胞基因组的编码区小于5%、1%、0.5%、0.1%、0.05%、0.01%、0.005%或0.001%。在其他实施方案中,所述对象区间不参与疾病,例如,与本文所述的癌性表型不相关。

在一个实施方案中,所述靶标基因或基因产物是生物标志物。如本文所用,“生物标志物”或“标志物”是可以被改变的基因、mRNA或蛋白质,其中所述改变与癌症有关。可将癌症组织或癌细胞中所述改变的数量、结构和/或活性与正常或健康组织或细胞(例如,对照)中其数量、结构和/或活性相比较,并与疾病状态如癌症相关联。例如,与癌症相关或预测对抗癌疗法响应性的标志物与正常、健康的组织或细胞相比,在癌症组织或癌细胞中可能具有改变的核苷酸序列、氨基酸序列、染色体易位、染色体内倒位、拷贝数、表达水平、蛋白质水平、蛋白质活性,表观遗传修饰(例如,甲基化或乙酰化状态或翻译后修饰)。此外,当出现在与疾病状态例如癌症相关的组织或细胞中时,“标志物”包括结构经改变的分子,例如经突变的分子(包含突变),例如在核苷酸或氨基酸水平上,例如通过替换、缺失或插入,而不同于野生型序列。

在一个实施方案中,所述靶标基因或基因产物包括单核苷酸多态性(SNP)。在另一个实施方案中,所述基因或基因产物具有小的缺失,例如小的基因内缺失(例如,框内或移码缺失)。在又一个实施方案中,所述靶标序列由整个基因的缺失产生。在另一个实施方案中,所述靶标序列具有小的插入,例如小的基因内插入。在一个实施方案中,所述靶标序列是由倒位产生的,例如染色体内倒位。在另一个实施方案中,所述靶标序列由染色体间易位产生。在另一个实施方案中,所述靶标序列具有串联重复。在一个实施方案中,所述靶标序列具有不期望的特征(例如,高GC含量或重复元件)。在另一个实施方案中,所述靶标序列具有这样的一部分核苷酸序列,其本身不能被成功靶向,例如由于其重复的性质。在一个实施方案中,所述靶标序列由选择性剪接产生。在另一个实施方案中,所述靶标序列选自根据表1A-5A的基因或基因产物或其片段。

在一个实施方案中,所述靶标基因或基因产物或其片段是抗体基因或基因产物、免疫球蛋白超家族受体(例如,B细胞受体(BCR)或T细胞受体(TCR))基因或基因产物或其片段。

人抗体分子(和B细胞受体)由具有恒定(C)和可变(V)区域的重链和轻链组成,所述重链和轻链由以下至少三个基因座上的基因编码。

1. 14号染色体上的免疫球蛋白重基因座(IGH@),其包含免疫球蛋白重链的基因片段;

2. 2号染色体上的免疫球蛋白μ(Kappa)位点(IGK@),其包含免疫球蛋白轻链的基因片段;

3.第22号染色体上的免疫球蛋白λ(lambda)位点(IGF@),其包含免疫球蛋白轻链的基因片段。

各重链和轻链基因均包含抗体蛋白质可变区的三种不同类型基因片段的多个拷贝。例如,免疫球蛋白重链区可包含五个不同类别γ、δ、α、μ和ε中的一个,44个可变(V)基因片段,27个多样性(D)基因片段和6个连接(J)基因片段。轻链还可以具有多个V和J基因片段,但不具有D基因片段。λ轻链具有7个可能的C区,且μ轻链具有1个。

免疫球蛋白重基因座(IGH@)是人类14号染色体上的一个区域,其包含人抗体(或免疫球蛋白)重链的基因。例如,所述IGH基因座包括IGHV(可变)、IGHD(多样性)、IGHJ(连接)和IGHC(恒定)基因。编码免疫球蛋白重链的示例性基因,包括但不限于:IGHV1-2、IGHV1-3、IGHV1-8、IGHV1-12、IGHV1-14、IGHV1-17、IGHV1-18、IGHV1-24、IGHV1-45、IGHV1-46、IGHV1-58、IGHV1-67、IGHV1-68、IGHV1-69、IGHV1-38-4、IGHV1-69-2、IGHV2-5、IGHV2-10、IGHV2-26、IGHV2-70、IGHV3-6、IGHV3-7、IGHV3-9、IGHV3-11、IGHV3-13、IGHV3-15、IGHV3-16、IGHV3-19、IGHV3-20、IGHV3-21、IGHV3-22、IGHV3-23、IGHV3-25、IGHV3-29、IGHV3-30、IGHV3-30-2、IGHV3-30-3、IGHV3-30-5、IGHV3-32、IGHV3-33、IGHV3-33-2、IGHV3-35、IGHV3-36、IGHV3-37、IGHV3-38、IGHV3-41、IGHV3-42、IGHV3-43、IGHV3-47、IGHV3-48、IGHV3-49、IGHV3-50、IGHV3-52、IGHV3-53、IGHV3-54、IGHV3-57、IGHV3-60、IGHV3-62、IGHV3-63、IGHV3-64、IGHV3-65、IGHV3-66、IGHV3-71、IGHV3-72、IGHV3-73、IGHV3-74、IGHV3-75、IGHV3-76、IGHV3-79、IGHV3-38-3、IGHV3-69-1、IGHV4-4、IGHV4-28、IGHV4-30-1、IGHV4-30-2、IGHV4-30-4、IGHV4-31、IGHV4-34、IGHV4-39、IGHV4-55、IGHV4-59、IGHV4-61、IGHV4-80、IGHV4-38-2、IGHV5-51、IGHV5-78、IGHV5-10-1、IGHV6-1、IGHV7-4-1、IGHV7-27、IGHV7-34-1、IGHV7-40、IGHV7-56、IGHV7-81、IGHVII-1-1、IGHVII-15-1、IGHVII-20-1、IGHVII-22-1、IGHVII-26-2、IGHVII-28-1、IGHVII-30-1、IGHVII-31-1、IGHVII-33-1、IGHVII-40-1、IGHVII-43-1、IGHVII-44-2、IGHVII-46-1、IGHVII-49-1、IGHVII-51-2、IGHVII-53-1、IGHVII-60-1、IGHVII-62-1、IGHVII-65-1、IGHVII-67-1、IGHVII-74-1、IGHVII-78-1、IGHVIII-2-1、IGHVIII-5-1、IGHVIII-5-2、IGHVIII-11-1、IGHVIII-13-1、IGHVIII-16-1、IGHVIII-22-2、IGHVIII-25-1、IGHVIII-26-1、IGHVIII-38-1、IGHVIII-44、IGHVIII-47-1、IGHVIII-51-1、IGHVIII-67-2、IGHVIII-67-3、IGHVIII-67-4、IGHVIII-76-1、IGHVIII-82、IGHVIV-44-1、IGHD1-1、IGHD1-7、IGHD1-14、IGHD1-20、IGHD1-26、IGHD2-2、IGHD2-8、IGHD2-15、IGHD2-21、IGHD3-3、IGHD3-9、IGHD3-10、IGHD3-16、IGHD3-22、IGHD4-4、IGHD4-11、IGHD4-17、IGHD4-23、IGHD5-5、IGHD5-12、IGHD5-18、IGHD5-24、IGHD6-6、IGHD6-13、IGHD6-19、IGHD6-25、IGHD7-27、IGHJ1、IGHJ1P、IGHJ2、IGHJ2P、IGHJ3、IGHJ3P、IGHJ4、IGHJ5、IGHJ6、IGHA1、IGHA2、IGHG1、IGHG2、IGHG3、IGHG4、IGHGP、IGHD、IGHE、IGHEP1、IGHM和IGHV1-69D。

免疫球蛋白μ基因座(IGK@)是人类2号染色体上的一个区域,其包含抗体(或免疫球蛋白)的μ(Kappa)轻链的基因。例如,所述IGK基因座包括IGKV(可变)、IGKJ(连接)和IGKC(恒定)基因。编码免疫球蛋白μ轻链的示例性基因,包括但不限于:IGKV1-5、IGKV1-6、IGKV1-8、IGKV1-9、IGKV1-12、IGKV1-13、IGKV1-16、IGKV1-17、IGKV1-22、IGKV1-27、IGKV1-32、IGKV1-33、IGKV1-35、IGKV1-37、IGKV1-39、IGKV1D-8、IGKV1D-12、IGKV1D-13、IGKV1D-16IGKV1D-17、IGKV1D-22、IGKV1D-27、IGKV1D-32、IGKV1D-33、IGKV1D-35、IGKV1D-37、IGKV1D-39、IGKV1D-42、IGKV1D-43、IGKV2-4、IGKV2-10、IGKV2-14、IGKV2-18、IGKV2-19、IGKV2-23、IGKV2-24、IGKV2-26、IGKV2-28、IGKV2-29、IGKV2-30、IGKV2-36、IGKV2-38、IGKV2-40、IGKV2D-10、IGKV2D-14、IGKV2D-18、IGKV2D-19、IGKV2D-23、IGKV2D-24、IGKV2D-26、IGKV2D-28、IGKV2D-29、IGKV2D-30、IGKV2D-36、IGKV2D-38、IGKV2D-40、IGKV3-7、IGKV3-11、IGKV3-15、IGKV3-20、IGKV3-25、IGKV3-31、IGKV3-34、IGKV3D-7、IGKV3D-11、IGKV3D-15、IGKV3D-20、IGKV3D-25、IGKV3D-31.IGKV3D-34、IGKV4-1、IGKV5-2、IGKV6-21、IGKV6D-21、IGKV6D-41、IGKV7-3、IGKJ1、IGKJ2、IGKJ3、IGKJ4、IGKJ5和IGKC。

免疫球蛋白λ基因座(IGL@)是人类22号染色体上的一个区域,其包含抗体(或免疫球蛋白)λ轻链的基因。例如,所述IGL基因座包括IGLV(可变)、IGU(连接)和IGLC(恒定)基因。编码免疫球蛋白入轻链的示例性基因,包括但不限于:IGLV1-36、IGLV1-40、IGLV1-41、IGLV1-44、IGLV1-47、IGLV1-50、IGLV1-51、IGLV1-62、IGLV2-5、IGLV2-8、IGLV2-11、IGLV2-14、IGLV2-18、IGLV2-23、IGLV2-28、IGLV2-33、IGLV2-34、IGLV3-1、IGLV3-2、IGLV3-4、IGLV3-6、IGLV3-7、IGLV3-9、IGLV3-10、IGLV3-12、IGLV3-13、IGLV3-15、IGLV3-16、IGLV3-17、IGLV3-19、IGLV3-21、IGLV3-22、IGLV3-24、IGLV3-25、IGLV3-26、IGLV3-27、IGLV3-29、IGLV3-30、IGLV3-31、IGLV3-32、IGLV4-3、IGLV4-60、IGLV4-69、IGLV5-37、IGLV5-39、IGLV5-45、IGLV5-48、IGLV5-52、IGLV6-57、IGLV7-35、IGLV7-43、IGLV7-46、IGLV8-61、IGLV9-49、IGLV10-54、IGLV10-67、IGLV11-55、IGLVI-20、IGLVI-38、IGLVI-42、IGLVI-56、IGLVI-63、IGLVI-68、IGLVI-70、IGLVIV-53、IGLVIV-59、IGLVIV-64、IGLVIV-65、IGLVIV-66-1、IGLVV-58、IGLVV-66、IGLVVI-22-1、IGLVVI-25-1、IGLVVII-41-1、IGLJ1、IGLJ2、IGLJ3、IGLJ4、IGLJ5、IGLJ6、IGLJ7、IGLC1、IGLC2、IGLC3、IGLC4、IGLC5、IGLC6和IGLC7。

B细胞受体(BCR)由两部分组成:i)一种同种型(例如IgD或IgM)的膜结合免疫球蛋白分子,除了存在完整的膜结构域外,其可以与其分泌形式相同,和ii)信号转导部分:通过二硫键结合在一起的称为Ig-α/Ig-β(CD79)的异二聚体。所述二聚体的各核酸分子跨过质膜,并具有胞质尾,其承载了基于免疫受体酪氨酸的激活基序(ITAM)。

T细胞受体(TCR)由两条不同的蛋白链(即异二聚体)组成。在95%的T细胞中,其由一条α(alpha)和β(beta)链组成,而在5%的T细胞中,其由γ(gamma)和δ(delta)链组成。在个体发育期间和患病状态下,该比率可发生变化。T细胞受体基因与免疫球蛋白基因的相似之处在于,它们的β和δ链中也包含多个V、D和J基因片段(以及α和γ链中的V和J基因片段),在淋巴细胞发育过程中会重新排列以为各细胞提供独特的抗原受体。

T细胞受体α基因座(TRA)是人类14号染色体上的一个区域,其包含TCRα链的基因。例如,所述TRA基因座包括例如TRAV(可变)、TRAJ(连接)和TRAC(恒定)基因。编码T细胞受体α链的示例性基因,包括但不限于:TRAV1-1、TRAV1-2、TRAV2、TRAV3、TRAV4、TRAV5、TRAV6、TRAV7、TRAV8-1、TRAV8-2、TRAV8-3、TRAV8-4、TRAV8-5、TRAV8-6、TRAV8-7、TRAV9-1、TRAV9-2、TRAV10、TRAV11、TRAV12-1、TRAV12-2、TRAV12-3、TRAV13-1、TRAV13-2、TRAV14DV4、TRAV15、TRAV16、TRAV17、TRAV18、TRAV19、TRAV20、TRAV21、TRAV22、TRAV23DV6、TRAV24、TRAV25、TRAV26-1、TRAV26-2、TRAV27、TRAV28、TRAV29DV5、TRAV30、TRAV31、TRAV32、TRAV33、TRAV34、TRAV35、TRAV36DV7、TRAV37、TRAV38-1、TRAV38-2DV8、TRAV39、TRAV40、TRAV41、TRAJ1、TRAJ2、TRAJ3、TRAJ4、TRAJ5、TRAJ6、TRAJ7、TRAJ8、TRAJ9、TRAJ10、TRAJ11、TRAJ12、TRAJ13、TRAJ14、TRAJ15、TRAJ16、TRAJ17、TRAJ18、TRAJ19、TRAJ20、TRAJ21、TRAJ22、TRAJ23、TRAJ24、TRAJ25、TRAJ26、TRAJ27、TRAJ28、TRAJ29、TRAJ30、TRAJ31、TRAJ32、TRAJ33、TRAJ34、TRAJ35、TRAJ36、TRAJ37、TRAJ38、TRAJ39、TRAJ40、TRAJ41、TRAJ42、TRAJ43、TRAJ44、TRAJ45、TRAJ46、TRAJ47、TRAJ48、TRAJ49、TRAJ50、TRAJ51、TRAJ52、TRAJ53、TRAJ54、TRAJ55、TRAJ56、TRAJ57、TRAJ58、TRAJ59、TRAJ60、TRAJ61和TRAC。

T细胞受体β基因座(TRB)是人类7号染色体上的一个区域,其包含TCRβ链的基因。例如,所述TRB基因座包括例如TRBV(可变)、TRBD(多样性),TRBJ(连接)和TRBC(恒定)基因。编码T细胞受体β链的示例性基因,包括但不限于:TRBV1、TRBV2、TRBV3-1、TRBV3-2、TRBV4-1、TRBV4-2、TRBV4-3、TRBV5-1、TRBV5-2、TRBV5-3、TRBV5-4、TRBV5-5、TRBV5-6、TRBV5-7、TRBV6-2、TRBV6-3、TRBV6-4、TRBV6-5、TRBV6-6、TRBV6-7、TRBV6-8、TRBV6-9、TRBV7-1、TRBV7-2、TRBV7-3、TRBV7-4、TRBV7-5、TRBV7-6、TRBV7-7、TRBV7-8、TRBV7-9、TRBV8-1、TRBV8-2、TRBV9、TRBV10-1、TRBV10-2、TRBV10-3、TRBV11-1、TRBV11-2、TRBV11-3、TRBV12-1、TRBV12-2、TRBV12-3、TRBV12-4、TRBV12-5、TRBV13、TRBV14、TRBV15、TRBV16、TRBV17、TRBV18、TRBV19、TRBV20-1、TRBV21-1、TRBV22-1、TRBV23-1、TRBV24-1、TRBV25-1、TRBV26、TRBV27、TRBV28、TRBV29-1、TRBV30、TRBVA、TRBVB、TRBV5-8、TRBV6-1、TRBD1、TRBD2、TRBJ1-1、TRBJ1-2、TRBJ1-3、TRBJ1-4、TRBJ1-5、TRBJ1-6、TRBJ2-1、TRBJ2-2、TRBJ2-2P、TRBJ2-3、TRBJ2-4、TRBJ2-5、TRBJ2-6、TRBJ2-7、TRBC1和TRBC2。

T细胞受δ基因座(TRD)是人类14号染色体上的一个区域,其包含TCRδ链的基因。例如,所述TRD基因座包括例如TRDV(可变)、TRDJ(连接)和TRDC(恒定)基因。编码T细胞受体δ链的示例性基因,包括但不限于:TRDV1、TRDV2、TRDV3、TRDD1、TRDD2、TRDD3、TRDJ1、TRDJ2、TRDJ3、TRDJ4和TRDC。

T细胞受体γ基因座(TRG)是人类7号染色体上的一个区域,其包含TCRγ链的基因。例如,所述TRG基因座包括例如TRGV(可变)、TRGJ(连接)和TRGC(恒定)基因。编码T细胞受体γ链的示例性基因,包括但不限于:TRGV1、TRGV2、TRGV3、TRGV4、TRGV5、TRGV5P、TRGV6、TRGV7、TRGV8、TRGV9、TRGV10、TRGV11、TRGVA、TRGVB、TRGJ1、TRGJ2、TRGJP、TRGJP1、TRGJP2、TRGC1和TRGC2。

在一个实施方案中,所述靶标基因或基因产物或其片段选自表1A-5A中描述的任何基因或基因产物。

另外的示例性基因描述于,例如,国际申请公开WO2012/092426的表1-11中,其内容通过引用整体并入。

前述方法的应用,包括但不限于将含有一个或多个特定基因所有已知序列变体(或其子集)的寡核苷酸文库用于医学样本测序。

其他实施方案

可选地,或与本文所述的方法结合,在一些实施方案中,所述方法进一步包含(a)-(h)中的一项或多项(例如,2、3、4、5、6、7项或全部):

(a)例如使用本文所述的多种靶标捕获试剂,提供来自样品(例如血液样品)的核酸分子(例如cfDNA);

(b)将包含条形码的衔接子连接至核酸分子,所述条形码包含多个不同条形码序列,从而产生标记的亲本核酸分子;

(c)扩增标记的亲本核酸分子以产生扩增的标记的子代核酸分子;

(d)对扩增的标记的子代核酸分子进行测序,以从各个标记的亲本核酸分子产生多个序列读取,其中多个序列读取中的各序列读取包含条形码序列和衍生自核酸分子的序列;

(e)将多个序列读取中的序列读取定位至一个或多个参考序列;

(f)至少基于所述序列读取中的条形码序列将在e)中定位的序列读取分家族(grouping),每个家族(family)包含含有相同条形码序列的序列读取,由此各个家族包含从相同标记的亲本核酸分子中扩增的序列读取;

(g)在一个或多个参考序列的多个对象区间的每一个中,折叠(collapsing)各家族的序列读取以在该对象区间产生各个家族的突变调用;或者

(h)在一个或多个对象区间检测一种或多种基因组异常,例如插入缺失、拷贝数变异、颠换、易位、倒位、缺失、非整倍性、部分非整倍性、多倍性、染色体不稳定、染色体结构改变、基因融合、染色体融合、基因截短、基因扩增、基因复制、染色体损伤、DNA损伤、核酸化学修饰异常改变、表观遗传模式异常改变、核酸甲基化异常改变或其组合。

可选地,或与本文所述的方法组合,在一些实施方案中,所述方法进一步包括(a)-(i)中的一项或多项(例如,2、3、4、5、6、7、8项或全部),例如,用以量化基因组改变(例如,单个核苷酸变体):

(a)例如使用本文所述的多种靶标捕获试剂,提供来自样品(例如血液样品)的核酸分子(例如cfDNA);

(b)将包含条形码的衔接子连接至所述核酸分子,所述条形码包含不同条形码序列,从而产生标记的亲本核酸分子;

(c)扩增标记的亲本核酸分子以产生扩增的标记的子代核酸分子;

(d)对扩增的标记的子代核酸分子进行测序,以从各个亲本核酸分子产生多个序列读取,其中各序列读取包含条形码序列和衍生自核酸分子的序列;

(e)基于(i)所述条形码序列和(ii)下述的一项或多项将产生自各个标记的亲本核酸分子的多个序列读取分为多个家族(families):核酸衍生序列的起始处序列信息、核酸衍生序列末端序列信息、或序列读取的长度,其中各个家族包含从标记的亲本核酸分子中的独特核酸分子扩增的标记的子代核酸分子的序列读取;

(f)将分入各个家族中的序列读取相互比较,以确定各个家族的共有序列,其中各共有序列对应于标记的亲本核酸分子中的独特核酸分子;

(g)提供一个或多个包含一个或多个对象区间的参考序列;

(h)识别定位至所述一个或多个对象区间的给定对象区间的共有序列;或者

(i)计算定位至包含基因组改变的给定对象区间的共有序列的数量,从而量化样品中的基因组改变。

可选地或与本文所述的方法结合,在一些实施方案中,所述方法进一步包含(a)-(h)中的一项或多项(例如,2、3、4、5、6、7项或全部):

(a)例如使用本文所述的多种靶标捕获试剂,提供来自样品(例如血液样品)的核酸分子(例如cfDNA);

(b)将多个核酸分子转化为多个标记的亲本核酸分子,其中各个标记的亲本核酸分子包含:(i)来自多个核酸分子的核酸分子序列,和(ii)包含一个或多个条形码的标识符序列;

(c)扩增多个标记的亲本核酸分子,以产生相应的多个扩增的子代核酸分子;

(d)对多个扩增子代核酸分子测序,以产生序列读取集合;

(e)将序列读取集合中的序列读取定位至一个或多个参考序列;

(f)将序列读取分为多个家族,各个家族包含含有相同标识符序列并且具有相同起始和终止位置的序列读取,其中各个家族包含从相同的标记的亲本核酸分子扩增的序列读取;

(g)在一个或多个参考序列中多个对象区间的各个对象区间,折叠各个家族中的序列读取以在所述对象区间为各个家族产生突变调用;或者

(h)确定这些家族中在所述对象区间调用的一个或多个突变的频率。

可选地,或与本文所述的方法结合,在一些实施方案中,所述方法进一步包括(a)-(f)中的一项或多项(例如2、3、4、5项或全部),例如用以检测拷贝数的变化:

(a)例如使用本文所述的多种靶标捕获试剂,提供来自样品(例如血液样品)的核酸分子(例如cfDNA);

(b)对核酸分子进行测序,其中每个核酸分子产生多个序列读取;

(c)滤除不符合设置的精度、质量评分、或定位得分阈值的读取;

(d)将所述多个序列读取定位至参考序列;

(e)在参考序列的多个区域中定量经定位的读取或独特序列读取;和

(f)通过以下方法在多个预定义区域中的一个或多个中确定拷贝数量的变化:i)将多个区域中的读取数量,或多个区域中的独特序列读取数量彼此标准化;和/或ii)使用从对照样品获得的数量,运算多个区域中的多个读取的数量或多个区域中的多个独特序列读取的数量。

可选地,或与本文所述的方法相结合,在一些实施方案中,所述方法进一步包括(a)-(h)中的一项或多项(例如2、3、4、5、6、7项或全部),例如,用以检测拷贝数量的变化:

(a)例如使用本文所述的多种靶标捕获试剂,提供来自样品(例如血液样品)的核酸分子(例如cfDNA);

(b)对核酸分子进行测序,其中每个核酸分子产生多个序列读取;

(c)滤除不符合设置的精度、质量评分或定位得分阈值的读取;

(d)将测序所得的序列读取定位至参考序列上;

(e)从序列读取中确定对应于所述核酸分子的独特序列读取;

(f)在各个可定位碱基位置上,识别与参考序列相比包含变体的经定位的独特序列读取的子集;

(g)对于各个可定位碱基位置,计算(a)与(b)的比例,其中:(a)与参考序列相比包含变体的多个经定位的独特序列读取的数量,(b)各个可定位碱基位置的总的独特序列读取的数量;和

(h)用参考样品中相似的数量处理所述比例。

可选地,或与本文所述的方法相结合,在一些实施方案中,所述方法进一步包含(a)-(h)中的一项或多项(例如,2、3、4、5、6、7项或全部):

(a)用双标签集合标记来自受试者样品(例如血液样品)的双链DNA分子(例如cfDNA),其中所述双标签集合包含多个不同的分子条形码,其中所述双标签集合中的各个双标签各自标记样品中双链DNA分子的双链DNA分子互补链,以提供标记的链,其中所述标记是使用与双链DNA分子相比至少10X过量的双标签进行的,其过量的双标签足以标记来自受试者样品的至少20%的双链DNA分子;

(b)对于参考基因组中一个或多个基因座的集合中的各个基因座,选择性地富集定位到基因座的标记链子集的标记链,以提供富集的标记链,例如,使用本文所述的多种靶标捕获试剂;

(c)对至少一部分所述富集的标记链进行测序,以产生来自受试者样品的多个原始序列读取;

(d)将多个原始序列读取分组入多个家族,各个家族包含从同一亲本多核苷酸产生的原始序列读取,所述分组基于:(i)与亲本多核苷酸相关的分子条形码,和(ii)来自亲本多核苷酸原始序列的起始和/或末端部分的信息;

(e)将分为多个家族的多个原始序列读取折叠为多个共有序列读取,所述多个共有序列读取中的各个共有序列读取:(i)在一个或多个基因座集合中包含针对各个基因座的多个共有碱基,且(ii)代表双链DNA分子的单条链;

(f)针对一个或多个基因座集合中的各个基因座,计算富集的定位至基因座的标记链的第一定量度量,其中针对所述基因座在所述多个共有序列读取中检测到互补的链。

(g)针对一个或多个基因座集合中的各个基因座,计算富集的定位至基因座的标记链的第二定量度量,其中针对所述基因座在所述多个共有序列读取中仅检测到互补链中的一条链;或者

(h)针对一个或多个基因座集合中的各个基因座,计算富集的定位至基因座的标记链的第三定量度量,其中针对所述基因座在多个共有序列读取中均未检测到互补链,其中至少部分地基于第一和第二定度量来计算第三定量度量,从而检测来自受试者样品中的双链DNA分子。

任选地,或与本文所述的方法相结合,在一些实施方案中,所述方法进一步包括(a)-(b)之一或两者,例如,用以富集多个基因组区域:

(a)使来自样品的预定量的核酸与本文所述的多种靶标捕获试剂接触,本文所述靶标捕获试剂包含:

(i)第一多种靶标捕获试剂,其与来自样品的核酸的第一基因组区域集合选择性杂交,所述第一多种靶标捕获试剂以低于所述第一多种靶标捕获试剂的饱和点的第一浓度提供,和

(ii)第二多种靶标捕获试剂,其与来自样品的核酸的第二基因组区域集合选择性杂交,所述第二多种靶标捕获试剂以等于或高于所述第二多种靶标捕获试剂的饱和点的第二浓度提供;和

(b)针对第一基因组区域集合和第二基因组区域集合,从所述样品中富集核酸,从而产生富集的核酸。

可选地,或与本文所述的方法相结合,在一些实施方案中,所述方法进一步包括(a)-(e)中的一项或多项(例如2、3、4项或全部):

(a)提供多种靶标捕获试剂混合物,其中所述多种靶标捕获试剂混合物中的每一种均包含:与第一基因组区域集合选择性杂交的第一多种靶标捕获试剂,以及与第二基因组区域集合选择性杂交的第二多种靶标捕获试剂,

其中所述第一多种靶标捕获试剂在所述多种靶标捕获试剂混合物中的浓度不同,而所述第二多种靶标捕获试剂在所述多种靶标捕获试剂混合物中的浓度相同;

(b)使所述多种靶标捕获试剂混合物中的每一种与样品(例如血液样品)接触,以使第一多种靶标捕获试剂和第二多种靶标捕获试剂从样品中捕获核酸,其中各靶标捕获试剂混合物中的第二多种靶标捕获试剂以第一浓度提供,所述第一浓度等于或高于第二多种靶标捕获试剂的饱和点;其中来自样品的核酸被第一多种靶标捕获试剂和第二多种靶标捕获试剂捕获;

(c)对用各种靶标捕获试剂混合物捕获的核酸的一部分进行测序,以在分配的序列读取数量内产生多个序列读取集合;

(d)确定各种靶标捕获试剂混合物的第一多种靶标捕获试剂和第二多种靶标捕获试剂的序列读取的读取深度;或者

(e)识别至少一种为所述第二基因组区域集合提供读取深度的靶标捕获试剂混合物;

其中所述第二基因组区域集合的读取深度提供了检测至少0.0001%的最小等位基因频率(MAF)的遗传变异的灵敏度。

可选地或与本文所述的方法相结合,在一些实施方案中,所述方法进一步包括(a)-(c)中的一项或多项(例如2项或全部):

(a)非独特地标记从受试者的身体样品获得的胞外多核苷酸群,以产生非独特地标记的胞外多核苷酸群;

(b)对非独特地标记的胞外多核苷酸群体进行测序,以在非独特地标记的胞外多核苷酸的可定位位置产生碱基调用;和

(c)对于在可定位位置的碱基调用,测量包含所述碱基调用的独特分子的频率,所述频率与具有某种碱基调用的独特分子的总数相关。

其中所述在可定位位置处包含所述碱基调用的独特分子的频率高于多个参考序列的设定的度量偏差时,则指示所述可定位位置处的罕见突变。

其他实施方案描述于美国专利:US9,598,731、US9,834,822、US9,840,743、US9,902,992、US9,920,366、US9,850,523和US10,041,127,其各自的内容在此通过引用整体并入本文。

在本文所述方法的实施方案中,所述方法中的步骤或参数用于修订所述方法的下游步骤或参数。

在一个实施方案中,所述样品的特性用于修订以下一种或多种或全部的下游步骤或参数:从所述样品中分离核酸;文库构建;设计或选择靶标捕获试剂(例如饵剂);杂交条件;测序;读取定位;选择突变调用方法;突变调用;或突变注释。

在一个实施方案中,分离的肿瘤或对照、核酸的特征用于修订以下一种或多种或全部的下游步骤或参数:从所述样品中分离核酸;文库构建;设计或选择靶标捕获试剂(例如饵剂);杂交条件;测序;读取定位;选择突变调用方法;突变调用;或突变注释。

在一个实施方案中,将文库的特征用于修订以下一个或多个或全部的下游步骤或参数:从所述样品中重新分离核酸;后续文库构建;设计或选择靶标捕获试剂(例如饵剂);杂交条件;测序;读取定位;选择突变调用方法;突变调用或突变注释。

在一个实施方案中,将文库捕获物的特征用于修订以下一个或多个或全部中的下游步骤或参数:从所述样品中重新分离核酸;后续文库构建;设计或选择靶标捕获试剂(例如饵剂);杂交条件;测序;读取定位;选择突变调用方法;突变调用或突变注释。

在一个实施方案中,将所述测序方法的特征用于修订以下一个或多个或全部的下游步骤或参数:从所述样品中重新分离核酸;后续文库构建;设计或选择靶标捕获试剂(例如饵剂);杂交条件;测序;读取定位;选择突变调用方法;突变调用或突变注释。

在一个实施方案中,将经定位的读取集合的特征用于修订以下一个或多个或全部的下游步骤或参数:从所述样品中重新分离核酸;后续文库构建;设计或选择靶标捕获试剂(例如饵剂);后续对杂交条件的确定,后续的测序;后续的读取定位;选择突变调用方法;突变调用或突变注释。

在一个实施方案中,所述方法包括获取样品特征的值,例如获取下述的值:所述样品肿瘤细胞的比例;所述样品的细胞性质;或来自样品的图像。在实施方案中,所述方法包括,为响应样品所述获取的样品特征值,选择参数用于:从样品中分离核酸,文库构建;和设计或选择靶标捕获试剂(例如饵剂);靶标捕获试剂(例如饵剂)/为核酸分子杂交建立文库;测序;或突变调用。

在一个实施方案中,所述方法进一步包括获取存在于所述样品中的肿瘤组织的量的值,将所述获取的值与参考标准进行比较,并且如果达到所述参考标准,则接受所述样品,例如,如果所述样品含有多于30%、40%或50%的肿瘤细胞,则接受所述样品。在一个实施方案中,方法进一步包括,例如,通过宏观剖析肿瘤组织,从所述样品、从达不到参考标准的样品中获取富集了肿瘤细胞的子样品。

在一个实施方案中,所述方法进一步包括获取存在于所述样品中的肿瘤核酸(例如DNA)量的值,将所述获取的值与参考标准相比较,并且如果达到所述参考标准,则接受所述样品。在一个实施方案中,所述方法进一步包括例如通过宏观剖析肿瘤组织从所述样品、从达不到参考标准的样品中,获取富集了肿瘤核酸的子样品。

在一个实施方案中,方法进一步包括为受试者提供肿瘤类型、基因和遗传改变(TGA)的关联性。在一个实施方案中,方法进一步包括提供具有多个元素的数据库,其中各元素均包含TGA。

在一个实施方案中,方法还包括表征受试者的TGA,包括:确定所述TGA是否存在于数据库中,例如,经验证的TGA数据库;将来自数据库的TGA信息与来自所述受试者的所述TGA(注释)相关联;以及任选地,确定在所述数据库中是否存在所述受试者的第二或后续TGA,以及如若如此,则将来自数据库的第二或后续TGA信息与所述患者中存在的所述第二TGA相关联。在一个实施方案中,所述方法进一步包括记录受试者TGA的存在与否,以及任选地关联注释,以形成报告。在一个实施方案中,方法进一步包括将所述报告传送给接收方。

在一个实施方案中,方法进一步包括表征受试者的TGA,包括:确定所述TGA是否存在于数据库中,例如,经验证的TGA数据库;或确定不在所述数据库中的TGA是否具有已知的临床相关基因或改变,以及如若如此,则为所述TGA在所述数据库中提供条目。在一个实施方案中,所述方法进一步包括记录在来自受试者的样品DNA中是否发现突变的存在,以形成报告。

例如,可以在以下编号的实施方案中任一个限定本公开。

1.多种靶标捕获试剂,包括第一靶标捕获试剂(R1)和第二靶标捕获试剂(R2),

其中:

R1包括包含结合对的功能性第一成员的R1和任选地缺少所述结合对的功能性第一成员的R1;并且

R2包括包含结合对的功能性第一成员的R2和缺少所述结合对的功能性第一成员的R2;

其中所述结合对的第一成员能够结合到设置在底物上的所述结合对的第二成员,并且

其中包含所述结合对的功能性第一成员的R1的比例大于包含所述结合对的功能性第一成员的R2的比例。

2.根据实施方案1所述的多种靶标捕获试剂,其中包含所述结合对的功能性第一成员的R1的比例,比包含所述结合对的功能性第一成员的R2的比例大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

3.根据实施方案1或2所述的多种靶标捕获试剂,其中每个R1能够形成第一片段/第一靶标捕获试剂(F1/R1)杂合体,并且每个R2能够形成第二片段/第二靶标捕获试剂(F2/R2)杂合体,并且

其中F1、F2或两者均包含来自表1A-5A中描述的基因的对象区间。

4.根据实施方案3所述的多种靶标捕获试剂,其中:

F1包含高测序深度事件;并且

F2包含低测序深度事件,例如,其水平与确定一种或多种生物标志物例如肿瘤突变负荷(TMB)或微卫星不稳定性(MSI)有关。

5.根据前述实施方案中任一项所述的多种靶标捕获试剂,其还包含第三靶标捕获试剂(R3),

其中R3包括包含所述结合对的功能性第一成员的R3和缺少所述结合对的功能性第一成员的R3;

其中所述结合对的第一成员能够结合到设置在底物上的所述结合对的第二成员,并且

其中包含所述结合对的功能性第一成员的R2的比例大于包含所述结合对的功能性第一成员的R3的比例。

6.根据前述实施方案中任一项所述的多种靶标捕获试剂,其中每个R3能够形成第三片段/第一靶标捕获试剂(F3/R3)杂合体,并且

其中F3包含来自表1A-5A中描述的基因的对象区间。

7.一种分析样品的方法,包括:

使多个第一片段/第一靶标捕获试剂(Fl/R1)杂合体与底物接触以形成Fl/R1杂合体/底物复合物;以及

使多个第二片段/第二靶标捕获试剂(F2/R2)杂合体与底物接触形成F2/R2杂合体/底物复合物,

其中与底物结合的F1/R1杂合体的比例大于与底物结合的F2/R2杂合体的比例,

从而分析样品。

8.根据实施方案7所述的方法,其中:

F1包含高测序深度事件;并且

F2包含低测序深度事件,例如,其水平与确定一种或多种生物标志物例如肿瘤突变负荷(TMB)或微卫星不稳定性(MSI)有关。

9.根据实施方案7或8所述的方法,其中所述R1的一部分和所述R2的一部分包含结合对的功能性第一成员,并且其中所述结合对的所述第一成员能够结合到设置在底物上的所述结合对的第二成员。

10.根据实施方案7-9中的任一项所述的方法,其中所述R1的一部分、所述R2的一部分或两者缺少结合对的功能性第一成员,例如,改变的或封闭的第一成员,其不能结合到设置在底物上的结合对的第二成员或针对它具有降低的结合亲和力。

11.根据实施方案7-10中任一项所述的方法,其中:

R1包括包含结合对的功能性第一成员的R1和缺少所述结合对的功能性第一成员的R1;并且

R2包括包含结合对的功能性第一成员的R2和缺少所述结合对的功能性第一成员的R2。

12.根据实施方案7-11中任一项所述的方法,其中包含所述结合对的功能性第一成员的R1的比例大于包含所述结合对的功能性第一成员的R2的比例。

13.根据实施方案11所述的方法,其中包含所述结合对的功能性第一成员的R1的比例,比包含所述结合对的功能性第一成员的R2的比例大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

14.根据实施方案7-13中任一项所述的方法,其中包含所述结合对的功能性第一成员的R1的比例和包含结合对的功能性第一成员的R2的比例使得在形成F1/R1杂合体/底物复合物和F2/R2杂合体/底物复合物时,F1/R1杂合体/底物复合物中F1的数量和F2/R2杂合体/底物复合物中F2的数量具有以下关系中的一种或两种:

(i)F1的数量大于或基本等于F2的数量;和/或

(ii)在第一对象区间中包含改变的F1的数量大于或基本等于在第二对象区间中包含改变的F2的数量。

15.根据实施方案14所述的方法,其中F1的数量,比F2的数量大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

16.根据实施方案14或15所述的方法,其中在第一对象区间中包含改变的F1的数量,比在第二对象区间中包含改变的F2的数量大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30,40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

17.根据实施方案14-16中任一项所述的方法,其中所述第一对象区间、所述第二对象区间或两者均来自表1A-5A中描述的基因。

18.根据实施方案14-17中任一项所述的方法,其中在所述样品中所述第一对象区间中的改变以等于或大于约0.1%(例如,等于或大于约0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%或0.9%,例如约0.1%至0.9%,0.2%至0.8%,0.3%到至.7%,或0.4%到至0.6%)的突变等位基因频率存在。

19.根据实施方案14-18中任一项所述的方法,其中在所述样品中所述第二对象区间中的改变以等于或大于约1%(例如,等于或大于约2%、3%、4%、5%、6%、7%、8%或9%,例如约1%至9%,2%至8%,3%至7%,或4%至6%)的突变等位基因频率存在。

20.根据实施方案7-19中任一项所述的方法,其中F1、F2或两者包含来自表1A-5A中描述的基因的对象区间。

21.根据实施方案20所述的方法,其中将F1中的对象区间测序至第一深度,并且将F2中的对象区间测序至第二深度,其中所述第一深度比所述第二深度大至少1、2、3、4、5、6、7、8、9或10倍。

22.根据实施方案14-21中任一项所述的方法,其中F1包含来自表1A-5A中描述的基因的对象区间,并且其中所述对象区间包含改变,例如体细胞改变,例如癌症中的功能改变。

23.根据实施方案17所述的方法,其中所述对象区间被测序到至少约5,000X深度。

24.根据实施方案7-23中任一项所述的方法,其中F2包含来自表1A-5A中描述的基因的对象区间,并且其中所述对象区间包含改变,例如体细胞改变,其中所述改变的确定用于评估一种或多种基因组签名,例如连续/复合的生物标志物。

25.根据实施方案24所述的方法,其中所述对象区间被测序为至少约800X但小于约5,000X,例如,用于评估一种或多种基因组签名,例如连续/复合的生物标志物。

26.根据实施方案7-25中任一项所述的方法,其还使多个第三片段/第三靶标捕获试剂(F3/R3)杂合体与底物接触以形成F3/R3杂合体/底物复合物。

27.根据实施方案25或26所述的方法,其中R3包括包含所述结合对的功能性第一成员的R3和缺少所述结合对的功能性第一成员的R3。

28.根据实施方案26-27中任一项所述的方法,其中包含所述结合对的功能性第一成员的R2的比例大于包含所述结合对的功能性第一成员的R3的比例。

29.根据实施方案26-28中任一项所述的方法,其中包含所述结合对的功能性第一成员的R2的比例,比包含所述结合对的功能性第一成员的R3的比例大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

30.根据实施方案26-29中任一项所述的方法,其中包含所述结合对的功能性第一成员的R2的比例和包含结合对的功能性第一成员的R3的比例使得在形成F2/R2杂合体/底物复合物和F3/R3杂合体/底物复合物时,F2/R2杂合体/底物复合物中F2的数量和F3/R3杂合体/底物复合物中F3的数量具有以下关系中的一种或两种:

(i)F2的数量大于F3的数量;和/或

(ii)在第二对象区间中包含改变的F2的数量大于在第三对象区间中包含改变的F3的数量。

31.根据实施方案30所述的方法,其中F2的数量,比F3的数量大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

32.根据实施方案30或31所述的方法,其中在第二对象区间中包含改变的F2的数量,比在第三对象区间中包含改变的F3的数量大至少0.5、1、2、3、4、5、6、7、8、9、10、20、30,40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或1,000倍。

33.根据实施方案30-32中任一项所述的方法,其中所述第二对象区间、所述第三对象区间或两者均来自表1A-5A中描述的基因。

34.根据实施方案26-33中任一项所述的方法,其中F1、F2或F3中的一个、两个或全部包含来自表1A-5A中描述的基因的对象区间。

35.根据实施方案34所述的方法,其中将F2中的对象区间测序至第二深度,并且将F3中的对象区间测序至第三深度,其中所述第二深度比所述第三深度大至少1、2、3、4、5、6、7、8、9或10倍。

36.根据实施方案26-35中任一项所述的方法,其中F3包含来自表1A-5A中描述的基因的对象区间,并且其中所述对象区间包括种系改变,例如种系SNP。

37.根据实施方案36所述的方法,其中所述对象区间被测序到至少约100X深度但小于约800X深度。

38.根据实施方案7-37中任一项所述的方法,还包括提供来自受试者的样品。

39.根据实施方案7-38中任一项所述的方法,其中所述样品包含DNA,例如基因组DNA,例如无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)。

40.根据实施方案7-39中任一项所述的方法,其中所述样品包含RNA,例如mRNA。

41.根据实施方案40所述的方法,其还包括从RNA提供cDNA。

42.根据实施方案7-41中任一项所述的方法,其还包括从所述样品获得,例如分离核酸。

43.根据实施方案7-42中任一项所述的方法,其还包括使所述样品中的核酸片段化以提供F1和F2。

44.根据实施方案7-43中任一项所述的方法,还包括:扩增F1以提供多个F1,以及扩增F2以提供多个F2。

45.根据实施方案7-44中任一项所述的方法,其还包括将衔接子序列连接到F1和F2以提供衔接子化的F1(AF1)和衔接子化的F2(AF2)。

46.根据实施方案7-45中任一项所述的方法,还包括:扩增AF1以提供多个AF1,以及扩增AF2以提供多个AF2。

47.根据实施方案7-46中任一项所述的方法,其还包括使多个F1与R1接触以提供多个F1/R1杂合体,以及使多个F2与R2接触以提供多个F2/R2杂合体。

48.根据实施方案7-47中任一项所述的方法,其还包括使多个AF1与R1接触以提供多个AF1/R1杂合体,以及使多个AF2与R2接触以提供多个AF2/R2杂合体。

49.根据实施方案7-48中任一项所述的方法,其中:

使多个F1/R1杂合体与底物接触以形成F1/R1杂合体/底物复合物,包括使多个AF1/R1杂合体与底物接触以形成AFl/R1杂合体/底物复合物;以及

使多个F2/R2杂合体与底物接触以形成F2/R2杂合体/底物复合物,包括使多个AF2/R2杂合体与底物接触以形成AF2/R2杂合体/底物复合物。

50.根据实施方案47-49中任一项所述的方法,其中所述接触在溶液中发生。

51.根据实施方案47-49中任一项所述的方法,其中所述接触在固体表面上发生。

52.根据实施方案8-51中任一项所述的方法,其中所述结合对的第一成员包含生物素部分,并且其中所述结合对的第二成员包含链霉亲和素或亲和素(或修饰形式,例如中性亲和素(NeutrAvidin)或捕获亲和素(CaptAvidin))部分。

53.根据实施方案8-51中任一项所述的方法,其中所述结合对的第一成员包含地高辛配基部分,并且其中所述结合对的第二成员包含抗地高辛配基抗体部分。

54.根据实施方案8-51中任一项所述的方法,其中所述结合对的第一成员包含FITC部分,并且其中所述结合对的第二成员包括抗FITC抗体部分。

55.根据实施方案8-51中任一项所述的方法,其中R1中所述结合对的第一成员与R1中的经由接头捕获F1(例如,与其杂交)的部分(例如,核苷酸序列)结合,并且其中R2中所述结合对的第一个成员与经由接头捕获F2(例如,与其杂交)的部分(例如,核苷酸序列)结合,

任选地,其中所述接头是可剪切的接头。

56.根据实施方案7-55中任一项所述的方法,其还包括从所述多个F1/R1杂合体/底物复合物测序F1,以及从所述多个F2/R2杂合体/底物复合物测序F2。

57.根据实施方案56所述的方法,其中F1被测序到比F2更大的深度,例如大至少1、2、3、4、5、6、7、8、9或10倍。

58.一种分析样品的方法,包括:

a)提供多个第一片段/第一靶标捕获试剂(F1/R1)杂合体和多个第二片段/第二靶标捕获试剂(F2/R2)杂合体,

其中包含所述结合对的功能性第一成员的R1的比例大于包含所述结合对的功能性第一成员的R2的比例,并且

其中所述结合对的第一成员能够结合到设置在底物上的所述结合对的第二成员;

b)使多个F1/R1杂合体与底物接触以形成F1/R1杂合体/底物复合物,并使多个F2/R2杂合体与底物接触以形成F2/R2杂合体/底物复合物,

其中与所述底物结合的F1/R1杂合体的比例大于与所述底物结合的F2/R2杂合体的比例;

c)从多个F1/R1杂合体/底物复合物中测序F1,并从多个F2/R2杂合体/底物复合物中测序F2,

其中F1被测序到比F2更大的深度,

从而分析样品。

59.根据实施方案58所述的方法,其中:

F1包含高测序深度事件;并且

F2包含低测序深度事件,例如其水平与确定一种或多种生物标志物例如肿瘤突变负荷(TMB)或微卫星不稳定性(MSI)有关。

60.一种分析样品的方法,包括:

1)提供来自受试者的样品,例如,包含基因组DNA例如无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)的样品;

2)从样品中获得,例如分离核酸;

3)使所述核酸片段化以提供多个片段(F);

4)将衔接子序列连接至多个片段(F)以提供多个衔接子化的片段(AF);

5)扩增第一AF(AF1)以提供多个AF1,并且扩增第二AF(AF2)以提供多个AF2;

6)使多个AF1与第一靶标捕获剂(R1)接触,每个R1包含与AF1杂交的核苷酸序列,以提供多个AF1/R1杂合体,并使多个AF2与第二靶标捕获剂(R2)接触,每个R2包含与AF2杂交的核苷酸序列,以提供多个AF2/R2杂合体,

其中R1的一部分和R2的一部分包含结合对的功能性第一成员,并且其中所述结合对的第一成员能够与设置在底物上的所述结合对的第二成员结合,并且

其中R1的一部分、R2的一部分或两者缺少所述结合对的功能性第一成员;

7)使多个AF1/R1杂合体与底物接触以形成AF1/R1杂合体/底物复合物,并使多个AF2/R2杂合体与底物接触以形成AF2/R2杂合体/底物复合物,

其中与所述底物结合的AF1/R1杂合体的比例大于与所述底物结合的AF2/R2杂合体的比例;

8)从多个AF1/R1杂合体/底物复合物中测序AF1,并从多个AF2/R2杂合体/底物复合物中测序AF2,

任选地,其中AF1的测序深度大于AF2的测序深度,例如大至少1、2、3、4、5、6、7、8、9或10倍;

从而分析样品。

61.根据实施方案60所述的方法,其中:

F1包含高测序深度事件;并且

F2包含低测序深度事件,例如其水平与确定一种或多种生物标志物例如肿瘤突变负荷(TMB)或微卫星不稳定性(MSI)有关。

62.根据实施方案7-61中任一项所述的方法,其还包括从所述样品获取包含多个核酸分子的文库。

63.根据实施方案62所述的方法,其还包括使所述文库与靶标捕获试剂接触以提供选择的核酸分子,其中所述靶标捕获试剂与所述核酸分子杂交,从而提供文库捕获物。

64.根据实施方案63所述的方法,其还包括从所述文库或文库捕获物中的核酸分子获取包含改变(例如,体细胞改变)的对象区间的读取,从而获得所述对象区间的读取,例如,采用下一代测序方法。

65.根据实施方案64所述的方法,其包括获取多个基因中对象区间的读取。

66.根据实施方案65所述的方法,其中所述多个基因包括突变形式的基因,例如所述突变基因与对细胞分裂、生长或存活的影响有关或与癌症有关。

67.根据实施方案65或66所述的方法,其中所述多个基因包含至少约50个或更多,约100个或更多,约150个或更多,约200个或更多,约250个或更多,约300个或更多,约350个或更多、约400个或更多、约450个或更多、约500个或更多的基因,或约1,000个或更多的基因,或全外显子测序(WES)的所有基因。

68.根据实施方案64-67中任一项所述的方法,其中所述多个基因包含表1A-5A中描述的至少约50个或更多,约100个或更多,约150个或更多,约200个或更多,约250个或更多,约300个或更多,或所有基因。

69.根据实施方案64-68中任一项所述的方法,其中获取对象区间的读取包括对表1A-5A中描述的至少约50个或更多,约100个或更多,约150个或更多,约200个或更多,约250个或更多,约300个或更多,或所有基因的对象区间进行测序。

70.根据实施方案64-69中任一项所述的方法,其中对象区间被测序至大于约100X,大于约250X,大于约500X,大于约800X,大于约1,000X,大于约2,000X,大于约3,000X,大于约4,000X,或大于约5,000X的平均深度。

71.实施方案64-70中任一项所述的方法,其中对象区间被测序为大于约100X,大于约250X,大于约500X,大于约800X,大于约1000X,大于约2,000X,大于平均深度大于约3,000X,大于约4,000X或大于约5,000X的平均深度,大于约95%,大于约97%或大于约99%的基因(例如,外显子)被测序。

72.根据实施方案64-71中的任一项所述的方法,还包括通过比对方法来比对所述读取。

73.根据实施方案72所述的方法,其还包括从所述读取中分配核苷酸位置的核苷酸值。

74.根据实施方案7-73中任一项所述的方法,其还包含评估所述样品中的一个或多个基因组签名,例如连续/复合的生物标志物。

75.根据实施方案74所述的方法,其中所述样品是血液样品。

76.根据实施方案7-75中任一项所述的方法,其还包括将所述样品中的改变表征为体细胞或种系改变。

77.根据实施方案7-76中任一项所述的方法,其还包含确定所述样品中的改变的接合性。

78.根据实施方案7-77中任一项所述的方法,其还包括响应于所述样品的分析而对所述样品或从其获得样品的受试者进行分类。

79.根据实施方案7-78中任一项所述的方法,其还包括提供报告,例如,以电子、基于网络或纸质的报告形式,给从其获取样品的受试者或其他人或实体、护理人员、医师、肿瘤学家、医院、诊所、第三方付款人、保险公司或政府办公室。

实施例

通过以下实施例进一步说明本发明,这些实施例不应解释为限制性的。在本申请中引用的所有参考文献、附图、序列表、专利和公开的专利申请的内容通过引用并入本文。

实施例1:检测无细胞DNA中的改变

介绍

本实施例中所述的无细胞DNA(cfDNA)分析是基于下一代测序的分析,可检测例如约60多个或更多基因中的取代、插入和缺失改变(indels),使用从来自癌症患者抗凝外周全血的血浆中分离的游离循环DNA(cfDNA),选择拷贝数改变(CNA),并选择基因重排。由于无细胞DNA的循环肿瘤DNA(ctDNA)级分含量低,靶标捕获含量受到限制,从而实现高灵敏度和特异性的靶标区域狭窄的高测序深度。通过使用更大的基因组小组(panel)(>300个基因),该实施例中所述的cfDNA分析还可用于基因组签名,从而在整个靶标捕获区域实现广泛的中等覆盖。在大多数情况下,将狭窄的靶标捕获区域的总靶标大小限制为0.1-0.3Mb,从而以合理的测序成本获得高灵敏度和特异性,而基因组签名则需要的0.8-1.0Mb的最小总靶标捕获区域大小。当前,将基因组签名分析添加到标准cfDNA分析中,利用并行的工作流程,每个工作流程都从两个采血管开始,并且需要该单次分析产生两倍的测序数据。

本实施例中描述的研究设计目的是优化当前的cfDNA分析工作流程,以便将以高灵敏度和特异性调用的相关基因组改变与基因组签名的检测相结合,并且每位测试中的患者总共只需要两管血液。概述的实验是设计用于评估组合测定的几种选择,这些组合可以在<200M个读取对的测序数据目标内实现较窄的高测序深度和较宽的中等测序深度。评估了联合测定的工作流程优化,以评估利用每种选择来满足cfDNA测定要求的可行性。

本实施例中描述的研究评估了实现组合测定设计要求的几种选择。第一种选择是评估来自同一文库构建(LC)材料的双(平行)杂交捕获(HC)方法,其中包括开发工作以增加可创建的LC后PCR输出材料的数量,以及其他考虑因素(与该第一选择有关的活动,下文更全面地阐述,统称为“路径1”),达到足以支持双重杂交捕获反应的最小量,而不会通过过度扩增而显著降低文库的复杂性。第二种选择是评估在很宽的高测序深度利用基因组签名靶标捕获试剂来调用基因组改变和基因组签名,评估优化序列加载密度以保留基因组改变和基因组签名调用的性能(与这样的活动有关第二种选择,下文更全面地阐述,统称为“路径2”)。

第三种选择是评估复合的靶标捕获试剂策略,该策略使用5′生物素化探针和未修饰的探针(有时称为抗靶标捕获试剂或封闭性靶标捕获试剂)的组合,在特定的每个靶标的基础上调节靶标测序深度。例如,生物素化的探针(例如5′生物素化的探针)是靶标捕获试剂,其包含结合对的功能性第一成员(例如,如本文所述)。作为另一个实例,未修饰的探针(例如,抗靶标捕获试剂、封闭探针、未被生物素化的探针)是缺少所述结合对的功能性第一成员的靶标捕获试剂(例如,如本文所述)。该策略将允许指定靶标的窄的高测序深度和针对所述基因组签名的整个其余靶标区域的宽的中等测序深度。设计该实验以评估单个杂交反应的能力,其中可以通过修饰的探针与未修饰探针的比例来确定从基因组文库中提取并随后测序的靶标量。这允许使用路径2中概述的单个HC反应,但也具有在路径1中实现的低、高和中等靶标测序深度的能力(与该第三种选择有关的活动,下文更全面地阐述,统称为“路径2B”)。

结果:

路径1

从单个库构建中进行双重杂交捕获

文库构建方案的优化导致了更高的效率和LC输出的一致性,这在过程鉴定中得到了证明,其中代表20-100ng LC输入范围的192个DNA样品在三个单独的LC板上运行,适用于窄的高测序深度(NHSD,0.3Mb)的靶标捕获试剂和适用于宽的中等测序深度(WMSD,2Mb)的靶标捕获试剂,以相同的代表性实现捕获。先前的开发工作已经验证了,自动液体处理工作站上安装的自动cfDNA分析文库构建方案,通过评估流程中示例性样品的QC标准达到或超过了预期的临床性能。低输入(>20-50ng)和高输入(>50-100ng)时,100%样品的文库构建产率均实现了>2μgLC产率,用NHSD靶标捕获试剂捕获的100%样品具有>5000X的中位数独特测序深度,以及使用WMSD靶标捕获试剂捕获的100%样品具有>800X的中位数独特测序深度。协议优化达到了为并行杂交捕获反应提供足够的LC输出所需的结果。部署后显示,所有输入浓度的LC产率分布均相等。相比之下,优化之前的方案表明,在LC输入进行LC产率缩放时,对于在cfDNA分析中使用的多种LC输入,要进行两个杂交捕获反应将是一个挑战。

酶促裂解的正常人DNA进行了cfDNA分析文库的构建,六个重复分别分为两个HC反应。一个HC反应是使用NHSD靶标捕获试剂进行的,另一个是使用WMSD靶标捕获试剂进行的。将样品加载到HiSeq4000流通池上,每个样品具有靶标100M读取对。如表6所示,具有超过150M读取对的每个样品均达到了NHSD和WMSD靶标捕获的靶标原始、独特和冗余的测序深度规格,证明来自单个LC路径的双重HC达到了覆盖度目标。

表6:单个文库的双HC(n=6个重复)的覆盖度结果。NHSD=窄的高测序深度,WMSD=宽的中等测序深度

1LC>2HC的变体水平性能评估

为了进一步从单个LC的变体水平一致性评估双HC,对43个标本样品进行了针对短核苷酸变体、插入/缺失、基因重排的NHSD靶标捕获,以及针对基因组签名的WMSD靶标捕获。

1.ALK内含子19重排(N=5)

2.EGFR外显子19缺失(N=5)

3.EGFR L858R(N=5)

4.RET重排(N=5)

5.基因组签名0.88-27.2mut/mb(N=23)

来自单个库的双HC的变体水平的实验结果表明,路径1实现了可行性。对于靶标捕获试剂组和所达到的变体水平一致性,均实现了靶标覆盖度概况(profile)。

路径2

从单个文库构建中进行单个杂交捕获

酶促裂解的正常人DNA进行了cfDNA分析文库的构建,六次重复进行了采用WMSD靶标捕获试剂组的单HC反应。该实验用于确定是否可以通过对来自具有单个靶标捕获物的平行测定的200M读取预算进行测序来实现宽的高测序深度(WHSD)。将样品加载到HiSeq 4000流通池上,每个样品具有靶标<200M读取对。如表7所示,每个样品仅针对WMSD靶标捕获而非NHSD靶标捕获,达到了靶标原始、独特和冗余的测序深度规格,这表明来自单个LC路径的双重HC未能达到目标,每个样品预算有200M读取对。NHSD靶标区域的冗余覆盖度不够高,无法满足组合测定性能要求的所需数据。据估计,一个人需要~700M个读取才能实现针对cfDNA分析的足够的冗余测序深度(~700M=~30,000x/~7500x*~170M),其远高于每个样品测序不超过200M读取对的要求。没有针对该路径收集更多数据。

表7:单个文库中的单个HC(n=6个重复)的测序深度结果。NHSD=窄的高测序深度,WMSD=宽的中等测序深度

路径2B

用于覆盖度调节的复合靶标捕获试剂策略

实验1:将滴定的用于APC和ATM的封闭靶标捕获试剂添加到NHSD靶标捕获试剂中

作为对未经修饰的靶标捕获剂影响特定靶标捕获性能的能力进行概念评估的第一个证据,在滴定1X-2X的生物素化靶标中,将两种基因(APC和ATM)的过量未经修饰的靶标捕获剂添加到NHSD靶标捕获试剂中。表8和图1显示了该实验的结果,表明通过添加未修饰的阻滞剂或抗靶标捕获剂可以降低特定靶标的覆盖度,但是将过量的阻滞剂放入过量的靶标捕获剂中的效果不如其明显,可能是如果靶标捕获剂的总量保持恒定,则阻滞剂与靶标捕获剂的比例被调整了。

表8:添加未修饰的APC和ATM靶标捕获试剂降低了靶标覆盖度

实验2:将滴定的用于APC和ATM的封闭性靶标捕获试剂添加到NHSD靶标捕获试剂中

在实验2中,在最终池中的总靶标捕获试剂量为0.032pM,保持恒定,并滴定生物素化与非生物素化靶标捕获剂的比例,以阐明单基因靶APC的抗靶标捕获剂策略。基因APC的靶标捕获试剂(164种靶标捕获试剂)是添加到NHSD靶标捕获试剂的完整基因子池,从而可以创建靶标捕获试剂集合骨架,其具有NHSD靶标捕获试剂而没有针对APC基因的靶标捕获试剂。评估了100%生物素化的APC至99%非生物素化的至1%生物素化的APC的范围,以显示观察的与预期的测序深度的宽范围,如图2和表9所示。将具有100%生物素化APC的NHSD靶标捕获试剂与100%APC进行比较,表明将APC加回到靶标捕获试剂中不会对APC测序深度产生不利影响。通过保持靶标捕获试剂的量恒定,存在的可预测的测序深度抑制响应表明了抗靶标捕获试剂的方法是成功的,而且大规模实验可能是下一个实验。

表9:所有靶标的APC/中位数测序深度的观察的与预期的中位数覆盖度

实验3:添加针对除NHSD靶标以外的靶标的封闭的靶标捕获剂

实验3的目标是继续采用复合的靶标捕获剂策略,以在NHSD区域获得较高的深度,在非NHSD(也在本文中称为WMSD靶标区域)上获得较低的目标深度,从而通过单个杂交捕获反应获得窄的高测序深度(NHSD)和宽的中等测序深度(WMSD)。

通过利用靶标捕获试剂的三个子池,将靶标捕获试剂集合配制成完整的原型。将NHSD靶标捕获试剂(3780个靶标捕获试剂,0.3Mb)与未修饰的靶标捕获试剂按照NHSD/非NHSD靶标比率(14%NHSD:86%非NHSD)混合(总靶标减去NHSD靶标,没有生物素,22563个靶标捕获试剂,1.7Mb)。然后将该混合物滴定到完整的靶标捕获集合(2.0Mb,26343)中,以改变有和没有生物素的非NHSD区的比例。(NHSD-生物素/非生物素):非-NHSD生物素的滴定系列以100%、50%、30%、20%、10%、5%、1%、0%进行,首先确定达到每个组件的靶标测序深度概况所需的靶标捕获试剂的比例。

表10和11中显示的滴定结果表明,还原非NHSD并维持所需NHSD的能力。选择10%的配方(90%的非生物素比10%的生物素)作为使用示例性样品的配方。滴定的测序深度结果示于表10和表11中。图3以直方图的形式显示了实验3的10%制剂的结果。如图3所示,NHSD(窄的高测序深度)靶标与非NHSD靶标分离在图的右侧成一个单独的簇,非NHSD靶标在图的左侧形成一个不同的组。与非NHSD靶标(在本文中也称为WMSD靶标)相比,NHSD靶标具有更高的测序深度。还使用临床样品进行了该实验,并获得了相似的结果。

表10:抗靶标捕获试剂滴定中窄的高测序深度(NHSD)区域的结果

表11:抗靶标捕获试剂滴定中宽的中等测序深度(WMSD)靶标区域的结果

总结

在该实施例中,描述并总结了在单一测定中组合以高灵敏度和特异性调用基因组改变和调用基因组签名的三种不同途径的结果。该分析表明:(a)在单个文库构建后进行的平行杂交捕获可达到测序深度规格并保持针对特定基因组签名、单核苷酸变体(SNV)、插入缺失和重排的变体水平一致性,(b)200M读取对不是足够的测序以实现高灵敏度和特异性所需的宽的高测序深度,并且(c)利用抗靶标捕获试剂方法的初步数据表明,抗靶标捕获试剂策略可用于实现所需的对于确定的靶标的高窄测序深度,以及对特定的基因组签名区域的宽的中等测序深度,以允许单个杂交捕获反应从而实现组合测定的目标,其在可行的测序深度内达到性能指标。

与本文描述的方法和系统有关的其他实例,描述于例如国际专利申请公开WO2012/092426和WO2016/090273,上述出版物和实施例的内容通过引用整体并入本文。

通过引用并入

本文提及的所有出版物、专利和专利申请均通过引用整体并入本文,就如同每个单独的出版物、专利或专利申请均被明确地并单独地指出通过引用并入。在发生冲突的情况下,以本申请(包括本文的任何定义)为准。

也通过引用整体并入的是参考与公开数据库中条目相关的登录号的任何多核苷酸和多肽序列,如由基因组研究所(TIGR)在网站tigr.org维护的和/或由国家生物技术信息中心(NCBI)在网站ncbi.nlm.nih.gov维护的那些。

等效物

仅通过常规实验,本领域技术人员将认识到或能够确定本文所述的本发明的特定实施方案的许多等同方案。这些等同方案旨在由所附权利要求书涵盖。

序列表

<110> 奥托·杰弗里·艾伦

克拉克·特拉维斯

利普森·多伦

利伯·丹尼尔

法布里齐奥·大卫

<120> 评估基因组改变的组合物和方法

<130> PD01285A

<140>

<141>

<150> 62/683,469

<151> 2018-06-11

<160> 1

<170> PatentIn3.5版

<210> 1

<211> 150

<212> DNA

<213> 人工序列

<220>

<223> 人工序列的描述: 合成的多核苷酸

<220>

<221> 修饰的碱基

<222> (16)..(135)

<223> a, c, t, g, 未知或其他

<400> 1

atcgcaccag cgtgtnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 60

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 120

nnnnnnnnnn nnnnncactg cggctcctca 150

技术分类

06120112525744