用于癌症或肿瘤形成评估的组合物和方法

文献发布时间：2023-06-19 09:49:27

本申请要求于2018年4月12日提交的美国临时专利申请号62/656,820的优先权，出于所有目的，所述申请的公开内容通过引用整体并入本文。在一些方面，本公开涉及2017年4月19日提交的美国临时申请系列号62/487,422和2017年4月19日提交的美国临时申请系列号62/487,423，其内容出于所有目的通过引用整体并入本文。

技术领域

本公开涉及某些组合物、试剂盒、装置、系统和方法，例如，用于评估受试者中的癌症或肿瘤形成的组合物、试剂盒、装置、系统和方法。在特定的方面，本文提供了基于评估受试者中所选的靶多核苷酸序列(例如靶基因组DNA序列)的甲基化状态来评估受试者中的癌症或肿瘤形成的组合物、试剂盒、装置、系统和方法。

背景技术

用于评估受试者中的癌症或肿瘤形成的各种试剂、试剂盒和方法是已知的。然而，需要用于评估受试者中的癌症或肿瘤形成的改进的组合物、试剂盒、装置、系统和方法，例如，具有更好的灵敏性、特异性和/或提供更多信息的测试。本公开解决了这个需求和其他相关需求。

本概述并不旨在用于限制所要求保护的主题的范围。根据详细描述(包括在附图和所附权利要求中公开的那些方面)，所要求保护的主题的其他特征、细节、用途和优点将变得显而易见。

在一个方面，本文提供了分离的多核苷酸组(a panel of isolatedpolynucleotides)，其包含至少两个分离的多核苷酸，由至少两个分离的多核苷酸组成，或基本上由至少两个分离的多核苷酸组成，每个所述分离的多核苷酸具有表1中列出的靶标1至靶标1849中的任一个的多核苷酸序列，或与其互补的序列。本文还提供了包含上述组中的任何一个的试剂盒、装置、系统或制品。

在另一个方面，本文提供了一种试剂盒、装置、系统或制品，其被配置成用于评估表1中列出的靶标1至靶标1849中的至少两个靶标的甲基化状态。在一些实施方案中，本公开所述的试剂盒、装置、系统或制品被配置成用于评估受试者中的癌症或肿瘤形成。

在又一个方面，本文提供了一种用于评估受试者中的癌症或肿瘤形成的方法，所述方法包括：a)提供来自受试者的样品，所述样品包含所述受试者的至少两个靶多核苷酸，所述至少两个靶多核苷酸具有表1所列的靶标1至靶标1849中至少两个靶标的多核苷酸序列或与其互补的序列；b)评估所述至少两个靶多核苷酸的甲基化状态；和c)基于所述至少两个靶多核苷酸的甲基化状态的评估，评估所述受试者中的癌症或肿瘤形成。在一些实施方案中，本公开所述方法用于受试者中的癌症或肿瘤形成的诊断、预后、分层、风险评估或治疗监测。

图1示出了示例性的支持向量机分析。图1的图像取自维基百科：https：//en.wikipedia.org/wiki/Support vector machine)，并且不代表任何DNA甲基化状态分析或癌症评估。

图2示出了如实施例1中所述的结肠组织中的癌症检测。

图3a和3b示出了如实施例2中所述的血浆中的肺癌检测。

图4示出了如实施例3中所述的血浆中的泛癌(pan-cancer)检测。

图5(表1)显示了示例性的靶区域和引物。

图6示出了根据本公开所述的一个方面，用于构建单链多核苷酸文库并使用所述文库进行测序分析的步骤。

图7示出了根据本公开所述的一个方面包含用于测序的靶分子的一种构建体。

在下面的描述中阐述了许多具体细节，以便提供对本公开的透彻理解。提供这些细节是出于示例的目的，并且可以根据权利要求无需这些特定细节中的一些或全部来实践所要求保护的主题。应当理解，在不脱离所要求保护的主题的范围的情况下，可以使用其他实施方案并且可以进行结构上的改变。应当理解，在一个或多个个别实施方案中描述的各种特征和功能的适用性不限于描述它们的特定实施方案。相反，它们可以单独地或以某种组合的形式应用于本公开所述的一个或多个其他实施方案，不管这样的实施方案是否已被描述，以及不管这些特征是否被表示为所描述的实施方案的一部分。为了清楚起见，没有详细描述与所要求保护的主题有关的技术领域中已知的技术材料，从而不会不必要地使所要求保护的主题模糊。

本申请中提及的所有出版物，包括专利文件、科学文章和数据库，出于所有目的通过引用整体并入本文，其程度与每个单独出版物通过引用各自并入本文的程度相同。对出版物或文档的引用并不意味着承认它们中的任何一个都是相关的现有技术，也不构成对这些出版物或文档的内容或日期的承认。

所有标题都是为了方便读者，除非另有说明，否则不应将其用于限制标题后文字的含义。

除非另有说明，否则所述提供的实施方案的实施将采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和测序技术的常规技术和描述，这些都在从事本领域的技术人员的能力范围之内。这样的常规技术包括多肽和蛋白质的合成和修饰、多核苷酸的合成和修饰、聚合物阵列合成、多核苷酸的杂交和连接、杂交的检测以及核苷酸测序。合适的技术的具体说明可参考本文的实施例。但是，当然也可以使用其他等效的常规程序。此类常规技术和说明可在标准的实验室手册中找到，例如Green等人编著,Genome Analysis:A Laboratory Manual Series(Vols.I-IV)(1999)；Weiner,Gabriel,Stephens,Eds.,Genetic Variation:A Laboratory Manual(2007)；Dieffenbach,Dveksler,Eds.,PCR Primer:A Laboratory Manual(2003)；Bowtell and Sambrook,DNAMicroarrays:A Molecular Cloning Manual(2003)；Mount,Bioinformatics:Sequenceand Genome Analysis(2004)；Sambrook and Russell,Condensed Protocols fromMolecular Cloning:A Laboratory Manual(2006)；and Sambrook and Russell,Molecular Cloning:A Laboratory Manual(2002)(所有均来自Cold Spring HarborLaboratory Press)；Ausubel等人编著,Current Protocols in Molecular Biology(1987)；T.Brown ed.,Essential Molecular Biology(1991),IRL Press；Goeddel ed.,Gene Expression Technology(1991),Academic Press；A.Bothwell等人编著,Methodsfor Cloning and Analysis of Eukaryotic Genes(1990),Bartlett Publ.；M.Kriegler,Gene Transfer and Expression(1990),Stockton Press；R.Wu等人编著,RecombinantDNA Methodology(1989),Academic Press；M.McPherson等人,PCR:A Practical Approach(1991),IRL Press at Oxford University Press；Stryer,Biochemistry(4th Ed.)(1995),W.H.Freeman,New York N.Y.；Gait,Oligonucleotide Synthesis:A PracticalApproach(2002),IRL Press,London；Nelson and Cox,Lehninger,Principles ofBiochemistry(2000)3rd Ed.,W.H.Freeman Pub.,New York,N.Y.；Berg等人,Biochemistry(2002)5th Ed.,W.H.Freeman Pub.,New York,N.Y.，所有这些文献的全部内容出于所有目的通过引用并入本文。

A.定义

除非另有定义，否则本文中使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的含义相同的含义。如果本节中提出的定义与通过引用并入本文的专利、申请、公开的申请和其他出版物中提出的定义相反或不一致，则相对于通过引用并入本文的定义，以本节中提出的定义为准。

如本文所用，“一”或“一个(种)”是指“至少一个(种)”或“一个(种)或多个(种)”。除非上下文另外明确指出，否则本文所用的单数形式“一”、“一个(种)”和“所述”包括复数引用。

在整个这个公开中，所要求保护的主题的各个方面以范围的形式呈现。应当理解，范围形式的描述是仅出于方便和简洁的目的，并且不应将其解释为对所要求保护的主题的范围的呆板限制。因此，应当认为范围的描述已经具体公开了所有可能的子范围以及该范围内的各个数值。例如，在提供值的范围的情况下，应当理解，在该范围的上限和下限之间的以及所述范围内的任何其他所述值或中间值之间的每个中间值都包括在所要求保护的主题内。这些较小范围的上限和下限可以独立地包含在较小范围中，并且还包括在所要求保护的主题内，但要遵守所述范围内的任何明确排除的限制。在所述的范围包括一个或两个极限值的情况下，所要求保护的主题中还包括排除了那些所包括的极限值中的一个或两个的范围。无论范围的广度如何，这都适用。

对于本文中的数值或参数，“约”包括(并描述)针对该值或参数本身的变化。例如，提及“约X”的描述包括对“X”的描述。另外，在任何数字系列之前使用“约”包括“约”该系列中的每个所述数字。例如，提及“约X、Y或Z”的描述旨在描述“约X、约Y或约Z”。

除非上下文中另有明确说明，否则本文中使用的术语“平均值”是指平均值或中位数，或用于近似所述平均值或所述中位数的任何值。

如本文所用，“受试者”是指可以对之施用或施加所提供的组合物、方法、试剂盒、装置和系统的生物体或所述生物体的一部分或组分。例如，所述受试者可以是哺乳动物或所述哺乳动物的细胞、组织、器官或一部分。如本文所用，“哺乳动物”是指任何种类的哺乳动物，优选人(包括人、人受试者或人患者)。受试者和哺乳动物包括，但不限于，农场动物、运动动物、宠物、灵长类动物、马、狗、猫和啮齿类动物如小鼠和大鼠。

如本文所用，术语“样品”是指可能包含需要进行分析的靶分子的任何物质，包括生物样品。如本文所用，“生物样品”是指从活的或病毒性(或朊病毒的)来源或其他大分子和生物分子来源获得的任何样品，并且包括可以从之获得核酸、蛋白质和/或其他大分子的受试者的任何细胞类型或组织。生物样品可以是直接从生物来源获得的样品或者是被处理的样品。例如，被扩增的分离的核酸构成生物样品。生物样品包括，但不限于，体液(例如血液、血浆、血清、脑脊髓液、滑液、尿液、汗液、精液、粪便、痰、眼泪、粘液、羊水等)、渗出液、骨髓样品、腹水、骨盆冲洗液、胸膜液、脊髓液、淋巴液、眼液、鼻、喉或生殖器拭子的提取物、消化组织的细胞悬浮液、或粪类物质的提取物、以及来自人、动物(例如非人哺乳动物)和植物的组织和器官样品，以及由此衍生出的加工样品。

术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在本文中可互换使用，是指任何长度的核苷酸的聚合物形式，并且包括核糖核苷酸、脱氧核糖核苷酸、及其类似物或混合物。这些术语包括三链、双链和单链脱氧核糖核酸(“DNA”)，以及三链、双链和单链核糖核酸(“RNA”)。它还包括修饰(例如通过烷基化和/或通过加帽修饰)形式、以及未修饰形式的多核苷酸。更特别地，术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括聚脱氧核糖核苷酸(含有2-脱氧-D-核糖)、多核糖核苷酸(含有D-核糖)，包括tRNA、rRNA、hRNA和mRNA(它们可以是剪接的或是未剪接的)，为嘌呤或嘧啶碱基的N-或C-糖苷的任何其他类型的多核苷酸，以及含有非核苷酸主链的其他聚合物，例如聚酰胺(例如，肽核酸(“PNA”))和多吗啉代(可购自Anti-Virals,Inc.,Corvallis,OR，名称为Neugene)聚合物，以及其他合成的序列特异性核酸聚合物，条件是所述聚合物所含核碱基的构型允许碱基配对和碱基堆积，例如在DNA和RNA中看到的那样。因此，这些术语包括，例如，3'-脱氧-2',5'-DNA、寡脱氧核糖核苷酸的N3'至P5'氨基磷酸酯、2'-O-烷基取代的RNA、DNA与RNA之间或PNA和DNA或RNA之间的杂交体，并且还包括已知的修饰类型，例如标签、烷基化、“帽”、一个或多个核苷酸被类似物取代、核苷酸间修饰如，例如，具有不带电荷连接的核苷酸间修饰(例如，甲基膦酸酯、磷酸三酯、氨基磷酸酯、氨基甲酸酯等)、具有带负电荷连接的核苷酸间修饰(例如，硫代磷酸酯、二硫代磷酸酯等)和带正电荷连接的核苷酸间修饰(例如，氨基烷基氨基磷酸酯、氨基烷基磷酸三酯)、含侧链部分的核苷酸间修饰如，例如，蛋白质(包括酶(例如核酸酶)、毒素、抗体、信号肽、聚-L-赖氨酸等)、带有嵌入剂的核苷酸间修饰(例如吖啶、补骨脂素等)、含有螯合物的核苷酸间修饰(例如金属、放射性金属、硼、氧化性金属等的螯合物)、含有烷基化剂的核苷酸间修饰、具有修饰的连接的核苷酸间修饰(例如，α异头核酸等)以及多核苷酸或寡核苷酸的未修饰形式。核酸通常应含有磷酸二酯键，但是在某些情况下可包括具有替代骨架(如磷酰胺、二硫代磷酸酯或甲基磷酰胺连接)的核酸类似物；或具有肽核酸骨架和连接的核酸类似物。其他核酸类似物包括具有双环结构的核酸，包括锁核酸、正骨架、非离子骨架和非核糖骨架。可以进行核糖-磷酸主链的修饰以提升分子的稳定性；例如，PNA：DNA杂合体在某些环境中可以表现出更高的稳定性。术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”可包含任何适当的长度，例如至少5、6、7、8、9、10、20、30、40、50、100、200、300、400、500、1,000、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000或更多个核苷酸。

应当理解，如本文所用，术语“核苷”和“核苷酸”包括不仅包含已知的嘌呤和嘧啶碱基，而且还包含已被修饰的其他杂环碱基的那些部分。这样的修饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶、或其他杂环。修饰的核苷或核苷酸还可包括对糖部分的修饰，例如，其中一个或多个羟基被卤素、脂肪族基团取代，或被官能化为醚、胺等。术语“核苷酸单位”旨在涵盖核苷和核苷酸。

术语“互补的”和“基本上互补的”包括在核苷酸或核酸之间，例如在双链DNA分子的两条链之间，或在寡核苷酸引物和单链核酸上的引物结合位点之间的杂交或碱基配对或双链体的形成。互补的核苷酸通常是A和T(或A和U)或C和G。对于两个单链RNA或DNA分子，当一条链的核苷酸在进行最佳比对和比较并且具有适当的核苷酸插入或缺失时与另一条链的至少约80％(通常至少约90％至约95％，甚至约98％至约100％)成对时，认为它们是基本互补的。在一个方面，两个互补的核苷酸序列能够杂交，并且优选在反向的核苷酸之间有小于25％的错配，更优选小于15％的错配，甚至更优选小于5％的错配，最优选不具有错配。优选地，两个分子应能在高严格条件下杂交。

如本文所用，对于参考序列，反向互补序列是参考序列在反向顺序上的互补序列。例如，对于5'-ATCG-3'，其互补序列为3'-TAGC-5'，而反向互补序列为5'-CGAT-3'。

如本文所用，“杂交”可以是指两个单链多核苷酸非共价结合以形成稳定的双链多核苷酸的过程。在一个方面，所得的双链多核苷酸可以是“杂交体”或“双链”。“杂交条件”通常包括盐浓度约小于1M，通常小于约500mM并且可以小于约200mM。“杂交缓冲液”包括缓冲盐溶液如5％SSPE，或本领域已知的其他此类缓冲液。杂交温度可以低至5℃，但通常高于22℃，更通常高于约30℃，并且通常超过37℃。杂交通常在严格条件下进行，即，在序列将与其靶序列杂交而不会与其他的非互补性序列杂交的条件下进行。严格的条件是序列依赖性的，并且在不同情况下有所不同。例如，更长的片段可能需要比短片段更高的杂交温度以进行特异性杂交。由于其他因素(包括碱基组成和互补链的长度，有机溶剂的存在以及碱基错配的程度)可能会影响杂交的严格度，因此参数组合比单独任何一个参数的绝对度量值更为重要。通常将严格的条件选择为比特定序列在指定离子强度和pH下的T

通常，杂交体的稳定性与离子浓度和温度呈函数关系。通常，杂交反应在严格度较低的条件下进行，然后在各种不同的但严格度更高的条件下洗涤。示例性的严格条件包括在约7.0至约8.3的pH和至少25℃的温度下，盐浓度为至少0.01M至不超过1M的钠离子浓度(或其他盐)。例如，虽然合适的温度取决于杂交区域的长度和/或GC含量，但是5x SSPE(750mM NaCl，50mM磷酸钠，5mM EDTA，pH 7.4)的条件和约30℃的温度适用于等位基因特异性杂交。在一个方面，在确定错配百分比时，“杂交严格度”可以如下：1)高严格度：0.1xSSPE，0.1％SDS，65℃；2)中度严格度：0.2x SSPE，0.1％SDS，50℃(也称为中等严格度)；3)低严格度：1.0x SSPE，0.1％SDS，50℃。应当理解，可以使用替代的缓冲剂、盐和温度来达到等效的严格度。例如，中等严格的杂交可以是指允许核酸分子例如探针结合互补的核酸分子的条件。杂交的核酸分子通常具有至少60％的同一性，包括例如至少70％、75％、80％、85％、90％或95％同一性中的任一种。中等严格条件可以是等同于在42℃下在50％甲酰胺，5x Denhardt溶液，5x SSPE，0.2％SDS中杂交，然后在42℃下在0.2x SSPE，0.2％SDS中洗涤的条件。例如，本文提供的高严格条件为在42℃下在50％甲酰胺，5x Denhardt溶液，5xSSPE，0.2％SDS中杂交，然后在65℃下在0.1x SSPE和0.1％SDS中洗涤。低严格度杂交是指等同于在22℃下在10％甲酰胺，5x Denhardt溶液，6x SSPE，0.2％SDS中杂交，然后在37℃下在1x SSPE，0.2％SDS中洗涤的条件。Denhardt溶液包含1％Ficoll，1％聚乙烯吡咯烷酮和1％牛血清白蛋白(BSA)。20x SSPE(氯化钠，磷酸钠，EDTA)包含3M氯化钠、0.2M磷酸钠和0.025M EDTA。其他合适的中等严格度和高严格度杂交缓冲液和条件是本领域技术人员众所周知的，并在例如，Sambrook等人，Molecular Cloning:A Laboratory Manual,第2版,Cold Spring Harbor Press,Plainview,N.Y.(1989)；和Ausubel等人，Short Protocolsin Molecular Biology,第4版,John Wiley&Sons(1999)中进行了描述。

或者，当RNA或DNA链将在选择性杂交条件下与其互补序列杂交时，存在基本的互补性。通常，当在一段至少14至25个核苷酸上具有至少约65％的互补性(优选至少约75％，更优选至少约90％的互补性)时，将发生选择性杂交。参见M.Kanehisa,Nucleic AcidsRes.12:203(1984)。

本文使用的“引物”可以是天然的或合成的寡核苷酸，其在与多核苷酸模板形成双链体后能够充当核酸合成的起始点并从其3'端沿模板延伸，从而形成延伸的双链体。在延伸过程中添加的核苷酸的序列由模板多核苷酸的序列决定。引物通常通过聚合酶如DNA聚合酶延伸。

“连接”可以指在模板驱动的反应中两个或更多个核酸例如寡核苷酸和/或多核苷酸的末端之间形成共价键或连接键。键或连接键的性质可以广泛变化，并且连接可以酶促地进行。如本文所用，连接通常通过酶进行以在一个寡核苷酸的5'碳末端核苷酸与另一核苷酸的3'碳之间形成磷酸二酯键。

如本文所用，“扩增”通常是指产生所需序列的多个拷贝的过程。“多个拷贝”是指至少两个拷贝。“拷贝”并不一定意味着与模板序列具有完美的序列互补性或同一性。例如，拷贝可以包括核苷酸类似物如脱氧肌苷，有意的序列改变(例如通过包含与模板可杂交但不互补的序列的引物引入的序列改变)，和/或在扩增过程中发生的序列错误。

“序列确定”等包括确定与核酸的核苷酸碱基序列有关的信息。这样的信息可以包括对核酸的部分或全部序列信息的鉴定或确定。可以以不同程度的统计可靠性或置信度来确定序列信息。在一个方面，所述术语包括确定核酸中多个连续核苷酸的身份和顺序。

术语“测序”、“高通量测序”或“下一代测序”包括使用这样的方法进行序列确定：所述方法以本质上平行的方式确定许多(通常数千至数十亿)个核酸序列，即在这种方法中，制备DNA模板并不是用于每次测序一个，而是以批量过程进行，并且在这种方法中许多序列优选地被并行读取，或者使用本身可以并行化的超高通量串行过程读取。此类方法包括但不限于焦磷酸测序(例如，如454Life Sciences,Inc.,Branford,CT所商业化的)；通过连接进行测序(例如，如SOLiD

“SNP”或“单核苷酸多态性”可以包括个体之间的遗传变异；例如，生物体DNA中的单个含氮碱基位置是可变的。SNP存在于整体基因组中；个体之间的许多遗传变异是由于SNP基因座的变异导致的，通常这种遗传变异会导致个体之间的表型变异。本公开中使用的SNP及其各自的等位基因可以衍生自许多来源，例如公共数据库(UC Santa Cruz人类基因组浏览器网关(genome.ucsc.edu/cgi-bin/hgGateway)或NCBI dbSNP网站(ncbi.nlm.nihgov/SNP/)，或可以按照美国专利号6,969,589和发明名称为“人类基因组多态性(HumanGenomic Polymorphisms)”的美国专利公开号2006/0188875中所述通过实验确定。虽然在本文提出的一些实施方案中描述了SNP的使用，但是应当理解，也可以使用其他双等位基因或多等位基因遗传标志物。双等位基因遗传标志物是具有两种多态形式或等位基因的遗传标志物。如上所述，对于与特征相关的双等位基因遗传标志物，与对照组相比，在病例组的遗传组成中丰度更高的等位基因被称为“相关等位基因”，而另一个等位基因可以被称为“非相关等位基因”。因此，对于与给定特征(例如疾病或药物反应)相关联的每个双等位基因多态性，存在相应的相关等位基因。可以与本文提出的方法一起使用的其他双等位基因多态性包括，但不限于，多核苷酸改变、插入、缺失和易位。

应当进一步理解，本文中提及的DNA可包括基因组DNA、线粒体DNA、附加体DNA和/或DNA衍生物，例如扩增子、RNA转录物、cDNA、DNA类似物等。在关联研究中所筛选的多态性基因座可能处于二倍体或单倍体状态，理想情况下，可能来自基因组中的位点。有测序技术可用于SNP测序，例如可以使用BeadArray平台(GOLDENGATE

在一些实施方案中，术语“甲基化状态(methylation state)”或“甲基化状态(methylation status)”是指在DNA序列内的一个或多个CpG二核苷酸处存在或不存在5-甲基胞嘧啶(“5-mC”或“5-mCyt”)。DNA序列内一个或多个特定CpG甲基化位点(每个都有两个CpG二核苷酸序列)处的甲基化状态包括“未甲基化”、“完全甲基化”和“半甲基化”。术语“半甲基化”是指双链DNA的甲基化状态，其中所述双链DNA仅有一条链被甲基化。术语“高甲基化”是指与以下情况相对应的平均甲基化状态：相对于正常对照DNA样品中相应CpG二核苷酸处发现的5-mCyt量，测试DNA样品的DNA序列中的一个或多个CpG二核苷酸处5-mCyt的存在增加。术语“低甲基化”是指与以下情况相对应的平均甲基化状态：相对于正常对照DNA样品中相应CpG二核苷酸处发现的5-mCyt量，测试DNA样品的DNA序列中的一个或多个CpG二核苷酸处5-mCyt的存在降低。

本文中的“多重分析”或“多重测试”可以指这样的测试或其他分析方法：其中可以通过使用一种以上的标志物同时测试多个靶标例如多个核酸序列的存在、量和/或甲基化状态，所述标志物中的每种具有至少一种不同的检测特性，例如荧光特性(例如，激发波长、发射波长、发射强度、FWHM(半峰高处的全宽)或荧光寿命))或独特的核酸或蛋白质序列特征。

如本文所用，“疾病或病症”是指生物体中由例如感染或遗传缺陷引起的、并且可通过可识别的症状进行表征的病理状况。

B.分离的多核苷酸组和相关组合物

在一个方面，本文提供了分离的多核苷酸组，其包含以下，由以下组成，或基本上由以下组成：至少两个分离的多核苷酸，每个所述分离的多核苷酸具有表1(图5所示)中所列的靶标(Target)1至靶标1849中任一靶标的多核苷酸序列，或与其互补的或基本互补的序列。

本申请所述的组可以包含任何适当数量的上述分离的多核苷酸，由任何适当数量的上述分离的多核苷酸组成或基本上由任何适当数量的上述分离的多核苷酸组成。例如，本申请所述的组可以包含以下，由以下组成，或基本上由以下组成：至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸，或与表1中列出的靶标1至靶标1849中的所有靶标相对应的所述分离的多核苷酸，或其数值范围或子范围。

在一个实施方案中，本申请所述的组可以包含至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸，或与表1中列出的靶标1至靶标1849中的所有靶标相对应的所述分离的多核苷酸，或其数值范围或子范围。在另一个实施方案中，本申请所述的组由至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸，或与表1中列出的靶标1至靶标1849中的所有靶标相对应的所述分离的多核苷酸，或其数值范围或子范围组成。在又一个实施方案中，本申请所述的组基本上由至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸，或与表1中列出的靶标1至靶标1849中的所有靶标相对应的所述分离的多核苷酸，或其数值范围或子范围组成。

本申请所述的组中分离的多核苷酸可以是任何合适类型的多核苷酸。例如，分离的多核苷酸可以是DNA分子、RNA分子或其组合。在一些实施方案中，DNA分子可以是基因组DNA分子或其片段。

分离的多核苷酸可以固定在基底上。分离的多核苷酸可以固定在任何合适的基底上。例如，基底可以包括固体表面、多孔表面或其组合。在一些实施方案中，所述基底可以是珠、管、微量滴定板、膜、凝胶或载玻片的一部分。

在其他实施方案中，所述分离的多核苷酸分子可以在空间上彼此间隔地固定在基底上，使得每个所述分离的多核苷酸分子可以分别评估或分析。

还提供了包括任何一个上述组的试剂盒、装置、系统或制品。

本申请所述试剂盒、装置、系统或制品可以被配置成用于任何适当的用途或目的。例如，本申请所述的试剂盒、装置、系统或制品可被配置成用于评估表1中列出的靶标1至靶标1849中的至少两个靶标的甲基化状态。在一些实施方案中，本申请所述的试剂盒、装置、系统或制品可被配置成用于评估以下的甲基化状态：至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸、或与表1中所列的靶标1至靶标1849的所有靶标相对应的分离的多核苷酸、或其数值范围或子范围。在其他实施方案中，本申请所述试剂盒、装置、系统或制品中分离的多核苷酸可以被配置成对照多核苷酸。

本申请所述试剂盒、装置、系统或制品中的分离的多核苷酸可具有任何适当的浓度水平。例如，所述分离的多核苷酸可具有约1飞摩尔至约100毫摩尔的浓度水平，例如约1飞摩尔(fM)、10fM、100fM、1皮摩尔(pM)、10pM、100pM、1纳摩尔(nM)、10nM、100nM、1微摩尔(μM)、10μM、100μM、1毫摩尔(mM)、10mM、100mM或其子范围。

本申请所述的试剂盒、装置、系统或制品可被配置成用于任何适当的用途或目的。例如，所述试剂盒、装置、系统或制品可以被配置成用于评估受试者中的癌症或肿瘤形成，例如，用于评估受试者中的肺癌或结直肠癌，或用于受试者中的泛癌分析或概况分析。

C.用于评估甲基化的试剂盒、系统和相关组合物

在另一个方面，本文提供了一种试剂盒、装置、系统或制品，其被配置成用于评估表1中所列的靶标1至靶标1849中的至少两个靶标的甲基化状态。

本申请所述的试剂盒、装置、系统或制品可包含用于评估任何适当数目的表1中列出的靶标的甲基化状态的试剂。例如，本申请所述的试剂盒、装置、系统或制品可包含这样的试剂：所述试剂用于评估至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸，或与表1中所列的靶标1至靶标1849的所有靶标相对应的分离的多核苷酸，或其数值范围或子范围的甲基化状态。

在一些实施方案中，本申请所述的试剂盒、装置、系统或制品可包含用于评估表1中所列靶标的任何亚组的甲基化状态的试剂。例如，本申请所述的试剂盒、装置、系统或制品可以包含用于评估表1中列出的靶标1-100的甲基化状态的试剂。在其他实施方案中，本申请所述的试剂盒、装置、系统或制品可以包含用于评估表1中列出的所有靶标(不包含表1中列出的一个或多个靶标)的甲基化状态的试剂。例如，本申请所述的试剂盒、装置、系统或制品可以包含用于评估表1中列出的靶标1-1848的甲基化状态的试剂，但不包含用于评估表1中列出的靶标1849的甲基化状态的试剂等。

本申请所述的试剂盒、装置、系统或制品可以包含用于评估靶多核苷酸的甲基化状态的任何合适的试剂。例如，所述试剂可以包含探针或引物，基本上由探针或引物组成，或由探针或引物组成，所述探针或引物被配置成用于与要评估其甲基化状态的每个靶标杂交。在一些实施方案中，所述试剂包含单个探针或引物，基本上由单个探针或引物组成，或由单个探针或引物组成，所述单个探针或引物被配置成用于与要评估其甲基化状态的每个靶标杂交。在其他实施方案中，所述试剂包含多个探针或引物，基本上由多个探针或引物组成，或由多个探针或引物组成，所述多个探针或引物被配置成用于与要评估其甲基化状态的每个靶标杂交。

在一些实施方案中，本申请所述的试剂盒、装置、系统或制品中的一种或多种引物包含以下，基本上由以下组成、或由以下组成：表1中所列的SEQ ID NO:1-17504所示序列、与其互补的或基本上互补的序列、或其任何组合。对于表1中列出的每个靶标，本申请所述的试剂盒、装置、系统或制品可以包含该靶标的一种或多种相应引物，基本上由该靶标的一种或多种相应引物组成，或由该靶标的一种或多种相应引物组成。例如，对于表1中列出的靶标1，本申请所述的试剂盒、装置、系统或制品可以包含以下，基本上由以下组成，或由以下组成：表1中列出的SEQ ID NO:1-10所示序列中的任一个，例如，1、2、3、4、5、6、7、8、9或10个引物，所述引物包含以下，基本上由以下组成，或由以下组成：SEQ ID NO:1-10所示的序列、与其互补的或基本上互补的序列，或其任何组合。类似地，对于表1中列出的靶标2，本申请所述的试剂盒、装置、系统或制品可以包含以下，基本上由以下组成，或由以下组成：表1中列出的SEQ ID NO:11-20所示序列中的任一个，例如，1、2、3、4、5、6、7、8、9或10个引物，所述引物包含以下，基本上由以下组成，或由以下组成：SEQ ID NO:11-20所示的序列、与其互补的或基本上互补的序列，或其任何组合。对于表1中列出的靶标3-1849中的任一个，本申请所述的试剂盒、装置、系统或制品可以包含以下，基本上由以下组成，或由以下组成：表1中列出的相应序列中的任一个，与其互补的或基本上互补的序列，或其任何组合，如上表1中所列的靶标1或2的所示情况。

在一些实施方案中，本申请所述的试剂盒、装置、系统或制品可以包含通用引物，例如用于扩增要评估其甲基化状态的每个靶标的通用引物。示例性的通用引物可以包含以下，基本上由以下组成，或由以下组成：SEQ ID NO:17505所示的序列(CACTCTTTCCCTACACGACGC)、或与其互补或基本上互补的序列。

本申请所述的试剂盒、装置、系统或制品还可以包含任何其他合适的试剂。在一些实施方案中，本申请所述的试剂盒、装置、系统或制品还可包含在2017年4月19日提交的美国临时申请序列号62/487,422和2017年4月19日提交的美国临时申请序列号62/487,423中公开和/或要求保护的任何其他合适的试剂。

例如，本申请所述的试剂盒、装置、系统或制品还可以包含用于从样品中分离所述靶标的试剂。

在另一个实施例中，本申请所述的试剂盒、装置、系统或制品还可以包含用于制备靶标文库的试剂。可以包括用于制备靶标文库的任何合适的试剂。在一些实施方案中，用于制备靶标文库的试剂可以包含酶，例如连接酶或单链DNA(ssDNA)连接酶。可以包括任何合适的ssDNA连接酶，例如Thermus噬菌体RNA连接酶如噬菌体TS2126 RNA连接酶(例如CircLigase

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可以包含用于扩增靶标或靶标文库的试剂。可以包括用于扩增靶标或靶标文库的任何合适的试剂。在一些实施方案中，用于扩增所述靶标或所述靶标的文库的试剂可以包含酶，例如用于多核苷酸扩增反应的酶。示例性的多核苷酸扩增反应包括聚合酶链式反应(PCR)、链置换扩增(SDA)、转录介导扩增(TMA)、连接酶链式反应(LCR)、基于核酸序列的扩增(NASBA)、引物延伸、滚环扩增(RCA)、自主序列复制(3SR)和环介导等温扩增(LAMP)。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可包含用于纯化靶标、靶标文库、扩增的靶标或扩增的靶标文库的试剂。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可以包含用于评估靶标的甲基化状态的试剂。可以包括用于评估靶标的甲基化状态的任何合适的试剂。在一些实施方案中，用于评估所述靶标的甲基化状态的试剂可以是用于多核苷酸甲基化(例如，DNA甲基化)检测方法的试剂。示例性的多核苷酸甲基化或DNA甲基化检测方法包括质谱法、甲基化特异性PCR(MSP)、亚硫酸氢盐测序、通过连接介导的PCR测定HpaII小片段富集(HELP测定法)、Glal水解和连接接头依赖的PCR测定法(GLAD-PCR测定法)、地标基因组扫描(RLGS)、甲基化DNA免疫沉淀(MeDIP或mDIP)、焦磷酸测序法、DNA腺嘌呤甲基转移酶活性的分子断裂光测定法、甲基敏感的Southern印迹和高分辨率溶解(HRM)分析。

用于评估靶标的甲基化状态的试剂可以是化学试剂，例如亚硫酸氢盐或亚硫酸氢钠。用于评估靶标的甲基化状态的试剂也可以是生物试剂，例如多肽或酶。

可以包括任何合适的酶。在一些实施方案中，所述酶可以是甲基化敏感的限制性酶(MSRE)。所述MSRE可以选择性地裂解未甲基化的残基。所述MSRE也可以选择性地裂解甲基化的残基。示例性MSRE可以选自下组：HpaII、SalI、

在一些实施方案中，所述酶可以是多核苷酸聚合酶。所述多核苷酸聚合酶被配置成用于多核苷酸扩增反应，例如PCR。可以包括任何合适的多核苷酸聚合酶。例如，所述多核苷酸聚合酶可以是DNA聚合酶，例如没有3’至5’核酸外切酶活性的DNA聚合酶。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可包含变性试剂，所述变性试剂用于使来自样品的双链多核苷酸变性以获得单链多核苷酸。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可包含用于连接反应的拥挤剂(crowding agent)。在一个方面，所述拥挤剂包含聚乙二醇(PEG)，例如PEG4000或PEG 6000、右旋糖苷和/或Ficoll。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可包含一组引物，每个引物包含与接头反向互补和/或与接头可杂交的序列，用于将单链多核苷酸转化成双链多核苷酸。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可包含用于去除引物二聚体和/或引物-接头双链体的试剂。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可包含引物，所述引物包含对靶序列(例如，EGFR基因序列)具有特异性的序列，用以获得包含靶序列的序列信息的扩增的线性双链连接产物。在另一个方面，所述试剂盒还可包含测序接头和/或样品特异性条形码，用于对所述扩增的线性、双链连接产物进行测序。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可以包含上述B部分所述的分离的多核苷酸组。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可以包含参考样品和/或对照基因座的信息。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可以包含用于一个或多个组分的单独容器(例如小瓶)和/或用于使用所述试剂盒、装置、系统或制品的说明书。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可以包含计算机可读介质，所述计算机可读介质含有基于甲基化状态评估情况用于获得样品的甲基化指标的可执行指令。可以将所述计算机可读介质配置成用于获得任何合适形式的甲基化指标，例如平均甲基化频率、甲基化单倍型负荷、非甲基化单倍型负荷、不一致读段百分比、或其组合的形式。

在又一个实施例中，本申请所述的试剂盒、装置、系统或制品还可以包含计算机可读介质，所述计算机可读介质含有使用甲基化指标进行分类的可执行指令。示例性分类算法可以是线性判别分析、逻辑回归、朴素贝叶斯分类、感知分类、二次分类、k近邻法、提升方法、决策树、随机森林、神经网络、学习向量量化或支持向量机、或其组合。

本申请所述的试剂盒、装置、系统或制品可以被配置用于任何适当的用途或目的。例如，本申请所述的试剂盒、装置、系统或制品可以被配置成用于评估受试者中的癌症或肿瘤形成，例如，用于评估受试者中的肺癌或结肠直肠癌，或用于受试者的泛癌分析或概况分析。

在一些实施方案中，所述试剂盒可另外包含用于检测多肽的存在的试剂。这样的试剂可以是抗体或特异性结合多肽的其他结合分子。在一些实施方案中，这样的抗体或结合分子可能能够区分由多态性导致的多肽的结构变异，因此可以用于基因分型。所述抗体或结合分子可以用可检测的标志物标记，例如，放射性同位素、荧光化合物、生物发光化合物、化学发光化合物、金属螯合剂或酶。试剂盒中可以包含用于进行结合测定如ELISA的其他试剂。

在一些实施方案中，所述试剂盒包含用于对至少两个、至少三个、至少五个、至少十个或更多个标志物进行基因分型的试剂。所述标志物可以是多核苷酸标志物(例如癌症相关的突变或SNP)或多肽标志物(例如蛋白质的过表达或翻译后修饰，包括高磷酸化或低磷酸化)或其任意组合。在一些实施方案中，所述试剂盒还可包含用于捕获探针的表面或基底(例如微阵列)，用于检测扩增的核酸。

试剂盒还可包含被分隔开以紧密容纳一个或多个容器装置(例如小瓶、管等)的运载体装置，所述容器装置各包含在方法中所要使用的分离元件之一。例如，其中一个容器装置可以包含被标记的或可以被可检测地标记的探针。这样的探针可以是对生物标志物具有特异性的多核苷酸。试剂盒还可具有包含用于扩增靶核酸序列的核苷酸的容器和/或包含与报告分子(例如酶、荧光或放射性同位素标记)结合的报告分子装置的容器。

所述试剂盒通常包括上述容器和一个或多个其他容器，其包含从商业和用户的角度所需的材料，包括缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。在容器上可以有标签，以指示所述组合物用于特定疗法或非治疗用途，并且还可以指导体内或体外的用途，例如上述那些用途。

所述试剂盒还可包含用于制备组织或细胞或体液样品并从所述样品制备核酸(例如ctDNA)的一组说明书和材料。

D.评估受试者中的癌症或肿瘤形成的方法

在另一个方面，本文提供了一种用于评估受试者中的癌症或肿瘤形成的方法，所述方法包括：a)提供来自受试者的样品，所述样品包含所述受试者的至少两个靶多核苷酸，所述至少两个靶多核苷酸具有表1所列的靶标1至靶标1849中至少两个靶标的多核苷酸序列或与其互补的或基本互补的序列；b)评估所述至少两个靶多核苷酸的甲基化状态；和c)基于所述至少两个靶多核苷酸的甲基化状态的评估情况，评估所述受试者中的癌症或肿瘤形成。

本申请所述的方法可用于任何合适的样品，例如，从待评估其癌症或肿瘤形成状态的受试者获得的或衍生出的任何合适的样品。例如，所述样品可以包含循环细胞游离DNA或循环肿瘤DNA(ctDNA)。在另一个实施例中，所述样品可以是血液、血清、血浆或体液样品，或其任意组合。

靶多核苷酸或模板多核苷酸可以是靶DNA分子、RNA分子、或其复合物或组合。DNA可以包括常规基因组DNA、染色体DNA、染色体外DNA(例如线粒体DNA)或其片段。在其他实施方案中，所述靶DNA或模板DNA是加工过的DNA，例如，经过了酶消化、交联、化学或物理剪切、亚硫酸氢盐转化和/或降解的DNA。

在一些实施方案中，本文公开的感兴趣的靶核酸分子是细胞游离DNA，例如细胞游离胎儿DNA(也称为“cfDNA”)或ctDNA。cfDNA在怀孕母亲的体内(例如，在血液中)循环，并且代表胎儿基因组，而ctDNA在癌症患者的体内(例如，在血液中)循环，并且通常是预片段化的。在其他实施方案中，本文公开的感兴趣的靶核酸分子是古老的和/或受损的DNA，例如由于在破坏性条件下(例如在福尔马林固定的样品或部分消化的样品中)存储而造成。

癌细胞死亡后，它们会将DNA释放到血液中。这种被称为循环肿瘤DNA(ctDNA)的DNA高度断裂，平均长度约为150个碱基对。一旦去除了白细胞，ctDNA通常包含剩余血浆DNA的很小一部分，例如，ctDNA可能构成血浆DNA的不到10％。通常，该百分比小于约1％，例如小于约0.5％或小于约0.01％。另外，血浆DNA的总量通常非常低，例如为约10ng/mL血浆。

ctDNA中的变体可以使用各种方法(包括下一代测序)进行检测。由于ctDNA与血浆DNA的比率较低，因此很难以较高的可信度调用变体，因为存在PCR和测序的错误。独特的分子标识符(UMI)可用于标记原始分子，从而可以将看到的任何变体与共有序列进行比较。这是区分真阳性和假阳性的有效方法。如果该变体与共有序列相匹配，则它是真阳性。否则，将其从分析中剔除。此外，至关重要的是将高百分比的原始分子转化为测序文库，从而保持高灵敏度，即，不会因丢失(dropout)而错过变体。因此，连接效率在文库构建过程中很重要。

在一个方面，如2017年4月19日提交的美国临时申请序列号62/487,423中公开和/或要求保护的那样，一种在保持靶向基因组的选定区域的同时能提高连接效率的技术可用于制备要在本申请所述方法中分析的靶多核苷酸。在一个实施方案中，首先将要通过测序进行检测的多核苷酸(例如ctDNA)去磷酸化以去除5'磷酸，以防止ctDNA与其自身连接。然后将ctDNA变性，使所有DNA均为单链。使用单链DNA连接酶Circligase

在一个方面，随后使用半靶向PCR扩增所述DNA。一条引物与所述接头反向互补，而另一条(例如，作为引物库中的一条引物)退火至基因组的特定靶区域。设计特异性的引物以最大程度地减少引物-二聚体相互作用和脱靶退火。在一个方面，由于DNA大小比较小，因此进一步优化了靶标特异性引物以使其紧邻着特异性变体着陆。再次清理后，PCR将添加全长测序接头和条形码。然后，例如在Illumina机器上对最终文库进行测序。

在一个方面，尽管具有相对较小的

本申请所述方法可用于评估任何合适的受试者中的癌症或肿瘤形成。例如，本申请所述方法可用于评估哺乳动物中的癌症或肿瘤形成。所述哺乳动物可以是非人哺乳动物，例如宠物，农场动物，伴侣动物或实验动物。优选地，所述哺乳动物是人。例如，受试者可以是需要进行癌症或肿瘤形成风险筛查的人，高危人群中的人，被诊断为患有癌症或肿瘤形成但需要进一步分层的人，被诊断为患有癌症或肿瘤形成且正在接受积极治疗的人，或患有癌症或肿瘤形成并正在缓解的人。

本申请所述方法可以包括评估表1中列出的任何适当数目的靶标的甲基化状态。例如，所述方法可以包括评估以下的甲基化状态：至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸，或与表1中列出的靶标1至靶标1849中的所有靶标相对应的所述分离的多核苷酸，或其数值范围或子范围。

可以使用任何合适的方法或试剂评估靶多核苷酸的甲基化状态。例如，可以使用探针或引物评估靶多核苷酸的甲基化状态，所述探针或引物被配置成与每个所述靶多核苷酸杂交。在一些实施方案中，可以使用单个探针或引物评估靶多核苷酸的甲基化状态，所述单个探针或引物被配置成与所述靶多核苷酸杂交。在其他实施方案中，可以使用多个探针或引物评估靶多核苷酸的甲基化状态，所述多个探针或引物被配置成与所述靶多核苷酸杂交。

在一些实施方案中，本申请所述方法中使用的一种或多种引物可以包含以下，基本上由以下组成或由以下组成：表1中列出的SEQ ID NO:1-17504的任一项所示的序列、与其互补的或基本上互补的序列、或其任何组合。对于表1中列出的每个靶标，本申请所述方法中使用的一种或多种引物可以包含该靶标的一种或多种相应引物，基本上由该靶标的一种或多种相应引物组成或由该靶标的一种或多种相应引物组成。例如，对于表1所列的靶标1，本申请所述方法中使用的一种或多种引物可以包含以下，基本上由以下组成，或由以下组成：表1所列的SEQ ID NO:1-10中所示的任何序列，例如，1、2、3、4、5、6、7、8、9或10种引物，所述引物包含以下，基本上由以下组成，或由以下组成：SEQ ID NO:1-10中所示的序列，与其互补的或基本互补的序列，或其任意组合。类似地，对于表1所列的靶标2，本申请所述方法中使用的一种或多种引物可以包含以下，基本上由以下组成，或由以下组成：表1所列的SEQ ID NO:11-20中所示的任何序列，例如，1、2、3、4、5、6、7、8、9或10种引物，所述引物包含以下，基本上由以下组成，或由以下组成：SEQ ID NO:11-20中所示的序列，与其互补的或基本互补的序列，或其任意组合。对于表1所列的靶标3-1849中的任一个，本申请所述方法中使用的一种或多种引物可包含以下，基本上由以下组成，或由以下组成：表1所列的任何相应序列，与其互补的或基本互补的序列，或其任意组合，如上表1中所列的靶标1或2所示。

本申请所述方法还可以包括使用通用引物来扩增待评估甲基化状态的各靶多核苷酸。示例性的通用引物可以包含以下，基本上由以下组成，或由以下组成：SEQ ID NO:17505所示的序列CACTCTTTCCCTACACGACGC)，或与其互补的或基本互补的序列。

本申请所述方法还可以包括任何其他适当的步骤。在一些实施方案中，本申请所述方法还可以包括在2017年4月19日提交的美国临时申请序列号62/487,422和在2017年4月19日提交的美国临时申请序列号62/487,423中公开和/或要求保护的任何其他适当的步骤。例如，用于构建单链多核苷酸、将单链多核苷酸文库转换为双链多核苷酸文库、对双链多核苷酸文库进行半靶向扩增、以及构建序列文库和对2017年4月19日提交的美国临时申请序列号62/487,423中公开的和/或要求保护的测序读段进行分析的技术和步骤可用于获得和/或制备待分析的靶多核苷酸。

例如，本申请所述方法还可以包括从样品中分离靶多核苷酸。

在另一个实施例中，本申请所述方法还可包括制备靶多核苷酸的文库。可以使用适用于制备靶标文库的任何试剂。在一些实施方案中，用于制备靶标文库的试剂可以包含酶，例如连接酶或单链DNA(ssDNA)连接酶。可以包括任何合适的ssDNA连接酶，例如Thermus噬菌体RNA连接酶如噬菌体TS2126 RNA连接酶(例如CircLigase

在又一个实施例中，本申请所述方法还可以包括扩增靶多核苷酸。可以使用适用于扩增靶标或靶标文库的任何试剂。在一些实施方案中，用于扩增所述靶标或所述靶标的文库的试剂可以包含酶，例如在多核苷酸扩增反应中使用的酶。示例性的多核苷酸扩增反应包括聚合酶链式反应(PCR)、链置换扩增(SDA)、转录介导的扩增(TMA)、连接酶链式反应(LCR)、基于核酸序列的扩增(NASBA)、引物延伸、滚环扩增(RCA)、自主序列复制(3SR)和环介导等温扩增(LAMP)。

在其它实施例中，本申请所述方法还可以包括纯化靶多核苷酸、靶多核苷酸的文库、扩增的靶多核苷酸或扩增的靶多核苷酸的文库。

可以使用任何合适的方法和/或试剂评估靶多核苷酸的甲基化状态。在一些实施方案中，靶多核苷酸的甲基化状态可以使用以下方法进行评估：质谱法、甲基化特异性PCR(MSP)、甲基化敏感的测序(例如亚硫酸氢盐测序)、通过连接介导的PCR测定HpaII小片段富集(HELP测定法)、Glal水解和连接接头依赖的PCR测定法(GLAD-PCR测定法)、地标基因组扫描(RLGS)、甲基化DNA免疫沉淀(MeDIP或mDIP)、焦磷酸测序法、DNA腺嘌呤甲基转移酶活性的分子断裂光测定法、甲基敏感的Southern印迹和高分辨率溶解(HRM)分析。

在其他实施方案中，可以使用化学试剂例如亚硫酸氢盐或亚硫酸氢钠评估靶多核苷酸的甲基化状态。在其他实施方案中，可以使用生物试剂例如多肽或酶来评估靶多核苷酸的甲基化状态。

可以使用任何合适的酶。在一些实施方案中，所述酶可以是甲基化敏感的限制性酶(MSRE)。所述MSRE可以选择性地裂解未甲基化的残基。所述MSRE还可以选择性地裂解甲基化的残基。示例性的MSRE可以选自下组：HpaII、SalI、

在一些实施方案中，所述酶可以是多核苷酸聚合酶。所述多核苷酸聚合酶可用于多核苷酸扩增反应，例如PCR。可以使用任何合适的多核苷酸聚合酶。例如，所述多核苷酸聚合酶可以是DNA聚合酶，例如没有3’至5’核酸外切酶活性的DNA聚合酶。

在一些实施方案中，可以使用甲基化敏感的测序法例如亚硫酸氢盐测序法来评估靶多核苷酸的甲基化状态。亚硫酸氢盐转化是一种使用亚硫酸氢盐确定DNA的甲基化模式的方法。DNA甲基化是一种生化过程，其涉及在胞嘧啶或腺嘌呤DNA核苷酸上添加甲基。DNA甲基化稳定地改变了细胞中基因的表达，因为细胞分裂并从胚胎干细胞分化为特定组织。在亚硫酸氢盐转化中，首先用亚硫酸氢盐试剂处理靶核酸，所述试剂可将未甲基化的胞嘧啶特异性转化为尿嘧啶，而对甲基化的胞嘧啶没有影响。亚硫酸氢盐转化的结果之一是原始靶标的双链构象由于序列互补性的丧失而被破坏。在样品制备以及分析或诊断测试期间，靶序列以两个独立的单链DNA的形式存在。靶核酸序列也经常以非常低的浓度存在。这是循环肿瘤DNA(也称为“细胞游离肿瘤DNA”或“ctDNA”)的一个特别重要的考虑因素，因为它在循环中的浓度通常很低，且变异等位基因分数非常低。

可以使用任何适当形式的甲基化敏感性测序法。例如，甲基化敏感性测序法可以以选自下组的模式进行：Maxam-Gilbert测序、链终止法、鸟枪测序法、桥式PCR、单分子实时测序、离子半导体(离子激流测序)、合成测序、连接测序(SOLiD测序)、链终止(Sanger测序)、大规模平行测序(MPSS)、polony测序、454焦磷酸测序、Illumina(Solexa)测序、DNA纳米球测序、heliscope单分子测序、单分子实时(SMRT)测序、纳米孔DNA测序、隧道电流DNA测序、杂交测序、质谱测序、微流体Sanger测序、基于显微镜的技术、RNAP测序和体外病毒高通量测序。

在一些实施方案中，本申请所述的方法还可以包括在甲基化敏感性测序(例如，亚硫酸氢盐测序)之前，以获得线性的、单链连接产物的文库，每个线性的、单链连接产物包含连接到接头的线性的、单链靶多核苷酸，所述接头包含独特的分子标识符(UMI)序列，所述序列专门标记接头所连接的单链靶多核苷酸。来自靶多核苷酸的测序读段首先对接头进行了修剪以去除源自文库构建过程的任何接头序列，从而获得修剪后的测序读段。可以使用比对程序将修剪后的测序读段映射到参考基因组(如人参考基因组)，以获得比对的读段文件。可以将所述比对的读段文件分组，所述组与表1中所列的靶标1至靶标1849的每个靶标区域，或与其互补序列或其基本上互补的序列相对应，其可用于甲基化状态评估。

可以评估靶多核苷酸中的一个、多个或每个的甲基化状态。在一些实施方案中，可以评估每个所述靶标多核苷酸的甲基化状态以获得甲基化指标(methylation metric)，例如以平均甲基化频率、甲基化单倍型负荷、非甲基化单倍型负荷、不一致读段百分比或其组合的形式。

可以使用来自各靶多核苷酸的甲基化指标来评估样品的甲基化状态。甲基化指标可以任何合适的方式进行分析或使用。例如，可以将各靶多核苷酸的甲基化指标与阈值或参考值进行比较，以评估样品的甲基化状态。

在另一个实施例中，可以使用来自各靶多核苷酸的甲基化指标来计算数值甲基化矩阵，以评估样品的甲基化状态。数值甲基化矩阵可以是任何合适的形式。在一些实施方案中，来自样品的所述数值甲基化矩阵可以包含单个数字或数值。在其他实施方案中，来自样品的数值甲基化矩阵可以包含多个数字或数值。可以使用任何合适的公式或算法来获得或计算数值甲基化矩阵。在一些实施方案中，可以使用分类算法来计算数值甲基化矩阵，所述分类算法例如，线性判别分析、逻辑回归、朴素贝叶斯分类、感知分类、二次分类、k近邻法、提升方法、决策树、随机森林、神经网络、学习向量量化或支持向量机、或其组合。

甲基化指标可以以任何合适的方式用于评估样品的甲基化状态。例如，可以将甲基化指标与阈值或参考值进行比较，以评估样品的甲基化状态。

可以依次或同时评估来自多个样品(例如来自多个受试者的多个样品)的至少两个靶多核苷酸的甲基化状态。在一些实施方案中，可以依次评估来自多个样品(例如来自多个受试者的多个样品)的至少两个靶多核苷酸的甲基化状态。例如，可以依次评估以下的甲基化状态：至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸，或与表1中列出的靶标1至靶标1849中的所有靶标相对应的所述分离的多核苷酸，或其数值范围或子范围。在其他实施方案中，可以同时评估来自多个样品(例如来自多个受试者的多个样品)的至少两个靶多核苷酸的甲基化状态。例如，可以同时评估以下的甲基化状态：至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、更多个所述分离的多核苷酸，或与表1中列出的靶标1至靶标1849中的所有靶标相对应的所述分离的多核苷酸，或其数值范围或子范围。

在一些实施方案中，使用计算机获得每个所述靶多核苷酸的甲基化指标。在其他实施方案中，基于来自各靶多核苷酸的甲基化指标，使用计算机获得样品的甲基化指标。

本申请所述方法可用于任何合适的目的。例如，本申请所述方法可以用于受试者的癌症或肿瘤形成的诊断、预后、分层、风险评估或治疗监测。

本申请所述方法可用于评估受试者中的任何适当类型的癌症或肿瘤形成。例如，本申请所述方法可用于评估受试者中的淋巴瘤、白血病、脑癌、多发性骨髓瘤、胰腺癌、肝癌、胃癌、乳腺癌、肾癌、肺癌、结直肠癌、结肠癌、前列腺癌、卵巢癌、子宫颈癌、皮肤癌、食道癌或头颈癌。

在一些实施方案中，本申请所述方法可以用于受试者中的肺癌的诊断、预后、分层、风险评估或治疗监测。肺癌可以是非小细胞肺癌或小细胞肺癌。示例性非小细胞肺癌可以是肺的腺癌(也称为肺腺癌)、肺鳞状细胞癌(SCC)或大细胞癌(LCC)。

在其他实施方案中，本申请所述方法可用于受试者中的结直肠癌的诊断、预后、分层、风险评估或治疗监测。在其他实施方案中，本申请所述方法可用于受试者中的泛癌分析或概况分析的诊断、预后、分层、风险评估或治疗监测。

可以依次或同时评估多个受试者中的癌症或肿瘤形成。在一些实施方案中，可以依次评估多个受试者中的癌症或肿瘤形成。例如，可以依次评估至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000或更多个受试者中的癌症或肿瘤形成。在其他实施方案中，可以同时评估多个受试者中的癌症或肿瘤形成。例如，可以同时评估至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1,100、1,200、1,300、1,400、1,500、1,600、1,700、1,800、1,900、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000或更多个受试者中的癌症或肿瘤形成。

本申请所述测试可以具有任何适当的灵敏度。例如，本申请所述测试可以具有至少10％、20％、30％、40％、50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.9％、99.999％、99.9999％、或100％的灵敏度。

本申请所述测试可以具有任何适当的特异性。例如，本申请所述测试可以具有至少10％、20％、30％、40％、50％、60％、70％、80％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％、99.9％、99.999％、99.9999％、或100％的特异性。

本申请所述方法还可包括基于对受试者的癌症或肿瘤形成的评估来治疗所述受试者或改变所述受试者的治疗。例如，本申请所述方法还可以包括基于对人患者的癌症或肿瘤形成的评估来治疗所述人患者或改变所述人患者的治疗。示例性的治疗可以是化学疗法、放射疗法、免疫疗法、细胞疗法、手术、用药物(例如小分子药物或大分子药物如抗体药物)的治疗。

本申请所述方法还可包括基于对受试者的癌症或肿瘤形成的评估，使所述受试者接受进一步的测试，例如，金标准诊断或预后测试。例如，本申请所述方法还可以包括基于对人患者的癌症或肿瘤形成的评估，使所述人患者进行进一步的测试，例如，金标准诊断或预后测试。示例性的测试可以是任何适当类型的测试，例如，体内测试、体外测试、对诸如DNA、RNA、蛋白质、肽、其复合物或组合等分子的测试、免疫测试、分子测试、细胞测试、组织测试、器官测试或全身测试等。

E.示例性的数据分析方法

在一些实施方案中，首先使用修剪程序如Cutadapt(http://joumal.embnet.org/index.php/embnetjoumal/article/view/200/479)或Trimmomatic(https://www.ncbi.nlm.nih.gov/pubmed/24695404)，对测序读段进行了接头修剪(以去除源自测序文库构建过程的任何合成的接头序列)。然后使用比对程序例如Bowtie(

在一些实施方案中，对于每个靶标，使用比对的读段来计算代表各个区域的甲基化状态的“甲基化指标”。可以使用四个指标：平均甲基化频率(Average MethylationFrequency,AMF)、甲基化单倍型负荷(Methylation Haplotype Load,MHL)、非甲基化单倍型负荷(UnMethylation Haplotype Load,UMHL)和不一致读段百分比(PercentDiscordant Reads,PDR)。

平均甲基化频率的计算方法是将在靶区域内CpG位点观察到的胞嘧啶碱基的数目加在一起，再除以在所述靶标区域内CpG位点观察到的胞嘧啶和胸腺嘧啶碱基的数目：

其中N是所述靶区域内的读段(read)数量，i是所述靶区域内的第i个读段，Ci是在第i个读段中观察到的胞嘧啶数目，而T

甲基化单倍型负荷的计算方法是：获取靶区域内相邻CpG位点的所有可能子串(substring)，并计算显示每个子串内完全甲基化的读段的分数的加权和：

其中n是靶区域内CpG位点的数目，L

非甲基化单倍型负荷的计算方法是：获取靶区域内相邻CpG位点的所有可能的子串，并计算显示每个子串中没有甲基化的读段的分数的加权总和：

其中n是靶区域内CpG位点的数目，L

不一致读段百分比的计算方法是：将100减去每个区域内的读段百分比，所述区域显示靶区域内CpG位点的所有胞嘧啶或所有胸腺嘧啶：

其中N

逻辑回归、k近邻法、随机森林或支持向量机。

逻辑回归分类涉及通过使用已知样品组，将样品为癌性的可能性的方程式对甲基化指标值的加权和进行曲线拟合。通过对具有已知类别的样品数据使用最小二乘回归，可以估算以下方程式的参数：

其中n是靶区域组，i是当前靶区域，M

K近邻算法使用未知样品与其具有已知类别的k个最近邻居之间的甲基化指标值的距离来对未知样品进行分类。首先，计算当前样品和所有其他样品的甲基化指标值之间的距离(此处为欧氏距离(Euclidean distance))：

其中N是已知样品组，i是当前已知样品，n是靶区域组，j是当前靶区域，M

在K近邻法中，通过识别最相似的k个已知样品(其中k是我们选择的任何数字)将未知样品分类为正常样品或癌症样品。如果未知样品与已知的正常样品更为相似，我们将其分类为正常样品；如果它与癌症样品更相似，我们将其归类为癌症。以下是说明如何进行K近邻法分析的一个假设示例。

假设我们正在查看2个靶区域并使用MHL甲基化指标进行我们的分析，并且我们要使用k＝3的K近邻法。我们将首先运行一些我们知道是健康的样品和一些我们知道是癌症的样品，然后计算每个样品中每个靶标的MHL值。假设我们每种类型运行了4个已知样品，并获得了下表2中所示的矩阵。

表2

然后，我们可以处理一个未知样品。假设我们运行了一个未知的样品，并获得了下表3中所示的值。

表3

根据我们观察到的值，我们确定k＝3个样品与我们未知的样品最相似，如下表4中所示。

表4

由于这3个最近邻居中的大多数是癌症，因此我们将未知样品分类为癌症。

随机森林分类涉及使用随机选择的具有已知类别的样品亚组和靶区域亚组来创建多个决策树；然后，将未知样品的甲基化指标值置于每个决策树中，并使用多数投票进行分类。例如，使用已知数据，可能会构建出以下三个决策树：

将包含MHL值(MHL

支持向量机在不同类别的已知样品之间构造一个超平面，从而使每个已知样品与超平面之间的距离最大化。然后将此平面用作“分隔器”以对未知样品进行分类，将落在平面不同侧的样品分成不同的类别。为了通过使用2个靶区域说明样品，在空间中绘制已知样品的甲基化指标值，并在不同组之间绘制一个超平面(参见图1)，其中X

F.通过文库构建和多核苷酸测序进行的示例性多核苷酸片段分析

在一个方面，本申请所述方法的靶标(或模板)多核苷酸是片段化的多核苷酸，例如，在约100个残基至约1000个残基的范围内，并且在一些实施方案中，在约150个残基至约400个残基的范围内。

靶DNA或模板DNA可以包括常规基因组DNA、染色体DNA、染色体外DNA(例如线粒体DNA)或其片段。在其他实施方案中，所述靶DNA或模板DNA是经过加工的DNA，例如经过酶消化、交联、化学或物理剪切、亚硫酸氢盐转化和/或降解的DNA。

亚硫酸氢盐转化是一种使用亚硫酸氢盐确定DNA甲基化模式的方法。DNA甲基化是一种生化过程，涉及在胞嘧啶或腺嘌呤DNA核苷酸上添加甲基。在细胞分裂并从胚胎干细胞分化为特定组织的过程中，DNA甲基化稳定地改变了基因在细胞中的表达。在亚硫酸氢盐转化过程中，首先用亚硫酸氢盐试剂处理靶核酸，所述试剂可将未甲基化的胞嘧啶特异性转化为尿嘧啶，而对甲基化的胞嘧啶没有影响。亚硫酸氢盐转化的一个结果是原始靶标的双链构象由于序列互补性的丧失而被破坏。在样品制备以及分析或诊断测试期间，靶序列以两个独立的单链DNA的形式存在。靶核酸序列也经常以非常低的浓度存在。这是循环肿瘤DNA(也称为“细胞游离肿瘤DNA”或“ctDNA”)的一个特别重要的考虑因素，因为它在循环中的浓度通常很低，而变异等位基因分数非常低。

在一些实施方案中，本文公开的感兴趣的核酸分子是细胞游离DNA，例如细胞游离胎儿DNA(也称为“cfDNA”)或ctDNA。cfDNA在怀孕母亲的体内(例如，在血液中)循环，并且代表胎儿基因组，而ctDNA在癌症患者的体内(例如，在血液中)循环，并且通常是预片段化的。在其他实施方案中，本文公开的感兴趣的核酸分子是古老的和/或受损的DNA，例如由于在破坏性条件下(例如在福尔马林固定的样品或部分消化的样品中)存储而造成。

ctDNA中的变体可以使用各种方法(包括下一代测序)进行检测。由于ctDNA与血浆DNA的比率较低，因此很难以较高的可信度调用(call)变体，因为存在PCR和测序的错误。独特的分子标识符(UMI)一般用于标记原始分子，从而可以将看到的任何变体与共有序列进行比较。这是区分真阳性和假阳性的有效方法。如果该变体与共有序列相匹配，则它是真阳性。否则，将其从分析中剔除。此外，至关重要的是将高百分比的原始分子转化为测序文库，从而保持高灵敏度，即，不会因丢失(dropout)而错过变体。因此，连接效率在文库构建过程中很重要。

在一个方面，本文提供了一种在仍然靶向基因组的选定区域的同时能大幅提高连接效率的技术。在一个实施方案中，首先将要通过测序进行检测的多核苷酸，例如ctDNA，去磷酸化以去除5'磷酸，以防止ctDNA与其自身连接。然后将ctDNA变性，使所有DNA均为单链。将单链DNA连接酶Circligase

在一个方面，随后使用半靶向PCR扩增所述DNA。一条引物与所述接头反向互补，而另一条(例如，作为引物库中的一条引物)退火至基因组的特定靶区域。设计特异性的引物以最大程度地减少引物-二聚体的相互作用和脱靶退火。在一个方面，由于DNA大小比较小，因此进一步优化了靶标特异性引物以使其紧邻着特异性变体着陆。再次清理后，PCR将添加全长测序接头和条形码。然后，例如在Illumina机器上对最终文库进行测序。

在一个方面，尽管具有相对较小的

以下各节更详细地描述了本申请所述方法的某些步骤。

例如，针对ctDNA的下一代测序的文库构建通常由几个步骤组成，包括末端修复、A拖尾和接头分子的双链连接。然后可以使用杂交捕获在某些基因组区域将这些连接的分子富集1000-2000倍。虽然过去几年在文库构建方面进行了一些改进，但该过程仍然效率低下，导致在各个步骤中丢失了许多原始分子。双链连接效率仍然很低，约20-30％的分子被正确连接。此外，在纯化和杂交捕获步骤中损失了许多分子，因此最终转化率约为10-20％。当研究在ctDNA中发现的低等位基因分数变体时，灵敏度仍然很低。这限制了调用低等位基因分数突变体时的准确性，因为低效率将导致在查看具有低等位基因分数的文库时灵敏度下降。

此外，某些多核苷酸(如ctDNA)的大小比较小，无法使用基于标签的文库构建。例如，首先将多核苷酸标记(例如，用生物素标记)以产生靶向文库，然后通过捕获标签(例如，通过链霉亲和素)进行富集。这样，目地区域的文库可以被富集约1000-2000倍。最后，进行PCR以扩增和索引用于测序的分子。但是，基于PCR的方法证明很难将UMI添加到原始分子中，导致了较高的错误率。

在一个方面，本文所述的组合物、试剂盒和方法解决了上述问题。在一些实施方案中，所述组合物、试剂盒和方法可用于测序核酸分子，包括但不限于各种文库的构建、各种扩增反应(例如通过PCR和/或引物延伸)、所构建的文库的纯化和测序读段的分析。

在某些方面，可以例如从包含片段化的多核苷酸例如片段DNA的样品制备测序文库。在一个方面，样品是例如直接从受试者获得的天然样品，例如组织液或体液，所述样品包括但不限于血液、血浆、血清、脑脊髓液、滑液、尿液、汗液、精液、痰、泪液、粘液或羊水。在其他方面，可通过形成DNA片段(例如，通过剪切DNA)并将本文所述的接头连接至所述DNA片段来制备测序文库。在特定的实施方案中，所述片段化的多核苷酸和接头是单链的。

片段(例如ctDNA或通过使更长的DNA链断裂形成的片段)有时被称为“插入物”，因为它们可以被“插入”或连接到接头(例如本文公开的单链接头)附近。也可以对RNA分子测序，例如通过使RNA分子反转录形成DNA分子，所述DNA分子附着于接头。

在一个方面，本文提供了一种方法，所述方法包括将一组接头连接至单链多核苷酸文库，并且在所述方法中，所述连接由单链DNA(ssDNA)连接酶催化。如本文所用，ssDNA连接酶能够在不存在互补序列的情况下连接ssDNA的末端。例如，CircLigase

CircLigase

在一个方面，每个单链多核苷酸在5'端被封闭以防止在5'端连接，每个接头包含独特的分子标识符(UMI)序列，所述独特的分子标识符(UMI)序列专门标记所述接头连接的单链多核苷酸，每个接头在3'末端被封闭，以防止在3'末端的连接，并且接头的5'末端在ssDNA连接酶的作用下连接到单链多核苷酸的3'末端，以形成线性连接产物，从而获得线性单链连接产物的文库。单链DNA的模板非依赖性的环化描述于WO2010/094040A1中，其公开内容全部并入本文。然而，WO2010/094040A1仅公开了单链多核苷酸的分子内连接(例如，环化)。

因此，本方法以非常规方式使用ssDNA连接酶，例如CircLigase或CircLigase II。与环化相反的是，本申请所述的连接方法旨在在单链靶多核苷酸和接头分子之间产生线性连接产物。在一个方面，本公开使用ssDNA连接酶进行分子内连接，例如用于将接头连接至单链多核苷酸。为此，在一个方面，将所述单链多核苷酸在5'端封闭以防止环化。这样，可以防止ssDNA的3'端与其自身的5'端的分子内连接，以及同一文库中一个ssDNA的3'端与另一个ssDNA的5'端的分子间连接。因此，在一个方面，在连接反应期间，既防止了单链多核苷酸的环化作用，又防止了线性连环体(包含单链多核苷酸和/或接头)的形成。如图6所示，每个单链多核苷酸的封闭可包含其5'端的去磷酸化，以防止在该端的连接。

在另一个方面，每个接头在3'末端被封闭，以防止在3'末端的连接。这样，防止了接头的3'端与其自身的5'端的分子内连接，以及一个接头分子的3’端与另一接头分子的5’端的分子间连接。每个接头的封闭可包括碳间隔子、ddCTP、ddATP、ddTTP、ddGTP、己二醇、三甘醇(TEG)和/或六甘醇，以防止其3'端的连接。因此，在一个方面，在连接反应期间，既防止了单链接头的环化，又防止了线性连环体(包含单链多核苷酸和/或接头)的形成。

接头可以以任何合适的组合形式包含一个或多个间隔子的一个或多个拷贝。例如，Gansauge和Meyer公开了一种接头，其包含C3Spacer和生物素化TEG间隔子的十个拷贝。Gansauge and Meyer(2013),“Single-stranded DNA library preparation for thesequencing of ancient or damaged DNA,”Nature Protocols,8(4):737-48，其全部内容在此通过引用并入。但是，该参考文献要求在连接后立即通过生物素-链霉亲和素相互作用捕获连接的ssDNA。此步骤可能会导致文库中的ssDNA分子大量丢失。然后，该参考文献将捕获的ssDNA转换为dsDNA，而ssDNA仍被捕获在珠子上。

如图6所示，本公开不需要在连接后立即捕获连接的ssDNA。相反，当将连接的ssDNA转换为dsDNA时，它仍保留在连接反应体积中。

在一个方面，文库中ssDNA的连接效率很高，例如样品中至少约40％，至少约50％，至少约60％，至少约70％，至少约80％，至少约85％，至少约90％，至少约95％或至少约99％的单链多核苷酸连接至接头。在特定的实施方案中，连接效率为约80％。在具有这种大幅提高的连接效率的条件下，本申请要求保护的方法仍然能够靶向基因组的选定区域，如下所述。

在一个方面，接头具有以下结构：/5'Phos/N

在一个方面，M

在另一个方面，“封闭剂”包括碳间隔子、ddCTP、ddATP、ddTTP、ddGTP、己二醇、三甘醇(TEG)和/或六甘醇，其在5'至3'方向以任何适当的组合和顺序具有一个或多个封闭基团的一个或多个拷贝。

在一个方面，使用UMI有助于确定、选择和/或分离靶序列的无错测序读段，并且可以以高精度和高通量对测序读段进行选择。此类经过验证的无错误测序读段在任何需要序列保真度的技术中很有用，所述技术包括构建已知序列的较大分子，多态性和/或突变筛选，大规模平行测序以及用于防止方法学上偏差的定量方法。

在一个方面，独特的分子标识符关联于并唯一地鉴定包含单链靶多核苷酸和接头的连接构建体。换句话说，可以将具有相同序列的两个单链靶多核苷酸连接到两个不同的接头上，所述两个不同的接头在其UMI序列上彼此不同；最终的连接产物是不同的，并且每个连接产物(而非具有相同序列的靶多核苷酸)由UMI唯一标识。在另一个方面，当将单链连接产物转化为双链多核苷酸并扩增时，即使有非常高保真度的聚合酶，也可能在重复复制期间引入扩增错误。结果，即使是低错误率也可能产生严重影响，特别是在大型库的构建中更是如此。尽管大规模并行测序在成本和通量方面均具有优势，但读段的准确性仍可能会由于扩增和/或检测技术的局限性而被削弱。

通过使用UMI，本申请所述方法能够鉴定无错扩增产物和/或测序读段，并将具有技术错误的那些从分析中剔除。具有相同UMI的扩增产物和/或测序读段可以被确认为相关(通过血统确认相同)，因此具有相同UMI的分子之间的序列差异可以被识别为技术错误，而不是序列中的实际差异(例如，野生型序列与癌症相关突变序列之间的序列差异)。换句话说，由于每个单链连接产物均可以通过其UMI进行唯一识别，因此如果没有引入技术错误，则其所有后代(由于扩增和/或测序产生)都应具有相同的靶序列。但是，如果在扩增和/或测序过程中将诸如单核苷酸插入之类的错误引入靶序列中，则某些血统相同(例如，共享同一个UMI)的扩增产物和/或测序读段将具有插入物，而其他则不会。具有插入物的产物与不具有插入物的产物之间的确切比例应当是变化的，这取决于在扩增和/或测序过程中何时发生错误。通常，当使用非常高保真度的聚合酶时，绝大多数是没有错误的产物。在另一个方面，由于可以确定在血统上相同的扩增产物和/或测序读段，因此可以使用来自多个分子的数据确定共有序列，从而实现高通量测序的高精度。

在一个方面，UMI是简并的核酸序列，并且设计UMI中的核苷酸数目使得由UMI序列表示的潜在序列和实际序列的数目大于初始文库中的目标单链靶单核苷酸的总数。在一个方面，可以使用通过用每个位置的所有四个碱基的混合物合成而随机产生的序列的简并集合来提供UMI序列多样性(或关于每个单个UMI序列的“唯一性”)。或者，可以合成多样但预定的序列组并将其连接至初始单链多核苷酸文库。UMI组的多样性必须足够高，这样才能确保不会将血统无关的分子弄错。在一个方面，“唯一”分子标识符不必绝对唯一，并且可以在不同的靶标单链多核苷酸上使用，前提是要清楚它们是不同的并且不会被误认为是血统相同的分子。可以从核苷酸的随机装配中产生的大量UMI序列提供了很大的可能性来唯一识别每个单独的连接产物。例如，如果UMI包含在每个位置上由A、C、G和T的混合物合成的12聚体，则有4

在特定方面，所述UMI是5聚体、6聚体、7聚体、8聚体、9聚体、10聚体、11聚体、12聚体、13聚体、14聚体、15聚体、16聚体、17聚体、18聚体、19聚体、20聚体、21聚体、22聚体、23聚体、24聚体、25聚体或更长的简并序列。在一个方面，所述接头具有以下结构：/5’Phos/GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG/3SpC3/，其中“NNNNNNNNNNNN”代表12聚体UMI序列，“3SpC3”代表3′碳间隔子。序列GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG为SEQ ID NO:17507。

可通过添加缩合剂(例如六胺钴)和生物型多胺(例如亚精胺)或通过使用拥挤剂(例如聚乙二醇(PEG))来人为地提升DNA的浓度，所述拥挤剂也可提升酶的有效浓度。在一个方面，添加剂如六胺钴可以仅产生分子间反应，从而产生线性连接产物而不是环状产物。因此，在单链靶多核苷酸的5'末端和单链接头的3'末端可能没有被完全封闭以防止连接的情况下，可以使用添加剂如六胺钴来增强分子间反应并进一步防止单链靶多核苷酸和/或接头的环化。

在一些实施方案中，在同一连接反应中可以使用所述接头的一种以上配制。例如，可以使用所述接头的两种配置：

配置号1：/5’Phos/N

配置号2：/5’Phos/P

在连接反应后，无需纯化(例如，将连接产物与过量的未连接的接头分子分离开来)，单链连接产物就可立即转化为双链连接产物。另外，单链靶多核苷酸和接头都不需要被捕获在固体支持物上(例如，通过生物素-链霉亲和素介导的与珠子的结合)，以便于随后连接产物向双链多核苷酸的转化和/或扩增步骤。因此，本申请方法避免和/或减少了由于单链连接产物的纯化或分离而导致的DNA样品(例如ctDNA)中已经很小等位基因分数的突变体的损失。相反，在一个方面，单链连接产物保留在溶液中，其被引导进行引物延伸。

在一个方面，如图6中所示，在构建了包含单链连接产物的文库之后，所述方法还可包括将线性的、单链连接产物的文库转化为线性、双链连接产物的文库。在一个方面，所述转化使用引物或引物组，每个引物包含与接头反向互补的和/或与接头可杂交的序列。

对于具有以下结构的接头：/5’Phos/N

在一些实施方案中，所述引物可能不是M

在任何前述实施方案中，所述方法还可包括扩增和/或纯化线性、双链连接产物的文库。在一个方面，将双链连接产物纯化并对大小进行选择以除去未结合的接头分子和/或未结合的引物，和/或在接头及其反向互补引物之间形成的复合物。可以使用任何合适的方法去除这些片段，所述片段通常比所需的双链连接产物短。例如，使用Qiagen的PCR纯化柱可以帮助消除样品中较小的片段，并且在2％认证的低范围超琼脂糖凝胶上运行柱纯化的样品可以帮助选择所需的片段大小。基于珠子的DNA纯化(包括AMPure方法)也有助于去除较小的片段。在一些实施方案中，期望的双链连接产物的大小为约100bp至约600bp，例如约100bp至约400bp，约150bp至约200bp，约200bp至约250bp，以及250bp至约300bp。在一个实施方案中，例如通过洗脱悬浮在Tri-EDTA缓冲液中的珠子来纯化和收集dsDNA(>150bp且<400bp)。

在一个方面，所述纯化基于珠子。在另一个方面，所述纯化基于大小选择，例如，所述纯化步骤选择性地纯化长度为约50个核苷酸至约1000个核苷酸之间的多核苷酸，例如，去除长度为约40个核苷酸的接头(和约40bp的引物二聚体和/或引物-接头双链体)。在一个方面，所述纯化基于柱，例如，通过使用dsDNA或ssDNA纯化柱，例如来自Zymo或Qiagen的那些纯化柱。

在另一个方面，所述纯化不包括使用特异性结合对(例如生物素/链霉亲和素)，其中一个附着于线性、双链连接产物且另一个附着于固体支持物(例如珠子)。

在任何前述实施方案中，本文所述的方法还可包括例如通过聚合酶链式反应(PCR)扩增线性、双链连接产物的文库，以获得线性、双链连接产物的扩增文库，其包含靶序列的序列信息。该扩增可以是无偏扩增，例如，通过将通用接头对连接至双链连接产物的末端，并用通用引物对扩增所有标记的双链连接产物。在其他实施方案中，进行半靶向扩增用以代替无偏扩增，或除无偏扩增外再进行半靶向扩增。所述半靶向扩增可以在无偏扩增之前或之后进行。

在一个方面，如图6所示，双链连接产物文库的半靶向扩增包括使用包含与所述接头反向互补和/或可杂交的序列的引物，以及与靶序列(例如，EGFR基因序列)可杂交的引物或与相同靶序列或多个靶序列可杂交的引物。

对于具有以下结构的接头：/5’Phos/N

在一个方面，可以使用多种靶特异性引物，每种引物包含对相同或不同的靶序列具有特异性的序列。换句话说，引物可以具有相同或不同的靶序列。在一些实施方案中，靶标特异性引物库包含约5、约10、约25、约50、约100、约150、约200、约250、约300、约400、约500、约600、约700、约800、约900、约1000、或大于约1000个不同的引物，例如约10

由于ctDNA随机断裂，因此在一个方面，靶标特异性引物的引物位置可能很重要。例如，如果引物着陆跨越一个断裂点，则可能导致较低的转化率。更大的靶标特异性引物库和/或对同一靶序列使用多个部分重叠的引物可以解决该问题。

在一个方面，靶序列的序列信息可包括突变、单核苷酸多态性(SNP)、拷贝数变异(CNV)或表观遗传改变。在一个方面，突变包括点突变、插入、缺失、倒位、截短、融合、扩增、或其任何组合。

在一些实施方案中，所述线性、双链连接产物的扩增文库可以是除整个基因组文库以外的文库，例如，半靶向基因组文库。

在一些实施方案中，所述方法还可包括纯化线性、双链连接产物的扩增文库。可以使用任何合适的方法去除较小的片段，包括引物二聚体。例如，使用Qiagen的PCR纯化柱可以帮助消除样品中较小的片段，并且在2％认证的低范围超琼脂糖凝胶上运行柱纯化的样品可以帮助选择所需的片段大小。基于珠子的DNA纯化(包括AMPure方法)也有助于去除较小的片段。在一些实施方案中，所述扩增产物的大小为约100bp至约600bp，例如约100bp至约400bp、约150bp至约200bp、约200bp至约250bp、以及约250bp至约300bp。在一个实施方案中，例如通过洗脱悬浮在Tri-EDTA缓冲液中的珠子来纯化和收集dsDNA(>150bp且<400bp)。

在一个方面，所述纯化基于珠子。在另一个方面，所述纯化基于大小选择，例如，所述纯化步骤选择性地纯化长度大于约150个核苷酸的多核苷酸。在另一个方面，所述纯化不包括使用特异性结合对(例如生物素/链霉亲和素)，其中一个附着到线性、双链连接产物上，另一个附着到固体支持物(例如珠子)上。在一个方面，所述纯化基于柱，例如，通过使用dsDNA或ssDNA纯化柱，例如来自Zymo或Qiagen的那些纯化柱。

在一个方面，所述方法还包括对线性的、双链连接产物的纯化的扩增文库进行测序。在一个方面，所述测序步骤包括将测序接头和/或样品特异性条形码连接至各线性、双链连接产物。在一个特定的方面，使用聚合酶链式反应(PCR)进行所述连接步骤。

图7显示了包含用于测序的靶分子的构建体的示例性配置。对于Illumina测序，这些构建体在每一端都有流通池结合位点P5和P7，这些位点允许文库片段附着到流通池表面。单链文库片段的P5和P7区退火至它们在流通池表面的互补寡核苷酸。流通池寡核苷酸充当引物，并合成与文库片段互补的链。然后，原始链被洗掉，留下片段拷贝，这些片段拷贝以混合的方向共价结合到流通池表面。然后通过桥扩增产生每个片段的拷贝，产生簇。然后，切割P5区，产生仅包含由P7区连接的片段的簇。这样可以确保所有拷贝都按相同方向测序。测序引物退火至片段的P5末端，并开始通过合成过程进行测序。当样品带有条形码时，将进行索引读段。读段1完成后，将删除来自读段1中的所有内容并添加索引引物，其在片段的P7末端退火并对条形码进行测序。然后，将所有东西从模板上剥离下来，这如读段1那样通过桥扩增形成簇。这留下了片段拷贝，这些片段拷贝以混合的方向共价结合到流通池表面。这次，剪切了P7而非P5，产生仅包含由P5区连接的片段的簇。这样可确保所有拷贝都按相同方向(与读段1相反)测序。测序引物退火至P7区并对模板的另一端测序。

下一代测序平台如MiSeq(Illumina Inc.，San Diego，CA)可用于高度多重测定读取。各种统计工具，例如比例测试、基于错误发现率的多重比较校正(参见Benjamini andHochberg,1995,Journal of the Royal Statistical Society Series B(Methodological)57,289-300)和多次测试的Bonferroni校正，可用于分析测定结果。此外，为从RNA-Seq数据中分析差异表达而开发的方法可用于减少每个靶序列的差异并提升分析的总体能力。参见Smyth,2004,Stat.Appl.Genet.Mol.Biol.3,Article 3。

总体上，在一些实施方案中，本申请所述方法的转化率为至少约40％，至少约50％，至少约60％，至少约70％，至少约80％，至少约90％或至少约95％。在一个方面，转化率是初始文库中产生测序读段的靶单链多核苷酸的百分比。

在任何前述实施方案中，所述方法可用于诊断和/或预后受试者中的疾病或病症，预测受试者对治疗的反应性，鉴定疾病/病症或治疗的药物遗传学标志物，和/或从人群中筛选遗传信息。在一个方面，所述疾病或病症是癌症或肿瘤形成，并且所述治疗是癌症或肿瘤形成的治疗。

突变的DNA分子相比癌症相关的生物标志物具有独特的优势，因为它们太具有特异性。虽然个体正常细胞中会有发生率较低(约10

基于本文的测序结果，可以检测患者中的循环肿瘤DNA，并且可以进行癌症诊断和关于肿瘤复发的预测。基于这些预测，可以做出治疗和监测决策。例如，指示未来复发的循环肿瘤DNA会导致其他的或更积极的疗法以及其他的或更复杂的成像和监测。循环DNA是指对肿瘤异位的DNA。

可以监测ctDNA的样品包括血液和粪便。血液样品可以是例如血液的一部分，例如血清或血浆。类似地，粪便可以分级分离以从其它成分中纯化DNA。肿瘤样品用于鉴定肿瘤中的体细胞突变基因，其可用作体内其他部位的肿瘤标志物。因此，例如，可以通过本领域已知的任何标准方法鉴定肿瘤中的特定体细胞突变。典型的手段包括使用等位基因特异性探针、等位基因特异性扩增、引物延伸等对肿瘤DNA进行直接测序。一旦鉴定了体细胞突变，它就可以在身体的其他部位使用，以将肿瘤来源的DNA和来自身体的其他细胞的DNA区分开来。通过确定它们不会发生在同一患者身体的正常组织中来确认体细胞突变。可以以此方式诊断和/或监测的肿瘤类型实际上是无限的。任何使细胞和/或DNA脱落到血液或粪便或其他体液中的肿瘤都是可以使用的。除结直肠肿瘤外，此类肿瘤还包括乳腺、肺、肾、肝、胰腺、胃、脑、头颈、淋巴、卵巢、子宫、骨、血液等的肿瘤。

在一个方面，本文公开的方法可用于构建文库，所述文库用于测序和/或确定靶序列的一个或多个区域的表观遗传状态/状况。DNA甲基化是最先发现的表观遗传标记。表观遗传学是由除潜在DNA序列变化以外的机制引起的基因表达或细胞表型变化的研究。甲基化主要涉及在二核苷酸CpG的胞嘧啶残基的碳-5位上添加甲基，并与转录活性的阻抑或抑制有关。

亚硫酸氢盐转化是使用亚硫酸氢盐试剂处理DNA以确定其甲基化模式。用亚硫酸氢盐处理DNA能将胞嘧啶残基转化为尿嘧啶，但5-甲基胞嘧啶残基不受影响。因此，亚硫酸氢盐处理在DNA序列中引入了特定的变化，所述变化取决于各个胞嘧啶残基的甲基化状态。可以对改变的序列进行各种分析以检索该信息，例如，以便区分由亚硫酸氢盐转化产生的单核苷酸多态性(SNP)。美国专利号7,620,386、美国专利号9,365,902和美国专利申请公开2006/0134643，举例说明了本领域普通技术人员已知的有关检测由于亚硫酸氢盐转化而改变的序列的方法，所述所有专利通过引用并入本文。

如上所述，亚硫酸氢盐转化的一个结果是原始靶标的双链构象由于序列互补性的丧失而被破坏。虽然这可能会给构建双链文库的传统方法带来问题，但在一个方面，本申请所述方法特别适合从亚硫酸氢盐转化样品构建单链文库用于测序分析。

在另一个方面，本申请所述方法可以与用于确定甲基化状态/状况的方法结合使用，例如，如2017年4月19日提交的标题为“Compositions and Methods for Detection ofGenomic Variance and DNA Methylation Status”的美国临时申请号___(代理人案卷号737993000100)中所述，出于所有目的将其全部内容通过引用并入本文。在一个实施方案中，在脱磷酸化和/或变性步骤之前，使样品与甲基化敏感性限制酶(MSRE)接触，然后通过如本文所公开的连接来构建单链文库用于分析甲基化概况。

在任一前述实施方案中，所述ssDNA连接酶可以是Thermus噬菌体RNA连接酶如噬菌体TS2126 RNA连接酶(例如CircLigase

在一些实施方案中，本申请所述方法包括使用单链DNA(ssDNA)连接酶将一组接头连接至单链多核苷酸的文库。可以使用任何合适的ssDNA连接酶，包括本文公开的那些。接头可以以任何合适的水平或浓度使用，例如约1μM至约100μM，例如约1μM、10μM、20μM、30μM、40μM、50μM、60μM、70μM、80μM、90μM或100μM，或其任何子范围。接头可包含任何合适的序列或碱基或以任何合适的序列或碱基开始。例如，接头序列可以以所有2bp碱基组合开头。

在一些实施方案中，所述连接反应可以在存在拥挤剂的条件下进行。在一个方面，拥挤剂包括聚乙二醇(PEG)，例如PEG 4000、PEG 6000或PEG 8000、右旋糖酐和/或Ficoll。拥挤剂，例如PEG，可以以任何合适的水平或浓度使用。例如，拥挤剂，例如PEG，可以以约0％(w/v)至约25％(w/v)的水平或浓度使用，例如，约0％(w/v)、1％(w/v)、2％(w/v)、3％(w/v)、4％(w/v)、5％(w/v)、6％(w/v)、7％(w/v)、8％(w/v)、9％(w/v)、10％(w/v)、11％(w/v)、12％(w/v)、13％(w/v)、14％(w/v)、15％(w/v)、16％(w/v)、17％(w/v)、18％(w/v)、19％(w/v)、20％(w/v)、21％(w/v)、22％(w/v)、23％(w/v)、24％(w/v)或25％(w/v)，或其任何子范围。

在一些实施方案中，所述连接反应可以进行任何合适的时间长度。例如，所述连接反应可以进行约2小时至约16小时、％的时间，例如约2小时、3小时、4小时、5小时、6小时、7小时、8小时、9小时、10小时、11小时、12小时、13小时、14小时、15小时或16小时、或其任何子范围。

在一些实施方案中，所述连接反应中的所述ssDNA连接酶可以以任何合适的体积使用。例如，所述连接反应中的所述ssDNA连接酶可以以约0.5μl至约2μl，％，的体积使用，例如约0.5μl、0.6μl、0.7μl、0.8μl、0.9μl、1μl、1.1μl、1.2μl、1.3μl、1.4μl、1.5μl、1.6μl、1.7μl、1.8μl、1.9μl或2μl、或其任何子范围。

在一些实施方案中，所述连接反应可以在存在连接增强剂例如甜菜碱的条件下进行。连接增强剂，例如甜菜碱，可以以任何合适的体积使用，例如，约0ul至约1μl，例如约0μl、0.1μl、0.2μl、0.3μl、0.4μl、0.5μl、0.6μl、0.7μl、0.8μl、0.9μl、1μl或其任何子范围。

在一些实施方案中，可以使用T4 RNA连接酶I(例如来自New EnglandBiosciences，的T4 RNA连接酶I，M0204S)在以下示例性反应混合物(20μl)中进行连接反应：1X反应缓冲液(50mM Tris-HCl，pH 7.5、10mM MgCl2、1mM DTT)，25％(wt/vol)PEG8000、1mM六胺氯化钴(任选)，1μl(10单位)T4 RNA连接酶和1mM ATP。该反应可以在25℃下孵育16小时。通过加入40μl的10mM Tris-HCl pH 8.0，2.5mM EDTA来终止反应。

在一些实施方案中，可以使用热稳定的5'App DNA/RNA连接酶(例如来自NewEngland Biosciences的热稳定的5'App DNA/RNA连接酶，M0319S)，在以下示例性反应混合物(20μl)中进行连接反应：ssDNA/RNA基底20pmol(1pmol/ul)、5′App DNA寡核苷酸40pmol(2pmol/μl)、10X NEBuffer 1(2μl)、50mM MnCl2(仅用于ssDNA连接)(2μl)、热稳定的5'AppDNA/RNA连接酶(2μl(40pmol))和无核酸酶的水(至20μl)。该反应可以在65℃下孵育1小时。通过在90℃加热3分钟来终止反应。

在一些实施方案中，可以使用T4 RNA连接酶2(例如来自New EnglandBiosciences的T4 RNA连接酶2，M0239S)，在以下示例性反应混合物(20μl)中进行连接反应：T4RNA连接酶缓冲液(2μl)、酶(1μl)、PEG(10μl)、DNA(1μl)、接头(2μl)和水(4μl)。该反应可以在25℃下孵育16小时。通过在65℃加热20分钟来终止反应。

在一些实施方案中，可以使用T4 RNA连接酶2截短型(例如来自New EnglandBiosciences的T4 RNA连接酶2截短型，M0242S)，在以下示例性反应混合物(20μl)中进行连接反应：T4 RNA连接酶缓冲液(2μl)、酶(1μl)、PEG(10μl)、DNA(1μl)、接头(2μl)和水(4μl)。该反应可以在25℃下孵育16小时。通过在65℃加热20分钟来终止反应。

在一些实施方案中，可以使用T4 RNA连接酶2截短型K227Q(例如来自New EnglandBiosciences的T4 RNA连接酶2截短型K227Q，M0351S)，在以下示例性反应混合物(20μl)中进行连接反应：T4 RNA连接酶缓冲液(2μl)、酶(1μl)、PEG(10μl)、DNA(1μl)、腺苷酸化接头(0.72μl)和水(5.28μl)。该反应可以在25℃下孵育16小时。通过在65℃加热20分钟来终止反应。

在一些实施方案中，可以使用T4 RNA连接酶2截短型KQ(例如来自New EnglandBiosciences的T4 RNA连接酶2截短型KQ，M0373S)，在以下示例性反应混合物(20μl)中进行连接反应：T4 RNA连接酶缓冲液(2μl)、酶(1μl)、PEG(10μl)、DNA(1μl)、腺苷酸化接头(0.72μl)和水(5.28μl)。该反应可以在25℃下孵育16小时。通过在65℃加热20分钟来终止反应。

在一些实施方案中，可以使用T4 DNA连接酶(例如来自New England Biosciences的T4 DNA连接酶，M0202S)，在以下示例性反应混合物(20μl)中进行连接反应：T4 RNA连接酶缓冲液(2μl)、酶(1μl)、PEG(10μl)、DNA(1μl)、腺苷酸化接头(0.72μl)和水(5.28μl)。该反应可以在16℃下孵育16小时。通过在65℃加热10分钟来终止反应。

可以使用任何合适的酶进行第二链合成步骤。例如，可以使用Bst聚合酶(如NewEngland Biosciences,M0275S)或Klenow片段((3’->5’exo-)(如New EnglandBiosciences,M0212S)进行第二链合成步骤。

在一些实施方案中，可以使用Bst聚合酶(如New England Biosciences，M0275S)，在以下示例性反应混合物(10μl)中进行所述第二链合成步骤：水(1.5μl)、引物(0.5μl)、dNTP(1μl)、ThermoPol反应缓冲液(5μl)和Bst(2μl)。该反应可以在62℃下孵育2分钟，并在65℃下孵育30分钟。反应后，将双链DNA分子进一步纯化。

在一些实施方案中，可以使用Klenow片段((3’->5’exo-)(如New EnglandBiosciences,M0212S)，在以下示例性反应混合物(10μl)中进行所述第二链合成步骤：水(0.5μl)、引物(0.5μl)、dNTP(1μl)、NEB缓冲液(2μl)和exo-(3μl)。该反应可以在37℃下孵育5分钟，并在75℃下孵育20分钟。反应后，将双链DNA分子进一步纯化。

在第二链合成之后，但是在第一或半靶向PCR之前，可以纯化双链DNA。可以使用任何合适的技术或方法纯化双链DNA。例如，可以使用以下任何一种试剂盒纯化双链DNA：Zymoclean and concentrator，Zymo research，D4103；Qiaquick，Qiagen，28104；Zymo ssDNA纯化试剂盒，Zymo Research，D7010；Zymo Oligo纯化试剂盒，Zymo Research，D4060；和AmpureXP珠，Beckman Coulter，A63882:1.2x-4x珠比率。

可以使用任何合适的酶或反应条件进行第一或半靶向PCR。例如，多核苷酸或DNA链可以在约52℃至约72℃范围内的温度下进行退火，例如在约52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃或72℃，或其任何子范围下。第一或半靶向PCR可以进行任何合适的循环轮次。例如，第一或半靶向PCR可以进行10-40个循环，例如10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个循环。引物库可以以任何合适的浓度使用。例如，引物库可以以约5nm至约200nM范围内的浓度使用，例如以约5nm、6nm、7nm、8nm、9nm、10nm、20nm、30nm、40nm、50nm、60nm、70nm、80nm、90nm、100nm、110nm、120nm、130nm、140nm、150nm、160nm、170nm、180nm、190nm或200nm，或其任何子范围使用。

可以使用任何合适的温度循环条件进行第一或半靶向PCR。例如，可以使用以下任一种循环条件进行第一或半靶向PCR：95℃ 3分钟，(95℃ 15秒，62℃ 30秒，72℃ 90秒)x3或x5；或(95℃ 15秒，72℃ 90秒)x23或x 21、72℃ 1分钟，一直4℃。

在一些实施方案中，可以使用KAPA SYBR FAST(例如，KAPA biosciences，KK4600)在以下示例性反应混合物(50μl)中进行所述第一或半靶向PCR：DNA(2μl)、KAPASYBR(25μl)、引物库(各26nM)(10μl)、Aprimer(100uM)(0.4μl)和水(12.6μl)。可以使用以下任一种循环条件进行所述第一或半靶向PCR：95℃ 30秒，(95℃ 10秒、50-56℃45秒、72℃ 35秒)x40。

在一些实施方案中，可以使用KAPA HiFi(例如，KAPA Biosciences，KK2601)，在以下示例性反应混合物(50μl)中进行所述第一或半靶向PCR：DNA(15μl)，KAPAHiFi(25μl)，引物库(各26nM)(10μl)和Aprimer(100uM)(0.4μl)。可以使用以下任意一种循环条件进行所述第一或半靶向PCR：95℃ 3分钟(98℃ 20秒，53-54℃ 15秒，72℃ 35秒)x15、72℃ 2分钟，一直4℃。

可以使用任何合适的技术、程序或试剂进行亚硫酸氢盐转化。在一些实施方案中，可以使用以下任一种试剂盒和所述试剂盒中提供的程序进行亚硫酸氢盐转化：EpiMark亚硫酸氢盐转化试剂盒，New England Biosciences，E3318S；EZ DNA甲基化试剂盒，ZymoResearch，D5001；MethylCode亚硫酸氢盐转化试剂盒，Thermo Fisher Scientific，MECOV50；EZ DNA甲基化金试剂盒，Zymo Research，D5005；EZ DNA甲基化直接试剂盒，ZymoResearch，D5020；EZ DNA甲基化闪电试剂盒，Zymo Research，D5030T；EpiJET亚硫酸氢盐转化试剂盒，Thermo Fisher Scientific，K1461；或EpiTect亚硫酸氢盐试剂盒，Qiagen，59104。

在一些实施方案中，可以使用实施例4中所示的方法制备DNA分子，包括用于构建单链多核苷酸，将单链多核苷酸文库转化为双链多核苷酸文库，半靶向扩增双链多核苷酸文库和构建序列文库的步骤。可以使用任何合适的方法或程序进一步分析此类DNA分子的甲基化状态。

G.实施例

在这个实施例中，分析了表1中列出的10个靶区域的甲基化状态：靶标30、靶标369、靶标677、靶标1558、靶标1628、靶标1691、靶标1725、靶标1795、靶标1823、靶标1841。将甲基化指标计算为非甲基化单倍型负荷(uMHL)。分析中使用的分类方法为支持向量机。

开发了研究上述列出的10个靶区域的实验面板。使用实验面板处理了八(8)个健康结肠和40个结肠癌组织样品，并针对每个靶区域计算了uMHL指标以创建数据矩阵。为了开发基于SVM的分类器，选择了4个健康结肠和20个结肠癌组织样品亚集作为“训练”集。训练集样品用于在Python中拟合基于SVM的分类器(使用scikit-learn库)(图2)。然后使用基于SVM的分类器来预测其余24个“测试”样品集的类别。分类器能够在测试集中达到100％的准确度，并能正确鉴定结肠组织样品是否癌变。

在这个实施例中，分析了表1中列出的95个靶区域的甲基化状态：靶标35、靶标36、靶标102、靶标115、靶标117、靶标118、靶标120、靶标136、靶标141、靶标154、靶标155、靶标166、靶标207、靶标226、靶标241、靶标243、靶标252、靶标253、靶标267、靶标284、靶标338、靶标397、靶标398、靶标422、靶标423、靶标432、靶标439、靶标440、靶标445、靶标460、靶标461、靶标504、靶标514、靶标574、靶标575、靶标589、靶标596、靶标625、靶标626、靶标637、靶标640、靶标650、靶标674、靶标691、靶标693、靶标710、靶标736、靶标840、靶标852、靶标867、靶标868、靶标884、靶标903、靶标911、靶标916、靶标926、靶标936、靶标940、靶标941、靶标1005、靶标1041、靶标1048、靶标1085、靶标1093、靶标1113、靶标1139、靶标1181、靶标1182、靶标1183、靶标1216、靶标1229、靶标1240、靶标1311、靶标1324、靶标1333、靶标1340、靶标1342、靶标1356、靶标1357、靶标1385、靶标1392、靶标1403、靶标1408、靶标1489、靶标1521、靶标1566、靶标1584、靶标1609、靶标1616、靶标1626、靶标1630、靶标1635、靶标1655和靶标1656。将甲基化指标计算为不一致读段百分比(PDR)。分析中使用的分类方法是K近邻法。

开发了研究上述列出的95个靶区域的实验面板。使用实验面板处理了四十(40)个肺癌组织样品，10个健康血浆样品和4个肺癌血浆样品，并针对每个靶区域计算了PDR指标以创建数据矩阵。为了开发基于K近邻法的分类器，选择了10个健康血浆和40个肺癌组织样品亚集作为“训练”集。对于剩余的测试集样品，在Python中计算了与所有训练集样品的欧氏距离(使用seaborn.clustermap函数)(图3a)。将每个样品分配到其最近训练集邻居的类别；这导致血浆样品中的灵敏度为75.00％，特异性为100.00％。

测试或分析结果示于图3b中。每条垂直线代表一个单独样品。紫色样品是已知的癌症样品。绿色样品是已知的正常样品。红色样品是未知样品(它们实际上是癌症样品)。蓝色样品是未知样品(它们实际上是正常样品)。在这个分析中，所有五个蓝色样品与绿色样品最相似，因此都被称为正常样品(特异性为100％)。四份红色样品中有三份与紫色样品最相似，因此四分之三被称为癌症(灵敏度为75％)。一个红色样品与绿色样品最相似，因此被误认为是正常样品。

在这个实施例中，分析了表1中列出的86个靶区域的甲基化状态：靶标11、靶标35、靶标36、靶标102、靶标115、靶标141、靶标154、靶标155、靶标168、靶标184、靶标209、靶标210、靶标211、靶标226、靶标241、靶标284、靶标323、靶标333、靶标338、靶标397、靶标432、靶标439、靶标440、靶标460、靶标472、靶标482、靶标485、靶标570、靶标574、靶标589、靶标596、靶标616、靶标637、靶标660、靶标661、靶标674、靶标692、靶标693、靶标710、靶标728、靶标840、靶标852、靶标867、靶标868、靶标903、靶标911、靶标916、靶标940、靶标941、靶标942、靶标1048、靶标1055、靶标1061、靶标1085、靶标1093、靶标1116、靶标1122、靶标1129、靶标1139、靶标1142、靶标1190、靶标1191、靶标1212、靶标1213、靶标1216、靶标1229、靶标1247、靶标1248、靶标1296、靶标1297、靶标1311、靶标1322、靶标1324、靶标1340、靶标1342、靶标1343、靶标1356、靶标1378、靶标1392、靶标1403、靶标1447、靶标1522、靶标1535、靶标1543、靶标1566、靶标1616。将甲基化指标计算为平均甲基化频率(AMF)。分析中使用的分类方法是逻辑回归法。

开发了研究以上列出的86个靶区域的实验面板。使用实验面板处理了二十(20)个健康血浆样品，5个肺癌血浆样品，4个肝癌血浆样品，1个乳腺癌血浆样品，1个卵巢癌血浆样品和2个食道癌血浆样品，并为每个靶区域计算AMF指标以创建数据矩阵。为了开发基于逻辑回归的分类器，选择了10个健康血浆和6个癌症血浆样品的子集作为“训练”集。在Python中将逻辑回归模型对所有靶区域的平均甲基化值的总和进行拟合(使用sklearn模块)(图4)。然后预测了剩余测试集样品的癌症状态；这导致血浆样品中的灵敏度为85.71％，特异性为80.00％。

在该实施例中，模板(例如，待测序的多核苷酸)是小于约200bp长的短DNA片段。这些DNA片段可以包括从血浆中提取的DNA，酶处理过的(例如通过片段酶处理的)基因组DNA，或物理剪切的DNA。物理剪切的DNA可以进行末端修复。在特定方面，模板具有用于连接的3'羟基。

通常，例如使用1U的FastAP热敏碱性磷酸酶(Thermo Scientific)，在100mM MOPS(pH 7.5)、20mM KCl、10mM MgCl

用5'磷酸基和3'碳间隔子由IDT合成单链接头。5'端包含GA，后接12聚体的唯一分子标识符(UMI)序列。典型的单链接头具有以下序列：/5Phos/GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG/3SpC3/(“5Phos”代表5'磷酸基团，“NNNNNNNNNNNN”代表12聚体的UMI序列，“3SpC3”代表3'碳间隔子。

然后使用脱磷酸的单链DNA作为模板进行连接反应。在连接反应中使用以下最终浓度：50mM MOPS(pH 7.5),10mM KCl,5mM MgCl

然后通过将先前反应体积添加到以下溶液中，使DNA双链化：10mM Tris-HCl(pH8.3)、50mM KCl、1.5mM MgCl

接头/5Phos/GANNNNNNNNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTG/3SpC3/

:::::::::::::::::::::

引物CGCAGCACATCCCTTTCTCAC

然后使用1.6(珠比率)×

设计一组PCR引物以使引物-引物相互作用和脱靶退火最小化。进一步优化了引物，使其着陆在特定变体附近。设计完成后，由IDT合成引物。将引物以相等的体积比混合到引物库中。使用以下试剂进行半靶向PCR反应：来自先前反应的所有纯化DNA，1×KAPA2G多重反应混合物，66nM的库中各引物，和800nM的反向互补引物。反应进行以下热循环程序：95℃ 3分钟，(95℃ 15秒，72℃ 90秒)×20、72℃ 1分钟，并保持在4℃。

然后使用1.6(珠比率)×

然后完成另一个PCR反应以添加全长测序接头和样品特异性条形码。PCR反应包含以下：来自先前反应的2μL纯化DNA，1×NEB ultra Q5 II反应混合物，400nM通用引物和400nM条形码特异性引物。反应进行以下热循环程序：95℃ 3分钟，(98℃ 10秒，65℃75秒)×10、65℃ 2分钟，并保持在4℃。

然后使用0.8(珠比率)×

完整全部详细技术资料下载