掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本申请提供的系统、方法和组合物涉及从样品中提取基因座特异性cfDNA拷贝数信号以进行健康监测、诊断或细胞表征和分析的方法。具体而言,所述系统、方法和组合物涉及用于分析样品中的无细胞DNA(cfDNA),以确定组织或细胞类型对样品中总cfDNA的相对贡献的方法。本申请提供的方法利用序列特异性cfDNA覆盖度、强度或拷贝数信号,并且不涉及直接测定cfDNA的甲基化状态。

背景技术

近年来,无细胞DNA(cfDNA)已经成为用于疾病诊断的生物标志物发现的有前景的来源。具体而言,胎儿cfDNA和完整胎儿细胞可以进入母体血液循环。因此,对这种胎儿遗传物质的分析可以允许早期非侵入性产前测试(NIPT)。对胎儿cfDNA进行NIPT的关键挑战是胎儿cfDNA通常与母体cfDNA混合在一起,因此cfDNA的分析受到的阻碍在于需要考虑母体基因型信号。此外,cfDNA的分析可用作检测和诊断癌症的诊断工具。

当前用于从无细胞核酸样品(例如,血浆样品)制备测序文库的方案通常涉及分离cfDNA以制备用于分析的测序文库。然而,分析cfDNA的现有方法,无论是用于NIPT还是肿瘤学应用,都依赖于从cfDNA测序中提取遗传变化的信号,因此限于NIPT和肿瘤学。

发明概述

本申请涉及用于分析样品中的cfDNA以提取用于定量样品中cfDNA的组织和/或细胞特异性部分的cfDNA基因座特异性拷贝数信号的系统、方法和组合物。

本申请提供的一些实施方案涉及分析生物样品中的无细胞DNA(cfDNA)的方法。在一些实施方案中,样品来自具有潜在细胞死亡或组织或疾病损伤的人类个体。在一些实施方案中,细胞死亡或组织/器官损伤包括钝性创伤(例如头部创伤)、对肝脏或肾脏的药物毒性、涉及器官损伤的疾病(例如心肌病中的心脏损伤、肾病中的肾损伤、肝病中的肝脏损伤或糖尿病中的β细胞死亡)。在一些实施方案中,细胞死亡或组织/器官损伤包括癌症或妊娠,其发生过量的细胞死亡或细胞更新。

在一些实施方案中,所述方法包括获得包含cfDNA的生物样品,其中所述cfDNA包含多个cfDNA片段,每个片段对应于一种或多种组织或细胞类型;定量每个cfDNA片段以产生全基因组或靶向(基因座特异性)cfDNA谱,其中所述全基因组cfDNA谱包含多个拷贝数信号,每个拷贝数(包括覆盖度或强度)信号对应于一个cfDNA片段;以及将全基因组cfDNA拷贝数信号谱与参考拷贝数信号谱的集合进行比较,以确定或定量细胞损伤、组织损伤或器官损伤的来源。在一些实施方案中,所述方法任选地包括通过下拉(pull down)或PCR从样品中富集cfDNA以提供富集的cfDNA。

本申请提供的一些实施方案涉及监测个体中组织或器官损伤进展的方法。在一些实施方案中,所述方法包括从个体获得生物样品,其中所述生物样品包含无细胞DNA(cfDNA);定量所述样品中的cfDNA,以获得包括多个拷贝数信号的全基因组cfDNA拷贝数信号谱,每个拷贝数信号对应于具体细胞类型或组织类型的cfDNA片段;以及将所述全基因组cfDNA拷贝数信号谱与健康个体或纯组织类型的已知拷贝数信号谱的集合进行比较。在一些实施方案中,定量在不利用PCR或富集的情况下进行。在一些实施方案中,样品中拷贝数信号与已知拷贝数信号的差异与个体中与组织或器官损伤相关的状况相关。

附图简要说明

图1示出了描绘cfDNA沿目标染色体位置的肾组织和血液信号谱的图。使用非负矩阵分解方法从肾病患者的获自cfDNA测序的血浆cfDNA拷贝数信号中提取组织/细胞类型特异性信号。通过对cfDNA样品进行多重PCR分析靶区域。

图2描绘了显示基于血浆中肾脏cfDNA分数的定量来预测患者肾衰竭的结果的图。

图3A和3B描绘了一组肾移植接受者中来自肾组织的DNA比例以时间函数的时程模式的曲线图。图3A显示供体肾脏cfDNA的估计肾分数,图3B显示患者自身肾脏cfDNA的估计肾分数。图3A和3B均显示随时间的统计学显著的变化,并且时间变化的模式与这些患者已知的生物医学程序一致。

图4描述了结肠cfDNA在各种疾病中的组分分数,其中发现克罗恩病的分数显著大于所分析的其它疾病中的分数。

图5描述了评估cfDNA样品用于组织cfDNA定量的方法的框图。

发明详细描述

下面的详细描述参考附图,附图构成详细描述的一部分。在附图中,除非上下文另有规定,否则类似的附图标记通常标识类似的组件。在详细描述、附图和权利要求中描述的示例性实施方案不意味着是限制性的。可以利用其它实施方案,并且可以进行其它改变,这不脱离本申请提出的主题的精神或范围。能够容易理解,如本申请一般性描述和在附图中所示的本申请的各个方面可以以多种不同的配置来设置、替换、组合、分离和设计,所有这些都在本申请明确考虑范围内。

本申请提供的系统、方法和组合物的实施方案涉及分析样品中的核酸片段,以确定有多少核酸片段源自个体身体的不同部分的基因组的不同部分。更具体地,本申请提供的系统、方法和组合物涉及分析样品中的cfDNA群体,以确定来自个体身体的不同部分的基因组的不同部分的cfDNA的相对量。因此,所述系统、方法和组合物涉及cfDNA的组织来源定量,并且可用于涉及细胞死亡升高或遗传改变升高的广泛应用,包括例如用于监测疾病进展、监测器官或组织健康、诊断或检测疾病、确定药物功效或毒性或新生儿健康监测。

在一个实施方案中,已知携带cfDNA的生物样品(例如血浆)取自怀疑患有具体类型的器官损伤或细胞更新升高的个体。对生物样品中的cfDNA进行全基因组序列(WGS)分析,以鉴定可能显示出比典型个体更多或更少的cfDNA的基因组区域。例如,如果个体患有肝脏损伤或肾衰竭,则与基线对照群体相比,可以预期观察到更多的来源于肝脏或肾脏的cfDNA。一旦完成序列分析,就通过各种不同的机器学习、人工智能或其它方案对其进行比较,以鉴定来自个体的cfDNA与基线对照的差异。在一个实施方案中,分析的一部分工作可包括定量来自个体和正常基线对照的不同组织的cfDNA的相对分数。在一些实施方案中,定量可包括以下之一或两者:确定参考组织谱的集合,和基于全基因组cfDNA覆盖度数据定量cfDNA样品中组织cfDNA的分数。

例如,对于一组正常和/或患病样品的全基因组或目标cfDNA拷贝数谱,得到一组参考cfDNA覆盖度谱,所得线性组合从正常和/或患病样品重建cfDNA拷贝数信号。每个参考谱对应于具体的细胞或组织类型。使用非监督机器学习方法(例如非负矩阵分解),可以分解来自个体的cfDNA信号并提取参考组织或细胞特异性谱,从而产生基线参考谱。根据体液类型,优势细胞或组织类型可以是不同的。例如,对于血浆,白细胞信号谱将是主要的贡献者。在图1中描述了沿着目标染色体位置提取的cfDNA的肾组织和血液信号谱的示例性分析。

传统的分析cfDNA的方法需要序列特异性检测,这限制了分析的灵敏度,并且不能提供准确、可靠或可重复的对个体内每种组织类型对生物样品中总cfDNA的相对贡献的测定。例如,与正常样品相比,传统方法可能不能确定样品中有多少cfDNA来自肺、脾、肝脏,肾脏等。cfDNA测序的现有方法用于涉及监测移植组织或癌症状态的应用。然而,这种方法需要基于等位基因的分析,这需要对供体和宿主或肿瘤和正常之间的单核苷酸变异进行测序和检测。没有现有的方法可以从cfDNA测序、阵列杂交或类似方法定量个体自身的器官健康状态。

此外,监测器官或组织健康的传统方法通过组织活检实施。组织活检可用于基于具体组织检查和确定疾病的存在或程度,并且可通过从取自个体的组织活检样品中提取细胞或组织来进行。然而,这些方法是侵入性的、耗时的、昂贵的,并且通常具有增加的无法预期的健康后果的风险。

相比之下,本申请的系统、方法和组合物涉及测定源自各种组织的cfDNA片段的量。此外,本申请的系统、方法和组合物是非侵入性的,并且可以提供对细胞死亡或组织损伤的动态学的立即确定。本申请提供的系统、方法和组合物可以允许在发现个体身体的临床症状或功能退化之前早期检测多种适应症。此外,这些方法不需要选择具体的目标器官,而是使医护人员能够发现哪个器官可能恶化,这是使用组织活检作为筛查方法不可能实现的。与此相关的是,所述方法、系统和组合物能够在单次分析中一次定量和监测多个器官,比组织活检方法具有更少的取样偏差。

除非另有说明,本申请公开的方法和系统的实践涉及在分子生物学、微生物学、蛋白质纯化、蛋白质工程、蛋白质和DNA测序和重组DNA领域中常用的常规技术和装置,它们在本领域的技术范围内。这样的技术和装置是本领域技术人员已知的,并且在大量的教科书和参考文献中进行了描述(参见,例如,Sambrook et al.,“Molecular Cloning:ALaboratory Manual,”Third Edition(Cold Spring Harbor),[2001]);和Ausubel etal.,“Current Protocols in Molecular Biology”[1987])。

数值范围包括定义该范围的数值。在本说明书中给出的每个最大数值限定包括每个更低的数值限定,如同这些更低的数值限定在本申请中被明确地写出一样。本说明书给出的每个最小数值限定包括每个更高的数值限定,如同这种更高的数值限定在本申请中被明确地写出一样。本说明书给出的每个数值范围包括落在这样的较宽的数值范围内的每个较窄的数值范围,如同这样的较窄的数值范围在本申请中被明确地写出一样。

除非本申请另有定义,否则本申请使用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同的含义。包括本申请内的术语的各种科学词典是本领域技术人员公知的和可得到的。尽管与本申请描述的方法和材料类似或等同的任何方法和材料可用于本申请公开的实施方案的实践或测试,但本申请描述了一些方法和材料。

下面定义的术语通过整体参考说明书来更充分地描述。应当理解,本申请不限于所描述的具体方法、方案和试剂,因为这些方法、方案和试剂可以根据本领域技术人员所使用的情景而变化。如本申请所用单数术语“a”、“an”和“the”包括复数含义,除非上下文另有明确相反指示。

除非另有说明,核酸以5'至3'方向从左至右书写,氨基酸序列以氨基至羧基方向从左至右书写。

如本申请所用,"多核苷酸"和"核酸″可以互换使用,并且可以指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此,这些术语包括单链、双链或多链DNA或RNA。多核苷酸的实例包括基因或基因片段、无细胞DNA(cfDNA)、全基因组DNA、基因组DNA、表观基因组、基因组DNA片段、外显子、内含子、信使RNA(mRNA)、调节RNA、转运RNA、核糖体RNA、非编码RNA(ncRNA)如PIWI相互作用RNA(piRNA)、小干扰RNA(siRNA)以及长非编码RNA(IncRNA)、小发夹(shRNA)、小核RNA(snRNA)、微小RNA(miRNA)、小核仁RNA(snoRNA)和病毒RNA、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任意序列的分离DNA、任意序列的分离RNA、核酸探针、引物、或上述任意项的扩增拷贝。多核苷酸可以包括修饰的核苷酸,例如甲基化的核苷酸和核苷酸类似物,包括具有非天然碱基的核苷酸,具有修饰的天然碱基的核苷酸,例如氮杂嘌呤或脱氮嘌呤。多核苷酸可以由四个核苷酸碱基的具体序列组成:腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)和胸腺嘧啶(T)。当多核苷酸是RNA时,尿嘧啶(U)也可以作为例如胸腺嘧啶的天然替代物存在。尿嘧啶也可用于DNA。术语"核酸序列"可以指多核苷酸或任何核酸分子的字母表示形式,包括天然和非天然碱基。

术语供体DNA(dDNA)是指来源于移植物的供体的细胞的DNA分子。在各种实施方案中,在从接受来自供体的移植组织或器官的受体获得的样品中发现dDNA。

循环无细胞DNA或简单而言的无细胞DNA(cfDNA)是不封闭于细胞内并且在血流或其它体液中自由循环的DNA片段。已知cfDNA具有不同的来源,在一些情况下,来自在受体血液中循环的供体组织DNA,在一些情况下,来自肿瘤细胞或肿瘤影响的细胞,在其它情况下,来自母体血液中循环的胎儿DNA。其它非限制性实例包括来源于相同生物体天然的组织或器官的cfDNA,例如肾脏、肺、脑和心脏。组织特异性cfDNA的水平可以在发生细胞死亡、组织损伤或器官损伤的情况下升高或降低,包括例如,钝伤(如头部创伤),肝脏或肾脏中的药物毒性,涉及器官损伤的疾病(如心肌病中的心脏损伤,肾病中的肾脏损伤,肝病中的肝脏损伤和糖尿病中的β细胞死亡)。实例还包括癌症和妊娠,其发生过量的细胞死亡或细胞更新。

通常,cfDNA是片段化的,并且仅包括基因组的一小部分,其可能与cfDNA所获自的个体的基因组不同。cfDNA生物发生的确切机制是未知的。通常认为cfDNA来自凋亡性或坏死性细胞死亡,然而也有证据表明cfDNA从活细胞中主动释放。通常,cfDNA来源于不同的细胞类型,并且根据细胞来源和健康状态,个体的全基因组cfDNA谱可以变化。

术语非循环基因组DNA(gDNA)或细胞DNA用于指被封闭在细胞中并且经常包括完整基因组的DNA分子。

二项式分布是一系列n个独立实验中的成功数目的离散概率分布,每个独立实验询问是/否问题,并且每个独立实验具有其自己的布尔值(Boolean-valued)结果:包含单一信息位的随机变量:正(具有概率p)或负(具有概率q=1-p)。对于单次试验,即n=1,二项式分布是伯努利(Bernouli)分布。二项式分布常常用于模拟一个大小为n的样品中从一个大小为N的群体中代换得到的成功的次数。如果随机变量X遵循参数为

泊松分布(本申请表示为Pois())是一个离散的概率分布,其表示给定数量的事件在固定的时间和/或空间间隔内发生的概率,假设这些事件以已知的平均速率发生并且独立于自上一个事件以来的时间。泊松分布也可以用于其它指定间隔(例如距离、面积或体积)中的事件数量。在根据泊松分布的区间内观察k个事件的概率由以下等式给出:

其中λ是间隔或事件率中的事件的平均数,也称为率参数e是2.71828,欧拉数或自然对数的基数,k取值0,1,2,…,k!是k的阶乘。

伽马分布是连续概率分布的双参数家族。常用三种不同参数设置:形状参数k和尺度参数θ;形状参数α=k,逆比例参数β=1/θ,称为速率参数;或形状参数k和平均参数μ=k/β。在这三种形式的每一种中,两个参数都是正实数。伽马分布是随机变量X的最大熵概率分布,其中E[X]=kθ=α/β是固定的并且大于0,并且E[ln(X)]=ψ(k)+ln(θ)=ψ(α)-ln(β)是固定的(ψ是二伽马函数)。

本申请中的术语"样品"是指通常衍生自生物流体、细胞、组织、器官或生物体的样品,其包含核酸或核酸混合物,并且在本申请中可被称为生物样品。这样的样品包括但不限于,痰/口液,羊水,血液,血液组分或细针活检样品(例如,外科活检,细针活检等),尿液,腹膜液,胸膜液等。尽管样品通常取自人类个体(例如,患者),但是分析可用于来自任何哺乳动物的样品,包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。样品可以直接从生物来源获得或在预处理后修饰样品的性质。例如,这种预处理可以包括从血液制备血浆,稀释粘性流体等。预处理的方法还可以包括但不限于:过滤,沉淀,稀释,蒸馏,混合,离心,冷冻,冻干,浓缩,扩增,核酸片段化,干扰组分的灭活,试剂的添加,裂解等。如果对样品采用这种预处理方法,则这种预处理方法通常使得目标核酸保留在检测样品中,有时其浓度与未处理的检测样品(即,不进行任何这种预处理方法的样品)中的浓度成比例。这种"经处理的"或"经加工的"样品也被认为是关于本申请所述方法的生物学"测试″样品。

本申请中的术语"生物流体"是指取自生物源的液体,包括例如血液,血清,血浆,痰,灌洗液,脑脊液,尿液,精液,汗液,泪液,唾液等。如本申请所用,术语"血液"、"血浆"和"血清"明确地包括各个组分或其加工部分。类似地,当样品取自活组织检查,拭子,涂片等时,"样品"明确地包括来自活组织检查,拭子,涂片等的经加工的组分或部分。

样品可以从个体获得,其中期望监测组织或器官健康,诊断或检测疾病,或分析个体的样品。如本申请所用,“个体”是指作为治疗、观察或实验对象的动物。“动物”包括冷血和温血脊椎动物和无脊椎动物,例如鱼、贝类、爬行动物,并且特别是哺乳动物。″哺乳动物″包括但不限于小鼠,大鼠,兔,豚鼠,狗,猫,绵羊,山羊,牛,马,灵长类动物,例如猴,黑猩猩和猿,并且特别是人。个体可以是患有或怀疑患有癌症、遗传病症、器官损伤或组织损伤、或可监测的其它疾病或病症的个体。在一些实施方案中,个体是器官受体,例如作为器官移植的接受者的个体。在一些实施方案中,个体由于慢性疾病或钝伤而具有潜在的器官损伤。

系统、方法和组合物的实施方案涉及从个体获得样品并监测、检测、评估、预测或诊断个体的疾病或病症,监测个体的组织或器官损伤,或评估或定量核酸的组织来源。疾病可以包括,例如,癌症、遗传病症、器官特异性病症、或特征在于基于组织来源和/或疾病类型的不同基因组区域中的cfDNA增加的其它疾病或病症。

如本申请所用,术语参考基因组是指可用于参考来自个体的鉴定的序列的任何生物体的任何具体的已知基因组序列,无论是部分的还是完整的。"基因组"是指在核酸序列中表达的生物体或病毒的完整遗传信息。

本申请提供的方法、系统和组合物的一些实施方案涉及基于全基因组cfDNA拷贝数(CN)信号,同时定量cfDNA样品中多种组织或细胞类型的相对贡献。根据预期的应用,cfDNA样品可以来自生物样品,例如来自血液,血浆,尿液,脑脊液或任何其它类型的人体体液。全基因组cfDNA覆盖度、拷贝数或强度信号可以通过基于测序的DNA分子计数获得,例如通过任何测序技术,或通过基于杂交的DNA拷贝数定量技术获得。在一些实施方案中,在拷贝数信号测量之前,cfDNA可以进行靶向PCR或富集分析或全基因组扩增。在任何实施方案中,可以使用各种扩增方法,包括例如整个基因组的非特异性扩增,例如全基因组扩增(WGA)方法,如MDA,或数个或单个选择区域(如数kb)的高度靶向PCR扩增。

通过本申请所述的任何系统或方法给定来自生物样品或一组生物样品的cfDNA覆盖度的情况下,可以定量不同组织的相对分数。在一些实施方案中,定量可包括以下之一或两者:确定参考组织谱的集合,和基于全基因组或目标cfDNA覆盖度数据,定量cfDNA样品中组织cfDNA的分数。

例如,对于一组正常样品的全基因组cfDNA拷贝数谱,衍生出一组参考cfDNA覆盖度谱,使得所得到的线性组合对应于正常样品的cfDNA拷贝数谱。尽管血液cfDNA拷贝数谱对应于来自多种细胞或组织类型的混合信号,但参考谱对应于具体的细胞或组织类型。使用诸如非负矩阵分解的非监督机器学习方法,可以分解一组血浆cfDNA信号并提取参考谱,从而产生一组基线参考谱。根据体液类型,优势细胞或组织类型可以是不同的。例如,对于血浆白细胞,信号谱将是主要的贡献者。

类似地,从具有已知器官损伤或与器官损伤相关的具体疾病的一组患者样品的全基因组cfDNA拷贝数谱中,除了基线参考谱之外,还可以使用半监督机器学习来提取组织或疾病特异性cfDNA谱。所获得的基线参考谱可用于解释来自患者样品的cfDNA信号的基线部分,然后从未解释的cfDNA覆盖度信号得到另外的组织参考谱。

非监督和半监督方法还可以与基于深度神经网络的监督机器学习方法联合,以预测对相关cfDNA样品的获取受限的组织或细胞类型的cfDNA覆盖度谱。深度学习方法可用于预测细胞类型的cfDNA覆盖度谱,其中给定细胞类型的表观遗传信号作为输入特征,包括例如DNase可及性信号,组蛋白标记信号和基因组DNA甲基化信号。

因此,在一些实施方案中,一组参考组织谱被用于对目标样品进行组织定量。对于cfDNA覆盖度谱,可以通过将观察到的cfDNA覆盖度谱线性投影到已知的参考谱上来定量组织分数。

本申请提供的系统、方法和组合物的实施方案可包括广泛应用,包括例如器官健康监测、药物毒性监测、运动医学、疾病诊断和检测、肿瘤学、非侵入性产前测试(NIPT)和新生儿健康监测或疾病病理研究。

在器官健康监测领域中,系统、方法和组合物的实施方案可用于例如从单个血液测试监测多种器官,例如肾脏、肺或心脏,以及用于疾病前和疾病后监测和诊断。本申请的实施方案包括针对主要器官的低成本通用血液测试,使得能够早期检测和预防严重器官衰竭,包括用于高危人群的监测策略。例如,对患有狼疮或糖尿病的患者进行肾健康监测;对具有心肌病家族史的个体进行心脏健康监测;或脓毒病患者的多器官健康监测。此外,创伤(钝伤)的严重程度(例如在头部或胸部/肺部区域上的创伤)是不容易知晓的,除非观察到严重的功能后果。本申请提供的系统、方法和组合物的实施方案能够定量监测创伤的严重程度,并通知早期的医疗干预。

在药物毒性监测领域中,系统、方法和组合物的实施方案可用于例如监测给定患者的处方药物的肝脏或肾脏毒性,从而使得能够对个体患者的药物方案进行个性化医学和实时调整,或者在临床试验中测量新药的肝脏或肾脏药物毒性。

在运动医学领域中,系统、方法和组合物的实施方案可以用于例如监测由于剧烈训练引起的身体损伤的程度,从而能够合理地调整运动员训练计划并防止过度训练综合征。无细胞DNA被发现随着运动而增加。对于运动员,过度训练综合征(OTS)是当他们不断地推动限制时经常发生的状况。一旦OTS发生,可能需要几天到几周的时间来恢复,或者在一些情况下,运动员可能根本无法恢复。一种用于肌肉cfDNA定量并因此早期检测和预防OTS的方法对于运动员获得最佳训练结果将具有高价值。

在疾病诊断和检测领域,系统、方法和组合物的实施方案可用于例如监测或分析难以诊断或经常被误诊的疾病,例如肠易激综合征,炎性肠病,乳糜泻,纤维肌痛,类风湿性关节炎,多发性硬化,狼疮,多囊卵巢综合征,阑尾炎,克罗恩病,溃疡性结肠炎或特发性肌病。这些疾病中的一些通常仅能通过组织活检被可靠地诊断。许多疾病目前是使用组织活检来诊断的,例如乳糜泻。许多疾病目前没有诊断标志物或缺乏良好的诊断标志物,例如慢性乏力综合征。本申请提供的系统、方法和组合物的实施方案使得能够监测、检测、评估、预测或诊断这些和其它疾病和病症。例如,系统和方法的实施方案可以用于确定用于鉴定某种疾病的某种组织成分的分数。如图4所示,例如,显示了各种疾病中结肠cfDNA的组分分数,其中克罗恩病的分数显著大于分析的其它疾病。

在肿瘤学领域,系统、方法和组合物的实施方案可用于例如cfDNA的组织来源定量和癌症组织来源以及来自单个cfDNA全基因组序列(WGS)分析的突变的测定。WGS包括个体种系基因组的整个序列(包括所有染色体)。

在NIPT和新生儿健康监测领域,系统、方法和组合物的实施方案可用于例如确定和监测母体健康状态,并测量对胎儿的母体免疫反应。一些实施方案涉及预测流产和早产。一些实施方案涉及通过新生儿血浆cfDNA测序来监测、研究、诊断或预测新生儿健康状况,例如器官早熟、黄疸、遗传缺陷或其它新生儿健康状况。

在疾病病理研究领域,系统、方法和组合物的实施方案可以用于例如简单和低成本的组织起源定量,以使得研究人员能够通过表征多个人体器官之间的动态变化和相互作用来纵向研究许多疾病的致病机理。

因此,本申请提供的一些实施方案涉及用于定量个体中的cfDNA的方法和系统。在一些实施方案中,所述方法包括从患有或怀疑患有具体类型癌症的个体获得已知携带cfDNA的生物样品,例如血浆。如本申请所用,“癌症”是指在哺乳动物、特别是人中发现的所有类型的癌症或赘生物或恶性肿瘤,包括白血病、肉瘤、癌和黑素瘤。癌症的实例是脑癌、乳腺癌、宫颈癌、结肠癌、头颈癌、肾癌、肺癌、非小细胞肺癌、黑素瘤、间皮瘤、卵巢癌、肉瘤、胃癌、子宫癌和髓母细胞瘤。另外的癌症可以包括、例如霍奇金病、非霍奇金淋巴瘤、多发性骨髓瘤、成神经细胞瘤、乳腺癌、卵巢癌、肺癌、横纹肌肉瘤、原发性血小板增多症、原发性巨球蛋白血症、小细胞肺肿瘤、原发性脑肿瘤、胃癌、结肠癌、恶性胰岛瘤、恶性类癌、膀胱癌、恶性前皮肤病变、睾丸癌、淋巴瘤、甲状腺癌、成神经细胞瘤、食道癌、泌尿生殖道癌、恶性高钙血症、宫颈癌、子宫内膜癌、肾上腺体皮质癌和前列腺癌。

在一些实施方案中,对生物样品中的cfDNA进行全基因组序列(WGS)分析,以鉴定与健康患者中cfDNA的量相比或与代表性健康患者群体的cfDNA水平相比,可能显示出cfDNA的量升高或降低的区域。例如,如果患者患有肝脏损伤或肝癌,则可以预期与来自基线对照群体的肝脏的cfDNA水平相比,观察到鉴定为来源于肝脏的cfDNA水平升高。一定类型的cfDNA的水平可以通过本申请提供的各种算法从总cfDNA水平确定,包括通过多种机器学习、人工智能或其它算法进行分析,以鉴定来自个体的具体cfDNA与基线对照相比的水平和差异,或鉴定和比较来自多种组织类型的多种类型的cfDNA的水平和差异。在一些实施方案中,cfDNA的分析包括定量来自个体和正常基线对照的不同组织的cfDNA的相对分数。在一些实施方案中,定量可包括以下之一或两者:确定参考组织谱的集合,以及基于全基因组cfDNA覆盖度数据,定量cfDNA样品中组织cfDNA的分数。基线对照可以包括来自样品群体的健康对照样品,包括来自不同地理区域、年龄、种族、人种或性别的样品以建立合适的基线。

本申请提供的一些实施方案涉及分析生物样品中的无细胞DNA(cfDNA)的方法。在一些实施方案中,所述方法包括获得包含cfDNA的生物样品;从样品中富集cfDNA以提供富集的cfDNA,其中所述富集的cfDNA包含多个cfDNA片段,每个片段对应于具体组织或细胞类型;对每个cfDNA片段进行定量以生成全基因组cfDNA谱,所述全基因组cfDNA谱包括多个拷贝数信号,每个拷贝数信号对应于一个cfDNA片段;以及将全基因组cfDNA谱与已知cfDNA拷贝数名签谱进行比较,以确定细胞损伤、组织损伤或器官损伤。

在一些实施方案中,生物样品可以是具有或怀疑具有cfDNA谱的任何生物样品。因此,生物样品可以是来自或获自个体的任何样品,例如从个体获得的体液。因此,举例来说,生物样品可以是或者可以源自或获自血液,血浆,血清,尿液,脑脊液,唾液,淋巴液,房水,玻璃体液,耳蜗液,泪液,乳汁,痰,阴道排出物,或上述任何组合。

在一些实施方案中,富集目标核酸或其片段,例如富集样品中的cfDNA,可以包括任何合适的富集技术。在一些实施方案中,cfDNA的富集可以包括通过分子反转探针、溶液内捕获、下拉探针、诱饵组、标准PCR、多重PCR、杂交捕获、内切核酸酶消化、DNase I超敏反应和选择性环化中的富集。通过消除不希望的物质,可以通过核酸的负选择实现富集。这种富集包括"足迹"技术或"减法"杂交捕获。在前者的过程中,靶样品通过蛋白质保护或通过单链和双链排列而安全地免受核酸酶活性的影响。在后者的过程中,消除了结合"诱饵"探针的核酸。在一些实施方案中,富集包括扩增cfDNA。在一些实施方案中,扩增包括PCR扩增或全基因组扩增。

在一些实施方案中,定量核酸,例如定量cfDNA,可以包括适于测定样品中核酸或核酸片段的量的任何技术。因此,例如,定量可包括使用基于测序的DNA分子计数或基于杂交的DNA定量对cfDNA进行测序。

在一些实施方案中,每个拷贝数信号指示来自具体组织或细胞类型的cfDNA的相对贡献。本申请所用的拷贝数是指基于通过DNA分子计数(例如通过任何测序技术)或通过基于杂交的DNA拷贝数定量技术获得的信号的样品中全基因组cfDNA覆盖度。

在一些实施方案中,组织类型是期望被监测、分析、测量或怀疑损伤正在发生或可能发生的任何组织类型。在一些实施方案中,组织类型是肾脏、肌肉、心脏、血管、肝脏、脑、眼、肺、脂肪、腺体、骨、骨髓、软骨、肠、胃、皮肤或膀胱。在一些实施方案中,细胞类型是血细胞、神经元细胞、肾细胞、上皮细胞、细胞外基质细胞或免疫细胞,或细胞的任何组合。例如,方法可以包括测量或监测个体中的一种或多种组织或器官类型。因此,在一些实施方案中,全基因组cfDNA谱定量来自多个器官的cfDNA的量,以提供器官健康的评估。在一些实施方案中,同时定量每个cfDNA片段。如本申请所用,“同时”是指同时或基本上同时发生的动作。因此,同时定量是指在单个分析中同时或基本上同时分析多个cfDNA片段。因此,本申请提供的实施方案涉及单一分析通用血液测试,其中多器官是在单一分析中监测或能够在单一分析中监测。例如,可以在多个或单个组织上测定组织cfDNA的定量。一个实例可以是肾cfDNA分数的定量。如图2所示,肾衰竭患者的肾分数较高,并且本申请所述的定量能够预测肾衰竭。

在一些实施方案中,定期从个体获得样品并分析样品,以随时间监测健康,从而在第一时间点分析初始样品,在第二时间点分析第二样品,并评估cfDNA谱的差异以提供cfDNA谱变化的指示。这种分析可以提供与某些组织类型随时间的改善或恶化有关的信息。例如,这种方法可用于监测器官移植,监测药物毒性,监测治疗方案,监测随时间的各种器官或组织的健康状态,监测妊娠不同阶段的母体健康,监测妊娠期间和出生前或出生后的新生儿健康,或用于其它合适的评估。因此,本申请提供的一些实施方案涉及随时间监测器官移植。在一些实施方案中,全基因组cfDNA谱指示器官中的药物毒性。在一些实施方案中,样品是母体样品,并且全基因组cfDNA谱指示胎儿健康。用于监测某种组织、器官、细胞或状态的合适的时间段可以取决于具体的应用,并且可以是分钟的量级,例如每1、2、3、4、5、6、7、8、9、10、12、15、20、25、30、35、40、45、50、55或60监测样品;或小时的量级,例如每1、2、3、4、5、6、7、8、9、10、12、15、18、20或24小时监测样品;或天的量级,例如每1、2、3、4、5、6、7、8、9、10、15、20、25或30天监测样品;或月的量级,例如每1、2、3、4,5、6、7、8、9、10、11或12个月监测样品;或年的量级,例如每1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80或更多年监测样品;或在由上述值中的任两个定义的范围内的时间量。例如,可以使用本申请所述的系统和方法随时间监测肾器官移植。如图3A-3B所示,可以随时间监测对于供体肾cfDNA和患者自身肾cfDNA的来自肾组织的DNA比例的时间函数的时间过程模式。

在一些实施方案中,方法还包括从全基因组cfDNA谱中减去基线参考谱。基线参考谱对应于在基线cfDNA样品中呈现的具体细胞或组织类型,使得基线谱可以在检测样品中解释,并且与基线的变化或改变可以用于诊断或异常检测。

本申请提供的一些实施方案涉及监测个体中癌症进展的方法。在一些实施方案中,方法包括从个体获得生物样品,其中所述生物样品包含无细胞DNA(cfDNA);定量样品中的cfDNA以获得包括多个拷贝数信号的全基因组cfDNA谱,每个拷贝数信号对应于具体细胞类型或组织类型的cfDNA片段;以及将所述多个拷贝数信号与健康个体的已知拷贝数信号谱进行比较。在一些实施方案中,样品中拷贝数信号与已知拷贝数信号的差异与个体中的癌性或癌前状态相关。在一些实施方案中,在定量cfDNA之前,从样品中富集总cfDNA。在一些实施方案中,方法还包括将多个拷贝数信号与癌症患者样品的已知拷贝数信号的谱进行比较。在一些实施方案中,生物样品包括血液,血浆,血清,尿液,脑脊液,唾液,淋巴液,房水,玻璃体液,耳蜗液,泪液,乳汁,痰,阴道排出物,或上述任何组合。在一些实施方案中,定量包括使用基于测序的DNA分子计数对cfDNA进行测序。在一些实施方案中,定量包括进行基于杂交的DNA定量。在一些实施方案中,方法还包括在定量cfDNA之前富集cfDNA。在一些实施方案中,富集包括通过PCR扩增或全基因组扩增来扩增cfDNA。

实施例

在下面的实施例中更详细地公开了另外的可选方案,这些实施例不是为了以任何方式限制权利要求的范围。

提取

正常血液循环速率为约5升/分钟,使得全部血液体积每分钟循环一次。该速率远远高于cfDNA产生和降解动力学,并且cfDNA组分在短时间内(例如小于5分钟)在人的血液中是均匀的。在这些条件下,抽血大约是cfDNA的泊松采样。使用多项式分布或多元超几何分布来模拟DNA提取。

提取过程遵循泊松分布n"

PCR扩增

PCR过程通过伽玛分布n'

测序

类似于提取,测序遵循泊松分布n

一些数字

对于典型人中的约5000mL的血液,1.8-44ng/mL血浆cfDNA对应于1.35-33×10

下面的实施例说明了对集合cfDNA信号谱进行建模的实施例。

忽略提取和PCR变异性,cfDNA信号的模型S为(n

cfDNA信号的模型PS是伽马-泊松(负二项式)分布n

将E和P阶合并成单个Dirichlet分布(n’

将提取、PCR和测序步骤结合在一起,cfDNA信号的模型EPS为(n

表1

cfDNA信号的模型PS是伽马-泊松(负二项式)分布n

乘法更新

泊松模型n

迭代加权线性回归

对于给定的样品,利用估计的组织分数β

模型EPS推导

给定(n'

E((n'

var((n'

~=var(n"

=α(1-α)/n"+α/[n"·ρ]-(var(n"

=α(1-α)/n"+α/[n"·ρ]-(α(1-α)/n"+α

=α(1-α){1/n″(1-1/[n″·ρ])+1/[n"·ρ]}

~=α(1-α){1/n"+1/[n"·ρ]}

=α(1-α)/[n"·1/(1+1/ρ))]

这与Dir(n"·α·1/(1+1/ρ))匹配。给定n"

E((n'

var((n'

=n"·α

这与Gamma(n"·α·ρ/(1+ρ),(1+ρ)θ)匹配。

n·n'

n

n

n

下面的实施例说明了用于确定组织cfDNA参考谱的方法的实施方案。

两种互补策略可用于估计组织特异性或细胞类型特异性cfDNA信号谱。第一种方法是基于包含不同分数的目标组织/细胞的一组样品来使用非监督机器学习。第二种方法是通过基于组织/细胞类型的基因组DNA(gDNA)表观遗传谱或基因表达谱预测源自给定组织/细胞的cfDNA信号谱来使用监督机器学习。

非监督机器学习

监督机器学习方法应用非负矩阵分解来分解cfDNA混合信号并提取组织特异性cfDNA覆盖度谱。泊松模型n

监督机器学习

非监督算法有两个相关的局限性。首先,它需要来自处于具体生理或疾病条件下的个体的样品,例如,为了学习肾脏cfDNA谱,需要获得来自肾损伤增加的患者的多个cfDNA样品。第二,对于细胞群较小的组织类型或罕见的细胞类型,由这种细胞贡献的血液cfDNA信号的分数可能非常小。因此,需要较大量的cfDNA样品来有效地获知这种组织或细胞类型的cfDNA信号谱。这些局限性可以通过大数据集来克服。然而,在实践中,大数据集可能阻碍对所有组织类型的基于cfDNA WGS的组织定量的广泛应用。

由于这些原因,可以使用预测来自具体组织细胞样品的表观遗传学或表达数据的组织特异性cfDNA拷贝数谱的监督机器学习。监督机器学习不需要获得来自具有具体器官损伤的患者的cfDNA样品,而是仅使用来自正常或疾病样品的分离的组织细胞。该方法将深度神经网络,更具体地说是递归神经网络或卷积神经网络应用于一维测序数据,以预测cfDNA谱。神经网络的输入特征包括给定组织类型的全基因组DNase可及性、DNA甲基化、组蛋白甲基化、组蛋白乙酰化谱或基因表达谱。从机器学习的预测是目标组织的全基因组cfDNA拷贝数谱。

组织内和跨组织交叉验证都用于训练和评估机器学习模型。更具体地,准备组织特异性表观遗传数据作为输入特征,并且准备估计的组织cfDNA覆盖度谱(来自非监督算法)作为靶标。对于组织内交叉验证,基因组中用于验证的基因座的子集被保留,并且其它基因座被用于训练。对于跨组织交叉验证,某些细胞类型(如血细胞)的cfDNA参考谱用于训练,其它细胞类型(如肾或肺细胞)的cfDNA参考谱用于验证。

以下实施例说明了用于分析来自个体的样品中cfDNA的研究的实施方案。

先导研究

从10例终末期肾病(ESRD)患者和10例年龄、性别和体重匹配的正常对照中获得并研究血浆DNA。对于每个样品,进行30×WGS。获得了能够可靠地区分ESRD与正常对照的强cfDNA信号的存在。聚类分析和主成分分析(PCA)表明ESRD和正常样品形成不同的组。对于正常对照,测定的肾分数<0.5%。

混合研究

对于三个病例/对照配对,通过连续稀释混合ESRD与对照cfDNA制备合成的cfDNA混合物。对于每个病例/对照配对,用对照cfDNA稀释出具有100%、50%、25%、12.5%、6.25%、3.125%、1.5625%和0.78125%ESRD cfDNA的8种混合物。利用该数据集,确定组织定量分析性能。混合研究表明,估计的肾分数与真实的肾分数是线性的,并且可以精确地测定(CV<20%)低至0.5%的肾分数。

在图5的框图中描述了验证的一个实施方案,该图说明了用于评估cfDNA样品进行组织cfDNA定量的方法。如图5所示,第一队列可以包括对照和患病个体,进行文库制备,30xWGS,然后分析。对WGS结果的部分进行生物标志物发现,对其它部分进行信号验证或WGS算法。第二队列可以是合成混合物队列,包括例如来自糖尿病个体、狼疮个体、高血压个体、肾病(例如慢性肾病(CKD)或多囊性肾病(PKD))的多个样品,对照样品或来自其它个体的样品。将混合物应用于扩增子测定、测序和算法以确定定量组织的方法性能(包括定量限(LOQ)或检测限(LOD)和方法的线性的确定,或诊断疾病(包括方法的灵敏度和规格参数的确定)。

全面研究

在混合研究之后,收集处于慢性肾病(CKD)的不同阶段的约200个糖尿病患者样品,并进行30x cfDNA WGS。结果表明,估计的肾分数能够可靠地区分早期CKD与终末期CKD患者,估计的肾分数能够可靠地区分早期CKD与无CKD的糖尿病患者,并且估计的肾分数与肾病的严重程度相关。

多样化器官研究

收集来自患有心力衰竭或肺损伤(例如囊性纤维化)的患者或正常对照的5个血样,并且进行30x cfDNA WGS。结果表明,患有心力衰竭、肺损伤或肾病的患者彼此之间具有不同的cfDNA信号谱,并且它们与正常对照不同,并且可以定量心脏cfDNA分数和肺cfDNA分数。

多样化移植研究

收集来自肺或心脏移植患者的5个血样并进行30x cfDNA WGS。结果表明,心脏移植或肺移植患者具有不同的模式,并且估计的肺分数或心脏分数与基于遗传变异的供体器官分数线性相关。

本申请所用的术语“包含”与“包括”、“含有”或“特征为”同义,并且是包含性的或开放式的,不排除另外的未列举的元件或方法步骤。

以上描述公开了本申请的几种方法和材料。本申请能够接受对方法和材料的改进以及制造方法和设备的改变。考虑到本申请公开的发明或发明的实践,这样的修改对于本领域技术人员将是显而易见的。因此,并不意图将本申请限于所公开的具体实施方案,而是覆盖了落入本申请的真实范围和精神内的所有修改和替换方案。

本申请引用的所有参考文献,包括但不限于公开的和未公开的申请、专利和参考文献,在此通过援引的方式整体纳入本申请,并由此构成本说明书的一部分。在通过援引加入的出版物和专利或专利申请与本说明书中包含的公开内容矛盾的情况下,本说明书旨在取代和/或优先于任何这种矛盾的材料。

相关技术
  • 用于监测器官健康和疾病的方法和系统
  • 用于在功能和解剖级对器官疾病进行治疗规划的系统和方法
技术分类

06120112382074