掌桥专利:专业的专利平台
掌桥专利
首页

用于评估微卫星不稳定性状态的方法和系统

文献发布时间:2023-06-19 11:00:24


用于评估微卫星不稳定性状态的方法和系统

本申请要求2019年6月7日提交的美国临时申请第62/858,387、2018年12月27日提交的美国临时申请第62/785,596号以及2018年10月12日提交的美国临时申请第62/745,161号在35U.S.C.§119(e)下的权益。前述申请的全部内容以引用的方式并入本文中。

本申请在此以引用的方式并入有与此同时提交的电子序列表材料。电子序列表中的材料以于2019年10月2日创建的标题为LT01423_ST25的文本(.txt)文件(其文件大小是755字节)形式提交且以全文引用的方式并入本文中。

技术领域

本申请大体上涉及用于检测微卫星不稳定性(MSI)的方法、系统、计算机可读介质、组成物和套组,且更具体地说,涉及用于基于或使用核酸测序数据和下一代测序技术检测MSI的方法、系统、计算机可读介质、组成物和套组,以及结合用于检测一个或多个感兴趣的MSI事件的引物的或系统。

发明内容

整个基因组中微卫星位置处的与癌症相关联的不稳定性已展示为预测对免疫疗法治疗的反应。在DNA错配修复(MMR)系统未能恰当工作时,可能会导致微卫星不稳定性高(MSI-H)状态,并且所述微卫星不稳定性高状态与整个基因组中的短DNA序列重复序列(微卫星位置)的超变异性相关联。在1997年,NCI建议利用一组五个MSI标记来检测结肠直肠癌(CRC)。传统方法使用毛细电泳法(CE)并且利用肿瘤/正常组织对之间的标记概况的差异来确定所述肿瘤的MSI状态。

最近,对开发具有更多标记的MSI检测更敏感的解决方案的需求不断增长。下一代测序(NGS)提供了一种能够处理多个样品和大量标记的自然解决方案。MSI标记可以是超长均聚物、二核苷酸(di-nuc)和三核苷酸(tri-nuc)短串联重复序列(STR)。由于存在包含影子带等各种不同的伪影,因此这些类型的基元不容易准确扩增或准确测序。

需要新的和改进的方法、系统、计算机可读介质、组成物和套组以更好且更准确地检测MSI,包含更好且更准确检测基因组区域以进行MSI状态评估。需要基于不同类型的MSI标记(例如长均聚物和STR)准确地评估MSI状态。需要使用仅肿瘤样品来确定MSI状态。

根据示例性实施例,提供一种用于检测样品中的微卫星不稳定性(MSI)的方法,其包含:(1)接收对应于MSI的多个标记区域的多个核酸序列读段,其中序列读段中的每一个包含左侧翼序列、右侧翼序列和位于左侧翼序列的最右侧碱基和右侧翼序列的最左侧碱基之间的碱基的重复区域,其中重复区域包含对应于多个标记区域的特定标记区域的重复碱基序列的多个重复;(2)对于序列读段中的每一个,将左侧翼序列的至少一部分与参考左侧翼比对,其中参考左侧翼与对应于特定标记区域的参考核酸序列的参考重复区域接壤;(3)对于对应于序列读段中的靶均聚物的重复区域,基于靶均聚物的流空间信号测量结果而计算均聚物信号值直方图,其中标记区域的至少一部分对应于靶均聚物;(4)基于对应于靶均聚物的每一标记区域的均聚物信号值直方图的特征而确定每标记的得分以产生多个得分;以及(5)组合多个得分以形成样品的总MSI得分。

根据示例性实施例,提供包括机器可读指令的计算机可读介质,所述机器可读指令在被加载到机器可读存储器中且由处理器执行时被配置成使得系统执行检测样品中的微卫星不稳定性(MSI)的方法,所述方法包含:(1)接收对应于MSI的多个标记区域的多个核酸序列读段,其中序列读段中的每一个包含左侧翼序列、右侧翼序列和位于左侧翼序列的最右侧碱基和右侧翼序列的最左侧碱基之间的碱基的重复区域,其中重复区域包含对应于多个标记区域的特定标记区域的重复碱基序列的多个重复;(2)对于序列读段中的每一个,将左侧翼序列的至少一部分与参考左侧翼比对,其中参考左侧翼与对应于特定标记区域的参考核酸序列的参考重复区域接壤;(3)对于对应于靶均聚物的重复区域,基于靶均聚物的流空间信号测量结果而计算均聚物信号值直方图,其中标记区域的至少一部分对应于靶均聚物;(4)基于对应于靶均聚物的每一标记区域的均聚物信号值直方图的特征而确定每标记的得分以产生多个得分;以及(5)组合多个得分以形成样品的总MSI得分。

根据示例性实施例,提供一种用于检测微卫星不稳定性(MSI)的系统,其包含:机器可读存储器以及处理器,所述处理器被配置成执行机器可读指令,所述指令在由处理器执行时使得系统执行用于检测样品中的MSI的方法,方法包含:1)接收对应于MSI的多个标记区域的多个核酸序列读段,其中序列读段中的每一个包含左侧翼序列、右侧翼序列和位于左侧翼序列的最右侧碱基和右侧翼序列的最左侧碱基之间的碱基的重复区域,其中重复区域包含对应于多个标记区域的特定标记区域的重复碱基序列的多个重复;(2)对于序列读段中的每一个,将左侧翼序列的至少一部分与参考左侧翼比对,其中参考左侧翼与对应于特定标记区域的参考核酸序列的参考重复区域接壤;(3)对于对应于序列读段中的靶均聚物的重复区域,基于靶均聚物的流空间信号测量结果而计算均聚物信号值直方图,其中标记区域的至少一部分对应于靶均聚物;(4)基于对应于靶均聚物的每一标记区域的均聚物信号值直方图的特征而确定每标记的得分以产生多个得分;以及(5)组合多个得分以形成样品的总MSI得分。

附图说明

本发明的新颖特征在所附权利要求书中具体阐述。将参考阐述说明性实施例和附图的以下详细描述来获得对实施例的特征和优点的更佳理解,在所述附图中:

图1说明具有MSI标记区域和侧翼区域的核酸序列的实例。图1公开SEQ ID NO:1和SEQ ID NO:2。

图2说明具有STR区域的序列读段的实例。

图3是根据示例性实施例的确定MSI得分的方法的框图。

图4展示分别为MSI-H和MSI-L的两个均聚物序列读段的叠加流空间信号测量结果的实例。

图5A-5D展示肿瘤和正常样品的HP信号值的直方图的实例。

图6A和6B展示肿瘤和正常样品的HP信号值的直方图的实例。

图7是S形函数的实例的曲线图。

图8A-8D展示MSI-H和匹配的正常样品的重复长度的直方图的实例。

图9给出具有已知MSI状态的六个样品中的若干标记物的每标记得分和总MSI得分的结果的示例性表格。

图10给出使用毛细电泳法(CE)测试MSI状态的结果的示例性表格。

图11给出使用通过本文中所描述的NGS方法确定的总MSI得分来测试MSI状态的结果的示例性表格。

图12展示可以进行碱基识别的流空间信号测量结果的示例性表示。

图13是根据各种实施例的用于核酸测序仪的示例性系统的示意图。

图14是根据示例性实施例的用于混合对照的方法的框图。

图15给出使用片上对照样品和混合对照确定的MSI得分的示例性结果的曲线图。

图16A和16B说明用于片上对照、MSS/正态和MSI-高的均聚物信号值的分布的实例。

图17A和17B说明MSS/正态和MSI-高和计算机对照的均聚物信号值的分布的实例。

图18A和18B说明用于片上对照和计算机对照的MSS/正态的均聚物信号值的分布的实例,其中芯片和运行中存在低变异性。

图19A和19B说明用于片上对照和计算机对照的MSS/正态的均聚物信号值的分布的实例,其中芯片和运行中存在高变异性。

图20给出来自hg19的合成校准对照序列和参考序列的实例。

图21A和21B说明SCC标记的群组的SCC序列读段的HP信号值的分布和给定标记处的测试样品的序列读段的分布HP信号值的实例。

图22A说明针对图21A和21B中所展示的实例生成经拟合的校准曲线的多项式拟合的实例。

图22B展示在图21A和21B的实例的标记处的测试样品的HP信号值的分布的校正的实例。

具体实施方式

根据体现在本申请中的教示和原理,提供新方法、系统和非暂时性机器可读存储介质以基于不同类型的MSI标记(例如针对长均聚物和STR)评估MSI状态。进一步的教示提供了使用仅肿瘤样品来确定MSI状态。在一些实施例中,本文中所描述的方法可以允许评估数十到数百个MSI标记。引物可以靶向扩增感兴趣的MSI标记区域。MSI标记区域可以包含重复区域,例如长均聚物和其它短串联重复序列(STR)。

在一些实施例中,与具有更短重复区域的MSI标记区域相比,具有更长重复区域的MSI标记区域对MSI更敏感。在一些实施例中,与具有更长重复单元的标记相比,重复区域中具有更小重复单元的标记对MSI更敏感。对于MSI-H样品,在长均聚物中观察到的行为是:与正常样品相比,其均聚物长度更短,或为序列读段中较短长度和正常长度的混合。

在各种实施例中,DNA(脱氧核糖核酸)可以称为由4种类型的核苷酸;A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)和G(鸟嘌呤)组成的核苷酸链,并且RNA(核糖核酸)由4种类型的核苷酸;A、U(尿嘧啶)、G和C构成。某些核苷酸对以互补方式彼此特异性结合(称为互补碱基配对)。也就是说,腺嘌呤(A)与胸腺嘧啶(T)配对(然而,在RNA的情况下,腺嘌呤(A)与尿嘧啶(U)配对),并且胞嘧啶(C)与鸟嘌呤(G)配对。在第一核酸股结合于由与第一股中的核苷酸互补的核苷酸组成的第二核酸股时,两个链结合以形成双股。在各种实施例中,“核酸测序数据”、“核酸测序信息”、“核酸序列”、“基因组序列”、“基因序列”或“片段序列”或“核酸测序读段”表示指示核苷酸碱基(例如,腺嘌呤、鸟嘌呤、胞嘧啶和胸腺嘧啶/尿嘧啶)在DNA或RNA分子(例如,全基因组、全转录组、外显子组、寡核苷酸、聚核苷酸、片段等)中的次序的任何信息或数据。

在各种实施例中,“聚核苷酸”、“核酸”或“寡核苷酸”是指通过核苷间键接合的核苷(包含脱氧核糖核苷、核糖核苷或其类似物)的线形聚合物。通常,聚核苷酸包括至少三个核苷。通常,寡核苷酸的尺寸在数个单体单元(例如3-4个)到数百个单体单元范围内。每当聚核苷酸(例如寡核苷酸)由一连串字母(例如“ATGCCTG”)表示时,将理解,除非另外指出,否则核苷酸按从左到右的5'->3'次序并且“A”表示脱氧腺苷,“C”表示脱氧胞苷,“G”表示脱氧鸟苷,且“T”表示胸苷。如在本领域中标准的,字母A、C、G和T可以用于指碱基本身、核苷或包括碱基的核苷酸。

如本文中所使用的术语“等位基因”是指与基因或DNA链段相关的遗传变异,即,占据相同基因座的DNA序列的两种或更多种替代形式中的一种。

如本文中所使用,术语“基因座”是指在染色体或核酸分子上的具体位置。基因座的等位基因位于同源染色体上的相同位点处。

如本文中所使用,术语“衔接子”或“衔接子和其补体”以及其派生词通常指任何可以与本公开的核酸分子接合的线形寡核苷酸。任选地,衔接子包含基本上不与样品内至少一个靶序列的3'端或5'端互补的核酸序列。在一些实施例中,衔接子基本上不与样品中任何靶序列的3'端或5'端互补。在一些实施例中,衔接子包含任何基本上不与经扩增的靶序列互补的单链或双链线性寡核苷酸。在一些实施例中,衔接子基本上不与样品的至少一个、一些或全部核酸分子互补。在一些实施例中,合适的衔接子长度在长度为约10-100个核苷酸、约12-60个核苷酸和约15-50个核苷酸的范围内。衔接子可以包含核苷酸和/或核酸的任何组合。在一些方面中,衔接子可以在一个或多个位置包含一个或多个可裂解基团。在另一方面中,衔接子可以包含与引物(例如通用引物)的至少一部分基本上一致或基本上互补的序列。在一些实施例中,衔接子可以包含条形码或标签以辅助下游编目、鉴别或测序。在一些实施例中,在与经扩增的靶序列接合时,尤其在适合的温度和pH值下在聚合酶和dNTP存在下,单股衔接子可以充当用于扩增的底物。

如本文中所使用,“DNA条形码”或“DNA标签序列”和其派生词是指可以充当用于区分或分离样品中多个经扩增的靶序列的‘钥匙’的衔接子内的独特短(例如,6-14个核苷酸)核酸序列。出于本公开的目的,DNA条形码或DNA标签序列可以并入衔接子的核苷酸序列中。

在一些实施例中,本公开提供了来自靶核酸分子群的多个靶特异性序列的扩增。在一些实施例中,方法包括将一个或多个靶特异性引物对杂交到靶序列,延伸引物对的第一引物,使来自核酸分子群的延伸第一引物产物变性,将引物对的第二引物杂交到延伸第一引物产物,延伸第二引物以形成双链产物,和远离双链产物消化靶特异性引物对来产生多个经扩增靶序列。在一些实施例中,消化包含从经扩增靶序列中部分消化一种或多种靶特异性引物。在一些实施例中,经扩增靶序列可以连接到一个或多个衔接子。在一些实施例中,衔接子可以包含一个或多个DNA条形码或标记序列。在一些实施例中,经扩增靶序列一旦连接到衔接子,可以经历切口平移反应和/或进一步扩增来产生衔接子连接的经扩增靶序列库。

在一些实施例中,本公开的方法包含选择性扩增含有多个核酸分子的样品中的靶序列,并将经扩增靶序列连接到至少一个衔接子和/或条形码。用于分子生物学文库制备技术的衔接子和条形码是所属领域的技术人员众所周知的。如本文中所使用的衔接子和条形码的定义与所属领域中使用的术语一致。例如,条形码的使用允许每个多重反应检测和分析多个样品、来源、组织或核酸分子群体。条形码化和经扩增的靶序列含有独特的核酸序列,通常是短的6-15个核苷酸序列,其鉴别和区分一个经扩增的核酸分子与另一个经扩增的核酸分子,即使当减去条形码的两个核酸分子都含有相同的核酸序列时也是如此。衔接子的使用允许以均匀的方式扩增每个经扩增的核酸分子并且有助于减少股偏差。衔接子可以包含通用衔接子或专用衔接子,其都可以在下游使用以执行一个或多个不同的功能。例如,由本文中公开的方法制备的经扩增的靶序列可以接合到可以在下游用作克隆扩增平台的衔接子。衔接子可以充当模板股用于随后使用第二组引物进行扩增,并且因此实现衔接子接合的经扩增的靶序列的通用扩增。在一些实施例中,用于产生扩增子池的靶核酸的选择性扩增可以进一步包括将一个或多个条形码和/或衔接子接合到经扩增的靶序列。合并条形码的能力可以增强样品通量,并且允许同时分析多个样品或材料来源。

在本申请案中,“反应限制区域”通常是指可以限制反应的任何区域,并且包含例如“反应室”、“孔”和“微孔”(其中的每一个可以互换使用)。例如,反应限制区域可以包含其中固体基板的物理或化学属性可以允许相关反应的定位的区域,以及可以特异性结合相关分析物的基板表面的离散区域(如具有与这类表面共价连接的寡核苷酸或抗体的离散区域)。反应限制区域可以是中空的或具有明确限定的形状和体积,其可以被制造成基板。这些后面类型的反应限制区域在本文中称为微孔或反应室,并且可以使用任何合适的微制造技术来制造。例如,反应限制区域也可以是没有孔的基板上的基本上平坦的区域。

多个限定的空间或反应限制区域可以布置成阵列,并且每个限定的空间或反应限制区域可以与至少一个传感器电连通,以允许检测或测量一个或多个可检测或可测量的参数或特性。此阵列在本文中被称为传感器阵列。传感器可以将反应副产物的存在、浓度或量的变化(或反应物的离子特性的变化)转换成输出信号,所述输出信号可以电子记录,例如以电压水平或电流水平的变化形式,其继而可以被处理以提取关于化学反应或所需关联事件(例如,核苷酸掺入事件)的信息。传感器可以包含至少一个化学敏感性场效应晶体管(“chemFET”),其可以被配置成产生与化学反应的性质或其附近的感兴趣靶标分析物相关的至少一个输出信号。这类特性可以包含反应物、产物或副产物的浓度(或浓度变化),或物理性质的值(或这类值的变化),例如离子浓度。例如,对于限定的空间或反应限制区域的pH值的初始测量或询问可以表示为电信号或电压,其可以被数字化(例如,转换为电信号或电压的数字表示)。这些测量值和表示中的任何一个都可以被认为是原始数据或原始信号。

在各种实施例中,短语“碱基空间”是指核苷酸序列的表示。短语“流空间”是指特定核苷酸流的并入事件或非并入事件的表示。例如,流空间可以是表示特定核苷酸流的核苷酸并入事件(如一,“1”)或非并入事件(例如零,“0”)的一系列值。具有非并入事件的核苷酸流可以称为空流,并且具有核苷酸并入事件的核苷酸流可以称为正流。应理解,零和一为非并入事件和核苷酸并入事件的方便表示;但是,任何其它符号或标识可以替代性地用于表示和/或鉴别这些事件和非事件。特定而言,在多个核苷酸在给定位置处并入时,例如对于均聚物拉伸,值可以与核苷酸并入事件数目且因此与均聚物拉伸长度成比例。

图1说明具有MSI标记区域和侧翼区域的核酸序列的实例。此实例的MSI标记是如顶部序列(SEQ ID NO 1)如中所展示的长均聚物。左侧翼和右侧翼与长均聚物相邻。长均聚物可以具有例如8个或更多个碱基的长度。侧翼可以包含例如14-15个碱基。中心序列(SEQID NO:1)中的均聚物区域具有与对照或参考序列(SEQ ID NO:1)相同的长度,并且可以是MSI-低(MSI-L)状态的实例。MSI-低状态在本文中又称为微卫星稳定(MSS)和MSS/正态。底部序列(SEQ ID NO:2)具有短得多的均聚物区域,并且可以是MSI-H状态的实例。较短均聚物长度可以指示MSI-H状态。

图2说明具有STR区域的序列读段的实例。序列读段包含被左侧翼和右侧翼围绕的STR区域。STR区域可以包含短碱基序列或重复序列的重复。重复序列可以具有2个碱基(二核苷酸)、3个碱基(三核苷酸)或更多个碱基。STR区域与左侧翼的非重复碱基序列和右侧翼的非重复碱基序列相邻。左侧翼与5'条形码衔接子相邻,并且右侧翼与3'条形码衔接子相邻。

在一些实施例中,将包含经比对的序列读段信息的经比对的BAM文件提供到处理器以用于分析对应于标记区域的经比对的序列读段以用于确定样品的MSI得分。序列读段可以包含左侧翼的碱基序列、右侧翼的碱基序列和位于左侧翼的最右侧碱基和右侧翼的最左侧碱基之间的碱基的重复区域。重复区域包含均聚物的单个碱基或STR的经重复的碱基序列的重复。在一些实施例中,经比对的序列读段的部分可以对应于长均聚物和/或STR的标记区域。在一些实施例中,可以通过使用史密斯沃特曼比对算法(Smith Watermanalignment algorithm)或其它合适的定位算法对参考序列进行比对来识别左侧和任选地右侧翼序列。与本发明教示一起使用的重复序列和侧翼区域的识别可以包含2018年6月28日发表的美国专利申请公开案第2018/0181707号中所描述的一个或多个特征,所述美国专利申请公开案以全文引用的方式并入本文中。

图3是根据示例性实施例的确定样品的MSI得分的方法的框图。均聚物分类器分析对应于具有长均聚物的标记区域的序列读段的流空间信号测量结果以产生长均聚物的每标记得分。STR分类器分析对应于具有STR序列的标记区域的经比对的序列读段以产生STR序列的每标记得分。组合器添加满足阈值和覆盖准则的每标记得分以产生样品的总MSI得分。

在一些实施例中,流空间信号测量结果表示响应于在传感器阵列的微孔中样品核酸的流动的核苷酸的并入或非并入测量的信号幅度或强度。对于并入事件,信号幅度取决于在一个流中并入的碱基数目。对于均聚物,信号幅度随着均聚物长度的增加而增加。下文更详细地描述流空间信号测量结果。

在一些实施例中,均聚物分类器通过以下步骤确定对应于具有长均聚物的标记区域的经比对的序列读段的每标记的得分:

A.1.识别具有对应于标记的靶均聚物的左侧翼序列的序列读段。

A.2.对于每一序列读段,计算对应于具有与靶均聚物相同的核苷酸类型的流序列的M个核苷酸流的M个流空间信号测量结果的总和,以形成序列读段的均聚物(HP)信号值。

A.3.计算正向方向上的序列读段的HP信号值的直方图和反向方向上的序列读段的HP信号值的直方图。

A.4.识别将用于评估对应于标记的MSI状态的正向和反向方向的HP信号直方图的特征。

A.5.使用HP信号直方图的特征计算每标记的得分。

图4展示分别为MSI-H和MSI-L的均聚物序列读段的叠加流空间信号测量结果的实例。MSI-L序列读段的碱基A的均聚物比MSI-H序列读段的碱基A的均聚物更长。较长均聚物的流空间信号测量结果具有较大幅度,因为响应于核苷酸流并入更多A's。MSI-H序列读段的流空间信号测量结果具有较低幅度,因为均聚物较短,且因此较少A's响应于核苷酸流而并入。均聚物A左侧的流空间信号测量结果指示左侧翼序列(AGGATCTT)的核苷酸并入。均聚物A右侧的流空间信号测量结果指示右侧翼序列(TGCTGCAT)的核苷酸并入。

在一些实施例中,可以针对步骤A.2确定将添加的流空间信号测量结果M的数目。为了边合成边测序,流序列可以包括核苷酸的流次序(例如,T-A-C-G)的重复。在均聚物区域的测序期间,特定核苷酸的多次并入可以在流次序的若干重复中发生。例如,在对长均聚物进行测序时,核苷酸A可以在流次序的若干重复中并入。用于A的并入的流空间信号测量结果值可能会在后续重复中减小,直到达到均聚物的末端且侧翼区域开始并入不同核苷酸为止。对应于均聚物区域的流空间信号测量结果M的数目可以通过以下中的至少一个确定:

A.a)确定对应于具有高于阈值信号电平的值的流次序中的相同核苷酸的流空间信号测量结果。在流次序的后续重复中,流空间信号测量结果值可能会在同一核苷酸的后续流中减少。

A.b)确定其中并入对应于侧翼序列的一个或多个核苷酸的流空间信号测量结果。对应于侧翼序列的第一核苷酸将不同于均聚物区域的第一核苷酸。

在一些实施例中,步骤A.a)中的流空间信号测量结果的数目可指示M。在一些实施例中,应用步骤A.a)和A.b)可以基于在侧翼序列开始之前的均聚物的流空间信号测量结果确定M。

图5A、5B、5C、5D、6A和6B展示肿瘤和正常样品的HP信号值的直方图的实例。直方图是以上步骤A.3中对应于标记BAT25(图5A和5B)、标记BAT26(图5C和5D)以及标记NR21(图6A和6B)的长均聚物的序列读段的结果。x轴给出通过对流空间信号测量结果进行求和而得出的HP信号值,如在步骤A.3中。y轴给出序列读段的数目。正向方向上的序列读段的HP信号值的直方图在x轴上方,并且反向方向上的序列读段的HP信号值的直方图在x轴下方。图5A、5C和6A中给出的肿瘤样品的HP信号值的直方图展示与图5B、5D和6B中给出的正常样品的HP信号值的直方图的若干差异。与正常样品相比,肿瘤样品的HP信号值的差异包含向左移位,指示由于经缩短的均聚物、更广的范围和多峰分布而导致的较低HP信号值。

在一些实施例中,HP信号直方图的特征可以基于HP信号值的均值和标准差。使用这些特征的每标记的得分可以计算如下:

A.i)计算对照的HP信号值的均值和标准差(std),以形成均值

A.ii)计算样品的HP信号值的均值和标准差,以形成均值

A.iii)计算平均差=(均值

A.iv)计算std差=std

在一些实施例中,第一特征f1是在以上步骤A.iii)中计算的平均差,并且第二特征f2是在以上A.iv)中计算的std差。在一些实施例中,每标记的得分可以通过加权和计算:

每标记的得分=a

其中a

在一些实施例中,可以将S形函数S应用于特征以得到S(f

每标记的得分=a

在一些实施例中,通过下式得到S形函数S(x):

S(x)=C1/(1+exp(-C2*(x-C3))) (3)

其中C1确定S形曲线的最大高度,C3确定移位且C2确定S形曲线的斜率。图7是S形函数的实例。

在一些实施例中,可以通过对片上对照样品测序来获得对照测量结果。例如,片上对照样品可以通过来自CEPH个体1347-02(赛默飞世尔科技(ThermoFisher Scientific)目录第403062号)的对照基因组DNA或Raji基因组DNA(TaqMan

使用片上对照样品的优点包含:为给定运行提供均值

图16A和16B说明用于片上对照、MSS/正态和MSI-高的均聚物信号值的分布的实例。分布表示理想化直方图。图16A和16B展示具有均值

然而,片上对照样品占据片上的宝贵空间,除了由样品占据的空间之外。在更高的多重分析或较大组的情况下,对照样品中标记的数目增加可以将标记中的一些的覆盖度减小到低于最小覆盖度,使得可以不估计那些标记的得分。

在一些实施例中,在一个测序运行中对片上对照测序可以提供均值

图17A和17B说明MSS/正态和MSI-高和计算机对照的均聚物信号值的分布的实例。图17A和17B展示其中计算机对照均值,计算机均值

使用计算机对照的优点在于片上用于片上对照样品的空间是不需要的。另一优点在于计算机对照不受标记区域的复用或不充分覆盖的影响。这是因为对应于标记区域中的每一个的计算机对照值(例如均值

图18A和18B说明用于片上对照和计算机对照的MSS/正态的均聚物信号值的分布的实例,其中芯片和运行中存在低变异性。图18A展示具有距均值

图19A和19B说明用于片上对照和计算机对照的MSS/正态的均聚物信号值的分布的实例,其中芯片和运行中存在高变异性。图19A展示具有距均值

在一些实施例中,可以使用在当前测序运行中获得的流空间信号测量结果来修改在先前测序运行中所计算的给定均聚物的计算机对照值。片上对照和计算机对照的组合在本文中称为混合对照。在混合对照中,具有足够覆盖度(例如至少50个序列读段)的片上样品的标记区域用于估计可以应用于计算机特征以产生针对当前运行的修改后对照特征的转换参数。在一些实施例中,测试样品可以包含具有单态均聚物的区域。单态均聚物在人类基因组中具有稳定的长度。这些单态均聚物区域可以包含在测试样品的基因组中。在片上样品是具有单态均聚物区域的测试样品时,测序运行可能不需要其它片上对照样品。在其它实施例中,可能存在片上对照样品。在此情况下,如果片上对照样品中的均聚物区域的某些标记具有足够覆盖度,例如至少50个序列读段,则选择所述标记。来自所选择的均聚物标记区域的流空间信号测量结果用于确定转换参数。

图14是根据示例性实施例的用于混合对照的方法的框图。计算机特征包含在先前测序运行中所计算的一个或多个均聚物标记区域的对照值。这些计算机特征可以包含在先前运行中针对片上对照样品中的一个或多个均聚物标记区域计算的均值

所估计的均值

误差=所估计的均值

例如,可以基于最小均方差准则而确定T的参数以实现线性或多项式拟合。在一些实施例中,均聚物标记区域集合可以选自具有具有足够覆盖度的单态均聚物区域的测试样品。均聚物长度在8与14之间的单态均聚物更有可能具有足够覆盖度。例如,选择测试样品中长度为8、10、12和14的单态均聚物可以用于计算所选择的均聚物长度中的每一个的所测量的均值

在一些实施例中,均聚物标记区域集合可以选自片上对照样品,其中所选择的均聚物区域具有足够覆盖度。如在以上步骤A.2中计算对应于片上对照样品的所选择的均聚物区域的序列读段的HP信号值。如在步骤A.i)中可以计算片上对照样品的所选择的均聚物区域的HP信号值的均值

返回到图14,一旦已确定转换T的参数,就可以将转换T应用于计算机特征以产生具有低覆盖度的均聚物标记区域的所估计的片上特征。具有低覆盖度(例如小于50个测序读段)的均聚物区域的覆盖度不足,无法基于来自当前运行的测序读段而确定对照值,均值

[均值

在以上步骤A.iii)中混合对照值[均值

在一些实施例中,可以将合成校准对照股与测试样品一起提供用于测序运行。合成校准对照(SCC)股可以包含具有已知长度的均聚物的合成DNA股。合成DNA股可以被构造成具有所要长度的均聚物、均聚物的5'侧上的左侧翼区域、均聚物的3'侧上的右侧翼区域、与左侧翼区域相邻的5'引物和与右侧翼区域相邻的3'引物。可以靶向引物以扩增MSI组内容物中的感兴趣的MSI标记区域。在一些实施例中,SCC可能不对应于组中靶向的MSI标记,并且可以是由独特参考序列识别的独特序列。合成均聚物可以被构造成具有与感兴趣的标记区域相关的碱基类型和长度。例如,如果MSI组包含了包含A的均聚物和T的均聚物的感兴趣的标记区域,则合成校准对照股可以包含A的均聚物和T的均聚物。例如,SCC股中的合成均聚物的长度可以是13到30个碱基。在一些实施例中,可存在感兴趣的标记区域的均聚物的3-4种不同长度。例如,对于MSI组中的感兴趣的9种不同MSI标记,每一标记的SCC扩增子可以包含3-4种不同HP长度。每一标记的其它数目的HP长度的实例包含1、1-2或2-3。

在一些实施例中,合成校准对照可以包含左侧翼区域中的第一标签序列和右侧翼区域的右侧中的第二标签序列。第一标签序列被替换为在参考序列中出现在左侧翼区域中的具体位置处的碱基序列。第二标签序列被替换为在参考序列中出现在右侧翼区域中的具体位置处的碱基序列。标签序列的长度可以是3-4个碱基。标签序列允许例如在与参考序列比对之后在经比对的BAM文件中提供的经比对的序列读段信息中识别SCC序列读段。标签序列的长度可以是3-4,使得序列读段相对于参考序列的定位可以提供经比对的SCC序列读段,尽管在标签序列与参考序列中的对应位置之间可能存在不匹配。

图20给出来自hg19的合成校准对照序列和参考序列的实例。在此实例中,参考序列中的感兴趣的标记区域具有18A的HP长度。第一示例性SCC序列具有18A的HP长度。第二示例性SCC序列具有14A的HP长度。第三示例性SCC序列具有22A的HP长度。这些示例性SCC序列各自在左侧翼区域具有标签序列且在右侧翼区域具有标签序列。标签序列用3或4个碱基替代参考序列中对应3或4个位置中的碱基。例如,对于参考序列的左侧翼中的“CATT”,第一示例性SCC序列可以在其左侧翼中替代标签“GATG”。例如,对于参考序列的右侧翼中的“AAT”,第一示例性SCC序列可以在其右侧翼中替代标签“TAC”。例如,第二示例性SCC序列,标签“GAT”可以替代左侧翼中的参考的“ATT”,标签“CGT”可以替代右侧翼中的参考的“AAT”。例如,第三示例性SCC序列,标签“TGA”可以替代左侧翼中的参考的“ATT”,标签“GCG”可以替代右侧翼中的参考的“AAT”。

在一些实施例中,可获自赛默飞世尔科技的Invitrogen GeneArt基因合成或来自其它供应商的DNA合成可以用于生成SCC序列的合成DNA。在靶向感兴趣的MSI标记的引物池的存在下,SCC序列的合成DNA可以与测试样品DNA一起扩增。SCC扩增子和样品扩增子可以如下文所描述的进行测序以形成对应于SCC和样品的序列读段。序列读段可以相对于参考序列进行定位以形成经比对的BAM文件的经比对的序列读段信息。

在一些实施例中,如上文针对步骤A.1中的均聚物分类器所描述,识别对应于标记的靶均聚物的序列读段。分析经比对的序列读段的左侧翼区域和右侧翼区域以检测标签序列的存在。如果检测到标签序列,则特定标签序列识别对应SCC序列。如果未检测到标签序列,则序列读段可以对应于所测试的样品。对于每一SCC序列读段,计算对应于具有与靶均聚物相同的HP核苷酸类型的流序列的M个核苷酸流的M个流空间信号测量结果的总和,以形成SCC序列读段的HP信号值,如在以上步骤A.2中。如在以上步骤A.3中,计算正向方向上的SCC序列读段的HP信号值的直方图和反向方向上的SCC序列读段的HP信号值的直方图。如在以上步骤A.i)中,计算SCC序列读段中的每一个的HP信号值的直方图的均值

图21A和21B说明SCC标记的群组的SCC序列读段的HP信号值的分布和给定标记处的测试样品的序列读段的分布HP信号值的实例。SCC序列读段的HP信号值的分布对应于各种已知HP长度。每一峰值的x轴上的位置对应于均值。图21A展示SCC序列读段的HP信号值的基线分布的实例,包含分布2101、2102、2103、2104、2105、2106和2107。还指示基线计算机对照参考值。第j个SCC的分布的第j个基线均值,均值

在一些实施例中,校正可以应用于对应于SCC的分布和对应于标记处的测试样品的分布的HP信号值以校正当前运行中的失真。基线运行中的每一第j个SCC的基线均值(均值

均值

以得出SCC的HP长度。经拟合的多项式函数可以接着应用于每一均聚物标记的测试样品的HP信号值的均值,均值

经校正的均值

图22A中的虚线箭头说明通过多项式函数的此映射。图22B展示在图21A和21B的实例的标记处的测试样品的HP信号值的分布的校正的实例。标记处测试样品的HP信号值的经校正的分布恢复到图21A的基线曲线图中的位置。经校正的均值

平均差=(均值

在一些实施例中,一种用于使用合成校准对照物确定对应于具有长均聚物的标记区域的每标记的得分的方法可以包括以下步骤:a)生成具有具有已知长度的已知均聚物部分的合成校准对照(SCC)核酸股和标签序列;b)在靶向感兴趣的MSI标记的引物池的存在下扩增SCC核酸股和核酸测试样品以产生多个扩增子;c)对扩增子测序以生成多个序列读段;d)将序列读段相对于参考序列进行定位,其中参考序列包含感兴趣的MSI标记区域,对于每一标记区域:e)识别SCC序列读段中的标签序列;f)对于每一序列读段,计算对应于具有与靶均聚物相同的核苷酸类型的核苷酸流的流空间信号测量结果的总和,以形成序列读段的均聚物(HP)信号值;g)生成标记区域的序列读段的HP信号值的直方图;h)计算对应于每一均聚物长度的SCC序列读段的HP信号值的直方图的均值;i)确定将对应于每一HP长度的均值映射到基线均值的多项式函数;j)计算每一标记区域的测试样品的HP信号值的直方图的均值以形成标记均值;k)将多项式函数应用于每一标记均值以形成经校正的标记均值;l)计算计算机对照均值与经校正的标记均值之间的差;m)计算标记区域的测试样品的HP信号值的直方图的标准差以形成标记标准差;n)计算标记标准差与计算机标准差之间的差;以及o)基于平均差和标准差差值而确定标记的得分。

在一些实施例中,STR分类器通过将以下步骤应用于通过对肿瘤样品测序获得的序列读段来确定对应于具有二核苷酸重复序列或STR的标记区域的经比对的序列读段的每标记的MSI得分:

B.1)识别具有对应于标记的靶二核苷酸重复或STR的左侧翼序列的序列读段。

B.2)对于碱基空间中的每一序列读段,对碱基的重复序列的重复的数目进行计数。未形成完整重复序列的个别碱基的计数在小数点右边给出。例如,为10.2的序列读段的计数表示完整重复序列的10个重复和部分重复的2个额外碱基。

B.3)计算数目序列读段的重复长度与重复的数目的直方图。

B.4)基于直方图的特征而计算二核苷酸重复或STR的每标记的得分。

图8A和8B展示对应于标记LIMCH1的MSI-H(8A)和二核苷酸重复的经匹配的正常样品(8B)的重复长度的直方图的实例。图8C和8D展示对应于标记VPS13A的三核苷酸重复的MSI-H(8C)和经匹配的正常样品(8D)的重复长度的直方图的实例。x轴给出重复长度值。y轴给出序列读段的数目。正向方向上的序列读段的重复长度的直方图在x轴上方,并且反向方向上的序列读段的重复长度的直方图在x轴下方。MSI-H样品的重复长度的直方图各自展示具有相当大数目个序列读段的第二重复长度,而正常样品各自具有具有相当大数目个序列读段的一个重复长度。

在一些实施例中,第一特征可以包含具有最高数目个序列读段的直方图仓,并且第二特征可以包含具有第二高数目个序列读段的直方图仓。使用这些特征,可以如下计算二核苷酸重复或STR的每标记的得分:

B.a.计算重复长度的直方图中的第二高数目个序列读段与第一高数目个序列读段的比率。

B.b.将S形函数应用于比率。

B.c.将S形函数的输出乘以常数,以得到二核苷酸重复或STR的每标记的得分。

B.d.针对正向和反向股上的序列读段重复步骤a、b和c。

在一些实施例中,乘以常数可以为二核苷酸重复或STR的每标记的得分以及长均聚物的每标记的得分提供共同范围。可以通过将长均聚物的每标记的MSI得分的第一范围与其中MSI状态是已知的样品的真集中的二核苷酸重复或STR的每标记的MSI得分的第二范围进行比较来确定常数。常数可以基于第一范围与第二范围的比率。

上文所描述的STR分类器方法可以确定仅肿瘤分析中的STR区域的每标记的MSI得分。对于从肿瘤样品中获得的序列读段,可以计算和分析重复长度的直方图。

在一些实施例中,可以如下基于每标记得分而计算总得分:

B.I.确定与标记相关联的序列读段是否具有大于或等于最小覆盖度水平的覆盖度水平。例如,最小覆盖度水平可以是20个序列读段。

B.II.将阈值得分应用于针对标记中的每一个的正向序列读段和反向序列读段计算的每标记的得分,并且选择大于或等于阈值得分的得分。阈值得分可以由用户设置。

B.III.对满足最小覆盖准则的正向序列读段的所选择的得分求和,以产生正向序列读段的总得分。

B.IV.对满足最小覆盖准则的反向序列读段的所选择的得分求和,以产生反向序列读段的总得分。

B.V.将正向序列读段的总得分与反向序列读段的总得分相加,以产生样品的总MSI得分。

B.VI.如果一些标记的覆盖度水平并不满足步骤B.I中的最小覆盖度水平,则基于覆盖度水平大于或等于最小覆盖度水平的标记的数目而将总MSI得分归一化,以产生样品的总MSI得分。归一化可以如下计算:

TS_n=TS*(T/(TN)) (10)

其中TS_n是经归一化的总MSI得分,TS是在步骤B.V.中计算的总MSI得分,T是标记的总数目且N是在步骤B.I中具有小于最小覆盖度水平的标记的数目。

可以使用跨越多个标记的每标记MSI得分来将总MSI得分分配给每一样品。总MSI得分可以用于评估MSI状态。在通过均聚物分类器方法使用具有均值

图9给出具有已知MSI状态的六个样品中的若干标记物的每标记得分和总MSI得分的结果的示例性表格。通过本文中所描述的方法确定每标记得分和总MSI得分。MSI-H样品与MSI-L样品之间的总MSI得分中的实质差异表明总MSI得分在MSI-H与MSI-L状态之间区分的能力。

图10给出使用毛细电泳法(CE)测试MSI状态的结果的示例性表格。图11给出使用通过本文中所描述的NGS方法确定的总MSI得分来测试MSI状态的结果的示例性表格。正交测试的这些示例性结果展示使用本文中所描述的方法的NGS结果与CE发现的MSI状态的样品标示一致。

图15给出使用片上对照样品和混合对照确定的MSI得分的示例性结果的曲线图。由应用于不同延行中的相同生物样品的10×、20×、30×和40×复用生成测序读段数据。MSI得分(y轴)对应于总MSI得分,例如在图9的底部行中给出的那些总MSI得分。读段覆盖度(x轴)以多次实验得出的相同样品的读段的数目给出。MSI得分的变异系数(CV)定义为标准差与MSI得分的均值的比率。在此实例中,由使用片上对照样品的靶均聚物区域得到的MSI得分展示从160到220的MSI得分的变异性。片上对照的变异系数CV

关于MSI标记和应用的信息在以下出版物中给出:R.Bonneville,M.A.Krook等人,39种癌症类型的微卫星不稳定性景观(Landscape of Microsatellite InstabilityAcross 39Cancer Types),JCO Precis Oncol,2017;J.Hempelmann,C.Lockwood等人,通过PCR或下一代测序检测前列腺癌中的微卫星不稳定性(Microsatellite instability inprostate cancer by PCR or next-generation sequencing),《癌症免疫治疗杂志(Journal for Immuno Therapy of Cancer)》20186:29;Y.Maruvka,K.Mouw等人,体细胞微卫星indels分析识别人类肿瘤中的驱动事件(Analysis of somatic microsatelliteindels identifies driver events in human tumors),《自然生物技术(NatureBiotechnology)》35,951-959;以及Cortes-Ciriano,S.Lee等人,多种癌症中微卫星不稳定性的分子画像(Amolecular portrait of microsatellite instability acrossmultiple cancers),《自然通讯(Nature Communications)》8,15180。

根据示例性实施例,提供一种用于检测样品中的微卫星不稳定性(MSI)的方法,其包含:(1)接收对应于MSI的多个标记区域的多个核酸序列读段,其中序列读段中的每一个包含左侧翼序列、右侧翼序列和位于左侧翼序列的最右侧碱基和右侧翼序列的最左侧碱基之间的碱基的重复区域,其中重复区域包含对应于多个标记区域的特定标记区域的重复碱基序列的多个重复;(2)对于序列读段中的每一个,将左侧翼序列的至少一部分与参考左侧翼比对,其中参考左侧翼与对应于特定标记区域的参考核酸序列的参考重复区域接壤;(3)对于对应于序列读段中的靶均聚物的重复区域,基于靶均聚物的流空间信号测量结果而计算均聚物信号值直方图,其中标记区域的至少一部分对应于靶均聚物;(4)基于对应于靶均聚物的每一标记区域的均聚物信号值直方图的特征而确定每标记的得分以产生多个得分;以及(5)组合多个得分以形成样品的总MSI得分。方法可以进一步包括计算对应于靶STR的标记区域的序列读段的重复长度直方图,其中标记区域的第二部分对应于靶短串联重复序列(STR)的标记区域。方法可以进一步包括基于重复长度直方图的特征而确定每STR标记的得分以产生第二多个得分。确定每STR标记的得分的步骤可以进一步包括计算重复长度的直方图中的第二高数目个序列读段与第一高数目个序列读段的比率。方法可以进一步包括将S形函数应用于比率。组合多个得分的步骤可以进一步包括将第二多个得分与多个得分组合以形成所述总MSI得分。组合多个得分的步骤可以进一步包括基于满足最小覆盖准则的标记的数目而将总MSI得分归一化。方法可以使用仅肿瘤分析获得总MSI得分。方法可以获得总MSI得分,所述总MSI得分是使用肿瘤-正常分析获得的。计算均聚物信号值直方图的步骤可以进一步包括计算对应于具有与靶均聚物相同的核苷酸类型的流序列的M个核苷酸流的M个流空间信号测量结果的总和,以形成序列读段的均聚物信号值。对于包含正向方向上的序列读段和反向方向上的序列读段的序列读段,计算均聚物信号值直方图的步骤可以进一步包括计算正向方向上的序列读段的均聚物信号值的第一直方图和反向方向上的序列读段的均聚物信号值的第二直方图。特征可以基于均聚物信号值的均值和标准差。确定每标记的得分的步骤可以进一步包括将S形函数应用于特征中的每一个。确定每标记的得分的步骤可以进一步包括计算特征的加权和。组合多个得分的步骤可以进一步包括将阈值得分应用于每标记的得分。组合多个得分的步骤可以进一步包括确定与标记区域相关联的序列读段是否具有高于最小覆盖度水平的覆盖度水平。组合多个得分的步骤可以进一步包括对多个得分中满足阈值准则和覆盖准则的得分求和以形成总MSI得分。

根据示例性实施例,提供包括机器可读指令的计算机可读介质,所述机器可读指令在被加载到机器可读存储器中且由处理器执行时被配置成使得系统执行检测样品中的微卫星不稳定性(MSI)的方法,所述方法包含:(1)接收对应于MSI的多个标记区域的多个核酸序列读段,其中序列读段中的每一个包含左侧翼序列、右侧翼序列和位于左侧翼序列的最右侧碱基和右侧翼序列的最左侧碱基之间的碱基的重复区域,其中重复区域包含对应于多个标记区域的特定标记区域的重复碱基序列的多个重复;(2)对于序列读段中的每一个,将左侧翼序列的至少一部分与参考左侧翼比对,其中参考左侧翼与对应于特定标记区域的参考核酸序列的参考重复区域接壤;(3)对于对应于序列读段中的靶均聚物的重复区域,基于靶均聚物的流空间信号测量结果而计算均聚物信号值直方图,其中标记区域的至少一部分对应于靶均聚物;(4)基于对应于靶均聚物的每一标记区域的均聚物信号值直方图的特征而确定每标记的得分以产生多个得分;以及(5)组合多个得分以形成样品的总MSI得分。方法可以进一步包括计算对应于靶STR的标记区域的序列读段的重复长度直方图,其中标记区域的第二部分对应于靶短串联重复序列(STR)的标记区域。方法可以进一步包括基于重复长度直方图的特征而确定每STR标记的得分以产生第二多个得分。确定每STR标记的得分的步骤可以进一步包括计算重复长度的直方图中的第二高数目个序列读段与第一高数目个序列读段的比率。方法可以进一步包括将S形函数应用于比率。组合多个得分的步骤可以进一步包括将第二多个得分与多个得分组合以形成所述总MSI得分。组合多个得分的步骤可以进一步包括基于满足最小覆盖准则的标记的数目而将总MSI得分归一化。方法可以使用仅肿瘤分析获得总MSI得分。方法可以获得总MSI得分,所述总MSI得分是使用肿瘤-正常分析获得的。计算均聚物信号值直方图的步骤可以进一步包括计算对应于具有与靶均聚物相同的核苷酸类型的流序列的M个核苷酸流的M个流空间信号测量结果的总和,以形成序列读段的均聚物信号值。对于包含正向方向上的序列读段和反向方向上的序列读段的序列读段,计算均聚物信号值直方图的步骤可以进一步包括计算正向方向上的序列读段的均聚物信号值的第一直方图和反向方向上的序列读段的均聚物信号值的第二直方图。特征可以基于均聚物信号值的均值和标准差。确定每标记的得分的步骤可以进一步包括将S形函数应用于特征中的每一个。确定每标记的得分的步骤可以进一步包括计算特征的加权和。组合多个得分的步骤可以进一步包括将阈值得分应用于每标记的得分。组合多个得分的步骤可以进一步包括确定与标记区域相关联的序列读段是否具有高于最小覆盖度水平的覆盖度水平。组合多个得分的步骤可以进一步包括对多个得分中满足阈值准则和覆盖准则的得分求和以形成总MSI得分。

根据示例性实施例,提供一种用于检测微卫星不稳定性(MSI)的系统,其包含:机器可读存储器以及处理器,所述处理器被配置成执行机器可读指令,所述指令在由处理器执行时使得系统执行用于检测样品中的MSI的方法,方法包含:1)接收对应于MSI的多个标记区域的多个核酸序列读段,其中序列读段中的每一个包含左侧翼序列、右侧翼序列和位于左侧翼序列的最右侧碱基和右侧翼序列的最左侧碱基之间的碱基的重复区域,其中重复区域包含对应于多个标记区域的特定标记区域的重复碱基序列的多个重复;(2)对于序列读段中的每一个,将左侧翼序列的至少一部分与参考左侧翼比对,其中参考左侧翼与对应于特定标记区域的参考核酸序列的参考重复区域接壤;(3)对于对应于序列读段中的靶均聚物的重复区域,基于靶均聚物的流空间信号测量结果而计算均聚物信号值直方图,其中标记区域的至少一部分对应于靶均聚物;(4)基于对应于靶均聚物的每一标记区域的均聚物信号值直方图的特征而确定每标记的得分以产生多个得分;以及(5)组合多个得分以形成样品的总MSI得分。方法可以进一步包括计算对应于靶STR的标记区域的序列读段的重复长度直方图,其中标记区域的第二部分对应于靶短串联重复序列(STR)的标记区域。方法可以进一步包括基于重复长度直方图的特征而确定每STR标记的得分以产生第二多个得分。确定每STR标记的得分的步骤可以进一步包括计算重复长度的直方图中的第二高数目个序列读段与第一高数目个序列读段的比率。方法可以进一步包括将S形函数应用于比率。组合多个得分的步骤可以进一步包括将第二多个得分与多个得分组合以形成所述总MSI得分。组合多个得分的步骤可以进一步包括基于满足最小覆盖准则的标记的数目而将总MSI得分归一化。方法可以使用仅肿瘤分析获得总MSI得分。方法可以获得总MSI得分,所述总MSI得分是使用肿瘤-正常分析获得的。计算均聚物信号值直方图的步骤可以进一步包括计算对应于具有与靶均聚物相同的核苷酸类型的流序列的M个核苷酸流的M个流空间信号测量结果的总和,以形成序列读段的均聚物信号值。对于包含正向方向上的序列读段和反向方向上的序列读段的序列读段,计算均聚物信号值直方图的步骤可以进一步包括计算正向方向上的序列读段的均聚物信号值的第一直方图和反向方向上的序列读段的均聚物信号值的第二直方图。特征可以基于均聚物信号值的均值和标准差。确定每标记的得分的步骤可以进一步包括将S形函数应用于特征中的每一个。确定每标记的得分的步骤可以进一步包括计算特征的加权和。组合多个得分的步骤可以进一步包括将阈值得分应用于每标记的得分。组合多个得分的步骤可以进一步包括确定与标记区域相关联的序列读段是否具有高于最小覆盖度水平的覆盖度水平。组合多个得分的步骤可以进一步包括对多个得分中满足阈值准则和覆盖准则的得分求和以形成总MSI得分。

图12展示可以进行碱基识别的流空间信号测量结果的示例性表示。在此实例中,x轴示出流数目和在流序列中流动的核苷酸。图中的条形示出来自传感器阵列中微孔的特定位置的每个流的流空间信号测量结果的幅度。例如,y轴上的数字示出核苷酸并入的对应数目,其可通过四舍五入到最接近的整数来估算。核苷酸并入的数目指示均聚物长度。流空间信号测量结果可以是原始采集数据或已经处理的数据,例如通过缩放、背景过滤、归一化、信号衰减校正和/或相位误差或效果的校正等。碱基识别可以通过分析任何合适的信号特征(例如,信号幅度或强度)来进行。用于本教示的传感器阵列的结构和/或设计、信号处理和碱基识别可以包含在2013年4月11日公布的美国专利申请公开第2013/0090860号中描述的一种或多种特征,其以全文引用的方式并入本文中。

例如,核苷酸流顺序是:

ACTGACTGA

并且每个核苷酸流后由孔产生的各个信号是:

0.1、0.3、0.2、1.4、0.3、1.2、0.8、1.5、0.7

基于核苷酸流序列,使用四舍五入到最接近的整数的信号产生推定的核酸序列(因为核苷酸并入事件发生或未发生,但不是部分发生)。因此,上述核苷酸流次序和信号建立如下的推定核酸序列:

一旦确定序列读段的碱基序列,就可以将序列读段与参考序列进行比对以形成比对的序列读段。用于本教示的用于形成比对序列读段的方法可以包含在2012年8月2日公布的美国专利申请公开第2012/0197623号中描述的一种或多种特征,该公开以全文引用的方式并入本文中。将经比对的序列读段提供到处理器,例如经比对的BAM文件中。

BAM文件格式结构在2014年9月12日的“序列比对/地图格式规范”中进行了描述(https://github.com/samtools/hts-specs)。如本文中所描述,“BAM文件”是指与BAM格式兼容的文件。如本文中所描述,未经比对的BAM文件是指不包含经比对的序列读段信息和定位质量参数的BAM文件,而经比对的BAM文件是指包含经比对的序列读段信息和定位质量参数的BAM文件。

核酸序列数据可以使用包含但不限于以下的各种技巧、平台或技术生成:毛细电泳法、微阵列、基于连接的系统、基于聚合酶的系统、基于杂交的系统、直接或间接核苷酸鉴别系统、焦磷酸测序、基于离子或pH的检测系统、基于电子签名的系统等。

核酸测序平台(例如核酸测序仪)的各种实施例可以包含如图13的框图中所显示的组件。根据各种实施例,测序仪器200可以包含流体递送和控制单元202、样品处理单元204、信号检测单元206以及数据采集、分析和控制单元208。用于下一代测序的仪表、试剂、库和方法的各种实施例描述于美国专利申请公开案第2009/0127589号和第2009/0026082号中。仪器200的各种实施例可以提供可以用于并行地,例如基本上同时从多个序列收集序列信息的自动化测序。

在各种实施例中,流体学递送和控制单元202可以包含试剂递送系统。试剂递送系统可以包含用于存储各种试剂的试剂储集器。试剂可以包含基于RNA的引物、正向/反向DNA引物、用于连接测序的寡核苷酸混合物、用于合成测序的核苷酸混合物、任选的ECC寡核苷酸混合物、缓冲剂、洗涤试剂、阻断试剂、汽提试剂等。另外,试剂递送系统可以包含移液系统或连续流动系统,其将样品处理单元与试剂储集器连接。

在各种实施例中,样品处理单元204可以包含样品室,例如流槽、基板、微阵列、多孔盘等。样品处理单元204可以包含多个通道、多个槽道、多个孔或其它基本上同时处理多个样品组的手段。另外,样品处理单元可以包含多个样品室以使得能够同时处理多个轮次。在特定实施例中,系统可以对一个样品室执行信号检测,并且基本上同时处理另一样品室。另外,样品处理单元可以包含用于移动或操纵样品室的自动化系统。

在各种实施例中,信号检测单元206可以包含成像或检测传感器。例如,成像或检测传感器可以包含CCD、CMOS、离子或化学传感器(如覆盖CMOS或FET的离子敏感层)、电流或电压检测器等。信号检测单元206可以包含励磁系统以引起探针(例如荧光染料)发射信号。励磁系统可以包含照明源,例如弧光灯、激光、发光二极管(LED)等。在特定实施例中,信号检测单元206可以包含用于将光从照明源传输到样品或从样品传输到成像或检测传感器的光学系统。替代地,信号检测单元206可以提供基于电子或非光子的检测方法并且因此不包含照明源。在各种实施例中,基于电子的信号检测可以在测序反应期间产生可检测信号或物质时进行。例如,信号可以通过与离子或化学敏感层相互作用的所释放的副产物或部分(例如所释放的离子,如氢离子)的相互作用而产生。在其它实施例中,可检测信号可以由于如用于焦磷酸测序(参见例如美国专利申请公开案第2009/0325145号)中的酶促级联产生,其中焦磷酸酯通过聚合酶的碱基并入产生,所述聚合酶进一步与ATP硫酸化酶在腺苷5'磷酰硫酸存在下反应来产生ATP,其中所产生的ATP可以在荧光素酶介导的反应中耗尽来产生化学发光信号。在另一个实例中,电流的变化可以在核酸穿过纳米孔时在不需要照明源的情况下检测。

在各种实施例中,数据采集分析和控制单元208可以监测各种系统参数。系统参数可以包含仪器200的各部分(例如样品处理单元或试剂储集器)的温度、各种试剂的体积、各种系统子组件(例如操纵器、步进式电机、泵等)的状态、或其任何组合。

本领域的技术人员应了解,仪器200的各种实施例可以用于实践多种测序方法,包含基于连接的方法、合成测序、单分子方法、纳米孔测序以及其它测序技术。

在各种实施例中,测序仪器200可以确定核酸,例如聚核苷酸或寡核苷酸的序列。核酸可以包含DNA或RNA,并且可以是单链的,例如ssDNA和RNA,或双链的,例如dsDNA或RNA/cDNA对。在各种实施例中,核酸可以包含或衍生自片段库、配对库、ChIP片段等。在特定实施例中,测序仪器200可以从单一核酸分子或从基本上相同的核酸分子的群组获得序列信息。

在各种实施例中,测序仪器200可以包含但不限于以下的多种不同输出数据文件类型/格式输出核酸测序读取数据:*.fasta、*.csfasta、*seq.txt、*qseq.txt、*.fastq、*.sff、*prb.txt、*.sms、*srs和/或*.qv。

根据各种示例性实施例,可以使用适当配置和/或编程的硬件和/或软件元件来执行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征。确定是否使用硬件和/或软件元件来实施实施例可基于任何数目的因素,例如期望的计算速率、功率水平、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度等,以及其它设计或性能限制。

硬件元件的实例可以包含通过以下以通信方式耦合的处理器、微处理器、一个或多个输入设备和/或一个或多个输出装置(I/O)(或外围设备):本地接口电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑装置(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体装置、芯片、微芯片、芯片组等。本地接口可以包含例如一个或多个总线或其它有线或无线连接、控制器、缓冲器(缓存器)、驱动器、中继器和接收器等,以允许硬件组件之间的适当通信。处理器是用于执行软件,尤其是存储在存储器中的软件的硬件装置。处理器可以是任何定制的或市售的处理器、中央处理单元(CPU)、与计算机相关联的若干处理器中的辅助处理器、基于半导体的微处理器(例如呈微芯片或芯片组的形式)、宏处理器,或通常用于执行软件指令的任何装置。处理器还可以表示分布式处理架构。I/O设备可以包含输入设备,例如键盘、鼠标、扫描仪、麦克风、触摸屏、用于各种医疗设备和/或实验室仪器的接口、条形码读段器、触控笔、激光读段器、射频装置读段器等。此外,I/O设备还可以包含输出设备,例如打印机、条形码打印机、显示器等。最后,I/O设备还可以包含以输入和输出的形式连通的设备,例如调制器/解调器(调制解调器;用于接入另一个装置、系统或网络)、射频(RF)或其它收发器、电话接口、网桥、路由器等。

软件的实例可以包含软件组件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、操作步骤、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或其任何组合。在存储器中的软件可以包含一个或多个独立程序,其可以包含用于执行逻辑功能的可执行指令的有序列表。在存储器中的软件可以包含用于识别根据本发明的教示内容的数据流的系统和任何适合的定制或可商购的操作系统(O/S),其可控制例如系统等其它计算机程序的执行,并且提供排程、输入-输出控制、文件和数据管理、存储器管理、通信控制等。

根据各种示例性实施例,可使用可存储指令或指令集的适当地配置和/或编程的非暂时性机器可读介质或物件来执行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征,所述指令或指令集如果由机器执行,那么可使机器执行根据示例性实施例的方法和/或操作。此类机器可以包含例如任何合适的处理平台、计算平台、计算装置、处理装置、计算系统、处理系统、计算机、处理器、科学或实验室仪器等,并且可使用硬件和/或软件的任何合适的组合来实施。机器可读介质或物件可以包含例如任何合适类型的存储器单元、存储器装置、存储器物件、存储器介质、存储装置、存储物件、存储介质和/或存储单元,例如存储器、可移动介质或不可移动介质、可擦除介质或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、只读存储器光盘(CD-ROM)、可刻录光盘(CD-R)、可重写光盘(CD-RW)、光盘、磁性介质、磁光介质、可移动存储卡或盘、各种类型的数字多功能光盘(DVD)、磁带、磁带盒等,包含适用于计算机的任何介质。存储器可以包含易失性存储器元件(例如随机存取存储器(RAM,如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如ROM、EPROM、EEROM、闪存储器、硬盘驱动器、磁带、CDROM等)中的任一个或组合。此外,存储器可并入电子、磁性、光学和/或其它类型的存储介质。存储器可以具有分布式结构,其中各种组件彼此远离地定位,但仍通过处理器接入。指令可以包含使用任何适合的高阶、低阶、面向对象、视觉、经编译和/或经解译的编程语言实施的任何合适类型的代码,例如源代码、经编译的代码、解译的代码、可执行码、静态代码、动态代码、加密的代码等。

根据各种示例性实施例,可至少部分地使用分布式、丛集、远程或云计算资源来执行或实施上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征。

根据各种示例性实施例,上述教示内容和/或示例性实施例中的任一个或多个的一个或多个特征可使用源程序、可执行程序(靶代码)、脚本或任何其它包括待执行的指令集的实体来执行或实施。在源程序情况下,所述程序可以通过可以包含或不包含在存储器中的编译器、汇编器、解释器等翻译以便与O/S一起正确地操作。指令可以使用以下来书写:(a)具有数据类和方法类的面向对象的编程语言;或(b)具有例程、子例程和/或函数的过程编程语言,可以包含例如C、C++、R、Pascal、Basic、Fortran、Cobol、Perl、Java和Ada。

根据各种例示性实施例,上述例示性实施例中的一个或多个可以包含向用户接口装置、计算机可读存储介质、本地计算机系统或远程计算机系统发送、显示、存储、打印或输出与可以通过这类例示性实施例生成、访问或使用的任何信息、信号、数据和/或中间结果或最终结果有关的信息。例如,这类发送、显示、存储、打印或输出的信息可以采用可搜索和/或可过滤的运行和报告、图片、表格、图表、图形、电子表格、相关性、序列和其组合列表的形式。

虽然已经在本文中展示和描述了本发明的优选实施例,但所属领域的技术人员应显而易见,这类实施例是仅作为实例而提供。在不脱离本发明的情况下,所属领域的技术人员现在将意识到许多变型、变化和替代物。应理解,本文所描述的本发明的实施例的各个替代方案都可以用于实践本发明。所附权利要求书旨在限定本发明的范围,并且由此覆盖这些权利要求和其等效物的范围内的方法和结构。

序列表

<110> LIFE TECHNOLOGIES CORPORATION

EL-DIFRAWY, Sameh

<120> 用于评估微卫星不稳定性状态的方法和系统

<130> LT01423

<150> US 62/745,161

<151> 2018-10-12

<150> US 62/785,596

<151> 2018-12-27

<150> US 62/858,387

<151> 2019-06-07

<160> 2

<170> PatentIn 3.5版

<210> 1

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 合成

<400> 1

acgtcaaaaa aaaaaggtc 19

<210> 2

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 合成

<400> 2

acgtcaaaaa aggtc 15

相关技术
  • 用于评估微卫星不稳定性状态的方法和系统
  • 用于检测微卫星不稳定性状态的方法及系统
技术分类

06120112768905