掌桥专利:专业的专利平台
掌桥专利
首页

用于体细胞变体检测的方法和组合物

文献发布时间:2023-06-19 10:00:31



发明领域

本文提供的方法和系统的一些实施方案涉及来自从单个样品获得的序列数据的变体调用。在一些实施方案中,基于样品中变体的变体等位基因频率及其在基因组中的位置,可以将体细胞变体与生殖系变体区分开。

发明背景

DNA突变是癌症的一种原因并且是癌症研究和治疗的焦点。下一代测序(NGS)是一种有前景的从头突变检测技术,这是因为现代测序仪可以产生巨大量的读取。理论上,基因组样品中的所有突变或变体,无论变体等位基因频率(VAF)或基因组区域如何,都可以在给出足够的读取深度的情况下观察到。然而,由于读取中的噪声,有把握地调用变体并不是微不足道的。已经开发了几种生物信息学工具来从测序读取中揭示变体,并且这样的过程通常由三个组成部分组成:读取处理、映射和比对,以及变体调用。

对于读取处理,从DNA样品读取处理工具修整通常位于读取3'端附近的低质量碱基,以及外源序列如测序适配子。其次,使用映射和比对工具对干净的读取映射,以确定变体可能来自参考基因组中的何处,然后逐个碱基比对。第三步,变体调用的过程被用于从源自文库制备、样品富集、测序和映射/比对的人工产物中分离真实的变体。仍然需要改进的从序列数据调用变体的方法。

发明概述

一些实施方案包括用于鉴定多种变体中的体细胞变体的方法,包括:(a)获得包括体细胞变体和生殖系变体的多种变体;(b)将数据库过滤器应用于所述多种变体,包括:确定所述多种变体中的第一生殖系变体,其中所述第一生殖系变体中的每个在第一变体参考集中具有大于或等于阈值等位基因计数的等位基因计数;(c)将邻近过滤器应用于所述多种变体,包括:(i)将所述多种变体的变体分入多个箱中,其中位于基因组的相同区域中的变体分入同一箱中,(ii)确定所述多种变体中的数据库变体,其中数据库变体存在于第二变体参考集中,和(iii)确定所述多种变体中的第二生殖系变体,其中所述第二生殖系变体中的每个具有在至少一种数据库变体的等位基因频率的近似范围内的等位基因频率,所述至少一种数据库变体与所述第二生殖系变体在同一箱中;以及(d)通过从所述多种变体中去除所鉴定的第一和第二生殖系变体来确定所述多种变体中的体细胞变体。

在一些实施方案中,(b)和(c)连续进行。

在一些实施方案中,(c)在(b)之前进行。

在一些实施方案中,阈值等位基因计数是5。在一些实施方案中,阈值等位基因计数是10。

在一些实施方案中,第一和第二变体参考集是相同的参考集。

在一些实施方案中,第一或第二变体参考集包括多个个体的变体的数据库。在一些实施方案中,第一或第二变体参考集包括选自基因组聚集数据库(gnomAD)和1000基因组数据库的至少一个数据库。

在一些实施方案中,基因组的相同区域位于相同的染色体内。在一些实施方案中,基因组的相同区域位于相同的染色体臂内。在一些实施方案中,基因组的相同区域位于相同的染色体细胞带内。在一些实施方案中,基因组的相同区域位于10Mb区域内。

在一些实施方案中,应用邻近过滤器还包括鉴定具有大于或等于0.9的等位基因频率的第二生殖系变体。

在一些实施方案中,应用邻近过滤器还包括鉴定多种变体中的第二生殖系变体,其中第二生殖系变体是存在于第二变体参考集中的数据库变体。

在一些实施方案中,所述近似范围是这样的范围,其具有与第二生殖系变体的等位基因频率相差0.05的最大值和最小值。

在一些实施方案中,所述近似范围是这样的范围,其具有与第二生殖系变体的等位基因频率的二项式分布相差两个标准偏差的最大值和最小值,并且以第二生殖系变体的等位基因频率为中心值。

在一些实施方案中,所述第二生殖系变体具有在与至少五种数据库变体的等位基因频率接近的阈值内的等位基因频率,所述至少五种数据库变体与所述第二生殖系变体在同一箱中。在一些实施方案中,所述第二生殖系变体具有在与至少十种数据库变体的等位基因频率接近的阈值内的等位基因频率,所述至少十种数据库变体与所述第二生殖系变体在同一箱中。

在一些实施方案中,(a)包括:从包含肿瘤细胞的生物样品获得序列数据。一些实施方案还包括将序列数据与参考序列进行比对,并鉴定序列数据中的变体。

在一些实施方案中,包含肿瘤细胞的生物样品选自血清样品、粪便样品、血液样品、肿瘤样品。在一些实施方案中,肿瘤样品是经固定的样品。

一些实施方案包括确定肿瘤的肿瘤突变负荷的方法,包括:从包含肿瘤细胞的生物样品获得序列数据;从所述序列数据中确定多个变体;以及根据前述实施方案中任一项所述的方法确定多种变体中的体细胞变体的数目,其中体细胞变体的数目是肿瘤的肿瘤突变负荷。

一些实施方案包括治疗肿瘤的方法,包括:根据确定肿瘤的肿瘤突变负荷的方法,确定具有大于或等于10种体细胞变体的肿瘤突变负荷的肿瘤;以及通过给予有效量的检查点抑制剂来治疗所述肿瘤。

在一些实施方案中,肿瘤选自结肠直肠肿瘤、肺肿瘤、子宫内膜肿瘤、子宫肿瘤、胃肿瘤、黑色素瘤、乳腺肿瘤、胰腺肿瘤、肾肿瘤、膀胱肿瘤和脑肿瘤。

在一些实施方案中,检查点抑制剂选自CTLA-4抑制剂、PD-1抑制剂和PD-L1抑制剂。在一些实施方案中,检查点抑制剂选自伊匹单抗、纳武单抗、派姆单抗、斯巴达珠单抗、阿特珠单抗、阿维鲁单抗和得瓦鲁单抗。

一些实施方案包括用于分析遗传变异数据的电子系统,其包括:信息学模块,其在处理器上运行且配置为从来自包含肿瘤细胞的生物样品的序列数据中鉴定多种变体,其中所述多种变体包括体细胞变体和生殖系变体;数据库过滤器模块,其配置为从所述多种变体中去除第一生殖系变体,其中所述第一生殖系变体中的每个在第一变体参考集中具有大于或等于阈值等位基因计数的等位基因计数;邻近过滤器模块,其配置为从所述多种变体中去除第二生殖系变体,所述邻近过滤器模块包括:分箱子模块,其配置为返回多个箱,每个箱含有位于基因组的相同区域中的所述多种变体的变体;鉴定子模块,其配置为返回所述多种变体中的数据库变体,其中数据库变体存在于第二变体参考集中;和去除子模块,其配置为从所述多种变体中去除第二生殖系变体,其中所述第二生殖系变体中的每个具有在至少一种数据库变体的等位基因频率的近似范围内的等位基因频率,所述至少一种数据库变体与所述第二生殖系变体在同一箱中;以及显示模块,其配置为返回未从所述多种变体中去除的变体。

在一些实施方案中,信息学模块包括变体注释工具。

在一些实施方案中,阈值等位基因计数是5。在一些实施方案中,阈值等位基因计数是10。

在一些实施方案中,第一和第二变体参考集是相同的参考集。

在一些实施方案中,第一或第二变体参考集包括多个个体的变体的数据库。在一些实施方案中,第一或第二变体参考集包括选自基因组聚集数据库(gnomAD)和1000基因组数据库的至少一个数据库。

在一些实施方案中,基因组的相同区域位于相同的染色体内。在一些实施方案中,基因组的相同区域位于相同的染色体臂内。在一些实施方案中,基因组的相同区域位于相同的染色体细胞带内。在一些实施方案中,基因组的相同区域位于10Mb区域内。

在一些实施方案中,所述去除子模块配置为从所述多种变体中去除具有大于或等于0.9的等位基因频率的变体。

在一些实施方案中,去除子模块配置为从所述多种变体中去除存在于第二变体参考集中的数据库变体。

在一些实施方案中,所述近似范围是具有与第二生殖系变体的等位基因频率相差0.05的最大值和最小值的范围。

在一些实施方案中,所述近似范围是具有与第二生殖系变体的等位基因频率的二项式分布相差两个标准偏差的最大值和最小值,并且以第二生殖系变体的等位基因频率为中心值的范围。

在一些实施方案中,所述第二生殖系变体具有在与至少五种数据库变体的等位基因频率接近的阈值内的等位基因频率,所述至少五种数据库变体与所述第二生殖系变体在同一箱中。在一些实施方案中,所述第二生殖系变体具有在与至少十种数据库变体的等位基因频率接近的阈值内的等位基因频率,所述至少十种数据库变体与所述第二生殖系变体在同一箱中。

在一些实施方案中,包含肿瘤细胞的生物样品选自血清样品、粪便样品、血液样品、肿瘤样品。在一些实施方案中,肿瘤样品是经固定的样品。

一些实施方案包括用于鉴定多种变体中的体细胞变体的计算机实现的方法,包括:执行前述方法中的任一个的方法。

一些实施方案包括用于鉴定多种变体中的体细胞变体的计算机实现的方法,包括:(a)从来自包含肿瘤细胞的生物样品的序列数据接收多种变体,所述多种变体包括体细胞变体和生殖系变体;(b)将数据库过滤器应用于所述多种变体,包括:为所述多种变体创建文件索引,用所述索引搜索第一变体参考集以鉴定所述索引中的第一生殖系变体,其中所述第一生殖系变体中的每个在所述第一变体中具有大于或等于阈值等位基因计数的等位基因计数,以及从所述索引中去除所鉴定的第一生殖系变体以创建第一经过滤的变体的索引;(c)将邻近过滤器应用于第一经过滤变体的索引,包括:(i)为基因组的不同区域创建多个箱,(ii)对第一经过滤变体的索引的变体进行分箱,其中位于基因组的相同区域中的变体被分入同一箱中,(iii)用第一经过滤变体的索引搜索第二变体参考集,以鉴定第一经过滤变体的索引中的数据库变体,(iii)通过鉴定第二生殖系变体从第一经过滤变体的索引产生第二生殖系变体的索引,其中所述第二生殖系变体中的每个具有在至少一种数据库变体的等位基因频率的近似范围内的等位基因频率,所述至少一种数据库变体与所述第二生殖系变体在同一箱中,和(iv)从第一经过滤变体的索引去除所鉴定的第二生殖系变体以产生体细胞变体的索引,从而鉴定多种变体中的体细胞变体。

在一些实施方案中,阈值等位基因计数是5。在一些实施方案中,阈值等位基因计数是10。

在一些实施方案中,第一和第二变体参考集是相同的参考集。

在一些实施方案中,第一或第二变体参考集包括多个个体的变体的数据库。在一些实施方案中,第一或第二变体参考集包括选自基因组聚集数据库(gnomAD)和1000基因组数据库的至少一个数据库。

在一些实施方案中,基因组的相同区域位于相同的染色体内。在一些实施方案中,基因组的相同区域位于相同的染色体臂内。在一些实施方案中,基因组的相同区域位于相同的染色体细胞带内。在一些实施方案中,基因组的相同区域位于10Mb区域内。

在一些实施方案中,产生第二经过滤变体的索引还包括鉴定具有大于或等于0.9的等位基因频率的第二生殖系变体。

在一些实施方案中,产生第二经过滤变体的索引还包括鉴定多种变体中的第二生殖系变体,其中第二生殖系变体是存在于第二变体参考集中的数据库变体。

在一些实施方案中,所述近似范围是具有与第二生殖系变体的等位基因频率相差0.05的最大值和最小值的范围。

在一些实施方案中,所述近似范围是具有与第二生殖系变体的等位基因频率的二项式分布相差两个标准偏差的最大值和最小值,并且以第二生殖系变体的等位基因频率为中心值的范围。

在一些实施方案中,所述第二生殖系变体具有在与至少五种数据库变体的等位基因频率接近的阈值内的等位基因频率,所述至少五种数据库变体与所述第二生殖系变体在同一箱中。在一些实施方案中,所述第二生殖系变体具有在与至少十种数据库变体的等位基因频率接近的阈值内的等位基因频率,所述至少十种数据库变体与所述第二生殖系变体在同一箱中。

在一些实施方案中,包含肿瘤细胞的生物样品选自血清样品、粪便样品、血液样品、肿瘤样品。在一些实施方案中,肿瘤样品是经固定的样品。

附图的简要说明

图1描绘了工作流程的示例性实施方案,其包括获得序列数据如VCF文件,鉴定和注释数据中的变体,鉴定和过滤生殖系变体,以及返回指示变体状态的变体表。

图2A的图显示了根据具有体细胞变体(黑色填充的圆)和生殖系变体(灰色填充的圆)的每种变体的染色体位置的各种变体的变体等位基因频率(VAF)。

图2B的图显示了根据具有过滤器确定的体细胞变体(黑色填充的圆)和过滤器确定的生殖系变体(灰色填充的圆)的每种变体的染色体位置的各种变体的VAF。

图3的图显示了根据具有过滤器确定的体细胞变体(黑色填充的圆)和过滤器确定的生殖系变体(灰色填充的圆)的每种变体的染色体1-7的染色体位置的各种变体的VAF,以及位于染色体7上的变体的放大图,其中已经选择了特定的过滤器确定的体细胞变体,以及从所选择的变体绘制的范围。

图4A的图显示了根据具有仅用数据库过滤器过滤的过滤器确定的体细胞变体(黑色填充的圆)和过滤器确定的生殖系变体(灰色填充的圆)的每种变体的染色体位置的各种变体的VAF。

图4B的图显示了根据具有仅用数据库过滤器和邻近过滤器过滤的过滤器确定的体细胞变体(黑色填充的圆)和过滤器确定的生殖系变体(灰色填充的圆)的每种变体的染色体位置的各种变体的VAF。

图5描绘了工作流程的示例性实施方案的总览,其包括获得福尔马林固定的石蜡包埋(FFPE)样品,获得序列数据以及分析序列数据。

图6描绘了工作流程的示例性实施方案,其包括使用数据库过滤器和邻近过滤器从所鉴定的变体中过滤生殖系变体,并计算肿瘤突变负荷。

图7的线图显示了仅用数据库(在约3种生殖系残留物/Mb处的图峰)和混合策略(在约0种生殖系残留物/Mb处的图峰)过滤后剩余生殖系变体计数的分布。

图8A的图显示了仅肿瘤和肿瘤/正常测定之间的肿瘤突变负荷(TMB)的比较。

图8B的图显示了仅肿瘤和WES肿瘤正常测定之间的肿瘤突变负荷(TMB)的比较。

发明详述

本文提供的方法和系统的一些实施方案涉及来自从单个样品获得的序列数据的变体调用。在一些实施方案中,基于样品中变体的等位基因频率和基因组中变体的位置,可以将体细胞变体与生殖系变体区分开。如本文所用,“变体”可包括核酸分子内的多态性。多态性可包括插入、缺失、可变长度串联重复、单核苷酸突变和结构变体如易位、拷贝数变异或以上的组合。如本文所用,“生殖系变体”可包括存在于个体的生殖细胞和所有细胞中的变体。如本文所用,“体细胞变体”可包括存在于个体的肿瘤细胞中而不存在于个体的其它细胞中的变体。

传统上,在体细胞变体和生殖系变体之间调用变体依赖于从肿瘤样品获得的数据和从匹配的正常样品获得的数据之间的比较。然而,传统的变体调用需要匹配的样品可用,并且需要获得两组数据。本文提供的实施方案涉及从来自个体的单个样品中获取的序列数据调用变体。使用单个样品可以减少对匹配样品的需要,并降低获得肿瘤样品和匹配的正常样品的序列数据所需的成本。

一些实施方案涉及从样品,如来自个体的包含肿瘤细胞的样品获得序列数据,将所述序列数据与参考进行比较以鉴定所述序列数据中的多种变体,并将一种或多种过滤器应用于所述变体以鉴定生殖系变体和体细胞变体。在一些实施方案中,过滤器可以包括邻近过滤器。在一些实施方案中,邻近过滤器包括根据基因组中变体的位置将多种变体分入多个箱中。通过一个或多个变体参考集中存在的相应变体,可以将一些箱的变体鉴定为生殖系变体。如果未表征的箱变体具有与未表征的变体相同的箱中的一种或多种鉴定的生殖系变体的等位基因频率相似的等位基因频率,则未表征的箱变体可以被确定为生殖系变体。一些实施方案还包括应用数据库过滤器来鉴定生殖系变体。数据库过滤器可以根据一个或多个变体参考集中相应变体的等位基因计数来鉴定生殖系变体。在一些实施方案中,数据库过滤器和邻近过滤器可应用于多种变体以鉴定生殖系变体。在一些实施方案中,体细胞变体是被鉴定为生殖系变体的变体。体细胞变体的数目可指示肿瘤的肿瘤突变负荷。

在最近的研究表明肿瘤突变负荷与检查点抑制剂免疫疗法的有效性之间的相关性之后,肿瘤突变负荷已经作为癌症治疗选择的重要生物标志物出现。在计算肿瘤突变负荷时,鉴定和过滤出生殖系变体是有用的。生殖系变体可以包括个体出生具有的(或在肿瘤和正常细胞之间共有的)但是与参考基因组相比被检测为变体的变体。这些变体没有有助于将肿瘤细胞与正常细胞区分开,并因此如果没有正确过滤出可能导致肿瘤突变负荷的过度估计。实施方案包括确定肿瘤的肿瘤突变负荷,根据肿瘤突变负荷选择肿瘤的治疗,以及向有需要的对象给予所述治疗。

本文提供的方法和系统的一些实施方案涉及用于鉴定包括体细胞变体和生殖系变体的多种变体中的体细胞变体的方法。在一些实施方案中,可使用一种或多种过滤器从多种变体中过滤生殖系变体。这种过滤器的实例包括数据库过滤器和邻近过滤器。

在一些实施方案中,数据库过滤器可应用于多种变体。数据库过滤器可用于将变体鉴定为生殖系变体,并从多种变体中去除所述变体。对于多种变体中的特定变体,数据库过滤器可以与数据库中相应变体的等位基因计数相关。

对于多种变体中的每种变体,可以为参考数据库中的相应变体而搜索所述数据库。参考数据库可以包括多个个体的变体的数据库。可用于本文提供的实施方案的数据库的实例包括基因组聚集数据库(gnomAD),包括gnomAD exome和gnomAD基因组数据库,和1000基因组数据库(国际基因组样品源(International Genome Sample Resource))。参见例如Lek,M.et al.,(2016)Nature 536:285-292,其通过引用整体并入本文中。可以在一个或多个参考数据库中确定相应变体的总等位基因计数。等位基因计数可以代表数据库中观察到变体的总观察数。例如,相应变体的数据库中的等位基因计数为10表示对于纯合变体在至少5个样品中观察到相应的变体,或者对于杂合变体在最多10个样品中观察到。在一些实施方案中,等位基因计数可以是在多于一个数据库中观察到的最高等位基因计数。具有等位基因计数大于或等于某一阈值等位基因计数的相应变体的变体可以被鉴定为生殖系变体。在一些实施方案中,阈值等位基因计数可以大于或等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20。

在一些实施方案中,可以将邻近过滤器应用于多种变体。数据库过滤器可用于将变体鉴定为生殖系变体,并从多种变体中去除所述变体。邻近过滤器可以与多种变体中某种变体的等位基因频率、该变体在基因组区域中的位置,以及该变体的等位基因频率与基因组相同区域中鉴定的生殖系变体的等位基因频率的接近度有关。在一些实施方案中,多种变体的变体可以被分类或分入多个箱中,使得位于基因组的相同区域中的变体被分类或分入同一箱中。在一些实施方案中,基因组的相同区域可以位于相同的染色体内、位于相同的染色体臂内、位于相同的染色体细胞带内。在一些实施方案中,基因组的相同区域可以位于相同的连续100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内,或者位于前述数字中的任何两个之间的任何范围内。

在一些实施方案中,邻近过滤器还包括确定哪些箱的变体可容易地被鉴定为生殖系变体。例如,箱的变体可以具有存在于一个或多个参考数据库中的相应变体,并被鉴定为生殖系变体。

在一些实施方案中,邻近过滤器包括确定样品中具有大于或等于阈值频率的等位基因频率的变体是生殖系变体。在一些这样的实施方案中,具有大于或等于0.7、0.8、0.9或1.0的等位基因频率的变体可被鉴定为生殖系变体。

在一些实施方案中,邻近过滤器包括确定尚未被鉴定为生殖系变体的变体的等位基因频率的近似范围。变体的等位基因频率的近似范围可以包括变体的等位基因频率以上和以下的等位基因频率的范围。在一些实施方案中,所述近似范围是具有与变体的等位基因频率相差0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09,或任何两个前述数字之间的范围内的任何数字的最大值和最小值的范围。例如,对于具有0.2的等位基因频率和0.05的近似范围的变体,近似范围的最小值和最大值将分别是0.15和0.25的等位基因频率。

在一些实施方案中,假设给定变体的支持证据通过二项式过程产生,则通过二项式分布的两(n)个标准偏差的值来确定近似范围。例如,对于具有等位基因频率(x)和覆盖率(y)的变体,近似范围(z)可以是:

z=n*sqrt(y*x*(1-x))/y

例如,对于具有0.2的等位基因频率、100的覆盖率/测序深度的变体,近似范围将是0.08,并且近似范围的最小值和最大值将分别是0.12和0.28的等位基因频率。在一些实施方案中,近似范围是高于和低于变体等位基因频率0.05,或与变体等位基因频率的二项式分布相差两(n)个标准偏差中的较高者。

在一些实施方案中,如果变体具有的等位基因频率在与变体在同一箱中的一种或多种鉴定的生殖系变体的近似范围内,则变体可以被鉴定为生殖系变体。在一些实施方案中,如果变体具有的等位基因频率在与变体在同一箱中的超过1、2、3、4、5、6、7、8、9或10种鉴定的生殖系变体的近似范围内,则变体可被鉴定为生殖系变体。在一些实施方案中,如果变体具有的等位基因频率在与变体在同一箱中的超过5种鉴定的生殖系变体的范围内,则变体可以被鉴定为生殖系变体。例如,在实施方案中,其中如果变体具有的等位基因频率在与变体在同一箱中的超过5种鉴定的生殖系变体的范围内,则变体将被鉴定为生殖系变体:具有0.2的等位基因频率,具有0.05的近似范围,因此具有0.15的最小范围和0.25的最大范围,并且分入代表染色体7的箱中的变体将被鉴定为生殖系变体,其中超过5种鉴定的生殖系变体具有的等位基因频率在变体的近似范围内,并分入代表染色体7的箱中。

在一些实施方案中,邻近过滤器鉴定体细胞变体,其是不被鉴定为生殖系变体的变体。在一些实施方案中,从来自肿瘤的测序数据获得的体细胞变体的数目是肿瘤的肿瘤突变负荷。

在一些实施方案中,数据库过滤器或邻近过滤器可应用于多种变体以从多种变体中鉴定和去除生殖系变体。在一些实施方案中,可以连续地应用数据库过滤器和邻近过滤器。例如,数据库过滤器的输出可用于邻近过滤器的输入。相反,邻近过滤器的输出可以用作数据库过滤器的输入。

本文提供的方法和系统的一些实施方案包括用于分析遗传变异数据的电子系统。在一些这样的实施方案中,本文所述的数据库过滤器和/或本文所述的邻近过滤器可应用于遗传变异数据以鉴定生殖系变体。

一些实施方案可以包括信息学模块,其在处理器上运行,且配置为从来自包含肿瘤细胞的生物样品的序列数据鉴定多种变体,其中所述多种变体包含体细胞变体和生殖系变体。

一些实施方案包括数据库过滤器模块,其配置为从所述多种变体去除生殖系变体,其中所述生殖系变体中的每个在变体参考集中具有大于或等于阈值等位基因计数的等位基因计数。在一些实施方案中,阈值等位基因计数可以大于或等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20。

一些实施方案包括邻近过滤器模块,其配置为从多种变体去除生殖系变体。在一些实施方案中,邻近过滤器模块可以包括配置为返回多个箱的分箱子模块,每个箱含有位于基因组的相同区域中的多种变体的变体。在一些实施方案中,多种变体的变体可以被分类或分入多个箱中,使得位于基因组的相同区域中的变体被分类或分入同一箱中。在一些实施方案中,基因组的相同区域可以位于相同的染色体内、位于相同的染色体臂内、位于相同的染色体细胞带内。在一些实施方案中,基因组的相同区域可以位于相同的连续100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内,或者位于前述数字中的任何两个之间的任何范围内。

在一些实施方案中,邻近过滤器模块可以包括配置为返回多种变体中的数据库变体的鉴定子模块,其中数据库变体存在于变体参考集中。

在一些实施方案中,邻近过滤器模块可以包括配置为从多种变体中去除生殖系变体的去除子模块,其中生殖系变体中的每个具有在至少一种数据库变体的等位基因频率的近似范围内的等位基因频率,所述至少一种数据库变体与所述生殖系变体在同一箱中。在一些实施方案中,邻近过滤器包括确定尚未被鉴定为生殖系变体的变体的等位基因频率的近似范围。在一些实施方案中,所述近似范围是具有与变体等位基因频率相差0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09,或任意两个前述数字之间的范围内的任意数字的最大值和最小值的范围。在一些实施方案中,所述近似范围是具有与变体等位基因频率的二项式分布相差两个标准偏差的最大值和最小值的范围。在一些实施方案中,近似范围是高于和低于变体等位基因频率的0.05或与变体等位基因频率的二项式分布相差两(n)个标准偏差中的较高者。

在一些实施方案中,如果变体具有的等位基因频率在与变体在同一箱中的一种或多种鉴定的生殖系变体的近似范围内,则变体可以被鉴定为生殖系变体。在一些实施方案中,如果变体具有的等位基因频率在与变体在同一箱中的超过1、2、3、4、5、6、7、8、9或10种鉴定的生殖系变体的近似范围内,则变体可被鉴定为生殖系变体。在一些实施方案中,去除子模块配置为去除具有大于或等于阈值频率的等位基因频率的变体。在一些这样的实施方案中,具有大于或等于0.7、0.8、0.9或1.0的等位基因频率的变体可被鉴定为生殖系变体。在一些实施方案中,去除子模块配置为去除存在于来自多种变体的变体参考集中的数据库变体。

本文提供的一些实施方案包括用于鉴定多种变体中的体细胞变体的计算机实现的方法。一些这样的实施方案可以包括从来自包含肿瘤细胞的生物样品的序列数据接收多种变体,所述多种变体可以包括体细胞变体和生殖系变体。

一些实施方案包括将数据库过滤器应用于多种变体。一些这样的实施方案包括为多种变体创建文件索引,用索引搜索变体参考集以鉴定索引中的生殖系变体。在一些实施方案中,生殖系变体中的每个在变体参考集中具有大于或等于阈值等位基因计数的等位基因计数。在一些实施方案中,阈值等位基因计数可以大于或等于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19和20。一些实施方案还包括从所述索引中去除所鉴定的生殖系变体以产生第一经过滤变体的索引。

一些实施方案包括将邻近过滤器应用于第一经过滤变体的索引。一些这样的实施方案包括为基因组的不同区域创建多个箱。一些实施方案包括对第一经过滤变体的索引的变体进行分箱,其中位于基因组的相同区域中的变体被分入同一箱中。在一些实施方案中,基因组的相同区域可以位于相同的染色体内、位于相同的染色体臂内、位于相同的染色体细胞带内。在一些实施方案中,基因组的相同区域可以位于相同的连续100Mb、50Mb、40Mb、30Mb、20Mb、10Mb、5Mb、1Mb内,或者位于前述数字中的任何两个之间的任何范围内。

一些实施方案包括用第一经过滤变体的索引搜索变体参考集,以鉴定第一经过滤变体的索引中的数据库变体。

一些实施方案包括通过鉴定生殖系变体从第一经过滤变体的索引产生生殖系变体的索引。在一些实施方案中,生殖系变体中的每个具有在至少一种数据库变体的等位基因频率的近似范围内的等位基因频率,所述至少一种数据库变体与所述第二生殖系变体在同一箱中。在一些实施方案中,所述近似范围是具有与变体等位基因频率相差0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09,或任何两个前述数字之间的范围内的任何数字的最大值和最小值的范围。在一些实施方案中,所述近似范围是具有与变体的等位基因频率的二项式分布相差两个标准偏差的最大值和最小值的范围。在一些实施方案中,所述近似范围是高于和低于变体等位基因频率的0.05或与变体等位基因频率的二项式分布相差两(n)个标准偏差中的较高者。

在一些实施方案中,如果变体具有的等位基因频率在与变体在同一箱中的一种或多种鉴定的生殖系变体的近似范围内,则变体可以被鉴定为生殖系变体。在一些实施方案中,如果变体具有的等位基因频率在与变体在同一箱中的超过1、2、3、4、5、6、7、8、9或10种鉴定的生殖系变体的近似范围内,则变体可被鉴定为生殖系变体。在一些实施方案中,生殖系变体可以被鉴定为具有大于或等于阈值频率的等位基因频率的变体。在一些这样的实施方案中,具有大于或等于0.7、0.8、0.9或1.0的等位基因频率的变体可被鉴定为生殖系变体。

一些实施方案包括从第一经过滤变体的索引中去除鉴定的生殖系变体以产生体细胞变体的索引,从而鉴定多种变体中的体细胞变体。在一些实施方案中,从来自肿瘤的测序数据获得的体细胞变体的数目是肿瘤的肿瘤突变负荷。

所述方法和系统的一些实施方案包括治疗肿瘤的方法。在一些这样的实施方案中,存在于肿瘤中的体细胞变体的数目可以通过本文提供的方法和系统来确定。例如,可以从肿瘤获得序列数据,可以从序列数据中鉴定多种变体,并且可以从多种变体中鉴定和去除生殖系变体,从而鉴定多种变体中的体细胞变体。在一些实施方案中,可以通过应用数据库过滤器和/或邻近过滤器中的一种或多种从多种变体中鉴定和去除生殖系变体,从而鉴定通过应用一种或多种过滤器未去除的体细胞变体。在一些实施方案中,从来自肿瘤的测序数据获得的体细胞变体的数目是肿瘤的肿瘤突变负荷。在一些实施方案中,肿瘤突变负荷被计算为每个基因组区域的体细胞变体的平均数目,诸如例如每50kb、100kb、1Mb、10Mb、100Mb等的突变的平均数目。肿瘤突变负荷可以通过对整个基因组或其一部分进行测序来取样。例如,基因组的一部分可以通过富集一个或多个目标基因组区域,如肿瘤基因组、完整外显子、部分外显子等来测序。

治疗肿瘤的一些实施方案可包括确定肿瘤具有大于或等于肿瘤突变负荷阈值的肿瘤突变负荷,和使肿瘤与有效量的治疗剂接触。一些实施方案包括治疗患有肿瘤的对象,并且可以包括确定肿瘤具有大于或等于TMB阈值的肿瘤突变负荷,以及向对象给予有效量的治疗剂。在一些实施方案中,肿瘤突变负荷阈值可以是2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000或任何两个前述数字之间的范围内的任何数字。治疗剂的实例包括化疗剂。在一些实施方案中,治疗剂可包括检查点抑制剂。检查点抑制剂的实例包括CTLA-4抑制剂、PD-1抑制剂和PD-L1抑制剂。在一些实施方案中,检查点抑制剂可包括伊匹单抗、纳武单抗、派姆单抗、斯巴达珠单抗、阿特珠单抗、阿维鲁单抗和得瓦鲁单抗。肿瘤的实例包括结肠直肠肿瘤、肺肿瘤、子宫内膜瘤、子宫肿瘤、胃肿瘤、黑色素瘤、乳腺肿瘤、胰腺肿瘤、肾肿瘤、膀胱肿瘤和脑肿瘤。可用本文包括的方法和系统治疗的癌症的更多实例在U.S.20180218789中列出,其通过引用整体明确地并入本文中。

一些实施方案包括从生物样品获得序列数据。在一些实施方案中,生物样品可包括肿瘤细胞。在一些实施方案中,生物样品可以包括血清样品、粪便样品、血液样品和肿瘤样品。在一些实施方案中,生物样品是经固定的样品。

在一些实施方案中,对象可以提供生物样品。生物样品可以是对象产生的任何物质。通常,生物样品是取自对象的任何组织或由对象产生的任何物质。生物样品的实例可包括血液、血浆、唾液、脑脊液(CSF)、颊组织、尿液、粪便、皮肤、毛发、器官组织。在一些实施方案中,生物样品是实体瘤或实体瘤的活组织检查。在一些实施方案中,生物样品是福尔马林固定的石蜡包埋的(FFPE)组织样品。生物样品可以是包含核酸的任何生物样品。生物样品可以来源于对象。对象可以是哺乳动物、爬行动物、两栖动物、禽类或鱼。哺乳动物的实例包括人、猿、猩猩、猴、黑猩猩、牛、猪、马、啮齿动物、鸟、爬行动物、狗、猫、海豚或其它动物。爬行动物的实例包括蜥蜴、蛇、短吻鳄、龟、鳄鱼、鬣蜥蜴和乌龟。两栖动物的实例包括蟾蜍、蛙、蝾螈和火蜥蜴。禽类的实例包括鸡、鸭、鹅、企鹅、鸵鸟、海鹦和猫头鹰。鱼的实例包括鲶鱼、鳝鱼、鲨鱼、金鱼和剑鱼。在一些实施方案中,对象是人。

一些实施方案包括用于执行本文所述方法的基于计算机的系统和计算机实现的方法。在一些实施方案中,所述系统可用于确定和报告样品中变体,如生殖系变体和/或体细胞变体的存在与否。该系统可以包括一个或多个客户端组件。一个或多个客户端组件可以包括用户界面。该系统可以包括一个或多个服务器组件。服务器组件可以包括一个或多个存储器位置。一个或多个存储器位置可经配置以接收数据输入。数据输入可以包括测序数据。测序数据可以从来自对象的核酸样品产生。该系统还可以包括一个或多个计算机处理器。一个或多个计算机处理器可操作性地连接到一个或多个存储器位置。可以对一个或多个计算机处理器进行编程,以将测序数据映射到参考序列。一个或多个计算机处理器可进一步被编程以从测序数据确定多种变体的存在与否。一个或多个计算机处理器可进一步被编程以将至少一个过滤器应用于遗传变体,从而鉴定生殖系变体。过滤器的实例包括数据库过滤器和邻近过滤器。一个或多个计算机处理器可进一步被编程以从鉴定的变体的索引中去除鉴定的生殖系变体。一个或多个计算机处理器可进一步被编程以生成用于在屏幕上显示的输出。该输出可以包括鉴定多种变体中的生殖系变体和/或体细胞变体的一个或多个报告。

所述方法和系统的一些实施方案可以包括一个或多个客户端组件。一个或多个客户端组件可包括一个或多个软件组件、一个或多个硬件组件或以上的组合。一个或多个客户端组件可以通过一个或多个服务器组件访问一个或多个服务。一个或多个服务可以由一个或多个客户端组件通过网络访问。这里使用的“服务”是指系统的任何产品、方法、功能或用途。例如,用户可以下进行遗传测试的定单。可以通过系统的一个或多个客户端组件来下订单,并且可以通过网络将请求发送到系统的一个或多个服务器组件。网络可以是因特网、因特网和/或外联网,或与因特网通信的内联网和/或外联网。在一些情况下,网络是电信和/或数据网络。网络可以包括一个或多个计算机服务器,其能够实现分布式计算,如云计算。在一些情况下,在计算机系统的帮助下,网络可以实现对等网络,该对等网络可以使连接到计算机系统的设备表现为客户端或服务器。

所述系统的一些实施方案可以包括一个或多个存储器位置,如随机存取存储器、只读存储器、闪存;电子存储单元,如硬盘;用于与一个或多个其它系统和外围设备如高速缓存、其它存储器、数据存储器和/或电子显示适配器通信的通信界面,如网络适配器。存储器、存储单元、界面和外围设备通过通信总线如母板与CPU通信。存储单元可以是数据存储单元或用于存储数据的数据储存库。在一个实例中,一个或多个存储器位置可以存储接收到的测序数据。

所述方法和系统的一些实施方案可以包括一个或多个计算机处理器。一个或多个计算机处理器可以操作性地连接到一个或多个存储器位置以例如访问所存储的测序数据。一个或多个计算机处理器能够实施机器可执行代码以执行本文描述的方法。例如,一个或多个计算机处理器可以执行机器可读代码以将测序数据输入映射到参考序列,和/或鉴定生殖系变体和/或体细胞变体。

本文提供的方法和系统的一些实施方案可包括机器可执行代码或机器可读代码。在一些这样的实施方案中,机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器执行。在一些情况下,可以从存储单元检索代码,并将其存储在存储器中,以便由处理器进行就绪访问。在一些实施方案中,可以排除电子存储单元,并且将机器可执行指令存储在存储器上。代码可以被预编译和配置成与具有配置为执行代码的处理器的机器一起使用,可以在运行时间期间被编译,或者可以在运行时间期间被解释。代码可以以编程语言提供,该编程语言可以被选择以使得代码能够以预编译的、编译好的(as-complied)或解释的方式执行。

本文提供的系统和方法的一些实施方案如计算机系统可在编程中实施。该技术的各个方面可以被认为是通常采用在一种类型的机器可读介质上执行或实施的机器(或处理器)可执行代码和/或相关数据的形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元,如存储器或硬盘上。“存储”型介质可包括计算机、处理器等的任何或所有有形存储器,或其相关联的模块,如各种半导体存储器、磁带驱动器、磁盘驱动器等,其可在任何时间提供用于软件编程的非暂时性存储。软件的全部或部分有时可以通过因特网或各种其它电信网络进行通信。例如,这样的通信可以允许将软件从一个计算机或处理器加载到另一个计算机或处理器中,例如,从管理服务器或主机加载到应用服务器的计算机平台中。因此,可以承载软件元件的另一种类型的介质包括光波、电波和电磁波,如通过有线和光陆线网络以及通过各种空中链路在本地设备之间的物理界面上使用的。承载这种波的物理元件,如有线或无线链路、光学链路等,也可以被认为是承载软件的介质。如本文所使用的,除非限于非暂时性的、有形的“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

本文公开的方法和系统的一些实施方案可以包括一个或多个电子显示器或与一个或多个电子显示器通信。电子显示器可以是计算机系统的一部分,或者直接或通过网络连接到计算机系统。计算机系统可以包括用于提供本文所公开的各种特征和功能的用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。UI可以提供交互工具,通过该交互工具用户可以利用本文描述的方法和系统。通过实例的方式,本文预想的UI可以是基于网络的工具,通过该工具,医疗从业者可以订购遗传测试,定制要测试的遗传变体列表,并接收和查看生物医学报告。

本文公开的方法和系统的一些实施方案可以包括生物医学数据库、基因组数据库、生物医学报告、疾病报告、病例-对照分析、和基于来自一个或多个数据库、一个或多个测定、一个或多个数据或结果、基于或来源于一个或多个测定的一个或多个输出、基于或来源于一个或多个数据或结果的一个或多个输出、或以上的组合的数据和/或信息的稀有变体发现分析。

实施例

实施例1-通过样品比较鉴定体细胞变体

从个体获得肿瘤样品和正常样品的序列数据。在序列数据中鉴定变体。通过比较肿瘤样品中存在而在正常样品中不存在的变体来鉴定肿瘤样品中的生殖系变体。图2A的图显示了根据具有体细胞变体(黑色填充的圆)和生殖系变体(灰色填充的圆)的每种变体的染色体位置的不同变体的变体等位基因频率(VAF)。该方法需要来自个体的两份样品。

实施例2-变体的数据库过滤

仅从实施例1获得肿瘤样品的序列数据。在序列数据中鉴定变体。简言之,使用注释工具Nirvana(Illumina,San Diego)对从变体调用管线调用的变体进行注释。Nirvana提供了基因组变体,如单核苷酸变体、多核苷酸变体、插入、缺失、拷贝数变体的临床级注释。对Nirvana的输入采用变体调用格式(VCF),并且输出是所有注释和样品信息的结构化JSON表示。

对于已鉴定的变体,在基因组聚集数据库(gnomAD)外显子组、gnomAD基因组和1000基因组数据库中解析给定变体的总等位基因计数以及变体等位基因频率和覆盖率。这些总等位基因计数代表数据库中不同亚群的观察总数。对于每种变体,采用了在所有三个数据库中观察到的最大等位基因计数以考虑在外显子组数据库中没有覆盖的区域,同时利用其与基因组数据库相比更大的样品大小。过滤策略将具有大于或等于10的最大等位基因计数的变体标记为潜在的生殖系变体。对于给定的变体,数据库中的等位基因计数为10意指如果它们都是纯合的,则其在至少5个样品中观察到,或者如果它们都是杂合的,则其在最多10个样品中观察到。图2B的图显示了根据具有过滤器确定的体细胞变体(黑色填充的圆)和过滤器确定的生殖系变体(灰色填充的圆)的每种变体的染色体位置的各种变体的变体等位基因频率(VAF)。这证明了仅数据库过滤错误调用了变体。

实施例3-变体的邻近过滤

仅从个体获得肿瘤样品的序列数据。在序列数据中鉴定变体。将实施例2的数据库过滤器应用于变体。使用邻近过滤器进一步滤除数据库中未发现的变体。

邻近过滤器使用数据库过滤的变体在位置上紧密邻近的信息。对于在数据库中未发现且具有低于0.9的等位基因频率的给定变体,在未过滤变体的给定变体等位基因频率范围内检索相同染色体上的变体。等位基因频率大于90%的变体在没有任何进一步处理的情况下被标记为生殖系。该范围被确定为0.05和二项式分布的2个标准偏差的最大值,其假定给定变体的支持证据由二项式过程产生。例如,如果未过滤的变体具有的等位基因频率为0.2,覆盖率为100,则该范围是0.05和2*sqrt(100*0.2*(1-0.2))/100=0.08之间的最大值,即0.08。这在两个方向上转化成0.08的范围,并且所有的变体从具有0.12-0.28之间的等位基因频率的相同染色体中检索。随后,检查检索到的超过固定的阈值的变体的数目,将其设置为5。如果满足所需的变体的数目,则我们检查是否那些变体中设置为0.95的大量部分被数据库过滤器过滤。如果一个变体满足这两个条件,则它被邻近过滤器标记。换句话说,如果变体被在数据库中发现的等位基因频率空间中的足够数量的变体包围,则它也被认为是生殖系变体。该过滤器在具有约50%或100%的预期变体等位基因频率的正常区域和其中等位基因频率分布可能被改变的拷贝数变体区域中去除生殖系变体。

图3(左图)的图显示了对于具有仅用数据库过滤器过滤的过滤器确定的体细胞变体(黑色填充的圆)和过滤器确定的生殖系变体(灰色填充的圆)的每种变体,根据染色体1-7的染色体位置的各种变体的变体等位基因频率(VAF)。图3(右图)是位于染色体7上的变体的放大图,其中已经选择了特定的过滤器确定的体细胞变体(黑色圆),并且从该变体中画出的范围包括几个过滤器确定的生殖系变体(灰色圆)。可以基于所选变体的等位基因频率与一定数量的已经鉴定的生殖系变体的等位基因频率的接近度来确定所选的过滤器确定的体细胞变体(黑色圆)应该被称为生殖系变体。

图4A的图显示了根据具有仅用数据库过滤器过滤的过滤器确定的体细胞变体(黑色填充的圆)和过滤器确定的生殖系变体(灰色填充的圆)的每种变体的染色体位置的各种变体的变体等位基因频率(VAF)。图4B的图显示了根据具有仅用数据库过滤器和邻近过滤器过滤的过滤器确定的体细胞变体(黑色填充的圆)和过滤器确定的生殖系变体(灰色填充的圆)的每种变体的染色体位置的各种变体的变体等位基因频率(VAF)。图4B显示了在图4A中显示为体细胞变体的某些推定的假阳性,在图4B中被鉴定为生殖系变体。例如,当应用邻近过滤器时,位于染色体7上的具有约0.4和0.3的等位基因频率的鉴定的体细胞变体(图4A)被鉴定为生殖系变体(图4B)。

实施例4-用靶向测序测量肿瘤突变负荷

本实施例涉及用于测量福尔马林固定的石蜡包埋的(FFPE)肿瘤样品中的肿瘤突变负荷(TMB)的靶向下一代测序测定。图5显示了用于测定的示例性工作流程。从肿瘤样品中获得523个基因的、组大小为1.94Mb、外显子大小为1.33Mb的序列数据。测序利用唯一的分子标识符(UMI)和使用Illumina NextSeq

简言之,获得序列数据,与参考比对,并鉴定变体。使用数据库过滤器和邻近过滤器从所鉴定的变体中过滤生殖系变体,并且在基本上类似于图6所示管线的工作流程中计算TMB。分析总共170对肿瘤正常样品以评估生殖系过滤和TMB性能(表1)。还利用全外显子组测序(WES)分析108个样品对的子集。

表1

为了进行技术噪声去除,评估正常FFPE样品(N=176)的集合中的假阳性变体的数目。观察到平均每个样品0.63的假阳性,与样品质量无关(R

使用表1中描述的170个肿瘤/正常样品对评价生殖系过滤性能。在小变体(SNV,插入/缺失)生殖系变体过滤中,达到了超过99.7%的总过滤率,其平均每个样品留下少于1.3种生殖系变体。邻近过滤的加入显著减少了假阳性的数目,同时仅对体细胞突变具有最小的影响。图7显示了仅用数据库过滤(在约3种生殖系残留物/Mb处的图峰)和混合策略(在约0种生殖系残留物/Mb处的图峰)后剩余生殖系变体计数的分布。

在3名操作者间,于包括4个细胞系和4个FFPE样品的8个不同样品中评估了TMB重现性。计算了每个样品的均值和标准偏差(SD)。表2列出了在4个细胞系和4个FFPE样品中评估的TMB重现性,每个重复12次。

表2

总之,仅由肿瘤测定产生的TMB测量与从肿瘤/正常测定对样品产生的估计高度相关(R

最后,在TMB阈值为10的情况下,证明了94.74%的阳性百分比一致性(PPA)和96.08%的阴性百分比一致性(NPA)。在区分TMB高和TMB低的样品方面,总体分类一致性为95.37%。表3列出了TMB分类性能。

表3

上述结果证明了仅用数据库和邻近过滤器的肿瘤测定以稳健地测量FFPE样品中的TMB的能力。此外,TMB估计显示与具有高分类一致性的基于WES的测量的高水平相关性。

本申请所用的术语“包含”与“包括”、“含有”或“特征为”同义,并且是包含性的或开放式的,不排除另外的未列举的元件或方法步骤。

以上描述公开了本申请的几种方法和材料。本申请能够接受对方法和材料的改进以及制造方法和设备的改变。考虑到本申请公开的发明或发明的实践,这样的修改对于本领域技术人员将是显而易见的。因此,并不意图将本申请限于所公开的具体实施方案,而是覆盖了落入本申请的真实范围和精神内的所有修改和替换方案。

本申请引用的所有参考文献,包括但不限于公开的和未公开的申请、专利和参考文献,在此通过援引的方式整体纳入本申请,并由此构成本说明书的一部分。在通过援引加入的出版物和专利或专利申请与本说明书中包含的公开内容矛盾的情况下,本说明书旨在取代和/或优先于任何这种矛盾的材料。

相关技术
  • 用于体细胞变体检测的方法和组合物
  • 用于检测罕见序列变体的组合物和方法
技术分类

06120112382066