掌桥专利:专业的专利平台
掌桥专利
首页

基因的拷贝数变异检测方法、系统、计算设备及介质

文献发布时间:2024-04-18 20:02:18


基因的拷贝数变异检测方法、系统、计算设备及介质

技术领域

本申请涉及基因检测技术领域,尤其涉及一种基因的拷贝数变异检测方法、系统、计算设备及介质。

背景技术

CNV,即拷贝数变异(copy number variation),一般指长度为1kb到几个Mb基因组大片段的拷贝数复制、缺失。CNV的数量和复杂程度是许多实体肿瘤发生的主要原因,同时也是重要的诊断、预后指标。大部分具有详细病理信息的肿瘤样本为FFPE组织,存在高度降解、DNA数量有限的问题,从FFPE组织中获得全基因组拷贝数和杂合性缺失(LOH)信息,一直是一个巨大的挑战。目前对CNV进行检测的方法主要有aCGH,SNP-array,MLPA等,当然市面上基于NGS来检测CNV的方法也层出不穷。

aCGH:基于芯片的比较基因组杂交。该检测需要与正常对照DNA进行比较,因此只能检测不平衡的拷贝数变异,而对于拷贝数未发生变化的结构变异无法进行检测,并且不能提供检测样本的倍体信息。

SNP-array:SNP(Single Nucleotide Polymorphisms,单核苷酸多态)是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性而形成的遗传标记。SNP-array芯片的探针为SNP位点序列,可以提供SNP信息。除可检测CNV外,还可检测杂合性缺失(LOH)等。SNP位点的信号强度作为拷贝数定量标准,根据两通道荧光信号的比值确定基因差值,再通过数据变换得到等位基因比,其信噪比较低。

MLPA:多重连接依赖式探针扩增。该方法只能检测特定的基因组区域,对于未覆盖的区域无法检测。且MLPA方法对于样本的质量要求较高,如果样本质量不佳,可能会影响检测结果的准确性。

发明内容

鉴于现有技术中的上述缺陷或不足,期望提供一种基因的拷贝数变异检测方法、系统、计算设备及介质,将纯度和倍性矫正系数的计算转化为允许空位的局部优化问题,并且可以实现计算逻辑的自治,从多种维度证明结果的可靠性。在准确计算出肿瘤纯度和倍性矫正系数的前提下,还可以计算等位基因特异性拷贝数,对不同的CNV片段进行明确的基因型判读,具有判读准确的优点。

第一方面,本申请实施例提供了一种基因的拷贝数变异检测方法,包括:

获得样本的片段数据,其中,所述片段数据包括平衡片段和非平衡片段;

分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇;

重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数;

根据所述肿瘤纯度和倍性校正系数,得到样本的拷贝数。

在一些示例中,所述获得样本的片段数据,包括:

获得样本的基因频率数据和拷贝数变异数据;

根据所述样本的基因频率数据和拷贝数变异数据,对所述样本进行分段处理,得到分段结果。

在一些示例中,在根据所述样本的基因频率数据和拷贝数变异数据,对所述样本进行分段处理,得到分段结果之后,还包括:

将所述分段结果中各分段切割为片段,并对各片段进行标记,得到平衡片段和非平衡片段。

在一些示例中,所述分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇,包括:

对所述非平衡片段进行初始聚类,得到非平衡片段的初始聚类结果;

对所述平衡片段进行初始聚类,得到平衡片段的初始聚类结果;

合并所述非平衡片段的初始聚类结果,得到所述非平衡片段的第一聚类簇;

合并所述平衡片段的初始聚类结果,得到所述平衡片段的第二聚类簇。

在一些示例中,所述重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数,包括:

从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇之后,获得非平衡聚类簇和平衡聚类簇匹配的基因型的组合;

对于匹配的基因型的组合,计算得到非平衡聚类簇中各聚类簇的肿瘤纯度和倍性校正系数;

根据所述非平衡聚类簇中各聚类簇的肿瘤纯度的均值,计算得到平衡聚类簇中各聚类簇的倍性校正系数;

根据所述非平衡聚类簇中各聚类簇的肿瘤纯度和倍性校正系数和所述平衡聚类簇中各聚类簇的倍性校正系数,得到所述样本的肿瘤纯度和倍性校正系数。

在一些示例中,所述根据所述非平衡聚类簇中各聚类簇的肿瘤纯度和倍性校正系数和所述平衡聚类簇中各聚类簇的倍性校正系数,得到所述样本的肿瘤纯度和倍性校正系数,包括:

根据所述非平衡聚类簇中各聚类簇的肿瘤纯度的均值,得到所述样本的肿瘤纯度;

在存在平衡聚类簇的情况下,根据所述平衡聚类簇中各聚类簇的倍性校正系数的均值,得到所述样本的倍性校正系数,否则,根据所述非平衡聚类簇中各聚类簇的倍性校正系数的均值,得到所述样本的倍性校正系数。

在一些示例中,还包括:重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数,匹配分数计算过程为:

获得非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息;

根据非平衡聚类簇和平衡聚类簇中各聚类簇的肿瘤纯度的差异、非平衡聚类簇和平衡聚类簇中各聚类簇的倍性校正系数的差异、非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息,得到当前一次执行过程中获得的基因型的匹配分数。

在一些示例中,所述根据非平衡聚类簇和平衡聚类簇中各聚类簇的肿瘤纯度的差异、非平衡聚类簇和平衡聚类簇中各聚类簇的倍性校正系数的差异、非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息,得到当前一次执行过程中获得的基因型的匹配分数,包括:

获得所述非平衡聚类簇和平衡聚类簇中各聚类簇的肿瘤纯度的差异、非平衡聚类簇和平衡聚类簇中各聚类簇的倍性校正系数的差异、非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息的优先级;

根据非平衡聚类簇和平衡聚类簇中各聚类簇的肿瘤纯度的差异、非平衡聚类簇和平衡聚类簇中各聚类簇的倍性校正系数的差异、非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息,以及对应的优先级,得到当前一次执行过程中获得的基因型的匹配分数。

第二方面,本申请实施例提供一种基因的拷贝数变异检测系统,包括:

获取模块,用于获得样本的片段数据,其中,所述片段数据包括平衡片段和非平衡片段;

聚类模块,用于分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇;

计算模块,用于重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数;

检测模块,用于根据所述肿瘤纯度和倍性校正系数,得到样本的拷贝数。

第三方面,本申请实施例提供一种计算设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述第一方面所述的基因的拷贝数变异检测方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上第一方面所述的基因的拷贝数变异检测方法。

第五方面,本申请实施例提供一种计算机程序产品,其上存储有计算机程序,该计算机程序用于实现如上第一方面所述的基因的拷贝数变异检测方法。

本申请实施例提供的基因的拷贝数变异检测方法、系统、计算设备及介质,将纯度和倍性矫正系数的计算转化为允许空位的局部优化问题,并且可以实现计算逻辑的自治,从多种维度证明结果的可靠性。在准确计算出肿瘤纯度和倍性矫正系数的前提下,还可以计算等位基因特异性拷贝数,对不同的CNV片段进行明确的基因型判读,具有判读准确的优点。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为本申请实施例的基因的拷贝数变异检测方法的流程图;

图2为本申请实施例的基因的拷贝数变异检测方法中平衡数据点聚类的结果示意图;;

图3为本申请实施例的基因的拷贝数变异检测方法中合并平衡、非平衡聚类后的结果展示图;

图4为一个实施例的一次循环中的基因型指认示意图;

图5为另一个实施例的一次循环中的肿瘤纯度、倍性矫正系数展示示意图;

图6为本申请实施例的基因的拷贝数变异检测系统的结构示意图;

图7为本申请实施例的计算设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关公开,而非对该公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与公开相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

以下结合附图描述根据本申请实施例的基因的拷贝数变异检测方法、系统、计算设备及介质。

申请实施例的实施环境,可以由个人的计算设备,如计算机、移动终端等获得样本的片段数据,其中,所述片段数据包括平衡片段和非平衡片段;分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇;重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数;根据所述肿瘤纯度和倍性校正系数,得到样本的基因频率和拷贝数变异。

或者,也可以是由服务器实现,例如:个人的计算设备将请求发给服务器,服务器获得样本的片段数据,其中,所述片段数据包括平衡片段和非平衡片段;分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇;重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数;根据所述肿瘤纯度和倍性校正系数,得到样本的基因频率和拷贝数变异,最后,将结果返回给个人的计算设备。

其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

图1是本申请一个实施例的基因的拷贝数变异检测方法的流程图,如图1所示,根据本申请实一个具体实施例的基因的拷贝数变异检测方法,包括如下步骤:

S101:获得样本的片段数据,其中,片段数据包括平衡片段和非平衡片段。

在本申请的一个实施例中,获得样本的片段数据,包括:获得样本的基因频率数据和拷贝数变异数据;根据样本的基因频率数据和拷贝数变异数据,对样本进行分段处理,得到分段结果。这样,可以对分段结果进行标记,确定平衡片段和非平衡片段。

此外,为了在后续计算中,能够得到更加准确的肿瘤纯度以及倍性矫正系数等,在本发明的具体示例中,在根据样本的基因频率数据和拷贝数变异数据,对样本进行分段处理,得到分段结果之后,还可包括:对分段结果进行进一步分割处理,即:将分段结果中各分段切割为片段,然后,对各片段进行标记,得到平衡片段和非平衡片段。

具体地说,首先得到样本的BAF(基因频率数据)、LRR/CNV数据(拷贝数变异数据)。包括两种方式:

第一种方式:如果样本的输入数据是原始的NGS测序数据,则经过如下的处理,可以得到BAF、LRR/CNV数据,处理过如为:

(1)可以用SOAPnuke软件处理输入数据,去除低质量序列、去除接头序列、去除N含量高的序列,得到干净数据(clean data)。

(2)用Bwa软件将clean data比对到人类参考基因组(例如:GRCh37.p13或hg19),得到比对后的Bam文件。

(3)用Picard软件标记/去除由于PCR过程中产生的过量扩增,得到用于后续分析的Bam文件。需要说明的是,也可以在Mark Duplicates后面加入重比对、BQSR等步骤,当然,对于MB级别的CNV分析,并不是必须的。

(4)用变异检测软件(例如:GATK、SAMtools、FreeBayes、Mutect2、VarScan等),对变异进行检测,得到样本的SNP信息。需要说明的是,一般通过SNP位点实测突变频率,计算BAF(B allele frequency)。

(5)计算目标SNP位点的BAF。其中,目标SNP位点,在WGS、WES数据中,一般选取均匀的人群多态性SNP位点或者选取固定长度的区域内的突变频率处于中位值的SNP位点,但是SNP位点的个数通常需要不低于2万个。

(6)获取待检测样本及对照样本(如果存在对照样本)在所有目标区域的深度信息。一般情况下,需要对深度信息做数据量均一化矫正、GC矫正等。

(7)获取目标SNP的LRR(Log R ratio),也可以直接用CNV信息。需要说明的是,通过肿瘤样本覆盖度与正常样本覆盖度的比值信息,可以获得肿瘤细胞总拷贝数(totalcopy number)。在有无自身对照样本时,正常样本覆盖度的计算方法不同。在有自身对照样本,即双样本检测模式下,直接计算其对照样本的覆盖度;在无自身对照样本,即单样本模式下,需要用一定数量的正常样本,构建覆盖度的基线(baseline),来代替其自身对照。

一般来说,肿瘤细胞总拷贝数(total copy number),通常以LRR(Log R ratio)的形式来表达。一般情况下,用SNP位点延伸>=100bp区域内,区域的平均深度计算位点的LRR/CNV,而非只考察特定SNP单个位点的深度。这样做的目的是消除SNP位点深度跳跃所引起的误差。

通过上述步骤,可以得到样本所有SNP位点的BAF、LRR/CNV数据。

如表1所示,展示chr1的部分(以30行为示例)SNP位点及其BAF、LRR数据等。

表1

第二种方式:如果输入数据是SNP array数据,则可以通过相关的处理工具,将SNP位点的信号强度数据处理为BAF和LRR/CNV数据。

在得到BAF和LRR/CNV数据之后,根据其对样本进行分段处理,得到分段结果。

具体地,在得到BAF和LRR/CNV数据之后,可以得到在人类染色体上均匀分布的>=2万个SNP位点,并且每个SNP位点包含2种信号强度,即BAF和LRR/CNV。上述染色体为人类常染色体、X染色体中的至少1条。基于染色体上的SNP的BAF信息、LRR/CNV信息,对所包含的每条染色体进行分段处理,得到初始的CNV结果。所述初始的CNV结果,仅检测Mb级别的大片段CNV,不包含外显子层面的短片段CNV。具体的分段过程如下:

(1)对原始BAF、LRR/CNV数据进行初始化处理。例如包括但不限于:去除LRR/CNV中的缺失值;去除BAF中的异常值位点,异常值,默认为BAF<5%或者BAF>95%的位点,这部分位点会对下游的分析造成误差;对[5%,95%]频率区段内的BAF进行处理,令BAF=(|BAF-0.5|+0.5),换言之,将BAF处理为较高等位基因的频率信息。

(2)基于上述所有SNP位点的BAF信号强度进行片段的分段处理。此步骤可以用多种方法进行处理,例如采用CBS算法。CBS分段算法是一种用于检测基因组中拷贝数变异(CNV)的算法。该算法将基因组分成若干段,每一段内的拷贝数变异被视为一个整体,以便更准确地检测CNV。CBS算法在基因组拷贝数变异检测中被广泛使用,包括在BGI Genomics的CNV分析流程中。当然,其他通过性能验证的片段分段软件和方法均可。

(3)基于上述所有SNP位点的LRR/CNV信号强度进行片段的分段处理,其处理方法同上述BAF信号处理的方式类似,此处不做赘述。

(4)合并BAF、LRR分段结果。考虑到段落的边界,即断点可能存在差异,因此,将BAF分段结果和LRR的分段结果进行合并。

(5)处理短片段和信号强度较弱的片段。其中,短片段为长度<3Mb的片段;信号强度较弱的片段表示这样的片段:该片段上BAF事件数或者LRR事件数<=50,也就是该片段包含的有效SNP位点数过低。针对短片段和信号强度较弱的片段会将其按照1/2长度合并到其相邻的片段。如果该片段恰巧处于染色体的边缘(如:第一段或最后一段),则整段直接合并到相邻的段落。

(6)计算每个分段段落上的所有SNP的BAF均值、CN均值(即:拷贝数均值)、BAF事件数、LRR事件数、同时记录段落的染色体、起始、终止信息。

上述处理后的分段信息结果如表2所示:显示前3条染色体。在本示例中,chr1被划分成12个片段;chr2被划分成9个片段;chr3被划分成10个片段,其他染色体也是类似的。对于每个分段,会标记片段的染色体编号、片段的起始位置、片段的终止位置、片段的事件数、片段的BAF事件数、片段的LRR事件数、片段的BAF均值、片段的CN均值。

表2

在分段结束之后,将分段结果中各分段切割为片段,并对各片段进行标记,得到平衡片段和非平衡片段。

具体地,分段再次切割及统计,标记片段的属性(如平衡、非平衡)。对原始的分段结果进行切割,切割为长度<=10M的片段。考虑到分段结果中,其分段的长度跨度可能很大,如:最长的片段长度的可能有几十Mb,而较短的片段长度可能仅仅>=3Mb,这将导致每个片段的BAF均值、CN均值的“典型性/代表性”不同。而为了更准确的计算肿瘤纯度、倍性矫正系数等结果,对分段的长度进行切割。

对分段重新切割后,需要重新计算切割后片段的相关信息。其相关信息包括但不限于:片段的BAF均值、BAF均值在所有这些段落中的百分比排序、拷贝数的均值(如果上游的片段信息为LRR,这里将LRR信息转化为CN信息,CN的计算方式为2的LRR次方乘以2),拷贝数在所有段落中的百分比排序。需要说明的是,在下游的表述中,将BAF均值在所有这些段落中的百分比排序表述为“BAF.rank”;将拷贝数在所有段落中的百分比排序表述为“CN.rank”。

对切割后的分段结果进行归类,识别并且标记每个分段所得的段落是“平衡,balance”或者“非平衡,unbalance”。其标记的方式如下:将该段落的BAF分布与参比(可以来自该患者血细胞或历史参考基线)进行同分布检测。如果其BAF分布与参比为同分布,则将该段落标记为平衡(balance),且重新指定平衡数据点的BAF=0.5;如果其BAF分布与参比不是同分布,则将该段标记为不平衡(unbalance)。如表3所示。显示3条染色体重新切割后的片段结果。

表3

S102:分别对平衡片段和非平衡片段进行聚类,得到非平衡片段的第一聚类簇和平衡片段的第二聚类簇。

在本申请的一个实施例中,分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇,包括:对所述非平衡片段进行初始聚类,得到非平衡片段的初始聚类结果;对所述平衡片段进行初始聚类,得到平衡片段的初始聚类结果;合并所述非平衡片段的初始聚类结果,得到所述非平衡片段的第一聚类簇;合并所述平衡片段的初始聚类结果,得到所述平衡片段的第二聚类簇。

具体地,基于上述的分段结果,建立“空位罚分”模型,计算肿瘤的纯度、倍性校正系数。本申请的实施例中,在计算肿瘤纯度和倍性矫正系数的过程中,会综合考虑所有片段的情况。通过对片段的聚类,来分析其可能属于的基因型,依次来计算肿瘤的纯度和倍性校正系数。在实际建模过程中,将“基因型指认”的问题转化为“允许空位的局部优化问题”,在最优解的寻找过程中,建立得分系统,用分数值来实现模型的迭代。该模型可以实现内部计算逻辑的自治,同时输出局部优化的最优解的判别支持证据。其实现过程如下:

对平衡数据点、非平衡数据点分别进行聚类处理,并且计算每个聚类的属性。

例如:用CN.rank、CN对平衡的数据点进行初始聚类,并对聚类结果进行处理,得到对每个聚类的相关描述信息。信息包括但不限于:(a)每个聚类的位置信息:每个类别的横(x轴是CN.rank)、纵(x2轴是CN)坐标的起始、终止位置,即该聚类的左、右、上、下、边界;(b)每个聚类中所包含的数据点数,这里的数据点即为片段个数;(c)每个聚类的平均BAF值和平均CN值。需要说明的是,平衡数据点的BAF均值为0.5;如果平衡的数据点数目不足(<5个聚类点)或者最终的聚类数目为0类,则说明数据本身可能存在质量问题,输出预警信息。

根据平衡数据点的聚类位置信息,计算几个聚类的相对位置矩阵。所述相对位置矩阵,一般包含2个矩阵,分别代表着所有聚类在CN.rank维度(X轴)、BAF维度(Y轴)的相对位置。对于平衡数据点来说,仅关注各个聚类中CN.rank方向(X轴)的相对位置即可。其相对位置矩阵的主要计算依据为:每个聚类的位置信息。假设经过上述步骤后一共有K个平衡的聚类,则CN.rank方向的矩阵M

根据上述相对位置矩阵,可以对所有的平衡聚类进行排序处理,并对聚类结果进行二次核查,考察是否存在应该合并处理的聚类,最终仅需要保留排序为前两位的聚类结果。

用CN.rank、BAF对非平衡的位点进行聚类,对聚类结果进行处理,得到对每个聚类的描述信息。信息包括但不限于:(a)每个聚类的位置信息:每个类别的横(x轴是CN.rank)、纵(y轴是BAF)坐标的起始、终止位置,即该聚类的左、右、上、下边界;(b)每个聚类中所包含的数据点数,这里的数据点即为片段个数;(c)每个聚类的平均BAF值和平均CN值。注:非平衡数据点聚类过程与平衡数据点聚类过程的Y轴不同,前者为BAF,后者为CN。

合并平衡、非平衡的聚类,并重新计算所有聚类的相对位置矩阵。所述相对位置矩阵,一般包含2个矩阵,分别代表着所有聚类在CN.rank维度(X轴)、BAF维度(Y轴)的相对位置。2个维度的相对位置矩阵的计算,其主要计算依据为其每个聚类的位置信息。现做详细的描述如下:假设经过上述一系列处理后一共有M个平衡的聚类,N个非平衡的聚类。则CN.rank维度(X轴)的相对位置矩阵A

作为一个具体的例子,用CN.rank、CN对平衡的数据点进行初始聚类,并对聚类结果进行处理,得到对每个聚类的相关描述信息。信息包括但不限于:(a)每个聚类的位置信息:每个类别的横(x轴是CN.rank)、纵(x2轴是CN)坐标的起始、终止位置,即该聚类的左、右、上、下、边界;(b)每个聚类中所包含的数据点数,这里的数据点即为片段个数;(c)每个聚类的平均BAF值和平均CN值。

平衡数据点可以聚类为2类,如图2所示,示出了平衡数据点聚类,结果如表4所示,为平衡数据点聚类为2类:

表4

根据平衡数据点的聚类位置信息,计算几个聚类的相对位置矩阵。对于平衡数据点来说,关注各个聚类中CN.rank方向(X轴)的相对位置,其主要计算依据为其每个聚类的位置信息。

如上述示例所示,其CN.rank方向(X轴)的相对位置如下:

从M

根据上述相对位置矩阵,可以对所有的平衡聚类进行排序处理,并对聚类结果进行二次核查,考察是否存在应该合并处理的聚类,输出排序为前两位的聚类结果。如表5所示,示出了最终的平衡数据点的聚类结果。

表5

用CN.rank、BAF对非平衡的位点进行聚类,对聚类结果进行处理,得到对每个聚类的描述信息。信息包括但不限于:(a)每个聚类的位置信息:每个类别的横(x轴是CN.rank)、纵(y轴是BAF)坐标的起始、终止位置,即该聚类的左、右、上、下边界;(b)每个聚类中所包含的数据点数,这里的数据点即为片段个数;(c)每个聚类的平均BAF值和平均CN值。如表6所示,示出了非平衡数据点可以聚为4类。

表6

合并平衡、非平衡的聚类,并重新计算所有聚类的相对位置矩阵。

在本实施例中,共计有2个平衡的聚类,4个非平衡的聚类。将所有的聚类结果进行合并,如表7所示,示出了合并平衡、非平衡聚类后,共计有6个聚类。

表7

为了方便结果的展示,将聚类结果进行可视化,如图3所示,示出了合并平衡、非平衡聚类后,其可视化展示结果。

计算相对位置矩阵,其相对位置矩阵实际上包含2个矩阵,分别代表着所有聚类在CN.rank维度(X轴)、BAF维度(Y轴)的相对位置。2个维度的相对位置矩阵的计算,其主要计算依据为其每个聚类的位置信息。在本实施例中,共计有6个聚类,计算出的相对位置矩阵如下:

CN.rank维度(x方向)的相对位置矩阵为:

BAF维度(y方向)的相对位置矩阵为:

从相对位置矩阵中,很容易看出不同聚类之前的上、下、左、右的对应关系。

S103:重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数。

在本申请的一个实施例中,重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数的过程为:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇之后,获得非平衡聚类簇和平衡聚类簇匹配的基因型的组合;对于匹配的基因型的组合,计算得到非平衡聚类簇中各聚类簇的肿瘤纯度和倍性校正系数;根据所述非平衡聚类簇中各聚类簇的肿瘤纯度的均值,计算得到平衡聚类簇中各聚类簇的倍性校正系数;根据所述非平衡聚类簇中各聚类簇的肿瘤纯度和倍性校正系数和所述平衡聚类簇中各聚类簇的倍性校正系数,得到所述样本的肿瘤纯度和倍性校正系数。

在以上描述中,重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数时,匹配分数计算过程,包括:获得非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息;根据非平衡聚类簇和平衡聚类簇中各聚类簇的肿瘤纯度的差异、非平衡聚类簇和平衡聚类簇中各聚类簇的倍性校正系数的差异、非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息,得到当前一次执行过程中获得的基因型的匹配分数。

该示例中,根据非平衡聚类簇和平衡聚类簇中各聚类簇的肿瘤纯度的差异、非平衡聚类簇和平衡聚类簇中各聚类簇的倍性校正系数的差异、非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息,得到当前一次执行过程中获得的基因型的匹配分数,包括:获得所述非平衡聚类簇和平衡聚类簇中各聚类簇的肿瘤纯度的差异、非平衡聚类簇和平衡聚类簇中各聚类簇的倍性校正系数的差异、非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息的优先级;根据非平衡聚类簇和平衡聚类簇中各聚类簇的肿瘤纯度的差异、非平衡聚类簇和平衡聚类簇中各聚类簇的倍性校正系数的差异、非平衡聚类簇和平衡聚类簇匹配的基因型的信息、非平衡聚类簇和平衡聚类簇的位置信息,以及对应的优先级,得到当前一次执行过程中获得的基因型的匹配分数。

具体而言,经过上述对所有可能的点簇的聚类,希望上述的聚类点可以最优匹配到不同的基因型,如B、AB、BB、ABB、BBB、AABB、ABBB、BBBB、AABBB、ABBBB、BBBBBB。本申请采用的方法是:对于所有可能的聚类簇的组合,尝试将其指定为所有可能的基因型上,对于每一次尝试,进行打分,并根据当前得分与历史最优得分的比较,来寻找最优匹配。事实上,其思路就是把基因型指认当做一个存在空位的最优匹配问题,换言之,就是允许“空位存在”的“占座问题”。

事实上,虽然在某些情况下,如乳腺癌、卵巢癌等发生同源重组修复缺陷的患者基因组,可能会发生大面积的非整倍体扩增,但是整体基因组倍性通常超过5的患者并不常见。基于算法时间复杂度的考察,该申请中,仅考察CN<=5的11种基因型(B、AB、BB、ABB、BBB、AABB、ABBB、BBBB、AABBB、ABBBB、BBBBBB),即将上述得到的聚类结果与该11种基因型进行最优的匹配。考虑到(a)聚类结果的数目是不确定的;(b)聚类结果中可能存在假类;(c)极少数的样本可能出现CN>5的聚类,因此,整个最优匹配的问题,也可以理解为是“占座”问题,且是允许有“空位”的。换言之,在最优解中,并不要求对所有的聚类结果都指认基因型。

为了找到最优的匹配,在模型遍历的过程中,还建立一套完备的、符合逻辑的评分系统。下面将整个模型进行详细的描述:

(1)初始化最优得分为0分、最优肿瘤细胞含量为0,最优倍性矫正系数为0,初始化平衡基因型(AB、AABB)所对应的聚类点为“NA”,初始化非平衡基因型(B、BB、ABB、BBB、ABBB、BBBB、AABBB、ABBBB、BBBBBB)所对应的聚类点为“NA”。

(2)因为非平衡的聚类点一共有N类,该方法在所有N个非平衡的聚类点中,选择n个聚类点进入下述过程。n的选取需要从1,2,,,一直遍历到min(N,9),而对于每个选定的n,从N个类别中选择n个聚类点共计有c(N,n)种选择。

(3)对每次挑选出的n个簇,在9种基因型中列出所有组合。如n=1的时,该选定的聚类对应不同基因型的可能性有9种可能;n=2时,两个聚类可能对应不同基因型的可能性有9*8=72种可能;n=3时,两个聚类可对应不同基因型的可能性有9*8*7=504种可能;n=4时,两个聚类可对应不同基因型的可能性有9*8*7*6=3024种可能,以此类推。

(4)在对非平衡聚类进行遍历过程中,对每一种情形,还要遍历平衡聚类的所有可能性。平衡的聚类点一共有M类,M最多为2。在所有M个平衡的聚类点中,选择m个聚类点进行下述打分判断过程。如:当M=2,则需要遍历m=1和2;对于M=2,n=1时,从2个聚类中选择1个,有2种选择。

(5)对于单次循环,即指定了n个非平衡聚类的基因型,指定了m个平衡聚类的基因型后。可以对每个非平衡的聚类计算其纯度和倍性矫正系数(ploidycorrectioncoefficient)。事实上,对于纯度、倍性矫正系数(ploidycorrectioncoefficient)的计算,考虑如下的公式:

对于遍历中的每一次,其非平衡聚类的基因型是被指定了的,所以,在上述公式中,BAF、CN是实际聚类的BAF均值和CN均值,real.CN、read.BAF只与基因型有关(例如:ABB型的real.CN=3,real.BAF=2/3)。所以每个聚类的肿瘤纯度、倍性矫正系数均是可以计算的。

(6)对于单次循环,即指定了n个非平衡聚类的基因型,指定了m个平衡聚类的基因型后。可以对每个平衡的倍性矫正系数(ploidycorrectioncoefficient)。事实上,平衡的聚类仅仅可能对应AB、AABB两种基因型。注意到,无论肿瘤细胞含量如何变化,AB、AABB基因型的BAF值永远是0.5,因此在平衡的聚类的遍历中,每次只计算每个平衡聚类的倍性矫正系数(ploidycorrectioncoefficient)。其计算公式是:

在计算ploidycorrectioncoefficient时,所用到的Purity是上述所有非平衡聚类所计算出的肿瘤纯度的均值。

S104:根据所述肿瘤纯度和倍性校正系数,得到样本的拷贝数。

其中,得到的样本的拷贝数包括绝对拷贝数和等位基因特异性拷贝数。

在本申请的一个实施例中,根据所述非平衡聚类簇中各聚类簇的肿瘤纯度和倍性校正系数和所述平衡聚类簇中各聚类簇的倍性校正系数,得到所述样本的肿瘤纯度和倍性校正系数,包括:根据所述非平衡聚类簇中各聚类簇的肿瘤纯度的均值,得到所述样本的肿瘤纯度;在存在平衡聚类簇的情况下,根据所述平衡聚类簇中各聚类簇的倍性校正系数的均值,得到所述样本的倍性校正系数,否则,根据所述非平衡聚类簇中各聚类簇的倍性校正系数的均值,得到所述样本的倍性校正系数。

具体地说,对于单次循环,即指定了n个非平衡聚类的基因型,指定了m个平衡聚类的基因型后。可以计算当前肿瘤纯度和当前倍性校正系数。当前的肿瘤纯度为所有非平衡聚类所计算出的肿瘤含量的均值。当前的倍性矫正系数为:a.当存在平衡聚类时,其为所有平衡聚类所计算出的倍性矫正系数的均值;b.当不存在平衡聚类时,其为所有非平衡聚类所计算出的倍性矫正系数的均值。

构建遍历过程中的评分系统,对于单次循环,构建不同维度的评分,并根据不同维度的评分的优先级,迭代最优评分的分值,寻找最优解。如果当前的评分优于历史最优评分,则将最优得分替换为当前得分、将最优肿瘤细胞含量替换为当前肿瘤细胞含量、将最优倍性矫正系数替换为当前倍性矫正系数,同时将最优基因型匹配结果替换为当前的基因型匹配结果。详细的评分过程,如下的相关描述。

评分的第一个维度:根据不同聚类的基因型信息及位置信息进行评分。记录位置支持证据及位置反对证据。如下表8和表9是从理上计算的不同肿瘤纯度下,不同基因型的理论BAF值,理论CN值。如表8所示,示出了不同肿瘤纯度下,各个基因型的理论BAF值。如表9所示,示出了不同肿瘤纯度下,各个基因型的理论CN值。

表8

表9

无论肿瘤细胞如何变化,一个基本的事实是:不同基因型的相对位置是不会发生较大变化的。例如:CN从小到大:B

评分的第二个维度:基于聚类点的肿瘤纯度计算结果,对实际聚类结果与指定基因型的匹配程度进行考察。对于肿瘤样本,用不同的聚类点进行肿瘤含量的计算,其计算结果不应该产生太大的差异。事实上,本方法的一个显著的优势,就是可以通过不同聚类点计算出来的肿瘤细胞含量相互印证,从而防止仅用个别聚类点进行肿瘤含量计算而产生的偏差。使得最终的肿瘤细胞含量更准确。在本申请中,在单次循环中,如果两个非平衡聚类所计算出的肿瘤含量差异<10%,则可作为两个聚类的基因型指认相互支持的证据,反之,则作为两个聚类的基因型指认相互矛盾的证据。本模块输出的结果为:“纯度支持聚类对”和“纯度不支持聚类对”。

评分的第三个维度:基于聚类点的倍性矫正系数的计算结果,对实际聚类结果与指定基因型的匹配程度进行考察。同上述肿瘤纯度的评分类似,对于肿瘤样本,用不同的聚类点进行倍性矫正系数的计算,其计算结果不应该产生太大的差异。在本申请中,在单次循环中,如果两个聚类所计算出的倍性校正系数差异<10%,则可作为两个聚类的基因型指认相互支持的证据,反之,则作为两个聚类的基因型指认相互矛盾的证据。本模块输出的结果为:“倍性矫正系数支持聚类对”和“倍性矫正系数不支持聚类对”。

在每一次评估“实际聚类结果与指定基因型匹配程度”的过程中,根据上述中不同维度的评分,制定迭代条件,寻找最优解。其迭代的条件考察以下3个指标:

第一优先级指标为“位置支持+纯度支持”,其计算方法为;“位置支持聚类对”数目–“位置不支持聚类对”数目+纯度支持聚类对”数目–“纯度不支持聚类对”数目。

第二优先级指标为“纯度支持”,其计算方法为:“纯度支持聚类对”数目–“纯度不支持聚类对”数目。

第三优先级指标为“倍性矫正系数支持”,其计算方法为:“倍性矫正系数支持聚类对”数目–“倍性矫正系数不支持聚类对”数目。

优先级指标设置的意义在于,当前迭代的评分优于历史评分时,当前的纯度为最优纯度,当前的倍性矫正系数为最优的倍性矫正系数,当前的基因型指认,为最优匹配。

通过上述实施例,得到样本的肿瘤纯度、倍性矫正系数之后,根据如下的公式可以得到T.BAF和T.CN,

即:将原始分段结果中的观测到的BAF和LRR矫正为肿瘤细胞特异性的T.BAF和T.CN。本发明的实施例中,根据肿瘤纯度和倍性校正系数,还可得到基因频率,即:可以得到T.BAF。

考虑到肿瘤样本等位基因特异性拷贝数应该为整数,对原始的片段分割结果中,对其观测到的所有的BAF和LRR/CN结果进行校正,并根据其校正后的T.BAF、T.CN标记其基因型是否为平衡(balance)、非平衡(unbalance)。如果标记为平衡且矫正后的T.CN<2,则此时nA=nB=1(这里,nA为较低的等位基因的拷贝数;而nB为较高的等位基因的拷贝数);如果标记为平衡且矫正后的T.CN>2,则寻找与该值最接近的偶数,A和B指定为该偶数的一半。平衡的数据点被判断后,结合上述表1和表2,用极大似然估计的方法可以对非平衡基因型进行估计,一旦每个聚类的基因型被识别出来,其肿瘤的等位基因特异性拷贝数是显然的,从而可以识别任意类型的大片段CNV,如:nA等于0,而nB不等于0,即为LOH片段;而nA等于0,而nB不等于2为中性LOH。注:LOH为杂合性缺失。

在一个具体示例中,共计有6个聚类:4个非平衡聚类和2个平衡聚类。在寻找最优匹配的过程中,首先从4个非平衡的聚类中选出n个,n需要遍历1,2,3,4;然后从2个平衡的聚类中选m个,m需要遍历1,2。事实上,当n=1时,从4个非平衡的聚类中选择1个聚类有4种可能,而选定1个聚类后,还需要把其指认成9种基因型(B、BB、ABB、BBB、ABBB、BBBB、AABBB、ABBBB、BBBBBB)中的一种基因型,有9种选择;当n=2时,从4个非平衡的聚类中选择2个聚类有6种可能,而选定2个聚类后,还需要把其指认成9种基因型(B、BB、ABB、BBB、ABBB、BBBB、AABBB、ABBBB、BBBBBB)中的二种基因型,有9*8=72种选择;当n=3时,从4个非平衡的聚类中选择3个聚类有4种可能,而选定3个聚类后,还需要把其指认成9种基因型(B、BB、ABB、BBB、ABBB、BBBB、AABBB、ABBBB、BBBBBB)中的三种基因型,有9*8*7=504种选择;当n=4时,从4个非平衡的聚类中选择4个聚类仅有1种可能,而选定4个聚类后,还需要把其指认成9种基因型(B、BB、ABB、BBB、ABBB、BBBB、AABBB、ABBBB、BBBBBB)中的一种基因型,有9*8*7*6=3024种选择。同样的,当m=1时,从2个平衡的聚类中选择1个聚类有2种可能,而选定1个聚类后,还需要把其指认成2种基因型(AB、AABB)中的一种基因型,有2种选择;当m=2时,从2个平衡的聚类中选择2个聚类仅有1种可能,而选定2个聚类后,还需要把其指认成2种基因型(AB、AABB)中的2种基因型,有2*1=1种选择。

整个最优匹配的问题,就是希望找到实际聚类结果与不同基因型的最佳匹配,需要遍历上述所有的情形。以上遍历过程都是线性的,实际的匹配过程并不慢。为了更好的说明计算过程及评分的判读逻辑,这里仅展示最优匹配的情形。

当从4个非平衡的聚类结果中选择4个聚类,在2个平衡的聚类结果中选择2个聚类,且聚类结果进行如下的基因型指认时:将平衡聚类1指认为AB型、将平衡聚类2指认为AABB、将非平衡聚类3指认为BB、将非平衡聚类4指认为ABB、将非平衡聚类5指认为B、将非平衡聚类6指认为BBB。如图4所示,为一次循环中的基因型指认示例。

对于上述的指认结果,可以根据公式对每个非平衡的聚类计算其纯度和倍性矫正系数(ploidycorrectioncoefficient)。事实上,对于纯度、倍性矫正系数(ploidycorrectioncoefficient)的计算,考虑如下的公式:

举例如下,这里将非平衡聚类3指认为BB,期实际的聚类的BAF=0.8650579,CN=1.514767,而基因型BB的real.CN=2,real.BAF=1,则可以根据该聚类结果计算出肿瘤纯度0.7301158,倍性校正系数为1.320335。同理,可以根据其他非平衡聚类计算其相应的肿瘤纯度和倍性校正系数。如表10所示,示出了一次循环中的肿瘤纯度、倍性矫正系数。

表10

当用上述4个聚类分别计算肿瘤纯度后,可以计算当前的平均肿瘤纯度(根据上述四种基因型计算出的肿瘤纯度的均值),然后可以计算出平衡聚类的倍性矫正系数。本实施例中,用AB型计算出的倍性校正系数为1.347927,用AB型计算出的倍性校正系数为1.344766。最终的计算结果如图5所示,示出了一次循环中的肿瘤纯度、倍性矫正系数可视化结果。对于图3至图5而言,图3是原始的聚类图、图4标记了每个聚类的BAF和CN值,然后指认了每个聚类的基因型,图5根据图4中指认的基因型,计算了每个聚类的肿瘤纯度、倍性矫正系数。

评分的第一个维度:根据不同聚类的基因型信息及位置信息进行评分。记录位置支持证据及位置反对证据。无论肿瘤细胞如何变化,一个基本的事实是:不同基因型的相对位置是不会发生较大变化的。例如:CN从小到大:B

表11

也就是共计有15个“位置支持聚类对”,0个“位置不支持聚类对”。即6个聚类,两两之间的相对位置信息都是合理的。具体的:

B+AB、B+BB、B+ABB、B+BBB、B+AABB(5个支持)

AB+BB、AB+ABB、AB+BBB、AB+AABB(4个支持)

BB+ABB、BB+BBB、BB+AABB(3个支持)

ABB+BBB、ABB+AABB(2个支持)

BBB+AABB(1个支持)

评分的第二个维度:基于聚类点的肿瘤纯度计算结果,对实际聚类结果与指定基因型的匹配程度进行考察。对于肿瘤样本,用不同的聚类点进行肿瘤含量的计算,其计算结果不应该产生太大的差异。事实上,本方法的一个显著的优势,就是可以通过不同聚类点计算出来的肿瘤细胞含量相互印证,从而防止仅用个别聚类点进行肿瘤含量计算而产生的偏差。使得最终的肿瘤细胞含量更准确。在本申请中,在单次循环中,如果两个非平衡聚类所计算出的肿瘤含量差异<10%,则可作为两个聚类的基因型指认相互支持的证据,反之,则作为两个聚类的基因型指认相互矛盾的证据。该实施例的证据如表12所示:

表12

在本实施例中,只有4个非平衡的聚类,4个聚类中,两两之间计算出的肿瘤纯度均相似,即有6个“纯度支持聚类对”,0个“纯度不支持聚类对”。

评分的第三个维度:基于聚类点的倍性矫正系数的计算结果,对实际聚类结果与指定基因型的匹配程度进行考察。同上述肿瘤纯度的评分类似,对于肿瘤样本,用不同的聚类点进行倍性矫正系数的计算,其计算结果不应该产生太大的差异。在本申请中,在单次循环中,如果两个聚类所计算出的倍性校正系数差异<10%,则可作为两个聚类的基因型指认相互支持的证据,反之,则作为两个聚类的基因型指认相互矛盾的证据。该实施例的证据如表13所示:

表13

在本实施例中,只有4个非平衡的聚类,2个平衡的聚类,共计6个聚类。6个聚类中,两两之间计算出的倍性矫正系数均相似,即有15个“倍性矫正系数支持聚类对”,0个“倍性矫正系数不支持聚类对”。

在每一次评估“实际聚类结果与指定基因型匹配程度”的过程中,根据上述(中不同维度的评分,制定迭代条件,寻找最优解。其迭代的条件考察以下3个指标:

第一优先级指标为“位置支持+纯度支持”,其计算方法为;“位置支持聚类对”数目–“位置不支持聚类对”数目+“纯度支持聚类对”数目–“纯度不支持聚类对”数目;

第二优先级指标为“纯度支持”,其计算方法为:“纯度支持聚类对”数目–“纯度不支持聚类对”数目。

第三优先级指标为“倍性矫正系数支持”,其计算方法为:“倍性矫正系数支持聚类对”数目–“倍性矫正系数不支持聚类对”数目。

优先级指标设置的意义在于,当前迭代的评分优于历史评分时,当前的纯度为最优纯度,当前的倍性矫正系数为最优的倍性矫正系数,当前的基因型指认,为最优匹配。在本实施例中,样本的肿瘤纯度为0.7181625,倍性矫正系数为1.34582。

对于等位基因特异性拷贝数,经过上述操作以后,可以得到样本的肿瘤纯度、倍性矫正系数。

考虑到肿瘤样本等位基因特异性拷贝数应该为整数,对原始的片段分割结果中,对其观测到的所有的BAF和LRR/CN结果进行校正,并根据其校正后的T.BAF、T.CN标记其基因型是否为平衡(balance)、非平衡(unbalance)。如果标记为平衡且矫正后的T.CN<2,则此时nA=nB=1(nA为较低的等位基因的拷贝数;而nB为较高的等位基因的拷贝数);如果标记为平衡且矫正后的T.CN>2,则寻找与该值最接近的偶数,A和B指定为该偶数的一半。平衡的数据点被判断后,结合上述表1和表2,用极大似然估计的方法可以对非平衡基因型进行估计,一旦每个聚类的基因型被识别出来,其肿瘤的等位基因特异性拷贝数是显然的,从而可以识别任意类型的大片段CNV,如:nA等于0,而nB不等于0,即为LOH片段;而nA等于0,而nB不等于2为中性LOH。注:LOH为杂合性缺失。如表14所示,示出了肿瘤细胞等位基因特异性拷贝数的展示结果。

表14

根据本申请实施例的基因的拷贝数变异检测方法,适用于肿瘤样本的NGS测序数据和SNParray数据的分析。本申请将纯度和倍性矫正系数的计算转化为允许空位的局部优化问题,并且可以实现计算逻辑的自治,从多种维度证明结果的可靠性。在准确计算出肿瘤纯度和倍性矫正系数的前提下,还可以计算等位基因特异性拷贝数,对不同的CNV片段进行明确的基因型判读,具有判读准确的优点。

另一方面,如图6所示,本申请实施例提供了一种基因的拷贝数变异检测系统,包括:获取模块610、聚类模块620、计算模块630和检测模块640,其中:

获取模块610,用于获得样本的片段数据,其中,所述片段数据包括平衡片段和非平衡片段;

聚类模块620,用于分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇;

计算模块630,用于重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数;

检测模块640,用于根据所述肿瘤纯度和倍性校正系数,得到样本的拷贝数。

根据本申请实施例的基因的拷贝数变异检测系统,适用于肿瘤样本的NGS测序数据和SNParray数据的分析。将纯度和倍性矫正系数的计算转化为允许空位的局部优化问题,并且可以实现计算逻辑的自治,从多种维度证明结果的可靠性。在准确计算出肿瘤纯度和倍性矫正系数的前提下,还可以计算等位基因特异性拷贝数,对不同的CNV片段进行明确的基因型判读,具有判读准确的优点。

需要说明的是,本申请实施例的基因的拷贝数变异检测系统的具体实现方式与本申请实施例的基因的拷贝数变异检测方法的具体实现方式类似,具体请参见方法部分的描述,此处不做赘述。

图7为本申请实施例的计算设备的结构示意图。

如图7所示,计算设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分602加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有计算设备600操作所需的各种程序和数据。CPU 601、ROM602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的计算设备中限定的上述功能。

需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的计算设备、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行计算设备、系统或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行计算设备、系统或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的处理接收设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的计算设备来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,处理器用于执行所述程序时实现基因的拷贝数变异检测方法:

获得样本的片段数据,其中,所述片段数据包括平衡片段和非平衡片段;

分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇;

重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数;

根据所述肿瘤纯度和倍性校正系数,得到样本的拷贝数。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的计算设备中所包含的;也可以是单独存在,而未装配入该计算设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的基因的拷贝数变异检测方法:

获得样本的片段数据,其中,所述片段数据包括平衡片段和非平衡片段;

分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇;

重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数;

根据所述肿瘤纯度和倍性校正系数,得到样本的拷贝数。

作为另一方面,本申请还提供了一种计算机程序产品,该计算机程序产品可以是上述实施例中描述的计算设备中所包含的;也可以是单独存在,而未装配入该计算设备中的。上述计算机程序产品存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的基因的拷贝数变异检测方法:

获得样本的片段数据,其中,所述片段数据包括平衡片段和非平衡片段;

分别对所述平衡片段和非平衡片段进行聚类,得到所述非平衡片段的第一聚类簇和平衡片段的第二聚类簇;

重复执行以下步骤,直至当前一次执行过程中获得的基因型的匹配分数为最优的匹配分数:从第一聚类簇中选择至少一部分非平衡聚类簇和从所述第二聚类簇中选择至少一部分平衡聚类簇,并根据为非平衡聚类簇和平衡聚类簇匹配的基因型,得到样本的肿瘤纯度和倍性校正系数;

根据所述肿瘤纯度和倍性校正系数,得到样本的拷贝数。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 确定预定染色体保守区域的方法、确定样本基因组中是否存在拷贝数变异的方法、系统和计算机可读介质
  • 一种拷贝数变异检测方法、系统、存储介质、计算机设备
技术分类

06120116583302