掌桥专利:专业的专利平台
掌桥专利
首页

肿瘤纯度估计方法及装置

文献发布时间:2023-06-19 11:06:50


肿瘤纯度估计方法及装置

技术领域

本发明涉及数据科学技术领域,尤指一种肿瘤纯度估计方法及装置。

背景技术

肿瘤是由正常细胞基因组变异累积产生的,导致死亡的主要原因之一就是恶性肿瘤。肿瘤组织的组成非常复杂,不仅包含肿瘤细胞,也含有一些重要的如免疫细胞、成纤维细胞等非癌细胞以及促进和抑制肿瘤生长的营养物、趋化因子等。肿瘤组织中的肿瘤细胞是异质细胞群,包含具有不同基因突变的多克隆细胞,大体上可以分为初始变异细胞和该细胞经过多轮选择和克隆扩增后产生的细胞,在核苷酸水平上,不可能有两个肿瘤细胞是相同的。通过测序数据估计的表现出最多祖先特征的克隆称为初始克隆,其基因组累加多种包含结构变异和单点变异在内的染色体变异。假定肿瘤样本中的肿瘤细胞在进化过程中满足无限位点假设,即在整个进化过程中,某个位点至多变异一次,且已变异的位点无法恢复。早期克隆扩增以及最近克隆扩增后发生突变的亚克隆称为子克隆,子克隆不仅继承了父代的染色体变异,同时也产生了异于父代的利于自身的变异,故而不同亚克隆含有不同的染色体变异。

拷贝数变异(英文名称:Copy Number Variations,英文缩写:CNVs)是肿瘤基因组中一类重要的体征畸变,并且已经被广泛研究以期理解癌症的突变和克隆进化。拷贝数变异会导致肿瘤组织的基因组信息发生偏差,发生拷贝数变异的基因片段上单点变异位点读对数目相比于未发生拷贝数变异的基因片段会成倍的增加,外肿瘤是异质性细胞群,因此不同克隆结构上发生拷贝数变异的情况并不相同。当拷贝数变异出现在父克隆上时,子克隆不仅会继承父克隆的变异,同时子克隆也可能发生自身的拷贝数变异;当拷贝数变异出现在子克隆上时,拷贝数变异可能会导致子克隆继承于父克隆的染色体变异成倍增加,也可能导致子克隆产生的利于自身的染色体变异成倍增加。

肿瘤纯度估计指从混合肿瘤组织测序数据中正确评估肿瘤细胞所占比例,肿瘤组织极其复杂,肿瘤纯度在各种癌症种类,测序类型和采样组织中不同。肿瘤纯度不仅可以由病理学家通过肿瘤细胞的可视化或图形分析进行估计,并且随着基因组技术的发展如线性模型的统计方法,最大似然模型及贝叶斯方法等的计算方法也可用于推断肿瘤纯度,并且使用了不同类型的基因组信息,如基因表达、拷贝数变异、体细胞变异和DNA甲基化等。根据所用数据的不同,肿瘤纯度估计方法大致分为两类:第一类是基于SNP阵列数据;第二类是基于测序数据。对于第一类基于SNP阵列数据的方法,该方法利用单核苷酸多态性微阵列实验技术得到的高通量数据对细胞中染色体异常现象(拷贝数异常、杂合性)进行检测,从而估计肿瘤组织的纯度,包括ABSOLUTE,ASCAT等。对于第二类基于测序数据的方法,方法是直接使用癌症测序数据(Cancer Sequencing Data),包括PurityEst,AbsCN_seq,CNAnorm,THetA和PurBayes等。

但是,这两类方法的估计性能都不好,而且主要存在以下问题:其一,第一类方法只对单一亚克隆的情况有效,因此当肿瘤细胞内存在多个亚克隆时,不能较好地适用于多亚克隆分析;其二,第二类方法对于多级亚克隆共存情况下的肿瘤纯度估计效果有限;其三,对于拷贝数变异与多级亚克隆共存现象,以上两类方法的性能都会被限制,无法准确估计出肿瘤细胞的纯度。

发明内容

针对现有技术中存在的问题,本发明实施例的主要目的在于提供一种肿瘤纯度估计方法及装置,实现了针对拷贝数变异的肿瘤样本纯度的准确估计。

为了实现上述目的,本发明实施例提供一种肿瘤纯度估计方法,所述方法包括:

从染色体变异检测工具中获取针对正常样本及肿瘤样本检查得到的检测结果文件,并利用所述检测结果文件得到变异信息数据;其中,所述变异信息数据包括肿瘤样本的正常区域单点变异位点集合及肿瘤样本的拷贝数变异区域单点变异位点集合;

对所述正常区域单点变异位点集合进行聚类,得到聚类结果,并根据所述聚类结果,确定正常区域单点变异平均读对数;

根据所述正常区域单点变异平均读对数及所述拷贝数变异区域单点变异位点集合,确定所述肿瘤样本中多个克隆分别对应的拷贝数变异区域克隆拷贝数;

根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段的校正参数集合,并利用所述校正参数集合,对所述拷贝数变异区域单点变异位点集合中的拷贝数变异区域单点变异读对数进行校正,根据校正后的拷贝数变异区域单点变异读对数进行肿瘤纯度估计。

可选的,在本发明一实施例中,所述利用所述检测结果文件得到变异信息数据包括:

从所述检测结果文件中提取正常样本的单点变异集合、肿瘤样本的单点变异集合及肿瘤样本的拷贝数变异集合;

根据所述拷贝数变异集合中的各拷贝数变异的起始位置、终止位置及长度,确定肿瘤样本的拷贝数变异区域单点变异位点集合;

根据正常样本的单点变异集合及肿瘤样本的单点变异集合,确定肿瘤样本的正常区域单点变异位点集合。

可选的,在本发明一实施例中,所述对所述正常区域单点变异位点集合进行聚类,得到聚类结果包括:

对所述正常区域单点变异位点集合进行特征提取,得到正常区域单点变异位点集合中各单点变异位点的特征;

根据各单点变异位点的特征,对所述正常区域单点变异位点集合中各单点变异位点进行聚类,得到聚类结果。

可选的,在本发明一实施例中,所述根据所述聚类结果,确定正常区域单点变异平均读对数包括:

根据聚类结果确定各类中单点变异位点的特征的平均值,将所述平均值作为所述正常区域单点变异平均读对数。

可选的,在本发明一实施例中,所述根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段的校正参数集合包括:

根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段对应的单点变异集合;

根据所述拷贝数变异区域单点变异位点集合中的拷贝数变异区域单点变异读对数,确定各变异区段对应的单点变异集合中各单点变异读对数的多组占比值,得到多个占比值集合;

根据所述占比值集合,确定对应的各单点变异的估计等位基因频率误差之和;

当所述估计等位基因频率误差之和最小时,将最小的估计等位基因频率误差之和对应的占比值集合作为校正参数集合。

本发明实施例还提供一种肿瘤纯度估计装置,所述装置包括:

数据获取模块,用于从染色体变异检测工具中获取针对正常样本及肿瘤样本检查得到的检测结果文件,并利用所述检测结果文件得到变异信息数据;其中,所述变异信息数据包括肿瘤样本的正常区域单点变异位点集合及肿瘤样本的拷贝数变异区域单点变异位点集合;

平均读对数模块,用于对所述正常区域单点变异位点集合进行聚类,得到聚类结果,并根据所述聚类结果,确定正常区域单点变异平均读对数;

克隆拷贝数模块,用于根据所述正常区域单点变异平均读对数及所述拷贝数变异区域单点变异位点集合,确定所述肿瘤样本中多个克隆分别对应的拷贝数变异区域克隆拷贝数;

读对数校正模块,用于根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段的校正参数集合,并利用所述校正参数集合,对所述拷贝数变异区域单点变异位点集合中的拷贝数变异区域单点变异读对数进行校正,根据校正后的拷贝数变异区域单点变异读对数进行肿瘤纯度估计。

可选的,在本发明一实施例中,所述数据获取模块包括:

数据提取单元,用于从所述检测结果文件中提取正常样本的单点变异集合、肿瘤样本的单点变异集合及肿瘤样本的拷贝数变异集合;

拷贝数变异区域单元,用于根据所述拷贝数变异集合中的各拷贝数变异的起始位置、终止位置及长度,确定肿瘤样本的拷贝数变异区域单点变异位点集合;

正常区域单元,用于根据正常样本的单点变异集合及肿瘤样本的单点变异集合,确定肿瘤样本的正常区域单点变异位点集合。

可选的,在本发明一实施例中,所述平均读对数模块包括:

特征提取单元,用于对所述正常区域单点变异位点集合进行特征提取,得到正常区域单点变异位点集合中各单点变异位点的特征;

聚类结果单元,用于根据各单点变异位点的特征,对所述正常区域单点变异位点集合中各单点变异位点进行聚类,得到聚类结果。

可选的,在本发明一实施例中,所述平均读对数模块还用于根据聚类结果确定各类中单点变异位点的特征的平均值,将所述平均值作为所述正常区域单点变异平均读对数。

可选的,在本发明一实施例中,所述读对数校正模块包括:

单点变异集合单元,用于根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段对应的单点变异集合;

占比值集合单元,用于根据所述拷贝数变异区域单点变异位点集合中的拷贝数变异区域单点变异读对数,确定各变异区段对应的单点变异集合中各单点变异读对数的多组占比值,得到多个占比值集合;

误差求和单元,用于根据所述占比值集合,确定对应的各单点变异的估计等位基因频率误差之和;

校正参数集合单元,用于当所述估计等位基因频率误差之和最小时,将最小的估计等位基因频率误差之和对应的占比值集合作为校正参数集合。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明通过对拷贝数变异导致的单点变异位点读对增加数目进行校正,将校正后的数据用于肿瘤纯度估计,有效地校正了异常单点变异读对数目,实现在不同覆盖度和不同肿瘤纯度下准确地估计肿瘤纯度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例一种肿瘤纯度估计方法的流程图;

图2为本发明实施例中获取变异信息数据的流程图;

图3为本发明实施例中生成聚类结果的流程图;

图4为本发明实施例中生成校正参数集合的流程图;

图5为本发明一具体实施例中肿瘤纯度估计方法的流程图;

图6为本发明实施例一种肿瘤纯度估计装置的结构示意图;

图7为本发明实施例中数据获取模块的结构示意图;

图8为本发明实施例中平均读对数模块的结构示意图;

图9为本发明实施例中读对数校正模块的结构示意图;

图10为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

本发明实施例提供一种肿瘤纯度估计方法及装置,可用于金融领域或其他领域,需要说明的是,本发明的肿瘤纯度估计方法及装置可用于金融领域,也可用于除金融领域之外的任意领域,本发明的肿瘤纯度估计方法及装置应用领域不做限定。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明基于以下学术界的普遍共识:

1、目前常用检测算法通过二代测序技术产生的读段与参考序列进行比对得到的读数据信息,确定染色体变异的不同类型以及变异大小、位置等信息;

2、拷贝数变异会导致读对数目信息发生偏差,拷贝数变异区域的单点变异位点读对数目相比于正常区域会成倍的增加,从而影响肿瘤纯度估计的准确度。

如图1所示为本发明实施例一种肿瘤纯度估计方法的流程图,本发明实施例提供的肿瘤纯度估计方法的执行主体包括但不限于计算机。图中所示方法包括:

步骤S1,从染色体变异检测工具中获取针对正常样本及肿瘤样本检查得到的检测结果文件,并利用所述检测结果文件得到变异信息数据;其中,所述变异信息数据包括肿瘤样本的正常区域单点变异位点集合及肿瘤样本的拷贝数变异区域单点变异位点集合。

其中,在不同纯度肿瘤样本运行已有的变异检测工具,从二代双末端测序数据中检测拷贝数变异和单点变异,由于肿瘤组织具有异质性,肿瘤组织包含初始克隆以及该克隆经过多轮选择和扩增后的子克隆,肿瘤样本包含正常细胞以及多个个子克隆,得到不同纯度的染色体变异信息数据。

具体的,从检测结果文件中提取出正常样本的遗传单点变异集合、肿瘤样本的单点变异集合以及拷贝数变异集合。根据肿瘤样本每个拷贝数变异的起始位置、终止位置以及长度从所有单点变异中提取出拷贝数变异区域的异常单点变异位点集合,其余的单点变异位点均为正常区域的单点变异位点集合。

步骤S2,对所述正常区域单点变异位点集合进行聚类,得到聚类结果,并根据所述聚类结果,确定正常区域单点变异平均读对数。

其中,当正常样本和纯肿瘤样本混合时,正常样本的遗传变异无法提供正常细胞与纯肿瘤细胞的有效区分信息,因此估计肿瘤纯度所用变异位点均为肿瘤样本的体变异。本发明使用高斯混合模型(英文名称:Gaussian Mixture Models,英文缩写:GMM)进行聚类。具体的,得到聚类结果,即肿瘤正常区域的单点变异通过聚类分为四种联合基因型,具体可以通过高斯混合模型聚为四类。

具体的,对照正常样本和肿瘤样本检测得到的单点变异集合,得到肿瘤样本正常区域单点变异位点集合,提取每个单点变异位点的特征。根据得到的变异位点特征集,将正常区域所有的单点变异位点聚为四类,根据聚类结果对每个类中的单点变异样本特征分别求平均值,得到四类不同联合基因型变异位点的正常区域单点变异平均读对数。

步骤S3,根据所述正常区域单点变异平均读对数及所述拷贝数变异区域单点变异位点集合,确定所述肿瘤样本中多个克隆分别对应的拷贝数变异区域克隆拷贝数。

其中,假设肿瘤样本包含正常细胞以及两个子克隆S

步骤S4,根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段的校正参数集合,并利用所述校正参数集合,对所述拷贝数变异区域单点变异位点集合中的拷贝数变异区域单点变异读对数进行校正,根据校正后的拷贝数变异区域单点变异读对数进行肿瘤纯度估计。

其中,根据每个拷贝数变异区段的克隆拷贝数可以确定该区段的单点变异拷贝数集合,提取出不同拷贝数变异区段的单点变异集合,确定每个拷贝数变异区段内的单点变异对应的矫正参数集合,校正异常的读对数目。

进一步的,读对数目校正完成后,将校正后的单点变异位点与正常区域的变异位点混合,根据所有位点的读对数目计算等位基因频率,整合包含读对数目和等位基因频率在内的数据特征,使用已有肿瘤纯度估计方法EMpurity对考虑拷贝数变异的多克隆肿瘤样本纯度进行估计。

作为本发明的一个实施例,如图2所示,利用所述检测结果文件得到变异信息数据包括:

步骤S11,从所述检测结果文件中提取正常样本的单点变异集合、肿瘤样本的单点变异集合及肿瘤样本的拷贝数变异集合;

步骤S12,根据所述拷贝数变异集合中的各拷贝数变异的起始位置、终止位置及长度,确定肿瘤样本的拷贝数变异区域单点变异位点集合;

步骤S13,根据正常样本的单点变异集合及肿瘤样本的单点变异集合,确定肿瘤样本的正常区域单点变异位点集合。

其中,从结果文件中提取出正常样本的遗传单点变异集合、肿瘤样本的单点变异集合以及拷贝数变异集合。根据肿瘤样本每个拷贝数变异的起始位置、终止位置以及长度从所有单点变异中提取出该区段的异常单点变异位点集合,其余的单点变异位点均为正常区域的单点变异位点集合,各集合中包含后续所需的reads序列信息,如下所示:

1)Normal_Reads1:肿瘤样本正常区域的单点变异位点与参考基因组序列碱基相同的读对数目;

2)Normal_Reads2:肿瘤样本正常区域的单点变异位点与参考基因组序列碱基不匹配的读对数目;

3)Normal_Sum:肿瘤样本正常区域的单点变异位点比对到参考基因组序列的读对总数;

4)Tumor_Reads1:肿瘤样本拷贝数变异区域的单点变异位点与参考基因组序列碱基相同的读对数目;

5)Tumor_Reads2:肿瘤样本拷贝数变异区域的单点变异位点与参考基因组序列碱基不匹配的读对数目;

6)Tumor_Sum:肿瘤样本拷贝数变异区域的单点变异位点比对到参考基因组序列的读对总数。

作为本发明的一个实施例,如图3所示,所述对所述正常区域单点变异位点集合进行聚类,得到聚类结果包括:

步骤S21,对所述正常区域单点变异位点集合进行特征提取,得到正常区域单点变异位点集合中各单点变异位点的特征;

步骤S22,根据各单点变异位点的特征,对所述正常区域单点变异位点集合中各单点变异位点进行聚类,得到聚类结果。

其中,对照正常样本和肿瘤样本检测得到的单点变异集合,得到肿瘤样本正常区域单点变异位点集合I={i,i=1,2,…,k},提取每个单点变异位点的(a^i,b^i)。根据得到的变异位点特征集,将正常区域所有的单点变异位点聚为四类,由此得到聚类结果。

在本实施例中,根据所述聚类结果,确定正常区域单点变异平均读对数包括:根据聚类结果确定各类中单点变异位点的特征的平均值,将所述平均值作为所述正常区域单点变异平均读对数。

其中,根据聚类结果对每个类中的单点变异样本特征分别求平均值,得到四类不同联合基因型变异位点的Normal_Reads1、Normal_Reads2均值(a-,b-)作为正常区域单点变异平均读对数。

进一步的,肿瘤样本正常区域中每个单点变异位点的Normal_Sum由正常细胞,肿瘤S

具体的,肿瘤样本包含两个克隆S

将GMM聚类得到的四类联合基因型正常区域单点变异位点两种读对数目平均值集合记为

将拷贝数变异区域变异位点所在位置在正常样本中比对到参考序列的读对数目作为该位点无拷贝数变异干扰时的读对总数,求出各部分的读对数目:

对于每个拷贝数变异区段d

提取区段d

作为本发明的一个实施例,如图4所示,根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段的校正参数集合包括:

步骤S41,根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段对应的单点变异集合;

步骤S42,根据所述拷贝数变异区域单点变异位点集合中的拷贝数变异区域单点变异读对数,确定各变异区段对应的单点变异集合中各单点变异读对数的多组占比值,得到多个占比值集合;

步骤S43,根据所述占比值集合,确定对应的各单点变异的估计等位基因频率误差之和;

步骤S44,当所述估计等位基因频率误差之和最小时,将最小的估计等位基因频率误差之和对应的占比值集合作为校正参数集合。

其中,单点变异位点的联合基因型分四类,结合两类拷贝数变异、两个子克隆的单点变异以及四种联合基因型,会出现8种拷贝数变异干扰下的单点变异。用φ_21,φ_31和φ_22,φ_32分别表示两个克隆的两类读对占比,φ_01和φ_02分别表示拷贝数变异导致增加的读对中支持正常的读对数目和支持变异的读对数目占比,各参数在不同拷贝数和基因型下的可能取值的参数取值表如表1所示。

表1

根据单点变异i的(n

提取单点变异i的支持正常和支持变异的读对数目N′

结合正常区域不同联合基因型单点变异的读对平均值根据(N′

借鉴均方误差思想,计算单点变异f的估计等位基因频率

根据均方误差准则,迭代所有的可能的校正参数集合,得到使误差和S

对拷贝数变异区段集合为D中的t个拷贝数变异均执行上述步骤,可以求出异常单点变异集合T的每个单点变异的参数及对应的基因型,用所求参数对T中每个单点变异的读对数目进行校正,得到校正后的支持正常和支持变异的读对数目。

进一步的,读对数目校正完成后,将校正后的单点变异位点与正常区域的变异位点混合,根据所有位点的读对数目(N

作为本发明一具体实施例,如图5所示的肿瘤样本纯度估计具体过程包括:

S100,数据预处理。获取变异信息数据,在不同纯度肿瘤样本运行已有的变异检测工具,从二代双末端测序数据中检测拷贝数变异和单点变异,由于肿瘤组织具有异质性,肿瘤组织包含初始克隆以及该克隆经过多轮选择和扩增后的子克隆,在此假设肿瘤样本包含正常细胞以及多个子克隆,得到不同纯度的染色体变异信息数据。

S200,正常单点变异位点聚类。对正常单点变异位点进行聚类,并确定正常区域单点变异平均读对数。

具体的,本发明使用高斯混合模型(GMM)进行聚类。具体的,得到聚类结果,即肿瘤正常区域的单点变异通过聚类分为四种联合基因型,具体可以通过高斯混合模型聚为四类。

进一步的,对照正常样本和肿瘤样本检测得到的单点变异集合,得到肿瘤样本正常区域单点变异位点集合,提取每个单点变异位点的特征。根据得到的变异位点特征集,将正常区域所有的单点变异位点聚为四类,根据聚类结果对每个类中的单点变异样本特征分别求平均值,得到四类不同联合基因型变异位点的正常区域单点变异平均读对数。

S300,分析异常单点变异位点增加的读对数目。根据单点变异的读对数以及真实读对数目求出拷贝数变异增加的读对数目。

S400,迭代不同克隆拷贝数集合。利用回归残差分析确定多个克隆的拷贝数,计算拷贝数区段的回归残差,循环迭代,求出不同拷贝数情况下的回归残差。

S500,判断误差是否为最小。若否,则进行步骤S400;若是,则进行步骤S600。比较所有的回归残差记录值最小时的拷贝数情况,对应的拷贝数为对应的多个克隆的拷贝数。

S600,迭代不同基因型参数集合。不同的校正参数集合,对应的不同的基因型。

S700,判断误差是否为最小。若否,则进行步骤S600;若是,则进行步骤S800。根据均方误差准则,迭代所有的校正参数集合,得到使误差和最小的参数,即所求校正参数集合,对应的基因型为单点变异的基因型。

S800,校正异常单点变异读对数。用所求参数对异常单点变异集合中每个单点变异的读对数目进行校正,得到校正后的支持正常和支持变异的读对数目。利用校正后的读对数进行肿瘤纯度估计。

本发明通过聚类方法预估正常单点变异位点的平均读对数目,然后对不同拷贝数变异区段的单点变异位点应用多元回归分析确定该段的拷贝数信息,并通过均方误差准则得出单点变异位点的基因型,最后对拷贝数变异导致的单点变异位点读对增加数目进行校正,将校正后的数据用于已有方法估计肿瘤纯度。本发明解决拷贝数变异影响肿瘤细胞独对数目信息发生偏差的问题,并解决多亚克隆并存影响肿瘤纯度估计的问题,以及解决不同亚克隆上的不同拷贝数变异导致纯度估计不准的问题。本发明有效地校正了异常单点变异读对数目,使用校正后的数据在不同覆盖度和不同肿瘤纯度下都准确地估计出肿瘤纯度。

如图6所示为本发明实施例一种肿瘤纯度估计装置的结构示意图,图中所示装置包括:

数据获取模块10,用于从染色体变异检测工具中获取针对正常样本及肿瘤样本检查得到的检测结果文件,并利用所述检测结果文件得到变异信息数据;其中,所述变异信息数据包括肿瘤样本的正常区域单点变异位点集合及肿瘤样本的拷贝数变异区域单点变异位点集合。

其中,在不同纯度肿瘤样本运行已有的变异检测工具,从二代双末端测序数据中检测拷贝数变异和单点变异,由于肿瘤组织具有异质性,肿瘤组织包含初始克隆以及该克隆经过多轮选择和扩增后的子克隆,肿瘤样本包含正常细胞以及多个个子克隆,得到不同纯度的染色体变异信息数据。

具体的,从检测结果文件中提取出正常样本的遗传单点变异集合、肿瘤样本的单点变异集合以及拷贝数变异集合。根据肿瘤样本每个拷贝数变异的起始位置、终止位置以及长度从所有单点变异中提取出拷贝数变异区域的异常单点变异位点集合,其余的单点变异位点均为正常区域的单点变异位点集合。

平均读对数模块20,用于对所述正常区域单点变异位点集合进行聚类,得到聚类结果,并根据所述聚类结果,确定正常区域单点变异平均读对数。

其中,当正常样本和纯肿瘤样本混合时,正常样本的遗传变异无法提供正常细胞与纯肿瘤细胞的有效区分信息,因此估计肿瘤纯度所用变异位点均为肿瘤样本的体变异。本发明使用高斯混合模型进行聚类。具体的,得到聚类结果,即肿瘤正常区域的单点变异通过聚类分为四种联合基因型,具体可以通过高斯混合模型聚为四类。

具体的,对照正常样本和肿瘤样本检测得到的单点变异集合,得到肿瘤样本正常区域单点变异位点集合,提取每个单点变异位点的特征。根据得到的变异位点特征集,将正常区域所有的单点变异位点聚为四类,根据聚类结果对每个类中的单点变异样本特征分别求平均值,得到四类不同联合基因型变异位点的正常区域单点变异平均读对数。

克隆拷贝数模块30,用于根据所述正常区域单点变异平均读对数及所述拷贝数变异区域单点变异位点集合,确定所述肿瘤样本中多个克隆分别对应的拷贝数变异区域克隆拷贝数。

其中,假设肿瘤样本包含正常细胞以及两个子克隆S

读对数校正模块40,用于根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段的校正参数集合,并利用所述校正参数集合,对所述拷贝数变异区域单点变异位点集合中的拷贝数变异区域单点变异读对数进行校正,根据校正后的拷贝数变异区域单点变异读对数进行肿瘤纯度估计。

其中,根据每个拷贝数变异区段的克隆拷贝数可以确定该区段的单点变异拷贝数集合,提取出不同拷贝数变异区段的单点变异集合,确定每个拷贝数变异区段内的单点变异对应的矫正参数集合,校正异常的读对数目。

进一步的,读对数目校正完成后,将校正后的单点变异位点与正常区域的变异位点混合,根据所有位点的读对数目计算等位基因频率,整合包含读对数目和等位基因频率在内的数据特征,使用已有肿瘤纯度估计方法EMpurity对考虑拷贝数变异的多克隆肿瘤样本纯度进行估计。

作为本发明的一个实施例,如图7所示,数据获取模块10包括:

数据提取单元11,用于从所述检测结果文件中提取正常样本的单点变异集合、肿瘤样本的单点变异集合及肿瘤样本的拷贝数变异集合;

拷贝数变异区域单元12,用于根据所述拷贝数变异集合中的各拷贝数变异的起始位置、终止位置及长度,确定肿瘤样本的拷贝数变异区域单点变异位点集合;

正常区域单元13,用于根据正常样本的单点变异集合及肿瘤样本的单点变异集合,确定肿瘤样本的正常区域单点变异位点集合。

作为本发明的一个实施例,如图8所示,平均读对数模块20包括:

特征提取单元21,用于对所述正常区域单点变异位点集合进行特征提取,得到正常区域单点变异位点集合中各单点变异位点的特征;

聚类结果单元22,用于根据各单点变异位点的特征,对所述正常区域单点变异位点集合中各单点变异位点进行聚类,得到聚类结果。

作为本发明的一个实施例,平均读对数模块还用于根据聚类结果确定各类中单点变异位点的特征的平均值,将所述平均值作为所述正常区域单点变异平均读对数。

作为本发明的一个实施例,如图9所示,读对数校正模块40包括:

单点变异集合单元41,用于根据所述拷贝数变异区域克隆拷贝数,确定拷贝数变异区域中各变异区段对应的单点变异集合;

占比值集合单元42,用于根据所述拷贝数变异区域单点变异位点集合中的拷贝数变异区域单点变异读对数,确定各变异区段对应的单点变异集合中各单点变异读对数的多组占比值,得到多个占比值集合;

误差求和单元43,用于根据所述占比值集合,确定对应的各单点变异的估计等位基因频率误差之和;

校正参数集合单元44,用于当所述估计等位基因频率误差之和最小时,将最小的估计等位基因频率误差之和对应的占比值集合作为校正参数集合。

基于与上述一种肿瘤纯度估计方法相同的申请构思,本发明还提供了上述一种肿瘤纯度估计装置。由于该一种肿瘤纯度估计装置解决问题的原理与一种肿瘤纯度估计方法相似,因此该一种肿瘤纯度估计装置的实施可以参见一种肿瘤纯度估计方法的实施,重复之处不再赘述。

本发明通过对拷贝数变异导致的单点变异位点读对增加数目进行校正,将校正后的数据用于肿瘤纯度估计,有效地校正了异常单点变异读对数目,实现在不同覆盖度和不同肿瘤纯度下准确地估计肿瘤纯度。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述方法的计算机程序。

如图10所示,该电子设备600还可以包括:通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是,电子设备600也并不是必须要包括图10中所示的所有部件;此外,电子设备600还可以包括图10中没有示出的部件,可以参考现有技术。

如图10所示,中央处理器100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中,存储器140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序,以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。

该存储器140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142,该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143,该数据存储部143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。

基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132,以经由扬声器131提供音频输出,并接收来自麦克风132的音频输入,从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器130还耦合到中央处理器100,从而使得可以通过麦克风132能够在本机上录音,且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

相关技术
  • 肿瘤纯度估计方法及装置
  • 考虑肿瘤纯度因素的基因组微卫星广域长度分布估计方法
技术分类

06120112808044