纯合位点识别方法、装置、存储介质及电子设备
文献发布时间:2024-07-23 01:35:12
技术领域
本申请实施例涉及生物技术领域,尤其涉及一种纯合位点识别方法、装置、存储介质及电子设备。
背景技术
同源重组修复(homologous recombination repair,HRR)作为核心的DNA损伤修复方式之一,是维持基因组完整性的DNA修复机制。在进行HRR时,由于各种因素会出现同源重组缺陷(Homologous Recombination Deficiency,HRD)的情况。在HRD的状态下,肿瘤细胞会在PARP抑制剂或铂类药物的作用下发生合成致死效应,从而可以根据肿瘤细胞中HRD状态的检测来决定是否在临床中使用特定种类的药物,因此需要对肿瘤细胞中HRD状态进行识别。
识别HRD状态可通过检测基因组疤痕实现,基因组疤痕位置需要根据单核苷酸多态性(Single Nucleotide Polymorphism,SNP)位点中的杂合位点进行确定。因此将SNP位点中的纯合位点进行识别并去除,对于确定基因组疤痕位置来说是关键的一步。在此背景下,如何提供技术方案,以提升纯合位点的识别精准度,成为了本领域技术人员亟需解决的技术问题。
发明内容
本发明实施例解决的技术问题是如何提高纯合位点的识别精准度。
为解决上述问题,本申请实施例提供如下技术方案。
第一方面,本发明实施例提供一种纯合位点识别方法,包括:
获取多个位点;
基于多个位点的等位基因频率,对所述多个位点进行聚类,得到多个聚类条带,所述多个聚类条带包括混合位点条带和杂合位点条带;所述混合位点条带中的位点包括杂合位点和纯合位点,所述杂合位点条带中的位点为杂合位点;
将所述混合位点条带划分为可信纯合条带和杂合纯合条带,所述可信纯合条带中的位点为纯合位点,所述杂合纯合条带为所述混合位点条带中除所述可信纯合条带以外的条带;
基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定所述多个位点对应的纯合等位基因频率阈值;
基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点。
第二方面,本发明实施例提供一种纯合位点识别装置,包括:
位点获取模块,适于获取多个位点;
位点聚类模块,适于基于多个位点的等位基因频率,对所述多个位点进行聚类,得到多个聚类条带,所述多个聚类条带包括混合位点条带和杂合位点条带;所述混合位点条带中的位点包括杂合位点和纯合位点,所述杂合位点条带中的位点为杂合位点;
可信纯合条带确定模块,适于将所述混合位点条带划分为可信纯合条带和杂合纯合条带,所述可信纯合条带中的位点为纯合位点,所述杂合纯合条带为所述混合位点条带中除所述可信纯合条带以外的条带;
纯合等位基因频率阈值确定模块,适于基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定所述多个位点对应的纯合等位基因频率阈值;
纯合位点识别模块,适于基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点。
第三方面,本发明实施例提供一种存储介质,所述存储介质存储有适于识别纯合位点的程序,以实现如第一方面所述的纯合位点识别方法。
第四方面,本发明实施例提供一种电子设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如第一方面所述的纯合位点识别方法。
在本发明实施例所提供的纯合位点识别方法,通过根据获取多个位点,确定每一个位点的等位基因频率;进而基于多个位点的等位基因频率,对所述多个位点进行聚类,得到多个聚类条带,所述多个聚类条带包括混合位点条带和杂合位点条带;所述混合位点条带中的位点包括杂合位点和纯合位点,所述杂合位点条带中的位点为杂合位点;然后对聚类之后的对所述混合位点条带进行划分,得到可信纯合条带和杂合纯合条带;所述可信纯合条带中的位点为纯合位点,所述杂合纯合条带为在所述混合位点条带中除了所述可信纯合条带以外的条带;进而基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定纯合等位基因频率阈值;最后基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点。
可以看出,本发明实施例所提供的纯合位点识别方法,为了能够准确识别出纯合位点;首先通过对多个位点的等位基因频率,对多个位点进行聚类,得到由同一类的位点形成的多个聚类条带;进而在多个聚类条带中确定出完全由杂合位点组成的杂合位点条带,和包括有杂合位点和纯合位点的混合位点条带;由于需要识别的是纯合位点,杂合位点条带中均为杂合位点;因此,可以仅针对所述混合位点条带做进一步的纯合位点识别;对所述混合位点条带进行区域划分,得到可信纯合条带和杂合纯合条带,由于所述可信纯合条带中的位点为纯合位点;因此所述可信纯合条带是完全纯合的位点条带;从而可以基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定出纯合等位基因频率阈值,所述纯合等位基因频率阈值即为在所述多个位点所处的区域中,纯合位点所对应的等位基因频率;因此可以基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点;基于对应确定的所述纯合等位基因频率阈值,在所述多个位点中识别出纯合位点,以实现提高纯合位点的识别准确度的目的。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例所提供的纯合位点识别方法的一流程示意图;
图2是本发明实施例所提供的位点聚类的一流程示意图;
图3是本发明实施例所提供的划分可信纯合条带的一流程示意图;
图4是本发明实施例所提供的识别纯合位点的一流程示意图;
图5是基于本发明实施例所提供的纯合位点识别方法,进行纯合位点去除的一流程示意图;
图6a是在高噪音样本中,各个位点对应的原始等位基因频率的一示意图;
图6b是现有方法去除高噪音样本中,纯合位点的一结果示意图;
图6c是基于本发明实施例所提供的纯合位点识别方法,去除高噪音样本中纯合位点的结果示意图;
图7a是对于具有LOH条带的高肿瘤含量样本,各个位点对应的原始等位基因频率的一示意图;
图7b是现有方法去除高肿瘤含量样本的LOH条带中,纯合位点的一结果示意图;
图7c是基于本发明实施例所提供的纯合位点识别方法,去除高肿瘤含量样本的LOH条带中纯合位点的结果示意图;
图8是本发明实施例所提供的纯合位点识别装置的一可选示框架示意图;
图9为本发明实施例提供的一种可选硬件设备架构。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
HRD在基于基因检测的多种场景中具有重要应用。在一个示例中,HRR在进行DNA损伤修复的过程中,当出现BRCA1/2或其它HRR相关基因发生突变,或BRCA1基因启动子发生甲基化,以及其他尚未明确的原因,都会引起同源重组缺陷(Homologous RecombinationDeficiency,HRD),导致基因组不稳定。而肿瘤细胞又依赖HRR参与DNA双链损伤修复的修复机制来保持肿瘤细胞自身基因组的稳定。当肿瘤细胞为HRD阳性时,借助外界药物,例如多聚ADP-核糖聚合酶(poly ADP-ribose polymerase,PARP)抑制剂,肿瘤细胞就会发生合成致死效应。并且,在HRD的状态下,肿瘤细胞也会对可诱导DNA发生交联的铂类药物更加敏感;因此,HRD在特定肿瘤的治疗中具有作为用药标志物的潜力。
通常HRD阳性的肿瘤细胞会过度依赖低保证度的修复通路维持肿瘤细胞自身的基因组稳定,例如,非同源末端连接(non-homologous end joining,NHEJ)、微同源末端连接(microhomology mediated end joining,MMEJ)和单链退火途径(single-strandannealing,SSA)等;从而造成核酸序列的插入/缺失,拷贝数异常(copy numbervariation,CNV),并引起染色体交联,造成基因组和染色体不稳定,在基因组上留下疤痕。因此,HRD的状态可以根据基因组疤痕进行确定,也就是说可以通过发生拷贝数异常的检测,来确定出基因组疤痕,进而确定肿瘤细胞是否发生HRD。
由于HRD的肿瘤样本会发生大规模的拷贝数变异(copy number variation,CNV),从而出现基因组疤痕;因此可通过高通量测序(NGS),基于基因组杂合性缺失(Loss ofHeterozygosity,LOH)、端粒等位基因不平衡(Telomeric Allelic Imbalance,TAI)以及大片段迁移(Large-scalestate Transition,LST)这三个特征值检测基因组疤痕,确定肿瘤HRD的状态。
上述三个特征值可以根据在CNV区域中,等位基因频率的变化分布,即可以通过SNP位点的B等位基因频率(B Allele Frequency,BAF)的变化进行确定。这是由于在正常二倍体基因组里,SNP位点中杂合位点的基因型为AB型,对应的BAF则为0.5(可以认为是等位基因B在杂合基因型AB中出现的概率)。而当在杂合位点对应的区域中发生CNV时,比如其中一条染色体发生扩增使其变为3个拷贝,则存在AAB和ABB两种基因型,对应的BAF将变成1/3或2/3。因此在等位基因SNP为杂合基因型的情况下,偏离0.5附近的BAF意味着对应杂合位点的区域可能发生CNV,从而可以基于杂合位点准确地鉴定出由于HRD导致基因组异常的片段。
为了准确确定出HRD表型引起的CNV,即确定杂合位点的BAF变化分布对应的区域,需要对BAF数据进行预处理,其中的关键步骤之一是识别SNP位点中的纯合位点并移除出,以便后续仅针对杂合位点进行分析;因为只有杂合位点能提供CNV相关的基因型变化信息。
但是,在SNP位点中识别纯合位点时,在实际数据分析中常遇到高污染及高噪音的样本环境,或者高肿瘤含量LOH样本;从而采用固定的等位基因频率阈值,判定纯合位点并将其移除的方法不能够做到准确的识别出纯合位点。例如,针对于高污染及高噪音的样本环境,在部分待识别样本受到其他样本的污染时,或待识别样本本身具有较高的噪音水平时,使得纯合位点的BAF形成的位点条带会发生显著偏移,采用固定的等位基因频率阈值识别纯合位点时,固定的等位基因频率阈值和发生偏移后的纯合位点的等位基因频率阈值不相符,则不能够准确识别并去除纯合位点;从而导致后续识别片段出错;针对于高肿瘤含量LOH样本,由于部分LOH的样本片段中由于杂合性缺失也就是杂合位点缺失,从而造成该类型的样本片段中各个位点所形成的位点条带近乎纯合位点条带,因此各个位点对应的BAF接近纯合位点的BAF,使用固定的等位基因频率阈值删除此时的纯合BAF对应的位点条带,则容易丢失LOH片段,导致HRD获取不准确,HRD位置识别不准确。
为解决上述存在的问题,本发明实施例提供了一种纯合位点识别方法,以基于多个位点确定出符合多个位点所在区域的纯合等位基因频率阈值,从而可以具有针对性的准确识别出纯合位点,以提高纯合位点识别的准确度。
请参考图1,图1是本发明实施例所提供的纯合位点识别方法的一流程示意图。
如图所示,该流程可以包括以下步骤:
步骤S001,获取多个位点。
所述多个位点即为SNP位点,包括有杂合位点、纯合位点、以及被污染的纯合位点、发生杂合性缺失的位点;每一个位点都对应一个基因型,例如杂合位点的基因型为AB、纯合位点的基因型为AA或BB、发生CNV的杂合位点的基因型为AAB/ABB、发生杂合性缺失的位点。
需要说明的是,在SNP位点区域中,每一个位点都对应有一个位点索引(index)和一个等位基因频率(BAF)。
对应上述所例举的位点类型,杂合位点的BAF为0.5,纯合位点的BAF为0或1,发生CNV的杂合位点AAB/ABB为1/3或2/3,发生杂合性缺失的位点的BAF与完全纯合的BAF相同,为0或1。
当然,上述所例举的位点对应的基因型以及BAF值均为示例说明,并未进行具体限定,具体位点对应的基因型和BAF值根据实际情况进行确定。
步骤S002,基于多个位点的等位基因频率,对所述多个位点进行聚类,得到多个聚类条带,所述多个聚类条带包括混合位点条带和杂合位点条带。
其中,所述混合位点条带中的位点包括发生杂合性缺失的位点和潜在纯合位点(完全纯合的纯合位点和被污染的纯合位点),所述杂合位点条带中的位点为杂合位点。
对所述多个位点进行聚类,即为将基因型相同或相似的位点进行聚集,也就是将等位基因频率相近的位点进行聚类,以方便后续对于纯合位点的识别。
继续以上述例举的多个位点对应的基因型为例进行说明;当经过聚类处理后,由于是将基因型相同或类似的位点进行聚集,因此可以得到完全由杂合位点所形成的杂合位点条带,以及由纯合位点、被污染的纯合位点、发生杂合性缺失的位点所形成的混合位点条带;也就是说,在对多个位点进行聚类处理后会得到两种类型的位点条带,一种是确定为完全由杂合位点形成的杂合位点条带,一种是由纯合位点、被污染的纯合位点以及发生杂合性缺失的位点形成的潜在纯合位点条带,即所述混合位点条带。
由于需要识别并去除的是纯合位点,因此在聚类处理后,主要针对所述混合位点条带中的纯合位点进行识别。
当然,需要说明的是,所述杂合位点条带和所述混合位条带均为位点所对应的等位基因频率所形成的条带。
将多个位点进行聚类处理之后,可以在不影响纯合位点识别的基础上,降低后续需要识别的位点数量,从而方便后续纯合位点的识别。
为了能够快速准确的对所述多个位点进行聚类,在一种实施方式中,步骤S002,可以通过随机选定一个位点,基于选定位点进行多个位点的聚类。
请参考图2,图2是本发明实施例所提供的位点聚类的一流程示意图。
如图所示,该流程可以包括以下步骤:
步骤S0021,在所述多个位点中确定选定位点;
步骤S0022,以所述选定位点对应的位点索引为基础,在预定索引阈值的区域范围内,确定所述选定位点的邻近位点;
步骤S0023,基于所述选定位点的等位基因频率和所述选定位点的各个邻近位点的等位基因频率,对所述选定位点和所述选定位点的各个邻近位点进行聚类处理,得到所述多个聚类条带,并从所述多个聚类条带中确定所述混合位点条带和所述杂合位点条带。
所述多个位点中确定出选定位点,然后以所述选定位点对应的位点索引为基础,即以所述选定为点的位点索引为中心,在预定索引阈值的区域范围内,找到邻近位点。
例如,以选定位点为index1,预定索引阈值为40为例。则以index1为中心,向后选定40个长度的索引范围,即在[index1,index40]这个区域范围内,包括的各个位点索引对应的位点,即为邻近位点。
然后,对选定位点和各个邻近位点进行聚类处理,当对当前选定的选定位点聚类完成后,则得到一个聚类结果;然后再次选定一个未被聚类处理的位点作为新的选定位点,继续根据预定索引阈值确定新选定的选定位点的邻近位点并进行聚类处理。
在对所述多个位点聚类处理完成后,根据各个聚类结果可以得到基因型相同或相近的多个聚类条带;从而可以基于聚类结果进行后续的纯合位点识别,方便纯合位点识别的处理。
在一种实施方式中,可以通过选定位点和邻近位点的等位基因频率进行聚类。可选地,步骤S0023可以包括:
确定各个所述邻近位点的等位基因频率与所述选定位点的等位基因频率的频率差值;确定频率差值小于预定频率差阈值的邻近位点,得到与所述选定位点的基因型相同的同基因型邻近位点;当所述同基因型邻近位点的数量大于同基因型位点阈值时,将所述选定位点确定为核心点,将所述核心点以及所述核心点的未被聚类的邻近位点相聚集,得到所述多个聚类条带。
以上述选定位点为index1,预定索引阈值为40,区域范围为[0,40]为例。
选定位点为index1,为方便描述,以邻近位点为index2,index3,index4,index5,index6,预定频率差阈值为0.04,位点个数阈值为3,为例进行说明。
首先,需要确定选定位点index1是否为核心点。
由于每一个位点都对应有一个位点索引和等位基因频率,因此在确定选定位点index1是否为核心点时,可以基于选定位点index1的等位基因频率与邻近位点index2,index3,index4,index5,index6对应的等位基因频率的距离,来确定index1是否为核心点。
其中,等位基因频率的距离可以选择根据等位基因频率的差值进行确定。
例如,index1的等位基因频率为0.5,index2的等位基因频率为0.51,index3的等位基因频率为0.52,index4的等位基因频率为0.48,index5的等位基因频率为0.8,index6的等位基因频率为0.47;则对应的等位基因频率的频率差值的绝对值即为:index1-index2=0.01,index1-index3=0.02,index1-index4=0.02,index1-index2=0.01,index1-index5=0.3,index1-index6=0.03。
因此,小于所述预定频率差阈值0.04的邻近位点,即同基因型邻近位点为index2、index3、index4,index6,满足大于位点个数阈值3,因此可以确定选定位点index1为核心点。
然后,以选定位点index1为核心点,将所述选定位点以及所述核心点的未被聚类的邻近位点相聚集,得到所述多个聚类条带。
在一种实施方式中,所述聚类方法可以采用DBSCAN(Density-Based SpatialClustering of Applications with Noise,具有噪声的基于密度的聚类方法)聚类方法。当然,也可以采用其他类型的聚类方法,例如K-means(K均值)聚类方法。
通过聚类处理的方式,将同基因型的位点聚集为一个聚类条带,从而可以判断出聚类条带中为杂合位点形成的杂合位点条带,和不容易区分纯合位点以及杂合位点的潜在纯合位点条带,即所述混合位点条带。
进一步的,基于聚类结果,直接选择对所述混合位点条带中的纯合位点进行识别,就可以实现识别出多个位点中的纯合位点,便于后续处理。
回到图1所示,步骤S003,将所述混合位点条带划分为可信纯合条带和杂合纯合条带。
其中,所述可信纯合条带中的位点为纯合位点,所述杂合纯合条带为所述混合位点条带中除所述可信纯合条带以外的条带。
基于前述内容,可以知道,所述混合位点条带中,包括纯合位点(纯合位点、被污染的纯合位点)和发生杂合性缺失的位点;因此,为了在去除纯合位点时,不会将混合位点条带中的杂合位点去除,造成HRD状态确定不准确的情况;本发明实施例通过对混合位点条带做进一步的处理,即将混合位点条带中完全为纯合位点所在的区域进行划分,得到可信纯合条带;从而后续可以基于完全纯合的可信纯合条带,得到能够针对性的准确识别纯合位点的纯合等位基因频率阈值。
在一种实施方式中,步骤S003可以通过结合纯合位点所形成的位点条带的特性,从所述混合位点条带中确定出所述可信纯合条带和所述杂合纯合条带。
可选的,请参考图3,图3是本发明实施例所提供划分可信纯合条带的一流程示意图。
如图所示,该流程可以包括以下步骤:
步骤S100,针对任一条混合位点条带,将混合位点条带按照频率极值,划分为第一混合位点条带和第二混合位点条带;
可选地,可以将等位基因频率所形成的位点条带的极值覆盖在频率极值1的条带确定为第一混合位点条带,将等位基因频率所形成的位点条带的极值覆盖在频率极值0的条带确定为第二混合位点条带;当然,也可以是将等位基因频率所形成的位点条带的极值覆盖在频率极值0的条带确定为第一混合位点条带,将等位基因频率所形成的位点条带的极值覆盖在频率极值1的条带确定为第二混合位点条带。只要将混合位点条带按照频率极值分为极值覆盖0和1的两条条带即可。
需要说明的是,上述步骤S100为聚类结果中包含有杂合位点条带和混合位点条带的情况。在一些实施方式中,聚类结果所得到的所述多个聚类条带可以包括完全由纯合位点形成的纯合条带,这是由于在所述多个位点所在的区域中,会出现全长染色体杂合性缺失的情况,这种情况会造成对多个位点进行聚类之后,仅聚类得到两条纯合条带,即等位基因频率为1和等位基因频率为0的位点所形成的纯合位点条带。此时,则不需要进行纯合位点的识别。
因此,在一些实施方式中,在执行步骤S100之前,还可以对混合位点的条带数量进行判断,如果染色体中混合位点条带的数量不超过条数阈值,将混合位点条带确定为杂合纯合条带。所述条数阈值可以设定为2条。
在将混合位点条带划分为第一混合条带和第二混合条带之后,至少根据第一混合位点条带和第二混合位点条带的频率标准差,识别第一混合位点条带和第二混合位点条带中的杂合纯合条带。
步骤S101,确定第一混合位点条带和第二混合位点条带中纯合位点数量是否大于数量阈值。如果是,则执行步骤S102,如果否,则执行步骤S106。
由于多个位点所在的区域不同,则划分后所形成的第一混合条带和第二混合条带中的纯合位点数量是不同的,而当纯合位点数量很少时,纯合位点的去除对于后续基于杂合位点的分析是影响不大的。因此,在一种实施方式中,在将所述混合位点条带划分为第一混合位点条带和第二混合位点条带之后,还可以对第一混合位点条带和第二混合位点条带中包含的可能是纯合位点的位点个数进行判断,确定是否超过数量阈值,以确定是否需要进一步的纯合位点识别。
所述数量阈值即为用于确定是否需要在所述混合位点条带中继续识别纯合位点。当确定第一混合位点条带和第二混合位点条带中纯合位点数量大于数量阈值时,则说明需要针对第一混合位点条带和第二混合位点条带中纯合位点数量大于数量阈值的条带,根据第一混合位点条带和第二混合位点条带的频率标准差,进一步识别。
在一种实施方式中,所述数量阈值可以设定为10个,当然,在其他实施方式中,还可以设定为20个,5个,8个等,根据实际的需求进行确定,在此不作限定。
步骤S102,判断待确定条带的标准差是否小于标准差阈值。如果是,则执行步骤S103,如果否,则执行步骤S106。
为方便描述,将针对第一混合位点条带和第二混合位点条带中纯合位点数量大于数量阈值的条带定义为待确定条带。
所述标准差阈值为纯合位点形成的纯合位点条带对应的纯合位点标准差;用于判断待确定条带中获得的标准差是否超过预设标准差阈值,如果没有超过纯合位点标准差,则表示待确定条带为纯合位点形成的纯合位点条带,如果超过则表示待确定条带为杂合纯合条带。
在确定需要对第一混合位点条带和第二混合位点条带中的纯合位点进行识别并去除之后,即第一混合位点条带和第二混合位点条带中包含的纯合位点的个数大于数量阈值,例如10个。进一步的,利用标准差阈值对所述待确定条带做判断,以确定基于第一混合位点条带和第二混合位点条带得到的待确定条带是符合正常的纯合位点条带的标准差即所述标准差阈值。
在一种实施方式中,所述标准差阈值可以设定为0.05。
步骤S103,判断第一混合位点条带和第二混合位点条带的标准差是否超过倍数阈值。如果是,则执行步骤S104,如果否,则执行步骤S106。
所述倍数差阈值用于判断在确定为待确定条带后,所述第一混合条带和第二混合条带中是否存在其中一条为可信纯合条带,另一条带中存在有被污染的纯合位点(仍可以认为是纯合位点)和发生杂合性缺失的位点之间相互混合的情况。从而会将发生杂合性缺失的位点误判为纯合位点,造成纯合位点识别混乱不准确。
因此对满足未超过标准差阈值的待确定条带,即初步认为第一混合条带和第二混合条带为可信纯合条带(可能为可信纯合条带)之后,再次基于倍数阈值进行按判断,当确定满足倍数阈值时,则可以进一步确保待确定条带为可信纯合条带的可信度。为后续进行纯合位点的识别提供可靠的识别基础。
在一种实施方式中,所述倍数阈值可以设定为3,当然,还可以设定为其他比值,如2、4等,能够进一步判断基于第一混合条带和第二混合条带得到的待确定条带是否为可信纯合条带即可。
通过倍数阈值的设定,可以进一步保证确定的可信纯合条带为纯合位点形成的条带,提高后续计算纯合等位基因频率阈值提供的准确性和可靠性。
步骤S104,对于第一混合位点条带和第二混合位点条带中未识别为杂合纯合条带的条带,确定位点索引是否连续。如果否,则执行步骤S105,如果是,则执行步骤S106。
第一混合位点条带和第二混合位点条带中未识别为杂合纯合条带的条带是指,当所述述待确定条带的标准差不大于标准差阈值,并且第一混合位点条带和第二混合位点条带的标准差未超过倍数阈值时对应的条带。
步骤S105,将位点索引不连续的区域对应的条带确定为可信纯合条带。
由于前述步骤,已经初步确定第一混合位点条带和第二混合位点条带为可信纯合条带,因此,结合纯合位点的另一特性:完全由纯合位点形成的位点条带中,位点索引必定是不连续的。因此,通过将位点索引不连续的区域划分为可信纯合条带,则可以确保可信纯合条带中,包括的位点完全是纯合位点,确保后续识别纯合位点的准确度。
步骤S106,将位点索引连续的区域对应的条带确定为杂合纯合条带。
基于前述内容,可以知道,所述混合位点条带中,包括有纯合位点(纯合位点和被污染的纯合位点)和杂合位点(发生杂合性缺失的位点),而纯合位点对应的等位基因频率包括有两种:0和1;因此,在识别混合位点条带中的可信纯合条带时,为方便处理,可以根据频率极值即纯合位点对应的两种等位基因频率,将所述混合位点条带中的位点进行区分。
可以看出,根据上述内容,本发明实施例所提供的纯合位点识别方法中,在确定可信纯合条带时,所述可信纯合条带需要满足:首先,可信纯合条带中各个位点对应的等位基因频率的标准差是不超过标准差阈值的,即可信纯合条带初步确定为纯合位点形成的条带;进一步的,为了防止初步确定的纯合位点中存在发生杂合性缺失的位点被误判为纯合位点的情况,通过倍数阈值进行筛选,如果第一混合位点条带和第二混合位点条带的标准差的比值不超过倍数阈值,则表明初步确定的第一混合条带和第二混合条带中不存在有发生杂合性缺失的位点;最后,经过前两步的筛选,对所得到的具有一定可信度的条带再次基于纯合位点形成的位点条带的特征,即纯合位点条带中的位点索引必定不连续,找到具有一定可信度的可条带中位点索引不连续的区域,则确定为完全由纯合位点形成的位点条带,得到可信纯合条带。从而在后续基于可信纯合条带进行处理时,可以保证纯合位点的高度纯合可信度。
回到图1所示,步骤S004,基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定所述多个位点对应的纯合等位基因频率阈值。
由于前述已经确定可信纯合条带中的位点均为纯合位点,因此以可信纯合条带中的纯合位点对应的等位基因频率,所确定的纯合等位基因频率阈值即为最符合所述多个位点所处环境下的纯合位点的等位基因频率,因此可以准确识别出纯合位点。
在一种实施方式中,步骤S004可以通过可信纯合条带中的可信纯合位点对应的等位基因频率确定识别纯合位点的纯合等位基因频率阈值。
请参考图4,图4是本发明实施例所提供的识别纯合位点的一流程示意图。
如图所示,该流程可以包括以下步骤:
步骤S200,提取可信纯合条带中的纯合位点所对应的等位基因频率;
所述可信条带即为上述经过筛选得到的,完全由纯合位点形成的位点条带。
每一个纯合位点对应有一个等位基因频率,则可以提取得到各个纯合位点对应的等位基因频率。
步骤S201,确定所述纯合位点的数量是否超过纯合位点阈值。如果是,则执行步骤S202,如果否,则执行步骤S205。
所述纯合位点阈值用于判断是否能够基于所述可信纯合条带中的纯合位点进行后续的纯合等位基因频率阈值的计算;由于在进行后续的纯合等位基因频率阈值的计算时,需要确保有足够的计算数据量,从而才可以确保得到的纯合等位基因频率阈值是准确可靠的。
在一种实施方式中,所述纯合位点阈值可以设置为50,当然,在其他实施方式中,可以根据实际情况,设置为30、20等。
步骤S202,将各个所述等位基因频率进行调整,得到等位基因频率调整值;
根据前述内容,可以知道纯合位点对应的等位基因频率为1和0,因此为了方便后续纯合等位基因频率阈值的计算,可以先对纯合位点对应的等位基因频率进行调整,将纯合位点的等位基因频率的数值调整容易计算和容易展示的范围内。
在一种实施方式中,步骤S202可以包括:
当所述等位基因频率大于所述杂合基因频率阈值时,所述等位基因频率调整值为预设值与所述等位基因频率的差值。
所述预设值可以设置为1,当所述纯合位点的等位基因频率为在1附近的,如0.9,可以通过计算1-0.9=0.1,将0.9的等位基因频率镜像翻转到0的附近;上述镜像反转的调整可以认为是计算较小等位基因的频率,从而可以降低后续计算纯合等位基因频率阈值的难度。
步骤S203,基于所述等位基因频率调整值确定等位基因频率均值和等位基因频率标准差;
等位基因频率均值能够表示纯合位点的整体特性,因此采用纯合位点的等位基因频率均值进行后续的计算。而等位基因频率标准差可以从整体上描述出纯合位点的等位基因频率的分布状态,即可以表示纯合位点的等位基因频率的波动,能够很好的体现纯合位点的等位基因频率是否稳定可靠。
因此,本发明实施例同时采用等位基因频率调整值得到等位基因频率均值和等位基因频率标准差,来计算得到纯合等位基因频率阈值,保证得到的纯合等位基因频率阈值是高度可信的,以确保识别纯合位点的准确度。
步骤S204,根据所述等位基因频率均值和所述等位基因频率标准差得到所述多个位点对应的纯合等位基因频率阈值。
在一种实施方式中,可以通过等位基因频率均值+3*等位基因频率标准差的计算方式得到所述纯合等位基因频率阈值,其中系数3可以认为是计算纯合等位基因频率的调节系数。当然,在其他实施例中,还可以采用其他数值大小的调节系数来确定纯合等位基因频率阈值。能够确保最终得到的纯合等位基因频率阈值的准确度即可。
步骤S205,停止计算所述多个位点对应的纯合等位基因频率阈值。
当确定所述可信纯合条带中的纯合位点的数量小于纯合位点阈值时,则说明当前确定的可信纯合条带中的纯合位点的数量不能够支持纯合等位基因频率阈值的计算。因此,可信纯合条带中的纯合位点在小于纯合位点阈值的情况下,不进行纯合等位基因频率阈值的计算,也就不执行后续的纯合位点的识别和去除。
回到图1所示,步骤S005,基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点。
需要说明的是,所述多个位点对应的样本包括高噪音样本和高肿瘤含量基因组杂合性缺失样本;且所述多个位点对应一个待识别染色体区域。
其中,所述多个位点对应一个待识别染色体区域,例如,在进行HRD的确定时,是对每一条染色体上的位点进行识别,以获得用于确定HRD状态的杂合位点。由于所述多个位点对应一条染色体,因此,不同的染色体所对应的有不同的多个位点,也就对应有多个不同的纯合等位基因频率阈值;从而可以基于纯合等位基因频率阈值,针对不同的多个位点对应的待识别染色体区域,可以准确识别出纯合位点。
可以看出,本发明实施例所提供的纯合位点识别方法,为了能够在多个位点中准确识别出纯合位点;首先通过对多个位点进行聚类,得到由同一类的位点形成的多个聚类条带;进而在多个聚类条带中确定出完全由杂合位点组成的杂合位点条带,和包括有杂合位点和纯合位点的混合位点条带;由于需要识别的是纯合位点,杂合位点条带中均为杂合位点;因此,可以仅针对所述混合位点条带做进一步的纯合位点识别;对所述混合位点条带进行区域划分,得到可信纯合条带和杂合纯合条带,由于所述可信纯合条带中的位点为纯合位点;因此所述可信纯合条带是完全纯合的位点条带;从而可以基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定出纯合等位基因频率阈值,所述纯合等位基因频率阈值即为在所述多个位点所处的区域中,纯合位点所对应的等位基因频率;因此可以基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点;基于对应确定的所述纯合等位基因频率阈值,在所述多个位点中识别出纯合位点,以实现提高纯合位点的识别准确度的目的。
基于前述内容,可以知道,针对于HRD状态的确定,在识别出纯合位点之后,还需要进行后续的纯合位点去除。
可选地,请参考图5,图5是基于本发明实施例所提供的纯合位点识别方法,进行纯合位点去除的一流程示意图。
如图所示,该流程可以包括以下步骤:
步骤S301,获取多个位点。
步骤S302,基于多个位点的等位基因频率,对所述多个位点进行聚类,得到多个聚类条带,所述多个聚类条带包括混合位点条带和杂合位点条带。
所述混合位点条带中的位点包括杂合位点和纯合位点,所述杂合位点条带中的位点为杂合位点。
步骤S303,将所述混合位点条带划分为可信纯合条带和杂合纯合条带。
步骤S304,基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定所述多个位点对应的纯合等位基因频率阈值。
步骤S305,基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点。
步骤S301-步骤S305可以认为是步骤S001-步骤S005的一种可选实施方式。
步骤S306,基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点。
步骤S307,确定识别出的所述纯合位点的占比是否未超过预定占比阈值。如果是,执行步骤S308,如果否,则执行步骤S309。
所述预定占比阈值用于表示在所述多个位点对应样本是否在杂合纯合条带区域中,包含有高肿瘤含量样本的LOH条带,即确定是否包含有等位基因频率在0或1附近的位点的高肿瘤含量样本的LOH条带。
步骤S308,去除所述杂合纯合条带中的所述纯合位点。
当识别出的所述纯合位点的占比未超过预定识别阈值时,则说明杂合纯合条带中,识别出的纯合位点为真正的纯合位点(即被污染的纯合位点),是需要去除的,则直接将识别出的纯合位点进行去除即可。
在一种实施方式中,所述预定占比阈值可以为90%。
步骤S309,不去除所述杂合纯合条带中的所述纯合位点。
当识别出的所述纯合位点的占比超过预定识别阈值时,则说明杂合纯合条带中,识别出的纯合位点为高肿瘤含量样本的LOH条带的杂合位点,是被误认为纯合位点的位点(即发生杂合性缺失的位点),对后续进行HRD状态确定时需要使用的,即不需要去除的,则保留纯合位点不进行去除。
为体现基于本发明实施例所提供的纯合位点识别方法,去除样本中的纯合位点的效果,请参考图6a-图6c,和图7a-图c,图6a是在高噪音样本中,各个位点对应的原始等位基因频率的一示意图,图6b是现有方法去除高噪音样本中,纯合位点的一结果示意图,图6c是基于本发明实施例所提供的纯合位点识别方法,去除高噪音样本中纯合位点的结果示意图,图7a是对于具有LOH条带的高肿瘤含量样本,各个位点对应的原始等位基因频率的一示意图,图7b是现有方法去除高肿瘤含量样本的LOH条带中,纯合位点的一结果示意图,图7c是基于本发明实施例所提供的纯合位点识别方法,去除高肿瘤含量样本的LOH条带中纯合位点的结果示意图。
如图所示,其中横坐标表示SNP位点的位点索引,纵坐标表示位点对应的等位基因频率。
其中每一个区域表示为一个待识别染色体区域,为方便在展示,图中仅示出了部分待识别染色体区域的纯合位点识别结果。
可以看出,基于本发明实施例所提供的纯合位点识别方法,在去除纯合位点之后,所得到的纯合位点去除效果更好。
本发明实施例还提供了一种纯合位点识别装置,可以认为是实现上述实施例所提供的纯合位点识别方法的一可选框架。
请参考图8,图8是本发明实施例所提供的纯合位点识别装置的一可选示框架示意图。
如图所示,该装置可以包括:
位点获取模块400,适于获取多个位点;
位点聚类模块401,适于基于多个位点的等位基因频率,对所述多个位点进行聚类,得到多个聚类条带,所述多个聚类条带包括混合位点条带和杂合位点条带;所述混合位点条带中的位点包括杂合位点和纯合位点,所述杂合位点条带中的位点为杂合位点;
可信纯合条带确定模块402,适于将所述混合位点条带划分为可信纯合条带和杂合纯合条带,所述可信纯合条带中的位点为纯合位点,所述杂合纯合条带为在所述混合位点条带中除了所述可信纯合条带以外的条带;
纯合等位基因频率阈值确定模块403,适于基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定所述多个位点对应的纯合等位基因频率阈值;
纯合位点识别模块404,适于基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点。
可选地,所述可信纯合条带确定模块402,适于将所述混合位点条带划分为可信纯合条带和杂合纯合条带,包括:
针对任一条混合位点条带,将混合位点条带按照频率极值,划分为第一混合位点条带和第二混合位点条带;
至少根据第一混合位点条带和第二混合位点条带的频率标准差,识别第一混合位点条带和第二混合位点条带中的杂合纯合条带;
将第一混合位点条带和第二混合位点条带中未识别为杂合纯合条带的条带,划分为位点索引连续的区域,以及位点索引不连续的区域;
以及,将位点索引连续的区域对应的条带确定为杂合纯合条带,将位点索引不连续的区域对应的条带确定为可信纯合条带。
可选地,所述可信纯合条带确定模块402,适于至少根据第一混合位点条带和第二混合位点条带的频率标准差,识别第一混合位点条带和第二混合位点条带中的杂合纯合条带,包括:
将第一混合位点条带和第二混合位点条带中纯合位点数量不大于数量阈值的条带,确定为杂合纯合条带;
以及,针对第一混合位点条带和第二混合位点条带中纯合位点数量大于数量阈值的待确定条带,根据第一混合位点条带和第二混合位点条带的标准差,判定待确定条带是否为杂合纯合条带。
可选地,所述可信纯合条带确定模块402,适于根据第一混合位点条带和第二混合位点条带的标准差,判定待确定条带是否为杂合纯合条带,包括:
判断待确定条带的标准差是否大于标准差阈值;
如果待确定条带的标准差大于标准差阈值,则确定待确定条带为杂合纯合条带;
如果待确定条带的标准差不大于标准差阈值,判断第一混合位点条带和第二混合位点条带的标准差是否超过倍数阈值;
如果第一混合位点条带和第二混合位点条带的标准差超过倍数阈值,则确定待确定条带为杂合纯合条带。
可选地,所述可信纯合条带确定模块402,适于待确定条带的标准差不大于标准差阈值,并且第一混合位点条带和第二混合位点条带的标准差未超过倍数阈值时,待确定条带为第一混合位点条带和第二混合位点条带中未识别为杂合纯合条带的条带。
可选地,所述纯合位点识别装置,还可以包括:
条带数量确定模块,适于如果混合位点条带的数量不超过条数阈值,将混合位点条带确定为杂合纯合条带。
可选地,所述纯合等位基因频率阈值确定模块403,适于基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定所述多个位点对应的纯合等位基因频率阈值,包括:
提取所述可信纯合条带中的纯合位点所对应的等位基因频率;
确定所述纯合位点的数量大于纯合位点阈值时,将各个所述等位基因频率进行调整,得到等位基因频率调整值;
基于所述等位基因频率调整值确定等位基因频率均值和等位基因频率标准差;
根据所述等位基因频率均值和所述等位基因频率标准差得到所述多个位点对应的纯合等位基因频率阈值。
可选地,所述纯合等位基因频率阈值确定模块403,适于确定所述纯合位点的数量大于纯合位点阈值时,将各个所述等位基因频率进行调整,得到等位基因频率调整值,包括:
当所述等位基因频率大于所述杂合基因频率阈值时,所述等位基因频率调整值为预设值与所述等位基因频率的差值。
可选地,所述纯合位点识别装置,还可以包括:
纯合位点去除模块405,适于针对任一条杂合纯合条带,如果识别出的纯合位点的占比未超过预定占比阈值,去除该杂合纯合条带中的纯合位点。
可选地,所述多个位点对应的样本包括高噪音样本和高肿瘤含量基因组杂合性缺失样本;且所述多个位点对应一个待识别染色体区域。
可以看出,本发明实施例所提供的纯合位点识别装置,为了能够在多个位点中准确识别出纯合位点;首先通过对多个位点进行聚类,得到由同一类的位点形成的多个聚类条带;进而在多个聚类条带中确定出完全由杂合位点组成的杂合位点条带,和包括有杂合位点和纯合位点的混合位点条带;由于需要识别的是纯合位点,杂合位点条带中均为杂合位点;因此,可以仅针对所述混合位点条带做进一步的纯合位点识别;对所述混合位点条带进行区域划分,得到可信纯合条带和杂合纯合条带,由于所述可信纯合条带中的位点为纯合位点;因此所述可信纯合条带是完全纯合的位点条带;从而可以基于所述可信纯合条带中各个纯合位点对应的等位基因频率,确定出纯合等位基因频率阈值,所述纯合等位基因频率阈值即为在所述多个位点所处的区域中,纯合位点所对应的等位基因频率;因此可以基于所述纯合等位基因频率阈值对所述杂合纯合条带中的位点进行识别,得到所述杂合纯合条带中的纯合位点;基于对应确定的所述纯合等位基因频率阈值,在所述多个位点中识别出纯合位点,以实现提高纯合位点的识别准确度的目的。
本发明实施例还提供了一种存储介质,所述存储介质存储有适于识别纯合位点的程序,以实现如前述任一项实施例所述的纯合位点识别方法。
本发明实施例还提供了一种电子设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述任一项实施例所述的纯合位点识别方法。
可选地,图9为本发明实施例提供的一种可选硬件设备架构,该硬件设备架构可以是电子设备的架构,例如,服务器设备或者终端设备;参照图9,该电子设备的硬件架构可以包括:至少一个存储器53和至少一个处理器51;所述存储器存储有程序,所述处理器调用所述程序,以执行前述任一项实施例所述的纯合位点识别方法,另外,至少一个通信接口52和至少一个通信总线54;处理器51和存储器53可以位于同一电子设备,例如处理器51和存储器53可以位于服务器设备或者终端设备;处理器51和存储器53也可以位于不同的电子设备。
作为本发明实施例公开内容的一种可选实现,存储器53可以存储程序,处理器51可调用所述程序,以执行本发明上述实施例提供的前述任一项实施例所述的纯合位点识别方法。
本发明实施例中,硬件设备可以是能够实现前述任一项实施例所述的纯合位点识别方法的平板电脑、笔记本电脑等设备。
在本发明实施例中,处理器51、通信接口52、存储器53、通信总线54的数量为至少一个,且处理器51、通信接口52、存储器53通过通信总线54完成相互间的通信;显然,图9所示的处理器51、通信接口52、存储器53和通信总线54的通信连接示意仅是可选的一种方式;
可选的,通信接口52可以为通信模块的接口,如GSM模块的接口;
处理器51可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器53可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
需要说明的是,上述的实现终端设备还可以包括与本发明实施例公开内容可能并不是必需的其他器件(未示出);鉴于这些其他器件对于理解本发明实施例公开内容可能并不是必需,本发明实施例对此不进行逐一介绍。
虽然本申请实施例披露如上,但本申请并非限定于此。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各种更动与修改,因此本申请的保护范围应当以权利要求所限定的范围为准。
- 一种漆面识别方法、装置、存储介质及电子设备
- 欺诈行为识别方法、装置、电子设备及可读存储介质
- 命名实体识别方法、装置、电子设备、机器可读存储介质
- 一种虚假主叫识别方法、装置、电子设备及存储介质
- 文本情感识别方法及装置、电子设备、存储介质
- 一种证件合规识别方法、装置、电子设备及存储介质
- 一种蛋白质磷酸化修饰位点-疾病关系识别方法、系统、装置及存储介质