变异检测方法、装置、存储介质及电子设备
文献发布时间:2024-07-23 01:35:12
技术领域
本发明实施例涉及生物技术领域,尤其涉及一种变异检测方法、装置、存储介质及电子设备。
背景技术
基因组变异是指基因组分子发生的变异。基因组变异可分为单核酸变异(SNV,single-nucleotide polymorphism),小片段变异(short variants)例如小片段的缺失和插入(small InDel),以及大片段的基因组结构变异。基因组结构变异和疾病的发生、发展具有密切联系,因此检测基因组结构变异具有重要意义。
检测SNV/InDel和跨基因的大片段变异的方法通常不能有效覆盖介于shortvariants(≤50bp)到单基因长度之间的突变。在此背景下,如何提供检测方案,以提升单基因内的长片段变异的检测准确性,从而提升基因组结构变异的检测准确性,成为了本领域技术人员亟需解决的技术问题。
发明内容
本发明实施例解决的技术问题是如何提供检测方案,以提升单基因内的长片段变异的检测准确性,从而提升基因组结构变异的检测准确性。
为解决上述问题,本发明实施例提供如下技术方案。
第一方面,本发明实施例提供一种变异检测方法,包括:
获取多个读段序列,所述读段序列为读段序列中包含的两条读段均比对在单基因范围内所有的高质量碱基序列;
基于嵌合标记和软剪切标记数量,从所述多个读段序列中划分嵌合读段序列和非嵌合读段序列;所述嵌合读段序列中包含有所述非嵌合读段序列中的目标读段序列,所述目标读段序列为末端序列存在软剪切标记且存在重合的序列;
基于各个嵌合读段序列确定多个候选变异;
结合支持变异的非嵌合读段序列和嵌合读段序列,分别确定各个候选变异的变异频率;
至少基于各个候选变异的变异频率,对各个候选变异进行假阳性过滤,得到所述多个读段序列的变异检测结果。
第二方面,本发明实施例提供了一种变异检测装置,包括:
读段序列获取模块,用于获取多个读段序列,所述读段序列为读段序类中包含的两条读段均比对在单基因范围内所有的高质量碱基序列;
读段序列分类模块,用于基于嵌合标记和软剪切标记数量,从所述多个读段序列中划分嵌合读段序列和非嵌合读段序列;所述嵌合读段序列中包含有所述非嵌合读段序列中的目标读段序列,所述目标读段序列为末端序列存在软剪切标记且存在重合的序列;
候选变异确定模块,用于基于各个嵌合读段序列确定多个候选变异;
变异频率确定模块,用于结合支持变异的非嵌合读段序列和嵌合读段序列,分别确定各个候选变异的变异频率;
过滤模块,用于至少基于各个候选变异的变异频率,对各个候选变异进行假阳性过滤,得到所述多个读段序列的变异检测结果。
第三方面,本发明实施例还提供了一种存储介质,所述存储介质存储有适于检测变异的程序,以实现如第一方面所述的变异检测方法。
第四方面,本发明实施例还提供了一种电子设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如第一方面所述的变异检测方法。
在本发明实施例所提供的变异检测方法,通过获取多个读段序列,所述读段序列为读段序列中包含的两条读段均比对在单基因内所有的高质量碱基序列;然后基于嵌合标记和软剪切标记数量,从所述多个读段序列中划分嵌合读段序列和非嵌合读段序列;所述嵌合读段序列中包含有所述非嵌合读段序列中的目标读段序列,所述目标读段序列为末端序列存在软剪切标记且存在重合的序列;进而基于各个嵌合读段序列确定多个候选变异;以及结合支持变异的非嵌合读段序列和嵌合读段序列,分别确定各个候选变异的变异频率;最后,至少基于所述变异频率对各个候选变异进行假阳性过滤,得到所述多个读段序列的变异检测结果。
可以看出,本发明实施例所提供的技术方案中,通过获取多个读段序列;然后将多个读段序列基于嵌合标记和软剪切标记进行分类,使得用于后续确定候选变异的嵌合读段序列中包含有非嵌合读段序列中的目标读段序列,目标读段序列为末端序列存在软剪切标记且存在重合的序列,以丰富嵌合读段序列中包含的读段序列数量,从而在基于嵌合读段序列进行候选变异的确定时,可以避免遗漏潜在的候选变异,进一步的,经过变异频率过滤之后,可以确保所得到的所述多个读段序列的变异检测结果的准确性,因此可以提升单基因内的长片段变异的检测特异性和敏感性,从而提升基因组结构变异的检测准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例所提供的变异检测方法的一流程示意图;
图2是本发明实施例所提供的变异检测方法中,对多个读段序列进行分类的一流程示意图;
图3是本发明实施例所提供的变异检测方法中,对非嵌合读段序列分类的流程示意图;
图4是本发明实施例所提供的变异检测方法的另一流程示意图;
图5是本发明实施例所提供的变异检测装置的一框架示意图;
图6是本发明实施例所提供的变异检测方法和pindel变异检测方法的效果对比结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基因组变异可分为单核苷酸变异(SNV),小片段变异,例如小片段的碱基序列的缺失和插入(small Indel,通常为50个碱基对(base pair,bp)的长度以下)和基因组结构变异;基因组结构变异即大片段的基因变异,通常为50bp以上的同一染色体上长片段碱基序列的缺失、重复、倒置以及不同染色体上长片段碱基序列之间的异位。基因组结构变异和疾病的发生发展有密切联系。
目前检测基因组结构变异的方法主要包括:
双端比对(Pair-End Mapping,PE reads):通过对异常比对的pair-end reads聚类后,根据由pair-end关联的簇(clusters)检测基因组结构变异;
分裂读段(Split Reads,SR):通过将单端无法比对的reads切成小段后,在由比对上的单端read所锚定的范围内重新比对来检测基因组结构变异;
基于新的基因组装配(de novo assembly):将测序reads先组装成更长的序列再比对到基因组上;
读段深度(Read Depth,RD):通过Read Depth的差异判断长片段的碱基序列的缺失和重复。
但是,上述方法在针对单基因内的结构变异检测中,均存在检测噪音高,造成基因组结构变异检测准确度低的问题。
因此,为了解决上述问题,本发明实施例提供了一种变异检测方法,通过增加鉴定候选变异时所采用的序列信息量,以提升单基因内的长片段变异的检测准确性,从而提升基因组结构变异的检测准确性。
请参考图1,图1是本发明实施例所提供的变异检测方法的一流程示意图。
步骤S100,获取多个读段序列,所述读段序列为读段序列中包含的两条读段均比对在单基因内所有的高质量碱基序列。
所述读段序列为读段序列中包含的两条读段,是指所述读段序列中在进行双端测序时的两条读段(R1读段和R2读段)。
所述读段序列为读段序列中包含的两条读段均比对在单基因内所有的高质量碱基序列是指,与参考基因组上单个基因对应的碱基序列的范围相符合的读段序列。从而可以确保检测得到基因组结构变异是针对于单基因内的。
在一种实施方式中,所述读段序列的获取方式可以为:
基于选定基因对应的染色体位置和碱基序列长度,在不同染色体位置上获取多个碱基序列,将获取的多个碱基序列确定多个读段序列。
由于每个基因的碱基序列都是不同的,碱基序列的长度也是不同的;因此,可以根据选定的单个基因(选定基因)所对应的碱基序列,提取多个读段序列;选定基因的碱基序列是已知的,因此想要检测选定基因在一个染色体或其它染色体上是否发生了基因组结构变异,可以根据选定基因的碱基序列,在不同染色体位置上进行比对,以得到与选定基因的碱基序列片段相同的多个碱基序列(也就是比对到选定基因的碱基序列的范围内,所确定的碱基序列),即所述多个读段序列;因此,本发明实施例所述的多个读段序列是与选定基因进行比对之后,提取得到的比对结果中的读段序列。
在一些实施方式中,比对结果可以包括比对的染色体、读段序列的起始位置、读段的正负链类型、整条reads序列、比对质量、简要描述比对结果CIGAR、嵌合标记SA、发生嵌合的位置等,这些信息可以存储于bam文件中;bam文件是由比对软件将质控后的fastQ文件(原始的测序文件)与参考基因组进行比对后的比对信息存储文件。
步骤S101,基于嵌合标记和软剪切标记数量,从所述多个读段序列中划分嵌合读段序列和非嵌合读段序列。
常用的比对软件如BWA能够找到嵌合读段序列并给予嵌合标记,所述嵌合读段序列即读段的一部分(例如测序的起始一端)比对在参考基因组的某一位置,另一部分(例如测序的结束一端)比对在参考基因组的另一位置。因此可以通过检测获取的多个读段序列中,是否携带有嵌合标记,来对读段序列进行初始的确定;比如将携带嵌合标记的读段序列确定为是初始嵌合读段序列,将未携带嵌合标记的读段序列确定为是初始非嵌合读段序列。进一步的,本发明实施例为了提高变异检测的准确性,提出将非嵌合读段序列中的目标读段序列也分类为嵌合读段序列,其中,目标读段序列是指末端序列发生软剪切且发生软剪切的末端序列存在碱基序列重合的读段序列,即为末端序列存在软剪切标记且存在重合的序列,从而嵌合读段序列可以包含有非嵌合读段序列中的目标读段序列。
需要说明的是,由于目标读段序列为存在软剪切标记且存在重合的序列,属于能够体现基因组结构变异的重要信息;从而将目标读段序列分类为嵌合读段序列,可以丰富嵌合读段序列这一类的读段序列中所包含的生物学信息;以增强后续基于嵌合读段序列进行分析的准确度。
基于上述所述,目标读段序列为末端序列存在软剪切标记且存在重合的序列,因此,在一种实施方式中,本发明实施例所提供的变异检测方法中,通过采用软剪切标记数量来确定非嵌合读段序列中的目标读段序列。
请参考图2,图2是本发明实施例所提供的变异检测方法中,对多个读段序列进行分类的一流程示意图。
该流程可以包括以下步骤:
步骤S200,将带有嵌合标记的读段序列,确定为初始嵌合读段序列;将未带有嵌合标记的读段序列,确定为初始非嵌合读段序列;
各个读段序列为根据比对之后所获得的比对结果提取得到的,由于比对结果中包含有嵌合标记(SA);因此,可以首先基于各个读段序列中是否携带有嵌合标记,从而快速的将各个读段序列划分为初始嵌合读段序列和初始非嵌合读段序列。需要注意的是,初始嵌合读段序列和初始非嵌合读段序列仅是基于读段序列是否携带嵌合标记,来对读段序列进行初始的划分,并不是读段序列最终的划分结果。
然后,再对未含有嵌合标记的初始非嵌合读段序列进行进一步的处理,以确定出初始非嵌合读段序列中的目标读段序列。
步骤S201,在包含有两条读段的初始非嵌合读段序列中,判断所述两条读段的末端序列是否均含有软剪切标记;如果是,则执行步骤S202,如果否,则执行步骤S204。
需要说明的是,本发明中所检测的基因组结构变异,是针对于双链DNA检测的;也就是说,参考基因组是针对于双链DNA的。因此根据读段序列与参考基因组的比对结果,在对应的读段序列中,会包含有两条读段(R1读段和R2读段)都比对到参考基因组,或者只有其中一条读段(R1读段或R2读段)比对到参考基因组。即每一个读段序列也是双链的。
其中,软剪切标记是指,在比对结果中根据读段是否比对到参考基因组,以及对应的比对位置;例如,对于比对(map)到一个位置的读段(read),两端map不上的叫做剪切(clip),map到一个位置的情况下以软剪切标记(soft clip)显示;在初始非嵌合读段序列中,对应的软剪切标记可以用S表示,例如一个非嵌合读段序列的比对结果中显示有“两条reads均为5S137M5S”,则表示非嵌合读段序列中,两条读段R1和R2在与参考基因组比对时,在首端(左侧)有5个碱基未比对成功,因此以5S做标记,在中间有137个碱基比对成功,因此以137M做标记,在末端(右侧)有5个碱基未比对成功,则以5S做标记。
由于本发明实施例所提取的读段序列均包含两条读段,因此可以通过对初始非嵌合读段序列,确定对应的两条读段的末端碱基序列中,所包含的软剪切标记数量,从而实现对非嵌合读段序列的进一步分类。为便于说明,本申请实施例将包含有两条读段的初始非嵌合读段序列,称为初始非嵌合读段序列。
步骤S202,检测所述两条读段对应的末端序列是否重叠;如果是,则执行步骤S203,如果否,则执行步骤S204。
步骤S203,将所述初始非嵌合读段序列归类为嵌合读段序列;
步骤S204,将所述初始非嵌合读段序列确定为非嵌合读段序列。
所述初始非嵌合读段序列中包含有两条读段是指,针对于一个比对结果,即任意一个初始非嵌合读段序列,所对应的比对结果中均会包含有读段的比对信息,例如两条读段(R1读段和R2读段)比对到参考基因组。
在比对时,R1读段的比对顺序和R2读段的比对顺序是相反的,例如,一个非嵌合读段序列中,有两条读段R1和R2;在比对R1读段时,按照从右端到左端的顺序比对,在比对R2读段时,则按照从左端到右端的顺序比对。从哪一端开始测序,则哪一端为R1读段和R2读段的比对起始端即首端,相对的另一端则为末端。
所述“两条读段对应的末端序列重叠”是指,根据比对结果,确定读段R1和读段R2的末端碱基序列中均存在软剪切标记(S)时,R1含软剪切一侧末端与R2含软剪切一侧末端所对应的碱基发生了重叠且软剪切长度与重叠长度均大于设定阈值;也可以认为是R1读段的末端碱基序列(包含有软剪切标记的碱基序列)的最后多个碱基和R2读段的末端碱基序列(包含有软剪切标记的碱基序列)的多个碱基相同。
通过将初始非嵌合读段序列中,末端序列存在软剪切标记(例如R1:85M15S,R2:12S88M),且存在重叠的读段序列确定为目标读段序列,使得目标读段序列所表示的生物学信息能够用于鉴定或者检测出基因组结构变异,进而将目标读段序列归类为嵌合读段序列,用于后续变异的检测,从而避免遗漏潜在的候选变异,提高变异检测的准确性。
在上述对非嵌合读段序列中的目标读段序列重新归类为嵌合读段序列之后,本发明实施例所提供的变异检测方法中,进一步的基于软剪切标记数量将剩余的非嵌合读段序列做了区分,为后续所有读段序列(嵌合读段序列和非嵌合读段序列)确定变异支持数提供可靠的数据基础。
上述步骤中,将初始非嵌合读段序列中,两条读段的末端序列存在软剪切标记且存在重叠的序列作为目标读段序列,归类为嵌合读段序列;因此,此时非嵌合读段序列中包含有两条读段,且存在有软剪切标记但是末端序列不重叠的初始非嵌合读段序列,针对已归类为非嵌合读段序列的读段序列,本申请实施例可基于读段序列所包含的软剪切标记数量,对读段序列所属于的非嵌合读段序列的具体类型进行确定。
在一种实施方式中,如果含有两条读段的初始非嵌合读段序列被归类为非嵌合读段序列,本申请实施例可对初始非嵌合读段序列所属的非嵌合读段序列的具体类型进行确定。为便于说明,本申请实施例可将初始非嵌合读段序列含有的两条读段分为第一读段和第二读段(即所述两条读段包括第一读段和第二读段);基于此,如果检测到初始非嵌合读段序列的末端序列不重叠,则可检测所述第一读段对应的第一序列和第二读段对应的第二序列中,是否均含有软剪切标记;进而根据检测结果确定所述初始非嵌合读段序列对应的非嵌合读段序列的类型。为便于说明,第一读段对应的序列称为第一序列,第二读段对应的序列称为第二序列。
所述第一读段可以为前述所述R1读段,所述第二读段可以为前述所述R2读段,当然,也可以是所述第一读段为R2读段,所述第二读段为R1读段。
在确定第一序列和第二序列的末端序列中,均包含有软剪切标记,但是末端序列并不存在重叠时,则将初始非嵌合读段序列进一步的根据两条读段中各自包含的软剪切标记数量进行分类,提高后续确定变异支持数的可靠性。
作为可选实现,针对归类为非嵌合读段序列的初始非嵌合读段序列,本发明实施例可根据初始非嵌合读段序列所包含的软剪切标记数量,将初始非嵌合读段序列所属的非嵌合读段序列分为四类,包括第一类非嵌合读段序列、第二类非嵌合读段序列、第三类非嵌合读段序列和第四类非嵌合读段序列。
请参考图3,图3是本发明实施例所提供的变异检测方法中,对非嵌合读段序列分类的流程示意图。
如图所示,该流程可以包括以下步骤:
步骤S300,获取初始非嵌合读段序列,所述初始非嵌合读段序列包含第一读段和第二读段。
步骤S300所指的初始非嵌合读段序列为末端序列不重叠的,且包含有两条读段的初始非嵌合读段序列。
步骤S301,检测所述第一读段对应的第一序列和第二读段对应的第二序列,是否均存在软剪切标记;如果是,则执行步骤S302,如果否,则执行步骤S305。
步骤S302,检测所述第一序列和第二序列中,软剪切标记的总数量是否大于第一软剪切标记阈值;如果是,则执行步骤S303,如果否,则执行步骤S304。
步骤S303,将所述初始非嵌合读段序列确定为所述第一类非嵌合读段序列。
步骤S304,将所述初始非嵌合读段序列确定为所述第二类非嵌合读段序列。
步骤S305,检测所述第一序列或所述第二序列是否存在一条序列含有软剪切标记;如果是,则执行步骤S306,如果否,则执行步骤S307。
步骤S306,将所述初始非嵌合读段序列确定为所述第三类非嵌合读段序列。
步骤S306中的初始非嵌合读段序列即为,检测到所述第一序列或第二序列含有软剪切标记时,所对应的读段序列。
步骤S301中,在确定两条读段中不是均存在软剪切标记时,即表示两条读段中的其中一条读段含有软剪切标记或者两条读段中均未含有软剪切标记,则可以进一步根据单条读段中含有的软剪切标记数量判断;将两条读段中的一条读段含有软剪切标记的初始非嵌合读段序列确定为第三类非嵌合读段序列;将两条读段均未包含软剪切标记的初始非嵌合读段序列确定为第四类非嵌合读段序列。当然,在其中一条读段含有软剪切标记的情况下,软剪切标记的数量可以为大于或等于第二软剪切标记阈值,所述第二软剪切标记阈值为1。
所述第一软剪切标记阈值为2,表示第一读段对应的第一序列和第二读段对应的第二序列中均包含有软剪切标记,且第一序列和第二序列的软剪切标记的总数量大于2;例如,第一读段对应的第一序列中包含有1个软剪切标记,第二读段对应的第二序列中包含有2个软剪切标记;或者第一读段对应的第一序列中包含有2个软剪切标记,第二读段对应的第二序列中包含有1个软剪切标记;使得第一读段对应的第一序列和第二读段对应的第二序列包含的软剪切标记的总数量大于2。
将软剪切标记的总数量大于第一软剪切标记阈值的初始非嵌合读段序列确定为第一类非嵌合读段序列,以便后续基于不同类别的非嵌合读段序列,精细化确定变异支持数。
当确定第一序列和第二序列包含的软剪切标记的总数量等于第一软剪切标记阈值时,则说明第一序列和第二序列中各自分别含有1个软剪切标记;然后进一步将软剪切标记的数量等于第一软剪切标记阈值的初始非嵌合读段序列确定为第二类非嵌合读段序列。
对于第一序列或第二序列中含有软剪切标记的初始非嵌合读段序列,则说明第一序列和第二序列中存在有一个序列含有大于或等于第二软剪切阈值(例如第二软剪切阈值为1)的软剪切标记,另一个序列不含有软剪切标记;例如,可以是第一序列含有大于或等于1个数量的软剪切标记,而第二序列中未含有软剪切标记;也可以是第二序列含有大于或等于1个数量的软剪切标记,而第一序列中未含有软剪切标记。此时,直接将存在有一条读段中含有软剪切标记的初始非嵌合读段序列,确定为第三类非嵌合读段序列。
步骤S307,将所述初始非嵌合读段序列确定为所述第四类非嵌合读段序列。
对于第一序列和第二序列均不含有软剪切标记的初始非嵌合读段序列,则说明第一序列和第二序列都完全比对到基因组。此时,直接将所述初始非嵌合读段序列确定为第四类非嵌合读段序列。
通过判断第一读段对应的第一序列和第二读段对应的第二序列是否均含有软剪切标记以及软剪切标记的总数量,将初始非嵌合读段序列进一步的划分为4类非嵌合读段序列,使得对于非嵌合读段序列的处理更精细化,从而后续基于非嵌合读段序列确定出的变异支持数也就更加可靠。综上,本发明实施例中,对于将已归类为非嵌合读段序列的初始非嵌合读段序列,基于软剪切数量划分为两条读段均包含有软剪切标记,且软剪切标记的总数量大于第一软剪切标记阈值的第一类非嵌合读段序列;两条读段均包含有软剪切标记,且软剪切标记的总数量等于第一软剪切标记阈值的第二类非嵌合读段序列;两条读段中的一条读段包含有软剪切标记,软剪切标记的数量大于或等于第二软剪切标记阈值的第三类非嵌合读段序列;以及两条读段均未包含有软剪切标记的第四类非嵌合读段序列。
请继续参考图1,步骤S102,基于各个嵌合读段序列确定多个候选变异。
基于前述内容,基因组结构变异大多会以嵌合的形式存在,因此嵌合读段序列是可以用于检测基因组结构变异的基础。
根据前述步骤,可以看到,本发明实施例所提供的变异检测方法,将非嵌合读段序列中,能够检测基因组结构变异的目标读段序列也归类为嵌合读段序列;因此,可以增强检测基因组结构变异的信息丰富度,从而可以有效提高基因组结构变异的检测准确度。
基因组结构变异的变异类型有多个,因此,在一种实施方式中,所述基于各个嵌合读段序列确定多个候选变异,可以包括:
针对各个嵌合读段序列,提取嵌合读段序列中包含的断点信息,所述断点信息包括断点位置、正负链信息、简要描述比对结果,所述正负链信息为基于所述断点位置划分的第一比对读段和第二比对读段的比对信息;针对各个嵌合读段序列,根据所述正负链信息、所述简要描述比对结果,确定嵌合读段序列对应的变异类型,以得到各个嵌合读段序列的候选变异。
上述所述断点位置为根据比对结果中,所包含的比对位置,即比对到参考基因组上的位置,并结合所述简要描述比对结果(CIGAR,Compact Idiosyncratic GappedAlignment Report)进行确定。
所述“所述正负链信息为基于所述断点位置划分的第一比对读段和第二比对读段的比对信息”是指,根据断点位置将嵌合读段划分为位于断点位置的两侧的读段序列;例如以位于断点位置一侧的为读段序列A,位于断点位置另一侧的为读段序列B;在比对时,当读段序列A与参考基因组比对上的时候,读段序列A为所述第一比对读段,读段序列B为软剪切序列;在将读段序列B与参考基因组比对上的时候,则读段序列B为所述第二比对读段,此时的读段序列A则为软剪切序列。
根据参考基因组的DNA双链的正负链信息确定比对上的读段序列的正负链信息。第一比对读段和第二比对读段可以是比对到参考基因组的正链,或者是比对到参考基因组的负链。具体的正负链信息根据实际比对结果进行确定。
不同的基因组结构变异的变异类型,所对应的正负链信息、简要描述比对结果也就不同,因此可以根据提取到的各个嵌合读段序列的断点信息,确定每一个嵌合读段序列对应的变异,得到候选变异。
候选变异的类型可以包括缺失或插入候选变异、重复候选变异、倒置候选变异。在一种实施方式中,本发明实施例首先针对于缺失或插入候选变异的确定过程进行说明。
可选地,针对于缺失或插入候选变异,对应的候选变异确定过程可以包括:
根据所述正负链信息和所述简要描述比对结果,确定符合第一条件的嵌合读段序列;
将所确定的嵌合读段序列的变异类型,确定为缺失或插入候选变异条件;
所述符合第一条件的嵌合读段序列包括:
嵌合读段序列带有嵌合标记以及包含有两条读段,并且正负链信息为正链/正链,或负链/负链;
或者,嵌合读段序列未带有嵌合标记以及包含有两条读段,并且正负链信息为正链/负链,且正链的比对位置小于负链的比对位置;
并且,带有嵌合标记和未带有嵌合标记的嵌合读段序列中,所包含的简要描述比对结果的形式为两条读段的软剪切序列在变异区域内部。
所述第一条件为符合基因组结构变异中缺失或插入变异的候选变异条件。需要说明的是,所述缺失或插入候选变异指的是在基因组的碱基序列中,某个位置(变异区域)上所发生的碱基序列的缺失或者插入。因此可以根据嵌合读段序列中,带有嵌合标记且包含有两条读段的读段序列,确定正负链信息是否为正链/正链,或负链/负链;和未带有嵌合标记(即前述步骤中被归类为嵌合读段序列的非嵌合读段序列)且包含有两条读段的读段序列,确定正负链信息是否为正链/负链且正链比对位置小于负链比对位置;以及针对于带有嵌合标记和未带有嵌合标记的嵌合读段序列中,所包含的简要描述比对结果的形式为两条读段的软剪切序列在变异区域内部;确定各个嵌合读段序列对应的候选变异为插入或缺失候选变异。
根据前述嵌合读段序列中包含的断点信息,确定所符合的基因组结构变异的变异类型,由于本发明实施例所提供的变异检测方法中,在嵌合读段序列中增加了非嵌合读段序列里的,末端序列为存在软剪切标记且存在重复的读段序列;因此,在确定每一个嵌合读段序列所符合的基因组结构变异的变异类型时,同时要考虑带有嵌合标记的嵌合读段序列和归类为嵌合读段序列的,未带有嵌合标记的非嵌合读段序列;因此,本发明实施例所提供的变异检测方法,从确定候选变异所针对的读段序列基础上进行了数据补充,增强原始的用于确定候选变异的初始嵌合读段序列的信息丰富度,以避免遗漏潜在的候选变异,为后续处理提供有力可靠的数据基础。
在另一些实施方式中,本发明实施例将针对于重复候选变异的确定过程进行说明。
可选地,针对于重复候选变异,对应的候选变异确定过程可以包括:
根据所述正负链信息和所述简要描述比对结果,确定符合第二条件的嵌合读段序列;
将所确定的嵌合读段序列的变异类型,确定为重复候选变异条件;
所述符合第二条件的嵌合读段序列包括:
嵌合读段序列带有嵌合标记以及包含有两条读段,并且正负链信息为正链/正链,或负链/负链;
或者,嵌合读段序列未带有嵌合标记以及包含有两条读段,并且正负链信息为负链/正链,且正链比对位置大于负链比对位置;
并且,带有嵌合标记和未带有嵌合标记的嵌合读段序列中,所包含的简要描述比对结果的形式为两条读段的软剪切序列在变异区域外部。
所述第二条件为符合基因组结构变异中重复变异的候选变异条件。需要说明的是,所述重复变异指的是在基因组的碱基序列中,某一个位置(变异区域)出现碱基重复足够大且高同一性(如大于1000碱基对(kbp)和>90%)的序列。
因此可以根据嵌合读段序列中,带有嵌合标记且包含有两条读段的读段序列,确定正负链信息是否为正链/正链,或负链/负链;和未带有嵌合标记(即前述步骤中被归类为嵌合读段序列的非嵌合读段序列)且包含有两条读段的读段序列,确定正负链信息是否为负链/正链;且正链比对位置大于负链比对位置;以及针对于带有嵌合标记和未带有嵌合标记的嵌合读段序列中,所包含的简要描述比对结果的形式为两条读段的软剪切序列在变异区域外部;确定各个嵌合读段序列对应的候选变异为重复候选变异。
本发明实施例所提供的变异检测方法,从确定候选变异所针对的读段序列基础上进行了数据补充,增强原始的用于确定候选变异的初始嵌合读段序列的信息丰富度,以避免遗漏潜在的候选变异,为后续处理提供有力可靠的数据基础。
在另一些实施方式中,本发明实施例针对于倒置候选变异的确定过程进行说明。
可选地,针对于倒置候选变异,对应的候选变异确定过程可以包括:
根据所述正负链信息和所述简要描述比对结果,确定符合第三条件的嵌合读段序列;
将所确定的嵌合读段序列的变异类型,确定为倒置候选变异条件;
所述符合第三条件的嵌合读段序列包括:
嵌合读段序列带有嵌合标记以及包含有两条读段,并且正负链信息为正链/负链,或负链/正链;
或者,嵌合读段序列未带有嵌合标记以及包含有两条读段,并且正负链信息为正链/正链,或负链/负链;
并且,带有嵌合标记和未带有嵌合标记的嵌合读段序列中,所包含的简要描述比对结果的形式为断点位置处对应的软剪切序列在同侧且与正负链信息匹配。
第三条件为符合基因组结构变异中倒置变异的候选变异条件。需要说明的是,所述倒置变异指的是一条染色体在两个点(断点)上发生断裂后,产生了三个片段序列,处于中间位置的片段序列发生180度的倒转,与另外处于断点位置处的两个序列片段重新结合而引起变异。
因此可以根据嵌合读段序列中,带有嵌合标记且包含有两条读段的读段序列,确定正负链信息是否为正链/负链,或负链/正链;和未带有嵌合标记(即前述步骤中被归类为嵌合读段序列的非嵌合读段序列)且包含有两条读段的读段序列,确定正负链信息是否为正链/正链,或负链/负链;以及针对于带有嵌合标记和未带有嵌合标记的嵌合读段序列中,所包含的简要描述比对结果的形式为断点位置处对应的软剪切序列在同侧且与正负链信息匹配;确定各个嵌合读段序列对应的候选变异为倒置候选变异。
本发明实施例所提供的变异检测方法,从确定候选变异所针对的读段序列基础上进行了数据补充,增强原始的用于确定候选变异的初始嵌合读段序列的信息丰富度,以避免遗漏潜在的候选变异,为后续处理提供有力可靠的数据基础。
步骤S103,结合支持变异的非嵌合读段序列和嵌合读段序列,分别确定各个候选变异的变异频率。
变异频率(Variant Allel Frequency,VAF)为变异发生的频率,可以用于表征基因是否发生了变异;需要说明的是,在前述基于嵌合读段序列确定各个候选变异的步骤中,由于直接根据嵌合读段序列确定的各个类型的候选变异,因此可以直接统计支持各个候选变异的嵌合读段序列的数量;即前述步骤中已经获得了嵌合读段序列支持各个候选变异的变异支持数,从而后续仅需要统计非嵌合读段序列支持各个候选变异的变异支持数即可。
因此可以根据变异频率将处于噪音变异频率范围的候选变异过滤掉,得到单基因内长片段的候选结构变异。
根据上述步骤S102包含的各个实施例中鉴定得到的候选变异,进一步的结合非嵌合读段序列,统计每一个类型的候选变异中,包含的非嵌合读段序列的支持数;得到每一个候选变异的变异支持数。
本发明实施例所提供的变异检测方法中,一方面,在进行候选变异的确定时,对各个嵌合读段序列进行了调整,以丰富嵌合读段序列中包含的生物学信息,使得确定得到的各个候选变异是更为可靠的;另一方面基于软剪切标记的总数量将非嵌合读段序列进一步划分为四类不同的非嵌合读段序列,因此在基于非嵌合读段序列统计每一个候选变异包括的变异支持数时,可以更加精细化统计,以确保变异支持数的准确性和可靠性。
可选地,针对各个候选变异,确定候选变异的变异支持数,一个候选变异的变异支持数为支持该候选变异的所有读段序列(包括嵌合读段序列和非嵌合读段序列);基于候选变异的变异支持数,以及候选变异断点对应的最大测序深度,确定候选变异的变异频率。
由于前述各个步骤中,已经确定候选变异的类型,而每一种候选变异的类型中,都对应包含有符合该候选变异的特性的序列信息;因此可以基于候选变异,比对非嵌合读段序列,以确定符合候选变异的非嵌合读段,每确定一个非嵌合读段序列支持一种候选变异之后,则所确定的候选变异对应的变异支持数加一。
在一种实施方式中,所述针对各个候选变异,确定候选变异的变异支持数,可以包括:
基于前述内容,可以知道各个候选变异的嵌合读段序列的变异支持数在鉴定候选变异、提取断点信息时即已统计,计入各候选变异的双断点支持数。进一步的统计非嵌合读段序列的变异支持数。通过按照不同类型的非嵌合读段序列(前述4中非嵌合读段序列)进行统计,可以考虑到不同类型的非嵌合读段序列的可信度的差异情况。例如,两条读段分别支持某一候选变异两个断点,其作为变异支持读段(读段来自于候选结构变异)的可能性高于两条读段中只有一条支持候选变异的一个断点。
针对各个候选变异,按照非嵌合读段序列的类别,对各类别的非嵌合读段序列进行二次重比对,确定候选变异的变异支持数。
由于在确定候选变异时,是根据嵌合读段序列中包含的断点信息确定的,因此,每一个候选变异中均包含有丰富的断点信息,从而在确定变异支持数时,可以根据比对不同的非嵌合读段序列,来确定非嵌合读段序列是否支持候选变异。
进一步地,因不同非嵌合读段序列的类别所包含的断点信息量不同,将非嵌合读段序列基于软剪切标记数量划分为四类不同的非嵌合读段序列;因此,在一种实施方式中,可以分别基于不同类别的非嵌合读段序列,确定每一个候选变异中,非嵌合读段序列的变异支持数。
可选地,所述针对各个候选变异,按照非嵌合读段序列的类别,对各类别的非嵌合读段序列进行比对,确定候选变异的变异支持数,可以包括:
针对于第二类非嵌合读段序列,执行第一处理,以确定第二类非嵌合读段序列支持的候选变异;
所述第一处理包括:
比对序列中第一读段对应的第一序列和第二读段对应的第二序列,确定是否同时支持任一候选变异的两个断点;
如果支持任一候选变异的两个断点,确定所述序列支持候选变异的双断点;
如果不支持任一候选变异的两个断点,依次分别判断所述第一序列和所述第二序列中是否存在一个软剪切序列,支持任一候选变异的其中一个断点;
如果存在,确定所述序列支持候选变异的单断点;
如果不存在,将所述第一软剪切序列和所述第二软剪切序列均确定为错误序列。
根据前述划分的非嵌合读段序列的类别,变异支持数可以分为双断点支持的数量、单断点支持的数量以及无断点支持数量。
第二类非嵌合读段序列为前述所述包含有两条读段,且软剪切标记的总数量等于第一软剪切标记阈值,即第一读段和第二读段各自包含有一个软剪切标记。其软剪切可以来自于结构变异的断点,也可能是随机序列。通过重新和候选变异进行比对,判断是否来源于变异。且基于前述所述内容,可以知道,断点信息中包括断点位置、正负链信息、简要描述比对结果,而软剪切序列可以根据断点位置以及两条比对读段确定。
因此,可以基于第二类非嵌合读段序列与候选变异的断点信息进行比对,判断是否匹配任一候选变异中的断点信息。
本发明实施例在对非嵌合读段序列进行分类时,还划分了包含有两条读段,且两条读段包含的软剪切标记的总数量大于第一软剪切标记阈值的第一类非嵌合读段序列。因此在一种实施方式,可以将第一类非嵌合读段序列转换为第二类嵌合读段序列,然后按照第二类嵌合读段序列的处理方式(第一处理),确定第一类非嵌合读段序列支持的候选变异。
可选地,所述针对各个候选变异,按照非嵌合读段序列的类别,对各类别的非嵌合读段序列进行比对,确定候选变异的变异支持数,还可以包括:
针对于第一类非嵌合读段序列,确定两条单一读段中包含的各个断点位置对应的坐标,并将两条单一读段的各个坐标进行排列组合,得到多个组合;
针对于排列好的各个组合,基于组合中的坐标确定组合对应的软剪切序列,对组合对应的软剪切序列,执行所述第一处理,以确定组合对应的软剪切序列支持的候选变异。
断点位置的坐标为非嵌合读段序列中,对应的比对结果中所包含的信息,可以根据对比结果直接提取坐标点,得到断点位置对应的坐标。
例如,第一类非嵌合读段序列中,第一读段包含有1个软剪切标记,根据对比结果中提取到的坐标为a1,第二读段包含有2个软剪切标记,根据对比结果中提取到的坐标为b1,b2。则将坐标进行排列组合之后,可以得到{a1,b1}、{a1,b2},也就是两条读段中各自包含有一个软剪切标记,因此可以将第一类非嵌合读段序列经过处理之后,视为第二类非嵌合读段序列,然后以前述所述的第二类非嵌合读段序列的处理方式进行确定,也就是第一处理的处理方式。
此外,前述在对非嵌合读段序列进行分类时,还包括了无软剪切标记的第四类非嵌合读段序列;因此,在一种实施方式中,针对于第四类非嵌合读段序列,执行第二处理,以确定第四类非嵌合读段序列支持的候选变异;
所述第二处理包括:
比对序列中第一读段和第二读段的距离为大于预定距离,且序列中发生缺失的序列片段的长度为大于所述预定距离,以及正负链信息对应的第一比对读段和第二比对读段分别在候选变异的第一断点和第二断点的预设范围内,确定序列支持缺失候选变异;
比对序列中重复序列片段的长度为大于所述预定距离,第一比对读段和第二比对读段分别在候选变异的预设范围内,以及正负链信息与候选变异的正负链信息一致,确定序列支持重复候选变异;
比对序列中正负链信息对应的第一比对读段和第二比对读段,以及简要描述比对结果形式均与候选变异的一致,且第一比对读段和第二比对读段分别在候选变异的预设范围内,确定序列支持倒置候选变异。
其中,所述预定距离为初始设定的距离,一般与文库插入序列长度分布相关。例如,当基因组某处产生大片段(如1kb)的缺失时,覆盖该变异的第四类非嵌合读段序列的第一比对读段和第二比对读段的距离(>1kb)将显著大于文库插入片段长度(通常<600bp)。而当缺失片段较短时,例如300bp,覆盖该变异的第四类非嵌合读段序列的第一比对读段和第二比对读段的距离无法与覆盖该位点的正常基因组的第四类非嵌合读段序列区分开来。因而只有当第一比对读段和第二比对读段的距离大于预定距离且候选变异长度大于预定距离时,才将比对在候选变异处的第四类非嵌合读段作为支持读段,以避免来自正常基因组读段的干扰。
上述对第一类非嵌合读段序列、第二类非嵌合读段序列和第三类非嵌合读段序列中,由于均存在有软剪切标记,因此可以确定非嵌合读段序列是支持双断点的变异支持数或者是单断点的变异支持数;而对于上述中不能确定的,认为是错误序列的第一类非嵌合读段序列、第二类非嵌合读段序列和第三类非嵌合读段序列,则可以按照第四类非嵌合读段序列的处理方式进行处理比对,即第二处理。
确定候选变异支持数的步骤还可以包括:针对于确认为错误序列的软剪切序列,如果软剪切序列的剪切长度小于阈值,则对所述非嵌合读段,执行第二处理,以确定该非嵌合读段比对部分是否支持的候选变异。
前述步骤中确定为错误序列的软剪切序列,进一步根据软剪切序列的剪切长度进行选择处理。即只有当软剪切序列的剪切长度小于阈值时,才进行第二处理。由于第二处理中没有第一处理所含有的明确的断点位置和序列来进行比对,不如第一处理精确,因此为保证准确性,本发明实施例将对认为是错误序列的软剪切序列中剪切长度太长的进行舍弃不做处理。
通过针对不同类别的非嵌合读段序列,确定支持的每一种候选变异;从而得到每一种候选变异中非嵌合读段序列的支持数,结合嵌合读段序列的支持数得到变异支持数;增加变异支持数的准确性和可靠性。
步骤S104,至少基于各个候选变异的变异频率,对各个候选变异进行假阳性过滤,得到所述多个读段序列的变异检测结果。
需要说明的是,每一个候选变异都有对应的变异频率,因此可以基于变异频率阈值,对每一个候选变异的变异频率进行过滤,保留属于异常的变异频率所对应的候选变异。
在前述步骤中,已经基于各个嵌合读段序列确定了候选变异,并结合非嵌合读段序列,确定每一种候选变异的变异支持数;从而可以基于各个候选变异的变异支持数,对各个候选变异进行过滤,以去除候选变异中错误的变异(假阳性变异),可以进一步提高变异检测的准确率。
为了能够增加变异检测的可靠性和准确性,本发明实施例所提供的变异检测方法中,进一步将基因组注释信息、复杂度特征与变异支持数结合使用,对候选变异进行过滤,进一步提高变异检测的准确性和可靠性。
请参考图4,图4是本发明实施例所提供的变异检测方法的另一流程示意图。
如图所示,该流程可以包括以下步骤:
步骤S400,获取多个读段序列,所述读段序列为读段序列中包含的两条读段均比对在单基因范围内所有的高质量碱基序列。
步骤S401,基于嵌合标记和软剪切标记数量,从所述多个读段序列中划分嵌合读段序列和非嵌合读段序列。
所述嵌合读段序列中包含有所述非嵌合读段序列中的目标读段序列,所述目标读段序列为末端序列存在软剪切标记且存在重合的序列。
步骤S402,基于各个嵌合读段序列确定多个候选变异。
步骤S403,结合支持变异的非嵌合读段序列和嵌合读段序列,分别确定各个候选变异的变异频率。
步骤S404,获取基因组注释信息,所述基因组注释信息包括断点区域。
步骤S405,根据预设提取范围,在所述断点区域内提取复杂度特征,所述序列复杂度特征包括单碱基-三碱基组合重复序列长度,单碱基丰度,双碱基丰度;
步骤S406,基于所述基因组注释信息、所述复杂度特征和所述变异频率与各支持变异数对各个候选变异进行假阳性过滤。
其中,所述预设提取范围是指在断点区域内以预定的碱基对长度,来提取碱基序列的序列复杂度特征;碱基对长度可以根据实际需要进行设定,例如在断点区域内选择以10bp,20bp,30bp,50bp,100bp,150bp,200bp的碱基对长度,提取序列复杂度特征。
序列复杂度特征中包括单碱基-三碱基组合重复序列长度;
单碱基丰度是指在提取的碱基序列中含量最高的碱基占比,例如碱基序列的总长度为100个碱基,碱基A(腺嘌呤)的含量为3个,碱基T(胸腺嘌呤)的含量为7个,碱基G(鸟嘌呤)的含量为10个,碱基C(胞嘧啶)的含量为80个,则在100个碱基序列长度范围内,单碱基丰度为碱基C对应的占比80%。
双碱基丰度是指含量最高的两种碱基占比。
所述基因组信息注释,可以包括断点区域(例如断点发生在参考基因的外显子或内含子),影响的外显子和对编码序列的影响(主要为对基因表达的影响)。
所述基因组信息注释主要为断点注释,因此,在一些实施方式中,可以基于基因组信息注释完成对断点位置的调整;例如,如果候选变异的两个断点处的参考基因组的序列存在重复,则表示其中一个断点位置由重复序列导致偏移,将调整其中一个断点的位置。合并调整后断点相同的候选变异。从而可以对候选变异基于断点位置即基因组信息注释,进行调整;确保候选变异的准确性。
在一些实施方式中,所述基于所述基因组注释信息和所述变异频率对各个候选变异进行假阳性过滤,可以包括:
对序列复杂度特征低于预定特征的候选变异进行过滤;对所述断点位置处于非目标位置的候选变异进行过滤;以及基于所述变异频率对候选变异进行过滤。
通过结合基因信息注释、序列复杂度特征、变异频率过滤候选变异,确保最终得到的候选变异的可靠性和准确性。
步骤S407,根据过滤之后的各个候选变异,将属于同一候选变异的断点合并。
在通过上述过滤方式将候选变异过滤之后,由于会存在有虽然是处于不同位置的相近断点,但是这些断点都是属于同一个候选变异的,因此将这些断点进行合并,认为是同一个候选变异,即将候选变异在过滤之后进一步的将属性相同的变异做整合,提高候选变异的精确度。
步骤S408,得到所述多个读段序列的变异检测结果。
本发明实施例所提供的变异检测方法,一方面通过在进行候选变异确定时,增加嵌合读段序列中的序列信息,以丰富嵌合读段序列所包含的生物学信息,从而可以基于嵌合读段序列得到更全面的候选变异;同时通过分类比对统计结构变异支持读段数提高变异频率的准确性。另一方便,在后续利用基因组注释信息、序列复杂度特征、变异频率实现候选变异的过滤,降低假阳性率,从而保证最终得到的候选变异的特异性和敏感性。
本发明实施例还提供了一种变异检测装置,可以认为是实现上述实施例所述的变异检测方法的可选框架。下文描述的装置内容可与上文描述内容相互对应参照。
请参考图5,图5是本发明实施例所提供的变异检测装置的一框架示意图。
如图所示,该框架可以包括:
读段序列获取模块500,用于获取多个读段序列,所述读段序列为读段序列中包含的两条读段均比对在单基因范围内所有的高质量碱基序列;
读段序列分类模块501,用于基于嵌合标记和软剪切标记数量,从所述多个读段序列中划分嵌合读段序列和非嵌合读段序列;所述嵌合读段序列中包含有所述非嵌合读段序列中的目标读段序列,所述目标读段序列为末端序列存在软剪切标记且存在重合的序列;
候选变异确定模块502,用于基于各个嵌合读段序列确定多个候选变异;
变异频率确定模块503,用于结合支持变异的非嵌合读段序列和嵌合读段序列,分别确定各个候选变异的变异频率;
过滤模块504,用于至少基于各个候选变异的变异频率,对各个候选变异进行假阳性过滤,得到所述多个读段序列的变异检测结果。
可选地,所述读段序列分类模块501,用于基于嵌合标记和软剪切标记数量,从所述多个读段序列中划分嵌合读段序列和非嵌合读段序列,包括:
将带有嵌合标记的读段序列,确定为初始嵌合读段序列;将未带有嵌合标记的读段序列,确定为初始非嵌合读段序列;
如果确定所述两条读段的末端序列均含有软剪切标记,则检测所述两条读段对应的末端序列是否重叠;
如果检测到末端序列重叠,则将所述初始非嵌合读段序列归类为嵌合读段序列;
如果检测到末端序列不重叠,则将所述初始非嵌合读段序列确定为非嵌合读段序列。
可选地,所述变异频率确定模块503,用于结合支持变异的非嵌合读段序列和嵌合读段序列,分别确定各个候选变异的变异频率,包括:
针对各个候选变异,确定候选变异的变异支持数,一个候选变异的变异支持数为支持该候选变异的所有读段序列的数量;其中,所述所有读段序列包括嵌合读段序列和非嵌合读段序列;基于候选变异的变异支持数,以及候选变异断点对应的最大测序深度,确定候选变异的变异频率。
可选地,所述过滤模块504,用于至少基于各个候选变异的变异频率,对各个候选变异进行假阳性过滤,包括:
获取基因组注释信息,所述基因组信息注释包括断点区域;
根据预设提取范围,在所述断点区域内提取复杂度特征,所述序列复杂度特征包括单碱基-三碱基组合重复序列长度,单碱基丰度,双碱基丰度;
基于所述基因组注释信息、所述复杂度特征和所述变异频率与各支持变异数对各个候选变异进行假阳性过滤。
可选地,所述过滤模块504,用于基于所述基因组注释信息、所述复杂度特征和所述变异频率与各支持变异数对各个候选变异进行假阳性过滤,包括:
对复杂度特征低于预定特征的候选变异进行过滤;对所述断点位置处于非目标位置的候选变异进行过滤;以及基于所述变异频率与所述变异支持数,对候选变异进行过滤。
可选地,所述读段序列获取模块500,用于获取多个读段序列,包括:
基于选定基因对应的染色体位置和碱基序列长度,在不同染色体位置上获取多个碱基序列,将获取的多个碱基序列确定多个读段序列。
可选地,所述变异检测装置还包括:
断点合并模块,用于根据过滤之后的各个候选变异,将属于同一候选变异的断点合并。
可以看出,本发明实施例所提供的技术方案中,通过获取多个读段序列;然后将多个读段序列基于嵌合标记和软剪切标记进行分类,使得用于后续确定候选变异的嵌合读段序列中包含有非嵌合读段序列中的目标读段序列,目标读段序列为末端序列存在软剪切标记且存在重合的序列,以丰富嵌合读段序列中包含的读段序列数量,从而在基于嵌合读段序列进行候选变异的确定时,可以避免遗漏潜在的候选变异,进一步的,经过变异频率过滤之后,可以确保所得到的所述多个读段序列的变异检测结果的准确性,因此可以提升单基因内的长片段变异的检测特异性和敏感性,从而提升基因组结构变异的检测准确性。
本发明实施例还提供了一种存储介质,所述存储介质存储有适于检测变异的程序,以实现如前述实施例任一项所述的变异检测方法。
本发明实施例还提供了一种电子设备,包括至少一个存储器和至少一个处理器;所述存储器存储有程序,所述处理器调用所述程序,以执行如前述实施例任一项所述的变异检测方法。
为体现本发明实施例所提供的变异检测方法的实现性能,以pindel变异检测算法和本发明实施例所提供的变异检测算法为例,进行说明。
其中,所检测的测序数据为利用HapMap正常人样本NA12878的公共外显子测序数据(数据来自瓶中基因组联盟(GIAB))。
由于NA12878样本被广泛的用于测序研究并作为NIST的官方参考材料,用于帮助评估测序仪器、试剂和算法的性能。因此在本实施例中利用公开报道的NA12878可信度较高的2676个大于50bp缺失片段变异作为参考真阳性变异集。
变异检测效果可以参考图6所示,图6是本发明实施例所提供的变异检测方法和pindel变异检测方法的效果对比结果示意图。
准确性根据TP/(TP+FP)确定,TP表示本身为阳性变异,且被检测到的也划分为阳性变异;FP表示本身没有变异但被检测认为是阳性变异;
敏感性根据TP/(TP+FN)确定,FN表示未被检出的阳性变异。
其中,敏感性是指所有实际为阳性变异的数据,正确检测出来的比例。
Pindel,是在人类基因组计划中应用最多的基于分裂读段的检测工具,能检测所有长度范围的片段缺失。根据图中所示比对结果,可以看出相比于pindel,本发明实施例所提供的变异检测方法具有较高的敏感性和准确性。
虽然本发明实施例披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
- 一种液位检测装置和包含其的设备以及液位检测方法、电子设备及计算机可读存储介质
- 手势关键点检测方法、装置、电子设备及存储介质
- 加密恶意流量检测方法、装置、电子设备及存储介质
- 对象检测方法及装置、电子设备和存储介质
- 一种卡顿检测方法、装置、电子设备和存储介质
- 染色体变异检测方法及装置、电子设备、可读存储介质
- 变异检测方法及装置、存储介质及电子设备