掌桥专利:专业的专利平台
掌桥专利
首页

一种基于聚类的常染色体局部单倍型变异分组方法及系统

文献发布时间:2024-04-18 20:00:25


一种基于聚类的常染色体局部单倍型变异分组方法及系统

技术领域

本发明涉及生物信息学技术领域,尤其涉及一种基于聚类的常染色体局部单倍型变异分组方法及系统。

背景技术

基因组变异分析是生物信息学领域常用的分析技术。基因组变异的类型主要包括单核苷酸多态性(SNP)、短的插入缺失(Indel)、短串联重复(STR)以及多种大片段的结构变异(SV)等等。基因组变异可以用来分析人群祖源及演化、疾病性状关联、辅助诊断治疗等等。

同一条染色单体上多个变异位点基因型的组合称为单倍型。对于人类和大多数物种,每个个体的常染色体为二倍体,基因组同一个变异位点有两个等位基因,同一区域也存在两个单倍型。对于常染色体,由于重组现象的存在,邻近的变异之间存在连锁不平衡现象(LD),即变异之间存在一定的相关性,且相关性随变异位点之间距离的增加而减弱。因此,基因组局部单倍型的分布并非各个变异位点的随机组合,而是存在特定的组成结构。

通常直接检测到的是单个变异位点的二倍体基因型,要想从单个位点的基因型得到一定范围内的两个单倍体的基因型,需要借助一些其它信息和算法的辅助,包括测序序列的拼接、基于人群大样本LD结构的推断、以及家系亲缘关系等,上述多种方式可以结合起来,该过程称为单倍体分型或单倍型估计(phasing)。得到单倍型之后,基于单倍型进行基因组变异分析可以更好地考虑基因组局部的连锁结构以及多位点的联合影响。

然而,随着高通量测序技术的发展和全基因组测序数据的积累,检测到大量新的变异位点,导致同样区域内组合起来的单倍型的多样性更高,每种单倍型的频率更低,给单倍型分析带来一定的困难。因此,亟需一种基于聚类的常染色体局部单倍型变异分组方法,从宏观的角度对单倍型进行分组,以解决单倍型多样性过高的问题,完善单倍型分析方法。

发明内容

本发明提供一种基于聚类的常染色体局部单倍型变异分组方法及系统,用以解决大量新的变异位点导致染色体同样区域内组合起来的单倍型的多样性更高,每种单倍型的频率更低,给单倍型分析带来一定的困难的缺陷。

本发明提供一种基于聚类的常染色体局部单倍型变异分组方法,包括:

选定目标染色体的局部区间和局部区间内的变异位点集合;

根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;

根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;

根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果,具体为:

根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果,包括:

根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值;

根据单倍型之间的差异距离值,对单倍型数据进行聚类分析,得到聚类簇聚类结果或树形结构聚类结果。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:

得到单倍型之间对应变异位点的基因型之间的差异距离,通过第一表达式,得到单倍型之间的差异距离值,其中,第一表达式为:

第一表达式中,D

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值,具体为:

得到单倍型之间对应变异位点的基因型之间的差异距离,通过第二表达式,得到单倍型之间的差异距离值,其中,第二表达式为:

第二表达式中,D′

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据聚类结果,对单倍型数据进行分组,包括:

当聚类结果为聚类簇聚类结果时,直接根据聚类簇聚类结果对单倍型数据进行分组;

当聚类结果为树形结构聚类结果时,选定树形结构的任意层次或分支作为分组依据,并对单倍型数据进行分组。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据,包括:

对变异位点的二倍体基因型数据进行单倍体分型处理,得到单倍型数据,其中,一个个体的所有变异位点的二倍体基因型可组合得到两个单倍型。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,所述根据分组结果,定义新的基因型,包括:

根据单倍型的分组结果,重新定义每个个体在该局部区间的基因型。

在一种实施例中,对于每个分组,可以把属于该分组的单倍型定义为1型,不属于该分组的单倍型定义为0型。进一步的,对于一个个体的两个单倍型,若两个单倍型都不属于该分组,则基因型为0(0/0),若有一个单倍型属于该分组,则基因型为1(0/1),若两个单倍型都属于该分组,则基因型为2(1/1)。

本发明还提供一种基于聚类的常染色体局部单倍型变异分组系统,包括:

选定模块,用于:选定目标染色体的局部区间和局部区间内的变异位点集合;

数据获取模块,用于:根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;

聚类模块,用于:根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;

分组模块,用于:根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。

本发明还提供一种电子设备,包括处理器和存储有计算机程序的存储器,其特征在于,所述处理器执行所述计算机程序时实现上述任一种所述的基于聚类的常染色体局部单倍型变异分组方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一种所述的基于聚类的常染色体局部单倍型变异分组方法。

本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述任一种所述的基于聚类的常染色体局部单倍型变异分组方法。

本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法及系统,根据预设聚类规则,对目标染色体的局部区间和变异位点集合的单倍型数据进行聚类分析,实现分区间对单倍型数据的再分组和基因型的新定义,有效解决大量新变异位点导致单倍型复杂度高、每种单倍型频率过低的问题,降低单倍型分析的难度,提高单倍型分析的效率和质量。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做出简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法的流程示意图之一。

图2为本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法的流程示意图之二。

图3为本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统的结构示意图。

图4为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,它们不应该理解成对本发明的限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。在本发明的描述中,需要理解的是,所用到的术语仅仅是用于描述的目的,而不能理解为指示或暗示相对重要性。

下面结合图1-图4描述本发明提供的基于聚类的常染色体局部单倍型变异分组方法及系统。

图1-2是本发明提供的基于聚类的常染色体局部单倍型变异分组方法的流程示意图。参照图1,本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,可以包括:

步骤S110、选定目标染色体的局部区间和局部区间内的变异位点集合;

步骤S120、根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;

步骤S130、根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;

步骤S140、根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。

需要说明的是,本发明提供的基于聚类的常染色体局部单倍型变异分组方法的执行主体可以是任何符合技术要求的终端侧设备,例如基于聚类的常染色体局部单倍型变异分组装置等。

在一种实施例中,步骤S110可以根据实际需求选定目标染色体的局部区间,局部区间不宜过大,比如区间长度尽量不超过1M(百万)bp,避免变异位点数量太多导致后续数据计算的时间过长,局部区间内的变异位点集合一般包含目标染色体该局部区间内的所有变异位点,但也可以对其进行一定的筛选过滤,例如按照实际需求根据变异位点的类型、位置、数据质量、等位基因频率等筛选条件来对局部区间内的变异位点进行过滤,以有针对性地进行单倍型数据处理分析。

本发明所针对的数据处理对象为目标染色体的选定局部区间内变异位点对应的单倍型数据,步骤S120既可以直接从预先存储有单倍型数据的文件或数据库中,根据选定的局部区间和变异位点集合,获取目标染色体的局部区间的单倍型数据,也可以根据步骤S110选定的变异位点集合,从含有目标染色体的相关文件或数据库中得到带有这些变异位点的二倍体基因型数据,再由步骤S120对变异位点的二倍体基因型数据进行单倍体分型(phasing)处理,从而得到对应的单倍型数据。

在一种实施例中,因为每个个体的常染色体为二倍体,所以可能目标染色体对应的数据只有每个变异位点的二倍体基因型,所以步骤S120可以先对目标染色体的变异位点的二倍体基因型数据进行单倍体分型处理,得到单倍型数据,其中,一个个体的所有变异位点的二倍体基因型可得到两个单倍型,以此根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据。

例如,可以参见图2,首先对7个个体,选定局部区间内18个变异位点的二倍体基因型数据(上左)进行单倍体分型,得到单倍型数据(上中),其中每个个体包含两个单倍型(两列)。然后对14个单倍型计算两两距离并进行聚类,得到A、B、C共3组(上右)。最后把分组结果对应到每个个体(下中),并对每个分组重新定义个体的基因型(下左)。

步骤S130中的预设聚类规则是指如何评估单倍型数据中单倍型之间差异,作为聚类的依据,预设聚类规则设置得越精准,聚类结果越准确,将单倍型分组的结果越优质。

在一种实施例中,步骤S130可以根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果。具体的,可以先得到单倍型之间存在差异的变异位点,再得到单倍型之间的差异距离值(例如,当单倍型j和单倍型k之间第i个变异位点的基因型相同时,该基因型对单倍型之间的差异贡献值为0,当单倍型j和单倍型k之间第i个变异位点的基因型不相同时,该基因型对单倍型之间的差异贡献值为1,如此类推),以单倍型之间的差异距离值作为聚类条件,得到聚类簇聚类结果或树形结构聚类结果。

一方面,步骤S130可以通过第一表达式,得到单倍型之间的差异距离值,其中,第一表达式为:

D

第一表达式中,D

另一方面,步骤S130可以通过第二表达式,得到单倍型之间的差异距离值,其中,第二表达式为:

第二表达式中,D′

步骤S130可以采用现有技术中任一项符合技术要求的聚类算法,根据单倍型之间的差异距离值,对单倍型数据进行聚类分析,得到聚类簇聚类结果或树形结构聚类结果。

本发明综合考虑了基因组局部区间的多个变异的组合与分布情况,同时通过聚类分组把相似的单倍型有机整合,避免了变异位点越多,每种单倍型频率越低的不利因素,有效优化基因组单倍型分析技术。

当聚类结果为聚类簇聚类结果时,步骤S140可以直接根据聚类簇聚类结果对单倍型数据进行分组,或者当聚类结果为树形结构聚类结果时,步骤S140可以根据实际情况选定树形结构的任意层次或分支作为分组依据,并对单倍型数据进行分组,以将分组后的单倍型数据记为A组、B组、C组等,对于每个分组的单倍型,可以把属于该分组的单倍型定义为1型,不属于该分组的单倍型定义为0型。

进一步的,对于一个个体的两个单倍型,若两个单倍型都不属于该分组,则基因型为0(0/0),若有一个单倍型属于该分组,则基因型为1(0/1),若两个单倍型都属于该分组,则基因型为2(1/1)。

本实施例对基因型的新定义,在形式上与常规定义变异位点基因型的完全一致,可以将新定义后的基因型作为新的变异位点,应用于各类基于基因型的变异分析中,例如基因组关联分析等等。

本发明提供的一种基于聚类的常染色体局部单倍型变异分组方法,根据预设聚类规则,对目标染色体的局部区间和变异位点集合的单倍型数据进行聚类分析,实现分区间对单倍型数据的再分组和基因型的新定义,有效解决大量新变异位点导致单倍型复杂度高、每种单倍型频率过低的问题,降低单倍型分析的难度,提高单倍型分析的效率和质量。

下面对本发明提供的基于聚类的常染色体局部单倍型变异分组系统进行描述,下文描述的基于聚类的常染色体局部单倍型变异分组系统与上文描述的基于聚类的常染色体局部单倍型变异分组方法可相互对应参照。

参照图3,本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统,可以包括:

选定模块,用于:选定目标染色体的局部区间和局部区间内的变异位点集合;

数据获取模块,用于:根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;

聚类模块,用于:根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;

分组模块,用于:根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统,聚类模块,具体用于:根据单倍型数据中每个单倍型之间的差异距离,对单倍型数据进行聚类分析,得到聚类结果。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统,聚类模块可以包括:

差异距离得到子模块,用于:根据单倍型之间存在差异的变异位点,得到单倍型之间的差异距离值;

聚类子模块,用于:根据单倍型之间的差异距离值,对单倍型数据进行聚类分析,得到聚类簇聚类结果或树形结构聚类结果。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统,差异距离得到子模块可以具体用于:

得到单倍型之间对应变异位点的基因型之间的差异距离,通过第一表达式,得到单倍型之间的差异距离值,其中,第一表达式为:

第一表达式中,D

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统,差异距离得到子模块可以具体用于:

得到单倍型之间对应变异位点的基因型之间的差异距离,通过第二表达式,得到单倍型之间的差异距离值,其中,第二表达式为:

第二表达式中,D′

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统,分组模块可以包括:

第一分组子模块,用于:当聚类结果为聚类簇聚类结果时,直接根据聚类簇聚类结果对单倍型数据进行分组;

第二分组子模块,用于:当聚类结果为树形结构聚类结果时,选定树形结构的任意层次或分支作为分组依据,并对单倍型数据进行分组。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统,数据获取模块可以包括:

单倍体分型处理子模块,用于:对变异位点的二倍体基因型数据进行单倍体分型处理,得到单倍型数据,其中,一个个体的所有变异位点的二倍体基因型可组合得到两个单倍型。

根据本发明提供的一种基于聚类的常染色体局部单倍型变异分组系统,分组模块可以包括:

定义子模块,用于:根据单倍型的分组结果,重新定义每个个体在该局部区间的基因型,将属于该分组的单倍型定义为1型,不属于该分组的单倍型定义为0型。

图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行基于聚类的常染色体局部单倍型变异分组方法,该方法包括:

选定目标染色体的局部区间和局部区间内的变异位点集合;

根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;

根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;

根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。

此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于聚类的常染色体局部单倍型变异分组方法,该方法包括:

选定目标染色体的局部区间和局部区间内的变异位点集合;

根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;

根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;

根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于聚类的常染色体局部单倍型变异分组方法,该方法包括:

选定目标染色体的局部区间和局部区间内的变异位点集合;

根据选定的局部区间和变异位点集合,得到目标染色体的局部区间的单倍型数据;

根据预设聚类规则,对单倍型数据进行聚类分析,得到聚类结果;

根据聚类结果,对单倍型数据进行分组,并根据分组结果,定义新的基因型。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术分类

06120116526863