掌桥专利:专业的专利平台
掌桥专利
首页

一种系谱的校正方法及装置

文献发布时间:2023-06-19 12:13:22


一种系谱的校正方法及装置

技术领域

本申请涉及生物技术领域,尤其是涉及一种系谱的校正方法及装置。

背景技术

系谱是指记录某一家族各世代成员数目、亲属关系以及由遗传性状或遗传病在该家系中分布情况的图示,在动植物育种上通常是指由共同祖先繁殖所得的后代。系谱主要用于识别杂交个体、制定配种计划、确定血缘关系和近交率等。目前,主要依赖于动物标识,从数据库中查找出对应的亲缘关系,因此会产生系谱中记录的亲缘信息不完整,以及亲缘关系记录错误的问题。

发明内容

有鉴于此,本申请的目的在于提供一种系谱的校正方法及装置,基于基因型关系矩阵和亲缘关系矩阵,识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。

本申请实施例提供了一种系谱的校正方法,所述校正方法包括:

获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;

针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;

基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;

针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;

将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。

进一步的,所述基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,包括:

从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量;

从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量;

基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。

进一步的,所述基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体,包括:

基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件;

针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件;

若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录错误的第一目标个体;

若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录正确的第二目标个体。

进一步的,通过以下方式确定所述第二父本目标个体的基因型亲缘关系的筛选条件:

识别所述第二父本目标个体对应的多个第二子代目标个体;

基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系;

基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。

进一步的,所述基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体,包括;

针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;

当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体;

当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。

进一步的,所述从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体,包括:

基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系;

针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;

当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体;

当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。

进一步的,所述第二父本目标个体的基因型亲缘关系的筛选条件包括:所述第二父本目标个体的基因型亲缘关系的取值范围。

本申请实施例还提供了一种系谱的校正装置,所述校正装置包括:

关系矩阵获取模块,用于获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;

相关系数确定模块,用于针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;

第一目标个体确定模块,用于基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;

第三目标个体确定模块,用于针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;

父本目标个体确定模块,用于将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。

进一步的,所述相关系数确定模块,在基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数时,所述相关系数确定模块用于:

从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量;

从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量;

基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。

进一步的,所述第一目标个体确定模块,在基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体时,所述第一目标个体确定模块用于:

基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件;

针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件;

若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录错误的第一目标个体;

若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录正确的第二目标个体。

进一步的,所述第三目标个体确定模块,通过以下方式确定所述第二父本目标个体的基因型亲缘关系的筛选条件:

识别所述第二父本目标个体对应的多个第二子代目标个体;

基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系;

基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。

进一步的,所述第三目标个体确定模块,在基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体时,所述第三目标个体确定模块用于:

针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;

当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体;

当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。

进一步的,所述父本目标个体确定模块,在从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体时,所述父本目标个体确定模块用于:

基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系;

针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;

当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体;

当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。

进一步的,所述第二父本目标个体的基因型亲缘关系的筛选条件包括:所述第二父本目标个体的基因型亲缘关系的取值范围。

本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的系谱的校正方法的步骤。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的系谱的校正方法的步骤。

本申请实施例提供的系谱的校正方法及装置,通过获取表征目标个体之间亲子关系的基因型关系矩阵以及表征所述目标个体之间亲缘关系的亲缘关系矩阵;基于所述基因型关系矩阵以及所述亲缘关系矩阵,确定出亲缘关系记录正确的目标个体以及亲缘关系记录错误的目标个体;针对每个亲缘关系记录错误的目标个体,从确定出的亲缘关系记录正确的目标个体中,确定出该亲缘关系记录错误的目标个体潜在的父本目标个体。本申请能够识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种系谱的校正方法的流程图;

图2示出了本申请实施例所提供的一种确定所述第二父本目标个体的基因型亲缘关系的筛选条件的步骤的流程图;

图3示出了本申请实施例所提供的一种系谱的校正装置的结构示意图;

图4示出了本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。

经研究发现,系谱是指记录某一家族各世代成员数目、亲属关系以及由遗传性状或遗传病在该家系中分布情况的图示,在动植物育种上通常是指由共同祖先繁殖所得的后代。系谱主要用于识别杂交个体、制定配种计划、确定血缘关系和近交率等。现有的系谱的构建主要依据动物标识,从数据库中查找出对应的亲缘关系,常常出现系谱中记录的亲缘信息不完整,以及亲缘关系记录错误的问题。

基于此,本申请实施例提供了一种系谱的校正方法,以识别出系谱中记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。

请参阅图1,图1为本申请实施例所提供的一种系谱的校正方法的流程图。如图1中所示,本申请实施例提供的系谱的校正方法,包括:

步骤S101、获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵。

该步骤中,基因型关系矩阵是根据系谱中的目标个体之间的基因型关系构建的矩阵,矩阵元素为目标个体之间的基因型关系,用于表征目标个体之间实际的亲缘关系;亲缘关系矩阵是根据系谱中记录的目标个体之间的亲缘关系构建的矩阵,用于表征目标个体之间期望的亲缘关系。

在具体实施时,可通过以下步骤来获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵。

步骤1011、基于系谱信息,获取所有个体的系谱亲缘关系。

该步骤中,系谱信息中存储有所有个体的亲缘信息,针对每个个体,获取该个体的个体信息、该个体的父本信息以及该个体的母本信息,将全部个体信息编入第一列,父本信息编入第二列,母本信息编入第三列,得到所有个体的系谱亲缘关系。

步骤1012、基于获取的所有个体的系谱亲缘关系,构建所有个体的系谱亲缘关系矩阵。

基于所有个体的亲缘关系,通过以下递推公式,构建可以表征所有个体之间亲缘关系的所有个体的系谱亲缘关系矩阵,即针对系谱中的个体i、根据该个体的父亲S

当个体i的父亲S

当个体i的父亲S

当个体i的父亲S

当个体i的父亲S

a

步骤1013、将所述系谱信息中具有基因型信息的个体确定为目标个体,并基于所有目标个体的基因型信息,构建目标个体之间的基因型亲缘关系矩阵。

该步骤中,基于基因型文件中记录的基因型信息,识别出系谱信息中具有基因型信息的个体,将识别出的个体确定为目标个体;基于识别出的目标个体的基因型信息,通过以下G矩阵的构建公式,构建基因型关系矩阵:

式中,P

步骤1014、从所述所有个体的系谱亲缘关系矩阵中,提取出目标个体的系谱亲缘关系矩阵。

该步骤中,从系谱亲缘关系矩阵中提取出具有基因型信息的目标个体对应的系谱亲缘关系矩阵;按照基因型关系矩阵中目标个体的排列顺序,对提取出的目标个体对应的系谱亲缘关系矩阵,重新进行排序,得到目标个体的系谱亲缘关系矩阵。

步骤S102、针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数。

该步骤中,由于基因型亲缘关系矩阵用于表征目标个体之间实际的亲缘关系,系谱亲缘关系矩阵用于表征目标个体之间期望的亲缘关系,针对于每个目标个体,其通过基因型亲缘关系矩阵所反映出的亲缘关系,以及其通过系谱亲缘关系矩阵所反映出的亲缘关系具有高度相关性,因此,可以通过基因型亲缘关系向量与系谱亲缘关系向量的相关系数,确定出系谱亲缘关系记录正确的目标个体以及系谱亲缘关系记录错误的目标个体。

在具体实施时,可以通过以下步骤确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数:

步骤1021、从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量。

该步骤中,从基因型亲缘关系矩阵中提取出该目标个体对应的基因型关系向量,该基因型关系向量可以表征该目标个体与其他目标个体之间实际的亲缘关系。

步骤1022、从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量。

该步骤中,从系谱亲缘关系矩阵中提取出该目标个体对应的系谱亲缘关系向量,该系谱亲缘关系向量可以表征该目标个体与其他目标个体之间期望的亲缘关系。

步骤1023、基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。

该步骤中,可以通过以下公式确定基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数:

式中,A

步骤S103、基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体。

在具体实施时,可以通过以下步骤确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体:

步骤1031、基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件。

该步骤中,基于获取的所有目标个体的相关系数,可以通过以下等式确定出相关系数r的标准差σ

式中,N为相关系数r(即目标个体)的数量,μ为相关系数r的平均值,可以通过以下等式获得:

进一步的,根据3σ原则可知,在正态分布中,数值分布在(μ-3σ,μ+3σ)区间的概率为0.9974,因此,针对于本实施例的相关系数的分布情况,可以将数值范围(μ-3σ

步骤1032、针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件。

该步骤中,由于所有目标个体的相关系数整体上是服从正态分布的,同时在系谱中仅有部分目标个体的亲缘关系记录错误,因此可以根据3σ原则确定出的相关系数的筛选条件来判断目标个体是否为系谱亲缘关系记录错误的个体。

若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则执行步骤1033、判定该目标个体为系谱亲缘关系记录错误的第一目标个体。

若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则执行步骤1034、判定该目标个体为系谱亲缘关系记录正确的第二目标个体。

步骤S104、针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体。

该步骤中,第二目标个体中包含有:第二父本目标个体,第二母本目标个体以及第二子代目标个体,针对于第二子代目标个体,其对应的父系同胞的个体较多,母系同胞的个体较少,进一步的,可以根据第二父本目标个体的基因型亲缘关系的筛选条件,从第二子代目标个体中确定出基因型亲缘关系记录错误的目标个体。

请参阅图2,图2为本申请实施例所提供的一种确定所述第二父本目标个体的基因型亲缘关系的筛选条件的步骤的流程图。如图2中所示,本申请实施例提供的确定所述第二父本目标个体的基因型亲缘关系的筛选条件的步骤,包括以下步骤:

步骤S201、识别所述第二父本目标个体对应的多个第二子代目标个体。

该步骤中,针对该第二父本目标个体,可以通过目标个体的身份标识,首先从第二目标个体中识别出第二父本目标个体的多个第二子代目标个体。

步骤S202、基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系。

该步骤中,由于基因型亲缘关系矩阵的实质是:通过基因型关系表征目标个体之间实际的亲缘关系,因此,可以直接从基因型关系矩阵中提取出第二父本目标个体与各第二子代目标个体的基因型亲缘关系。

步骤S203、基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。

该步骤中,第二父本目标个体的基因型亲缘关系的筛选条件包括:第二父本目标个体的基因型亲缘关系的取值范围,具体的,可以通过以下等式确定该第二父本目标个体的基因型亲缘关系a的标准差σ

式中,M为基因型亲缘关系a的数量,ν为基因型亲缘关系a的平均值,可以通过以下等式获得:

进一步的,根据3σ原则可知,在正态分布中,数值分布在(μ-3σ,μ+3σ)区间的概率为0.9974,因此,针对于本实施例的基因型亲缘关系的分布情况,可以将数值范围(μ-3σ

在具体实施时,可以通过以下步骤确定出基因型亲缘关系记录错误的第三目标个体:

步骤1041、针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件。

该步骤中,由于第二父本目标个体与各第二子代目标个体的基因型亲缘关系在整体上同样是服从正态分布的,因此可以根据3σ原则确定出的基因型亲缘关系的筛选条件来判断各第二子代目标个体是否为该第二父本目标个体基因型亲缘关系记录错误的目标个体。

当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,则执行步骤1042、判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体。

当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,则执行步骤1043、判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。

步骤S105、将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。

该步骤中,第一目标个体为通过相关系数的筛选条件确定出的系谱亲缘关系记录错误的目标个体,第三目标个体为通过第二父本目标个体的基因型关系的筛选条件确定出的基因型关系记录错误的目标个体,将上述第一目标个体和第三目标个体共同确定为亲缘关系记录错误的目标个体;进一步的,由于基因型关系相较于系谱更能反映出的目标个体之间的亲缘关系,因此,针对于亲缘关系记录错误的目标个体,可以从第二父本目标个体中确定出亲缘关系记录错误的目标个体可能的父本目标个体。

在具体实施时,可以通过以下步骤确定出该亲缘关系记录错误的目标个体可能的父本目标个体:

步骤1051、基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系。

该步骤中,从基因型亲缘关系矩阵中获取亲缘关系记录错误的目标个体与每个第二父本目标个体的基因型亲缘关系。

步骤1052、针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件。

该步骤中,同样的,由于第二父本目标个体与各第二子代目标个体的基因型亲缘关系在整体上同样是服从正态分布的,因此,针对每个第二父本目标个体,可以通过判断亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件的方式,来确定出该第二父本目标个体是否为亲缘关系记录错误的目标个体可能的父本目标个体。

当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,则执行步骤1053、判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体。

当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,则执行步骤1054、判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。

本申请实施例提供的系谱的校正方法,通过获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。本申请能够识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。

基于同一发明构思,本申请实施例中还提供了与系谱的校正方法对应的系谱的校正装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

请参阅图3,图3为本申请实施例所提供的一种系谱的校正装置的结构示意图。如图3中所示,所述校正装置300包括:

关系矩阵获取模块301,用于获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;

相关系数确定模块302,用于针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;

第一目标个体确定模块303,用于基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;

第三目标个体确定模块304,用于针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;

父本目标个体确定模块305,用于将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。

进一步的,所述相关系数确定模块302,在基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数时,所述相关系数确定模块302用于:

从所述基因型亲缘关系矩阵中提取出该目标个体的基因型亲缘关系向量;

从所述系谱亲缘关系矩阵中提取出该目标个体的系谱亲缘关系向量;

基于所述基因型亲缘关系向量和所述系谱亲缘关系向量,确定该目标个体的基因型亲缘关系向量与系谱亲缘关系向量之间的相关系数。

进一步的,所述第一目标个体确定模块303,在基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体时,所述第一目标个体确定模块303用于:

基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出相关系数的筛选条件;

针对每个目标个体,判断该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数是否满足所述相关系数的筛选条件;

若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数不满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录错误的第一目标个体;

若该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数满足所述相关系数的筛选条件,则判定该目标个体为系谱亲缘关系记录正确的第二目标个体。

进一步的,所述第三目标个体确定模304,通过以下方式确定所述第二父本目标个体的基因型亲缘关系的筛选条件:

识别所述第二父本目标个体对应的多个第二子代目标个体;

基于所述基因型亲缘关系矩阵,获取所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系;

基于获取的所述第二父本目标个体与各第二子代目标个体的基因型亲缘关系,确定该第二父本目标个体的基因型亲缘关系的筛选条件。

进一步的,所述第三目标个体确定模块304,在基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体时,所述第三目标个体确定模块304用于:

针对每个第二子代目标个体,判断该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;

当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系不满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录错误的第三目标个体;

当该第二子代目标个体与所述第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二子代目标个体为基因型亲缘关系记录正确的第四目标个体。

进一步的,所述父本目标个体确定模块305,在从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体时,所述父本目标个体确定模块305用于:

基于所述基因型亲缘关系矩阵,获取所述亲缘关系记录错误的目标个体与各第二父本目标个体的基因型亲缘关系;

针对每个第二父本目标个体,判断所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系是否满足该第二父本目标个体的基因型亲缘关系的筛选条件;

当所述亲缘关系记录错误的目标个体与该第二父本目标个体的基因型亲缘关系满足该第二父本目标个体的基因型亲缘关系的筛选条件时,判定该第二父本目标个体是所述亲缘关系记录错误的目标个体可能的父本目标个体;

当所述亲缘关系记录错误的目标个体与该第二父本目标个体的亲子系数不满足该第二父本目标个体的亲子系数的筛选条件时,判定该第二父本目标个体不是所述亲缘关系记录错误的目标个体可能的父本目标个体。

进一步的,所述第二父本目标个体的基因型亲缘关系的筛选条件包括:所述第二父本目标个体的基因型亲缘关系的取值范围。

本申请实施例提供的系谱的校正装置,通过获取目标个体之间的基因型亲缘关系矩阵以及系谱亲缘关系矩阵;针对每个目标个体,基于所述基因型亲缘关系矩阵和所述系谱亲缘关系矩阵,确定该目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数;基于获取的每个目标个体的基因型亲缘关系向量和系谱亲缘关系向量之间的相关系数,确定出系谱亲缘关系记录错误的第一目标个体和系谱亲缘关系记录正确的第二目标个体;针对第二目标个体中的每个第二父本目标个体,基于该第二父本目标个体的基因型亲缘关系的筛选条件,从该第二父本目标个体的多个第二子代目标个体中,确定出基因型亲缘关系记录错误的第三目标个体;将所述第一目标个体和所述第三目标个体确定为亲缘关系记录错误的目标个体,并从所述第二父本目标个体中,确定出该亲缘关系记录错误的目标个体可能的父本目标个体。本申请能够识别出系谱中亲缘关系记录错误的目标个体,并对记录错误的目标个体的亲缘关系进行校正,以得到更加准确的系谱。

请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器401、存储器402和总线403。

所述存储器402存储有所述处理器401可执行的机器可读指令,当电子设备400运行时,所述处理器401与所述存储器402之间通过总线403通讯,所述机器可读指令被所述处理器401执行时,可以执行如上述图1以及图2所示方法实施例中的系谱的校正方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的系谱的校正方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种系谱的校正方法及装置
  • 一种系谱追溯可视化方法及装置
技术分类

06120113209767