掌桥专利:专业的专利平台
掌桥专利
首页

基因填充方法、装置、计算机设备和存储介质

文献发布时间:2023-06-19 13:26:15


基因填充方法、装置、计算机设备和存储介质

技术领域

本申请涉及基因预测技术领域,特别是涉及一种基因填充方法、装置、计 算机设备和存储介质。

背景技术

人类基因分析是遗传病医学诊断中的一项重要工作,通常在临床和遗传学 中进行,如检测遗传异常。对于这种诊断,基因学家通常通过观察对比母本与 父本的特定基因,或将患者基因序列与原型人类的基因进行序列比对。然而, 测序过程中非常容易导致基因数据丢失,而基因数据丢失会给全基因组的分析 研究带来很大的挑战。

目前,研究人员提出了采用基因填充的方法解决基因丢失的问题。在基因 填充方法的研究过程中,先是基于传统隐马尔科夫模型(HMM)和蒙特卡洛 (MCMC)的机器学习方法推断基因序列,实现基因填充。后来随着近些年深 度学习的发展,许多全卷积网络的神经网络模型应用在了基因填充方法上,例 如U-net模型。

但是,上述方法均存在基因填充准确性低下的问题。

发明内容

基于此,有必要针对上述技术问题,提供一种能够有效提高基因填充准确 性的基因填充方法、装置、计算机设备和存储介质。

第一方面,一种基因填充方法,所述方法包括:

获取缺失基因序列;

将所述缺失基因序列输入至基因填充网络进行基因填充,得到所述缺失基 因序列对应的完整基因序列,其中,所述基因填充网络包括至少一个基因填充 子网络,不同的基因填充子网络用于填充不同缺失比例的缺失基因序列,每个 基因填充子网络预先根据生成对抗网络训练得到。

上述实施例提供的基因填充方法,通过获取缺失基因序列,并将缺失基因 序列输入至基因填充网络进行基因填充,得到缺失基因序列对应的完整基因序 列,其中,基因填充网络包括至少一个基因填充子网络,不同的基因填充子网 络用于填充不同缺失比例的缺失基因序列,每个基因填充子网络预先根据生成 对抗网络训练得到。上述方法不仅实现了对任意缺失比例的缺失基因序列进行 基因填充,还实现了基于生成对抗网络训练得到基因填充网络的基因填充方法, 且由于生成对抗网络是基于相互博弈的思想完成任务,因此生成对抗网络可以 将任意的随机噪声输入学习得到完整的基因填充输出,使得基于生成对抗网络 训练得到的基因填充子网络,相比于基于卷积神经网络训练得到的基因填充网 络,不需要基于基因缺失位置与所在的基因样本的动态连锁关系进行基因填充, 进而对周围基因的依赖程度较低,可以直接应用于具有复杂分布类型的基因填 充数据,不仅提高了基因填充的准确性,还提高了基因填充方法的普适性。

在其中一个实施例中,所述基因填充网络还包括:识别子网络,所述识别 子网络用于对所述缺失基因序列进行缺失比例识别,确定出所述缺失基因序列 的缺失比例,并根据所述缺失比例确定对应的基因填充子网络,以及将所述缺 失基因序列输入至确定的基因填充子网络。

上述实施例所述的基因填充网络通过识别子网络实现了自动识别输入的缺 失基因序列的缺失比例,并根据确定出的缺失比例自动选择对应的基因填充子 网络对缺失基因序列进行基因填充。基于此,本申请提供的基因填充方法不局 限于对某种缺失比例的缺失基因序列进行填充,可以适用于任意缺失比例的缺 失基因序列。

在其中一个实施例中,预先根据生成对抗网络训练得到所述基因填充子网 络的过程,包括:

获取完整基因序列样本和预设缺失比例的缺失基因序列样本;

将所述缺失基因序列样本输入至所述生成对抗网络中的生成子网络,得到 伪基因序列样本;

将所述完整基因序列样本和所述伪基因序列样本输入至所述生成对抗网络 中的判别子网络,得到判别结果;

根据所述判别结果训练所述生成子网络,并将训练得到的生成子网络作为 所述基因填充子网络。

上述实施例基于生成对抗网络训练得到基因填充子网络,由于生成对抗网 络所需的训练样本数据较少,突破了数据量的限制,因此基于小样本量的基因 序列就能训练得到用于准确实现基因填充的基因填充子网络,在一定程度上降 低了基因填充的实现难度。而且,生成对抗网络对输入数据的形式要求也不高, 更具有普适性,因此,利用生成对抗网络训练得到的基因填充子网络对多种类 型的基因序列的填充操作仍具有鲁棒性。

在其中一个实施例中,所述获取完整基因序列样本和预设缺失比例的缺失 基因序列样本,包括:

从预设基因数据库中获取不同物种的基因序列作为样本集;

根据所述样本集得到所述完整基因序列样本和预设缺失比例的所述缺失基 因序列样本。

上述实施例可以通过基因数据库直接获取到缺失基因序列样本,利用现有 的缺失基因序列样本进行训练,在一定程度上可以提高训练效果。

在其中一个实施例中,所述根据所述样本集得到所述完整基因序列样本和 预设缺失比例的所述缺失基因序列样本,包括:

将所述样本集中的基因序列作为所述完整基因序列样本;

按照所述预设缺失比例,对所述样本集中的基因序列进行随机缺失化处理, 得到预设缺失比例的所述缺失基因序列样本。

本实施例中的缺失基因序列样本是由完整基因序列样本生成的,所以缺失 基因序列样本和完整基因序列样本是完全对应的,可以提高后期基于该缺失基 因序列样本和完整基因序列样本训练基因填充网络的训练效果,使基因填充子 网络能够更为准确的进行基因填充。

在其中一个实施例中,所述根据所述样本集得到所述完整基因序列样本和 预设缺失比例的所述缺失基因序列样本,包括:

按照所述预设缺失比例,将所述样本集中预设数量的基因序列进行随机缺 失化处理,得到预设缺失比例的缺失基因序列样本;

将所述样本集中剩余的基因序列作为所述完整基因序列样本。

上述实施例通过对基因数据库中完整的基因序列进行随机缺失处理得到缺 失基因序列样本,该方法解决了现有基因数据库中因缺失基因序列较少,导致 难以获取缺失基因序列样本的问题,提高了上述基于缺失基因序列样本训练生 成对抗网络的方法的可行性和实用性。

在其中一个实施例中,所述获取缺失基因序列之后,所述方法还包括:

根据预设编码方式对所述缺失基因序列进行编码,生成所述缺失基因序列 对应的矩阵数据;

所述将所述缺失基因序列输入至基因填充网络进行基因填充,得到完整基 因序列,包括:

将所述矩阵数据输入至基因填充网络进行基因填充,得到完整基因序列。

上述实施例通过对缺失基因序列进行编码,使缺失基因序列能够转换为基 因填充网络能够识别的格式数据,以便提高基因填充网络对缺失基因序列进行 基因填充的准确性。

在其中一个实施例中,所述将所述矩阵数据输入至基因填充网络进行基因 填充,得到完整基因序列,包括:

将所述矩阵数据输入至基因填充网络进行基因填充,得到完整基因序列对 应的矩阵数据;

根据预设解码方式对所述完整基因序列对应的矩阵数据进行解码,生成所 述完整基因序列;所述预设解码方式与所述预设编码方式对应。

上述实施例通过对基因填充网络输出的数据进行解码,使基因填充网络输 出的数据能够转换为基因序列,以便得到与缺失基因序列对应的完整基因序列。

第二方面,一种基因填充装置,所述装置包括:

获取模块,用于获取缺失基因序列;

基因填充模块,用于将所述缺失基因序列输入至基因填充网络进行基因填 充,得到所述缺失基因序列对应的完整基因序列,其中,所述基因填充网络包 括至少一个基因填充子网络,不同的基因填充子网络用于填充不同缺失比例的 缺失基因序列,每个基因填充子网络预先根据生成对抗网络训练得到。

第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计 算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算 机程序被处理器执行时实现上述第一方面所述的方法。

附图说明

图1为一个实施例中计算机设备的内部结构图;

图2为一个实施例中基因填充方法的流程示意图;

图3为一个实施例中基因填充网络的结构示意图;

图4为一个实施例中基因填充网络的结构示意图;

图5为一个实施例中基因填充方法的流程示意图;

图6为一个实施例中基因填充方法的流程示意图;

图7为一个实施例中生成对抗网络的结构示意图的流程示意图;

图8为一个实施例中基因填充方法的流程示意图;

图9为一个实施例中基因填充方法的流程示意图;

图10为一个实施例中基因填充方法的流程示意图;

图11为一个实施例中基因填充方法的流程示意图;

图12为一个实施例中基因填充方法的流程示意图;

图13为一个实施例中基因填充方法的流程示意图;

图14为一个实施例中基因填充装置的结构框图;

图15为一个实施例中基因填充装置的结构框图;

图16为一个实施例中基因填充装置的结构框图;

图17为一个实施例中基因填充装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅 用以解释本申请,并不用于限定本申请。

本申请提供的基因填充方法,可以应用于如图1所示的计算机设备中,该 计算机设备可以是服务器,该计算机设备也可以是终端,其内部结构图可以如 图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、 显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。

该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介 质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系 统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端 通过网络连接通信。该计算机程序被处理器执行时以实现一种基因填充方法。

该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的 按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。

在一个实施例中,如图2所示,提供了一种基因填充方法,以该方法应用 于图1中的计算机设备为例进行说明,包括以下步骤:

S101,获取缺失基因序列。

其中,缺失基因序列为待填充的基因序列,具体可以为带有一定缺失比例 的基因序列,该缺失比例可以为任意比例,比如,10%缺失的基因序列、20%缺 失的基因序列、30%缺失的基因序列等。

本实施例中,计算机设备可以从任意的基因数据库中获取缺失基因序列, 也可以从基因实验研究过程中获取缺失基因序列,以便之后对缺失基因序列进 行填充,得到完整基因序列,促进实验研究。上述基因数据库可以为任意物种 的公共数据库,比如,Animal-ImputeDB公共数据库。

S102,将缺失基因序列输入至基因填充网络进行基因填充,得到完整基因 序列。

其中,如图3所示,基因填充网络包括至少一个基因填充子网络,且若包 括多个基因填充子网络,则多个基因填充子网络并列排布,每个基因填充子网 络用于填充不同缺失比例的缺失基因序列,每个基因填充子网络都是预先根据 生成对抗网络训练得到。

本实施例中,计算机设备可以预先构建生成对抗网络,并基于预设缺失比 例的缺失基因序列样本和完整基因序列样本训练构建的生成对抗网络,进而根 据训练好的生成对抗网络得到基因填充子网络,该训练得到的基因填充子网络 即可用于对预设缺失比例的缺失基因序列进行基因填充,进而得到对应完整基 因序列。需要说明的是,当基因填充网络中包括多个基因填充子网络时,计算 机设备可以预先构建多个生成对抗网络,并分别基于不同的预设缺失比例的缺 失基因序列样本和完整基因序列样本训练构建的多个生成对抗网络,那么根据 训练好的多个生成对抗网络可以得到多个基因填充子网络,且多个基因填充子 网络可以用于填充不同缺失比例的缺失基因序列,进而输出不同缺失比例的缺失基因序列对应的完整基因序列。当计算机设备训练生成对抗网络得到多个基 因填充子网络时,可以将多个基因填充子网络共同构成基因填充网络。

在实际应用中,计算机设备在获取到缺失基因序列时,若该缺失基因序列 为一个带有一定缺失比例的缺失基因序列,则将该缺失基因序列输入至基因填 充网络,使基因填充网络中用于进行相应缺失比例的基因填充子网络对该缺失 基因序列进行基因填充,得到该缺失基因序列对应的完整基因序列。比如,若 缺失基因序列为10%缺失比例的缺失基因序列,则使用如图3中所述的10%的 基因填充子网络对该缺失基因序列进行基因填充。可选的,当计算机设备获取 到的缺失基因序列为多个不同缺失比例的缺失基因序列时,计算机设备可以同 时将多个缺失基因序列输入至基因填充网络中,基因填充网络中的各基因填充 子网络分别对不同缺失比例的缺失基因序列进行基因填充,得到各缺失基因序 列各自对应的完整基因序列。

上述实施例提供的基因填充方法,通过获取缺失基因序列,并将缺失基因 序列输入至基因填充网络进行基因填充,得到缺失基因序列对应的完整基因序 列,其中,基因填充网络包括至少一个基因填充子网络,不同的基因填充子网 络用于填充不同缺失比例的缺失基因序列,每个基因填充子网络预先根据生成 对抗网络训练得到。上述方法不仅实现了对任意缺失比例的缺失基因序列进行 基因填充,还实现了基于生成对抗网络训练得到基因填充网络的基因填充方法, 且由于生成对抗网络是基于相互博弈的思想完成任务,因此生成对抗网络可以 将任意的随机噪声输入学习得到完整的基因填充输出,使得基于生成对抗网络 训练得到的基因填充子网络,相比于基于卷积神经网络训练得到的基因填充网 络,不需要基于基因缺失位置与所在的基因样本的动态连锁关系进行基因填充, 进而对周围基因的依赖程度较低,可以直接应用于具有复杂分布类型的基因填 充数据,不仅提高了基因填充的准确性,还提高了基因填充方法的普适性。

基于上述图3所述的基因填充网络结构,本申请还提供了一种基因填充网 络,如图4所示,该基因填充网络还包括:识别子网络,识别子网络用于对缺 失基因序列进行识别,确定出缺失基因序列的缺失比例,并根据缺失比例确定 对应的基因填充子网络,以及将缺失基因序列输入至确定的基因填充子网络。

本实施例中,当计算机设备获取到缺失基因序列时,并不知道该缺失基因 序列的缺失比例,因此,可以将该缺失基因序列输入至基因填充网络中的识别 子网络中进行缺失比例识别,得到该缺失基因序列的缺失比例,然后按照该缺 失比例确定对应的基因填充子网络,以及将缺失基因序列输入至确定的基因填 充子网络进行基因填充。需要说明的是,当计算机设备获取到多个缺失基因序 列,且多个缺失基因序列为不同缺失比例的缺失基因序列时,计算机设备可以 依次将多个缺失基因序列输入至识别子网络,使识别子网络依次识别出不同缺 失基因序列的缺失比例,并分别按照不同的缺失比列选择不同的基因填充子网 路后,将不同的缺失基因序列输入至各自对应的基因填充子网络中进行基因填充,得到各缺失基因序列对应的完整基因序列。

上述实施例所述的基因填充网络通过识别子网络实现了自动识别输入的缺 失基因序列的缺失比例,并根据确定出的缺失比例自动选择对应的基因填充子 网络对缺失基因序列进行基因填充。基于此,本申请提供的基因填充方法不局 限于对某种缺失比例的缺失基因序列进行填充,可以适用于任意缺失比例的缺 失基因序列。

在实际应用中,当计算机设备获取到缺失基因序列时,还可以先对缺失基 因序列进行预处理,使缺失基因序列能够转换为基因填充网络能够识别的格式 数据,比如向量数据或矩阵数据,因此,还提供一种对基因序列进行预处理的 方式。如图5所示,图2实施例所述的方法还包括:

S103,根据预设编码方式对缺失基因序列进行编码,生成缺失基因序列对 应的矩阵数据。

其中,预设编码方式用于将基因序列转换为矩阵数据或向量数据,预设编 码方式可以是任一种能够转换基因序列的编码方式,此处不限定。

本实施例涉及对缺失基因序列进行预处理的过程,即,当计算机设备获取 到原始的缺失基因序列时,需要根据预设编码方式对缺失基因序列进行编码, 生成缺失基因序列对应的矩阵数据。比如,按照四类四维二进制数据的编码方 式将缺失基因序列编排成四种不同的数据组合,以矩阵数据呈现。

对应的,上述S102的步骤包括:将矩阵数据输入至基因填充网络进行基因 填充,得到完整基因序列。

具体使用基因填充网络对输入的数据进行基因填充的方式,前述S102中有 说明,详细内容请参见前述说明,此处不赘述。

上述实施例通过对缺失基因序列进行编码,使缺失基因序列能够转换为基 因填充网络能够识别的格式数据,以便提高基因填充网络对缺失基因序列进行 基因填充的准确性。

对应的,计算机设备在对缺失基因序列进行编码后生成矩阵数据,再将矩 阵数据输入基因填充网络进行处理,那么自然基因填充网络输出的数据也为矩 阵数据,在此情况下,还需要对基因填充网络输出的矩阵数据进行解码,进而 得到原始基因格式的完整基因序列,所以上述S102的步骤,如图6所示,包括:

S1021,将矩阵数据输入至基因填充网络进行基因填充,得到完整基因序列 对应的矩阵数据。

该步骤与上述S102的步骤基本一致,详细内容请参见前述说明,此处不赘 述。

S1022,根据预设解码方式对完整基因序列对应的矩阵数据进行解码,生成 完整基因序列。

其中,预设解码方式用于将矩阵数据或向量数据转换为基因序列,预设解 码方式与之前的预设编码方式对应。

本实施例涉及对基因填充网络输出的数据进行后处理的过程,即,当计算 机设备获取基因填充网络输出的完整基因序列对应的矩阵数据时,需要根据预 设解码方式对基因填充网络输出的矩阵数据进行解码,生成矩阵数据对应的完 整基因序列。

上述实施例通过对基因填充网络输出的数据进行解码,使基因填充网络输 出的数据能够转换为基因序列,以便得到与缺失基因序列对应的完整基因序列。

在一个实施例中,本申请提供了训练得到上述每个基因填充子网络的方法, 该方法可以应用于如图7所示的生成对抗网络实现,且如图8所示,该训练方 法包括:

S201,获取完整基因序列样本和预设缺失比例的缺失基因序列样本。

其中,预设缺失比例可以由计算机设备预先根据实际训练需求确定,比如, 若需要训练得到的基因填充子网络对10%缺失的基因序列有最佳的基因填充效 果,则设置预设缺失比例为10%;若需要训练得到的基因填充子网络对20%缺 失的基因序列有最佳的基因填充效果,则设置预设缺失比例为20%;若需要训 练得到的基因填充子网络对30%缺失的基因序列有最佳的基因填充效果,则设 置预设缺失比例为30%。

本实施例中,从任意公共数据库中获取不同物种基因序列,比如,鸡、鸭、 猪和狗的基因序列,生成大量的基因序列样本,一般情况下从公共数据库中获 取到的基因序列为完整基因序列,但是因存储不当因素或使用因素不排除也存 在缺失基因序列,因此,计算机设备从公共数据库中获取到大量的基因序列样 本时,可以从中筛选出一些完整基因序列作为完整基因序列样本,对应数量的 预设缺失比例的缺失基因序列作为缺失基因序列样本。由于生成对抗网络对数 据量的要求不高,所以基于上述方法可以获取到完整基因序列样本和缺失基因 序列样本的样本量即使较小,也不会影响后期使用小样本量的样本数据训练生 成对抗网络得到基因填充网络。

S202,将缺失基因序列样本输入至生成对抗网络中的生成子网络,得到伪 基因序列样本。

其中,伪基因序列样本为假的完整的基因序列。生成对抗网络由生成子网 络和判别子网络构成(参见图7所示的生成对抗网络),生成子网络用于对输入 的预设缺失比例的缺失基因序列样本进行基因填充,生成伪基因序列样本。判 别子网络用于判别伪基因序列样本是否接近真的完整的基因序列。

本实施例中,当计算机设备获取到预设缺失比例的缺失基因序列样本时, 可以先将缺失基因序列样本进行预处理,具体的,可以将缺失基因序列样本进 行预设编码方式的基因编码,按照一定的编排格式将缺失基因序列样本中的缺 失基因序列转换为基因序列样本对应的矩阵数据,然后再将基因序列样本对应 的矩阵数据输入至生成子网络,得到伪基因序列样本,例如,对缺失基因序列 进行基因编码生生16*16的矩阵数据作为生成子网络的输入,便可将生成子网 络的通道设置为128。具体的,可以一次将缺失基因序列样本中包含的所有缺失 基因序列进行预处理后输入至生成子网络,也可以先后将缺失基因序列样本中 包含的所有缺失基因序列进行预处理后依次输入至生成子网络,当然也可以一 次将缺失基因序列样本中包含的一个缺失基因序列进行预处理后输入至生成子 网络。

S203,将完整基因序列样本和伪基因序列样本输入至生成对抗网络中的判 别子网络,得到判别结果。

当生成子网络输出伪基因序列样本时,计算机设备可以进一步的将伪基因 序列样本与之前获取到的完整基因序列样本同时输入至判别子网络进行判别, 具体判别伪基因序列样本是否接近完整基因序列样本,得到判别结果。判别结 果可以表示伪基因序列样本接近完整基因序列样本的程度,可以用[0~1]的数值 表示,1代表伪基因序列样本完全接近完整基因序列样本,即达到了以假乱真的 程度;0代表伪基因序列样本与完整基因序列样本完全不同,即伪基因序列样本 并非完整基因序列。需要说明的是,在计算机设备将伪基因序列样本与之前获 取到的完整基因序列样本同时输入至判别子网络之前,也需要将完整基因序列 样本和伪基因序列样本进行预设编码方式的编码,具体将完整基因序列样本和 伪基因序列样本转换为矩阵数据后输入至判别子网络。

S204,根据判别结果训练生成子网络,并将训练得到的生成子网络作为基 因填充子网络。

当计算机设备获取到判别结果时,通过设定目标损失函数,并将判别结果 代入到目标损失函数中计算得到损失值,再根据损失值对生成子网络和判别子 网络进行交替训练,得到训练好的生成子网络和判别子网络,然后将训练好的 生成子网络作为基因填充子网络进行使用。需要说明的是,上述交替训练过程 可以通过训练一次判别子网络,基于一次训练好的判别子网络对生成子网络进 行多次训练,如此交替往复训练,直到损失值达到预设要求为止,即完成对生 成子网络的训练;可选的,上述交替训练过程也可以相等频次的同时训练生成 子网络和判别子网络,如此交错往复训练,直到损失值达到预设要求为止,即 完成对生成子网络的训练。

可以理解的是,上述图8实施例是对一个基因填充子网络进行训练的过程, 当图2实施例中提出的基因填充网络中包括多个基因填充子网络时,可以采用 如图8实施例所述的方法基于多个的生成对抗网络训练得到多个基因填充子网 络,每个基因填充子网络的训练过程基本一致,可以独立训练,仅是需要设置 不同的预设缺失比例的缺失基因序列样本即可实现训练得到用于填充不同缺失 比例的缺失基因序列的基因填充子网。

上述实施例基于生成对抗网络训练得到基因填充子网络,由于生成对抗网 络所需的训练样本数据较少,突破了数据量的限制,因此基于小样本量的基因 序列就能训练得到用于准确实现基因填充的基因填充子网络,在一定程度上降 低了基因填充的实现难度。而且,生成对抗网络对输入数据的形式要求也不高, 更具有普适性,因此,利用生成对抗网络训练得到的基因填充子网络对多种类 型的基因序列的填充操作仍具有鲁棒性。

进一步的,提供了上述S201的一种实现方式,如图9所示,上述S201“获 取完整基因序列样本和预设缺失比例的缺失基因序列样本”,包括:

S301,从预设基因数据库中获取不同物种的基因序列作为样本集。

本实施例中的预设基因数据库可以为Animal-ImputeDB公共数据库,预设 基因数据库中存储有完整的基因序列,也存储有不同缺失比例的缺失的基因序 列,且预设基因数据库中存储有不同物种的基因序列。计算机设备可以从预设 基因数据库中筛选一定数量的基因序列进行下载作为样本集,以备训练时使用。 筛选的基因序列可以全是完整的基因序列,也可以既包括一些完整的基因序列, 也包括一些缺失的基因序列。

S302,根据样本集得到完整基因序列样本和预设缺失比例的缺失基因序列 样本。

当计算机设备从预设基因数据库中下载得到样本集,且样本集同时包含完 整的基因序列和缺失的基因序列时,计算机设备可以从样本集中将完整的基因 序列直接作为完整基因序列样本,将缺失的基因序列再次进行筛选,筛选出预 设缺失比例的缺失的基因序列,并将预设缺失比例的缺失的基因序列直接作为 缺失基因序列样本。该实施例可以通过基因数据库直接获取到缺失基因序列样 本,利用现有的缺失基因序列样本进行训练,在一定程度上可以提高训练效果。

可选的,当样本集中包含的都是完整的基因序列时,提供了两种实现方式 获取完整基因序列样本和预设缺失比例的缺失基因序列样本:

即,第一种实现方式,如图10所示,通过以下步骤实现:

S401,按照预设缺失比例,将样本集中的预设数量的基因序列进行随机缺 失化处理,得到预设缺失比例的缺失基因序列样本。

其中,预设缺失比例可以由计算机设备预先根据实际训练需求确定,比如, 若需要训练得到的基因填充网络对10%缺失的基因序列有最佳的基因填充效 果,则设置预设缺失比例为10%;若需要训练得到的基因填充网络对20%缺失 的基因序列有最佳的基因填充效果,则设置预设缺失比例为20%;若需要训练 得到的基因填充网络对30%缺失的基因序列有最佳的基因填充效果,则设置预 设缺失比例为30%。预设数量可以由计算机设备预先根据实际训练需求和样本 集大小确定,此处不限定。

本实施例中,当计算机设备获取到样本集时,可以从中筛选出部分的基因 序列,具体的可以筛选出一半数量的基因序列,按照预设缺失比例进行随机缺 失化处理,根据筛选出的基因序列生成预设缺失比例的缺失基因序列样本。比 如,将筛选出的基因序列进行随机缺失化处理后得到10%缺失的缺失基因序列 样本。

S402,将样本集中剩余的基因序列作为完整基因序列样本。

本实施例中,当计算机设备根据上述步骤根据样本集中的预设数量的基因 序列获取到缺失基因序列样本时,可以将样本集中剩余的基因序列作为完整基 因序列样本,比如,样本集中的另一半基因序列作为完整基因序列样本。因为 本实施例中样本集包含的都是完整的基因序列,因此可以将剩余部分的基因序 列作为完整基因序列样本。

上述实施例通过对基因数据库中完整的基因序列进行随机缺失处理得到缺 失基因序列样本,该方法解决了现有基因数据库中因缺失基因序列较少,导致 难以获取缺失基因序列样本的问题,提高了上述基于缺失基因序列样本训练生 成对抗网络的方法的可行性和实用性。

第二种实现方式,如图11所示,通过以下步骤实现:

S501,将样本集中的基因序列作为完整基因序列样本。

因为本实施例中样本集包含的都是完整的基因序列,因此可以直接将样本 集中的基因序列作为完整基因序列样本。

S502,按照预设缺失比例,对样本集中的基因序列进行随机缺失化处理, 得到预设缺失比例的缺失基因序列样本。

本实施例中,当计算机设备得到完整基因序列样本时,按照预设缺失比例 对完整基因序列样本进行随机缺失化处理,得到预设缺失比例的缺失基因序列 样本。本实施例中的缺失基因序列样本是由完整基因序列样本生成的,所以缺 失基因序列样本和完整基因序列样本是完全对应的,可以提高后期基于该缺失 基因序列样本和完整基因序列样本训练基因填充网络的训练效果,使基因填充 子网络能够更为准确的进行基因填充。

综合上述所有实施例,本申请还提供一种基因填充方法,该基因填充方法 应用于如图4所示的基因填充网络,如图12所示,该方法包括:

S601,获取缺失基因序列。

S602,根据预设编码方式对缺失基因序列进行编码,生成缺失基因序列对 应的矩阵数据。

S603,将缺失基因序列对应的矩阵数据输入至识别子网络进行缺失比例识 别,得到缺失基因序列的缺失比例。

S604,根据缺失基因序列的缺失比例确定对应的基因填充子网络。

S605,将缺失基因序列对应的矩阵数据输入至确定的基因填充子网络进行 基因填充,得到缺失基因序列对应的完整基因序列。

上述各步骤在前述均有说明,详细内容请参见前述说明,此处不赘述。

可选的,本申请还提供一种基因填充方法,该基因填充方法应用于如图4 所示的基因填充网络,如图13所示,该方法包括:

S701,获取多个不同缺失比例的缺失基因序列。

S702,根据预设编码方式对多个缺失基因序列分别进行编码,生成多个缺 失基因序列对应的矩阵数据。

S703,将多个缺失基因序列对应的矩阵数据输入至识别子网络分别进行缺 失比例识别,得到各缺失基因序列的缺失比例。

S704,根据各缺失基因序列的缺失比例确定各自对应的基因填充子网络。

S705,将多个缺失基因序列对应的矩阵数据分别输入至确定的各自对应的 基因填充子网络进行基因填充,得到各缺失基因序列对应的完整基因序列。

上述各步骤在前述均有说明,详细内容请参见前述说明,此处不赘述。

图12实施例实现了对一个带有一定缺失比例的缺失基因序列的基因填充, 图13实施例实现了对多个带有不同缺失比例的缺失基因序列的基因填充,因此, 本申请提出的基因填充方法可以适用于多种缺失比例的缺失基因序列的填充需 求,普适性极高。而且,由于基因填充网络中包含的各基因填充子网络均是通 过不同的生成对抗网络按照不同的预设缺失比例的训练样本训练得到的,因此, 各基因填充子网络对各自缺失比例的缺失基因序列的填充效果都是最佳的,所 以本申请提出的基因填充网络对各种缺失比例的缺失基因序列填充的准确性极 高。

应该理解的是,虽然图2-13的流程图中的各个步骤按照箭头的指示依次显 示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明 确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺 序执行。而且,图2-13中的至少一部分步骤可以包括多个步骤或者多个阶段, 这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执 行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤 或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图14所示,提供了一种基因填充装置,包括:

获取模块11,用于获取缺失基因序列。

基因填充模块12,用于将所述缺失基因序列输入至基因填充网络进行基因 填充,得到所述缺失基因序列对应的完整基因序列,其中,所述基因填充网络 包括至少一个基因填充子网络,不同的基因填充子网络用于填充不同缺失比例 的缺失基因序列,每个基因填充子网络预先根据生成对抗网络训练得到。

在一个实施例中,所述基因填充网络还包括:识别子网络,所述识别子网 络用于对所述缺失基因序列进行缺失比例识别,确定出所述缺失基因序列的缺 失比例,并根据所述缺失比例确定对应的基因填充子网络,以及将所述缺失基 因序列输入至确定的基因填充子网络。

在一个实施例中,如图15所示,上述装置还包括:训练模块13,该训练模 块13,包括:

第一获取单元131,用于获取完整基因序列样本和预设缺失比例的缺失基因 序列样本;

第二获取单元132,用于将所述缺失基因序列样本输入至所述生成对抗网络 中的生成子网络,得到伪基因序列样本;

第三获取单元133,用于将所述完整基因序列样本和所述伪基因序列样本输 入至所述生成对抗网络中的判别子网络,得到判别结果;

训练单元134,用于根据所述判别结果训练所述生成子网络,并将训练得到 的生成子网络作为所述基因填充子网络。

在一个实施例中,如图16所示,上述第一获取单元131包括:

获取子单元1311,用于从预设基因数据库中获取不同物种的基因序列作为 样本集;

确定子单元1312,用于根据所述样本集得到所述完整基因序列样本和预设 缺失比例的所述缺失基因序列样本。

在一个实施例中,上述获取子单元1311具体用于将所述样本集中的基因序 列作为所述完整基因序列样本;按照所述预设缺失比例,对所述样本集中的基 因序列进行随机缺失化处理,得到预设缺失比例的所述缺失基因序列样本。

在一个实施例中,上述获取子单元1311具体用于按照所述预设缺失比例, 将所述样本集中预设数量的基因序列进行随机缺失化处理,得到预设缺失比例 的缺失基因序列样本;将所述样本集中剩余的基因序列作为所述完整基因序列 样本。

在一个实施例中,如图17所示,上述装置还包括:

编码模块13,用于根据预设编码方式对所述缺失基因序列进行编码,生成 所述缺失基因序列对应的矩阵数据;

对应的,上述基因填充模块12具体用于将所述矩阵数据输入至基因填充网 络进行基因填充,得到完整基因序列;还具体用于将所述矩阵数据输入至基因 填充网络进行基因填充,得到完整基因序列对应的矩阵数据;根据预设解码方 式对所述完整基因序列对应的矩阵数据进行解码,生成所述完整基因序列;所 述预设解码方式与所述预设编码方式对应。

关于基因填充装置的具体限定可以参见上文中对于基因填充方法的限定, 在此不再赘述。上述基因填充装置中的各个模块可全部或部分通过软件、硬件 及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处 理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调 用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器 中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取缺失基因序列;

将所述缺失基因序列输入至基因填充网络进行基因填充,得到所述缺失基 因序列对应的完整基因序列,其中,所述基因填充网络包括至少一个基因填充 子网络,不同的基因填充子网络用于填充不同缺失比例的缺失基因序列,每个 基因填充子网络预先根据生成对抗网络训练得到。

上述实施例提供的一种计算机设备,其实现原理和技术效果与上述方法实 施例类似,在此不再赘述。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现以下步骤:

获取缺失基因序列;

将所述缺失基因序列输入至基因填充网络进行基因填充,得到所述缺失基 因序列对应的完整基因序列,其中,所述基因填充网络包括至少一个基因填充 子网络,不同的基因填充子网络用于填充不同缺失比例的缺失基因序列,每个 基因填充子网络预先根据生成对抗网络训练得到。

上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上 述方法实施例类似,在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的 至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁 带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory, SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的 普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改 进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权 利要求为准。

技术分类

06120113676783