掌桥专利:专业的专利平台
掌桥专利
首页

一种高通量转录组测序数据与性状关联分析系统及方法

文献发布时间:2023-06-19 11:05:16


一种高通量转录组测序数据与性状关联分析系统及方法

技术领域

本发明涉及生物信息技术领域,具体而言,涉及一种高通量转录组测序数据与性状关联分析系统及方法。

背景技术

转录组广义上指某一生理条件下,细胞内所有转录产物的集合,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。蛋白质是行使细胞功能的主要承担者,蛋白质组是细胞功能和状态的最直接描述,转录组成为研究基因表达的主要手段,转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带,转录水平的调控是目前研究最多的,也是生物体最重要的调控方式。而高通量测序技术又称“下一代”测序技术,以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志。

挖掘重要性状的候选基因是动植物遗传育种领域的一项主要研究内容,它对于分子辅助育种,包括基因组选择和基因编辑都具有重要意义。目前,高通量转录组测序已成为遗传育种领域挖掘重要性状候选基因所使用的主流方法之一。

对于数量性状,现有技术未充分利用个体的表型信息,其将连续变化的数据类型简单地按照分类性状处理,降低了基因挖掘的功效,增加了假阳性率。为此,有必要研发一种高通量转录组测序数据与性状关联分析方法,以提高基因挖掘功效,降低假阳性率。

发明内容

基于此,为了解决现有技术未充分利用个体的表型信息,将连续变化的数据类型简单地按照分类性状处理而降低基因挖掘功效以及增加假阳性率的问题,本发明提供了一种高通量转录组测序数据与性状关联分析系统及方法,其具体技术方案如下:

一种高通量转录组测序数据与性状关联分析系统,其包括:

数据获取模块,用于获取对象的高通量转录组测序数据以及性状表型值;

表达量获取模块,用于根据所述高通量转录组测序数据获取所述对象的每个基因的归一化表达量;

拟合模块,用于通过线性回归模型拟合所述对象的性状表型值与每个所述基因的归一化表达量之间的关系;

求解分析模块,用于求解所述线性回归模型并将所有效应不为零的基因作为与性状关联的基因。

进一步地,所述线性回归模型的表达式为

进一步地,所述求解分析模块包括算法单元,所述算法单元用于根据弹性网络算法求解所述线性回归模型。

进一步地,所述弹性网络算法的最小目标函数为

本发明还提供一种高通量转录组测序数据与性状关联分析方法,其包括如下步骤:

获取对象的高通量转录组测序数据以及性状表型值;

根据所述高通量转录组测序数据获取所述对象的每个基因的归一化表达量;

通过线性回归模型拟合所述对象的性状表型值与每个所述基因的归一化表达量之间的关系;

求解所述线性回归模型并将所有效应不为零的基因作为与性状关联的基因。

上述高通量转录组测序数据与性状关联分析方法根据所述高通量转录组测序数据来获取所述对象的每个基因的归一化表达量,充分利用了对象的表型信息,其通过求解所述线性回归模型,解决了现有技术未充分利用个体的表型信息,将连续变化的数据类型简单地按照分类性状处理而降低基因挖掘功效以及增加假阳性率的问题,能够有效挖掘重要性状的候选基因,提高了基因挖掘功效,降低了假阳性率。

进一步地,所述线性回归模型的表达式为

进一步地,根据弹性网络算法求解所述线性回归模型。

进一步地,所述弹性网络算法的最小目标函数为

进一步地,在拟合所述对象的性状表型值与每个所述基因的归一化表达量之间的关系前,先对所述性状表型值以及每个所述基因的表达量进行标准化处理以使每个所述基因的表达量的均值以及每个所述基因的表达量方差分别为0和1。

本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如上述所述的一种高通量转录组测序数据与性状关联分析方法。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在不同的视图中,相同的附图标记指定对应的部分。

图1是本发明一实施例中一种高通量转录组测序数据与性状关联分析方法的整体流程示意图。

具体实施方式

为了使得本发明的目的、技术方案及优点更加清楚明白,以下结合其实施例,对本发明进行进一步详细说明。应当理解的是,此处所描述的具体实施方式仅用以解释本发明,并不限定本发明的保护范围。

需要说明的是,当元件被称为“固定于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本发明中所述“第一”、“第二”不代表具体的数量及顺序,仅仅是用于名称的区分。

本发明一实施例中的一种高通量转录组测序数据与性状关联分析系统,其包括:

数据获取模块,用于获取对象的高通量转录组测序数据以及性状表型值;

表达量获取模块,用于根据所述高通量转录组测序数据获取所述对象的每个基因的归一化表达量;

拟合模块,用于通过线性回归模型拟合所述对象的性状表型值与每个所述基因的归一化表达量之间的关系;

求解分析模块,用于求解所述线性回归模型并将所有效应不为零的基因作为与性状关联的基因。

在其中一个实施例中,所述线性回归模型的表达式为

在其中一个实施例中,所述求解分析模块包括算法单元,所述算法单元用于根据弹性网络算法求解所述线性回归模型。

在其中一个实施例中,所述对象为鸡胸肌重,试验设计为随机选取试验鸡400只,然后测定400只鸡的胸肌重,并以鸡胸肌重为样本进行高通量转录组测序。

在其中一个实施例中,所述弹性网络算法的最小目标函数为

在其中一个实施例中,如图1所示,本发明提供一种高通量转录组测序数据与性状关联分析方法,其包括如下步骤:

获取对象的高通量转录组测序数据以及性状表型值;

根据所述高通量转录组测序数据获取所述对象的每个基因的归一化表达量;

通过线性回归模型拟合所述对象的性状表型值与每个所述基因的归一化表达量之间的关系;

求解所述线性回归模型并将所有效应不为零的基因作为与性状关联的基因。

上述高通量转录组测序数据与性状关联分析方法根据所述高通量转录组测序数据来获取所述对象的每个基因的归一化表达量,充分利用了对象的表型信息,其通过求解所述线性回归模型,解决了现有技术未充分利用个体的表型信息,将连续变化的数据类型简单地按照分类性状处理而降低基因挖掘功效以及增加假阳性率的问题,能够有效挖掘重要性状的候选基因,提高了基因挖掘功效,降低了假阳性率。

在其中一个实施例中,所述线性回归模型的表达式为

在其中一个实施例中,根据弹性网络算法求解所述线性回归模型。所述弹性网络算法是综合Lasso回归算法以及岭回归算法的一种回归算法,其通过在损失函数中增加L1正则项和L2正则项来控制单个系数对结果的影响。由于所述弹性网络算法允许在循环过程中继承岭回归算法的稳定性,故而可以进一步基因挖掘功效,降低假阳性率。

在其中一个实施例中,所述弹性网络算法的最小目标函数为

在其中一个实施例中,所述λ和α为误差不大于最小误差加一个标准误差范围内的调整参数,二者通过交叉验证的方法确定。

在其中一个实施例中,在拟合所述对象的性状表型值与每个所述基因的归一化表达量之间的关系前,先对所述性状表型值以及每个所述基因的表达量进行标准化处理以使每个所述基因的表达量的均值以及每个所述基因的表达量方差分别为0和1。

在其中一个实施例中,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如上述所述的一种高通量转录组测序数据与性状关联分析方法。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

相关技术
  • 一种高通量转录组测序数据与性状关联分析系统及方法
  • 一种高通量转录组测序数据的分析方法
技术分类

06120112791232