掌桥专利:专业的专利平台
掌桥专利
首页

一种归一化并比较水平基因转移网络的方法

文献发布时间:2023-06-19 19:28:50



技术领域

本发明涉及基因转移网络技术领域,尤其涉及一种归一化并比较水平基因转移网络的方法。

背景技术

人体微生物和人类有着复杂的相互作用。研究发现,人体微生物和多种疾病都相关。人体微生物是个复杂的生态系统,以肠道微生物组为例,Ferretti等人利用菌株水平的宏基因组图谱来跟踪母婴间的细菌传播;他们发现母婴对中共有的菌株;在最近关于肠道微生物组的研究中,不少研究者建立了宏基因组和人类表型之间的联系,但这些工作未能从系统的角度对肠道微生物组进行建模。近年,研究人员应用HGT网络分析宏基因组,提取微生物组的特征,并探寻微生物组和表型的关联。

存在的缺点或不足:

虽然目前研究者建立了宏基因组和人类表型之间的联系,但是这些工作无法从系统的角度对肠道微生物区系进行建模。HGT网络是一种系统性分析宏基因组的工具,然而由于HGT网络会受到测序数据量的影响,可能会导致一些假阳性的宏基因组和表型的关联,因此需要归一化并比较水平基因转移网络。本发明涉及一种归一化HGT网络,并计算HGT网络拓扑属性的方法。可以标准化的比较试验组和对照组的宏基因组,从而系统性地建模并分析宏基因组。

发明内容

本发明的目的是为了解决现有技术中存在的缺陷,而提出的归一化并比较水平基因转移网络的方法。

为了实现上述目的,本发明采用了如下技术方案:

一种归一化并比较水平基因转移网络的方法,包括以下步骤:

S1:采用贝叶斯概率模型将HGT根据测序量进行归一化;

S2:在HGT网络中,将每个基因组被表示为一个顶点,其中,如果HGT发生在两个基因组之间,则在两个顶点之间有一条边;

S3:采用不同的分类级别对基因组序列进行注释,得到了不同分类等级的HGT网络;

S4:通过图的密度、传递性、同配性和代数连通性几种拓扑性质对HGT网络进行分析。

进一步地,在步骤S1中:使用LocalHGT来检测每个样本中的HGT,并且得到支持每个HGT断点对的reads数量,其中,当所有样本中的平均reads数目为Q时,根据模型推断;

当总reads数目为Q时,则支持每个HGT断点对的reads数目的概率分布,根据这个概率分布,过滤HGT断点;

过滤标准为:在总reads数目为Q的情况下,预期的reads数目大于x(默认为2)的概率高于90%。

进一步地,在步骤S4中:图密度表示图中存在的边的数目除以图可能具有的最大边数;

传递性为通过观察到的三角形数与图中可能的最大三角形数之比计算获得,传递性度量顶点的相邻顶点相互连接的总体概率;

同配性为图中的节点与具有相似度的节点相连接的趋势,通过关联度与关联度的皮尔逊相关系数来量化关联度;

代数连通度是图的拉普拉斯矩阵的第二小特征值;

拓扑属性是使用Python模块NetworkX计算。

相比于现有技术,本发明的有益效果在于:

由于HGT事件会受到测序数据量的影响,因此在所有样本中使用贝叶斯模型根据测序量对HGT事件进行归一化处理,大大减少了HGT网络受测序数据量的影响所导致一些假阳性的宏基因组和表型关联的情况发生,并且使试验组和对照组的宏基因组比较更加标准化。

对基因组在不同的分类水平上进行注释,我们得到不同水平的HGT网络。使用图密度、传递性、同配性和代数连通性来描述网络,并在不同组别间的样本中比较HGT网络,以对宏基因组和人体表型关联提供新的分析方向。通过计算多种拓扑属性来分析HGT网络,也能更加系统性地建模并分析宏基因组。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

归一化并比较水平基因转移网络的方法,一种归一化并比较水平基因转移网络的方法,包括以下步骤:

S1:采用贝叶斯概率模型将HGT根据测序量进行归一化;

S2:在HGT网络中,将每个基因组被表示为一个顶点,其中,如果HGT发生在两个基因组之间,则在两个顶点之间有一条边;

S3:采用不同的分类级别对基因组序列进行注释,得到了不同分类等级的HGT网络;

S4:通过图的密度、传递性、同配性和代数连通性几种拓扑性质对HGT网络进行分析。

在本申请的具体实施例中,在步骤S1中:使用LocalHGT来检测每个样本中的HGT,并且得到支持每个HGT断点对的reads数量,其中,当所有样本中的平均reads数目为Q时,根据模型推断;

当总reads数目为Q时,则支持每个HGT断点对的reads数目的概率分布,根据这个概率分布,过滤HGT断点;

过滤标准为:在总reads数目为Q的情况下,预期的reads数目大于x(默认为2)的概率高于90%。

在步骤S4中:图密度表示图中存在的边的数目除以图可能具有的最大边数;

传递性为通过观察到的三角形数与图中可能的最大三角形数之比计算获得,传递性度量顶点的相邻顶点相互连接的总体概率;

同配性为图中的节点与具有相似度的节点相连接的趋势,通过关联度与关联度的皮尔逊相关系数来量化关联度;

代数连通度是图的拉普拉斯矩阵的第二小特征值;

拓扑属性是使用Python模块NetworkX计算。

为了更好的理解本发明的技术方案,以下结合示例进一步说明。

一:采用贝叶斯概率模型将HGT根据测序量进行归一化,测序量影响检测到的HGT断点对的数量,其中,低丰度物种的HGT在测序量低的情况下可能会被遗漏,因此我们采用贝叶斯概率模型将HGT根据测序量进行归一化来降低测序量对后续分析的影响。

对于每个断点H,不妨假设read比对到H的概率为θ,则比对到断点H的reads的数量符合二项分布。

假设θ的先验分布为Beta分布θ~Beta(a,b),其中a和b值是自定义的:

Beta(a,b)为

B(a,b)=Γ(a+b)/[Γ(a)+Γ(b)]。

在给定样本中,假设该样本有g个reads,其中m个reads比对到断点H,根据贝叶斯推断,θ的后验分布为

假设给定θ,g个reads中有m个reads比对到H的概率可以通过下式计算

由于θ~Beta(a,b),我们得到

因此,θ的后验分布为θ~Beta(a+m,b+g-m)。

假设α=a+m,β=b+g-m,有

假设样本中有n个reads的情况下,σ个reads比对到断点H的概率可以由下式获得

/>

积分可以用Beta函数来计算

最终得到函数

在这个模型中,可以根据测序读数过滤HGT。

假设所有样本中的平均读取计数表示为Q,HGT检测软件LocalHGT为每个HGT断点对提供支持的reads数量,对于每个样本,根据观察到的支持每个HGT断点对的reads数目,可以估计若总reads数为Q,则支持该断点对的概率分布,我们设定HGT过滤标准是,在总读计数为Q的条件下,预期reads数目大于x(默认为2)的概率大于90%。

二:通过图的密度、传递性、同配性和代数连通性几种拓扑性质对HGT网络进行分析。

HGT事件是两个不同基因组序列的连锁,在HGT网络中,每个基因组被表示为一个顶点,如果HGT发生在两个基因组之间,则在两个顶点之间有一条边;

然后,采用不同的分类级别对基因组序列进行注释,如属、种等,我们便得到了不同分类等级的HGT网络,其中:

图密度表示图中存在的边的数目除以图可能具有的最大边数。

给定一个图G(V,E),计算密度的公式是:

传递性是通过观察到的三角形数与图中可能的最大三角形数之比来计算的。传递性度量顶点的相邻顶点相互连接的总体概率。

同配性是指图中的节点与具有相似度的节点相连接的趋势。通过关联度与关联度的皮尔逊相关系数来量化关联度。

代数连通度是图的拉普拉斯矩阵的第二小特征值。为了计算代数连通度,可以通过L=D-A计算图的拉普拉斯矩阵,其中D是图的度矩阵,A是图的邻接矩阵。然后对拉普拉斯矩阵L进行谱分解,得到L的第二小特征值;

拓扑属性是使用Python模块NetworkX计算。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

技术分类

06120115924527