掌桥专利:专业的专利平台
掌桥专利
首页

融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法

文献发布时间:2023-06-19 10:21:15



技术领域

本发明公开涉及蛋白质复合物识别的技术领域,尤其涉及一种融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法。

背景技术

各类生物网络系统中,模块化是一个普遍存在的现象。生物系统是一个模块化的组织,由不同的生物功能模块组成。大部分细胞的活动体现在蛋白质相互作用网络(protein-protein interaction,PPI)的模块中,改变不同的模块之间的连接可能会影响细胞特性和功能的变。生物学家研究发现PPI网络中那些紧密连接的蛋白质区域通常会与蛋白质的功能模块相对应。蛋白质复合物是蛋白质相互作用网络中的一个重要的生物功能模块,是多个蛋白质在相同时间和相同空间上通过相互作用结合在一起构成的相对稳定并具有某一特定功能组织单元。研究发现识别蛋白质相互作用网络(PPI网络)中复合物结构于理解和分析生物功能和疾病防治具有重要的医学意义。

传统方法通过生物实验检测蛋白质复合物,但该方法在检测费用、时间和质量上具有局限性,远远无法满足后基因时代人类对生命科学研究的实际需要。因此,迫切需要建立有效的蛋白质复合物识别的计算方法是目前研究人员的首要任务。

近年来,针对蛋白质复合物识别的任务研究已经取得了一定的进展,但是仍然存一定的问题。一方面,由于实验条件和环境的限制,高通量技术产生的蛋白质相互作用数据往往具有较高的假阳性和假阴性和不完整性先天缺陷,这使得一些仅依赖于网络的拓扑算法预测在准确率和多样性方面存在不足。另一方面,生物技术的发展产生大量不同类型的蛋白质相互作用的数据,每种数据可以从不同的角度提供独立且互补的信息,因而如何有效融合拓扑信息和其他的生物信息也是复合物识别的必然趋势。

发明内容

鉴于此,本发明提供了融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法,以提高蛋白质复合物识别的准确性和综合性。

本发明提供的技术方案,具体为,一种融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法,该方法包括如下步骤:

按照公式W=αW

依据所述有权网络模型W,计算所述有权网络中每个节点的度并按照节点的度降序排列放入节点集合Q中;

将所述节点集合Q中的每个节点依次作为初始簇C

遍历所述核心簇集合中各个核心簇内所有无连接边的节点V

优选,所述蛋白质网络结构中节点局部信息的有权矩阵W

其中,

i、j分别为蛋白质网络结构中的蛋白质节点,N(i)为蛋白质节点i的邻接点集合,N(j)为蛋白质节点j的邻接点集合。

进一步优选,所述蛋白质基因表达信息的有权矩阵W

W

其中,

进一步优选,所述调节参数α满足0.1≤α≤0.9。

进一步优选,所述调节参数α满足α=0.3。

进一步优选,所述聚类约束条件具体如下:

直径≤δ且密度≥λ,其中,δ=2,λ=0.7。

本发明提供的融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法,将蛋白质的节点资源分配指数和其基因表达信息结合定义了蛋白质之间的边权重,设计基于节点二阶邻居节点的核-附属的复合物识别方法,通过密度和网络直径的约束实现核复合物的识别,通过扩展核复合物的二阶邻居节点识别最终的复合物。本发明实现简单,已应用于已知的酵母蛋白质网络,可以识别出更多的具有生物意义的复合物,提高复合物识别的整体性能。

本发明提供的融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法,实现简单,只根据蛋白质相互作用信息和基因表达信息,就能较准确的识别更多具有生物意义的复合物模块,具有准确性高、综合性能好的优点。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明的公开。

具体实施方式

这里将详细地对示例性实施例进行说明。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

为了提高蛋白质复合物识别的准确性和综合性,本实施方案从蛋白质复合物的拓扑和生物特性出发,通过整合节点局部信息和基因表达的生物信息,设计了一个融合节点直接邻接点和基因表达皮尔逊相关系数的有权图构建方法,提出了一个新的基于核-附属的复合识别方法,包括如下步骤:

S1:按照公式W=αW

S2:依据上述有权网络模型W,计算所述有权网络中每个节点的度并按照节点的度降序排列放入节点集合Q中;

S3:将节点集合Q中的每个节点依次作为初始簇C

S4:遍历所述核心簇集合中各个核心簇内所有无连接边的节点V

为了便于对于蛋白质网络结构中节点局部信息的有权矩阵W

其中,根据基于网络结构中节点的邻居信息,引入资源分配指数,根据公式(1)计算两个相互作用的蛋白质之间的权值

基于基因表达信息的蛋白质相互作用信息表达。利用皮尔逊相关系数(PCC)来度量相互作用蛋白质的的基因表达强弱程度,得到有权图模型G=(V,E,W

其中,

上述有权网络模型W中,调节参数α满足0.1≤α≤0.9,实验中验证α=0.3为最优值。

上述确定核心簇中采用的聚类约束条件为:直径≤δ且密度≥λ,其中,δ=2,λ=0.7。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述的内容,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

相关技术
  • 融合节点局部拓扑属性和基因表达信息的蛋白质复合物识别方法
  • 基于多属性信息融合的流网络关键节点识别方法和装置
技术分类

06120112517684