掌桥专利:专业的专利平台
掌桥专利
首页

一种基于残差图卷积神经网络RNA-蛋白质结合位点判别方法

文献发布时间:2023-06-19 12:10:19


一种基于残差图卷积神经网络RNA-蛋白质结合位点判别方法

技术领域

本发明属于深度学习领域,主要用于RNA上蛋白质结合位点序列化数据的分类判别,相较于传统技术,提出新的深度学习方法(残差图卷积神经网络模型ResGCN_RNA,以下简称模型)建模并挖掘数据之间潜在联系的同时,保证了判别的准确性。

背景技术

RNA结合蛋白(以下简称RBPs)在细胞过程中参与度极高,如:RNA编辑、mRNA定位等,是基因表达、分析相关领域的研究热点。其中,找到RNA上RBPs的结合位点有重要的生物学意义。人工分析RBPs结合位点需要耗费大量人力、物力,随着计算机技术的发展,尤其是深度学习技术在生物信息领域的应用扩展,高精度模型自动判别成为RBPs结合位点领域的研究核心。传统的深度学习方法对于RBPs结合位点的分析与判别存在计算开销大,时间复杂度高,针对不同RBPs结合位点研究的普适性较差等问题,因此急需一个精度高、速度快且泛化能力较好的判别分析框架。

本模型提出之前,对于RBPs结合位点判别的常用方法是基于传统卷积神经网络,这种特征提取方法将独热编码操作后的RNA序列数据近似地看作灰度图(不同的碱基对应不同的独热编码,从形态上将序列信息近似看作灰度图上的一条曲线),通过堆叠多个卷积层,捕捉“图像”高维特征信息,再将此类信息输入由全连接神经网络构成的分类网络中,实现分类判别。此种方法分类精度较高,但更倾向于捕捉序列整体的形态特征而忽略局部细节,即忽略近邻的K个碱基之间可能存在的局部关联。

图结构作为一种高级的数据类型,可以很好地建模生活中各种信息,如:社交网络、通信网络、交通流量网络等。近年来,图结构数据建模方法也被广泛应用于生物信息科学领域,如:脑神经网络建模、蛋白质分子建模等。传统的深度学习特征提取方法难以直接作用于图结构数据,在谱图理论的有力支撑下,图卷积神经网络技术诞生并逐渐成为研究热点。图卷积神经网络最早由基于图傅里叶变换的频域方法定义得出,而后又发展出基于邻居节点聚合的空域方法,在图结构数据节点分类、链路预测、族群检测等领域,较之传统方法有显著提升。基于上述研究,将图结构引入RBPs序列信息的建模并以图卷积神经网络作为特征提取方法,成为本模型的核心思想。

本模型最重要的创新点是提出了一种新的RNA序列潜在信息建模方法,即本模型中的数据映射模块(下文将详细阐述)。数据映射模块将序列化信息合理拆分为图结构数据节点上的信号,节点与其K个近邻节点之间的潜在关联作为边(因碱基关系不明,边的生成方式为随机生成,且为无向边),如此构建的图结构数据将保留原始RNA碱基序列特征信息并有能力挖掘数据层面可能存在的碱基关联。

本模型另一个创新点是提出了结合一维卷积层和残差连接的图卷积神经网络改进特征提取层。传统的图上卷积是以某一节点为中心,通过边作为信息传递的“通路”,聚合其相连接的K个节点上的信号生成图结构数据特征向量,迭代多次在理论上可聚合图结构数据上全部信息。但图卷积神经网络存在过平滑问题(图卷积层数加深,模型效果弱化),在本模型中,仅选用了两层图卷积层作为基础特征提取模块。下游分类判别模块为全连接神经网络,直接将两层图卷积结果输出至分类判别模块,模型过于复杂,将导致训练困难、过拟合等情况,故在图卷积模块后引入一维卷积层和最大池化层用以减少可训练参数。堆叠对个上述特征提取层,即可构建本模型深度学习模型中的特征提取模块。针对深度学习模型在训练中存在的模型退化问题,引入残差连接的思想构建残差神经网络,可以使得网络更深、更易优化,提取到更加丰富的高维特征信息。深度残差网络的代表ResNet已被广泛应用于图像分类、视频分析等领域。

本模型综合以上思想,对RBPs结合位点进行判别,调研中发现,此类方法并无先例,具有创新性和原创性。

模型内容

受前人工作启发,本模型将RBPs结合位点建模成图结构数据,再以结合残差连接思想的图卷积神经网络提取数据高维特征,并将此类特征输入到基于全连接神经网络的分类网络作判别分析,并将判别结果与实际标签对比,设置交叉熵损失函数指导模型训练。训练完成后,保存模型参数,调用此模型可实现RBPs结合位点判别任务高效、精准判别。

针对RBPs结合位点判别任务提出ResGCN_RNA深度学习模型(模型结构图见说明书附图1),首先需要从开源网站上下载RNA-蛋白质结合位点碱基序列数据集,并将之作为原始数据进行数据预处理。模型预处理模块(见说明书附图2)主要负责将数据切分为等长的序列(根据前人生物实验研究,此处长度定为501个碱基,长度不足501的序列用补全碱基N进行补全操作),并进行独热编码操作,将其转化为更易于计算操作的定长向量化数据。预处理后的数据输入到模型中,作为模型参数训练的原始数据。

模型的输入层接受预处理后数据,并将之输入到数据映射模块(见说明书附图3)。本模型旨在利用图建模结合图卷积神经网络的方法挖掘原始序列化数据之间存在的潜在联系,需要经由合理的变换使之成为图结构数据,故提出数据映射模块。数据映射模块将定长向量化数据上的每一个碱基转化为图结构上的节点,原始数据信息作为图节点上的信号,以此将输入数据转化为节点数为501的N个图结构数据组(N受预处理前原始数据集大小影响)。

将原始数据经过预处理和数据映射模块后,特征提取前的数据准备工作完毕,模型调用特征提取模块(见说明书附图4)对数据中存在的信息进行挖掘。特征提取模块为双分支结构,分别为:卷积操作分支和残差连接分支。特征提取模块接收数据映射模块的输出后,首先对其进行一次图卷积操作完成一轮特征提取。图卷积操作选择了参数化图卷积神经网络代表之一,即:切比雪夫网络。传统的图卷积操作定义在频域上,通过对图的拉普拉斯矩阵的特征分解得出图傅里叶变换如下式所示:

L=UΛU

其中,L为图的拉普拉斯矩阵,U为拉普拉斯矩阵的特征向量,x和

由上述式子可给出图卷积操作定义如下:

x

其中IGFT和GFT分别代表逆图傅里叶变换和图傅里叶变换,⊙为矩阵的哈达玛积。进一步改写上式,可得:

由此,可以得出参数化图卷积操作定义式如下:

y=g

其中,g

由此,本模型选择了基于切比雪夫多项式的切比雪夫网络作为优化手段,大大降低了计算的复杂度。切比雪夫多项式如下所示:

T

应用此多项式简化计算,需特别定义T

由此,图卷积操作可定义为:

针对RNA-蛋白质结合位点的数据特征,上式x为经数据预处理模块和特征映射模块处理后的数据集合,g

由此为基础构建切比雪夫图卷积层,本模型特征提取模块的卷积操作分支由两个切比雪夫图卷积层,一个一维卷积层,一个最大池化层和平展层构成。其中,一维卷积层和最大池化层用于在保持精度的基础上降低模型中可训练参数量,提高训练效率,平展层用于平展特征向量,为特征融合做准备。

针对深度学习模型中可能存在的模型退化问题,引入残差连接机制使得模型更易优化。残差连接分支包括批归一化层和平展层。批归一化层用于处理数据特征分布可以使得模型训练更快,平展层作用同卷积操作分支。

为融合两分支特征,本模型设计了连接层用以连接双分支输出特征,由此得到完整的特征提取层,堆叠多个特征提取层并添加LeakyReLU作为激活函数构成本模型的特征提取模块。

本模型的分类判别模块由全连接神经网络构成。分类判别模块接收特征提取模块的输出作为分类判别的原始依据,选择softmax作为分类激活函数,交叉熵损失函数作为模型训练的代价函数,为降低训练中过拟合现象出现的可能性,引入Dropout机制和“早停法”触发机制。模型训练实际轮数为训练次数到达既定阈值或训练中触发早停条件时的实际轮数。

最终目标是实现对待测RNA序列的快速精准判别,故通过划分训练集和测试集,验证模型准确性作为本模型模型的判断标准。

附图说明

图1模型结构图。

图2预处理模块。

图3数据映射模块。

图4特征提取层。

具体实施方式

以下结合附图和实施例对本模型进行详细说明。

一种基于残差图卷积神经网络的RNA-蛋白质结合位点判别方法,该方法包括如下步骤:

步骤1、获取公开RNA-蛋白质结合位点序列化数据集并进行切割、补全、独热编码与训练集、测试集划分:

RNA-蛋白质结合位点数据集分为正类与负类,正类表示经过实验验证为RNA上蛋白质结合位点的RNA碱基序列,负类则不是RNA上蛋白质的结合位点。将数据用于模型训练之前,需要进行数据预处理,根据生物学研究中RNA-蛋白质结合位点碱基序列切分方法,将不等长的RNA碱基序列,定长地切割为若干条长度为501个碱基的待操作数据,对长度不足的序列用补足碱基N在该条序列后补充,并将待操作数据通过独热编码的方式编码成向量化数据。切割后的RNA碱基有五类,分别为:A、G、C、U、N,分别对应编码向量:[1,0,0,0]、[0,1,0,0]、[0,0,1,0]、[0,0,0,1]和[0,0,0,0]。其中,补足碱基N的编码向量为[0,0,0,0],已被证明不会对后续任务产生影响。对编码后的数据按4:1的比例进行训练集、测试集划分。

步骤2、将训练数据输入模型,通过数据映射模块转化为对应的图结构数据作为下游任务的输入:

为挖掘RNA-蛋白质结合位点不同种类碱基之间的潜在联系,与传统的卷积神经网络方法不同,本模型利用数据映射模块将步骤1中编码向量映射为图结构数据,即将每个碱基看作图上节点,碱基编码信息看作图上节点的信号值构造图数据,作为下游特征提取任务的输入。数据映射模块可以合理地利用图的思想建模原始数据,保留原始数据信息的同时,有利于挖掘潜在的节点间联系,有助于模型精度提升。

1的数据位置和0的数据位置节点之间的边表示随机生成的关联,即待挖掘潜在联系,为调用基于图卷积神经网络的特征提取模块作数据准备。

步骤3、调用特征提取模块对映射后数据进行特征提取,生成易于计算的特征向量:

特征提取模块主要由卷积分支和残差连接分支构成(详见模型内容)。卷积分支为两层切比雪夫图卷积层结合一维卷积层和最大一维池化层构成,残差连接则是在第一层图卷积层之后,跳跃连接的思想连接最大一维池化层的输出以实现特征融合。由此构建一个特征提取层,堆叠多个特征提取层,构建本模型的深度特征提取模块。特征提取模块负责发掘数据中的高维度特征信息作为知识,存储知识的方式为记录各分支最终可训练参数的参数值。

步骤4、调用分类模块接收步骤3输出的特征向量,结合数据标签、交叉熵损失函数和反向传播算法对模型进行训练,优化模型各分支参数,每轮训练完成输入测试数据集进行测试。

步骤5、设置“早停法”触发机制和引入Dropout防止模型过拟合,重复步骤2-4,直至触发早停条件或训练轮数到达所设阈值,并保存模型:

在模型训练过程中,为尽量避免过拟合现象,设置“早停法”触发条件。

设置monitor参数和patience参数分别为val_loss和2,是指当val_loss连续两轮训练上升时,模型训练过程终止。

而Dropout层用在最终输出之前,随机使得部分全连接神经网络的神经元“失活”,在当前训练轮次中不参加参数的更新迭代,有助于防止模型发生过拟合。

步骤6、调用步骤5中生成的模型并用测试集进行测试,当预测的AUC值符合预期值时,保存模型,此模型在后续使用中只需输入待测数据即可实现高效、精准判别。

相关技术
  • 一种基于残差图卷积神经网络RNA-蛋白质结合位点判别方法
  • 基于自注意力机制的RNA-蛋白质结合位点预测方法和系统
技术分类

06120113193461