掌桥专利:专业的专利平台
掌桥专利
首页

RNA二级结构预测方法及系统

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及生物信息学领域,更具体的说是涉及一种RNA二级结构预测方法及系统。

背景技术

伴随着生物信息学的发展,以及人们对基因研究的深入,RNA已经不再仅仅是从DNA到蛋白质的“信使”。在生命活动中,RNA表现出来的重要地位,让人们开始重新关注和重视RNA所引起的各种生物化学功能,因此研究透彻RNA的二级结构,可以帮助我们更准确的预测蛋白质的结构。不同的生物学也从RNA二级结构中发现了独特的计算模型,RNA的结构知识为医学药物开发也提供了重要的基础,这一领域获得了大家越来越多的重视并且人们已经将一些RNA二级结构的折叠算法用于生物制药中。我们已经知道RNA的功能与其结构息息相关,密不可分,RNA的结构决定着RNA的功能,当然,我们也不能忽略掉RNA中可能存在的假结结构对一些重要的生物功能产生的重要影响。考虑到假结结构的特殊性和难解性,带假结的RNA二级结构预测算法也已成为RNA二级结构预测算法研究中的重难点。

发明内容

有鉴于此,本发明提供了一种RNA二级结构预测方法及系统,以解决上述技术问题。

为了实现上述目的,本发明采用如下技术方案:

一种RNA二级结构预测方法,包括以下步骤:

获取RNA数据样本,并读取RNA序列;

构建螺旋区点阵图;

根据螺旋区点阵图构建初始茎区池;

利用茎区池构建初始种群;

在初始种群的基础之上,对RNA的种子进行能量计算,交叉,变异,茎区替换操作,得到RNA种子自由能值,茎的位置和长度,环的种类和个数,多分支环和发夹环的位置以及发夹环长度,RNA中未配对的自由碱基单链的长度以及位置。

可选的,所述螺旋区点阵图的构建规则如下:针对长度为n的RNA序列,构建n*n的螺旋区点阵矩阵,如果RNA序列中的碱基对是Watson crick碱基对或者Wobble碱基对时,则螺旋区点阵矩阵中相应位置的矩阵值为1,否则矩阵值赋值为0。

可选的,构建初始茎区池的步骤如下:按照45°反对角线方向遍历整个螺旋区点阵矩阵,得到所有可能的茎区,将所有可能的茎区存放于数组stem[s]中,形成初始茎区池,并对茎区池中所有茎区进行能量计算,存储于茎区池中。

可选的,构建初始种群的步骤如下:随机选择若干茎区组成一个种子,将种子内部茎区按照茎区开始位置排序,判断排序后的茎区是否存在交叉,若有交叉则删除交叉茎区,并填补删除的茎区,多次重复,直至没有交叉。重复上述步骤,形成大规模初始种群。

可选的,还包括将形成的初始种群输出测试,测试步骤如下:对初始种群中的每一个种子的茎区进行检测,判断种子内部茎区是否有交叉,如果有交叉,则种群随机生成模块不正确,如果没有交叉,说明正确。

可选的,变异操作的具体步骤如下:

交叉完成之后,对种群按照个体自由能大小进行排序;

将种子个体中的茎区按自由能从小到大排序;

随机生成概率,如果生成的随机数大于变异算子,则对种子进行变异操作,将种子的最后一个茎区进行随机变异,得到变异后种子,对变异种子的茎区进行重新排序,并判断茎区是否交叉,如果交叉则删除,并采用Metropolis准则替换茎区,重复至不交叉为止。

可选的,Metropolis准则如下:从茎区池中随机选择一个茎区加入到当前的种子个体中,计算替换前后个体的自由能值变化ΔE值。若ΔE=0,首先要产生一个在0和1之间的随机值,记为r,退火温度T的初始值为Boltamann常数,若exp(-ΔE/kT)>r,则将该茎区加入到当前的个体中。如果以上情况都不满足,则舍弃该茎区,并从茎区随机候选列表中重新随机选择一个茎区重复同样的操作,直到找到满足以上任何一个条件或者茎区随机候选列表为空为止。假如最终茎区随机列表为空时,相关的条件都不满足,则保持原种子结构不变。

一种RNA二级结构预测系统,包括

RNA序列获取模块:用于获取RNA数据样本,并读取RNA序列;

螺旋区点阵图构建模块:用于根据RNA序列构建螺旋区点阵图;

初始茎区池构建模块:用于根据螺旋区点阵图构建初始茎区池;

初始种群构建模块:用于利用茎区池构建初始种群;

二级结构计算模块:用于在初始种群的基础之上,对RNA的种子进行能量计算,交叉,变异,茎区替换操作,得到RNA种子自由能值,茎的位置和长度,环的种类和个数,多分支环和发夹环的位置以及发夹环长度,RNA中未配对的自由碱基单链的长度以及位置。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种RNA二级结构预测方法及系统,对于RNA进行二级结构预测有着合理的空间复杂度,以及较高的准确性,使得能量计算和结构预测时拥有更快的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明的流程示意图;

图2为本发明的螺旋区点阵矩阵示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种RNA二级结构预测方法,如图1所示,包括输入代表样本RNA序列的文本文档。然后读取RNA序列文本,根据RNA序列构建螺旋区点阵图,初始茎区池,初始种群。再在初始种群的基础之上,对RNA的种子进行能量计算,交叉,变异,茎区替换等操作。最终可以得到我们需要的RNA种子自由能值,茎的位置和长度,环的种类和个数,多分支环和发夹环的位置以及发夹环长度,RNA中未配对的自由碱基单链的长度以及位置。

已知RNA序列长度为n,那么构建n*n的螺旋区点阵矩阵。螺旋区点阵矩阵中的矩阵值以0和1为矩阵值。遵循的规则为:如果RNA序列中的碱基对是Watson crick碱基对或者Wobble碱基对时,则该螺旋区点阵矩阵中相应位置的矩阵值为1,否则矩阵值赋值为0。

得到了螺旋矩阵后按照45°反对角线方向遍历整个螺旋区点阵矩阵,如图2所示,记录灰线部分,即可得到所有可能的茎区,将这些所有可能的茎区存放于数组stem[s]中,形成初始茎区池。接着对得到的所有茎区进行能量计算并存储在茎区池中。

下面是茎的能量计算示例:

已知茎区:5’AGCU

3’UCGA

那么该茎自由能的计算过程如下:

ΔG°37=ΔG°37(AU followed by GC)+ΔG°37(GC followed by CG)+ΔG°37(CGfollowed

byUA)

=-2.1kcal/mol-3.4kcal/mol-2.1kcal/mol

=-7.6kcal/mol

在计算茎区自由能时,可以得到需要用到的相邻配对碱基之间的能量值。

其中,初始种群构建时的限制条件:初始种群规模N=10000,种子茎区设置为n1。测试计划:将形成的初始种群输出,然后对初始种群中的每一个种子的茎区进行检测,判断茎区是否有交叉,如果有交叉,则说明该模块不正确,如果没有交叉,说明该模块正确。其中,判断种子内部茎区时,我们还要进行相容性的检测。

在得到初始种群之后,在迭代过程之中,交叉完成之后,需要再进行一次变异过程,这是对自然的一个模仿过程。随机对交叉完成后的种群的部分种子的茎区进行变异操作。

变异操作的具体步骤如下:

交叉完成之后,对种群按照个体自由能大小进行排序;

将种子个体中的茎区按自由能从小到大排序;

对种子进行变异操作,随机生成概率,如果生成的随机数大于变异算子,则将其最后一个茎区进行随机变异;

检测变异之后的种子内部茎区是否交叉,如果交叉则删除,并采用Metropolis准则替换茎区,重复至所有茎区不交叉为止;

使用RNA个体二级结构的能量函数E=energy_clac(slist,a,stemN1,stem1)计算个体自由能值E。

茎区的替换规则采用Metropolis准则,具体准则描述如下:

(1)从相应的茎区随机候选茎区池中随机选择一个茎区加入到当前的个体中,计算替换前后个体的自由能值变化ΔE的值。

(2)若ΔE<0,则将该茎区加入到当前的个体中。若ΔE>=0,首先要产生一个在0和1之间的随机值,记为r,退火温度T的初始值为Boltamann常数,如exp(-ΔE/kT)>r,则将该茎区加入到当前的个体中。若以上情况都不满足的情况下,则舍弃该茎区,然后从茎区随机候选列表中重新随机选择一个茎区继续进行如上同样的操作,直到找到满足以上任何一个条件或者茎区随机候选列表为空为止。假如最终茎区随机列表为空时,相关的条件都不满足,则保持原结构不变。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

技术分类

06120114724662