掌桥专利:专业的专利平台
掌桥专利
首页

lncRNA靶基因的预测分析方法、装置、设备和介质

文献发布时间:2023-06-19 09:30:39


lncRNA靶基因的预测分析方法、装置、设备和介质

技术领域

本发明涉及基因预测技术领域,特别是涉及一种lncRNA靶基因的预测分析方法、装置、设备和介质。

背景技术

lncRNA是一种序列长度大于200bp的长链非编码RNA序列,以RNA方式结合DNA及转录翻译中间产物,然后参与调控转录干扰、转录激活、蛋白表达等多个重要生物过程。现有研究对lncRNA调控模式的探索尚无重要发现。因此,lncRNA靶基因预测目前成为lncRNA功能性研究的关键。

预测方法是对已预测的lncRNA序列锚定其特定mRNA作为该lncRNA的靶基因,然后通过靶基因功能对lncRNA功能定性注释。基于此,lncRNA靶基因的精确定位成为lncRNA研究的一项重要内容,而准确高效的靶基因预测成为生物信息技术上的关键。

目前lnRNA靶基因预测分为cis作用靶基因预测和trans作用靶基因预测两种主要方向。cis作用靶基因预测是对lncRNA上下游一定范围内共表达蛋白编码基因的预测和功能富集;而trans靶基因预测是基于共表达和序列相似度对lncRNA靶基因预测。两种预测的差异在于是否基于距离算法,trans靶基因预测中认为靶基因与lncRNA位置不相关。

但是,序列相似度分析是基于能量值计算,需要对序列间相似度进行比对,运算量很大。目前基于能量值的已有lncRNA预测软件预测速度均较慢,预测时间随序列数呈线性增加,根据近期研究结果表明,基于算法优化上的lncRNA预测速度提升已达到瓶颈状态,trans靶基因预测基于序列相似度的评估的算法的预测速度较慢,使得预测效率上存在限制;另外,基于表达量相关性的预测分析准确度相对降低。仅从统计学方法上,对两个基因的表达量进行相关性分析,在表达量较低的基因中容易出现假阳性。

发明内容

鉴于以上所述现有技术的缺点,本申请的目的在于提供一种lncRNA靶基因的预测分析方法、装置、设备和介质,以解决现有技术中的问题。

为实现上述目的及其他相关目的,本申请提供一种lncRNA靶基因的预测分析方法,所述方法包括:统计每个处理中重复的mRNA表达量之和,并根据表达量过滤掉表达量之和为零的mRNA序列;对mRNA和lncRNA的表达量进行相关性分析,并提取对应的相关性系数和概率P值作为相关性评判标准,以合并去冗余并分别以mRNA文件和lncRNA文件进行存储;对去冗余后的lncRNA序列按照指定序列数目进行拆分,以分别生成批量任务运行shell脚本,并提交至集群以实现多线程运行。

于本申请的一实施例中,所述对mRNA和lncRNA的表达量进行相关性分析中,根据样本数量的不同选择不同的相关性分析方法。

于本申请的一实施例中,所述根据样本数量的不同选择不同的相关性分析方法,包括:若样本数量小于15,则通过R软件包Hmsic中的rcorr函数对mRNA和lncRNA的表达量进行相关性分析;反之,若样本数量大于15,则通过加权共表达网络分析对mRNA和lncRNA的表达量进行相关性分析。

于本申请的一实施例中,所述提取对应的相关性系数和概率P值作为相关性评判标准,包括:默认提取P<0.05的基因,将关联基因合并去冗余后分别以mRNA和lncRNA储存。

于本申请的一实施例中,所述对去冗余后的lncRNA序列按照指定序列数目进行拆分,以分别生成批量任务运行shell脚本,并提交至集群以实现多线程运行,包括:将拆分结果分别储存至不同fasta文件,并将每个fasta文件的绝对路径储存至list文件;序列拆分成功后,按行读取list路径文件生成批量任务运行shell脚本,以提交至集群实现多线程运行。

于本申请的一实施例中,所述对去冗余后的lncRNA序列按照指定序列数目进行拆分,以分别生成批量任务运行shell脚本,并提交至集群以实现多线程运行,还包括:对lncRNA序列拆分成不同模块,并分别与mRNA表达量进行相关性分析,形成多线程运行模式,提高分析时效。

为实现上述目的及其他相关目的,本申请提供一种电子装置,所述装置包括:mRNA过滤模块,用于统计每个处理中重复的mRNA表达量之和,并根据表达量过滤掉表达量之和为零的mRNA序列;相关性过滤模块,用于对mRNA和lncRNA的表达量进行相关性分析,并提取对应的相关性系数和概率P值作为相关性评判标准,以合并去冗余并分别以mRNA文件和lncRNA文件进行存储;多线程处理模块,用于对去冗余后的lncRNA序列按照指定序列数目进行拆分,以分别生成批量任务运行shell脚本,并提交至集群以实现多线程运行。

为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方法。

为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。

综上所述,本申请的一种lncRNA靶基因的预测分析方法、装置、设备和介质,通过统计每个处理中重复的mRNA表达量之和,并根据表达量过滤掉表达量之和为零的mRNA序列;对mRNA和lncRNA的表达量进行相关性分析,并提取对应的相关性系数R

具有以下有益效果:

1)设置过滤方法减少lncRNA待预测的靶基因数量;

2)减少lncRNA靶基因预测假阳性率;

3)从去除假阳性和多线程角度优化提升lncRNA靶基因预测效率。

附图说明

图1显示为本申请于一实施例中lncRNA靶基因的预测分析方法的流程示意图。

图2显示为本申请于一实施例中的电子装置的模块示意图。

图3显示为本申请于一实施例中的计算机设备的结构示意图。

具体实施方式

以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,虽然图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,但其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。

在通篇说明书中,当说某部分与另一部分“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部分“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味着可以还包括其它构成要素。

其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的,但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此,以下叙述的第一部分、成分、区域、层或段在不超出本申请范围的范围内,可以言及到第二部分、成分、区域、层或段。

再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。

目前trans靶基因预测主要基于共表达和序列相似度对lncRNA靶基因预测,具体来说,分别对应有能量值模型预测和基因共表达预测。

1)能量值模型预测

序列相似度分析是基于能量值计算,需要对序列间相似度进行比对,运算量很大。

现有lncRNA trans靶基因预测流程主要基于单软件分析流程,不同预测软件之间存在算法和准确度的差异,其中主流的两款软件是RNAplex和IntaRNA,主要性能见下表格1。

表1RNAplex和IntaRNA的性能对比

目前基于能量值的已有lncRNA预测软件预测速度均较慢,预测时间随序列数呈线性增加,根据近期研究结果表明,基于算法优化上的lncRNA预测速度提升已达到瓶颈状态。

(2)基因共表达预测

基因共表达预测认为lncRNA表达量与靶基因表达量存在正相关或负相关关系,通过基于统计学模型对两者的表达量进行相关性检验,从而确认与lncRNA有显著相关性的mRNA作为该lncRNA的靶基因。

基于表达量相关性的预测分析准确度相对降低。仅从统计学方法上,对两个基因的表达量进行相关性分析,在表达量较低的基因中容易出现假阳性。

基于上述现有流程中存在的缺点,本申请提出了一种lncRNA靶基因的预测分析方法、装置、设备和介质,以用于满足:(1)提高lncRNA的trans靶基因预测效率;2)排查并剔除靶基因预测流程中存在的冗余分析。

如图1所示,展示为本申请一实施例中的lncRNA靶基因的预测分析方法的流程示意图。如图所示,所述方法包括:

步骤S101:统计每个处理中重复的mRNA表达量之和,并根据表达量过滤掉表达量之和为零的mRNA序列。

于本申请一实施例中,该步骤主要为mRNA过滤过程,根据转录本定量分析结果,统计每个处理中多组重复的mRNA表达量之和。求和后剔除每个处理中表达量之和为0的mRNA序列,以减少原始数据量。本步骤相对于不过滤方法能够剔除无效的mRNA增加运行效率。

其中,所述转录本是由一条基因通过转录形成的一种或多种可供编码蛋白质的成熟的mRNA;一条基因通过内含子的不同剪接可构成不同的转录本。设计转录本实验可以研究内含子剪切机制、表观遗传、RNA编辑等。通常是考察一条基因对应的不同转录本的调节机制等。

步骤S102:对mRNA和lncRNA的表达量进行相关性分析,并提取对应的相关性系数R

本步骤相对于序列之间比较分析,通过mRNA和lncRNA间的表达量相关性系数分析能够缩短至少1/2时间。

于本申请一实施例中,所述对mRNA和lncRNA的表达量进行相关性分析中,因算法存在内存消耗极限值,故根据样本数量的不同选择不同的相关性分析方法。具体来说,包括:

A、若样本数量小于15,则通过R软件包Hmsic中的rcorr函数对mRNA和lncRNA的表达量进行相关性分析。

所述Hmsic是一个用于数据分析、样本比较和图形展示的R软件包,其提供了用于相关性分析的函数rcorr,能够提供两个lncRNA和mRNA表达量之间相关性的显著。需说明的是,相似相关性分析还可由其他函数或软件替换。

于本实施例中,经测试Hmsic包中rcorr不支持大样本量(>15)的数据存储和读取,因此适合小样本量计算。

B、反之,若样本数量大于15,则通过加权共表达网络分析对mRNA和lncRNA的表达量进行相关性分析。

所述加权共表达网络分析(WGCNA)能够从复杂数据中(N多分组)快速地提取出与样本特征相关的基因共表达模块,以供后续分析。简单地说,它通过计算基因之间的表达相关性,将具有表达相关性的基因聚类到一个模块中,然后再分析模块与样本特征(包括临床特征、手术方式、治疗方法等等)之间的相关性,WGCNA搭建了一座样本特征与基因表达变化之间的桥梁。

于本申请一实施例中,所述提取对应的相关性系数R

步骤S103:对去冗余后的lncRNA序列按照指定序列数目进行拆分,以分别生成批量任务运行shell脚本,并提交至集群以实现多线程运行。

于本申请一实施例中,步骤S103具体包括:

A、将拆分结果分别储存至不同fasta文件,并将每个fasta文件的绝对路径储存至list文件;

B、序列拆分成功后,按行读取list路径文件生成批量任务运行shell脚本,以提交至集群实现多线程运行。

于本申请另一实施例中,步骤S103还可通过对lncRNA序列拆分成不同模块,并分别与mRNA表达量进行相关性分析,形成多线程运行模式,提高分析时效。

综上所述,本申请的关键点是从去除假阳性和多线程角度优化提升lncRNA靶基因预测效率。通过设置过滤方法减少lncRNA待预测的靶基因数量,对lncRNA靶基因预测原始数据过滤,即在现有算法存在瓶颈的基础上,通过共线性网络分析对原始数据过滤进而减少直接用于预测的lncRNA及mRNA数量,同时减少了lncRNA靶基因预测假阳性率,增加了全lncRNA靶基因预测效率。

如图2所示,展示为本申请于一实施例中的电子装置的模块示意图。如图所示,所述装置200包括:

mRNA过滤模块201,用于统计每个处理中重复的mRNA表达量之和,并根据表达量过滤掉表达量之和为零的mRNA序列;

相关性过滤模块202,用于对mRNA和lncRNA的表达量进行相关性分析,并提取对应的相关性系数和概率P值作为相关性评判标准,以合并去冗余并分别以mRNA文件和lncRNA文件进行存储。

多线程处理模块203,用于对去冗余后的lncRNA序列按照指定序列数目进行拆分,以分别生成批量任务运行shell脚本,并提交至集群以实现多线程运行。

需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。

还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,多线程处理模块203可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上多线程处理模块203的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。

如图3所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述计算机设备300包括:存储器301、及处理器302;所述存储器301用于存储计算机指令;所述处理器302运行计算机指令实现如图1所述的方法。

在一些实施例中,所述计算机设备300中的所述存储器301的数量均可以是一或多个,所述处理器302的数量均可以是一或多个,而图3中均以一个为例。

于本申请一实施例中,所述计算机设备300中的处理器302会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器301中,并由处理器302来运行存储在存储器301中的应用程序,从而实现如图1所述的方法。

所述存储器301可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器301存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。

所述处理器302可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在一些具体的应用中,所述计算机设备300的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图3中将各种总线都成为总线系统。

于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的方法。

在任何可能的技术细节结合层面,本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是(但不限于)电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。

综上所述,本申请提供的一种lncRNA靶基因的预测分析方法、装置、设备和介质,通过统计每个处理中重复的mRNA表达量之和,并根据表达量过滤掉表达量之和为零的mRNA序列;对mRNA和lncRNA的表达量进行相关性分析,并提取对应的相关性系数和概率P值作为相关性评判标准,以合并去冗余并分别以mRNA文件和lncRNA文件进行存储;对去冗余后的lncRNA序列按照指定序列数目进行拆分,以分别生成批量任务运行shell脚本,并提交至集群以实现多线程运行。

本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

相关技术
  • lncRNA靶基因的预测分析方法、装置、设备和介质
  • 一种预测miRNA靶基因的序列特征分析方法
技术分类

06120112195296