掌桥专利:专业的专利平台
掌桥专利
首页

一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统

文献发布时间:2024-04-18 19:53:33


一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统

技术领域

本发明属于生物信息学技术领域,具体涉及一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统。

背景技术

嗅觉在脊索动物的生存、繁衍和社交等方面起着至关重要的作用。嗅觉的实现依赖于嗅觉受体基因的表达。对于脊索动物来说,大部分的嗅觉受体基因在嗅觉组织或者器官内表达,用于识别环境中气味分子;也有部分在肌肉、大脑和皮肤等多种非嗅觉组织或器官中表达即异位表达,并被证明与多种疾病密切相关。近几年,越来越多的证据表明有些嗅觉受体基因在多种肿瘤组织中异常表达。这意味着嗅觉受体不仅可以作为嗅觉功能的执行者,还可以作为潜在的药物靶点,具有重要的研究价值和应用前景。

嗅觉受体基因在物种间的数量分布不均匀,通常来说从数十条到数千条不等,并且假基因比例很高。这些原因导致高质量地注释嗅觉受体基因这一工作相对比较困难。因此,目前公共数据库中收录的嗅觉受体数据存在着较为严重的数据质量问题。主要体现在数据缺失和数据不平衡两个方面。而这两方面的问题很大程度上是嗅觉受体基因注释方法的缺陷所造成的。

基因注释即在基因组序列上标定基因位置与组成结构等信息,基因注释对于识别基因、研究基因的表达调控机制、研究基因在生物体代谢途径中的地位、分析基因、基因产物之间的相互作用关系、预测和发现蛋白质功能以及揭示生命的起源和进化等具有重要的意义。基因注释是基因组学研究的一个必需步骤和基本前提,这通常包括从头注释、同源注释和基于转录组和蛋白质组的注释,注释结果的好坏直接影响到后续研究的有效性和准确性。

对于嗅觉受体基因注释的策略主要包括采用序列比对将待注释的基因序列与已知的基因序列进行比对,找出相似或相同的区域;采用数据库搜索将待注释的基因序列输入到基因数据库中,搜索与该基因序列相关的信息;采用基因注释工具对基因序列进行自动化注释;通过实验验证基因的功能,从而对基因进行注释。现有主流注释嗅觉受体基因的方法大都基于tblastn或者TFASTX工具完成基因组搜索任务,但是这些方法存在以下几个问题:(1)搜索结果高度依赖于输入的查询序列,鲁棒性较差;(2)使用蛋白序列作为查询序列搜索整个基因组,需要扫描整个基因组的六个开放阅读框,严重地限制了注释的速度;(3)搜索敏感性差,导致嗅觉受体基因注释不全。虽然经过研究人员细心地调试,可以在一定程度上减少上述几个缺陷对注释结果的影响,但是这往往需要研究者对单个物种的注释投入大量的精力,很难大规模地应用。

发明内容

鉴于上述,本发明的目的是提供一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统,使用DNA序列构建隐马尔可夫模型定位嗅觉受体基因的坐标,进一步提取序列片段并利用嗅觉受体序列特征和模式匹配来鉴定功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释。本发明能够提高注释速度、敏感度、鲁棒性和普适性,适用于大规模的准确的注释脊索动物嗅觉受体基因的应用场景。

为实现上述发明目的,本发明提供的技术方案如下:

本发明实施例提供的一种基于隐马尔可夫模型的嗅觉受体基因注释方法,包括以下步骤:

构建嗅觉受体基因的隐马尔可夫模型,基于隐马尔可夫模型从给定的待注释基因组中预测嗅觉受体基因的同源区域并生成包含嗅觉受体基因坐标位置信息的命中列表;

从命中列表中解析出嗅觉受体基因的同源区域中的同源片段在待注释基因组中的坐标并切取该同源片段,对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组;

对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释。

优选地,所述构建嗅觉受体基因的隐马尔可夫模型,包括:

从NCBI核酸数据库中获取所有嗅觉受体基因的编码DNA序列;

根据DNA序列所属的物种谱系关系对DNA序列进行分类;

对DNA序列去冗余后使用MAFFT- LINSI算法对DNA序列进行多序列比对数据;

根据多序列比对数据构建脊索动物各个演化分支的嗅觉受体基因的隐马尔可夫模型。

优选地,所述对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组,包括:

向同源片段的5’和3’端分别延伸一段碱基片段;

识别延伸碱基片段后同源片段的起始密码子和终止密码子;

获取所有从起始密码子开始到终止密码子结束中间的序列片段构建潜在编码区域序列列表;

通过设置第一过滤条件从潜在编码区域序列列表排除非嗅觉受体编码基因片段,从而获得潜在功能性嗅觉受体基因列表组。

优选地,所述第一过滤条件,包括:

所有潜在的编码区域序列长度都小于750个核苷酸;所有潜在编码区域序列长度都不能被3整除;所有潜在编码区域序列中间都存在终止密码子;

未满足第一过滤条件中全部条件的序列片段将作为潜在功能性嗅觉受体基因编码区域,所有潜在功能性嗅觉受体基因编码区域最终生成潜在功能性嗅觉受体基因列表组;满足第一过滤条件中至少一个条件的序列片段将被分类为截短基因或嗅觉受体假基因。

优选地,所述对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,包括:

构建多条典型的嗅觉受体序列作为模板序列,模版序列被准确的界定了包含N端、胞内环、胞外环、跨膜螺旋结构域和C端区域的边界;

将潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表中的基因序列与模板序列合并成新的序列集合,并进行序列比对,基于每个区域进行模式匹配打分,最终根据嗅觉受体的序列特征通过第二过滤条件鉴定出功能性嗅觉受体基因和嗅觉受体假基因。

优选地,所述第二过滤条件,包括:

潜在功能性嗅觉受体基因列表组中所有基因序列模式匹配分数都小于10;跨膜螺旋结构域的未比对位置总数都大于5;含未比对位置的跨膜螺旋结构域个数都大于2;

未满足第二过滤条件中全部条件的基因序列将被进一步鉴定为功能性嗅觉受体基因;满足第二过滤条件中至少一个条件的潜在功能性嗅觉受体基因列表中模式匹配分数最高的基因序列被鉴定为嗅觉受体假基因。

优选地,所述物种谱系为纲、亚纲和总目级别的谱系分类数据。

优选地,所述方法还包括:

对鉴定得到的功能性嗅觉受体基因进行迭代注释,每一轮迭代过程中都会将新增加的序列特征更新到隐马尔可夫模型谱文件中,直到达到最大迭代次数或者注释结果收敛后终止迭代;

基于迭代注释结果进行多个基因组的批量注释。

为实现上述发明目的,本发明实施例还提供了一种基于隐马尔可夫模型的嗅觉受体基因注释系统,包括定位模块、搜索模块和鉴定模块;

所述定位模块用于构建嗅觉受体基因的隐马尔可夫模型,基于隐马尔可夫模型从给定的待注释基因组中预测嗅觉受体基因的同源区域并生成包含嗅觉受体基因坐标位置信息的命中列表;

所述搜索模块用于从命中列表中解析出嗅觉受体基因的同源区域中的同源片段在待注释基因组中的坐标并切取该同源片段,对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组;

所述鉴定模块用于对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释。

优选地,所述系统还包括迭代注释模块和批量注释模块;

所述迭代注释模块用于对鉴定得到的功能性嗅觉受体基因进行迭代注释,每一轮迭代过程中都会将新增加的序列特征更新到隐马尔可夫模型谱文件中,直到达到最大迭代次数或者注释结果收敛后终止迭代;

所述批量注释模块用于基于迭代注释结果进行多个基因组的批量注释。

与现有技术相比,本发明具有的有益效果至少包括:

(1)使用DNA序列构建的隐马尔科夫模型用于定位基因组中嗅觉受体基因的坐标,并利用嗅觉受体序列特征和模式匹配打分来鉴定功能性嗅觉受体基因,通过模型搜索基因坐标位置提高了搜索敏感度和效率,提高了检测远同源基因的水平,具有准确率高、敏感性好、注释效率高和占用计算资源少等优势。

(2)采用迭代注释进行优化更新隐马尔科夫模型谱文件,采用批量注释提高注释规模,提高了鲁棒性和普适性,适用于大规模注释脊索动物嗅觉受体基因。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1是本发明实施例提供的一种基于隐马尔可夫模型的嗅觉受体基因注释方法流程示意图;

图2是本发明实施例提供的一种基于隐马尔可夫模型的嗅觉受体基因注释系统结构示意图;

图3是本发明实施例1提供的一种注释小鼠基因组中嗅觉受体基因的流程示意图;

图4是本发明实施例2提供的一种迭代地注释斑马鱼基因组中嗅觉受体基因的流程示意图;

图5是本发明实施例3提供的一种批量地注释爬行动物基因组中嗅觉受体基因的流程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

本发明的发明构思为:针对现有技术中嗅觉受体基因注释效率低、鲁棒性差和注释不敏感等问题,本发明实施例提供了一种基于隐马尔可夫模型的嗅觉受体基因注释方法和系统,为首个使用DNA序列构建的隐马尔科夫模型用于定位基因组中嗅觉受体基因同源区域得到嗅觉受体基因的坐标,提取基因组中潜在嗅觉受体基因编码区域,采用与模版序列根据序列特征进行序列比对,进一步鉴定出功能性嗅觉受体基因,提高了基因注释的准确性、注释速度和敏感性,通过迭代注释和批量注释优化模型系统功能,最终能够实现鲁棒性和普适性高的脊索动物嗅觉受体基因大规模注释。

图1是本发明实施例提供的一种基于隐马尔可夫模型的嗅觉受体基因注释方法流程示意图。如图1所示,实施例提供了一种基于隐马尔可夫模型的嗅觉受体基因注释方法,包括以下步骤:

S1,构建嗅觉受体基因的隐马尔可夫模型,基于隐马尔可夫模型从给定的待注释基因组中预测嗅觉受体基因的同源区域并生成包含嗅觉受体基因坐标位置信息的命中列表。

具体地,首先构建嗅觉受体基因的隐马尔可夫模型,包括:从NCBI核酸数据库中获取所有嗅觉受体基因的编码DNA序列;根据DNA序列所属的物种谱系关系对DNA序列进行分类,物种谱系为纲、亚纲和总目级别的谱系分类数据;对DNA序列去冗余后使用MAFFT-LINSI算法对DNA序列进行多序列比对数据;根据多序列比对数据构建脊索动物各个演化分支的嗅觉受体基因的隐马尔可夫模型,隐马尔可夫模型谱文件的质量直接影响最终的注释质量。然后使用隐马尔可夫模型谱文件从给定的待注释基因组中预测嗅觉受体基因的同源区域并生成命中列表,命中列表中包含待注释基因组中嗅觉受体基因的坐标位置信息。

具体地,对于构建的嗅觉受体基因的隐马尔可夫模型,所有概率参数均存储为负自然对数概率,零概率的特殊情况存储为“*”。模型的观察状态集合是4种核苷酸A,T,C和G;隐藏状态集合是嗅觉受体基因演化过程中的三种突变事件,即删除d,匹配m和插入i。模型参数包括两个部分的内容,第一部分的内容是嗅觉受体基因各个位点的各个核苷酸的概率分布;第二部分的内容是嗅觉受体基因各个位点的状态转移概率,包括匹配状态到匹配状态的转移概率p

实施例中,鉴于不同物种的嗅觉受体基因差异较大,为文昌鱼、无颌鱼类、有颌鱼类、两栖动物、爬行动物、鸟类和哺乳动物等七个脊索动物演化分支分别预构建了隐马尔可夫模型谱文件,这在很大程度上降低了整个注释流程的复杂程度。

S2,从命中列表中解析出嗅觉受体基因的同源区域中的同源片段在待注释基因组中的坐标并切取该同源片段,对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组。

具体地,对于切取得到的同源片段,向同源片段的5’和3’端分别延伸一段碱基片段;识别延伸碱基片段后同源片段的起始密码子和终止密码子;获取所有从起始密码子开始到终止密码子结束中间的序列片段构建潜在编码区域序列列表;通过设置第一过滤条件从潜在编码区域序列列表排除非嗅觉受体编码基因片段,从而获得潜在功能性嗅觉受体基因列表组。

具体地,步骤S2中的第一过滤条件包括:(1)所有潜在的编码区域序列长度都小于750个核苷酸;(2)所有潜在编码区域序列长度都不能被3整除;(3)所有潜在编码区域序列中间都存在终止密码子。未满足第一过滤条件中全部条件的序列片段将作为潜在功能性嗅觉受体基因编码区域,所有潜在功能性嗅觉受体基因编码区域最终生成潜在功能性嗅觉受体基因列表组;满足第一过滤条件中至少一个条件的序列片段将被分类为截短基因或嗅觉受体假基因。

实施例中,如果嗅觉受体基因同源片段的长度小于1200个核苷酸,则将会在该同源序列的起始位置向前延伸,结束位置向后延伸等长的碱基片段,直至该同源序列片段达到长度要求。然后,对于每一条同源片段,遍历其包含的所有的起始密码子(ATG)和终止密码子(TAA、TAG或TGA)组合,构建一个潜在编码区域序列列表,并通过一系列上述第一过滤条件从该列表中排除非嗅觉受体编码基因片段,从而获得潜在的嗅觉受体基因列表。如果上述步骤S2中的第一过滤条件中全部条件均不能通过,那么该同源片段将被鉴定为潜在功能性嗅觉受体基因编码区域;如果满足第一过滤条件中至少一个条件,那么根据该嗅觉受体同源片段起始和终止坐标是否是基因组重叠群的终端(5’端或3’端)将其分类为截短基因和嗅觉受体假基因。截短基因位于基因组重叠群的终端,是基因组组装太过碎片化所造成的问题,它要么是功能性嗅觉受体基因,要么是嗅觉受体假基因,但是在没有更多信息的前提下无法做出更具体的判断。

S3,对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合,并进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释。

具体地,构建多条典型的嗅觉受体序列作为模板序列,模版序列被准确的界定了包含N端、胞内环、胞外环、跨膜螺旋结构域和C端区域的边界;将潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表中的基因序列与模板序列合并成新的序列集合,并进行序列比对,基于每个区域进行模式匹配打分,最终根据嗅觉受体的序列特征通过第二过滤条件鉴定出功能性嗅觉受体基因和嗅觉受体假基因,实现嗅觉受体基因注释。

具体地,步骤S3中第二过滤条件包括:潜在功能性嗅觉受体基因列表组中所有基因序列(1)模式匹配分数都小于10;(2)跨膜螺旋结构域的未比对位置总数都大于5;(3)含未比对位置的跨膜螺旋结构域个数都大于2。未满足第二过滤条件中全部条件的基因序列将被进一步鉴定为功能性嗅觉受体基因;满足第二过滤条件中至少一个条件的潜在功能性嗅觉受体基因列表中模式匹配分数最高的基因序列被鉴定为嗅觉受体假基因。

实施例中,潜在功能性嗅觉受体基因列表是由基因组上同一个嗅觉受体同源区域生成的一条或多条潜在功能性嗅觉受体蛋白序列。然后,对于每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列集合并完成对序列比对。模板序列是数十条典型的嗅觉受体序列,并被准确的界定了N端、胞内环、胞外环、跨膜螺旋结构域和C端等区域的边界。从比对后的序列文件中根据模板序列的边界信息界定这一组潜在功能性嗅觉受体的N端、胞内环、胞外环、跨膜螺旋结构域和C端等区域,并对每个区域进行模式匹配打分。最后,根据嗅觉受体的序列特征最终过滤出功能性嗅觉受体基因和嗅觉受体假基因。如果满足上述步骤S3中的第二过滤条件中至少一个条件,那么该潜在功能性嗅觉受体基因列表中模式匹配分数最高的基因序列被鉴定为嗅觉受体假基因。如果不满足第二过滤条件中全部条件且潜在功能性嗅觉受体基因列表组中只剩一条基因序列,那么该基因序列被鉴定为功能性嗅觉受体基因;如果该组列表中有不止一条基因序列,那么需要对N端基因序列做进一步统计分析并从中鉴定出功能性嗅觉受体基因。

S4,对鉴定得到的功能性嗅觉受体基因进行迭代注释,每一轮迭代过程中都会将新增加的序列特征更新到隐马尔可夫模型谱文件中,直到达到最大迭代次数或者注释结果收敛后终止迭代。

实施例中,将经过步骤S1~S3后注释得到嗅觉受体基因,包括功能性嗅觉受体基因和嗅觉受体假基因,然后对结果中功能性嗅觉受体基因的DNA序列进行多序列比对,最后更新隐马尔可夫模型谱文件后再进行下一轮地注释,直到达到用户设定的最大迭代次数或者注释结果收敛后终止迭代。在每一轮迭代过程中都会将新增加的序列特征更新到隐马尔可夫模型谱文件,因此迭代注释的优点是能够更为彻底地挖掘出基因组中的嗅觉受体基因,当然,这也需要更久的程序运行时间和更多的内存消耗。

S5,基于迭代注释结果进行多个基因组的批量注释。

实施例中,通过循环进行控制,每一轮循环能够完成一个基因组的注释并且将注释出来的功能性嗅觉受体基因、嗅觉受体假基因和截短基因分别保存到对应的目录。

综上所述,嗅觉受体是一类数量庞大的超基因家族,具有数量众多且差异大,假基因比率高等特点,这导致高质量地注释嗅觉受体基因比较困难。本发明实施例提供了一种基于隐马尔可夫模型的嗅觉受体基因注释方法,为首个使用DNA序列构建的隐马尔科夫模型用于定位基因组中嗅觉受体基因的坐标并提取潜在嗅觉受体基因编码区域,并利用嗅觉受体特征和模式匹配来鉴定嗅觉受体基因。解决了现有技术中嗅觉受体基因注释效率低、鲁棒性差和注释不敏感等问题,与现有方法相比,本发明在提高了注释准确率的前提下又将注释速度提高了近百倍,达到了在保证注释准确率基础上具有注释效率高、鲁棒性和普适性好以及敏感性高的效果,能够应用于大规模注释脊索动物中的嗅觉受体基因,在提高嗅觉受体数据质量和挖掘致病相关的嗅觉受体基因等方面具有良好的推广价值。

基于同样的发明构思,实施例还提供了一种基于隐马尔可夫模型的嗅觉受体基因注释系统200,如图2所示,包括定位模块210(nhmmer.py)、搜索模块220(FindOR.py)、鉴定模块230(IdentifyFunc.py)、迭代注释模块240(Iteration.py)和批量注释模块250(Batch.py)。

实施例中,使用Python编程语言实现了全部的自动化注释流程。

其中,定位模块210用于构建嗅觉受体基因的隐马尔可夫模型,基于隐马尔可夫模型从给定的待注释基因组中预测嗅觉受体基因的同源区域并生成包含嗅觉受体基因坐标位置信息的命中列表;

实施例中,定位模块210基于HMMER3套件中的nhmmer程序实现。

搜索模块220用于从命中列表中解析出嗅觉受体基因的同源区域中的同源片段在待注释基因组中的坐标并切取该同源片段,对每一条同源片段构建潜在编码区域序列列表,排除潜在编码区域序列列表中的非嗅觉受体编码基因片段,最终获得潜在功能性嗅觉受体基因列表组;

鉴定模块230用于对于潜在功能性嗅觉受体基因列表组中的每一个潜在功能性嗅觉受体基因列表,将其与模板序列合并成新的序列结合,进行序列比对,鉴定得到功能性嗅觉受体基因和嗅觉受体假基因,最终实现嗅觉受体基因注释;

迭代注释模块240是对定位模块210、搜索模块220和鉴定模块230三个模块的封装,用于对鉴定得到的功能性嗅觉受体基因进行迭代注释,每一轮迭代过程中都会将新增加的序列特征更新到隐马尔可夫模型谱文件中,直到达到最大迭代次数或者注释结果收敛后终止迭代;

批量注释模块250是对迭代注释模块240的进一步封装,用于基于迭代注释结果进行多个基因组的批量注释。

需要说明的是,上述实施例提供的基于隐马尔可夫模型的嗅觉受体基因注释系统,与基于隐马尔可夫模型的嗅觉受体基因注释方法实施例属于同一构思,其具体实现过程详见基于隐马尔可夫模型的嗅觉受体基因注释方法实施例,这里不再赘述。

实施例1

如图3所示,是一种注释小鼠(Mus musculus)基因组中嗅觉受体基因的流程示意图。如图3所示,具体包括以下步骤:

1.1) 从NCBI Assembly数据库下载小鼠的基因组组装数据作为待注释基因组,该数据检索号为GCF_000001635.27。为了方便后文描述,这里将下载得到的待注释基因组重命名为Mus_musculus_genome.fasta。

1.2)使用定位模块210,基于预先构建的隐马尔可夫模型谱文件定位待注释基因组Mus_musculus_genome.fasta文件中所有嗅觉受体基因的同源区域,并输出一个命中列表文件Mus_musculus_genome.txt。该文件中记录了所有从待注释基因组中嗅觉受体基因同源区域的序列相似度和坐标位置等信息。

1.3)使用搜索模块220解析命中列表文件Mus_musculus_genome.txt中嗅觉受体基因同源区域的坐标信息,并从基因组中提取对应的核酸片段。进一步,根据一系列第一过滤条件对所提取到的核酸片段进行处理,得到小鼠基因组中潜在的嗅觉受体基因,最终得到Mus_musculus_genome_Pre-pseudo_dna.fasta、Mus_musculus_genome_Pre-ORs_dna.fasta、Mus_musculus_genome_Pre-ORs_pro.fasta和Mus_musculus_genome_truncated.txt四个输出文件,他们分别记录着从小鼠基因组中注释得到的潜在嗅觉受体假基因、潜在功能性嗅觉受体基因、蛋白序列和截短基因。对于本实施例来说,完成这一步骤后共获得1809个潜在功能性嗅觉受体基因,254个潜在嗅觉受体假基因和0个截短基因。

1.4)使用鉴定模块230从上述步骤中得到的结果中鉴定出功能性嗅觉受体基因和嗅觉受体假基因。最终得到Mus_musculus_genome_func_ORs_dna.fasta、Mus_musculus_genome_func_ORs_pro.fasta和Mus_musculus_genome_pseu_ORs.fasta三个输出文件,他们分别记录着从小鼠基因组中注释得到的功能性嗅觉受体基因、蛋白序列和嗅觉受体假基因。对于本实施例来说,在小鼠基因组(GCF_000001635.27)中最终获得了1130个功能性嗅觉受体基因和254个嗅觉受体假基因。

实施例2

如图4所示,是一种迭代地注释斑马鱼(Danio rerio)基因组中嗅觉受体基因的流程示意图。相较于实施例1而言,本实施例使用了迭代注释,具体包括以下步骤:

2.1)从NCBI Assembly数据库下载斑马鱼的基因组组装数据作为待注释基因组,该数据检索号为GCF_000002035.6。为了方便后文描述,这里将下载得到的待注释基因组重命名为Danio_rerio_genome.fasta。

2.2)本步骤以待注释基因组文件Danio_rerio_genome.fasta和预构建的隐马尔可夫模型谱文件作为输入进行预测斑马鱼基因组中的嗅觉受体基因,最大迭代次数设置为3。首先需要经过定位模块210、搜索模块220和鉴定模块230三个模块处理。具体处理过程与实施例1中步骤1.2)~1.4)相同。最终得到Danio_rerio_genome_itera1_func_ORs_dna.fasta、Danio_rerio_genome_itera1_func_ORs_pro.fasta、Danio_rerio_genome_itera1_pseu_ORs_dna.fasta和Danio_rerio_genome_itera1_truncated.txt四个输出文件,他们分别记录着斑马鱼基因组中功能性嗅觉受体基因、蛋白序列、嗅觉受体假基因和截短基因。对于本实施例来说,第一轮注释在斑马鱼基因组中注释得到113个功能性嗅觉受体基因,13个嗅觉受体假基因和2个截短基因。

2.3)判断迭代次数为1,未达到最大迭代次数,进入第二轮迭代。使用第一轮注释得到的功能性嗅觉受体基因的DNA序列构建多序列比对数据,进而更新隐马尔可夫模型谱文件。然后,使用更新后的模型进行第二轮的注释,重复本实施例的2.2)步骤。最终得到Danio_rerio_genome_itera2_func_ORs_dna.fasta、Danio_rerio_genome_itera2_func_ORs_pro.fasta、Danio_rerio_genome_itera2_pseu_ORs_dna.fasta和Danio_rerio_genome_itera2_truncated.txt四个输出文件。对于本实施例来说,第二轮注释在斑马鱼基因组中注释得到121个功能性嗅觉受体基因,6个嗅觉受体假基因和2个截短基因。

2.4)判断迭代次数为2,未达到最大迭代次数,进入第三轮迭代。重复本实施例的2.2)和2.3)步骤。最终得到Danio_rerio_genome_itera3_func_ORs_dna.fasta、Danio_rerio_genome_itera3_func_ORs_pro.fasta、Danio_rerio_genome_itera3_pseu_ORs_dna.fasta和Danio_rerio_genome_itera3_truncated.txt四个输出文件。对于本实施例来说,第三轮注释在斑马鱼基因组中注释得到121个功能性嗅觉受体基因,7个嗅觉受体假基因和2个截短基因。

2.5)判断迭代次数为3,达到最大迭代次数,终止迭代注释。

实施例3

如图5所示,是一种批量地注释爬行动物基因组中嗅觉受体基因的流程示意图。相较于实施例2而言,本实施例使用了批量注释,具体包括以下步骤:

3.1)从NCBI Assembly数据库下载63个爬行动物基因组组装数据,存储在一个目录中用于注释,命名此目录为Reptiles_genomes。

3.2)使用迭代注释模块240遍历地注释Reptiles_genome目录中各个基因组。对于每个待注释基因组的具体注释步骤参照实施例2。

3.3)完成注释后共注释获得63个爬行动物的32956个功能性嗅觉受体基因和22459个嗅觉受体假基因。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

技术分类

06120116338266