掌桥专利:专业的专利平台
掌桥专利
首页

一种基于web快速检测转座子及其耐药基因的系统

文献发布时间:2023-06-19 12:02:28


一种基于web快速检测转座子及其耐药基因的系统

技术领域

本申请实施例涉及数据处理技术领域,具体而言,一种基于web快速检测转座子及其耐药基因的系统。

背景技术

随着基因测序技术的迅速发展和测序成本的降低,越来越多的原核生物基因组被测序,为更详尽地分析原核基因组带来了新的契机。通过对原核基因组的分析,发现原核基因组具有高度可塑性和巨大的进化潜力。基因水平转移极大地促进了细菌的演化以及对环境的适应性。转座子指的是可以从基因组的原位置上单独复制或者断裂下来,环化后插入另一位点,并对其后的基因起调控作用的DNA序列。转座子可以引起基因组序列的扩增、删除、移位、倒位、断裂等,进而对基因组的结构、功能和进化都起着十分重要的影响。另外,转座子通常会携带耐药基因,这可能导致抗生素耐药性在细菌中的水平传播。带有不同抗药性基因的转座子在细菌质粒间的转座会导致多重抗药性质粒的形成,从而使得药物药效降低,进而影响人类健康。由于转座子是耐药基因传递的主要移动遗传元件,因此通过阻止转座子的传播,有助于降低抗生素耐药性。目前有大量关于转座子的研究,并很快地产生了大量关于其结构的信息,但转座子存在于多种细菌的染色体或质粒中,不同的转座子在遗传构成、负责插入或切除的基因、携带的附属基因等方面具有较大的差异。此外转座元件也能够通过元件之间的重组和/或转座到其他元件中,形成新的嵌合元件。现有技术中,建立了一些转座子相关的数据库,用于查询细菌基因组中的转座子序列。

然而,现有的转座子数据库中,大多数转座子没有相应序列的名称,数据库中转座子的数据不全,且转座子的信息不清楚明确,没有便于用户使用的查询工具,对使用者很不友好。

发明内容

本申请实施例提供一种转座子序列数据查询系统,旨在构建一个信息全面准确的转座子数据库,并方便用户快速查询转座子序列信息。所述转座子序列数据查询系统包括:

转座子序列数据库模块,用于存储转座子序列及其对应的转座子序列信息;

转座子序列数据查询模块,用于根据用户输入的细菌基因组序列,查询所述细菌基因组序列对应的转座子序列信息。

可选地,所述转座子序列数据查询系统还包括:

转座子序列数据库构建模块,用于收集所述转座子序列及其对应的转座子序列信息,构建所述转座子序列数据库。

可选地,所述转座子序列数据库构建模块包括:

第一转座子序列数据收集子模块,用于从文献数据库中收集转座子序列及其对应的转座子序列信息;

第二转座子序列数据收集子模块,用于从现有数据库中收集转座子序列及其对应的转座子序列信息;

转座子序列数据处理子模块,用于对收集到的转座子序列进行筛选,并剔除冗余的转座子序列;

转座子序列信息处理子模块,用于将收集到的所述转座子序列信息按照预设条目对应存储,所述预设条目包括:登记号、参考来源、详细描述、耐药类型、转座子家族的分组信息;

转座子序列数据库更新子模块,用于定期更新所述转座子序列数据库。

可选地,所述转座子序列数据查询模块包括:

转座子序列简介子模块,用于展示转座子序列的介绍信息;

转座子序列数据在线查询子模块,用于接收用户输入的细菌基因组序列,根据所述细菌基因组序列,在所述转座子序列数据库中进行查询,得到查询结果;

查询方法简介子模块,用于向用户展示所述转座子序列数据库的查询方法;

意见问题子模块,用于收集用户对所述转座子序列数据库的反馈信息;

转座子序列数据查询系统更新子模块,用于根据所述反馈信息,更新所述转座子序列数据查询系统。

可选地,所述转座子序列数据在线查询子模块包括:

转座子序列对比子模块,用于将用户输入的所述细菌基因组序列与所述转座子序列数据库中的各个转座子序列进行比对,得到初步的比对结果;

结果排序与筛选子模块,用于对所述初步的比对结果进行排序和筛选,得到最终的比对结果;

耐药基因检索子模块,用于根据所述最终的比对结果,在预先建立好的耐药基因数据库中检索到所述最终比对结果对应的耐药信息。

可选地,所述转座子序列数据查询模块还包括:

结果展示子模块,用于将所述最终的比对结果以及所述最终比对结果对应的耐药信息以表格形式进行展示,得到转座子注释结果表格;

结果下载子模块,用于供用户将所述转座子注释结果表格下载至本地。

可选地,所述转座子序列查询系统还包括:

耐药基因数据库建立模块,用于收集目前已发现的耐药基因序列,将所述耐药基因序列进行保存,生成所述耐药基因数据库。

本申请提出的转座子序列数据查询系统,包括:转座子序列数据库模块,用于存储转座子序列及其对应的转座子序列信息;转座子序列数据查询模块,用于根据用户输入的细菌基因组序列,查询所述细菌基因组序列对应的转座子序列信息。与现有技术相比,本申请的转座子序列数据查询系统,在各种文献与数据库中收集转座子序列及其对应的序列信息,构建出了一个信息全面准确的数据库。并且开发了一个便于用户使用的查询平台,使用户可以方便、快速的查询基因组中的转座子序列并查询其对应的信息。另外,本申请将转座子序列对应的信息按照参考来源、详细描述、耐药类型、转座子家族的分组信息分条目进行存储以及展示,方便用户查阅,便于用户的使用。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的一种基于web快速检测转座子及其耐药基因的系统结构示意图;

图2是本申请一实施例提供的一种基于web快速检测转座子及其耐药基因的系统的构建流程示意图;

图3是本申请一实施例提出的一种基于web快速检测转座子及其耐药基因的查询方法的流程图。

具体实施方式

对于现有的转座子数据库,一种数据库的主要作用是为新发现的转座子(Tn)提供一个登记号、描述以及对应序列的链接,但其对应的序列并不是一个单纯的转座子序列,需要用户下载参考文件后,根据参考文件中的注释文件手动寻找转座子的位置才能获取其序列信息,在进行大批量操作时往往费时费力,其提供的检索功能,只有在用户知道某一个具体转座子编号时才可以进行搜索,无法应用于全新未知的细菌基因组。

另一种数据库中主要关注Tn3转座子家族和复合转座子,但这两类转座子只是众多转座子家族的一员,因此该数据库数据覆盖的范围较为狭窄。并且其中缺乏转座子在基因组中的位置信息、耐药信息,参考来源信息等,无法快速帮助用户定位自己的基因数据中的转座子位置。

现有的不同的转座子数据库之间或者内部之间存在着大量的重复数据,本申请提出的的数据库采取了去冗余以及合并不同物种的同源性转座子的方法,可以使得用户对物种间转座子的联系更清晰。而且本申请提出的数据库中都是经实验验证的、结构清晰的转座子,因此获得结果的准确度更高。此外,对于一些临床重要致病菌,比如鲍曼不动杆菌和肺炎克雷伯菌,其基因组进化比较快,基因水平转移率比较高,需要实时更新以获得更全的数据库。现有的数据库中的数据不够全也比较陈旧,急需我们这样一个全面的、注释清晰的、准确度高的、方便使用的、资源丰富的转座子数据库。

参考图1,图1是本申请一实施例提出的一种基于web快速检测转座子及其耐药基因的系统结构示意图。如图1所示,本申请提供一种转座子序列数据查询系统,包括:转座子序列数据库模块11、转座子序列数据查询模块12。

转座子序列数据库模块11,用于存储转座子序列及其对应的转座子序列信息。

本实施例中,转座子序列数据库(TnDB)是一个在线数据库,其中包含了至少357条参考序列,其中有6.16%(22/357)条参考序列是不完整的,剩余的参考序列都是完整的。

本实施例中,转座子序列数据库是由转座子序列数据库构建模块构建而成的,转座子序列数据查询系统还包括转座子序列数据库构建模块,包括:

第一转座子序列数据收集子模块,用于从文献数据库中收集转座子序列及其对应的转座子序列信息。

本实施例中,文献数据库中包含有大量已经发表的文章,从这些文章中可以收集到经过实验验证的转座子序列及其对应的转座子序列信息,转座子序列信息包含了转座子的相关内容,包括有转座子的详细描述,转座子家族的分组信息等。本实施例从文献数据库中收录的至少247篇关于转座子的参考文献中进行收集。这些参考文献中的转座子序列都是经过实验验证,且都是正规出版的国际性文献,可信度高。

示例地,可以从NCBI PubMed上,以“transposases”或“transposons”为关键词进行搜索,得到关于转座子的文章,从文章中收集转座子的序列及其注释的内容。

第二转座子序列数据收集子模块,用于从现有数据库中收集转座子序列及其对应的转座子序列信息。

本实施例中,现有数据库指现有的转座子数据库和包含转座子序列的基因数据库,这些数据库中存储有部分转座子序列及其注释,其注释即转座子序列信息。另外,一些现有的基因数据库中也存储有转座子序列,但不一定是专门存储转座子序列的数据库,从这些数据库中收集出其中的转座子序列,更有利于本实施例的转座子序列数据库的构建。

示例地,在TRANSPOSON REGISTRY数据库中收集433条转座子序列,从Tncentral收集57条转座子序列,从MARA/GAMR收集35条转座子序列。

转座子序列数据处理子模块,用于对收集到的转座子序列进行筛选,并剔除冗余的转座子序列。

本实施例中,转座子序列数据处理子模块是在从文献和现有数据库中收集到转座子序列数据之后,对其进行数据处理的模块。

一方面,在从参考文献中收集了转座子序列后,需要剔除参考文献中的冗余序列,冗余序列指重复多余的序列,并且剔除参考文献中结构注释不清楚的序列,得到有着清楚的结构和注释的转座子序列。

另一方面,在从现有数据库中收集到转座子序列之后,将从现有数据库中收集的转座子序列与从参考文献中收集的转座子序列进行筛选,剔除其中的冗余序列,确保本实施例中的转座子序列数据库中不存在重复、结构不清的序列。

本实施例中,建立好的TnDB数据库中含有357条转座子序列,也称为参考序列,其中仅有6.16%,即22条序列是不完整的,尽可能保证了转座子序列的完整性。

转座子序列信息处理子模块,用于将收集到的所述转座子序列信息按照预设条目对应存储,所述预设条目包括:登记号、参考来源、详细描述、耐药类型、转座子家族的分组信息。

本实施例中,需要将收集来的转座子序列对应的转座子序列信息,即其注释信息按照预设好的条目进行对应存储,方便用户的查阅。

每个转座子序列都对应一个登记号,这个登记号是每个转座子序列存储在数据库中的唯一编号,通过该登记号可以快速的查找到每个转座子序列数据,每个转座子序列都有参考来源,表明了该转座子序列的来源,详细描述中描述了该转座子序列的具体信息,包括但不限于该转座子序列的具体结构信息,该转座子序列的特性信息等,耐药类型是该转座子的对应的耐药基因的耐抗生素类型,还包括转座子家族的分组信息,表明了该转座子属于那个转座子家族。其中,登记号是系统在存储转座子时为该转座子设定的编号,参考来源、详细描述、转座子家族的分组信息是根据收集的转座子序列信息得到的,耐药类型是比对了耐药基因数据库中的耐药基因得到的。

示例地,转座子的登记号可以是Tn1013,Tn1021等,转座子家族分组信息可以是Tn3,Tn6等,Tn3和Tn6各代表一个转座子家族。参考来源和详细描述根据转座子的自身情况而定。

转座子序列数据库更新子模块,用于定期更新所述转座子序列数据库。

本实施例中,为了保证数据库的完整性和时效性,需要定期更新转座子序列数据库,具体的更新周期可以根据需要自行设定,这里不做限制,定期在文献数据库和基因数据库中检索转座子序列,与转座子序列数据库中的序列进行对比,将发现的新的转座子数据按照预设规则存储进入转座子序列数据库中,完成对转座子序列数据库的更新。

转座子序列数据查询模块12,用于根据用户输入的细菌基因组序列,查询所述细菌基因组序列对应的转座子序列信息。

本实施例中,提供了一个便于用户进行转座子序列查询的系统,用户可以通过此系统,对转座子序列数据库进行查询,得到需要的转座子序列。具体方式是用户将细菌基因组序列输入到该系统查询模块中,细菌基因组序列是只有序列数据,没有任何其他信息的基因序列,细菌基因组序列中包含有转座子序列。系统会将用户输入的细菌基因组序列与转座子序列数据库中存储的转座子序列进行比对,查找到细菌基因组序列中的转座子序列及其转座子序列信息。

转座子序列查询模块包括:

转座子序列简介子模块,用于展示转座子序列的介绍信息。

本实施例中,在转座子序列查询模块中设置了转座子序列简介子模块,转座子序列简介子模块用于向用户介绍转座子序列。

示例地,可以在转座子序列查询系统中设置一个简介页面向用户介绍转座子序列的名称由来,具体作用,研究价值等。

转座子序列数据在线查询子模块,用于接收用户输入的细菌基因组序列,根据所述细菌基因组序列,在所述转座子序列数据库中进行查询,得到查询结果。

本实施例中,转座子序列数据在线查询子模块,在接收到用户输入的细菌基因组序列后,会对其进行在线查询,得到查询结果,转座子序列数据查询子模块包括:

转座子序列对比子模块,用于将用户输入的所述细菌基因组序列与所述转座子序列数据库中的各个转座子序列进行比对,得到初步的比对结果。

本实施例中,在用户输入多个细菌基因组序列时,系统会将这些细菌基因组序列与转座子序列数据库中的已知转座子序列进行比对,确定这些细菌基因组序列中的转座子序列的具体信息,得到初步的比对结果。

结果排序与筛选子模块,用于对所述初步的比对结果进行排序和筛选,得到最终的比对结果。

本实施例中,在确定了用户输入的多个细菌基因组序列对应的转座子序列的具体信息后,系统利用结果排序与筛选子模块对得到的初步比对结果进行排序,排序的规则可以自行设置,再对这多个结果进行筛选,将错误的结果进行剔除,得到最终的比对结果,最终的比对结果是按照预设规则排序好的。

示例地,排序规则可以是根据转座子序列的登记号来进行排序,将登记号靠前的转座子排到前列,方便后续以表格的形式进行输出。

耐药基因检索子模块,用于根据所述最终的比对结果,在预先建立好的耐药基因数据库中检索到所述最终比对结果对应的耐药信息。

本实施例中,耐药基因数据库中存储了众多去冗余的耐药基因序列,耐药信息包括耐药基因及其对应的耐抗生素类型,即耐药类型(如氨基糖苷类、四环素类)。在确定了细菌基因组对应的转座子序列后,可以根据该转座子序列查询得到其对应的耐药基因序列及耐药类型,也称作耐药信息。

查询方法简介子模块,用于向用户展示所述转座子序列数据库的查询方法。

本实施例中,设置了查询方法简介子模块,主要帮助用户快速掌握转座子序列数据查询系统的使用方法,具体设置为向用户展示如何输入细菌基因组序列,如何进行查询操作,最后的输出是什么。

示例地,使用一个单独的页面向用户展示,输入一个给定的细菌基因组,输出其对应的转座子序列数据及其对应的转座子序列信息。

意见问题子模块,用于收集用户对所述转座子序列数据库的反馈信息。

本实施例中,设置了意见问题子模块,用于收集用户的反馈信息,用户可以将使用的体验,意见和建议反馈至系统。

示例地,设置一个单独页面,页面中包含意见填写栏和提交栏,也可以包含系统管理人员的联系方式等。

所述转座子序列数据查询系统更新子模块,用于根据所述反馈信息,更新所述转座子序列数据查询系统。

本实施例中,设置了转座子序列数据查询系统更新子模块,在接收到用户的反馈信息后,对这些反馈信息进行统一处理,管理人员可以参考这些反馈信息,对转座子序列数据查询系统进行更新,可以扩充数据库或者更改系统的查询界面,该更新过程可以与转座子序列数据库的更新同时进行,也可以单独进行。

本实施例中,转座子序列数据查询模块还包括:

结果展示子模块,用于将所述最终的比对结果以及所述最终比对结果对应的耐药信息以表格形式进行展示,得到转座子注释结果表格。

本实施例中,最终的转座子注释结果表格中,每个用户输入的细菌基因组都对应有转座子序列数据、转座子序列信息以及对应的耐药信息。将这些信息按照预设的条目,以表格的形式进行输出,就得到了转座子注释结果表格。

结果下载子模块,用于供用户将所述转座子注释结果表格下载至本地。

本实施例中,设置了结果下载子模块,用户可以通过该模块将转座子注释结果表格下载至本地。

本实施例中,所述转座子序列查询系统还包括:

耐药基因数据库建立模块,用于收集目前已发现的耐药基因序列,将所述耐药基因序列进行保存,生成所述耐药基因数据库。

示例地,从ResFinder数据库中收集了5029个耐药基因序列,生成了耐药基因数据库。

本实施例中,也可以将该系统下载至本地,更加方便用户的使用。

如图2所示,图2是本申请一实施例提供的一种基于web快速检测转座子及其耐药基因的系统的构建流程示意图。如图2所示,构建的流程包括:

收集转座子序列,搜索途径主要分为两种:

在参考文献数据库中收集转座子序列及其对应的转座子序列信息;

在现有基因数据库中收集转座子序列及其对应的转座子序列信息。

对于收集到的参考文献中的转座子序列进行处理,剔除其中的冗余序列和结构注释不清楚的序列。

对收集到的所有序列再次进行处理,筛选,剔除其中的冗余序列。

将处理后的转座子序列及其对应的序列信息进行存储,建立转座子序列数据库(TnDB数据库)。

开发一个基于TnDB数据库的,快速查询并注释转座子的平台,具体流程包括:

设置简介页面;

设置在线查询页面,在线查询页面可以在线对用户输入的细菌基因组进行TnDB数据库转座子序列比对,将得到的结果进行排序与筛选,将排序与筛选完成后得到的结果在耐药数据库中进行比对检索。

其中,耐药基因数据库是通过收集现有的耐药基因序列进行存储,建立的数据库。

设置查询方法简介页面,查询方法简介页面可以向用户展示查询的方法,输入数据与输出数据示例等。

设置意见问题页面,页面中可以设置意见填写栏,显示开发者或管理人员的联系方式等。

设置结果展示页面,页面中可以以表格的形式展示用户输入细菌基因组对应的转座子序列及相关信息,每个转座子条目都有一个唯一的登记号,参考来源,详细描述,耐药类型,转座子家族的分组信息以及序列数据。

在结果展示页面中设置标识,触发该标识以下载结果展示页面展示出的表格数据。

如图3所示,图3是本申请一实施例提出的一种基于web快速检测转座子及其耐药基因的查询方法的流程图,如图所示,该方法包括:

S31:输入待查询的细菌基因组序列,确认开始执行查询任务。

本实施例中,待查询的细菌基因组序列是只有基因组序列数据,没有其他信息的细菌基因组序列,实际操作中,可以将待查询的细菌基因组序列以文件形式导入到查询模块中,或者直接将细菌基因组序列复制粘贴至查询模块的对话框中。

在将细菌基因组序列导入到查询模块中后,还可以进行相应的设置,设置“identity(一致性)”和“coverage(覆盖率)”的阈值,identity指的是序列之间的相似度,coverage指的是通过测序获得的序列与参考序列间相似区域长度占对应参考序列长度的比值。也可以设置为默认值。

将参数设置好之后,即可确认开始执行查询任务。用户可以点击在线查询页面中的开始按钮,开始执行查询任务。

S32:在结果展示页面查看转座子注释结果表格。

本实施例中,执行查询任务之后,系统会自动生成一个转座子注释结果表格。用户可以在转座子注释结果表格中查看输入细菌基因组序列对应的转座子序列及其转座子序列信息。

用户可以查看转座子携带的耐药信息,包括耐药基因名称、耐药基因的耐药类型等,还可以查看该转座子在contig(重叠群)上的位置信息,即该转座子在输入的细菌基因组序列上的位置,转座子序列的登记号、参考来源、转座子家族的分组信息以及转座子序列数据。

S33:点击下载标识,下载转座子注释结果表格。

本实施例中,用户可以通过点击下载标识将转座子注释结果表格下载至本地,方便存储和查阅。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种转座子序列数据查询系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 一种基于web快速检测转座子及其耐药基因的系统
  • 一种快速检测EGFR基因耐药突变的试剂盒
技术分类

06120113146596