掌桥专利:专业的专利平台
掌桥专利
首页

一种基于问答模型的病原微生物知识自动获取的方法、系统及装置

文献发布时间:2024-04-18 19:58:21


一种基于问答模型的病原微生物知识自动获取的方法、系统及装置

技术领域

本发明涉及基因检测和人工智能相结合技术领域,尤其涉及一种基于问答模型的病原微生物知识自动获取的方法、系统及装置。

背景技术

随着测序技术的快速发展,宏基因组二代测序(mNGS)在感染性疾病的临床应用越来越受到重视,可以辅助临床医生快速鉴定病原体。然而,从测序结果到临床诊疗,中间需要庞大的解读知识库的支撑。目前,这些解读知识库的构建都是依靠具有丰富经验的遗传分析师人工阅读大量文献资料去手动构建的,即以物种名作为关键词在PubMed或者其他搜索引擎中进行检索,通过题目判断并选取可能会包含所需信息的文献,逐一进行全文阅读,提取所需信息,并记录到数据表中。

人工从文献中收集病原微生物知识存在着多种缺点。首先,文献数据庞大,以物种名作为关键词在PubMed中进行检索,结果可能高达数千篇文献。文献中所涉及的病原微生物信息需要进行整理、分类和归纳,需要进行复杂的数据处理和分析,工作量巨大。其次,病原微生物相关研究在不断发展和更新,人工收集文献中所描述的信息可能存在较大的时间滞后性,不能及时反映最新的研究进展和发现。

因此,开发更加先进和高效的技术手段来自动、准确、规范、高效地从海量文献数据中收集和整合病原微生物相关信息,提高信息的质量、全面性和实时性,从而构建高质量、规范化的病原微生物知识库,更好地支持病原微生物相关的研究和应用,是目前亟需解决的技术难题。

发明内容

鉴于此,本发明的目的在于提供一种基于问答模型的病原微生物知识自动获取的方法、系统及装置,旨在解决上述背景技术中提到的技术问题。

为实现以上目的,第一方面,本发明提供了一种基于问答模型的病原微生物知识自动获取的方法,包括:

获取从预制网站首页输入的第一关键词,根据所述第一关键词从文献数据库中获取第一对象信息和第二对象信息;

对所述第一对象信息进行渲染显示处理,并将所述第二对象信息与所述预制网站的数据接口对接,以获取对象文件;

通过预设的标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合;

获取第二关键词并根据所述第二关键词对所述对象信息集合进行逐级高亮处理,以构建待训练的数据集;

利用所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合,将所述目标信息集合保存到对象数据库中。

优选的,所述获取第二关键词并根据所述第二关键词对所述对象信息集合进行逐级高亮处理,以构建待训练的数据集包括:

获取第二关键词并判断所述第二关键词在所述对象信息集合中的文本关系;

根据所述文本关系并通过预设的高亮规则对所述对象信息集合进行逐级高亮处理;

构建待训练的数据集。

优选的,所述文本关系包括所述第二关键词在所述句子中的位置和关联程度。

优选的,所述通过预设的标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合包括:

通过HTML标签对所述对象文件进行解析,以定位或提取所述对象文件的对象信息集合。

优选的,所述HTML标签包括

-

标签和

标签,其中,所述

-

标签用于定位或提取文章的标题,所述

标签用于定位或提取文章的正文内容。

优选的,所述第一关键词为物种名或文献的PubMedID,所述第一对象信息包括标题信息和摘要信息,所述第二对象信息包括PubMedID信息。

优选的,所述利用所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合具体为:

以专门用于生物医学文本处理的BioBERT模型作为预设的训练模型;

利用经自然语言处理模型多样化处理的所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合。

优选的,所述利用所述待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合具体为:

以专门用于生物医学文本处理的BioBERT模型作为预设的训练模型;

利用所述待训练的数据集对预设的训练模型进行训练,以得到中间训练模型;

由专业的评审人员对经所述中间训练模型预测的答案进行在线评审,以扩充所述待训练的数据集;

利用扩充后的所述待训练的数据集对预设的训练模型进行深度学习训练,以实现模型自动获取目标信息集合。

第二方面,本发明提供了一种基于问答模型的病原微生物知识自动获取的系统,用于实现上述的方法,包括前端模块、文献获取模块、第二关键词高亮模块、文本挖掘模块和数据库模块。

第三方面,本发明提供了一种基于问答模型的病原微生物知识自动获取的装置,包括上述的系统。

综上所述,与现有技术相比,本发明提供了一种基于问答模型的病原微生物知识自动获取的方法、系统及装置,可以将审核后的知识提交到对象数据库中持久化地保存和管理,具有操作简单、能够极大减少人力的投入、以及预测答案的准确率高达93%等有益效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于问答模型的病原微生物知识自动获取的方法的流程示意图;

图2是本发明具体实施例提供的一种基于问答模型的病原微生物知识自动获取的系统的结构示意图;

图3是本发明具体实施例提供的一种基于问答模型的病原微生物知识自动获取的方法的流程图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请中的术语“第一”和“第二”等是用于差异不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

第一方面,提供了一种基于问答模型的病原微生物知识自动获取的方法,如图1所示,包括:

101:获取从预制网站首页输入的第一关键词,根据第一关键词从文献数据库中获取第一对象信息和第二对象信息;

在本实施例中,第一关键词为物种名或文献的PubMedID,第一对象信息包括标题信息和摘要信息,第二对象信息包括PubMedID信息。

需要说明的是,在具体实施过程中,预制网站可以是以B/S架构作为基础开发的一个网站,用于与专家进行交互,专家可以在该网站的首页输入感兴趣的物种名或特定文献的PubMedID;

102:对第一对象信息进行渲染显示处理,并将第二对象信息与预制网站的数据接口对接,以获取对象文件;

需要说明的是,在本实施例中,可以结合专家提供的物种名,然后利用PubMedE-utilities应用程序编程接口(API),从NCBI数据库中获取物种相关的文献信息,这些文献信息主要包括PubMedID、标题和摘要信息等。

在具体实施过程中,首先,构造一个包含指定搜索第一关键词的查询URL,并从NCBI数据库返回的JSON响应中获取PubMedID列表;其次,遍历PubMed ID列表中每个PubMedID,构造包含获取文章详细信息的URL,并从NCBI数据库返回的XML响应中提取文章标题和摘要;最终,将文章标题和摘要等信息渲染到前端供专家查看和选择感兴趣的文献,另外同时将选中文献的PubmedID传送给后端。

103:通过预设的标签对对象文件进行解析,以定位或提取对象文件的对象信息集合;

在本实施例中,预设的标签为HTML标签,HTML标签包括

-

标签和

标签等,其中,

-

标签可用于定位或提取文章的标题,

标签可用于定位或提取文章的正文内容。

在具体实施过程中,结合PubMedID和PubMed网站的URL接口,从网络中获取网站的HTML文件,并根据HTML标签从HTML文件中解析出对应文献的主要内容。

需要说明的是,在一些实施例中,还可以使用一些类名或ID名来定位需要提取的内容。例如:使用类名为“main-content”的元素来提取主要内容。但需要注意的是,不同的网站使用的HTML结构可能会有所不同,因此在编写抓取程序时需要根据实际情况进行相应的调整。

104:获取第二关键词并根据第二关键词对对象信息集合进行逐级高亮处理,以构建待训练的数据集;

需要说明的是,在具体实施过程中,可利用专家提供的常见病原微生物知识第二关键词,在文献中突出显示与病原微生物知识相关的基本词汇和句子,高亮出包含第二关键词的病原微生物知识位置,供专家进行筛选。在高亮过程中,可通过判断第二关键词在句子中的位置以及重要程度,比如判断:1)第二关键词是否直接出现在句子中;2)第二关键词作为谓语时,句子的主语或者宾语是否为目标物种;在此判断基础上进行语法分析,进而给出不同的高亮等级,以代表不同的推荐等级。

需要说明的是,在具体实施过程中,此高亮方法极大程度地提高了构建待训练的数据集的效率以及专家审核文献的速度,从而加快了基础的、足够用于训练模型的病原微生物知识数据集的构建。

105:利用待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合,将目标信息集合保存到对象数据库中。

在具体实施过程中,根据利用待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合可以具体为:

以专门用于生物医学文本处理的BioBERT模型作为预设的训练模型;

利用经自然语言处理模型多样化处理的待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合。

需要说明的是,由于提供给问答模型的样本是问题和答案所在文本的组合,因此可以利用ChatGPT来生成更加多样化的问题,与同样的文本组合以产生更多样本。通常而言,训练样本越多,模型的效果就越好。

在具体实施过程中,利用待训练的数据集对预设的训练模型进行训练,以实现利用模型自动获取目标信息集合还可以具体为:

以专门用于生物医学文本处理的BioBERT模型作为预设的训练模型;

利用待训练的数据集对预设的训练模型进行训练,以得到中间训练模型;

由专业的评审人员对经中间训练模型预测的答案进行在线评审,以扩充所述待训练的数据集;

利用扩充后的待训练的数据集对预设的训练模型进行深度学习训练,以实现模型自动获取目标信息集合。

在具体实施过程中,在模型预测出答案之后,可以由专业的评审人员执行在线评审,并对提取的知识进行适当修正。并且,评审修正之后的答案又可以作为新的样本自动添加到原来的待训练的数据集中,从而不断扩充待训练的数据集。

在具体实施过程中,除了数据增强之外,还可以对模型本身加以改进,即从训练数据中检索该类问题的相关答案,然后作为先验知识加入到模型训练中,使得模型拥有参考答案,从而更准确地预测问题的答案。

需要说明的是,由于在测试中会出现参考答案以外的答案,因此,在训练中采用随机丢弃一些扩充的答案的方法,以模拟参考答案的不完整性,并且避免使模型倾向于将查询问题与注入的参考答案进行匹配。

需要说明的是,以上提出的方法都有效地提升了模型的性能。

第二方面,提供了一种基于问答模型的病原微生物知识自动获取的系统,用于实现上述的方法,该系统具体包括:

1)前端模块

前端模块由Vue.js框架实现,该模块提供专家在浏览器上操作的页面,包括网站首页、文献列表页面、文献摘录页面和数据库可视化页面,其中:

网站首页提供数据库可视化页面的入口以及检索物种和文献的输入框;

文献列表页面包含根据物种名第一关键词检索到的检索结果列表、检索结果摘要以及分页导航;

文献摘录页面采用“主副式布局”(Master/DetailLayout)方式,将页面分为文献内容显示区域和信息摘录表单区域,文献内容显示区域占据页面的左边大部分空间,而信息摘录表单区域位于文献内容显示区域的右边,用于专家记录从文献中提取到的病原微生物信息,包括病原微生物的革兰氏类型、存在部位、相关疾病、致病性、药物敏感性、药物耐药性、需氧性和形态八个属性;

数据库可视化页面,将数据库中的信息显示在浏览器端,供专家对已录入数据库的信息进行统计、审核和校验。

2)文献获取模块

该模块不仅可以切换不同的文献获取策略,还可以根据需要灵活添加不同的文献获取策略。目前开发的策略主要有三种:直接从文献数据库获取已持久化的文献内容、从PubMed网站上获取文献相关内容、利用PubMedE-utilities应用程序编程接口(API)从NCBI数据库中获取物种相关的文献信息。从PubMed网站上获取文献相关内容的方法,采用Python语言和相关的爬虫库实现,主要功能是根据专家提供的文献PubMedID信息,自动从网络中搜索、获取相应的文献,并从中提取出文献摘要或全文。具体地说,该模块根据PubMedID号,构造PubMed的检索链接。例如,对于PubMedID为12345678的文献,可以使用以下链接进行检索:https://pubmed.ncbi.nlm.nih.gov/12345678/,通过该链接,可以直接访问PubMed的网站,并找到对应的文献页面。在PubMed的文献页面中,可以找到文献的详细信息、摘要、作者、期刊等相关信息。如果需要进一步获取文献的全文,可以通过PubMed的链接或者DOI号等信息,跳转到相应的出版商网站,如Springer、Elsevier等,以获取文献的全文。一旦找到符合条件的文献,模块就可以从中提取出摘要或全文,以便专家更好地了解文章内容和结论。

3)第二关键词高亮模块

需要说明的是,在前期还没有足量的数据训练网络模型的时候,专家主要是利用第二关键词高亮模块辅助采集数据。在具体实施过程中,要求专家提供其在人工摘录物种信息的过程中,常见的第二关键词列表,不同的物种属性对应不同的第二关键词。该模块根据专家提供的第二关键词对文章内容进行文本高亮,从而提高专家的查找效率和准确性。同时,第二关键词列表不是固定不变的,它被存储在后端的数据库中,需要的时候从后端读取。专家在使用的过程中,还可以对第二关键词列表进行实时修改,添加和删除第二关键词都可以在网站上完成。

4)文本挖掘模块

文本挖掘模块采用Pytorch框架实现,主要功能包括数据预处理、特征提取、模型构建、训练模型,模型评估、模型部署等功能。训练好的模型部署之后,浏览器可以向该模块发送文献内容和物种名,模型从文献中提取出物种的相关属性答案,并返回给浏览器进行结果输出,并将结果在文献中的对应位置进行高亮。需要说明的是,鉴于自然语言处理模型的发展速度飞快,在整个系统中,基线模型并不是一成不变的,而是可以灵活地切换。模型管理器被专门用于适配不同的自然语言处理模型,任何新上架的模型,只要对模型的输入输出进行适当的修改,就可以应用到该系统上。

5)数据库模块

数据库模块所使用的数据库为MySQL,它是一种关系型数据库,具有开源、高性能、可靠性和安全性等优势。该模块实现了对病原微生物信息增删改查的操作,对数据进行持久化,生成并输出病原微生物数据集等功能。

各个模块通过Docker部署在服务器上。每个模块作为一个独立的容器,具有其独立的运行环境和文件系统。这样可以有效地实现应用程序的可扩展性和可维护性。不同模块之间采用Http协议进行通讯,这是一种轻量级的、可扩展的、基于请求-响应模型的协议。通过Http协议,不同的模块可以相互调用,传输数据并进行数据交换。

第三方面,提供了一种基于问答模型的病原微生物知识自动获取的装置,包括上述的系统。

第四方法,提供了基于上述的方法、系统和装置所具体实施的三个实施例。

实施例一

如图2和图3所示,服务器端接收客户端的请求,并根据请求的内容进行相应的处理。例如,如果专家要搜索某个物种名第一关键词,服务器会根据该第一关键词在NCBI数据库中进行检索,并返回相关的文献列表。如果专家在首页输入文献的PubMedID号或者在相关文献列表选中一篇文献,服务器会根据文献的PubMedID号,在万维网中获取文献内容(摘要或全文)。

服务器将检索得到的文献列表或者文献内容按照HTML格式返回给客户端。客户端浏览器接收到服务器返回的数据后,根据HTML格式解析并渲染页面,以呈现给专家。在文献内容的渲染页面上,还包括交互式的用于填写物种信息的表单(具体信息包括与病原微生物相关的八个问题:革兰氏类型、存在部位、相关疾病、致病性、药物敏感性、药物耐药性、需氧性、形态),专家摘录物种信息的同时,还需要选择信息在文献中所在的位置,以便训练自然语言处理问答模型时,提供答案位置信息。

专家可以在页面上执行进一步的操作。例如:在文献列表页面点击某篇文献以查看详情;在文献内容页面,输入文献对应的物种名,会触发服务器根据文献内容和物种名挖掘文献中的物种信息,并预填到相应的表单项中,供专家参考;点击物种信息表单的某一个表单项,会在文献中根据一定的规则高亮出对应的第二关键词及所在的句子,供专家参考。

客户端在专家进行操作时,会发送相应的请求给服务器,服务器再进行相应的处理并返回结果。整个过程不断循环,直到专家得到所需的所有信息为止。

在专家确认无误,点击提交之后,客户端会将表单信息汇总并按照JSON格式传输给服务器,服务器进行解析之后,保存到对象数据库中。

实施例二

需要说明的是,本实施例除下述特征外,其他结构与实施例一相同:使用本地应用程序、微信小程序作为客户端,替代浏览器。

实施例三

需要说明的是,本实施例除下述特征外,其他结构与实施例一相同:使用其他深度学习模型替代BioBERT模型作为基线模型。

需要说明的是,上述实施例的原理是利用自然语言处理技术,快速解析文献内容,准确定位并自动化提取与微生物解读知识库相关的信息。

以上对本申请所提供的一种基于问答模型的病原微生物知识自动获取方法、系统及装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

相关技术
  • 知识问答模型训练及知识问答方法、装置和计算机设备
  • 知识问答模型训练及知识问答方法、装置和计算机设备
技术分类

06120116483413