掌桥专利:专业的专利平台
掌桥专利
首页

医学信息抽取方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:35:22


医学信息抽取方法、装置、电子设备及存储介质

技术领域

本申请涉及自然语言处理技术领域,尤其涉及医学信息抽取方法、装置、电子设备及存储介质。

背景技术

相关技术的医学信息抽取方法无法同时利用医学隐式知识和医学显式知识,抽取任务的性能上限较低。

发明内容

有鉴于此,本申请的目的在于提出医学信息抽取方法、装置、电子设备及存储介质。

基于上述目的,本申请提供了一种医学信息抽取方法,包括:

获取目标文本;

将目标文本输入文本特征提取模型,得到目标文本的目标文本特征;其中,文本特征提取模型基于医学知识预训练得到;

获取目标文本对应的实体表示;

融合目标文本的目标文本特征和实体表示,得到目标文本的文本表示;

对文本表示进行信息抽取,得到医学信息。

本申请还提供了一种医学信息抽取装置,包括:

目标文本获取模块,用于获取目标文本;

目标文本特征获取模块,用于将目标文本输入文本特征提取模型,得到目标文本的目标文本特征;其中,文本特征提取模型基于医学知识预训练得到;

实体表示获取模块,用于获取目标文本对应的实体表示;

文本表示获取模块,用于融合目标文本的目标文本特征和实体表示,得到目标文本的文本表示;

信息抽取模块,用于对文本表示进行信息抽取,得到医学信息。

本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述医学信息抽取方法。

本申请还提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行上述医学信息抽取方法。

从上面所述可以看出,本申请提供的医学信息抽取方法、装置、电子设备及存储介质,同时利用实体和基于文本特征提取模型的文本特征,充分利用医学显式知识和医学隐式知识,获取适用于信息抽取任务的更为鲁棒的表示,提高医学信息抽取任务的性能。

附图说明

为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例的医学信息抽取方法的流程示意图。

图2为本申请实施例的医学信息抽取装置的结构示意图。

图3为本申请实施例的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。

需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。

随着电子病历的普及,现在已经有了非常丰富的医学文本数据。这些电子病例可用于非常多的医学任务,比如药物不良反应,疾病预测,辅助用药,信息抽取,可以极大加快生物医学的发展,辅助临床应用。但是具体到某一个任务上,用于训练该任务本身的数据是非常有限的,尤其是对于医学这样一个知识密集型的专业,训练数据往往非常难以获取并且数据量会非常有限。如果无法充分利用外部庞大的电子病例构成的丰富医学知识,任务性能的上限会变得非常低。

信息抽取任务,比如命名实体识别,关系抽取等的关键步骤是识别出具有实际意义的词语,比如糖尿病,青光眼等疾病实体,屈光矫正、虹膜打孔等治疗实体,这要求模型能够理解这些实体在现实世界中的真实含义,而不仅仅只是将词和标签对应。要达到这样的效果,一般需要大量的带标签数据对模型进行训练。

但是医学数据往往难以获取和标注,因此在医学信息抽取任务上的性能往往远小于通用领域相同任务的性能,其中的一个关键原因就是在小数据情况下,模型无法真正理解词语的真实含义。然而,如今随着电子病历的普及,我们可以获得大量的无标签电子病历数据,同时,各个组织也公布了各种不同类型的带标签的医学知识库,比如DiseaseKG这类开源知识图谱包含非常丰富的医学疾病实体知识,SNOMED CT是一套复杂而丰富的临床医学术语标准,UMLS是一体化医学语言系统,是针对生物医学与健康领域的数据库系统、本体知识库。

然而,相关技术的医学信息抽取方法无法同时利用医学隐式知识和医学显式知识,抽取任务的性能上限较低。

基于相关技术的医学信息抽取方法的上述缺点,本申请实施例提供了医学信息抽取方法、装置、电子设备及存储介质。

本申请提供的医学信息抽取方法、装置、电子设备及存储介质,同时利用实体和基于文本特征提取模型得到的文本特征,充分利用医学显式知识和医学隐式知识,获取适用于信息抽取任务的更为鲁棒的表示,提高医学信息抽取任务的性能。

图1示出了本申请实施例的医学信息抽取方法的流程。

参考图1,本申请实施例提供的医学信息抽取方法,包括:

步骤S101:获取目标文本。

在本实施例中,目标文本可以为一组需要进行医学信息抽取的关键词文本,例如糖尿病、青光眼等疾病关键词和屈光矫正、虹膜打孔等治疗方法关键词。目标文本的获取方法可以为人工进行输入,也可以为从数据库中提取。对于目标文本的内容和获取方法,本申请实施例不作限定。

步骤S102:将目标文本输入文本特征提取模型,得到目标文本的目标文本特征。其中,文本特征提取模型基于医学知识预训练得到。

在本实施例中,目标文本特征可以包括与目标文本相关的医学特征,例如疾病与治疗方法。对于目标文本特征的内容,本申请实施例不作限定。

作为一个可选的实施例,步骤S102可以包括以下步骤:

将目标文本输入文本特征提取模型。

对文本特征提取模型的至少一层的输出进行融合,得到所述目标文本特征。

在本实施例中,融合方法可以为相加,也可以为拼接。对于融合方法的选择,本申请实施例不作限定。

具体实施时,文本特征提取模型可以为基于医学知识的BERT模型,目标文本经过BERT模型的多层Transformer Encoder层进行编码,对最后一层Transformer Encoder层或多层Transformer Encoder层的输出进行融合,得到目标文本特征。

这样,通过对最后一层输出或多层输出的输出结果进行融合,得到能够体现目标文本的特征的目标文本特征。

步骤S103:获取目标文本对应的实体表示。

作为一个可选的实施例,步骤S103可以包括以下步骤:

将目标文本输入医学知识库。

在本实施例中,医学知识库可以为DiseaseKG知识库、SNOMED CT知识库或UMLS知识库,还可以为其他包含医学知识的知识库。其中,DiseaseKG为开源知识图谱,包含非常丰富的医学疾病实体知识,SNOMED CT是一套复杂而丰富的临床医学术语标准,UMLS是一体化医学语言系统,是针对生物医学与健康领域的数据库系统、本体知识库。对于医学知识库的选择,本申请实施例不作限定。

在医学知识库中匹配目标文本,得到目标文本对应的实体。

在本实施例中,根据医学知识库的不同,目标文本的对应实体也有所不同。例如对应实体可以为疾病对应的症状,也可以为疾病对应的治疗方法。对于对应实体的内容,本申请实施例不作限定。

将实体输入实体编码模型,得到目标文本对应的实体表示。

实体在知识库中通常为一个节点,因此,需要在节点中进行编码提取,得到节点的基础表示。在本实施例中,根据实体对应的节点的表示类型的不同,实体编码模型也有所不同。例如,对于表示类型为图片的节点,实体编码模型可以为图神经网络,实体表示为节点中包含医学信息的图表示。

考虑到在不同的医学知识库中,目标文本对应不同的实体,同时利用属于不同医学知识库的实体可以进一步提高文本表示的鲁棒性。

作为另一个可选的实施例,步骤S103还可以包括以下步骤:

将目标文本输入至少两个医学知识库。

在至少两个医学知识库中分别匹配目标文本,得到目标文本对应的至少两个实体。

将至少两个实体分别输入对应的实体编码模型,分别得到至少两个实体对应的实体表示。

将至少两个实体对应的实体表示输入实体融合模型,得到目标文本对应的实体表示。

不同的实体表示来自于不同的医学知识库,属于不同的特征空间,因此,需要通过实体融合模型对不同的实体表示进行融合。在本实施例中,实体融合模型可以为Transformer模型。对于实体融合模型的模型选择,本申请实施例不作限定。

这样,通过将来自不同医学知识库的实体表示融合,可以统一不同的特征空间,同时学习不同实体之间的关系,从而得到融合后的实体表示,即目标文本对应的实体表示。

这样,通过将融合后的实体表示输入融合模型,得到鲁棒性更强的文本表示。

步骤S104:融合目标文本的目标文本特征和实体表示,得到目标文本的文本表示。

目标文本特征通过文本特征提取模型得到,属于医学隐式知识。实体表示通过在医学知识库中进行匹配得到,属于医学显式知识。在本实施例中,文本表示通过目标文本特征与实体表示融合得到,因此,文本表示同时包含医学隐式知识和医学显式知识。

这样,通过上述方法得到了充分利用医学隐式知识和医学显式知识的文本表示,该文本表示对医学实体具有更强的理解能力,鲁棒性更强,可以提高后续信息抽取的性能。

作为一个可选的实施例,步骤S104可以包括以下步骤:

将目标文本特征和实体表示输入融合模型,得到文本表示;其中,融合模型能够同时接收文本序列输入和实体输入。

在本实施例中,通过能够同时接收文本序列输入和实体输入的融合模型进行融合,确保能够充分融合医学隐式知识和医学显式知识。

具体实施时,融合模型可以为ERNIE模型。对于融合模型的选择,本申请实施例不作限定。

步骤S105:对文本表示进行信息抽取,得到医学信息。

作为一个可选的实施例,步骤S105可以包括以下步骤:

将文本表示输入信息抽取模型进行信息抽取,得到医学信息;其中,信息抽取模型包括命名实体模型、实体识别模型和关系抽取模型。

在本实施例中,通过信息抽取模型进行信息抽取,不同的信息抽取模型能够完成不同的信息抽取任务,例如命名实体、实体识别和关系抽取。

这样,通过选择不同的信息抽取模型,即可完成对应的信息抽取任务,得到对应的医学信息。

作为一个可选的实施例,医学信息抽取方法还包括:

获取训练用电子病历文本。

在本实施例中,训练用电子病历文本可以包括病人基础信息、疾病名称、疾病症状、治疗方案和治疗结果等信息。对于训练用电子病历文本包含的信息,本申请实施例不作限定。

将训练用电子病历文本输入预训练语言模型进行自适应预训练,得到文本特征提取模型。

在本实施例中,预训练语言模型可以为在通用领域使用的大规模预训练语言模型,例如BERT模型、ALBERT模型、RoBERTa模型、DistilBert模型,还可以为现有的医学预训练语言模型,例如BioBERT模型、ClinicalBERT模型。对于预训练语言模型的选择,本申请实施例不作限定。

这样,训练用电子病历文本作为无标签数据输入预训练语言模型,对预训练语言模型进行无监督自适应预训练,使电子病历文本包含的医学隐式知识融入预训练语言模型中,得到文本特征提取模型。

需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

图2示出了本申请实施例的医学信息抽取装置的结构。

参考图2,基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了医学信息抽取装置,包括:

目标文本获取模块,用于获取目标文本。

目标文本特征获取模块,用于将目标文本输入预训练语言模型,得到目标文本的目标文本特征。其中,预训练语言模型基于医学知识预训练得到。

实体表示获取模块,用于获取目标文本对应的实体表示。

文本表示获取模块,用于融合目标文本的目标文本特征和实体表示,得到目标文本的文本表示。

信息抽取模块,用于对文本表示进行信息抽取,得到医学信息。

作为一个可选的实施例,医学信息提取装置还可以包括:

医学知识库输入模块,用于将目标文本输入医学知识库。

实体获取模块,用于在医学知识库中匹配目标文本,得到目标文本对应的实体。

实体编码模块,用于将实体输入实体编码模型,得到目标文本对应的实体表示。

训练用电子病历文本获取模块,用于获取训练用电子病历文本。

文本特征模型获取模块,用于将训练用电子病历文本输入预训练语言模型进行自适应预训练,得到文本特征提取模型。

文本特征提取模型输入模块,用于将目标文本输入文本特征提取模型。

输出融合模块,用于对文本特征提取模型的至少一层的输出进行融合,得到目标文本特征。

为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的医学信息抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述任意一实施例所述的医学信息抽取方法。

图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的医学信息抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行如上任一实施例所述的医学信息抽取方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的医学信息抽取方法,并且具有相应的方法实施例的有益效果,在此不再赘述。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。

相关技术
  • 数据抽取方法、装置、存储介质及电子设备
  • 一种医学图像分割方法及装置、电子设备和存储介质
  • 日志信息处理方法、装置、电子设备及可读存储介质
  • 图像信息的传输方法、装置、存储介质及电子设备
  • 查看保单信息的方法、装置、电子设备及存储介质
  • 医学影像报告信息抽取方法、装置、电子设备和存储介质
  • 医学影像报告信息抽取方法、装置、电子设备和存储介质
技术分类

06120115962276