掌桥专利:专业的专利平台
掌桥专利
首页

一种电子病历命名实体识别方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:01:55


一种电子病历命名实体识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域及数字医疗领域,尤其涉及一种电子病历命名实体识别方法、装置、设备及存储介质。

背景技术

随着医院信息系统的快速发展与应用,医疗机构中积累了大规模的电子病历数据。这些数据是病人在医院就诊及治疗过程中所产生的重要记录,包含病历文本、医学图表、医学影像等多种类型数据,使得医护人员能够方便快捷地使用医疗数据分析系统。其中,电子病历的命名实体识别工作是医疗信息处理的上游工作。命名实体识别是指识别出文本中具有特定意义的实体,并将它们归类到预定义的类别,如疾病、治疗、症状、药品等。

基于医疗场景的复杂性以及有限的标注语料,现有技术是利用迁移学习的思路来解决的,从源数据域(source domains)中做预训练,再迁移到目标数据域(targetdomains)做finetuning。但是在实践中,不同专业、不同医院之间的医学术语和表达方式多种多样,且数据隐私问题阻碍不同专业或医院共享数据,因此目前的做法的泛化性或迁移效果在医疗场景下非常有限,特别是影响了未见过的目标域(与源数据域有较大差异)上的泛化能力。因此,如何有效地提高模型迁移后的泛化性,实现电子病历命名实体识别的准确性,已成为本领域技术人员亟待解决的技术问题。

发明内容

基于此,有必要针对上述技术问题,提供一种电子病历命名实体识别方法、装置、设备及存储介质,以解决现有技术不能有效地提高模型迁移后的泛化性,实现电子病历命名实体识别的准确性的问题。

本申请实施例的第一方面提供了一种电子病历命名实体识别方法,所述电子病历命名实体识别方法包括:

获取电子病历的实时文本数据,利用预训练的语言表征模型中的对比学习方式对所述实时文本数据进行处理,得到所述实时文本数据对应的token语义特征信息;

基于预设的指示标签,将所述实时文本数据进行标签语义化处理,得到所述实时文本数据对应的多个标签语义特征信息;

基于相似度对每个所述token语义特征信息与所述多个标签语义特征信息进行关联性计算,获得所述token语义特征信息对应的标签语义特征信息;

根据所述token语义特征信息对应的标签语义特征信息,对所述实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体。

本申请实施例的第二方面提供了一种电子病历命名实体识别装置,所述电子病历命名实体识别装置包括:

获取模块,用于获取电子病历的实时文本数据,利用预训练的语言表征模型中的对比学习方式对所述实时文本数据进行处理,得到所述实时文本数据对应的token语义特征信息;

处理模块,用于基于预设的指示标签,将所述实时文本数据进行标签语义化处理,得到所述实时文本数据对应的多个标签语义特征信息;

计算模块,用于基于相似度对每个所述token语义特征信息与所述多个标签语义特征信息进行关联性计算,获得所述token语义特征信息对应的标签语义特征信息;

抽取模块,用于根据所述token语义特征信息对应的标签语义特征信息,对所述实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体。

第三方面,本发明实施例提供了一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的电子病历命名实体识别方法。

第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的电子病历命名实体识别方法。

综上所述,本发明提供了一种电子病历命名实体识别方法、装置、设备及存储介质,获取电子病历的实时文本数据,利用预训练的语言表征模型中的对比学习方式对实时文本数据进行处理,得到实时文本数据对应的token语义特征信息,基于预设的指示标签,将实时文本数据进行标签语义化处理,得到实时文本数据对应的多个标签语义特征信息,基于相似度对每个token语义特征信息与多个标签语义特征信息进行关联性计算,获得token语义特征信息对应的标签语义特征信息,进而对实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体。本发明充分学习文本的token语义特征信息,提高了模型迁移后的泛化性,同时融入标签的语义知识,将每个token语义特征信息与多个标签语义特征信息进行关联性计算,能够增强命名实体的相似度识别,极大减少对人工标注的需求,通过获取token语义特征信息对应的标签语义特征信息,能够帮助模型更好的完成命名实体识别任务,充分利用标签的语义信息,提高了对命名实体识别的效率和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种电子病历命名实体识别方法的一应用环境示意图;

图2是本发明一实施例提供的一种电子病历命名实体识别方法的流程示意图;

图3是本发明一实施例提供的一种电子病历命名实体识别装置的结构示意图;

图4是本发明一实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。

应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

为了说明本发明的技术方案,下面通过具体实施例来进行说明。

本发明一实施例提供的一种电子病历命名实体识别方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现,通过服务器可以上传下载医疗数据,如个人健康档案、处方、检查报告等。

需要说明的是,本申请实施例提供的一种电子病历命名实体识别方法,应用于数字医疗领域,利用医疗平台输出各种医疗文本对应的电子病历数据,比如,电子病历具体指的是:使用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的医疗记录,用以取代手写纸张病例的所有信息。电子病历包括项目名称、疾病案首页、术后病程、检查结果、医嘱、手术记录、入院记录等等各种不同类型的文书,不同类型的文书所包括的章节类型也有所不同(例如入院记录中包括主诉、现病史、家族史等章节),可通过医疗平台获取报告,医疗平台将文字检查报告转化成为目标文本数据进行输出给用户。

在一种可能的实现方式中,医疗文本可以是医疗电子记录(ElectronicHealthcare Record),电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。

在一种可能的实现方式中,可应用于智能诊疗、远程会诊中,利用输合成的目标语音进行智能诊疗和远程会诊,还可以是互联网医院的智能客服处理中。

信息查询成为很多场景中用户快速获取所需信息的渠道。例如在医疗领域中,可以基于人工智能模型从海量的电子病历中查询用户所需的病历信息,通过语音输出医疗文本的方式,有助于为用户提供病历参考。

需要说明的是,上述涉及医疗的应用场景在此仅为示例性说明,具体均不做限定。参见图2,是本发明一实施例提供的电子病历命名实体识别方法的流程示意图,上述电子病历命名实体识别方法可以应用于图1中的服务端,上述服务端连接相应的客户端,如图2所示,该电子病历命名实体识别方法可以包括以下步骤。

S201:获取电子病历的实时文本数据,利用预训练的语言表征模型中的对比学习方式对所述实时文本数据进行处理,得到所述实时文本数据对应的token语义特征信息。

在步骤S201中,本申请实施例中获取电子病历的实时文本数据可以从电子病历数据库服务器上获取;或,对的纸质病历进行电子扫描以获取,在获取电子病历的实时文本数据后,利用预训练的语言表征模型中的对比学习方式对所述实时文本数据进行处理,得到所述实时文本数据对应的token语义特征信息。

可选地,利用预训练的语言表征模型中的对比学习方式对实时文本数据进行处理,得到实时文本数据对应的token语义特征信息,包括:

预先建立预训练的语言表征模型,其中,所述预训练的语言表征模型包括高斯嵌入层;

将所述实时文本数据输入至预训练的语言表征模型中的高斯嵌入层进行对比处理,得到所述实时文本数据中的每个token之间的分布距离;

根据所述实时文本数据中的每个token之间的分布距离,确定所述实时文本数据对应的token语义特征信息。

在本实施例中,由于目前业界迁移学习的方法,不够有效,受限于源数据域的数据标签以及数据分布,对语义特征和中间表示学习得不够充分,且在不同场景下的泛化性非常有限。我们基于BERT之上,通过构建了一个高斯embedding层进而建立预训练的语言表征模型,使预训练的语言表征模型包括高斯嵌入层,使模型更好地适配领域内的任务。其中,BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的Representation,即文本的语义表示,然后将文本的语义表示在特定NLP任务中作微调,最终应用于该NLP任务。Embedding:嵌入也叫映射,就是把单词组成的句子映射到一个表征向量。将实时文本数据输入至预训练的语言表征模型中的高斯嵌入层在,并通过进行对比学习的方式,来确定实时文本数据中的各个token之间的高斯embedding层的分布距离,让模型试图减少对相似实体的token embedding的距离,同时增加对不同实体的tokenembedding的距离,进而根据实时文本数据中的每个token之间的分布距离,确定实时文本数据对应的token语义特征信息。例如,我们的输入是“Barack Obama was born in 1961”,其中“Barack Obama”是一个人名实体,我们认为实体内的token(“Barack”、“Obama”)应该在embedding距离上比较相近,而“Barack”和“Obama”应该和实体外的其他token(“was”,“born”,“in”,“1961”)距离较远,具体操作上,当是同一实体内的token时,我们在训练时给予较小的loss值,反之给予较大的loss值,让模型学会分辨实体内与实体外的关系。比如:“Barack”与“Obama”计算距离的loss值较小,“Obama”与“was”计算距离的loss值较大。

需要说明的是,预训练语言模型可以是gpt3、chatglm、bert等模型,本申请对此不做任何限定。

例如,对于不同的病人,其应用的部位、治疗的目标不同,因此其各个进度中的电子病历命名实体识别方式也不相同。因此,在本发明的技术方案中,可以根据当前的医疗器械、以及康复治疗的数据当前进度,确定目标电子病历命名实体识别方式。在一种可能的实现方式中,所述数据是医疗数据,如个人健康档案、处方、检查报告等数据。

本申请实施例中,通过获取电子病历的实时文本数据,利用预训练的语言表征模型中的对比学习方式对实时文本数据进行处理,进而充分学习文本的token语义特征信息,使得模型能更好地捕获标签之间的依赖关系,更充分地学习中间表示和语义特征,提高了模型迁移后的泛化性。

S202:基于预设的指示标签,将所述实时文本数据进行标签语义化处理,得到所述实时文本数据对应的多个标签语义特征信息。

在步骤S202中,本申请由于传统的实体抽取过程中,没有利用到标签的语义特征。比如要抽取“PER”,“LOC”这2种实体,在传统的模型中,模型只知道预测0(PER)和1(LOC)这2种实体,而不知道0和1具体代表什么语义,因此通过融入标签知识,基于预设的指示标签,将实时文本数据进行标签语义化处理,进而得到实时文本数据对应的多个标签语义特征信息。例如,例如“PER”代表Person,因此我们将B-PER语义转化为begin person,I-PER语义转化为inside person等等。这里的语义化是指先将“PER”转换为begin person/insideperson这些”自然语言”,然后通过BERT这类模型对其进行编码,即产生了语义化的特征信息。

在本发明实施例中,在不同的医学场景下无需设计各种领域内的小模型,充分利用了语义特征的优势,并同时融入标签的语义特征信息,增强模型在目标域的泛化性的效果,进而提高了对命名实体的识别效率。

S203:基于相似度对每个所述token语义特征信息与所述多个标签语义特征信息进行关联性计算,获得所述token语义特征信息对应的标签语义特征信息。

在步骤S203中,在获取实时文本数据对应的token语义特征信息和实时文本数据对应的多个标签语义特征信息,要确定两者相对度,进而基于相似度对每个token语义特征信息与多个标签语义特征信息进行关联性计算,以获取token语义特征信息对应的标签语义特征信息。

可选地,基于相似度对每个token语义特征信息与多个标签语义特征信息进行关联性计算,包括:

判断每个所述token语义特征信息与多个所述标签语义特征信息的相似度是否大于预设相似阈值;

若每个所述token语义特征信息与多个所述标签语义特征信息的相似度大于预设相似阈值,则对每个所述token语义特征信息和多个所述标签语义特征信息进行关联性计算。

本实施例中,通过计算每个token语义特征信息与多个标签语义特征信息的相似度和设定预设相似阈值方式,来判断每个token语义特征信息与多个标签语义特征信息的相似度是否大于预设相似阈值,若每个token语义特征信息与多个标签语义特征信息的相似度大于预设相似阈值,则对每个token语义特征信息和多个标签语义特征信息进行关联性计算,若每个token语义特征信息与多个标签语义特征信息的相似度不大于预设相似阈值,则不在对每个token语义特征信息和多个标签语义特征信息进行关联性计算,需重新执行电子病历命名实体识别方法的步骤。

需要说明的是,上述预设相似阈值的具体取值可以根据用户的实际需求进行设置,对于上述预设相似阈值的具体取值,本申请实施例不作任何限定。

可选地,对每个token语义特征信息和多个标签语义特征信息进行关联性计算,包括:

针对每个所述token语义特征信息,预先将一个所述token语义特征信息和多个所述标签语义特征信息进行融合,获得该token语义特征信息对应的不同标签语义特征信息;

将该token语义特征信息对应的不同标签语义特征信息依次进行分类打分,得到目标分数集;

将所述目标分数集中的每一个分数值进行从大到小依次排序,选取最大值作为该token语义特征信息对应最相近的标签语义特征信息;

对其他所述token语义特征信息重复该关联性计算步骤,直到确定所有token语义特征信息对应的标签语义特征信息完成为止。

本实施例中,在对每个token语义特征信息和多个标签语义特征信息进行关联性计算时,首先将一个token语义特征信息和多个所述标签语义特征信息进行融合,获得该token语义特征信息对应的不同标签语义特征信息,然后将该token语义特征信息对应的不同标签语义特征信息依次进行分类打分,得到目标分数集,将目标分数集中的每一个分数值进行从大到小依次排序,通过优先级选取最大值作为该token语义特征信息对应最相近的标签语义特征信息,对于剩下的其他token语义特征信息也重复该关联性计算步骤,依次类推,直到所有token语义特征信息对应的标签语义特征信息完成为止。例如,通过BERT这类模型利用构建2个编码器(encoder),分别编码输入token语义特征信息和标签语义特征信息,然后将输入文本的每一个token的语义特征信息都与多个标签(label)的语义特征信息做关联计算,得到与该token最相近的标签(label),依次类推,算出所有token对应的label,即可以完成命名实体的抽取。该抽取过程非常通用,对于不同场景下不同的标签,无需重新设计或是重新训练(2个编码器(encoder)已经能很好地编码输入token语义特征信息都与标签语义特征信息)。

本实施例中,基于相似度对每个token语义特征信息与多个标签语义特征信息进行关联性计算,以此获得token语义特征信息对应的标签语义特征信息,保证能够帮助模型更好的完成命名实体识别任务,充分利用标签的语义信息,提高了对命名实体识别的效率和准确性。

S204:根据所述token语义特征信息对应的标签语义特征信息,对所述实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体。

在步骤S204中,在token语义特征信息对应的标签语义特征信息后,进而根据token语义特征信息对应的标签语义特征信息,对实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体。

可选地,对实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体,包括:

根据所有token语义特征信息对应的标签语义特征信息,对所述实时文本数据进行命名实体识别,获取所述实时文本数据中各个token对应的实体属性标识;

判断所述实时文本数据中各个token对应的实体属性标识是否与预设实体类型相匹配;

若所述实时文本数据中各个token对应的实体属性标识与预设实体类型相匹配,则抽取与预设实体类型对应的命名实体。

在一种实施例中,在确定所有token语义特征信息对应的标签语义特征信息后,利用预设的命名实体识别模型,对实时文本数据进行命名实体识别,获取实时文本数据中各个token对应的实体属性标识,其中,实体属性标识用于表示实时文本数据中各个token是否属于命名实体。在确定实时文本数据中各个token属于命名实体后,需判断实时文本数据中各个token对应的实体属性标识是否与预设实体类型相匹配,若实时文本数据中各个token对应的实体属性标识与预设实体类型相匹配,则抽取与预设实体类型对应的命名实体。若实时文本数据中各个token对应的实体属性标识与预设实体类型不匹配,则不能抽取与预设实体类型对应的命名实体,需重新执行电子病历命名实体识别方法的步骤。

可选地,抽取与预设实体类型对应的命名实体之前,包括:

基于多个所述标签语义特征信息预先建立命名实体索引;

将所述token语义特征信息输入至所述命名实体索引中,则直接抽取与预设实体类型对应的命名实体。

本实施例中,在抽取与预设实体类型对应的命名实体之前,我们可以提前算好目标域场景下所有标签语义特征信息,并保存下来,然后将目标域场景下所有标签语义特征信息建立命名实体索引(可以使用redis作为存储并设计索引),因此每次抽取与预设实体类型对应的命名实体时,只需计算输入token语义特征信息即可,就可以快速地抽取电子病历命名实体,例如,在需要关联计算“token语义特征信息”和”标签语义表征信息”时,对于同一场景来说,其需要抽取的标签的种类是固定的,比如:在抽取B超报告场景下,我们只抽取“报告时间”、“送检医生”、“医院”、“疾病”、“部位”,那么我们提前通过BERT这类模型编码这些标签,拿到其token语义特征信息,而不用每次抽取命名实体的时候重复计算。

本实施例中,在复杂且标注困难的医疗场景下,通过token语义特征信息对应的标签语义特征信息,对实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体,充分利用了token语义特征信息的优势,并同时融入标签语义特征信息,增强模型的泛化性效果,并设计了相关的索引来保存label的语义标签,极大提升模型推理的速度。

综上所述,本发明提供了一种电子病历命名实体识别方法、装置、设备及存储介质,获取电子病历的实时文本数据,利用预训练的语言表征模型中的对比学习方式对实时文本数据进行处理,得到实时文本数据对应的token语义特征信息,基于预设的指示标签,将实时文本数据进行标签语义化处理,得到实时文本数据对应的多个标签语义特征信息,基于相似度对每个token语义特征信息与多个标签语义特征信息进行关联性计算,获得token语义特征信息对应的标签语义特征信息,进而对实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体。本发明充分学习文本的token语义特征信息,提高了模型迁移后的泛化性,同时融入标签的语义知识,将每个token语义特征信息与多个标签语义特征信息进行关联性计算,能够增强命名实体的相似度识别,极大减少对人工标注的需求,通过获取token语义特征信息对应的标签语义特征信息,能够帮助模型更好的完成命名实体识别任务,充分利用标签的语义信息,提高了对命名实体识别的效率和准确性。

请参阅图3,图3是本发明实施例提供的电子病历命名实体识别装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,电子病历命名实体识别装置30包括:获取模块31,处理模块32,计算模块33,抽取模块34。

获取模块31,用于获取电子病历的实时文本数据,利用预训练的语言表征模型中的对比学习方式对所述实时文本数据进行处理,得到所述实时文本数据对应的token语义特征信息;

处理模块32,用于基于预设的指示标签,将所述实时文本数据进行标签语义化处理,得到所述实时文本数据对应的多个标签语义特征信息;

计算模块33,用于基于相似度对每个所述token语义特征信息与所述多个标签语义特征信息进行关联性计算,获得所述token语义特征信息对应的标签语义特征信息;

抽取模块34,用于根据所述token语义特征信息对应的标签语义特征信息,对所述实时文本数据进行命名实体识别,以抽取与预设实体类型对应的命名实体。

可选地,上述获取模块31具体用于:

预先建立预训练的语言表征模型,其中,所述预训练的语言表征模型包括高斯嵌入层;

将所述实时文本数据输入至预训练的语言表征模型中的高斯嵌入层进行对比处理,得到所述实时文本数据中的每个token之间的分布距离;

根据所述实时文本数据中的每个token之间的分布距离,确定所述实时文本数据对应的token语义特征信息。

可选地,上述计算模块33具体用于:

判断每个所述token语义特征信息与多个所述标签语义特征信息的相似度是否大于预设相似阈值;

若每个所述token语义特征信息与多个所述标签语义特征信息的相似度大于预设相似阈值,则对每个所述token语义特征信息和多个所述标签语义特征信息进行关联性计算。

可选地,上述计算模块33还用于:

针对每个所述token语义特征信息,预先将一个所述token语义特征信息和多个所述标签语义特征信息进行融合,获得该token语义特征信息对应的不同标签语义特征信息;

将该token语义特征信息对应的不同标签语义特征信息依次进行分类打分,得到目标分数集;

将所述目标分数集中的每一个分数值进行从大到小依次排序,选取最大值作为该token语义特征信息对应最相近的标签语义特征信息;

对其他所述token语义特征信息重复该关联性计算步骤,直到确定所有token语义特征信息对应的标签语义特征信息完成为止。

可选地,上述抽取模块34具体用于:

根据所有token语义特征信息对应的标签语义特征信息,对所述实时文本数据进行命名实体识别,获取所述实时文本数据中各个token对应的实体属性标识;

判断所述实时文本数据中各个token对应的实体属性标识是否与预设实体类型相匹配;

若所述实时文本数据中各个token对应的实体属性标识与预设实体类型相匹配,则抽取与预设实体类型对应的命名实体。

可选地,上述抽取模块34之前具体用于:

基于多个所述标签语义特征信息预先建立命名实体索引;

将所述token语义特征信息输入至所述命名实体索引中,则直接抽取与预设实体类型对应的命名实体。

需要说明的是,上述单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。

图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示,该实施例的该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行计算机程序时实现上述任意各个电子病历命名实体识别方法实施例中的步骤。

该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。

在一实施例中,提供了一种计算机可读存储介质,当计算机可读存储介质中的指令由计算机设备中的处理器执行时,使得计算机设备能够执行如本发明公开的电子病历命名实体识别方法的任一实施例的各个步骤,在此不重复赘述。所述计算机可读存储介质可以是非易失性,也可以是易失性。

所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

相关技术
  • 导流组件和具有其的长晶炉、长晶方法
  • 导流组件和具有其的长晶炉、长晶方法
技术分类

06120116574290