导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>病案编码方法、装置、终端设备及可读存储介质

病案编码方法、装置、终端设备及可读存储介质

文献发布时间：2023-06-19 12:05:39

技术领域

本申请属于计算机技术领域，尤其涉及一种病案编码方法、装置、终端设备及可读存储介质。

背景技术

随着医药卫生体制改革的深入，医院中多项工作均需要依照疾病类别进行区分和统计，而病案编码是疾病分类的重要体现。因此，规范和高质量的病案编码显得尤其重要。

传统技术中，病案编码多由人工进行编码。病案编码人员通过病案首页中的主要诊断、其它诊断、门诊急诊诊断、损伤与中毒的外部原因和病理诊断等信息，依据标准代码表和编码规则，以诊断名称为线索，结合病历信息，确定疾病对应的疾病编码项，生成病案编码。

然而，人工进行病案编码容易出现高码低编、编码漏编或低码高编等现象，病案编码准确性较差。

发明内容

本申请提供一种病案编码方法、装置、终端设备及可读存储介质，可以解决病案编码准确性差的问题。

第一方面，本申请实施例提供了一种病案编码方法，包括：

获取待编码病案；

将所述待编码病案输入预先建立的实体抽取模型，输出所述待编码病案中包含的实体，得到目标实体；其中，所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型；

获取病案编码字典库，所述病案编码字典库中包括多个实体，以及每个所述实体对应的规范ICD编码；

将所述目标实体与所述病案编码字典库中的实体进行匹配，确定所述目标实体对应的规范ICD编码。

在其中一个实施例中，所述将所述待编码病案输入预先建立的实体抽取模型，输出所述待编码病案中包含的目标实体，包括：

将所述待编码病案输入所述实体字典抽取模型，输出至少一个第一目标实体，以及每个所述第一目标实体在所述待编码病案中的第一位置信息；

将所述待编码病案输入所述命名实体识别模型，输出至少一个第二目标实体，以及每个所述第二目标实体在所述待编码病案中的第二位置信息；

确定是否存在与各个所述第一位置信息相同的重叠第二位置信息；

若存在，则舍弃所述重叠第二位置信息对应的第二目标实体，将剩余的第二目标实体和各个所述第一目标实体作为所述目标实体。

在其中一个实施例中，所述方法还包括：

若不存在，则将各个所述第二目标实体和各个所述第一目标实体作为所述目标实体。

在其中一个实施例中，所述方法还包括：

基于所述病案编码字典库构建所述实体字典抽取模型；

构建所述命名实体识别模型；

将所述实体字典抽取模型和所述命名实体识别模型进行融合，得到所述实体抽取模型。

在其中一个实施例中，所述构建所述命名实体识别模型，包括：

获取训练语料；

基于所述训练语料对初始命名实体识别模型进行训练，得到所述命名实体识别模型。

在其中一个实施例中，所述获取训练语料包括：

获取样本病案；

将所述样本病案输入所述实体字典抽取模型，输出所述样本病案中包含的实体，得到样本实体；

对所述样本实体进行标注修正，得到所述训练语料。

在其中一个实施例中，所述获取病案编码字典库，包括：

基于分类标准信息建立所述病案编码字典库，所述分类标准信息包括疾病分类标准信息和手术分类标准信息中的至少一种。

第二方面，本申请实施例提供了一种病案编码装置，包括：

第一获取模块，用于获取待编码病案；

抽取模块，用于将所述待编码病案输入预先建立的实体抽取模型，输出所述待编码病案中包含的实体，得到目标实体；其中，所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型；

第二获取模块，用于获取病案编码字典库，所述病案编码字典库中包括多个实体，以及每个所述实体对应的规范ICD编码；

匹配模块，用于将所述目标实体与所述病案编码字典库中的实体进行匹配，确定所述目标实体对应的规范ICD编码。

第三方面，本申请实施例提供了一种终端设备，包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的病案编码方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的病案编码方法。

本申请提供的病案编码方法、装置、终端设备及可读存储介质，通过获取病案编码，将待编码病案输入预先建立的实体抽取模型，输出目标实体。通过获取病案编码字典库，将目标实体与病案编码字典库中的实体进行匹配，确定目标实体对应的规范ICD编码。本申请实施例提供的病案编码方法、装置、终端设备及可读存储介质，能够实现自动实现病案编码，无需人工进行病案编码，不仅提高了病案编码的效率，而且提高了病案编码的准确性。同时，本实施例中，实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型，所以实体抽取模型对目标实体抽取时，覆盖范围广，适应能力强，且抽取结果准确性高，避免目标实体的漏抽取和错抽取，因而能够有效避免病案编码时编码漏编、编码错编的情况，进一步提高了病案编码的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的病案编码方法所适用于的终端结构示意图；

图2是本申请一实施例提供的病案编码方法的流程示意图；

图3是本申请另一实施例提供的病案编码方法的流程示意图；

图4是本申请一实施例提供的病案编码装置的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请实施例中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

可以理解，本申请所使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请实施例提供的病案编码方法，可以应用于终端设备。示例性的，图1为本申请一实施例提供的终端设备的结构示意图。如图1所示，终端设备可以包括：处理器10、存储器11以及存储在存储器11中并可在处理器10上运行的计算机程序12，处理器10执行计算机程序12时可以实现本申请实施例提供的病案编码方法。其中，本申请实施例对处理器10、存储器11的数量和类型不做限定。

其中，本申请实施例对终端设备1的类型不做限定。例如，可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。

本申请实施例提供的病案编码方法，可以包括但不限于与智慧医疗大数据分析应用平台相结合，具体的应用和实现方法可以如下：

1、病案编码的纠正与补全：将本申请实施例提供的方法集成至智慧医疗大数据分析应用平台。通过智慧医疗大数据分析应用平台输入关键词，向用户返回规范标准的病案名称列表及对应的规范国际疾病分类（International Classification of Diseases，ICD）编码（以下均称为规范ICD编码），使用户基于返回的病案名称列表进行原始病案编码的纠正和补全。本申请实施例提供的方法为智慧医疗大数据分析应用平台提供智能编码引擎支撑。

2、病案内容审核：将本申请实施例提供的方法与各个医院的电子病历系统对接，对电子病历进行内容抽取和解析，基于解析生成的病案编码，对病案内容进行审核。本申请实施例提供的方法能够实现电子病案智能编码映射。

下面将结合附图，对本申请中的技术方案进行详细描述。需要说明，在不冲突的情况下，本申请中不同的技术特征之间可以相互结合。

图2示出了本申请提供的病案编码方法的示意性流程图。如图2所示，本实施例提供的病案编码方法，可以包括：

S201、获取待编码病案。

待编码病案是指需要进行编码的病案，其中，病案包括但不限于电子病历、病案首页、诊断信息、手术记录、病理检测结果，或者描述病情的文本信息等。待编码病案中包括实体，其中，实体也即病案实体，是指表征疾病的信息。实体可以包括手术实体、诊断实体等。

S202、将待编码病案输入预先建立的实体抽取模型，输出待编码病案中包含的实体，得到目标实体。其中，实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别（Named Entity Recognition，NER）模型融合后得到的模型。

本实施例中，实体抽取模型用于从待编码病案中抽取实体。实体抽取模型根据实体字典抽取模型和命名实体识别模型融合得到。在一个具体的实施例中，实体字典抽取模型和命名实体识别模型分别对待编码病案进行抽取和识别，得到相对应的抽取结果，进一步将两种抽取结果进行融合处理，得到目标实体。对两种抽取结果的融合处理包括但不限于对有冲突的抽取结果的处理，对重复的抽取结果的去重等。可选的，实体抽取模型输出的结果除目标实体外，还可以进一步包括目标实体在待编码病案中的位置信息、以及目标实体对应的原文内容等。

可选的，实体抽取模型可以通过最大逆向匹配算法从待编码病案中抽取实体。可选的，命名实体识别模型可以为基于变换的双向编码表征（Bidirectional EncoderRepresentation from Transformers，BERT）、双向长短记忆网络(Bidirectional LongShort-Term Memory，BiLSTM)和条件随机场（Conditional Random Field，CRF）模型，即BERT-BiLSTM-CRF模型。需要说明的是，本申请实施例对于实体抽取模型、命名实体识别模型的具体结构、算法等不做任何限定，只要能够实现其功能即可。

可以理解，实体字典抽取模型在目标实体抽取时，准确度较高但是覆盖范围较窄。而命名实体识别模型在目标实体抽取时，覆盖范围较广，适应能力强，对于包含拼写错误、错别字等问题的目标实体也能较好的识别，但准确度相对实体字典抽取模型低。本实施例中，将实体字典抽取模型和命名实体识别模型融合，得到的实体抽取模型对目标实体抽取时，覆盖范围广，适应能力强，且抽取结果准确性高。

S203、获取病案编码字典库，病案编码字典库中包括多个实体，以及每个实体对应的规范ICD编码。

病案编码字典库中包括的多个实体为规范、标准的实体，每个实体均有对应的规范ICD编码。可选的，病案编码字典库中还可以包括每个实体对应的类型等。

S204、将目标实体与病案编码字典库中实体进行匹配，确定目标实体对应的规范ICD编码。

可选的，可以分别计算目标实体与病案编码字典库中的各个实体的编辑距离，根据编辑距离计算目标实体与病案编码字典库中各个实体的相似度，取相似度最高的实体作为最佳匹配实体。获取最佳匹配实体对应的规范ICD编码，得到目标实体对应的规范ICD编码。

进一步的，可以将目标实体对应的规范ICD编码、目标实体对应的病案编码字典库中的标准实体、病案类型、目标实体对应的原文内容、目标实体在待编码病案中的位置信息以及匹配度等多项内容通过接口返回。其中，匹配度是指目标实体与该目标实体对应的病案编码字典库中的标准实体的匹配度。

本实施例中，通过获取病案编码，将待编码病案输入预先建立的实体抽取模型，输出目标实体。通过获取病案编码字典库，将目标实体与病案编码字典库中的实体进行匹配，确定目标实体对应的规范ICD编码。本实施例提供的方法能够实现病案编码，无需人工进行病案编码，不仅提高了病案编码的效率，而且提高了病案编码的准确性。同时，本实施例中，实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型，所以实体抽取模型对目标实体抽取时，覆盖范围广，适应能力强，且抽取结果准确性高，避免目标实体的漏抽取和错抽取，因而能够有效避免病案编码时编码漏编、编码错编的情况，进一步提高了病案编码的准确性。

图3为一个实施例中，将待编码病案输入预先建立的实体抽取模型，输出所述待编码病案中包含的目标实体的一种可能的实现方式，如图3所示，S202包括：

S301、将待编码病案输入实体字典抽取模型，输出至少一个第一目标实体，以及每个第一目标实体在待编码病案中的第一位置信息。

S302、将待编码病案输入命名实体识别模型，输出至少一个第二目标实体，以及每个第二目标实体在待编码病案中的第二位置信息。

S303、确定是否存在与各个第一位置信息相同的重叠第二位置信息；

若存在，则执行S304、舍弃重叠第二位置信息对应的第二目标实体，将剩余的第二目标实体和各个第一目标实体作为上述目标实体。

若不存在，则执行S305、将各个第二目标实体和各个第一目标实体作为上述目标实体。

本实施例中，实体字典抽取模型对待编码病案抽取的结果包括第一目标实体和第一目标实体在待编码病案中的位置信息，即第一位置信息。命名实体识别模型对待编码病案的识别结果包括第二目标实体和第二目标实体在待编码病案中的位置信息，即第二位置信息。可以理解，第一目标实体和第二目标实体的数量可以为1个，也可以为多个。第一目标实体和第二目标实体对应的位置信息可能相同，也可能不相同。当所有的第一目标实体均与各个第二目标实体在待编码病案中的位置信息不同时，直接将所有的第一目标实体和第二目标实体作为最终的抽取结果。当第一目标实体与第二目标实体在待编码病案中的位置信息相同时，则该位置信息对应的抽取结果以实体字典抽取模型的抽取结果（第一目标实体）为准。

具体的，可以分别判断每个第二位置信息是否与各个第一位置信息相同，若不存在与某一个第一位置信息相同的第二位置信息，则直接将所有的第一目标实体和所有的第二目标实体作为最终的目标实体。若存在与某一个第一位置信息相同的第二位置信息，该第二位置信息命名为重叠第二位置信息。将重叠第二位置信息对应的第二目标实体舍弃，剩余的第二目标实体和所有的第一目标实体作为最终的目标实体。如此，不仅能够去除实体抽取模型和命名实体识别模型抽取结果中的重复内容，而且能够保证在两种模型抽取结果不同时，以实体抽取模型的抽取结果为准，由于实体抽取模型的抽取结果较为准确，因此这样能够提高目标实体抽取的准确性，从而提高病案编码的准确性。

在一个实施例中，步骤S203、获取病案编码字典库包括：

基于分类标准信息建立病案编码字典库，其中，分类标准信息包括疾病分类标准信息和手术分类标准信息中的一种。

分类标准信息是指对病案进行分类的标准或规定，可以为国际分类标准，也可以是国家分类标准，还可以是行业分类标准。疾病分类标准信息是用于对疾病类型进行分类的标准或规定。手术分类标准信息是用于对手术类型进行分类的标准或规定。在一个具体的实施例中，疾病分类标准信息可以为ICD10，手术分类标准信息可以为ICD9，即，基于ICD10和ICD9建立病案编码字典库。

本实施例中，基于分类标准信息建立病案编码字典库能够提高病案编码字典库的准确性，从而提高病案编码准确性。

在一个实施例中，病案编码方法还进一步包括建立实体抽取模型的过程，具体的，所述方法还包括：基于病案编码字典库构建实体字典抽取模型；构建命名实体识别模型；将实体字典抽取模型和命名实体识别模型进行融合，得到实体抽取模型。

可选的，构建命名实体识别模型可以通过以下方式实现：获取训练语料；基于训练语料对初始命名实体识别模型进行训练，得到命名实体识别模型。具体的，可以通过获取样本病案，将样本病案输入上述实体字典抽取模型进行预识别，得到样本病案中包含的实体，得到样本实体。对该样本实体进行标注修正，得到训练语料。可选的，可以使用人工标注工具对样本实体进行标注和修正，删除虚警部分，修正编码或类型错误，补充漏标实体，得到最终的训练语料。其中，虚警部分是指将非实体的内容错误的标注为实体的部分。当然，也可以使用其他标注和修正方式对样本实体进行标注修正，得到训练语料。本申请实施例对于标注和修正的具体实现方式不做任何限定，只要能够实现其功能即可。

本实施例中，通过将样本病案输入实体字典抽取模型，提高得到的样本实体的准确性，同时，对样本实体进行标注修正，进一步提高得到的训练语料的准确性。如此，基于准确的训练语料训练得到的命名实体识别模型的识别准确度更高，模型稳定性也更高，从而提高了病案编码的准确性。

以下对病案编码方法的整体过程进行说明，该方法可以包括：

1）建立病案编码字典库

基于分类标准信息建立病案编码字典库，其中，分类标准信息包括疾病分类标准信息和手术分类标准信息中的一种；病案编码字典库中包括多个实体，以及每个实体对应的规范ICD编码。

2）构建实体字典库

基于病案编码字典库构建实体字典抽取模型。

3）构建命名实体识别模型

获取样本病案，将样本病案输入上述实体字典抽取模型进行预识别，得到样本病案中包含的实体，得到样本实体；对该样本实体进行标注修正，得到训练语料；基于训练语料对初始命名实体识别模型进行训练，得到命名实体识别模型。

4）模型融合

将实体字典抽取模型和命名实体识别模型进行融合，得到实体抽取模型。

5）实体识别

获取待编码病案；将待编码病案输入预先建立的实体抽取模型，输出待编码病案中包含的实体，得到目标实体。

具体的：将待编码病案输入实体字典抽取模型，输出至少一个第一目标实体，以及每个第一目标实体在待编码病案中的第一位置信息；

将待编码病案输入命名实体识别模型，输出至少一个第二目标实体，以及每个第二目标实体在待编码病案中的第二位置信息；

确定是否存在与各个第一位置信息相同的重叠第二位置信息；

若存在，则舍弃重叠第二位置信息对应的第二目标实体，将剩余的第二目标实体和各个第一目标实体作为上述目标实体；

若不存在，则将各个第二目标实体和各个第一目标实体作为上述目标实体。

6）实体匹配

将目标实体与病案编码字典库中实体进行匹配，确定目标实体对应的规范ICD编码。

图4示出了本申请实施例提供的病案编码装置的结构框图。如图4所示，本实施例提供的病案编码装置，可以包括：

第一获取模块410，用于获取待编码病案；

抽取模块420，用于将所述待编码病案输入预先建立的实体抽取模型，输出所述待编码病案中包含的实体，得到目标实体；其中，所述实体抽取模型是将预先构建的实体字典抽取模型和预先构建的命名实体识别模型融合后得到的模型；

第二获取模块430，用于获取病案编码字典库，所述病案编码字典库中包括多个实体，以及每个所述实体对应的规范ICD编码；

匹配模块440，用于将所述目标实体与所述病案编码字典库中的实体进行匹配，确定所述目标实体对应的规范ICD编码。

在一个实施例中，抽取模块420具体用于将所述待编码病案输入所述实体字典抽取模型，输出至少一个第一目标实体，以及每个所述第一目标实体在所述待编码病案中的第一位置信息；将所述待编码病案输入所述命名实体识别模型，输出至少一个第二目标实体，以及每个所述第二目标实体在所述待编码病案中的第二位置信息；确定是否存在与各个所述第一位置信息相同的重叠第二位置信息；若存在，则舍弃所述重叠第二位置信息对应的第二目标实体，将剩余的第二目标实体和各个所述第一目标实体作为所述目标实体。

在一个实施例中，抽取模块420还用于若不存在，则将各个所述第二目标实体和各个所述第一目标实体作为所述目标实体。

在一个实施例中，病案编码装置还包括模型建立模块450，用于基于所述病案编码字典库构建所述实体字典抽取模型；构建所述命名实体识别模型；将所述实体字典抽取模型和所述命名实体识别模型进行融合，得到所述实体抽取模型。

在一个实施例中，模型建立模块450具体用于获取训练语料；基于所述训练语料对初始命名实体识别模型进行训练，得到所述命名实体识别模型。

在一个实施例中，模型建立模块450还用于获取样本病案；将所述样本病案输入所述实体字典抽取模型，输出所述样本病案中包含的实体，得到样本实体；对所述样本实体进行标注修正，得到所述训练语料。

在一个实施例中，第二获取模块430具体用于基于分类标准信息建立所述病案编码字典库，所述分类标准信息包括疾病分类标准信息和手术分类标准信息中的至少一种。

本实施例提供的病案编码装置，用于执行本申请方法实施例提供的病案编码方法，技术原理和技术效果相似，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种终端设备，例如图1所示，该终端设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意方法实施例中的步骤。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述任意方法实施例中的步骤。

本领域技术人员可以理解，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：傅兴玉;程国艮;
专利申请人：中译语通科技股份有限公司;

上一篇：地图匹配方法、地图匹配模型的确定方法及装置
下一篇：一种提高小核菌多糖产量的营养盐及其应用