值域数据匹配方法、装置、存储介质及电子设备

文献发布时间：2023-06-19 11:02:01

技术领域

本公开涉及数据处理技术领域，具体地，涉及一种值域数据匹配方法、装置、存储介质及电子设备。

背景技术

在医疗数据领域，值域数据是指具有映射关系的医疗数据集合，包括小值域数据和大值域数据。其中，小值域数据是指种类较少、数据组织简单的值域数据，例如医保类别、患者性别等。大值域数据是指种类较多、数据组织复杂的值域数据，例如手术名称、疾病名称等。

由于不同医疗信息系统的数据结构不同、医疗信息系统的用户对于同一数据的数据表达不同等原因，如果要对医疗数据进行统一的分析和管理，则需要对医疗数据进行标准化操作。其中，值域数据的标准化操作主要是通过模糊查询、分词比较等值域匹配的方式进行。

但是，对于字符较少的值域数据，相关技术中的值域匹配方式难以实现较好的数据标准化效果。比如，疾病名称多以短文本或是名词短语构成，具有专业表示性强、缺少上下文信息、供拆解的信息少等特点，因此通过相关技术中的值域匹配方式对疾病名称进行数据标准化，难以得到较好的数据标准化效果，从而影响后续的统一分析和管理。

发明内容

本公开的目的是提供一种值域数据匹配方法、装置、存储介质及电子设备，以对医疗数据中的疾病名称进行更准确的值域匹配。

为了实现上述目的，第一方面，本公开提供一种值域数据匹配方法，所述方法包括：

从医疗数据中获取待匹配疾病名称；

确定所述待匹配疾病名称所属的疾病类别，并根据所述疾病类别包括的标准疾病名称，确定所述待匹配疾病名称对应的第一候选疾病名称；

将所述待匹配疾病名称输入语义相似度模型，以得到所述待匹配疾病名称对应的第二候选疾病名称，所述语义相似度模型是根据样本疾病名称的词性特征和句法特征进行训练而得到的；

根据所述第一候选疾病名称和所述第二候选疾病名称，确定所述待匹配疾病名称对应的值域匹配结果。

可选地，所述方法还包括：

基于疾病的发病部位和病理对国际疾病分类表中各疾病名称进行分类，以得到疾病分类表；

所述确定所述待匹配疾病名称所属的疾病类别，包括：

基于所述待匹配疾病名称在所述疾病分类表中进行查找，以确定所述待匹配疾病名称所属的疾病类别。

可选地，所述基于疾病的发病部位和病理对国际疾病分类表中各标准疾病名称进行分类，以得到疾病分类表，包括：

基于疾病的病理对国际疾病分类表中各疾病名称进行分类，以得到第一疾病分类表，并基于疾病的发病部位对国际疾病分类表中各疾病名称进行分类，以得到第二疾病分类表；

所述确定所述待匹配疾病名称所属的疾病类别，包括：

基于所述待匹配疾病名称在所述第一疾病分类表中进行查找；

若在所述第一疾病分类表中未查找到所述待匹配疾病名称所属的疾病类别，则基于所述待匹配疾病名称在所述第二疾病分类表中进行查找，并根据在所述第二疾病分类表中查找到的疾病类别，确定所述待匹配疾病名称所属的疾病类别。

可选地，所述方法还包括：

若在第二疾病分类表中未查找到所述待匹配疾病名称所属的疾病类别，则在预设疾病分类表中确定所述待匹配疾病名称所属的疾病类别，所述预设疾病分类表中每一疾病类别包括的疾病名称的数量多于所述第二疾病分类表中每一疾病类别包括的疾病名称的数量。

可选地，所述确定所述待匹配疾病名称所属的疾病类别，包括：

确定所述待匹配疾病名称对应的至少一个疾病别称；

根据所述待匹配疾病名称对应的至少一个疾病别称，确定所述待匹配疾病名称所属的疾病类别。

可选地，所述根据所述第一候选疾病名称和所述第二候选疾病名称，确定所述待匹配疾病名称对应的值域匹配结果，包括：

从所述待匹配疾病名称对应的所述医疗数据中获取诊断科室信息和/或患者性别信息，并根据所述诊断科室信息和/或患者性别信息对所述第一候选疾病名称进行筛选，以得到目标候选疾病名称；

根据所述目标候选疾病名称和所述第二候选疾病名称，确定所述待匹配疾病名称对应的值域匹配结果。

可选地，所述根据所述第一候选疾病名称和所述第二候选疾病名称，确定所述待匹配疾病名称对应的值域匹配结果，包括：

若所述第二候选疾病名称中存在与所述第一候选疾病名称相同、且与所述待匹配疾病名称间的语义相似度超过预设语义相似度的疾病名称，则将所述疾病名称确定为所述待匹配疾病名称对应的值域匹配结果；

若所述第二候选疾病名称中不存在与所述第一候选疾病名称相同、且与所述待匹配疾病名称间的语义相似度超过所述预设语义相似度的疾病名称，则将所述第二候选疾病名称与所述第一候选疾病名称进行模糊匹配，以确定所述待匹配疾病名称对应的值域匹配结果。

第二方面，本公开还提供一种值域数据匹配装置，所述装置包括：

获取模块，用于从医疗数据中获取待匹配疾病名称；

第一确定模块，用于确定所述待匹配疾病名称所属的疾病类别，并根据所述疾病类别包括的标准疾病名称，确定所述待匹配疾病名称对应的第一候选疾病名称；

第二确定模块，用于将所述待匹配疾病名称输入语义相似度模型，以得到所述待匹配疾病名称对应的第二候选疾病名称，所述语义相似度模型是根据样本疾病名称的词性特征和句法特征进行训练而得到的；

第三确定模块，用于根据所述第一候选疾病名称和所述第二候选疾病名称，确定所述待匹配疾病名称对应的值域匹配结果。

第三方面，本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述方法的步骤。

第四方面，本公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面中任一项所述方法的步骤。

通过上述技术方案，一方面可以在值域匹配时优先确定待匹配疾病名称所属的疾病类别，以减少候选误差。另一方面可以通过语义相似度模型进行匹配，该语义相似度模型是通过样本疾病名称的词性特征和句法特征进行训练而得到的，因此在值域匹配过程中可以充分利用待匹配疾病名称的词性信息和句法信息，从而进一步提高值域匹配准确率，实现更准确的数据标准化操作。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种值域数据匹配方法的实施场景图；

图2是根据本公开一示例性实施例示出的一种值域数据匹配方法的流程图；

图3是根据本公开另一示例性实施例示出的一种值域数据匹配方法的流程图；

图4是根据本公开一示例性实施例示出的一种值域数据匹配装置的框图；

图5是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

正如背景技术所言，医疗数据标准化操作过程中疾病名称这一值域数据多以短文本或是名词短语构成，具有专业表示性强，缺少上下文信息，供拆解的信息少等特点，因此通过相关技术中模糊匹配、分词比较等值域匹配的方式对疾病名称进行数据标准化操作，难以实现较好的数据标准化效果，从而影响后续的统一分析和管理。

有鉴于此，本公开提供一种值域数据匹配方法、装置、存储介质及电子设备，以对医疗数据中的疾病名称进行更准确的值域匹配，从而实现更加准确的数据标准化操作。

首先说明本公开可能的实施场景。例如，参照图1，该实施场景可以包括设置在不同医疗机构的多个医疗信息系统(图1中以医疗信息系统1～N进行示意)以及可以与该多个医疗信息系统通信的医疗信息统一管理平台。其中，医疗信息系统可以执行本公开提供的值域数据匹配方法，以对自身存储的医疗数据中的疾病名称进行数据标准化操作。或者，医疗信息统一管理平台可以执行本公开提供的值域数据匹配方法，以对各医疗信息系统上报的医疗数据中的疾病名称进行数据标准化操作。

图2是根据本公开一示例性实施例示出的一种值域数据匹配方法的流程图。参照图2，该值域数据匹配方法包括：

步骤201，从医疗数据中获取待匹配疾病名称。

步骤202，确定待匹配疾病名称所属的疾病类别，并根据疾病类别包括的标准疾病名称，确定待匹配疾病名称对应的第一候选疾病名称。

步骤203，将待匹配疾病名称输入语义相似度模型，以得到待匹配疾病名称对应的第二候选疾病名称。该语义相似度模型是根据样本疾病名称的词性特征和句法特征进行训练而得到的。

步骤204，根据第一候选疾病名称和第二候选疾病名称，确定待匹配疾病名称对应的值域匹配结果。

通过上述方式，一方面可以在值域匹配时优先确定待匹配疾病名称所属的疾病类别，以减少候选误差。另一方面可以通过语义相似度模型进行匹配，该语义相似度模型是通过样本疾病名称的词性特征和句法特征进行训练而得到的，因此在值域匹配过程中可以充分利用待匹配疾病名称的词性信息和句法信息，从而进一步提高值域匹配准确率，实现更准确的数据标准化操作。

为了使得本领域技术人员更好的理解本公开提供的值域数据匹配方法，下面对上述各步骤进行详细举例说明。

示例地，步骤201中的医疗数据可以是各医疗机构内部的医疗信息系统中存储的医疗数据，即可以从医疗信息系统中获取医疗数据，从而对获取到的该医疗数据进行数据提取，以得到待匹配疾病名称。或者，医疗数据可以是各医疗信息系统向医疗信息统一管理平台中上报的医疗数据，即可以从医疗信息统一管理平台中获取医疗数据，从而对获取到的该医疗数据进行数据提取，以得到待匹配疾病名称。

在获取到待匹配名称之后，可以确定待匹配疾病名称所属的疾病类别。在一可能的方式中，可以基于疾病的发病部位和病理对国际疾病分类表中各疾病名称进行分类，以得到疾病分类表。相应地，确定待匹配疾病名称所属的疾病类别可以是：基于待匹配疾病名称在疾病分类表中进行查找，以确定待匹配疾病名称所属的疾病类别。由此，在后续匹配过程中可以优先匹配大类，以减少候选误差。并且，相较于在国际疾病分类表中逐一查找比对的方式，可以提高查找效率，进而提高值域匹配效率。

示例地，国际疾病分类表可以是ICD-10国际疾病分类表，或者也可以是其他国际疾病分类表，本公开实施例对此不作限定。以ICD-10国际疾病分类表为例，每一标准疾病名称对应唯一的6位编码，比如肺结核对应的6位编码为A16.202。基于同一发病部位或同一病理的疾病所对应的该6位编码中存在至少一位相同的编码值，比如细菌性痢疾、其他细菌性肠道感染等肠道传染病所对应的6位编码中前2位编码值均为A0。因此基于疾病的发病部位和病理对国际疾病分类表中各标准疾病名称进行分类可以是：将国际疾病分类表中预设编码位置上编码值相同的标准疾病名称划分为一类。分类后的疾病分类表中每一疾病类别包括至少一个标准疾病名称，从而后续可以根据对应疾病类别包括的标准疾病名称来确定第一候选疾病名称。

示例地，基于疾病的发病部位和病理对国际分类表中各疾病名称进行分类可以得到一个疾病分类表，后续可以将待匹配疾病名称作为索引，在该疾病分类表中进行查找，查找得到的疾病类别则为待匹配疾病名称所属的疾病类别。或者，为了减少第一候选疾病名称的数量，进而提高后续值域匹配的效率，可以基于疾病的发病部位和病理对国际分类表中各疾病名称进行更加精细的分类，以得到至少两个疾病分类表。

在可能的方式中，可以基于疾病的病理对国际疾病分类表中各疾病名称进行分类，以得到第一疾病分类表，并基于疾病的发病部位对国际疾病分类表中各疾病名称进行分类，以得到第二疾病分类表。相应地，确定待匹配疾病名称所属的疾病类别，可以是：基于待匹配疾病名称在第一疾病分类表中进行查找，若在第一疾病分类表中未查找到待匹配疾病名称所属的疾病类别，则基于待匹配疾病名称在第二疾病分类表中进行查找，并根据在第二疾病分类表中查找到的疾病类别，确定待匹配疾病名称所属的疾病类别。

以ICD-10国际疾病分类表为例，该国际疾病分类表中，每一标准疾病名称对应的6位编码中，前3位编码可以表征发病部位，第4位编码可以表征病理。因此，基于疾病的病理对国际疾病分类表中各疾病名称进行分类，以得到第一疾病分类表可以是：将国际疾病分类表中前4位编码值相同的疾病名称划分为一类。类似的，基于疾病的发病部位对国际疾病分类表中各疾病名称进行分类，以得到第二疾病分类表可以是：将国际疾病分类表中前3位编码相同的疾病名称划分为一类。

由此，第二疾病分类表中每一疾病类别包括的疾病名称的数量多于第一疾病分类表中每一疾病类别包括的疾病名称的数量，即第二类疾病分类表的查找范围大于第一类疾病分类表。因此在确定待匹配疾病名称所属的疾病类别时，可以先基于待匹配疾病名称在小范围的第一疾病分类表中进行查找。如果查找到了，则可以将查找到的疾病类别作为待匹配疾病名称所属的疾病名称。如果没有查找到，则可以扩大范围，基于待匹配疾病名称在大范围的第二疾病分类表中进行查找，并根据在第二疾病分类表中查找到的疾病类别，确定待匹配疾病名称所属的疾病类别。即，将在第二疾病分类表中查找到的疾病类别确定为待匹配疾病名称所属的疾病类别。

在可能的方式中，若在第二疾病分类表中未查找到待匹配疾病名称所属的疾病类别，则还可以进一步扩大查找范围。比如，可以在预设疾病分类表中确定待匹配疾病名称所属的疾病类别，该预设疾病分类表中每一疾病类别包括的疾病名称的数量多于第二疾病分类表中每一疾病类别包括的疾病名称的数量。

示例地，预设疾病分类表可以是根据实际情况对国际疾病分类表中各疾病名称进行自定义划分而得到的。比如，参照表1，以ICD-10国际疾病分类表为例，预设疾病分类表可以包括皮肤疾病、肌肉骨骼、生殖、消化系统、传染、肿瘤、血液、内分泌、精神系统、行为障碍等20个疾病类别，每一疾病类别对应的前3位编码范围不同，且每一疾病类别对应的前3位编码范围大于第二疾病分类表中每一疾病类别对应的前3位编码范围。由此，在第二疾病分类中未查找到对应疾病类别的情况下，在预设疾病分类表中进行更大范围的查找，可以确保查找到相应的疾病类别，从而实现匹配过程中优先匹配大类的目的，以减少候选误差。

表1

根据上文提供的任一方式，待匹配疾病名称所属的疾病类别可以由根据国际疾病分类表划分得到的疾病分类表(比如第一疾病分类表、第二疾病分类表或预设疾病分类表)来确定，且国际疾病分类表中各疾病名称为统一的国际命名，因此疾病分类表中每一疾病类别的命名也可以是国际命名。但实际应用中，医疗数据中的疾病名称可能不是国际命名，而是一些通俗的名称。比如，对于国际命名的疾病名称“阿尔茨海默症”，其通俗的疾病名称为“老年痴呆”。因此，按照上述方式，无法根据通俗的疾病名称确定对应的疾病类别。比如，无法根据“老年痴呆”确定对应的疾病类别。

为了解决该问题，本公开实施例可以先确定待匹配疾病名称对应的至少一个疾病别称，再根据待匹配疾病名称对应的至少一个疾病别称，确定待匹配疾病名称所属的疾病类别。其中，疾病别称的获得可以是：先对众多样本医疗数据中疾病名称进行分析，以确定同一疾病对应的至少一个疾病别称，然后建立该疾病与该至少一个疾病别称之间的对应关系。在后续应用中，则可以根据待匹配疾病名称在预先建立的该对应关系中进行查找，以确定该待匹配疾病名称对应的至少一个疾病别称。

当然，在可能的情况下，也可以通过样本疾病名称和该样本疾病名称对应的样本疾病别称训练疾病别称识别模型，然后通过训练后的疾病别称识别模型对输入的待匹配疾病名称进行智能识别，等等，本公开实施例对于确定待匹配疾病名称对应疾病别称的方式不作限定。

在确定待匹配疾病名称对应的至少一个疾病别称之后，则可以根据待匹配疾病名称对应的至少一个疾病别称，确定待匹配疾病名称所属的疾病类别。比如，待匹配疾病名称为“老年痴呆”，可以确定该待匹配疾病对应的疾病别称为“阿尔茨海默症”。然后，可以根据该疾病别称“阿尔茨海默症”，确定待匹配疾病名称所属的疾病类别。由此，可以避免无法确定待匹配疾病名称所属疾病类别的情况，从而保证值域数据匹配的正常进行。

通过上述任一方式确定待匹配疾病名称所属的疾病类别后，可以根据该疾病类别包括的标准疾病名称，确定待匹配疾病名称对应的第一候选疾病名称。应当理解的是，该第一候选疾病名称包括至少一个标准疾病名称。因此，为了确定准确的值域匹配结果，本公开实施例还可以将待匹配疾病名称输入语义相似度模型，以将该语义相似度模型输出的结果作为待匹配疾病名称对应的第二候选疾病名称，从而结合该第二候选疾病名称和第一候选疾病名称确定一目标疾病名称作为待匹配疾病名称的值域匹配结果。

示例地，语义相似度模型可以用于计算输入的待匹配疾病名称与样本疾病名称之间的相似度，然后输出相似度超过预设阈值的至少一个样本疾病名称，即第二候选疾病名称包括至少一个样本疾病名称。其中，预设阈值可以根据实际情况设定，本公开实施例对此不作限定。

示例地，语义相似度模型可以是基于BERT(Bidirectional EncoderRepresentation from Transformers)的语义相似度模型。应当理解的是，相关技术中的BERT模型仅仅基于注意力机制，没有考虑词性，且仅使用语义信息进行模型训练，因此会出现较多错判的情况。并且，相关技术中的BERT模型对各个词的权重是一样的，不能突出关键词，因此对整句话只能抽取一个主旨。本公开实施例中，为了改善相关技术中BERT模型存在的问题，可以根据样本疾病名称的词性特征和句法特征训练语义相似度模型。

示例地，样本疾病名称可以是从文本量健全、且语义表达准确的大容量医疗数据中获取的。词性特征可以用于表征疾病名称中各字符所表征的词性，句法特征可以用于表征疾病名称中各个字符的排序顺序、完整含义等。比如，对于疾病名称“老年痴呆”，可以确定字符“老年”的词性特征是用于表征年龄的名词特征，字符“痴”和“呆”的词性特征可以是用于表征大脑疾病的形容词特征，“老年痴呆”的句法特征可以是用于表征老年人大脑疾病的特征。应当理解的是，此处仅是举例说明，在实际应用中，对于疾病名称“老年痴呆”可以提取不同的词性特征和句法特征，本公开实施例对此不作限定。

通过上述方式，训练后的语义相似度模型，可以提取待匹配疾病名称的词性特征和句法特征进行语义相似度分析，从而得到更加准确的第二候选疾病名称。另一方面，在语义相似度模型的训练过程中，通过大量样本疾病名称进行训练，一定程度上可以提高语义相似度模型的准确性，从而得到更加准确的第二候选疾病名称。

在得到第一候选疾病名称和第二候选疾病名称之后，可以根据第一候选疾病名称和第二候选疾病名称，确定一目标疾病名称作为待匹配疾病名称对应的值域匹配结果。

在可能的方式中，根据第一候选疾病名称和第二候选疾病名称，确定待匹配疾病名称对应的值域匹配结果可以是：若第二候选疾病名称中存在与第一候选疾病名称相同、且与待匹配疾病名称间的语义相似度超过预设语义相似度的疾病名称，则将该疾病名称确定为待匹配疾病名称对应的值域匹配结果。若第二候选疾病名称中不存在与第一候选疾病名称相同、且与待匹配疾病名称间的语义相似度超过预设语义相似度的疾病名称，则将第二候选疾病名称与第一候选疾病名称进行模糊匹配，以确定待匹配疾病名称对应的值域匹配结果。其中，预设语义相似度可以根据实际情况设定，本公开实施例对此不作限定。

应当理解的是，第一候选疾病名称是通过疾病类别确定的，可以理解为是通过规则匹配而确定的，相较于语义相似度模型输出的第二候选疾病名称具有更高的准确性。第二候选疾病名称是通过语义相似度分析得到的，相较于第一候选疾病名称，可以弥补疾病名称匹配过程中缺少上下文语义的问题，具有更高的场景适用性。因此，本公开实施例结合第一候选疾病名称和第二候选疾病名称确定待匹配疾病名称的值域匹配结果。

示例地，若第二候选疾病名称可以在第一候选疾病名称中匹配到相同的疾病名称，即通过规则匹配确定了一疾病名称，同时通过语义相似度分析也确定了该疾病名称，则可以确定该疾病名称为待匹配疾病名称对应的值域匹配结果。反之，若第二候选疾病名称未在第一候选疾病名称中匹配到相同的疾病名称，比如通过规则匹配确定了一疾病名称，同时通过语义相似度分析确定了另一不同的疾病名称，则可以将第一候选疾病名称和第二候选疾病名称进行模糊匹配以确定一目标疾病名称。其中，模糊匹配的方式与相关技术中类似，这里不再赘述。

通过上述方式，可以根据第二候选疾病名称在第一候选疾病名称中的匹配情况，采用不同的匹配方式确定待匹配疾病名称的值域匹配结果，从而得到更加准确的值域匹配结果，实现更准确的数据标准化操作。

应当理解的是，在第二候选疾病名称未在第一候选疾病名称中匹配到相同的疾病名称的情况下，考虑到可能是语义相似度模型的结果输出问题，还可以记录此种情况下的待匹配疾病名称，以便人工收集问题，进行样本疾病名称相关分词的准确性校验、疾病别名的扩充等处理。相应地，语义相似度模型可以通过准确性校验后的样本疾病名称重新进行训练，并且可以根据疾病别名扩充操作后的结果更新上文提及的疾病名称与疾病别称之间的对应关系。由此，在每次值域匹配后，还可以通过上述可能的处理方式，提高后续值域匹配的准确性。

在实际应用中，第一候选疾病名称可能包括较多数量的标准疾病名称。比如在第一疾病分类表和第二疾病分类表中均未查找到对应的疾病类别，则将在预设疾病分类表中查找到的疾病类别作为待匹配疾病名称所属的疾病类别。参照上文可知，为了避免无法查找到待匹配疾病名称所属疾病类别的情况，预设疾病分类表中每一疾病类别包括较多数量的疾病名称。因此，按照此种方式确定第一候选疾病名称包括较多数量的标准疾病名称。

此种情况下，为了缩小候选范围，从而提高值域匹配效率，可以从待匹配疾病名称对应的医疗数据中获取诊断科室信息和/或患者性别信息，并根据该诊断科室信息和/或患者性别信息对第一候选疾病名称进行筛选，以得到目标候选疾病名称，然后根据目标候选疾病名称和第二候选疾病名称，确定待匹配疾病名称对应的值域匹配结果。其中，诊断科室信息包括心内科、血液科、骨科等诊断科室信息，患者性别信息为女性或男性。

比如，参照表1，待匹配疾病名称所属的疾病类别为血液及造血器官疾病和某些涉及免疫机制的疾患，即第一候选疾病名称为该疾病类别包括的所有疾病名称。若该待匹配疾病名称对应的医疗数据中诊断科室信息为心内科，则可以对第一候选疾病名称中进行筛选，以得到心血管相关疾病。由此，可以缩小候选范围，提高值域匹配效率。

或者，参照表1，待匹配疾病名称所属的疾病类别为生殖系统疾病，即第一候选疾病名称为该疾病类别包括的所有疾病名称。若该待匹配疾病名称对应的医疗数据中患者性别信息为女性，则可以对第一候选疾病名称中进行筛选，以得到女性相关的生殖系统疾病。由此，可以缩小候选范围，提高值域匹配效率。

当然，也可以同时结合诊断科室信息和患者性别信息对第一候选疾病名称进行筛选，可以根据实际情况进行设定，本公开实施例对此不作限定。

下面通过另一示例性实施例对本公开提供的值域数据匹配方法进行说明。参照图3，该值域数据匹配方法包括：

步骤301，从医疗数据中获取待匹配疾病名称。

步骤302，确定是否在国际疾病分类表中查找到对应的疾病名称，如果查找到，则执行步骤303。如果未查找到，则执行步骤304。

应当理解的是，本公开提供的值域数据匹配方法可以与相关技术中的值域匹配方式相结合，若在国际疾病分类表中查找到对应的疾病名称，则将该疾病名称作为待匹配疾病名称的值域匹配结果。若在国际疾病分类表中未查找到对应的疾病名称，则继续执行后续步骤。其中，在国际疾病分类表中查找到对应的疾病名称的方式可以是相关技术中的模糊匹配、分词比较等方式。

步骤303，将该疾病名称作为待匹配疾病名称的值域匹配结果。

步骤304，确定是否在第一疾病分类表中查找到待匹配疾病名称，如果查找到，则执行步骤303，如果未查找到，则执行步骤305。

步骤305，确定是否在第二疾病分类表中查找到待匹配疾病名称，如果查找到，则执行步骤306。如果未查找到，则执行步骤307。

步骤306，根据在第二疾病分类表中查找到的疾病类别，确定待匹配疾病名称所属的疾病类别。

步骤307，在预设疾病分类表中确定待匹配疾病名称所属的疾病类别。

应当理解的是，确定第一疾病分类表、第二疾病分类表和预设疾病分类表的方式已在上文进行说明，这里不再赘述。

步骤308，根据疾病类别包括的标准疾病名称，确定待匹配疾病名称对应的第一候选疾病名称。

步骤309，根据诊断科室信息和/或患者性别信息对第一候选疾病名称进行筛选，以得到目标候选疾病名称。

步骤310，将待匹配疾病名称输入语义相似度模型，以得到待匹配疾病名称对应的第二候选疾病名称。其中，语义相似度模型的训练方式等相关内容已在上文进行说明，这里不再赘述。

步骤311，若目标候选疾病名称中存在与第一候选疾病名称相同、且与待匹配疾病名称间的语义相似度超过预设语义相似度的疾病名称，则将疾病名称确定为待匹配疾病名称对应的值域匹配结果。

步骤312，若目标候选疾病名称中不存在与第一候选疾病名称相同、且与待匹配疾病名称间的语义相似度超过预设语义相似度的疾病名称，则将第二候选疾病名称与第一候选疾病名称进行模糊匹配，以确定待匹配疾病名称对应的值域匹配结果。

上述各步骤的具体实施方式已在上文进行详细举例说明，这里不再赘述。另外应当理解的是，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受上文所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，上文所描述的实施例属于优选实施例，所涉及的步骤并不一定是本公开所必须的。

通过上述方式，可以结合考虑疾病编码结构信息以及大数据模型的双重优点，在利用病理结构信息保证候选匹配项质量从而减少误差的前提下，通过增加句法特征和词性特征等上下文信息到语义相似度模型，以改善其模型本身上下文语义缺失的不足，从而增强对疾病名称这类字符较少的值域数据的匹配能力，更好的实现对疾病名称的数据标准化操作。

基于同一发明构思，本公开实施例还提供一种值域数据匹配装置，该装置可以通过软件、硬件或两者结合的方式成为电子设备的部分或全部。参照图4，该值域数据匹配装置400包括：

获取模块401，用于从医疗数据中获取待匹配疾病名称；

第一确定模块402，用于确定所述待匹配疾病名称所属的疾病类别，并根据所述疾病类别包括的标准疾病名称，确定所述待匹配疾病名称对应的第一候选疾病名称；

第二确定模块403，用于将所述待匹配疾病名称输入语义相似度模型，以得到所述待匹配疾病名称对应的第二候选疾病名称，所述语义相似度模型是根据样本疾病名称的词性特征和句法特征进行训练而得到的；

第三确定模块404，用于根据所述第一候选疾病名称和所述第二候选疾病名称，确定所述待匹配疾病名称对应的值域匹配结果。

可选地，所述装置400还包括：

分类模块，用于基于疾病的发病部位和病理对国际疾病分类表中各疾病名称进行分类，以得到疾病分类表；

所述第一确定模块402用于：

基于所述待匹配疾病名称在所述疾病分类表中进行查找，以确定所述待匹配疾病名称所属的疾病类别。

可选地，所述分类模块用于：

所述第一确定模块402用于：

基于所述待匹配疾病名称在所述第一疾病分类表中进行查找；

当在所述第一疾病分类表中未查找到所述待匹配疾病名称所属的疾病类别时，基于所述待匹配疾病名称在所述第二疾病分类表中进行查找，并根据在所述第二疾病分类表中查找到的疾病类别，确定所述待匹配疾病名称所属的疾病类别。

可选地，所述装置400还包括：

第四确定模块，用于当在第二疾病分类表中未查找到所述待匹配疾病名称所属的疾病类别时，在预设疾病分类表中确定所述待匹配疾病名称所属的疾病类别，所述预设疾病分类表中每一疾病类别包括的疾病名称的数量多于所述第二疾病分类表中每一疾病类别包括的疾病名称的数量。

可选地，所述第一确定模块402用于：

确定所述待匹配疾病名称对应的至少一个疾病别称；

根据所述待匹配疾病名称对应的至少一个疾病别称，确定所述待匹配疾病名称所属的疾病类别。

可选地，所述第三确定模块404用于：

根据所述目标候选疾病名称和所述第二候选疾病名称，确定所述待匹配疾病名称对应的值域匹配结果。

可选地，所述第三确定模块404用于：

当所述第二候选疾病名称中存在与所述第一候选疾病名称相同、且与所述待匹配疾病名称间的语义相似度超过预设语义相似度的疾病名称时，将所述疾病名称确定为所述待匹配疾病名称对应的值域匹配结果；

当所述第二候选疾病名称中不存在与所述第一候选疾病名称相同、且与所述待匹配疾病名称间的语义相似度超过所述预设语义相似度的疾病名称时，将所述第二候选疾病名称与所述第一候选疾病名称进行模糊匹配，以确定所述待匹配疾病名称对应的值域匹配结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

基于同一发明构思，本公开实施例提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一值域数据匹配方法的步骤。

在可能的方式中，该电子设备的框图如图5所示。参照图5，该电子设备500可以包括：处理器501，存储器502。该电子设备500还可以包括多媒体组件503，输入/输出(I/O)接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该电子设备500的整体操作，以完成上述的值域数据匹配方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作，这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的值域数据匹配方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的值域数据匹配方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由电子设备500的处理器501执行以完成上述的值域数据匹配方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的值域数据匹配方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：冯仓龙;
专利申请人：东软集团股份有限公司;

上一篇：一种基于分割的文本检测方法、装置、系统及介质
下一篇：网页访问方法、装置、计算机设备及存储介质