导航：首页> 计算；推算；计数>一种基于阅读理解的医学概念编码方法、装置及存储介质

一种基于阅读理解的医学概念编码方法、装置及存储介质

文献发布时间：2023-06-19 11:35:49

技术领域

本发明涉及医学概念编码领域，尤其涉及的是一种基于阅读理解的医学概念编码方法、装置及存储介质。

背景技术

医学概念自动编码是医疗信息处理领域的一个重要研究方向。在医疗信息系统中，同一医学术语可能有多种不同的医学概念表达方式，这种表述方式的不统一和不准确现象严重阻碍了医疗大数据的整合、共享和利用，给医疗领域的临床、教学和科研带来了诸多不便。医学编码是一种数字和字母标签系统，它能够为每个诊断，症状或者症状组合等提供独特且统一的编码表示。目前医疗机构需要采用人工编码的方式将临床医疗文本中的医学概念手动映射为医学术语编码，而人工编码需要大量具有医学知识的专业人员进行操作，成本高昂，效率有限并且准确性不高。

因此，现有技术还有待改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一一种基于阅读理解的医学概念编码方法、装置及存储介质，旨在解决现有技术中采用人工编码的方法将临床医疗文本中的医学概念手动映射为医学术语编码，不仅成本高昂、效率有限而且准确性不高的问题。

本发明解决问题所采用的技术方案如下：

第一方面，本发明实施例提供一种基于阅读理解的医学概念编码方法，其中，所述方法包括：

获取临床医疗文本数据以及若干个标准医学术语数据，根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据；

计算所述若干个术语矩阵数据之间的术语相关性系数，根据所述术语相关性系数对所述若干个术语矩阵数据进行加权操作后得到若干个第一权重矩阵数据；

计算所述若干个第一权重矩阵数据与所述文本矩阵数据之间的文本相关性系数，根据所述文本相关性系数对所述若干个第一权重矩阵数据进行加权操作后得到若干个第二权重矩阵数据；

将所述第一权重矩阵数据和所述若干个第二权重矩阵数据进行融合后得到融合数据，根据所述融合数据在所述若干个标准医学术语数据中确定所述临床医疗文本数据的编码数据。

在一种实施方式中，所述获取临床医疗文本数据以及若干个标准医学术语数据，根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据包括：

获取临床医疗文本数据以及标准医学术语词典数据，通过相似性度量方法在所述标准医学术语词典数据中确定所述临床医疗文本数据对应的若干个标准医学术语数据；

根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据。

在一种实施方式中，所述根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据包括：

将所述临床医疗文本数据分别和所述若干个标准医学术语数据组合后生成配对数据；

将所述配对数据输入预设模型中，获取所述预设模型基于所述配对数据输出的文本矩阵数据和若干个术语矩阵数据。

在一种实施方式中，所述计算所述若干个术语矩阵数据之间的术语相关性系数，根据所述术语相关性系数对所述若干个术语矩阵数据进行加权操作后得到若干个第一权重矩阵数据包括：

对所述若干个术语矩阵数据进行最大池化操作后得到若干个降维术语矩阵数据；

计算所述若干个降维术语矩阵数据之间的术语相关性系数，根据所述术语相关性系数生成第一交互矩阵数据；

根据所述第一交互矩阵数据对所述若干个降维术语矩阵数据进行加权操作后得到若干个第一权重矩阵数据。

在一种实施方式中，所述计算所述若干个第一权重矩阵数据与所述文本矩阵数据之间的文本相关性系数，根据所述文本相关性系数对所述若干个第一权重矩阵数据进行加权操作后得到若干个第二权重矩阵数据包括：

对所述文本矩阵数据进行最大池化操作后得到降维文本矩阵数据；

计算所述若干个第一权重矩阵数据与所述降维文本矩阵数据之间的文本相关性系数，根据所述文本相关性系数生成第二交互矩阵数据；

根据所述第二交互矩阵数据对所述若干个第一权重矩阵数据进行加权操作后得到若干个第二权重矩阵数据。

在一种实施方式中，所述将所述第一权重矩阵数据和所述若干个第二权重矩阵数据进行融合后得到融合数据，根据所述融合数据在所述若干个标准医学术语数据中确定所述临床医疗文本数据的编码数据包括：

对所述第一权重矩阵数据和所述第二权重矩阵数据进行最大池化操作后得到第一权重向量数据和第二权重向量数据；

对所述第一权重向量数据和所述第二权重向量数据进行加权计算后得到融合数据；

根据所述融合数据在所述若干个标准医学术语数据中确定目标标准医学术语数据；

将所述目标标准医学术语数据作为所述临床医疗文本数据的编码数据。

在一种实施方式中，所述对所述第一权重向量数据和所述第二权重向量数据进行加权计算后得到融合数据包括：

将所述第一权重向量数据和所述第二权重向量数据输入预设的非线性函数中；

获取所述非线性函数基于所述第一权重向量数据和所述第二权重向量数据生成的门控机制的权重数据；

根据所述权重数据对所述第一权重向量数据和所述第二权重向量数据进行加权计算后得到融合数据。

在一种实施方式中，所述根据所述融合数据在所述若干个标准医学术语数据中确定目标标准医学术语数据包括：

将所述融合数据输入预设的分类器中，通过所述分类器对所述融合数据中的每一个数据进行分类；

根据分类结果在所述若干个标准医学术语数据中确定目标标准医学术语数据。

第二方面，本发明实施例还提供一种基于阅读理解的医学概念编码装置，其中，所述装置包括：

数据获取模块，用于获取临床医疗文本数据以及若干个标准医学术语数据，根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据；

第一加权模块，用于计算所述若干个术语矩阵数据之间的术语相关性系数，根据所述术语相关性系数对所述若干个术语矩阵数据进行加权操作后得到若干个第一权重矩阵数据；

第二加权模块，用于计算所述若干个第一权重矩阵数据与所述文本矩阵数据之间的文本相关性系数，根据所述文本相关性系数对所述若干个第一权重矩阵数据进行加权操作后得到若干个第二权重矩阵数据；

编码确定模块，用于将所述第一权重矩阵数据和所述若干个第二权重矩阵数据进行融合后得到融合数据，根据所述融合数据在所述若干个标准医学术语数据中确定所述临床医疗文本数据的编码数据。

第三方面，本发明实施例还提供一种计算机可读存储介质，其上存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行，以实现上述任一所述的一种基于阅读理解的医学概念编码方法的步骤。

本发明的有益效果：本发明可以实现计算机自动为临床医疗文本中的医学概念进行自动编码，解决了现有技术中采用人工编码的方法将临床医疗文本中的医学概念手动映射为医学术语编码，不仅成本高昂、效率有限而且准确性不高的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于阅读理解的医学概念编码方法的流程示意图。

图2是本发明实施例提供的用于进行基于阅读理解的医学概念编码方法的模型的示意图。

图3是本发明实施例提供的一种基于阅读理解的医学概念编码装置的内部模块参考图。

图4是本发明实施例提供的终端的原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

随着互联网、大数据、云计算和人工智能等信息技术的快速发展和应用普及，人类的生产生活受到了史无前例的影响。近些年来，信息技术已经逐渐运用到社会生活的方方面面。在各行各业中，信息技术已经改变了人类管理、分析和运用数据的方式，经济文化等众多领域如今都已经离不开信息技术的辅助。在这些信息技术的应用领域中，医疗是重要且具有无限潜力的领域之一。在医疗领域中，涉及到大量的信息处理。这些医疗信息具有以下特点：

1）数据量大且增长速度快；

2）共享性需求高。

而信息技术最大的优势就在于它对数据处理的效率，因此目前信息技术在医疗界的应用广泛，并由此产生了医疗信息处理这一计算机应用方向。医疗信息处理是指将计算机相关技术与医疗卫生行业需求进行有机的结合，满足医疗机构以及相关部门对医疗卫生信息的收集、整理、存储和分析等需求，提高卫生行业效率，并满足客户功能需求。医疗信息处理技术在提高医疗信息处理效率的同时，也提升了医疗信息处理的准确率，让医学信息的发展进入到新的高度。长期以来，如何利用医疗信息处理技术切实有效地提高医疗水平与推动医学发展，是相关领域学者一直在研究的热点问题之一。

医学概念自动编码是医疗信息处理领域的一个重要研究方向。临床医疗文本通常是指医务工作人员在医疗活动中形成的描述病人临床表现的文字资料，其中可能包含若干医学相关概念。在医疗信息系统中，同一医学术语可能有多种不同的医学概念表达方式。首先，由于医疗工作人员的记录风格可能存在差异，有时为了追求工作效率，他们记录的医疗文本中可能包含较多的同义词、缩略词、外来语或者口语表述。因此在临床医疗文本中，一种术语对应多种表达的现象较为明显。比如在中文临床医疗文本中，标准术语“先天性脊柱侧弯”可以表述为“先天性脊柱侧凸”，也可以表述为“先天性脊柱侧弯畸形”；在英文临床医疗文本中，“heart attack”、“MI”和“myocardial infarction”都可以代表“心肌梗塞”的含义。其次，在某些情况下，多种诊断或者症状相关的医学概念是紧密相关且易混淆的，临床医疗文本中的相同医学概念，可能由于上下文语境的不同，对应不同的医学术语，比如在中文临床医疗文本中，诊断相关医学概念“鼻咽瘘”根据上下文信息，可能对应医学术语“鼻窦瘘”，或者对应医学术语“咽瘘”。这种表述方式的不统一和不准确现象严重阻碍了医疗大数据的整合、共享和利用，给医疗领域的临床、教学和科研带来了诸多不便。医学编码是一种数字和字母标签系统，它为每个诊断，症状或者症状组合等提供独特的编码表示。因此，按照统一的标准将临床医疗文本中的医学概念规范化为医学术语在医疗编码系统中对应的代码，在推动医疗信息化进程中显得尤为迫切。当前部分医疗机构采用人工编码的方式将临床医疗文本中的医学概念手动映射为医学术语编码。在这个过程中，编码人员需要查阅临床医疗文本中的医学概念或者其他相关信息，然后按照编码指导以人工的方式给这些医学概念分配合适的医学术语编码。由于医疗机构每天都会产生海量的文本信息，人工编码需要大量具有医学知识的专业人员进行操作，成本高昂，效率有限并且准确性不高。

针对现有技术的上述缺陷，本发明提供了一种基于阅读理解的医学概念编码方法，如图2所示，通过将临床医疗文本中的医学概念的编码任务转换为阅读理解任务，将临床医疗文本当做阅读理解中的文章，将若干个标准医学术语作为阅读理解中的选项，通过比较选项与选项之间的相关性以及选项与文本之间的相关性，在所述若干个标准医学术语中确定与所述临床医疗文本最相符的目标标准医学术语，并根据所述目标标准医学术语确定所述临床医疗文本的医学编码。本发明可以实现计算机自动为临床医疗文本中的医学概念进行自动编码，解决了现有技术中采用人工编码的方法将临床医疗文本中的医学概念手动映射为医学术语编码，不仅成本高昂、效率有限而且准确性不高的问题。

如图1所示，本实施例提供一种基于阅读理解的医学概念编码方法，所述方法包括如下步骤：

获取临床医疗文本数据以及若干个标准医学术语数据，根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据。

具体地，本实施例首先要获取到需要进行编码的临床医疗文本数据，然后为所述临床医疗文本数据选择若干个和其大致相符合的标准医学术语数据作为候选项。由于本实施例后续需要计算候选项之间的相关性以及候选项与文本之间的相关性，为了使计算机能够更好地进行计算，本实施例需要首先将真实世界抽象存在的文字数据转换为可以进行数学公式操作的矩阵数据，即需要将所述临床医疗文本数据和所述若干个标准医学术语数据转换为文本矩阵数据和若干个术语矩阵数据。

在一种实现方式中，所述步骤S100具包括如下步骤：

步骤S110、获取临床医疗文本数据以及标准医学术语词典数据，通过相似性度量方法在所述标准医学术语词典数据中确定所述临床医疗文本数据对应的若干个标准医学术语数据；

步骤S120、根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据。

概括地讲，本实施例的主要目标就是采用计算机相关技术将临床医疗文本中的医学概念映射为标准医学术语在标准医学术语词典中对应的唯一编码。具体地，本实施例首先通过相似性度量的方法，例如可以采用余弦相似度或者编辑距离等字符串相似性度量技术（本实施例不对具体采用何种相似性度量技术进行限定），在标准医学术语词典中确定与所述临床医疗文本数据相似度最高的若干个标准医学术语作为参与后续筛选过程的候选项。然后根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据。在一种实现方式中，可以将所述临床医疗文本数据分别和所述若干个标准医学术语数据组合后生成配对数据，然后再将所述配对数据输入预设模型中，获取所述预设模型基于所述配对数据输出的文本矩阵数据和若干个术语矩阵数据。举例说明，所述预设模型可以为BERT模型或者其他词向量模型，BERT是一种预训练语言表示的方法，在大量文本语料上训练一个通用的“语言理解”模型。举例说明，假设匹配数据为<临床医疗文本1，标准医学术语2>，将所述匹配数据输入BERT模型之后，可以从所述BERT模型的最后一层的输出中提取出表示临床医疗文本的矩阵数据

获取到文本矩阵数据以及若干个术语矩阵数据以后，如图1所示，所述方法还包括如下步骤：

步骤S200、计算所述若干个术语矩阵数据之间的术语相关性系数，根据所述术语相关性系数对所述若干个术语矩阵数据进行加权操作后得到若干个第一权重矩阵数据。

具体地，为了准确地确定所述临床医疗文本中的医学概念对应的标准医学术语，进而得到所述临床医疗文本对应的编码数据。本实施例需要首先计算得到的若干个候选项之间的相关性，即计算所述若干个术语矩阵数据之间的相关性，并将该相关性作为术语相关性系数。然后根据所述术语相关性系数对每一个术语矩阵数据进行加权，得到若干个第一权重矩阵数据。

在一种实现方式中，所述步骤S200具体包括如下步骤：

步骤S210、对所述若干个术语矩阵数据进行最大池化操作后得到若干个降维术语矩阵数据；

步骤S220、计算所述若干个降维术语矩阵数据之间的术语相关性系数，根据所述术语相关性系数生成第一交互矩阵数据；

步骤S230、根据所述第一交互矩阵数据对所述若干个降维术语矩阵数据进行加权操作后得到若干个第一权重矩阵数据。

具体地，为了降低计算机的计算开销，本实施例首先需要对得到的若干个术语矩阵数据进行最大池化操作，所述最大池化操作指的取局部接受域中值最大的点，换言之其是一种通过取最大值的方法来减少数据量的操作，从而降低处理数据的维度，进而达到减少计算机的计算开销的目的。举例说明，假设术语矩阵数据为

然后计算这些降维术语矩阵数据之间的相关性。在一种实现方式中，本实施例可以采用softmax函数来计算矩阵之间的相关性。softmax函数，又称归一化指数函数，它是二分类函数sigmoid在多分类上的延伸，目的是将多分类的结果以概率的形式展现出来。本实施例通过softmax函数计算出所述若干个降维术语矩阵数据之间的术语相关性系数，然后根据所述术语相关性系数生成第一交互矩阵数据。具体方法如下所示：

其中，

简言之，本实施例会根据候选项之间的关联程度对各个候选项分配不同的权值，以筛选出与其他候选项的关联程度更大的候选项。可以理解的是，与其他候选项的关联程度更大的候选项更有可能成为所述临床医疗文本数据对应的正确候选项。

如图1所示，所述方法还包括如下步骤：

步骤S300、计算所述若干个第一权重矩阵数据与所述文本矩阵数据之间的文本相关性系数，根据所述文本相关性系数对所述若干个第一权重矩阵数据进行加权操作后得到若干个第二权重矩阵数据。

具体地，为了进一步保证能够选择出与临床医疗文本最相符的候选项数据作为该文本对应的正确编码数据，本实施例还需要计算各个权重矩阵数据与所述临床医疗文本之间的相关性系数，并将计算出的相关性系数作为文本相关性系数，所述文本相关性系数在一定程度上可以衡量各个第一权重矩阵数据与所述临床医疗文本之间的关联程度或者相关密切程度。然后本实施例会根据所述文本相关性系数对各个第一权重矩阵数据再次分配不同的权值并进行加权操作，得到若干个第二权重矩阵数据。可以理解的是，与临床医疗文本的关联程度更大的候选项更有可能成为所述临床医疗文本对应的正确的标准医学术语。

在一种实现方式中，所述步骤S300具体地包括如下步骤：

步骤S310、对所述文本矩阵数据进行最大池化操作后得到降维文本矩阵数据；

步骤S320、计算所述若干个第一权重矩阵数据与所述降维文本矩阵数据之间的文本相关性系数，根据所述文本相关性系数生成第二交互矩阵数据；

步骤S330、根据所述第二交互矩阵数据对所述若干个第一权重矩阵数据进行加权操作后得到若干个第二权重矩阵数据。

具体地，为了减少计算机的计算开销，本实施例同样需要对文本矩阵数据进行最大池化操作，以得到降低所述文本矩阵数据的维度，并得到降维文本矩阵数据，具体过程如下述公式所示：

其中，

其中

为了确定所述临床医疗文本对应的标准医学术语，进而得到其对应的正确编码数据，如图1所示，所述方法还包括如下步骤：

步骤S400、将所述第一权重矩阵数据和所述若干个第二权重矩阵数据进行融合后得到融合数据，根据所述融合数据在所述若干个标准医学术语数据中确定所述临床医疗文本数据的编码数据。

简单来说，本实施例需要将候选项之间的关联程度以及候选项与文本之间的关联程度这两种信息融合，从而辅助计算机推断出在真实场景中与临床医疗文本意思更为相近的标准医学术语。现有技术中，虽然也存在利用机器学习的方法进行医学概念的自动编码，但是这些现存的方法对于临床医疗文本所蕴含的语义理解并不充分，大多只是简单地考虑了字符串之间的相似度，而对那些形式比较相近，但是语义相差很大的医学概念以及术语往往难以达到好的编码效果。而本发明在编码过程中不仅考虑到了候选项之间的关联程度，还考虑到了候选项与文本之间的关联程度，通过这两种信息提高了机器对于临床医疗文本以及属于中所蕴含的语义的理解程度，因此可以实现对医学概念更加准确的编码。

具体地，本实施例需要将所述第一权重矩阵数据和所述若干个第二权重矩阵数据进行融合后得到融合数据，然后再根据融合数据在所述若干个标准医学术语数据中确定与所述临床医疗文本数据的语义更为相符的标准医学术语数据，并将该标准医学术语数据在标准医学术语词典中的编码数据作为所述临床医疗文本的编码数据。

在一种实现方式中，所述步骤S400具体包括如下步骤：

步骤S410、对所述第一权重矩阵数据和所述第二权重矩阵数据进行最大池化操作后得到第一权重向量数据和第二权重向量数据；

步骤S420、对所述第一权重向量数据和所述第二权重向量数据进行加权计算后得到融合数据；

步骤S430、根据所述融合数据在所述若干个标准医学术语数据中确定目标标准医学术语数据；

步骤S440、将所述目标标准医学术语数据作为所述临床医疗文本数据的编码数据。

为了实现融合候选项之间的关联程度以及候选项与文本之间的关联程度这两种信息，首先本实施例需要对所述第一权重矩阵数据和所述第二权重进行最大池化操作，使其由矩阵形式转换为向量形式，得到第一权重向量数据和第二权重向量数据。然后再对所述第一权重向量数据和所述第二权重向量数据进行加权计算后得到融合数据。在一种实现方式中，为了获取到融合数据，本实施例可以将所述第一权重向量数据和所述第二权重向量数据输入预设的非线性函数中，所述非线性函数会根据所述第一权重向量数据和所述第二权重向量数据生成门控机制的权重数据。可以理解的是在门控机制中，每一个向量对应的权重数据将关系到该向量的在模型中是否能流通到下一个层，从而对数据的流通进行控制，将不相关的数据过滤掉。最后，本实施例再根据所述权重数据对所述第一权重向量数据和所述第二权重向量数据进行加权计算来实现将这两种向量数据进行融合，并得到融合数据。

获取到所述融合数据以后，还需要根据所述融合数据在所述若干个标准医学术语数据中确定目标标准医学术语数据。换言之，本实施例需要根据所述融合数据中包含的候选项之间的关联信息以及候选项与文本之间的关联信息来对所有的候选项进行筛选，筛选出的候选项即为临床医疗文本数据对应的目标标准医学术语数据。具体地，本实施例可以将所述融合数据输入预设的分类器中，所述分类器为预先训练好的神经网络模型，然后通过所述分类器对所述融合数据中的每一个数据进行分类，根据分类结果在所述若干个标准医学术语数据中确定目标标准医学术语数据。

举例说明，假设本实施例需要融合的两个数据分别是第一权重矩阵数据

其中，

最后再根据所述权重数据对所述第一权重向量数据和所述第二权重向量数据进行加权计算得到融合数据

其中，☉表示向量元素点乘，

基于上述实施例，本发明还提供了一种基于阅读理解的医学概念编码装置，如图3所示，该装置包括：

数据获取模块01，用于获取临床医疗文本数据以及若干个标准医学术语数据，根据所述临床医疗文本数据和所述若干个标准医学术语数据生成文本矩阵数据和若干个术语矩阵数据；

第一加权模块02，用于计算所述若干个术语矩阵数据之间的术语相关性系数，根据所述术语相关性系数对所述若干个术语矩阵数据进行加权操作后得到若干个第一权重矩阵数据；

第二加权模块03，用于计算所述若干个第一权重矩阵数据与所述文本矩阵数据之间的文本相关性系数，根据所述文本相关性系数对所述若干个第一权重矩阵数据进行加权操作后得到若干个第二权重矩阵数据；

编码确定模块04，用于将所述第一权重矩阵数据和所述若干个第二权重矩阵数据进行融合后得到融合数据，根据所述融合数据在所述若干个标准医学术语数据中确定所述临床医疗文本数据的编码数据。

基于上述实施例，本发明还提供了一种终端，其原理框图可以如图4所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于阅读理解的医学概念编码方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图4中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一种实现方式中，所述终端的存储器中存储有一个或者一个以上的程序，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行一种基于阅读理解的医学概念编码方法的指令。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

综上所述，本发明公开了一种基于阅读理解的医学概念编码方法，通过将临床医疗文本中的医学概念的编码任务转换为阅读理解任务，将临床医疗文本当做阅读理解中的文章，将若干个标准医学术语作为阅读理解中的选项，通过比较选项与选项之间的相关性以及选项与文本之间的相关性，在所述若干个标准医学术语中确定与所述临床医疗文本最相符的目标标准医学术语，并根据所述目标标准医学术语确定所述临床医疗文本的医学编码。本发明可以实现计算机自动为临床医疗文本中的医学概念进行自动编码，解决了现有技术中采用人工编码的方法将临床医疗文本中的医学概念手动映射为医学术语编码，不仅成本高昂、效率有限而且准确性不高的问题。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：汤步洲;黄源航;熊英;陈清财;
专利申请人：哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院);

上一篇：一种基于云边端架构的时空数据可视化任务执行方法
下一篇：一种结合序列生成和层级词表的医学概念自动编码方法