掌桥专利:专业的专利平台
掌桥专利
首页

中西医结合临床术语系统的构建方法及装置

文献发布时间:2023-06-19 11:49:09


中西医结合临床术语系统的构建方法及装置

技术领域

本申请属于数字医疗技术领域,具体涉及一种中西医结合临床术语系统的构建方法及装置。

背景技术

目前,医院使用的信息系统由不同厂商开发,且种类繁多。由于不同信息系统之间所使用的临床医学术语不一致,因此各信息系统之间难以进行互操作,导致各信息系统成为信息孤岛。解决这一问题的关键在于对临床医学术语进行标准化。

然而,现有的医学术语管理系统的构建方法存在以下问题:通过分类词表的方法构建临床医学术语系统,这种方法只能表达概念之间的层次关系,无法对概念的内涵进行有效的定义;通过语义网络的方法构建临床医学术语系统,这种方法可以表达概念之间的层次关系和关联关系,但缺少公理化的定义,无法检测概念之间的不一致性;通过本体技术构建临床术语系统,这种方法的技术框架并不完备,仅仅用本体来表达术语,未提供从已有临床术语体系和自由文本中抽取术语的方法。

发明内容

为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种中西医结合临床术语系统的构建方法及装置。

根据本申请实施例的第一方面,本申请提供了一种中西医结合临床术语系统的构建方法,其包括以下步骤:

利用医学知识范畴中概念之间的上下位关系初步构建涵盖中医与西医术语的顶层分类体系框架;

基于自然语言处理技术收集中医和西医的临床术语及其语义关系,并将收集的中医和西医的临床术语及其语义关系放入初步构建的涵盖中医与西医术语的顶层分类体系框架中,得到中医与西医术语体系;

将中医与西医术语体系中的中医和西医的临床术语及其语义关系转化为AI本体;

根据概念的属性限制和层级关系,为AI本体中的概念构建等价公理;

对AI本体进行推理,其包括:利用等价公理对AI本体进行相容推理,并对相容推理后的AI本体进行归类推理;

利用AI本体的推理结果和临床术语之间的语义关系建立基于本体的中西医结合临床术语系统。

上述中西医结合临床术语系统的构建方法中,所述利用医学知识范畴中概念之间的上下位关系初步构建涵盖中医与西医术语的顶层分类体系框架中,所述涵盖中医与西医术语的顶层分类体系框架包括27个主轴,所述27个主轴分别为:标本、测量单位和限定值、短语、环境与定位、疾病、检测指标、健康管理、理论与经验、连接词、临床事件、设备、社会用语、身体物质、生理结构和功能系统、实验室操作、四个检查对象、特殊概念、外部物质、文档、物理因素、药物、药物加工、有机体、诊断、证候、症状和体征、治疗。

上述中西医结合临床术语系统的构建方法中,所述基于自然语言处理技术收集中医和西医的临床术语及其语义关系的具体过程为:

从结构化数据和非结构化数据中收集中医和西医的临床术语及其语义关系;所述临床术语的语义关系包括术语之间的同义词关系、IsA关系和关联关系;

所述结构化数据包括医院字典和已有的临床术语标准,所述非结构化数据包括电子病历的自由文本。

进一步地,当所述非结构化数据为电子病历的自由文本时,通过自然语言处理技术对电子病历自由文本中隐含的医学术语及其语义关系进行抽取的过程为:

对电子病历自由文本进行命名实体识别,其包括从电子病历自由文本中识别出医学术语的边界以及医学术语所属的语义类型;

对电子病历自由文本进行实体关系抽取,其包括从电子病历自由文本的上下文特征中识别出医学术语之间的语义关系。

更进一步地,所述从电子病历自由文本的上下文特征中识别出医学术语之间的语义关系的具体过程为:

确定待抽取的语义关系类型;

采用分类方法,根据两个实体的上下文特征预测实体间概率最大的语义关系。

上述中西医结合临床术语系统的构建方法中,所述将中医与西医术语体系中的中医和西医的临床术语及其语义关系转化为AI本体的具体过程为:

将所有采集到的医学术语划分为标准术语和同义词;

其中,将标准术语转化为本体的概念;

将同义词关系转化为本体中概念的术语;

将标准术语之间的IsA关系转化为本体中概念的蕴含公理;

将标准术语之间的关联关系转化为本体中概念的关系约束;

将关联关系之间的层次关系转化为本体中关系的蕴含公理。

上述中西医结合临床术语系统的构建方法中,所述利用等价公理对AI本体进行相容推理,并对相容推理后的AI本体进行归类推理的具体过程为:

以一个概念的内涵为判断依据,如果该概念的内涵符合某已有概念的等价公理,则判定该概念与已有概念相容;

判断相容推理后的AI本体中某个概念是否为另一个概念的子级,如果是,则将该概念作为另一个概念的子级;

根据对本体进行归类推理得到的归类推理结果构建推理后的概念之间的IsA关系。

进一步地,所述利用AI本体的推理结果和临床术语之间的语义关系建立基于本体的中西医结合临床术语系统的具体过程为:

将推理前的IsA关系与推理后的IsA关系合并,并利用合并后的IsA关系修正初步构建的涵盖中医与西医术语的顶层分类体系框架;其中,推理前的IsA关系是指医学知识范畴中已知的、明确的概念之间的上下位关系;

利用术语之间的同义词关系和关联关系构建修正后的中西医结合临床术语体系框架中的网状关系;

根据修正后的中西医结合临床术语体系框架以及修正后的中西医结合临床术语体系框架中的网状关系得到基于本体的中西医结合临床术语系统。

根据本申请实施例的第二方面,本申请还提供了一种中西医结合临床术语系统的构建装置,其包括存储器和处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行上述任一项所述的中西医结合临床术语系统的构建方法。

根据本申请实施例的第三方面,本申请还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述中西医结合临床术语系统的构建方法。

根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请能够基于AI本体,并采用NLP技术构建中西医结合临床术语系统,以对临床医学术语进行标准化。本申请不仅能够表达概念之间的层次关系,还能够确定概念的内涵;通过本体推理能够检测概念之间的一致性;本申请的技术框架完备,不仅能够利用本体来表达医学术语,还能够通过NLP中的命名实体识别技术抽取医学术语,通过NLP中的实体关系抽取技术抽取医学术语之间的语义关系。

应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请实施例提供的中西医结合临床术语系统的构建方法的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。

关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。

某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。

图1为本申请实施例提供的中西医结合临床术语系统的构建方法的流程图。

如图1所示,本申请实施例提供的中西医结合临床术语系统的构建方法包括以下步骤:

S1、利用医学知识范畴中已知的、明确的概念之间的上下位关系初步构建涵盖中医与西医术语的顶层分类体系框架;

具体地,涵盖中医与西医术语的顶层分类体系框架包括27个主轴,其中,27个主轴分别为:标本、测量单位和限定值、短语、环境与定位、疾病、检测指标、健康管理、理论与经验、连接词、临床事件、设备、社会用语、身体物质、生理结构和功能系统、实验室操作、四个检查对象、特殊概念、外部物质、文档、物理因素、药物、药物加工、有机体、诊断、证候、症状和体征、治疗。

涵盖中医与西医术语的顶层分类体系框架覆盖中医、西医及电子病历中的非医学术语。

具体地,例如,医学知识范畴中概念之间的上下位关系可以表现为“肝炎是一种消化系统疾病”,其中,肝炎是下位概念,消化系统疾病是上位概念。

需要说明的是,涵盖中医与西医术语的顶层分类体系框架已申请ISO标准(ISO/TS22990:2019中西医结合临床术语分类框架,Categories of clinical terminologicalsystems to support integration of Traditional Chinese medicine and westernmedicine),2019年4月由ISO组织发布。

S2、基于NLP(Natural Language Processing,自然语言处理)技术收集中医和西医的临床术语及其语义关系,并将收集的中医和西医的临床术语及其语义关系放入初步构建的涵盖中医与西医术语的顶层分类体系框架中,得到中医与西医术语体系。

其中,中医和西医的临床术语为涵盖中医和西医的临床医学领域及其相关概念的称谓集合。

临床术语的语义关系包括术语之间的同义词关系、IsA关系和关联关系。具体地,临床术语之间的同义词关系指临床术语之间的语义相同,但文字表述不同;IsA关系指临床术语之间的父子关系;关联关系指临床术语之间的医学相互关联关系,例如,手术与疾病之间的治疗关系。

中医和西医的临床术语及其语义关系的数据源包括结构化数据和非结构化数据。其中,结构化数据包括医院字典、已有的临床术语标准,如ICD(InternationalClassification of diseases,国际疾病分类)等;非结构化数据包括电子病历的自由文本,例如,主诉、病程记录、出院小结等。

对于结构化数据,可以直接纳入初步构建的涵盖中医与西医术语的顶层分类体系框架,具体地,将收集的中医和西医的临床术语及其语义关系存储在一个数据模型里:

数据模型包括4个表,分别为概念ID表、概念描述表、语义关系表和参考集表;

其中,概念ID表中存储临床术语所对应的概念,其包括概念ID、概念有效时间。具体地,概念有效时间指概念自纳入至失效的时间。

概念描述表中存储临床术语的中文名称,其包括概念描述ID、概念有效时间、对应的概念ID、术语类型。具体地,术语类型中包括同义词和标准词。

语义关系表中存储概念之间的语义关系,包括语义关系ID、语义关系有效时间、源概念ID、目标概念ID、语义关系类型ID。具体地,语义关系有效时间指语义关系自纳入至失效的时间。

参考集表中存储源数据集与本术语集之间的映射关系,包括被参考的概念和目标概念等。

对于电子病历自由文本中隐含的医学术语及其语义关系,通过NLP技术进行抽取。具体地,通过命名实体识别技术抽取医学术语;通过实体关系抽取技术抽取医学术语之间的语义关系。

具体的,通过NLP技术对电子病历自由文本中隐含的医学术语及其语义关系进行抽取的过程包括:

S21、命名实体识别;

命名实体识别指从电子病历自由文本中识别出医学术语,包括术语边界和所属的语义类型。

其中,命名实体识别的方法包括两种,一种是基于分类的方法,对每一个词在多个标记上进行分类,选择分类概率最大的标记,此处的标记包括术语边界和语义类型;另一种是基于序列化标注的方法,对多个词同时进行标记,选择联合概率最大的标注序列。

S22、实体关系抽取;

实体关系抽取指从电子病历自由文本的上下文特征中识别出医学术语之间的语义关系。

实体关系抽取的过程为:

首先,确定待抽取的语义关系类型,即IsA关系、同义词关系和具体的关联关系,如“诊断”、“治疗”等。

其次,采用分类方法,根据两个实体的上下文特征预测实体间概率最大的语义关系;其中,同义词关系,又称为等价关系;概念与概念之间的实体关系抽取又称为共指消解。

下面通过举例对以上抽取过程进行详细说明。

例如,一段电子病历自由文本为:“患者胃中隐痛近1月;患者胃部不适而喜温喜按喜热饮,胃中畏寒,中焦脾胃虚寒之证明显,且月经色黑,月经时腰痛,皆为寒侵胞宫之象。诊断为:浅表性胃炎;胃痛;脾胃虚寒证。

以二陈汤调理中焦;香附、砂仁加大温中调理力度;小建中汤补益中气;白术、枳壳通利宿便;黄芩清利胃热;适逢经期,加柴胡、赤白芍、当归、川芎活血调经;元胡理气止痛。”

通过NLP技术对上述电子病历自由文本中隐含的医学术语及其语义关系进行抽取,得到以下实体信息:

病位:胃部;

症状:胃痛;胃部不适;喜温喜按喜热饮;胃中畏寒;月经色黑;月经时腰痛;

疾病名称:浅表性胃炎;

证候名称:脾胃虚寒证;

方剂名称:二陈汤;小建中汤;

中药名称:香附、砂仁、白术、枳壳、柴胡、赤白芍、当归、川芎、元胡。

按照中西医知识理论体系以及文本,可以提取关系为:

方剂——治疗——疾病/证候;

中药——治疗——症状。

S3、将中医与西医术语体系中的中医和西医的临床术语及其语义关系转化为AI(Artificial Intelligence,人工智能)本体,其具体过程为:

AI本体包括概念、概念的术语、概念的蕴含公理和概念的关系约束。

将所有采集到的医学术语划分为标准术语和同义词;

其中,将标准术语转化为本体的概念。

将同义词关系转化为本体中概念的术语。

将标准术语之间的IsA关系转化为本体中概念的蕴含公理。

将标准术语之间的关联关系转化为本体中概念的关系约束,其中,关系约束具体我完全存量量化约束和蕴含公理。

将关联关系之间的层次关系转化为本体中关系的蕴含公理。

下面举例对标准术语和同义词进行详细说明。

胃口差、不想吃饭、纳差、纳呆、食欲不振,这几个术语的含义均表示为“胃动力不足等原因造成的食物在胃部消化不良,运化困难”,其中,引号中的内容为概念的注释。

选择“食欲不振”为标准术语即概念词,将“胃口差、不想吃饭、纳差、纳呆”作为“食欲不振”的同义词(即概念的术语)。

S4、根据概念的属性限制和层级关系,为AI本体中的概念构建等价公理;

如果通过概念的属性限制和层级关系可以明确、唯一的定义某个概念,则该概念就是内涵完备的概念。

内涵完备指概念可以表达为一个等价公理;例如,将“肝炎”等价为“IsA-疾病and发病部位-肝and相关形态学-炎症”,这时肝炎这个概念是内涵完备的,因此,为“肝炎”构建的等价公理为“IsA-疾病and发病部位-肝and相关形态学-炎症”。

如果仅仅将“肝炎”等价为“IsA-疾病and发病部位-肝”,缺少“相关形态学-炎症”,则肝炎这个概念的内涵是不完备的。因为通过“IsA-疾病and发病部位-肝”可能得到“肝癌”这个概念;因此,“肝炎”的等价公理不能为“IsA-疾病and发病部位-肝”。

S5、利用等价公理对AI本体进行相容推理,并对相容推理后的AI本体进行归类推理;

其中,相容推理指判断一个概念与已有的概念集合是否相容,其主要用于概念集合的一致性检测。

对本体进行相容推理时,根据相容推理结果检测医学术语定义的一致性,如果出现不一致,则返回步骤S4修改本体。等价公理为本体构建中的重要步骤,修改等价公理即修改本体。

对本体进行相容推理的过程为:以一个概念的内涵为判断依据,如果该概念的内涵符合某已有概念的等价公理,则判定该概念与已有概念相容,即判定为一个概念。

归类推理指判断一个概念是否为另一个概念的子级,其主要用于概念的自动分类,例如,判定“股骨颈中段骨折是否为股骨颈骨折的子级”等。

根据对本体进行归类推理得到的归类推理结果构建推理后的概念之间的IsA关系。

推理过程指通过3个定理,即化简为包含关系、化简为不可满足性问题和化简不可满足性,将任何推理问题可以化简为包含关系或不满足性问题,通过化简为包含关系,可以实现归类推理功能,通过化简为不满足性问题,可以实现相容推理功能。

推理过程通过本体开发工具自带的算法实现的。例如,本体开发工具protege,其推理算法有FaCT++、HermiT等,不同推理算法的应用场景及效率是不同的。针对推理的需求,可以选择相应的推理算法。

S6、利用AI本体的推理结果和临床术语之间的语义关系建立基于本体的中西医结合临床术语系统,其具体过程为:

将推理前的IsA关系与推理后的IsA关系合并,并利用合并后的IsA关系修正步骤S1初步构建的涵盖中医与西医术语的顶层分类体系框架。其中,推理前的IsA关系是指医学知识范畴中已知的、明确的概念之间的上下位关系。

利用术语之间的同义词关系和关联关系构建修正后的中西医结合临床术语体系框架中的网状关系。

根据修正后的中西医结合临床术语体系框架以及修正后的中西医结合临床术语体系框架中的网状关系得到基于本体的中西医结合临床术语系统。

在示例性实施例中,本申请实施例还提供了一种中西医结合临床术语系统的构建装置,其包括存储器以及耦接至该存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行本申请中任一个实施例中的中西医结合临床术语系统的构建方法。

其中,存储器可以为系统存储器或固定非易失性存储介质等,系统存储器可以存储有操作系统、应用程序、引导装载程序、数据库以及其他程序等。

在示例性实施例中,本申请实施例还提供了一种计算机存储介质,是计算机可读存储介质,例如,包括计算机程序的存储器,上述计算机程序可由处理器执行,以完成本申请中任一个实施例中的中西医结合临床术语系统的构建方法。

本申请实施例提供的中西医结合临床术语系统的构建方法及装置基于AI本体,并采用NLP技术能够构建中西医结合临床术语系统,以对临床医学术语进行标准化。本申请实施例提供的中西医结合临床术语系统的构建方法及装置不仅能够表达概念之间的层次关系,还能够确定概念的内涵;通过本体推理能够检测概念之间的一致性;本申请的技术框架完备,不仅能够利用本体来表达医学术语,还能够通过NLP中的命名实体识别技术抽取医学术语,通过NLP中的实体关系抽取技术抽取医学术语之间的语义关系。

以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

相关技术
  • 中西医结合临床术语系统的构建方法及装置
  • 一种医学术语系统的构建方法、装置、设备及存储介质
技术分类

06120113066714