掌桥专利:专业的专利平台
掌桥专利
首页

一种医学术语整合方法及系统

文献发布时间:2023-06-19 12:07:15


一种医学术语整合方法及系统

技术领域

本发明涉及医学信息处理技术领域,具体而言,涉及一种医学术语整合方法及系统。

背景技术

随着科技的发展,人工智能已普遍运用于医疗行业。医疗行业是数据密集型的行业,该行业无论是公共卫生、临床服务还是医学研究,都离不开数据的支撑。

随着医疗行业越来越智能化,需要给人工智能应用平台提供机器可理解的医学领域知识,才能对数据进行处理,这就需要对海量的医学术语进行以概念为中心的同义整合,才能为人工智能提供数据支撑。但是,目前我国的医学术语存在异名同义、词形表达不一致等问题,无法为不同人工智能应用平台之间的互联互通和信息共享提供依据。

发明内容

本发明的目的在于提供一种医学术语整合方法及系统,用以改善现有技术中医学术语存在异名同义、词形表达不一致等现象,无法为不同人工智能应用平台之间的互联互通和信息共享提供依据的问题。

第一方面,本申请实施例提供一种医学术语整合方法,其包括以下步骤:

获取多条医学术语,以建立医学术语集;

根据医学术语的含义对医学术语分类,以得到不同含义的医学概念;

根据不同含义的医学概念采用snowflake算法进行标识,得到不同的概念标识;

根据不同的概念标识将医学术语集进行整合得到医学概念表。

上述实现过程中,通过从不同的来源获取得到不同的医学术语,并将得到的医学术语集进行分类,得到不同含义的医学概念,可以对不同来源异构异质的医学术语,以概念为中心实现同义汇聚和语义分类,再对不同含义的医学概念采用snowflake算法进行标识,最后根据得到的不同的概念标识进行整合得到医学概念表。通过将医学术语整合为医学概念表可以为不同医疗信息系统之间的互连互通和信息共享提供依据,便于人工智能应用在开发过程中,获取机器可理解的医学领域同义知识。采用snowflake算法可以实现一个简单的发号器,产生不重复、自增的ID,方便索引,提升索引性能。

基于第一方面,在本发明的一些实施例中,根据医学术语的含义对医学术语分类,以得到不同含义的医学概念的步骤包括以下步骤:

根据医学术语的字符串对医学术语进行字符匹配,得到不同词形的候选医学概念;

根据候选医学概念的含义对不同词形的候选医学概念进行分类,得到不同含义的医学概念。

基于第一方面,在本发明的一些实施例中,根据候选医学概念的含义对不同词形的候选医学概念进行分类,得到不同含义的医学概念的步骤包括以下步骤:

A1、提取候选医学概念中医学术语的来源;

A2、判断各个医学术语的来源是否相同,如果是,则采用源表同义词传递方法分类,以到候选概念;如果否,则执行A3;

A3、采用Jaccard相似度算法计算各个医学术语间的相似度,以得到候选概念;

A4、根据候选概念采用主干表颗粒度控制方法拆分或合并得到不同含义的医学概念。

基于第一方面,在本发明的一些实施例中,采用Jaccard相似度算法计算各个医学术语间的相似度,以得到候选概念的步骤包括以下步骤:

采用Jaccard相似度算法计算各个医学术语间的相似度,得到多个相似度值;

根据多个相似度值筛选得到最大的相似度值,并将最大的相似度值对应的医学术语作为候选概念。

基于第一方面,在本发明的一些实施例中,还包括以下步骤:

根据医学术语的来源采用snowflake算法对医学术语进行标识,得到来源术语标识。

基于第一方面,在本发明的一些实施例中,还包括以下步骤

根据医学术语的词形采用snowflake算法对不同词形的医学术语进行标识,得到医学术语标识。

基于第一方面,在本发明的一些实施例中,还包括以下步骤:

根据预置的数据库对医学概念表进行更新维护,以得到新的医学概念表。

第二方面,本申请实施例提供一种医学术语整合系统,包括:

医学术语获取模块:用于获取多条医学术语,以建立医学术语集;

分类模块:用于根据医学术语的含义对医学术语分类,以得到不同含义的医学概念;

标识分配模块:用于根据不同含义的医学概念采用snowflake算法进行标识,得到不同的概念标识;

整合模块:用于根据不同的概念标识将医学术语集进行整合得到医学概念表。

上述实现过程中,通过医学术语获取模块从不同的来源获取得到不同的医学术语,并通过分类模块将得到的医学术语集进行分类,得到不同含义的医学概念,可以对不同来源异构异质的医学术语,以概念为中心实现同义汇聚和语义分类,再通过标识分配模块对不同含义的医学概念采用snowflake算法进行标识,再通过整合模块根据得到的不同的概念标识进行整合得到医学概念表。通过将医学术语整合为医学概念表可以为不同医疗信息系统之间的互连互通和信息共享提供依据,便于人工智能应用在开发过程中,获取机器可理解的医学领域同义知识。采用snowflake算法可以实现一个简单的发号器,产生不重复、自增的ID,方便索引,提升索引性能。

第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。

第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。

本发明实施例至少具有如下优点或有益效果:

本发明实施例提供一种医学术语整合方法及系统,通过从不同的来源获取得到不同的医学术语,并将得到的医学术语集进行分类,得到不同含义的医学概念,可以对不同来源异构异质的医学术语,以概念为中心实现同义汇聚和语义分类,再对不同含义的医学概念采用snowflake算法进行标识,最后根据得到的不同的概念标识进行整合得到医学概念表。通过将医学术语整合为医学概念表可以为不同医疗信息系统之间的互连互通和信息共享提供依据,便于人工智能应用在开发过程中,获取机器可理解的医学领域同义知识。采用snowflake算法可以实现一个简单的发号器,产生不重复、自增的ID,方便索引,提升索引性能。采用Jaccard相似度算法对相同来源的医学术语进行相似度计算使得分类更加准确。采用主干表颗粒度控制方法对不同来源的医学术语进行分类,提高了不同来源相同含义的医学术语的整合度,使得分类范围更加广。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种医学术语整合方法流程图;

图2为本发明实施例提供的一种医学术语整合系统结构框图;

图3为本发明实施例提供的一种电子设备的结构框图。

图标:110-医学术语获取模块;120-分类模块;130-标识分配模块;140-整合模块;101-存储器;102-处理器;103-通信接口。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

实施例

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。

请参看图1,图1为本发明实施例提供的一种医学术语整合方法流程图。该医学术语整合方法包括以下步骤:

步骤S110:获取多条医学术语,以建立医学术语集。医学术语集可以是多条医学术语的集合。医学术语可以是从不同的来源得到,例如国家规定的词典或是词表中获得,也可以是不同的系统中获得。国家规定的词典或是词表包括有医学词典、国家发布的《常用临床医学名称》、全国科学技术名词审定委员会发布的医学名词、医学词表(像《中文医学主题词表》)等。不同的系统包括有不同的医院系统、不同的医疗信息系统等等。医学术语可以是手动输入,也可以是从其他已有的数据中提取。

步骤S120:根据医学术语的含义对医学术语分类,以得到不同含义的医学概念。对于同一个含义的医学术语,由于来源不同,医学术语的表示方式不同,或是相同的来源有不同的表示方法。不同含义的医学概念就是不同的含义的医学术语集合。例如:来源是A的一条医学术语“肺部良性肿瘤”和来源是B的一条医学术语“良性肺肿瘤”,这两条医学术语表示的含义是一样的。来源都是C的两条医学术语“良性肺实质性肿瘤”和“良性肺肿瘤”都是一样的含义。通过含义对医学术语进行分类,以得到含义不同的医学概念。例如:医学概念A为含义是良性肺肿瘤的医学术语(往往为多条,同义词环);医学概念B为含义是艾滋病的医学术语等等。对于医学术语的分类具体可以包括以下步骤:

首先,根据医学术语的字符串对医学术语进行字符匹配,得到不同词形的候选医学概念。一条医学术语由多个字符组成,可以将不同医学术语中的每个字符进行精确的字符匹配,将字符完全相同的医学术语归为一类,得到多个候选医学概念,不同候选医学概念中的医学术语,它们的词语字符都不相同,即不同词形的候选医学概念。例如:医学术语A为“良性肺实质性肿瘤”,医学术语B为“良性肺实质性肿瘤”,医学术语C为“良性肺实质性瘤”,那么经过字符精确的匹配,可以将医学术语A和医学术语B归为一类,医学术语C为另一类。医学术语D为“艾滋病”,医学术语E为“爱滋病”,则可以把医学术语D归一类,医学术语E归为另一类。

然后,根据候选医学概念的含义对不同词形的医学术语进行分类,得到不同含义的医学概念。不同词形的候选医学概念是由医学术语经过字符精确匹配得到,但是有些医学术语,虽然词形不同,含义却相同。这就需要进一步按照含义来进行归类,以得到不同含义的医学概念。具体步骤包括有:

A1、提取候选医学概念中医学术语的来源。获取的医学术语数据中包括有医学术语的来源数据。可以从中提取出候选医学概念中医学术语的来源。例如:候选医学概念A中医学术语的来源都是医学词典,则可以提取出候选医学概念A中医学术语的来源是医学词典。候选医学概念B中医学术语的来源是甲词表和乙系统,则可以提取出候选医学概念B中医学术语的来源是甲词表和乙系统。

A2、判断各个医学术语的来源是否相同,如果是,则采用源表同义词传递方法分类,以到候选概念,如果否,则执行A3。通过源表同义词传递方法可以将同一个来源表内的相同含义的医学术语进行整合归类。得到不同的归类也叫做候选概念。例如:都来自医学词典的“良性肺实质性肿瘤”和“良性肺肿瘤”归为一类。源表同义词传递方法是指:将医学术语按照源表里的同义关系进行匹配归类。可以尽可能地避免同义关系传递错误。规则包括有:①核心词表术语优于非核心词表术语;②优选术语优于非优选术语;③精确匹配术语优于原形匹配术语;④长字符串术语优于短字符串术语;⑤多义术语要进行匹配传递控制;⑥不可靠连接术语要进行控制或阻断。然后进行多义术语传递控制。多义是指因歧义术语、缩略语、简称等导致的同一术语具有两种以上的含义,易导致同义关系的传递错乱。多义术语很大程度上由缩略语和简称造成。通过对医学领域105部医学中的缩略语进行分析,发现单纯字母型缩略语比字母数字型缩略语、短语型缩略语具有更大的歧义性;且字母型缩略语长度为2时歧义性最高,长度大于4时歧义性明显降低。在进行同义关系传递时按照长度对缩略语进行传递控制,从而在一定程度上规避了多义术语传递导致的错误。对于缩略语之外的其他多义术语,可以采取如下的同义关系传递控制措施:1、依据源词表对概念的界定,自动识别多义术语,并构建多义术语词典;2、依据多义术语所属范畴类别等信息,进一步判断是否为整合词表所认定的多义术语;3、对所确认的多义术语采取同义关系传递阻断等综合措施。

A3、采用Jaccard相似度算法计算各个医学术语间的相似度,以得到候选概念。源表同义词传递方法,只能解决同一个来源的同义术语整合,对于不同的来源,可以采用Jaccard相似度算法进行计算,通过计算各个医学术语间的相似度以得到候选概念。上述采用Jaccard相似度算法计算是指:

首先,采用Jaccard相似度算法计算各个医学术语间的相似度,得到多个相似度值。Jaccard相似度算法计算是指:

利用Jaccard系数公式计算出各个医学术语间的相似度。相似度值越大,则对应的医学术语越相似。具体计算公式为:

然后,根据多个相似度值筛选得到最大的相似度值,并将最大的相似度值对应的医学术语作为候选概念。将得到的相似度进行比较,相识度值最大的对应的医学术语越相似,即作为候选概念。例如:经过计算,医学术语A与医学术语B的相似度值为A1,医学术语A与医学术语C的相似度值为A2,A1>A2,则医学术语A与医学术语B最相似,作为候选概念。

A4、根据候选概念采用主干表颗粒度控制方法拆分或合并得到不同含义的医学概念。采用主干表颗粒度控制方法是指:首先,在候选概念中的医学术语中选择概念颗粒度适中者,将其设定为主干表,然后以主干表中的同义关系,对候选概念进行拆分或合并处理,最后得到不同含义的医学概念。

步骤S130:根据不同含义的医学概念采用snowflake算法进行标识,得到不同的概念标识。将不同含义的医学概念分别分配标识,以形成最终的医学概念标识,可以将标识缩写为CID,可以表示同一客观事物的多条医学术语。CID编码一经分配,永久使用,不可更改,绝不复用。编码可以是通过snowflake算法生成类似UUID的长整数ID值进行标识,实现一个简单的发号器,产生不重复、自增的ID。snowflake算法属于现有技术,在此不再赘述。不同含义的医学概念还可以使用流水编码进行标识,从1开始增长。

步骤S140:根据不同的概念标识将医学术语集进行整合得到医学概念表。将医学术语按照不同的概念标识分类,并形成医学概念表,可以是将概念标识作为列,对应的医学术语作为行,也可以是医学术语作为列,概念标识作为行。

上述实现过程中,通过从不同的来源获取得到不同的医学术语,并将得到的医学术语集进行分类,得到不同含义的医学概念,可以对不同来源异构异质的医学术语,以概念为中心实现同义汇聚和语义分类,再对不同含义的医学概念采用snowflake算法进行标识,最后根据得到的不同的概念标识进行整合得到医学概念表。通过将医学术语整合为医学概念表可以为不同医疗信息系统之间的互连互通和信息共享提供依据,便于人工智能应用在开发过程中,获取机器可理解的医学领域同义知识。采用snowflake算法可以实现一个简单的发号器,产生不重复、自增的ID,方便索引,提升索引性能。采用Jaccard相似度算法对相同来源的医学术语进行相似度计算使得分类更加准确。采用主干表颗粒度控制方法对不同来源的医学术语进行分类,提高了不同来源相同含义的医学术语的整合度,使得分类范围更加广。

其中,还包括以下步骤:

根据医学术语的来源采用snowflake算法对医学术语进行标识,得到来源术语标识。来源术语标识可以用AID来表示。对于不同来源的每条术语都赋予一个唯一的来源术语标识符AID。通过给每条医学术语分配一个AID,便于后期检索和使用。来源术语标识还可以是通过随机分配得到。

其中,还包括以下步骤

根据医学术语的词形采用snowflake算法对不同词形的医学术语进行标识,得到医学术语标识。医学术语标识可以用TID来表示。词形完全相同的术语,赋予相同的医学术语标识符。即为相同的词形分配唯一个TID。比如两条术语“苹果”,可能一个是指水果,一个是指电脑,它们的来源术语标识AID不同,但医学术语标识TID相同。通过给词形完全相同的术语分配一个TID,便于后期检索和使用。医学术语标识TID还可以是通过随机分配得到。

其中,还包括以下步骤:

根据预置的数据库对医学概念表进行更新维护,以得到新的医学概念表。更新维护是指要维护一张“医学术语”与“TID”的医学概念表。每当添加新术语,需要给新术语分配“TID”时,先检查这张医学概念表;如果与新术语字符串完全相同的医学术语在这张医学概念表已经存在,就使用医学概念表中的“TID”。如果还不存在,给这个医学术语分配一个新的“TID”,并把这个新的医学术语和TID添加到医学概念表中。更新维护具体实现是指:为了提高系统性能,可以把“医学术语”与“TID”的医学概念表装入内存的哈希表进行维护,但要注意与数据中保存的医学概念表之间进行数据同步。需要注意前述方法只适合应用程序部署在一台服务器上的情况。如果应用程序需要分布式部署,“TID”可能就需要在一个独立的小系统中维护,比如可以使用开源redis数据库维护这个“TID”。

不同类型的ID,可以加不同字母作为前缀,比如AID、TID、CID。如果使用流水号生成ID值,因为ID值比较短,可以前面通过补0,把ID值补足固定的位数,这样看起来整齐一些。如果使用snowflake算法生成ID值,因为ID值本身比较长,位数也基本固定,一般也就不用再补0了。

基于同样的发明构思,本发明还提出一种医学术语整合系统,请参看图2,图2为本发明实施例提供的一种医学术语整合系统结构框图,该医学术语整合系统包括:

医学术语获取模块110:用于获取多条医学术语,以建立医学术语集;

分类模块120:用于根据医学术语的含义对医学术语分类,以得到不同含义的医学概念;

标识分配模块130:用于根据不同含义的医学概念采用snowflake算法进行标识,得到不同的概念标识;

整合模块140:用于根据不同的概念标识将医学术语集进行整合得到医学概念表。

上述实现过程中,通过医学术语获取模块110从不同的来源获取得到不同的医学术语,并通过分类模块120将得到的医学术语集进行分类,得到不同含义的医学概念,通过对不同来源异构异质的医学术语,以概念为中心实现同义汇聚和语义分类,再通过标识分配模块130对不同含义的医学概念采用snowflake算法进行标识,再通过整合模块140根据得到的不同的概念标识进行整合得到医学概念表。通过将医学术语整合为医学概念表可以为不同医疗信息系统之间的互连互通和信息共享提供依据,便于人工智能应用在开发过程中,获取机器可理解的医学领域同义知识。采用snowflake算法可以实现一个简单的发号器,产生不重复、自增的ID,方便索引,提升索引性能。

请参阅图3,图3为本申请实施例提供的电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的医学术语整合系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中,存储器101可以是但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解,图3所示的结构仅为示意,电子设备还可包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

在本申请所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上,本申请实施例提供的一种医学术语整合方法及系统,通过从不同的来源获取得到不同的医学术语,并将得到的医学术语集进行分类,得到不同含义的医学概念,可以对不同来源异构异质的医学术语,以概念为中心实现同义汇聚和语义分类,再对不同含义的医学概念采用snowflake算法进行标识,最后根据得到的不同的概念标识进行整合得到医学概念表。通过将医学术语整合为医学概念表可以为不同医疗信息系统之间的互连互通和信息共享提供依据,便于人工智能应用在开发过程中,获取机器可理解的医学领域同义知识。采用snowflake算法可以实现一个简单的发号器,产生不重复、自增的ID,方便索引,提升索引性能。采用Jaccard相似度算法对相同来源的医学术语进行相似度计算使得分类更加准确。采用主干表颗粒度控制方法对不同来源的医学术语进行分类,提高了不同来源相同含义的医学术语的整合度,使得分类范围更加广。

以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 一种医学术语整合方法及系统
  • 一种医学术语系统的构建方法、装置、设备及存储介质
技术分类

06120113177212