掌桥专利:专业的专利平台
掌桥专利
首页

医学关键词的入库和诊断方法及存储介质

文献发布时间:2023-06-19 11:02:01


医学关键词的入库和诊断方法及存储介质

技术领域

本发明属于医疗大数据技术领域,具体涉及一种医学关键词的入库和诊断方法及存储介质。

背景技术

我国健康医疗资源丰富,数据规模不断增加,对医学术语的关键词进行正确提取,对于医学数据的有效使用意义重大。目前,采用自然语言处理医疗大数据是人工智能领域的一个热点,但是自然语言处理技术仍然达不到非常高的准确率。此外,关键词库海量数据批量入库时,需要对同一关键词对应的多海量文本逻辑匹配项进行数据质量与逻辑校验,且目前很难做到实时将海量关键词库毫秒入库。

发明内容

本发明的目的在于,提供一种医学关键词的入库和诊断方法及存储介质,实现医学关键词的入库和对医疗大数据的提取与挖掘。

本发明提供一种医学关键词的入库和诊断方法,包括以下步骤:

根据临床疾病种类、病史、症状、体征、检查结果建立数据项;

根据所述数据项得到关键词的匹配内容,匹配内容包括合法关键词、否定关键词和可疑关键词三类,以及这三类关键词的剔除关键词;

医学判断匹配内容中三类关键词的匹配顺序;

关键词的字段包括数据项名称、匹配内容和匹配顺序;

将关键词导入关键词库,并在导入时对关键词进行检验;

调用关键词库中的关键词,按照三类关键词的匹配顺序对临床数据中的文本型数据进行诊断,得到诊断结果。

进一步地,根据所述数据项得到关键词的匹配内容包括以下步骤:

从数据项中提取标准术语和目标字段,根据目标字段得到关键词字段,根据标准术语和关键词字段得到匹配式;

根据匹配式匹配得到候选关键词;

将候选关键词分为三类,包括合法关键词、否定关键词和可疑关键词;并确认这三类关键词的剔除关键词。

进一步地,关键词的导入方法为自定义入库,具体为在关键词库中自定义关键词的各项字段。

进一步地,关键词的导入方法为批量入库,具体为将批量定义的一组关键词多线程同时导入。

进一步地,按标准术语、数据项名称、目标字段以及关键词的匹配顺序将关键词进行分组。

进一步地,将目标字段相同的关键词分为一组。

进一步地,关键词导入时的检验标准包括:

关键词的匹配内容不能包含英文的计算符号;

标准术语、数据项名称、目标字段、法关键词、否定关键词和可疑关键词以及匹配顺序都不能为空;

数据项名称应当唯一;

同一关键词的匹配内容不能相同;

剔除关键词不为空时,对应的匹配内容不能为空;剔除关键词应当包含匹配内容。

进一步地,校验失败时,返回校验失败的位置及原因。

进一步地,对临床数据中的文本型数据进行诊断的逻辑为:文本型数据为空,则输出空;匹配内容匹配上则输出1;其余情况输出0。

本发明还提供一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如上所述的医学关键词的入库和诊断方法。

本发明的有益效果是:本发明的医学关键词的入库和诊断方法及存储介质,通过创建关键词,将关键词导入医学关键词库,在使用时调用关键词库中的关键词,以便于快速提取与挖掘医学数据中的目标疾病、病史、病状、体征、治疗等,为大数据解析与数据诊断提供简便、快速、精准度高的技术手段。

附图说明

图1是本发明的医学关键词的入库和诊断方法的流程图。

图2是本发明实施例中候选关键词的分类示意图。

图3是本发明实施例中校验失败时的示意图。

具体实施方式

下面将结合附图对本发明作进一步的说明:

本发明实施例的医学关键词的入库和诊断方法,如图1所示,包括以下步骤:

S1、根据临床疾病种类、病史、症状、体征、检查结果建立数据项。

基于现有的医疗数据,根据临床不同系统的疾病种类及疾病相关的症状、体征、检查结果、病史,建立数据项,如:“既往史发现糖尿病”,“腹部CT发现脾大”等。

S2、根据所述数据项得到关键词的匹配内容,匹配内容包括合法关键词、否定关键词和可疑关键词三类,以及这三类关键词的剔除关键词。主要包括以下步骤:

S21、从数据项中提取标准术语和目标字段,根据目标字段得到关键词字段,根据标准术语和关键词字段得到匹配式。例如:建立数据项“腹部CT发现脾大”,标准术语为“腹部CT”,目标字段为“脾大”,由目标字段得到关键词字段“脾大”、“腹部脾大”,最后得到匹配式为“脾*大”。

S22、根据匹配式匹配得到候选关键词。利用上一步得到的匹配式,在医疗大数据中进行检索,记录检索得到的该关键词的所有形态。例如,基于数据项“腹部CT发现脾大”的匹配式“脾*大”,查找数据会得到该关键词的所有形态:“脾大”,“脾肿大”,“脾大小正常”,“脾脏无肿大”,“疑似脾大”等等。

S23、将候选关键词分为三类,如图2所示,包括合法关键词、否定关键词和可疑关键词;并确认这三类关键词的剔除关键词。例如:对数据项“腹部CT发现脾大”的关键词进行分类时,将“脾大”划分到合法关键词,将“脾脏无肿大”划分到否定关键词,将“疑似脾大”划分到可疑关键词,剔除不合法的关键词,例如剔除合法关键词“脾大”的排除项“脾大小正常”,这类词命名为“合法关键词-排除”,同理得到否定关键词和可疑关键词的排除关键词等。

S3、医学判断匹配内容中三类关键词的匹配顺序。即判断合法、否定和可疑这三类关键词的匹配顺序。

比如数据项“胃镜发现胃息肉”,合法关键词形态有“胃息肉”,否定关键词形态有“无胃息肉”,可疑关键词形态有“胃息肉?”,如果采用“合法,否定,可疑”顺序的去匹配,也就是说先找合法关键词进行判断,那么有一部分应该是否定关键词和可疑关键词的会被认为是合法关键词。因为有的患者体检结果会显示“无胃底息肉,胃体息肉可疑”,如果采用“否定、可疑、合法”的匹配顺序,那么这条体检数据会被判断为否定,但这条结果是错误的,实际上这条数据整体应该被判断为可疑,因为即使临床上虽然否定了他患有胃底息肉,但胃体息肉是不确定的。所以,“无胃底息肉,胃体息肉可疑”应当按照“可疑、否定、合法”的顺序去判断。

S4、关键词的字段包括数据项名称、匹配内容和匹配顺序。

如表2所示,关键词的字段包括数据项名称、匹配内容和匹配顺序,此外,还可以包括标准术语和目标字段。以数据项为中心,逐条整理关键词,形成关键词库。

表2关键词的形式

S5、将关键词导入关键词库。

关键词支持批量入库与自定义入库两种方式,便于实时快速的持续扩充与维护关键词库,关键词库是一个动态的关键词库。

其中,自定义入库,具体为在关键词库中自定义关键词的各项字段,如自定义关键词的标准术语、数据项名称、目标字段、匹配内容和匹配顺序。

批量入库,关键词库批量入库实现方案是,将批量定义的海量关键词库通过标准术语+数据项名称+目标字段+顺序1+顺序2+顺序3进行分组,以上目标字段相同的内容作为一组,例如:以目标字段为“脾大”作为一组,数据项“腹部CT发现脾大”“腹部MRI发现脾大”,“体格检查发现脾大”的目标字段都是“脾大”,所以这三个数据项的所有关键词会做为一组。将同一组的关键词与多匹配内容一次取出存入内存后进行批量一次校验与入库,这样比单个关键词依次校验入库的性能大幅度提升。同时,关键词库海量数据进行分组多线程校验与入库,可以快速一次性返回校验失败的原因与校验失败行数,同一组的多个数据项同时进行批量校验,匹配顺序定义是否错误可以在秒级的时间内完成校验,如图3所示,并批量返回到页面提示数据导入时候校验发现的错误数据的行数与错误原因,数据质量得到极大的保障。极大提升了用户操作的友好性,并指导用户能快速定位到入库失败的数据上,提高实时更新效率。

S6、并在导入时对关键词进行检验。

关键词入库时,会进行数据检验,包括:

(1)不为空校验:目标字段、数据项名称、标准术语和匹配顺序都不能空。

(2)重复校验:数据项名称和已经存在的数据项名称不能重复。

(3)匹配内容校验:合法、可疑、排他三个匹配关键词文本内容不能为空,三个匹配内容不能相同。

(4)排除匹配内容不能空时,对应的匹配内容不能为空;排除匹配内容中必须包含匹配内容。

(5)合法关键词、合法关键词-排他、否定关键词、否定关键词-排他、可疑关键词、可疑关键词-排他中的内容不能包含部分英文的计算符号,如:[],=‘’,这样可以有效地避免诊断的计算逻辑出现错误,提高诊断精准度。在后续的计算逻辑中,[]符号表示大于等于或小于等于某个范围的内容,=符号是用于精准匹配某个内容,‘’符号是文本内容进行匹配时使用的符号,如果以上字段的内容中带有以上字符,会造成匹配时的误差错误,无法精准的确定要匹配的文本范围。因此要避免匹配内容中出现后续调用关键词进行匹配时所使用的符号。

(6)校验导入的文件首行应与规定的模板字段一致。根据分组,批量检查同一组中引用的标准术语、数据项名称不能在系统中已存在。

S7、调用关键词库中的关键词,按照三类关键词的匹配顺序对临床数据中的文本型数据进行诊断,得到诊断结果。

临床数据中有很多文本型的数据,因此可以直接调用关键词库中的关键词对临床数据中的文本型数据进行诊断,具体逻辑为:文本型数据为空,则输出空;匹配内容匹配上则输出1;其余情况输出0,最后得到并统计诊断结果。

本发明还提供一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如上所述的医学关键词的入库和诊断方法。

综上所述,本发明通过医学关键词库的入库、存储及使用,能够快速调取医疗大数据中的目标文本词用于相应数据的解析;同时对关键词库进行分组管理,对性能有较好提升;最后,在导入时对关键词进行校验,能够提高数据利用的精准性。

本领域的技术人员容易理解,以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 医学关键词的入库和诊断方法及存储介质
  • 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
技术分类

06120112774218