掌桥专利:专业的专利平台
掌桥专利
首页

一种基于知识图谱的电子病历智能检索系统

文献发布时间:2023-06-19 10:35:20


一种基于知识图谱的电子病历智能检索系统

技术领域

本发明涉及计算机技术领域,具体涉及一种基于知识图谱的电子病历智能检索系统。

背景技术

随着我国医疗系统的不断完善,医疗资源包括医疗设备和医护人员队伍也在逐步壮大,但医疗资源紧缺、医院运行效率不高的情况仍然存在。其中电子病历系统采用电子设备来保存、管理、传输和重现数字化的病人的医疗记录,取代手写纸张病历。对于医院以及医护人员而言,患者的病程记录档案具有相当高的科研价值,是一种重要的医疗资源,可以为医护人员提供既往案例分析的材料,从而进一步提高诊疗水平。因此,开发一种以电子病历档案库为基础,针对某一检索词所进行的智能检索系统,具有极高的现实意义

发明内容

本发明提出一种基于知识图谱的电子病历智能检索系统,检索智能度高,速度快,精准得出所需数据,过滤非必要数据,减轻患者负担和医院运行负荷,给患者带来高效精准的就医体验。

为实现上述目的,本发明采用以下技术方案:

一种基于知识图谱的电子病历智能检索系统,包括:

数据层,用于采集病历信息数据;

平台层,利用大数据平台处理数据层采集的数据,构建病历中心库;

知识图谱层,利用爬虫技术从病历中心库爬取所需医疗数据,生成医疗知识图谱;

实体抽取层,用于根据患者主诉及患者特征对知识图谱层进行实体识别和关系抽取;

应用层,用于整合患者的多元化信息,输入实体抽取层进行匹配,得到检索结果并输出。

优选地,所述数据层的数据来源包括HIS、EMR、LIS及ACS。

优选地,所述病历信息数据包括结构化数据、非结构化数据及半结构化数据,所述结构化数据包括门诊病历、诊断及医嘱,所述非结构化数据包括检验数据、影像数据及语音数据,所述半结构化数据包括住院病历。

优选地,所述大数据平台包括数据集成模块、数据计算模块、数据分析模块、数据存储模块及平台支撑模块。

优选地,所述病历中心库包括疾病知识库、检查检验知识库、症状知识库、药品知识库,身体部位知识库及手术知识库。

优选地,知识图谱层从病历中心库爬取所需医疗数据的步骤包括:

A1、通过定义模块定义爬虫任务;

A2、调度模块读取爬虫任务,并基于ZooKeeper模块和Redis模块获取爬虫资源;

A3、调度模块处理爬虫任务和爬虫资源,分解任务下达至爬虫引擎定向爬取病历中心库的信息数据;

A4、知识图谱层从病历中心库爬取特定数据,基于web分析模块对不同维度的数据进行可视化分析,生成知识图谱。

优选地,所述实体抽取层由数据输入模块、神经网络模块组成,所述数据输入模块采用人工手动输入或语音输入患者特征及患者主诉从而生成文本,所述神经网络模块由Bi-LSTM网络和CRF网络组成,所述实体抽取层的输出结果由疾病种类、疾病症状和诱因组成。

优选地,所述实体识别和关系抽取的过程具体如下:

B1、对所述患者特征及患者主诉的原始语料数据进行数据清洗生成文本数据;

B2、对生成的文本数据进行词嵌入,生成词向量;

B3、利用Bi-LSTM网络和CRF网络联合模型对所述词向量进行命名实体识别、分词和词性标注,输出对应的实体识别结果,所述实体识别结果为名词性主语和非名词性词语,所述名词性主语即包括疾病种类和疾病症状;

B4、对所述实体识别结果进行标签嵌入、关系抽取,输出非名词性词语的关系抽取结果,即诱因。

采用上述技术方案后,本发明与背景技术相比,具有如下优点:

本发明提供一种基于知识图谱的电子病历智能检索系统,通过大数据平台对各个数据源的病历数据进行整合处理形成用于构建病历中心库,知识图谱层通过爬虫手段从病历中心库爬取所需的数据生成医疗知识图谱,最终应用层通过实体抽取层根据患者主诉及患者特征对知识图谱层进行实体识别和关系抽取,输出所需的病历数据。检索智能度高,速度快,精准得出所需数据,过滤非必要数据,减轻患者负担和医院运行负荷,给患者带来高效精准的就医体验。

附图说明

图1为本发明系统框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在本发明中需要说明的是,术语“上”“下”“左”“右”“竖直”“水平”“内”“外”等均为基于附图所示的方位或位置关系,仅仅是为了便于描述本发明和简化描述,而不是指示或暗示本发明的装置或元件必须具有特定的方位,因此不能理解为对本发明的限制。

实施例

配合图1所示,本发明公开了一种基于知识图谱的电子病历智能检索系统,包括:

数据层,用于采集病历信息数据;

平台层,利用大数据平台处理数据层采集的数据,构建病历中心库;

知识图谱层,利用爬虫技术从病历中心库爬取所需医疗数据,生成医疗知识图谱;

实体抽取层,用于根据患者主诉及患者特征对知识图谱层进行实体识别和关系抽取;

应用层,用于整合患者的多元化信息,输入实体抽取层进行匹配,得到检索结果并输出。

数据层的数据来源包括HIS、EMR、LIS及ACS。

病历信息数据包括结构化数据、非结构化数据及半结构化数据,结构化数据包括门诊病历、诊断及医嘱,非结构化数据包括检验数据、影像数据及语音数据,半结构化数据包括住院病历。

大数据平台包括数据集成模块、数据计算模块、数据分析模块、数据存储模块及平台支撑模块。

数据集成模块用于对各个数据源的结构化数据、非结构化数据及半结构化数据进行集成后输入数据分析模块进行数据分析,其中数据计算模块配合对数据进行分析计算,数据存储模块用于存储数据,平台知识模块包括数据运算和数据处理引擎,起到连接数据源和数据应用的桥梁作用。

病历中心库包括疾病知识库、检查检验知识库、症状知识库、药品知识库,身体部位知识库及手术知识库。

知识图谱层从病历中心库爬取所需医疗数据的步骤包括:

A1、通过定义模块定义爬虫任务;

A2、调度模块读取爬虫任务,并基于ZooKeeper模块和Redis模块获取爬虫资源;

A3、调度模块处理爬虫任务和爬虫资源,分解任务下达至爬虫引擎定向爬取病历中心库的信息数据;

A4、知识图谱层从病历中心库爬取特定数据,基于web分析模块对不同维度的数据进行可视化分析,生成知识图谱。

实体抽取层由数据输入模块、神经网络模块组成,数据输入模块采用人工手动输入或语音输入患者特征及患者主诉从而生成文本,神经网络模块由Bi-LSTM网络和CRF网络组成,实体抽取层的输出结果由疾病种类、疾病症状和诱因组成。

实体识别和关系抽取的过程具体如下:

B1、对患者特征及患者主诉的原始语料数据进行数据清洗生成文本数据;

B2、对生成的文本数据进行词嵌入,生成词向量;

B3、利用Bi-LSTM网络和CRF网络联合模型对词向量进行命名实体识别、分词和词性标注,输出对应的实体识别结果,实体识别结果为名词性主语和非名词性词语,名词性主语即包括疾病种类和疾病症状;

B4、对实体识别结果进行标签嵌入、关系抽取,输出非名词性词语的关系抽取结果,即诱因。

本实施例以患者主诉“两周内便血两次”为例,将患者主诉清洗后生成文本后,所述实体抽取层对患者主诉进行词嵌入,生成词向量,然后经由Bi-LSTM网络和CRF网络实现实体抽取,得到实体如名词性主语如“B-疾病”、“B-症状”、“I症状”、“E症状”和非名词性词语O,标签嵌入和依存嵌入后进行关系抽取,得到非名词性词语O的主体为诱因,实现与医疗知识图谱的连接,快速检索出“两周内便血两次”的相关病例。

本实施例应用层提供高级检索功能,根据医生需求把检索内容分为时间、诊断、检验、检查、医嘱及病历文本六大类,提供更加精准的搜索功能,更好更快地定位搜索内容。例如,医生可快速检索出所有病理报告确诊“乳腺癌”,或“癌胚抗原(CEA)”大于5的患者病历。

后续可根据一份目标病历,通过知识图谱层精确从病历中心库中按需匹配出相似度最高的病历样本,大大提高科研效率,使医生从繁重的数据检索任务中解放出来,专注于临床和科研。

构建出的知识图谱清晰的将以时间轴集成视图方式将患者分散在HIS、EMR、LIS、PACS等院内系统中的门诊、住院病历等信息进行融合展示处理,提供患者全生命周期的数据展示,帮助医生全面了解患者的身体情况;利用知识图谱技术计算查找相似病历为医生提供案例参考,降低漏诊、误诊率。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 一种基于知识图谱的电子病历智能检索系统
  • 基于MeSH表的电子病历档案的智能检索系统
技术分类

06120112607620