掌桥专利:专业的专利平台
掌桥专利
首页

诊疗知识图谱构建方法及其应用方法、装置和存储介质

文献发布时间:2023-06-19 18:25:54


诊疗知识图谱构建方法及其应用方法、装置和存储介质

技术领域

本发明涉及智慧医疗领域,尤其涉及一种诊疗知识图谱构建方法、诊疗知识图谱应用方法、装置和存储介质。

背景技术

现实中,每天都有数以万计的患者到医院就诊,相应的,医生则会开具大量的处方或者检验单,处方是根据诊疗信息进行对症下药形成的数据。检验单是根据诊疗信息进行检验项目形成的数据,但是处方和检验单可能存在着很多不合理的地方,例如、处方违反合理用药准则或用药管理制度,如超量用药、重复用药、药品相互为禁忌药品、滥用抗生素、超医生级别用药、超性别用药范围等,检验单可能存在并不需要检验的项目,这些不合理的处方和检验单将会对患者身体健康产生严重影响,且会增加其就医成本。目前,通常采用机器学习的方法,通过对处方和检验单进行识别,并对识别得到的结果判断是否触发设置的规则,若触发,则认为该处方和检验单存在不合理。但是,由于现有的关于如何用药的规定和检验项目的规定特别多,这导致设置的规则特别多,而且由于一些病症可能只存在细微的差别,而用药却完全不同,因此,为保证判断处方用药信息是否合理的准确率,在对处方的用药信息是否合理进行判断时,会导致判断效率低的问题。

因此,现有对处方的用药信息和检验单的检验项目是否合理进行判断时,难以兼顾判断准确率和判断效率。

发明内容

本发明实施例提供一种诊疗知识图谱构建方法、诊疗知识图谱应用方法、装置和存储介质,以提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

为了解决上述技术问题,本申请实施例提供一种诊疗知识图谱构建方法,包括:

获取使用规则数据并基于命名实体识别模型,对所述使用规则数据进行实体识别,得到诊疗实体和诊疗实体分句,其中,所述诊疗实体分句包括实体对;

对所述诊疗实体分句进行解析,得到所述诊疗实体分句对应的依赖树,其中,所述依赖树的节点为所述诊疗实体分句对应的实体对;

基于最短依存路径算法,将所述诊疗实体分句对应的依赖树进行分割,得到所述诊疗实体分句对应的两个子路径,其中,每一个子路径对应一个实体;

基于预设的关系提取方式,分别对所述诊疗实体分句对应的两个子路径进行特征提取,并根据提取得到的两个特征,确定所述诊疗实体分句对应的实体对的关系;

基于所述诊疗实体、所述诊疗实体分句对应的实体对和实体对的关系,构建诊疗知识图谱。

为了解决上述技术问题,本申请实施例提供一种诊疗知识图谱应用方法,包括:

获取待判断数据的实体;

基于路径排序方法,对所述实体进行路径特征提取,得到路径特征;

基于诊疗知识图谱,对所述实体和所述路径特征进行合理性判断,得到判断结果,其中,所述诊疗知识图谱为诊疗知识图谱构建方法得到的知识图谱;

若所述判断结果为所述实体和所述实体对应的关系在所述诊疗知识图谱中,则所述待判断数据的内容合理;

若所述判断结果为所述实体和所述实体对应的关系不在所述诊疗知识图谱中,则确定所述待判断数据的内容不合理。

为了解决上述技术问题,本申请实施例还提供一种诊疗知识图谱构建装置,包括:

实体识别模块,用于获取使用规则数据并基于命名实体识别模型,对所述使用规则数据进行实体识别,得到诊疗实体和诊疗实体分句,其中,所述诊疗实体分句包括实体对;

依赖树获取模块,用于对所述诊疗实体分句进行解析,得到所述诊疗实体分句对应的依赖树,其中,所述依赖树的节点为所述诊疗实体分句对应的实体对;

分割模块,用于基于最短依存路径算法,将所述诊疗实体分句对应的依赖树进行分割,得到所述诊疗实体分句对应的两个子路径,其中,每一个子路径对应一个实体;

关系确定模块,用于基于预设的关系提取方式,分别对所述诊疗实体分句对应的两个子路径进行特征提取,并根据提取得到的两个特征,确定所述诊疗实体分句对应的实体对的关系;

诊疗知识图谱构建模块,用于基于所述诊疗实体、所述诊疗实体分句对应的实体对和实体对的关系,构建诊疗知识图谱。

为了解决上述技术问题,本申请实施例提供一种诊疗知识图谱应用装置,包括:

实体获取模块,用于获取待判断数据的实体;

路径特征获取模块,用于基于路径排序方法,对所述实体进行路径特征提取,得到路径特征;

判断模块,用于基于诊疗知识图谱,对所述实体和所述路径特征进行合理性判断,得到判断结果,其中,所述诊疗知识图谱为诊疗知识图谱构建方法得到的知识图谱;

第一判断结果模块,用于若所述判断结果为所述实体和所述实体对应的关系在所述诊疗知识图谱中,则所述待判断数据内容合理;

第二判断结果模块,用于若所述判断结果为所述实体和所述实体对应的关系不在所述诊疗知识图谱中,则确定所述待判断数据内容不合理。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述诊疗知识图谱构建方法和诊疗知识图谱应用方法的步骤。

本发明实施例提供的诊疗知识图谱构建方法、诊疗知识图谱应用方法、装置和存储介质,通过获取使用规则数据并基于命名实体识别模型,对使用规则数据进行实体识别,得到诊疗实体和诊疗实体分句,其中,诊疗实体分句包括实体对。对诊疗实体分句进行解析,得到诊疗实体分句对应的依赖树,其中,依赖树的节点为诊疗实体分句对应的实体对。基于最短依存路径算法,将诊疗实体分句对应的依赖树进行分割,得到诊疗实体分句对应的两个子路径,其中,每一个子路径对应一个实体。基于预设的关系提取方式,分别对诊疗实体分句对应的两个子路径进行特征提取,并根据提取得到的两个特征,确定诊疗实体分句对应的实体对的关系。基于诊疗实体、诊疗实体分句对应的实体对和实体对的关系,构建诊疗知识图谱。基于使用规则数据构建知识图谱,通过借助知识图谱的推理能力提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请的诊疗知识图谱构建方法的一个实施例的流程图;

图2是本申请的诊疗知识图谱应用方法的一个实施例的流程图;

图3是根据本申请的诊疗知识图谱构建装置的一个实施例的结构示意图;

图4是根据本申请的诊疗知识图谱应用装置的一个实施例的结构示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,图1示出本发明实施例提供的一种诊疗知识图谱构建方法,详述如下步骤S101至步骤S105:

S101、获取使用规则数据并基于命名实体识别模型,对使用规则数据进行实体识别,得到诊疗实体和诊疗实体分句,其中,诊疗实体分句包括实体对。

在步骤S101中,上述使用规则数据是指包含处方用药标准数据和/或检查项目标准数据的数据。上述使用规则数据的格式包括但不限于非结构化数据、半结构化数据和结构化数据。获取上述使用规则数据的方式包括但不限于以医学文献和医学词典手册等知识为基础,辅以专家意见和国际临床文献资料获取使用规则数据。应理解,获取使用规则数据的方法不做具体限制。

上述命名实体识别模型是指用于识别出使用规则数据中的实体的模型。例如,当使用规则数据为“当出现打喷嚏的症状时,确认为感冒,可服用感冒灵冲剂”,则基于命名实体识别模型可识别出此处的实体为“感冒”、“喷嚏”和“感冒灵冲剂”,识别出的诊疗实体分句为“当出现打喷嚏的症状时,确认为感冒”和“确认为感冒,可服用感冒灵冲剂”。每一个诊疗实体分句包括一对实体。

上述命名实体识别模型的实现方法包括但不限于规则和词典方法、统计方法和深度学习方法。其中,规则和词典是指通过构造规则模板,选用特定特征,包括统计信息、标点符号、指示词、方向词、中心词等,以模式与字符串相匹配为主要手段进行命名实体识别模型的构建。上述统计方法是指基于统计学的方法构建命名实体识别模型,主要采用的方法包括隐马尔科夫模型(HMM)、最大熵马尔科夫模型(MEMM)、支持向量机(SVM)、条件随机场(CRF)。基于统计方法的对特征选择要求较高,对语料库的依赖较大。而深度学习的方法是指通过搭建端对端的命名实体识别模型,学习到复杂的特征并具有对复杂的非线性问题高拟合。优选地,本申请采用深度学习的方法实现命名实体识别模型。

上述实体包括但不限于疾病名称、手术治疗-麻醉方式、手术治疗-固定物、手术治疗-术中用药、手术治疗-输血、手术治疗-其他、手术治疗-术后恢复时长、手术治疗-术后用药、手术治疗-术后注意、诊断依据、诊断依据-参考文献-文献名称、诊断依据-参考文献-出版社、诊断依据-参考文献-出版年限、诊断依据-症状、诊断依据-体征、诊断依据-辅助检查、诊断依据-病理组织、治疗方案、治疗方案-参考文献-文献名称、治疗方案-参考文献-出版年限、治疗方案-参考文献-文献名称、标准住院日、路径标准、路径标准-第一诊断、路径标准-其他、术前操作-准备时长、术前操作-必检项目、术前操作-选检项目、抗菌药物、出院标准、变异原因。应理解,抽取的实体根据具体情况而定,本申请不做具体限制。

通过命名实体识别模型,对使用规则数据进行实体识别,得到诊疗实体和诊疗实体分句,以便于后续基于诊疗实体和诊疗实体分句进行知识图谱构建,提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

S102、对诊疗实体分句进行解析,得到诊疗实体分句对应的依赖树,其中,依赖树的节点为诊疗实体分句对应的实体对。

在步骤S102中,其具体是,采用斯坦福解析器,对诊疗实体分句进行解析,得到诊疗实体分句对应的依赖树。

依赖树是指使用语义边来表示句子的语法信息的树结构,树的结构较为简单,可在依赖树中提取到具有泛化能力的变换规则。例如诊疗实体分句:感冒的症状有打喷嚏,这里有2个实体,分别是“感冒”和“喷嚏”,两个实体有它们共同的祖先节点“症状”,以“症状”为树节点,“感冒”和“喷嚏”为依赖树的子节点构建依赖树。

应理解,依赖树的节点对应的内容为诊疗实体分句对应的实体对,当存在多个诊疗实体分句时,依赖树存在多个节点。

通过对诊疗实体分句进行解析,得到诊疗实体分句对应的依赖树,以便于后续基于依赖树抽取实体之间的关系变换规则,从而提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

S103、基于最短依存路径算法,将诊疗实体分句对应的依赖树进行分割,得到诊疗实体分句对应的两个子路径,其中,每一个子路径对应一个实体。

在步骤S103中,上述最短依存路径算法是指从依赖树的一个点到另一个点到路径不止一条,每条路径的长度可能不同,把路径长度最短的那条叫做最短路径。

通过最短依存路径算法,将诊疗实体分句对应的依赖树进行分割,得到诊疗实体分句对应的两个子路径,以便于后续基于两个子路径抽取实体之间的关系变换规则,从而提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

S104、基于预设的关系提取方式,分别对诊疗实体分句对应的两个子路径进行特征提取,并根据提取得到的两个特征,确定诊疗实体分句对应的实体对的关系。

在步骤S104中,上述预设的关系提取方式是指用于提取两个实体之间关系的方法。上述预设的关系提取方式包括但限于基于规则的关系抽取算法、基于深度学习的关系抽取算法。其中,基于规则的关系抽取算法是指基于规则与文本进行匹配,实现关系的提取的算法。基于深度学习的关系抽取算法包括有监督学习和远程监督学习,主要涉及流水线关系抽取、联合学习关系抽取和远程监督。优选地,本申请采用基于深度学习的关系抽取算法中的流水线关系抽取方式。采用多维时间序列的异常检测网络结合多示例的方法,可以在不需要任何自然语言处理工具包的帮助下自动地抽取特征,并且通过两个长短期记忆模块(Long short-term memory,LSTM)提取实体对的方向性信息,该方法将大大地提升关系抽取的准确率。

以句子“感冒的症状有打喷嚏”为例进行解释说明多维时间序列的异常检测网络结合多示例进行实体关系抽取,该句子有2个实体,分别是“感冒”(e1)和“喷嚏”(e2),这两个实体有它们共同的祖先节点“症状”,通过多维时间序列的异常检测网络和最短依存路径算法将“感冒的症状有打喷嚏”对应的依赖树分成两部分:第一个子路径获取e1的信息,而第二个子路径主要是关于e2的信息。为了捕捉到句子的全部特征,将全部句子放进卷积神经网络,词语被映射成向量,捕获输入的基本含义,进而抽取句子的全部信息(sentenceembedding),两个神经网络分别沿着最短依存路径算法的左右子路径获取信息,网络中的长短期记忆模块用于有效信息的传播之后,最大池化层从每个路径中的长短期记忆模块收集信息,将每个子路径的递归网络状态打包成一个固定的向量,方法是在每个维度取最大值。将不同通道的池化层连接在一起,然后输入到隐藏层,长短期记忆模块中的隐藏层单元以及卷积神经网络的非线性单元相融合,最后,通过激活层来标注实体对对应的关系。

上述关系包括但不限于适用对象、诊断依据、治疗方案、标准住院日、路径标准、术前准备、抗菌药物、术中治疗、术后治疗、出院标准、变异及原因分析。应理解,两个实体间的关系根据具体情况进行调整,本申请不做具体限制。

通过预设的关系提取方式分别对诊疗实体分句对应的两个子路径进行特征提取,并根据提取得到的两个特征,确定诊疗实体分句对应的实体对的关系,提高了关系抽取的准确率,从而提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

S105、基于诊疗实体、诊疗实体分句对应的实体对和实体对的关系,构建诊疗知识图谱。

在步骤S105中,上述知识图谱本质上是语义网络,由节点(Point)和边(Edge)组成,是把所有不同种类的信息连接在一起而得到的一个关系网络,提供了从“关系”的角度去分析问题的能力。

下面以一具体实施例对步骤S105进行解释说明,例如,当实体分句为“感冒的症状有打喷嚏”,此处的实体对为“感冒”和“喷嚏”,两者的关系是指“症状”。基于实体对“感冒”、“喷嚏”和关系“症状”可构建出(感冒,症状,喷嚏)这个三元组。以实体为节点,以所述实体对的关系为边,可知实体对为“感冒”、“喷嚏”时,通过关系“症状”连接,表示“感冒的症状打喷嚏”,从而构建诊疗知识图谱。

在本实施例中,基于使用规则数据构建知识图谱,通过借助知识图谱的推理能力提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率,能有助于防止医疗风险,改善临床合理诊疗,减少医疗费用支出和提高患者的满意度。

在本实施例的一些可选的实现方式中,命名实体识别模型包括双向长短词记忆模块和条件随机场模块,步骤S101包括如下步骤S1011至步骤S1013:

S1011、获取使用规则数据并将使用规则数据的每一个句子按照词序输入双向长短词记忆模块进行实体概率计算,得到使用规则数据的每一个句子中的每一个词对应的实体概率。

S1012、将获取到的使用规则数据中所有实体概率输入到条件随机场模块进行类别判定,并根据判定结果确定使用规则数据的每一个句子中的每一个词对应的实体。

S1013、将所有确定的实体作为诊疗实体,包含诊疗实体任意两个实体所在句子作为诊疗实体分句。

其中,双向长短词记忆模块是指采用双向长短词记忆算法来识别句子中每一个词是否为实体的概率的模块。

条件随机场模块是指采用条件随机场算法,基于实体概率,进而判定句子中每一个词对应的实体类别的模块。

在步骤S1011中,其具体是,获取使用规则数据并对使用规则数据的每一个句子按照词序进行特征提取,将提取到的每一个词对应的向量表示输入双向长短词记忆模块进行实体概率计算,得到使用规则数据的每一个句子中的每一个词对应的实体概率。

在步骤S1012中,其具体是,将获取到的使用规则数据中所有实体概率输入到条件随机场模块进行类别判定,优化条件随机场模块中的目标函数,并根据判定结果确定使用规则数据的每一个句子中的每一个词对应的实体。

在本申请实施例中,通过双向长短词记忆模块和条件随机场模块对使用规则数据的每一个句子进行实体识别,确定诊疗实体和诊疗实体分句,以便于后续基于诊疗实体和诊疗实体分句进行知识图谱构建,提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

在本实施例的一些可选的实现方式中,步骤S105包括如下步骤S1051至步骤S1052:

S1051、基于诊疗实体、诊疗实体分句对应的实体对和实体对的关系,构建三元组数据。

S1052、将三元组数据存储到图形数据库中,得到诊疗知识图谱。

在步骤S1051中,其具体是:

以诊疗实体为节点,以实体对的关系为边,对诊疗实体分句对应的实体对和实体对的关系进行语法分析,得到三元组数据。

基于预设的异常识别方式,对三元组数据进行异常识别,得到识别结果。

若识别结果为三元组数据存在异常,则删除异常的三元组数据。

上述三元组数据根据诊疗实体的变化而变化,优选地,以疾病名称作为前实体,临床诊断书中识别的实体作为后实体,其与疾病名称对应的关系作为关系构造三元组数据。例如,三元组数据为(肺脓肿,症状,咳嗽)、(肺脓肿,症状,畏寒)、(肺脓肿,症状,发热)、(肺脓肿,症状,脓性痰)、(肺脓肿,症状,浓臭痰),实体“肺脓肿”拥有多个症状对应实体,结合症状的多个实体可以通过聚类分析获得共性适用疾病的检查,进而可以推测实体“肺脓肿”隐含的适用检查项目特征,利用隐含特征来构造规则约束。例如,在判断SPO(肺脓肿,检查项目,C反应蛋白)是否成立时,利用实体“肺脓肿”的症状特征规则判断,可以约束判断的最终结果。

上述预设的异常识别方式是指噪声识别。应理解,在传统的远程监督关系提取中,由于远程监督的语义假设过于严格,造成了大量的噪声标注问题,从而影响了标注训练集的质量。本申请通过语法分析得到句子的语法模式p和参数i组成的SPO结构,分为以下几种情况:语法模式p能够表达关系r;语法模式p不能表达出关系r,但是其他语法模式q表达表达了关系r且模式q的参数j包含了模式p的参数i;语法模式p不能表达出关系r,则属于噪声数据。当识别出三元组数据中的语法模式p不能表达出关系r,则认为该三元组数据为噪声数据,需要进行删除操作。

在步骤S1052,上述图形数据库优选采用Neo4j图形数据库。

通过基于诊疗实体、诊疗实体分句对应的实体对和实体对的关系,构建三元组数据,并将三元组数据存储到图形数据库中,得到诊疗知识图谱,基于知识图谱,提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

在本实施例的一些可选的实现方式中,步骤S105之后,诊疗知识图谱构建方法还包括:

S106、基于不完备知识库的关联规则挖掘算法,对诊疗知识图谱进行规则挖掘,得到挖掘结果。

S107、当挖掘结果为存在关联规则时,则判断关联规则是否符合预设规则,若符合,则基于关联规则更新诊疗知识图谱。

在步骤S105中,上述不完备知识库的关联规则挖掘算法是指通过依次学习预测每种关系的规则:对于每种关系,从规则体为空的规则开始,通过三种操作扩展规则体部分,保留支持度大于阈值的候选(闭式)规则。这三种操作分别为:添加悬挂边:悬挂边是指边的一端是一个未出现过的变量,而另一端(变量或常量)是在规则中出现过的。添加实例边:实例边与悬挂边类似,边的一端也是在规则中出现过的变量或常量,但另一端是未出现过的常量,也就是知识库中的实体了。添加闭合边:闭合边则是连接两个已经存在于规则中的元素(变量或常量)的边。

在步骤S107中,上述关联规则是指根据具有关联关系的规则。

当关联规则是具有传递关系的关联关系的规则,则基于传递规则更新诊疗知识图谱。例如,当症状(感冒,喷嚏)∧治疗(喷嚏,布洛芬)=>建议药物(感冒,布洛芬),基于对齐关系“症状”和“治疗”将其传递到诊疗知识图谱中,便可以得到一个新的三元组数据:建议药物(感冒,布洛芬)。

当关联规则是具有前提与结论的规则时,其具体是:

当挖掘结果为存在关联规则时,对关联规则进行划分,确定关联规则的前提和关联规则的结论,其中,关联规则的前提和关联规则的结论分别对应一个实体。

若关联规则的前提对应的实体在诊疗知识图谱中,而关联规则的结论对应的实体不在诊疗知识图谱中,则将关联规则的结论对应的实体加入并更新诊疗知识图谱。

在本实施例中,通过不完备知识库的关联规则挖掘算法,能高效挖掘出关联规则,并基于挖掘出的关联规则更新诊疗知识图谱,提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

请参阅图2,图2示出本发明实施例提供的一种诊疗知识图谱应用方法,以该方法应用在图1中的诊疗知识图谱为例进行说明,详述如下步骤S201至步骤S205:

S201、获取待判断数据的实体。

S202、基于路径排序方法,对实体进行路径特征提取,得到路径特征。

S203、基于诊疗知识图谱,对实体和路径特征进行合理性判断,得到判断结果,其中,诊疗知识图谱为如诊疗知识图谱构建方法得到的知识图谱。

S204、若判断结果为实体和实体对应的关系在诊疗知识图谱中,则待判断数据的内容合理。

S205、若判断结果为实体和实体对应的关系不在诊疗知识图谱中,则确定待判断数据的内容不合理。

在步骤S201中,上述待判断数据的实体根据具体判断内容而定。例如,当待判断数据为用药数据时,则实体为药品名称、药品数量等。当待判断数据为检验数据时,则实体为检验项目等。

在步骤S202中,路径排序方法(Path Ranking Algorithm),PRA)是根据两个实体间连通路径作为特征来判断两个实体是否属于某个关系的算法。

在本实施例中,通过诊疗知识图谱对待判断数据的实体进行合理性判断,提高对处方的用药信息和检验单的检验项目是否合理进行判断时判断准确率和判断效率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

图3示出与上述实施例诊疗知识图谱构建方法一一对应的诊疗知识图谱构建装置的原理框图。如图3所示,该诊疗知识图谱构建装置包括实体识别模块31、依赖树获取模块32、分割模块33、关系确定模块34和诊疗知识图谱构建模块35。各功能模块详细说明如下:

实体识别模块31,用于获取使用规则数据并基于命名实体识别模型,对使用规则数据进行实体识别,得到诊疗实体和诊疗实体分句,其中,诊疗实体分句包括实体对。

依赖树获取模块32,用于对诊疗实体分句进行解析,得到诊疗实体分句对应的依赖树,其中,依赖树的节点为诊疗实体分句对应的实体对。

分割模块33,用于基于最短依存路径算法,将诊疗实体分句对应的依赖树进行分割,得到诊疗实体分句对应的两个子路径,其中,每一个子路径对应一个实体。

关系确定模块34,用于基于预设的关系提取方式,分别对诊疗实体分句对应的两个子路径进行特征提取,并根据提取得到的两个特征,确定诊疗实体分句对应的实体对的关系。

诊疗知识图谱构建模块35,用于基于诊疗实体、诊疗实体分句对应的实体对和实体对的关系,构建诊疗知识图谱。

可选地,实体识别模块31进一步包括:

实体概率计算单元,用于获取使用规则数据并将使用规则数据的每一个句子按照词序输入双向长短词记忆模块进行实体概率计算,得到使用规则数据的每一个句子中的每一个词对应的实体概率。

实体确定单元,用于将获取到的使用规则数据中所有实体概率输入到条件随机场模块进行类别判定,并根据判定结果确定使用规则数据的每一个句子中的每一个词对应的实体。

诊疗实体分局确定单元,用于将所有确定的实体作为诊疗实体,包含诊疗实体任意两个实体所在句子作为诊疗实体分句。

可选地,诊疗知识图谱构建模块35进一步包括:

三元组数据构建单元,用于基于诊疗实体、诊疗实体分句对应的实体对和实体对的关系,构建三元组数据。

诊疗知识图谱构建单元,用于将三元组数据存储到图形数据库中,得到诊疗知识图谱。

可选地,三元组数据构建单元进一步包括:

三元组数据获取单元,用于以诊疗实体为节点,以实体对的关系为边,对诊疗实体分句对应的实体对和实体对的关系进行语法分析,得到三元组数据。

异常识别单元,用于基于预设的异常识别方式,对三元组数据进行异常识别,得到识别结果。

三元组数据构建单元,用于若识别结果为三元组数据存在异常,则删除异常的三元组数据。

可选地,诊疗知识图谱构建模块35之后,诊疗知识图谱构建装置还包括:

挖掘模块,用于基于不完备知识库的关联规则挖掘算法,对诊疗知识图谱进行规则挖掘,得到挖掘结果。

更新模块,用于当挖掘结果为存在关联规则时,则判断关联规则是否符合预设规则,若符合,则基于关联规则更新诊疗知识图谱。

可选地,更新模块进一步包括:

划分单元,用于当挖掘结果为存在关联规则时,对关联规则进行划分,确定关联规则的前提和关联规则的结论,其中,关联规则的前提和关联规则的结论分别对应一个实体。

更新单元,用于若关联规则的前提对应的实体在诊疗知识图谱中,而关联规则的结论对应的实体不在诊疗知识图谱中,则将关联规则的结论对应的实体加入并更新诊疗知识图谱。

关于诊疗知识图谱构建装置的具体限定可以参见上文中对于诊疗知识图谱构建方法的限定,在此不再赘述。上述诊疗知识图谱构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

图4示出与上述实施例诊疗知识图谱应用方法一一对应的诊疗知识图谱应用装置的原理框图。如图4所示,该诊疗知识图谱应用装置包括实体获取模块41、路径特征获取模块42、判断模块43、第一判断结果模块44和第二判断结果模块45。各功能模块详细说明如下:

实体获取模块41,用于获取待判断数据的实体。

路径特征获取模块42,用于基于路径排序方法,对实体进行路径特征提取,得到路径特征。

判断模块43,用于基于诊疗知识图谱,对实体和路径特征进行合理性判断,得到判断结果,其中,诊疗知识图谱为诊疗知识图谱构建方法得到的知识图谱。

第一判断结果模块44,用于若判断结果为实体和实体对应的关系在诊疗知识图谱中,则待判断数据内容合理。

第二判断结果模块45,用于若判断结果为实体和实体对应的关系不在诊疗知识图谱中,则确定待判断数据内容不合理。

关于诊疗知识图谱应用装置的具体限定可以参见上文中对于诊疗知识图谱应用方法的限定,在此不再赘述。上述诊疗知识图谱应用装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的诊疗知识图谱构建方法和及诊疗知识图谱应用方法的步骤。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

技术分类

06120115566427