掌桥专利:专业的专利平台
掌桥专利
首页

基于从粗到细嵌入学习与出院小结感知的EHR事件预测

文献发布时间:2024-04-18 19:58:26


基于从粗到细嵌入学习与出院小结感知的EHR事件预测

技术领域

本发明涉及EHR事件预测技术领域,具体涉及基于从粗到细嵌入学习与出院小结感知的EHR事件预测。

背景技术

电子健康记录(EHR)是由患者在医疗机构就诊,由医疗人员总结的包含患者信息、就诊记录、疾病诊断、病历文本等多项数据的信息集合。EHR的主要功能之一是,授权信息医护人员可以创建数字信息并管理其健康信息,该数字格式可以与医疗保健组织中的其他医护人员共享。通过对电子病历的分析可以有效地提高住院病人护理的质量和效率,也为研究人员提供了有价值的数据来源来预测健康事件,包括诊断、用药和疾病死亡率等。EHR事件预测就是使用基于EHR数据的模型来更好地学习患者和疾病的特征,针对病人进行诊断或者疾病预测,从而可以针对病人提供更好的风险控制和治疗。

近年来,使用基于深度学习的模型对EHR数据进行建模,然后对病人进行相关预测在各类研究中展现出了其极高的潜力。特别是提出把RNN等深度学习模型应用到EHR里以来,不同类型的深度学习模型利用不同的EHR数据展现的结果给此领域的研究人员有了很大的启发。它们经常从病人的EHR数据中学习医疗实体,如病人、诊断、药物的表征,然后用学到的表征来预测将来病人可能会患的疾病以及适合病人健康状况的后续治疗方法。通过已有的电子病历信息,比如疾病诊断、病历文本等进行疾病图结构学习,在EHR事件预测中做出了重要的贡献。然而,即使使用近来的模型对EHR数据进行预测时,也仍然存在以下问题:

图建模关系粗糙:在之前的工作中虽然使用了疾病与病历的协同图学习,但是仍然在建模关系的粒度上比较粗糙,噪音过大不能准确预测。医学上和病人诊断之间同时出现连接就认定为疾病之间存在强关联。但是对疾病同时出现的次数进行频率统计,在MIMIC-III数据集中,有63.6%的疾病仅在诊断记录中仅同时出现过一次。因此这样的建模方法依然存在很大的噪音,导致不相关的疾病之间会存在错误的连接,并且导致一些已经消失的关联关系仍然存在。

缺乏细致的层次性的知识:之前的工作都是通过已有的电子病历信息,比如疾病诊断、病历文本等进行疾病图结构学习和上下文嵌入。将相关信息简单的融合,忽视了不同信息的重要程度差别。对于医学知识,如诊断代码本体,它们的内部层次结构在纳入表征学习时很少被嵌入其原始图的形式。而且即使使用了医疗知识即ICD-9-CM代码层级特征,比如疾病代码之间的水平联系作为可能的并发症,但只考虑粗级别的关系,没有考虑细粒度的联系。仍然忽视了该疾病所属的分类等其他信息。

病历文本缺乏:数据集中存在部分病人的辅助文本缺失或者辅助文本较少,这可能会给模型带来相关嵌入为零的问题。而出院小结中包含病人前次就诊过程记录中重要确诊疾病、用药情况的记录和最后出院的健康状况,引入后可以为模型提供更丰富的医疗信息,为提升模型预测性能十分重要。在辅助文本缺失和缺少出院小结对病人的EHR事件进行预测时,会给模型在利用病历文本的过程中造成困难,不能从多方面获得病人特征信息。

发明内容

本发明的目的在于:针对目前出现的图建模关系粗糙、缺乏细致的层次性的知识和病历文本缺乏的问题,提供了基于从粗到细嵌入学习与出院小结感知的EHR事件预测,使用多种信息作为模型的嵌入进行学习,包括用户信息、疾病目录信息以及病人的出院小结等,提升了模型在嵌入方面的信息丰富程度。其次,针对疾病嵌入进行了从粗到细的划分,并使用不同的权重加入到图卷积网络的学习当中。此外,为了减少模型在学习当中的噪音,提出了一个动态的自适应疾病图连接边构建方法。最后,对疾病信息和病例文本通过软注意力层提取重要信息来进行诊断预测与疾病预测。结合患者信息、疾病之间的复杂关系,有效地针对病人的个性化来对病人的入院诊断和疾病诊断进行预测。

本发明的技术方案如下:

基于从粗到细嵌入学习与出院小结感知的EHR事件预测,包括以下步骤:

获取病人疾病数据作为输入,包括病人特征、疾病代码分类、疾病代码层次、病人就诊序列和病人病例文本;

将病人特征、疾病代码分类和疾病代码层次数据经过嵌入层进行嵌入,病人特征数据生产特征嵌入,疾病代码分类和疾病代码层次采用从粗到细的疾病输入嵌入方法生成嵌入,并将疾病代码分类和疾病代码层次数据生成的嵌入进行拼接;

将拼接后的嵌入数据通过自适应动态图构建方法构建疾病图,采用图卷积网络进行学习;

提取出疾病隐藏特征进入病人就诊序列,随后在嵌入层生成就诊嵌入,采用循环神经网络学习,经过基于位置的注意力输出得到就诊输出O

对病例文本进行处理,病例文本包含出院小结和辅助文本,采用出院小结和辅助文本学习方法对每个单词计算出TD-IDF值,经过嵌入层后和基于位置的注意力后得到病例输出O

将就诊输出O

进一步的,所述从粗到细的疾病输入嵌入方法的具体步骤为:

对疾病i,粗嵌入代表疾病在医疗疾病系统所在的层级,是疾病的在疾病图中的绝对位置;细嵌入代表疾病的父节点类别,是疾病的在疾病图中的相对位置,嵌入的计算公式如下:

其中,

最后生成针对每个疾病代码的嵌入

进一步的,所述图卷积网络进行学习的具体步骤为:

对每一个病人p,都有针对其分配的初始嵌入

使用变量

其中,α和β均为可训练的权重变量,

使用映射矩阵

M

把映射矩阵和变量W

和/>

进一步的,所述出院小结和辅助文本学习的具体步骤为:

提取每位病人的病例文本记录n

使用ntlk包对每位病人的病例文本进行单词提取、去除停用词和对单词编码操作,得到编码后的文本序列N

使用TF-IDF方法对每个单词进行重要性计算,公式为:

TF_IDF

其中,count(w)表示单词w在该病人病历文本中出现的频次,len(n′

将TF_IDF

进一步的,所述目标任务的预测和推断具体步骤为:

对病人p,对其的每一次就诊计算出一个嵌入E

把E

其中

使用基于位置的注意力来计算病人就诊的最终输出

O

其中,

使用就诊输出与病例文本进行协同学习,对病历文本中的每一个单词,随机给予一个初始嵌入,形成一个矩阵:

所有单词嵌入E

O

O

进一步的,所述目标任务的预测和推断还包括以下步骤:

得到就诊输出和病例输出后,把O

其中,

根据注意力权重,对输入向量进行加权求和⊙,拼接上病人特征嵌入E

在模型输出O上使用带有sigmoid激活函数的全连接层来计算疾病分类的预测概率

其中,y是医疗代码或其他疾病的真实值标签,λ是调整

进一步的,所述自适应动态图构建方法的具体步骤为:

构建自适应图G

其中:

x的值为G

进一步的,所述自适应动态图构建方法还包括以下步骤:

构建邻接矩阵:构建邻接矩阵A

疾病层次矩阵:B

用于图G

与现有的技术相比本发明的有益效果是:

1、基于从粗到细嵌入学习与出院小结感知的EHR事件预测,利用预测病人之前的出院小结数据,增加了文本卷积中的有效嵌入数据量,通过动态的自适应的建模,减轻疾病预测的噪音,使得模型能自动根据EHR的内容来挖掘疾病间的隐藏关联,从而减少不必要的人工干预;

2、基于从粗到细嵌入学习与出院小结感知的EHR事件预测,利用粗粒度和细粒度ICD-9-CM的分级特征,获得新的特征嵌入,加入了不同种分类的特征嵌入,让模型能从粗到细的各个层级上进行学习;

3、基于从粗到细嵌入学习与出院小结感知的EHR事件预测,可以更好地从多个方面提取病人特征,包含病人静态信息特征,疾病层次信息特征,病例文本特征等,通过特征提取以及使用嵌入的特征表示,能方便地输入GCN中进行学习,得到更好的预测性能,采用了注意力机制计算权重,让模型衡量关键信息以及提取出最有用的特征进行学习,针对不同病人进行个性化预测和推荐。

附图说明

图1为基于从粗到细嵌入学习与出院小结感知的EHR事件预测的总体框架图。

具体实施方式

需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合实施例对本发明的特征和性能作进一步的详细描述。

请参阅图1,基于从粗到细嵌入学习与出院小结感知的EHR事件预测,包括以下步骤:

获取病人疾病数据作为输入,包括病人特征、疾病代码分类、疾病代码层次、病人就诊序列和病人病例文本;

将病人特征、疾病代码分类和疾病代码层次数据经过嵌入层进行嵌入,病人特征数据生产特征嵌入,疾病代码分类和疾病代码层次采用从粗到细的疾病输入嵌入方法生成嵌入,并将疾病代码分类和疾病代码层次数据生成的嵌入进行拼接;

将拼接后的嵌入数据通过自适应动态图构建方法构建疾病图,采用图卷积网络进行学习;

提取出疾病隐藏特征进入病人就诊序列,随后在嵌入层生成就诊嵌入,采用循环神经网络学习,经过基于位置的注意力输出得到就诊输出O

对病例文本进行处理,病例文本包含出院小结和辅助文本,采用出院小结和辅助文本学习方法对每个单词计算出TD-IDF值,经过嵌入层后和基于位置的注意力后得到病例输出O

将就诊输出O

所述从粗到细的疾病输入嵌入方法的具体步骤为:

对疾病i,粗嵌入代表疾病在医疗疾病系统所在的层级,是疾病的在疾病图中的绝对位置;细嵌入代表疾病的父节点类别,是疾病的在疾病图中的相对位置,嵌入的计算公式如下:

其中,

最后生成针对每个疾病代码的嵌入

所述图卷积网络进行学习的具体步骤为:

对每一个病人p,都有针对其分配的初始嵌入

使用变量

其中,α和β均为可训练的权重变量,

使用映射矩阵

M

把映射矩阵和变量W

和/>

所述出院小结和辅助文本学习的具体步骤为:

提取每位病人的病例文本记录n

使用ntlk包对每位病人的病例文本进行单词提取、去除停用词和对单词编码操作,得到编码后的文本序列N

使用TF-IDF方法对每个单词进行重要性计算,公式为:

TF_IDF

其中,count(w)表示单词w在该病人病历文本中出现的频次,len(n′

将TF_IDF

所述目标任务的预测和推断具体步骤为:

对病人p,对其的每一次就诊计算出一个嵌入E

把E

其中

使用基于位置的注意力来计算病人就诊的最终输出

O

其中,

使用就诊输出与病例文本进行协同学习,对病历文本中的每一个单词,随机给予一个初始嵌入,形成一个矩阵:

所有单词嵌入E

O

O

所述目标任务的预测和推断还包括以下步骤:

得到就诊输出和病例输出后,把O

其中,

根据注意力权重,对输入向量进行加权求和⊙,拼接上病人特征嵌入E

在模型输出O上使用带有sigmoid激活函数的全连接层来计算疾病分类的预测概率

其中,y是医疗代码或其他疾病的真实值标签,λ是调整

所述自适应动态图构建方法的具体步骤为:

构建自适应图G

其中:

x的值为G

所述自适应动态图构建方法还包括以下步骤:

构建邻接矩阵:构建邻接矩阵A

疾病层次矩阵:B

用于图G

以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

相关技术
  • 一种基于EHR中异构时态数据的学习方法
  • 一种基于EHR中异构时态数据的学习方法
技术分类

06120116492962