掌桥专利:专业的专利平台
掌桥专利
首页

基于特征编码融合的救治结果预测方法及装置、设备、介质

文献发布时间:2023-06-19 18:46:07


基于特征编码融合的救治结果预测方法及装置、设备、介质

技术领域

本发明涉及智慧医疗技术领域,特别涉及基于特征编码融合的救治结果预测方法及装置、设备、介质。

背景技术

病历是病人在医院诊断治疗全过程的原始记录,它包含有首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等。电子病历(EMR)不仅指静态病历信息,还包括提供的相关服务。是以电子化方式管理的有关个人终生健康状态和医疗保健行为的信息,涉及病人信息的采集、存储、传输、处理和利用的所有过程信息。

准确的救治结果预测方法可以在现代医疗系统中进行辅助决策指导,辅助医疗人员进行医疗救治,具有较大的研究意义。现有的基于电子病历的救治结果预测模型,需要人工从病历中提取数据,在面对大量数据时,效率较低,同时对一些结构化的知识没有融入在模型中。由于电子病历存在书写不规范的问题,难以直接根据电子病历数据建立可靠的分类预测模型,因此如何充分有效的利用电子病历数据,针对院内患者建立救治结果预测模型,仍然是急待解决的问题。

发明内容

为了实现根据本发明的上述目的和其他优点,本发明的第一目的是提供基于特征编码融合的救治结果预测方法,包括以下步骤:

通过电子病历系统中的患者病历数据构建电子病历数据集;

通过所述电子病历数据集中的病历文本描述数据建立文本数据集,对所述文本数据集中的数据进行编码;

通过所述电子病历数据集中的医疗行为数据构建医疗行为编码模型;

对所述电子病历数据集中的诊断结果数据进行编码分类;

对所述电子病历数据集中的生理参数数据进行编码;

通过所述电子病历数据集中的所有已编码数据训练分类模型,通过训练好的分类模型进行救治结果预测。

进一步地,所述通过电子病历系统中的数据构建电子病历数据集包括以下步骤:

对电子病历系统中的患者病历数据进行数据预处理,得到多个段落文本;

将所述段落文本作为病历文本描述数据,从所述病历文本描述数据中提取医疗行为数据、诊断结果数据、生理参数数据、救治结果数据。

进一步地,所述通过所述电子病历数据集中的病历文本描述数据建立文本数据集,对所述文本数据集中的数据进行编码包括以下步骤:

将所述文本数据集中的所有文本进行分段处理,划分为段落级别;

通过分段处理后的病历文本对预训练语言模型进行训练,得到融合病历的预训练模型;

对原电子病历数据集进行文本编码,取token向量为每一个分好的段落赋值为等长的向量编码。

进一步地,所述通过所述电子病历数据集中的医疗行为数据构建医疗行为编码模型包括以下步骤:

通过标准化的手术、检查、检验的名称,建立标准化医疗行为数据集,并为每个名称赋唯一编码;

构建医疗行为抽取模型对所述病历文本描述数据中的医疗行为数据进行初步挑选;

对挑选得到的医疗行为名词与标准化医疗行为名词进行对齐,映射为唯一的编码,得到医疗行为的编码。

进一步地,所述对所述电子病历数据集中的诊断结果数据进行编码分类包括以下步骤:

采用疾病诊断标准将所有诊断项目进行再一次的编码;

构建诊断内容抽取模型,挑选文本中的诊断内容;

构建诊断内容对齐模型,将文本中抽取的诊断内容对应为所述疾病诊断标准的诊断结果,得到诊断结果的编码。

进一步地,所述对所述电子病历数据集中的生理参数数据进行编码包括以下步骤:

建立规则化的生理参数抽取模型,以正则表达式为基础,匹配所有相关生理参数;

根据临床规则,建立生理参数的判断模型;

将生理参数与判断的结果融合为编码向量。

进一步地,所述通过所述电子病历数据集中的所有已编码数据训练分类模型,通过训练好的分类模型进行救治结果预测包括以下步骤:

将文本向量编码、医疗行为编码、诊断编码、生理参数向量编码结果融合为向量矩阵编码;

将病历数据中的救治结果作为每个数据的标签,救治结果分为良好、较好、一般、较差;

将向量矩阵编码输入至深度卷积神经网络进行模型训练,得到救治结果预测模型;

通过救治结果预测模型对输入的向量矩阵编码进行预测,得到预测的救治结果。

本发明的第二目的是提供基于特征编码融合的救治结果预测装置,包括:

电子病历数据集构建模块,用于通过电子病历系统中的患者病历数据构建电子病历数据集;

病历文本描述数据编码模块,用于通过所述电子病历数据集中的病历文本描述数据建立文本数据集,对所述文本数据集中的数据进行编码;

医疗行为数据编码模块,用于通过所述电子病历数据集中的医疗行为数据构建医疗行为编码模型;

诊断结果数据编码模块,用于对所述电子病历数据集中的诊断结果数据进行编码分类;

生理参数数据编码模块,用于对所述电子病历数据集中的生理参数数据进行编码;

救治结果预测模块,用于通过所述电子病历数据集中的所有已编码数据训练分类模型,通过训练好的分类模型进行救治结果预测。

本发明的第三目的是提供一种电子设备,包括:存储器,其上存储有程序代码;处理器,其与所述存储器联接,并且当所述程序代码被所述处理器执行时,实现基于特征编码融合的救治结果预测方法。

本发明的第四目的是提供一种计算机可读存储介质,其上存储有程序指令,所述程序指令被执行时实现基于特征编码融合的救治结果预测方法。

与现有技术相比,本发明的有益效果是:

本发明利用规则特征融合分类方法对患者电子病历数据进行特征层面的重新表达,并融合临床先验知识,形成救治结果预测模型,能够得到准确的预测救治结果,实现在现代医疗系统中进行辅助决策指导,辅助医疗人员进行医疗救治的目的。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为实施例1的基于特征编码融合的救治结果预测方法流程图;

图2为实施例1的病历文本描述数据示意图;

图3为实施例1的生理参数数据示意图;

图4为实施例1的诊断结果数据示意图;

图5为实施例1的医疗行为数据示意图;

图6为实施例1的救治结果示意图;

图7为实施例1的基于Bilstm-crf的实体识别模型示意图;

图8为实施例1的卷积神经网络示意图;

图9为实施例3的电子设备示意图;

图10为实施例4的计算机可读存储介质示意图。

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

实施例1

基于特征编码融合的救治结果预测方法,如图1所示,包括以下步骤:

通过电子病历系统中的患者病历数据构建电子病历数据集;具体地,包括以下步骤:

对电子病历系统中的患者病历数据进行数据预处理,得到多个段落文本。首先根据病历内容将患者病历划分为多个段落文本,段落的划分以病历撰写内容为依据,大致为:主诉史、现病史、外科检查、既往史、个人史、体格检查、影像检查、病程记录(每个病程视为一段)、手术记录、出院记录。然后对所有段落文本进行文字数量统计,将长度超过500的段落进行重新划分,保证每例数据是由多个长度不超过500的文本段落组成。

将段落文本作为病历文本描述数据,病历文本描述数据如图2所示。从病历文本描述数据中提取医疗行为数据、诊断结果数据、生理参数数据、救治结果数据。其中,医疗行为数据包括手术、用药、检查等数据,诊断结果数据以出院诊断为准,生理参数数据包括体格检查中的体温、心率、脉搏、血压、身高、体重等,以及病程记录中血常规化验等信息。

通过电子病历数据集中的病历文本描述数据建立文本数据集,对文本数据集中的数据进行编码;具体地,包括以下步骤:

将文本数据集中的所有文本进行分段处理,划分为段落级别;

通过分段处理后的病历文本对预训练语言模型进行训练,学习病历中的文本信息,得到融合病历的预训练模型;其中,预训练语言模型可以采用现有的大规模中文公开数据集训练好的预训练语言模型,如Bert-chinese。

对原电子病历数据集进行文本编码,取token向量为每一个分好的段落赋值为等长的向量编码。通过预训练语言模型得到30000个左右长度的词表,以及词表中每个词的300维向量表示。每个段落以512长度构建向量矩阵(长度不足也会补足到512),得到512*300的段落文本向量表示。

通过电子病历数据集中的医疗行为数据构建医疗行为编码模型;医疗行为数据如图5所示。具体地,包括以下步骤:

从开源的医疗数据中搜集标准化的手术、检查、检验的名称,通过标准化的手术、检查、检验的名称,建立标准化医疗行为数据集,并为每个名称赋唯一编码。如:建立一个词表,每一个手术、检查、检验的名称都作为词表中的一行,同一种手术、检查、检验项目的多种名称以现有标准为准(如:医疗手术机构分级目录、医疗机构临床检验项目目录),取唯一名称,以词表中的行数位置作为该名称的位置编码,医疗机构临床检验项目目录列表与检索。

构建医疗行为抽取模型对病历文本描述数据中的医疗行为数据进行初步挑选;如:对文本中的行为进行实体标注,将每个行为的名词认为是一种实体,将标注好的数据作为训练集,构建基于Bilstm-crf的实体识别模型,网络结构如图7所示,通过双向lstm接crf层预测实体名称序列。

对挑选得到的医疗行为名词与标准化医疗行为名词进行对齐,映射为唯一的编码。其中,名称对齐采用相似度计算,将抽取得到实体词名称,与标准集中名称项目进行文本的相似度计算,取置信度最高的结果。

根据相似度计算结果,将标准集中该词对应的位置编码进行辅助,如[1,2..],每一个数都是表示抽取结果在目录中的位置编码,不足300长均补0。即得到医疗行为的编码为1*300维。

对电子病历数据集中的诊断结果数据进行编码分类;诊断结果数据如图4所示。具体包括以下步骤:

采用公开的疾病诊断标准将所有诊断项目进行再一次的编码;如采用疾病分类与代码国家临床版2.0,对病历文本中的诊断内容进行标注,以国标中的编码作为唯一标志符。

构建诊断内容抽取模型,挑选文本中的诊断内容;如:对文本中的诊断结果进行实体标注,将每个诊断结果的名词认为是一种实体,将标注好的数据作为训练集,构建基于Bilstm-crf的实体识别模型,网络结构如图7所示。

构建诊断内容对齐模型,将文本中抽取的诊断内容对应为疾病诊断标准的诊断结果,得到诊断结果的编码。可以通过与疾病诊断标准中诊断结果进行文本的相似度计算,取置信度最高的结果。本实施例中,将诊断结果的名字输入bert,得到每个字的位置编码后拼接成n*300的向量,对300维上的每一列求平均,得到1*300的向量作为诊断结果编码。

对电子病历数据集中的生理参数数据进行编码;生理参数数据如图3所示。具体包括以下步骤:

建立规则化的生理参数抽取模型,以正则表达式为基础,匹配所有相关生理参数;其中,生理参数抽取模型需要建立正则表达式库,针对文本中出现的每一种生理参数,撰写正则表达式,主要以生理参数名称、单位作为匹配规则。对输入的文本做正则表达式库匹配,得到匹配后的所有结果。

根据临床规则,建立生理参数的判断模型;可以利用现有文献资料中搜集常见的生理参数范围,为每个参数确定能对应类别的一个或多个范围。如心率<60,偏低;60<心率<100,正常;心率>100,偏高;所有参数以及类别结果汇集成一个词表,以词表中的位置作为编码依据。

将生理参数与判断的结果融合为1*300维的编码向量,如[1,2..],每一个数都是表示抽取结果在词表中的位置编码,不足300长均补0。

通过电子病历数据集中的所有已编码数据训练分类模型,通过训练好的分类模型进行救治结果预测。救治结果如图6所示。具体包括以下步骤:

将文本向量编码、医疗行为编码、诊断编码、生理参数向量编码结果融合为向量矩阵编码,如N*512*300+3*300。

将病历数据中的救治结果作为每个数据的标签,救治结果分为良好、较好、一般、较差;救治结果以出院记录中的出院情况为准,划分标准根据医生描述内容判断。

将向量矩阵编码输入至深度卷积神经网络进行模型训练,得到救治结果预测模型。如图8所示,以经典文本分类卷积网络作为训练模型,输入参数为(n*512+3)*300的向量矩阵,输出为救治结果的类别标签(1,2,3,4)。

通过救治结果预测模型对输入的向量矩阵编码进行预测,得到预测的救治结果。

实施例2

基于特征编码融合的救治结果预测装置,包括:

电子病历数据集构建模块,用于通过电子病历系统中的患者病历数据构建电子病历数据集;具体地,

对电子病历系统中的患者病历数据进行数据预处理,得到多个段落文本。首先根据病历内容将患者病历划分为多个段落文本,段落的划分以病历撰写内容为依据,大致为:主诉史、现病史、外科检查、既往史、个人史、体格检查、影像检查、病程记录(每个病程视为一段)、手术记录、出院记录。然后对所有段落文本进行文字数量统计,将长度超过500的段落进行重新划分,保证每例数据是由多个长度不超过500的文本段落组成。

将段落文本作为病历文本描述数据,病历文本描述数据如图2所示。从病历文本描述数据中提取医疗行为数据、诊断结果数据、生理参数数据、救治结果数据。其中,医疗行为数据包括手术、用药、检查等数据,诊断结果数据以出院诊断为准,生理参数数据包括体格检查中的体温、心率、脉搏、血压、身高、体重等,以及病程记录中血常规化验等信息。

病历文本描述数据编码模块,用于通过电子病历数据集中的病历文本描述数据建立文本数据集,对文本数据集中的数据进行编码;具体地,

将文本数据集中的所有文本进行分段处理,划分为段落级别;

通过分段处理后的病历文本对预训练语言模型进行训练,学习病历中的文本信息,得到融合病历的预训练模型;其中,预训练语言模型可以采用现有的大规模中文公开数据集训练好的预训练语言模型,如Bert-chinese。

对原电子病历数据集进行文本编码,取token向量为每一个分好的段落赋值为等长的向量编码。通过预训练语言模型得到30000个左右长度的词表,以及词表中每个词的300维向量表示。每个段落以512长度构建向量矩阵(长度不足也会补足到512),得到512*300的段落文本向量表示。

医疗行为数据编码模块,用于通过电子病历数据集中的医疗行为数据构建医疗行为编码模型;具体地,

从开源的医疗数据中搜集标准化的手术、检查、检验的名称,通过标准化的手术、检查、检验的名称,建立标准化医疗行为数据集,并为每个名称赋唯一编码。如:建立一个词表,每一个手术、检查、检验的名称都作为词表中的一行,同一种手术、检查、检验项目的多种名称以现有标准为准(如:医疗手术机构分级目录、医疗机构临床检验项目目录),取唯一名称,以词表中的行数位置作为该名称的位置编码,医疗机构临床检验项目目录列表与检索。

构建医疗行为抽取模型对病历文本描述数据中的医疗行为数据进行初步挑选;如:对文本中的行为进行实体标注,将每个行为的名词认为是一种实体,将标注好的数据作为训练集,构建基于Bilstm-crf的实体识别模型,网络结构如图7所示,通过双向lstm接crf层预测实体名称序列。

对挑选得到的医疗行为名词与标准化医疗行为名词进行对齐,映射为唯一的编码。其中,名称对齐采用相似度计算,将抽取得到实体词名称,与标准集中名称项目进行文本的相似度计算,取置信度最高的结果。

根据相似度计算结果,将标准集中该词对应的位置编码进行辅助,如[1,2..],每一个数都是表示抽取结果在目录中的位置编码,不足300长均补0。即得到医疗行为的编码为1*300维。

诊断结果数据编码模块,用于对电子病历数据集中的诊断结果数据进行编码分类;具体地,

采用公开的疾病诊断标准将所有诊断项目进行再一次的编码;如采用疾病分类与代码国家临床版2.0,对病历文本中的诊断内容进行标注,以国标中的编码作为唯一标志符。

构建诊断内容抽取模型,挑选文本中的诊断内容;如:对文本中的诊断结果进行实体标注,将每个诊断结果的名词认为是一种实体,将标注好的数据作为训练集,构建基于Bilstm-crf的实体识别模型,网络结构如图7所示。

构建诊断内容对齐模型,将文本中抽取的诊断内容对应为疾病诊断标准的诊断结果,得到诊断结果的编码。可以通过与疾病诊断标准中诊断结果进行文本的相似度计算,取置信度最高的结果。本实施例中,将诊断结果的名字输入bert,得到每个字的位置编码后拼接成n*300的向量,对300维上的每一列求平均,得到1*300的向量作为诊断结果编码。

生理参数数据编码模块,用于对电子病历数据集中的生理参数数据进行编码;具体地,

建立规则化的生理参数抽取模型,以正则表达式为基础,匹配所有相关生理参数;其中,生理参数抽取模型需要建立正则表达式库,针对文本中出现的每一种生理参数,撰写正则表达式,主要以生理参数名称、单位作为匹配规则。对输入的文本做正则表达式库匹配,得到匹配后的所有结果。

根据临床规则,建立生理参数的判断模型;可以利用现有文献资料中搜集常见的生理参数范围,为每个参数确定能对应类别的一个或多个范围。如心率<60,偏低;60<心率<100,正常;心率>100,偏高;所有参数以及类别结果汇集成一个词表,以词表中的位置作为编码依据。

将生理参数与判断的结果融合为1*300维的编码向量,如[1,2..],每一个数都是表示抽取结果在词表中的位置编码,不足300长均补0。

救治结果预测模块,用于通过电子病历数据集中的所有已编码数据训练分类模型,通过训练好的分类模型进行救治结果预测。具体地,

将文本向量编码、医疗行为编码、诊断编码、生理参数向量编码结果融合为向量矩阵编码,如N*512*300+3*300。

将病历数据中的救治结果作为每个数据的标签,救治结果分为良好、较好、一般、较差;救治结果以出院记录中的出院情况为准,划分标准根据医生描述内容判断。

将向量矩阵编码输入至深度卷积神经网络进行模型训练,得到救治结果预测模型。如图8所示,以经典文本分类卷积网络作为训练模型,输入参数为(n*512+3)*300的向量矩阵,输出为救治结果的类别标签(1,2,3,4)。

通过救治结果预测模型对输入的向量矩阵编码进行预测,得到预测的救治结果。

实施例3

一种电子设备,包括:如图9所示,存储器,其上存储有程序代码;处理器,其与存储器联接,并且当程序代码被处理器执行时,实现基于特征编码融合的救治结果预测方法。关于方法的详细描述,可以参照上述方法实施例中的对应描述,在此不再赘述。

实施例4

一种计算机可读存储介质,如图10所示,其上存储有程序指令,程序指令被执行时实现的基于特征编码融合的救治结果预测方法。关于方法的详细描述,可以参照上述方法实施例中的对应描述,在此不再赘述。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

以上仅为本说明书实施例而已,并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变换。凡在本说明书一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的权利要求范围之内。本说明书一个或多个实施例本说明书一个或多个实施例本说明书一个或多个实施例本说明书一个或多个实施例。

技术分类

06120115686163