一种面向糖尿病文本的实体关系抽取方法
文献发布时间:2023-06-19 18:25:54
技术领域
本发明属于医学文本信息抽取技术领域,具体的说是涉及一种面向糖尿病文本的实体关系抽取方法。
背景技术
随着医疗健康领域的信息化进程不断加快,海量的医疗健康数据需要进行处理分析,进而在疾病诊疗、风险评估、辅助诊断等方面发挥积极作用。医疗健康领域作为知识图谱技术的应用领域之一,面对复杂的医疗健康数据,如何快速准确地挖掘有价值的医疗信息,为下游的医疗应用提供有力支撑,具有非常广阔的应用价值和发展前景。
关系抽取是信息抽取中必不可少一步,其是在非结构化或半结构化数据中找出实体之间的关系,并将其表示为事实三元组即头实体,关系,尾实体。提取实体和关系的任务已经从分布式提取演变为联合提取。联合模型克服了分布式抽取方法的缺点,加强了实体和关系之间的信息交互。
然而,现有的联合模型方法很少关注词之间的语义信息,在解决重叠关系问题上存在局限性。糖尿病数据文本中含有大量的重叠实体且实体中包含很多关系,目前的关系抽取技术在解决多关系抽取和实体重叠问题上效果不是很理想。
发明内容
为了解决上述技术问题,本发明提供了一种面向糖尿病文本的实体关系抽取方法,该方法针对糖尿病医学文本提出以注意力机制和指针网络为基础的关系抽取模型对糖尿病文本的实体关系进行抽取,解决了实体关系抽取中的多关系问题和实体重叠问题。
为了达到上述目的,本发明是通过以下技术方案实现的:
本发明是一种面向糖尿病文本的实体关系抽取方法,包括如下步骤:
步骤1:医学文本中的每个字转换为由字符向量和位置向量拼接而成的低维稠密实值向量,得到语句的输入特征向量;
步骤2:通过
步骤3:将步骤2得到的句子向量进行多头注意力计算,捕捉到更丰富的特征,特征聚合得到初步的句子向量;
步骤4:预测存在于句子向量中的一个潜在关系集合,然后实体提取只需要应用于潜在的关系;
步骤5:同时进行实体对应矩阵的构建,找到医学文本中有对应关系的实体对;
步骤6:将步骤4预测出的关系与步骤2中得到的句子向量中的词进行注意力计算,得到每个单词的权重,权重相加得到特定关系下的句子表示;
步骤7:得到最终句子向量,基于指针网络分别进行头实体和尾实体的抽取;
步骤8:通过步骤7的抽取得到头实体和尾实体后,枚举所有头尾实体对,检查步骤5构建的实体对应矩阵的相应分数,分数值超过设定阈值λ2则保留;如步骤8中枚举所有的头尾实体,根据步骤S5中构建的实体对应矩阵,查看矩阵中对应的分数,矩阵的每个元素都是关于一对主客体的起始位置,代表一个主客体对的置信度,值越高,该对属于三元组的可能性越高;
步骤9:通过步骤8保留下的实体对和关系组成三元组,完成实体关系的抽取。
本发明的进一步改进在于:步骤1具体包括如下步骤:
步骤1-1:字符向量:将长度为
步骤1-2:位置向量:对于步骤1-1中语句S中的字符
其中
步骤1-3:将步骤1-1的字符向量和步骤1-2的位置向量拼接起来,获得输入特征向量
本发明的进一步改进在于:步骤2中所述
本发明的进一步改进在于:步骤3中具体为:将
其中
然后再将每一组自注意力的结果拼接起来,使用权重矩阵对其进行线性变换得到最终的输出结果,具体公式为:
其中
本发明的进一步改进在于:所述步骤4预测存在于句子向量中的一个潜在关系集合,具体为:
其中
本发明的进一步改进在于:步骤5中构建的实体对应矩阵公式为:
其中
本发明的进一步改进在于:步骤6具体包括如下步骤:
步骤6-1:将步骤4预测出的关系与步骤2中得到的句子向量中的词进行注意力计算,具体公式为:
其中
步骤6-2:步骤6-1计算出的注意力分数用于衡量每个单词对特定关系的重要性,将词的权重相加得到特定关系
其中:
本发明的进一步改进在于:在所述步骤7中,基于指针网络的头实体抽取,具体是使用两个二分类器来分别判断头实体的开始位置和结束位置,两个二分类器的具体计算如下所示:
基于指针网络的尾实体抽取,具体步骤维使用两个二分类器来分别判断头实体的开始位置和结束位置,具体公式如下:
其中
本发明的有益效果是:
(1)本发明采用多头注意力机制对对句子表示进行计算,捕捉到更丰富的特征,给之后的关系预测和构建实体对应矩阵工作减少了工作量,提高了效率。
(2)本发明采用关系预测的方式提前计算出文本中潜在的关系,基于这些预测出的关系进行应用,解决了数据集中给定关系过多的问题。
(3)本发明采用特定关系注意力机制,计算文本中每个词在特定关系下的权重,权重相加得到特定关系下的句子表示,在此基础上进行实体抽取,有效解决了实体重叠问题。
附图说明
图1是本发明面向糖尿病文本实体关系抽取模型架构图;
图2是本发明面向糖尿病文本实体关系抽取模型流程图;
图3是本发明实体关系对应矩阵。
图4是本发明特定关系注意力机制结构图。
图5是本发明基于指针网络的头实体抽取结构图。
图6是本发明基于指针网络的尾实体抽取结构图。
具体实施方式
以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
图1-2为本发明提供的面向糖尿病文本实体关系抽取模型架构图和流程图,本发明根据字符嵌入和位置嵌入以及双向长短期记忆网络得到包含上下文信息的句子向量;接着进行多头注意力计算,抽取不同的依赖特征,增强句子的特征表示;然后预测句子中的潜在关系集合同时构建实体对应矩阵;用基于关系的注意力机制计算特定关系下单词的权重,权重相加得到特定关系下的句子表示;然后基于指针网络对不同关系进行头尾实体抽取;最后结合实体对应矩阵构成三元组。整个模型解决了实体关系抽取中的多关系问题和实体重叠问题。
以医学文本“众所周知,2型糖尿病患者胰岛β细胞功能随病程进展逐渐恶化。由此推论,随病程进展,为取得血糖最佳控制,大部分2型糖尿病患者似乎最终均需胰岛素治疗”为例。本发明的实体关系抽取具体包括如下步骤:
步骤1:医学文本中的每个字转换为由字符向量和位置向量拼接而成的低维稠密实值向量,得到语句的输入特征向量。
在本实施例中,本发明采用字符向量和位置向量嵌入的方式获得输入特征向量,具体为:
步骤1-1:字符向量:将长度为
字符嵌入矩阵是通过现有的训练模型比如skip-gram生成的,字符嵌入矩阵的每一列代表每个字表示的不同向量,字符嵌入矩阵中第
步骤1-2:位置向量:对于语句S中的字符
其中
步骤1-3:将字符向量和位置向量拼接起来,获得输入特征向量
步骤2:通过
步骤3:将得到的句子向量进行多头注意力计算,捕捉到更丰富的特征,特征聚合得到初步的句子向量。
为了增强句子的特征表示,本发明将
其中
然后再将每一组自注意力的结果拼接起来,使用权重矩阵对其进行线性变换得到最终的输出结果,具体公式为:
其中
步骤4:预测存在于句子向量中的一个潜在关系集合,然后实体提取只需要应用于潜在的关系。本发明使用二元分类任务预测潜在关系集合。
具体为:
其中
步骤5:同时进行实体对应矩阵的构建,找到医学文本中有对应关系的实体对。
本实施例中,采用二元分类的方式构建实体对应矩阵,具体的矩阵公式为:
其中
步骤6:将预测出的关系与句子向量中的词进行注意力计算,得到每个单词的权重,权重相加得到特定关系下的句子表示。在本实施例中,本发明采用基于特定关系(Class-Disease、Test-items-Disease)的注意力机制得到特定关系下的句子表示。
具体公式为:
其中
注意力分数可以衡量每个单词对特定关系的重要性。然后我们将词的权重相加得到关系类型
其中:
步骤7:得到最终句子向量,基于指针网络分别进行头实体和尾实体的抽取。
在本实施例中,本发明采用指针网络分别抽取头实体和尾实体。
基于指针网络的头实体抽取,具体是使用两个二分类器来分别判断头实体的开始位置和结束位置,两个二分类器的具体计算如下所示:
基于指针网络的尾实体抽取,具体步骤维使用两个二分类器来分别判断头实体的开始位置和结束位置,具体公式如下:
其中
步骤8:得到头尾实体后,枚举所有可能的头尾实体对(2型,糖尿病)、(血糖、2型糖尿病)…),检查在对应矩阵中的相应分数,值超过设定阈λ2值则保留,设定阈值为0.5.
根据步骤5中构建的实体对应矩阵,查看矩阵中对应的分数,矩阵的每个元素都是关于一对主客体的起始位置,代表一个主客体对的置信度,值越高,该对属于三元组的可能性越高。
步骤9:保留下的实体对和关系组成三元组:{2型,Class-Disease,2型糖尿病}、{血糖,Test-items-Disease,2型糖尿病}等,完成实体关系的抽取。
本发明采用多头注意力机制对对句子表示进行计算,捕捉到更丰富的特征,给之后的关系预测和构建实体对应矩阵工作减少了工作量,提高了效率,采用特定关系注意力机制,计算文本中每个词在特定关系下的权重,权重相加得到特定关系下的句子表示,在此基础上进行实体抽取,有效解决了实体重叠问题。
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
- 一种面向社交文本的级联直线型实体关系抽取方法
- 一种面向中文短文本的实体关系抽取方法