掌桥专利:专业的专利平台
掌桥专利
首页

一种基于联邦对比增强的异质临床病历实体抽取方法

文献发布时间:2024-04-18 19:53:33


一种基于联邦对比增强的异质临床病历实体抽取方法

技术领域

本发明涉及计算机应用技术领域,尤其涉及一种基于联邦对比增强的异质临床病历实体抽取方法。

背景技术

临床电子病历实体抽取,旨在识别和分类电子病历中的临床术语,例如症状、疾病、手术和药物。使用深度模型对临床电子病历进行实体抽取,已成为当前主流解决方案。然而,该类方法的识别性能严重依赖于模型训练所用数据集的质量与规模。临床病历涵盖患者的现病史、既往史和服药记录等多种隐私信息,由于数据隐私保护要求,往往不能直接将病历数据进行汇聚。故临床电子病历数据多以“数据孤岛”的形式存储在各医疗机构单位,难以汇集构建大规模、高质量的临床病历数据集。

联邦学习是一种新兴的分布式机器学习技术,可以在不暴露原始数据的情况下对多方数据源进行协同建模和训练,可以在保护数据隐私的同时打破“数据孤岛”。然而,不同机构甚至不同病种科室间的临床病历在症状等临床术语数据分布以及实体类型标签等方面差异很大。在此场景下进行传统的联邦学习往往难以取得收益,一方面标签异质致使各个客户端模型异构不能直接进行聚合;另一方面数据分布异质使得各个客户端在联邦学习时发生客户端漂移现象,导致联邦训练发散不收敛,产生资源浪费。

目前,现有技术中的联邦学习与实体抽取结合领域的研究处于萌发探索阶段,但因其对医学研究的重要基础意义,已经有一些工作开始探讨联邦学习下的生物医学实体抽取。有学者提出了一种FedNER方法,他们将各机构的医疗命名实体识别(Named EntityRecognition,NER)模型分解为共享模块和私有模块。在每个机构中使用本地数据更新私有模块,用来提取机构特有的特征。共享模块用于捕获不同机构之间的共享知识,并根据来自各机构的聚合梯度在服务器中进行更新。有学者提出了一种基于联邦对抗学习的医学实体抽取方法,使用改进的结构化剪枝方案减少模型参数数量,以及对抗学习来增强模型的鲁棒性和泛化能力。

上述现有技术中的基于联邦对抗学习的医学实体抽取方法的缺点包括:一是临床病历的文本描述在不同机构间的语义表述呈现多样化,且不同病种和科室之间的病历数据分布呈现非独立同分布现象,以症状为例,不同病种病历数据集中出现的高频率症状表现完全不同;二是缺少统一的病历实体标注标准,不同机构之间对数据集进行标注的实体类型不尽相同,标签不互通,严重阻碍了联邦学习在实体抽取这类监督学习任务上的发展与应用。

上述FedNER方法并不适用于中文的实体抽取,且选用了CNN(ConvolutionalNeural Networks,卷积神经网络)模型,较难捕捉具有长依赖的上下文信息。

上述基于联邦对抗学习的医学实体抽取方法,其模型设计复杂程度较高,并对于数据异质性强的多病科病历联邦建模场景下,使用对抗学习进行模型聚合并不能保证稳定收敛。

发明内容

本发明的实施例提供了一种基于联邦对比增强的异质临床病历实体抽取方法,以实现有效地对病历进行标签分类。

为了实现上述目的,本发明采取了如下技术方案。

一种基于联邦对比增强的异质临床病历实体抽取方法,包括:

各个客户端利用本地的病历数据集上对全局编码器和本地编码器进行对比学习训练,在每个客户端保存训练好的全局编码器和本地编码器;

将待识别的病历文本的嵌入向量表示输入到客户端上训练好的全局编码器和本地编码器,全局编码器和本地编码器分别对病历文本的嵌入向量表示进行编码,将全局编码器和本地编码器的编码结果拼接后输入到全连接网络,再通过条件随机场CRF解码器,得到所述待识别的病历文本的序列标签预测结果。

优选地,所述的各个客户端利用本地的病历数据集上对全局编码器和本地编码器进行对比学习训练,在每个客户端保存训练好的全局编码器和本地编码器,包括:

将客户端本地的病历数据集上的病历文本通过嵌入模型得到嵌入向量

fv=pool(g(x,θ

lv=pool(f(x,θ

s表示池化句子向量的维度大小,g(·)和f(·)分别代表联邦视图编码器模型和本地视图编码器模型,θ

对于联邦视图编码器,将同一样本的联邦视图表示和本地视图表示作为正样本对,该样本的联邦视图表示与其他样本的本地视图表示依次组合作为负样本对,正样本对和所有负样本对共同构成整个对比样本空间;在模型进行训练时,依次将每个样本作为锚点,随机选取k个负样本与其组合,在每一轮次训练结束后,离线更新存储各样本的两类视图表示,单个视图损失函数表示为

其中h

对于本地视图编码器,正负样本构造与联邦视图编码器类似,同样选用该样本的本地视图表示与联邦视图表示作为正样本对,该样本的本地视图表示与其他样本的本地视图表示组合成负样本对;

对比学习训练的优化目标表示为:

各个客户端在对比学习训练阶段完成后,将本地的联邦视图编码器上传至服务端,当服务端收集到所有客户端的联邦视图编码器模型参数后,便进行模型聚合,聚合策略采取参数平均的方法,表示为:

代表客户端c的联邦视图编码器模型参数;

服务端将聚合后的全局编码器下发给各个客户端,在每个客户端保存训练好的全局编码器和本地编码器。

优选地,所述的将待识别的病历文本的嵌入向量表示输入到客户端上训练好的全局编码器和本地编码器,全局编码器和本地编码器分别对病历文本的嵌入向量表示进行编码,将全局编码器和本地编码器的编码结果拼接后输入到全连接网络,再通过条件随机场CRF解码器,得到所述待识别的病历文本的序列标签预测结果,包括:

将待识别的病历文本的嵌入向量

将编码输出

即得到每个字词归属于各标签的概率值,o

将o

S

通过多轮迭代更新,让CRF解码器学习标签的顺序依赖信息,得到所述待识别的病历文本的序列标签预测结果。

由上述本发明的实施例提供的技术方案可以看出,本发明提出的基于联邦对比增强的异质临床病历实体抽取方法具有实体抽取模型的普适性;针对标签异质导致的模型结构不同,提出了一种只对编码器进行联邦建模的理念;可以在跨病种和标签异质的多机构场景下进行联邦建模。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于联邦对比增强的异质临床病历实体抽取方法(FedCE)的总体框架示意图;

图2为本发明实施例提供的一种基于联邦对比增强的多视图编码器的训练框架示意图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。

本发明领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本发明领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。

本发明实施例提出的一种基于联邦对比增强的异质临床病历实体抽取方法(FedCE)的总体框架如图1所示。该方法所采用的本地基础模型结构为多视图编码器-标签解码器架构,多视图编码器包括服务器上的全局编码器和各个客户端上的本地编码器,在全局编码器上建立和维护联邦视图,联邦视图用于捕获服务器上临床病历在字或词上的通用表示,在本地编码器上建立和维护本地视图,本地视图用于捕获各个客户端上的临床病历的上下文语义信息。由于标签异质的问题,致使各个客户端标签解码器结构不同,不能直接应用联邦学习。故本发明提出一种只对编码器进行联邦训练的思想,避免因解码器结构不同而导致不能进行联邦学习的问题。

本发明实施例提出的一种基于联邦对比增强的异质临床病历实体抽取方法的处理流程如图1所示,包括如下的处理步骤:

步骤S10:基于联邦对比增强的多视图编码器训练阶段。

各个客户端利用本地的病历数据集上对全局编码器和本地编码器进行对比学习,对全局编码器和本地编码器组成的多视图编码器进行更新,本地更新完毕之后将全局视图编码器上传至服务端,服务器进行联邦模型聚合,然后将聚合好的全局视图编码器发送回各个客户端,各个客户端再次进行本地更新,直至模型稳定收敛或达到通信轮次上限。

在每个客户端保存训练好的全局编码器和本地编码器。

步骤S20:将待识别的病历文本的嵌入向量表示同时输入到客户端上训练好的全局编码器和本地编码器,全局编码器和本地编码器分别对病历文本的嵌入向量表示进行编码,将全局编码器和本地编码器的编码结果拼接后,得到多视图编码器的编码。将多视图编码器的编码输入到全连接网络,再通过条件随机场(CRF,Conditional Random Fields)解码器,得到上述待识别的病历文本的序列标签预测结果。

具体的,上述步骤S10包括:

本阶段主要目的是通过联邦无监督的方式训练多视图编码器,避免因数据异质以及在训练时过早引入标签信息产生客户端漂移现象,使得联邦学习失败,造成资源浪费。虽然各机构临床病历数据呈现高度统计异质性,但在病历中常用字或词是有限的。字或词本身表达的意思相对局限,因其所处语境不同才表达出多种含义。基于此认知,本发明采用了多视图编码器结构,建立联邦视图用于捕获在字或词上的通用表示,建立本地视图用于捕获各个客户端特有的上下文语义信息。在认知上,全局视图与本地视图对于同一病历文本的表示应该相近,不同病历文本的表示应该相差较大。为了避免过早在联邦训练阶段引入标签信息,本发明采用对比学习方法构造自监督损失函数,来更新两类视图编码器,实现全局知识与本地语义信息的互通。

本发明实施例提供的一种基于联邦对比增强的多视图编码器的训练框架如图2所示。本发明为避免因初始嵌入模型不同致使各个客户端在初始表达阶段产生差异,故为各个客户端选用统一的嵌入模型得到字词的嵌入向量,以作为模型的输入,故选用源自HuggingFace的RoBERTa-chinese-base开源预训练模型作为嵌入模型,用来得到字词的嵌入向量。

病历文本通过嵌入模型得到嵌入向量

fv=pool(g(x,θ

lv=pool(f(x,θ

s表示池化句子向量的维度大小,g(·)和f(·)分别代表联邦视图编码器模型和本地视图编码器模型,θ

本发明在进行对比学习时参考了多视图对比编码(Contrastive MultiviewCoding,CMC)中的正负样本构造方法。对于联邦视图编码器,将同一样本的联邦视图表示和本地视图表示作为正样本对,该样本的联邦视图表示与其他样本的本地视图表示依次组合作为负样本对,正样本对和所有负样本对共同构成整个对比样本空间。然而想要支撑对比学习进行训练,需要足够大的负样本空间。本发明采用Memory Bank的方法离线存储各样本的两类视图表示,在模型进行训练时,依次将每个样本作为锚点,随机选取k个负样本与其组合。在每一轮次训练结束后,离线更新存储在Memory Bank里各样本的两类视图表示。对比学习的基本理念是正样本对的相似度量应该在整个样本空间中处于最高,所以单个视图损失函数可表示为:

其中h

对于本地视图编码器,正负样本构造与联邦视图编码器类似,同样选用该样本的本地视图表示与联邦视图表示作为正样本对,该样本的本地视图表示与其他样本的本地视图表示组合成负样本对。所以对比学习阶段最后的优化目标可表示为:

各个客户端在对比学习训练阶段完成后,将本地的联邦视图编码器上传至服务端。当服务端收集到所有客户端的联邦视图编码器模型参数后,便进行模型聚合。聚合策略采取参数平均的方法,可表示为:

代表客户端c的联邦视图编码器模型参数。

具体的,上述步骤S20包括:本阶段主要目的是在经由联邦无监督训练完成的各个客户端的多视图编码器之后,引入标签监督信息,对整个实体抽取模型进行微调更新,使其适应各个客户端的本地数据分布。本阶段的主要流程如下:

首先,将待识别的病历文本的嵌入向量

因为在本阶段需要对文本序列给出标签预测结果,即最后的输出也是以字词为单位的标签概率序列。而池化层是为了获得句子级别的向量,所以在此阶段并不适用。

其次,将病历文本的编码输出

即得到每个字词归属于各标签的概率值,o

最后,o输入CRF解码器。通过多轮迭代更新,让CRF层学习标签的顺序依赖信息。CRF在计算标签序列得分时是由该序列的发射分数和转移分数组成。o作为输入序列到标签序列的发射分数。CRF损失函数由真实路径得分和所有可能路径的总得分组成。且在所有可能的路径中,真实路径的得分应该是最高的。所以CRF损失函数可表示为:

S

将本发明中提出的基于联邦对比增强的异质临床病历实体抽取方法与常用传统联邦学习方法和个性化联邦学习方法在三个来自真实世界医疗机构的临床病历数据集进行了性能对比,其中常用传统联邦学习方法有FedAvg、FedProx、FedAtt、MOON,个性化联邦学习方法有APFL、pFedMe、Ditto。

(1)数据集介绍

在实验中,我们使用三个医院不同病种科室的临床病历数据集,作为多方协同联邦学习建模的客户端本地数据集。三个临床病历数据集均经由专业人员标注,其基本信息如下表所示:

表1标准数据集的基本统计信息

肺病数据集:该数据集是呼吸科的患者入院记录的病历数据,主要与慢阻肺等慢性肺病有关。该数据集一共包含了41,723份病历,1,279,855个标注实体,病历平均文本长度在330个字,标有阳性症状、阴性症状、西医疾病等3种类型实体。

肝病数据集:该数据集是脂肪肝患者的入院病历数据,涵盖患者的主诉和现病史等相关信息。该数据集一共包含了15,310份病历,466,021个标注实体,病历平均文本长度在449个字,标有阳性症状、阴性症状、频次等8种类型实体。

多病种数据集:该数据集是全院患者入院病历数据,涵盖儿科、妇科、皮肤科等多病科患者的主诉和现病史等相关信息。该数据集一共包含了52,549份病历,1,289,420个标注实体,病历平均文本长度在344个字,标有阳性症状、西医疾病、治则治法等10种类型实体。

各数据集的实体标注信息如下表2所示。每个数据集都按照7:1:2的比例划分成训练集、验证集、测试集。各数据集是不同的病种,致使其各自数据集的分布是不一致的,以症状类型实体为例,不同病种的高频症状完全不同,呈现数据异质性。

表2标准数据集各类实体数量

(2)实验设置

我们主要使用Bi-LSTM作为联邦视图编码器,TransformerEncoder作为本地视图编码器开展基线方法性能对比实验。BERT词嵌入维度为768。Bi-LSTM隐藏层维度为384,Transformer输入输出均为768维,保证两类视图输出向量均为768维。受限于实际设备的存储能力,Transformer深度设置为2。

由于本发明所解决的场景是数据异质及标签异质下的联邦学习场景,所以各个客户端基础模型里的CRF解码器仍是结构不同,不能直接进行聚合,致使现有的联邦学习聚合算法不能适用。因此本发明提出了一种只对模型的编码器部分参数进行聚合的策略。

(3)基线模型实验对比

在实验过程中,我们严格控制所有基线方法的本地模型迭代学习轮次设置为10,批量样本大小设置为64,通信轮次都设置为5。为了对比我们提出的联邦对比增强方法的有效性,我们在传统的联邦学习方法后也接入了同等最大训练迭代轮次的微调阶段,最大微调轮次设置为50。在所有涉及到的微调过程里,本发明采用早停法进行过拟合控制,对模型在验证集上的F1值指标进行判断,如果连续5个训练轮次性能下降,就停止微调。

实验结果如下表3所示:

表3FedCE与基线模型的性能对比

MV表示基础实体抽取模型为多视图编码器-CRF解码器结构。Single表示各数据集独自训练各自的模型,不加入联邦学习。对于传统联邦学习和个性化联邦学习方法,均采用MV结构作为其基础实体抽取模型。实验结果表明,本发明提出的FedCE方法在三方数据集联邦训练中,在其中肺病数据集和多病种数据集的F1指标均取得了最好的性能,超过其他联邦学习方法以及不参与联邦独自训练模型的性能表现。在肝病数据集也取得了极具竞争性的表现,F1指标接近单独训练时的性能表现。这说明本发明提出的FedCE方法,可以在多方医疗机构进行临床电子病历实体抽取联邦建模的过程中受益,且提高各自本地模型性能。

(4)基础实体抽取模型的适应性评估实验

同时,我们还开展了本发明对于基础实体抽取模型的适应性评估实验。我们对基础模型的多视图编码器中的联邦视图编码器和本地视图编码器依次采用Bi-LSTM和Transformer Encoder两类模型的各种组合,来证明我们提出的方法具有基础模型的适应性。下表为各种组合在独自训练下的性能,MV代表多视图编码器由Bi-LSTM和TransformerEncoder组成,Bi-BiLSTM代表多视图编码器由两个Bi-LSTM组成,Bi-Transformer代表多视图编码器由两个Transformer Encoder组成。

表4单独训练时各类多视图编码器的表现

下表为各种基础模型组合在本发明下的模型性能表现。

表5联邦对比增强训练时各类多视图编码器的表现

Global代表多视图编码器的联邦视图,Local代表本地视图。实验结果表明,使用本发明的各类基础模型组合在肺病数据集和多病种数据集的表现均优于单独训练时的模型性能,在肝病数据集上的表现接近单独训练时的模型性能。证实了本发明具有基础实体抽取模型的普适性。

综上所述,本发明实施例可以解决各个客户端标签异质对联邦学习的产生的阻碍,促使在各个客户端数据标签不同时也可以进行联邦建模。首次提出了基于联邦无监督训练结合本地微调的实体抽取范式。

本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本发明领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

相关技术
  • 一种用于多点模具冲头调平的调平器
  • 一种自动调平的家用电器及其调平控制方法
  • 一种自动调平的家用电器及其调平控制方法
  • 一种用于设备安装的找正调平结构及其施工方法
  • 一种基层调平结构及其安装方法
  • 一种基层调平铝型材结构及安装方法
技术分类

06120116336997