掌桥专利:专业的专利平台
掌桥专利
首页

深度多标签电子病历集分类模型的训练方法及装置

文献发布时间:2023-06-19 16:11:11



技术领域

本发明属于自然语言处理下的多标签分类领域,指的是给一个实例数据分配多个不同的标签,具体的说,涉及一种深度多标签电子病历集分类模型的训练方法及装置。

背景技术

在多标签分类领域中,而超大的标签集和不均匀的标签分布是困扰多标签分类的两个主要问题。最近的研究人员主要基于这两个问题来提出解决方法。一种是通过设计不同的标签组合策略来重构标签集,新的标签集由多个标签组成。另一种是基于层次联合学习机制构建多级标签层次分类器。以上这些方法的主要思想都是通过降低标签空间维度来缓解标签分布不均匀的问题。

在多标签分类任务中,最新的研究方法是应用深度学习。其中,小批量梯度下降算法(mini-batch gradient descent,MBGD)被广泛应用于模型的训练过程中。在训练过程的每一次迭代中,基于批量里的实例来对模型的参数进行梯度更新。

基于批量梯度下降算法的深度多标签电子病历集分类模型训练过程如图1所示。在该过程中,有六个数据或参数的处理和计算步骤,包括:

(1)批量处理策略:在此数据处理过程中,常用的是洗牌算法,首先将训练数据

(2)参数初始化:在这个参数初始化的过程中,初始化参数

(3)损失值计算:该步骤应用于多种深度多标签电子病历集分类模型,包括了本文 所主要比较的的TextCNN、TextRNN和TextRCNN。我们统一将他们记作

(4)梯度更新计算:根据

(5)参数更新:通过

(6)最优参数计算:一般情况下,在批量数据集重复执行 (3)到(5)的步骤,直到模型收敛。

理论上来讲,

而在本文中,发明人进一步发现,在利用MBGD将训练数据分割成批量的过程中,如图2(a)-(e)所示,其总是让批量数据内部的标签分布与全局的标签分布不一致(见图2)。如表1所示,在具有代表性的模型TextCNN、TextRNN和TextRCNN上的实验发现,均存在过拟合问题,因此这种现象也会影响到模型的性能和泛化能力。

电子病历集的分类在智能化医学技术领域中应用逐步增多。电子病历集的分类通常根据文本和对应的标签进行分类。标签例如可以根据疾病种类进行设定,一个标签下对应与标签相关的文本数据。文本数据一般包括有出院记录。而采用如上所述的模型训练步骤,存在过拟合问题,导致训练出来的模型在对电子病历集的分类上不够准确。因此,亟需一种深度多标签电子病历集分类模型的训练方法。

发明内容

本发明的目的在于克服背景技术所提出的技术问题,提出了一种深度多标签电子病历集分类模型的训练方法及装置,采用了一种由易到难的渐进式学习方法来训练分类模型,使得模型的效果产生极大提升的同时避免了过拟合的问题。

本发明的具体技术方案如下:

根据本发明的第一技术方案,提供了一种深度多标签电子病历集分类模型的训练方法,包括:根据电子病历集生成三个批量数据集,所述三个批量数据集根据学习难度分别排列为第一数据集、第二数据集以及第三数据集;利用所述第一数据集、第二数据集以及第三数据集依次对深度多标签电子病历集分类模型进行训练;所述第一数据集通过分层抽样生成;所述第二数据集通过洗牌方法抽样生成;所述第三数据集通过概率替换抽样生成。

根据本发明的第二技术方案,提供了一种深度多标签电子病历集分类模型的训练装置,该装置包括处理器,所述处理器被配置为:根据电子病历集生成三个批量数据集,所述三个批量数据集根据学习难度分别排列为第一数据集、第二数据集以及第三数据集;利用所述第一数据集、第二数据集以及第三数据集依次对深度多标签电子病历集分类模型进行训练;所述第一数据集通过分层抽样生成;所述第二数据集通过洗牌方法抽样生成;所述第三数据集通过概率替换抽样生成。

根据本发明实施例的深度多标签电子病历集分类模型的训练方法及装置,能够有效解决训练数据里的标签分布不一致的问题,并且通过这样从易到难的渐进式学习,深度多标签电子病历集分类模型的性能和泛化能力将得到极大的提升。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分并不一定按照实际的比例绘制。

图1为根据现有技术中的基于MBGD的深度多标签电子病历集分类模型的训练流程图。

图2(a)示出了根据现有技术的批量大小500的数据基于MBGD模型训练得到的全局训练数据分布图。

图2(b)示出了根据现有技术的批量大小500的数据基于MBGD模型训练得到的局部训练数据分布图。

图2(c)示出了根据现有技术的批量大小500的数据基于MBGD模型训练得到的局部训练数据分布图。

图2(d)示出了根据现有技术的批量大小500的数据基于MBGD模型训练得到的局部训练数据分布图。

图2(e)示出了根据现有技术的批量大小500的数据基于MBGD模型训练得到的局部训练数据分布图。

图3示出了根据本发明实施例的一种深度多标签电子病历集分类模型的训练方法的流程图。

图4示出了根据本发明实施例的一种深度多标签电子病历集分类模型的训练方法的处理流程图。

图5示出了根据本发明实施例的MIMIC-III数据集中的长尾标签分布。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。

现在结合说明书附图对本发明做进一步的说明。

为了解决训练数据里的标签分布不一致的问题,本发明实施例提出了一种深度多标签电子病历集分类模型的训练方法。

如图3所示,本发明实施例提供了一种深度多标签电子病历集分类模型的训练方法,包括步骤:

S100、根据电子病历集生成三个批量数据集,所述三个批量数据集根据学习难度分别排列为第一数据集、第二数据集以及第三数据集;

S200、利用所述第一数据集、第二数据集以及第三数据集依次对深度多标签电子病历集分类模型进行训练。

在本发明实施例中,所述第一数据集通过分层抽样生成;所述第二数据集通过洗牌方法抽样生成;所述第三数据集通过概率替换抽样生成。具体来说,本发明实施例定义了三种数据分布UDD、SDD和IDD,并且统一数据分布比(uniform data distribution, UDD)比随机数据分布(shuffling data distribution,SDD)更容易学习,SDD比原始的不平衡训练数据分布(imbalanced training data distribution,IDD)更容易学习。

需要说明的是,本次采用的数据集是一个用于ICD编码的大规模电子病历集MIMIC-III。

监护室医学信息数据集(the Medical Information Mart for Intensive Care,MIMIC),是一个基于重症监护室病人监测情况的医学开源数据集。其公布的目的在于促进医学研究,提升ICU决策支持水平。本实施例将MIMIC中文本记录事件表(NOTEEVENTS) 中的出院记录(Discharge summary)作为电子病例,预测其对应的ICD-9编码。

对原始的电子病例进行了数据清洗工作。在删除了病例中的标点符号、数字、停用词以及一些类似“Admission Date”的无意义字段后,我们对全部数据集进行分词并生成了分词字典。之后计算字典中每个分词的TF-IDF分数,TF-IDF可以评估分词对一个语料库的重要程度。分数最高的10000个分词将会被保留,而不在词典中的单词则被删除。

处理后数据集的详细统计信息如下表2所示:

表2 处理后数据集的详细统计信息

MIMIC共包含55177条电子病例,包含6919个ICD-9代码。处理后数据集平均每个样本拥有898个分词和11个标签。

如图4所示,本发明实施例提出的课程式批量划分策略与原始的基于MBGD的深度 多标签电子病历集分类模型的训练过程中的批处理策略具有相似的结构。不同的是,

CBS可以方便地替换图4所示的基于MBGD的原始批处理策略,而CBS将生成3种批量 数据集,包括

多标签分类模型所学习CBS的直观假设是

下面本发明实施例将具体介绍如何生成第一数据集

SSR for generating

分层抽样能够确保每一个样本都能恰当地代表总体的每个特征。因此,本发明实施例设计了一个简单的SSR来生成一个批量数据集,满足整体数据集D中每个标签对应的每个实例被模型学习的机会是均等的。

首先,SSR随机抽取M

PSR for generating

与SSR不同的是,PSR首先根据全局的标签分布来设定每个批量数据集里的标签数 量M

本发明实施例将在TextCNN、TextRNN和TextRCNN中将常规的方法进行训练和利用 本发明实施例提供的方法进行训练得到的结果如下表3和表4所示。首先,比较了表3和表4 中的

表 3TextCNN、TextRNN和TextRCN在不同的批量大小下的性能

表 4 TextCNN+CBS、TextRNN+CBS和TextRCNN+CBS在不同的批量大小下的性能

为了说明本发明实施例所提出的方法不会损害模型的泛化能力,本发明实施例还 在训练数据

表 5 TextCNN+CBS、TextRNN+CBS和TextRCNN+CBS直接应用于训练数据的结果

本发明实施例还促进了长尾标签的学习能力(在出现频率较少的标签,如图5所 示)。在训练的早期阶段,本发明实施例使用

表 6 比较了TextCNN+CBS、TextRNN+CBS和TextRCNN+CBS的长尾标签召回率和由CBS方法改进模型的长尾标签召回率

本发明实施例还提供一种深度多标签电子病历集分类模型的训练装置,包括处理器,所述处理器被配置为:根据电子病历集生成三个批量数据集,所述三个批量数据集根据学习难度分别排列为第一数据集、第二数据集以及第三数据集;利用所述第一数据集、第二数据集以及第三数据集依次对深度多标签电子病历集分类模型进行训练;所述第一数据集通过分层抽样生成;所述第二数据集通过洗牌方法抽样生成;所述第三数据集通过概率替换抽样生成。

需要注意的是本发明实施例中所述的处理器可以是包括一个以上通用处理设备的处理设备,诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地,处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器还可以是一个以上专用处理设备,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。

在一些实施例中,所述处理器被配置为:从所述电子病历集中随机抽取M

在一些实施例中,所述处理器被配置为:根据全局的标签分布来设定第三批量数据集里的标签数量;对于每个标签,从所述电子病历集中随机抽取一个对应的实例;上述过程重复N

本发明实施例提供的深度多标签电子病历集分类模型的训练装置与前面所阐述的方法的技术效果基本保持一致,在此不赘述。

以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

相关技术
  • 深度多标签电子病历集分类模型的训练方法及装置
  • 标签分类模型训练方法、标签分类方法、装置及设备
技术分类

06120114731355