掌桥专利:专业的专利平台
掌桥专利
首页

一种基于两阶段训练策略的术语抽取方法

文献发布时间:2023-06-19 19:28:50


一种基于两阶段训练策略的术语抽取方法

技术领域

本发明属于计算机软件技术领域,具体涉及一种基于两阶段训练策略的术语抽取方法。

背景技术

自20世纪30年代初奥地利术语学博士Eugen Wuister教授正式创立“术语学”的概念,至今已有90余年,大量专家学者对术语相关领域展开了广泛的研究。随着新事物、新概念不断出现,新术语不断涌现,人工收录术语耗时耗力,因此自动术语抽取方法越来越受到关注,本发明将自动术语抽取方法归纳为三类即无监督的术语抽取、有监督的术语抽取以及远程监督的术语抽取。

无监督的术语抽取方法主要是通过语言学或者统计学的方法进行术语抽取,基于语言学的方法抽取术语其主要利用术语的词法模式、词性特征、语义信息等相关知识从领域语料库中抽取出目标术语。基于统计学的术语抽取方法以统计学理论为基础,利用目标语料库中术语的分布属性(词频、领域相关性等)来抽取术语。

有监督的术语抽取方法大多使用统计机器学习或深度学习技术进行术语抽取,通常将术语抽取问题转化为序列标注问题,进而从目标语料库中抽取术语;或者是将术语抽取问题转化为二分类问题,即判断目标语料库中的词或短语是否是术语。

远程监督的术语抽取方法利用外部知识库(百科知识库、WordNet知识库等)对术语语料库进行自动标注从而获得有标注的术语训练集,训练术语抽取模型并从目标语料库中抽取术语。远程监督的术语抽取方法降低了人工手动标注语料库的成本。

基于语言学的术语抽取方法基于已有的术语集和人工制定的规则进行术语抽取,在准确率上有一定的优势。该方法需要大量人工成本,耗时耗力且可移植性差,需要根据不同的语言,不同的领域制定不同的抽取规则。基于统计学的术语抽取方法不依赖标注数据,可以适应不同领域,通用性强,但抽取的效果依赖于目标语料库的规模和术语的分布,准确率往往不高。基于有监督的方法进行术语抽取,和无监督的术语抽取方法相比,其不需要得到术语排序列表,使用深度学习技术,通过词向量表示融合了更多特征,在术语抽取中,取得了比价好的效果,但是由于此类方法需要大量的有标签的数据,通过人工手动标注数据耗时耗力,给现实应用带来巨大挑战。

发明内容

本发明针对目前术语抽取方法的不足,提出了一种两阶段训练策略的术语抽取方法,通过两阶段训练策略和泛化交叉熵损失函数来缓解远程监督标注数据带来的错误标签问题,从而提升术语抽取模型的泛化能力,最后通过实验论证了该方法的可行性和高效性。

本发明选取了领域语料库作为此次实验的主要数据集,由于目前在政务领域,没有公开的、精标的政务数据集,使用远程监督的方法标注政务术语语料库,会由于外部知识库的不完备性,带来错误的标签,损失政务术语抽取模型的性能。针对此类没有精标术语数据集的领域,使用远程监督的方法标注数据并对其带来的错误标签问题,本发明提出两阶段训练方法,第一阶段限制迭代次数防止模型过拟合错误标签,第二阶段使用教师学生网络模型进行模型的自训练,不断调优术语抽取模型。同时本发明采取泛化交叉熵损失函数来优化术语抽取模型参数的策略,来提升术语抽取模型的泛化能力。

本发明的技术方案为:

一种基于两阶段训练策略的术语抽取方法,其步骤包括:

1)获取目标领域的多篇文档并对其中的术语进行标注,得到该目标领域的术语训练集;

2)基于中文预训练语言模型构建术语抽取模型,并利用所述术语训练集对所述术语抽取模型进行训练,得到术语知识模型;

3)使用教师学生网络对所述政务术语知识模型进行自训练调优,获得术语抽取模型;

4)将所述目标领域的一篇文档a输入所述术语抽取模型,得到该文档a中的术语。

可选的,利用所述术语训练集对所述术语抽取模型进行有限次数的迭代训练,得到所述术语知识模型。

可选的,所述使用教师学生网络对所述政务术语知识模型进行自训练调优,获得术语抽取模型的方法为:

31)将步骤2)所得术语知识模型初始化为教师学生网络中的教师网络和学生网络;

32)将所述术语训练集中的每一样本输入所述教师网络预测得到该样本的标签并将其作为对应样本的软标签;

33)利用更新后的样本迭代训练所述学生网络,每次迭代训练所述学生网络时,周期性的将训练后的所述学生网络更新为教师网络;

34)利用第i次迭代训练后更新的教师网络预测每一所述样本的标签并利用所预测标签更新对应样本的软标签;然后利用更新后的样本进行第i+1次迭代训练所述学生网络;

35)当达到设定迭代次数时,将最后更新的教师网络作为所述术语抽取模型。

可选的,每次迭代时,所述教师网络选择类别概率大于阈值∈的高信度标签作为所输入样本的标签,其中超参数∈在0到1之间。

可选的,采用泛化交叉熵损失函数

可选的,通过远程监督采用{B、I、O}标注方式来对所述文档中的术语进行标注,B标签表示术语的起始位置,I标签表示术语的中间和末尾位置,O标签表示非术语。

可选的,所述目标领域为缺少精标术语数据集的领域。

可选的,所述目标领域为政务领域或医学领域。

一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。

本发明在互联网上总共收录了1368条政务术语作为外部知识库,并通过远程监督的方法标注了政府文档语料库即训练集,测试集和验证集是本发明人工手动标注的。数据集的统计信息如下:训练集共有171856条句子,验证集共有2193条句子,测试集共有2177条句子。

为了验证本发明提出的方法的有效性,本发明设置了基线对比方法(baseline:模型为bert-softmax,并只进行第一阶段的训练)即不对远程监督标注数据带来的错误标签进行处理,直接训练得到政务术语抽模型,并在测试集上得到的实验结果。本发明提出的方法(ours:模型为bert-softmax,采用泛化交叉熵损失函数和两阶段训练策略)对远程监督标注数据带来的错误标签进行处理,使用两阶段训练策略的政务术语抽取方法得到政务术语抽取模型,并在测试集上得到的实验结果,实验结果为表1所示。

表1为在政务术语数据集上的实验结果

从实验结果可以看出本发明提出的方法(ours)在政务领域其术语抽取效果在基线方法(baseline)上有较大提升。

因为政务术语领域没有公开的标准数据集,其测试集和验证集为本发明人工手动标注的。为了进一步验证本发明提出的基于两阶段训练策略的术语抽取方法的有效性,本发明选取了公开的英文标准术语数据集:心脏病领域(HTFL)其来自TermEval 2020比赛公开的术语数据集ACTER里的一个领域。并将HTFL数据集划分为训练集、验证集、测试集,为了保证实验一致性,其中HTFL训练集标签是通过收录与心脏病相关的术语名词作为外部知识库并用远程监督方法重新标注。本发明在互联网上收录了有关心脏病领域的术语作为外部知识库,共计252条心脏病领域术语。HTFL的数据集的统计信息如下:训练集共有1851条句子,验证集共有223条句子,测试集共有229条句子。其实验结果如表2所示。

表2为在公开标准术语数据集(HTFL)的实验结果

从实验结果可以看出本发明提出的基于两阶段训练策略的远程监督术语抽取方法有效性,其不仅能在政务领域有很好的术语抽取效果,在其他领域公开的标准数据集上也取得了很好的效果。

为了能和传统的无监督的术语抽取方法相比,本发明使用开源的ATR4s工具在心脏病领域(HTFL)数据集上做了相关实验。ATR4s工具使用15种经典的无监督术语抽取方法抽取术语。其实验结果如表3所示。

表3为无监督方法在公开标准术语数据集(HTFL)的实验结果

其效果最好的术语抽取方法为DomainPertinence其F1值为30.32,低于本发明提出的术语抽取方法其F1值为34.26。当本发明收录的心脏病术语外部知识库更完备时,基于两阶段训练策略的术语抽取效果会更好。因此,综合上述实验,本发明提出的基于两阶段训练策略的远程监督术语抽取方法的有效性。

附图说明

图1是通过远程监督的方法标注未标注的语料库,生成有标注的训练集。

图2是基于两阶段训练策略的远程监督术语抽取抽取框架,第一阶段是远程监督标注数据的生成和初步的训练;第二阶段是自训练阶段,提高模型的泛化能力。

具体实施方式

下面结合附图对本发明进行进一步详细描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

基于两阶段训练策略的远程监督术语抽取方法,包括术语训练集的构造、术语抽取模型的设计、术语抽取模型的训练。

术语训练集的构造:本发明从所选网站收集了一万多篇用于训练的政务文档,经过预处理后,作为政务领域语料库。远程监督方法标注数据具体的做法是:首先本发明将从互联网上收集已存在的名词作为外部知识库,接着通过正则匹配的方式,将外部知识库中的术语与术语语料库进行一一匹配,如果术语语料库中包含外部知识库中的术语,则通过{B、I、O}标注方式来对术语语料库中的数据进行标注,B标签表示政务术语的起始位置,I标签表示术语的中间和末尾位置,O标签表示非政务术语。图1为构建术语训练集的某个样例,“发展互联网经济是构建现代化经济体系的坚实基础”这句话中的术语“互联网经济”存在于本发明收录的外部知识库中,故被标注成了B标签、I标签,其他字符因不存在于本发明收录的外部知识库中,故被标注成了O标签(对应于错误标签一栏)。

术语抽取模型的设计:

术语抽取模型骨干选择策略:本发明采取中文预训练语言模型bert-base-chinese作为政务术语抽取模型的骨干。由于预训练语言模型ELMO使用LSTM网络提取特征,其表示能力弱于Tranformer。预训练语言模型GPT使用Tranformer提取特征,但其只使用了单向的Decoder,无法融合未来的信息。针对上述模型的特点本发明采取预训练语言模型BERT即bert-base-chinese作为术语抽取模型的骨干。

损失函数选择策略:给定一段连续的长度为n的文本序列x={x

当采用交叉熵损失来优化模型参数时,交叉熵损失函数为:

其中f

当分母比较小时,即预测文本序列x中的字符x

当采用平均绝对误差损失来优化模型参数时,平均绝对误差损失损失函数为:

对平均绝对误差损失函数求梯度为:

其分母为常数1,即平均绝对误差损失函数是平等地对待每个标签,不能区分难易标签,模型不容易收敛。

因此通过上述分析本发明采取泛化交叉熵损失函数来解决上面两种损失函数存在的问题。泛化交叉熵损失函数为:

超参数q的取值范围为0到1之间。泛化交叉熵损失函数在已有工作中被提出来,是用来使模型更好地平衡难易样本的学习;本发明将泛化交叉熵损失函数适配到噪声标签去噪场景下,能使得术语抽取模型具有更好的泛化能力,抑制错误标签带来的负面影响。对泛化交叉熵损失函数求导为:

当q趋向于0时,泛化交叉熵损失函数等同于交叉熵损失函数,当q趋向于1时,泛化交叉熵损失函数等同于平均绝对误差损失函数。因此泛化交叉熵损失函数不会像交叉熵损失函数那样对难分类的样本很敏感,也不同于平均绝对误差损失函数那样不能区分难易标签。通过上述分析,本发明采用泛化交叉熵损失函数来作为术语抽取模型的损失函数,其中q为超参数,可根据远程监督标注数据集的质量,人为控制q的大小,使术语抽取模型具有更好的泛化能力,表1中对应的q的取值为0.7(政务术语数据集),表2中对应的q的取值为0.6(HTFL心脏病术语数据集)。

术语抽取模型的训练:本发明提出的术语抽取模型框架如图2所示,分为两个阶段。

第一阶段主要如图2左侧部分所示。通过远程监督标注目标语料库后,本发明获得了一批术语训练集,通过这些有标注的术语训练集,输入到BERT模型中,并通过限制训练的迭代次数,得到基本的术语知识模型。因为由于外部知识库的不完备性,远程监督方法标注数据会不可避免地引入错误标签,如图1所示,例如外部知识库中有“互联网经济”这个术语,通过远程监督方法会将“发展互联网经济是构建现代化经济体系的坚实基础”中的“互联网经济”打上正确的标签,而“现代化经济体系”则被打上了错误的标签。本发明通过限制迭代次数防止模型过拟合错误的标签,使模型对未知数据具有更好的泛化能力。这一阶段的训练算法可以描述为算法1-限制迭代次数获得基本的政务术语知识模型:

算法1限制迭代次数获得基本的政务术语知识模型

输入:未标注的术语语料库{x};外部知识库Φ;预训练语言模型BERTθ

输出:术语知识模型

1.使用外部知识Φ,结合远程监督方法,对未标注的术语语料库{x}进行标注,生成有标注的术语训练集

2.for t=1do T

3.θ

4.end for

5.得到术语知识模型

第二阶段的训练如图2右侧部分所示,使用教师学生网络来进行模型的自训练,不断进行软标签的调优,获得可靠的政务术语抽取模型。具体步骤为:将微调后的模型(第一阶段训练后得到的术语知识模型)初始化教师学生网络中的Teacher模型(教师网络)和Student模型(学生网络),即

本发明使用如下策略来获得高置信度标签,如公式所示:

算法2通过教师学生网络进行自训练获得可靠的术语抽取模型

输入:标注的术语语料库{x};第一阶段模型

输出:术语抽取模型。

1.初始化教师学生网络模型中的教师模型和学生模型

2.for i=1do T

3.

4.for j=1do T

5.

6.end for

7.

8.end for

9.得到最终的术语抽取模型。

尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

技术分类

06120115924771