掌桥专利:专业的专利平台
掌桥专利
首页

一种基于特征提取与融合的论文冷启动消歧方法

文献发布时间:2023-06-19 18:30:43


一种基于特征提取与融合的论文冷启动消歧方法

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于特征提取与融合的论文冷启动消歧方法。

背景技术

作为帮助科研工作者及机构共享、传播、组织、利用各类文献资源、人才资源的载体,Google Scholar、Dblp、AMiner等线上学术成果管理及检索系统,随着数字资源的不断扩充以及人才队伍的不断扩大,数据中的作者姓名歧义问题也在随之增加。据统计,美国有151,671种不同的常见姓和5,163种不同的常见名,而其中300种最常见的姓名组合就覆盖了美国约78.74%的人口数量。而根据生日悖论,对于常见的姓名组合,在同一大学拥有同名研究者的概率几乎是必然的。而这种情况对于国内研究者而言也十分普遍,其并未因为汉字数量庞大和姓名组合丰富而得到有效缓解,为了保证文献更为广泛的传播和共享,大量文献以英文的形式进行发表,而中国研究者姓名则以拼音及拼音缩写的形式进行标识,极大地增加了同名的概率。同时,学术人才较大的流动性、科学文献结构化信息的缺失和不一致,给论文作者消歧任务增加了很大的挑战。研究者个人主页数据字段的不完整、网页结构的异构性、更新的不及时,也极大降低了外源数据的可用性。

研究者准确、完整的文献成果集合是实现定量评价、精确检索、有效管理的前提。虽然工业和学术界在同名消歧任务上已经有较多研究成果,但当下对于学术平台数据规模日渐增长的情况而言该问题仍未被解决得十分完善。由于现有论文分配算法的局限性,现有大规模学术管理系统中都存在着大量分配错误的情况。据官方统计,AMiner大约有130,000,000个作者档案,以及超过200,000,000篇论文,导致作者同名的情况非常复杂。以“共同作者数量”特征为代表的大量传统构造特征在此类大规模文献数据集上都出现了不同程度的失效,浅层粗粒度的语义表征模型也无法对论文研究子领域、句式表达方式等深层特征进行建模,导致现有论文表征和作者消歧方法在大规模真实数据集上的准确度较低。而实际工程应用中为保证算法的可靠性,则通常采用手工制定高质量特征和复杂规则的方式,来进行科学文献的自动聚类和分配,其严重增加了专家的人力成本和后期维护成本,且算法通用性难以得到保障。

目前论文作者消歧任务的研究主要分为冷启动消歧和增量消歧两个子类。冷启动消歧任务是在构建学术管理系统初期,对于特定姓名拥有大量未分配论文的情况,将该同名作者下属所有论文聚类为不同作者实体所写的若干集合。而增量消歧任务是在冷启动消歧任务结果的基础上,将学术系统或人才系统新增的文献数据,分配至已有的论文作者实体上去。即冷启动消歧是一个聚类问题,增量消歧是一个分类问题。目前关于论文作者消歧任务的研究主要聚焦于冷启动消歧任务,一方面由于冷启动消歧是增量消歧的基础,一方面这两项任务的研究重点均为如何利用现有数据特征获得更好的论文表示,从而在特征空间实现高准确度的聚类或分类,在研究内容上有较大的重叠,而聚类任务能更加充分的对论文表征的效果进行评价。

近年来,随着科学文献数量的大幅增长与科研领域数字化建设的逐步推进,在科学文献检索系统、学术人才管理系统、学术网络挖掘等应用中,复杂的同名情况使得论文作者消歧问题的解决难度愈发增大,解决的迫切性也愈发凸显。本发明调研了AMiner-18等大规模数据集后,发现现有作者消歧方法主要存在以下三点问题:

(1)不能很好地提取研究子领域、句式表达特点等深层语义特征信息。现有的论文作者消歧框架中,对语义特征信息的提取普遍采用了word2vec或doc2vec加上手工定义规则的方式,由于其能很好地利用到验证集和测试集中的无监督信息,使得该方法在小规模数据集上简单却有效。但这里提取到的语义信息仅为简单的、表层的、粗粒度的语义信息,且忽视了句子中上下文和单词顺序对内容的影响,只能对论文的大致研究领域进行建模,而对研究小方向、论文句法句型上的特征则难以进行提取,且模型的优化空间很小。在大规模数据集上,同名作者会出现研究领域相似的情况,加上人才的流动性,其所属机构等信息经常会发生变化,这种情况下论文内容细粒度的研究方向、书写和表达特点等特征将成为判别其是否为共同作者至关重要的依据。

(2)未对结构化特征的判别力差异及特征间关系进行建模。在基于图结构特征融合的方法框架中,将语义表征向量作为节点,将论文间的结构化特征作为边。但为了尽量避免图卷积或随机游走过程中的过度平滑问题,通常边的权重会被进行稀疏化处理,仅为0或1,表示边是否存在。这样忽视了不同结构化特征的判别力差异,基本假设为所有结构化特征的判别力相等,但这显然与事实不符。且在邻接矩阵上未体现出结构化特征间的逻辑关系,具有两种或两种以上结构化特征关系的论文,其边的权重被简单相加或覆盖。缺乏上述两类信息将使得后续特征融合和聚类过程的准确度受到影响,且此类方法严重依赖人工构造高精确度的异质图与邻接矩阵,因此难以保证召回率,且不具备面向不同数据集的通用性和迁移性。

(3)特征融合时未使用训练集类别信息,过度依赖手工构造网络结构的精确度,且为避免过度平滑而导致可被引入的结构化特征数量有限。现有的方法框架中,特征的融合最终大多是靠网络表征的提取来实现的,通过将语义特征作为节点,结构化特征作为边,训练图表示模型来进行语义特征与结构化特征的融合。但在这个过程中,无论是基于元路径的随机游走的方式,还是现有图卷积的训练构造方法,都属于无监督的方式,没有很好的利用到训练集中的先验知识。且实验发现其对网络结构的精确度要求非常高,引入低精确度但高召回的结构化特征构成边反而会降低得到的特征表示质量和最终的聚类效果,因此算法在实际应用中只能构造1-2个高精确度的结构化特征来进行使用,在大规模数据集很多传统特征不同程度失效的情况下,很难综合使用各类论文特征信息,具有较大的局限性。

发明内容

为此,本发明首先提出一种基于特征提取与融合的论文冷启动消歧方法,分为三个部分:

首先,构建深层细粒度的论文语义特征提取模型:输入待消歧的同名作者论文集,通过引入BERT及通过BERT变种及蒸馏模型提取语义特征为整个语义表征框架提供充足的信息支撑,分别尝试以二元组和三元组的方式构造下游学习任务进行训练,再通过设计的下游任务学习到与作者消歧任务相关且有较强判别性能的语义特征,结合对抗训练来避免过拟合现象,并面向论文作者消歧任务特点对模型网络结构、训练过程、优化目标进行针对性的优化设计;

之后,构建能对特征的判别力差异及特征间关系进行建模的结构化特征提取模型,通过将聚类任务转化为二分类任务来进行训练样本的构造,并尝试使用基于决策树的集成学习方法和其他机器学习方法进行结构化表征训练,利用训练集中每个待消歧作者名下的类别信息让模型对论文结构化特征的贡献差异与其特征间的逻辑关系进行学习和建模;

最后,构建可充分利用多项结构化特征且避免网络节点表征过度平滑的特征融合模型,基于现有无监督图卷积方法,利用二元组及三元组的下游任务构造方式来引入训练集的先验知识进行图卷积神经网络的训练,从而得到可用的模型,最终通过模型划分为同名不同作者的论文簇,每个论文簇内的论文属于同一作者。

所述BERT变种及蒸馏模型的具体实现方式为:选用6层的MiniLM模型,通过三项设计来实现上述目的:一是不同于层间一一对应的蒸馏方式,Student模型蒸馏Teacher模型完整的自注意分布中最后一层Transformer的注意力分布;二是在queries、keys、values之间都添加缩放点积操作;三是引入助教机制来为大型预训练Teacher模型到极小Student模型的蒸馏进行过度。

所述下游学习任务具体设计为:基于训练集中的聚类信息使用如下算法构建训练样本:在训练过程中基于待消歧作者名下的每篇论文

Loss函数的设计中定义BERT与Pooling层共同构成的神经网络映射为f,网络模型中三个子网络共享权重W,采用cosine余弦距离来度量两篇论文得到的语义表征向量,并基于此计算三元组下游任务构造方式下的优化目标Loss

所述对抗训练的方法为:从优化理论的角度出发,基于梯度设计一种对抗训练方式,首先将原始样本输入模型进行正向传播,并得到损失函数的计算结果,然后通过链式法则反向传播将梯度回传至原始样本输入,基于损失函数对样本输入向量的正梯度产生某种程度的扰动,并将此扰动添加至原始样本得到对抗样本,然后将对抗样本向量作为模型输入进行正向传播并加入优化目标中,以此优化目标通过梯度下降法最终完成模型参数的训练和更新。

所述结构化特征提取模型首先进行结构化特征选取,将通用的可用于论文作者消歧任务的字段分为两大类:非结构化语义特征和结构化关系特征,所述非结构化语义特征指的是具有较强语义信息的文本特征,包括论文题目、论文摘要、领域关键词三种,这些特征分别或拼接后通过语义表征模型将其表示为语义特征向量,所述结构化关系特征指的是特征本身的文本信息没有太大价值,而需要在两篇论文对应字段相比较时才能体现出价值,包括作者姓名、作者机构、会议名称、发表年份四种;

在进行结构化特征提取之前,首先计算每个字段值的IDF,即这个字段值在所有文献对应字段中出现的频率,用来表明该值对该字段判别力的强弱,之后进行结构化特征提取,基于结构化关系特征使用连续的数值定量化地描述关系的权重,并在后续设计的特征融合方法中解决传统方法中会出现的严重过度平滑问题,

对于后续本发明设计的基于图结构的特征融合算法,将论文的语义表征向量作为节点,而结构化关系特征作为边,首先定义某种论文间关联关系特征的计算方式,当两篇论文间该关系特征的计算结果不为0时,则在两篇论文对应节点间构建一条此关系类型的边,边的权重即为该关系特征的计算结果,当构造的关联关系特征不止一类时,图网络中节点与节点之间将存在不同类型的边,即通过结构化特征提取算法构建的论文网络为一个异质图结构。

所述结构化表征训练方法为:引入LGBM模型来对上述构造好的结构化特征的区别贡献和特征间关系进行建模,通过定义二分类的下游任务,模型将构建一系列的梯度提升树,来根据论文关系异质图网络按边的类型拆分后的结果的不同关系特征对应的子图结构预测两篇论文是否为同一作者所写,在过程中对不同结构化特征的贡献区别和之间的关系进行建模,模型的输出即为两篇论文关系特征的强弱。

所述特征融合模型的构建过程为,基于语义特征提取与关系特征提取得到的以论文语义表征向量为节点、论文间关系权重为边的论文关系网络,训练能在特征空间保留原有图结构的新的节点表征向量,将论文非结构化语义特征与论文结构化关系特征进行融合,最终的论文聚类将在上述得到的节点表征空间进行,空间内论文节点之间的距离将作为聚类算法的聚类依据;

具体方法为:假设全部待消歧作者构成的集合为

然后将Y与

具体实现时,采用二元组的下游任务构造方式,在训练集上挑选论文对

本发明所要实现的技术效果在于:

本发明主要通过构建深层细粒度的论文语义特征提取模型、能对特征的判别力差异及特征间关系进行建模的结构化特征提取模型、可充分利用多项结构化特征且避免网络节点表征过度平滑的特征融合模型,研究和实现一套在大规模数据集及实际工程应用中具有高准确性、高通用性、可扩展性的论文作者消歧算法框架。

附图说明

图1二元下游任务与三元下游任务下的模型架构

图2基于梯度的对抗训练方法

图3论文结构化特征提取与关系网络构建

图4基于集成学习对多种结构化特征进行聚合

图5基于GCN的有监督特征融合训练流程

具体实施方式

以下是本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于此实施例。

本发明提出了一种基于特征提取与融合的论文冷启动消歧方法。方法主要分为三个部分:

(1)构建深层细粒度的论文语义特征提取模型。通过引入BERT及其变种的深层神经网络模型,分别尝试以二元组和三元组的方式构造下游任务进行训练,并面向论文作者消歧任务特点对模型网络结构、训练过程、优化目标等方面进行针对性的优化设计,以实现对论文研究子领域、句式表达特点等深层语义特征进行抽取和表示,提升语义特征在大规模数据集和复杂同名情况下的判别力,并希望在特征空间中获得清晰的决策边界,从而使异质图结构拥有高质量的节点表示,为后续特征融合的准确度提供保障。

(2)构建能对特征的判别力差异及特征间关系进行建模的结构化特征提取模型。通过将聚类任务转化为二分类任务来进行训练样本的构造,并尝试使用基于决策树的集成学习方法和其他机器学习方法,利用训练集中每个待消歧作者名下的类别信息,来让模型对论文结构化特征的贡献差异与其特征间的逻辑关系进行学习和建模,从而构建起一个稠密但可灵活面向不同数据集融合多项结构化特征的异质图网络结构,用于后续论文语义特征与结构化特征的融合。

(3)构建可充分利用多项结构化特征且避免网络节点表征过度平滑的特征融合模型。尝试基于现有无监督图卷积方法,利用二元组及三元组的下游任务构造方式来引入训练集的先验知识进行图卷积神经网络的训练。

深层细粒度的论文语义特征提取模型

论文中往往存在着深层语义特征来为作者消歧提供信息支持,这些特征可能包括:研究子领域的信息、句型句式特点、表达逻辑等。而目前主流框架在论文研究子领域识别能力上有所不足。

本发明提出基于预训练模型结合下游任务的模型实现非结构化语义特征的提取:通过BERT变种及蒸馏模型提取语义特征为整个语义表征框架提供充足的信息支撑,再通过设计的下游任务学习到与作者消歧任务相关且有较强判别性能的语义特征,结合对抗训练来避免过拟合现象。

BERT变种及蒸馏模型

在这里本发明希望使用BERT变种及蒸馏模型来对论文内容的深层细粒度语义特征进行抽取,其在NLP领域实现的深度且有效的网络结构和预训练方法可以帮助更好地抓取到论文中的深层语义特征,为整个语义表征框架提供充足的信息支撑。通过实验比较后选用了6层的MiniLM模型

MiniLM是为了解决基础BERT等预训练模型存在的推理速度慢、内存占用大、在小规模数据集及特征跨度较大的数据集上易过拟合这三点问题,提出的一种面向基于Transformer的预训练模型的压缩方法。其主要通过三项设计来实现上述目的:一是不同于层间一一对应的蒸馏方式,Student模型没有学习Teacher模型完整的自注意分布,而是只蒸馏了其最后一层Transformer的注意力分布,消除了Teacher模型和Student模型层间一一映射的约束,使得Student模型结构和层数可以更加灵活;二是为了让Student模型能更深入地模仿Teacher的自注意行为,在queries、keys、values之间都添加缩放点积操作,其还能在不引入其他参数的情况下,将不同大小的隐层维度转换为相同尺寸的关系矩阵,进一步提升了Student隐层维度选择上的灵活性;引入了助教机制来为大型预训练Teacher模型到极小Student模型的蒸馏进行过度,在Transformer层数降低一半以上、隐层维度的蒸馏效果降低一半以上情况下,进一步提升了其性能。

下游学习任务设计

在模型通过预训练和蒸馏提取到较为通用的语义特征和语言学特征后,为了使模型学习到与作者消歧任务相关且有较强判别性能的语义特征,需要在训练集聚类任务的基础上定义出有监督的下游任务来进行模型的训练。

本发明在模型训练中采用了孪生网络的方式,模型结构如图1左侧所示,这是一种基于一对神经网络建立的耦合架构,网络由两个结构和参数均相同的神经网络构成。

图1中右侧下游学习任务的构造方法,借鉴了图像领域人脸识别任务的处理方式。本发明发现论文语义特征消歧任务上,某个作者可能有多个子领域的研究方向,不同作者也可能存在相同子领域的研究方向,造成相同作者编写论文之间的语义相似度有可能小于不同作者编写论文之间的语义相似度。这和人脸识别任务中的问题很相似,即同一个人正脸和侧脸拍摄图像的相似度可能小于两个不同人正脸和正脸拍摄图像之间的相似度。

故在下游学习任务构造时,尝试基于训练集中的聚类信息使用如下算法构建训练样本:在训练过程中基于待消歧作者名下的每篇论文

而Loss函数的设计参考了图像领域解决该问题时使用到的Triplet Loss。这里定义BERT与Pooling层共同构成的神经网络映射为f,网络模型中三个子网络共享权重W。采用cosine余弦距离来度量两篇论文得到的语义表征向量,并基于此计算三元组下游任务构造方式下的优化目标Loss

对抗训练方法

由于科学文献的研究子领域数量非常庞大,训练过程中前后不同Batch训练样本的特征跨度差异较大,会引起训练过程的不稳定。相同作者存在不同研究子领域、不同作者存在相同研究子领域的情况也会加剧这一点,并引起较早的过拟合现象。故为了使训练效果在验证集和测试集上的提升更加稳定,并且尽量减少过拟合现象的发生,本发明在这里尝试引入对抗训练方法来解决上述两项问题。

根据现有研究中的论述以及相关工作中的经验性实验,证明了尽管在图像处理领域对抗训练方法使用的目的通常是为了规避基于梯度的神经网络攻击,训练后的模型对非对抗样本的泛化性能反而会下降,但在自然语言处理领域反而能提升模型的泛化性能和模型鲁棒性,拥有类似于正则化的效果和应用价值。

本发明引入的对抗训练方法是从优化理论的角度出发,基于梯度的一种对抗训练方式。

对抗样本构造及训练方法如图2所示。首先将原始样本输入模型进行正向传播,并得到损失函数的计算结果,然后通过链式法则反向传播将梯度回传至原始样本输入,基于损失函数对样本输入向量的正梯度产生某种程度的扰动,并将此扰动添加至原始样本得到对抗样本,然后将对抗样本向量作为模型输入进行正向传播并加入优化目标中,以此优化目标通过梯度下降法最终完成模型参数的训练和更新。

特征关系建模的论文结构特征提取模型

结构化特征选取

发表在各类期刊、会议、学术杂志上的科学文献,尽管在可用字段类型、字段格式、字段值域等方面各有不同,但取其交集可以将通用的可用于论文作者消歧任务的字段分为两大类:非结构化语义特征和结构化关系特征,如下表所示。

表1科学文献通用字段信息及其分类

上表列出的均为在各个科学文献系统数据集上比较通用的文献特征,即大部分科学文献系统数据集中除个别数据字段值缺失外均具有的几个常见字段。从方法比较的公平性出发,现有论文作者消歧领域的研究也都基于上表所示的文献特征展开。其中,论文题目、论文摘要、会议名称字段均为字符串类型,每篇文献仅对应一个字符串;而领域关键词、作者姓名、作者机构是元素为字符串的列表类型,领域关键词数量不固定,一般为五个左右,而作者姓名列表的大小范围较广,作者姓名和作者机构列表按元素顺序保持一一对应,即每个作者都拥有一个作者机构;论文发表年份为整数类型,一般为一个四位整数。

这里非结构化语义特征指的是具有较强语义信息的文本特征,上表列出了论文题目、论文摘要、领域关键词三种,这些特征可以分别或拼接后通过语义表征模型将其表示为语义特征向量,这部分特征是判别论文是否为同一作者所写的基础特征,因为同一个作者的研究领域在通常情况下都具有一定的相关性,很少发生极大的语义特征跨度。而结构化关系特征指的是特征本身的文本信息没有太大价值,而需要在两篇论文对应字段相比较时才能体现出价值,上表列出了作者姓名、作者机构、会议名称、发表年份四种。以作者姓名为例,单独从姓名的字符串中无法提取得到有价值的语义信息,但是当一个姓名出现在两篇论文的作者列表中时,则代表这两篇论文极大可能存在一个额外共同作者,增加了这两篇论文为同一待消歧作者所写的概率。因此本发明将这类文献特征归为结构化关系特征,用于建立论文之间的关系,上表中关于非结构化语义特征和结构化关系特征只是可能的一种分类方式,有些字段可以同时属于两种类型,例如会议名称、作者机构等字段中可能包含一定的能指示论文所属领域的语义信息,这些字段也可以作为语义特征进行使用。

结构化特征提取

基于上文中选择的四种结构化关系特征,可以构造多种论文间的关联关系,在这里为了尽可能保证对论文间关系强弱建模的准确性,本发明使用了连续的数值定量化地描述关系的权重,并在后续设计的特征融合方法中解决传统方法中会出现的严重过度平滑问题。

对于后续本发明设计的基于图结构的特征融合算法,对结构化关系特征的提取过程即为图结构的构建过程,如图3所示。将论文的语义表征向量作为节点,而结构化关系特征作为边。首先定义某种论文间关联关系特征的计算方式,当两篇论文间该关系特征的计算结果不为0时,则在两篇论文对应节点间构建一条此关系类型的边,边的权重即为该关系特征的计算结果。当构造的关联关系特征不止一类时,图网络中节点与节点之间将存在不同类型的边,即通过结构化特征提取算法构建的论文网络为一个异质图结构。

在进行结构化特征提取之前,本发明首先计算了每个字段值的IDF,即这个字段值在所有文献对应字段中出现的频率,用来表明该值对该字段判别力的强弱。这样设计的出发点在于,相同单词在不同字段出现时,其语义含义以及对两篇论文是否为同一作者所写的判别力是不同的,例如“conference”这个单词在“VENUE”字段出现时通常对论文所属领域的判断是无意义的,但在“TITLE”字段出现时很可能代表论文的研究领域是与会议流程制定、在线会议软件开发等业务相关的,对论文间关系的构建是有价值的。

在进行结构化特征提取之前,本发明首先计算了每个字段值的IDF,即这个字段值在所有文献对应字段中出现的频率,用来表明该值对该字段判别力的强弱。

基于LGBM的结构化表征训练

针对目前现有方法在进行基于图结构的特征融合时,使用到的邻接矩阵均为手工构造,即直接利用结构化特征的选择和提取结果进行组合和简单叠加。但通过数据分析不难发现,不同的结构化特征对于两篇论文是否为同一作者所写的判别力相差较大,且判别过程需要同时考察多种结构化特征之间的关系的。现有方法将所有结构化特征视为对判别同等重要且无逻辑关系的,使得其若使用全部结构化特征构建图网络,则在特征融合和后续聚类时错分率极高。

为了解决这两项问题,并且摆脱对人工特征工程的严重依赖,使算法框架在不同数据集上都具备更强的通用性和准确性,本发明在这里引入LGBM模型来对上述构造好的结构化特征的区别贡献和特征间关系进行建模。

图4展示的即基于LGBM的结构化表征训练和应用过程。通过定义二分类的下游任务,模型将构建一系列的梯度提升树,来根据论文关系异质图网络按边的类型拆分后的结果得到的不同关系特征对应的子图结构预测两篇论文是否为同一作者所写,在过程中对不同结构化特征的贡献区别和之间的关系进行建模,模型的输出即为两篇论文关系特征的强弱。

1.1 5.3基于图结构的论文特征融合

通过上两节的论文语义特征提取与论文关系特征提取,可以得到一个以论文语义表征向量为节点、论文间关系权重为边的论文关系网络,本部分将基于上述图网络结构进行图嵌入方法的研究,通过训练能在特征空间保留原有图结构的新的节点表征向量,将论文非结构化语义特征与论文结构化关系特征进行融合。最终的论文聚类将在上述得到的节点表征空间进行,空间内论文节点之间的距离将作为聚类算法的聚类依据。

图卷积神经网络(GCN)在做图嵌入时,需要依托于一个恰当的下游任务和优化目标,来指导神经网络中模型参数的训练。现有方法在基于GCN进行特征融合时,使用其手工构建的稀疏化的邻接矩阵A

假设全部待消歧作者构成的集合为

然后将Y与

具体实现时,可以采用二元组的下游任务构造方式,在训练集上挑选论文对

模型结构和训练过程如图5所示。

相关技术
  • 基于多特征融合的文献库冷启动作者同名消歧方法及设备
  • 一种基于高置信度特征属性分层聚类方法的论文同名作者消歧方法
技术分类

06120115594663