掌桥专利:专业的专利平台
掌桥专利
首页

一种基于多视角图学习的引文网络骨架构建方法

文献发布时间:2023-06-19 18:46:07


一种基于多视角图学习的引文网络骨架构建方法

技术领域

本发明涉及学术领域中基于论文的引用网络进行骨架构建的方法,尤其涉及到一种基于多视图学习的重要节点识别与节点之间影响力度相结合为引文网络构建骨架的方法。

背景技术

骨架网络是由原始网络中的关键节点和节点之间的连边所构成,可以很大程度上保持原始网络拓扑结构的子网络。骨架网络建立时抽取出的重要元素,对网络的结构和功能有更大的影响,重要性相对较高。近年来,骨架构建一直是关注的热点,相关研究主要集中于人脑网络与电力系统。引文网络可以追踪科学的历史与发展脉络,在论文数目呈指数增长的大数据时代,应用复杂网络理论和方法,识别出论文引用网络中的重要论文节点,并将这些节点构成富含整个引用网络信息的骨架,展示论文之间深层次关系,不仅有助于学者理解引用网络的特征和科学发展的脉络,把握科学前沿与动态,而且能在信息过载的情况下帮助学者提取出有效信息,提升信息利用率。

现有研究在骨架构建方面已取得一定成果,但将这些方法应用在引文网络骨架构建中仍存在以下不足:重要节点识别是引文网络骨架构建中的关键步骤,随着信息通信技术与科学技术的飞速发展,科学研究活动中产生的数据越来越多,引文关系已经形成一个超大规模的复杂网络系统。如何在节点繁多、关系复杂的引文网络中精准识别出重要节点是引文网络骨架构建的难点之一。当前重要节点识别方法通常在单层网络中度量节点重要性,无法利用复杂繁多的关系全面反映重要节点的特征,识别结果不够准确。此外,与其他复杂网络相比,论文节点之间的关系复杂且彼此影响,节点之间的引用关系反映了知识的传播与应用,重要论文的启发论文也同样重要,因此度量节点之间的相互影响力对引文网络骨架构建尤其重要,而现有方法并未考虑节点之间的相互影响。因此,如何有效融合多维度特征,识别出引用网络中的重要节点,并细粒度地计算论文之间的相互影响,是构建引文骨架网络是研究中的重要问题。

发明内容

本发明的目的主要针对现有传统算法无法有效融合多维度属性、识别准确率不高、未考虑节点之间相互影响的问题,提出引文网络骨架构建方法,力求能准确建立引用网络的层次结构,展示相关研究的发展历程。首先,本方法基于多视角图学习,同时考虑网络结构、外部信息以及节点之间的多种关系,构建有效融合多维度属性特征的重要节点识别算法,从多个视角学习重要节点特征。其次,基于随机游走思想计算论文节点之间的相互影响力大小,为引用网络构建骨架网络。本发明首次使用多视角图学习与随机游走相结合的方法为引文网络骨架构建问题提供了一种新方法。

本发明的技术方案:

一种基于多视角图学习的引文网络骨架构建方法,包括以下步骤:

(1)基于论文之间的引用关系、共被引关系以及共关键字关系构建多层关系网络;

(2)基于步骤(1)构建的多层关系网络识别其中的重要节点

2.1)属性视图特征学习

2.1.1)基于构建的多层关系网络获取节点的外部属性信息,包括影响论文p

其中,Au为论文所有作者的集合,C

基于热门方向的论文往往会受到更多学者的关注,提出话题流行度TP指标,计算公式为:

其中,m∈M为论文p

其中,|ref|为论文p

利用论文所发表期刊的影响因子IF(p

2.1.2)利用步骤2.1.1)获取的属性特征矩阵计算属性视图下节点表征;节点的重要度不仅与自身属性相关,还与网络中其他节点,尤其是邻居节点对它的贡献度相关;为有效融合邻居节点的贡献,采用图卷积神经网络,通过学习函数f

其中,A′=A+I

其中,

其中,N

2.2)结构视图特征学习

2.2.1)基于构建的多层关系网络获取网络的结构特征信息,包括节点的度、节点的介数、接近中心性以及节点的聚类系数,计算得出引用网络的结构特征矩阵X

2.2.2)利用步骤2.2.1)获取的结构特征矩阵计算结构视图下节点表征,采用卷积操作计算结构特征视图的最终表示,卷积过程如下:

其中,

最后整个图的相关系数矩阵为

2.3)关系视图特征学习

2.3.1)基于构建的多层关系网络获取多层网络邻接矩阵集合A={A

2.3.2)利用步骤2.3.1)获取的关系特征矩阵计算关系视图下节点表征;采用协同训练的方式,最大化不同关系视图间的相互一致性,减少计算复杂度,获取多关系视图下节点的表示;将聚合多层网络的拉普拉斯矩阵表示为

其中,

h

基于协同训练的思想,计算关系视图下节点的最终表示:Hr=max(H

2.4)多视图聚合;在聚合节点最终表示时,为了有效融合属性特征表示、结构特征表示与关系特征表示,采用注意力机制学习不同视图的重要度:

其中h

其中,x

2.5)重要节点标签预测;将得到的最终节点的表示H作为SoftMax分类器的输入,使用SoftMax分类器识别重要节点,将分类结果与SIR模拟实验得出的节点重要度排序结果进行比较,以优化负对数似然损失函数;最终基于分类的交叉熵损失函数为:

其中,p

2.6)重要节点标记;使用步骤2.5)中预测的节点标签,标记网络中的重要节点;

(3)基于步骤(2)识别的重要节点构建骨架网络

3.1)以每篇论文i的参考文献构成该节点的母节点集合P

3.2)采用随机游走的思想衡量两篇论文的相似性;从节点i′到节点i的两步随机游走可以经过他们的共同参考文献,这种情况下对s

3.3)计算从节点i到节点i′的两步随机游走概率度量两篇论文的相似性:

3.4)线性聚合

3.5)其对每篇中心论文i,根据I

3.6)对骨架网络中的节点重复执行步骤(1)~(5),构建引文网络骨架。

本发明的有益效果:本发明仅利用引文网络中节点的外部属性信息、网络结构以及节点之间的多种关系,将多视角图学习方法和随机游走方法相结合,突破了传统方法在引文网络骨架构建问题中的不足,同时引入注意力机制更好地进行节点表征。实验结果表明本发明提出的方法更适合处理复杂的学术网络结构,相比其他的方法具有更高的准确性和可靠性。本发明的实验结果也验证了引文网络骨架构建有助于细粒度展示引文网络中节点之间的知识传递关系,更加客观地体现引文网络中知识的传播、利用与创新,同时实验结果也能够良好的反映网络的组成和结构。本发明提供了学术引用网络中骨架网络构建的一种新方法,为研究引文网络提供了一种新的解决方案。

附图说明

图1为本发明的实验流程,根据Cord-19和MAG中的论文数据,结合多视角图学习和随机游走,提出引文网络骨架构建方法。

图2(a)为医学领域原始引用网络,图2(b)构建的医学领域骨架网络。图2(c)为生物学领域原始引用网络,图2(d)构建的生物学领域骨架网络。

具体实施方式

以下结合附图和技术方案,进一步说明本发明的具体实施方式。

一种基于多视角图学习的引文网络骨架构建方法,包括以下步骤:

步骤1:根据真实的论文发表情况,构建学术多层网络

本发明基于COVID-19开放研究数据集CORD-19构建论文引用网络。CORD-19不仅包含和COVID-19相关的论文,同时还包含了其他冠状病毒的研究成果。这些论文元数据来自于PubMed Central(PMC)、BioRXiv、MedRXiv和WHO COVID-19。首先对数据进行预处理,包括数据的筛选过滤。在实验过程从CORD-19中筛选了2020年以后发表,其标题或摘要包含“COVID-19”、“SARS-CoV-2”、“2019-NCOV”这些关键词的论文。为了按研究领域对论文进行分类,在Microsoft Academic Graph(MAG)中匹配COVID-19论文集,并根据论文之间的引用关系构建引文网络。同时,利用MAG中的元信息计算论文属性特征并根据论文之间的引用关系、共被引关系以及同关键字关系构建学术多层网络。最后,本文在由生物学和医学两个领域论文构建的引文网络上进行了实验。

步骤2:基于步骤1构建的多层网络识别网络中的重要节点,包括以下几个步骤:

(2.1)基于构建的多层网络获取节点的外部属性信息,依据公式计算如下指标,包括影响论文重要程度的因素如论文所发表期刊的影响因子IF(p

利用上述特征构成特征矩阵作为属性特征学习的输入,即

(2.2)构建属性特征学习视图,利用属性特征矩阵获取节点表征。基于图卷积神经网络,有效融合邻居节点的贡献,并区分邻居节点的重要性差异,首先利用注意力机制为每个邻居节点学习不同的权重:

最后整个网络的相关系数矩阵

神经网络第l层卷积层属性特征学习的输出:

(2.3)基于构建的多层网络获取网络的结构特征信息,包括节点的度、节点的介数、接近中心性、以及节点的聚类系数,计算得出引用网络的结构特征X

(2.4)构建结构特征视图,计算结构视图中第l层卷积层节点之间的相关性矩阵:

最后整个图的相关系数矩阵为

(2.5)基于构建的多层网络获取多层网络邻接矩阵集合A={A

(2.6)构建关系视图,采用协同训练的方式,获取多关系视图下节点的表示。在每种关系视图r下,加入节点的自连接以保存节点自身的结构特征:

其中,

(2.7)在关系视图r下,学习节点的特征表示:

(2.8)聚合多层网络的表示,其拉普拉斯矩阵可以表示为

(2.9)基于协同训练的思想聚合,计算关系视图下节点的最终表示:

Hr=max(H

(2.10)多视图聚合,得到节点的最终表示:

其中,a

其中,x

(2.11)基于得到的节点表示识别重要节点。将得到的最终节点的表示H作为分类器的输入,使用SoftMax分类器,将分类结果与SIR模拟实验得出的节点重要度排序结果进行比较,以优化负对数似然损失函数。最小化交叉熵损失函数获取节点的标签以及最终表示:

(2.12)基于训练集训练模型参数,将调整好的模型应用在整个网络中,获取q

步骤3:基于步骤2识别的重要节点构建骨架网络,包括以下几个步骤:

(3.1)将识别的重要节点加入到骨架网络中;

(3.2)为步骤(3.1)中的骨架网络中节点执行以下操作:以每篇论文i的参考文献构成该节点的母节点集合P

(3.3)采用随机游走的思想衡量两篇论文的相似性。计算从节点i′到节点i的两步随机游走概率以测量节点之间的相似性:

(3.3)计算从节点i到节点i′的两步随机游走概率以测量节点之间的相似性:

(3.4)线性聚合

(3.5)对每篇重要论文i,根据I

(3.6)对骨架网络中的节点重复执行步骤(3.1)~(3.5),构建引文网络骨架,医学领域骨架构建结果如图2(b),生物学领域骨架构建结果图2(d)所示。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围,本发明的保护范围以所述权利要求的保护范围为准。

技术分类

06120115686941