掌桥专利:专业的专利平台
掌桥专利
首页

一种基于力导向算法的知识图谱布局优化方法

文献发布时间:2023-06-19 11:29:13


一种基于力导向算法的知识图谱布局优化方法

技术领域

本发明涉及可视化技术和知识图谱技术,具体涉及一种基于力导向算法的知识图谱布局优化方法。

背景技术

知识图谱以图的形式描述客观世界中实体及其之间的关系,提供了一种更好的组织、管理和利用海量信息的方式,提高了网络的智能化。如今该技术在搜索引擎、智能问答等领域得到了广泛应用,这些领域多是将知识图谱运用在后台数据库中,呈现给用户的信息仍是以文字形式为主,影响了结果展示的直观性。

可视化技术的应用将直观的图示化方式引入到信息展示中,可以清晰地呈现数据信息。最常见的可视化表达形式是节点-链接图,节点表示实体,边表示实体间的关系,它可以直观的将图的整体结构和节点间的关联表示出来。

随着数据量爆炸式增长,数据间关系越来越复杂,快速生成合理的图布局的难度逐渐变大,图可视化的质量也受到影响,在图形可视化中会出现节点重合、边交叉等问题,使布局不美观,易造成视觉负担,因此图可视化领域中的很多研究内容是图布局算法,最具代表性的是力导向算法,基于力导向的布局算法中很典型且常用的算法包括Eades的弹簧模型(Spring-Embedded Model,1984),KK算法(Kamada和Kawai,Energy Model,1989)和FR算法(Fruchterman和Reingold,1991),算法优化问题已经越来越受到国内外学者的关注(Cheong S H,Si Y W.Snapshot Visualization of Complex Graphs with Force-Directed Algorithms[C]//2018IEEE International Conference on Big Knowledge(ICBK).IEEE,2018.),目前大多数的改进算法都是以上述几种模型为基础进一步发展的。力导向算法易于理解,容易实现,可以根据不同的需求添加约束条件来优化布局。但数据量巨大,数据结构复杂性变高,传统的力导向算法生成图布局的时间代价越来越大,Davidson和Harel引入模拟退火算法提升算法的灵活性和效率,Xu等人(Xu Z,Zhang P.An ImprovedForce-directed Algorithm Based on PageRank[C]//2019IEEE 4th AdvancedInformation Technology,Electronic and Automation Control Conference(IAEAC).IEEE,2019.)通过加入PageRank算法体现节点的重要性,可以更直观的获取知识图谱信息。

现在难度最大而又关键的问题是如何进行合理布局,同时加快算法的收敛,减少运行时间。因此,在FR模型的基础上结合节点的度的属性和自适应步长具有很高的研究价值。

发明内容

本发明的目的是将知识图谱在前端可视化展示,优化图布局,以图的形式呈现信息,为此提出了一种基于力导向算法的知识图谱布局优化方法。

本发明采用的技术方案是:基于力导向算法的知识图谱布局优化方法包括以下步骤:

步骤1,以FR模型为基础,改善力公式调整节点间的距离,使得位置分布更合理;步骤2,基于节点的度中心性和介数中心性判断节点的特征,以此来识别节点的重要程度,对节点进一步划分;步骤3,基于节点运行速度引入自适应步长,缩短节点振荡达到平衡状态所需花费的时间、避免节点反复振荡、加快算法的收敛;步骤4,使用医学数据集对上述构建的模型进行训练与测试,验证该模型的有效性。

进一步,所述步骤1具体包括:

首先以FR模型为基础构建初始布局,计算任意节点对之间的斥力,然后遍历图中所有边计算出直接相连的节点对之间的引力,结合计算出的引力和斥力得出每个节点在此迭代过程中的位移向量,按照设置的最大位移距离得出实际的位移向量;然后调整节点间的排斥力改善连接紧密节点与连接不紧密节点之间的距离。

进一步,所述调整节点间的距离的具体方法是:

根据FR算法的排斥力公式进行调整,两个节点之间的排斥力与两个节点的度数成正比,减弱连接不紧密节点与连接紧密节点之间的排斥力,使连接不紧密的节点更靠近连接紧密的节点,最终达到平衡状态,同时减少了对屏幕利用不充分的问题。

进一步,所述步骤2的具体过程为:

步骤2.1,选择度中心性和介数中心性作为指标来衡量节点的重要程度,减少节点数过多对视觉造成的干扰,从而得到更好的可视化展示效果;

步骤2.2,计算节点的度中心性D(p)和介数中心性B(p),突出显示关键节点;

步骤2.3,计算两个节点的引力或斥力之间的距离时,考虑节点尺寸的大小,引入节点之间“边界到边界”的距离,防止节点重叠:

d′(n

其中d(n

步骤2.4,按照上述步骤对模型进行训练,将输出结果进行对比。

进一步,所述步骤3的具体过程为:

步骤3.1,计算节点的摆动值,即给定步骤中施加于节点的力与前一步骤中施加于该节点的力之间的差,判断是否需要对其速度进行调整,计算公式如下:

swg(n)=|F

其中F

步骤3.2,计算全局摆动和全局有效牵引力这两个值来设置全局速度,全局速度决定了整体的运动:

其中tra(G)是节点有效牵引力的加权和,swg(G)是图形的全局运动中出现的不稳定运动的数量。

步骤3.3,调整节点自身的运行速度,节点摆动越多,速度越慢,节点被要求改变方向的次数越多,摆动的幅度就越大,需要减慢其速度使其收敛:

其中s(G)是图的全局速度。

步骤3.4,将上述步骤加入到步骤2所得的训练模型里,然后对模型进行训练。

进一步,所述步骤4的具体包括:

利用步骤3获得的训练模型对训练数据集进行训练,通过测试使模型得到优化。

训练过程为通过结合节点的属性特征和自适应步长得到新的模型,步骤1中排斥力公式的参数可以根据训练结果的对比进行调整,步骤3中计算节点速度公式中的参数根据对比节点达到平衡状态时花费的时间选取适合的参数;在训练时,使用医学数据集作为训练数据集对该模型进行训练,模型得到优化后验证该模型的有效性,最终得到知识图谱模型。

本发明的有益效果是:

知识图谱在搜索引擎、智能问答等领域已经得到了广泛应用,但多是被运用在后台数据库中,一般只有相关的技术开发人员才能看到知识图谱的展示效果,输出的信息仍是以文字为主,结果的展示不够直观。所谓一图胜千言,图的形式可以显示地表达事物间的联系,利用人类的视觉感知能力,帮助我们快速建立事物与事物之间的关系。在进行可视化时,数据的规模和复杂性对快速生成合理的图布局存在一定的影响。本发明提出了一种基于力导向算法的知识图谱布局优化方法,主要是基于经典力导向算法中的FR模型进行设计,利用节点的属性调整节点间的距离以及判断节点的重要程度,利用自适应步长调节摆动,加快算法的收敛。将节点的属性和自适应步长结合,发挥各自的优势,有效改善可视化布局中出现的边交叉问题,突出显示重要节点,减少节点达到平衡状态花费的运行时间。这种基于力导向算法的知识图谱可视化技术,将图示化方式引入到信息展示中,既方便了用户直接获取信息,也提高了图布局的合理性,为大规模复杂数据的可视化展示提供了技术支撑。

附图说明

图1是力导向布局算法流程图

图2是模型训练流程图

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清除、完整的描述。

如图1-2所示。

步骤1:以FR模型为基础,改善力公式调整节点间的距离,使得位置分布更合理。

(1)基于FR模型构建初始布局。

首先计算任意节点对之间的斥力

(2)调整节点间的排斥力改善连接紧密节点与连接不紧密节点之间的距离。

对高度连接的节点调整排斥度,排斥力是根据FR算法的力公式调整的,两个节点之间的排斥力与两个节点的度数成正比,减弱连接不紧密节点与连接紧密节点之间的排斥力,使连接不紧密的节点更靠近连接紧密的节点,最终达到平衡状态,调整后的公式为:

其中,F

步骤2:基于节点的度中心性和介数中心性判断节点的特征,以此来识别节点的重要程度,对节点进一步划分。

(1)使用度中心性和介数中心性这两个指标来衡量节点的重要性。

计算节点的度中心性,即网络拓扑中与该节点直接相连的节点的个数D(p)=deg(v),deg(v)为节点v的度数,即与节点v直接相连的节点的个数;再计算节点的介数中心性,即经过该节点的所有最短路径的数量

(2)引入节点之间“边界到边界”的距离。

在计算两个节点的引力或斥力之间的距离时,考虑节点尺寸的大小,引入节点之间“边界到边界”的距离来判断节点是否出现重叠问题,根据是否重叠选择使用的斥力和引力的公式,距离计算公式如下:

d′(n

其中,d′(n

步骤3:基于节点运行速度引入自适应步长的方法,缩短节点振荡达到平衡状态所需花费的时间、避免节点反复振荡、加快算法的收敛。

(1)计算节点的摆动值。

通过公式swg(n)=|F

(2)计算节点的有效牵引力。

节点的有效牵引力是施加到该节点的“有用力”的大小,该力有助于收敛,公式如下

(3)计算全局有效牵引力。

全局有效牵引力是节点有效牵引力的加权和,即tra(G)=∑

(4)计算全局摆动值。

全局摆动值表示图形的全局运动中出现的不稳定运动的数量,公式如下:

swg(G)=∑

其中,swg(G)是全局摆动值,swg(n)为节点n的摆动值。

(5)得到全局有效牵引力和全局摆动的值来设置全局速度,公式如下:

其中,s(G)是图的全局速度,τ是自己设置的参数,对照结果修改参数的值。

(6)计算节点的速度。

调整节点自身的运行速度达到调整节点摆动的目的,公式如下:

其中,s(n)为节点n自身摆动的速度,k

步骤4:使用医学数据集对上述构建的模型进行训练与测试,验证该模型的有效性。

通过结合节点的属性特征和自适应步长得到新的模型,步骤1中排斥力公式的参数可以根据训练结果的对比进行调整,步骤3中计算节点速度公式中的参数根据对比节点达到平衡状态时花费的时间选取适合的参数;在训练时,使用医学数据集作为训练数据集对该模型进行训练,最终得到知识图谱可视化模型。

本发明的一个最优具体实施方式:基于FR模型构建初始布局,该模型经过计算相邻节点间的引力和任意节点之间的斥力,反复迭代移动节点得到最优布局。在该过程中,加入结合节点的属性和自适应步长的方法。对原本的排斥力公式进行修改,取较为合适的参数值调整节点间的距离,合理分布位置。根据节点的度中心性和介数中心性突出显示重要节点,这样可以更直观的获得数据信息,关键信息可以快速的被感知、发现。在此基础上,引入了全局速度的概念调节算法的收敛。通过对不同性质的节点使用不同的速度达到减少振荡的目的,高度连接的节点倾向于快速振荡,摆动的幅度较大需要减慢速度才能使其收敛,连接不良的节点较稳定,可以适当的加快其速度使其高速运行,该速度不能高于全局速度,从而减少算法的整体运行时间。再利用构建的模型对训练数据集进行训练,最终得到良好布局的知识图谱。经上述步骤,最终实现了知识图谱可视化,且布局美观清晰。

综上所述,本发明的一种基于力导向算法的知识图谱布局优化方法,本方法共包含四步,第一步以FR模型为基础构建初始布局,改善力公式,对高度连接的节点调整排斥力,从而调整节点间的距离,使得位置分布更合理;第二步基于节点的度中心性和介数中心性识别节点的特征,以此来衡量节点的重要程度,对节点进一步划分;第三步基于节点运行速度引入自适应步长,缩短节点振荡达到平衡状态所需花费的时间、避免节点反复振荡、加快算法的收敛;第四步使用医学数据集对上述构建的模型进行训练与测试,验证该模型的有效性。该研究将图示化方式引入到信息展示中,既方便了用户直接获取信息,也提高了图布局的合理性,为大规模复杂数据的可视化展示提供了技术支撑。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

相关技术
  • 一种基于力导向算法的知识图谱布局优化方法
  • 一种基于力导引算法的图数据可视化布局优化方法
技术分类

06120112941521