掌桥专利:专业的专利平台
掌桥专利
首页

一种基于类型与节点约束随机游走的异构网络表示学习方法

文献发布时间:2023-06-19 10:32:14


一种基于类型与节点约束随机游走的异构网络表示学习方法

技术领域

本发明涉及表示学习技术领域,尤其涉及一种基于类型与节点约束随机游走的异构网络表示学习方法。

背景技术

现实世界中许多系统都可以建模为异构信息网络(简称异构网络),例如文献科技网络、社交媒体网络和医疗信息网络,等等。其中,最经典的DBLP文献科技网络(简称DBLP网络)。异构网络同时包含了多种类型的实体和关系,比同构网络蕴含了更丰富的语义信息,因此,异构网络在各领域得到了广泛应用。随着网络规模的不断增加,传统方法(如基于邻接矩阵的方法)成为阻碍网络分析和挖掘任务的瓶颈。随着网络中语义和结构信息的不断增加,现有同构网络的理论和方法要么无法直接使用,要么复杂度大大增加。为了解决上述问题,异构网络表示学习成为当前的研究热点。

异构网络表示学习就是学习给定异构网络G=(V,E,A,R)的一个映射函数f:V→X∈R

目前,已经提出一些关于异构网络表示学习的方法,主要分为三类:基于分解的方法、基于深度学习的方法和基于随机游走的方法。其中,基于随机游走的异构网络表示学习方法是经典且应用比较广泛的一种方法。该类方法大多依赖于给定的元路径引导随机游走。元路径本质上是异构网络中语义的体现,网络中存在大量的元路径。虽然不同的元路径可以捕获不同的语义信息,但是,随着元路径长度的增加,元路径的数量呈指数级增长。这为基于元路径的随机游走方法在实际应用中带来挑战,而且,元路径的选取要么需要领域专家指导,要么需要将一组基于特定任务的预定义的元路径进行优化组合。无论单一路径的选取还是多条路径的组合,均要进行大量不同情况的尝试,而且确定的元路径限定了游走的灵活性。

针对元路径中存在的问题,已经有人提出了首个非元路径的异构网络随机游走模型JUST(Jump&Stay)。该模型在随机游走选取下一节点时应用Jump/Stay(跳转到其他类型/停留在当前节点类型)策略,但在JUST模型中,无论是停留还是跳转都仅从节点类型的数量出发进行考虑,忽略了网络模式中各节点类型间关系以及影响,体现出了很大的局限性。

发明内容

为此,本发明提供一种基于类型与节点约束随机游走的异构网络表示学习方法,通过将节点类型的共现概率作为节点类型的选取策略,实现了异构网络中各类节点间灵活的游走,通过将节点间的邻接关系作为节点的游走策略与节点选取的策略,实现了节点采样的均匀性。

为实现上述目的,本发明提供一种基于类型与节点约束随机游走的异构网络表示学习方法,包括:

步骤一,确定基于类型和节点约束的随机游走策略,并由此构建转移概率模型;

步骤二,通过随机游走得到游走序列W;

步骤三,将得到的游走序列W与Skip-Gram模型相结合以对游走序列W进行训练与学习;

步骤四,通过优化基于Skip-Gram模型的神经网络目标函数以学习到网络中节点的向量表示;

其中,所述基于Skip-Gram模型的神经网络目标函数如式(1)所示:

式(1)中,

进一步地,在所述步骤一中,所述基于类型和节点约束的随机游走策略包括:

步骤a,根据网络模式和研究目标,将节点类型划分为主类和辅类;

步骤b,根据游走路径中连续三个节点类型的共现概率值,选取概率值最大的组合确定下一节点的类型;

步骤c,根据连续三个节点之间拓扑结构中的邻接关系,以及回溯、深度或广度优先游走的概率值以确定节点的选取。

进一步地,在所述步骤a中,将所述网络模式记为T

其中,在异构网络G=(V,E,A,R)中,

V={v1,v2,…,vi,…,vl}表示节点的集合;

E={e1,e2,…,ej,…,eJ}表示边的集合;

A={A1,A2,…,An,…,AN}(N≤I)表示节点类型的集合;

R={R1,R2,…,Rm,…,RM}(M≤J)表示边类型的集合;

|V|=I表示节点的数量,|E|=J表示边的数量,|A|=N表示节点类型的数量,|R|=M表示边类型的数量,所述异构网络G=(V,E,A,R)满足|R|=M>1或|A|=N>1;

各所述节点vi∈V均表示一个特定的节点类型,记为φ(vi)=An∈A;

各所述边ej=(vi,vj)∈E均表示一个特定的关系类型,记为ψ(ej)=Rm∈R。

进一步地,在所述步骤a中,所述主类为被研究对象的类型,记为O;其余为辅类,记为

所述主类和辅类还能够通过下式进行表达:

O={A1,A2,…,An},

在所述异构网络G=(V,E,A,R)中,

在随机游走时,节点将在主辅类之间进行跳转,节点类型的停留概率如式(2)所示:

式(2)中,α表示节点停留在O类型的概率,α∈[0,1],1-α表示节点停留在

进一步地,所述转移概率模型包括节点vi+1类型的转移概率PType和节点vi+1的转移概率PInner;

给定异构网络G=(V,E,A,R),起始节点v

P(v

式(3)中,v

进一步地,在随机游走的过程中,给定异构网络G=(V,E,A,R),当已知当前节点类型Type(v

式(4)中,α表示第一参数,k表示第二参数;

在计算下一节点类型的转移概率时,通过按照上一节点、当前节点以及下一节点的排列顺序并根据所述三个节点的类型分布选取对应的计算公式计算下一节点类型的转移概率,

当所述三个节点的类型分布为OOO时,Type(v

当所述三个节点的类型分布为

当所述三个节点的类型分布为

当所述三个节点的类型分布为

当所述三个节点的类型分布为

进一步地,在所述式(4)中,当

式(5)中,当N=|A|=2时,网络中有两种类型的节点,令k=1;

当N>2时,

当Type(v

进一步地,确定节点类型后,根据下一节点v

式(6)中,d(v

当d(v

当d(v

当d(v

进一步地,所述第五参数h的值的设置如式(7)所示:

式(7)中,当所述三个节点的类型分布为OOO且Type(v

与现有技术相比,本发明的有益效果在于本发明实施例中基于类型与节点约束随机游走策略采用节点类型的共现概率作为节点类型的选取策略,使其不能长期停留在同一类型中,同时,采用节点间的邻接关系约束节点的选取,并控制节点的回溯、广度和深度游走,从而将节点间的邻接关系作为节点的游走策略与节点选取的策略,进而实现了异构网络中各类节点间灵活的游走和节点采样的均匀性。

进一步地,本发明实施例通过构建基于类型与节点约束随机游走策略的转移概率模型,在类型中,采用不同的参数来分别控制节点类型间的跳转概率和控制节点回溯、深度或广度的游走概率,进而实现了异构网络中各类节点间灵活的游走和节点采样的均匀性。

附图说明

图1为本发明基于类型与节点约束随机游走的异构网络表示学习方法的流程示意图;

图2为本发明基于类型与节点约束随机游走的异构网络表示学习方法的基于类型和节点约束的随机游走策略的流程示意图;

图3为本发明基于类型与节点约束随机游走的异构网络表示学习方法的随机游走模型图;

图4为本发明基于类型与节点约束随机游走的异构网络表示学习方法的节点类型跳转情况图;

图5为本发明基于类型与节点约束随机游走的异构网络表示学习方法的DBLP网络模式图;

图6为本发明基于类型与节点约束随机游走的异构网络表示学习方法的DBLP网络实例图;

图7为本发明基于类型与节点约束随机游走的异构网络表示学习方法的第一参数α的影响性质分析图;

图8为本发明基于类型与节点约束随机游走的异构网络表示学习方法的第二参数k的影响性质分析图;

图9为本发明基于类型与节点约束随机游走的异构网络表示学习方法的第三参数q的影响性质分析图;

图10为本发明基于类型与节点约束随机游走的异构网络表示学习方法的第四参数p的影响性质分析图。

具体实施方式

为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。

需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1、图2和图3所示,图1为本发明基于类型与节点约束随机游走的异构网络表示学习方法的流程示意图,图2为本发明基于类型与节点约束随机游走的异构网络表示学习方法的基于类型和节点约束的随机游走策略的流程示意图,图3为本发明基于类型与节点约束随机游走的异构网络表示学习方法的随机游走模型图,本发明提供一种基于类型与节点约束随机游走的异构网络表示学习方法,包括:

步骤一,确定基于类型和节点约束的随机游走策略,并由此构建转移概率模型;

步骤二,通过随机游走得到游走序列W;

步骤三,将得到的游走序列W与Skip-Gram模型相结合以对游走序列W进行训练与学习;

步骤四,通过优化基于Skip-Gram模型的神经网络目标函数以学习到网络中节点的向量表示;

其中,所述基于Skip-Gram模型的神经网络目标函数如式(1)所示:

式(1)中,

本发明所述实施例中的Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线;一种基于类型和节点约束的随机游走策略也成称为基于Type和Inner约束的随机游走策略。

具体而言,在所述步骤一中,所述基于类型和节点约束的随机游走策略包括:

步骤a,根据网络模式和研究目标,将节点类型划分为主类和辅类;

步骤b,根据游走路径中连续三个节点类型的共现概率值,选取概率值最大的组合确定下一节点的类型;

步骤c,根据连续三个节点之间拓扑结构中的邻接关系,以及回溯、深度或广度优先游走的概率值以确定节点的选取。

本发明所述实施例中的研究目标也称为具体应用背景;

具体而言,在所述步骤a中,将所述网络模式记为T

其中,在异构网络G=(V,E,A,R)中,

V={v1,v2,…,vi,…,vl}表示节点的集合;

E={e1,e2,…,ej,…,eJ}表示边的集合;

A={A1,A2,…,An,…,AN}(N≤I)表示节点类型的集合;

R={R1,R2,…,Rm,…,RM}(M≤J)表示边类型的集合;

|V|=I表示节点的数量,|E|=J表示边的数量,|A|=N表示节点类型的数量,|R|=M表示边类型的数量,所述异构网络G=(V,E,A,R)满足|R|=M>1或|A|=N>1;

各所述节点vi∈V均表示一个特定的节点类型,记为φ(vi)=An∈A;

各所述边ej=(vi,vj)∈E均表示一个特定的关系类型,记为ψ(ej)=Rm∈R。

本发明所述实施例中的异构网络为无符号的异构网络。

具体而言,在所述步骤a中,所述主类为被研究对象的类型,记为O;其余为辅类,记为

所述主类和辅类还能够通过下式进行表达:

O={A1,A2,…,An},

在所述异构网络G=(V,E,A,R)中,

在随机游走时,节点将在主辅类之间进行跳转,节点类型的停留概率如式(2)所示:

式(2)中,α表示节点停留在O类型的概率,α∈[0,1],1-α表示节点停留在

本发明所述实施例中若希望节点停留在O类型,可将α的值设置的大一些;若希望节点在不同类型之间跳转,可将α的值设置的小一些。所述主类还可以为网络中与大多数类都相连的类型;

具体而言,所述转移概率模型包括节点vi+1类型的转移概率PType和节点vi+1的转移概率PInner;

给定异构网络G=(V,E,A,R),起始节点v

P(v

式(3)中,v

本发明所述实施例中的转移概率也称为选取概率。

具体而言,在随机游走的过程中,给定异构网络G=(V,E,A,R),当已知当前节点类型Type(v

式(4)中,α表示第一参数,k表示第二参数;

在计算下一节点类型的转移概率时,通过按照上一节点、当前节点以及下一节点的排列顺序并根据所述三个节点的类型分布选取对应的计算公式计算下一节点类型的转移概率,

当所述三个节点的类型分布为OOO时,Type(v

当所述三个节点的类型分布为

当所述三个节点的类型分布为

当所述三个节点的类型分布为

当所述三个节点的类型分布为

本发明所述实施例中式(4)中各类型间的跳转情况,如图4所示。由式(4)和图4可知,本文给出了五种情况下,Type(v

具体而言,在所述式(4)中,当

式(5)中,当N=|A|=2时,网络中有两种类型的节点,令k=1;

当N>2时,

当Type(v

具体而言,确定节点类型后,根据下一节点v

式(6)中,d(v

当d(v

当d(v

当d(v

本发明所述实施例中结合第五参数h、第四参数p和第三参数q还可以控制节点的回溯优先游走。

具体而言,所述第五参数h的值的设置如式(7)所示:

式(7)中,当所述三个节点的类型分布为OOO且Type(v

本发明所述实施例中构建转移概率模型后,得到第一参数α、第二参数k、第四参数p、第三参数q和第五参数h与Type(vi+1)和vi+1选取的相关性质如下:

性质1,当

由性质1可知,当节点类型划分后,第一参数α控制节点类型的选择偏向于停留在O还是跳转到

1)当Type(vi-1)∈O时,α<0.5时,Type(vi+1)偏向于跳转到

2)当

3)当α=0.5时,Type(vi+1)随机选择。

性质2,当Type(v

由性质2可知,参数k控制着

1)当0<k

2)当k

3)当k

性质3,随着q∈(0,+∞)值的增加,v

性质4,随着p∈(0,+∞)值的增加,v

由性质3和4可知,在不考虑参数h的影响时,综合考虑v

1)当0<q<1时,v

2)当p>max(q,1)时,偏向于不返回v

性质5,当d(v

实施例1

以DBLP网络为例,对上述转移概率模型进行详细的说明,包括O和

(a)DBLP网络中O和

参阅图5所示,分析出P类型可以向其他类型跳转,而A、C、T只能向P类型跳转,彼此之间不能跳转,因此,令P为O类型,A、C、T为

(b)DBLP网络中节点类型的选取

参阅图6所示,当Type(p

(c)DBLP网络中节点的选取

继续参阅图6所示,当v

当d=0时,v

当d=1时,v

当d=2时,v

由(b)可知,此时Type(v

因为PPP,所以h=1。

若令p=1且q=1,则三个节点的P

若令p=2且q=0.5,则三个节点的P

至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于类型与节点约束随机游走的异构网络表示学习方法
  • 基于边的随机游走的网络表示学习方法和装置
技术分类

06120112586789