复杂语义增强异构信息网络表示学习方法和装置

文献发布时间：2023-06-19 09:29:07

技术领域

本申请涉及计算机技术领域，特别是涉及一种复杂语义增强异构信息网络表示学习方法和装置。

背景技术

现实世界中系统往往由大量类型多样、相互联系的部分构成。近年来，采用网络视角对系统进行建模，为了便于处理，通常只抽取类型相同的节点和联系、采用同质信息网络对系统进行建模，如作者合作网络、论文引用网络等，往往难以同时描述不同类型的节点及其连接，造成信息损失。而事实上，作者通过论文建立合作关系，论文之间具有引用关系，不同类型的节点和联系可以共同构成更丰富的异构信息网络。

为了充分利用网络中丰富的节点类型及其关系，由不同类型节点及其联系构成的异构信息网络逐渐成为研究的热点。例如由论文及其所含术语、撰写作者、发表地，由演员、电影、导演等不同类型节点及联系构成的异构信息网络。

最近，在处理网络表示学习方面有一些成果。DeepWalk首先生成随机游走，然后在该游走上应用Skip-gram来生成嵌入。Node2vec提出了一种偏向随机游走生成方法，以使用Skip-gram模型更好地探索网络的结构信息。但是，这两种方法随机生成序列，而忽略了丰富的语义信息。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决表达学习时忽略丰富语义信息的复杂语义增强异构信息网络表示学习方法、装置、计算机设备和存储介质。

一种复杂语义增强异构信息网络表示学习方法，所述方法包括：

从文本数据中提取异构信息网络，抽取所述异构信息网络蕴含的元图；所述异构信息网络包括：节点、节点类型、节点间关系以及关系的类型；

根据所述元图引导在所述异构信息网络中进行随机游走，以得到所述异构信息网络中节点转移至其邻居节点的转移概率；

根据所述转移概率，得到语义路径集合；所述语义路径集合中包括：多条由不同类型节点和关系组成的语义路径；

查询所述语义路径集合中包含共享节点的两条路径，如果所述共享节点对应的节点类型属于给定节点类型，则将两条路径在所述共享节点处进行级联；如果所述共享节点对应的节点类型不属于给定节点类型，并且根据给定节点类型压缩得到的路径相似度超过阈值，则将两条路径在所述共享节点处进行级联；

当级联后的路径达到预设长度或者任意两条路径没有共享节点时，长程语义路径挖掘终止；长程语义路径集合

根据所述长程语义路径集合

在其中一个实施例中，还包括：根据所述元图

根据所述异构信息网络

其中，

在其中一个实施例中，还包括：设置需要考虑的邻居节点上下文窗口大小w，根据长程语义路径集合，通过使当前节点

最大化上下文窗口中邻居节点出现概率为：

其中，

假设窗口中邻居节点

对于异构信息网络，窗口中邻居节点

其中，

对概率函数

利用语义路径集合

其中，

当达到预设的迭代条件时，得到训练好的神经网络模型，将待表示节点及其上下文邻居节点集输入训练好的神经网络模型，输出待表示节点的分布式向量表示结果。

在其中一个实施例中，还包括：将所述目标函数采用负样本进行优化，得到近似目标函数为：

其中，

在其中一个实施例中，确定参数更新函数为：

其中，

在其中一个实施例中，通过生成器和判别器的对抗学习对神经网络模型的参数进行调整。

一种复杂语义增强异构信息网络表示学习装置，所述装置包括：

元图生成模型，用于从文本数据中提取异构信息网络，以及抽取所述异构信息网络对应的元图；所述异构信息网络包括：节点、节点类型、节点间关系以及关系的类型；

长程语义路径生成模块，用于根据所述元图引导在所述异构信息网络中进行随机游走，以得到所述异构信息网络中节点转移至其邻居节点的转移概率；根据所述转移概率，得到语义路径集合；所述路径集合中包括：多条由不同类型节点和关系组成的语义路径；查询所述语义路径集合中包含共享节点的两条路径，如果所述共享节点对应的节点类型属于给定节点类型，则将两条语义路径在所述共享节点处进行级联；如果所述共享节点对应的节点类型不属于给定节点类型，并且根据给定节点类型压缩得到的路径相似度超过阈值，则将两条路径在所述共享节点处进行级联；当级联后的路径达到预设长度或者任意两条路径没有共享节点时，长程语义路径挖掘终止；所述长程语义路径集合中包括：随机游走生成的语义路径和挖掘得到的长程语义路径；

表示学习模块，用于根据所述长程语义路径集合，进行异构信息网络的表示学习。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从文本数据中提取异构信息网络，抽取所述异构信息网络蕴含的元图；所述异构信息网络包括：节点、节点类型、节点间关系以及关系的类型；

根据所述元图引导在所述异构信息网络中进行随机游走，以得到所述异构信息网络中节点转移至其邻居节点的转移概率；

根据所述转移概率，得到语义路径集合；所述语义路径集合中包括：多条由不同类型节点和关系组成的语义路径；

查询所述路径集合中包含共享节点的两条路径，如果所述共享节点对应的节点类型属于给定节点类型，则将两条路径在所述共享节点处进行级联；如果所述共享节点对应的节点类型不属于给定节点类型，并且根据给定节点类型压缩得到的路径相似度超过阈值，则将两条路径在所述共享节点处进行级联；

当级联后的路径达到预设长度或者任意两条路径没有共享节点时，长程语义路径挖掘终止；所述长程语义路径集合中包括：随机游走生成的语义路径和挖掘得到的长程语义路径；

根据所述长程语义路径集合，进行异构信息网络的表示学习。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

从文本数据中提取异构信息网络，抽取所述异构信息网络蕴含的元图；所述异构信息网络包括：节点、节点类型、节点间关系以及关系的类型；

根据所述元图引导在所述异构信息网络中进行随机游走，以得到所述异构信息网络中节点转移至其邻居节点的转移概率；

根据所述转移概率，得到语义路径集合；所述语义路径集合中包括：多条由不同类型节点和关系组成的语义路径；

根据所述长程语义路径集合，进行异构信息网络的表示学习。

上述复杂语义增强异构信息网络表示学习方法、装置、计算机设备和存储介质，通过元图引导，提取“长程”的隐含语义关系，应用于分类、聚类和推荐任务，较现有方法的性能更高，特别是针对大规模异构信息网络,极大提升了表示学习的性能和效率。

附图说明

图1为一个实施例中复杂语义增强异构信息网络表示学习方法的流程图；

图2为实施例中路径

图3为一个实施例中路径

图4为一个实施例中路径

图5为一个实施例中路径

图6为一个实施例中路径

图7为一个实施例中表示学习的流程图；

图8为一个实施例中复杂语义增强异构信息网络表示学习装置的结构示意图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种复杂语义增强异构信息网络表示学习方法，包括以下步骤：

步骤102，从文本数据中提取异构信息网络，抽取异构信息网络蕴含的元图。

文本可以是从网页中提取的文本，也可以是本地导入的Word、TXT等文本。异构信息网络指的是多个节点类型或者多个连边类型构成的网络。异构信息网络中的节点类型和连边类型构成了网络模式，元图是在网络模式上定义的有向无环图。

具体的，异构信息网络、网络模式、元图以及表示学习的定义如下：

异构信息网络

对于异构信息网络

对于网络模式

对于异构信息网络

步骤104，根据元图引导在异构信息网络中进行随机游走，以得到异构信息网络中节点转移至其邻居节点的转移概率，根据转移概率，得到语义路径集合。

语义路径集合中包括：多条由不同类型节点和关系组成的语义路径。

具体的，类型为

根据所述元图

然后在从其开始的关系中，节点

步骤106，查询路径集合中包含共享节点的两条路径，如果共享节点对应的节点类型属于给定节点类型，则将两条路径在所述共享节点处进行级联；如共享节点对应的节点类型不属于给定节点类型，并且两条路径中共享节点对应的相似度超过阈值，则将两条路径在所述共享节点处进行级联。

步骤108，当级联后的路径达到预设长度或者任意两条路径没有共享节点时，长程语义路径挖掘终止，得到长程语义路径集合。

长程语义路径集合中包括：随机游走生成的语义路径和挖掘得到的长程语义路径。

步骤110，根据长程语义路径集合，进行异构信息网络的表示学习。

上述复杂语义增强异构信息网络表示学习方法中，通过元图引导，提取”长程”的隐含语义关系，应用于分类、聚类和推荐任务，较现有方法的性能更高，特别是针对大规模异构信息网络，极大提升了表示学习的性能和效率。

在其中一个实施例中，根据元图

其中，

具体的，如果没有符合条件的类型或语义路径达到设置的长度，则随机游走将终止。

实际上，采用随机游走采样面临的问题包括元图抽取为指数级规模，计算成本高，以及随机游走得到的路径可能缺少现实意义。鉴于这些问题，设计了语义增强策略，基于随机游走进一步生成语义明确的长程路径，有助于捕获远距离节点之间的语义和结构相关性。

在其中一个实施例中，给定一个节点类型

1、如果共享节点

2、如果共享节点

根据规则1，在给定节点类型为“论文”的情况下，图2中的路径

根据规则2，路径

如果没有共享节点或长度满足要求，则长程语义路径的挖掘将终止。如果派生给定数量的长程路径，或者无法派生其他长程路径，则过程终止。

在其中一个实施例中，根据长程语义路径集合，设置需要考虑的邻居节点上下文窗口大小，最大化窗口内上下文节点的出现概率，学习所述当前节点的分布式向量表示结果；

最大化上下文窗口中邻居节点出现概率为：

其中，

假设窗口中邻居节点

对于异构信息网络，窗口中邻居节点

其中，

对概率函数

利用语义路径集合

其中，

在其中一个实施例中，还包括：将目标函数采用负样本进行优化，得到近似目标函数为：

其中，

传统的负采样用于通过随机替换路径中每个采样的正节点的值来生成负数据以供学习。对于每个采样的路径

但是，上述负采样受到限制，例如从原始异构信息网络的现有节点中选择负采样，而无法学习底层分布以获得更强大的嵌入。

具体的，为了解决这些问题，进一步利用生成对抗网络（GAN）进行对抗学习的微调。

如图7所示，生成器G输入从分布

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，提供一种复杂语义增强异构信息网络表示学习装置，如图8所示，包括：

元图生成模型802，用于从文本数据中提取异构信息网络，抽取所述异构信息网络蕴含的元图；所述异构信息网络包括：节点、节点类型、节点间关系以及关系的类型；

长程语义路径生成模块804，用于根据所述元图引导在所述异构信息网络中进行随机游走，以得到所述异构信息网络中节点转移至其邻居节点的转移概率；根据所述转移概率，得到语义路径集合；所述语义路径集合中包括：多条由不同类型节点和关系组成的语义路径；查询所述语义路径集合中包含共享节点的两条路径，如果所述共享节点对应的节点类型属于给定节点类型，则将两条路径在所述共享节点处进行级联；如果所述共享节点对应的节点类型不属于给定节点类型，并且根据给定节点类型压缩得到的路径相似度超过阈值，则将两条路径在所述共享节点处进行级联；当级联后的路径达到预设长度或者任意两条路径没有共享节点时，长程语义路径挖掘终止；长程语义路径集合中包括：随机游走生成的语义路径和挖掘得到的长程语义路径；

表示学习模块806，用于根据所述长程语义路径集合，进行异构信息网络的表示学习。

在其中一个实施例中，长程语义路径生成模块804还用于根据所述元图，计算当前节点类型基于语义可达特定类型邻居节点的关系类型数量，随机选择一种语义关系游走到特定类型的邻居节点；根据所述特定类型邻居节点数量、所述语义可达特定类型邻居节点的关系类型数量，得到根据所述异构信息网络从当前节点转移至邻居节点的转移概率为：

其中，

在其中一个实施例中，表示学习模块806还用于根据长程语义路径集合，设置需要考虑的邻居节点上下文窗口大小，通过使当前节点的上下文邻居节点出现概率最大化学习节点的分布式向量表示结果；

最大化上下文窗口中邻居节点出现概率为：

其中，

假设窗口中邻居节点

对于异构信息网络，窗口中邻居节点

其中，

对概率函数

利用语义路径集合

其中，

在其中一个实施例中，表示学习模块806还用于将所述目标函数采用负样本进行优化，得到近似目标函数为：

其中，

在其中一个实施例中，表示学习模块806还用于确定参数更新函数为：

其中，

在其中一个实施例中，表示学习模块806还用于通过生成器和判别器的对抗学习对神经网络模型的参数进行调整。

关于复杂语义增强异构信息网络表示学习装置的具体限定可以参见上文中对于一种复杂语义增强异构信息网络表示学习方法的限定，在此不再赘述。上述复杂语义增强异构信息网络表示学习装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种复杂语义增强异构信息网络表示学习方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：胡艳丽;何春辉;方阳;彭娟;张鹏飞;
专利申请人：中国人民解放军国防科技大学;