导航：首页> 计算；推算；计数>一种推荐系统知识图谱链接预测方法、装置、设备和介质

一种推荐系统知识图谱链接预测方法、装置、设备和介质

文献发布时间：2024-04-18 20:02:40

技术领域

本发明涉及计算机知识图谱领域，特别涉及一种推荐系统知识图谱链接预测方法、装置、设备和介质。

背景技术

知识图谱是一种特殊的图结构，在知识图谱中，节点代表实体或概念，边代表实体之间的关系，实体表示自然界的物体或者抽象的概念，使用关系来建模实体之间的交互，其基本的存储形式是头实体h、关系r、尾实体t的三元组。在推荐系统向用户推荐可能认识的人或者相似的用户的过程中，所获得的知识图谱通常是一个包含用户和其关系的图形结构，这个知识图谱主要包括以下要素：图谱中的节点代表用户，每个用户都是一个节点，节点上可能包含用户的基本信息，如用户名、年龄、兴趣爱好等。边表示用户之间的关系，这些关系可以是用户之间的社交关系，例如朋友、关注、共同兴趣等，边上可能还包含关系的权重或其他属性，以表示关系的强度或类型。除了节点和边，知识图谱还可能包含用户的属性信息，这些属性信息可以是用户的个性化喜好、历史行为、地理位置等。推荐系统通过分析这个知识图谱，利用图上的节点、边以及其他信息，可以基于用户之间的社交关系，推荐用户可能认识的人或者与其有共同兴趣的人，或者通过分析用户节点之间的相似性，推荐具有相似兴趣或行为模式的用户。

基于图结构和事实三元组结构信息描述的的知识图谱技术在信息检索、推荐系统、人工智能问答等技术领域取得了广泛的应用。然而，知识图谱中存储的知识信息结构并不完善，实体之间可能缺少事实存在的链接，知识图谱的链接预测可以已知事实出发预测真实存在的未知事实。但真实实体间关系的复杂性、重叠性、传递性，以及相同头尾实体间关系的可能存在的多样性，这些数据往往复杂多样。知识图谱链接预测能够在已有的结点关系推测真实存在的未知结点关系。

但是现有模型在选择训练用的负例时很少研究过负例组的生成策略，如果负例生成策略不合理或不充分研究，可能会使得模型难以正确学习特征而导致对链接的预测性能低。并且传统的链接预测方法通常基于欧几里德空间进行嵌入表示，但复杂的开放世界图谱总是呈现非欧几里德结构，在进行复杂数据的嵌入表示时，欧几里德空间的嵌入向量会出现高度失真，导致知识图谱链接预测模型的预测性能降低。

发明内容

本发明提供一种推荐系统知识图谱链接预测方法、装置、计算机设备和介质，可以解决现有技术中知识图谱链接预测模型预测性能低的技术问题。

本发明提供一种推荐系统知识图谱链接预测方法，包括：

构建用于推荐相似用户的知识图谱链接预测模型，所述知识图谱链接预测模型包括映射双曲空间模块、图卷积模块、链接预测模块；

将推荐系统中的社交用户作为实体节点、社交用户之间的关系作为边获得待预测知识图谱，将待预测知识图谱输入到知识图谱链接预测模型中，映射双曲空间模块将待预测知识图谱映射到双曲空间中；图卷积模块在双曲空间中进行卷积操作，获得结果嵌入向量；链接预测模块根据结果嵌入向量输出知识图谱链接预测结果，根据预测结果推荐相似用户。

进一步的，还包括：构建知识图谱数据集对知识图谱链接预测模型进行训练，所述构建知识图谱数据集，包括：

获得知识图谱正例三元组：

其中，

对每个实体x

随机替换实体重要性

为头实体

比较

基于正例三元组和负例三元组构建知识图谱数据集。

进一步的，，所述映射双曲空间模块将待预测知识图谱映射到双曲空间中，包括：

通过One-Hot编码将待预测知识图谱每个实体表示成一个具有固定维度的二进制向量，其中只有一个元素是1，其余都是0，元素1的位置表示了对应实体的唯一索引，将所有实体的One-Hot编码组合成一个实体嵌入矩阵，其中每行对应一个实体的编码；

按照实体编码构造实体链接关系的邻接矩阵，邻接矩阵中存储头尾实体之间的链接关系；

将实体嵌入矩阵和邻接矩阵从欧式空间映射到双曲空间中，包括：

对知识图谱三元组中每个实体进行初始化，获得每个实体对应欧式空间中的欧式特征向量x

将欧式特征向量x

其中，

为双曲空间中的原点，其满足<(0,x

d是嵌入维度，k是庞加莱球模型的半径的平方，cosh(·)是双曲余弦函数，||x

进一步的，所述图卷积模块，包括：

输入层，其输入是待预测知识图谱的图结构，

与输入层输出端连接的若干个卷积层，卷积层用于计算嵌入向量信息，并将嵌入向量信息投影到具有不同曲率的双曲空间：

其中，W为权重矩阵，x

AGG

是莫比乌斯加法，/>

与最后一层卷积层输出端连接的输出层，用于输出结果嵌入向量。

进一步的，所述待预测知识图谱的图结构包括节点集

进一步的，所述链接预测模块输出知识图谱链接预测结果，包括：

计算每条边的近似得分：

其中，

取得分最大的边作为知识图谱链接预测结果。

进一步的，所述对知识图谱链接预测模型进行训练，包括：

将知识图谱数据集分为训练集、验证集和测试集；

对知识图谱链接预测模型的参数随机初始化，将训练集输入到知识图谱链接预测模型中，根据随机初始化的参数获得输出；

设计交叉熵损失函数：

其中，y

通过最小化交叉熵损失函数更新知识图谱链接预测模型的参数。

一种知识图谱链接预测装置，包括：

构建用于推荐相似用户的知识图谱链接预测模型，所述知识图谱链接预测模型包括映射双曲空间模块、图卷积模块、链接预测模块；

预测模块，用于：

一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述推荐系统知识图谱链接预测方法。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述推荐系统知识图谱链接预测方法，

本发明提供一种推荐系统知识图谱链接预测方法、装置、设备和介质，与现有技术相比，其有益效果如下：

本发明将待预测知识图谱映射到双曲空间中，在双曲空间中使用图卷进网络进行卷积操作获得结果嵌入向量，避免了在欧几里德空间中可能会出现的高度失真问题，提高了知识图谱链接预测模型的预测性能。并且本发明中负例组的生成方法是基于实体关系数量和随机数比较，倾向于替换那些在知识图谱中拥有较少关系的实体，保证生成的负例的质量，使其更有可能与知识图谱中的真实关系一致，有助于更好地反映实际知识图谱的特点，提高知识图谱链接预测模型的预测性能。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本说明书提供的模型示意图；

图2是本说明书提供的整体流程图；

图3是本说明书提供的生成负例三元组的流程图；

图4是本说明书提供的计算机设备示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

实施例

本发明专利设计了一种在知识图谱进行链接预测的模型，模型称作We-HyCGN-LP，该模型能够根据现有的知识图谱中头实体、关系和尾实体的数据，在双曲空间中的进行建模，获取实体与关系的特征，计算实体结点之间可能存在的关系，从而预测知识图谱中结点之间的可能存在链接，是一种新的知识图谱链接预测模型。该模型使用了在双曲空间的进行头尾实体和关系的嵌入表示，统知识图谱链接预测大都在欧几里德空间进行知识表示，节点的嵌入特征会有失真情况；同时，现有模型在选择训练用的负例时很少研究过负例组的生成策略，本发明使用模型的中设计了全新的负例组的生成算法，统计图谱每个结点的重要性，选取重要性高的结点置换为负样例。在图结构信息获取阶段，使用图卷积神经网络模型来获取实体之间的聚合特征，模拟结点之间的相互影响，使用One-Hot编码对实体类型进行编码，头实体、关系和尾实体信息聚合成三元组作为模型的输入信息，采用最小化交叉熵损失函数来训练模型，模型经过多层图卷积和双曲空间映射，最后一层输出结果嵌入向量用于链接预测，如图1～图2所示。

一种推荐系统知识图谱链接预测方法，具体包括

步骤1、构建知识图谱数据集

现有模型在选择训练用的负例时很少研究过负例组的生成策略，如果负例生成策略不合理或不充分研究，可能会导致过拟合以及泛化能力不足的问题，可以使用随机替换实体解决上述问题，但是传统随机替换实体可能存在一些潜在的坏处：低质量负例-随机替换实体的策略可能会导致生成低质量的负例三元组，因为它没有考虑知识图谱中实体的实际特征或关系分布，这些低质量的负例可能会导致模型学习到错误的关系模式。训练不稳定-由于生成的负例随机性较大，模型在每次训练迭代中都会面临不同的负例示例，导致训练不稳定，这可能需要更多的训练迭代才能达到收敛，增加了训练时间和资源成本。降低性能-过多的无效负例-随机替换实体会生成大量无效的负例，这些负例与知识图谱中的真实关系不一致，这些无效负例可能会增加训练数据的噪声，使模型难以正确学习。

本说明书使用一种全新的基于概率的正负例生成方法，基于概率的正负例生成方法基于一个核心思想，该思想非常简单：实体在知识图谱中的出现频率，与该实体在模型训练中作为训练数据而出现的价值呈正相关，基于这一思想，设计出负例组的生成算法—TN操作。基于概率的正负例生成方法主要包含四个步骤，首先对每个实体在知识图谱中的节点重要性进行统计，针对每个实体x，得到其节点重要性D

步骤2、构建用于推荐相似用户的知识图谱链接预测模型，知识图谱链接预测模型包括：

初始化嵌入阶段，知识图谱的信息包括

在映射双曲空间阶段，本说明书采用将欧几里德空间的特征映射到双曲空间中，对于知识图谱中每个实体，其经过神经网络初始化后生成的欧式特征向量假设为x

在图卷积和邻居特征信息融合阶段，本说明书采用图卷积神经网络来捕获图形空间特征，图卷积神经网络包括输入层、与输入层输出端连接的若干个卷积层、输出层，节点集

其中，W为权重矩阵，x

在庞加莱球的中心节点的正切空间

在链接预测阶段，在本说明书定义一个得分函数对三元组进行得分排序，使用公式计算每条边的近似得分，该计算公式：

参数学习阶段，给定知识图谱中三元组

本说明书还提供了本方法在不同数据集的ROC-AUC均值，如下表所示：

模型在不同数据集的ROC-AUC均值表:

通过在三个现有数据集中评估ROC曲线下的面积(Area Under Curve，AUC)，其中值越大表明模型效果越好，本说明书与六种模型进行了比较，结果显示在上表中。如表1所示，We-HyCGN-LP在CORA数据集上的ROC-AUC值都优于其他六个模型。实验结果表明，所提出的We-HyCGN-LP模型在真实数据上进行链接预测任务的表现良好。

为了解决传统的链接预测通常基于欧几里德空间进行嵌入表示，其表示能力本身就受到嵌入空间维数的限制，嵌入向量会出现高度失真问题；且传统链接预测均采用随机替换正确三元组的头尾实体来生成负例组的方法，导致模型的预测效果不佳。本发明提出基于概率的正负例生成方法生成负样例，将知识图谱中实体和关系映射到双曲空间中，并利用图卷积神经网络获取实体之间的关联，最后通过计算每条边的近似得分函数，对知识图谱中缺少的真实链接进行预测。本发明可以从已知事实出发预测真实存在的未知事实现知识图谱的补全和推理，应用在社交网络中向用户推荐熟人和相似的用户。

关于知识图谱链接预测装置的具体限定可以参见上文中对于推荐系统知识图谱链接预测方法的限定，在此不再赘述。上述知识图谱链接预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述推荐系统知识图谱链接预测方法。

本说明书还提供了图4所示的计算机设备的结构示意图，如图4所示，在硬件层面，该计算机设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述的推荐系统知识图谱链接预测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：浙江师范大学;

上一篇：白僵菌接种系统及接种方法
下一篇：小行星的选取方法、装置、计算机设备和存储介质