掌桥专利:专业的专利平台
掌桥专利
首页

一种融合节点的获取方法及装置

文献发布时间:2024-04-18 19:54:45


一种融合节点的获取方法及装置

技术领域

本发明涉及自然语言处理技术领域,更具体的说,涉及一种融合节点的获取方法及装置。

背景技术

在知识图谱的管理与维护的过程中,涉及到外部节点或子图需要与主图谱合并,目前,通过节点的名称,对待融合节点(外部节点或子图中的节点)和图谱中的节点的融合概率进行计算,由此确定融合节点,显然,仅依据名称确定的融合概率的准确度较低,融合节点的准确性有待提高。

发明内容

鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的融合节点的获取方法及装置,如下:

一种融合节点的获取方法,包括:

获取待融合节点的属性信息,所述属性信息包括多个预设的属性项的属性值;

获取目标节点的所述属性信息,所述目标节点包括待融合图谱中的节点;

获取第一属性值和第二属性值的相似度,作为目标属性项的相似度;所述第一属性值包括所述待融合节点的目标属性项的属性值,所述第二属性值包括所述目标节点的目标属性项的属性值,所述目标属性项包括所述待融合节点的属性信息和所述待融合节点的属性信息中相同的属性项;

依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度;

将满足预设的相似度条件的目标节点作为所述待融合节点的融合节点,所述相似度条件包括与所述待融合节点的相似度大于第一预设阈值。

可选地,属性项包括:名称、类别和至少一项其他属性项,所述获取目标节点的所述属性信息之前,还包括:

获取所述待融合图谱中的每一节点的名称的属性值和类别的属性值;

获取所述待融合图谱中的每一节点的名称的属性值和所述待融合节点的名称的属性值的相似度,作为每一节点与所述待融合节点的名称相似度;

将满足预设的候选融合条件的节点作为目标节点,所述候选融合条件包括类别与所述待融合节点的类别相同,且与所述待融合节点的名称相似度大于第二预设阈值。

可选地,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,包括:

对所述第一属性值进行数值检测,以判断所述第一属性值是否包括数值;

若所述第一属性值包括数值,则获取所述第一属性值和所述第二属性值的文本相似度和数值相似度;

将所述文本相似度和所述数值相似度加权相加,得到所述第一属性值和所述第二属性值的相似度,作为所述目标属性项的相似度。

可选地,获取所述第一属性值和所述第二属性值的文本相似度,包括:

获取所述第一属性值和所述第二属性值的距离,作为所述第一属性值和所述第二属性值的第一文本相似度;

将第一词集合和第二词集合的相同序位的词的余弦相似度加权相加,得到所述第一属性值和所述第二属性值的第二文本相似度,所述第一词集合包括依序排列的所述第一属性值中的各个词的词向量,所述第二词集合包括依序排列的所述第二属性值中的各个词的词向量;

将第一目标词集合的词向量数量和第二目标词集合的词向量数量的比值,作为所述第一属性值和所述第二属性值的第三文本相似度,所述第一目标词集合为所述第一词集合和所述第二词集合的交集,所述第二目标词集合为所述第一词集合和所述第二词集合的并集;

将所述第一文本相似度、所述第二文本相似度、和所述第三文本相似度加权相加,得到所述第一属性值和所述第二属性值的文本相似度。

可选地,获取所述第一属性值和所述第二属性值的数值相似度包括:

获取所述第一属性值中的数值,作为第一数值;

获取所述第二属性值中的数值,作为第二数值;

获取所述第一数值和所述第二数值的差值;

依据所述差值,获取所述数值相似度,所述差值与所述数值相似度呈反相关。

可选地,依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度,包括:

将各个所述目标属性项的相似度加权相加,得到所述目标节点和所述待融合节点的相似度。

一种融合节点的获取装置,包括:

第一属性获取单元,用于获取待融合节点的属性信息,所述属性信息包括多个预设的属性项的属性值;

第二属性获取单元,用于获取目标节点的所述属性信息,所述目标节点包括待融合图谱中的节点;

属性相似度获取单元,用于获取第一属性值和第二属性值的相似度,作为目标属性项的相似度;所述第一属性值包括所述待融合节点的目标属性项的属性值,所述第二属性值包括所述目标节点的目标属性项的属性值,所述目标属性项包括所述待融合节点的属性信息和所述待融合节点的属性信息中相同的属性项;

节点相似度获取单元,用于依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度;

融合节点获取单元,用于将满足预设的相似度条件的目标节点作为所述待融合节点的融合节点,所述相似度条件包括与所述待融合节点的相似度大于第一预设阈值。

可选地,属性项包括:名称和类别,本装置还包括:目标节点获取单元,用于:

在所述获取目标节点的所述属性信息之前获取所述待融合图谱中的每一节点的名称的属性值和类别的属性值;

获取所述待融合图谱中的每一节点的名称的属性值和所述待融合节点的名称的属性值的相似度,作为每一节点与所述待融合节点的名称相似度;

将满足预设的候选融合条件的节点作为目标节点,所述候选融合条件包括类别与所述待融合节点的类别相同,且与所述待融合节点的名称相似度大于第二预设阈值。

一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行任一项所述的融合节点的获取方法。

一种电子设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行任一项所述的融合节点的获取方法。

借由上述技术方案,本发明提供的一种融合节点的获取方法及装置,获取待融合节点的属性信息,获取目标节点的属性信息,目标节点包括待融合图谱中的节点,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度,将满足预设的相似度条件的目标节点作为待融合节点的融合节点。由于其中,属性信息包括多个预设的属性项的属性值,目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项,第一属性值包括待融合节点的目标属性项的属性值,第二属性值包括目标节点的目标属性项的属性值,显然,多个目标属性项的相似度表征两个节点(待融合节点和目标节点)多个维度上的相似度,因此,依据多个维度上的相似度获取的目标节点和待融合节点的相似度的准确度高,又由于,相似度条件包括与待融合节点的相似度大于第一预设阈值,因此,本方案提高了融合节点的准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明提供的一种融合节点的获取方法的流程示意图;

图2示出了本发明提供的一种融合节点的获取方法的具体实现方式的流程示意图;

图3示出了本发明提供的一种融合节点的获取装置的结构示意图;

图4示出了本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供的一种融合节点的获取方法应用于但不限于节点与主图谱的融合场景下,确定主图谱中与节点融合的节点的过程。需要说明的是,将主图谱作为待融合图谱,待融合图谱包括若干节点(节点指示实体)以及节点间的关联关系,具体参见现有技术中的知识图谱。图1示出了本发明提供的一种融合节点的获取方法的流程示意图,如图1所示,本发明包括:

S101、获取待融合节点的属性信息。

本实施例中,属性信息包括多个预设的属性项的属性值。需要说明的是,获取属性信息的方法包括多种,且具体的属性项根据实际场景获取。例如,在一种可选的应用场景下,属性项包括名称、类别、地理位置深度、面积、年产油料中的至少两项。

S102、获取目标节点的属性信息。

本实施例中,目标节点包括待融合图谱中的至少一个节点。例如,目标节点包括待融合图谱中的所有节点。再例如,目标节点通过对待融合图谱中的所有节点筛选得到,具体的一种可选的获取目标节点的方法参见下述实施例。

S103、获取第一属性值和第二属性值的相似度,作为目标属性项的相似度。

本实施例中,第一属性值包括待融合节点的目标属性项的属性值,第二属性值包括目标节点的目标属性项的属性值。目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项。

例如,待融合节点的属性信息包括属性项{A、B、C、D},对应的属性值分别为{a1、b1、c、d},目标节点的属性信息包括属性项{A、B、F、G},对应的属性值分别为{a2、b2、f、g},则,目标属性项包括A和B。

将A作为目标属性值时,第一属性值为a1,第二属性值为a2,将B作为目标属性值时,第一属性值为b1,第二属性值为b2。目标属性值A的相似度为a1和a2的相似度,目标属性值B的相似度为b1和b2的相似度。获取任意两个属性值的相似度的方法包括多种,具体可以参见现有技术或者下述实施例。

S104、依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度。

需要说明的是,依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度的方法包括多种,例如,获取各个目标属性项的相似度的中位值或平均值作为目标节点和待融合节点的相似度,再例如,获取各个目标属性项的相似度的加权相加的结果,作为目标节点和待融合节点的相似度。

具体获取目标节点和待融合节点的相似度的方法可以参见现有技术或下述实施例。

S105、将满足预设的相似度条件的目标节点作为待融合节点的融合节点。

本实施中,相似度条件包括与待融合节点的相似度大于第一预设阈值。

借由上述技术方案,本发明提供的一种融合节点的获取方法及装置,获取待融合节点的属性信息,获取目标节点的属性信息,目标节点包括待融合图谱中的节点,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度,将满足预设的相似度条件的目标节点作为待融合节点的融合节点。由于其中,属性信息包括多个预设的属性项的属性值,目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项,第一属性值包括待融合节点的目标属性项的属性值,第二属性值包括目标节点的目标属性项的属性值,显然,多个目标属性项的相似度表征两个节点(待融合节点和目标节点)多个维度上的相似度,因此,依据多个维度上的相似度获取的目标节点和待融合节点的相似度的准确度高,又由于,相似度条件包括与待融合节点的相似度大于第一预设阈值,因此,本方案提高了融合节点的准确性。

需要说明的是,图1所示的融合节点的方法包括多种可选的具体实现方式,图2示出了本发明提供的一种融合节点的获取方法的具体实现方式的流程示意图,如图2所示,本发明具体包括:

S201、获取待融合节点的属性信息。

本实施例中,属性信息包括多个预设的属性项的属性值。具体地,多个预设的属性项包括名称、类别和至少一项其他属性项,例如,其他属性项包括但不限于地理位置深度、面积、和年产油料。

S202、获取待融合图谱中的每一节点的名称的属性值和类别的属性值。

S203、获取待融合图谱中的每一节点的名称的属性值和待融合节点的名称的属性值的相似度,作为每一节点与待融合节点的名称相似度。

本实施例中,每一节点的名称的属性值和待融合节点的名称的属性值的相似度的获取方法包括多种,例如,获取节点名称的属性值和待融合节点的名称的属性值的距离(包括欧氏距离或者编辑距离等),依据距离获取节点名称的属性值和待融合节点的相似度。具体可以参见现有技术,本实施例不做赘述。

S204、将满足预设的候选融合条件的节点作为目标节点。

本实施例中,候选融合条件包括类别与待融合节点的类别相同,且与待融合节点的名称相似度大于第二预设阈值。

具体地,按照类别完全匹配的方式,获取第一候选节点,其中,第一类候选节点为与待融合节点的类别完全匹配(也即完全一致)的节点。进一步,从第一候选节点中,获取待融合节点的名称相似度大于第二预设阈值的节点,作为目标节点加入到候选节点集合。

需要说明的是,图谱中往往包括大量的节点,本步骤根据“label(指示类别的标签)+name(名称)”的匹配方式,获取候选节点集合,获选节点集合中包括多个目标节点(也称候选节点),可以理解的是,通过标签和名称对节点进行初步筛选,由于,候选节点均满足候选融合条件,因此,得到数量较小且准确的候选节点,降低了计算资源的需求且提高了计算相似度的速度。

S205、获取目标属性项。

由上可知,目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项。

S206、对第一属性值进行数值检测,以判断第一属性值是否包括数值。

本实施例中,第一属性值包括待融合节点的目标属性项的属性值。数值检测的具体方法参见现有技术。

需要说明的是,若第一属性值包括数值,则执行S207~S214。

S207、获取第一属性值和第二属性值的数值相似度。

本实施中,第二属性值包括目标节点的目标属性项的属性值。

具体地,获取第一属性值和第二属性值的数值相似度的具体方法包括:

1、获取第一属性值中的数值,作为第一数值。

2、获取第二属性值中的数值,作为第二数值。

3、获取第一数值和第二数值的差值。

需要说明的是,若第一数值和第二数值的单位不同,则将第一数值和第二数值进行单位统一后,计算差值。本步骤中,差值为第一数值和第二数值相减后取绝对值。

4、依据差值,获取数值相似度,差值与数值相似度呈反相关。

需要说明的是,差值与数值相似度呈反相关也即,差值越大,数值相似度越小,一种可选的数据相似度的方法包括:

依据第一数值和第二数值的差值,获取第一数值和第二数值的差异率。其中,差值与第一数值的绝对值的比例大于1时,差异率取值为1,差值与第一数值的绝对值的比例不大于1时,差异率取值为该比例值。

若依据差异率获取数值相似度,可选地,数值相似度等于1减去差异率的差值。

可选地,依据差异率获取数值相似度为一种可选的将差值归一化的方法,在一些可选的实施例中,还包括其他的依据差值归一化得到数值相似度的方法,具体方法参见现有技术。

S208、获取第一属性值和第二属性值的距离,作为第一属性值和第二属性值的第一文本相似度。

可以理解的是,第一属性值和第二属性值的距离指示第一属性值和第二属性值相似程度,因此,距离与第一文本相似度成正相关。本实施例中,距离计算方法包括多种,例如,tf-idf(term frequency–inverse document frequency,词频-逆文本频率)算法和BM25算法。

在可选的一些实施例中,第一属性值包括第二属性值,或者第二属性值包括第一属性值时,第一属性值和第二属性值的第一文本相似度为1。S209、将第一词集合和第二词集合的相同序位的词的余弦相似度加权相加,得到第一属性值和第二属性值的第二文本相似度。

本实施例中,第一词集合包括依序排列的第一属性值中的各个词的词向量,第二词集合包括依序排列的第二属性值中的各个词的词向量。

需要说明的是,获取任意两个词向量之间的余弦相似度的方法参见现有技术。具体的一种加权相加的方法为,获取每一序位的预设的权重系数,按照序位的权重系数将第一词集合和第二词集合的相同序位的词的余弦相似度加权相加。其中,序位越大,权重系数越小。

进一步需要说明的是,本步骤可以通过预设的第二相似度模型(基于文字位置不同权重的距离计算模型)计算第一属性值和第二属性值的第二文本相似度,具体的模型构建方法参见现有技术。

S210、将第一目标词集合的词向量数量和第二目标词集合的词向量数量的比值,作为第一属性值和第二属性值的第三文本相似度。

本实施例中,第一目标词集合为第一词集合和第二词集合的交集,第二目标词集合为第一词集合和第二词集合的并集。

具体地,将第一词集合和第二词集合进行去重,并获取第一目标词集合和第二目标词集合,进一步,获取第一属性值和第二属性值的第三文本相似度。

需要说明的是,本步骤可以通过预设的第三相似度模型(集合化处理的相似度模型)计算第一属性值和第二属性值的第三文本相似度,具体的模型构建方法参见现有技术。

S211、将第一文本相似度、第二文本相似度、和第三文本相似度加权相加,得到第一属性值和第二属性值的文本相似度。

需要说明的是,本实施例通过对多种相似度计算方法得到的,表征第一属性值和第二属性值的文本相似度的相似度加权相加,提高了第一属性值和第二属性值的文本相似度的准确度。

S212、将文本相似度和数值相似度加权相加,得到第一属性值和第二属性值的相似度,作为目标属性项的相似度。

需要说明的是,本实施例通过分别对数值和文本进行相似度计算,并依据文本相似度和数值相似度,获取目标属性项的相似度,相对于仅依据文本相似度获取相似度的方法,提高了相似度计算的准确度。

S213、将各个目标属性项的相似度加权相加,得到目标节点和待融合节点的相似度。

S214、将满足预设的相似度条件的目标节点作为待融合节点的融合节点。

本实施例中,相似度条件包括与待融合节点的相似度大于第一预设阈值。

借由上述技术方案,本发明提供的一种融合节点的获取方法及装置,获取待融合节点的属性信息,获取目标节点的属性信息,目标节点包括待融合图谱中的节点,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度,将满足预设的相似度条件的目标节点作为待融合节点的融合节点。由于其中,属性信息包括多个预设的属性项的属性值,目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项,第一属性值包括待融合节点的目标属性项的属性值,第二属性值包括目标节点的目标属性项的属性值,显然,多个目标属性项的相似度表征两个节点(待融合节点和目标节点)多个维度上的相似度,因此,依据多个维度上的相似度获取的目标节点和待融合节点的相似度的准确度高,又由于,相似度条件包括与待融合节点的相似度大于第一预设阈值,因此,本方案提高了融合节点的准确性。

需要说明的是,图2仅示例了本发明提供的一种可选的具体实现方法,本发明还提供其他的可选的具体实现方法,例如,S202~S204仅为一种可选的获取目标节点的方法,用于得到数量较小且准确的候选节点(也即目标节点),降低了计算资源的需求且提高了计算相似度的速度,进一步提高获取融合节点的速度。再例如,若第一属性值不包括数值,则无需执行S207。再例如,S207~S210仅为一种可选的获取相似度的方法,在其他实现方法中,还包括其他的获取相似度的方法,例如,将数值相似度、第一文本相似度、第二文本相似度、和第三文本相似度加权相加。

再例如,本方法还包括:将目标节点按照与待融合节点的相似度(记为得分),从高至低排序,得到节点序列。依据预先设置的两个阈值A和B(A大于B),进行数据融合处理。具体地,如果节点序列中的Top1的得分大于阈值A,直接进行节点合并。如果Top1的得分Top N的得分>B,将Top1作为建议合并节点输出。如果Top 1得分

本发明还提供了一种融合节点的获取装置,图3示出了本发明提供的一种融合节点的获取装置的结构示意图,如图3所示,本装置包括:

第一属性获取单元301,用于获取待融合节点的属性信息,所述属性信息包括多个预设的属性项的属性值;

第二属性获取单元302,用于获取目标节点的所述属性信息,所述目标节点包括待融合图谱中的节点;

属性相似度获取单元303,用于获取第一属性值和第二属性值的相似度,作为目标属性项的相似度;所述第一属性值包括所述待融合节点的目标属性项的属性值,所述第二属性值包括所述目标节点的目标属性项的属性值,所述目标属性项包括所述待融合节点的属性信息和所述待融合节点的属性信息中相同的属性项;

节点相似度获取单元304,用于依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度;

融合节点获取单元305,用于将满足预设的相似度条件的目标节点作为所述待融合节点的融合节点,所述相似度条件包括与所述待融合节点的相似度大于第一预设阈值。

可选地,属性项包括:名称和类别,本装置还包括:目标节点获取单元,用于:

在所述获取目标节点的所述属性信息之前获取所述待融合图谱中的每一节点的名称的属性值和类别的属性值;

获取所述待融合图谱中的每一节点的名称的属性值和所述待融合节点的名称的属性值的相似度,作为每一节点与所述待融合节点的名称相似度;

将满足预设的候选融合条件的节点作为目标节点,所述候选融合条件包括类别与所述待融合节点的类别相同,且与所述待融合节点的名称相似度大于第二预设阈值。

可选地,属性相似度获取单元用于获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,包括:属性相似度获取单元具体用于:

对所述第一属性值进行数值检测,以判断所述第一属性值是否包括数值;

若所述第一属性值包括数值,则获取所述第一属性值和所述第二属性值的文本相似度和数值相似度;

将所述文本相似度和所述数值相似度加权相加,得到所述第一属性值和所述第二属性值的相似度,作为所述目标属性项的相似度。

可选地,属性相似度获取单元用于获取所述第一属性值和所述第二属性值的文本相似度,包括:属性相似度获取单元具体用于:

获取所述第一属性值和所述第二属性值的距离,作为所述第一属性值和所述第二属性值的第一文本相似度;

将第一词集合和第二词集合的相同序位的词的余弦相似度加权相加,得到所述第一属性值和所述第二属性值的第二文本相似度,所述第一词集合包括依序排列的所述第一属性值中的各个词的词向量,所述第二词集合包括依序排列的所述第二属性值中的各个词的词向量;

将第一目标词集合的词向量数量和第二目标词集合的词向量数量的比值,作为所述第一属性值和所述第二属性值的第三文本相似度,所述第一目标词集合为所述第一词集合和所述第二词集合的交集,所述第二目标词集合为所述第一词集合和所述第二词集合的并集;

将所述第一文本相似度、所述第二文本相似度、和所述第三文本相似度加权相加,得到所述第一属性值和所述第二属性值的文本相似度。

可选地,属性相似度获取单元用于获取所述第一属性值和所述第二属性值的数值相似度,包括:属性相似度获取单元具体用于:

获取所述第一属性值中的数值,作为第一数值;

获取所述第二属性值中的数值,作为第二数值;

获取所述第一数值和所述第二数值的差值;

依据所述差值,获取所述数值相似度,所述差值与所述数值相似度呈反相关。

可选地,节点相似度获取单元,用于依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度,包括:节点相似度获取单元具体用于:

将各个所述目标属性项的相似度加权相加,得到所述目标节点和所述待融合节点的相似度。

所述融合节点的获取装置包括处理器和存储器,上述第一属性获取单元、第二属性获取单元、属性相似度获取单元、节点相似度获取单元和融合节点获取单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高融合节点的准确性。

本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述融合节点的获取。

本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述融合节点的获取。

本发明实施例提供了一种电子设备40,电子设备包括至少一个处理器401、以及与处理器连接的至少一个存储器402、总线403;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的融合节点的获取方法。本文中的电子设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品,当在电子设备上执行时,适于执行初始化有如下方法步骤的程序:

获取待融合节点的属性信息,所述属性信息包括多个预设的属性项的属性值;

获取目标节点的所述属性信息,所述目标节点包括待融合图谱中的节点;

获取第一属性值和第二属性值的相似度,作为目标属性项的相似度;所述第一属性值包括所述待融合节点的目标属性项的属性值,所述第二属性值包括所述目标节点的目标属性项的属性值,所述目标属性项包括所述待融合节点的属性信息和所述待融合节点的属性信息中相同的属性项;

依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度;

将满足预设的相似度条件的目标节点作为所述待融合节点的融合节点,所述相似度条件包括与所述待融合节点的相似度大于第一预设阈值。

可选地,属性项包括:名称、类别和至少一项其他属性项,所述获取目标节点的所述属性信息之前,还包括:

获取所述待融合图谱中的每一节点的名称的属性值和类别的属性值;

获取所述待融合图谱中的每一节点的名称的属性值和所述待融合节点的名称的属性值的相似度,作为每一节点与所述待融合节点的名称相似度;

将满足预设的候选融合条件的节点作为目标节点,所述候选融合条件包括类别与所述待融合节点的类别相同,且与所述待融合节点的名称相似度大于第二预设阈值。

可选地,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,包括:

对所述第一属性值进行数值检测,以判断所述第一属性值是否包括数值;

若所述第一属性值包括数值,则获取所述第一属性值和所述第二属性值的文本相似度和数值相似度;

将所述文本相似度和所述数值相似度加权相加,得到所述第一属性值和所述第二属性值的相似度,作为所述目标属性项的相似度。

可选地,获取所述第一属性值和所述第二属性值的文本相似度,包括:

获取所述第一属性值和所述第二属性值的距离,作为所述第一属性值和所述第二属性值的第一文本相似度;

将第一词集合和第二词集合的相同序位的词的余弦相似度加权相加,得到所述第一属性值和所述第二属性值的第二文本相似度,所述第一词集合包括依序排列的所述第一属性值中的各个词的词向量,所述第二词集合包括依序排列的所述第二属性值中的各个词的词向量;

将第一目标词集合的词向量数量和第二目标词集合的词向量数量的比值,作为所述第一属性值和所述第二属性值的第三文本相似度,所述第一目标词集合为所述第一词集合和所述第二词集合的交集,所述第二目标词集合为所述第一词集合和所述第二词集合的并集;

将所述第一文本相似度、所述第二文本相似度、和所述第三文本相似度加权相加,得到所述第一属性值和所述第二属性值的文本相似度。

可选地,获取所述第一属性值和所述第二属性值的数值相似度包括:

获取所述第一属性值中的数值,作为第一数值;

获取所述第二属性值中的数值,作为第二数值;

获取所述第一数值和所述第二数值的差值;

依据所述差值,获取所述数值相似度,所述差值与所述数值相似度呈反相关。

可选地,依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度,包括:

将各个所述目标属性项的相似度加权相加,得到所述目标节点和所述待融合节点的相似度。

本申请是参照根据本发明的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

在一个典型的配置中,电子设备包括一个或多个处理器(CPU)、存储器和总线。电子设备还可以包括输入/输出接口、网络接口等。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 一种区块链节点及产品信息获取方法、装置
  • 一种植入式控制系统数据获取装置及数据获取方法
  • 一种多节点服务器的节点供电方法及装置
  • 一种图像获取控制方法、装置及拍摄装置、存储介质
  • 融合业务网络及其节点、资源请求的路由信息的获取方法
  • 融合业务网络及其节点、资源请求的路由信息的获取方法
技术分类

06120116380847