一种融合节点的获取方法及装置
文献发布时间:2024-04-18 19:54:45
技术领域
本发明涉及自然语言处理技术领域,更具体的说,涉及一种融合节点的获取方法及装置。
背景技术
在知识图谱的管理与维护的过程中,涉及到外部节点或子图需要与主图谱合并,目前,通过节点的名称,对待融合节点(外部节点或子图中的节点)和图谱中的节点的融合概率进行计算,由此确定融合节点,显然,仅依据名称确定的融合概率的准确度较低,融合节点的准确性有待提高。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的融合节点的获取方法及装置,如下:
一种融合节点的获取方法,包括:
获取待融合节点的属性信息,所述属性信息包括多个预设的属性项的属性值;
获取目标节点的所述属性信息,所述目标节点包括待融合图谱中的节点;
获取第一属性值和第二属性值的相似度,作为目标属性项的相似度;所述第一属性值包括所述待融合节点的目标属性项的属性值,所述第二属性值包括所述目标节点的目标属性项的属性值,所述目标属性项包括所述待融合节点的属性信息和所述待融合节点的属性信息中相同的属性项;
依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度;
将满足预设的相似度条件的目标节点作为所述待融合节点的融合节点,所述相似度条件包括与所述待融合节点的相似度大于第一预设阈值。
可选地,属性项包括:名称、类别和至少一项其他属性项,所述获取目标节点的所述属性信息之前,还包括:
获取所述待融合图谱中的每一节点的名称的属性值和类别的属性值;
获取所述待融合图谱中的每一节点的名称的属性值和所述待融合节点的名称的属性值的相似度,作为每一节点与所述待融合节点的名称相似度;
将满足预设的候选融合条件的节点作为目标节点,所述候选融合条件包括类别与所述待融合节点的类别相同,且与所述待融合节点的名称相似度大于第二预设阈值。
可选地,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,包括:
对所述第一属性值进行数值检测,以判断所述第一属性值是否包括数值;
若所述第一属性值包括数值,则获取所述第一属性值和所述第二属性值的文本相似度和数值相似度;
将所述文本相似度和所述数值相似度加权相加,得到所述第一属性值和所述第二属性值的相似度,作为所述目标属性项的相似度。
可选地,获取所述第一属性值和所述第二属性值的文本相似度,包括:
获取所述第一属性值和所述第二属性值的距离,作为所述第一属性值和所述第二属性值的第一文本相似度;
将第一词集合和第二词集合的相同序位的词的余弦相似度加权相加,得到所述第一属性值和所述第二属性值的第二文本相似度,所述第一词集合包括依序排列的所述第一属性值中的各个词的词向量,所述第二词集合包括依序排列的所述第二属性值中的各个词的词向量;
将第一目标词集合的词向量数量和第二目标词集合的词向量数量的比值,作为所述第一属性值和所述第二属性值的第三文本相似度,所述第一目标词集合为所述第一词集合和所述第二词集合的交集,所述第二目标词集合为所述第一词集合和所述第二词集合的并集;
将所述第一文本相似度、所述第二文本相似度、和所述第三文本相似度加权相加,得到所述第一属性值和所述第二属性值的文本相似度。
可选地,获取所述第一属性值和所述第二属性值的数值相似度包括:
获取所述第一属性值中的数值,作为第一数值;
获取所述第二属性值中的数值,作为第二数值;
获取所述第一数值和所述第二数值的差值;
依据所述差值,获取所述数值相似度,所述差值与所述数值相似度呈反相关。
可选地,依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度,包括:
将各个所述目标属性项的相似度加权相加,得到所述目标节点和所述待融合节点的相似度。
一种融合节点的获取装置,包括:
第一属性获取单元,用于获取待融合节点的属性信息,所述属性信息包括多个预设的属性项的属性值;
第二属性获取单元,用于获取目标节点的所述属性信息,所述目标节点包括待融合图谱中的节点;
属性相似度获取单元,用于获取第一属性值和第二属性值的相似度,作为目标属性项的相似度;所述第一属性值包括所述待融合节点的目标属性项的属性值,所述第二属性值包括所述目标节点的目标属性项的属性值,所述目标属性项包括所述待融合节点的属性信息和所述待融合节点的属性信息中相同的属性项;
节点相似度获取单元,用于依据各个所述目标属性项的相似度,获取所述目标节点和所述待融合节点的相似度;
融合节点获取单元,用于将满足预设的相似度条件的目标节点作为所述待融合节点的融合节点,所述相似度条件包括与所述待融合节点的相似度大于第一预设阈值。
可选地,属性项包括:名称和类别,本装置还包括:目标节点获取单元,用于:
在所述获取目标节点的所述属性信息之前获取所述待融合图谱中的每一节点的名称的属性值和类别的属性值;
获取所述待融合图谱中的每一节点的名称的属性值和所述待融合节点的名称的属性值的相似度,作为每一节点与所述待融合节点的名称相似度;
将满足预设的候选融合条件的节点作为目标节点,所述候选融合条件包括类别与所述待融合节点的类别相同,且与所述待融合节点的名称相似度大于第二预设阈值。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行任一项所述的融合节点的获取方法。
一种电子设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行任一项所述的融合节点的获取方法。
借由上述技术方案,本发明提供的一种融合节点的获取方法及装置,获取待融合节点的属性信息,获取目标节点的属性信息,目标节点包括待融合图谱中的节点,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度,将满足预设的相似度条件的目标节点作为待融合节点的融合节点。由于其中,属性信息包括多个预设的属性项的属性值,目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项,第一属性值包括待融合节点的目标属性项的属性值,第二属性值包括目标节点的目标属性项的属性值,显然,多个目标属性项的相似度表征两个节点(待融合节点和目标节点)多个维度上的相似度,因此,依据多个维度上的相似度获取的目标节点和待融合节点的相似度的准确度高,又由于,相似度条件包括与待融合节点的相似度大于第一预设阈值,因此,本方案提高了融合节点的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明提供的一种融合节点的获取方法的流程示意图;
图2示出了本发明提供的一种融合节点的获取方法的具体实现方式的流程示意图;
图3示出了本发明提供的一种融合节点的获取装置的结构示意图;
图4示出了本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明提供的一种融合节点的获取方法应用于但不限于节点与主图谱的融合场景下,确定主图谱中与节点融合的节点的过程。需要说明的是,将主图谱作为待融合图谱,待融合图谱包括若干节点(节点指示实体)以及节点间的关联关系,具体参见现有技术中的知识图谱。图1示出了本发明提供的一种融合节点的获取方法的流程示意图,如图1所示,本发明包括:
S101、获取待融合节点的属性信息。
本实施例中,属性信息包括多个预设的属性项的属性值。需要说明的是,获取属性信息的方法包括多种,且具体的属性项根据实际场景获取。例如,在一种可选的应用场景下,属性项包括名称、类别、地理位置深度、面积、年产油料中的至少两项。
S102、获取目标节点的属性信息。
本实施例中,目标节点包括待融合图谱中的至少一个节点。例如,目标节点包括待融合图谱中的所有节点。再例如,目标节点通过对待融合图谱中的所有节点筛选得到,具体的一种可选的获取目标节点的方法参见下述实施例。
S103、获取第一属性值和第二属性值的相似度,作为目标属性项的相似度。
本实施例中,第一属性值包括待融合节点的目标属性项的属性值,第二属性值包括目标节点的目标属性项的属性值。目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项。
例如,待融合节点的属性信息包括属性项{A、B、C、D},对应的属性值分别为{a1、b1、c、d},目标节点的属性信息包括属性项{A、B、F、G},对应的属性值分别为{a2、b2、f、g},则,目标属性项包括A和B。
将A作为目标属性值时,第一属性值为a1,第二属性值为a2,将B作为目标属性值时,第一属性值为b1,第二属性值为b2。目标属性值A的相似度为a1和a2的相似度,目标属性值B的相似度为b1和b2的相似度。获取任意两个属性值的相似度的方法包括多种,具体可以参见现有技术或者下述实施例。
S104、依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度。
需要说明的是,依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度的方法包括多种,例如,获取各个目标属性项的相似度的中位值或平均值作为目标节点和待融合节点的相似度,再例如,获取各个目标属性项的相似度的加权相加的结果,作为目标节点和待融合节点的相似度。
具体获取目标节点和待融合节点的相似度的方法可以参见现有技术或下述实施例。
S105、将满足预设的相似度条件的目标节点作为待融合节点的融合节点。
本实施中,相似度条件包括与待融合节点的相似度大于第一预设阈值。
借由上述技术方案,本发明提供的一种融合节点的获取方法及装置,获取待融合节点的属性信息,获取目标节点的属性信息,目标节点包括待融合图谱中的节点,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度,将满足预设的相似度条件的目标节点作为待融合节点的融合节点。由于其中,属性信息包括多个预设的属性项的属性值,目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项,第一属性值包括待融合节点的目标属性项的属性值,第二属性值包括目标节点的目标属性项的属性值,显然,多个目标属性项的相似度表征两个节点(待融合节点和目标节点)多个维度上的相似度,因此,依据多个维度上的相似度获取的目标节点和待融合节点的相似度的准确度高,又由于,相似度条件包括与待融合节点的相似度大于第一预设阈值,因此,本方案提高了融合节点的准确性。
需要说明的是,图1所示的融合节点的方法包括多种可选的具体实现方式,图2示出了本发明提供的一种融合节点的获取方法的具体实现方式的流程示意图,如图2所示,本发明具体包括:
S201、获取待融合节点的属性信息。
本实施例中,属性信息包括多个预设的属性项的属性值。具体地,多个预设的属性项包括名称、类别和至少一项其他属性项,例如,其他属性项包括但不限于地理位置深度、面积、和年产油料。
S202、获取待融合图谱中的每一节点的名称的属性值和类别的属性值。
S203、获取待融合图谱中的每一节点的名称的属性值和待融合节点的名称的属性值的相似度,作为每一节点与待融合节点的名称相似度。
本实施例中,每一节点的名称的属性值和待融合节点的名称的属性值的相似度的获取方法包括多种,例如,获取节点名称的属性值和待融合节点的名称的属性值的距离(包括欧氏距离或者编辑距离等),依据距离获取节点名称的属性值和待融合节点的相似度。具体可以参见现有技术,本实施例不做赘述。
S204、将满足预设的候选融合条件的节点作为目标节点。
本实施例中,候选融合条件包括类别与待融合节点的类别相同,且与待融合节点的名称相似度大于第二预设阈值。
具体地,按照类别完全匹配的方式,获取第一候选节点,其中,第一类候选节点为与待融合节点的类别完全匹配(也即完全一致)的节点。进一步,从第一候选节点中,获取待融合节点的名称相似度大于第二预设阈值的节点,作为目标节点加入到候选节点集合。
需要说明的是,图谱中往往包括大量的节点,本步骤根据“label(指示类别的标签)+name(名称)”的匹配方式,获取候选节点集合,获选节点集合中包括多个目标节点(也称候选节点),可以理解的是,通过标签和名称对节点进行初步筛选,由于,候选节点均满足候选融合条件,因此,得到数量较小且准确的候选节点,降低了计算资源的需求且提高了计算相似度的速度。
S205、获取目标属性项。
由上可知,目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项。
S206、对第一属性值进行数值检测,以判断第一属性值是否包括数值。
本实施例中,第一属性值包括待融合节点的目标属性项的属性值。数值检测的具体方法参见现有技术。
需要说明的是,若第一属性值包括数值,则执行S207~S214。
S207、获取第一属性值和第二属性值的数值相似度。
本实施中,第二属性值包括目标节点的目标属性项的属性值。
具体地,获取第一属性值和第二属性值的数值相似度的具体方法包括:
1、获取第一属性值中的数值,作为第一数值。
2、获取第二属性值中的数值,作为第二数值。
3、获取第一数值和第二数值的差值。
需要说明的是,若第一数值和第二数值的单位不同,则将第一数值和第二数值进行单位统一后,计算差值。本步骤中,差值为第一数值和第二数值相减后取绝对值。
4、依据差值,获取数值相似度,差值与数值相似度呈反相关。
需要说明的是,差值与数值相似度呈反相关也即,差值越大,数值相似度越小,一种可选的数据相似度的方法包括:
依据第一数值和第二数值的差值,获取第一数值和第二数值的差异率。其中,差值与第一数值的绝对值的比例大于1时,差异率取值为1,差值与第一数值的绝对值的比例不大于1时,差异率取值为该比例值。
若依据差异率获取数值相似度,可选地,数值相似度等于1减去差异率的差值。
可选地,依据差异率获取数值相似度为一种可选的将差值归一化的方法,在一些可选的实施例中,还包括其他的依据差值归一化得到数值相似度的方法,具体方法参见现有技术。
S208、获取第一属性值和第二属性值的距离,作为第一属性值和第二属性值的第一文本相似度。
可以理解的是,第一属性值和第二属性值的距离指示第一属性值和第二属性值相似程度,因此,距离与第一文本相似度成正相关。本实施例中,距离计算方法包括多种,例如,tf-idf(term frequency–inverse document frequency,词频-逆文本频率)算法和BM25算法。
在可选的一些实施例中,第一属性值包括第二属性值,或者第二属性值包括第一属性值时,第一属性值和第二属性值的第一文本相似度为1。S209、将第一词集合和第二词集合的相同序位的词的余弦相似度加权相加,得到第一属性值和第二属性值的第二文本相似度。
本实施例中,第一词集合包括依序排列的第一属性值中的各个词的词向量,第二词集合包括依序排列的第二属性值中的各个词的词向量。
需要说明的是,获取任意两个词向量之间的余弦相似度的方法参见现有技术。具体的一种加权相加的方法为,获取每一序位的预设的权重系数,按照序位的权重系数将第一词集合和第二词集合的相同序位的词的余弦相似度加权相加。其中,序位越大,权重系数越小。
进一步需要说明的是,本步骤可以通过预设的第二相似度模型(基于文字位置不同权重的距离计算模型)计算第一属性值和第二属性值的第二文本相似度,具体的模型构建方法参见现有技术。
S210、将第一目标词集合的词向量数量和第二目标词集合的词向量数量的比值,作为第一属性值和第二属性值的第三文本相似度。
本实施例中,第一目标词集合为第一词集合和第二词集合的交集,第二目标词集合为第一词集合和第二词集合的并集。
具体地,将第一词集合和第二词集合进行去重,并获取第一目标词集合和第二目标词集合,进一步,获取第一属性值和第二属性值的第三文本相似度。
需要说明的是,本步骤可以通过预设的第三相似度模型(集合化处理的相似度模型)计算第一属性值和第二属性值的第三文本相似度,具体的模型构建方法参见现有技术。
S211、将第一文本相似度、第二文本相似度、和第三文本相似度加权相加,得到第一属性值和第二属性值的文本相似度。
需要说明的是,本实施例通过对多种相似度计算方法得到的,表征第一属性值和第二属性值的文本相似度的相似度加权相加,提高了第一属性值和第二属性值的文本相似度的准确度。
S212、将文本相似度和数值相似度加权相加,得到第一属性值和第二属性值的相似度,作为目标属性项的相似度。
需要说明的是,本实施例通过分别对数值和文本进行相似度计算,并依据文本相似度和数值相似度,获取目标属性项的相似度,相对于仅依据文本相似度获取相似度的方法,提高了相似度计算的准确度。
S213、将各个目标属性项的相似度加权相加,得到目标节点和待融合节点的相似度。
S214、将满足预设的相似度条件的目标节点作为待融合节点的融合节点。
本实施例中,相似度条件包括与待融合节点的相似度大于第一预设阈值。
借由上述技术方案,本发明提供的一种融合节点的获取方法及装置,获取待融合节点的属性信息,获取目标节点的属性信息,目标节点包括待融合图谱中的节点,获取第一属性值和第二属性值的相似度,作为目标属性项的相似度,依据各个目标属性项的相似度,获取目标节点和待融合节点的相似度,将满足预设的相似度条件的目标节点作为待融合节点的融合节点。由于其中,属性信息包括多个预设的属性项的属性值,目标属性项包括待融合节点的属性信息和待融合节点的属性信息中相同的属性项,第一属性值包括待融合节点的目标属性项的属性值,第二属性值包括目标节点的目标属性项的属性值,显然,多个目标属性项的相似度表征两个节点(待融合节点和目标节点)多个维度上的相似度,因此,依据多个维度上的相似度获取的目标节点和待融合节点的相似度的准确度高,又由于,相似度条件包括与待融合节点的相似度大于第一预设阈值,因此,本方案提高了融合节点的准确性。
需要说明的是,图2仅示例了本发明提供的一种可选的具体实现方法,本发明还提供其他的可选的具体实现方法,例如,S202~S204仅为一种可选的获取目标节点的方法,用于得到数量较小且准确的候选节点(也即目标节点),降低了计算资源的需求且提高了计算相似度的速度,进一步提高获取融合节点的速度。再例如,若第一属性值不包括数值,则无需执行S207。再例如,S207~S210仅为一种可选的获取相似度的方法,在其他实现方法中,还包括其他的获取相似度的方法,例如,将数值相似度、第一文本相似度、第二文本相似度、和第三文本相似度加权相加。
- 一种区块链节点及产品信息获取方法、装置
- 一种植入式控制系统数据获取装置及数据获取方法
- 一种多节点服务器的节点供电方法及装置
- 一种图像获取控制方法、装置及拍摄装置、存储介质
- 融合业务网络及其节点、资源请求的路由信息的获取方法
- 融合业务网络及其节点、资源请求的路由信息的获取方法