掌桥专利:专业的专利平台
掌桥专利
首页

基于人物图谱的最具价值路径提取方法及设备

文献发布时间:2024-04-18 19:53:33


基于人物图谱的最具价值路径提取方法及设备

技术领域

本发明涉及信息处理技术领域,尤其涉及一种基于人物图谱的最具价值路径提取方法、装置、设备、存储介质。

背景技术

人是社会的基础,也是社会的核心。以人为点,以人物关系为线构建人物关系图谱更能清晰明了人物的社交关系网络,对后续研究人物间关系预测、人物社群分析等提供更加准确的数据和理论支持。

现有技术中在构建人物社交关系网络时,数据来源主要主要靠网络获取,通过采集百度百科、维基百科等真实人物数据和微博等社交软件账号信息,数据来源比较单一。

发明内容

本发明提供一种基于人物图谱的最具价值路径提取方法、装置、设备、存储介质,旨在减少线路规划的运算时间,减少运算能力需求,提高控制运算效率。

为此,本发明的第一个目的是提出一种基于人物图谱的最具价值路径提取方法,包括:

获取目标对象的属性信息;其中,属性信息至少包括:基本信息、关联信息、实体类型及标签信息;

基于属性信息中的关联信息,确定关联信息中包含的关联对象与目标对象之间的关系等级与关系权重;

基于目标对象与关联对象之间的关联关系,以及关联对象作为目标对象时与对应关联对象之间的关联关系,构建复杂关系网络;

在复杂关系网络中,提取两个对象之间的全部关系路径,并根据路径上节点间的关系等级和关系权重,确定最具价值路径。

其中,在获取目标对象的属性信息的步骤中,包括:

定时从网络云端的多个不同数据库中检索目标对象信息;

将不同数据库的目标对象信息进行数据筛选,获取对应于目标对象的基本信息、关联信息、实体类型及标签信息,作为目标对象的属性信息。

其中,在获取目标对象的属性信息的步骤之后,还包括数据清洗的步骤;包括:

将目标对象的不同数据来源的属性信息进行比对,删除重复数据,将不同数据来源的属性信息进行汇总,作为目标对象的最终属性信息。

其中,在筛选得到目标对象的最终属性信息后,将最终的属性信息存储至存储人物数据库中;其中,存储人物数据库选用NebulaGraph图数据库;NebulaGraph是专门存储庞大的图形网络并从中检索信息的数据库,用于将图中的数据高效存储为点(Vertex)和边(Edge),并将属性(Property)附加到点和边上;将属性信息中的人物、组织数据存储为点(entity),将属性信息中的人物关系存储为边(relation),将属性信息中的人物属性数据携带到entity,将属性信息中的人物关系属性写入relation。

其中,在确定关联信息中包含的关联对象与目标对象之间的关系等级与关系权重的步骤中,根据关联对象与目标对象的亲密程度,给关系定义等级为T0-T4,其中数字越大等级越低;给定权重定义等级为0-10,其中数字越权重越高。

其中,构建人物关系网络,是根据指定条件,以目标对象为中心向外拓展N层边和节点,N越大,关系网络构建的越复杂。

其中,在根据路径上节点间的关系等级和关系权重,确定最具价值路径的步骤中,

路径得分为S;等级是d;权重是q;每条路径中相邻两条边关系等级为d(n),d(n+1),权重值为q(n),q(n+1);每条路径的节点数为C;等级得分是V;

如果d(n)

S=(q_(1+2+...+n)-V)/C

得到每一条路径的最终得分,最后筛选出得分最高的路径就是两目标节点的最具价值路径。

本发明的第二个目的是提出一种基于人物图谱的最具价值路径提取装置,包括:

信息获取模块,用于获取目标对象的属性信息;其中,属性信息至少包括:基本信息、关联信息、实体类型及标签信息;

等级权重确定模块,用于基于属性信息中的关联信息,确定关联信息中包含的关联对象与目标对象之间的关系等级与关系权重;

关系网络构建模块,用于基于目标对象与关联对象之间的关联关系,以及关联对象作为目标对象时与对应关联对象之间的关联关系,构建复杂关系网络;

路径确定模块,用于在复杂关系网络中,提取两个对象之间的全部关系路径,并根据路径上节点间的关系等级和关系权重,确定最具价值路径。

本发明的第三个目的在于提出一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前述技术方案的方法中的各步骤。

本发明的第四个目的在于提出存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据前述技术方案的方法中的各步骤。

区别于现有技术,本发明提供的基于人物图谱的最具价值路径提取方法,获取目标对象的属性信息;基于属性信息中的关联信息,确定关联信息中包含的关联对象与目标对象之间的关系等级与关系权重;基于目标对象与关联对象之间的关联关系,以及关联对象作为目标对象时与对应关联对象之间的关联关系,构建复杂关系网络;在复杂关系网络中,提取两个对象之间的全部关系路径,并根据路径上节点间的关系等级和关系权重,确定最具价值路径。通过本发明,能够支持目标人物路径检索及计算路径价值得分,在研究目标人物社交和人物关系方面具有极大的参考价值。本设计简洁明了、操作简单、功能易拓展。

附图说明

本发明的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1是本发明提供的一种基于人物图谱的最具价值路径提取方法的流程示意图。

图2是本发明提供的一种基于人物图谱的最具价值路径提取方法中数据处理的流程示意图。

图3是本发明提供的一种基于人物图谱的最具价值路径提取方法中李玮锋2跳网络关系指向示意图。

图4是本发明提供的一种基于人物图谱的最具价值路径提取方法中李玮锋网络关系结构示意图。

图5是本发明提供的一种基于人物图谱的最具价值路径提取装置的结构示意图。

图6是本发明提供的一种存储有计算机指令的非瞬时计算机可读存储介质的结构示意图。

具体实施方式

下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

如图1所示,为本发明实施例所提供的一种基于人物图谱的最具价值路径提取方法,包括:

S110:获取目标对象的属性信息;其中,属性信息至少包括:基本信息、关联信息、实体类型及标签信息。

具体的,定时从网络云端的多个不同数据库中检索目标对象信息;

将不同数据库的目标对象信息进行数据筛选,获取对应于目标对象的基本信息、关联信息、实体类型及标签信息,作为目标对象的属性信息。

本发明中的具体实施例的目标对象以李玮锋为例进行说明。

通过网络查询,可以得到全部与李玮锋相关的信息;具体可查询百度百科、维基百科及其他同类百科网站,从网页中获取信息作为目标对象李玮锋的属性信息。

如图2所示,百度百科中给出了目标对象李玮锋的全部相关信息,通过数据信息解析,得到如表1所示的信息解析表。

表1信息解析表

其中,基本信息就是人物的属性信息。相关人物/组织信息为人物的关系,还可以衍生出许多人物实体及人物关系,以此类推层层递进获取更过人物、组织等数据。

在获取目标对象的属性信息的步骤之后,还包括数据清洗的步骤;包括:

将目标对象的不同数据来源的属性信息进行比对,删除重复数据,将不同数据来源的属性信息进行汇总,作为目标对象的最终属性信息。

百科网页中获取到的实体数据并非全是想要的数据,因此需要对数据进行一定程度的筛选。由于人物数据的来源主要靠网络中不同平台的百科等,单一平台的数据可能会有缺失或者错误,也会有重复的数据,这种情况就依靠数据清洗来清洗掉错误的数据以及将不同平台的数据相互验证得到相对来说更加完善,完整的人物数据。数据清洗流程如图3所示。

在筛选得到目标对象的最终属性信息后,将最终的属性信息存储至存储人物数据库中;其中,存储人物数据库选用NebulaGraph图数据库;NebulaGraph是专门存储庞大的图形网络并从中检索信息的数据库,用于将图中的数据高效存储为点(Vertex)和边(Edge),并将属性(Property)附加到点和边上;将属性信息中的人物、组织数据存储为点(entity),将属性信息中的人物关系存储为边(relation),将属性信息中的人物属性数据携带到entity,将属性信息中的人物关系属性写入relation。

S120:基于属性信息中的关联信息,确定关联信息中包含的关联对象与目标对象之间的关系等级与关系权重。

根据关联对象与目标对象的亲密程度,给关系定义等级为T0-T4,其中数字越大等级越低;给定权重定义等级为0-10,其中数字越权重越高。

例如:表1中前队友、前队员,前教练等关系比前队长、副总经理兼领队、主教练的关系疏远。假如我们将前者的关系等级定义为T3,权重定义为2.0,那么后者关系就可以将关系等级定义为T2,权重定义为2.5。图亲疏有别,合理定义关系等级和关系权重在提取两目标人物间最具价值路径起着至关重要的作用。关系等级、权重定义如表2所示。

表2关系等级、权重定义表

S130:基于目标对象与关联对象之间的关联关系,以及关联对象作为目标对象时与对应关联对象之间的关联关系,构建复杂关系网络。

选用图数据库的关键在于不用像关系型数据库那样维护一个复杂的人物关系库。在图数据库中,可以将人物、组织数据存储为点(entity),将人物关系存储为边(relation),将人物属性数据携带到entity,将人物关系属性(如:开始时间,结束时间等属性)写入relation。

构建人物关系网络就是根据指定条件(如:指定跳数N)以目标节点为中心向外拓展N层边和节点,N越大关系网络构建的越复杂。如图3所示。

S140:在复杂关系网络中,提取两个对象之间的全部关系路径,并根据路径上节点间的关系等级和关系权重,确定最具价值路径。

当构建复杂人物关系网络指向图完成后,根据当前构建的网络图提取两个目标节点间的所有关系路径。首先,选择两个节点(任意节点)。如图4所示。

将图4中的节点编号,接下来我们将求取节点1到节点7并且关系边在4(N)跳内的所有路径并计算出最高价值路径。主要分为以下几步:

明确开始节点为1,结束节点为7。

从节点1出发,查找与节点1直接相关联并且边指向为‘出’的节点组成路径,结果为:

1→2,1→3,1→4,1→5,1→6,1→7得到6条路径,并记录;

根据结束节点为7得知:1→7满足需求,并记录。

从步骤二得到的6条路径中的结束节点(结束节点分别为2,3,4,5,6。因为1—>7路径已经满足需求所以舍弃7)出发,获取与结束节点(2,3,4,5,6)直接相关联并且边指向为‘出’的节点组成路径遍历得到:

2→7,2→8,3→9,4→10,5→11,6→12,得到6条路径。

将步骤2中的路径与步骤3中的路径拼接得到:

1→2→7,1→2→8,1→3→9,1→4→10,1→5→11,1→6→12;

根据结束节点为7筛选出满足条件的路径,并记录。

根据条件:求4跳内的所有路径。重复步骤3(N-1)次即可得到4跳内的所有路径。

从上述步骤中获取到的有效路径为1→7,1→2→7。

上述步骤获取到节点1到节点7所有满足条件的路径。接下来计算所有路径中最具价值路径。根据边关系名称获取到边关系等级和权重。

路径得分为S;等级是d;权重是q;每条路径中相邻两条边关系等级为d(n),d(n+1),权重值为q(n),q(n+1);每条路径的节点数为C;等级得分是V;

如果d(n)

S=(q_(1+2+...+n)-V)/C得到每一条路径的最终得分,最后筛选出得分最高的路径就是两目标节点的最具价值路径。

如图5所示,本发明提供了一种基于人物图谱的最具价值路径提取装置300,包括:

信息获取模块310,用于获取目标对象的属性信息;其中,属性信息至少包括:基本信息、关联信息、实体类型及标签信息;

等级权重确定模块320,用于基于属性信息中的关联信息,确定关联信息中包含的关联对象与目标对象之间的关系等级与关系权重;

关系网络构建模块330,用于基于目标对象与关联对象之间的关联关系,以及关联对象作为目标对象时与对应关联对象之间的关联关系,构建复杂关系网络;

路径确定模块340,用于在复杂关系网络中,提取两个对象之间的全部关系路径,并根据路径上节点间的关系等级和关系权重,确定最具价值路径。

为了实现实施例,本发明还提出一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行前述技术方案的基于人物图谱的最具价值路径提取方法中的各步骤。

如图6所示,非临时性计算机可读存储介质800包括指令的存储器810,接口830,指令可由根据基于人物图谱的最具价值路径提取处理器820执行以完成方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

为了实现实施例,本发明还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如本发明实施例的基于人物图谱的最具价值路径提取。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在所述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现所述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。所述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

所述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,所述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对所述实施例进行变化、修改、替换和变型。

技术分类

06120116337459