掌桥专利:专业的专利平台
掌桥专利
首页

旅游知识图谱更新方法、系统、设备及存储介质

文献发布时间:2023-06-19 11:02:01


旅游知识图谱更新方法、系统、设备及存储介质

技术领域

本发明涉及数据处理领域,具体地说,涉及一种旅游知识图谱更新方法、系统、电子设备及存储介质。

背景技术

知识图谱(Knowledge Graph)称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、更新、绘制和显示知识及它们之间的相互联系,其作为一种大规模的语义网络,拥有着丰富的语义信息,为各种智能化应用的发展打下了坚实的基础。目前,除了面向全领域的通用的知识图谱外,各行业也在更新专门针对不同领域的行业知识图谱,例如金融知识图谱、医疗知识图谱等。

旅游作为现代人比较普遍的休闲方式之一,也需要知识图谱来协助游客寻找心仪的旅游景点,选择更适合自己的旅游产品,从而提升用户体验,发展高品质旅游。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

针对现有技术中的问题,本发明的目的在于提供了一种旅游知识图谱更新方法、系统、电子设备及存储介质,本发明通过获取旅游数据,旅游资料中包含的目标POI实体以及目标POI实体关系信息融合至旅游知识图谱中,通过这种不断迭代处理的方式,极大提高了旅游知识图谱的构建效率,最大程度压缩不必要的交付、重复操作时间,大大减少人力成本。

本发明的实施例提供了一种旅游知识图谱更新方法,包括以下步骤:

获取旅游数据;

从所述旅游数据中抽取目标POI实体和目标POI实体属性信息;

根据目标POI实体属性信息确定待更新的目标POI实体;

根据所述旅游数据获得各个目标POI实体的关系信息并判断目标POI关系信息是否准确;

如关系信息准确,则目标POI实体关系信息确定为待更新的目标POI关系信息;

保存待更新的目标POI实体以及待更新的目标POI实体关系信息获得更新后的旅游知识图谱。

根据本发明的一些示例,所述获取旅游数据步骤包括:

周期性从内部系统的结构化数据中同步POI数据,或/和

从网页中通过网络爬虫获取POI数据。

根据本发明的一些示例,所述目标POI实体属性信息包括目标POI名称、目标POI别名、目标POI拼音、目标POI经度、目标POI纬度、目标POI地址和目标POI评论中的至少一种信息。

根据本发明的一些示例,所述从根据目标POI实体属性信息确定待更新的目标POI实体包括如下步骤:

根据所述目标POI实体属性信息计算各个目标POI实体的相似度;

合并相似性大于阈值的目标POI实体后获得待更新的目标POI实体。

根据本发明的一些示例,从所述旅游数据中抽取目标POI实体属性信息步骤后,还包括:

判断所述目标POI实体属性信息是否满足配置的校验规则;

如满足配置的校验规则,则将所述目标POI实体属性信息确定为待更新的目标POI实体属性信息。

根据本发明的一些示例,各个所述目标POI实体关系信息包括各个目标POI实体的上下级关系或/和各个目标POI实体的目的地关系。

根据本发明的一些示例,所述根据所述旅游数据获得目标POI实体的关系信息并判断所述关系信息是否准确步骤包括:

根据所述旅游数据获得目标POI实体的上下级关系信息和/或目的地关系信息;

通过深度优先搜索算法检测各个目标POI实体的上下级关系是否存在环,如不存在环,则认为各个目标POI实体之间为上下级关系且关系信息准确;或/和

通过目的地的边界围栏数据校验各个POI实体所在的目的地是否正确,如正确,则所述POI实体的目的地关系信息准确。

根据本发明的一些示例,所述保存待更新的目标POI实体和待更新的目标POI实体关系信息获得更新后的旅游知识图谱包括如下步骤:

将所述待更新的目标POI实体、待更新的目标POI实体属性信息和待更新的目标POI实体关系信息作为旅游知识图谱的节点和边融合至当前的旅游知识图谱;

基于融合后的结果获得更新后的旅游知识图谱。

本发明的实施例还提供了一种旅游知识图谱更新系统,用于实现所述旅游知识图谱更新方法,包括数据采集模块、实体确定模块和存储模块,其中:

所述数据采集模块用于获取旅游数据;

所述实体确定模块用于从所述旅游数据中抽取目标POI实体属性信息;

所述实体确定模块还用于根据目标POI实体属性信息确定待更新的目标POI实体;以及

所述实体确定模块还用于根据目标POI实体属性信息获得目标POI实体之间的关系信息并将如关系信息准确的所述目标POI实体关系信息确定为待更新的目标POI关系信息;

所述存储模块用于保存待更新的目标POI实体以及待更新的目标POI关系信息获得更新后的旅游知识图谱。

本发明的实施例还提供了一种电子设备,包括:

处理器;

存储器,其中存储有所述处理器的可执行指令;

其中,所述处理器配置为经由执行所述可执行指令来执行所述旅游知识图谱更新方法的步骤。

本发明的实施例还提供了一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被执行时实现所述旅游知识图谱更新方法的步骤。

本发明提供了一种旅游知识图谱更新方法、系统、电子设备及存储介质,该方法包括以下步骤:获取旅游数据;从所述旅游数据中抽取目标POI实体和目标POI实体属性信息;根据目标POI实体属性信息确定待更新的目标POI实体;根据所述旅游数据获得各个目标POI实体的关系信息并判断目标POI关系信息是否准确;如关系信息准确,则目标POI实体关系信息确定为待更新的目标POI关系信息;保存待更新的目标POI实体以及待更新的目标POI实体关系信息获得更新后的旅游知识图谱。本发明方法在旅游场景下,完成从数据的获取、旅游知识图谱的存储与更新,能够大大节省人力成本,最大程度的压缩不必要的交付、重复操作时间,获得的旅游知识图谱为用户提供更直观的展示。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理,通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例的旅游知识图谱更新方法的流程图;

图2为本发明一实施例的旅游知识图谱更新系统的结构示意图;

图3为本发明一实施例的电子设备的结构示意图;

图4为本发明一实施例的计算机可读存储介质的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

本发明提供在旅游场景下完成从数据的获取、旅游知识图谱的存储与更新的方法,图1为本发明一实施例的旅游知识图谱更新方法的流程图,具体的,该旅游知识图谱更新方法包括以下步骤:

S100:获取旅游数据;

S200:从所述旅游数据中抽取目标POI实体和目标POI实体属性信息;所述目标POI实体属性信息包括目标POI名称、目标POI别名、目标POI拼音、目标POI经度、目标POI纬度、目标POI地址和目标POI评论中的至少一种信息。

S300:根据目标POI实体属性信息确定待更新的目标POI实体;

S400:根据所述旅游数据获得各个目标POI实体的关系信息并判断目标POI关系信息是否准确;

如关系信息准确,则S500:目标POI实体关系信息确定为待更新的目标POI关系信息;

S600:保存待更新的目标POI实体以及待更新的目标POI实体关系信息获得更新后的旅游知识图谱。

在实施例中,S100步骤中所述的获取旅游数据步骤包括:

S110:周期性从内部系统的结构化数据中同步POI数据,或/和

S120:从网页中通过网络爬虫获取POI数据。

S200步骤从所述旅游数据中抽取目标POI实体属性信息后,还可以包括:

S210:判断所述目标POI实体属性信息是否满足配置的校验规则;

如满足配置的校验规则,则S220:将所述目标POI实体属性信息确定为待更新的目标POI实体属性信息。

不同的目标POI实体属性信息配置的校验规则不同,校验规则是根据每个属性不同的特性配置的,例如,目标POI经度或目标POI纬度的校验规则可以为设定目标POI经度或目标POI纬度的数值范围,如果一个目标POI实体属性信息目标POI经度或目标POI纬度出现超出数值范围的值,则不满足校验规则,此时,认为目标POI实体属性信息不准确,不将此属性信息作为待更新的目标POI实体属性信息;如目标POI评论这一属性的校验规则为不能出现设定的关键词,当目标POI评论中出现设定的关键词时,则认为不满足校验规则。在如目标POI名称这一属性的校验规则可以是名称长度的限定阈值,如检测到目标POI名称的长度过长,则认为不满足校验规则等,在此不再赘述。

S300步骤中所述的从根据目标POI实体属性信息确定待更新的目标POI实体包括如下步骤:

S310:根据所述目标POI实体属性信息计算各个目标POI实体的相似度;

S320:合并相似性大于阈值的目标POI实体后获得待更新的目标POI实体。

上述S310和S320步骤中,将属性信息相似性大于阈值的目标POI实体判定为同于实体进行合并,同样的,不同的属性信息相似度的计算方法不同,对于具有不同名称的目标POI实体,如果两个目标POI经度和纬度的相似性大于一阈值,且两个目标POI地址的相似性也大于一阈值时,则判定两个POI实体为同一实体,进行属性合并。上述步骤减少了数据的冗余,保证了待更新数据的精简性。

各个所述目标POI实体关系信息包括各个目标POI实体的上下级关系或/和各个目标POI实体的目的地关系。

S400步骤中所述根据所述旅游数据获得目标POI实体的关系信息并判断所述关系信息是否准确步骤包括:

S410:根据所述旅游数据获得目标POI实体的上下级关系信息和/或目的地关系信息;

S420:通过深度优先搜索算法检测各个目标POI实体的上下级关系是否存在环,如不存在环,则认为各个目标POI实体之间为上下级关系且关系信息准确;譬如目标POI实体黄山迎客松景点与目标POI实体黄山风景区属于上下级关系。S420步骤中,如果获得目标POI实体关系信息与现有的图谱中的边关系没有形成环,则认为可以将这一边关系融合至现有的图谱中,如该边关系与现有的图谱形成环路,则不能将该变关系融合至现有的图谱中。检验各个目标POI实体的上下级关系是否准确的方法不限于上深度优先搜索算法,可以采用最小生成树算法或者是认为设定的检验规则,在此不再赘述。

判断所述关系信息是否准确还可以包括:

S430:通过目的地的边界围栏数据校验各个POI实体所在的目的地是否正确,如正确,则所述POI实体的目的地关系信息准确。譬如与目标POI实体故宫存在目的地关系的为北京东城区,此时,可通过判断目标POI实体经度和目标POI实体维度是否落在北京东城区的边界围栏数据中确定两者之间关系信息是否准确。其中,S420步骤和S430步骤没有先后顺序。

根据本发明的一些示例,所述保存待更新的目标POI实体和待更新的目标POI实体关系信息获得更新后的旅游知识图谱包括如下步骤:

将所述待更新的目标POI实体、待更新的目标POI实体属性信息和待更新的目标POI实体关系信息作为旅游知识图谱的节点和边融合至当前的旅游知识图谱;

基于融合后的结果获得更新后的旅游知识图谱。

本发明中旅游知识图谱更新的数据从来源来说,可以分为两个部分:从内部系统的结构化数据中同步,以及采用网络爬虫获取从旅游官网、微信公众号、微博等外部网路获取。两部分的数据均可以采用周期性或定时获取的方式,通过网络爬虫获取的的原始数据一般需经过清洗等预处理步骤,去除无用的标签、图片等数据,仅保留文本描述。由于外部网路信息的实时性,网络爬虫获取的数据可用于补充知识图谱中的目标POI实体中缺失的属性信息和关系信息。

本发明通过获取旅游数据,旅游资料中包含的目标POI实体以及目标POI实体关系信息融合至旅游知识图谱中,通过这种不断迭代处理的方式,极大提高了旅游知识图谱的构建效率,最大程度压缩不必要的交付、重复操作时间,大大减少人力成本。同时,对于采集的为标注为待更新的目标POI实体和目标POI实体关系信息,可通过人工审核后更新至旅游知识图谱中。更新后的旅游知识图谱可以通过可视化展示页面、数据汇总统计、接口文档等更直观的向用户展现图谱的节点以及边的关联关系,图谱的使用调用方式更多样。

本发明的实施例还提供了一种旅游知识图谱更新系统,用于实现所述旅游知识图谱更新方法,见图2的旅游知识图谱更新系统结构示意图,具体包括数据采集模块M100、实体确定模块M200和存储模块M300,其中:

所述数据采集模块M100用于获取旅游数据;

所述实体确定模块M200用于从所述旅游数据中抽取目标POI实体属性信息;

所述实体确定模块M200还用于根据目标POI实体属性信息确定待更新的目标POI实体;以及

所述实体确定模块M200还用于根据目标POI实体属性信息获得目标POI实体之间的关系信息并将如关系信息准确的所述目标POI实体关系信息确定为待更新的目标POI关系信息;

所述存储模块M300用于保存待更新的目标POI实体以及待更新的目标POI关系信息获得更新后的旅游知识图谱。

实施例的旅游知识图谱更新系统中的各个功能模块的功能实现方式均可以采用上述旅游知识图谱更新方法中各个步骤的具体实施方式来实现。例如,数据采集模块M100、实体确定模块M200和存储模块M300,可以分别采用上述步骤S100至S600的具体实施方式实现其功能,此处不予赘述。新的旅游资料中包含的目标POI实体以及目标POI实体关系信息融合至已旅游知识图谱中,通过这种不断迭代处理的方式,极大提高了旅游知识图谱的构建效率。

当然,本发明的旅游知识图谱更新系统还可以包括图服务模块,用于旅游知识图谱的图数据服务、图结构服务、智能问答服务、推荐服务以及搜索服务等。其中,图数据服务、图结构服务用于支撑平台展示部分中的图数据可视化和图结构管理。通过上述设置,本发明的旅游知识图谱更新系统实现了知识图谱的自动实时更新到最终图谱使用功能。

下面参照图3来描述根据本发明的这种实施方式的电子设备600。图3显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。

本发明实施例还提供一种计算机可读存储介质,用于存储程序,程序被执行实现旅游知识图谱更新方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述方法部分中描述的根据本发明各种示例性实施方式的步骤。

参考图4所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上所述,本发明提供了一种旅游知识图谱更新方法、系统、电子设备及存储介质,该方法包括以下步骤:获取旅游数据;从所述旅游数据中抽取目标POI实体和目标POI实体属性信息;根据目标POI实体属性信息确定待更新的目标POI实体;根据所述旅游数据获得各个目标POI实体的关系信息并判断目标POI关系信息是否准确;如关系信息准确,则目标POI实体关系信息确定为待更新的目标POI关系信息;保存待更新的目标POI实体以及待更新的目标POI实体关系信息获得更新后的旅游知识图谱。本发明方法在旅游场景下,完成从数据的获取、旅游知识图谱的存储与更新,能够大大节省人力成本,最大程度的压缩不必要的交付、重复操作时间,获得的旅游知识图谱为用户提供更直观的展示。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一、第二等词语用来表示名称,而并不表示任何特定的顺序。

相关技术
  • 旅游知识图谱更新方法、系统、设备及存储介质
  • 医学知识图谱的更新方法、装置、电子设备及存储介质
技术分类

06120112774225