一种基于在线百科的知识库快速构建方法及系统
文献发布时间:2023-06-19 19:30:30
技术领域
本发明涉及计算机应用技术领域,尤其是涉及一种基于在线百科的知识库快速构建方法及系统。
背景技术
近年来,越来越多的领域开始使用自然语言处理技术进行知识挖掘,但很多细化的特定领域缺乏系统的知识整理或有效的知识整合。同时,随着计算机网络和移动互联等技术的发展和应用,在线百科网站这类新型信息载体快速发展,百科类信息的数据量急剧增长。百科网站提供了大量与特定领域相关的半结构化信息,这些信息可以帮助我们更好地了解某些领域。例如,在医药领域,我们可以通过百科找到有关药品和疾病的信息;在农业领域,我们通过百科可以找到有关农作物和病虫害的相关信息。但是在线百科网站并不利于计算机直接查询和理解,需要将知识进行格式化处理,通过利用这些百科知识,我们可以挖掘特定领域的知识,并构建出丰富的领域知识库,以便计算机能够更好地理解和利用这些知识。
因此,开发基于在线百科的知识库快速构建方法,可以使用自动化的方式从百科网站上提取信息,并将其整理成结构化的知识库,从而为计算机提供更好的理解和利用这些知识的能力。这对于特定领域的知识挖掘和提高计算机的知识理解能力都具有重要的意义。此外,这也有助于提升知识库的丰富度和完整性,使得知识库能够更好地服务于人类的信息查询和知识学习。
目前,知识库构建主要以人工构建为主,这样耗时且劳动密集,效率较低,而且很多细化的特定领域缺乏系统的知识整理或有效的知识整合。因此,有必要开发一种有效的方法,通过自动化的方式从百科网站上提取信息,并将其整理成结构化的知识库,以便计算机能够更好地理解和利用这些知识。
然而,由于半结构化百科信息的特殊性,提取信息时存在一定的困难。因此,需要开发一种能够有效提取半结构化信息的方法,以便将其整理成结构化的知识库。同时,还需要开发一种能够有效整合结构化知识的方法,使得知识库能够更加丰富和完整。
发明内容
针对上述问题,本发明提供了一种基于在线百科的知识库快速构建方法及系统,通过对百科网站上的信息进行提取,并将其整理成结构化的知识库,大大提高知识库构建的效率,并且可以自动更新知识库,以便保持知识库的最新状态,方便计算机对这些信息进行学习、理解和推理演算,为知识的挖掘、整理和应用提供更有效的手段。
为实现上述目的,本发明提供了一种基于在线百科的知识库快速构建方法,包括:
确定需构建知识库的领域,根据领域构建领域关键词种子库;
根据所述领域关键词种子库确定百科词条,利用已确定的所述百科词条迭代更新所述领域关键词种子库,进一步获取百科词条;
存储所有百科词条的半结构化信息,经筛选及整理获得领域相关的信息并存储;
基于领域相关的信息分别获取节点信息及关系表单信息,遍历所述关系表单信息中的源节点及目标节点的索引id,创建源节点-关系-目标节点的三元组;
将所述三元组批量创建至图数据库中,得到知识库。
作为本发明的进一步改进,所述确定需构建知识库的领域,根据领域构建领域关键词种子库;包括:
根据领域明确收集范围;
根据领域的收集范围,列出领域的关键词,作为领域关键词种子库。
作为本发明的进一步改进,根据所述领域关键词种子库确定百科词条,利用已确定的所述百科词条迭代更新所述领域关键词种子库,进一步获取百科词条;包括:
根据在线百科网站中的重定向表确定所述领域关键词种子库中各关键词对应的百科词条;
根据百科词条的关联词条及信息域类别扩展百科词条;
根据扩展后得到的百科词条迭代更新所述领域关键词种子库;
根据更新后的所述领域关键词种子库进一步获取百科词条。
作为本发明的进一步改进,存储所有百科词条的半结构化信息,经筛选及整理获得领域相关的信息并存储;包括:
对半结构化信息进行筛选,收集有用的信息、提出无用的信息;
对有用的信息进行整理,使信息更容易被理解和使用;
整理后的信息即为领域相关的信息,将领域相关的信息进行存储。
作为本发明的进一步改进,基于领域相关的信息分别获取节点信息及关系表单信息;包括:
所述节点信息包括:节点的索引id、节点类型、节点本体、节点属性及属性值;
所述关系表单信息包括:关系中源节点的索引id、关系类型、关系名称、关系属性及属性值、关系中目标节点的索引id;
根据领域相关的信息,提取节点及节点之间的关系,得到节点信息及关系表单信息。
作为本发明的进一步改进,将所述三元组批量创建至图数据库中,得到知识库;包括:
根据一批三元组在所述图数据库中创建子图;
根据子图批量合并重复节点及重复关系,获得批量无关系节点的图数据;
基于下一批三元组,重复以上步骤,直至所有三元组在图数据库中全部创建完成,得到知识库。
作为本发明的进一步改进,所述基于领域相关的信息分别获取节点信息及关系表单信息;还包括:
当获取到的节点信息与其他节点没有关联关系,不能得到关系表单信息时,在所述三元组全部创建至图数据库中后,将图数据库中创建该部分节点。
本发明还提供了一种基于在线百科的知识库快速构建系统,包括:种子库构建模块、百科词条获取模块、信息筛选整理模块、三元组构建模块及数据库构建模块;
所述种子库构建模块,用于:
确定需构建知识库的领域,根据领域构建领域关键词种子库;
所述百科词条获取模块,用于:
根据所述领域关键词种子库确定百科词条,利用已确定的所述百科词条迭代更新所述领域关键词种子库,进一步获取百科词条;
所述信息筛选整理模块,用于:
存储所有百科词条的半结构化信息,经筛选及整理获得领域相关的信息并存储;
所述三元组构建模块,用于:
基于领域相关的信息分别获取节点信息及关系表单信息,遍历所述关系表单信息中的源节点及目标节点的索引id,创建源节点-关系-目标节点的三元组;
所述数据库构建模块,用于:
将所述三元组批量创建至图数据库中,得到知识库。
与现有技术相比,本发明的有益效果为:
本发明通过对百科网站上的信息进行提取,将其整理成结构化的知识库,大大提高知识库构建的效率,克服特定领域缺乏系统的知识整理或有效的知识整合的缺点与不足,方便计算机对这些信息进行学习、理解和推理演算,为知识的挖掘、整理和应用提供更有效的手段;本发明基于结构化知识快速构建领域类知识库的方法,具有适用性广、知识库构建快捷的优点。
附图说明
图1为本发明一种实施例公开的基于在线百科的知识库快速构建方法流程图;
图2为本发明一种实施例公开的基于在线百科的领域知识获取流程示意图;
图3为本发明一种实施例公开的基于领域知识快速批量构建知识库的流程示意图;
图4为本发明一种实施例公开的基于在线百科的知识库快速构建系统示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,实施例中步骤S1、S2……不限定本发明的唯一执行步骤。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供的一种基于在线百科的知识库快速构建方法,包括:领域知识获取和知识库的构建;
对于领域知识的获取:
在线百科是依靠用户在线协作编辑的知识库,目前使用较广泛的包括维基百科、百度百科、搜狗百科、互动百科等。这类网站通常在数据实例之间存在大量的超链接,用户可以在超链接单元之间跳转浏览,从而将分布式的数据集逻辑联系起来。在线百科网站主要包括标签、摘要、信息框、信息域类别、重定向、内部链接、外部链接、相关词条和图片等10类结构化信息。对应的数据内容如表1所示。
表1在线百科网站主要数据项及数据内容
从在线百科类数据中获取与特定领域相关的知识是关键环节,针对百科数据的通用结构和信息形式,我们可以利用信息域类别和重定向信息对领域类知识进行获取,如图2所示,包括步骤S1~S3:
S1、确定需构建知识库的领域,根据领域构建领域关键词种子库;
其中,
首先,需要明确拟创建知识库所涵盖的领域,即知识库的主题;明确收集的目的,以及收集领域知识的范围界定,如创建农产品相关的知识库需界定是否需收集农产品种类、相关联病虫害百科知识。
进一步的,
根据领域的收集范围,列出领域的关键词,作为领域关键词种子库(初始化种子)。
S2、根据领域关键词种子库确定百科词条,利用已确定的百科词条迭代更新领域关键词种子库,进一步获取百科词条;
其中,
根据在线百科网站中的重定向表确定领域关键词种子库中各关键词对应的百科词条,应至少提取一个百科词条,并以文本形式存储该百科词条半结构化信息;
根据百科词条的关联词条及信息域类别扩展百科词条;
根据扩展后得到的百科词条迭代更新领域关键词种子库;
根据更新后的领域关键词种子库进一步获取百科词条。
此外,
可以通过提取百科词条中的内部链接和外部链接,构建百科词条语义关系词典;可以通过收集百科词条关系属性信息,建立词条语义知识字典;扩展领域关键词种子库。
进一步的,
利用已确定的百科词条迭代更新领域关键词种子库,进一步获取百科词条的过程中,可适当进行人工参与。
S3、存储所有百科词条的半结构化信息,经筛选及整理获得领域相关的信息并存储;
其中,
为确保知识的可靠性和准确性,需对所获取的半结构化信息进行筛选、整理和存储,筛选收集到的信息,确定有用的信息,并剔除无用的信息;对于有用的信息,进行整理,使其更容易理解和使用并将整理后的信息存储起来,方便后续使用。
进一步的,
对半结构化信息进行筛选,收集有用的信息、提出无用的信息;
对有用的信息进行整理,使信息更容易被理解和使用;
整理后的信息即为领域相关的信息,将领域相关的信息进行存储。
具体的,
在执行以上流程的基础上,还可以继续迭代,扩展领域关键词种子,并收集相关的知识资料。同时,还可以根据领域的特点,确定其他的信息源,如专业文献、专家博客等,以获取更为丰富的知识。
对于知识库的构建,
领域类知识库旨在全面覆盖特定领域的知识,并提供方便快捷的信息查询功能,帮助用户更好地了解和掌握相关知识。图数据库相较于关系型数据库在查询关联性知识方面更加方便和快捷,因为它们能够更好地反映出数据之间的关系和联系,使得信息的查询和使用更加简单易行。此外,图数据库还具有更高的存储效率和更强的扩展性,能够简洁清晰的表现词条和知识之间的语义关系网络,可以更好地应对复杂的数据结构和大规模的数据管理需求。
为快速构建基于图的知识库,我们提出了一种构建知识库的通用结构:即构建知识库基本要素的节点,构建知识间关联网络的关系,其通用结构中节点信息及关系信息分别如表2和表3所示;
表2通用结构中节点信息内容介绍
表3通用结构中关系信息介绍
基于以上知识库通用结构我们可以构建清晰明确且包涵知识库中知识关系的网络,其构建流程如图3所示,包括步骤S4~S6:
S4、基于领域相关的信息分别获取节点信息及关系表单信息,遍历关系表单信息中的源节点及目标节点的索引id,创建源节点-关系-目标节点的三元组;
其中,
节点信息包括:节点的索引id、节点类型、节点本体、节点属性及属性值;
关系表单信息包括:关系中源节点的索引id、关系类型、关系名称、关系属性及属性值、关系中目标节点的索引id;
根据领域相关的信息,提取节点及节点之间的关系,得到节点信息及关系表单信息。
S5、将三元组批量创建至图数据库中,得到知识库。
其中,
根据一批三元组在图数据库中创建子图;
根据子图批量合并重复节点及重复关系,获得批量无关系节点的图数据;
基于下一批三元组,重复以上步骤,直至所有三元组在图数据库中全部创建完成,得到知识库。
具体的,
构建的子图中可能存在重复的节点和关系,因此为了优化内存占用,可以分批合并这些重复项,例如每一千个三元组连接一次图数据库创建三元组,每五万个三元组后对图数据库中存在的重复节点和关系进行合并。
S6、当获取到的节点信息与其他节点没有关联关系,不能得到关系表单信息时,在三元组全部创建至图数据库中后,将图数据库中创建该部分节点。
该步骤考虑到知识库中的部分节点可能与其他节点没有关联,因此可以对这些节点进行批量创建。
如图4所示,本发明还提供了一种基于在线百科的知识库快速构建系统,包括:种子库构建模块、百科词条获取模块、信息筛选整理模块、三元组构建模块及数据库构建模块;
种子库构建模块,用于:
确定需构建知识库的领域,根据领域构建领域关键词种子库;
百科词条获取模块,用于:
根据领域关键词种子库确定百科词条,利用已确定的百科词条迭代更新领域关键词种子库,进一步获取百科词条;
信息筛选整理模块,用于:
存储所有百科词条的半结构化信息,经筛选及整理获得领域相关的信息并存储;
三元组构建模块,用于:
基于领域相关的信息分别获取节点信息及关系表单信息,遍历关系表单信息中的源节点及目标节点的索引id,创建源节点-关系-目标节点的三元组;
数据库构建模块,用于:
将三元组批量创建至图数据库中,得到知识库。
本发明的优点:
本发明通过对百科网站上的信息进行提取,将其整理成结构化的知识库,大大提高知识库构建的效率,克服特定领域缺乏系统的知识整理或有效的知识整合的缺点与不足,方便计算机对这些信息进行学习、理解和推理演算,为知识的挖掘、整理和应用提供更有效的手段;本发明基于结构化知识快速构建领域类知识库的方法,具有适用性广、知识库构建快捷的优点。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
- 基于百科词条构建问答知识库数据项的方法和装置
- 面向在线百科的知识库自动更新方法及系统