掌桥专利:专业的专利平台
掌桥专利
首页

文档结构知识图谱创建方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:33:46


文档结构知识图谱创建方法、装置、电子设备及存储介质

技术领域

本申请涉及知识图谱领域,尤其涉及一种文档结构知识图谱创建方法、装置、电子设备及存储介质。

背景技术

知识图谱是把现实世界的实体(人或事)信息数据存储起来,并在数据之间建立联系,用于描述真实世界中存在的各种实体以及他们之间的关系的一种产品。可以用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

目前,传统的企业对于文档的利用效率过低,面临着无法高效的利用文档及文档内容的问题,所以,亟需一种将文档结构进行图谱化的方案。

发明内容

为了解决上述技术问题,本申请实施例提供了一种文档结构知识图谱创建方法、装置、电子设备及存储介质。

第一方面,本申请实施例提供了一种文档结构知识图谱创建方法,所述方法包括:

获取文档;

设置标题提取规则,从所述文档中提取出目标内容;

利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识;

根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合;

根据所述三元组集合,创建所述文档的知识图谱。

根据本申请公开的一种具体实施方式,所述获取文档的步骤,包括:

判断所述文档的文件扩展名;

若所述文档的文件扩展名为.doc,则将所述文档的文件扩展名转换为.docx。

根据本申请公开的一种具体实施方式,所述设置标题提取规则,从所述文档中提取出目标内容的步骤,包括:

提取所述文档的文本标题、一级标题、二级标题、三级标题、四级标题和正文内容。

根据本申请公开的一种具体实施方式,所述利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识的步骤,包括:

设置正则表达式及对应预设的标识的字典;

将所述字典与所述目标内容进行匹配,将第一标识赋予对应的标题。

根据本申请公开的一种具体实施方式,所述利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识的步骤,包括:

为所述目标内容写入其相邻标题段的序号,并判断目标标题相邻的两个标题是否同级以及序号是否连续,为所述目标标题赋予对应的第二标识;

若相邻的两个标题同级并且序号不连续,则为所述目标标题添加标识A;

若相邻的两个标题同级并且序号连续,则为所述目标标题添加标识B;

若相邻的两个标题不同级并且序号连续,则为所述目标标题添加标识C;

若相邻的两个标题不同级并且序号不连续,则为所述目标标题添加标识D。

根据本申请公开的一种具体实施方式,所述根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合的步骤,包括:

根据所述第一标识抽取对应的第一三元组;

根据所述第二标识抽取对应的第二三元组;

根据所述目标内容相邻标题段的序号抽取对应的第三三元组。

根据本申请公开的一种具体实施方式,所述根据所述三元组集合,创建所述文档的知识图谱的步骤之前,还包括:

接收图谱预览指令;

根据所述图谱预览指令和所述三元组集合生成预览图谱,并在用户界面展示所述预览图谱。

第二方面,本申请实施例提供了一种文档结构知识图谱创建装置,所述文档结构知识图谱创建装置包括:

获取模块,用于获取文档;

提取模块,用于设置标题提取规则,从所述文档中提取出目标内容;

添加模块,用于利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识;

抽取模块,用于根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合;

创建模块,用于根据所述三元组集合,创建所述文档的知识图谱。

第三方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的文档结构知识图谱创建方法。

第四方面,本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的文档结构知识图谱创建方法。

上述本申请提供的文档结构知识图谱创建方法,通过获取文档;设置标题提取规则,从所述文档中提取出目标内容;利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识;根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合;根据所述三元组集合,创建所述文档的知识图谱,通过对文档结构进行图谱化能够有效构建高质量的文档结构图谱,提高了知识图谱的开发利用效率。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对本申请保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。

图1示出了本申请实施例提供的文档结构知识图谱创建方法的流程示意图;

图2示出了本申请实施例提供的文档结构知识图谱创建装置的结构示意图;

图3示出了本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。

通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

在下文中,可在本申请的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本申请的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本申请的各种实施例中被清楚地限定。

实施例1

本公开实施例提供了一种文档结构知识图谱创建方法。

具体的,参见图1,所述文档结构知识图谱创建方法包括:

步骤S101,获取文档。

具体地,所述文档包括带有目录结构的文档。

所述获取文档的步骤,包括:

判断所述文档的文件扩展名;

若所述文档的文件扩展名为.doc,则将所述文档的文件扩展名转换为.docx。

可以理解地,获取所述文档时为了避免因文件扩展名而造成的格式错误,将所述文档的文件扩展名统一转换为docx。

步骤S102,设置标题提取规则,从所述文档中提取出目标内容。

所述设置标题提取规则,从所述文档中提取出目标内容的步骤,包括:

提取所述文档的文本标题、一级标题、二级标题、三级标题、四级标题和正文内容。

可以理解地,所述文档含有标题结构,根据预设正则表达式可以提取出所述文档中的各级子标题以及对应的正文内容。

步骤S103,利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识。

具体实施时,正则表达式是一种文本模式,包括普通字符和特殊字符,通过预先定义的字符组成一个规则字符串,通过所述规则字符串表达对字符串的一种过滤逻辑。本申请中通过将文档中的全部内容定义为特殊字符,通过正则表达式从中筛选出目标内容和正文内容。

所述利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识的步骤,包括:

设置正则表达式及对应预设的标识的字典;

将所述字典与所述目标内容进行匹配,将第一标识赋予对应的标题。

优选地,所述第一标识包括10、20、30、40和00,分别可以对应文档中的一级标题、二级标题、三级标题、四级标题和正文内容。

所述利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识的步骤,包括:

为所述目标内容写入其相邻标题段的序号,并判断目标标题相邻的两个标题是否同级以及序号是否连续,为所述目标标题赋予对应的第二标识;

若相邻的两个标题同级并且序号不连续,则为所述目标标题添加标识A;

若相邻的两个标题同级并且序号连续,则为所述目标标题添加标识B;

若相邻的两个标题不同级并且序号连续,则为所述目标标题添加标识C;

若相邻的两个标题不同级并且序号不连续,则为所述目标标题添加标识D。

步骤S104,根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合。

所述根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合的步骤,包括:

根据所述第一标识抽取对应的第一三元组;

根据所述第二标识抽取对应的第二三元组;

根据所述目标内容相邻标题段的序号抽取对应的第三三元组。

具体地,首先以所述目标内容的序号为键,以正文内容为值,分别对所述目标内容和所述文本内容构建字典,得到标题段字典和正文段字典。根据所述第一标识判断标题是否为一级标题,若为一级标题,则抽取出文档标题,包含,一级标题文本的第一三元组。根据所述第二标识判断标题是否同级以及是否序号连续,若所述标题的第二标识为A,则确定所述标题为正文,抽取文档标题,一级标题文本,正文段文本的第二三元组。然后根据所述正文段字典中提取出所述标题相邻的序号对应的文本段,抽取出各级子标题,包含,正文文本的第三三元组。若所述标题的第二标识为C,则抽取出一级标题文本,包含,二级标题文本的第二三元组。

若所述第一标识为二级标题,则根据所述第二标识抽取出相应的第二三元组。例如,若所述第二标识为C,则抽取出二级标题文本,包含,三级标题文本的第二三元组,若所述第二标识为D,则抽取出二级标题文本,包含,三级标题文本的第二三元组以及一系列的二级标题,包含,正文的第二三元组。

若所述第一标识为三级标题,则首先根据所述第二标识抽取出相应的第二三元组。例如,若所述第二标识为A或D时,抽取出一系列的三级标题文本,包含,正文的第二三元组,若所述第二标识为C时,抽取出三级标题文本,包含,四级标题文本的第二三元组。

若所述第一标识为四级标题,则首先根据所述第二标识抽取出相应的第二三元组。例如,若所述第二标识为A或C时,抽取出一系列四级标题文本,包含,正文的第二三元组。

步骤S105,根据所述三元组集合,创建所述文档的知识图谱。

具体地,采用图数据库AllegroGraph存储所述三元组集合以将文档中的知识图谱化。首先提取三元组集合中全部不重复的节点,并将节点导入到数据库中,然后对每一条三元组,先找到其在数据库中的节点,再建立两个节点之间的关系。最终得到所述文档的知识图谱。

所述根据所述三元组集合,创建所述文档的知识图谱的步骤之前,还包括:

接收图谱预览指令;

根据所述图谱预览指令和所述三元组集合生成预览图谱,并在用户界面展示所述预览图谱。

在实际场景中,可以通过可视化界面展示文本数据的标题结构和三元组集合生成的预览图谱,也可以选择保存所述预览图谱。

本实施例提供的文档结构知识图谱创建方法,通过获取文档;设置标题提取规则,从所述文档中提取出目标内容;利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识;根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合;根据所述三元组集合,创建所述文档的知识图谱,通过对文档结构进行图谱化能够有效构建高质量的文档结构图谱,提高了知识图谱的开发利用效率。

实施例2

此外,参见图2,本公开实施例提供了一种文档结构知识图谱创建装置200,所述装置包括:

获取模块201,用于获取文档;

提取模块202,用于设置标题提取规则,从所述文档中提取出目标内容;

添加模块203,用于利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识;

抽取模块204,用于根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合;

创建模块205,用于根据所述三元组集合,创建所述文档的知识图谱。

本实施例提供文档结构知识图谱创建装置200可以执行实施例1所示的文档结构知识图谱创建方法,为避免重复,在此不再赘述。

本实施例提供的文档结构知识图谱创建装置,通过获取文档;设置标题提取规则,从所述文档中提取出目标内容;利用字典以及正则表达式对所述目标内容进行遍历,为所述目标内容添加预设的标识;根据所述目标内容和所述预设的标识抽取出所述文档中的三元组集合;根据所述三元组集合,创建所述文档的知识图谱,通过对文档结构进行图谱化能够有效构建高质量的文档结构图谱,提高了知识图谱的开发利用效率。

实施例3

此外,本公开实施例提供一种电子设备300,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行上述实施例1所提供的文档结构知识图谱创建方法。

具体的,参见图3,所述电子设备300包括:收发机301、总线接口及处理器302。

在本发明实施例中,电子设备300还包括:存储器303。在图3中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器302代表的一个或多个处理器和存储器303代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机301可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线架构和通常的处理,存储器303可以存储处理器302在执行操作时所使用的数据。

本发明实施例提供的电子设备300,可以执行实施例1所示的文档结构知识图谱创建方法,为避免重复,在此不再赘述。

实施例4

在本实施例中,计算机可读存储介质可以为只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

本实施例4提供的计算机可读存储介质可以执行实施例1所示的文档结构知识图谱创建方法,为避免重复,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

技术分类

06120115954727