基于WEB资源的本体概念层次获取方法、系统及存储介质
文献发布时间:2023-06-19 09:52:39
技术领域
本申请涉及概念层次分析技术领域,具体而言,涉及一种基于WEB资源的本体概念层次获取方法、系统及计算机存储介质。
背景技术
领域本体是对特定领域共享概念模型明确、规范的说明,以术语集及术语间的关系反映该领域的知识系统,可用于实现人机之间及机器之间的语义信息交互。目前,领域本体已被广泛应用于诸多信息应用领域,如信息检索、信息抽取、及问答系统等。
现有技术中存在一种层次化的本体构建模型,把本体构建分解为术语识别、同义词消解、概念获取、概念层次关系的获取、关系以及公理六个层次。这种层次化的本体构建模型虽然在一定程度上可以降低本体工程的复杂性,但是仍然无法做到快速高效的获取领域本体。
于是,如何快速、高效地获取领域本体依然是个亟待解决的难题。
发明内容
为了解决上述检索领域现有技术中存在的技术问题,本申请提供了一种基于WEB资源的本体概念层次获取方法、系统及计算机存储介质。
本申请的第一方面提供了一种基于WEB资源的本体概念层次获取方法,其特征在于,所述方法包括:
S1、利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;
S2、综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;
S3、在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。
优选地,所述S1中,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料,包括:
将集合中的概念对(c
针对由概念对(c
分别对关系语境集context
计算W中候选线索词w
其中,f
针对层次关系r
得到线索词之后,在对应的关系语境集中查找包含线索词的语境片段,假设目标语境中包含的两个概念分别为c
优选地,所述步骤S1中,借助搜索引擎从Web中获取富含层次关系的语料,包括:
对于包含概念c
优选地,步骤S2中,所述概念向量空间模型的构造方法为:
A=[a
a
其中,A表示概念向量空间模型;针对概念集C={c
针对三个不同的文档语料集D
优选地,步骤S2中,所述融合基于《知网》的概念语义相似度建立概念图,包括:
S21、概念c
vec(c
针对三个不同的文档集D
sim
S22、对于知网未登录的词,设定其与其他词的相似度为0;并以sim
S23、利用多项式相加方式对四个相似度矩阵进行融合,最终的相似度矩阵以S=s(c
S=K
其中,K
通过设定相似度阈值把相似度矩阵转换为概念的关系图模型,以二元组G=(C,E)表示概念图模型,C={c
优选地,步骤S3中,在对所述概念图进行剪枝操作后,包括:
针对步骤S2中构造的概念图模型G=(C,E),集合C={c
所述对所述概念图进行剪枝操作,包括如下步骤:
输入:G=(C,E),其中C={c
输出:H={(c
S31、初始化,把G
S32、判断C
计算图G
S33、剪枝操作结束,输出H={(c
优选地,步骤S3中,所述利用改进的层次树构造算法得到概念间明确的层次从属关系,包括如下步骤:
延用前述对变量的声明,以H={(c
Hy={(c
输入:H={(c
输出:Hy={(c
S34、初始化,把C
S35.判断H是否为空,若否,则执行步骤S36;若是,则执行下述步骤:
从H中取出rank值最小的概念节点
S36、输出Hy={(c
本申请的第二方面提供了一种基于WEB资源的本体概念层次获取系统,所述系统包括语料获取模块、概念图建立模块、本体概念层次获取模块;
所述语料获取模块,用于利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;
所述概念图建立模块,用于综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;
所述本体概念层次获取模块,用于在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。
本申请的第三方面提供了一种基于WEB资源的本体概念层次获取设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前述所述的基于WEB资源的本体概念层次获取方法。
本申请的第四方面提供了一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前述所述的基于WEB资源的本体概念层次获取方法。
本发明的有益效果在于:
本申请提出了一种基于WEB资源的本体概念层次获取方法,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。本申请的方案获取的层次从属关系的准确率明显优于现有技术,为实现人机之间及机器之间的语义信息交互打下了坚实的基础。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例公开的一种单文档自动摘要生成方法的流程示意图;
图2是本申请实施例公开的一种单文档自动摘要生成系统的结构示意图;
图3是本申请实施例公开的一种单文档自动摘要生成设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,若出现术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
现有技术中存在如下几种自动摘要方法:
基于概率统计的方法,认为文本中词语的出现频率和分布应该作为自动摘要的重要依据,通过综合考虑文本中关键词的词频、文本标题、句子的位置、文本中的线索词、句子的句法结构等信息,摘录出一些能够反映文档主旨的主题句,作为最终的摘要结果。基于概率统计的自动摘要方法一般通过选择高频词语作为关键词,忽略了某些低频词语的重要性。
基于文本理解的方法以自然语言理解技术为基础,对文本进行语法分析和语义分析,从而获取文本摘要。基于文本理解的摘要方法是基于自然语言理解的技术,抽取的结果具有较好的准确性、完整性、易读性。但是该方法需要结合领域内的知识,因此受限于领域,对某一领域的摘要方法很难扩展到其他领域。
然而,上述自动摘要方法无法同时保障效率及准确度。
实施例一
请参阅图1,图1是本申请实施例公开的一种基于WEB资源的本体概念层次获取方法的流程示意图。如图1所示,本申请实施例的一种基于WEB资源的本体概念层次获取方法,其特征在于,所述方法包括:
S1、利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;
S2、综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;
S3、在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。
优选地,所述S1中,利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料,包括:
将集合中的概念对(c
针对由概念对(c
分别对关系语境集context
计算W中候选线索词w
其中,f
针对层次关系r
得到线索词之后,在对应的关系语境集中查找包含线索词的语境片段,假设目标语境中包含的两个概念分别为c
优选地,所述步骤S1中,借助搜索引擎从Web中获取富含层次关系的语料,包括:
对于包含概念c
优选地,步骤S2中,所述概念向量空间模型的构造方法为:
A=[a
a
其中,A表示概念向量空间模型;针对概念集C={c
针对三个不同的文档语料集D
优选地,步骤S2中,所述融合基于《知网》的概念语义相似度建立概念图,包括:
S21、概念c
vec(c
针对三个不同的文档集D
sim
S22、对于知网未登录的词,设定其与其他词的相似度为0;并以sim
S23、利用多项式相加方式对四个相似度矩阵进行融合,最终的相似度矩阵以S=s(c
S=K
其中,K
通过设定相似度阈值把相似度矩阵转换为概念的关系图模型,以二元组G=(C,E)表示概念图模型,C={c
优选地,步骤S3中,在对所述概念图进行剪枝操作后,包括:
针对步骤S2中构造的概念图模型G=(C,E),集合C={c
所述对所述概念图进行剪枝操作,包括如下步骤:
输入:G=(C,E),其中C={c
输出:H={(c
S31、初始化,把G
S32、判断C
计算图G
S33、剪枝操作结束,输出H={(c
优选地,步骤S3中,所述利用改进的层次树构造算法得到概念间明确的层次从属关系,包括如下步骤:
延用前述对变量的声明,以H={(c
Hy={(c
输入:H={(c
输出:Hy={(c
S34、初始化,把C
S35.判断H是否为空,若否,则执行步骤S36;若是,则执行下述步骤:
从H中取出rank值最小的概念节点
S36、输出Hy={(c
实施例二
请参阅图2,图2是本申请实施例公开的一种基于WEB资源的本体概念层次获取系统的结构示意图。如图2所示,本申请实施例的一种基于WEB资源的本体概念层次获取系统,所述系统包括语料获取模块、概念图建立模块、本体概念层次获取模块;
所述语料获取模块,用于利用线索词构造蕴含层次关系的查询串,借助搜索引擎从Web中获取富含层次关系的语料;
所述概念图建立模块,用于综合利用从Web获取的关系富集语料、百科知识解释条目及新闻文档构造概念向量空间模型,融合基于《知网》的概念语义相似度建立概念图;
所述本体概念层次获取模块,用于在对所述概念图进行剪枝操作后,利用改进的层次树构造算法得到概念间明确的层次从属关系。
实施例三
请参阅图3,图3是本申请实施例公开的一种基于WEB资源的本体概念层次获取设备的结构示意图。如图3所示,本申请实施例的一种基于WEB资源的本体概念层次获取设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前述所述的基于WEB资源的本体概念层次获取方法。
实施例四
本申请实施例提供一种存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前述所述的基于WEB资源的本体概念层次获取方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
- 基于WEB资源的本体概念层次获取方法、系统及存储介质
- 资源获取方法、资源获取装置、存储介质和电子设备