掌桥专利:专业的专利平台
掌桥专利
首页

政务图谱模型构建方法、装置、设备及计算机可读介质

文献发布时间:2023-06-19 10:08:35


政务图谱模型构建方法、装置、设备及计算机可读介质

技术领域

本申请涉及知识图谱技术领域,尤其涉及一种政务图谱模型构建方法、装置、设备及计算机可读介质。

背景技术

为政务行业提供区域产业分析能力,引导地方产业发展,同时基于多维企业大数据,提供全方位企业信息查询服务,监测企业发展态势和风险情况。通过构建企业法人知识图谱,深度挖掘企业、高管、法人、品牌、产品、地域、产业链间的复杂网络关系。政务行业企业法人知识图谱库的建设主要是汇聚法人在社会经济活动中产生的相关信息。

目前,相关技术中,在对法人知识图谱数据治理的过程中,需要多次迭代更新。根据知识获取的逻辑,每一轮迭代基本上都需要经历以下3个过程:

1、信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;

2、知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;

3、知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

每次迭代都需要行业专家深度人工参与甄别,如依靠从组织内部的结构化、非结构化以及半结构化数据进行联合抽取时需要依靠大量人工进行审核校验,导致效率低下。并且知识抽取的质量较差,数据质量较低对政务图谱的后期的应用有较大阻碍,无法将知识库中的知识应用到迭代中去。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本申请提供了一种政务图谱模型构建方法、装置、设备及计算机可读介质,以解决无法将知识库中的知识应用到迭代中去的技术问题。

根据本申请实施例的一个方面,本申请提供了一种政务图谱模型构建方法,包括:

获取目标政务数据,目标政务数据为从互联网政务领域中采集得到的,用于表示法人扩展信息;

从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识,法人图谱知识库为根据通用政务知识图谱的构建数据得到的;

利用图谱知识对目标政务数据构建法人扩展信息的知识图谱。

可选地,获取目标政务数据包括以下方式中的至少一种:

从第一抓取链路的起始页开始,依次抓取第一抓取链路中的各个页面中的目标政务数据;在第一抓取链路的所有页面均抓取完毕且不满足结束条件的情况下,继续从第二抓取链路的起始页开始,依次抓取第二抓取链路中的各个页面中的目标政务数据,直至满足结束条件时,终止抓取数据;

抓取当前页面中的目标政务数据;在不满足结束条件的情况下,从当前页面中的多个链接中确定目标链接,并抓取目标链接所指向的目标页面中的目标政务数据,直至满足结束条件时,终止抓取数据。

可选地,从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识包括:

提取目标政务数据所要构建的知识图谱的模型标识;

从预设的法人图谱知识库中提取与模型标识匹配的数据分类标签、数据编码标准及实体关联关系中的至少一种。

可选地,利用图谱知识对目标政务数据构建法人扩展信息的知识图谱包括:

利用数据分类标签对目标政务数据进行分类,数据分类标签包括工商信息、股东信息、主要人员信息、分支机构信息、年报信息、税务评级、违法信息、司法协助信息及失信人信息中的至少一种;

将分类后的目标政务数据按照数据编码标准进行编码;

按照实体关联关系对编码后的目标政务数据进行关联;

利用关联后的目标政务数据构建知识图谱。

可选地,利用关联后的目标政务数据构建知识图谱,包括:

从目标政务数据中确定目标法人;

提取目标法人的本体数据集,本体数据集中的数据用于表示与目标法人关联的对象、企业、社会组织、道路、楼房及互联网文本中的至少一种;

以目标法人为主实体,以目标法人所在的业务领域为子实体,按照本体数据集指示的对象、企业、社会组织、楼房、道路及互联网文本之间的关联关系构建主实体与子实体、子实体与子实体之间的关联边。

可选地,从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识之前,该方法还包括按照如下方式中的至少一种确定数据分类标签,并将数据分类标签保存在法人图谱知识库中:

获取第一参照数据集;将第一参照数据集中的数据转换为特征向量;确定特征向量之间的余弦相似度,并将余弦相似度小于目标阈值的特征向量归为同一个分类数据集中;确定不同的分类数据集的数据分类标签,并将数据分类标签和分类数据集保存在法人图谱知识库中;

获取第二参照数据集,第二参照数据集用表结构进行保存;对表结构的第二参照数据集进行语义识别;按照识别结果进行分类;确定每一类的数据分类标签;将数据分类标签和识别结果保存在法人图谱知识库中。

可选地,利用图谱知识对目标政务数据构建法人扩展信息的知识图谱之后,该方法还包括:

获取验证数据;

利用验证数据对法人扩展信息的知识图谱进行验证;

在验证结果指示知识图谱的准确率达到目标阈值时,验证通过。

根据本申请实施例的另一方面,本申请提供了一种政务图谱模型构建装置,包括:

政务数据获取模块,用于获取目标政务数据,目标政务数据为从互联网政务领域中采集得到的,用于表示法人扩展信息;

图谱知识提取模块,用于从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识,法人图谱知识库为根据通用政务知识图谱的构建数据得到的;

知识图谱构建模块,用于利用图谱知识对目标政务数据构建法人扩展信息的知识图谱。

可选地,政务数据获取模块包括:

深度遍历单元,用于从第一抓取链路的起始页开始,依次抓取第一抓取链路中的各个页面中的目标政务数据;在第一抓取链路的所有页面均抓取完毕且不满足结束条件的情况下,继续从第二抓取链路的起始页开始,依次抓取第二抓取链路中的各个页面中的目标政务数据,直至满足结束条件时,终止抓取数据;

广度遍历单元,用于抓取当前页面中的目标政务数据;在不满足结束条件的情况下,从当前页面中的多个链接中确定目标链接,并抓取目标链接所指向的目标页面中的目标政务数据,直至满足结束条件时,终止抓取数据。

可选地,图谱知识提取模块包括:

模型标识提取单元,用于提取目标政务数据所要构建的知识图谱的模型标识;

知识提取单元,用于从预设的法人图谱知识库中提取与模型标识匹配的数据分类标签、数据编码标准及实体关联关系中的至少一种。

可选地,知识图谱构建模块包括:

数据分类单元,用于利用数据分类标签对目标政务数据进行分类,数据分类标签包括工商信息、股东信息、主要人员信息、分支机构信息、年报信息、税务评级、违法信息、司法协助信息及失信人信息中的至少一种;

数据编码单元,用于将分类后的目标政务数据按照数据编码标准进行编码;

数据关联单元,用于按照实体关联关系对编码后的目标政务数据进行关联;

图谱构建单元,用于利用关联后的目标政务数据构建知识图谱。

可选地,图谱构建单元包括:

法人确定子单元,用于从目标政务数据中确定目标法人;

关联数据提取子单元,用于提取目标法人的本体数据集,本体数据集中的数据用于表示与目标法人关联的对象、企业、社会组织、道路、楼房及互联网文本中的至少一种;

图谱构建子单元,用于以目标法人为主实体,以目标法人所在的业务领域为子实体,按照本体数据集指示的对象、企业、社会组织、楼房、道路及互联网文本之间的关联关系构建主实体与子实体、子实体与子实体之间的关联边。

可选地,该装置还包括数据分类标签确定模块,包括:

第一确定单元,用于获取第一参照数据集;将第一参照数据集中的数据转换为特征向量;确定特征向量之间的余弦相似度,并将余弦相似度小于目标阈值的特征向量归为同一个分类数据集中;确定不同的分类数据集的数据分类标签,并将数据分类标签和分类数据集保存在法人图谱知识库中;

第二确定单元,用于获取第二参照数据集,其中,第二参照数据集用表结构进行保存;对表结构的第二参照数据集进行语义识别;按照识别结果进行分类;确定每一类的数据分类标签;将数据分类标签和识别结果保存在法人图谱知识库中。

可选地,该装置还包括验证模块,包括:

验证数据获取单元,用于获取验证数据;

验证单元,用于利用验证数据对法人扩展信息的知识图谱进行验证;

验证结果确定单元,用于在验证结果指示知识图谱的准确率达到目标阈值时,验证通过。

根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。

根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。

本申请实施例提供的上述技术方案与相关技术相比具有如下优点:

本申请技术方案为获取目标政务数据,目标政务数据为从互联网政务领域中采集得到的,用于表示法人扩展信息;从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识,法人图谱知识库为根据通用政务知识图谱的构建数据得到的;利用图谱知识对目标政务数据构建法人扩展信息的知识图谱。本申请将构建过程中产生的知识积累沉淀下来,为下一次政务法人扩展信息图谱模型构建提供必要的行业知识指导,从而将知识库中的知识应用到迭代中去,使非专业技术人员也能参与到图谱模型构建的工作中来。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为根据本申请实施例提供的一种可选的政务图谱模型构建方法硬件环境示意图;

图2为根据本申请实施例提供的一种可选的政务图谱模型构建方法流程图;

图3为根据本申请实施例提供的一种可选的政务图谱模型构建装置框图;

图4为本申请实施例提供的一种可选的电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。

相关技术中,在对法人知识图谱数据治理的过程中,需要多次迭代更新。根据知识获取的逻辑,每一轮迭代基本上都需要经历以下3个过程:

1、信息抽取:从各种类型的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;

2、知识融合:在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;

3、知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工参与甄别),才能将合格的部分加入到知识库中,以确保知识库的质量。

每次迭代都需要行业专家深度人工参与甄别,如依靠从组织内部的结构化、非结构化以及半结构化数据进行联合抽取时需要依靠大量人工进行审核校验,导致效率低下。并且知识抽取的质量较差,数据质量较低对政务图谱的后期的应用有较大阻碍,无法将知识库中的知识应用到迭代中去。

为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种政务图谱模型构建方法的实施例。

可选地,在本申请实施例中,上述政务图谱模型构建方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。

本申请实施例中的一种政务图谱模型构建方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:

步骤S202,获取目标政务数据,目标政务数据为从互联网政务领域中采集得到的,用于表示法人扩展信息。

本申请实施例中,上述政务领域的互联网包括政府部门、统计局及企业经营相关的各大站点,所述目标政务数据为围绕法人(以统一社会信用代码表示)的企业工商扩展信息,包括工商信息、股东信息、主要人员、分支机构、年报信息、税务评级、严重违法、司法协助、失信人、开庭公告、裁判文书、法院公告、被执行人、抽查检查、环保处罚、行政处罚、工程异常、经营异常、动产抵押、司法拍卖、股权出质、欠税信息、专利、商标信息、对外投资、招投标、网站备案、著作权、融资历史、行政许可、资质证书、软件著作权、进出口信用、招聘等。这些数据为信息查询、身份校核等共享服务提供底层数据支撑。法人扩展信息反映法人在不同生命周期的状态属性,由于法人的经营活动的不确定性,法人扩展信息变化的频率较大。

本申请实施例中,可以以法人(统一社会信用代码)为核心,通过统一社会信用代码关联企业注册登记信息、企业变更登记信息、企业年报信息、税务登记信息等法人扩展信息,实现法人信息的“一码关联”。

可选地,获取目标政务数据包括以下方式中的至少一种:

从第一抓取链路的起始页开始,依次抓取第一抓取链路中的各个页面中的目标政务数据;在第一抓取链路的所有页面均抓取完毕且不满足结束条件的情况下,继续从第二抓取链路的起始页开始,依次抓取第二抓取链路中的各个页面中的目标政务数据,直至满足结束条件时,终止抓取数据;

抓取当前页面中的目标政务数据;在不满足结束条件的情况下,从当前页面中的多个链接中确定目标链接,并抓取目标链接所指向的目标页面中的目标政务数据,直至满足结束条件时,终止抓取数据。

本申请实施例中,可以按照深度优先遍历策略进行深度遍历以获取数据,还可以按照广度优先遍历策略进行广度遍历以获取数据。

深度优先遍历策略是指在多条抓取链路中选择一条链路,即第一链路,然后网络爬虫会从第一链路的起始页开始,顺着该第一链路一个链接接着一个链接跟踪下去,处理完第一链路之后,再转入第二链路中,从第二链路中的起始页开始,再次顺着第二链路,逐个链接进行数据爬取,在抓取数据的过程中,若满足结束条件,则停止爬取数据,结束条件可以根据所要获取的数据量来确定,还可以根据链路数来确定。

广度优先遍历策略是指将新下载网页中发现的链接直接插入待抓取地址队列的末尾。也就是指,网络爬虫会先抓取当前网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。同样,在满足结束条件时停止爬取数据,结束条件可以根据所要获取的数据量来确定,还可以根据链接的横向展开度来确定。

可选地,本申请实施例中,还可以采用数据仓库技术,来对准实时数据和非实时的数据,实现全量、增量的数据采集,数据仓库技术已经较为成熟,在此不再赘述。

步骤S204,从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识,法人图谱知识库为根据通用政务知识图谱的构建数据得到的。

本申请实施例中,可以利用法人图谱知识库中的图谱知识来构建或迭代知识图谱。图谱知识为根据通用政务知识图谱在构建过程中所涉及的数据、方法、关系及标准等各方面的累积经验得到的。

可选地,从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识包括:

提取目标政务数据所要构建的知识图谱的模型标识;

从预设的法人图谱知识库中提取与模型标识匹配的数据分类标签、数据编码标准及实体关联关系中的至少一种。

本申请实施例中,可以在构建知识图谱之前,预先确定所要构建的知识图谱,从而进行数据采集,所采集的数据被标记有模型标识,可以在法人图谱知识库中提取与模型标识匹配的数据分类标签、数据编码标准及实体关联关系。

可选地,从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识之前,该方法还包括按照如下方式中的至少一种确定数据分类标签,并将数据分类标签保存在法人图谱知识库中:

获取第一参照数据集;将第一参照数据集中的数据转换为特征向量;确定特征向量之间的余弦相似度,并将余弦相似度小于目标阈值的特征向量归为同一个分类数据集中;确定不同的分类数据集的数据分类标签,并将数据分类标签和分类数据集保存在法人图谱知识库中;

获取第二参照数据集,第二参照数据集用表结构进行保存;对表结构的第二参照数据集进行语义识别;按照识别结果进行分类;确定每一类的数据分类标签;将数据分类标签和识别结果保存在法人图谱知识库中。

本申请实施例中,第一参照数据集为非结构化存储的数据集合,可以通过自然语言处理技术来识别非结构化数据的内容,再对数据进行分类,最后打上对应的类别标签。具体可以是先将第一参照数据集中的数据通过Embedding的方式或者Word2Vector的方式转换为特征向量,并通过计算特征向量之间的余弦相似度来对数据进行分类,从而将余弦相似度在目标阈值以内的特征向量归为同一个分类数据集,最后为每一个分类数据集贴上数据分类标签。第二参照数据集为结构化存储的数据集合,可以通过对表结构进行分析,对表名词、列名称及示例数据进行语义分析,分析后打上对应的类别标签。在确定数据分类标签之后,将数据分类标签和对应的数据集合保存在法人图谱知识库中。

本申请实施例中,最后得到的数据分类标签包括工商信息、股东信息、主要人员信息、分支机构信息、年报信息、税务评级、违法信息、司法协助信息及失信人信息等。

数据编码标准可以通过数据清理、数据集成及数据归约来实现。数据清理用于用于填充空缺值、识别孤立点、消除噪声、纠正数据不一致。数据集成可以用于将来自不同数据源的数据整合成一致的数据存储,例如,可以通过转换为元数据、相关分析、数据冲突检测和语义异种性分析等方法例进行数据集成。数据归约是对数据处理的技术,如数据立方体聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小。

通过统一数据编码标准,可以将获取的数据统一格式及数据标识。

实体关联关系可以分为实体、属性、关系三个方面。实体层面,可以确定法人扩展信息图谱模型中主要的实体类型:法人;属性层面,法人的属性包括工商信息、年报信息、税信息等;关系层面,主要包括投资/股东、法定代表人、高管、分支机构及其之间的逻辑关系。

步骤S206,利用图谱知识对目标政务数据构建法人扩展信息的知识图谱。

本申请实施例中,通过关系层面的各个关系可以构建实体之间的关联边,从而形成知识图谱,并将属性层面的各个信息保存在知识图谱的各个实体节点中,从而完成法人扩展信息的知识图谱的构建。

可选地,利用图谱知识对目标政务数据构建法人扩展信息的知识图谱包括:

利用数据分类标签对目标政务数据进行分类,数据分类标签包括工商信息、股东信息、主要人员信息、分支机构信息、年报信息、税务评级、违法信息、司法协助信息及失信人信息中的至少一种;

将分类后的目标政务数据按照数据编码标准进行编码;

按照实体关联关系对编码后的目标政务数据进行关联;

利用关联后的目标政务数据构建知识图谱。

本申请实施例中,可以按照法人图谱知识库保存的数据分类标签对目标政务数据进行分类,再根据数据编码标准进行编码,以消除格式不统一、数据不正确的问题,最后按照实体关联关系确定目标政务数据中指示的企业、高管、法人、品牌、产品、地域、产业链间的复杂网络关系,最后法人创建实体,根据关联关系创建关联边,从而构建知识图谱。

可选地,利用关联后的目标政务数据构建知识图谱,包括:

从目标政务数据中确定目标法人;

提取目标法人的本体数据集,本体数据集中的数据用于表示与目标法人关联的对象、企业、社会组织、道路、楼房及互联网文本中的至少一种;

以目标法人为主实体,以目标法人所在的业务领域为子实体,按照本体数据集指示的对象、企业、社会组织、楼房、道路及互联网文本之间的关联关系构建主实体与子实体、子实体与子实体之间的关联边。

本申请实施例中,因为城市的所有根类型的本体(包括人、企业、社会组织、道路、楼房等实体,也包括城市里发生的事件、相关的文本和多媒体)数量众多,仅实体类型的数量即可达到上万个,按照知识图谱分步骤实施,快速迭代的思路,采用分层分域的模式,首先将目标法人确定为主实体,按照该目标法人的业务使用情况确定出子实体,再添加主实体与子实体、子实体与子实体之间的关联边,从而形成完整的法人扩展信息的知识图谱。

可选地,利用图谱知识对目标政务数据构建法人扩展信息的知识图谱之后,该方法还包括:

获取验证数据;

利用验证数据对法人扩展信息的知识图谱进行验证;

在验证结果指示知识图谱的准确率达到目标阈值时,验证通过。

本申请实施例中,模型设计人员需要不断地查看数据内容,以验证业务。数据内容会因为时间过久,缺乏维护等原因存在与实际业务不一致的情况,而且受限于人员经验、业务系统人员经验等诸多条件的限制,会存在较多错漏的地方,在模型设计阶段,需要通过不断的验证,发现问题,并更新相关结果。

采用本申请技术方案,可以将构建过程中产生的知识积累沉淀下来,为下一次政务法人扩展信息图谱模型构建提供必要的行业知识指导,从而将知识库中的知识应用到迭代中去,使非专业技术人员也能参与到图谱模型构建的工作中来。

根据本申请实施例的又一方面,如图3所示,提供了一种政务图谱模型构建装置,包括:

政务数据获取模块301,用于获取目标政务数据,目标政务数据为从互联网政务领域中采集得到的,用于表示法人扩展信息;

图谱知识提取模块303,用于从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识,法人图谱知识库为根据通用政务知识图谱的构建数据得到的;

知识图谱构建模块305,用于利用图谱知识对目标政务数据构建法人扩展信息的知识图谱。

需要说明的是,该实施例中的政务数据获取模块301可以用于执行本申请实施例中的步骤S202,该实施例中的图谱知识提取模块303可以用于执行本申请实施例中的步骤S204,该实施例中的知识图谱构建模块305可以用于执行本申请实施例中的步骤S206。

此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。

可选地,政务数据获取模块包括:

深度遍历单元,用于从第一抓取链路的起始页开始,依次抓取第一抓取链路中的各个页面中的目标政务数据;在第一抓取链路的所有页面均抓取完毕且不满足结束条件的情况下,继续从第二抓取链路的起始页开始,依次抓取第二抓取链路中的各个页面中的目标政务数据,直至满足结束条件时,终止抓取数据;

广度遍历单元,用于抓取当前页面中的目标政务数据;在不满足结束条件的情况下,从当前页面中的多个链接中确定目标链接,并抓取目标链接所指向的目标页面中的目标政务数据,直至满足结束条件时,终止抓取数据。

可选地,图谱知识提取模块包括:

模型标识提取单元,用于提取目标政务数据所要构建的知识图谱的模型标识;

知识提取单元,用于从预设的法人图谱知识库中提取与模型标识匹配的数据分类标签、数据编码标准及实体关联关系中的至少一种。

可选地,知识图谱构建模块包括:

数据分类单元,用于利用数据分类标签对目标政务数据进行分类,数据分类标签包括工商信息、股东信息、主要人员信息、分支机构信息、年报信息、税务评级、违法信息、司法协助信息及失信人信息中的至少一种;

数据编码单元,用于将分类后的目标政务数据按照数据编码标准进行编码;

数据关联单元,用于按照实体关联关系对编码后的目标政务数据进行关联;

图谱构建单元,用于利用关联后的目标政务数据构建知识图谱。

可选地,图谱构建单元包括:

法人确定子单元,用于从目标政务数据中确定目标法人;

关联数据提取子单元,用于提取目标法人的本体数据集,本体数据集中的数据用于表示与目标法人关联的对象、企业、社会组织、道路、楼房及互联网文本中的至少一种;

图谱构建子单元,用于以目标法人为主实体,以目标法人所在的业务领域为子实体,按照本体数据集指示的对象、企业、社会组织、楼房、道路及互联网文本之间的关联关系构建主实体与子实体、子实体与子实体之间的关联边。

可选地,该装置还包括数据分类标签确定模块,包括:

第一确定单元,用于获取第一参照数据集;将第一参照数据集中的数据转换为特征向量;确定特征向量之间的余弦相似度,并将余弦相似度小于目标阈值的特征向量归为同一个分类数据集中;确定不同的分类数据集的数据分类标签,并将数据分类标签和分类数据集保存在法人图谱知识库中;

第二确定单元,用于获取第二参照数据集,其中,第二参照数据集用表结构进行保存;对表结构的第二参照数据集进行语义识别;按照识别结果进行分类;确定每一类的数据分类标签;将数据分类标签和识别结果保存在法人图谱知识库中。

可选地,该装置还包括验证模块,包括:

验证数据获取单元,用于获取验证数据;

验证单元,用于利用验证数据对法人扩展信息的知识图谱进行验证;

验证结果确定单元,用于在验证结果指示知识图谱的准确率达到目标阈值时,验证通过。

根据本申请实施例的另一方面,本申请提供了一种电子设备,如图4所示,包括存储器401、处理器403、通信接口405及通信总线407,存储器401中存储有可在处理器403上运行的计算机程序,存储器401、处理器403通过通信接口405和通信总线407进行通信,处理器403执行计算机程序时实现上述方法的步骤。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。

可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:

获取目标政务数据,目标政务数据为从互联网政务领域中采集得到的,用于表示法人扩展信息;

从预设的法人图谱知识库中提取与目标政务数据匹配的图谱知识,法人图谱知识库为根据通用政务知识图谱的构建数据得到的;

利用图谱知识对目标政务数据构建法人扩展信息的知识图谱。

可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。

本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

相关技术
  • 政务图谱模型构建方法、装置、设备及计算机可读介质
  • 地址图谱构建方法、装置、计算机设备及可读存储介质
技术分类

06120112437137