掌桥专利:专业的专利平台
掌桥专利
首页

新型空间环境实体构建方法及装置

文献发布时间:2023-06-19 19:30:30


新型空间环境实体构建方法及装置

技术领域

本申请涉及数据处理技术领域,具体而言,涉及一种新型空间环境实体构建方法及装置。

背景技术

当前建模主要集中在对几何与物理维度的构建上,缺少能同时反映实体对象的几何结构、物理属性、关联关系的多维模型的构建;建模对象主要为地理实体,实体概念比较狭义;建模过程是割裂的,不同领域空间尺度需要建立不同比例尺的数据模型,不同种类的地理实体也会人为地分割在不同的图层中,需要通过叠加分析等手段才能重新建立不同图层要素之间的联系。

可见,现有的建模方法不能准确的对实体对象进行描述。

发明内容

本申请实施例的目的在于提供一种新型空间环境实体构建方法及装置,用以解决了现有技术存在的上述问题,可准确的对实体对象进行描述。

第一方面,提供了一种新型空间环境实体构建方法,该方法可以包括:

获取提出的新型空间环境中空间环境实体的多源异构数据;

基于深度学习自动单体化技术,对获取的多源异构数据进行结构抽取,得到所述空间环境实体的结构信息;

基于预先配置的属性类模板,对所述多源异构数据进行属性抽取,得到所述空间环境实体的属性信息;

采用预设的关系抽取算法,基于所述实体的结构信息和属性信息对所述空间环境实体进行关系抽取,得到所述空间环境实体的实体关系;其中,所述预设的关系抽取算法包括计算实体的空间距离公式、配置的实体间的拓扑分析信息、配置的实体间预定义关系的关系图谱;

基于所述空间环境实体的结构信息、属性信息和实体关系,构建所述新型空间环境的空间环境实体数据。

第二方面,提供了一种新型空间环境实体构建装置,该装置可以包括:

获取单元,用于获取提出的新型空间环境中空间环境实体的多源异构数据;

抽取单元,用于基于深度学习自动单体化技术,对获取的多源异构数据进行结构抽取,得到所述空间环境实体的结构信息;

以及,基于预先配置的属性类模板,对所述多源异构数据进行属性抽取,得到所述空间环境实体的属性信息;

以及,采用预设的关系抽取算法,基于所述实体的结构信息和属性信息对所述空间环境实体进行关系抽取,得到所述空间环境实体的实体关系;其中,所述预设的关系抽取算法包括计算实体的空间距离公式、配置的实体间的拓扑分析信息、配置的实体间预定义关系的关系图谱;

构建单元,用于基于所述空间环境实体的结构信息、属性信息和实体关系,构建所述新型空间环境的空间环境实体数据。

第三方面,提供了一种电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

存储器,用于存放计算机程序;

处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。

第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。

本申请实施例提供的新型空间环境实体构建方法在获取提出的新型空间环境中空间环境实体的多源异构数据后,基于深度学习自动单体化技术,对获取的多源异构数据进行结构抽取,得到空间环境实体的结构信息;基于预先配置的属性类模板,对多源异构数据进行属性抽取,得到空间环境实体的属性信息;采用预设的关系抽取算法,基于实体的结构信息和属性信息,对空间环境实体进行关系抽取,得到空间环境实体的实体关系;预设的关系抽取算法包括计算实体的空间距离公式、配置的实体间的拓扑分析信息、配置的实体间预定义关系的关系图谱;基于空间环境实体的结构信息、属性信息和实体关系,构建新型空间环境的空间环境实体数据。该方法构建的空间环境实体,可以准确的对实体对象进行描述,易于人机兼容理解与表达,支持智能化空间决策分析,解决了多源异构空间数据治理、物理空间刻画及孪生空间应用等难题。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种新型空间环境实体构建方法的流程示意图;

图2为本申请实施例提供的一种唯一标识码的结构示意图;

图3为本申请实施例提供的一种单体化模型的生成过程示意图;

图4为本申请实施例提供的一种实体属性类模板的构建示意图;

图5为本申请实施例提供的一种标注标签方式示意图;

图6为本申请实施例提供的一种端到端联合抽取模型架构图;

图7为本申请实施例提供的一种新型空间环境实体构建装置的结构示意图;

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例提供的新型空间环境实体构建方法可以包括实体定义、实体分类、实体编码、结构建模、属性建模、关联关系抽取、数据更新等流程。具体可以包括:

1、从空间环境研究出发,提出一种新型实体概念,即空间环境实体,进行实体分类与编码;

2、基于测绘地理、气象海洋和社会人文等领域的多源异构数据,采用深度学习自动单体化技术,抽取实体的结构信息;

3、利用构建的属性类模板,通过人工录入、算法模型计算、现有数据处理等自动或半自动方法,抽取实体的属性信息;

4、接着基于抽取的结构信息与属性信息,结合空间距离公式、拓扑分析等算子、及关系图谱、经验总结,计算实体关联关系;

5、对于非结构化数据,采用联合解码算法,进行实体识别与关系抽取,完善实体关系集,从而构建出由“结构-属性-关联关系”三元组信息组成的空间环境实体。

6、采用面向开放域的信息抽取方法,进行实体数据更新,保证实体的实时动态性。

本申请实施例提供的上述方法构建的空间环境实体,易于人机兼容理解与表达,支持智能化空间决策分析, 解决了多源异构空间数据治理、物理空间刻画及孪生空间应用等难题。

下面对空间环境实体进行介绍:

新型空间环境是集陆地、海洋、空中、太空、电磁、网络(陆、海、空、天、电、网)全空间域一体,自然环境、社会人文环境、信息环境等全要素域一体,是新时代信息化、智能化建设的基础数据资源,是网络信息体系资源要素的重要组成部分。

基于数字孪生世界对陆、海、空、天、电网等空间域中实体映射的需求,本申请提出一种新型的实体概念,即空间环境实体——现实世界中具有一定空间形态、占据连续空间,且时空关联社会、经济、人口和地质、土壤、气象、网络电磁等环境信息,并与其他事物普遍联系的空间对象在数字空间的映射,由实体结构、属性和关联关系三部分构成,如房子由墙、窗户、屋檐等结构信息,材质、纹理等属性信息,以及和其他房子的拓扑关系构成。

将空间环境实体定义为

以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

图1为本申请实施例提供的一种新型空间环境实体构建方法的流程示意图。如图1所示,该方法可以包括:

步骤S110、获取提出的新型空间环境中空间环境实体的多源异构数据。

在一些实施例中,可以基于空间环境实体定义及空间环境数据的划分,对空间环境实体进行分类。

具体的,按照空间环境各构成要素,综合考虑其本质内涵与运行机理,以及数据的历史现状,可将空间环境数据划分为:自然环境数据、设施环境数据、社会人文环境数据、网络电磁干扰数据,以及用于描述事件变化,或者理化现象的机理数据五大类,这些数据覆盖陆、海、空、天、网电等空间域。

基于空间环境实体定义及空间环境数据划分,以《新型基础测绘与实景三维中国建设技术文件2基础地理实体分类、粒度及精度基本要求》为基础框架,将全空间域的空间环境实体分为:地理环境实体、气象环境实体、陆地水文环境实体、海洋环境实体、地质环境实体、太空环境实体、地球物理实体、社会人文实体八大类。

采用线分类与面分类结合的方法,将空间环境实体分为大类、一级类、二级类、三级类4个层次,分类代码采用2位标识码+8位十进制数字码构成,按顺序排列分别是标识码、大类、一级类、二级类和三级类码。

在一些实施例中,可以基于空间环境实体的多粒度特点,为空间环境实体配置唯一标识码;唯一标识码包括分类码、位置码、时间码和顺序码。

空间环境实体的时空唯一标识体系基于统一时空位置框架,以GeoSOT网格体系为基础进行立体网格剖分,剖分后的经纬网格和高度域网格形成位置码编码基础;

唯一标识码由:分类码、位置码、时间码、顺序码四部分组成,码长不定且可扩展;其中,位置码由经纬网格编码和高度域编码组成,位置码在高度域方向的剖分上,采用不等距划分方式,能够满足在不同高度层上的网格为近似的方体;经纬网格编码和高度域编码分别为32位不定长编码组成,位置码编码长度与网格剖分级数一致,编码越长,表明剖分级数越深,实体对应的网格粒度越小;位置码编码越短,剖分级数越少,实体对应的网格粒度越大。时间码采用14位数字定长编码,格式为“YYYYMMDDHHmmss”,其中YYYY为年的标识,MM为月的标识,DD为日的标识,HH为时的标识,mm为分的标识,ss为秒的标识。顺序码采用4位定长数字或字母编码,当分类码、分级码、位置码和时间码完全一致时,以0~9、a~z的流水号顺序,从右至左依次编码,即每一位可取值有36个,顺序码不足4位则补“0”,如图2所示。

因此,该唯一标识体系可表征空间环境实体的多粒度特点,同时不定长编码保证唯一标识码的灵活性和可扩展性,使用者可根据需要自行扩展。

唯一标识码的表现形式是将分类码、位置码、时间码和顺序码依次进行连接,为了清晰标识,分类码用FL作为根节点标识;位置码中,G用来标识地球表面0级网格,H用来标识高度域0级网格;T为时间码根节点标识;S为顺序码根节点标识。

由此,可以按照分类结果和/或唯一标识码来获取新型空间环境中空间环境实体的多源异构数据。

步骤S120、基于深度学习自动单体化技术,对获取的多源异构数据进行结构抽取,得到空间环境实体的结构信息。

目前,建构筑物和基础设施三维模型主要是:通过多视图立体匹配技术重建获得网格模型,三角形数量众多,并且存在噪声和形变,难以表征高级语义和结构信息。密集的网格模型在应用过程中会出现庞大的内存占用,对计算资源的要求也是一个很大的挑战:原始点云中的噪声和重建方法中的缺陷,会导致最终三维网格模型中存在冗余结构或者自相交、孔洞等缺陷;此外,在数据采集时由于遮挡原因导致信息缺失,通常会限制一个单体模型的完整重建。

空间环境实体结构建模,基于空间环境实体的多粒度表达需求,因数据源和二三维表达不同,故实体有不同的构建方法。

其中,二维构建方式包括基于已有数据转换构建、基于倾斜摄影三维模型生成构建、基于TDOM生成构建、基于高精度基础地理实体综合构建,三维构建方式包括基于倾斜摄影单体及三维模型构建、基于激光点云生成构建。

单体化建模中需要对主要建构筑物的顶部和主体部分进行准确的构建,并保持拓扑结构上的一致性,由于采用了多视角影像对目标物进行构建,三维模型上的特征与各投影照片上的特征关联和组合、聚合关系保持等,也需要对目标进行更加细化的拓扑一致性检查。单体化构建后的几何模型,需要映射真实的纹理信息,贴图算法要能够对多源影像角度、分辨率、辐射上的差异进行整体融合,形成几何和辐照度上都均匀无缝的重建效果,才能满足数字孪生空间环境,对单体化模型的要求。

进一步的,深度学习自动单体化技术可以包括构建单体化模型技术和单体模型纹理自动映射技术。

(1)单体化模型的构建步骤包括:

基于区域生长的方法和预设的先验知识,从原始mesh模型中进行mesh平面结构提取,得到待处理的无线网格网络mesh平面结构,该提取方式,不仅能够有效减少建筑物的细节丢失,降低对数据质量的要求,并且能最大程度地用平面近似圆柱体、曲面、球形、圆锥体等不规则建筑结构。

采用无向图的方法,存储所提取到的mesh平面结构,该结构图在三维空间中非常接近于原始mesh模型,在保证拓扑结构不变的前提下有效地降低了数据量级。

采用二元线性规划方法设定能量项,构建能量方程,并通过最小化能量项的加权和,以及添加的约束条件,对存储的mesh平面结构进行优化,消除冗余的面,重建轻量化、封闭、拓扑有效的多边形模型,即实现多边形模型;

引入多源语义信息约束的单体化模型层次化表征技术,通过建筑结构化特征对得到的多边形模型进行区域分割,结合深度置信网络及马尔科夫随机场,对语义分割的点云进行识别优化,生成可组合式的单体化模型,如图3所示。

另外,通过顶点-直线-平面-结构体的逐层聚合和拓扑关联,形成三维实体的构建假设,并通过物方先验知识假设检验的框架,可以对三维建筑本体进行验证。

(2)实景三维纹理重建,是指通过输入已定向的影像序列及表达物体表面的三角网格,恢复纹理图以描述物体表面外观。单体模型纹理自动映射的步骤包括:

通过可见性分析,剔除所述多源异构数据对应的影像中不可见或质量不满足预设要求的影像,得到第一影像;利用多视影像进行纹理重建,首先为每个三角形建立可见影像列表,每个三角形可能在多张影像上可见,因此先进行影像全局匀光匀色、背面剔除、遮挡检测、光度一致性分析等可见性分析,将不可见或质量不好的影像从可见列表中删除。

对第一影像进行马尔科夫随机场视图选择,为每个三角形确定唯一的最优纹理影像;

针对纹理块接缝处色彩不均匀的问题,进行匀光匀色,即对最优纹理影像进行全局和局部的色彩调整;

对色彩调整后的影像进行纹理排样,得到具有色彩一致性的三维模型。

步骤S130、基于预先配置的属性类模板,对多源异构数据进行属性抽取,得到空间环境实体的属性信息。

属性信息可以包括通用属性和特有属性;预先配置的属性类模板包括通用属性类模板和特有属性类模板;其中,通用属性类模板是对每个空间环境实体的相似属性特性进行抽象归纳总结得到的实体属性类模板;特有属性类模板是对每个空间环境实体独有的属性数据进行描述建模得到的实体属性类模板。

参考《基础地理实体语义化基本规定》为空间环境实体属性构建提供理论基础和构建依据。空间环境实体属性建模主要反映实体的属性特征,如类型、用途、使用状态、使用环境等。其建模步骤主要有:(1)构建属性类模板;(2)基于自动或半自动方法获取属性值。

(1)构建属性类模板

空间环境实体属性建模借鉴建筑信息模型(BIM)技术的参数化建模和族库思想,提出一种基于属性类模板的建模方法。每个实体包含通用属性和特有属性。对于实体的通用属性,需要对每个实体的相似属性特性进行抽象归纳总结,形成通用的父实体属性类模板。对于其子实体属性可以继承父类的大部分属性数据。对于实体的特有属性,只需要对其独有的属性数据进行描述建模即可。针对特定应用场景,实体属性类模板可以通过现有实体属性类模板的引用、继承、组合和关联可以形成新的属性模板,新生成的实体属性类模板同时也可以加入到属性类模板库中,丰富其模板内容,如图4所示的实体属性类模板的构建示意图。实体属性类模板中可以包括不同的空间环境实体,如实体1、实体2、实体3、……、时间参照、空间位置、使用状态、使用环境、对应的几何ID、颜色、纹理、材质等重要属性。以交通路口实体为例,需要对时间参照、空间位置、使用状态、使用环境、对应的几何ID、路口形状、路口占地面积、所属道路的道路类型、实时交通流量等属性信息采集构建,其中时间参照、空间位置、使用状态、使用环境、对应的几何ID为通用属性,路口形状、路口占地面积、所属道路的道路类型、实时交通流量为特有属性。

(2)基于自动或半自动方法获取属性值

基于上述建模模板规范,能够对实体属性进行自动化、半自动化或手动录入构建。例如,实体ID值和时间值可自动生成,半自动化构建方式主要是输入参数,结合算法模型进行属性值计算,如空间位置通过空间参考系转化计算实体坐标和高程值,颜色、材质、纹理等属性值可通过现有数据计算处理获取,使用状态、使用环境等属性值通过大数据查询手动录入。

另外,属性建模与知识图谱中隐性关系抽取类似,也可以采用知识图谱的方式进行建模。

步骤S140、采用预设的关系抽取算法,基于实体的结构信息和属性信息,对空间环境实体进行关系抽取,得到空间环境实体的实体关系。

其中,预设的关系抽取算法可以包括计算实体的空间距离公式、配置的实体间的拓扑分析信息、配置的实体间预定义关系的关系图谱。

实体关系抽取:需要首先对关系进行定义与分类,然后进行实体识别,接着对已经识别出的实体进行预定义的关系识别,为更深层次的分析提供资源。

实体关系包括显性关系“实体-关系-实体”三元组,与隐性关系“实体-属性-属性值”三元组两种,实体通过它们之间的关系连接在一起形成图数据库。

由于本申请的输入数据具有多源异构性,因此实体关系抽取从数据来源分类,可分为面向结构化数据、面向半结构化数据以及面向非结构化数据。

关系抽取的步骤分为:关系分类、面向结构化与半结构化数据的关系抽取、面向非结构化数据的关系抽取三步。

(1)关系分类

根据空间环境实体的定义与内涵,将实体显性关系分为六类:1位置关系,包括方位关系、空间距离关系;2隶属关系,包括行政隶属、权属隶属、功能隶属、自然隶属;3时序关系;4几何构成关系,包括相离关系、相交关系、包含关系;5影响关系;6主题关系。显性关系类别可依据实际需求进行扩充。隐性关系即属性抽取,上述基于类模板的属性建模阶段已完成分类工作,这里不再赘述。

(2)面向结构化与半结构化数据的关系抽取

对于结构化和半结构化数据,即类似于关系库中表格形式的数据,一般采用基于既定规则的方法,通常采用W3C推荐的映射语言R2RML(RDB2RDF)进行映射抽取。

由于该类数据往往在各项之间存在明确的关系名称和对应关系,可以简单的将其转化为RDF或其他形式的知识库内容。

大体上主要分为两个部分,一个部分是关联实体的确定,另一个部分是关系信息的输入。

其中,关联实体的确定:需要以空间环境实体的动态可视化显示或用户自定义关联实体为基础,通过用户限定可视化显示的时空范围,确定共现实体集合,在此基础上进行人机交互选取以及手动筛选,或自定义关联实体ID,进行关联实体集合的确定;

关系信息的输入:需要人工自定义完成,用于实现关联实体与关系本体到关系网元素的映射,隐性关系信息可直接转化为RDF或其他形式的知识库内容得到,显性关系信息需要采用自动或半自动的方法计算判定得到。

本申请给出了六种实体显性关系信息计算的具体规则,详细方法如下:

1)位置关系

①方位关系

基于实体坐标点信息,利用方位角公式计算实体间的方位。实体A的坐标点为(x

②空间距离关系

空间距离关系可采用“很远、远、邻近、近、很近”进行定性描述,也可采用具体距离数值进行定量描述。定量关系通常采用欧式距离公式获取实体间空间距离关系。实体A的坐标点为(x

优点:现有基于规则、机器学习、深度学习的实体关系抽取算法只能获取实体定性位置关系,利用方位角及欧式距离算法公式可以获取实体间精确的位置关系。

2)隶属关系

隶属关系采用语义分析方法、邮编编码方式获取。

①根据语义分析算法获取实体间的隶属关系。如,某个学校有1号教学楼、2号教学楼、3号教学楼等,这些教学楼聚合成的实体与单个教学楼之间存在功能隶属关系。

现有实体分类标准的分类依据不清晰、分类方法不统一,不能作为实体功能隶属、行政隶属、自然隶属等细化隶属关系的判断依据,利用语义分析算法可以精准抽取实体隶属关系。

②邮政编码的编码规则:采用四级六位编码制,前两位表示省、市、自治区,第三位代表邮区,第四位代表县、市,最后两位是代表从城市哪个投递区投递的,即投递区的位置。依据邮编编码的编码规则可以抽取行政隶属关系。现有邮编编码已统一化、规范化,利用邮编编码可直接快速的抽取实体间的行政隶属关系。如,湖北省邮编前两位为43~44,襄阳市的邮编为441000,可知湖北省与襄阳市存在行政隶属关系。

3)时序关系

在数据采集生产阶段,获取基础地理实体产生、消亡时间、当前实体数据版本等时间信息,依据时间差公式,自动获取实体间的时间关联关系。

设有两个依赖于时间的量

上式中,t

4)几何构成关系

采用图形学进行计算,用点、线、面、体表示实体之间的相离、相交、包含。

①相离关系

a)点与点相离:通过计算统一时空基准下实体间的欧式距离获取。

b)点与线相离:点实体与线实体的距离通过点乘法获取。

c)点与面相离:通过计算点实体与构成面实体的每条线段的距离,取最小值。

d)线与线相离:通过计算两个线实体上每对线段的距离,取最小值。

e)线与面相离:通过计算线实体与面实体上每对线段的距离,取最小值。

f)面与面相离:通过计算这两个面实体上每对线段的距离,取最小值。

②相交关系

a)线与线相交:利用几何向量中混合积的性质,通过判断端点所构成的向量与辅助向量的混合积的正负来判断两线实体是否相交。

b)线与面相交:先判断两者的外接矩形是否相交,若不相交,则直接判断线实体与面实体不相交;若外接矩形相交,可以通过依次判断面实体与构成线实体的每条线段是否相交获取。

c)面与面相交:先判断两者的外接矩形是否相交,若不相交,则直接判断两个面实体不相交;若外接矩形相交,可以通过依次判断面实体与另一面实体的每条线段是否相交获取。

d)线与体相交:先判断两者的最小外包围盒是否相交,若不相交,则直接判断线实体与体实体不相交;若最小外包围盒相交,通过依次判断线实体与构成体实体的每个面是否相交获取。

e)面与体相交:先判断两者的最小外包围盒是否相交,若不相交,则直接判断面实体和体实体不相交;若最小外包围盒相交,通过依次判断面实体与体实体的每个面是否相交获取。

f)体与体相交:先判断两者的最小外包围盒是否相交,若不相交,则直接按断两体实体不相交;若最小外包围盒相交,通过依次判断体实体与另一实体的每个面是否相交获取。

③包含关系

a)点与面包含:依据射线法的基本原理判断点实体与面实体的包含关系。

b)线与面包含:先判断面实体的外接矩形是否包含线实体的外接矩形,若不包含,则直接判断面实体不包含线实体;若外接矩形包含,通过依次判断面实体是否包含线实体的每条线段获取。

c)面与面包含:先判断两者的外接矩形是否包含,若不包含,则直接判断两个面实体不包含;若外接矩形包含,通过依次判断面实体是否包含另一面实体的每条线段获取。

d)线与体包含:先判断体实体的最小外包围盒是否包含线实体的最小外包围盒,若不包含,则直接判断体实体不包含线实体;若最小外包围盒包含,通过依次判断体实体是否包含线实体的每条线段获取。

e)面与体包含:判断体实体的最小外包围盒是否包含面实体的最小外包围盒,若不包含,则判断体实体不包含面实体;若最小外包围盒包含,通过依次判断体实体是否包含构成面实体的每条线段获取。

f)体与体包含:先判断两者的最小外包围盒是否包含,若不包含,则判断两个体实体不包含;若最小外包围盒包含,通过依次判断体实体是否包含构成另一个实体的每个面获取。

图形学是目前计算实体几何构成关系最普遍适用的方法,具有计算简单、灵活的特点,可以快速计算各种几何构成关系。

5)影响关系

影响关系是统一时空内,实体间的相互作用关系,实体间存在影响和被影响的关系。影响关系通过专家定义、经验总结等方式确定。通常由泛函数

6)主题关系

主题关系是针对特定场景设计的实体关系。对于比较基础共性的主题关系可以自动计算,如,“手机定位”,当空间目标确定后可以自动提取范围内的实体。而复杂特殊的主题关系需要人工分析后数字化,如,外卖骑手最佳路线涉及多个场景,随着区域的不同主题关系发生变化,需要人工分析构建最佳路线当前区域的主题关系。

本申请针对多种实体关系提出不同的抽取方法,其中自动化方法包括知识图谱、深度学习,具备智能高效的抽取实体关系的能力。半自动化方法包括图形学、算法模型,具有计算简单、灵活的特点,可快速计算实体关系。人工录入包括专家定义、经验总结,可精准抽取实体关系。

(3)面向非结构化数据的关系抽取

关系抽取是信息抽取的关键技术和核心内容。

本申请采用联合解码的关系抽取算法,进行非结构化数据的关系抽取,将实体识别和关系抽取在一个端到端模型中联合处理同时实现,两个抽取任务使用迭代方法相结合,可以使抽取的准确率和召回率都得到改善。

当前信息抽取技术多是顺序式抽取,即抽取过程分解为实体识别、关系抽取、属性抽取等连续的多个子任务再集成,这样的模式存在些缺陷。例如,前一阶段无法识别的信息在后一阶段将不再被处理,从而出现了信息的缺失和不完整;前一阶段的错误信息结果将无法在后面阶段进行修复,从而在所有阶段结束后大大增加了错误率的积累;

此外顺序式处理方式使前面阶段无法使用后面阶段出现的有用特征,准确率和效率得到了限制。而联合抽取方法不仅能够综合各个阶段,实现相互补充和促进,而且可以挖掘文本中隐含的深层语义信息,实现隐含信息的自动推理。

首先,采用一种“实体标签-关系标签-三元组标签”标注方法,来解决联合抽取任务,将联合抽取问题转化为标注问题,从而避免复杂的特征工程。其中实体标签用经典的“BIES” (Begin, Inside, End, Single)指代实体;关系标签用有限个关系种类指代关系;三元组标签把相同关系标签的实体联系起来,1代表第一个实体,2代表第二个实体。

该标注模式将文本中的词分为两类:(1)与抽取结果无关的词,用标签“O”表示;(2)与抽取结果相关的词,该类词的标签由三部分组成:当前词在实体中的位置-关系类型-实体在关系中的角色。使用“BIES”标签标注,表示当前词在实体中的位置。而关系类型从预先设定的关系类型集中获得的。实体在关系中的角色信息,用“1”,“2”来表示。其中“1”表示,当前词属于三元组(Entity1,RelationType,Entity2)的 Entity1;同理“2”表示当前词属于Entity2。最后根据标注结果将同种关系类型的两个相邻顺序实体组合为一个三元组。例如:句子“唐代诗人崔颢创作了一首七言律诗名为《黄鹤楼》”,该句子通过图5所示的标注标签方式可知,“唐”与“代”组合形成了实体“唐代”,实体“唐代”与实体“崔颢”组合成了三元组{唐代,朝代-诗人,崔颢}。如果一个句子中包含两个或者更多相同关系类型的三元组,基于最近原则将两个实体组合为三元组。这里只考虑一个实体只属于一个三元组的情况。

本申请采用了一个端到端的模型来自动实现对文本词序列的标注工作。由于LSTM在end-to-end的命名实体识别模型当中有比较好的表现,而且LSTM本身能够学习长期依赖关系,有利于解决序列建模任务,所以采用带长短时记忆单元的 LSTM 循环神经网络来获取词向量中的数据特征信息。

与传统的循环神经网路相比,通过记忆单元和门控结构来控制信息的流动,缓解了传统RNN中梯度弥散和梯度爆炸的问题,并且能够获取更长距离的上下文依赖。然而单向的LSTM只能获取词语的上文或者下文信息,因此本申请基于上述的标注方法,采用了BiLSTM来编码输入句子,进一步获取融合了上下文信息的特征表示,并采用一个有偏置损失函数的基于LSTM的解码层,用于产生标签序列,增强实体标签的关联性,让模型更加适合特殊标签。

如图6所示的端到端联合抽取模型架构图。其中:词嵌入层将文本“唐代诗人崔颢”中每个词的one-hot表示向量转化为低维稠密的词嵌入向量;Bi-LSTM编码层用于获得相应词的编码信息;LSTM解码层用于产生标签序列,其中增加了偏置损失函数来增强实体标签的关联性,让端到端联合抽取模型更加适合特殊标签。

步骤S150、基于空间环境实体的结构信息、属性信息和实体关系,构建新型空间环境的空间环境实体数据。

在一些实施例中,构建新型空间环境的空间环境实体数据之后,可以采用面向开放域的信息抽取方法,对构建的空间环境实体数据进行更新。

具体的,为了保证实体模型的实时动态性,在空间环境实体构建完成后,需要进行模型数据的实时更新。本申请主要采用面向开放域的信息抽取方法进行数据更新。

面向开放域的关系抽取方法目前包括:半监督与远距离监督算法等学习方法、基于语法规则+句法分析的方法、基于序列标注、以及基于OIE系统的生成式神经网络模型、远程监督关系抽取等。

这类方法直接利用语料库中的词汇进行实体信息分类,不再需要预先指定关系的分类,就可以实现数据分类,进行动词、非动词的关系抽取和二元、多元的关系抽取,具有跨领域性和强移植性的优点,可以同时实现属性(显性关系)数据和关系(显性关系)数据的更新。

与上述方法对应的,本申请实施例还提供一种新型空间环境实体构建装置,如图7所示,该装置包括:

获取单元710,用于获取提出的新型空间环境中空间环境实体的多源异构数据;

抽取单元720,用于基于深度学习自动单体化技术,对获取的多源异构数据进行结构抽取,得到所述空间环境实体的结构信息;

以及,基于预先配置的属性类模板,对所述多源异构数据进行属性抽取,得到所述空间环境实体的属性信息;

以及,采用预设的关系抽取算法,基于所述实体的结构信息和属性信息对空间环境实体进行关系抽取,得到所述空间环境实体的实体关系;其中,所述预设的关系抽取算法包括计算实体的空间距离公式、配置的实体间的拓扑分析信息、配置的实体间预定义关系的关系图谱;

构建单元730,用于基于所述空间环境实体的结构信息、属性信息和实体关系,构建所述新型空间环境的空间环境实体数据。

本申请上述实施例提供的新型空间环境实体构建装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本申请实施例提供的新型空间环境实体构建装置中的各个单元的具体工作过程和有益效果,在此不复赘述。

本申请实施例还提供了一种电子设备,如图8所示,包括处理器810、通信接口820、存储器830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。

存储器830,用于存放计算机程序;

处理器810,用于执行存储器830上所存放的程序时,实现如下步骤:

获取提出的新型空间环境中空间环境实体的多源异构数据;

基于深度学习自动单体化技术,对获取的多源异构数据进行结构抽取,得到所述空间环境实体的结构信息;

基于预先配置的属性类模板,对所述多源异构数据进行属性抽取,得到所述空间环境实体的属性信息;

采用预设的关系抽取算法,基于所述实体的结构信息和属性信息对空间环境实体进行关系抽取,得到所述空间环境实体的实体关系;其中,所述预设的关系抽取算法包括计算实体的空间距离公式、配置的实体间的拓扑分析信息、配置的实体间预定义关系的关系图谱;

基于所述空间环境实体的结构信息、属性信息和实体关系,构建所述新型空间环境的空间环境实体数据。

上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现,因此,本申请实施例提供的电子设备的具体工作过程和有益效果,在此不复赘述。

在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的新型空间环境实体构建方法。

在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的新型空间环境实体构建方法。

本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。

相关技术
  • 一种在虚拟现实环境构建实体模型的方法、装置及设备
  • 一种多空间融合学习环境构建方法和装置
技术分类

06120115933950