掌桥专利:专业的专利平台
掌桥专利
首页

一种编码模型训练的方法、编码的方法、装置和存储介质

文献发布时间:2023-06-19 11:32:36


一种编码模型训练的方法、编码的方法、装置和存储介质

技术领域

本申请实施例涉及地理信息系统领域,具体涉及一种编码模型训练的方法、编码的方法、装置和存储介质。

背景技术

相关技术中,针对地理矢量数据进行编码赋值的方案主要依赖于人工辨别的方式,在根据遥感图像或者三维地理数据进行地理要素的绘制后,再对绘制的实体赋予其编码属性。在深度学习相关技术的技术中,一个固定模型的深度学习网络的输入的数据需要统一特征属性的数量,也就是说,相关技术采用统一构建的单一的神经网络进行识别和编码。可以理解的是,当需要编码的实体实际需要的特征属性较少时,采用严格限定输入特征属性数量的神经网络模型会存在大量的无用参数,而当需要编码的实体实际需要的特征属性较多时,由于严格限定输入特征属性数量的神经网络的输入特征数少于输入的特征属性则数据无法输入,因此采用相关技术的深度学习网络模型的构建和训练方法将导致对输入的数据限定要求较高,同时不能够灵活配置实际需要的神经网络模型。

因此,如何灵活配置神经网络模型进行多种实体编码成为亟待解决的问题。

发明内容

本申请实施例提供一种编码模型训练的方法、编码的方法、装置和存储介质,通过本申请的一些实施例至少能够实现灵活配置神经网络模型对实体数据进行识别,从而根据识别结果进行编码。

第一方面,一种编码模型训练的方法,所述方法包括:获取训练数据,其中,所述训练数据包括已标注编码信息的地理矢量数据;对所述训练数据进行预处理,获得预处理结果,其中,所述预处理结果包括对应的特征属性值、特征属性的数目和实体类别总数目;根据所述预处理结果生成待训练神经网络模型,其中,所述训练神经网络模型输入层的输入特征的数目等于所述特征属性的数目,所述待训练神经网络的输出层用于输出与所述实体类别总数目相同数量的识别结果;训练所述待训练神经网络模型,获得实体类别编码模型。

因此,本申请实施例通过根据训练数据对应的特征属性的数目和需要编码的实体类别总数目,适应构造匹配的待训练的神经网络模型的输入层和输出层,从而获得实体类别编码模型,能够实现对各种数量的特征属性数目的输入和类型识别标记,提升了对各种实体的自动化识别程度,有效防止遗漏,极大的节省了人工的资源,在处理大量实体数据时优势明显,极大的提高了数据处理的效率。

结合第一方面,在一种实施方式中,所述对所述训练数据进行预处理,获得预处理结果,包括:提取所述训练数据中的至少一个特征属性,其中,所述至少一个特征属性是组成所述实体的基本元素;计算与所述至少一个特征属性分别对应的至少一个特征属性值;将所述至少一个特征属性值作为所述预处理结果。

结合第一方面,在一种实施方式中,在所述提取所述训练数据中的至少一个特征属性之前,所述方法还包括:获取用户预先选择的至少一个自选特征属性,其中,所述至少一个特征属性中包括所述至少一个自选特征属性,所述至少一个自选特征属性是用户根据实际需求选择的;所述提取所述训练数据中的至少一个特征属性,包括:提取所述训练数据中的所述自选特征属性;所述计算与所述至少一个特征属性分别对应的至少一个特征属性值,包括:计算与所述自选特征属性分别对应的自选特征属性值;所述将所述至少一个特征属性值作为所述预处理结果,包括:将所述自选特征属性值作为所述预处理结果。

因此,本申请实施例通过用户预先选择至少一个自选特征属性,能够实现对训练数据的定制化,将训练数据转换成至少一个自选特征属性值,能够使模型自动适应不同特征属性产生的数据,可以对用户自选得到的特征属性,采用不同的神经网络模型进行训练学习。

结合第一方面,在一种实施方式中,所述根据所述预处理结果生成待训练神经网络模型,包括:将所述自选特征属性值输入所述待训练神经网络模型,对所述待训练神经网络模型进行训练。

因此,本申请实施例通过对自选特征属性值作为输入的待训练神经网络模型进行训练,能够得到与该用户选择的自选特征属性匹配的神经网络模型,从而对实体数据进行自动化识别以及依据识别结果进行编码。

结合第一方面,在一种实施方式中,所述地理矢量数据由顶点、线段或面构成。

第二方面,一种编码的方法,所述方法包括:接收输入的待编码实体数据,其中,所述待编码实体数据包括至少一个实体的所有构成元素,所述所有构成元素是通过对待编码实体解析得到的;使用如第一方面及第一方面的所有实施方式所述的方法获得的实体类别编码模型,对所述待编码实体数据进行编码。

因此,本申请实施例通过使用实体类别编码模型,能够实现对待编码实体数据进行编码。

第三方面,一种编码模型训练的装置,所述装置包括:获取单元,被配置为获取训练数据,其中,所述训练数据包括已标注编码信息的地理矢量数据;预处理单元,被配置为对所述训练数据进行预处理,获得预处理结果,其中,所述预处理结果包括所述训练数据对应的特征属性值及特征属性的数目和实体类别总数目;生成单元,被配置为至少根据所述预处理结果生成待训练神经网络模型,其中,所述训练神经网络模型输入层的输入节点的数目等于所述特征属性的数目,所述待训练神经网络的输出层用于输出与所述实体类别总数目相同数量的识别结果;训练单元,被配置为训练所述待训练神经网络模型,获得实体类别编码模型。

结合第三方面,在一种实施方式中,所述预处理单元,具体被配置为:提取所述训练数据中的至少一个特征属性;计算与所述至少一个特征属性分别对应的至少一个特征属性值;将所述至少一个特征属性值作为所述预处理结果。

结合第三方面,在一种实施方式中,所述预处理单元,具体被配置为:获取用户预先选择的至少一个自选特征属性,其中,所述至少一个特征属性中包括所述至少一个自选特征属性,所述至少一个自选特征属性是用户根据实际需求选择的;所述提取所述训练数据中的至少一个特征属性,包括:提取所述训练数据中的所述自选特征属性;所述计算与所述至少一个特征属性分别对应的至少一个特征属性值,包括:计算与所述自选特征属性分别对应的自选特征属性值;所述将所述至少一个特征属性值作为所述预处理结果,包括:将所述自选特征属性值作为所述预处理结果。

结合第三方面,在一种实施方式中,生成单元,具体被配置为:将所述自选特征属性值输入所述待训练神经网络模型,对所述待训练神经网络模型进行训练。

结合第三方面,在一种实施方式中,所述地理矢量数据由顶点、线段或面构成。

第四方面,一种编码的装置,所述装置包括:接收单元,被配置为接收输入的待编码实体数据,其中,所述待编码实体数据包括至少一个实体的所有构成元素,所述所有构成元素是通过对待编码实体解析得到的;编码单元,被配置为使用如第一方面任一项所述的方法获得的实体类别编码模型,对所述待编码实体数据进行编码。

第五方面,一种电子设备,包括:处理器、存储器和总线;所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如第一方面、第一方面任一项实施例、第二方面和第二方面实施例中任一项所述方法。

第六方面,一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时用于实现如第一方面、第一方面任一项实施例、第二方面和第二方面实施例中任一项所述方法。

附图说明

图1为本申请实施例示出的一种编码模型训练的方法流程图;

图2为本申请实施例示出的一种编码的方法流程图;

图3为本申请实施例示出的一种编码模型训练的装置内部单元图;

图4为本申请实施例示出的一种编码的装置内部单元图;

图5为本申请实施例示出的一种电子设备内部单元结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对附图中提供的本申请的实施例的详情描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护范围。

下面结合附图详细描述本申请实施例中的方法步骤。

本申请实施例可以应用于多种实体识别的场景,例如,这些场景包括在根据遥感图像或者三维地理数据进行地理实体绘制完成后,对地理实体进行识别和编码的场景,例如,需要将一张地图中的山川、河流等地理实体识别并编码的场景,以对地理实体进行编码为例示例性阐述相关技术的方法存在的问题。相关技术中,在针对根据遥感图像或者三维地理数据进行地理实体绘制成地理实体矢量数据后,再对实体赋予其编码属性,并且在深度学习的过程中,输入的数据需要统一特征属性的数量,使用单一的神经网络进行识别和编码。这会造成当实际需要的特征属性较少时,存在大量的无用参数,而当实际需要的特征属性较大时,则数据无法输入,因此导致对输入的数据限定要求较高,同时不能够灵活配置神经网络模型。

至少为了解决上述问题,本申请一些实施例提供的一种对训练数据进行预处理并且根据预处理的结果构造待训练神经网络模型(例如,构造待训练神经网络模型的输入层节点数目和输出层的节点数目),根据构造出的待训练神经网络模型来对需要编码的实体进行实体类别识别编码。例如,本申请的一些实施例通过将用户根据实际需求自选的至少一个自选特征属性输入待训练神经网络模型,训练后得到对应的可识别实体类别的模型,能够实现灵活配置神经网络模型对实体数据进行编码。可以理解的是,本申请实施例的应用场景不限于此。

下文将描述由电子设备执行的一种编码模型训练的方法和一种编码的方法。

S110,获取训练数据。

在一种实施方式中,获取训练数据,其中,所述训练数据包括已标注编码信息的地理矢量数据。

需要说明的是,上述各地理矢量数据表示的是构成实体的元素,例如:构成山的顶点,构成房子的面或构成道路的线。

在获取训练数据之前,需要先将实体数据进行标记,将已被标记的实体数据作为训练数据。作为一种实施例,将实体数据中的每个不同类别的实体包括的构成元素(包括点、线或面等)标记对应的编码。例如:将组成公路实体的各线段采用编码标记为001,将构成房子的面用编码标记为002;再如:一个房屋有6个表面,将这6个表面的类别标记为110;一座山是由100个顶点组成,那么就将这100个顶点的类别标记为120。

在一种实施方式中,地理矢量数据由顶点、线段或面构成,例如,被标记的实体为房子,房子实体所对应的矢量数据就是构成房子的面,和构成房子的顶点,和构成房子的线段。作为另一种实施例,房子实体所对应的矢量数据就是构成房子的面,或构成房子的顶点,或构成房子的线段。

下文示例性阐述S120的实施方式。

S120,对所述训练数据进行预处理,获得预处理结果。

在一种实施方式中,对所述训练数据进行预处理,获得预处理结果,其中,所述预处理结果包括所述训练数据对应的特征属性及特征属性的数目和实体类别总数目。

在获取训练数据之后,将训练数据进行预处理,预处理后的结果包括了训练数据中的特征属性及特征属性的数目和需要编码的实体类别的数目。

需要说明的是,训练数据对应的特征属性可以包括各实体的构成元素的周长、面积、顶点数量等,实体类别包括山川、街道、河流。例如,使用001表示的山川、使用002表示街道、使用003表示河流等,本申请实施例不限于此。

预处理为通过可视化的方式对地理实体矢量数据制定特征提取方案,执行特征提取方案即可获取预处理结果,特征提取方案如下:

在一种实施方式中,对所述训练数据进行预处理,获得预处理结果,包括:提取所述训练数据中的至少一个特征属性;计算与所述至少一个特征属性分别对应的至少一个特征属性值;将所述至少一个特征属性值作为所述预处理结果。

需要说明的是,上述至少一个特征属性包括所有特征属性和部分特征属性,这需要标注的实体类型相关。

对训练数据进行预处理的过程包括,提取训练数据中特征属性中的至少一个,其中,特征属性可包括但不仅限于:实体的几何类型、是否闭合、线宽、周长、面积、顶点数等,计算提取出的至少一个特征属性所对应的至少一个特征属性值,将计算出的至少一个特征属性值作为预处理的结果。

例如:提取的训练数据中的至少一个特征属性为三个,这三个特征属性包括组成构成实体的边的周长、构成实体的表面的面积和构成实体的顶点数,相应的,获取特征属性值也就是计算出周长对应的周长数值、面积对应的面积数值和顶点的个数。根据这特征属性数量为三个构建的待训练神经网络模型的输入层包括三个输入节点,这三个输入节点分别用于接收输入的周长特征、面积特征和顶点数特征。

在一种实施方式中,在所述提取所述训练数据中的至少一个特征属性之前,所述方法还包括:获取用户预先选择的至少一个自选特征属性,其中,所述至少一个特征属性中包括所述至少一个自选特征属性,所述至少一个自选特征属性是用户根据实际需求选择的;相应的S120包括:提取所述训练数据的所述自选特征属性;计算与所述自选特征属性分别对应的自选特征属性值;将所述自选特征属性值作为所述预处理结果。

可以理解的是,在本申请的一些实施例中在提取训练数据中的至少一个特征属性之前,将搭建一个为用户提供选择特征属性的可视化软件,用户可以根据实际需求对特征属性进行组合,并且特征属性的类型也可以扩展,可以针对其他的特征属性进行扩展,扩展后的特征属性也同样由可视化软件进行展示,以供用户进行选择。在用户预先选择至少一个自选特征属性后,获取用户预先选择的至少一个自选特征属性,提取至少一个自选特征属性,计算与至少一个自选特征属性分别对应的至少一个自选特征属性值,将至少一个自选特征属性值作为预处理结果。

因此,本申请实施例通过用户预先选择至少一个自选特征属性,能够实现对训练数据的定制化,将训练数据转换成至少一个自选特征属性值,能够使模型自动适应不同特征属性产生的数据,可以对用户自选得到的特征属性,采用不同的神经网络模型进行训练学习。

下文示例性阐述S130的实施方式。

S130,根据所述预处理结果生成待训练神经网络模型。

在一种实施方式中,根据所述预处理结果生成待训练神经网络模型,其中,所述待训练神经网络模型输入层的输入特征的数目等于所述特征属性的数目,所述待训练神经网络的输出层用于输出与所述实体类别总数目相同数量的识别结果。

需要说明的是,电子设备在执行上述方法的过程中,并不是每一次执行都输出多个实体识别结果,而是说输出层具有输出与实体类别总数目相同数量的识别结果的能力。

将预处理结果中的至少一个特征属性的数量,作为待训练神经网络模型输入层的节点,将标注的实体类别的数量作为待训练神经网络模型的输出层的节点。作为一种实施例,为提高待训练神经网络模型的响应速度可适当减少隐含层的层数或,为增加待训练神经网络模型的精度可适当增加隐含层的层数。作为另一种实施例,可以引入C++神经网络的架构LibTorch,使用机器学习的技术来解决测绘领域内的复杂问题,还可以在用户端对数据进行单机训练与分析,无需通过服务器进行联网训练,避免了保密数据被泄露的可能性。

例如:预处理结果对应的特征属性的总数量为n,标记的实体类别的总数量为m,则根据预处理结果生成的待训练神经网络的输入层节点的总数量就为n个,输出节点总数量为m个,作为一个示例,生成的待训练神经网络包括5个全连接层,具体的待训练的神经网络可以生成5层全连接神经网络,例如:第一层:输入层,输入n个属性,输出n个值;第二层:输入n个值,输出2n个值;第三层:输入2n个值,输出3n个值;第四层:输入3n个值,输出2n个值;第五层:输出层,输入2n个值,输出m个值。本申请实施例不限于此,其中,n和m均为大于或等于1的自然数。

在一种实施方式中,根据所述预处理结果生成待训练神经网络模型,包括:将所述自选特征属性值输入所述待训练神经网络模型,对所述待训练神经网络模型进行训练。

将用户根据需求选择的自选特征属性值的数量作为待训练神经网络模型的输入层节点的数量,并且对待训练神经网络模型进行训练。

因此,本申请实施例通过对自选特征属性值作为输入的待训练神经网络模型进行训练,能够得到与该用户选择的自选特征属性匹配的神经网络模型,从而对实体数据进行自动化识别以及依据识别结果进行编码。

下文示例性阐述S140的实施方式。

S140,训练所述待训练神经网络模型,获得实体类别编码模型。

在获得待训练神经网络模型后,对待训练神经网络模型进行训练,获得实体类别编码模型。

需要说明的是,实体类别是各类地理实体对象的类别,例如,实体类别包括山川、河流等,对实体类别采用预先定义的标识进行表征即对实体进行编码,本申请不限定标识的具体类型,作为一个示例,采用数字标识编码各类实体,具体地,山川使用001表示,河流使用002表示,本申请实施例不限于此。

因此,本申请实施例通过根据训练数据对应的特征属性的数目和实体类别数目,适应生成匹配的待训练的神经网络模型的输入层和输出层,从而获得实体类别识别模型,能够实现对实体数据的自动化识别,有效防止遗漏,极大的节省了人工的资源,在处理大量实体数据时优势明显,极大的提高了数据处理的效率。

上文描述了电子设备训练编码模型的方法,下文将描述一种编码方法的具体实施例。

如图2所示,作为本申请中的一种编码方法,包括:

S210,接收输入的待编码实体数据。

在一种实施方式中,接收输入的待编码实体数据,其中,所述待编码实体数据包括至少一个实体的所有构成元素,所述所有构成元素是通过对待编码地图解析得到的。

先从待编码地图中解析出待编码实体数据,向实体类别识别模型输入待编码实体数据,电子设备在加载完成实体类别编码模型和模型中的参数后,接收输入的待编码实体数据。

需要说明的是,待编码实体数据可以是由顶点、线段或面构成的,所有构成元素是地理实体矢量数据的点、线、面等,本申请实施例不限于此。

S220,使用实体类别编码模型,对所述待编码实体数据进行编码。

在电子设备接收完成待编码实体数据之后,使用训练得到的实体类别编码模型对待编码实体数据进行分类识别,并且按照分类结果进行编码。

作为一种编码方法的实施例,实体类别编码模型接收的待编码的实体数据包含有顶点和线段,使用实体类别编码模型,将表示房子的顶点编码为001,将表示道路的线段编码为002。

上文描述了一种用于编码的方法的具体实施例,下文将描述一种用于训练对地理矢量数据进行编码的模型的装置。

如图4所示,一种编码模型训练的装置300,包括:获取单元310、预处理单元320、生成单元330和训练单元340。

在一种实施方式中,一种编码模型训练的装置,所述装置包括:获取单元,被配置为获取训练数据,其中,所述训练数据包括采用编码对地图上的各地理矢量数据进行标记的实体数据;预处理单元,被配置为对所述训练数据进行预处理,获得预处理结果,其中,所述预处理结果包括所述训练数据对应的特征属性及特征属性的数目和实体类别总数目;生成单元,被配置为根据所述预处理结果生成待训练神经网络模型,其中,所述训练神经网络模型的输入层输入节点的数目等于所述特征属性的数目,所述待训练神经网络的输出层用于输出与所述实体类别总数目相同数量的识别结果;训练单元,被配置为训练所述待训练神经网络模型,获得实体类别编码模型。

在一种实施方式中,所述预处理单元,具体被配置为:提取所述训练数据中的至少一个特征属性;计算与所述至少一个特征属性分别对应的至少一个特征属性值;将所述至少一个特征属性值作为所述预处理结果。

在一种实施方式中,所述预处理单元,具体被配置为:获取用户预先选择的至少一个自选特征属性,其中,所述至少一个特征属性中包括所述至少一个自选特征属性,所述至少一个自选特征属性是用户根据实际需求选择的;所述提取所述训练数据中的至少一个特征属性,包括:提取所述训练数据中的所述自选特征属性;所述计算与所述至少一个特征属性分别对应的至少一个特征属性值,包括:计算与所述自选特征属性分别对应的自选特征属性值;所述将所述至少一个特征属性值作为所述预处理结果,包括:将所述自选特征属性值作为所述预处理结果。

在一种实施方式中,生成单元,具体被配置为:将所述自选特征属性值输入所述待训练神经网络模型,对所述待训练神经网络模型进行训练。

在本申请实施例中,图3所示模块能够实现图1方法实施例中的各个过程。图3中的各个模块的操作和/或功能,分别为了实现图1中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

上文描述了一种编码模型训练的装置,下文将描述一种编码的装置。

如图4所示,一种编码的装置400,包括:接收单元410和编码单元420。

在一种实施方式中,一种编码的装置,所述装置包括:接收单元,被配置为接收输入的待编码实体数据,其中,所述待编码实体数据包括至少一个实体的所有构成元素,所述所有构成元素是通过对待编码地理实体解析得到的;编码单元,被配置为使用如第一方面及第一方面任一项实施例中所述的方法获得的实体类别编码模型,对所述待编码实体数据进行编码。

在本申请实施例中,图4所示模块能够实现图2方法实施例中的各个过程。图4中的各个模块的操作和/或功能,分别为了实现图2中的方法实施例中的相应流程。具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

如图5所示,本申请实施例提供一种电子设备500,包括:处理器510、存储器520和总线530,所述处理器通过所述总线与所述存储器相连,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,用于实现如上述所有实施例中任一项所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

其中,总线用于实现这些组件直接的连接通信。其中,本申请实施例中处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。存储器中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,可以执行上述实施例中所述的方法。

可以理解,图5所示的结构仅为示意,还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件、软件或其组合实现。

本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被服务器执行时实现上述所有实施方式中任一所述的方法,具体可参见上述方法实施例中的描述,为避免重复,此处适当省略详细描述。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

相关技术
  • 一种编码模型训练的方法、编码的方法、装置和存储介质
  • 模型训练、视频编码方法,装置,设备以及存储介质
技术分类

06120112964866