掌桥专利:专业的专利平台
掌桥专利
首页

地址处理方法及相关设备

文献发布时间:2024-04-18 19:53:33


地址处理方法及相关设备

技术领域

本申请涉及数据处理技术领域,尤其涉及到一种地址处理方法及相关设备。

背景技术

在日常生活中,有很多地方会涉及到地址文本,譬如:身份证光学字符识别(OCR)、购物网站、快递单等。但这些地址文本会存在一定的误识别,或者地址填写错误的情况。从而需要对地址文本进行判别,如果是人来判别,会耗费大量人力资源。

目前,常用的一种方法,是通过地址匹配,即在数据库中进行地址比对,查找与待匹配地址匹配的地址,得到匹配的地址。然而,通过这种方式,原本错误的地址分词较容易匹配出与原本错误地址分词一样的地址,得到的匹配地址仍然是错误的,从而导致得到的地址准确性较低。

发明内容

本申请实施例提供一种地址处理方法及相关设备,有利于提高地址处理得到的目标地址的准确率和可靠性。

为了解决上述技术问题,本申请是这样实现的:

第一方面,本申请实施例提供了一种地址处理方法,包括:

获取待处理地址,所述待处理地址包括N个字符,N为正整数;

获取所述待处理地址的语义特征向量以及所述N个字符中每个字符的字符特征向量,所述语义特征向量用于表征所述待处理地址的全局语义信息,所述字符特征向量用于表征字符语义信息;

基于所述N个字符的字符特征向量对所述N个字符进行地址等级分类,得到所述N个字符中每个字符的地址等级分类结果,所述字符的地址等级分类用于表示所述字符所属的地址等级,所述地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级;

基于所述N个字符的地址等级分类结果、所述N个字符的字符特征向量以及所述语义特征向量,对所述待处理地址进行纠正处理,得到目标地址。

第二方面,本申请实施例还提供一种地址处理装置,包括:

第一获取模块,用于获取待处理地址,所述待处理地址包括N个字符,N为正整数;

第二获取模块,用于获取所述待处理地址的语义特征向量以及所述N个字符中每个字符的字符特征向量,所述语义特征向量用于表征所述待处理地址的全局语义信息,所述字符特征向量用于表征字符语义信息;

等级分类模块,用于基于所述N个字符的字符特征向量对所述N个字符进行地址等级分类,得到所述N个字符中每个字符的地址等级分类结果,所述字符的地址等级分类用于表示所述字符所属的地址等级,所述地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级;

纠正处理模块,用于基于所述N个字符的地址等级分类结果、所述N个字符的字符特征向量以及所述语义特征向量,对所述待处理地址进行纠正处理,得到目标地址。

第三方面,本申请实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述地址处理方法中的步骤。

第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述地址处理方法中的步骤。

可以看出,本实施例中,在对待处理地址进行纠正处理得到目标地址过程中,考虑了待处理地址的语义特征向量,而且还考虑了待处理地址中N个字符的字符特征向量以及N个字符的地址等级分类结果,使用了较多的特征信息,由于语义特征向量用于表示待处理地址的全局语义信息,N个字符的字符特征向量用于表示字符语义信息,N个字符的地址等级分类结果用于表示字符所属的地址等级,因此,在对地址处理纠正处理得到目标地址的过程中,结合了待处理地址的全局语义信息、字符语义信息以及字符所属的地址等级,可以实现对待处理地址更好的效果,如此,有利于提高地址纠正的准确性和可靠性,从而可提高得到的目标地址的准确性和可靠性。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种地址处理方法的流程图之一;

图2是本申请实施例提供的一种地址处理方法的流程图之二;

图3是本申请实施例提供的一种地址处理方法的原理图;

图4是本申请实施例提供的一种地址处理装置的结构示意图;

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

参见图1,图1是本申请实施例提供的一种地址处理方法的流程图,如图1所示,包括以下步骤:

步骤101:获取待处理地址,待处理地址包括N个字符,N为正整数;

本实施例的地址处理方法可应用电子设备,电子设备可以是移动设备或非移动设备。需要说明的是,获取待处理地址的方式有多种,不作具体限定,例如,上述待处理地址可以是输入到电子设备中待处理的地址信息,也可以是电子设备获取包括地址信息的图像信息,通过对图像信息进行文字识别得到该待处理地址等。示例性地,电子设备可进行拍摄获得上述图像信息,也可以通过扫描获得上述图像信息等。

步骤102:获取待处理地址的语义特征向量以及N个字符中每个字符的字符特征向量;

其中,语义特征向量用于表征待处理地址的全局语义信息,字符特征向量用于表征字符语义信息,可以理解,语义特征向量可表征待处理地址整体的语义信息,字符的字符特征向量可表征该字符的语义信息,相当于待处理地址局部的语义信息。待处理地址中包括N个字符,可获取N个字符中每个字符的字符特征向量。例如,语义特征向量可以是CLS向量,字符特征向量可以是Token向量。

步骤103:基于N个字符的字符特征向量对N个字符进行地址等级分类,得到N个字符中每个字符的地址等级分类结果。

其中,字符的地址等级分类用于表示字符所属的地址等级,地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级。

在本实施例中,可利用字符的字符特征向量对该字符进行地址等级分类,从而,得到字符的地址等级分类结果,由于字符的字符特征向量可准确地表示字符语义信息,即表征了字符的语义信息,从而利用字符的字符特征向量对该字符进行地址等级分类,可提高地址等级分类准确性。在本实施例中,可预先根据行政区划确定至少一个地址等级,在确定字符的地址等级分类结果过程中,利用字符的字符特征向量,在至少一个地址等级中确定该字符所属的地址等级。示例性地,至少一个地址等级可包括五个地址等级,按照等级从高到低的顺序,分别为:一级地址、二级地址、三级地址、四级地址和五级地址,可根据字符的字符特征向量进行地址等级分类,例如,在多个地址等级中,确定该字符对应的地址等级(即该字符对应的地址分类结果)。

步骤104:基于N个字符的地址等级分类结果、N个字符的字符特征向量以及语义特征向量,对待处理地址进行纠正处理,得到目标地址。

确定的目标地址,可以理解是对待处理地址进行纠正后的地址,在对待处理地址进行纠正处理得到目标地址的过程中,不但采用了待处理地址的语义特征信息,而且还采用了N个字符的字符特征向量以及N个字符的地址等级分类结果,使用了较多的特征信息。

本实施例中,在对待处理地址进行处理得到目标地址过程中,考虑了待处理地址的语义特征向量,而且还考虑了待处理地址中N个字符的字符特征向量以及N个字符的地址等级分类结果,使用了较多的特征信息,由于语义特征向量用于表示待处理地址的全局语义信息,N个字符的字符特征向量用于表示字符语义信息,N个字符的地址等级分类结果用于表示字符所属的地址等级,因此,在对地址处理纠正处理得到目标地址的过程中,结合了待处理地址的全局语义信息、字符语义信息以及字符所属的地址等级,可以实现对待处理地址更好的效果,如此,有利于提高地址纠正的准确性和可靠性,从而可提高得到的目标地址的准确性和可靠性。

在一个实施例中,获取待处理地址的语义特征向量以及N个字符中每个字符的字符特征向量,包括:将待处理地址输入预训练语言模型进行特征提取,获得语义特征向量以及N个字符中每个字符的字符特征向量。

预训练语言模型可以是通过自监督学习从大规模数据中获得与具体任务无关的预训练模型,预训练语言模型可学习到通用的语义表示,在本实施例中,通过一个预训练语言模型可同时得到待处理地址的全局语义信息以及N个字符的字符特征向量,可降低语义特征向量和字符特征向量提取的耗时,提高特征提取的效率的同时,通过预训练语言模型进行特征提取,能够提取待处理地址的全局语义信息,使提取得到的语义信息能够更好地表示待处理地址,提高得到的待处理地址的语义信息的准确性。

在一个实施例中,N个字符的地址等级分类结果包括M类地址等级,M为正整数;需要说明的是,M类地址等级属于至少一个地址等级。其中,基于N个字符的地址等级分类结果、N个字符的字符特征向量以及语义特征向量,确定待处理地址对应的目标地址的步骤104,包括:获取M类地址等级中每类地址等级的特征向量集,其中,第一类地址等级的特征向量集包括属于第一类地址等级的各个字符的字符特征向量,第一类地址等级为M类地址等级中的任一类地址等级;将M类地址等级中每类地址等级的特征向量集中各个字符特征向量与语义特征向量进行合并,得到M个目标特征向量;基于M个目标特征向量对待处理地址进行纠正处理,得到目标地址。

可以理解,参见图2,本实施例提供另一个实施例的地址处理方法,包括:

步骤201:获取待处理地址,待处理地址包括N个字符,N为正整数;

步骤202:获取待处理地址的语义特征向量以及N个字符中每个字符的字符特征向量,语义特征向量用于表征待处理地址的全局语义信息,字符特征向量用于表征字符语义信息;

步骤203:基于N个字符的字符特征向量对N个字符进行地址等级分类,得到N个字符中每个字符的地址等级分类结果,字符的地址等级分类用于表示字符所属的地址等级,地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级;

步骤204:获取M类地址等级中每类地址等级的特征向量集;

其中,第一类地址等级的特征向量集包括属于第一类地址等级的各个字符的字符特征向量,第一类地址等级为M类地址等级中的任一类地址等级;

步骤205:将M类地址等级中每类地址等级的特征向量集中各个字符特征向量与语义特征向量进行合并,得到M个目标特征向量;

步骤206:基于M个目标特征向量对待处理地址进行纠正处理,得到目标地址。

以上步骤201-203与上述步骤101-103步骤一一对应,不再赘述。

在本实施例中,对待处理地址进行纠正处理得到目标地址的过程中,可将M类地址等级中每类地址等级的特征向量集分别与语义特征向量进行合并,得到M个目标特征向量,可以理解,可对同类地址等级对应的各个字符的字符特征向量进行汇总,得到每类地址等级的特征向量集,然后将每类地址等级的特征向量集分别与语义特征向量进行合并,以得到M个目标特征向量。

其中,M个目标特征向量与M类地址等级一一对应。第一类地址等级的特征向量集可包括N个字符中属于第一类地址等级的各个字符的字符特征向量。确定M个目标特征向量后,通过M个目标特征向量对待处理地址进行纠正处理来确定目标地址。示例性地,将M类地址等级中每类地址等级的特征向量集中各个字符特征向量与语义特征向量进行合并,可以是将M类地址等级中每类地址等级的特征向量集中各个字符特征向量与语义特征向量进行相加。

在本实施例中,一个目标特征向量结合了一类地址等级的特征向量集和待处理地址的全局语义信息,一个特征向量集中集合了一类地址等级的各字符的字符特征向量,字符特征向量可表示字符语音信息,是将同一类地址等级的各个字符的字符特征向量汇总,得到对应的特征向量集,将不同类等级地址的特征向量集合分别与待处理地址的语义特征向量合并,得到M目标特征向量,用以确定目标地址,即在确定目标地址过程中,考虑了M类地址等级中不同各类地址等级分别对应的字符语音信息,结合待处理地址的全局语义信息,提高确定的目标地址的准确性。

在一个实施例中,基于M个目标特征向量对待处理地址进行纠正处理,得到目标地址,包括:针对M个目标特征向量中的每个目标特征向量,从M个地址识别模型中获取与目标特征向量对应类地址等级对应的目标地址识别模型,M个地址识别模型与M类地址等级一一对应;将目标特征向量输入目标地址识别模型进行地址识别,确定目标特征向量对应的子地址;对M个目标特征向量的子地址进行合并,得到目标地址,其中,一个子地址为一类地址等级的地址。

可以理解,每个地址等级有对应的地址识别模型,在本实施例中,N个字符的地址等级分类结果包括M类地址等级,可对应M个地址识别模型,M个地址识别模型与M类地址等级一一对应。在得到M个目标特征向量后,可将M个目标特征向量中的每个目标特征向量输入到对应的地址识别模型进行地址识别,从而可得到每个目标特征向量对应的子地址,即得到M个子地址,对M个子地址进行合并,得到目标地址。

在本实施例中,对于不同类地址等级对应的目标特征向量,可输入到不同的地址识别模型进行地址识别,得到对应的子地址,以提高确定子地址的准确性,将得到的各子地址进行合并,得到目标地址,从而可提高目标地址的准确性。

在一个实施例中,目标地址识别模型包括目标双向长短词记忆模块和目标分类模块;其中,将目标特征向量输入目标地址识别模型进行地址识别,确定目标特征向量对应的子地址,包括:将目标特征向量输入双向长短词记忆模块,得到目标特征向量对应的概率向量,概率向量中包括目标字符组合为子地址序列中每个子地址的概率,子地址序列中包括目标特征向量对应类地址等级对应的多个子地址,目标字符组合为目标特征向量集对应的各字符的组合,目标特征向量集为目标特征向量对应类地址等级的特征向量集;将目标特征向量对应的概率向量输入分类模块,得到目标特征向量对应的子地址。

可以理解,每个目标特征向量输入双向长短词记忆模块,可得到对应的概率向量,即可得到M个概率向量,一个目标特征向量的概率向量中包括该目标特征向量的特征向量集中各字符的组合,属于该目标特征向量对应类地址等级对应的子地址序列中每个子地址的概率。得到目标特征向量对应的概率向量后,可输入分类模块进行地址识别,得到目标特征向量对应的子地址,由于可将每个目标特征向量对应的概率向量输入分类模块进行地址识别,从而可得到M个目标特征向量对应的子地址,即得到M个子地址,后续将M个子地址进行合并得到目标地址。

在本实施例中,将目标特征向量输入目标地址识别模型进行地址识别以确定对应子地址的过程中,可先利用双向长短词记忆模块对目标特征向量进行处理得到对应的概率向量,然后利用目标特征向量的概率向量输入分类模块进行处理得到对应的子地址,由于目标特征向量的概率向量中是包括目标字符组合为子地址序列中每个子地址的概率,即在确定子地址过程中,考虑了目标特征向量对应目标字符组合为子地址序列中每个子地址的可能性,从而可提高确定子地址的准确性。

作为一个示例,地址识别模型可采用双向长短词记忆(Bi-directional LongShort-Term Memory,BiLSTM)模块和Softmax分类模块组成的模型,目标特征向量输入该BiLSTM,该Softmax分类模块的输入包括该BiLSTM的输出,该Softmax分类层输出目标特征向量对应的子地址。

在一个实施例中,M类地址等级的等级高低不同,对M个目标特征向量的子地址进行合并,得到目标地址,包括:根据M类地址等级的等级高低,对M个目标特征向量进行排序;按照M个目标特征向量的排序顺序,合并M个目标特征向量各自的子地址,得到目标地址。

可以理解,地址等级越高,对应覆盖的地址范围越高,低等级地址可以是高等级地址的子地址。例如,一级地址为省级地址,二级地址为市级地址,一级地址的等级高于二级地址的等级,省级地址覆盖的地址范围高于市级地址覆盖的地址范围。示例性地,可按照M类地址等级的等级从高到低的顺序,对M个目标特征向量进行排序,如此,后续合并子地址过程中,地址等级越高,对应目标特征向量排序越靠前,其对应的子地址越靠前,子地址合并得到的目标地址越合理。

在本实施例中,按照M个目标特征向量对应的地址等级高低,对M个目标特征向量进行排序,按照M个目标特征向量的排序顺序,合并M个目标特征向量的子地址,以提高子地址合并的合理性,从而提高得到的目标地址的合理性。

在一个实施例中,基于N个字符的字符特征向量进行地址等级分类,得到N个字符中每个字符的地址等级分类结果,包括:针对N个字符中的每个字符,根据字符的字符特征向量进行实体标注,得到字符的标注向量;基于N个字符的标注向量对N个字符进行地址等级分类,确定N个字符中每个字符的地址等级分类结果。

需要说明的是,字符的标注向量包括该字符属于多个地址等级中每个地址等级的概率,多个地址等级包括多个地址等级类别以及非地址类别(也可以理解是不属于任何地址等级类别),M类地址等级是多个地址等级类别中的M个类别,上述多个地址等级类别可以是上述至少一个地址等级。基于每个字符的标注向量进行地址等级分类,以确定每个字符的地址等级分类结果,即得到N个字符的地址等级分类结果,对于为非地址类别的字符,后续在进行同类地址等级的特征汇总过程中,不汇总非地址类别的字符的特征。

在本实施例中,可利用字符的字符特征向量进行实体标注,得到字符的标注向量,可利用N个字符的标注向量对N个字符进行地址等级分类,以提高字符的地址等级分类结果的准确性。

示例性地,可将N个字符中的每个字符的字符特征向量输入命名实体识别层进行实体标注,得到N个字符中每个字符的标注向量,可将N个字符的标注向量输入第一分类层进行地址等级分类,确定N个字符的地址等级分类结果。作为一个示例,命名实体识别层可采用BiLSTM(可不同于地址识别模型中的BiLSTM),第一分类层可采用Softmax分类层(可不同于地址识别模型中的Softmax分类层)。

在本实施例中,可利用命名实体识别层对字符的字符特征向量进行实体标注,得到N个字符中每个字符的标注向量,然后利用N个字符的标注向量输入第一分类层进行分类,确定N个字符的地址等级分类结果,通过命名实体识别层可同时进行各类命名实体的识别,从而可提高地址等级分类的效率。

在一个实施例中,获取待处理地址,包括:获取目标场景下的目标对象,目标场景包括图像识别场景或信息输入场景,目标对象包括图像识别场景下的图像信息或信息输入场景下的文字信息;对目标对象进行文本识别,得到目标文本;识别目标文本中的地址,得到识别地址;将识别地址作为待处理地址。

可以理解,本实施例的地址处理方法可应用各种不同场景,例如,可应用于图像识别场景或信息输入场景等,在图像识别场景下,电子设备可获取图像信息,可通过拍摄得到图像信息或通过扫描得到图像信息等。在信息输入场景下,用户可在信息输入界面中输入文字信息。从而,可获取图像识别场景下的图像信息或信息输入场景下的文字信息,然后,可对图像信息或文字信息进行文字识别,以得到目标文本。

其中,识别目标文本中的地址,以得到待处理地址。然而,由于存在文字识别有误或用户信息输入有误的情况,导致得到的待处理地址可能存在错误,在本实施例中,获取待处理地址后,可获取待处理地址的语义特征向量以及待处理地址的N个字符中每个字符的字符特征向量,利用N个字符的字符特征向量对N个字符进行地址等级分类,得到N个字符中每个字符的地址等级分类结果,然后根据N个字符的地址等级分类结果、N个字符的字符特征向量以及语义特征向量,对待处理地址进行纠正处理,得到目标地址,以提高地址的准确性。

在一个实施例中,得到目标地址之后,还包括:在目标地址与待处理地址不一致的情况下,将目标文本中的待处理地址更新为目标地址。

在目标地址与待处理地址不一致的情况下,表示对待处理地址进行了纠正,目标地址是待处理地址纠正后的地址,准确性更高,可将目标文本中的待处理地址更新为目标地址,以提高目标文本的准确性。例如,对于信息输入场景,用户在信息输入界面填写相关信息,例如,姓名、联系电话以及地址等,可以理解,目标文本可包括姓名、联系电话以及地址等,但在输入过程中,地址输入有误,通过本实施例的方法,可得到对应纠正后的地址,并将目标文本中的地址调整为纠正后的地址,从而,可提高目标文本的准确性。

下面以一个具体实施例对地址处理方法的过程加以具体说明。

将本实施例的地址处理方法应用于快递行业的地址信息输入场景,假设用户寄件时输入的待处理地址为:天京市北京市朝阳区望京街道,包括13个字符,即N为13,通过本实施例方法对其进行处理。将待处理地址输入预训练语言模型进行特征提取,可得到该待处理地址的语义特征向量(CLS)以及待处理地中各字符的字符特征向量,将各字符的字符特征向量输入NER层得到对应的标注向量,经过Softmax分类层,得到待处理地址中,各字符的地址等级分类结果(即各级行政地址的范围)如下:

天->B-一级行政区域;

京->I-一级行政区域;

市->I-一级行政区域;

北->B-二级行政区域;

京->I-二级行政区域;

市->I-二级行政区域;

朝->B-三级行政区域;

阳->I-三级行政区域;

区->I-三级行政区域;

望->B-四级行政区域;

京->I-四级行政区域;

街->I-四级行政区域;

道->I-四级行政区域;

其中,BIO标注:将每个元素标注为“B-X”(也可以是“B”)、“I-X”(也可以是“I”)或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。

各类地址等级对应的地址如下:

一级地址(一级行政区域):北京市;

二级地址(二级行政区域):北京市;

三级地址(三级行政区域):朝阳区;

四级地址(四级行政区域):望京街道;

本实施例对地址处理方法的过程如下:

将待处理地址输入预训练模型;

使用预训练语言模型进行特征提取,输出包括待处理地址的CLS向量和待处理地址中每个字符的Token向量,一个示例中,预训练模型可以是但不限于BERT,其中CLS可用于文本分类任务,Token向量可用于序列标注任务;

将每个Token向量输入命名实体识别(NER)层,然后进行Softmax分类得到每个Token对应的地址等级分类结果,比如,待处理地址中的“天”对应的Token向量是Token1,对应的地址等级分类结果是B-一级行政区域;

将每类地址等级的字符的地址等级分类结果汇总,得到各类地址等级的Token向量集,比如,“天京市”对应的是一级行政区域;

将各类地址等级的Token向量集分别与CLS向量合并(concat)起来得到各类地址等级的的分类向量(目标特征向量);

各类地址等级的分类向量输入各自对应的地址识别模型进行地址分类,得到各自对应的子地址,比如,“天京市”会分类成北京市(一级行政区域);

合并各类地址等级的子地址,得到目标地址,即最终待处理地址:“天京市北京市朝阳区望京街道”,经过本实施例上述纠正处理过程,得到的正确的目标地址为北京市北京市朝阳区望京街道:

“天京市”->一级行政区域,一级行政区域类别为“北京市”

“北京市”->二级行政区域,二级行政区域类别为“北京市”

“朝阳区”->三级行政区域,二级行政区域类别为“朝阳区”

“望京街道”->四级行政区域,四级行政区域类别为“望京街道。

如此,用户输入错误的地址“天京市北京市朝阳区望京街道”,通过本实施例方法进行纠正处理后,得到正确的目标地址为“北京市北京市朝阳区望京街道”,后续,在寄件过程中,可将纠正后的目标地址作为寄件地址进行寄件。以提高快递寄件的准确性。

又例如,参见图3,待处理地址为:北京市朝阳东,经过预训练语言模型,得到其对应的CLS向量和每个字符(即北、京、市、朝、阳、东)的Token向量(分别为T1、T2、T3、T4、T5、T6),Token向量经过NER层,得到对应的标注向量,经过Softmax分类层,得到对应的地址等级分类结果如下:

北->B-二级行政区域;

京->I-二级行政区域;

市->I-二级行政区域;

朝->B-三级行政区域;

阳->I-三级行政区域;

东->O;

需要说明的是,待处理地址中的“东”对应的地址等级分类结果是:非地址类别,可用O表示。

然后对各类地址等级的字符的Token向量进行汇总,得到各类地址等级的Token向量集,比如,“北京市”对应的是二级行政区域,对应的Token向量集即为图3中二级行政区域的特征向量集,“朝阳”对应的是三级行政区域,对应的Token向量集即为图3中三级级行政区域的特征向量集。

将各类地址等级的Token向量集分别与CLS向量进行拼接,得到各类地址等级的目标特征向量,再分别经过各自对应的地址识别模型得到相应的子地址,比如,“北京市”会分类成“北京市,为二级行政区域,“朝阳东”会分类成“朝阳区”,为三级行政区域。

然后合并子地址得到目标地址,可以理解,本实施例的待处理地址:北京市朝阳东,经过本实施例上述纠正处理过程,得到的正确的目标地址为:北京市朝阳区。

如此,用户输入错误的地址“北京市朝阳东”,通过本实施例方法进行纠正处理后,得到正确的目标地址为“北京市朝阳区”,后续,在寄件过程中,可将纠正后的目标地址作为寄件地址进行寄件。以提高快递寄件的准确性。

本申请使用多任务学习的思想,将序列标注任务和分类任务结合起来,使用一个多任务学习模型解决,并且设计新的模型架构,让不同的任务共享部分参数层(预训练语言模型),又有各自的单独参数层(NER层、地址识别模型)。

参见图4,图4是本申请实施例提供的地址处理装置400的结构图,能实现上述实施例中地址处理方法的细节,并达到相同的效果。如图4所示,地址处理装置400,包括:

第一获取模块401,用于获取待处理地址,待处理地址包括N个字符,N为正整数;

第二获取模块402,用于获取待处理地址的语义特征向量以及N个字符中每个字符的字符特征向量,语义特征向量用于表征待处理地址的全局语义信息,字符特征向量用于表征字符语义信息;

等级分类模块403,用于基于N个字符的字符特征向量对N个字符进行地址等级分类,得到N个字符中每个字符的地址等级分类结果,字符的地址等级分类用于表示字符所属的地址等级,地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级;

纠正处理模块404,用于基于N个字符的地址等级分类结果、N个字符的字符特征向量以及语义特征向量,对待处理地址进行纠正处理,得到目标地址。

在一个实施例中,N个字符的地址等级分类结果包括M类地址等级,M为正整数;纠正处理模块404,包括:

向量集获取模块,用于获取M类地址等级中每类地址等级的特征向量集,其中,第一类地址等级的特征向量集包括属于第一类地址等级的各个字符的字符特征向量,第一类地址等级为M类地址等级中的任一类地址等级;

向量合并模块,用于将M类地址等级中每类地址等级的特征向量集中各个字符特征向量与语义特征向量进行合并,得到M个目标特征向量;

目标地址确定模块,用于基于M个目标特征向量对待处理地址进行纠正处理,得到目标地址。

在一个实施例中,目标地址确定模块,包括:

模型获取模块,用于针对M个目标特征向量中的每个目标特征向量,从M个地址识别模型中获取与目标特征向量对应类地址等级对应的目标地址识别模型,M个地址识别模型与M类地址等级一一对应;

子地址确定模块,用于将目标特征向量输入目标地址识别模型进行地址识别,确定目标特征向量对应的子地址;

地址合并模块,用于对M个目标特征向量的子地址进行合并,得到目标地址,其中,一个子地址为一类地址等级的地址。

在一个实施例中,目标地址识别模型包括目标双向长短词记忆模块和目标分类模块;子地址确定模块,包括:

概率确定模块,用于将目标特征向量输入双向长短词记忆模块,得到目标特征向量对应的概率向量,概率向量中包括目标字符组合为子地址序列中每个子地址的概率,子地址序列中包括目标特征向量对应类地址等级对应的多个子地址,目标字符组合为目标特征向量集对应的各字符的组合,目标特征向量集为目标特征向量对应类地址等级的特征向量集;

子地址获取模块,用于将目标特征向量对应的概率向量输入分类模块,得到目标特征向量对应的子地址。

在一个实施例中,M类地址等级的等级高低不同,地址合并模块,包括:

排序模块,用于根据M类地址等级的等级高低,对M个目标特征向量进行排序;

子地址合并模块,用于按照M个目标特征向量的排序顺序,合并M个目标特征向量各自的子地址,得到目标地址。

在一个实施例中,等级分类模块403,包括:

标注模块,用于针对N个字符中的每个字符,根据字符的字符特征向量进行实体标注,得到字符的标注向量;

分类模块,用于基于N个字符的标注向量对N个字符进行地址等级分类,确定N个字符中每个字符的地址等级分类结果。

在一个实施例中,第一获取模块401,包括:

对象获取模块,用于获取目标场景下的目标对象,目标场景包括图像识别场景或信息输入场景,目标对象包括图像识别场景下的图像信息或信息输入场景下的文字信息;

文本识别模块,用于对目标对象进行文本识别,得到目标文本;

地址识别模块,用于识别目标文本中的地址,得到识别地址;

确定模块,用于将识别地址作为待处理地址。

本申请实施例提供的地址处理装置能够上述实施例中地址处理方法的各个过程,为避免重复,这里不再赘述。

图5为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备500包括但不限于:射频单元501、网络模块502、音频输出单元503、输入单元504、传感器505、显示单元506、用户输入单元507、接口单元508、存储器509、处理器510、以及电源511等部件。本领域技术人员可以理解,图5中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本申请实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中,处理器510,用于:获取待处理地址,待处理地址包括N个字符,N为正整数;获取待处理地址的语义特征向量以及N个字符中每个字符的字符特征向量,语义特征向量用于表征待处理地址的全局语义信息,字符特征向量用于表征字符语义信息;基于N个字符的字符特征向量对N个字符进行地址等级分类,得到N个字符中每个字符的地址等级分类结果,字符的地址等级分类用于表示字符所属的地址等级,地址等级为根据行政区划确定的至少一个地址等级中的一个地址等级;基于N个字符的地址等级分类结果、N个字符的字符特征向量以及语义特征向量,对待处理地址进行纠正处理,得到目标地址。

本申请实施例提供的电子设备500能实现上述各实施例的地址处理方法的各个过程,同样具有与上述地址处理方法实施例相同的有益技术效果,具体在此不再赘述。

应理解的是,本申请实施例中,射频单元501可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器510处理;另外,将上行的数据发送给基站。通常,射频单元501包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元501还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块502为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元503可以将射频单元501或网络模块502接收的或者在存储器509中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元503还可以提供与电子设备500执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元503包括扬声器、蜂鸣器以及受话器等。

输入单元504用于接收音频或视频信号。输入单元504可以包括图形处理器(Graphics Processing Unit,GPU)5041和麦克风5042,图形处理器5041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元506上。经图形处理器5041处理后的图像帧可以存储在存储器509(或其它存储介质)中或者经由射频单元501或网络模块502进行发送。麦克风5042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元501发送到移动通信基站的格式输出。

电子设备500还包括至少一种传感器505,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板5061的亮度,接近传感器可在电子设备500移动到耳边时,关闭显示面板5061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器505还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。

显示单元506用于显示由用户输入的信息或提供给用户的信息。显示单元506可包括显示面板5061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板5061。

用户输入单元507可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元507包括触控面板5071以及其他输入设备5072。触控面板5071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板5071上或在触控面板5071附近的操作)。触控面板5071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器510,接收处理器510发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板5071。除了触控面板5071,用户输入单元507还可以包括其他输入设备5072。具体地,其他输入设备5072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。

进一步的,触控面板5071可覆盖在显示面板5061上,当触控面板5071检测到在其上或附近的触摸操作后,传送给处理器510以确定触摸事件的类型,随后处理器510根据触摸事件的类型在显示面板5061上提供相应的视觉输出。虽然在图5中,触控面板5071与显示面板5061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板5071与显示面板5061集成而实现电子设备的输入和输出功能,具体此处不做限定。

接口单元508为外部装置与电子设备500连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元508可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备500内的一个或多个元件或者可以用于在电子设备500和外部装置之间传输数据。

存储器509可用于存储软件程序以及各种数据。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器510是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器510可包括一个或多个处理单元;优选的,处理器510可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器510中。

电子设备500还可以包括给各个部件供电的电源511(比如电池),优选的,电源511可以通过电源管理系统与处理器510逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

另外,电子设备500包括一些未示出的功能模块,在此不再赘述。

优选的,本申请实施例还提供一种电子设备,包括处理器510,存储器509,存储在存储器509上并可在处理器510上运行的计算机程序,该计算机程序被处理器510执行时实现上述地址处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述地址处理方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 订单地址的处理方法、装置和终端设备
  • 地址信息的处理方法、终端设备及计算机可读存储介质
  • 基于智能交互设备的数据处理方法及相关设备
  • 一种信息处理方法、区块链节点设备以及相关设备
  • 一种DPI设备的数据处理方法及相关的DPI设备
  • 地址的生成方法、区块链信息的处理方法以及相关设备
  • 地址参数处理方法及相关设备
技术分类

06120116336278