掌桥专利:专业的专利平台
掌桥专利
首页

一种地址检验的方法和装置

文献发布时间:2024-04-18 19:58:21


一种地址检验的方法和装置

技术领域

本发明涉及计算机技术领域,尤其涉及一种地址检验的方法和装置。

背景技术

地址检验技术,即检测一条地址文本是否是有效地址。目前,地址检验技术可以用于用户刷单监控、地址作弊监控,在物流、运营商以及信用卡场景下可以用于地址质量监控,减少无效派送等,从而降低企业的运营成本。

现有技术中,通常采用偏复杂的预测模型,或者将地址检验转化为异常检测问题。偏复杂的预测模型会影响地址的检验速度,难以支撑线上服务。而将地址检验转化为异常检测问题,通常找出异常地址的比率偏低,从而降低地址检验的准确率。

发明内容

有鉴于此,本发明实施例提供一种地址检验的方法和装置,从待验证的地址文本中拆分出详细地址文本和行政信息,并判断行政信息的级联关系和详细地址文本的检验结果,根据二者共同的检验结果确定待检验地址的检验结果。由此,将复杂长地址转变为简单的详细地址以作为模型输入,减轻了模型运算的负担,从而保证了处理速度。并且通过级联关系的判断,保证了验证结果的准确性。

为实现上述目的,根据本发明实施例的第一方面,提供了一种地址检验的方法。

本发明实施例的地址检验的方法包括:

获取待检验地址;从所述待检验地址中确定出一个或多个行政地址关键词、所述一个或多个行政地址关键词分别对应的行政信息、以及详细地址文本;分别确定各个所述行政信息的级联关系;根据地址验证模型确定所述详细地址文本的检验结果;根据所述级联关系和/或所述详细地址文本的检验结果,确定所述待检验地址的检验结果。

可选地,所述根据所述级联关系和/或所述详细地址文本的检验结果,确定所述待检验地址的检验结果,包括:

在所述级联关系不正确的情况下,确定所述待检验地址的检验结果为假地址;

和/或,在所述级联关系正确的情况下,将所述详细地址文本作为所述地址验证模型的输入,根据所述地址验证模型的输出确定所述待检验地址的检验结果。

可选地,所述分别确定各个所述行政信息的级联关系,包括:确定所述行政信息的数量是否大于或等于预设数量阈值;

如果是,判断所述行政信息的级联关系是否满足预设的行政从属关系,在满足所述从属关系的情况下,确定所述级联关系正确;在不满足所述从属关系的情况下,确定所述级联关系不正确;

如果否,确定所述级联关系不正确。

可选地,在确定出所述行政信息的数量大于或等于预设数量阈值之后,在所述判断所述行政信息的级联关系是否满足预设的行政从属关系之前,进一步包括:判断多个所述行政信息中是否存在重复的行政信息;

若是,则删除重复的行政信息,并重复执行判断所述行政信息的数量是否大于或等于预设数量阈值的步骤;

否则,判断所述行政信息的级联关系是否满足所述行政从属关系。

可选地,在所述待检验地址中包括多个相同的行政地址关键词的情况下,针对所述多个相同的行政地址关键词分别对应的目标行政信息:根据所述待检验地址中与所述多个相同的行政地址关键词行政级别相邻的其他关键词,确定所述目标行政信息的级联关系;分别确定每一个所述目标行政信息的级联关系是否满足所述行政从属关系。

可选地,所述根据地址验证模型确定所述详细地址文本的检验结果,包括:以所述详细地址作为所述地址验证模型的输入,输出置信度;判断所述置信度是否满足概率阈值;若是,则确定所述详细地址文本的检验结果为真地址;否则,确定所述详细地址文本的检验结果为假地址。

可选地,所述地址验证模型为fasttext模型,所述fasttext模型中的损失函数为focalloss损失函数。

为实现上述目的,根据本发明实施例的第二方面,提供了一种地址检验的装置。

本发明实施例的地址检验的装置包括:

获取模块,用于获取待检验地址;

识别模块,用于从所述待检验地址中确定出一个或多个行政地址关键词、所述一个或多个行政地址关键词分别对应的行政信息、以及详细地址文本;

检验模块,用于分别确定各个所述行政信息的级联关系;根据地址验证模型确定所述详细地址文本的检验结果;根据所述级联关系和/或所述详细地址文本的检验结果,确定所述待检验地址的检验结果。

可选地,所述检验模块还用于,在所述级联关系不正确的情况下,确定所述待检验地址的检验结果为假地址。

可选地,所述检验模块还用于,在所述级联关系正确的情况下,将所述详细地址文本作为所述地址验证模型的输入,根据所述地址验证模型的输出确定所述待检验地址的检验结果。

可选地,所述检验模块还用于,确定所述行政信息的数量是否大于或等于预设数量阈值;如果是,判断所述行政信息的级联关系是否满足预设的行政从属关系,在满足所述从属关系的情况下,确定所述级联关系正确;在不满足所述从属关系的情况下,确定所述级联关系不正确;如果否,确定所述级联关系不正确。

可选地,所述检验模块还用于,在确定出所述行政信息的数量大于或等于预设数量阈值之后,在所述判断所述行政信息的级联关系是否满足预设的行政从属关系之前,判断多个所述行政信息中是否存在重复的行政信息;若是,则删除重复的行政信息,并重复执行判断所述行政信息的数量是否大于或等于预设数量阈值的步骤;否则,判断所述行政信息的级联关系是否满足所述行政从属关系。

可选地,所述检验模块还用于,在所述待检验地址中包括多个相同的行政地址关键词的情况下,针对所述多个相同的行政地址关键词分别对应的目标行政信息:根据所述待检验地址中与所述多个相同的行政地址关键词行政级别相邻的其他关键词,确定所述目标行政信息的级联关系;分别确定每一个所述目标行政信息的级联关系是否满足所述行政从属关系。

可选地,所述检验模块还用于,以所述详细地址作为所述地址验证模型的输入,输出置信度;判断所述置信度是否满足概率阈值;若是,则确定所述详细地址文本的检验结果为真地址;否则,确定所述详细地址文本的检验结果为假地址。

可选地,所述地址验证模型为fasttext模型,所述fasttext模型中的损失函数为focalloss损失函数。

为实现上述目的,根据本发明实施例的第三方面,提供了一种地址检验的设备。

本发明实施例的地址检验的设备包括:一个或多个处理器;存储系统,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的地址检验的方法。

为实现上述目的,根据本发明实施例的第四方面,提供了一种计算机可读介质。

本发明实施例的计算机可读介质上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的地址检验的方法。

上述发明中的一个实施例具有如下优点或有益效果:在本发明实施例中,从待验证的地址文本中拆分出详细地址文本和行政信息,并判断行政信息的级联关系和详细地址文本的检验结果,根据二者共同的检验结果确定待检验地址的检验结果。由此,将复杂长地址转变为简单的详细地址以作为模型输入,减轻了模型运算的负担,从而保证了处理速度。并且通过级联关系的判断,保证了验证结果的准确性。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明,不构成对本发明的不当限定。其中:

图1是本发明实施例的一种地址检验的方法的主要流程的示意图;

图2是本发明实施例的确定各个行政信息之间的级联关系的主要流程的示意图;

图3本发明实施例的删除重复的行政信息的主要流程的示意图;

图4本发明实施例的待检验地址中包括多个相同的行政地址关键词时的主要流程的示意图;

图5是本发明实施例的根据地址验证模型确定详细地址文本的检验结果的主要流程的示意图;

图6是本发明实施例的一种地址检验的方法的主要流程的示意图;

图7是本发明实施例的一种地址检验的装置的主要模块的示意图;

图8是本发明实施例可以应用于其中的示例性系统架构图;

图9适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

根据本发明实施例的第一方面,提供一种应用于服务器的地址检验的方法。

图1是本发明实施例的一种地址检验的方法的主要流程的示意图。如图1所示,该方法主要包括:

步骤S101:获取待检验地址;

步骤S102:从待检验地址中确定出一个或多个行政地址关键词、一个或多个行政地址关键词分别对应的行政信息、以及详细地址文本;

步骤S103:分别确定各个行政信息的级联关系;

步骤S104:根据地址验证模型确定详细地址文本的检验结果;

步骤S105:根据级联关系和/或详细地址文本的检验结果,确定待检验地址的检验结果。

其中,待检验地址为需要进行检验的用户地址,通常为字数较多的长地址,例如,AA省BB市CC市DD镇XXXXX。也正是因为如此,现有技术中才需要偏复杂的预测模型才可以对待检验地址进行准确的判断,导致延迟高、效率低的问题。

在本申请中,行政地址关键词是可以表示具体行政级别的词,可以为省(直辖市)、地级市、县级市、乡镇、街道、小区中的一种或多种。由于现有的恶意地址造假通常为在详细地址文本部分作假,国别虚假较为容易识别,因此在一种可选的实施例中,选择省(直辖市)、地级市、县级市、乡镇四级行政级别作为本申请的行政地址关键词,将除去省(直辖市)、地级市、县级市、乡镇的部分作为详细地址文本,从而达到将长地址拆分为短地址的目的。进一步的,每个行政地址关键词都会对应多个行政信息,其中行政信息就是行政地址关键词所对应的具体省(直辖市)、地级市、县级市、乡镇名称。由于行政地址与行政信息的关联关系是根据全国的行政区划库进行预存的,即包括全部的省(直辖市)、地级市、县级市、乡镇,可以保证准确性,不会存在将地址检验转化为异常检测时存在的准确率低的问题。

示例性地,待检验地址为AA省BB市CC市DD镇XXXXX,那么将会根据省(直辖市)、地级市、县级市、乡镇四个行政地址关键词确定出行政信息为:AA省[省]、BB市[地级市]、CC市[县级市]、DD镇[乡镇],剩下的XXXXX即为详细地址文本。

在一种可选的实施例中,步骤S101至步骤S102可以通过CRF(sequence labelingalgorithm,条件随机场)训练模型实现,CRF作为一种轻模型,通常用作自然语言处理中的基础模型,广泛用于分词。但在本申请中,将CRF用于找出待检验地址中的行政区划实体(即一个或多个行政地址关键词分别对应的行政信息),通过运用CRF模型在可以保证快速的平均推理速度的基础上,也可以保证判断的准确性。进一步地,在CRF找出行政区划实体后,再通过将行政区划实体与行政区划库进行匹配来完成步骤S103。

在一种可选的实施例中,行政信息之间的级联关系为各个行政信息与上下级行政信息之间的级联关系。以AA省BB市CC市DD镇XXXXX为例,由于最高级行政地址关键词为省(直辖市),因此AA省[省]的级联关系为AA省[省]-BB市[地级市]。地级市的上级为省(直辖市),下级为县级市,因此BB市[地级市]的级联关系为AA省[省]-BB市[地级市]-CC市[县级市]。以此类推,可以针对每个行政信息确定与行政信息对应的级联关系。

对于步骤S103,在一种可选的实施例中,如图2所示,包括:

步骤S201:确定行政信息的数量是否大于或等于预设数量阈值;

如果是,执行步骤S202,如果否则执行步骤S204;

步骤S202:判断行政信息的级联关系是否满足预设的行政从属关系;在满足从属关系的情况下,执行步骤S203:在不满足从属关系的情况下,执行步骤S204;

步骤S203:确定级联关系正确;

步骤S204:确定级联关系不正确。

由于在某些地址中行政地址关键词所对应的行政信息可能出现重复或缺失,因此可以根据行政信息的数量进行判断,在一种可选的实施例中,预设数量阈值设置为4,以确保待检验地址中存在省(直辖市)、地级市、县级市、乡镇四级行政级别。当行政信息的数量小于预设数量阈值,例如AA省BB市CC镇,行政信息的数量为3,其小于数量阈值,说明在该待检验地址中,行政信息不够完整,如缺少县级市或缺少地级市,这势必会导致各行政级别中的级别缺失,因此确定级联关系不正确。实践中发现,将预设数量阈值设置为4,即采用四级行政级别判断行政信息的级联关系,可以兼顾运算量和地址检验的准确性,也即,在保证地址检验的准确性的前提下,还能保证验证速度。

当行政信息的数量大于或等于预设数量阈值时,可以进一步确定级联关系是否满足预设的行政从属关系,其中,行政从属关系为级联关系中的多个行政信息是否属于同一链路,即省(直辖市)、地级市、县级市、乡镇四个行政级别是否存在逐层嵌套关系。在一种可选的实施例中,可以基于全国行政区划库,按照树结构判断多个行政信息是否属于同一链路。例如,待检验地址为AA省BB市CC市DD镇XXXXX。其中,AA省[省]的级联关系为AA省[省]-BB市[地级市],BB市[地级市]的级联关系为AA省[省]-BB市[地级市]-CC市[县级市],CC市[县级市]的级联关系为BB市[地级市]-CC市[县级市]-DD镇[乡镇],根据全国行政区划库中的行政级别划分,以省(直辖市)为根节点,先判断AA省[省]中是否有BB市[地级市],再判断BB市[地级市]中是否有CC市[县级市],最后判断CC市[县级市]中是否有DD镇[乡镇]。当根据以省(直辖市)为根节点的树状结构逐层判断均为正确时,则认为多个行政信息属于同一链路,即级联关系满足预设的行政从属关系。

当行政信息的数量大于或等于预设数量阈值时,可能存在行政信息重复的现象,因此在一种可选的实施例中,如图3所示,在确定出行政信息的数量大于或等于预设数量阈值之后,在判断行政信息的级联关系是否满足预设的行政从属关系之前,进一步包括:

步骤S301:判断多个行政信息中是否存在重复的行政信息;

若是,则执行步骤S302:删除重复的行政信息,并重复执行判断行政信息的数量是否大于或等于预设数量阈值的步骤;

否则,则执行步骤S303:判断行政信息的级联关系是否满足行政从属关系。

通过步骤S301至步骤S303,可以解决由于行政信息重复而导致的行政信息的数量大于或等于预设数量阈值时,无法确定各个行政信息的级联关系的情况。例如,待检验地址为AA省BB市BB市DD镇XXXXX,其中出现了两个BB市[地级市],虽然行政信息的数量大于或等于预设数量阈值,但由于缺少CC市[县级市],导致需要遍历BB市[地级市]下级的所有县级市才可以进行地址检验,存在效率低、延迟高的问题,因此需要将重复的行政信息删除后再次执行行政信息的数量是否大于或等于预设数量阈值的步骤。在删除后剩余的行政信息的数量小于预设数量阈值,则确定级联关系不正确。

在行政信息的数量大于或等于预设数量阈值时,还可能出现存在多个相同的行政地址关键词的情况,例如,待检验地址为AA省EE市BB市CC市DD镇XXXXX,此时行政信息共有5个,其中省(直辖市)所对应的行政信息有两个,分别为AA省[省]和EE市[直辖市],那么就需要对两个省(直辖市)所对应的行政信息的级联关系分别进行判断。在一种可选的实施例中,针对所述多个相同的行政地址关键词分别对应的目标行政信息,如图4所示,包括:

步骤S401:根据待检验地址中与多个相同的行政地址关键词行政级别相邻的其他关键词,确定目标行政信息的级联关系;

步骤S402:分别确定每一个目标行政信息的级联关系是否满足行政从属关系。

在本实施例中,省(直辖市)所对应的目标行政信息为AA省[省]和EE市[直辖市],相邻的其他关键词为地级市,那么目标行政信息的级联关系分别为AA省[省]-BB市[地级市]和EE市[直辖市]-BB市[地级市],此时需要分别确定AA省[省]-BB市[地级市]和EE市[直辖市]-BB市[地级市]是否满足行政从属关系,当其中一个满足行政从属关系时,则认为级联关系正确。

对于步骤S105,在一种可选的实施例中,可以先确定级联关系,在级联关系正确的情况下,再确定详细地址文本的检验结果。具体可以包括:在所述级联关系不正确的情况下,确定所述待检验地址的检验结果为假地址;在所述级联关系正确的情况下,将所述详细地址文本作为所述地址验证模型的输入,根据所述地址验证模型的输出确定所述待检验地址的检验结果。通过确定级联关系,可以对大量的待检验地址继续筛选,仅将级联关系正确的输入至地址验证模型,减少地址验证模型的计算量,从而提升效率。在另一种可选的实施例中,不对确定级联关系和确定详细地址文本的检验结果进行先后顺序的限定,仅当二者的结果均为正确的情况下,得到待检验地址的检验结果为真地址,其中任何一个结果为不正确时,得到待检验地址的检验结果都为假地址。

在一种可选的实施例中,对于步骤S104中根据地址验证模型确定详细地址文本的检验结果,如图5所示,具体可以包括:

步骤S501:以详细地址作为地址验证模型的输入,输出置信度;

步骤S502:判断置信度是否满足概率阈值;若是,则执行步骤S503:确定详细地址文本的检验结果为真地址;否则,执行步骤S504:确定详细地址文本的检验结果为假地址。

由于现有的二分类模型无法穷举假地址的分布模式,对没有训练过的假地址,缺乏判别能力,因此在为了保证训练到的样本尽可能多,在训练过程中负样本数量远大于正样本数量,会导致样本不均衡问题。例如,在实际应用场景下,包含地理实体的详细地址是有限的,也就是正样本的数量是有限个,而不包含地理实体的详细地址(负样本)是无限多的,用户可能输入任意的详细地址,例如“哈哈”、“很好”、“随机”等,可能是任意文本。因此,作为负样本的输入远多于正样本的输入会导致模型出现对于负样本的判别倾向性,在一个地址中同时出现正样本和负样本时,模型倾向于判别该地址为假地址。因此,在本申请一种可选的实施例中,地址验证模型为fasttext模型,其中的损失函数为focalloss损失函数。

在一种可选的实施例中,fasttext模型包含三层,分别为输入层(embedding层)、隐含层(投影层)和输出层(softmax层)。具体方法如下:

(1)数据构建:以包含地理实体的详细地址为正样本,例如“科创十一街MN大厦”;以不包含地理实体的详细地址为负样本,基于新闻、小说、聊天、古文等语料构建,例如“电话联系”,在数据构建过程中,负样本数量会显著多于正样本数量。

(2)模型入参:随机初始化训练样本的字向量;

具体地,随机初始化过程为:

步骤一:构建word2id词典,该词典为所有样本中的每个字随机初始化一个唯一的索引号,示例性地,假如现在有两条训练样本,正样本“科创十一街MN大厦”,负样本“电话联系”,词典可以构建为{科:0,创:1,十:2,一:3,街:4,M:5,N:6,大:7,厦:8,电:9,话:10,联:11,系:12};

步骤二:通过embedding层初始化字向量,首先查找每条训练样本中每个字在word2id中的索引号,例如“科“的索引号为0,然后embedding层会根据每个字的索引号映射出指定维度的向量。

(3)模型结构优化:

在embedding层(输入层)之后,加入attention机制(注意力机制),该机制会提高样本中地理性词汇的权重,让模型更关注于地理实体的学习,例如科创十一街MN大厦中,正样本“MN大厦“的权重会被提高。

(4)模型损失优化:

步骤一:将softmax损失修改为focalloss损失,由于该问题是二分类问题,因此损失函数的修改本质上是将二分类的交叉熵损失(softmax在二分类下的特例)转变为focalloss损失。现有的softmax损失如下式(一),本发明实施例的具体实现如下式(二):

交叉熵损失:

focalloss损失:

其中,p为属于正样本的概率,y为样本的标签值,γ用于调整难分样本的分类,α用于调整正负样本不均衡带来的影响。

(5)模型超参数调试:调节模型超参数,包括学习率、损失函数的γ、α值等,进行模型的训练验证。

通过上述对于fasttext模型中的损失函数的优化,即将二分类的交叉熵损失函数修改为focalloss损失函数,可以解决正负样本不均衡问题,矫正样本不均衡给模型带来的训练偏差,避免模型出现对负样本的判别倾向性。

图6示出了本发明实施例的一种地址检验的方法的主要流程的示意图,如图6所示,包括:先获取待验证的地址文本;之后用CRF模型进行实体识别,从待验证的地址文本中拆分出四级行政区划和详细地址文本,之后分别对四级行政区划和详细地址文本进行正确性判断。其中,先对四级行政区划进行正确性判断,在结果正确的情况下,再对详细地址文本进行正确性判断。可以减少用于判断详细地址文本的模型的运算工作量,提高计算效率。

其中,对于四级行政区划的正确性判断,根据行政区划库进行检索,先判断四级行政区划是否完整,如果不完整则认为待验证的地址文本无效为假地址,如果完整则进行级联是否正确的判断,不正确也认为待验证的地址文本无效为假地址,如果正确再对详细地址文本进行正确性判断。

对于详细地址文本的判断,将详细地址文本作为改进的fasttext模型的输入,通过判断是否有包含地理实体的正样本得到判断结果,如果包括地理实体则认为待验证的地址文本有效为真地址,否则认为待验证的地址文本无效为假地址。

本发明实施例的地址检验的的方法,从待验证的地址文本中拆分出详细地址文本,并同时判断级联关系和详细地址文本的检验结果,根据二者共同的检验结果确定待检验地址的检验结果。将作为模型输入的复杂长地址转变为简单的详细地址,减轻了模型运算的负担,从而保证了处理速度。同时通过级联关系的判断,保证了验证结果的准确性。

根据本发明实施例第二方面,提供一种地址检验的装置。

图7是根据本发明实施例第二方面的地址检验的装置700的主要模块的示意图。如图7所示,包括:

获取模块701,用于获取待检验地址;

识别模块702,用于从所述待检验地址中确定出一个或多个行政地址关键词、所述一个或多个行政地址关键词分别对应的行政信息、以及详细地址文本;

检验模块703,用于分别确定各个所述行政信息的级联关系;根据地址验证模型确定所述详细地址文本的检验结果;根据所述级联关系和/或所述详细地址文本的检验结果,确定所述待检验地址的检验结果。

在本发明一个可选的实施例中,所述检验模块703还用于,在所述级联关系不正确的情况下,确定所述待检验地址的检验结果为假地址。

在本发明一个可选的实施例中,所述检验模块703还用于,在所述级联关系正确的情况下,将所述详细地址文本作为所述地址验证模型的输入,根据所述地址验证模型的输出确定所述待检验地址的检验结果。

在本发明一个可选的实施例中,所述检验模块703还用于,确定所述行政信息的数量是否大于或等于预设数量阈值;如果是,判断所述行政信息的级联关系是否满足预设的行政从属关系,在满足所述从属关系的情况下,确定所述级联关系正确;在不满足所述从属关系的情况下,确定所述级联关系不正确;如果否,确定所述级联关系不正确。

在本发明一个可选的实施例中,所述检验模块703还用于,在确定出所述行政信息的数量大于或等于预设数量阈值之后,在所述判断所述行政信息的级联关系是否满足预设的行政从属关系之前,判断多个所述行政信息中是否存在重复的行政信息;若是,则删除重复的行政信息,并重复执行判断所述行政信息的数量是否大于或等于预设数量阈值的步骤;否则,判断所述行政信息的级联关系是否满足所述行政从属关系。

在本发明一个可选的实施例中,所述检验模块703还用于,在所述待检验地址中包括多个相同的行政地址关键词的情况下,针对所述多个相同的行政地址关键词分别对应的目标行政信息:根据所述待检验地址中与所述多个相同的行政地址关键词行政级别相邻的其他关键词,确定所述目标行政信息的级联关系;分别确定每一个所述目标行政信息的级联关系是否满足所述行政从属关系。

在本发明一个可选的实施例中,预设数量阈值为4。

在本发明一个可选的实施例中,所述检验模块703还用于,以所述详细地址作为所述地址验证模型的输入,输出置信度;判断所述置信度是否满足概率阈值;若是,则确定所述详细地址文本的检验结果为真地址;否则,确定所述详细地址文本的检验结果为假地址。

在本发明一个可选的实施例中,所述地址验证模型为fasttext模型,所述fasttext模型中的损失函数为focalloss损失函数。

图8示出了可以应用本发明实施例的地址检验的方法或地址检验的装置的示例性系统架构800。

如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备801、802、803通过网络804与服务器805交互,以发送任务执行请求或接收请求的响应信息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如在线服务应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所发送的地址检验请求提供支持的后台管理服务器。后台管理服务器可以对接收到的待检验地址等数据进行检验分析等处理,并将处理结果(例如待检验地址的检验结果)反馈给终端设备。

需要说明的是,本发明实施例第一方面所提供的地址检验的方法一般由服务器805执行,相应地,本发明实施例第二方面所提供的地址检验的装置一般设置于服务器805中。

应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

下面参考图9,其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 701、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分905;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本发明的系统中限定的上述功能。

需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括获取模块、识别模块和检验模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“用于获取待检验地址的模块”。

作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:

获取待检验地址;从所述待检验地址中确定出一个或多个行政地址关键词、所述一个或多个行政地址关键词分别对应的行政信息、以及详细地址文本;分别确定各个所述行政信息的级联关系;根据地址验证模型确定所述详细地址文本的检验结果;根据所述级联关系和/或所述详细地址文本的检验结果,确定所述待检验地址的检验结果。

本发明实施例的地址检验的方法和装置,从待验证的地址文本中拆分出详细地址文本和行政信息,并判断行政信息的级联关系和详细地址文本的检验结果,根据二者共同的检验结果确定待检验地址的检验结果。由此,将复杂长地址转变为简单的详细地址以作为模型输入,减轻了模型运算的负担,从而保证了处理速度。并且通过级联关系的判断,保证了验证结果的准确性。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

相关技术
  • 一种IP地址管理方法及IP地址管理装置
  • 一种重复地址检测方法及装置、计算机可读存储介质
  • 一种空调外机地址配置装置及其控制方法
  • 一种地图地址匹配方法、装置、终端设备及存储介质
  • 一种MAC地址学习方法及装置
  • 地址检验方法、装置、电子设备及存储介质
  • 地址检验方法、装置、电子设备及存储介质
技术分类

06120116483939