掌桥专利:专业的专利平台
掌桥专利
首页

地址识别方法、装置、计算机设备及存储介质

文献发布时间:2024-04-18 20:01:30


地址识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及地址识别技术领域,具体涉及一种地址识别方法、装置、计算机设备及存储介质。

背景技术

随着电子商务的发展,物流行业发展迅猛,用户地址是物流行业能够及时完成业务的重要信息。为了保证执行业务时的安全性,需要对用户地址进行识别,以判断地址文本的真实性。现有技术通常是通过人工对海量地址文本进行识别,此种方式存在人工成本高,识别效率及识别准确率低的问题。

发明内容

本申请实施例提供一种地址识别方法、装置、计算机设备及存储介质,可以自动对海量地址文本进行识别,减少人工成本,提高海量地址的识别效率及识别准确率。

一方面,本申请提供一种地址识别方法,所述地址识别方法包括:

获取待识别地址文本;

对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;

基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;

当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;

基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。

在本申请一些实施方案中,所述基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域,包括:

获取预设的网点区域所覆盖的地址;

将所述分词文本与所述网点区域所覆盖的地址进行匹配,得到第一匹配结果;

当所述第一匹配结果为匹配时,确定所述待识别地址文本归属于预设的网点区域。

在本申请一些实施方案中,所述基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,包括:

判断所述多个第一地址分词中是否包含指示方向词;

当所述多个第一地址分词中包含指示方向词时,基于所述指示方向词的类型及所述指示方向词与所述多个第一地址分词的位置关系对所述多个第一地址分词进行筛选,得到多个第三地址分词;

基于预设的词性范围从所述多个第三地址分词中筛选出多个第二地址分词。

在本申请一些实施方案中,所述指示方向词包括前向方向词和后向方向词,所述位置关系包括所述第一地址分词位于所述指示方向词之前和所述第一地址分词位于所述指示方向词之后。

在本申请一些实施方案中,所述识别结果包括可信地址和可疑地址,所述基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果,包括:

将所述多个第二地址分词与预设的地址数据库中的地址数据进行匹配,得到第二匹配结果;

根据所述第二匹配结果,确定所述待识别地址文本是否具有唯一性;

当所述待识别地址文本具有唯一性时,基于所述分词文本确定所述待识别地址文本是否符合预设书写规则;

当所述待识别地址文本符合预设书写规则时,确定所述待识别地址为可信地址。

在本申请一些实施方案中,所述基于所述分词文本确定所述待识别地址文本是否符合预设书写规则,包括:

将所述分词文本与预设的非正常地址的正则表达规则进行匹配,得到第三匹配结果;

当所述第三匹配结果为不匹配时,确定所述待识别地址文本符合预设书写规则。

在本申请一些实施方案中,所述对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,包括:

对所述待识别地址文本进行处理,得到所述待识别地址文本对应的目标字向量序列;

将所述目标字向量序列输入已训练的地址分词模型,通过所述地址分词模型输出所述待识别地址文本对应的目标标签序列;

根据所述目标标签序列,确定所述待识别地址文本对应的分词文本。

另一方面,本申请提供一种地址识别装置,所述地址识别装置包括:

地址获取单元,用于获取待识别地址文本;

地址分词单元,用于对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;

第一确定单元,用于基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;

第二确定单元,用于当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;

地址识别单元,用于基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。

在本申请一些实施方案中,所述地址分词单元具体用于:

对所述待识别地址文本进行处理,得到所述待识别地址文本对应的目标字向量序列;

将所述目标字向量序列输入已训练的地址分词模型,通过所述地址分词模型输出所述待识别地址文本对应的目标标签序列;

根据所述目标标签序列,确定所述待识别地址文本对应的分词文本。

在本申请一些实施方案中,所述第一确定单元具体用于:

获取预设的网点区域所覆盖的地址;

将所述分词文本与所述网点区域所覆盖的地址进行匹配,得到第一匹配结果;

当所述第一匹配结果为匹配时,确定所述待识别地址文本归属于预设的网点区域。

在本申请一些实施方案中,所述第二确定单元具体用于:

判断所述多个第一地址分词中是否包含指示方向词;

当所述多个第一地址分词中包含指示方向词时,基于所述指示方向词的类型及所述指示方向词与所述多个第一地址分词的位置关系对所述多个第一地址分词进行筛选,得到多个第三地址分词;

基于预设的词性范围从所述多个第三地址分词中筛选出多个第二地址分词。

在本申请一些实施例中,所述识别结果包括可信地址和可疑地址,所述地址识别单元具体用于:

将所述多个第二地址分词与预设的地址数据库中的地址数据进行匹配,得到第二匹配结果;

根据所述第二匹配结果,确定所述待识别地址文本是否具有唯一性;

当所述待识别地址文本具有唯一性时,基于所述分词文本确定所述待识别地址文本是否符合预设书写规则;

当所述待识别地址文本符合预设书写规则时,确定所述待识别地址为可信地址。

在本申请一些实施例中,所述地址识别单元具体还用于:

将所述分词文本与预设的非正常地址的正则表达规则进行匹配,得到第三匹配结果;

当所述第三匹配结果为不匹配时,确定所述待识别地址文本符合预设书写规则。

另一方面,本申请还提供一种计算机设备,所述计算机设备包括:

一个或多个处理器;

存储器;以及

一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现第一方面中任一项所述的地址识别方法。

第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行第一方面任一项所述的地址识别方法中的步骤。

本申请基于分词文本及多个第二地址分词对待识别地址文本进行识别,可以自动对待识别地址文本进行识别,相比于现有的人工识别,减少了人工成本,提高了地址文本的识别效率及识别准确率,在识别时首先基于分词文本确定待识别地址文本是否归属于预设的网点区域,可以自动过滤不归属于预设的网点区域的地址文本,进一步提高地址文本的识别效率,由于多个第二地址文本为从多个第一地址分词中挖掘出对待识别地址文本具有更好的表征意义的地址分词,基于第二地址分词对地址文本进行识别,能够同时提高地址文本的识别效率及识别准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的地址识别系统的场景示意图;

图2是本申请实施例中提供的地址识别方法的一个实施例流程示意图;

图3是本申请实施例中提供的地址识别方法的具体实施例流程示意图;

图4是本申请实施例中提供的地址识别装置的一个实施例结构示意图;

图5是本申请实施例中提供的计算机设备的一个实施例结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。

需要说明的是,本申请实施例方法由于是在计算机设备中执行,各计算机设备的处理对象均以数据或信息的形式存在,例如时间,实质为时间信息,可以理解的是,后续实施例中若提及尺寸、数量、位置等,均为对应的数据存在,以便计算机设备进行处理,具体此处不作赘述。

本申请实施例提供一种地址识别方法、装置、计算机设备及存储介质,以下分别进行详细说明。

请参阅图1,图1为本申请实施例所提供的地址识别系统的场景示意图,该地址识别系统可以包括计算机设备100,计算机设备100中集成有地址识别装置,如图1中的计算机设备。

本申请实施例中计算机设备100主要用于获取待识别地址文本;对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果,计算机设备100可以自动对海量地址文本进行识别,减少人工成本,提高地址文本的识别效率及识别准确率。

本申请实施例中,该计算机设备100可以是独立的服务器,也可以是服务器组成的服务器网络或服务器集群,例如,本申请实施例中所描述的计算机设备100,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云服务器。其中,云服务器由基于云计算(Cloud Computing)的大量计算机或网络服务器构成。

可以理解的是,本申请实施例中所使用的计算机设备100可以是既包括接收和发射硬件的设备,即具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备。具体的计算机设备100具体可以是台式终端或移动终端,计算机设备100具体还可以是手机、平板电脑、笔记本电脑等中的一种。

本领域技术人员可以理解,图1中示出的应用环境,仅仅是与本申请方案一种应用场景,并不构成对本申请方案应用场景的限定,其他的应用环境还可以包括比图1中所示更多或更少的计算机设备,例如图1中仅示出1个计算机设备,可以理解的,该地址识别系统还可以包括一个或多个其他服务,具体此处不作限定。

另外,如图1所示,该地址识别系统还可以包括存储器200,用于存储数据,如多个第一地址分词,例如广东省、深圳市、南山区等,如多个第一地址分词对应的地址词性,例如广东省对应地址词性“1”、深圳市对应地址词性“2”、南山区对应地址词性“3”等。

需要说明的是,图1所示的地址识别系统的场景示意图仅仅是一个示例,本申请实施例描述的地址识别系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着地址识别系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

首先,本申请实施例中提供一种地址识别方法,该地址识别方法的执行主体为地址识别装置,该地址识别装置应用于计算机设备,该地址识别方法包括:获取待识别地址文本;对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。

如图2所示,为本申请实施例中地址识别方法的一个实施例流程示意图,该地址识别方法可以包括如下步骤301~305,具体如下:

301、获取待识别地址文本。

待识别地址文本为需要识别真实性的地址文本,该待识别地址文本为由地址信息得到的文本,地址信息可以包括省、市、区、乡镇街道、村、道路、门牌号、兴趣点(PointofInterest,简称POI)、楼栋、房间号、快递站点、快递柜名称等信息。其中,待识别地址文本的获取方式,包括但不限于用户直接输入的地址文本、对用户下单地址数据进行分析得到的文本、将通过语音采集的地址信息进行文本转换后得到的文本等。待识别地址文本可以为真实的地址文本,也可以为虚假的地址文本,本实施例进行地址识别时,首先获取待识别地址文本,以便后续步骤中对待识别地址文本的真实性进行识别。

302、对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性。

对待识别地址文本进行分词是指对待识别地址文本按照预配置的地址层级进行分词,本实施例针对待识别地址文本预配置有省、市、区、街道、道路、道路编号、园区、楼栋、单元、房号等18个地址层级,由此,基于该预配置的地址层级,能够实现对待识别地址文本的18级分词。分词文本为对待识别地址进行分词,得到的分词文本,分词文本包括多个第一地址分词及多个第一地址分词对应的多个地址词性,多个地址词性可以为多个第一地址分词分别对应的地址层级。例如,“省”对应的地址层级为“1”,“市”对应的地址层级为“2”,“区”对应的地址层级为“3”,则对“广东省深圳市南山区”进行分词,得到的分词文本为“广东省^1|深圳市^2|南山区^3”,其中,多个第一地址分词分别为广东省|深圳市|南山区,多个地址词性分别为1、2、3。

考虑到待识别地址文本中存在丰富信息,本实施例获取待识别地址文本后,按照预配置的地址层级对待识别地址文本进行18级分词,从待识别地址文本中挖掘出隐含的、先前未知的并有潜在价值的信息,得到对待识别地址文本具有更好的表征意义的分词文本,基于分词文本对待识别地址文本进行识别,可以提高待识别地址文本的识别准确率。

在一具体实施方式中,如图3所示,步骤302中所述对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,可以包括如下步骤401~403,具体如下:

401、对所述待识别地址文本进行处理,得到所述待识别地址文本对应的目标字向量序列;

402、将所述目标字向量序列输入已训练的地址分词模型,通过所述地址分词模型输出所述待识别地址文本对应的目标标签序列;

403、根据所述目标标签序列,确定所述待识别地址文本对应的分词文本。

目标字向量序列为待识别地址文本中的多个字向量组成的向量序列,目标标签序列为待识别地址文本中的各个字与每个字对应的标签组成的序列,这里每个字对应的标签是指每个字所属的地址分词的地址层级,当多个字属于同一个地址分词时,该多个字对应的标签相同,例如,“广”、“东”、“省”这三个字均属于“广东省”这一地址分词,则这三个字对应的标签均为“1”,本实施例中通过将每个字对应的标签设置为每个字所属的地址分词的地址层级,可以基于每个字对应的标签将属于同一个地址分词的多个字合并到一起。地址分词模型能够根据目标字向量序列预测得到相应的目标标签序列,地址分词模型基于预先获取的训练样本集对预设网络模型进行训练得到,预设网络模型可以采用深度学习模型或机器学习模型,例如,卷积神经网络(Convolutional Neural Networks,CNN)、反卷积神经网络(De-Convolutional Networks,DN)等。

在一个实施例中,预先获取的训练样本集包括样本地址文本对应的样本字向量序列与样本标签序列。相应地,地址分词模型的训练过程包括:将样本地址文本对应的样本字向量序列输入预设网络模型,通过预设网络模型输出样本地址文本对应的预测标签序列,根据预测标签序列、样本标签序列及预设网络模型的损失函数确定损失值,当损失值不满足预设条件时,根据预设的参数学习率对预设网络模型的模型参数进行修正,并继续执行将样本地址文本对应的样本字向量序列输入预设网络模型,通过预设网络模型输出样本地址文本对应的预测标签序列的步骤,直至损失值满足预设条件。其中,损失值满足预设条件可以为损失值小于预设第一阈值,或者前后两次得到的损失值的差值小于预设第二阈值。

本实施例对待识别地址文本进行分词时,首先对待识别地址文本逐字生成每个字对应的字向量,然后将待识别地址文本中的各个字对应的字向量,按照相应字在待识别地址文本中的排序进行排序组合,得到待识别地址文本对应的目标字向量序列,接着将目标字向量序列输入已训练的地址分词模型,通过地址分词模型根据该目标字向量序列对待识别地址文本进行序列标注,得到待识别地址文本对应的目标标签序列,最后将目标标签序列中具有相同标签的字合并为第一地址分词,并将对应的标签作为该第一地址分词对应的地址词性。例如,“深”、“圳”和“市”的标签均为“2”,将“深”、“圳”和“市”合并为第一地址分词“深圳市”,并将“2”作为“深圳市”这个第一地址分词的地址词性。

303、基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域。

网络区域为预先设置的服务所能覆盖的区域范围,例如,针对物流行业来说,预设的网点区域为物流服务所能覆盖的区域范围。考虑到待识别地址文本不归属于预设的网点区域,即待识别地址文本不属于服务所能覆盖的区域范围时,该待识别地址文本可能为虚假地址,本实施例得到待识别地址文本对应的分词文本后,基于分词文本,确定待识别地址文本是否归属于预设的网点区域。

在一具体实施方式中,继续参照图3所示,步骤303中所述基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域,可以包括如下步骤404~406,具体如下:

404、获取预设的网点区域所覆盖的地址;

405、将所述分词文本与所述网点区域所覆盖的地址进行匹配,得到第一匹配结果;

406、当所述第一匹配结果为匹配时,确定所述待识别地址文本归属于预设的网点区域。

预设的网点区域所覆盖的地址为预设的网点区域内所包含的地址,本实施例确定待识别地址文本是否归属于预设的网点区域时,首先获取预设的网点区域所覆盖的地址,然后将分词文本与网点区域所覆盖的地址进行匹配,得到第一匹配结果。其中,第一匹配结果包括匹配和不匹配,匹配是指分词文本与网点区域所覆盖的地址相匹配,不匹配是指分词文本与网点区域所覆盖的地址不匹配。当第一匹配结果为匹配,即分词文本与网点区域所覆盖的地址相匹配时,确定待识别地址文本归属于预设的网点区域;否则,当第一匹配结果为不匹配,即当分词文本与网点区域所覆盖的地址不匹配时,确定待识别地址文本不归属于预设的网点区域。

304、当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词。

词性范围为预先设置的需要筛选出的第一地址分词的地址词性范围,例如,对于分词文本“A省^1|B市^2|C区^3|E街道^9|软件产业基地^13”,需要筛选出第一地址分词E街道和软件产业基地,则预设的词性范围为9和13。多个第二地址分词为多个第一地址分词中地址词性属于词性范围的且对待识别地址文本具有更好的表征意义的地址分词,多个第二地址分词可以是多个第一地址分词中的乡镇、兴趣点(Point of Interest,简称POI)、道路门牌号等地址分词。其中,POI是地理信息系统中的一个术语,泛指一切可以抽象为点的地理对象,是地理信息系统中的某个地标、景点,用以标示出该地所代表的政府部门、各行各业的商业机构(加油站、百货公司、超市、餐厅、酒店、便利店、医院等)、旅游景点(公园、公共厕所)、古迹名胜、交通设施(各式车站、停车场、超速照相机、限速标示)等处所。兴趣点的主要用途是对事物或事件的地址进行描述,能在很大程度上增强对事物或事件位置的描述能力和查询能力,提高地理定位的精度和速度。

本实施例基于分词文本确定待识别地址文本归属于预设的网点区域后,进一步基于预设的词性范围从多个第一地址分词中筛选出多个第二地址分词,基于预设的词性范围对多个第一地址文本进行筛选可以从多个第一地址分词中挖掘出对待识别地址文本具有更好的表征意义的地址分词,从而提高待识别地址文本的识别准确率。

在一具体实施方式中,继续参照图3所示,步骤304中所述基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,可以包括如下步骤407~409,具体如下:

407、判断所述多个第一地址分词中是否包含指示方向词;

408、当所述多个第一地址分词中包含指示方向词时,基于所述指示方向词的类型及所述指示方向词与所述多个第一地址分词的位置关系对所述多个第一地址分词进行筛选,得到多个第三地址分词;

409、基于预设的词性范围从所述多个第三地址分词中筛选出多个第二地址分词。

指示方向词为用于指示方向的词,指示方向词包括前向方向词和后向方向词这两类,前向方向词包括上面、东、南、西、北等,前向方向词之后的地址分词所表示的地址不包含于前向方向词之前的地址分词所表示的地址,因此前向方向词之后的地址分词相对前向方向词之前的地址分词更重要,更能体现待识别地址文本的表征意义。后向方向词包括里面、内等,后向方向词之后的地址分词所表示的地址包含于后向方向词之前的地址分词所表示的地址,因此后向方向词之前的地址分词相对后向方向词之后的地址分词更重要,更能体现待识别地址文本的表征意义。

位置关系包括第一地址分词位于指示方向词之前和第一地址分词位于指示方向词之后,例如,第一地址分词“A省^1|B市^2|C区^3|E街道^9|软件产业基地^13|内^15|D超市^16”,“A省”、“B市”、“C区”、“E街道”、“软件产业基地”位于指示方向词之前,“D超市”位于指示方向词之后。

多个第三地址分词为基于指示方向词和位置关系从多个第一地址分词中筛选出的更能体现待识别地址文本的表征意义的地址分词,具体地,当指示方向词为前向方向词时,多个第三地址分词为多个第一地址分词中位于指示方向词之后的地址分词,当指示方向词为后向方向词时,多个第三地址分词为多个第一地址分词中位于指示方向词之前的地址分词。例如,多个第一地址分词为“A省|B市|C区|E街道|软件产业基地|内|超市”,则多个第三地址分词为“A省|B市|C区|E街道|软件产业基地”。多个第二地址分词包含于多个第三地址分词中,多个第二地址分词为多个第三地址分词中地址词性属于词性范围的地址分词。例如,多个第三地址分词为“A省|B市|C区|E街道|软件产业基地”,多个第二地址分词为“E街道|软件产业基地”

在一具体实现方式中,基于预设的词性范围从多个第一地址分词中筛选出多个第二地址分词时,首先判断多个第一地址分词中是否包含指示方向词,当分词文本中包含指示方向词时,基于指示方向词的类型及指示方向词与多个第一地址分词的位置关系对多个第一地址分词进行筛选,得到多个第三地址分词,再基于预设的词性范围从多个第三地址分词中筛选出多个第二地址分词,本实施例先基于指示方向词的类型和位置关系对多个第一地址分词进行粗筛选,再基于粗筛选得到的多个第三地址分词确定多个第二地址分词,可以提高多个第一地址分词的筛选速率,进而提高待识别地址文本的识别速率。例如,第一地址分词为“A省^1|B市^2|C区^3|E街道^9|软件产业基地^13|内^15|D超市^16”,基于指示方向词“内”得到多个第三地址分词“A省|B市|C区|E街道|软件产业基地”,再基于预设的词性范围9和13得到多个第二地址分词“E街道|软件产业基地”。

由于指示方向词包括前向方向词和后向方向词,因此,在基于指示方向词的类型及指示方向词与多个第一地址分词的位置关系对多个第一地址分词进行筛选时也存在不同的情况。具体地,当指示方向词为前向方向词时,从多个第一地址分词中筛选出位于指示方向词之后的地址分词,并将筛选出的位于指示方向词之后的地址分词作为多个第三地址分词;当指示方向词为后向方向词时,从多个第一地址分词中筛选出位于指示方向词之前的地址分词,并将筛选出的位于指示方向词之前的地址分词作为多个第三地址分词。

305、基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。

识别结果用于表征待识别地址文本的真实性,包括结果为:可信地址和可疑地址,例如,识别结果为可信地址时,表明待识别地址文本为真实地址,当识别结果为可疑地址时,表明待识别地址文本为虚假地址。本实施例确定待识别地址文本对应的多个第二地址分词后,基于对待识别地址文本具有更好的表征意义的多个第二分词地址及18级分词得到的分词文本,确定待识别地址文本的识别结果,可以自动对待识别地址文本进行识别,减少了人工成本,提高了地址文本的识别效率及识别准确率。

在一具体实施方式中,继续参照图3所示,步骤305中所述基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果,可以包括如下步骤410~413,具体如下:

410、将所述多个第二地址分词与预设的地址数据库中的地址数据进行匹配,得到第二匹配结果;

411、根据所述第二匹配结果,确定所述待识别地址文本是否具有唯一性;

412、当所述待识别地址文本具有唯一性时,基于所述分词文本确定所述待识别地址文本是否符合预设书写规则;

413、当所述待识别地址文本符合预设书写规则时,确定所述待识别地址为可信地址。

预设的地址数据库为预先设置的用于存储地址数据的数据库,唯一性是指根据待识别地址文本能够确定唯一地址,例如,待识别地址文本为“A省B市肯德基”,由于A省B市有很多家肯德基,则“A省B市肯德基”这一待识别地址文本不具有唯一性,若待识别地址文本为“A省B市C区E街道软件产业基地肯德基”,由于A省B市C区E街道软件产业基地只有一家肯德基,则“A省B市C区E街道软件产业基地肯德基”这一待识别地址文本具有唯一性。

在一具体实现方式中,基于多个第二地址分词及分词文本,确定待识别地址的识别结果时,首先将多个第二地址分词与预设的地址数据集中的地址数据进行匹配,当预设的地址数据集中存在与多个第二地址分词匹配的一个地址数据时,表明待识别地址文本具有唯一性,则进一步基于分词文本确定待识别地址文本是否符合预设书写规则,当待识别地址文本具有唯一性且待识别地址文本符合预设书写规则,才确定待识别地址为可信地址;反之,当预设的地址数据集中不存在与多个第二地址分词匹配的一个地址数据,即预设的地址数据集中不存在与多个第二地址分词匹配的地址数据,或预设的地址数据集中存在与多个第二地址分词匹配的多个地址数据时,表明待识别地址文本不具有唯一性时,则确定待识别地址为可疑地址;或者,当待识别地址文本具有唯一性,但待识别地址文本不符合预设书写规则时,则确定待识别地址为可疑地址。本实施例第二地址分词为第一地址分词中去除干扰成分后的地址分词,第二地址分词更能体现待识别地址文本的表征意义的分词,基于第二地址分词确定待识别地址文本的唯一性能够提高地址识别效率和准确性,但第二地址分词只是第一地址分词中的一小部分分词,判断一小部分分词符合预设书写规则,并不能确定整个待识别文本均符合预设的书写规则,所以还需要利用分词文本来确定待识别地址文本是否符合预设书写规则。

在一具体实施方式中,步骤412中所述基于所述分词文本确定所述待识别地址文本是否符合预设书写规则,可以包括如下步骤501~502,具体如下:

501、将所述分词文本与预设的非正常地址的正则表达规则进行匹配,得到第三匹配结果;

502、当所述第三匹配结果为不匹配时,确定所述待识别地址文本符合预设书写规则。

正则表达规则即正则表达式规则,是计算机科学的一个概念,正则表达规则使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。非正常地址的正则表达规则,即非正常地址的正则表达式规则,其通过对地址楼栋房间等地址层级的书写规则进行总结得到,用于判断待识别地址文本是否符合预设书写规则。第三匹配结果为分词文本与非正常地址的正则表达规则的匹配结果,第三匹配结果包括匹配和不匹配,匹配是指分词文本与非正常地址的正则表达规则相匹配,不匹配是指分词文本与非正常地址的正则表达规则不匹配。

本实施例基于分词文本确定待识别地址文本是否符合预设书写规则时,具体是将分词文本与预设的非正常地址的正则表达规则进行匹配,得到第三匹配结果,当第三匹配结果为不匹配,即分词文本与非正常地址的正则表达规则不匹配时,表明待识别地址文本符合预设书写规则;反之,当第三匹配结果为匹配,即分词文本与非正常地址的正则表达规则相匹配时,表明待识别地址文本不符合预设书写规则。

为了更好实现本申请实施例中地址识别方法,在地址识别方法基础之上,本申请实施例中还提供一种地址识别装置,如图4所示,所述地址识别装置600包括:

地址获取单元601,用于获取待识别地址文本;

地址分词单元602,用于对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;

第一确定单元603,用于基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;

第二确定单元604,用于当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;

地址识别单元605,用于基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。

本申请实施例中,基于分词文本及多个第二地址分词对待识别地址文本进行识别,可以自动对待识别地址文本进行识别,相比于现有的人工识别,减少了人工成本,提高了地址文本的识别效率及识别准确率,在识别时首先基于分词文本确定待识别地址文本是否归属于预设的网点区域,可以自动过滤不归属于预设的网点区域的地址文本,进一步提高地址文本的识别效率,由于多个第二地址文本为从多个第一地址分词中挖掘出对待识别地址文本具有更好的表征意义的地址分词,基于第二地址分词对地址文本进行识别,能够同时提高地址文本的识别效率及识别准确率。

在本申请一些实施例中,所述地址分词单元602具体用于:

对所述待识别地址文本进行处理,得到所述待识别地址文本对应的目标字向量序列;

将所述目标字向量序列输入已训练的地址分词模型,通过所述地址分词模型输出所述待识别地址文本对应的目标标签序列;

根据所述目标标签序列,确定所述待识别地址文本对应的分词文本。

在本申请一些实施例中,所述第一确定单元603具体用于:

获取预设的网点区域所覆盖的地址;

将所述分词文本与所述网点区域所覆盖的地址进行匹配,得到第一匹配结果;

当所述第一匹配结果为匹配时,确定所述待识别地址文本归属于预设的网点区域。

在本申请一些实施例中,所述第二确定单元604具体用于:

判断所述多个第一地址分词中是否包含指示方向词;

当所述多个第一地址分词中包含指示方向词时,基于所述指示方向词的类型及所述指示方向词与所述多个第一地址分词的位置关系对所述多个第一地址分词进行筛选,得到多个第三地址分词;

基于预设的词性范围从所述多个第三地址分词中筛选出多个第二地址分词。

在本申请一些实施例中,所述识别结果包括可信地址和可疑地址,所述地址识别单元605具体用于:

将所述多个第二地址分词与预设的地址数据库中的地址数据进行匹配,得到第二匹配结果;

根据所述第二匹配结果,确定所述待识别地址文本是否具有唯一性;

当所述待识别地址文本具有唯一性时,基于所述分词文本确定所述待识别地址文本是否符合预设书写规则;

当所述待识别地址文本符合预设书写规则时,确定所述待识别地址为可信地址。

在本申请一些实施例中,所述地址识别单元605具体还用于:

将所述分词文本与预设的非正常地址的正则表达规则进行匹配,得到第三匹配结果;

当所述第三匹配结果为不匹配时,确定所述待识别地址文本符合预设书写规则。

本申请实施例还提供一种计算机设备,其集成了本申请实施例所提供的任一种地址识别装置,所述计算机设备包括:

一个或多个处理器;

存储器;以及

一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行上述地址识别方法实施例中任一实施例中所述的地址识别方法中的步骤。

本申请实施例还提供一种计算机设备,其集成了本申请实施例所提供的任一种地址识别装置。如图5所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:

该计算机设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:

处理器701是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器702内的软件程序和/或模块,以及调用存储在存储器702内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器701可包括一个或多个处理核心;优选的,处理器701可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块,处理器701通过运行存储在存储器702的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器702还可以包括存储器控制器,以提供处理器701对存储器702的访问。

计算机设备还包括给各个部件供电的电源703,优选的,电源703可以通过电源管理系统与处理器701逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元704,该输入单元704可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器701会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中,并由处理器701来运行存储在存储器702中的应用程序,从而实现各种功能,如下:

获取待识别地址文本;

对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;

基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;

当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;

基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。

本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。

为此,本申请实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种地址识别方法中的步骤。例如,所述计算机程序被处理器进行加载可以执行如下步骤:

获取待识别地址文本;

对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;

基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;

当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;

基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对其他实施例的详细描述,此处不再赘述。

具体实施时,以上各个单元或结构可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元或结构的具体实施可参见前面的方法实施例,在此不再赘述。

以上各个操作的具体实施可参见前面的实施例,在此不再赘述。

以上对本申请实施例所提供的一种地址识别方法、装置、计算机设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 一种电疗肩托及其应用
  • 一种应用于轧辊托肩的防锈蚀装置
技术分类

06120116556208