掌桥专利:专业的专利平台
掌桥专利
首页

地址识别方法、装置和存储介质

文献发布时间:2023-06-19 09:57:26


地址识别方法、装置和存储介质

技术领域

本发明涉及数据处理领域,特别涉及一种地址识别方法、装置和存储介质。

背景技术

通过输入单个或批量地址,可以在标准地址库中匹配出最接近的标准地址。在相关技术中,根据用户输入的地址文本串在标注地址库中进行扫描和匹配,以获得相应的标准地址。

发明内容

发明人经过分析后发现,一般标准地址库数据规模在千万或亿级以上。在标准地址库中进行扫描匹配时,会带来巨大的时间成本,并且匹配准确率也不高。从而,相关技术所提供的方式的识别效率较低。

本发明实施例所要解决的一个技术问题是:如何提高地址识别效率。

根据本发明一些实施例的第一个方面,提供一种地址识别方法,包括:识别输入的地址中的第一级区域信息和第二级区域信息,其中,第一级区域信息为市级以下的区域;在预先建立的地址信息映射表中查找同时与第一级区域信息和第二级区域信息匹配的条目,其中,地址信息映射表包括第一级区域、第二级区域和相应的地址子集表之间的对应关系;在匹配的条目对应的地址子集表中识别与输入的地址匹配的标准地址信息,其中,匹配的条目对应的地址子集表包括具有第一级区域信息和第二级区域信息的标准地址信息。

在一些实施例中,识别输入的多个地址中的第一级区域信息和第二级区域信息;在输入的地址的数量大于预设数量的情况下,地址识别方法还包括:创建与匹配的条目对应的地址子集表的数量相等数量的线程,以便通过每个线程在相应的地址子集表中识别与相应的输入的地址匹配的标准地址信息。

在一些实施例中,识别进行标准化处理后的、输入的地址中的第一级区域信息和第二级区域信息。

在一些实施例中,地址识别方法还包括:获取标准地址数据库,其中包括多个标准地址信息,每个标准地址信息中包括第一级区域信息和第二级区域信息;从标准地址数据库中提取第一级区域信息和第二级区域信息,并构建地址信息映射表;从标准地址数据库中提取具有相同的第一级区域信息和第二级区域信息的标准地址,并构建相应的地址子集表;根据相同的第一级区域信息和第二级区域信息,建立地址信息映射表中的条目与相应的地址子集表之间的对应关系、并将对应关系添加到地址信息映射表的相应条目中。

在一些实施例中,第一级区域为区或县,第二级区域为楼盘或小区。

在一些实施例中,标准地址信息包括地址以及地址对应的用户的用户信息。

根据本发明一些实施例的第二个方面,提供一种地址识别装置,包括:区域信息识别模块,被配置为识别输入的地址中的第一级区域信息和第二级区域信息,其中,第一级区域信息为市级以下的区域;区域信息匹配模块,被配置为在预先建立的地址信息映射表中查找同时与第一级区域信息和第二级区域信息匹配的条目,其中,地址信息映射表包括第一级区域、第二级区域和相应的地址子集表之间的对应关系;地址识别模块,被配置为在匹配的条目对应的地址子集表中识别与输入的地址匹配的标准地址信息,其中,匹配的条目对应的地址子集表包括具有第一级区域信息和第二级区域信息的标准地址信息。

在一些实施例中,区域信息识别模块进一步被配置为识别输入的多个地址中的第一级区域信息和第二级区域信息;地址识别装置还包括:线程创建模块,被配置为创建与匹配的条目对应的地址子集表的数量相等数量的线程,以便通过每个线程在相应的地址子集表中识别与相应的输入的地址匹配的标准地址信息。

根据本发明一些实施例的第三个方面,提供一种地址识别装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器中的指令,执行前述任意一种地址识别方法。

根据本发明一些实施例的第四个方面,提供一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现前述任意一种地址识别方法。

上述发明中的一些实施例具有如下优点或有益效果:本发明的实施例通过地址信息映射表确定待查找的标准地址所在的地址子集表,并在地址子集表中查找标准地址。从而无需在整个标准地址库中查找地址,并且从市级以下的区域开始查找,提高了地址识别效率,节约了计算资源。

通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为根据本发明一些实施例的地址识别方法的流程示意图。

图2为根据本发明一些实施例的批量地址查找方法的流程示意图。

图3为根据本发明一些实施例的预处理方法的流程示意图。

图4为根据本发明一些实施例的地址识别装置的结构示意图。

图5为根据本发明另一些实施例的地址识别装置的结构示意图。

图6为根据本发明又一些实施例的地址识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

图1为根据本发明一些实施例的地址识别方法的流程示意图。如图1所示,该实施例的地址识别方法包括步骤S102~S106。

在步骤S102中,识别输入的地址中的第一级区域信息和第二级区域信息,其中,第一级区域信息为市级以下的区域。

在一些实施例中,第一级区域为区或县,第二级区域为楼盘或小区。

在一些实施例中,可以识别进行标准化处理后的、输入的地址中的第一级区域信息和第二级区域信息。例如,可以将输入的地址进行分词处理,然后将分词后的结果与预先建立的区域关键词词典进行匹配,以将输入的地址中的相应分词替换为匹配的词语,其中,区域关键词例如可以是第一级区域名称、第二级区域名称。除了区域关键词以外,关键词词典中还可以包括区域的别名等辅助信息,以便提高匹配过程中的识别率和准确率。

在步骤S104中,在预先建立的地址信息映射表中查找同时与第一级区域信息和第二级区域信息匹配的条目。地址信息映射表为数据库中的数据表,包括第一级区域、第二级区域和相应的地址子集表之间的对应关系。

地址信息映射表的一个示例可以如表1所示。表1示例性地示出了地址信息映射表的部分或全部字段。

表1

根据需要,表1中还可以包括第一级区域的辅助信息、第二级区域的辅助信息。例如,区域所属的更高层级的区域的信息、区域的别名等等。

地址信息映射表中可以不包括详细地址。在一些实施例中,地址信息映射表中的条目数量等于标准地址库中第一级区域信息和第二级区域信息组成的信息组合的数量。即,对于每一对第一级区域信息和第二级区域信息,在地址信息映射表中可以对应且仅对应一个条目。

在步骤S106中,在匹配的条目对应的地址子集表中识别与输入的地址匹配的标准地址信息,其中,匹配的条目对应的地址子集表包括具有第一级区域信息和第二级区域信息的标准地址信息。地址子集表为数据库中的数据表,可以是物理表或者分区表。

在一些实施例中,标准地址信息包括地址以及地址对应的用户的用户信息。

地址子集表的一个示例可以如表2所示,其中,表1示例性地示出了地址子集表的部分或全部字段。表2为南山区的楼盘A的地址子集表。在获得标准地址信息中的地址时,可以直接读取地址子集表的相应字段,例如读取表2中的字段“地址”;此外,还可以通过拼接地址子集表中的部分字段获得,例如通过拼接地址子集表对应的高于第一级区域信息的区域名称、第一级区域信息(例如区/县信息)、第二级区域信息、楼栋门牌号获得。例如,可以预设表2中存储的是广东省深圳市的地址,通过将“广东省深圳市”、“南山区”、“楼盘A”、“1号楼101”进行拼接,可以获得表2第一个条目的标准地址“广东省深圳市南山区楼盘A 1号楼101”。

表2

相关技术往往根据用户的输入的文本中的词语顺序进行查询,例如,用户输入“广东深圳南山XX小区1号楼205”,则往往从“广东”开始进行匹配,并且待匹配的对象为地址库中的所有地址。然而,发明人经过分析后发现,市级以上区域覆盖的地址数量巨大,从这些区域开始匹配会导致地址识别效率较低。而上述实施例直接根据输入的地址中的第一级区域和第二级区域开始识别,能够有效地缩小待查找的地址范围。在确定了地址子集表后,例如可以直接使用“1号楼205”来匹配该表中的条目。

通过上述实施例的方法,可以通过地址信息映射表确定待查找的标准地址所在的地址子集表,并在地址子集表中查找标准地址。从而无需在整个标准地址库中查找地址,并且从市级以下的区域开始查找,提高了地址识别效率,节约了计算资源。

本发明的实施例提供的地址识别方案可以应用于多种场景。例如,可以在用户通过终端应用填写地址时,将用户输入的地址替换为识别出的标准地址;又例如,还可以识别与输入的部分地址信息匹配的多个地址,并向这些地址所关联的用户的联系方式推送服务信息;再例如,可以输入获取的新地址、并识别出标准地址,将识别出的标准地址与业务数据库中的已登记地址进行匹配、以判断新地址所对应的用户是否为已登记的用户等等。

上述实施例可以用于单一地址的识别,也可以用于批量地址的识别。在批量识别的过程中,为了进一步提高识别效率,还可以采用多个线程实现。下面参考图2描述本发明批量地址识别的实施例。

图2为根据本发明一些实施例的批量地址识别方法的流程示意图。如图2所示,该实施例的批量地址识别方法包括步骤S202~S208。

在步骤S202中,识别输入的地址中的第一级区域信息和第二级区域信息。

在步骤S204中,在预先建立的地址信息映射表中查找同时与第一级区域信息和第二级区域信息匹配的条目。从而,输入的地址与地址子集表具有对应关系。

在步骤S206中,创建与匹配的条目对应的地址子集表的数量相等数量的线程。从而,地址子集表、线程、输入的地址之间具有对应关系。

在步骤S208中,通过每个线程在相应的地址子集表中识别与相应的输入的地址匹配的标准地址信息。

通过上述实施例的方法,可以在根据地址信息映射表确定了待查找的地址子集表后,并行地在各个地址子集表中识别标准地址信息。从而,在批量地址识别时,可以进一步地提高识别效率。

下面参考图3描述本发明预先构建地址信息映射表和地址子集表的预处理过程。

图3为根据本发明一些实施例的预处理方法的流程示意图。如图3所示,该实施例的预处理过程包括步骤S302~S308。

在步骤S302中,获取标准地址数据库,其中包括多个标准地址信息,每个标准地址信息中包括第一级区域信息和第二级区域信息。

标准地址信息中的地址可以是经过标准化处理的地址。

在步骤S304中,从标准地址数据库中提取第一级区域信息和第二级区域信息,并构建地址信息映射表。

在一些实施例中,可以通过执行预设的SQL语句来构建地址信息映射表,例如通过“select distinct“第一级区域”,“第二级区域”from“标准地址数据库表”where…”来实现。根据需要,还可以周期性地执行该语句,来对地址信息映射表进行更新。

在步骤S306中,从标准地址数据库中提取具有相同的第一级区域信息和第二级区域信息的标准地址,并构建相应的地址子集表。

在步骤S308中,根据相同的第一级区域信息和第二级区域信息,建立地址信息映射表中的条目与相应的地址子集表之间的对应关系、并将对应关系添加到地址信息映射表的相应条目中。

通过上述实施例的方法,可以预先对标准地址库中的地址进行降维处理,即,将标准地址库中的信息拆分为地址信息映射表和地址子集表以提升识别效率。

下面参考图4描述本发明地址识别装置的实施例。

图4为根据本发明一些实施例的地址识别装置的结构示意图。如图4所示,该实施例的地址识别装置40包括:区域信息识别模块410,被配置为识别输入的地址中的第一级区域信息和第二级区域信息,其中,第一级区域信息为市级以下的区域;区域信息匹配模块420,被配置为在预先建立的地址信息映射表中查找同时与第一级区域信息和第二级区域信息匹配的条目,其中,地址信息映射表包括第一级区域、第二级区域和相应的地址子集表之间的对应关系;地址识别模块430,被配置为在匹配的条目对应的地址子集表中识别与输入的地址匹配的标准地址信息,其中,匹配的条目对应的地址子集表包括具有第一级区域信息和第二级区域信息的标准地址信息。

在一些实施例中,区域信息识别模块410进一步被配置为识别输入的多个地址中的第一级区域信息和第二级区域信息;地址识别装置40还包括:线程创建模块440,被配置为创建与匹配的条目对应的地址子集表的数量相等数量的线程,以便通过每个线程在相应的地址子集表中识别与相应的输入的地址匹配的标准地址信息。

在一些实施例中,地址识别模块430进一步被配置为识别进行标准化处理后的、输入的地址中的第一级区域信息和第二级区域信息。

在一些实施例中,地址识别装置40还包括:数据表构建模块450,被配置为获取标准地址数据库,其中包括多个标准地址信息,每个标准地址信息中包括第一级区域信息和第二级区域信息;从标准地址数据库中提取第一级区域信息和第二级区域信息,并构建地址信息映射表;从标准地址数据库中提取具有相同的第一级区域信息和第二级区域信息的标准地址,并构建相应的地址子集表;根据相同的第一级区域信息和第二级区域信息,建立地址信息映射表中的条目与相应的地址子集表之间的对应关系、并将对应关系添加到地址信息映射表的相应条目中。

在一些实施例中,第一级区域为区或县,第二级区域为楼盘或小区。

在一些实施例中,标准地址信息包括地址以及地址对应的用户的用户信息。

图5为根据本发明另一些实施例的地址识别装置的结构示意图。如图5所示,该实施例的地址识别装置50包括:存储器510以及耦接至该存储器510的处理器520,处理器520被配置为基于存储在存储器510中的指令,执行前述任意一个实施例中的地址识别方法。

其中,存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图6为根据本发明又一些实施例的地址识别装置的结构示意图。如图6所示,该实施例的地址识别装置60包括:存储器610以及处理器620,还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630,640,650以及存储器610和处理器620之间例如可以通过总线660连接。其中,输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。

本发明的实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现前述任意一种地址识别方法。

本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 地址合规识别方法、装置、存储介质及电子装置
  • 代理IP地址识别方法、装置、电子设备及存储介质
技术分类

06120112367659