掌桥专利:专业的专利平台
掌桥专利
首页

地址数据处理方法、装置、电子设备及存储介质

文献发布时间:2024-01-17 01:27:33


地址数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种地址数据处理方法、装置、电子设备及存储介质。

背景技术

随着导航技术以及搜索引擎的发展,网络中产生了大量的地址数据,这些地址数据纷繁复杂、表述不一,这对地址数据管理以及应用造成了很大的困难。因此,对地址数据进行清洗有重要的现实意义。

现有技术在对地址数据清洗时,通过对地址数据执行关键字查询、近义词替换等过程,这样得到的清洗数据并不理想。例如,清洗后的地址数据仍然可能存在信息不完整的问题以及清洗后的数据准确性较低的问题,因此利用价值并不高。

发明内容

本申请提供一种地址数据处理方法、装置、电子设备及存储介质,致力于将地址数据转换为更为准确且完整的高价值数据。

为达到上述目的,本申请采用如下技术方案:

第一方面,提供一种地址数据处理方法,方法包括:获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果;语义模型用于识别地址导向词;在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词;确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。

可选的,预设行政区划词库包括多个预设行政区划词;分词结果包括第一子结果,第一子结果为基于预设行政区划词库对源地址数据进行分词处理得到的;基于预设行政区划词库对源地址数据进行分词处理,得到第一子结果,包括:对各预设行政区划词进行划分,得到各预设行政区划词的第一行政区划子词以及第二行政区划子词;第一行政区划子词的区划等级大于或者等于预设等级,第二行政区划子词的区划等级小于预设等级;以第一行政区划子词作为头节点、第二行政区划子词作为子节点,构建前缀搜索树;基于前缀搜索树,在源地址数据中进行识别,得到第一子结果。

可选的,在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,包括:在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第一地理信息数据库中进行第一检索,得到第一检索结果;基于分词结果在第一地理信息数据库中进行第二检索,得到第二检索结果;在第一检索结果包括至少一个第一兴趣点以及各第一兴趣点对应的匹配度,和/或第二检索结果包括至少一个第二兴趣点以及各第二兴趣点对应的匹配度的情况下,根据第一检索结果以及第二检索结果,得到多个兴趣点,并从多个兴趣点中选取匹配度最高的兴趣点作为目标兴趣点。

可选的,获取目标兴趣点对应的标准行政区划词,包括:获取目标兴趣点的位置信息,并根据逆地理服务检索得到目标兴趣点对应的标准行政区划词。

可选的,方法还包括:在第一检索结果以及第二检索结果均为空值的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库的数据量;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。

可选的,方法还包括:在分词结果中不存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。

第二方面,提供一种地址数据处理装置,装置包括获取单元、处理单元以及确定单元;获取单元,用于获取源地址数据;处理单元,用于基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果;语义模型用于识别地址导向词;确定单元,用于在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词;确定单元,还用于确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。

可选的,预设行政区划词库包括多个预设行政区划词;分词结果包括第一子结果,第一子结果为基于预设行政区划词库对源地址数据进行分词处理得到的;处理单元,具体用于:对各预设行政区划词进行划分,得到各预设行政区划词的最高行政区划子词以及非最高行政区划子词;以最高行政区划子词作为头节点、非最高行政区划子词作为子节点,构建前缀搜索树;基于前缀搜索树,在源地址数据中进行索引,得到第一子结果。

可选的,确定单元,具体用于:在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第一地理信息数据库中进行第一检索,得到第一检索结果,以及,基于分词结果在第一地理信息数据库中进行第二检索,得到第二检索结果;在第一检索结果包括至少一个第一兴趣点以及各第一兴趣点对应的匹配度,和/或第二检索结果包括至少一个第二兴趣点以及各第二兴趣点对应的匹配度的情况下,获取第一检索结果以及第二检索结果,得到多个兴趣点,并从多个兴趣点中选取匹配度最高的兴趣点作为目标兴趣点。

可选的,确定单元,具体用于:获取目标兴趣点的位置信息,并根据逆地理服务检索得到目标兴趣点对应的标准行政区划词。

可选的,确定单元,还用于:在第一检索结果以及第二检索结果均为空值的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库的数据量;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。

可选的,确定单元还用于:在分词结果中不存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。

第三方面,提供一种电子设备,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面的地址数据处理方法。

第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面的地址数据处理方法。

本申请提供的技术方案至少带来以下有益效果:地址处理装置获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果;语义模型用于识别地址导向词。由于本申请在分词处理时参考了噪声词库、行政区划词库、方位词库以及语义模型,因此在对源地址数据进行分词时更具有目的性,致力于得到与源地址数据对应的噪声词、行政区划、方位词库以及地址导向词。在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,地址处理装置基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词,为地址数据标准化做铺垫。进一步的,地址处理装置确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,地址处理装置基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。这样一来,经过上述数据处理过程得到的目标地址数据涵盖了标准行政区划词、噪声词、方位词以及地址导向词,信息完整程度较高,相较于源地址数据更加标准,且在后续利用时可以清楚了解目标地址数据中的噪声词,有助于排除噪声词的干扰提高目标地址数据的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理系统的结构示意图;

图2为本申请实施例提供的一种地址数据处理方法的流程示意图一;

图3为本申请实施例提供的一种前缀搜索树的结构示意图;

图4为本申请实施例提供的一种地址数据处理方法的流程示意图二;

图5为本申请实施例提供的一种地址数据处理装置的结构示意图;

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

还需要说明的是,本申请实施例中,“的(英文:of)”,“相应的(英文:corresponding,relevant)”和“对应的(英文:corresponding)”有时可以混用,应当指出的是,在不强调其区别时,其所要表达的含义是一致的。

为了便于清楚描述本申请实施例的技术方案,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。

在对本申请实施例进行详细地解释说明之前,先对本申请实施例涉及到的一些相关技术进行介绍。

随着导航技术以及搜索引擎的发展,网络中产生了大量的地址数据,这些地址数据纷繁复杂、表述不一,这对地址数据管理以及应用造成了很大的困难。因此,对地址数据进行清洗有重要的现实意义。

数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。

在实际应用中,可以通过数据清洗将纷繁复杂、表述不一的地址数据转化成满足数据质量要求的数据。

相关技术在对地址数据清洗时,一般只对地址数据执行关键字查询、近义词替,从而得到清洗后的地址数据,对于噪声词或干扰词的排查效果较差,清洗后的地址数据仍然可能存在信息不完整的问题以及清洗后的数据准确性较低的问题,因此利用价值并不高。

鉴于此,本申请实施例提供了一种地址数据处理方法,致力于将地址数据可能存在大量的错误、名称混乱、信息不完整等问题通过数据处理手段转换为更为准确且完整的高价值数据。

下面结合附图对本申请实施例提供的方法进行详细说明。

图1示出了本申请实施例提供的一示例性应用场景图。如图1所示,本申请实施例提供的地址数据处理方法可以适用于数据处理系统10。数据处理系统10包括地址数据处理装置(以下简称数据处理装置)11以及电子设备12。其中,数据处理装置11与电子设备12连接。数据处理装置11与电子设备12之间可以采用有线方式连接,也可以采用无线方式连接,本公开实施例对此不作限定。

电子设备12用于存储源地址数据。例如,电子设备12中部署有数据库,电子设备12将源地址数据存储在数据库中。

数据处理装置11用于获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果。数据处理装置11还用于在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词。数据处理装置11还用于确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。

电子设备12还用于将目标地址数据存储到数据库中。

在不同的应用场景中,数据处理装置11和电子设备12可以为相互独立的设备,也可以集成于同一设备中,本公开实施例对此不作具体限定。

数据处理装置11和电子设备12集成于同一设备时,数据处理装置11和电子设备12之间的数据传输方式为该设备内部模块之间的数据传输。这种情况下,二者之间的数据传输流程与“数据处理装置11和电子设备12之间相互独立的情况下,二者之间的数据传输流程”相同。

在本公开实施例提供的以下实施例中,以数据处理装置11和电子设备12相互独立设置为例进行说明。

图2是根据一些示例性实施例示出的一种地址数据处理方法的流程示意图。在一些实施例中,上述地址数据处理方法可以应用到如图1所示的数据处理装置、电子设备,也可以应用到其他类似设备。

如图2所示,本公开实施例提供的地址数据处理方法,包括下述S201-S203。

S201、数据处理装置获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果。

其中,语义模型用于识别地址导向词。

作为一种可能的实现方式,数据处理装置从电子设备中获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果。

需要说明的,源地址数据即为未经过处理或清洗的数据,源地址数据中存有地址信息,但源地址数据中的地址信息可能不准确或者不标准。例如,源地址数据中存在错别字。

在一些实施例中,对源地址数据进行分词处理时,数据处理装置可以参照预设噪声词库中的噪声词,判断源地址数据中是否存在相同或者相似的噪声词。

需要说明的,噪声词也称为干扰数据,是指源地址数据中与地址信息无关的词。例如,对于源地址数据“我要去公园A”,其中“我要去”与具体地址无关,可以视为噪声词。

在一些实施例中,为了得到噪声词库,数据处理装置还可以通过埋点分析获取到网络中的搜索地址数据,并对搜索地址数据进行人工标记,以标记出噪声词。进一步的,数据处理装置将标记后的数据作为样本,以标准电子地图中的大量无噪声数据为参考,对条件随机场(conditional random field,CRF)模型进行训练,得到噪声词提取模型。进一步的,数据处理装置利用噪声词提取模型,对大量未标记的搜索地址数据进行噪声词提取,得到噪声词库。

同理,数据处理装置可以参照预设方位词库中的方位词,判断源地址数据中是否存在相同或者相似的方位词。

方位词库可以由运维人员预先构建,也可以由数据处理装置通过模型训练提取得到,本申请实施例对此不作限定。

在一些实施例中,对源地址数据进行分词处理时,数据处理装置可以将源地址数据输入预先训练好的语义模型,以提取出源地址数据中的地址导向词。

示例性的,对于源地址数据“向北步行100米到公园A”,其中“向北”为方位词,“步行100米”则为地址导向词。

在一些实施例中,预设行政区划词库包括多个预设行政区划词;分词结果包括第一子结果,第一子结果为基于预设行政区划词库对源地址数据进行分词处理得到的。

一些实施例中,基于预设行政区划词库对源地址数据进行分词处理,得到第一子结果,包括:数据处理装置对各预设行政区划词进行划分,得到各预设行政区划词的第一行政区划子词以及第二行政区划子词。数据处理装置以第一行政区划子词作为头节点、第二行政区划子词作为子节点,构建前缀搜索树。进一步的,数据处理装置基于前缀搜索树,在源地址数据中进行索引,得到第一子结果。

需要说明的,行政区划是相关部门为便于行政管理而分级划分的区域。例如,行政区划可以为五级行政区划(省级+市级+县级+乡级+社区)。其中,第一行政区划子词的区划等级大于或者等于预设等级,第二行政区划子词的区划等级小于预设等级。预设等级可以由运维人员预先设置。在实际应用中,第一行政区划子词可以为区划等级最高的行政区划子词,第二行政区划子词则为其他非最高行政区划子词。

示例性的,对于行政区划词1“A省B市C县D乡”行政区划词2“A省E市F社区”,数据处理装置在构建前缀搜索树时,将“A省”最高行政区划子词,将“B市”“C县”“D乡”“E市”“F社区”作为非最高行政区划子词。

另一些实施例中,数据处理装置还可以依据关键字对地址数据进行分词处理,得到第一子结果。每个关键字对应有不同的等级,数据处理装置可以将预设行政区划词匹配到的关键字的等级,作为该预设行政区划词的等级。

例如,关键字包括省、市、区,分别对应的等级为1级、2级、3级。对于源地址数据“**省**市**区”,其中“**省”中存在关键词“省”,因此可以作为一个行政区划词,且该行政区划词对应的等级为1级;“**市”中存在关键词“市”,因此可以作为一个行政区划词,且该行政区划词对应的等级为2级;“**区”中存在关键词“区”,因此可以作为一个行政区划词,且该行政区划词对应的等级为3级。如图3所示,示例性示出了一种前缀搜索树的结构。其中,“A省”作为头节点,“B市”“C县”“D乡”“E市”“F社区”作为子节点连接在头节点下方。

在实际应用中,数据处理装置可以根据前缀搜索树,在源地址数据中进行索引,以搜索出源地址数据中可能存在的行政区划词。

S202、在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,数据处理装置基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词。

作为一种可能的实现方式,在对源地址数据进行分词处理之后,若得到的分词结果中存在噪声词、行政区划词、方位词以及地址导向词,数据处理装置则基于源地址数据、分词结果从第一地理信息数据库中进行检索,若检索到了对应的兴趣点(POI),数据处理装置从检索结果中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词。

作为另一种可能的实现方式,在所述分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,数据处理装置基于所述源地址数据、所述分词结果从第一地理信息数据库中进行检索,若检索到了对应的兴趣点(POI),得到多个POI。进一步的,数据处理装置分别计算各POI与源地址数据之间的相似度,将相似度最大的POI确定为目标兴趣点。需要说明的,第一地理信息数据库中存储有地理信息。例如,第一地理信息数据库可以为地理信息系统(Geographic Information System或Geo-Information system,GIS或GEO)数据库。

在一些实施例中,为了得到目标兴趣点,数据处理装置可以基于源地址数据在第一地理信息数据库中进行第一检索,得到第一检索结果,进一步的,数据处理装置基于分词结果在第一地理信息数据库中进行第二检索,得到第二检索结果。

在实际应用中的,数据处理装置可以调用GEO服务进行兴趣点的检索。

示例性的,数据处理装置在调用GEO服务进行检索时输入内容为源地址数据,若第一地理信息数据库中存在对应输入内容的兴趣点,GEO服务则输出检索出的第一兴趣点以及各第一兴趣点对应的匹配度。同理,数据处理装置在调用GEO服务进行检索时输入内容为分词结果,若第一地理信息数据库中存在对应输入内容的兴趣点,GEO服务则输出检索出的第二兴趣点以及各第二兴趣点对应的匹配度。进一步的,数据处理装置获取第一检索结果以及第二检索结果,得到多个兴趣点,并从多个兴趣点中选取匹配度最高的兴趣点作为目标兴趣点。

在一些实施例中,数据处理装置可以采用逆地理还原技术,获取到目标兴趣点对应的标准行政区划词。

示例性的,数据处理装置获取目标兴趣点的位置信息(如经纬度)。进一步的,数据处理装置将经纬度通过逆地理服务检索,检索到对应的标准行政区划词。

可以理解的,标准行政区划词是在确定出具体的位置信息之后,根据该位置信息对应检索得到的行政区划词,相较于通过分词处理得到的行政区划词,标准行政区划词更加准确,与位置信息的对应关系具有唯一性。

S203、数据处理装置确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,数据处理装置基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。

作为一种可能的实现方式,数据处理装置通过相似度公式计算标准行政区划词与分词结果中的行政规划词之间的相似度。进一步的,数据处理装置将计算出的相似度与预设阈值进行对比,在相似度大于或者等于预设阈值的情况下,数据处理装置基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。

示例性的,目标地址数据格式可以为标准行政区划词+方位词+地址导向词+噪声词。

一些实施例中,在相似度小于预设阈值的情况下,数据处理装置基于行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。

本申请实施例提供的技术方案至少带来以下有益效果:地址处理装置获取源地址数据,并基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果;语义模型用于识别地址导向词。由于本申请在分词处理时参考了噪声词库、行政区划词库、方位词库以及语义模型,因此在对源地址数据进行分词时更具有目的性,致力于得到与源地址数据对应的噪声词、行政区划、方位词库以及地址导向词。在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,地址处理装置基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词,为地址数据标准化做铺垫。进一步的,地址处理装置确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,地址处理装置基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。这样一来,经过上述数据处理过程得到的目标地址数据涵盖了标准行政区划词、噪声词、方位词以及地址导向词,信息完整程度较高,相较于源地址数据更加标准,且在后续利用时可以清楚了解目标地址数据中的噪声词,有助于排除噪声词的干扰提高目标地址数据的准确性。

一些实施例中,为了确保源地址数据可以得到清洗,在分词结果中不存在噪声词、行政区划词、方位词以及地址导向词的情况下,地址处理装置基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;其中,第二地理信息数据库的数据量大于第一地理信息数据库;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。

同理,在第一检索结果以及第二检索结果均为空值的情况下,地址处理装置基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果。

一些实施例中,如图4所示,地址处理装置对源地址数据进行分词处理,得到分词结果,若分词结果中存在噪声词、行政区划词、方位词以及地址导向词,地址处理装置则使用分词结果,在第一地理信息数据库中调用GEO服务得到第一检索结果,以及使用源地址数据,调用GEO服务得到第二检索结果。反之,地址处理装置则使用源地址数据,在第而地理信息数据库中调用GEO服务得到第三检索结果。若第一检索结果和/或第二检索结果中存在兴趣点,地址处理装置则选取匹配度最高的兴趣点作为目标兴趣点,并进行后续处理流程(参考S202-S203)。若第一检索结果和第二检索结果中不存在兴趣点,地址处理装置则使用源地址数据,在第二地理信息数据库中调用全文搜索服务查询得到匹配结果。同理,若第三检索结果不存在兴趣点,地址处理装置则使用源地址数据,在第二地理信息数据库中调用全文搜索服务查询得到匹配结果。

上述实施例主要从装置(设备)的角度对本申请实施例提供的方案进行了介绍。可以理解的是,为了实现上述方法,装置或设备包含了执行各个方法流程相应的硬件结构和/或软件模块,这些执行各个方法流程相应的硬件结构和/或软件模块可以构成一个物料信息的确定装置。本领域技术人员应该很容易意识到,结合本文中所发明的实施例描述的各示例的算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置或设备进行功能模块的划分,例如,装置或设备可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

图5是根据一示例性实施例示出的地址数据处理装置的结构示意图。参照图5所示,本申请实施例提供的地址数据处理装置30包括获取单元301、处理单元302以及确定单元303。

获取单元301,用于获取源地址数据;处理单元302,用于基于预设噪声词库、预设行政区划词库、预设方位词库以及预先训练好的语义模型,对源地址数据进行分词处理,得到分词结果;语义模型用于识别地址导向词;确定单元303,用于在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据、分词结果从第一地理信息数据库中确定目标兴趣点,并获取目标兴趣点对应的标准行政区划词;确定单元303,还用于确定标准行政区划词与分词结果中的行政规划词之间的相似度,在相似度大于或者等于预设阈值的情况下,基于标准行政区划词、分词结果中的噪声词、方位词以及地址导向词,得到目标地址数据。

可选的,预设行政区划词库包括多个预设行政区划词;分词结果包括第一子结果,第一子结果为基于预设行政区划词库对源地址数据进行分词处理得到的;处理单元302,具体用于:对各预设行政区划词进行划分,得到各预设行政区划词的最高行政区划子词以及非最高行政区划子词;以最高行政区划子词作为头节点、非最高行政区划子词作为子节点,构建前缀搜索树;基于前缀搜索树,在源地址数据中进行索引,得到第一子结果。

可选的,确定单元303,具体用于:在分词结果中存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第一地理信息数据库中进行第一检索,得到第一检索结果,以及,基于分词结果在第一地理信息数据库中进行第二检索,得到第二检索结果;在第一检索结果包括至少一个第一兴趣点以及各第一兴趣点对应的匹配度,和/或第二检索结果包括至少一个第二兴趣点以及各第二兴趣点对应的匹配度的情况下,获取第一检索结果以及第二检索结果,得到多个兴趣点,并从多个兴趣点中选取匹配度最高的兴趣点作为目标兴趣点。

可选的,确定单元303,具体用于:获取目标兴趣点的位置信息,并根据逆地理服务检索得到目标兴趣点对应的标准行政区划词。

可选的,确定单元303,还用于:在第一检索结果以及第二检索结果均为空值的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库的数据量;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。

可选的,确定单元303还用于:在分词结果中不存在噪声词、行政区划词、方位词以及地址导向词的情况下,基于源地址数据在第二地理信息数据库中进行索引匹配,得到匹配结果;第二地理信息数据库的数据量大于第一地理信息数据库;匹配结果包括源地址数据对应的行政区划词、方位词以及地址导向词。

图6是本申请提供的一种电子设备的结构示意图。如图6,该电子设备40可以包括至少一个处理器401以及用于存储处理器可执行指令的存储器402其中,处理器401被配置为执行存储器402中的指令,以实现上述实施例中的地址数据处理方法。

另外,电子设备40还可以包括通信总线403以及至少一个通信接口404。

处理器401可以是一个处理器(central processing units,CPU),微处理单元,ASIC,或一个或多个用于控制本申请方案程序执行的集成电路。

通信总线403可包括一通路,在上述组件之间传送信息。

通信接口404,使用任何收发器一类的装置,用于与其他设备或通信网络通信,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local areanetworks,WLAN)等。

存储器402可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器401相连接。存储器也可以和处理器401集成在一起。

其中,存储器402用于存储执行本申请方案的指令,并由处理器401来控制执行。处理器401用于执行存储器402中存储的指令,从而实现本申请方法中的功能。

作为一个示例,结合图5,地址数据处理装置30中的获取单元301、处理单元302以及确定单元303实现的功能与图6中的处理器401的功能相同。

在具体实现中,作为一种实施例,处理器401可以包括一个或多个CPU,例如图6中的CPU0和CPU1。

在具体实现中,作为一种实施例,电子设备40可以包括多个处理器,例如图6中的处理器401和处理器407。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中,作为一种实施例,电子设备40还可以包括输出设备405和输入设备406。输出设备405和处理器401通信,可以以多种方式来显示信息。例如,输出设备405可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备406和处理器401通信,可以以多种方式接受用户对象的输入。例如,输入设备406可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解,图6中示出的结构并不构成对电子设备40的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

另外,本申请还提供一种计算机可读存储介质,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述实施例所提供的地址数据处理方法。

另外,本申请还提供一种计算机程序产品,包括计算机指令,当计算机指令在电子设备上运行时,使得电子设备执行如上述实施例所提供的地址数据处理方法。

本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。

相关技术
  • 数据处理方法、装置、计算机可读存储介质和电子设备
  • 路由数据处理方法、装置、电子设备及存储介质
  • 数据处理方法及装置、电子设备、存储介质
  • 屏幕布局数据处理方法、装置、电子设备及存储介质
  • 网页操作数据的处理方法、装置、电子设备及存储介质
  • 地址数据处理方法和装置、电子设备和存储介质
  • 地址数据处理方法、装置、电子设备和存储介质
技术分类

06120116227002