基于地名地址数据库的检索与补全方法及系统

文献发布时间：2023-06-19 16:06:26

技术领域

本发明属于地理信息检索与补全技术领域，尤其涉及一种基于地名地址数据库的检索与补全方法及系统。

背景技术

为推动国家民政、公安、工商、自然资源等部门的信息整合，全国各地都开展了地名地址数据的调查和建库工作。目前全国的地名地址工作已进入收尾阶段，大部门省市县基本完成了该库的建设。检索查询和少量地名地址补全工作成为了后续应用非常重要的方面，传统的检索工作基本都是应用的关键字查询，针对如此巨大的数据库，关键字返回的信息量过大，大部分非用户需要的信息。全文匹配的标准过于“硬”，用户很难准确记得某一个地名或地址的具体信息，且当用户输入搜索信息的过程中不可避免存在漏字、错别字、信息不全、地址名老旧的情况，以上两种方法都很难满足现今的需求。此外由于地址数据量过大，不可避免存在遗漏。

发明内容

本发明针对现有地址检索存在的返回信息量过大、信息不全等问题，提出一种基于地名地址数据库的检索与补全方法及系统。

为了实现上述目的，本发明采用以下技术方案：

本发明一方面提出一种基于地名地址数据库的检索与补全方法，包括：

步骤A，构建地名地址数据库；所述数据库包含：行政区域地名，街路巷名或小区名，标志物名、门牌号或兴趣点名，各级地名组成的地址；

步骤B，构建地名地址数据库知识图谱；所述知识图谱的实体包括省、市、县、乡、村5级行政区划，街路巷，小区组，标志物，门牌，兴趣点，别称；所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系，及地名与别称具有的等价关系；所述权属关系具有time属性和name属性，time属性为now 或者before，如果time属性为now，则该权属关系具有现势性，name属性值为该权属关系存在的起始时间，如果time属性为before，则该权属关系为历史关系， name属性值为该权属关系存在的时间段；

步骤C，根据输入的检索内容判定输入类型；所述输入类型包括地名、地址；

步骤D，若输入类型为地名，则查找输入地名的相似地名，并计算查找到的各相似地名的地名整体相似度，按照地名整体相似度由大到小进行排序后返回；

步骤E，若输入类型为地址，则基于输入的检索内容进行分词和地址实体标签确定，去除省、市、县三个层级的地址分词结果，纠正县级以下地址错误输入，补全从省到最小地名实体信息，基于权属关系的time属性对输入的检索内容进行纠正，计算地址整体相似度，并按照地址整体相似度由大到小进行排序后返回。

进一步地，所述步骤C包括：

采用bert+bilstm+CRF算法对输入的检索内容进行分词，采用决策树的方法进行分类，得到分类结果为地名或地址。

进一步地，所述步骤D包括：

步骤D1，基于检索内容原语句、音近字和形近字转换进行匹配，查找输入地名的相似地名候选项；其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹配得到；形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得到；

步骤D2，将匹配到的别称结果更改为标准地名；

步骤D3，将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉；

步骤D4，计算音近字转换后的相似度a，如果拼音相同，则该字的编辑距离为1，如果拼音是通过平翘舌音和前后鼻音转换而来，则该字的编辑距离为2，当所有音近字转换后的编辑距离之和大于0时，a为所有音近字转换后的编辑距离之和加1的倒数，否则a为1；

步骤D5，计算形近字转换后的相似度b，如果转换后的字与原字笔画数相同，则编辑距离为1，否则为2，当所有形近字转换后的编辑距离之和大于0时， b为所有形近字转换后的距离之和加1的倒数，否则b为1；

步骤D6，将音近字转换后的相似度a和形近字转换后的相似度b的乘积作为地名整体相似度c：

c＝a×b；

步骤D7，根据地名整体相似度由大到小进行排序，若地名整体相似度小于设定的阈值，则去除相应的地名候选项，并将其余地名候选项作为检索结果进行返回。

进一步地，所述步骤E包括：

步骤E1，采用bert+bilstm+CRF算法对输入的检索内容进行分词，利用音近字转换、形近字转换得出多个分词结果；

步骤E2，地址实体标签确定：根据分词结果匹配地名地址数据库知识图谱，得到词级对应的标签，其中匹配的别称实体转化为与之相关的标准实体，将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果；

步骤E3，去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果；

步骤E4，纠正县级以下地址错误输入：当原检索内容对应的候选项地址分词结果为空时，删除街道或者村的地址实体，获取唯一子图作为候选项地址分词结果；

步骤E5，基于推理验证补全地名地址数据库：当候选地址分词结果为空且输入地址信息结构完整，根据具体地址实体获取与位置临近具体地址，推理输入信息是否正确，若正确则将分词结果及详细地址存储至地名地址数据库中，同时对地名地址数据库知识图谱、地名音近字词典库、地名形近字词典库进行联动更新，并将分词结果作为候选地址分词结果；

步骤E6，补全地址：利用唯一子图路径上的实体，补全从省到最小地名实体信息；

步骤E7，基于权属关系time属性进行输入地址纠正：针对各级实体路径，对于下级到上级的权属关系，time属性为before的，由下级到上级time属性为 now的关联实体替换上级实体；

步骤E8，排序：

计算音近字转换后的相似度a，如果拼音相同，则该字的编辑距离为1，如果拼音是通过平翘舌音和前后鼻音转换而来，则该字的编辑距离为2，当所有音近字转换后的编辑距离之和大于0时，a为所有音近字转换后的编辑距离之和加 1的倒数，否则a为1；

计算形近字转换后的相似度b，如果转换后的字与原字笔画数相同，则编辑距离为1，否则为2，当所有形近字转换后的编辑距离之和大于0时，b为所有形近字转换后的距离之和加1的倒数，否则b为1；

计算补全相似度d，当子图连续补全的实体个数大于1时，所述补全相似度由子图连续补全的实体个数的倒数计算得到，否则d为1；

将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e：

e＝a×b×d；

根据地址整体相似度由大到小进行排序，若地址整体相似度小于设定的阈值，则去除相应的地址候选项，并将其余地址候选项作为检索结果进行返回。

本发明另一方面提出一种基于地名地址数据库的检索与补全系统，包括：

地名地址数据库构建模块，用于构建地名地址数据库；所述数据库包含：行政区域地名，街路巷名或小区名，标志物名、门牌号或兴趣点名，各级地名组成的地址；

知识图谱构建模块，用于构建地名地址数据库知识图谱；所述知识图谱的实体包括省、市、县、乡、村5级行政区划，街路巷，小区组，标志物，门牌，兴趣点，别称；所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系，及地名与别称具有的等价关系；所述权属关系具有time属性和name属性， time属性为now或者before，如果time属性为now，则该权属关系具有现势性， name属性值为该权属关系存在的起始时间，如果time属性为before，则该权属关系为历史关系，name属性值为该权属关系存在的时间段；

输入类型判定模块，用于根据输入的检索内容判定输入类型；所述输入类型包括地名、地址；

地名检索模块，用于若输入类型为地名，则查找输入地名的相似地名，并计算查找到的各相似地名的地名整体相似度，按照地名整体相似度由大到小进行排序后返回；

地址检索补全模块，用于若输入类型为地址，则基于输入的检索内容进行分词和地址实体标签确定，去除省、市、县三个层级的地址分词结果，纠正县级以下地址错误输入，补全从省到最小地名实体信息，基于权属关系的time属性对输入的检索内容进行纠正，计算地址整体相似度，并按照地址整体相似度由大到小进行排序后返回。

进一步地，所述输入类型判定模块具体用于：

采用bert+bilstm+CRF算法对输入的检索内容进行分词，采用决策树的方法进行分类，得到分类结果为地名或地址。

进一步地，所述地名检索模块具体用于：

基于检索内容原语句、音近字和形近字转换进行匹配，查找输入地名的相似地名候选项；其中音近字转换基于pypinyin库和地名地址数据库构造的地名音近字词典库匹配得到；形近字转换基于形近字字典和地名地址数据库构造的地名形近字词典库匹配得到；

将匹配到的别称结果更改为标准地名；

将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉；

计算形近字转换后的相似度b，如果转换后的字与原字笔画数相同，则编辑距离为1，否则为2，当所有形近字转换后的编辑距离之和大于0时，b为所有形近字转换后的距离之和加1的倒数，否则b为1；将音近字转换后的相似度a 和形近字转换后的相似度b的乘积作为地名整体相似度c：

c＝a×b；

根据地名整体相似度由大到小进行排序，若地名整体相似度小于设定的阈值，则去除相应的地名候选项，并将其余地名候选项作为检索结果进行返回。

进一步地，所述地址检索补全模块具体用于：

采用bert+bilstm+CRF算法对输入的检索内容进行分词，利用音近字转换、形近字转换得出多个分词结果；

地址实体标签确定：根据分词结果匹配地名地址数据库知识图谱，得到词级对应的标签，其中匹配的别称实体转化为与之相关的标准实体，将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果；

去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果；

纠正县级以下地址错误输入：当原检索内容对应的候选项地址分词结果为空时，删除街道或者村的地址实体，获取唯一子图作为候选项地址分词结果；

基于推理验证补全地名地址数据库：当候选地址分词结果为空且输入地址信息结构完整，根据具体地址实体获取与位置临近具体地址，推理输入信息是否正确，若正确则将分词结果及详细地址存储至地名地址数据库中，同时对地名地址数据库知识图谱、地名音近字词典库、地名形近字词典库进行联动更新，并将分词结果作为候选地址分词结果；

补全地址：利用唯一子图路径上的实体，补全从省到最小地名实体信息；

基于权属关系time属性进行输入地址纠正：针对各级实体路径，对于下级到上级的权属关系，time属性为before的，由下级到上级time属性为now的关联实体替换上级实体；

排序：

计算形近字转换后地名相似度b，如果转换后的字与原字笔画数相同，则编辑距离为1，否则为2，当所有形近字转换后的编辑距离之和大于0时，b为所有形近字转换后的距离之和加1的倒数，否则b为1；

计算补全相似度d，当子图连续补全的实体个数大于1时，所述补全相似度由子图连续补全的实体个数的倒数计算得到，否则d为1；

将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e：

e＝a×b×d；

根据地址整体相似度由大到小进行排序，若地址整体相似度小于设定的阈值，则去除相应的地址候选项，并将其余地址候选项作为检索结果进行返回。

与现有技术相比，本发明具有的有益效果：

本发明首先构建地名地址数据库；然后构建地名地址数据库知识图谱；并根据输入的检索内容判定输入类型；若输入类型为地名，则查找输入地名的相似地名，并计算查找到的各相似地名的地名整体相似度，按照地名整体相似度由大到小进行排序后返回；若输入类型为地址，则基于输入的检索内容进行分词和地址实体标签确定，去除省、市、县三个层级的地址分词结果，纠正县级以下地址错误输入，补全从省到最小地名实体信息，基于权属关系的time属性进行纠正，计算地址整体相似度，并按照地址整体相似度由大到小进行排序后返回。本发明提出了一种地名和地址相似度计算方法，可以科学地衡量返回结果与用户输入内容的语义相似程度，进一步对结果进行排序处理，使得更接近用户意图的结果更靠前。本发明采用推理的方法，基于用户的知识实时对庞大地名地址进行查缺补漏。本发明针对用户认知不足导致返回结果为空时，具有多级应对举措。本发明可有效解决现有地址检索存在的返回信息量过大、信息不全、用户输入错误等问题。

附图说明

图1为本发明实施例一种基于地名地址数据库的检索与补全方法的基本流程图；

图2为本发明实施例一种基于地名地址数据库的检索与补全方法构建的地名地址数据库知识图谱示例图；

图3为本发明实施例一种基于地名地址数据库的检索与补全系统的架构示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的解释说明：

如图1所示，一种基于地名地址数据库的检索与补全方法，包括：

步骤A，构建地名地址数据库；具体地，可参见CH/Z 9002-2007《数字城市地理空间信息公共平台地名/地址分类、描述及编码规则》，第一段为行政区域地名(省/市/县(区)，乡镇(街道)/村(社区)可省略)，第二段为街路巷名或小区名，第三段为标志物名、门牌号或兴趣点名；值得说明的是，该三段中必须不能同时全部为空项；基于mysql构建地名地址数据库；具体地，地名表、地址表分别如表1、表2所示。

表1地名表(部分示例)

表2地址表(部分示例)

步骤B，构建地名地址数据库知识图谱，即地名地址图数据库，如图2所示；所述知识图谱的实体包括省、市、县、乡、村5级行政区划，街路巷，小区组(小区、自然村、队、组)，标志物，门牌，兴趣点，别称；所述知识图谱的关系包括由具体地名组成的标准地址具有的权属关系，及地名与别称具有的等价关系；所述权属关系具有time属性和name属性，time属性为now或者before，如果 time属性为now，则该权属关系具有现势性，name属性值为该权属关系存在的起始时间，如果time属性为before，则该权属关系为历史关系，name属性值为该权属关系存在的时间段；具体地，本发明的地名地址图数据库为原生图数据库 neo4j。

1)城市标准地址格式通常为：

行政区划(省、市、县、街道)+街路巷(街、路、巷、城中村)+门牌号+小区组(小区、建筑物)+楼排号

2)农村标准地址的组成根据行政村是否下设区、组、队或自然村的情况标准地址组成是有差别的。对于农村中下设有区、组、队或自然村的行政村中的农村标准地址组成为：

行政区划(省、市、县、区)+乡镇+街路巷(行政村)+小区组(自然村、队、组)+楼排号；

对于农村中行政村没有下设区、组、队或自然村的农村标准地址组成一般为：

行政区划(省、市、县、区)+乡镇(街道)+街路巷(行政村)+门牌号。

具体地，别称实体来源于地名地址数据库和人工制作；行政区划的权属关系对应的time属性信息来源于行政部门的官网和其他类似的网站。

步骤C，根据输入的检索内容判定输入类型；所述输入类型包括地名、地址。

步骤D，若输入类型为地名，则查找输入地名的相似地名，并计算查找到的各相似地名的地名整体相似度，按照地名整体相似度由大到小进行排序后返回。

进一步地，所述步骤C包括：

采用bert+bilstm+CRF算法对输入的检索内容进行分词，采用决策树的方法进行分类，得到分类结果为地名或地址。

具体地，所述步骤C包括：

根据地名和地址的特征，先分词，采用决策树的方法进行分类。比如地址中包含有行政区划的特征以及第二段和第三段地名组合，地名则是要素单一的地址组成要素之一。

分词采用bert+bilstm+CRF算法。其中使用bert预训练模型将单词转化为词向量，作为输入，选用双向长短时记忆网络和条件随机场组成的网络训练模型，预测分词结果。采用决策树进行分类，最终分类结果有2类，分别是单一地名和地址。

进一步地，所述步骤D包括：

步骤D1，基于检索内容原语句、音近字和形近字转换进行匹配，查找输入地名的相似地名候选项；具体地，音近字转换使用基于pypinyin库和搜集整理的地名地址数据库(具体为地名表)构建的地名音近字词典库匹配得到；形近字转换基于形近字字典(具体基于外语教学与研究出版社出版，冉红编著的《形近字字典》图书电子版整理得到)和地名地址数据库(具体为地名表)构造的地名形近字词典库匹配得到。

具体地，地名音近字词典库的构建过程如下：首先使用python语言基于 pypinyin库将地名表中地名转化为对应的拼音，并进行平翘舌音和前后鼻音转换，得到地名对应的音近字拼音，从而构成地名音近字词典库。

具体地，地名形近字词典库的构建过程如下：首先基于形近字字典与地名表中地名对应的汉字进行匹配，得到地名对应的形近字，按照地名对应汉字的顺序将匹配得到的各形近字拼接，得到地名形近字；通过上述方式，最终得到各地名对应的地名形近字，从而构成地名形近字词典库。

步骤D2，将匹配到的别称结果更改为标准地名；

步骤D3，考虑到行政区划省、市、县层级输错的概率较小，因此将音近字和形近字转换匹配到的该层级的地名去掉；

步骤D6，将音近字转换后的相似度a和形近字转换后的相似度b的乘积作为地名整体相似度c：

c＝a×b；

进一步地，所述步骤E包括：

步骤E1，采用bert+bilstm+CRF算法对输入的检索内容进行分词，利用音近字转换、形近字转换得出多个分词结果。

步骤E2，地址实体标签确定：根据分词结果匹配地名地址数据库知识图谱，得到词级对应的标签，其中匹配的别称实体转化为与之相关的标准实体(即除别称实体之外的实体)，将地址实体集能够满足城市或农村标准地址标签组合顺序的唯一子图作为候选项地址分词结果。

步骤E3，进一步筛选，由于行政区划省、市、县层级的实体输错的概率较小，去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果。

步骤E4，纠正县级以下地址错误输入：由于用户经常对某一个地方的权属判断不清，导致输入行政区划权属错误，比如将郑州市金水区北林路街道北环路100号，输入为郑州市金水区文化路街道北环路100号等时有发生。因此有必要对此问题进行纠正。由于县级及其以上具体地址实体的输入可能性较小，因此纠正县级以下地址实体。因此当原检索内容的候选项地址分词结果为空时，删除街道或者村的地址实体，获取唯一子图，作为候选项地址分词结果。如存在小区名、标志物名、兴趣点等地名，则删除街道、村、门牌的地址实体，获取唯一子图，作为候选项地址分词结果。

步骤E5，基于推理验证补全地名地址数据库：当候选地址分词结果为空且输入地址信息结构完整(省级除外)，根据具体地址实体获取与位置临近具体地址，比如郑州市金水区北林路街道北环路100号，检索地名地址数据库中是否存在郑州市金水区北林路街道北环路101号和郑州市金水区北林路街道北环路99 号，则可推理输入信息是否正确，若正确则将分词结果及详细地址存储至地名地址数据库中，同时对地名地址数据库知识图谱(地名地址图数据库)、地名音近字词典库、地名形近字词典库进行联动更新，并将分词结果作为候选地址分词结果。

步骤E6，补全地址：利用唯一子图路径上的实体，补全从省到最小地名实体信息。

步骤E7，基于权属关系time属性进行输入地址纠正：随着时间的变化，行政区划的权属关系会发生变化，不少检索者对这种信息并非十分清楚，检索的依旧是旧的权属关系，因此有必要基于time(时间)属性对检索内容进行纠正。针对各级实体路径，对于下级到上级的权属关系，time属性为before的，由下级到上级time属性为now的关联实体替换上级实体。

步骤E8，排序：

计算补全相似度d，当子图连续补全的实体个数大于1时，所述补全相似度由子图连续补全的实体个数的倒数计算得到，否则d为1；

将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e：

e＝a×b×d；

根据地址整体相似度由大到小进行排序，若地址整体相似度小于设定的阈值，则去除相应的地址候选项，并将其余地址候选项作为检索结果进行返回。在上述实施例的基础上，如图3所示，本发明另一方面提出一种基于地名地址数据库的检索与补全系统，包括：

输入类型判定模块，用于根据输入的检索内容判定输入类型；所述输入类型包括地名、地址；

进一步地，所述输入类型判定模块具体用于：

采用bert+bilstm+CRF算法对输入的检索内容进行分词，采用决策树的方法进行分类，得到分类结果为地名或地址。

进一步地，所述地名检索模块具体用于：

将匹配到的别称结果更改为标准地名；

将音近字和形近字转换匹配到的省、市、县三个层级的地名去掉；

c＝a×b；

根据地名整体相似度由大到小进行排序，若地名整体相似度小于设定的阈值，则去除相应的地名候选项，并将其余地名候选项作为检索结果进行返回。

进一步地，所述地址检索补全模块具体用于：

采用bert+bilstm+CRF算法对输入的检索内容进行分词，利用音近字转换、形近字转换得出多个分词结果；

去除通过音近字和形近字转换得到的省、市、县三个层级的候选项地址分词结果；

纠正县级以下地址错误输入：当原检索内容对应的候选项地址分词结果为空时，删除街道或者村的地址实体，获取唯一子图作为候选项地址分词结果；

补全地址：利用唯一子图路径上的实体，补全从省到最小地名实体信息；

排序：

计算补全相似度d，当子图连续补全的实体个数大于1时，所述补全相似度由子图连续补全的实体个数的倒数计算得到，否则d为1；

将音近字转换后的相似度a、形近字转换后的相似度b及补全相似度d的乘积作为地址整体相似度e：

e＝a×b×d；

根据地址整体相似度由大到小进行排序，若地址整体相似度小于设定的阈值，则去除相应的地址候选项，并将其余地址候选项作为检索结果进行返回。

综上，本发明首先构建地名地址数据库；然后构建地名地址数据库知识图谱；并根据输入的检索内容判定输入类型；若输入类型为地名，则查找输入地名的相似地名，并计算查找到的各相似地名的地名整体相似度，按照地名整体相似度由大到小进行排序后返回；若输入类型为地址，则基于输入的检索内容进行分词和地址实体标签确定，去除省、市、县三个层级的地址分词结果，纠正县级以下地址错误输入，补全从省到最小地名实体信息，基于权属关系的time属性进行纠正，计算地址整体相似度，并按照地址整体相似度由大到小进行排序后返回。本发明提出了一种地名和地址相似度计算方法，可以科学地衡量返回结果与用户输入内容的语义相似程度，进一步对结果进行排序处理，使得更接近用户意图的结果更靠前。本发明采用推理的方法，基于用户的知识实时对庞大地名地址进行查缺补漏。本发明针对用户认知不足导致返回结果为空时，具有多级应对举措。本发明可有效解决现有地址检索存在的返回信息量过大、信息不全、用户输入错误等问题。

以上所示仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李晓香;卫建华;姚宣亮;孙亚东;
专利申请人：河南数慧信息技术有限公司;

上一篇：探测器校准方法、校准装置、电池、车辆和存储介质
下一篇：一种带自动消毒功能的箱式电梯