掌桥专利:专业的专利平台
掌桥专利
首页

基于分析型数据仓库的人口标准地址匹配方法及系统

文献发布时间:2024-04-18 19:58:53


基于分析型数据仓库的人口标准地址匹配方法及系统

技术领域

本公开涉及标准地址匹配技术领域,具体涉及基于分析型数据仓库的人口标准地址匹配方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。

标准地址匹配技术是一种将输入地址与标准地址数据库中的地址进行匹配和比对的方法,旨在提高地址数据的准确性和一致性。

现有传统的标准地址匹配方法包括数据准备、地址解析、数据匹配、匹配度评估以及输出地址匹配结果,但是现有的地址匹配方法具有一定的局限性,具体包括以下的不足:

1)数据质量限制:标准地址匹配依赖于准确和完整的标准地址数据库。如果数据库中存在错误、过时或缺失的地址数据,将会影响匹配结果的准确性。

2)复杂地址处理:某些地址具有复杂的结构或特殊的格式,如大型商业建筑、公共机构等,这些地址可能无法被传统的标准地址匹配技术有效处理。

3)地名多义性:在某些情况下,一个地名可能有多个含义,例如相同的地名可能存在于不同的地理位置。这可能导致标准地址匹配出现模糊或错误的结果。

4)数据更新和维护:标准地址数据库需要进行定期更新和维护,以反映新的地址变化、道路变更、新建筑物等。如果数据库没有及时更新,将导致匹配结果不准确或过时。

5)匹配算法限制:不同的匹配算法适用于不同的场景和数据情况。选择适当的匹配算法可能需要进行试验和调整,以获得最佳的匹配结果。

6)地理数据的精度:标准地址匹配可能受限于地理数据的精度。如果地理数据的精度较低或存在误差,将对匹配结果的准确性产生影响。

发明内容

本公开为了解决上述问题,提出了基于分析型数据仓库的人口标准地址匹配方法及系统,采用StarRocks高性能分析型数据仓库,StarRocks是一款高性能分析型数据仓库,使用向量化、MPP架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析,实现标准地址的匹配。

根据一些实施例,本公开采用如下技术方案:

基于分析型数据仓库的人口标准地址匹配方法,包括:

收集并整理包含标准地址的StarRocks数据仓库;

获取外部人口数据,并对所述外部人口数据进行预处理;

将预处理后的人口数据信息与包含标准地址的StarRocks数据仓库中人口地址信息进行匹配,采用多级地址匹配算法,对匹配到标准地址的区域进行关联,将未匹配到标准地址的区域存储到特殊地址库,将特殊地址库中的地址数据进行更新维护,在动态更新后纳入包含标准地址的StarRocks数据仓库中;

所述多级地址匹配算法包括:第一层级是基于关键字或者正则匹配算法将标准地址绑定到镇街社区层级,第二层级是基于楼栋单元户号和已经匹配的社区正则匹配到户室,实现人口数据标准地址的匹配。

根据一些实施例,本公开采用如下技术方案:

数据库初始化模块,用于收集并整理包含标准地址的StarRocks数据仓库;

数据获取模块,用于获取外部人口数据,并对所述外部人口数据进行预处理;

地址匹配模块,用于将预处理后的人口数据信息与包含标准地址的StarRocks数据仓库中人口地址信息进行匹配,采用多级地址匹配算法,对匹配到标准地址的区域进行关联,将未匹配到标准地址的区域存储到特殊地址库,将特殊地址库中的地址数据进行更新维护,在动态更新后纳入包含标准地址的StarRocks数据仓库中;

所述多级地址匹配算法包括:第一层级是基于关键字或者正则匹配算法将标准地址绑定到镇街社区层级,第二层级是基于楼栋单元户号和已经匹配的社区正则匹配到户室,实现人口数据标准地址的匹配。

根据一些实施例,本公开采用如下技术方案:

一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于分析型数据仓库的人口标准地址匹配方法。

根据一些实施例,本公开采用如下技术方案:

一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于分析型数据仓库的人口标准地址匹配方法。

与现有技术相比,本公开的有益效果为:

本公开的方法在对于标准地址匹配中,在数据质量上,本公开通过建立和维护高质量的标准地址数据库,以及采用准确性较高的匹配算法,可以提升地址匹配的准确性和一致性。

本公开在匹配效率上:通过优化匹配算法和数据结构,可以提高地址匹配的效率,减少匹配过程的时间消耗。

本公开在数据更新机制改进上,通过改进数据更新和维护机制,确保标准地址数据库及时反映新的地址变化和变更,提供更准确的匹配结果。

本公开在扩展应用领域上,通过改进和创新的标准地址匹配技术,可以扩展其应用领域,如物流管理、地理信息系统、位置服务等,提供更广泛和准确的地址相关服务。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。

图1为本公开实施例的传统的标准方法匹配流程;

图2为本公开实施例的基于分析型数据仓库的人口标准地址匹配方法流程架构图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例1

本公开的一种实施例中提供了一种基于分析型数据仓库的人口标准地址匹配方法,步骤包括:

步骤一:收集并整理包含标准地址的StarRocks数据仓库;

步骤二:获取外部人口数据,并对所述外部人口数据进行预处理;

步骤三:将预处理后的人口数据信息与包含标准地址的StarRocks数据仓库中人口地址信息进行匹配,采用多级地址匹配算法,对匹配到标准地址的区域进行关联,将未匹配到标准地址的区域存储到特殊地址库,将特殊地址库中的地址数据进行更新维护,在动态更新后纳入包含标准地址的StarRocks数据仓库中;

所述多级地址匹配算法包括:第一层级是基于关键字或者正则匹配算法将标准地址绑定到镇街社区层级,第二层级是基于楼栋单元户号和已经匹配的社区正则匹配到户室,实现人口数据标准地址的匹配。

作为一种实施例,本公开的一种基于分析型数据仓库的人口标准地址匹配方法的具体实施过程为:

步骤1:收集并整理包含标准地址的StarRocks数据仓库;

步骤2:获取外部人口数据,并对所述外部人口数据进行预处理;

步骤3:将预处理后的人口数据信息与包含标准地址的StarRocks数据仓库中人口地址信息进行匹配,采用多级地址匹配算法,对匹配到标准地址的区域进行关联,将未匹配到标准地址的区域存储到特殊地址库,将特殊地址库中的地址数据进行更新维护,在动态更新后纳入包含标准地址的StarRocks数据仓库中;

所述多级地址匹配算法包括:第一层级是基于关键字或者正则匹配算法将标准地址绑定到镇街社区层级,第二层级是基于楼栋单元户号和已经匹配的社区正则匹配到户室,实现人口数据标准地址的匹配。

作为一种实施例,步骤1中,本公开所整理的数据仓库为包含标准地址的StarRocks数据仓库,建立该数据仓库的过程为:

通过地址采集终端采集地址信息,经过消息中间件入库到StarRocks数据仓库,在地址信息表中会采用地名地址地理编码规则对地址信息进行唯一编码,同时建立唯一hash索引,在地址信息表中,采用地名地址地理编码规则对地址信息进行唯一编码可以确保每个地址在数据库中只存储一次,避免了数据冗余和重复。同时建立唯一hash索引可以提高对地址信息的检索速度,从而提高数据库的性能。

数据库覆盖范围为:标准地址匹配技术通常依赖于标准地址数据库,这些数据库包含了经过验证和标准化的地址数据。本公开中采用StarRocks高性能分析型数据仓库。StarRocks是一款高性能分析型数据仓库,使用向量化、MPP架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。StarRocks兼容MySQL协议,可使用MySQL客户端和常用BI工具对接。同时StarRocks具备水平扩展,高可用、高可靠、易运维等特性。广泛应用于实时数仓、OLAP报表、数据湖分析等场景。

进一步的,步骤2中,外部人口数据包括输入地址、用户名以及身份验证信息。

步骤2中,收集外部人口数据。这些数据可以来自各种来源,如政府机构、人口普查局、统计局等。数据的形式可能包括表格、文件、数据库等。

接下来,对收集到的外部人口数据进行预处理。预处理包括以下步骤:

数据清洗:检查数据中的缺失值、异常值、重复值等,并进行相应的处理。例如,可以删除缺失值,用均值、中位数等填充异常值,消除重复值等。

数据转换:将数据转换为适合分析的形式。例如,将分类数据转换为数值数据,或将字符串数据转换为数值数据等。

数据规范化:将数据转换为统一的标准格式。例如,将所有数值数据转换为小数形式,或将所有日期数据转换为特定的格式等。

经过以上预处理,外部人口数据就变得更加干净、整洁、易于分析。

在步骤3中:将预处理后的人口数据信息与包含标准地址的StarRocks数据仓库中人口地址信息进行匹配,采用多级地址匹配算法,计算输入地址与标准地址之间的相似度。

具体的,通过BERT模型来完成中文地址的自动解析任务,分为以下几个步骤:

1)数据准备:首先,需要收集大量的中文地址数据,包括不同类型的地址,如家庭地址、公司地址、学校地址等。同时,需要为每个地址标记相应的区域、街道、门牌号等信息。

2)数据预处理:对于收集到的地址数据,需要进行预处理,包括分词、去除停用词、词干提取等操作。同时,需要将文本数据转换为BERT模型可以处理的格式,即序列化格式。

3)构建模型:使用BERT模型进行中文地址解析任务。BERT模型是一种预训练语言模型,可以自动学习文本的表示,同时适用于不同的自然语言处理任务。在BERT模型的基础上,可以添加一层或多层分类器,用于对地址进行分类和解析。

4)训练模型:使用收集到的地址数据,对BERT模型进行训练。在训练过程中,需要将地址数据输入到模型中,同时将对应的区域、街道、门牌号等信息作为标签。通过优化损失函数,使模型能够学习到地址数据中的规律,从而提高地址解析的准确性。

5)模型评估:在训练过程中,可以使用交叉验证等方法,对模型的性能进行评估。同时,可以使用准确率、召回率、F1值等指标,来衡量模型的性能。

所述匹配算法和准确性中,标准地址匹配技术可能采用特定的匹配算法和评估指标,以确保地址匹配的准确性和一致性。本公开匹配算法分为多级,第一层级基于关键字或者正则匹配算法快速绑定到镇街社区层级,第二层级基于楼栋单元户号和已经匹配的社区正则匹配到户室例如(//.*汇美花月苑\D*2\D*1\D*101)正则匹配汇美花月苑2栋1单元101室。另外支持关键字自定义匹配策略支持别名匹配,比如说东花园实际对应东华园,莲池生活区实际对应三宿舍等诸如此类的区域名称,会形成特殊区域字典库,进一步提高准确性。

将预处理后的人口数据信息与包含标准地址的StarRocks数据仓库中人口地址信息进行匹配,采用多级地址匹配算法,现根据镇街关键字进行一次初步匹配,让后匹配镇街下的社区,更具社区唯一地址名称同时纠正关联镇街,以此类推,在匹配社区下的小区,递归向上纠正上一级别,类似与神经网络里的反向传播,最后一级是户室,这里使用正则匹配的方法,例如D*2\D*1\D*101)正则匹配xxx小区2栋1单元101室,然后逐层反向纠正上一级别;对匹配到标准地址的区域进行关联,将未匹配到标准地址的区域存储到特殊地址库,将特殊地址库中的地址数据进行更新维护,在动态更新后纳入包含标准地址的StarRocks数据仓库中;

数据更新维护的方法为对包含标准地址的StarRocks数据仓库进行定期更新和维护,将新的地址的变化和变更进行保存,一但标准地址发生变化会主动触发标准地址匹配动作。因为标准地址采集过来之后需要人工审核,人工审核通过之后或触发标准地址匹配的动作,对地址进行更新(包括别名,曾用名等)也会触发准地址匹配的动作。

实施例2

本公开的一种实施例中提供了一种基于分析型数据仓库的人口标准地址匹配系统,包括:

数据库初始化模块,用于收集并整理包含标准地址的StarRocks数据仓库;

数据获取模块,用于获取外部人口数据,并对所述外部人口数据进行预处理;

地址匹配模块,用于将预处理后的人口数据信息与包含标准地址的StarRocks数据仓库中人口地址信息进行匹配,采用多级地址匹配算法,对匹配到标准地址的区域进行关联,将未匹配到标准地址的区域存储到特殊地址库,将特殊地址库中的地址数据进行更新维护,在动态更新后纳入包含标准地址的StarRocks数据仓库中;

所述多级地址匹配算法包括:第一层级是基于关键字或者正则匹配算法将标准地址绑定到镇街社区层级,第二层级是基于楼栋单元户号和已经匹配的社区正则匹配到户室,实现人口数据标准地址的匹配。

实施例3

一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现所述的基于分析型数据仓库的人口标准地址匹配方法。

实施例4

一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现所述的基于分析型数据仓库的人口标准地址匹配方法。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

技术分类

06120116506189