掌桥专利:专业的专利平台
掌桥专利
首页

地址信息分级处理方法、装置及设备

文献发布时间:2023-06-19 11:32:36


地址信息分级处理方法、装置及设备

技术领域

本公开实施例涉及计算机技术领域,尤其涉及一种地址信息分级处理方法、装置及设备。

背景技术

为了提高企业的竞争力,拓展企业的业务,需要对企业的资源分布情况进行统一管理,尤其需要对不同的地域维度(如,省、市、区、县等等)的资源分布情况进行统计。目前没有标准的地址信息模板,采用人工录入和人工分级的方式,对地址信息进行分级,以便了解不同的地域维度的资源分布情况。但是,随着行政区划分方式的变化,地址信息的变更和维护就会有一定难度

目前,现有技术中,主要是采用分词工具,根据地址信息中的关键字对地址信息进行分级。但是分词工具中处理依赖的关键字有限,需要人工进行维护和更新,导致分词工具进行地址信息分级,存在人工成本高、效率低的问题。

发明内容

本公开实施例提供一种地址信息分级处理方法、装置及设备,以克服现有技术中分词工具中处理依赖的关键字有限,需要人工进行维护和更新,导致分词工具进行地址信息分级,存在人工成本高、效率低的问题。

第一方面,本公开实施例提供一种地址信息分级处理方法,包括:

获取预设数量的地址信息,其中所述预设数量的地址信息组成训练集;

对所述训练集中的每一条地址信息按照地址分级进行标签标注;

根据所述训练集和标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型;

将待分级的地址信息输入至所述训练好的模型中,以使所述训练好的模型输出分级后的地址信息。

在一种可能的设计中,所述根据所述训练集和标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型,包括:

Sa:将标注好的训练集中的任一条地址信息输入所述初始的预训练模型得到分级后的地址信息;

Sb:根据所述标注后的地址信息和所述分级后的地址信息,对所述初始的预训练模型中进行反向传播,以调整所述初始的预训练模型的权重系数;

Sc:重复步骤Sa和Sb,直至调整权重系数后的所述初始的预训练模型输出的分级后的地址信息与所述标注后的地址信息的误差,满足预设误差范围时,停止训练,得到所述训练好的模型。

在一种可能的设计中,所述对所述训练集中的每一条地址信息按照地址分级进行标签标注,包括:

获取所述训练集中每一条地址信息每一级地址文本,根据预定义的标签对所述地址文本中每个字符打上对应级别对应的标签。

在一种可能的设计中,所述初始的预训练模型为增强语言表征模型ERNIE。

在一种可能的设计中,所述将待分级的地址信息输入至所述训练好的模型中,以使所述训练好的模型输出分级后的地址信息之后,还包括:

根据所述分级后的地址信息得到结构化的地址信息;

根据所述结构化的地址信息,生成企业资源信息统计表,以方便用户统计企业资源信息。

第二方面,本公开实施例提供一种地址信息分级处理装置,包括:

获取模块,用于获取预设数量的地址信息,其中所述预设数量的地址信息组成训练集;

标注模块,用于对所述训练集中的每一条地址信息按照地址分级进行标签标注;

训练模块,用于根据所述训练集和标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型;

处理模块,用于将待分级的地址信息输入至所述训练好的模型中,以使所述训练好的模型输出分级后的地址信息。

在一种可能的设计中,所述装置,还包括:

生成模块,用于根据所述分级后的地址信息得到结构化的地址信息;根据所述结构化的地址信息,生成企业资源信息统计表,以方便用户统计企业资源信息。

第三方面,本公开实施例提供一种服务设备,包括:

显示屏;

至少一个处理器和存储器;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的设计所述的地址信息分级处理方法。

第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的地址信息分级处理方法。

第五方面,本公开实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计所述的地址信息分级处理方法。

本公开实施例提供的地址信息分级处理方法、装置及设备,该方法,首先获取大量的地址信息以组成训练集,并对训练集的地址信息进行标签标注;然后基于该训练集和标签标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型;最后当需要对新的地址信息进行分级处理时,将待分级的地址信息输入至训练好的模型中,输出分级后的地址信息,能够对地址信息进行智能分级处理,节约人工成本、提高分级处理效率。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的地址信息分级处理系统的架构示意图;

图2为本公开实施例提供的地址信息分级处理方法的流程示意图一;

图3为本公开实施例提供的地址信息分级处理方法的流程示意图二;

图4为本公开实施例提供的地址信息分级处理装置的结构示意图;

图5为本公开实施例提供的服务设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

目前,在企业中为了对企业资源分布进行管理,往往需要跟不同维度的地址信息中获取不同的维度的地址,以获取各级维度下的资源分布情况。通常,在现有技术中主要是采用分词工具,对地址信息进行分级。但是分词工具中处理依赖的关键字有限,需要人工进行维护和更新,导致分词工具进行地址信息分级,存在人工成本高、效率低的问题。

为了解决上述技术问题,本公开实施例提供一种地址信息分级处理方法、装置及设备,获取大量的地址信息以组成训练集,并对训练集的地址信息进行标签标注;基于该训练集和标签标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型;当需要对新的地址信息进行分级处理时,将待分级的地址信息输入至训练好的模型中,输出分级后的地址信息,能够对地址信息进行智能分级处理,节约人工成本、提高分级处理效率。

图1为本公开实施例提供的地址信息分级处理系统的架构示意图。如图1所示,本实施例提供的系统包括终端101和服务设备102。其中,终端101可以为手机、平板、个人电脑等。

其中,终端101可以是任何形式的终端。该终端可以是可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network,简称RAN)与一个或多个核心网设备进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。再例如,无线终端还可以是个人通信业务(Personal Communication Service,简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol,简称SIP)话机、无线本地环路(Wireless Local Loop,简称WLL)站、个人数字助理(Personal DigitalAssistant,简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(RemoteStation)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(UserTerminal)、用户代理(User Agent)、用户设备(User Device or User Equipment),在此不作限定。可选的,上述终端还可以是智能手表、平板电脑、个人电脑等设备。

其中,服务设备102可以是一台计算机或服务器,也可以是多台计算机或服务器组成的集群,对此本公开实施例不作任何限制。

图2为本公开实施例提供的地址信息分级处理方法的流程示意图一,本实施例的执行主体可以为图1所示的终端或服务设备。如图2所示,该方法包括:

S201:获取预设数量的地址信息,其中所述预设数量的地址信息组成训练集。

在本实施例中,预设数量的地址信息可以是从资源分布管理系统中导出的预设时间段内的所有地址信息。

例如,可以是12个月、24个月或48个月内所有的地址信息。

在本实施例中,训练集可以是文本格式,也可以是表格格式。

S202:对所述训练集中的每一条地址信息按照地址分级进行标签标注。

在本实施例中,首先对标签按照地址分级进行预定义。对每一级地址文本的开始位置字符进行标签定义,以及对每一级地址文本的中间位置字符和结束位置字符进行定义。

对于地址信息中需要分级的文本实体,进行标签集合的定义,以表示可能的分级结果。例如,需要被分级的文本实体包括“省、市、区、路、单元”等,因此,标签集合可以定义为:

label={A1-B,A1-I,A2-B,A2-I,A3-B,A3-I,A4-B,A4-I,A5-B,A5-I,A6-B,A6-I,,A7-B,A7-I,A8-B,A8-I,A9-B,A9-I,A10-B,A10-I,A11-B,A11-I};

其中,每个标签的定义为(表一):

表一

具体地,获取每一条地址信息每一级地址文本,根据预定义的标签对所述地址文本中每个字符打上对应级别对应的标签。

对训练集中的每一条数据进行标注,根据文本实体识别出每一级地址文本的起始位置字符,并根据每一级地址文本的起始位置的进行标签标注;然后对于该级地址文本与下一级的地址文本之间的该级址文本的所有的中间位置字符和结束位置字符进行标签标注。

举例来说,对于地址信息:安湖省合春市开发区建设路150号绿景花苑小区2期3号楼4单元33楼2202室。每个字符对应的标签,如表二所示:

表二

S203:根据所述训练集和标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型。

在本实施例中,初始的预训练模型可以深度学习模型,例如深度神经网络模型。

可选的,所述初始的预训练模型为增强语言表征模型ERNIE。

S204:将待分级的地址信息输入至所述训练好的模型中,以使所述训练好的模型输出分级后的地址信息。

在本实施例中,接收用户在终端输入的地址信息,对用户输入的地址信息进行无效信息的过滤,得到待分级的地址信息,并输入训练好的模型中。

其中,对用户输入的地址信息进行无效信息的过滤,包括:删除用户输入的地址信息的无效字符,例如标点符号等信息。

从上述描述可知,首先,获取大量的地址信息以组成训练集,并对训练集的地址信息进行标签标注;然后,基于该训练集和标签标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型;最后,当需要对新的地址信息进行分级处理时,将待分级的地址信息输入至训练好的模型中,输出分级后的地址信息,能够对地址信息进行智能分级处理,节约人工成本、提高分级处理效率。

在本公开的一个实施例中,上述步骤S203中,所述根据所述训练集和标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型的具体过程,包括:

Sa:将标注好的训练集中的任一条地址信息输入所述初始的预训练模型得到分级后的地址信息;

Sb:根据所述标注后的地址信息和所述分级后的地址信息,对所述初始的预训练模型中进行反向传播,以调整所述初始的预训练模型的权重系数;

Sc:重复步骤Sa和Sb,直至调整权重系数后的所述初始的预训练模型输出的分级后的地址信息与所述标注后的地址信息的误差,满足预设误差范围时,停止训练,得到所述训练好的模型。

在本实施例中,初始的预训练模型可以是神经网络模型。例如:DNN(deep neuralnetwork),CNN(convolutional neural network),RNN(recursive neural network)等各类型的网络结构及其拓展等。

图3为本公开实施例提供的地址信息分级处理方法的流程示意图二,本实施例在图2实施例的基础上,在步骤S204所述将待分级的地址信息输入至所述训练好的模型中,以使所述训练好的模型输出分级后的地址信息之后,还包括:

S205:根据所述分级后的地址信息得到结构化的地址信息。

在本实施例中,对分级后的地址信息按照级别间隔保存得到结构化的地址信息,例如在每一级的地址文本之间添加特殊符号,例如“#”。

举例来说,“安湖省合春市开发区建设路150号绿景花苑小区2期3号楼4单元33楼2202室”的结构化地址信息为“安湖省#合春市#开发区#建设路#150号#绿景花苑小区#2期#3号楼#4单元#33楼#2202室”的11级的地址信息。

S206:根据所述结构化的地址信息,生成企业资源信息统计表,以方便用户统计企业资源信息。

在本公开实施例中,将结构化的地址信息导入表格的首行内容或首列内容中,在表格中添加企业资源信息统计相关统计项,得到企业资源信息统计表。用户可以在该企业资源信息统计表中,手动自动导入企业资源信息数据,方便用户对企业资源信息进行统计。

图4为本公开实施例提供的地址信息分级处理装置的结构示意图。如图4所示,该地址信息分级处理装置40包括:获取模块401、标注模块402、训练模块403和处理模块404。

其中,获取模块401,用于获取预设数量的地址信息,其中所述预设数量的地址信息组成训练集;

标注模块402,用于对所述训练集中的每一条地址信息按照地址分级进行标签标注;

训练模块403,用于根据所述训练集和标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型;

处理模块404,用于将待分级的地址信息输入至所述训练好的模型中,以使所述训练好的模型输出分级后的地址信息。

在本公开的一个实施例中,所述训练模块403,具体用于所述根据所述训练集和标注后的地址信息,对初始的预训练模型进行训练,得到训练好的模型的过程,包括:Sa:将标注好的训练集中的任一条地址信息输入所述初始的预训练模型得到分级后的地址信息;Sb:根据所述标注后的地址信息和所述分级后的地址信息,对所述初始的预训练模型中进行反向传播,以调整所述初始的预训练模型的权重系数;Sc:重复步骤Sa和Sb,直至调整权重系数后的所述初始的预训练模型输出的分级后的地址信息与所述标注后的地址信息的误差,满足预设误差范围时,停止训练,得到所述训练好的模型。

在本公开的一个实施例中,所述标注模块402,具体用于所述对所述训练集中的每一条地址信息按照地址分级进行标签标注的过程,包括:获取所述训练集中每一条地址信息每一级地址文本,根据预定义的标签对所述地址文本中每个字符打上对应级别对应的标签。

在本公开的一个实施例中,所述所述初始的预训练模型为增强语言表征模型ERNIE。

在本公开的一个实施例中,所述装置还包括:生成模块405,用于根据所述分级后的地址信息得到结构化的地址信息;根据所述结构化的地址信息,生成企业资源信息统计表,以方便用户统计企业资源信息。

本实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。

图5为本公开实施例提供的服务设备的硬件结构示意图。如图5所示,本实施例的服务设备50包括:

显示屏504;

处理器501以及存储器502;其中

存储器502,用于存储计算机执行指令;

处理器501,用于执行存储器存储的计算机执行指令,以实现上述方法实施例中所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。

可选地,存储器502既可以是独立的,也可以跟处理器501集成在一起。

当存储器502独立设置时,该服务设备还包括总线503,用于连接所述存储器502、显示屏504和处理器501。

本公开实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的地址信息分级处理方法。

本公开实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的地址信息分级处理方法。

在本公开所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。

另外,在本公开各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。

应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。

相关技术
  • 地址信息分级处理方法、装置及设备
  • 地址信息处理方法、装置、电子设备及存储介质
技术分类

06120112965293