掌桥专利:专业的专利平台
掌桥专利
首页

地址关系模型的训练方法和装置、地址解析方法和装置

文献发布时间:2023-06-19 09:57:26


地址关系模型的训练方法和装置、地址解析方法和装置

技术领域

本发明涉及人工智能技术领域,特别涉及一种地址关系模型的训练方法和装置、地址解析方法和装置、计算设备和存储介质。

背景技术

随着信息技术的飞速发展,涌现出很多基于通信地址的服务,例如,电子商务、物流行业等。其中,对长文本地址进行地址解析是这些服务的基础工作之一,解析后的地址可以用于支持上层的地址服务,例如,地址相似度计算、地址库的构建和检索、地址邮编查询等应用。

通常,这些通信地址数据需要由用户提供,然而在实际中用户可能不记得详细地址或者不记得完整的通信地址或者只会输入部分地址简称或者只记得该地址附近的其它建筑物的通信地址,这些情况下,都将会给地址解析工作带来较大的困难,从而影响其上层地址服务的服务质量。

因此,仍然需要一种有效的地址解析方案,以为提高相关地址服务的质量提供支持。

发明内容

本发明提出了一种地址关系模型的训练方法和装置、地址解析方法和装置,以为提高相关地址服务的质量提供支持。

根据本公开的第一个方面,提供了一种地址文本解析方法,包括:获取地址文本;获取所述地址文本所包含的多个地址元素;确定所述多个地址元素的地址关系,其中,所述地址关系包括所述多个地址元素之间的关联关系,所述关联关系包括并列关系或偏序关系。

可选地,所述获取地址文本所包含的多个地址元素的步骤包括:对所述地址文本进行分词处理,以获得所述多个地址元素。

可选地,所述确定所述多个地址元素的地址关系的步骤包括:对所述多个地址元素进行解析,确定所述地址元素所属的级别;基于所述地址元素所属的级别,确定所述多个地址元素的地址关系。

可选地,所述地址关系包括所述多个地址元素之间的指向关系,所述指向关系包括从对应于较低级别的地址元素指向对应于较高级别的地址元素。

可选地,所述确定所述多个地址元素的地址关系的步骤还包括:基于所述多个地址元素以及预设的地址元素关系,确定所述多个地址元素的地址关系,所述预设的地址元素关系包括预设的地址元素之间的关联关系。

可选地,该方法还包括:维护地址关系表,所述地址关系表包括所述预设的地址元素关系。

可选地,所述预设的地址元素关系包括下述的至少一项:自指关系;子元素关系;同义元素关系;同等级元素关系;辅助关系;同级非同义关系。

可选地,所述确定所述多个地址元素的地址关系的步骤包括:利用训练好的地址关系模型,确定多个地址元素的地址关系。

可选地,所述地址关系模型是基于地址文本及其相对应的地址关系训练得到的。

可选地,所述利用训练好的地址关系模型确定多个地址元素的地址关系的步骤包括:将所述地址文本以及所述多个地址元素,输入所述地址关系模型,以得到所述多个地址元素的地址关系。

可选地,该地址文本解析还包括:基于所述多个地址元素以及预设的地址元素关系,确定所述多个地址元素的地址关系,所述预设的地址元素关系包括预设的地址元素之间的关联关系;以及以利用所述地址关系模型确定的地址元素的地址关系,作为基于所述预设的地址元素关系确定的地址元素的地址关系的补充。

可选地,所述确定所述多个地址元素的地址关系的步骤还包括:基于多个地址元素的地址关系,生成对应于所述地址文本的地址关系图。

可选地,采用拓扑排序,构建所述地址关系图。

可选地,所述地址关系图用于地址服务。

可选地,所述获取地址文本的步骤包括:从地址数据库中获取所述地址文本,其中,所述地址数据库包括基于多种来源获取的文本。

可选地,所述地址关系是基于图模型构建的。

可选地,所述地址文本是表述地址信息的文本。

根据本公开的第二个方面,还提供了一种地址文本解析方法,包括:获取用户输入的第一地址文本,所述第一地址文本包括多个地址元素,所述多个地址元素具有并列关系或偏序关系;利用地址关系模型,对所述第一地址文本进行解析处理;向所述用户返回第二地址文本,所述第二地址文本是对所述第一地址文本进行解析处理得到的标准地址文本。

可选地,所述利用地址关系模型对所述第一地址文本进行解析处理的步骤包括:利用所述地址关系模型,确定所述多个地址元素的地址关系;基于所述多个地址元素的地址关系,重组或修正所述多个地址元素,以得到所述第二地址文本。

可选地,所述第二地址文本所包括的多个地址元素具有偏序关系。

可选地,所述第二地址文本用于地址服务;并且/或者所述地址服务包括下述的至少一项:位置服务;地址相似度计算服务;地址库服务;地址相关查询服务。

根据本公开的第三个方面,还提供了一种地址文本解析装置,包括:文本获取装置,用于获取地址文本;地址元素获取装置,用于获取所述地址文本所包含的多个地址元素;地址关系确定装置,用于确定所述多个地址元素的地址关系,其中,所述地址关系包括所述多个地址元素之间的关联关系,所述关联关系包括并列关系或偏序关系。

根据本公开的第四个方面,还提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。

根据本公开的第五个方面,还提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。

由此,通过构建地址元素之间的关系网络来解析表述地址信息的文本,以应对更加复杂的地址文本,更好地为相关地址服务提供支持。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。

图1示出了根据本公开一个实施例的训练地址关系模型的方法的流程示意图。

图2示出了根据本公开一个实施例的地址文本解析方法的流程示意图。

图3A-3C示出了根据本公开一个实施例的地址文本解析的例子。

图4示出了根据本公开一个实施例的地址关系模型训练装置的示意性框图。

图5示出了根据本公开一个实施例的地址解析装置的示意性框图。

图6示出了根据本公开一个实施例的地址文本解析方法的流程示意图。

图7示出了根据本公开一个实施例的地址文本解析装置的结构示意图。

图8示出了根据本发明一个实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

如前所述,当前基于通信地址的相关服务的服务质量会受到对通信地址的地址解析的影响。

有鉴于此,本公开提出了一种地址文本解析方案,通过解析表述地址信息的文本并构建该文本中所涉及的各地址元素之间的地址关系图,以为基于地址元素的相关地址服务提供支持。

在一个实施例中,该地址关系图可以为有向无环图,基于该有向无环图可以知悉地址元素之间的关联关系,从而为基于地址元素的相关服务提供支持,以提升相关服务的服务质量。

一般情况下,中文的地址描述是具有包含的偏序关系的。地址偏序关系是指地址中的区域具有大小包含的关系,例如:省>市>区>街道/社区>路>楼栋。

对于地址文本“AA省BB市CC区DD路100号X小区Y栋Z单元202室”解析为:"prov=AA省city=BB市district=CC区road=DD路roadno=100号poi(兴趣点)=X小区houseno=Y栋cellno=Z单元roomno=202室",在按照地理范围划分的情况下,省>市>区>路>...。此时可以将这类地址的结构表示为单向链式模型。

但是在日常生活中,很多地址文本的标识并不仅仅是这种单向链式模型的表述,例如在地址文本“XX路123号YY大厦对面的ZZ银行”、“XX路和YY路交叉口的ZZ小区”,其中“YY大厦”与“ZZ银行”、“XX路”与“YY路”不是偏序关系而是并列关系。

其中,链式结构无法解决带有并列关系结构的地址文本,而偏序关系太过简单,无法体现出地址元素关系之间更加丰富的关系。而本公开的地址文本解析方案则既可以适用于上述基于偏序关系的地址元素,又可以适用于非偏序关系的地址元素,能够很好地解决上述不足。

下面,将结合附图及实施例,详细说明本公开的地址文本解析方案。

在本发明实施例中,该地址关系图可以基于预定地址关系模型得到。其中,可以预先通过学习和训练以得到该地址关系模型。随后,基于该地址关系模型,对待处理的文本进行解析以获得该文本中所包含的地址元素的关系,以便于为基于该文本以及地址元素的相关服务提供支持。其中,例如可以基于地址元素的关系,对文本中所涉及的多个地址元素进行重组或修正,以得到标准的地址文本(例如包括基于并列关系的地址元素),从而基于地址元素的关系或者所获得的标准的地址文本,来为用户提供与地址相关的服务。例如,位置服务、地址相似度计算服务、地址库服务、地址相关查询服务等。

在如下的描述中,将分为多个阶段,例如准备阶段、地址关系模型训练阶段、地址关系模型应用阶段等,分别对本公开的地址文本解析方案的具体实现展开描述。

其中,鉴于在下文描述中,在地址关系模型训练阶段和地址关系模型应用阶段均涉及了地址文本、地址元素和地址关系等,在下文描述中,至少为了便于区分,例如可以将地址关系模型训练阶段所涉及的地址文本称为“第一文本”,该阶段所涉及的地址元素称为“第一地址元素”,该阶段所涉及的地址关系成为“第一地址关系”;将在地址关系模型应用阶段所涉及的地址文本称为“第二文本”,该阶段所涉及的地址元素称为“第二地址元素”,该阶段所涉及的地址关系称为“第二地址关系”。或者,也可以在地址关系模型应用阶段,将待处理的地址文本(例如用户输入的地址文本)称为“第一地址文本”,而将经过处理得到的地址文本(例如标准地址文本)称为“第二地址文本”。应当理解的是,本公开实施例中,“第一”、“第二”仅是为了便于区分,而非对所涉及的地址文本和/或地址元素和/或地址关系的任何限定。

在训练地址关系模型之前,可以预先进行准备工作,以便于训练得到地址关系模型,该地址关系模型可以应用于地址文本解析,以获得多个地址元素之间的关联关系,从而为相关地址服务提供支持。应当理解的是,这里以及本公开全文述及的地址服务例如可以是基于地址元素或基于地址的服务,包括但不限于地址相似度计算、地址库的构建和检索、地址邮编查询等服务。

在一个实施例中,可以预先维护地址数据库,以便于训练地址关系模型。其中,所维护的地址数据库可以存储在任何关系型数据库和/或非关系型数据库中,本公开对此不做限制。

该地址数据库可以包括海量文本,这些文本可以是表述地址信息的地址文本。其中,可以是通过多种方式或者基于多种来源获取到这些文本。例如可以是用户历史输入的、从道路管理部门获取的、从相关地址服务机构获取的、或者经由其它途径获取的,本公开对此不做限制。

随后,可以对所收集到的海量文本进行数据处理,例如文本清洗、统一编码处理等,包括但不限于繁体转简体、全角字符转半角字符、大写转小写、无用字符去除等,并可以将行政区划做补齐归一等预处理,以方便后续的地址标注。例如,对于“余杭文一西路969号阿里巴巴西溪园区1号楼7层910室”,处理为:“浙江省杭州市余杭区文一西路969号阿里巴巴西溪园区1号楼7层910室”。

通常,表述地址信息的文本中包含多个地址元素,即构成通讯地址的各个粒度的要素。在本公开实施例中,可以基于如前所述的地址数据库,预先对海量文本进行地址解析,并设置地址元素关系,以便于训练地址关系模型。

其中,地址解析可以是将长文本地址进行分词处理以获得其中所包含的一个或多个地址元素。在进行分词处理时,可以基于预定的分词模型实现。其中,可以采用开源的分词工具,也可以利用统计模型或者神经完了模型进行分词训练实现,本公开对于分词处理的具体实现方式不做限制。

例如,对于长文本地址“杭州市文一西路961号亲橙里购物中心”,“杭州”表示城市、“文一西路”表示道路、“961号”表示路号、“亲橙里购物中心”表示POI。分词处理之后得到:杭州市、文一西路、961号、亲橙里购物中心这多个地址元素。

所设置的地址元素关系可以包括地址元素之间的关联关系。

该地址元素关系可以是预先设置的。例如可以预先基于海量地址元素以及各个地址元素所属的级别(例如行政级别),设置地址元素关系。地址元素关系可以包括但不限于包含关系、并列关系、偏序关系、非偏序关系等。

例如,对于地址文本“杭州市文一西路961号亲橙里购物中心”,在基于行政级别划分时,“杭州”属于市级,“文一西路”属于道路级,则“杭州”与“文一西路”为包含关系。对于地址文本“XX路123号YY大厦对面的ZZ银行”,“YY大厦”与“ZZ银行”为并列关系。对于地址文本“AA省BB市CC区DD路100号……”,“AA省”、“BB市”、“CC区”为偏序关系。

在另一个实施例中,上述地址元素关系可以包括多种,例如,可以包括自指关系、直接子元素关系、间接子元素关系、同义元素关系、同等级元素关系、辅助关系、同级非同义关系等。

其中,自指关系:表示地址元素与其自身的关系,以及表示文本中重复出现同样内容的地址元素。

直接子元素:因为地址元素带有偏序关系,这种关系代表的是直接的偏序关系,例如,“市”为“省”的直接子元素。

间接子元素:表示间接的偏序关系,例如,“道路”为“省”的间接子元素。

同义元素:表示两个地址元素在现实中是代表同一地址实体的不同表述,例如示意图左边的“101号”和“A大厦”。

同等级元素:表示两个地址元素之间不存在偏序关系是同等级的,例如示意图中的中间的“A路”和“B路”。

辅助关系主体:代表一种辅助关系的发生主体,例如“XX小店东的YY小区”,其中XX小店为主体,东为辅助词,YY小区为客体。辅助关系客体:代表一种辅助关系的发生客体,例如“XX小店东的YY小区”,其中XX小店为主体,东为辅助词,YY小区为客体。

同级非同义关系:代表两个地址元素是在同一级偏序关系,同时强调并非同义关系。

应当理解的是,上述地址元素关系仅是示意性举例而非限定。在其它实施例中,可以根据实际情况确定,并可以结合其具体应用场景而实时更改,本公开对此不做限制。

在一个实施例中,上述地址元素关系可以基于地址关系表实现。即,本发明实施例中可以维护地址关系表,该地址关系表中可以包括预先设置的地址元素关系。

其中,所维护的地址关系表可以如下表1所示:

表1

随后,基于上述准备工作,即可训练地址关系模型。

图1示出了根据本公开一个实施例的训练地址关系模型的方法的流程示意图。

如图1所示,在步骤S110,获取第一文本所包含的多个第一地址元素。

这里,第一文本可以是从地址数据库中获取的文本,该文本可以表述地址信息的地址文本。在此,可以如前所述,通过对第一文本进行分词处理,以获得其所包含的多个地址元素。

第一地址元素可以是第一文本中所包含的地址元素。该地址元素可以是构成通讯地址的各个粒度的要素,例如XX省、XX市、XX县、XX乡、XX区、XX街道、XX号、XX大厦等等。

在步骤S120,确定所述多个第一地址元素的第一地址关系。

所述第一地址关系可以包括所述第一地址元素之间的关联关系。该关联关系可以包括上述的并列关系、偏序关系、包含关系、非偏序关系等。

在一个实施例中,可以基于第一地址元素所述的级别,来确定第一地址关系。具体地,例如,可以对所获得的多个第一地址元素进行解析,以确定第一地址元素所属的级别,并基于第一地址元素所属的级别,确定多个第一地址元素的第一地址关系。

其中,第一地址关系可以包括多个第一地址元素之间的指向关系。其中,该指向关系可以包括从对应于较低级别的第一地址元素指向对应于较高级别的第一地址元素。

在一个实施例中,可以基于预设的地址关系表(例如上文所述表1),来确定第一地址关系。具体地,例如,可以基于这多个第一地址元素以及预设的地址元素关系,确定多个第一地址元素的第一地址关系。

其中,该第一地址关系可以基于图模型构建的。例如,可以使用分词之后的第一地址元素并基于预设的地址关系表构建对应于第一文本的地址关系图,该地址关系图即为第一地址关系。在该地址关系图中,可以包括各个地址元素之间的关系网络,既可以包括地址元素之间的指向关系,也可以包括地址元素之间的并列关系,本公开对此不做限制。

在一个实施例中,还可以对分词结果进行采样,形成待标注的训练数据,之后,将分词后的第一地址元素构建相应的关系矩阵,并进行人工标注,以获得第一地址关系。

之后,在步骤S130,基于所述第一文本以及所述第一地址关系,训练所述地址关系模型。

这里,该地址关系模型可以是神经网络模型。

在一个实施例中,可以基于第一文本的上下文训练地址关系模型。具体地,例如可以采用ELMO模型将分词后的整段地址作为上下文输入,同时将对应的第一地址元素向量对(pair)作为输出,例如将“X市”和“Y区”经过ELMO模型之后的向量作为输出,上层加入一个softmax分类器对两者的关系作判定。其中,该softmax分类器基于预先维护的地址关系表对两者的关系进行判定。

训练得到的地址关系模型可以用于对表述地址信息的地址文本进行解析,以对地址文本中所包含的各个地址元素的关系进行预测,从而高效地实现对地址文本的解析,以为其上层的相关地址服务提供支持。

基于该地址关系模型,不需要指定人工规则以及预制的地址元素词表,可以节省人力成本。并且,该地址关系模型自身具备一定的泛华能力,并不会出现因未曾出现过的词表而导致效果极具变差等情况。

图2示出了根据本公开一个实施例的地址文本解析方法的流程示意图。其中,可以利用如前所述训练得到的地址关系模型实现对地址文本的解析处理。该地址文本解析方法例如可以得到标准地址文本。该地址文本解析方法可以适用于任何关于通信地址的场景,包括但不限于搜索场景、导航场景、物流场景等。并且其中,可以使用根据如前训练方法得到的地址关系模型,来对这些场景下涉及地址信息的文本进行地址解析,从而为基于该文本的相关地址服务提供支持。该相关地址服务可以包括但不限于位置服务、地址相似度计算服务、地址库服务、地址相关查询服务等。

如图2所示,在步骤S210,获取第二文本所包含的多个第二地址元素。

与第一文本相似,这里的第二文本可以是表述地址信息的地址文本。其中,该第二文本可以是用户提供的,也可以为提供某种服务而相应获取的,本公开对此不做限制。

在获得第二文本之后,也可以与如前所述相同的方式,对该第二文本进行数据处理,例如分词处理,以获得该第二文本中所包含的多个第二地址元素。

在步骤S220,利用训练好的地址关系模型,确定所述多个第二地址元素的第二地址关系。

与第一地址关系相似,第二地址关系包括所述第二地址元素之间的关联关系。该关联关系可以包括但不限于并列关系、偏序关系以及非偏序关系等。

在一个实施例中,在步骤S220,可以将所述第二文本以及所述多个第二地址元素,输入所述地址关系模型,以得到所述多个第二地址元素的第二地址关系。其中,该地址关系模型例如可以使用在模型训练阶段得到的ELMO模型和分类器,对各个第二地址元素之间的关系进行预测,从而得到该第二地址关系。

在另一个实施例中,也可以基于所述多个第二地址元素以及预设的地址元素关系,确定所述多个第二地址元素的第二地址关系。

具体地,可以在获得多个第二地址元素之后,基于所述多个第二地址元素以及预设的地址元素关系(例如参见表1),建立第二地址元素相应的关系矩阵。该关系矩阵中可以包括多个第二地址元素的初始关系。之后,基于地址关系模型对各个第二地址元素之间的关系进行预测,并将所预测的关系填充至所建立的关系矩阵中,从而获得第二地址关系。其中,可以以利用地址关系模型确定的第二地址元素的地址关系,可以作为基于所述预设的地址元素关系确定的第二地址元素的地址关系的补充。

在步骤S230,基于所述多个第二地址元素的第二地址关系,生成对应于所述第二文本的地址关系图。

这里,地址关系图可以是基于图模型构建的,该地址关系图即为地址关系网即地址元素关系网络,是由地址元素构建的一种有向无环图,图中每个节点是一个具体的地址元素,描述了该点的地址元素标签和具体文本内容。例如:"city=杭州市","road=文一西路","roadno=961号","poi=亲橙里购物中心"。图中的每一条边为两个地址元素之间的指向关系,代表了两个地址元素之间的覆盖范围大小。例如:“"city=杭州市"<-"road=文一西路"”表示“road”是“city”的一个上一级地址元素。

在一个实施例中,可以采用拓扑排序构建所述地址关系网,并且,可以去除掉网络中的独立节点和重复节点,并去除间接子元素关系的边,最终生成地址元素关系网。其中,拓扑排序是针对有向无环图的一种排序方式,该排序满足这样的条件:对于图中的任意两个结点u和v,若存在一条有向边从u指向v,则在拓扑排序中u一定出现在v前面。

由此,该地址关系图可以用于地址服务,基于各个地址元素之间的关系,即可为其上层相关地址服务(包括但不限于地址相似度计算、地址库的构建和检索、地址邮编查询等应用)提供支持。

为了更好地理解本公开的地址解析方案,图3A-3C示出了根据本公开一个实施例的地址文本解析的例子。

参见图3A所示,对于待预测的地址文本(例如当前的地址输入文本)“X市Y区Z路101号A大厦”进行分词处理,分词处理后得到多个地址元素“X市”、“Y区”、“Z路”、“101号”、“A大厦”。

这里的分词处理与模型训练阶段相似,区别仅在于训练阶段是对采样的数据进行批量分词处理,而这里仅对当前的地址输入文本进行分词处理。

之后,可以基于上文表1所示的地址关系表,构建地址元素之间的原始关系表。与模型训练阶段相似,可以基于分词后得到的地址元素构建其关系矩阵。该关系矩阵可以为空白矩阵,即各个地址元素之间的关系为空,或者,该关系矩阵可以包括文本所包含的各个地址元素之间的初始关系。

在此,可以利用训练得到的地址关系模型对各个地址元素的关系进行预测,并将所预测的关系填充至上述关系矩阵,从而获得相应的地址关系表。其中,可以以利用所述地址关系模型确定的地址元素的地址关系,作为基于所述预设的地址元素关系确定的地址元素的地址关系的补充,从而为地址解析提供更多的关系信息。

之后,在所构建的关系表的基础上构建地址关系图。其中,可以基于所得到的地址关系矩阵,采用拓扑排序构建地址关系图。参见图3A,该地址关系图中包括各个地址元素及其各自之间的指向关系。

参见图3B-3C,与图3A所示的流程相似,分别对待预测的地址文本“A路和B路交叉口C大厦”、“X区Y路101号A大厦对面B”进行处理以及地址元素关系预测,得到相应的地址关系图,具体细节可参见上文相关描述,在此不再赘述。

由此,本方案通过构建地址元素之间的关系网络来解析地址文本,此方法可以覆盖普通的偏序链式模型能够解决的情况,并且可以应对更加复杂的地址文本做分析,尤其是具有并列关系的地址元素文本。与此同时,该方法还制定了一套地址元素之间的关系模板,为地址解析提供了更多的关系信息。

在如前所述的某项服务(例如定位、导航、地址查询、物流服务、邮编查询等)中可以部署并应用上述地址关系模型。在用户期望体验该服务时,用户可以输入第一地址文本,该第一地址文本可以包括多个地址元素,所述多个地址元素具有并列关系或偏序关系。

上述服务可以获取用户输入的第一地址文本,并利用所部署的地址关系模型,对该第一地址文本进行解析处理。具体地,例如可以利用所述地址关系模型,确定所述多个地址元素的地址关系,并基于所述多个地址元素的地址关系,重组或修正所述多个地址元素,以得到所述第二地址文本。

之后,该服务可以向用户返回第二地址文本,该第二地址文本可以是对所述第一地址文本进行解析处理得到的标准地址文本。其中,第二地址文本所包括的多个地址元素可以具有偏序关系。

该服务还可以向用户提供基于该第二地址文本的相关结果,例如地址查询结构、导航线路、邮编等。

图4示出了根据本公开一个实施例的地址关系模型训练装置的示意性框图。图5示出了根据本公开一个实施例的地址解析装置的示意性框图。其中,地址关系模型训练装置和地址解析装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图4、5所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就地址关系模型训练装置和地址解析装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关的描述,这里不再赘述。

参见图4,该地址关系模型训练装置400可以包括第一地址元素获取装置410、第一地址关系确定装置420和训练装置430。

第一地址元素获取装置410可以获取第一文本所包含的多个第一地址元素。

第一文本可以是表述地址信息的地址文本,该第一文本可以是从地址数据库中获取的,其中,所述地址数据库可以包括基于多种来源获取的文本。第一地址元素获取装置410可以通过对所述第一文本进行分词处理,以获得所述多个第一地址元素。

第一地址关系确定装置420可以确定所述多个第一地址元素的第一地址关系。

优选地,第一地址关系可以包括所述第一地址元素之间的关联关系。该关联关系包括并列关系和/或偏序关系。

在一个实施例中,该第一地址关系可以是基于图模型构建的。

在一个实施例中,第一地址关系确定装置420可以对所述多个第一地址元素进行解析,确定所述第一地址元素所属的级别,并基于所述第一地址元素所属的级别,确定所述多个第一地址元素的第一地址关系。其中,所述第一地址关系包括所述多个第一地址元素之间的指向关系,所述指向关系包括从对应于较低级别的第一地址元素指向对应于较高级别的第一地址元素。

在一个实施例中,第一地址关系确定装置420可以基于所述多个第一地址元素以及预设的地址元素关系,确定所述多个第一地址元素的第一地址关系,所述预设的地址元素关系包括预设的地址元素之间的关联关系。其中,预设的地址元素关系包括预设的地址元素之间的关联关系。该预设的地址元素关系可以从预先维护的地址关系表获取。所述预设的地址元素关系包括下述的至少一项:自指关系;子元素关系;同义元素关系;同等级元素关系;辅助关系;同级非同义关系。

训练装置430可以基于所述第一文本以及所述第一地址关系,训练所述地址关系模型。

参见图5,该地址解析模型500可以包括第二地址元素获取装置510、第二地址关系确定装置520、关系图生成装置530。

第二地址元素获取装置510可以获取第二文本所包含的多个第二地址元素。其中,所述第二文本可以是表述地址信息的地址文本。

第二地址关系确定装置520可以利用训练好的地址关系模型,确定所述多个第二地址元素的第二地址关系。

关系图生成装置530可以基于所述多个第二地址元素的第二地址关系,生成对应于所述第二文本的地址关系图。其中,采用拓扑排序,构建所述地址关系图。

在本发明实施例中,该地址关系模型可以是使用如前所述训练方法训练得到的。

在本发明实施例中,所述第二地址关系可以包括所述第二地址元素之间的关联关系。所述关联关系可以包括并列关系和/或偏序关系。

在本发明实施例中,所述获取第二文本所包含的多个第二地址元素的步骤可以包括:对所述第二文本进行分词处理,以获得所述多个第二地址元素。

在本发明实施例中,所述利用训练好的地址关系模型确定所述多个第二地址元素的第二地址关系的步骤可以包括:将所述第二文本以及所述多个第二地址元素,输入所述地址关系模型,以得到所述多个第二地址元素的第二地址关系。

在本发明实施例中,还可以基于所述多个第二地址元素以及预设的地址元素关系,确定所述多个第二地址元素的第二地址关系,所述预设的地址元素关系包括预设的地址元素之间的关联关系,其中以利用所述地址关系模型确定的第二地址元素的地址关系,作为基于所述预设的地址元素关系确定的第二地址元素的地址关系的补充。

在本发明实施例中,所述地址关系图用于地址服务。

在本发明实施例中,还可以维护地址关系表,所述地址关系表包括所述预设的地址元素关系。所述地址元素关系包括下述的至少一项:自指关系;子元素关系;同义元素关系;同等级元素关系;辅助关系;同级非同义关系。

如上图1-5所示,本发明还可以实现为一种地址文本解析方法。

图6示出了根据本公开一个实施例的地址文本解析方法的流程示意图。其中,该方法的实现细节与上文结合图1-3所描述的方案相同或相似,具体实现可参见上文,在此不再赘述。

如图6所示,在步骤S610,获取地址文本。

在步骤S620,获取所述地址文本所包含的多个地址元素。

在步骤S630,确定所述多个地址元素的地址关系,其中,所述地址关系包括所述多个地址元素之间的关联关系,所述关联关系包括并列关系或偏序关系。

在本发明实施例中,获取地址文本所包含的多个地址元素的步骤可以包括:对所述地址文本进行分词处理,以获得所述多个地址元素。

在本发明实施例中,确定所述多个地址元素的地址关系的步骤可以包括:对所述多个地址元素进行解析,确定所述地址元素所属的级别;基于所述地址元素所属的级别,确定所述多个地址元素的地址关系。

在本发明实施例中,所述地址关系可以包括所述多个地址元素之间的指向关系,所述指向关系包括从对应于较低级别的地址元素指向对应于较高级别的地址元素。

在本发明实施例中,确定所述多个地址元素的地址关系的步骤还可以包括:基于所述多个地址元素以及预设的地址元素关系,确定所述多个地址元素的地址关系,所述预设的地址元素关系包括预设的地址元素之间的关联关系。

在本发明实施例中,还可以维护地址关系表,所述地址关系表包括所述预设的地址元素关系。

在本发明实施例中,所述预设的地址元素关系包括下述的至少一项:自指关系;子元素关系;同义元素关系;同等级元素关系;辅助关系;同级非同义关系。

在本发明实施例中,确定所述多个地址元素的地址关系的步骤可以包括:利用训练好的地址关系模型,确定多个地址元素的地址关系。其中,该地址关系模型是基于地址文本及其相对应的地址关系训练得到的。

在本发明实施例中,所述利用训练好的地址关系模型确定多个地址元素的地址关系的步骤可以包括:将所述地址文本以及所述多个地址元素,输入所述地址关系模型,以得到所述多个地址元素的地址关系。

在本发明实施例中,也可以基于所述多个地址元素以及预设的地址元素关系,确定所述多个地址元素的地址关系,所述预设的地址元素关系包括预设的地址元素之间的关联关系,并以利用所述地址关系模型确定的地址元素的地址关系,作为基于所述预设的地址元素关系确定的地址元素的地址关系的补充。

在本发明实施例中,确定所述多个地址元素的地址关系的步骤还可以包括:基于多个地址元素的地址关系,生成对应于所述地址文本的地址关系图。其中,可以采用拓扑排序,构建所述地址关系图。并且,所构建的地址关系图可以用于相关地址服务。

在本发明实施例中,获取地址文本的步骤可以包括:从地址数据库中获取所述地址文本,其中,所述地址数据库包括基于多种来源获取的文本。

在本发明实施例中,地址关系可以是基于图模型构建的。并且,上述地址文本可以是表述地址信息的文本。

图7示出了根据本公开一个实施例的地址文本解析装置的结构示意图。其中,地址文本解析装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图7所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就地址文本解析装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文相关的描述,这里不再赘述。

如图7所示,该地址文本解析装置700可以包括文本获取装置710、地址元素获取装置720和地址关系确定装置730。

其中,文本获取装置710可以用于获取地址文本。地址元素获取装置720可以用于获取所述地址文本所包含的多个地址元素。地址关系确定装置730可以用于确定所述多个地址元素的地址关系,其中,所述地址关系包括所述多个地址元素之间的关联关系,所述关联关系包括并列关系或偏序关系。

另外,本公开还可以实现一种地址文本解析方法,该方法也可以由上述地址文本解析装置实现,并且该方法所涉及的具体细节与上文结合图1-图3所描述的方案相同或相似,下面将简单描述该地址文本解析方法,其中所涉及的细节可参见上文的相关描述,在此不再赘述。

该地址文本解析方法可以包括:获取用户输入的第一地址文本,所述第一地址文本包括多个地址元素,所述多个地址元素具有并列关系或偏序关系;利用地址关系模型,对所述第一地址文本进行解析处理;向所述用户返回第二地址文本,所述第二地址文本是对所述第一地址文本进行解析处理得到的标准地址文本。

在本公开实施例中,所述利用地址关系模型对所述第一地址文本进行解析处理的步骤包括:利用所述地址关系模型,确定所述多个地址元素的地址关系;基于所述多个地址元素的地址关系,重组或修正所述多个地址元素,以得到所述第二地址文本。优选地,所述第二地址文本所包括的多个地址元素可以具有偏序关系。

在本公开实施例中,所述第二地址文本用于地址服务;并且/或者所述地址服务包括下述的至少一项:位置服务;地址相似度计算服务;地址库服务;地址相关查询服务。

图8示出了根据本发明一个实施例的计算设备的结构示意图。

参见图8,计算设备800包括存储器810和处理器820。

处理器820可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器820可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器820可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。

存储器810可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM),和永久存储装置。其中,ROM可以存储处理器820或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器810可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器810可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器810上存储有可处理代码,当可处理代码被处理器820处理时,可以使处理器820执行上文述及的地址关系模型训练方法、地址解析方法。

上文中已经参考附图详细描述了根据本发明的地址关系模型训练方法和装置、地址解析方法和装置。

本公开通过训练并使用地址关系模型来进行地址文本解析,不需要指定人工规则以及预制的地址元素词表,可以节省许多人力成本。与此同时,相比规则系统而言,神经网络模型本身具备一定的泛化能力,并不会因为出现未曾见过的词表而导致效果极具变差。其次,本公开的地址解析方式是基于图模型构建的,链式模型是图模型的一种特殊情况,本公开的方案同样适用于链式模型的地址文本。并且,还能够对存在例如“并列关系”的地址文本,构建有向无环图,其使用场景广于链式模型,极大地扩展了地址关系模型的使用范围。

此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

相关技术
  • 地址关系模型的训练方法和装置、地址解析方法和装置
  • 地址解析装置、地址解析方法及采用它们的通信系统
技术分类

06120112365020