掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本公开涉及地址数据处理领域,特别涉及一种地址实体纠错方法和装置、计算机可读存储介质。

背景技术

地址数据作为基础的应用数据,与人们的日常生活息息相关,在各行各业及各大应用领域中都普遍存在,针对复杂地址数据的正确处理和应用,在很多应用场景中都具有极其重要的意义和社会价值。

发明内容

发明人通过研究发现:如何实现错写地址的精准纠错,成为了当前各大涉及LBS(Location Based Services,基于位置服务)领域的公司和科研机构工作的难点和痛点。相关技术地址纠错方法,通常只与匹配的字符数相关,考虑要素比较单一,不能满足实际复杂场景的应用需要,如何提升地址纠错的准确度,仍是一个需要解决的技术问题。

鉴于以上技术问题中的至少一项,本公开提供了一种地址实体纠错方法和装置、计算机可读存储介质,可以实现错写地址的精准纠错。

根据本公开的一个方面,提供一种地址实体纠错方法,包括:

获取待纠错地址实体和标准地址实体集合;

从短语层面、拼音层面、字形层面,将待纠错地址实体与标准地址实体集合中的每一个标准地址实体进行比较;

确定待纠错地址实体和标准地址实体集合中的每一个标准地址实体在短语层面、拼音层面、字形层面的地址融合相似度;

将待纠错地址实体与每一个标准地址实体的地址融合相似度与预定阈值进行比较确定待纠错地址实体对应的正确地址。

在本公开的一些实施例中,所述确定待纠错地址实体和标准地址实体集合中的每一个标准地址实体在短语层面、拼音层面、字形层面的地址融合相似度包括:

计算待纠错地址实体和每一个标准地址实体在短语层面的短语层面相似度;

计算待纠错地址实体和每一个标准地址实体在拼音层面的拼音层面相似度;

计算待纠错地址实体和每一个标准地址实体在字形层面的字形层面相似度;

根据待纠错地址实体和每一个标准地址实体的短语层面相似度、拼音层面相似度、字形层面相似度以及对应层面的权重值,确定待纠错地址实体和每一个标准地址实体的地址融合相似度。

在本公开的一些实施例中,所述计算待纠错地址实体和每一个标准地址实体在短语层面的短语层面相似度包括:

将待纠错地址实体和每一个标准地址实体分别拥有的字符数以及各个字符的位置转化为数学参数,基于预定文本相似度计算方法,计算待纠错地址实体和每一个标准地址实体的短语层面相似度。

在本公开的一些实施例中,所述计算待纠错地址实体和每一个标准地址实体在拼音层面的拼音层面相似度包括:

将待纠错地址实体的拼音集合和每一个标准地址实体的拼音集合分别拥有的拼音音调、声母部和韵母部作为特征参数,计算待纠错地址实体的拼音集合和每一个标准地址实体的拼音集合的拼音层面相似度。

在本公开的一些实施例中,所述计算待纠错地址实体和每一个标准地址实体在字形层面的字形层面相似度包括:

将待纠错地址实体的汉字字形集合和每一个标准地址实体的汉字字形集合分别拥有的汉字组成的笔画数、汉字组成结构以及汉字字形转化作为特征参数,计算待纠错地址实体的汉字字形集合和每一个标准地址实体的汉字字形集合的字形层面相似度。

在本公开的一些实施例中,所述根据待纠错地址实体和每一个标准地址实体的短语层面相似度、拼音层面相似度、字形层面相似度以及对应层面的权重值,确定待纠错地址实体和每一个标准地址实体的地址融合相似度包括:

根据公式

L=w

确定待纠错地址实体和每一个标准地址实体的地址融合相似度待纠错地址实体和每一个标准地址实体的地址融合相似度L,其中,n

在本公开的一些实施例中,所述将待纠错地址实体与每一个标准地址实体的地址融合相似度与预定阈值进行比较确定待纠错地址实体对应的正确地址包括:

判断待纠错地址实体与每一个标准地址实体的地址融合相似度是否大于等于预定阈值;

在待纠错地址实体与一个标准地址实体的地址融合相似度大于等于预定阈值的情况下,将该标准地址实体作为待纠错地址实体的正确地址。

根据本公开的另一方面,提供一种地址实体纠错装置,包括:

地址实体获取模块,用于获取待纠错地址实体和标准地址实体集合;

地址实体比较模块,用于从短语层面、拼音层面、字形层面,将待纠错地址实体与标准地址实体集合中的每一个标准地址实体进行比较;

相似度确定模块,用于确定待纠错地址实体和标准地址实体集合中的每一个标准地址实体在短语层面、拼音层面、字形层面的地址融合相似度;

正确地址确定模块,用于将待纠错地址实体与每一个标准地址实体的地址融合相似度与预定阈值进行比较确定待纠错地址实体对应的正确地址。

在本公开的一些实施例中,所述地址实体纠错装置用于执行实现如上述任一实施例所述的地址实体纠错方法的操作。

根据本公开的另一方面,提供一种地址实体纠错装置,包括:

存储器,用于存储指令;

处理器,用于执行所述指令,使得所述装置执行实现如上述任一实施例所述的地址实体纠错方法的操作。

根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例所述的地址实体纠错方法。

本公开可以用于实现错写地址的精准纠错,满足各种复杂场景的实际需要。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本公开地址实体纠错方法一些实施例的示意图。

图2为本公开一些实施例中地址融合相似度的示意图。

图3为常见地址错误情况的示意图。

图4为本公开地址实体纠错方法另一些实施例的示意图。

图5为本公开地址实体纠错装置一些实施例的示意图。

图6为本公开一些实施例中相似度确定模块的示意图。

图7为本公开地址实体纠错装置另一些实施例的示意图。

具体实施方式

下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。

除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

图1为本公开地址实体纠错方法一些实施例的示意图。优选的,本实施例可由本公开地址实体纠错装置执行。该方法包括以下步骤11-步骤14,其中:

在步骤11中,获取待纠错地址实体和标准地址实体集合。

在本公开的一些实施例中,所述标准地址实体集合可以为候选标准地址实体集合,候选地址实体集中可以包含任意数量的标准地址实体。

在步骤12中,从短语层面、拼音层面、字形层面,将待纠错地址实体与标准地址实体集合中的每一个标准地址实体进行比较。

在步骤13中,确定待纠错地址实体和标准地址实体集合中的每一个标准地址实体在短语层面、拼音层面、字形层面的地址融合相似度L。

在本公开的一些实施例中,步骤13可以包括步骤131-步骤134,其中:

在步骤131中,计算待纠错地址实体和每一个标准地址实体在短语层面的短语层面相似度n

在本公开的一些实施例中,步骤131可以包括:将待纠错地址实体和每一个标准地址实体分别拥有的字符数以及各个字符的位置转化为数学参数,基于预定文本相似度计算方法,计算待纠错地址实体和每一个标准地址实体的短语层面相似度n

在步骤132中,计算待纠错地址实体和每一个标准地址实体在拼音层面的拼音层面相似度n

在本公开的一些实施例中,步骤132可以包括:将待纠错地址实体的拼音集合和每一个标准地址实体的拼音集合分别拥有的拼音音调、声母部和韵母部作为特征参数,计算待纠错地址实体的拼音集合和每一个标准地址实体的拼音集合的拼音层面相似度n

在本公开的一些实施例中,实体的拼音集合指的是地址的每一个汉字实体转化为拼音字母的集合。

在步骤133中,计算待纠错地址实体和每一个标准地址实体在字形层面的字形层面相似度n

在本公开的一些实施例中,步骤133可以包括:将待纠错地址实体的汉字字形集合和每一个标准地址实体的汉字字形集合分别拥有的汉字组成的笔画数、汉字组成结构以及汉字字形转化作为特征参数,计算待纠错地址实体的汉字字形集合和每一个标准地址实体的汉字字形集合的字形层面相似度n

在本公开的一些实施例中,实体的汉字字形集合指的是地址的每一个汉字实体的笔画和字形组成的集合。

图2为本公开一些实施例中地址融合相似度的示意图。如图所示,地址融合相似度可以基于短语层面相似度n

在本公开的一些实施例中,所述汉字组成结构主要包括“上下结构”、“左右结构”、“独体字”、“半包围结构”、“全包围结构”等在内的常见汉字组成结构;汉字字形主要指的是每个汉字的四个角的形状。

在步骤134中,根据待纠错地址实体和每一个标准地址实体的短语层面相似度n

在本公开的一些实施例中,步骤134可以包括:根据公式(1)确定待纠错地址实体和每一个标准地址实体的地址融合相似度待纠错地址实体和每一个标准地址实体的地址融合相似度L。

L=w

公式(1)中,n

在步骤14中,将待纠错地址实体与每一个标准地址实体的地址融合相似度L与预定阈值进行比较确定待纠错地址实体对应的正确地址。

在本公开的一些实施例中,步骤14可以包括:

步骤141,判断待纠错地址实体与每一个标准地址实体的地址融合相似度L是否大于等于预定阈值。

步骤142,在待纠错地址实体与一个标准地址实体的地址融合相似度L大于等于预定阈值的情况下,将该标准地址实体作为待纠错地址实体的正确地址。

基于本公开上述实施例提供的地址实体纠错方法,从短语层面、拼音层面、字形层面进行比较,确定待纠错地址实体对应的正确地址,本公开上述实施例可以用于实现错写地址的精准纠错,满足各种复杂场景的实际需要。

图3为常见地址错误情况的示意图。如图3所示,在公安接警、道路电话救援等诸多业务场景中,都需要报警人或者求助人通过电话向相关人员告知具体的位置,接警员通过文字记录下事发的具体地点,比如说“扬州市华扬西路越泽烟酒店”、“扬子江南路和依人路交叉口”等,处警人员或者救援人员根据记录的点位进行出警或救助,在这种情境中,由于报警人或者求助人口音的问题、电话信号问题及接警人理解的问题,通常会造成记录的地址存在大量错写的情况,比如保利嘉园小区可能会被写成保利家园、乐天玛特可能会被写成乐天马特等等,更多常见地址错误情况。

图4为本公开地址实体纠错方法另一些实施例的示意图。优选的,本实施例可由本公开地址实体纠错装置执行。该方法包括以下步骤41-步骤49,其中:

在步骤41中,获取待纠错地址的标准地址实体集合P,在公安等领域中,由于实际业务的需要,都积累了大量当地市/县的地址实体库,这些地址库基本涵盖了辖区内所有的空间地理实体,基于这些地址实体库,就可以快速构建一个相对大而全的标准地址实体集合,可以作为错写地址的标准参照集合。

在步骤42中,获取错写地址实体x,地址实体指的是地址数据中表示某一类型地点的固定单元,比如说街、路、巷、小区、学校、商场、大厦、交叉口等等,这里以接警地址数据为例,一条报警地址数据,通常包含多个地址实体,以“扬州市华扬西路越泽烟酒店”为例,“扬州市”、“华扬西路”、“越泽烟酒店”等都是独立的地址实体,这些实体都有错写的可能。

在步骤43中,分别从短语层面、拼音集合层面、字形集合层面,将待纠错地址实体和标准地址实体集合中任一标准地址实体y进行比较。

在步骤44中,计算待纠错地址实体x和标准地址实体y,在短语层面的相似性。即比较待纠错地址x和标准地址实体y,分别拥有的字符数以及各个字符位置的差异,用文本相似度计算方法,计算两者之间的相似度值,用量化数字n

在步骤45中,计算待纠错地址实体x和标准地址实体y,在拼音集合层面的相似性,实体的拼音集合指的是地址的每一个汉字实体转化为拼音字母的集合,本公开上述实施例将拼音集合的音调、声母部和韵母部作为特征参数,计算两者之间的相似度值,用量化数字n

在步骤46中,计算待纠错地址实体x和标准地址实体y,在汉字字形集合层面的相似性,实体的汉字字形集合指的是地址的每一个汉字实体的笔画和字形组成的集合,本公开上述实施例将地址实体字形集合中汉字组成的笔画数、汉字组成结构以及汉字字形作为参数,计算两者之间的字形相似度值,用量化数字n

在本公开的一些实施例中,步骤46中的汉字组成结构主要包括“上下结构”、“左右结构”、“独体字”、“半包围结构”、“全包围结构”等在内的常见汉字组成结构;汉字字形主要指的是每个汉字的四个角的形状。

在步骤47中,根据各层对纠错结果准确性的影响程度,设定对应层相应的权重值,通常预设各层对纠错结果准确性的影响力相同,各层的权重值平均分配。

在步骤48中,基于上述步骤45、步骤46、步骤47计算出的待纠错地址和标准地址实体之间的短语相似度n

在步骤49中,应用上述方法,逐一计算待纠错地址和候选标准地址实体集合P中每个元素的融合相似度L,并与提前定义好的预定阈值

在本公开的一些实施例中,步骤49可以包括:将待纠错地址与候选标准地址实体集合每个元素逐一计算融合相似度L;当待纠错地址和某个标准地址实体的融合相似度L大于或等于提前定义好的预定阈值

本公开上述实施例提供的地址纠错方法和相关技术纠错方法相比具有明显的优势:1.本公开上述实施例基于短语层面、拼音集合层面及汉字字形集合层面的相似度计算,充分考虑了错写地址和候选标准地址实体之间的实际特征差异,提供的地址纠错方法更具有针对性和应用性,地址纠错的准确性更高。2.本公开上述实施例通过将计算出的标准化的融合相似度值与预设的阈值进行比较,来判定错写地址对应的候选标准地址实体中的正确地址,判定方式具有可靠性,且可以通过调整阈值的大小,来控制纠错的精度,具有更高的灵活性。

图5为本公开地址实体纠错装置一些实施例的示意图。如图5所示,本公开地址实体纠错装置可以包括地址实体获取模块51、地址实体比较模块52、相似度确定模块53和正确地址确定模块54,其中:

地址实体获取模块51,用于获取待纠错地址实体和标准地址实体集合。

在本公开的一些实施例中,所述标准地址实体集合可以为候选标准地址实体集合,候选地址实体集中可以包含任意数量的标准地址实体。

地址实体比较模块52,用于从短语层面、拼音层面、字形层面,将待纠错地址实体与标准地址实体集合中的每一个标准地址实体进行比较。

相似度确定模块53,用于确定待纠错地址实体和标准地址实体集合中的每一个标准地址实体在短语层面、拼音层面、字形层面的地址融合相似度L。

正确地址确定模块54,用于将待纠错地址实体与每一个标准地址实体的地址融合相似度与预定阈值进行比较确定待纠错地址实体对应的正确地址。

在本公开的一些实施例中,正确地址确定模块54可以用于判断待纠错地址实体与每一个标准地址实体的地址融合相似度L是否大于等于预定阈值;在待纠错地址实体与一个标准地址实体的地址融合相似度L大于等于预定阈值的情况下,将该标准地址实体作为待纠错地址实体的正确地址。

在本公开的一些实施例中,正确地址确定模块54可以用于根据实际需要,根据用户输入对预定阈值进行设置,来控制整个装置进行地址纠错的精度,本公开上述实施例内置的比较方法,能够将待纠错地址和标准地址实体计算的地址融合相似度值与设定的阈值进行比较,从而确定待纠错地址对应的正确的标准地址实体。

在本公开的一些实施例中,所述地址实体纠错装置用于执行实现如上述任一实施例(例如图1或图4实施例)所述的地址实体纠错方法的操作。

图6为本公开一些实施例中相似度确定模块的示意图。如图6所示,本公开相似度确定模块(例如图5实施例的相似度确定模块53)可以包括短语相似度计算单元531、拼音相似度计算单元532、字形相似度计算单元533和地址融合相似度计算单元534,其中:

短语相似度计算单元531,将待纠错地址实体和标准地址实体分别拥有的字符数以及各个字符的位置转化为数学参数,基于内置的文本相似度计算方法,计算待纠错地址和候选标准地址实体在短语层面的相似度值。

拼音相似度计算单元532,将待纠错地址实体和标准地址实体组成的拼音集合分别拥有的拼音音调、声母部和韵母部组成转化为数学参数,计算待纠错地址和候选标准地址实体组成的拼音集合的相似度值。

字形相似度计算单元533,将待纠错地址实体和标准地址实体组成的汉字字形集合拥有的汉字组成的笔画数、汉字组成结构以及汉字字形转化为参数,计算待纠错地址和候选标注地址在字形集合层面的相似度值。

地址融合相似度计算单元534,根据实际需要,允许对各个影响层的权重值进行设置,并基于内置的地址融合相似度计算方法,计算待纠错地址和候选标准地址实体之间最终的地址融合相似度值。

在本公开的一些实施例中,地址融合相似度计算单元534可以用于根据公式(1)确定待纠错地址实体和每一个标准地址实体的地址融合相似度待纠错地址实体和每一个标准地址实体的地址融合相似度L,公式(1)中,n

基于本公开上述实施例提供的地址实体纠错装置,是一种精准的地址实体纠错装置,本公开上述实施例基于错写地址的实际特征,针对待纠错地址实体和标准地址实体,首先从短语层面,主要涉及地址实体的长度及汉字等字符位置的差异,应用相应的文本相似度计算方法进行计算,得到两实体地址之间短语层面的相似度;接着从拼音集合层面,主要涉及拼音集合的音调、声母部和韵母部的差异,应用相应的文本相似度计算方法进行计算,得到两实体地址之间拼音集合层面的相似度;最后从汉字字形集合层面,主要涉及汉字的组成结构、字形结构和笔画数的差异,应用相应的文本相似度计算方法进行计算,得到两实体地址之间汉字字形集合层面的相似度;接下来根据各层对纠错结果准确性的影响程度,赋予对应层相应的权重值,进行最终建模,提出了一种先进的地址纠错方法,并设计了相应的装置,能够进行地址实体精准纠错。

图7为本公开地址实体纠错装置另一些实施例的示意图。如图7所示,本公开地址实体纠错装置可以包括存储器71和处理器72,其中:

存储器71,用于存储指令。

处理器72,用于执行所述指令,使得所述装置执行实现如上述任一实施例(例如图1或图4实施例)所述的地址实体纠错方法的操作。

本公开上述实施例基于短语层面、拼音集合层面及汉字字形集合层面的相似度计算,充分考虑了错写地址和候选标准地址实体之间的实际特征差异,提供的地址纠错装置更具有针对性和应用性,地址纠错的准确性更高。

本公开上述实施例通过将计算出的标准化的融合相似度值与预定阈值进行比较,来判定错写地址对应的候选标准地址实体中的正确地址,本公开上述实施例判定方式具有可靠性,且可以通过调整阈值的大小,来控制纠错的精度,具有更高的灵活性。

根据本公开的另一方面,提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行时实现如上述任一实施例(例如图1或图4实施例)所述的地址实体纠错方法。

基于本公开上述实施例提供的计算机可读存储介质,基于短语层面、拼音集合层面及汉字字形集合层面的相似度计算,充分考虑了错写地址和候选标准地址实体之间的实际特征差异,提供的地址纠错方案更具有针对性和应用性,地址纠错的准确性更高。

本公开上述实施例通过将计算出的标准化的融合相似度值与预定阈值进行比较,来判定错写地址对应的候选标准地址实体中的正确地址,本公开上述实施例判定方式具有可靠性,且可以通过调整阈值的大小,来控制纠错的精度,具有更高的灵活性。

在上面所描述的地址实体纠错装置可以实现为用于执行本申请所描述功能的通用处理器、可编程逻辑控制器(PLC)、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件或者其任意适当组合。

至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

相关技术
  • 地址实体纠错方法和装置、计算机可读存储介质
  • 命名实体纠错方法、装置、计算机设备和存储介质
技术分类

06120112922745