一种地理位置识别方法、装置及设备

文献发布时间：2023-06-19 11:26:00

技术领域

本说明书实施例涉及大数据技术领域，特别涉及一种地理位置识别方法、装置及设备。

背景技术

随着科技的发展，人们能够较为方便地实现对于某一地点的导航，或者实现对于某一地点的信息的查询。实现上述效果的前提是用户能够准确输入对应于目标地理位置的名称，或是服务器在接收到用户输入的名称后能够准确识别出该名称所对应的地理位置。但是，在新闻报道、用户聊天记录以及其他类型的通知文本中，出现越来越多的地理位置信息，这些地理位置信息可能是针对同一地理位置的不同表述，从而使得在接收到不同的地理位置名称时，可能无法有效确定这些地理位置名称所对应的正确的地理位置，从而无法提供后续的服务。

目前在解决这一问题时，往往是预先基于管理人员的经验，针对各个地理位置，预先列出对应的所有地理位置名称。在接收到用户输入的地理位置标识时，将所述地理位置标识与所记录的地理位置名称进行匹配以获取所需查找的地理位置。但是，这样的方式对于所记录的地理位置名称的完整性具有较高要求，若并未预先记录相应的地理位置名称，则无法完成匹配查找，从而影响用户后续的使用体验。因此，目前亟需一种能够准确地识别针对同一地理位置的相同标识的方法。

发明内容

本说明书实施例的目的是提供一种地理位置识别方法、装置及设备，以解决如何准确识别针对同一地理位置的相同标识的问题。

为解决上述技术问题，本说明书实施例提供一种地理位置识别方法，包括：获取第一匹配文本和第二匹配文本；所述第一匹配文本中包含有第一地理位置标识；第二匹配文本中包含有第二地理位置标识；在所述第一匹配文本中查找第一描述信息，并在第二匹配文本中查找第二描述信息；所述第一描述信息用于对第一地理位置标识进行描述，第二描述信息用于对第二地理位置标识进行描述；计算所述第一描述信息与第二描述信息之间的相似度参数；所述相似度参数的大小用于表示第一地理位置标识与第二地理位置标识之间的相似程度；在所述相似度参数大于相似度阈值的情况下，判定所述第一地理位置标识和第二地理位置标识为描述同一地理位置的标识。

本说明书实施例还提出一种地理位置识别装置，包括：匹配文本获取模块，用于获取第一匹配文本和第二匹配文本；所述第一匹配文本中包含有第一地理位置标识；第二匹配文本中包含有第二地理位置标识；描述信息查找模块，用于在所述第一匹配文本中查找第一描述信息，并在第二匹配文本中查找第二描述信息；所述第一描述信息用于对第一地理位置标识进行描述，第二描述信息用于对第二地理位置标识进行描述；相似度参数计算模块，用于计算所述第一描述信息与第二描述信息之间的相似度参数；所述相似度参数的大小用于表示第一地理位置标识与第二地理位置标识之间的相似程度；判定模块，用于在所述相似度参数大于相似度阈值的情况下，判定所述第一地理位置标识和第二地理位置标识为描述同一地理位置的标识。

本说明书实施例还提出一种地理位置识别设备，包括存储器和处理器；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取第一匹配文本和第二匹配文本；所述第一匹配文本中包含有第一地理位置标识；第二匹配文本中包含有第二地理位置标识；在所述第一匹配文本中查找第一描述信息，并在第二匹配文本中查找第二描述信息；所述第一描述信息用于对第一地理位置标识进行描述，第二描述信息用于对第二地理位置标识进行描述；计算所述第一描述信息与第二描述信息之间的相似度参数；所述相似度参数的大小用于表示第一地理位置标识与第二地理位置标识之间的相似程度；在所述相似度参数大于相似度阈值的情况下，判定所述第一地理位置标识和第二地理位置标识为描述同一地理位置的标识。

由以上本说明书实施例提供的技术方案可见，本说明书实施例在获取到分别包含不同地理位置标识的文本后，从这些文本中查找描述地理位置标识的描述信息，并基于描述信息所对应的类别来计算这些描述信息之间的相似度参数，定量地对地理位置标识之间的相似度进行描述，最终能够基于相似度参数与相似度阈值之间的比较结果来判定不同的地理位置标识是否用于描述同一地理位置。上述方法无需预先构建包含不同地理位置名称的数据表，通过文本中包含的信息直接进行比对的方式来确定地理位置标识之间的相似程度，提高了比较结果的准确性，方便了后续过程中用户基于不同地理位置标识所实现的服务，优化了用户的使用体验。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例一种地理位置识别方法的流程图；

图2为本说明书实施例一种地理位置识别装置的模块图；

图3为本说明书实施例一种地理位置识别设备的结构图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

为了解决上述技术问题，介绍本说明书实施例一种地理位置识别方法。所述地理位置识别方法的执行主体为地理位置识别设备，所述地理位置识别设备包括但不限于服务器、工控机、PC机等。如图1所示，所述地理位置识别方法可以包括以下具体实施步骤。

S110：获取第一匹配文本和第二匹配文本；所述第一匹配文本中包含有第一地理位置标识；第二匹配文本中包含有第二地理位置标识。

第一匹配文本和第二匹配文本可以是不同的文本信息，例如新闻报道、社区通知、网络帖子或者聊天记录等文本。由于不同匹配文本的格式、受众以及撰写需求存在差异，使得这些匹配文本中针对同一个地理位置可能会利用不同的标识进行描述。例如，针对同一地理位置，可能存在有正式登记的名称，还可能有基于地理位置的名称，还可能存在用于推广描述的名称。而在新闻等正式报道中，可能会利用正式登记的名称进行描述，而一般的网络帖子或聊天记录中可能更多的会使用用于推广描述的通用名称。在不同文本中对于同一地理位置采用不同的描述方式的情况下，容易误以为这两个文本描述的是不同的地理位置，从而在后续应用过程中造成干扰。因此，需要确定不同的地理位置标识是否为同一地理位置。

在一些实际应用的情况中，也可能会出现同一文本中利用不同的描述方式来表示同一地理位置，则在这种情况中，所述第一匹配文本和第二匹配文本可以是同一个文本，但可以在该文本中确定至少两个不同的地理位置标识分别作为第一地理位置标识和第二地理位置标识。

一般情况下，所述第一匹配文本和第二匹配文本中包含有较多的文本信息，这些文本信息中包含有对相应的地理位置标识进行描述的文本信息。在无法直接通过地理位置标识判断地理位置是否相同的情况下，根据这些描述信息所对应的内容的相似性，可以间接地判断地理位置标识是否对应于同一个地理位置。

所述第一匹配文本中包含有第一地理位置标识，所述第二匹配文本中包含有第二地理位置标识。所述第一地理位置标识和第二地理位置标识可以是通过名称、编号等形式对地理位置进行描述。例如，在地理位置为楼盘所处的位置时，所述第一地理位置标识和/或所述第二地理位置标识包括对应于楼盘的标识。具体的，假设对应于同一楼盘，所述第一地理位置标识可以为“未来幸福花园”，所述第二地理位置标识可以为“MAX未来”。而直接根据所述第一地理位置标识和第二地理位置标识，可能无法判断两者是否是对应于同一地理位置的标识，因此需要基于一定的步骤对其进行判断。

在一些实施方式中，获取所述第一地理位置标识的方法可以是先针对第一匹配文本进行分词得到至少一个第一文本分词。具体的分词方法可以基于实际应用的需求进行设置，在此不再赘述。在得到这些第一文本分词后，可以依次判断这些第一文本分词是否为用于描述地理位置的词汇，具体的可以识别方法可以预先训练相应的模型用于识别分词中用于描述地理位置的词汇，也可以预先设定一些特定的词汇，在分词中包含有这些词汇的情况下，可以判断这些分词是地理位置标识。实际应用中也可以通过其他方式识别地理位置标识，对此不做限制。相应的，获取所述第二地理位置标识的方法可以是对所述第二匹配文本进行分词得到至少一个第二文本分词后，从所述第二文本分词中识别得到第二地理位置标识。

由于在第一地理位置标识和第二地理位置标识相同的情况下，显而易见地可以认为第一地理位置标识和第二地理位置标识指代的是相同的地理位置，因此，优选的，基于本说明书实施例中所实施的地理位置识别方法，所述第一地理位置标识和第二地理位置标识是不同的标识。

S120：在所述第一匹配文本中查找第一描述信息，并在第二匹配文本中查找第二描述信息；所述第一描述信息用于对第一地理位置标识进行描述，第二描述信息用于对第二地理位置标识进行描述。

第一描述信息是对所述第一地理位置标识进行描述的信息；所述第二描述信息是对第二地理位置标识进行描述的信息。上述描述信息可以是针对地理位置标识的细化解释，也可以是与地理位置标识具有较强关联性的文本信息。

在一些实施方式中，所述第一描述信息和第二描述信息可以是区域信息、经纬度信息、建筑名称信息、道路名称信息、道路编号信息、建筑类型信息、物业信息、建筑年代信息、居民信息、环境信息中的至少一种。区域信息可以是地理位置所处的行政区域，例如可以是北京市海淀区，实际应用中也可以针对区域信息进一步细化分类。经纬度信息可以是地理位置所对应的经纬度。建筑名称信息可以是具体的楼盘的名称。道路名称信息可以是地理位置所处的道路的名称，道路编号信息可以是地理位置在所处道路上的具体编号，具体的可以是南京路158号。建筑类型信息可以是地理位置上的建筑物的具体类型，例如普通住宅、公寓、别墅、宿舍等。物业信息可以是管理该地理位置的位置的信息，例如物业名称、物业管理年限等。建筑年代信息可以是该地理位置上的建筑建成的时间。居民信息可以是该地理位置的建筑中所包含的户数、居民人数等信息。环境信息可以是地理位置对应的环境的信息，例如绿化率、海拔高度等信息。

具体的识别所述第一描述信息和第二描述信息的过程可以基于文本中语句之间的关联性进行判断，例如，可以是在匹配文本中查找到对应的地理位置标识后，结合识别得到的地理位置标识对文本进行语义分析，从中确定出与地理位置标识具有较强关联的文本，作为对应的描述信息。例如在检测到第一地理位置标识或第二地理位置标识与“是”、“的”这类连接词并列的情况下，可以将连接词后的文本作为第一描述信息或第二描述信息。

在另一些实施方式中，由于所述第一描述信息和第二描述信息是用于描述地理位置的信息，因此也可以直接在第一匹配文本或第二匹配文本中查找与地理位置关联性较强的信息，作为第一描述信息和第二描述信息。例如可以预先设置有一些地理位置格式，例如包含街道等特定类型词汇的文本，作为第一描述信息或第二描述信息。具体的识别方式可以基于实际应用的需求进行设置，在此不再赘述。

在一些实施方式中，所述第一描述信息和第二描述信息也可以是来自于所述第一地理位置标识和第二地理位置标识本身。由于所述第一地理位置标识和第二地理位置标识在描述地理位置时，可能会具有一些较为关键地对地理位置进行描述的分词，可以直接地理位置标识中提取这类较为关键的分词以实现对相应的地理位置的识别。

相应的，描述信息可以用来描述地理位置标识中的词语出现频率，从而基于这些频率确定地理位置标识中的关键词，进而基于关键词进行较为准确的定义。

具体的，可以是对所述第一地理位置标识进行分词，得到至少一个第一位置分词后，再分别确定所述第一位置分词在第一匹配文本中的第一词频和在样本文本中的第一逆向词频。相应的，针对第二地理位置标识，也可以对所述第二地理位置标识进行分词，得到至少一个第二位置分词后，再分别确定所述第二位置分词在第二匹配文本中的第二词频和在样本文本中的第二逆向词频。

所述第一词频可以用于表示第一位置分词在所述第一匹配文本的所有词汇中总共出现的频率，所述第一逆向词频可以用于表示所述第一位置分词在其他样本文本中出现的频率。相应的，所述第二词频可以用于表示第二位置分词在所述第二匹配文本的所有词汇中总共出现的频率，所述第二逆向词频可以用于表示所述第二位置分词在其他样本文本中出现的频率。

当某一个词语在当前文本中出现的频率越高，在其他文本中出现的频率越低时，说明该词语对应于该文本具有越高的代表性，即该词语更有可能是一个关键词，具备对地理位置进行突出描述的效果。相应的，基于关键词对不同地理位置标识进行比对时，所得到的比对结果的准确性也就越高。而一个词语在当前文本和其他文本中出现的频率均较高时，则该词语更可能是一个较为通用的描述词汇，例如“的”、“和”等词汇，往往不具备对地理位置进行代表性描述的效果。

在一个具体的示例中，可以基于TF-IDF方法实现词频和逆向词频的计算。具体的，可以是利用公式

通过确定位置关键词和位置非关键词，能够确定地理位置标识中着重体现，从而更为准确地通过地理位置标识本身与其他地理位置标识进行比对，提高了地理位置判断的准确性。

上述示例只是对获取第一描述信息或第二描述信息的方式进行了示意性的说明，实际应用中对于所述第一描述信息和第二描述信息可以是其他定义，相应的也可以通过其他方式获取所述第一描述信息和第二描述信息，并不限于上述示例，在此不再赘述。

S130：计算所述第一描述信息与第二描述信息之间的相似度参数；所述相似度参数的大小用于表示第一地理位置标识与第二地理位置标识之间的相似程度。

在获取到第一描述信息和第二描述信息后，可以通过计算描述信息之间的相似度参数，定量确定描述信息之间的相似程度，从而能够根据相似度参数确定不同的地理位置标识是否为对应于同一地理位置的标识。

在一些实施方式中，在获取到第一描述信息和第二描述信息后，可以先分别确定其所对应的信息类别。所述信息类别可以用于表示信息所对应的不同分类。由于描述信息可以是从不同的角度对地理位置进行描述，利用不同角度的第一描述信息和第二描述信息对地理位置标识的相似性进行判定，可能会影响判定结果的准确性。因此在确定相似程度之前，还可以先确定描述信息所对应的类别，从而能够分别通过相同信息类别的描述信息进行比对，判断是否为相同的地理位置，提高判定结果的准确性。

相应的，所述信息类别也可以对应于区域信息、经纬度信息、建筑名称信息、道路名称信息、道路编号信息、建筑类型信息、物业信息、建筑年代信息、居民信息、环境信息这些不同种类的信息所属的类别。

具体的确定信息类别的方法可以是基于预先标注的样本数据训练相应的分类器模型，从而利用训练得到的分类器模型实现不同信息类别的描述信息的分类。具体的训练方法以及分类过程可以基于实际应用情况进行设置，在此不再赘述。

在一些实施方式中，在确定有第一词频、第一逆向词频、第二词频、第二逆向词频的情况下，在确定信息类别时，可以是基于所述第一词频和第一逆向词频确定所述第一地理位置标识中的第一位置关键词和第一位置非关键词，以及基于所述第二词频和第二逆向词频确定所述第二地理位置标识中的第二位置关键词和第二位置非关键词。位置关键词可以是地理位置关联性较强的分词，针对地理位置对应的信息具有代表性描述，位置非关键词可能是意义不明显的词汇，例如连接词、通用名词等。通过区分关键词和非关键词，能够在后续过程中更为有效地实现比较，更好地确定对应于相同地理位置的地理位置标识。

通过确定不同的描述信息所对应的信息类别，在后续的判断过程中可以利用相同信息类别下的描述信息进行比对，从而进一步提高信息比对过程中的准确性，实现有效对相同地理位置的标识的识别。

在确定各个描述信息的类别之后，可以根据针对不同信息类别的描述信息计算相应的相似度参数。所述相似度参数的大小用于表示第一描述信息和第二描述信息之间的相似程度。针对不同类别的描述信息，可以设置不同的规则来计算对应的相似程度。

具体的，可以是从所述第一描述信息和第二描述信息中划分出对应于各个相同信息类别的第一信息字段和第二信息字段，根据所述第一信息字段和第二信息字段计算对应于各个信息类别的类别相似度参数，再综合所述类别相似度参数得到第一描述信息和第二描述信息之间的相似度参数。

如下表1所示，为一种计算方式的额示例。其中，针对不同的字段，存在有相应的对比方式和判定规则。例如，针对区域信息，可以基于区域之间的距离大小确定相似度参数；针对楼盘名，可以判断楼盘名是否相同来计算相似度程度。

表1

需要说明的是，上表中的经纬度这一信息类别并未分配权重值，当比较不同地理位置标识所对应的经纬度相同时，可以毫无疑义地确定这两个地理位置标识对应的是同一地理位置，而在不同地理位置标识所对应的经纬度不同时，这两个地理位置标识一般对应的也都是不同的地理位置，即如果第一匹配文本和第二匹配文本中均包含有经纬度信息，可以直接根据经纬度信息来判断地理位置标识对应位置是否相同，无需为其分配权重。

当然，上表只是示例性地对一些判断规则进行介绍，实际应用中基于信息类别的不同还可以设置其他判断规则，并不限于上述示例，在此不再赘述。

在一些实施方式中，针对不同信息类别的重要程度，还可以针对这些信息类别分别设置相应的权重值。在计算相似度参数时，可以基于各个信息类别对应的权重值，综合所述类别相似度参数得到第一描述信息和第二描述信息之间的相似度参数。例如，一般情况下，道路名称、道路、区域名称重复的可能性较小，可以赋予这些信息类别较高的权重值；而针对物业信息、建筑年代信息等，有很大的概率会出现不同地理位置上的建筑有相同的物业或是同一年建造完成的情况，容易对正确判断的过程造成干扰，可以分配较小的权重值。上述示例只是对权重值分配的过程进行示意性的介绍，实际应用中可以针对不同的情况分配相应的权重值，不限于上述示例。

上述表1中也示例性地给出了对应于不同信息类别所设置的权重值，也只是对权重值的分配起到参考效果，实际应用中也可以对权重值进行调整。

在一些实施方式中，若针对第一地理位置标识和第二地理位置标识识别得到相应的关键词的情况下，可以基于关键词之间的关系来分别进行不同的计算。具体的，可以在所述第一位置关键词和第二位置关键词相同的情况下，利用公式Y＝X

而在所述第一位置关键词和第二位置关键词不同的情况下，利用公式Y＝X

在关键词相同或不相同的情况下，利用不同的方法实现相似度参数的计算，考虑到了不同情况的影响程度，确保了判定结果的准确性。

在另一些实施方式中，若预先未确定地理位置标识中的关键词和非关键词，也可以直接通过不同类别下的第一描述信息和第二描述信息之间的相似度计算最终的相似度参数。例如，在依次确定各个信息类别的描述信息之间的相似度参数后，基于不同信息类别所对应的权重值，可以直接累加这些相似度参数作为总的相似度参数。所得到的总的相似度参数可以应用至后续步骤中的计算。

S140：在所述相似度参数大于相似度阈值的情况下，判定所述第一地理位置标识和第二地理位置标识为描述同一地理位置的标识。

在计算得到相似度参数后，可以利用所述相似度参数与相似度阈值进行比对。所述相似度阈值可以是预先设定的一个参数值，用于表示对应于相同地理位置的地理位置标识之间的相似度参数的最小值。

所述相似度阈值可以是基于人为经验进行设置，通过大致判断两个地理位置标识对应的描述信息之间的接近程度来确定相似度阈值。也可以是获取一定样本数据，这些样本数据可以是位置标识和对应于位置标识的描述信息，并为这些样本数据添加相应的标签，用于表明这些样本数据之间所对应的地理位置是否相同。之后，可以利用本说明书实施例中的方法针对各个样本数据计算相似度参数。最终结合相似度参数和样本数据所对应的标签来确定满足相同地理位置的地理位置标识之间的相似度参数的最小值，即相似度阈值。实际应用中也可以通过其他方式确定所述相似度阈值，在此不再赘述。

因此，在所述相似度参数大于相似度阈值的情况下，即可判定所述第一地理位置标识和第二地理位置标识为描述同一地理位置的标识。

相应的，在所述相似度参数不大于相似度阈值的情况下，说明第一地理位置标识和第二地理位置标识之间不具备较强的关联性，可以判定所述第一地理位置标识和第二地理位置标识为描述不同地理位置的标识。在后续过程中也可以利用这一性质实现其他地理位置标识之间的区分。

在一些实施方式中，判断所述第一地理位置标识和第二地理位置标识为描述同一地理位置的标识后，可以将所述第一地理位置标识和第二地理位置标识登记至同一数据表中。在后续应用过程中，通过查找对应于某一地理位置标识的数据表中是否包含有另一地理位置标识，即可确定这两个地理位置标识是否为对应于同一地理位置的标识，从而便于后续过程中的应用。

若判断得到第一地理位置标识和第二地理位置标识为不同的地理位置，可以首先判断是否已经在某一数据表中登记过其中的一个地理位置标识，若已经登记过，则可以创建新的数据表用于记录另一个地理位置标识，通过不同的数据表来对这两个地理位置标识进行区分；若均没有登记过，则可以分别创建新的数据表用于记录这两个地理位置标识。

在进行上述操作时，随着数据表创建数量的增多，后续过程中也可以对这些数据表进行合并和拆分等操作，从而基于地理位置标识之间的联系将数据表进行关联，避免了重复创建多余的数据表的过程，能够有效地判别结果进行利用。

需要说明的是，上述实施例中的方法只是示例性地对两个匹配文本中的地理位置标识进行判定，实际应用中基于上述方法的实施过程，可以将匹配文本的数量扩展至两个以上，以实现多个匹配文本中对应于同一地理位置的标识的判定。也可以依次针对每两个地理位置标识进行比较，并根据比较结果之间的关联性，综合所有的比较结果，得到多个地理位置标识之间的识别结果。具体的实施过程可以直接基于上述方法步骤实现，在此不再赘述。

利用一个具体的场景示例对上述方法的执行过程进行说明，在该场景示例中，假设存在有两篇针对同一楼盘的报道，分别标记为报道A和报道B。在报道A中，将该楼盘的名称登记为“巨汉广场1号商业、办公楼”，并对该楼盘的开盘时间、楼盘面积、绿化率、和所处区域进行了介绍；在报道B中，将该楼盘的名称登记为“卓越中寰”，并对该楼盘的楼盘面积、对应道路名称、绿化率和物业类型进行了介绍。执行设备在获取到报道A和报道B之后，首先可以分别对报道A和报道B进行分词，并从中识别出符合地理位置标识的信息，从而分别得到“巨汉广场1号商业、办公楼”和“卓越中寰”。针对所述“巨汉广场1号商业、办公楼”和进行进一步的分词，得到对应于“巨汉广场1号商业、办公楼”的分词为“巨汉广场”、“1号”、“商业”、“办公楼”，通过分析可以确定其中的第一关键词为“巨汉广场”、“1号”；并且得到对应于“卓越中寰商业中心”的分词为“卓越中寰”和“商业中心”，通过分析可以确定其中的第二关键词为“卓越中寰”。

之后，在报道A中查找针对“巨汉广场1号商业、办公楼”的第一描述信息，并通过对这些第一描述信息进行语义识别，确定各个第一描述信息所对应的信息类别，具体的，可以将“在3月16号开盘”这一信息的信息类别归类为开盘时间，并依次确定其他第一描述信息对应的信息类别为楼盘面积、绿化率和所处区域；在报道B中查找针对“卓越中寰”的第二描述信息，并通过对第二描述信息进行语义识别，确定各个第二描述信息所对应的信息类别，具体的，可以将“绿化率高达60％”这一信息的信息类别归类为绿化率，并依次确定其他第二描述信息对应的信息类别分别为楼盘面积、对应道路名称和物业类型。

在确定不同描述信息所对应的信息类别的情况下，基于相应信息类别下的描述信息，分析不同描述信息之间的相似度。在上述两个地理位置标识的关键词不同的情况下，无需考虑关键词的词频对这两个位置标识的相似性所造成的影响，直接通过计算各个信息类别下描述信息之间的相似度参数，再累加各个相似度参数得到总体的相似度参数。具体的计算数据在此不再引出。累加得到整体的相似度参数之后，通过将该相似度参数和相似度阈值进行比较，确定所述相似度参数大于相似度阈值，表明这两个地理位置标识之间的接近程度满足同一地理位置的条件，即所述“巨汉广场1号商业、办公楼”和“卓越中寰”为同一个地理位置。可以通过将这两个地理位置标识登记到同一数据表中的方式进行记录，在后续过程中若在文本中发现这两个地理位置标识，可以有效地对地理位置标识进行转换。

通过上述实施例和场景示例的介绍，可以看出，所述方法在获取到分别包含不同地理位置标识的文本后，从这些文本中查找描述地理位置标识的描述信息，并基于描述信息所对应的类别来计算这些描述信息之间的相似度参数，定量地对地理位置标识之间的相似度进行描述，最终能够基于相似度参数与相似度阈值之间的比较结果来判定不同的地理位置标识是否用于描述同一地理位置。上述方法无需预先构建包含不同地理位置名称的数据表，通过文本中包含的信息直接进行比对的方式来确定地理位置标识之间的相似程度，提高了比较结果的准确性，方便了后续过程中用户基于不同地理位置标识所实现的服务，优化了用户的使用体验。

基于图1所对应的地理位置识别方法，介绍本说明书实施例一种地理位置识别装置。所述地理位置识别装置设置于所述地理位置识别设备。如图2所示，所述地理位置识别装置包括以下模块。

匹配文本获取模块210，用于获取第一匹配文本和第二匹配文本；所述第一匹配文本中包含有第一地理位置标识；第二匹配文本中包含有第二地理位置标识。

描述信息查找模块220，用于在所述第一匹配文本中查找第一描述信息，并在第二匹配文本中查找第二描述信息；所述第一描述信息用于对第一地理位置标识进行描述，第二描述信息用于对第二地理位置标识进行描述。

相似度参数计算模块230，用于计算所述第一描述信息与第二描述信息之间的相似度参数；所述相似度参数的大小用于表示第一地理位置标识与第二地理位置标识之间的相似程度。

判定模块240，用于在所述相似度参数大于相似度阈值的情况下，判定所述第一地理位置标识和第二地理位置标识为描述同一地理位置的标识。

基于图1所对应的地理位置识别方法，本说明书实施例提供一种地理位置识别设备。如图3所示，所述地理位置识别设备可以包括存储器和处理器。

在本实施例中，所述存储器可以按任何适当的方式实现。例如，所述存储器可以为只读存储器、机械硬盘、固态硬盘、或U盘等。所述存储器可以用于存储计算机程序指令。

在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤：获取第一匹配文本和第二匹配文本；所述第一匹配文本中包含有第一地理位置标识；第二匹配文本中包含有第二地理位置标识；在所述第一匹配文本中查找第一描述信息，并在第二匹配文本中查找第二描述信息；所述第一描述信息用于对第一地理位置标识进行描述，第二描述信息用于对第二地理位置标识进行描述；计算所述第一描述信息与第二描述信息之间的相似度参数；所述相似度参数的大小用于表示第一地理位置标识与第二地理位置标识之间的相似程度；在所述相似度参数大于相似度阈值的情况下，判定所述第一地理位置标识和第二地理位置标识为描述同一地理位置的标识。

需要说明的是，所述地理位置识别方法、装置和设备可应用于大数据技术领域，也可以应用至其他技术领域，对此不做限制。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的第一硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书可用于众多第一或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：林楚荣;朱祖恩;陈旭明;
专利申请人：中国建设银行股份有限公司;

上一篇：马铃薯黑胫病菌的特异性引物、探针及其应用
下一篇：一种煤矿井下区域定位方法及装置