掌桥专利:专业的专利平台
掌桥专利
首页

一种基于网络消息的地理空间坐标信息获取方法及装置

文献发布时间:2023-06-19 11:05:16


一种基于网络消息的地理空间坐标信息获取方法及装置

技术领域

本申请涉及网络信息处理技术领域,尤其涉及一种基于网络消息的地理空间坐标信息获取方法及装置。

背景技术

近几年,随着科技的不断发展,越来越多的地理信息产业渗透到经济社会和人民日常生活的各个领域。尤其是互联网领域,由于互联网有着海量数据,其中大多数采用文本描述。同时,文本描述的事件大多与空间位置信息相关。如2019年疫情背景下,社交媒体公布的病人轨迹信息。目前对网络上的地理空间坐标信息提取方式通常为通过爬虫技术获取网络消息中的地理标记,以根据地理标记解析并提取地理空间坐标信息,但对于不包含地理标记的网络消息则无法提取地理空间坐标信息,导致了现有的基于网络消息的地理空间坐标信息获取成功率低的技术问题。

发明内容

本申请提供了一种基于网络消息的地理空间坐标信息获取方法及装置,用于解决现有的基于网络消息的地理空间坐标信息获取成功率低的技术问题。

本申请第一方面提供了一种基于网络消息的地理空间坐标信息获取方法,包括:

通过网络爬取方式,获取网络消息文本;

通过文本分词处理方式,对所述网络消息文本进行实体词分词处理,并将分词处理后得到的实体词输入至地名分类匹配模型,以通过所述地名分类匹配模型的分类匹配运算,得到地名地址信息,其中,所述地名分类匹配模型为通过预设的地名词典训练集,结合隐马尔可夫模型、Viterbi算法以及AC算法训练得到的;

根据所述地名地址信息,通过地理编码方式,将所述地名地址信息转换为地理空间坐标信息。

优选地,所述将分词处理后得到的实体词输入至地名分类匹配模型之前还包括:

将分词处理后得到的实体词与预设的地名词典信息进行信息匹配,若匹配成功,则输出匹配到的地名地址信息,以通过地理编码方式,将所述地名地址信息转换为地理空间坐标信息,若匹配不成功,则将所述实体词输入至地名分类匹配模型。

优选地,所述根据所述地名地址信息,通过地理编码方式,将所述地名地址信息转换为地理空间坐标信息之后还包括:

若上述步骤未获取到地理空间坐标信息,则根据所述地名地址信息,结合文本来源用户的兴趣点,通过地理加权回归分析方式,计算所述地名地址信息与各个所述兴趣点的莫兰指数,其中,所述文本来源用户为发布所述网络消息文本的用户,所述兴趣点的获取方式为:根据所述文本来源用户的历史地址记录,确定所述文本来源用户的历史活动区域,并以所述历史活动区域内的地名地址信息确定所述兴趣点;

根据莫兰指数计算结果,确定与所述地名地址信息相关度最高的目标兴趣点,以根据所述目标兴趣点的地名地址信息,通过地理编码方式转换为地理空间坐标信息。

优选地,还包括:

获取地图服务,并在所述地图服务中加载所述地理空间坐标信息。

优选地,所述地图服务具体为三维地图服务。

本申请第二方面提供了一种基于网络消息的地理空间坐标信息获取装置,包括:

消息文本爬取单元,用于通过网络爬取方式,获取网络消息文本;

地名信息分类匹配单元,用于通过文本分词处理方式,对所述网络消息文本进行实体词分词处理,并将分词处理后得到的实体词输入至地名分类匹配模型,以通过所述地名分类匹配模型的分类匹配运算,得到地名地址信息,其中,所述地名分类匹配模型为通过预设的地名词典训练集,结合隐马尔可夫模型、Viterbi算法以及AC算法训练得到的;

空间坐标转换单元,用于根据所述地名地址信息,通过地理编码方式,将所述地名地址信息转换为地理空间坐标信息。

优选地,所述将分词处理后得到的实体词输入至地名分类匹配模型之前还包括:

地名匹配单元,用于将分词处理后得到的实体词与预设的地名词典信息进行信息匹配,若匹配成功,则输出匹配到的地名地址信息,以通过地理编码方式,将所述地名地址信息转换为地理空间坐标信息,若匹配不成功,则将所述实体词输入至地名分类匹配模型。

优选地,还包括:地理相关性匹配单元,用于:

若上述步骤未获取到地理空间坐标信息,则根据所述地名地址信息,结合文本来源用户的兴趣点,通过地理加权回归分析方式,计算所述地名地址信息与各个所述兴趣点的莫兰指数,其中,所述文本来源用户为发布所述网络消息文本的用户,所述兴趣点的获取方式为:根据所述文本来源用户的历史地址记录,确定所述文本来源用户的历史活动区域,并以所述历史活动区域内的地名地址信息确定所述兴趣点;

根据莫兰指数计算结果,确定与所述地名地址信息相关度最高的目标兴趣点,以根据所述目标兴趣点的地名地址信息,通过地理编码方式转换为地理空间坐标信息。

优选地,还包括:

地图加载单元,用于获取地图服务,并在所述地图服务中加载所述地理空间坐标信息。

优选地,所述地图服务具体为三维地图服务。

从以上技术方案可以看出,本申请具有以下优点:

本申请提供了一种基于网络消息的地理空间坐标信息获取方法,包括:通过网络爬取方式,获取网络消息文本;通过文本分词处理方式,对所述网络消息文本进行实体词分词处理,并将分词处理后得到的实体词输入至地名分类匹配模型,以通过所述地名分类匹配模型的分类匹配运算,得到地名地址信息,其中,所述地名分类匹配模型为通过预设的地名词典训练集,结合隐马尔可夫模型、Viterbi算法以及AC算法训练得到的;根据所述地名地址信息,通过地理编码方式,将所述地名地址信息转换为地理空间坐标信息。

本申请基于爬虫技术获得的网络数据,通过对网络数据消息文本进行分词处理,再通过所述地名分类匹配模型对实体词的分类匹配运算,进而获得地名地址信息,并将地名地址信息转换成地理空间坐标信息,实现了对因不包含地理标记而无法直接得到地理空间坐标信息等网络数据的地理空间坐标信息的获取,解决了现有的基于网络消息的地理空间坐标信息获取成功率低的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本申请提供的一种基于网络消息的地理空间坐标信息获取方法的第一个实施例的流程示意图;

图2为本申请提供的一种基于网络消息的地理空间坐标信息获取方法的第二个实施例的流程示意图;

图3为本申请提供的一种基于网络消息的地理空间坐标信息获取装置的第一个实施例的结构示意图。

具体实施方式

本申请实施例提供了一种基于网络消息的地理空间坐标信息获取方法及装置,用于解决现有的基于网络消息的地理空间坐标信息获取成功率低的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

请参阅图1,本申请第一个实施例提供了一种基于网络消息的地理空间坐标信息获取方法,包括:

步骤101、通过网络爬取方式,获取网络消息文本。

需要说明的是,本申请实施例首先通过爬虫技术获取感兴趣的信息并存放在本地数据库,对社交文本非结构化信息进行数据解析。该步骤主要是通过对目标社交网站数据进行爬取,针对特定主题获取到感兴趣的信息,并整理成符合要求的数据格式,完成数据的获取、存储、清洗,从而得到待提取地理空间坐标信息的网络消息文本。

步骤102、通过文本分词处理方式,对网络消息文本进行实体词分词处理,并将分词处理后得到的实体词输入至地名分类匹配模型,以通过地名分类匹配模型的分类匹配运算,得到地名地址信息,其中,地名分类匹配模型为通过预设的地名词典训练集,结合隐马尔可夫模型、Viterbi算法以及AC算法训练得到的。

需要说明的是,对于不包含地理标记网络消息文本数据,本实施例通过对文本数据进行分词。对文本中包含的省、市、区/县等数据,与地名词典数据库进行匹配。对于没有在地名词典数据库的词,采用隐马尔可夫模型(Hidden Markov Model,HMM)和Viterbi算法得到粗分词结果。在此基础上,使用AC算法(Aho-Corasick Algorithm)进行匹配,再次采用隐马尔可夫模型得到地名地址信息。

步骤103、根据地名地址信息,通过地理编码方式,将地名地址信息转换为地理空间坐标信息。

最后基于获得的地名地址信息,通过开源的地理编码技术,把地名地址信息转化为地理空间坐标信息,如经纬度坐标。

以上为本申请提供的一种基于网络消息的地理空间坐标信息获取方法的第一个实施例的详细说明,下面为本申请提供的一种基于网络消息的地理空间坐标信息获取方法的第二个实施例的详细说明。

请参阅图2,在上述第一个实施例的基础上,本申请第二个实施例提供了一种基于网络消息的地理空间坐标信息获取方法。

步骤201、通过网络爬取方式,获取网络消息文本。

步骤202、通过文本分词处理方式,对网络消息文本进行实体词分词处理,将分词处理后得到的实体词与预设的地名词典信息进行信息匹配。若匹配成功,则执行步骤203,若匹配不成功,则执行步骤204。

步骤203、输出匹配到的地名地址信息,以通过地理编码方式,将地名地址信息转换为地理空间坐标信息。

本实施例在将实体词输入给地名分类匹配模型进行分类匹配处理之前,还可以先将实体词与预设的地名词典信息进行信息匹配,若能成功匹配出地名地址信息,则可执行步骤根据该地名地址信息,通过地理编码方式,将地名地址信息转换为地理空间坐标信息,若未能匹配成功,则继续执行步骤204。

步骤204、将分词处理后得到的实体词输入至地名分类匹配模型,以通过地名分类匹配模型的分类匹配运算,得到地名地址信息,其中,地名分类匹配模型为通过预设的地名词典训练集,结合隐马尔可夫模型、Viterbi算法以及AC算法训练得到的。

本实施例步骤204与第一个实施例的步骤102对应,在此不再对本步骤赘述。

步骤205、根据地名地址信息,通过地理编码方式,将地名地址信息转换为地理空间坐标信息。

步骤206、若上述步骤未获取到地理空间坐标信息,则根据地名地址信息,结合文本来源用户的兴趣点,通过地理加权回归分析方式,计算地名地址信息与各个兴趣点的莫兰指数,其中,文本来源用户为发布网络消息文本的用户,兴趣点的获取方式为:根据文本来源用户的历史地址记录,确定文本来源用户的历史活动区域,并以历史活动区域内的地名地址信息确定兴趣点;

步骤207、根据莫兰指数计算结果,确定与地名地址信息相关度最高的目标兴趣点,以根据目标兴趣点的地名地址信息,通过地理编码方式转换为地理空间坐标信息。

如果通过步骤204和205,仍未获取到有效的地址地名信息。则基于分词得到的实体此,进行兴趣点(如:机构名称、地标等)POI搜索。具体为通过文本提供者的注册地、社交文本历史记录涉及的地理标记、实体地名、兴趣点等进行地理相关性排名,选择相关性最高的记录。其中,地理相关性排名是基于地理学第一定律,从地理学角度分析数据与指标的紧密程度,考虑目标与搜索结果的相关性。用户的活动具备一定区域性,存在较大概率活动在注册地、或者多次提到的历史记录地址附近。其多次打卡的实体地名,也是可靠的活动范围。针对选定的上述内容为指标,通过地理加权回归分析,根据莫兰指数衡量相关性。同样是通过开源的地理编码技术,把地名地址信息转化为空间坐标信息。

如果经过步骤207之后,仍未获取到空间坐标信息,则标记为未知,把有实际意义的实体存放在待确认地名数据库,下次出现同名实体,则有望可以匹配。

步骤208、获取地图服务,并在地图服务中加载地理空间坐标信息。

基于地理空间坐标信息,本实施例还可以进一步将该地理空间坐标信息加载进二维地图或三维地图中,并根据地形做贴地处理,实现基于模拟地貌的渲染,并展示文本详情信息。

以上为本申请提供的一种基于网络消息的地理空间坐标信息获取方法的第二个实施例的详细说明,下面为本申请提供的一种基于网络消息的地理空间坐标信息获取装置的一个实施例的详细说明。

请参阅图3,本申请第二方面提供了一种基于网络消息的地理空间坐标信息获取装置,包括:

消息文本爬取单元301,用于通过网络爬取方式,获取网络消息文本;

地名信息分类匹配单元302,用于通过文本分词处理方式,对网络消息文本进行实体词分词处理,并将分词处理后得到的实体词输入至地名分类匹配模型,以通过地名分类匹配模型的分类匹配运算,得到地名地址信息,其中,地名分类匹配模型为通过预设的地名词典训练集,结合隐马尔可夫模型、Viterbi算法以及AC算法训练得到的;

空间坐标转换单元303,用于根据地名地址信息,通过地理编码方式,将地名地址信息转换为地理空间坐标信息。

进一步地,将分词处理后得到的实体词输入至地名分类匹配模型之前还包括:

地名匹配单元300,用于将分词处理后得到的实体词与预设的地名词典信息进行信息匹配,若匹配成功,则输出匹配到的地名地址信息,以通过地理编码方式,将地名地址信息转换为地理空间坐标信息,若匹配不成功,则将实体词输入至地名分类匹配模型。

进一步地,还包括:地理相关性匹配单元304,用于:

若上述步骤未获取到地理空间坐标信息,则根据地名地址信息,结合文本来源用户的兴趣点,通过地理加权回归分析方式,计算地名地址信息与各个兴趣点的莫兰指数,其中,文本来源用户为发布网络消息文本的用户,兴趣点的获取方式为:根据文本来源用户的历史地址记录,确定文本来源用户的历史活动区域,并以历史活动区域内的地名地址信息确定兴趣点;

根据莫兰指数计算结果,确定与地名地址信息相关度最高的目标兴趣点,以根据目标兴趣点的地名地址信息,通过地理编码方式转换为地理空间坐标信息。

进一步地,还包括:

地图加载单元305,用于获取地图服务,并在地图服务中加载地理空间坐标信息。

进一步地,地图服务具体为三维地图服务。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

相关技术
  • 一种基于网络消息的地理空间坐标信息获取方法及装置
  • 一种地理信息获取方法及地理信息获取系统
技术分类

06120112792837