掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及数据挖掘技术领域,尤其涉及一种地标信息确定方法、装置、电子设备和存储介质。

背景技术

互联网可以简单理解为若干台设备连接组合的一个大的网状平台,给人们带来便利的同时也会发生大量的网络攻击行为。

在网络被攻击时,网络技术人员需要对发生异常的位置进行快速定位。目前,现有技术通常会使用第三方数据库查询发生异常的位置,但第三方数据库的准确性较低,许多结果都是精确到城市级别而并非街道级别。具体的,现有的基于全球广域网(World WideWeb,Web)地图的网络实体地标自动挖掘方法,依据第三方接口进行数据挖掘,存在地标数量有限的问题;还有基于因特网Internet论坛的网络实体城市级地标挖掘算法仅仅通过论坛进行分析,获取信息有限,且存在获取的页面中的网际互连协议(Internet Protocol,IP)地址的定位精度仅限于城市级别,无法定位到街道级别的问题。

发明内容

本发明提供了一种地标信息确定方法、装置、电子设备和存储介质,解决了地标定位精度低且数据挖掘数量有限的问题,提升了地标信息确定的精度。

根据本发明的一方面,本发明实施例提供了一种地标信息确定方法,该方法包括:获取至少一个组合关键词,组合关键词包括第一关键词和第二关键词,第一关键词用于表示城市名称,第二关键词为任一名词;分别对每个组合关键词进行数据抓取,确定每个组合关键词对应的文本信息;根据文本信息,确定地标信息,地标信息包括与城市名称相关的名词所在的地点名称、地址信息和网际互连协议IP信息。

可选的,获取至少一个组合关键词,包括:获取第一集合和第二集合,第一集合包括多个第一关键词,第二集合包括多个第二关键词;分别从第一集合和第二集合中选择任意数量个第一关键词和第二关键词,生成至少一个组合关键词。

可选的,对于任一组合关键词,对组合关键词进行数据抓取,确定组合关键词对应的文本信息,包括:判断组合关键词的主题是否明确;若组合关键词的主题明确,则获取组合关键词的统一资源定位系统URL,并基于第一搜索引擎搜索组合关键词的URL,得到第一下载页面;根据第一下载页面,提取组合关键词对应的文本信息;若组合关键词的主题不明确,则基于第二搜索引擎搜索组合关键词,得到第二下载页面;根据第二下载页面,提取组合关键词对应的文本信息。

可选的,根据文本信息,确定地标信息,包括:根据预设规则,从文本信息中提取IP信息;根据第三方接口,查询IP信息对应的地点名称和地址信息。

可选的,在确定地标信息后,还包括:根据开源定位数据库,确定IP信息对应的第一经纬度信息;确定第一经纬度信息和地址信息的第一相似度是否小于第一阈值;若第一相似度小于第一阈值,则丢弃地标信息。

可选的,若第一相似度大于或者等于第一阈值,则根据预设地图,确定地点名称对应的第二经纬度信息;确定第二经纬度信息、第一经纬度信息和地址信息的第二相似度是否小于第二阈值;若第二相似度小于第二阈值,则丢弃地标信息。

可选的,若第二相似度大于或者等于第二阈值,则基于定位算法对地标信息进行校验定位,得到定位结果;确定定位结果是否在定位算法的结果集内;若定位结果不在定位算法的结果集内,则丢弃地标信息;若定位结果在定位算法的结果集内,则将地标信息存储至数据库。

根据本发明的另一方面,本发明实施例还提供了一种地标信息确定装置,该装置包括:关键词获取模块,用于获取至少一个组合关键词,组合关键词包括第一关键词和第二关键词,第一关键词用于表示城市名称,第二关键词为任一名词;文本信息确定模块,用于分别对每个组合关键词进行数据抓取,确定每个组合关键词对应的文本信息;地标信息确定模块,用于根据文本信息,确定地标信息,地标信息包括与城市名称相关的名词所在的地点名称、地址信息和网际互连协议IP信息。

根据本发明的另一方面,本发明实施例还提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的地标信息确定方法。

根据本发明的另一方面,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的地标信息确定方法。

本发明实施例的技术方案,通过获取至少一个组合关键词,组合关键词包括第一关键词和第二关键词,第一关键词用于表示城市名称,第二关键词为任一名词;分别对每个组合关键词进行数据抓取,确定每个组合关键词对应的文本信息;根据文本信息,确定地标信息,地标信息包括与城市名称相关的名词所在的地点名称、地址信息和网际互连协议IP信息。在上述实施例的基础上,通过对组合关键词进行数据抓取,确定抓取后的文本信息,从而根据文本信息确定地标信息,解决了地标定位精度低且数据挖掘数量有限的问题,提升了地标信息确定的精确度。

应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例一中提供的一种地标信息确定方法的一个流程图;

图2是本发明实施例二中提供的一种地标信息确定方法的一个流程图;

图3是本发明实施例三提供的一种地标信息确定装置的结构示意图;

图4是本发明实施例四中提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一中提供的一种地标信息确定方法的一个流程图,本实施例可适用于地标信息的确定情况,该方法可以由地标信息确定装置来执行,该地标信息确定装置可以采用硬件和/或软件的形式实现,在一个具体的实施例中,该地标信息确定装置可配置于电子设备中。如图1所示,本发明实施例的方法具体包括如下步骤:

S110、获取至少一个组合关键词。

其中,组合关键词包括第一关键词和第二关键词,第一关键词用于表示城市名称,第二关键词为任一名词;城市名称例如可以是A省a市、A省b市、B省c市等;任一名词例如可以是公园、学校、农场、水果、自行车等,本实施例对此不进行限定。

具体的,关键词词库中包含多个关键词集合,从关键词集合中分别获取第一关键词和第二关键词,然后通过对第一关键词和第二关键词进行随机组合获取至少一个组合关键词。

示例性的,获取第一关键词为A省a市,获取第二关键词为公园,对第一关键词A省a市和第二关键词公园进行组合确定组合关键词A省a市公园。

S120、分别对每个组合关键词进行数据抓取,确定每个组合关键词对应的文本信息。

其中,文本信息是指与组合关键词的语义相关的信息。

具体的,在获取到至少一个组合关键词之后,通过对每个组合关键词进行数据抓取,分析确定与每个组合关键词对应的文本信息。

示例性的,若组合关键词为A省a市公园,通过对A省a市公园进行数据抓取,确定A省a市公园对应的文本信息有A省a市1公园、A省a市2公园和A省a市3公园等,本实施例对此不进行限定。

S130、根据文本信息,确定地标信息。

其中,地标信息包括与城市名称相关的名词所在的地点名称、地址信息和网际互连协议IP信息。进一步的,地点名称是指与组合关键词相关的地点,例如可以是A省a市1公园,地址信息是指地点名称对应的详细地址,例如可以是I区某某街道20号,IP信息是指与地点名称对应的源地址,例如可以是221.216.254.115,本实施例对此不进行限定。

具体的,确定每个组合关键词对应的文本信息之后,通过对文本信息进行筛选提取文本信息中包括的地点名称、地址信息、统一资源定位符(Universal ResourceLocator,URL)和IP信息等相关信息,并对地点名称、地址信息、URL和IP信息等相关信息进行爬取,从而确定地标信息。

在上述实施例的基础上,可选的,在确定地标信息后,还包括:根据开源定位数据库,确定IP信息对应的第一经纬度信息;确定第一经纬度信息和地址信息的第一相似度是否小于第一阈值;若第一相似度小于第一阈值,则丢弃地标信息。

其中,开源定位数据库为存储有所有标准地标信息以及与地标信息相关的信息的数据库;经纬度是经度与纬度组成的坐标系统,第一经纬度信息是指IP信息对应的经度与纬度的数据信息;相似度是用来衡量第一经纬度信息和地址信息的相似程度;第一阈值为预先设定的第一经纬度信息和地址信息相似程度的阈值。

具体的,在确定地标信息后,根据开源定位数据库对地标信息中的IP信息进行检测,确定IP信息对应的第一经纬度信息,进一步确定第一经纬度信息与地标信息中的地址信息的第一相似度和第一阈值的关系,若第一相似度小于第一阈值,确定地标信息不准确,则丢弃地标信息。

示例性的,确定第一经纬度信息与地标信息中的地址信息的第一相似度为95%,第一阈值为99%,则确定第一相似度95%小于第一阈值99%,丢弃地标信息。这样设置的好处在于,对确定的地标信息进行进一步的检测,确定地标信息的精确度。

在上述实施例的基础上,可选的,若第一相似度大于或者等于第一阈值,则根据预设地图,确定地点名称对应的第二经纬度信息;确定第二经纬度信息、第一经纬度信息和地址信息的第二相似度是否小于第二阈值;若第二相似度小于第二阈值,则丢弃地标信息。

其中,预设地图为A地图、B地图等,本实施例对此不进行限定;第二经纬度信息为第一相似度大于或者等于第一阈值的情况下,根据预设地图确定的地点名称对应的经度与纬度数据信息;第二阈值为预先设定的第二经纬度信息和地点名称相似程度的阈值。

具体的,若第一相似度大于或者等于第一阈值,则根据预设地图,确定地点名称对应的第二经纬度信息,然后确定第二经纬度信息、第一经纬度信息和地址信息的第二相似度,判断第二相似度是否小于第二阈值;若第二相似度小于第二阈值,则丢弃地标信息。这样设置的好处在于,在第一相似度大于或者等于第一阈值的情况下,继续确定地点名称的第二经纬度信息,判断第二经纬度信息、第一经纬度信息和地址信息的第二相似度是否小于第二阈值,进一步保证地标信息的精确度。

在上述实施例的基础上,可选的,若第二相似度大于或者等于第二阈值,则基于定位算法对地标信息进行校验定位,得到定位结果;确定定位结果是否在定位算法的结果集内;若定位结果不在定位算法的结果集内,则丢弃地标信息;若定位结果在定位算法的结果集内,则将地标信息存储至数据库。

其中,定位算法可以确定地标信息的准确经纬度,例如可以是经典画圈定位算法(Constraint-Based Geolocation of Internet Hosts,CBG),将延迟转化为地理距离,利用多延迟来推断地理位置,属于连续空间下的估计而非离散空间推断,本实施例对此不进行限定。结果集为预先存储的与第一关键词和第二关键词相关的所有定位结果。

具体的,若第二相似度大于或者等于第二阈值,则基于定位算法对地标信息进行校验定位,得到定位结果;然后确定定位结果是否在定位算法的结果集内;若定位结果不在定位算法的结果集内,则丢弃地标信息;若定位结果在定位算法的结果集内,则将地标信息存储至数据库。这样设置的好处在于,分别先确定IP信息是否准确、再确定地点名称是否准确,进一步确定地标信息是否准确,三次对地标信息进行校验,增加地标信息的精确度。

本发明实施例的技术方案,通过获取至少一个组合关键词,组合关键词包括第一关键词和第二关键词,第一关键词用于表示城市名称,第二关键词为任一名词;分别对每个组合关键词进行数据抓取,确定每个组合关键词对应的文本信息;根据文本信息,确定地标信息,地标信息包括与城市名称相关的名词所在的地点名称、地址信息和网际互连协议IP信息。在上述实施例的基础上,通过对组合关键词进行数据抓取,确定抓取后的文本信息,从而根据文本信息确定地标信息,解决了地标定位精度低且数据挖掘数量有限的问题,提升了地标信息确定的精确度。

实施例二

图2是本发明实施例二中提供的一种地标信息确定方法的一个流程图,本实施例可适用于地标信息的确定情况,该方法可以由地标信息确定装置来执行,该地标信息确定装置可以采用硬件和/或软件的形式实现,在一个具体的实施例中,该地标信息确定装置可配置于电子设备中。在上述实施例的基础上,对于获取至少一个组合关键词;对于任一组合关键词,对组合关键词进行数据抓取,确定组合关键词对应的文本信息;根据文本信息,确定地标信息进一步优化,如图2所示,该方法具体包括如下步骤:

S210、获取第一集合和第二集合。

其中,第一集合包括多个第一关键词,第二集合包括多个第二关键词。

具体的,直接从关键词数据库中获取第一集合和第二集合,第一集合包括多个第一关键词,第二集合包括多个第二关键词,且第一集合中的多个第一关键词均为用于表示城市名称的关键词,第二集合中的多个第二关键词为任一名词。

示例性的,第一集合中包含A省a市、A省b市、B省c市等,即A省a市、A省b市、B省c市等均为第一关键词,第二集合中包含网吧、饭店和学校等,即网吧、饭店、学校、自行车等均为第二关键词。

S220、分别从第一集合和第二集合中选择任意数量个第一关键词和第二关键词,生成至少一个组合关键词。

其中,组合关键词是通过第一集合中的第一关键词和第二集合中的第二关键词组成的词。

具体的,获取到第一集合和第二集合后,分别从第一集合和第二集合中选择任意数量个第一关键词和第二关键词,然后对任意数量个第一关键词和第二关键词进行随机组合,生成至少一个组合关键词。

示例性的,若确定第一集合中的多个第一关键词为A省a市和A省b市,第二集合中的多个第二关键词为公园、学校,则对多个第一关键词和多个第二关键词进行随机组合,生成的组合关键词为A省a市公园、A省a市学校、A省b市公园和A省b市学校。

S230、判断组合关键词的主题是否明确。若是,则执行S240;若否,则执行S260。

具体的,通过第一集合和第二集合中的第一关键词和第二关键词生成组合关键词之后,确定组合关键词的主旨表达是否明确,若组合关键词的主旨表达明确,为地点名词,例如政府、学校和饭店等,则确定组合关键词的主题明确,执行S240;若组合关键词的主旨表达不明确,为其他名词,例如旅游、苹果和疼痛等,则确定组合关键词的主题不明确,执行S260。

示例性的,若确定组合关键词为A省a市学校,此时组合关键词A省a市学校的主旨表达是学校,学校为地点名称,则确定组合关键词A省a市学校的主题明确;若确定组合关键词为A省a市疼痛,此时组合关键词A省a市疼痛的主旨表达是疼痛,不属于地点名称,且没有具体的地点指示,则确定组合关键词A省a市疼痛的主题不明确。

S240、获取组合关键词的统一资源定位系统URL,并基于第一搜索引擎搜索组合关键词的URL,得到第一下载页面。

其中,URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址,互联网上的每个文件都有唯一的URL,它包含的信息指出文件的位置以及浏览器对文件的处理。第一搜索引擎为根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统,例如可以是A搜索引擎、B搜索引擎、C搜索引擎等,搜索引擎的关键技术是用于进行网络爬虫、大数据处理和数据挖掘等,本实施例对此不进行限定。

具体的,若组合关键词的主题明确,则获取主题明确的组合关键词的URL,然后将主题明确的组合关键词送入第一搜索引擎中进行搜索,得到第一搜索引擎中的前n项页面的结果,经过对前n项页面去除广告以及推广等无关页,剩下的页面加入待爬取队列中作为种子项进行页面下载,得到第一下载页面。

S250、根据第一下载页面,提取组合关键词对应的文本信息。

具体的,在确定第一下载页面之后,对第一下载页面进行正文提取。对第一下载页面进行正文提取主要基于文本块密度与标签路径特征,首先将第一下载页面解析成文档对象模型(Document Object Model,DOM)树,然后根据第一下载页面的DOM树计算各个文本密度,并设定预设密度,将文本密度大于预设密度的文本块的上一级文本块作为待提取块;同时计算第一下载页面的每条标签路径的真阳性率(True Positive Rate,TPR)值,设定预设值,将第一下载页面的每条标签路径的TPR值大于预设值的正文的路径集合。最后根据确定的待提取块与路径集合进行交集操作,将交集中的路径的文本进行提取,确定组合关键词对应的文本信息。

进一步的,确定组合关键词对应的文本信息之后,再次基于机器学习与向量空间模型相结合的方式对文本信息进行主题判断,确定文本信息是否与组合关键词的主题词相关,通过向量空间训练文本信息的数据,机器学习准确的筛选数据,使用词语词频-逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)公式计算特征权值,两文档之间相似度可以用其对应的向量之间的夹角余弦表示,将相似度大于相似阈值的文档作为正例集,小于相似阈值的为反例集,使用长短期记忆(Long Short Term Memory,LSTM)模型进行训练,训练之后将后续爬取的文本通过LSTM模型进行筛选,确定组合关键词对应的准确的文本信息。

进一步的,在对主题明确的组合关键词进行数据抓取的过程中,还需要对关键词词库进行不断扩充,在确定第一下载页面之后,将第一下载页面加入线性判别分析(LinearDiscriminant Analysis,LDA)主题训练模型进行训练,得到新的主题文档,确定更新后新的主题文档与测试集第一下载页面的文档是否一致,若一致,则不更新,若不一致,则用新的主题文档覆盖第一下载页面的文档,并进行数据抓取,确定对应的文本信息。

S260、基于第二搜索引擎搜索组合关键词,得到第二下载页面。

其中,第二搜索引擎为根据一定的策略、运用特定的计算机程序从互联网上采集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索的相关信息展示给用户的系统,例如可以是A搜索引擎、B搜索引擎、C搜索引擎等,搜索引擎的关键技术是用于进行网络爬虫、大数据处理和数据挖掘等,本实施例对此不进行限定。

具体的,若组合关键词的主题不明确,则将主题不明确的组合关键词输入第二搜索引擎,第二搜索引擎可能包含多个搜索引擎,获取每个搜索引擎的前n页每条搜索结果的链接,并确定前n页每条搜索结果的URL,确定是否存在重复的URL,对重复的URL进行聚合去重后,对剩余的页面进行页面下载,得到第二下载页面。

S270、根据第二下载页面,提取组合关键词对应的文本信息。

具体的,在确定第二下载页面后,基于上述S250中的文本信息提取方法,根据第二下载页面,提取组合关键词对应的文本信息,详细方法在此不再赘述。

进一步的,由于第二下载页面中可能存在与组合关键词无关的内容,可以采用聚类算法将不同种类的正文结果分开,具体的,选择k个点作为聚类中心,计算文本与组合关键词对应的文本信息的相似度,归到最相似的类中,计算每个簇的平均相似度,选取簇与该簇中相似度大于聚类阈值的点集合,计算平均值作为新的聚类中心,直至中心点不再变化,然后选取需要的组合关键词的簇数据进行存储。

S280、根据预设规则,从文本信息中提取IP信息。

其中,预设规则可以为预先设定的文本分析规则。示例性的,如表1所示,预设规则包括规则(1)和规则(2),根据规则(1)和规则(2)对文本信息进行分析,提取IP信息;IP为一种统一的地址格式。

表1

具体的,确定文本信息后,通过预设规则确定组合关键词对应的IP段、IP地址和URL进行爬取。

S290、根据第三方接口,查询IP信息对应的地点名称和地址信息。

其中,第三方接口为存储有与IP信息对应的地点名称和地址信息。

具体的,在从文本信息中提取IP信息之后,将IP信息输入第三方接口,查询IP信息对应的地点名称和地址信息,并将确定的IP信息对应的地点名称和地址信息进行存储。

示例性的,IP信息对应的地点名称和地址信息如表2所示,在确定IP信息后,通过第三方接口查询确定与IP信息对应的地点名称和地址信息。

表2

在确定地标信息中的IP信息、地点名称和地址信息之后,进一步根据开源定位数据库,确定IP信息对应的第一经纬度信息;确定第一经纬度信息和地址信息的第一相似度是否小于第一阈值;若第一相似度小于第一阈值,则丢弃地标信息。若第一相似度大于或者等于第一阈值,则根据预设地图,确定地点名称对应的第二经纬度信息;确定第二经纬度信息、第一经纬度信息和地址信息的第二相似度是否小于第二阈值;若第二相似度小于第二阈值,则丢弃地标信息。若第二相似度大于或者等于第二阈值,则基于定位算法对地标信息进行校验定位,得到定位结果;确定定位结果是否在定位算法的结果集内;若定位结果不在定位算法的结果集内,则丢弃地标信息;若定位结果在定位算法的结果集内,则将地标信息存储至数据库。这样设置的好处在于,分别确定地标信息中的IP信息是否准确、再确定地点名称是否准确,进一步确定地标信息是否准确,三次对地标信息进行校验,增加地标信息的精确度。

本发明实施例的技术方案,通过获取第一集合和第二集合;分别从第一集合和第二集合中选择任意数量个第一关键词和第二关键词,生成至少一个组合关键词;判断组合关键词的主题是否明确;若组合关键词的主题明确,则获取组合关键词的统一资源定位系统URL,并基于第一搜索引擎搜索组合关键词的URL,得到第一下载页面;根据第一下载页面,提取组合关键词对应的文本信息;若组合关键词的主题不明确,则基于第二搜索引擎搜索组合关键词,得到第二下载页面;根据第二下载页面,提取组合关键词对应的文本信息;根据预设规则,从文本信息中提取IP信息;根据第三方接口,查询IP信息对应的地点名称和地址信息。在上述实施例的基础上,通过获取组合关键词的统一资源定位系统URL,并确定下载页面,然后根据预设规则确定从文本信息中提取IP信息,根据第三方接口,查询IP信息对应的地点名称和地址信息,使用获取下载页面的信息,提升数据抓取的数量级,同时根据地方接口进一步查询IP信息对应的地点名称和地址信息,提升地标定位的精确度。

实施例三

图3是本发明实施例三中提供的一种地标信息确定装置的结构示意图,该装置包括:关键词获取模块310、文本信息确定模块320和地标信息确定模块330。其中,

关键词获取模块310,用于获取至少一个组合关键词,组合关键词包括第一关键词和第二关键词,第一关键词用于表示城市名称,第二关键词为任一名词。

文本信息确定模块320,用于分别对每个组合关键词进行数据抓取,确定每个组合关键词对应的文本信息。

地标信息确定模块330,用于根据文本信息,确定地标信息,地标信息包括与城市名称相关的名词所在的地点名称、地址信息和网际互连协议IP信息。

可选的,关键词获取模块310,具体用于:获取第一集合和第二集合,第一集合包括多个第一关键词,第二集合包括多个第二关键词;分别从第一集合和第二集合中选择任意数量个第一关键词和第二关键词,生成至少一个组合关键词。

可选的,文本信息确定模块320,具体用于:判断组合关键词的主题是否明确;若组合关键词的主题明确,则获取组合关键词的统一资源定位系统URL,并基于第一搜索引擎搜索组合关键词的URL,得到第一下载页面;根据第一下载页面,提取组合关键词对应的文本信息;若组合关键词的主题不明确,则基于第二搜索引擎搜索组合关键词,得到第二下载页面;根据第二下载页面,提取组合关键词对应的文本信息。

可选的,地标信息确定模块330,具体用于:根据预设规则,从文本信息中提取IP信息;根据第三方接口,查询IP信息对应的地点名称和地址信息。

可选的,该装置还包括:地标信息检测模块,具体用于:根据开源定位数据库,确定IP信息对应的第一经纬度信息;确定第一经纬度信息和地址信息的第一相似度是否小于第一阈值;若第一相似度小于第一阈值,则丢弃地标信息。

可选的,地标信息检测模块,还用于:若第一相似度大于或者等于第一阈值,则根据预设地图,确定地点名称对应的第二经纬度信息;确定第二经纬度信息、第一经纬度信息和地址信息的第二相似度是否小于第二阈值;若第二相似度小于第二阈值,则丢弃地标信息。

可选的,地标信息检测模块,还用于:若第二相似度大于或者等于第二阈值,则基于定位算法对地标信息进行校验定位,得到定位结果;确定定位结果是否在定位算法的结果集内;若定位结果不在定位算法的结果集内,则丢弃地标信息;若定位结果在定位算法的结果集内,则将地标信息存储至数据库。

本发明实施例所提供的地标信息确定装置可执行本发明任意实施例所提供的地标信息确定方法,具备执行方法相应的功能模块和有益效果。

实施例四

图4是本发明实施例四中提供的一种电子设备的结构示意图,电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如方法地标信息确定方法。

在一些实施例中,方法地标信息确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的方法地标信息确定方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法地标信息确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

技术分类

06120115636097