掌桥专利:专业的专利平台
掌桥专利
首页

一种互联网大数据抓取系统及分类梳理方法

文献发布时间:2023-06-19 19:18:24


一种互联网大数据抓取系统及分类梳理方法

技术领域

本发明属于互联网大数据领域,更具体涉及一种互联网大数据系统及分类梳理方法。

背景技术

一般用户端都是通过互联网上的网页内容分来获取所需的大数据,随着近年来互联网的发展,互联网中的数据信息也是海量的,但是用户端想要从互联网上通过网页获取所需精准的大数据是比较困难的,特别是很多包含有敏感、内容不适合用户端属性甚至危害极大的网页,而且随着技术的发展这些网页也变得越来越隐蔽,如果一旦被用户获取有可能会造成不可挽回的损失。

因此,本发明针对上述问题,在用户通过浏览器获取网页数据时,通过加强用户端对网页访问的权限管理,动态调整用户端核心词库和无权限地址库,针对不同用户端管理用户访问页面的权限,能够使用户端更精准的抓取所需要的数据,并阻止有害页面的访问,避免用户不必要的损失。

发明内容

为了更好的解决上述问题,本发明提供一种互联网大数据抓取系统的分类梳理方法,包括如下步骤:

步骤S1、用户端的第一权限判断部将访问的地址与第一存储部中存储的无权限地址库进行比对,在所述无权限地址库不包含所述地址时,所述第一权限判断部允许访问所述地址,否者不允许访问所述地址;

步骤S2、在访问所述地址时,浏览器通过网络服务器获取所述地址对应的网页;

步骤S3、核心词判断部提取所述网页的第一核心词,并将所述第一核心词与用户端第二存储部中存储的核心词库进行比较,以获取所述第一核心词与所述核心库中的核心词重合的第一核心词数量;在所述第一核心词数量大于第一阈值时,第一地址添加部将所述地址添加至所述无权限地址库,第一通信部将所述地址发送至云服务器;

步骤S4、所述云服务器接收所述地址,通过抓取部抓取所述网页的对应的第二核心词,并将所述第二核心词与云服务器中的核心词标准库进行比较,以获得第二核心词与所述核心词标准库中的核心词重合的第二核心词数量;在所述第二核心词数量大于第二阈值时,将所述重合的第二核心词发送至所述用户端。

作为本发明的一种优选技术方案,在所述第二核心词数量小于第二阈值时,所述步骤S4中还包括:

步骤S41、所述云服务器获取所述用户端的位置,并建立所述位置与所述地址的对应关系;

步骤S42、所述云服务器判断所述用户端在第二预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于第六阈值时,将第四信息发送至用户端;

步骤S43、所述用户端接收所述第四信息,并基于所述第四信息将所述重合的第二核心词从所述核心词口中删除,并基于所述重合的第二核心词生成拟合地址,并在所述无权限地址库中存在所述拟合地址时,将所述无权限地址库中拟合地址删除。

作为本发明的一种优选技术方案,在所述步骤S4后还包括步骤S5:

所述用户端接收所述重合的第二核心词,将所述重合的第二核心词与所述核心词库进行比较以获得重合的第三核心词的第三核心词数量,在所述第三核心词数量大于第三阈值时,所述用户端的第一地址添加部将所述地址添加至所述无权限地址库,同时将所述第三核心词添加至所述核心词库;在所述第三核心词数量小于第三阈值时,用户端将所述地址以及所述第三核心词分别暂存在所述用户端的第一暂存区和第二暂存区,同时将所述用户端的位置发送至云服务器。

作为本发明的一种优选技术方案,在所述步骤S5后还包括步骤S6:

所述云服务器接收所述位置,并基于所述位置查询该位置处成功访问所述地址的其他用户端数量;在所述其他用户端数量大于第四阈值时,所述云服务器建立所述位置与所述地址的对应关系,同时所述云服务器判断所述用户端在第一预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于第五阈值时,将第一信息发送至用户端,在所述访问次数小于所述第五阈值时,将第二信息发送至用户端;在所述其他用户端数量小于第四阈值时,将第三信息发送至用户端。

作为本发明的一种优选技术方案,在所述步骤S6后还包括步骤S7:

所述用户端接收所述第一信息和第二信息,并基于所述第一信息删除暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词,基于所述第二信息和/或第三信息将暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词分别添加至所述无权限地址库和所述核心词库。

本发明还提供一种互联网大数据抓取系统,所述系统基于上述的互联网大数据抓取系统的分类梳理方法,包括:

用户端,所述用户端包括第一权限判断部、浏览器、核心词判断部和第一存储部,所述用户端配置为:第一权限判断部将访问的地址与第一存储部中存储的无权限地址库进行比对,在所述无效地址库不包含所述地址时,所述第一权限判断部允许访问所述地址,否者不允许访问所述地址;在访问所述地址时,浏览器通过网络服务器获取所述地址对应的网页;核心词判断部提取所述网页的第一核心词,并将所述第一核心词与用户端第二存储部中存储的核心词库进行比较,以获取所述第一核心词与所述核心库中的核心词重合的第一核心词数量;在所述第一核心词数量大于第一阈值时,第一地址添加部将所述地址添加至所述无权限地址库,第一通信部将所述地址发送至云服务器;

云服务器,所述云服务器包括第二通信部、抓取部、核心词标准库和第二权限判断部,所述云服务器配置为:所述第二通信部接收所述地址,通过所述抓取部抓取所述网页的对应的第二核心词,所述第二权限判断部将所述第二核心词与所述核心词标准库进行比较,以获得第二核心词与所述核心词标准库中的核心词重合的第二核心词数量;在所述第二核心词数量大于第二阈值时,所述第二通信部将所述重合的第二核心词发送至所述用户端。

作为本发明的一种优选技术方案,所述云服务器还配置为:在所述第二核心词数量小于第二阈值时,获取所述用户端的位置,并建立所述位置与所述地址的对应关系,判断所述用户端在第二预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于所述第六阈值时,将第四信息发送至用户端;所述用户端还配置为:接收所述第四信息,并基于所述第四信息将所述重合的第二核心词从所述核心词口中删除,并基于所述重合的第二核心词生成拟合地址,并在所述无权限地址库中存在所述拟合地址时,将所述无权限地址库中拟合地址删除。

作为本发明的一种优选技术方案,所述用户端还配置为:接收所述重合的第二核心词,将所述重合的第二核心词与所述核心词库进行比较以获得重合的第三核心词的第三核心词数量,在所述第三核心词数量大于第三阈值时,所述用户端的第一地址添加部将所述地址添加至所述无权限地址库,同时将所述第三核心词添加至所述核心词库;在所述第三核心词数量小于第三阈值时,用户端将所述地址以及所述第三核心词分别暂存在所述用户端的第一暂存区和第二暂存区,同时将所述用户端的位置发送至云服务器。

作为本发明的一种优选技术方案,所述云服务器还配置为:接收所述位置,并基于所述位置查询该位置处成功访问所述地址的其他用户端数量;在所述其他用户端数量大于第四阈值时,所述云服务器建立所述位置与所述地址的对应关系,同时所述云服务器判断所述用户端在第一预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于所述第五阈值时,将第一信息发送至用户端,在所述访问次数小于所述第五阈值时,将第二信息发送至用户端;在所述其他用户端数量小于第四阈值时,将第三信息发送至用户端。

作为本发明的一种优选技术方案,所述用户端还配置为:接收所述第一信息和第二信息,并基于所述第一信息删除暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词,基于所述第二信息和/或第三信息将暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词分别添加至所述无权限地址库和所述核心词库。

与现有技术相比,本发明的有益效果至少如下所述:

1、本发明的技术方案通过用户端和云服务器的配合,在进行网页浏览过程中,在用户端和云服务中分别进行核心词和地址比对,当地址在用户端的无权限地址库时,能够阻止地址的访问;当地址不在用户端的无权限地址库时,首次能够正常访问,在访问的同时抓取页面的核心词,根据核心词与核心词的比较判断是否将地址添加到无权限地址库中,同时无论时正常访问或者不能访问的情况下,都将所述地址发送至云服务器,云服务器对所述网页进行核心词抓取,并根据抓取的核心词与核心词标准库进行比较,根据核心词与核心词标准库中的核心词的重合数量进一步判断所述地址是否为无权限地址;通过用户端与云服务器的相互配合判断,能够针对不同的用户端实现不同的权限;

2、本发明在和核心词与核心词标准库中的核心词的重合数量大于第二阈值时,将重合的核心词发送至用户进行进一步地判断,而小于第二阈值时,建立用户端的位置与所述地址的对应关系,继续判断用户端在预定时间内在该位置访问该地址的次数,并基于该次数与第五阈值的比较结果判断注入地址和核心词,或者删除暂存的地址和核心词;

3、本发明的技术方案通过用户端接收云服务器返回的第三核心词,基于第三核心词与核心词库重合的核心词数量,在重合的核心词数量大于第三阈值时,将地址和核心词分别添加至无权限地址库和核心词库,并在小于第三阈值时,云服务能够基于用户端的位置,进一步判断在该位置处成功访问该地址的其他用户端的数量,在其他用户端的数量大于第四阈值时,建立所述地址与位置的对应关系,继续判断用户端在预定时间内在该位置访问该地址的次数,并基于该次数与第五阈值的比较结果,在大于第五阈值时,用户端删除核心词库中与所述第三核心词相同的核心词,同时基于第三核心词形成模拟地址,并删除无权限地址库中与模拟地址相同的地址;

4、通过用户端在不断的使用过程,配合使用的用户信息,动态调整核心词库中的核心词以及无权限地址库中的无权限地址,使得无权限地址库中的地址以及核心词库中的核心词能够精准地与用户信息匹配。

附图说明

图1为本发明互联网大数据抓取系统的分类梳理方法的流程图;

图2为本发明互联网的大数据抓取系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

为了解决背景技术部分的技术问题,本发明通过加强用户端对网页访问的权限管理,针对不同用户端过滤上述无权限网页及数据,避免用户不必要的损失,具体地,如图1所示,本发明提供一种互联网大数据抓取系统的分类梳理方法,包括如下步骤:

步骤S1、用户端的第一权限判断部将访问的地址与第一存储部中存储的无权限地址库进行比对,在所述无权限地址库不包含所述地址时,所述第一权限判断部允许访问所述地址,否者不允许访问所述地址;在该步骤中,初步地配合无权限地址库对用户端的访问地址进行判断,在无权限时直接阻止无权限网页的访问;

步骤S2、在访问所述地址时,浏览器通过网络服务器获取所述地址对应的网页;在该步骤中,访问地址不在无权限地址库中时,用户端可以通过物联网正常进行地址的访问,获取对应的网页数据;

步骤S3、核心词判断部提取所述网页的第一核心词,并将所述第一核心词与用户端第二存储部中存储的核心词库进行比较,以获取所述第一核心词与所述核心库中的核心词重合的第一核心词数量;在所述第一核心词数量大于第一阈值时,第一地址添加部将所述地址添加至所述无权限地址库,第一通信部将所述地址发送至云服务器;在该步骤中,用户端通过对应的网页进行核心词获取,并根据核心词与核心词库进行比较,在重合的数量大于第一阈值时,判断该地址为无权限地址,用户端进一步将该地址添加至无权限地址,用户端下次将无法访问该地址;

步骤S4、所述云服务器接收所述地址,通过抓取部抓取所述网页的对应的第二核心词,并将所述第二核心词与云服务器中的核心词标准库进行比较,以获得第二核心词与所述核心词标准库中的核心词重合的第二核心词数量;在所述第二核心词数量大于第二阈值时,将所述重合的第二核心词发送至所述用户端。在该步骤中,不管用户端是否能够正常访问所述地址,用户端均需将所述地址发送至云服务器,云服务器对所述地址对应的网页进行网页内容的核心词抓取,在该抓取中不仅抓取所述地址对应网页的核心词,还对所述网页中所有的链接进行抓取,例如在该网页包括多个链接,需要遍历地对所有对应的连接进行访问并抓取该链接网页的核心词,并同时对该链接的网页中存在进一步链接进行访问抓取,直至对应链接中无进一步地网页链接为止;基于上述抓取核心词能够更加精准对应用户端的实际需求,使得第二核心词与用户端的用户信息能够更好地匹配;从而将上述第二核心词返回至用户端;

进一步地,在所述第二核心词数量小于第二阈值时,所述步骤S4中还包括:

步骤S41、所述云服务器获取所述用户端的位置,并建立所述位置与所述地址的对应关系;

步骤S42、所述云服务器判断所述用户端在第二预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于第六阈值时,将第四信息发送至用户端;

步骤S43、所述用户端接收所述第四信息,并基于所述第四信息将所述重合的第二核心词从所述核心词口中删除,并基于所述重合的第二核心词生成拟合地址,并在所述无权限地址库中存在所述拟合地址时,将所述无权限地址库中拟合地址删除。

在该步骤中,第二核心词与第二核心词标准库中的重合的第二核心词数量小于第二阈值时,云服务器默认认为该地址有权限访问;然而用户端的属性并非始终固定的,例如用户端具有未成年人属性,但是后续也可能成为成年人,具有成年人属性,再例如用户端为警擦,具有警察属性,同时在晚上也可能成为一个滴滴车司机,具有司机属性;如果核心词库以及无权限地址库始终不变,则无法满足精确调节不同用户端的权限;本发明的上述步骤中,能够与后续的步骤4-7的配合,实现动态调整核心词库中的核心词与无权限地址库中的无权限地址,保证权限的精确性;

进一步地,在所述步骤S4后还包括步骤S5:

所述用户端接收所述重合的第二核心词,将所述重合的第二核心词与所述核心词库进行比较以获得重合的第三核心词的第三核心词数量,在所述第三核心词数量大于第三阈值时,所述用户端的第一地址添加部将所述地址添加至所述无权限地址库,同时将所述第三核心词添加至所述核心词库;在所述第三核心词数量小于第三阈值时,用户端将所述地址以及所述第三核心词分别暂存在所述用户端的第一暂存区和第二暂存区,同时将所述用户端的位置发送至云服务器。该步骤中,用户端接收云服务器中返回的第三核心词,该第三核心词实际对应用户端用户的访问需求,一定程度上代表用户的属性;在第三核心词数量大于第三阈值时,用户端和云服务器都认为第三核心词为该用户端无权限地址对应的核心词,此时将地址和核心词分别添加至所述无权限地址库和所述核心词库,阻止用户端对该地址的访问;在所述第三核心词数量小于第三阈值时,虽然云服务器认为所述用户端对该地无权限,但是不排除用户端例如由于用户属性的变化,实际应该有对该地址的访问权限,此时,通过将所述地址以及所述第三核心词分别暂存在所述用户端的第一暂存区和第二暂存区,进行进一步的判断;

进一步地,在所述步骤S5后还包括步骤S6:

所述云服务器接收所述位置,并基于所述位置查询该位置处成功访问所述地址的其他用户端数量;在所述其他用户端数量大于第四阈值时,所述云服务器建立所述位置与所述地址的对应关系,同时所述云服务器判断所述用户端在第一预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于第五阈值时,将第一信息发送至用户端,在所述访问次数小于所述第五阈值时,将第二信息发送至用户端;在所述其他用户端数量小于第四阈值时,将第三信息发送至用户端。用户的属性通常与用户端的位置具有较强关联性,例如厨师和警察的工作地点常处于固定的场所例如饭店和派出所,通过上述的判断,能够配合位置与其他用户端访问成功的次数,用户端能够基于上述次数进行进一步的权限判断;

进一步地,在所述步骤S6后还包括步骤S7:

所述用户端接收所述第一信息和第二信息,并基于所述第一信息删除暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词,基于所述第二信息和/或第三信息将暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词分别添加至所述无权限地址库和所述核心词库。在该步骤中,用户端子在接收到第一信息时,可以理解为用户端在该位置处具有与所述地址具有访问权限,此时通过删除暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词,使得用户端具有对所述地址的访问权限;在接收第二信息和/或第三信息时,说明在预设时间端内访问次数小或者该位置其他用户端成功访问该地址少,该情况下,说明该地址用户需求少或者偶然访问等,不能直接代表用户属性给与访问权限,此时将暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词分别添加至所述无权限地址库和所述核心词库,阻止用户端下次访问该无权限的地址;

此时对所述地址和所述第三核心词仅作暂存处理,不在所述无权限地址库和核心词库中添加,避免在后续中直接无法访问;

进一步地,本发明还提供一种互联网大数据抓取系统,所述系统基于上述的互联网大数据抓取系统的分类梳理方法,如图2所示,包括:

用户端,所述用户端包括第一权限判断部、浏览器、核心词判断部和第一存储部,所述用户端配置为:第一权限判断部将访问的地址与第一存储部中存储的无权限地址库进行比对,在所述无效地址库不包含所述地址时,所述第一权限判断部允许访问所述地址,否者不允许访问所述地址;在访问所述地址时,浏览器通过网络服务器获取所述地址对应的网页;核心词判断部提取所述网页的第一核心词,并将所述第一核心词与用户端第二存储部中存储的核心词库进行比较,以获取所述第一核心词与所述核心库中的核心词重合的第一核心词数量;在所述第一核心词数量大于第一阈值时,第一地址添加部将所述地址添加至所述无权限地址库,第一通信部将所述地址发送至云服务器;

云服务器,所述云服务器包括第二通信部、抓取部、核心词标准库和第二权限判断部,所述云服务器配置为:所述第二通信部接收所述地址,通过所述抓取部抓取所述网页的对应的第二核心词,所述第二权限判断部将所述第二核心词与所述核心词标准库进行比较,以获得第二核心词与所述核心词标准库中的核心词重合的第二核心词数量;在所述第二核心词数量大于第二阈值时,所述第二通信部将所述重合的第二核心词发送至所述用户端。

进一步地,所述云服务器还配置为:在所述第二核心词数量小于第二阈值时,获取所述用户端的位置,并建立所述位置与所述地址的对应关系,判断所述用户端在第二预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于所述第六阈值时,将第四信息发送至用户端;所述用户端还配置为:接收所述第四信息,并基于所述第四信息将所述重合的第二核心词从所述核心词口中删除,并基于所述重合的第二核心词生成拟合地址,并在所述无权限地址库中存在所述拟合地址时,将所述无权限地址库中拟合地址删除。

进一步地,所述用户端还配置为:接收所述重合的第二核心词,将所述重合的第二核心词与所述核心词库进行比较以获得重合的第三核心词的第三核心词数量,在所述第三核心词数量大于第三阈值时,所述用户端的第一地址添加部将所述地址添加至所述无权限地址库,同时将所述第三核心词添加至所述核心词库;在所述第三核心词数量小于第三阈值时,用户端将所述地址以及所述第三核心词分别暂存在所述用户端的第一暂存区和第二暂存区,同时将所述用户端的位置发送至云服务器。

进一步地,所述云服务器还配置为:接收所述位置,并基于所述位置查询该位置处成功访问所述地址的其他用户端数量;在所述其他用户端数量大于第四阈值时,所述云服务器建立所述位置与所述地址的对应关系,同时所述云服务器判断所述用户端在第一预设时间内在所述位置访问所述地址的访问次数,在所述访问次数大于所述第五阈值时,将第一信息发送至用户端,在所述访问次数小于所述第五阈值时,将第二信息发送至用户端;在所述其他用户端数量小于第四阈值时,将第三信息发送至用户端。

进一步地,所述用户端还配置为:接收所述第一信息和第二信息,并基于所述第一信息删除暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词,基于所述第二信息和/或第三信息将暂存在所述第一暂存区中的所述地址以及所述第二暂存区的所述第三核心词分别添加至所述无权限地址库和所述核心词库。

通过本发明的上述技术方案,第一、通过用户端和云服务器的配合,在进行网页浏览过程中,在用户端和云服务中分别进行核心词和地址比对,当地址在用户端的无权限地址库时,能够阻止地址的访问;当地址不在用户端的无权限地址库时,首次能够正常访问,在访问的同时抓取页面的核心词,根据核心词与核心词的比较判断是否将地址添加到无权限地址库中,同时无论时正常访问或者不能访问的情况下,都将所述地址发送至云服务器,云服务器对所述网页进行核心词抓取,并根据抓取的核心词与核心词标准库进行比较,根据核心词与核心词标准库中的核心词的重合数量进一步判断所述地址是否为无权限地址;通过用户端与云服务器的相互配合判断,能够针对不同的用户端实现不同的权限,对用户端的权限进行初步判断;第二、在和核心词与核心词标准库中的核心词的重合数量大于第二阈值时,将重合的核心词发送至用户进行进一步地判断,而小于第二阈值时,建立用户端的位置与所述地址的对应关系,继续判断用户端在预定时间内在该位置访问该地址的次数,并基于该次数与第五阈值的比较结果判断注入地址和核心词,或者删除暂存的地址和核心词;通过上述判断,可以为认为用户端具有该地址访问的权限,进一步提高了用户访问地址权限的判断;第三、通过用户端接收云服务器返回的第三核心词,基于第三核心词与核心词库重合的核心词数量,在重合的核心词数量大于第三阈值时,将地址和核心词分别添加至无权限地址库和核心词库,并在小于第三阈值时,云服务能够基于用户端的位置,进一步判断在该位置处成功访问该地址的其他用户端的数量,在其他用户端的数量大于第四阈值时,建立所述地址与位置的对应关系,继续判断用户端在预定时间内在该位置访问该地址的次数,并基于该次数与第五阈值的比较结果,在大于第五阈值时,用户端删除核心词库中与所述第三核心词相同的核心词,同时基于第三核心词形成模拟地址,并删除无权限地址库中与模拟地址相同的地址;在经过上述判断后,可以认为用户端具有该地址的访问权限,但是在用户端部分的核心词库或无权限地址库阻止了用户访问,本发明在上述认为用户端具有该地址的访问权限时,动态删除核心词库对应的核心词和无权限地址库中对应的无权限地址,从而通过用户端在不断的使用过程中,不断配合使用的用户信息、地址信息以及浏览的网页信息,动态调整核心词库中的核心词以及无权限地址库中的无权限地址,使得无权限地址库中的地址以及核心词库中的核心词能够精准地与用户信息匹配。

以上上述的实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上上述的实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

以上上述的仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

技术分类

06120115868028