掌桥专利:专业的专利平台
掌桥专利
首页

一种基于网络爬虫的数据处理方法、系统及云平台

文献发布时间:2023-06-19 09:57:26


一种基于网络爬虫的数据处理方法、系统及云平台

技术领域

本发明涉及互联网与数据处理技术领域,具体而言,涉及一种基于网络爬虫的数据处理方法、系统及云平台。

背景技术

网络爬虫是一种按照设定的规则,能够自动地抓取网页信息的程序或脚本;利用网络爬虫,可以快速的获取用户所需的网页数据,从而为大规模的数据收集提供技术支撑。

其中,在利用网络爬虫爬取数据的过程中,现有技术可以将爬取的数据保存在设备本地。然而,在大规模数据分析的场景中,由于爬取的数据量较大,可能导致不同网页数据的爬虫数据相互污染,可靠数据爬取的可靠性降低。

发明内容

本发明的目的在于提供一种基于网络爬虫的数据处理方法、系统及云平台,以解决上述的至少部分技术问题。

为了实现上述目的,本发明采用的技术方案如下:

第一方面,本发明提供一种基于网络爬虫的数据处理方法,所述方法包括:

获取用户输入的网页爬虫指令,其中,所述网页爬虫指令包括目标网页信息和爬取对象集合,所述爬取对象集合用于指示所述目标网页信息中待爬取的网页对象集合;

获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据;

将所述目标爬虫数据保存至目标分布式保存节点中,其中,所述目标分布式保存节点为分布式存储系统中与所述网页对象集合对应的保存节点。

可选地,作为一种实施方式,所述获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据,包括:

获取与所述目标网页信息对应的当前网页内容数据和历史网页内容数据;

根据所述爬取对象集合在所述当前网页内容数据中匹配出所述网页对象集合所对应的目标爬虫数据,以及在所述历史网页内容数据中匹配出所述网页对象集合对应的目标爬虫数据;

其中,所述当前网页内容数据为所述目标网页信息所指示的网页地址在当前时刻的网页内容数据,所述历史网页内容数据为所述目标网页信息所指示的网页地址在历史时刻的网页内容数据。

可选地,作为一种实施方式,所述将所述目标爬虫数据保存至目标分布式保存节点中,包括:

将所述网页对象集合对应的目标爬虫数据保存至所述目标分布式保存节点的过程中,初始化数据保存进程的单位数据保存资源量,其中,所述数据保存进程的单位数据保存资源量用于指示每一次数据保存操作所对应的目标爬虫数据的数据量;

获取单位数据保存上限值,其中,所述单位数据保存上限值用于指示所述数据保存进程在保存所述目标爬虫数据的过程中但每一次数据保存操作所对应的目标爬虫数据的上限数据量;

根据所述单位数据保存上限值,对所述数据保存进程的单位数据保存资源量进行更新;

根据更新后的所述数据保存进程,对所述目标爬虫数据继续执行数据保存操作;

其中,所述根据所述单位数据保存上限值,对所述数据保存进程的单位数据保存资源量进行更新,包括:

当所述单位数据保存上限值小于预设的单位数据保存阈值时,将所述数据保存进程的单位数据保存资源量乘以第一预设比例系数,并将计算得到的结果作为更新后的所述数据保存进程的单位数据保存资源量;

当所述单位数据保存上限值大于或等于所述单位数据保存阈值时,将所述数据保存进程的单位数据保存资源量除以第二预设比例系数,并将计算得到的结果作为更新后的所述数据保存进程的单位数据保存资源量。

可选地,作为一种实施方式,所述在所述历史网页内容数据中匹配出所述网页对象集合对应的目标爬虫数据,包括:

获取与所述网页对象集合中各个目标网页对象对应的目标虚拟对象数据;其中,每一个目标虚拟对象数据用于表征对应的目标网页对象的网页画像;

当对所述网页对象集合所有的目标网页对象各自对应的目标虚拟对象数据的均进行安全验证通过时,根据对象转换策略对每一个所述目标虚拟对象数据进行虚拟对象转换,得到每一个所述目标网页对象各自对应的网页对象画像;

当每一个所述网页对象画像均满足预设的画像匹配条件时,从网页信息保存服务器中获取与接收的爬取时间区间相匹配的各个网页对象画像所对应的历史网页对象数据,得到每个网页对象画像各自对应的初始爬虫数据包;其中,所述网页信息保存服务器中保存有所有目标网页对象各自所对应的爬虫数据;

根据每一个所述初始爬虫数据包各自携带的画像类型标签,对具有相同画像类型标签的各个初始爬虫数据包进行合并,得到每个画像类型标签各自对应的虚拟对象数据;

对每个画像类型标签各自对应的虚拟对象数据进行筛选,得到中间虚拟对象数据;

根据预先配置的秘钥生成策略对每一个所述中间虚拟对象数据进行秘钥生成,得到每一个中间虚拟对象数据各自对应的虚拟对象秘钥信令;

对所有所述虚拟对象秘钥信令进行安全信令校验;

根据每一个安全信令校验的校验结果,从所有通过安全校验的虚拟对象秘钥信令所对应的中间虚拟对象数据确定为待选定虚拟对象数据;

将所有的所述待选定虚拟对象数据各自所对应的目标网页对象构建为待选定网页对象集合;

将所述网页信息保存服务器获取与所述待选定网页对象集合中所有的目标网页对象所对应的爬虫数据,作为匹配出的所述网页对象集合所对应的目标爬虫数据。

可选地,作为一种实施方式,所述获取与所述网页对象集合中各个目标网页对象对应的目标虚拟对象数据,包括:

读取网页对象画像保存节点保存的当前画像数据,并统计已读取节点数量;

当所述已读取节点数量与满足设定的节点数量阈值时,根据预设的节点选取策略,从所有已读取的网页对象画像保存节点中选举出目标画像保存节点集群;

根据所述目标画像保存节点集群中各个网页对象保存节点已读取到的当前画像数据,计算出平均画像值水平和标准画像值水平;

根据所述平均画像值水平、所述标准画像值水平,对所述网页对象画像保存节点进行正常网页对象画像保存节点搜索,并将搜索得到的正常网页对象画像保存节点所对应的当前画像数据作为网页对象画像;

从网页信息保存服务器中获取预设的数据分析时间段内各个网页对象画像的历史网页对象数据,并得到各个网页对象画像的虚拟对象数据;

根据所述虚拟对象数据携带的画像类型标签,对携带有相同画像类型标签的各个虚拟对象数据进行分类,得到与各个目标网页对象对应的目标虚拟对象数据。

可选地,作为一种实施方式,在所述获取与各个目标网页对象对应的目标虚拟对象数据之后,所述方法还包括:

根据每一个所述目标虚拟对象数据各自对应的目标画像类型标签,从所有的所述目标虚拟对象数据中筛选出目标校验虚拟对象数据;

根据所述目标校验虚拟对象数据,计算出参考画像平均值水平;

将所述参考画像平均值水平和预设的参考画像平均水平阈值进行对比;

当所述参考画像平均值水平大于所述预设的参考画像平均水平阈值时,确定参考平均水平验证通过。

可选地,作为一种实施方式,所述获取与所述目标网页信息对应的当前网页内容数据,包括:

根据所述目标网页信息,在服务数据库中将网页链接与所述目标网页信息相关的所有网页内容确定为待选定网页内容,其中,所述服务数据库中包括有多个网页数据和所述多个网页数据各自对应的网页内容;

获取所述待选定网页内容对应的所述当前网页内容数据。

可选地,作为一种实施方式,所述获取与所述目标网页信息对应的历史网页内容数据,包括:

获取历史网页数据保存表项;

接收针对所述历史网页数据保存表项对应的第一表项解析策略;

确定出所述第一表项解析策略所指示的表项内容地址范围;

遍历所述目标网页信息所对应的目标表项地址范围;

当遍历的目标表项地址范围所包括的表项内容地址范围未超出所述第一表项解析策略所指示的表项内容地址范围时,则继续遍历;

当遍历的目标表项地址范围所包括的表项内容地址范围达到所述第一表项解析策略所指示的表项内容地址范围时,则将遍历得到的目标表项地址范围作为候选目标表项地址范围;

当遍历的目标表项地址范围所包括的表项内容地址范围超出所述第一表项解析策略所指示的表项内容地址范围时,则将遍历到的目标表项地址范围,按照所包括的表项内容地址范围中各个表项地址的顺序进行地址排序,得到候选目标表项地址范围;

确定所述候选目标表项地址范围与预设的地址查找范围的地址匹配程度;

当所述地址匹配程度达到设定的匹配度阈值,则将所述目标表项地址范围作为待查找的表项地址范围;

在网页信息保存服务器中,查找与所述目标表项地址范围对应的网页内容数据时间分布标签;

根据所述网页内容数据时间分布标签的时间分布特征,匹配出与所述历史网页数据保存表项对应的第二表项解析策略;

从所述网页信息保存服务器中,查找出与所述第二表项解析策略相对应的目标历史信息查找地址范围;

在所述网页信息保存服务器中查找出与所述目标历史信息查找地址范围对应的网页内容数据,得到历史网页内容数据。

第二方面,本发明提供一种基于网络爬虫的数据处理系统,所述系统包括:

处理模块,用于获取用户输入的网页爬虫指令,其中,所述网页爬虫指令包括目标网页信息和爬取对象集合,所述爬取对象集合用于指示所述目标网页信息中待爬取的网页对象集合;

所述处理模块还用于,获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据;

保存模块,用于将所述目标爬虫数据保存至目标分布式保存节点中,其中,所述目标分布式保存节点为分布式存储系统中与所述网页对象集合对应的保存节点。

第三方面,本发明提供一种电子设备,包括存储器,用于存储一个或多个程序;处理器;当所述一个或多个程序被所述处理器执行时,实现上述的基于网络爬虫的数据处理方法。

第四方面,本发明提供一种云平台,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于网络爬虫的数据处理方法。

本发明提供的一种基于网络爬虫的数据处理方法、系统及云平台,通过获取用户输入的网页爬虫指令,网页爬虫指令包括目标网页信息和爬取对象集合,然后获取与目标网页信息和爬取对象集合对应的目标爬虫数据,并将目标爬虫数据保存至目标分布式保存节点中,其中,目标分布式保存节点是分布式存储系统中与网页对象集合对应的保存节点;相比于现有技术,能够提升大规模数据爬取时爬虫数据保存的可靠性。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。

图1为本发明提供的电子设备的结构框图。

图2为本发明提供的一种基于网络爬虫的数据处理方法的流程图。

图3为本发明提供的一种基于网络爬虫的数据处理系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明的一些实施例中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明选定的一些实施例。基于本发明中的一部分实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

请参阅图1,图1为本发明提供的电子设备100的结构框图,在本实施例中,电子设备100包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器101可用于存储软件程序及模块,如本发明提供的数据处理系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理,进而执行本发明提供的数据处理方法的步骤。该通信接口103可用于与其他节点设备进行信令或数据的通信。

其中,存储器101可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

请参阅图2,图2为本发明提供的一种基于网络爬虫的数据处理方法的流程图,所述数据处理方法包括以下步骤:

步骤S301,获取用户输入的网页爬虫指令。

在本实施例中,以上述的电子设备100作为执行主体为例,用户在进行网络爬虫搜索时,可以向所述电子设备输入一网络爬虫指令,其中,所述网页爬虫指令包括目标网页信息和爬取对象集合,所述目标网页信息用于指示待爬虫的网页地址,所述爬取对象集合用于指示所述目标网页信息中待爬取的网页对象集合。可以理解的是,所述网页对象集合可以包括多个目标网页对象,每一个目标网页对象可以为所述目标网页信息中的其中一个数据抽取内容,比如某个子链接的点击次数等等。

步骤S302,获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据。

在本实施例中,所述电子设备响应于所述网页爬虫指令,可以获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据。

步骤S303,将所述目标爬虫数据保存至目标分布式保存节点中。

在本实施例中,所述电子设备可以利用一分布式存储系统对爬取到的爬虫数据进行保存,所述分布式存储系统可以由多个保存节点组成,所述网页对象集合在所述分布式存储系统中对应有一目标分布式保存节点;因此,针对所述目标爬虫数据,所述电子设备可以将所述目标爬虫数据保存至所述目标分布式保存节点。

如此,按照本发明提供的上述实现方案,通过获取用户输入的网页爬虫指令,网页爬虫指令包括目标网页信息和爬取对象集合,然后获取与目标网页信息和爬取对象集合对应的目标爬虫数据,并将目标爬虫数据保存至目标分布式保存节点中,其中,目标分布式保存节点是分布式存储系统中与网页对象集合对应的保存节点;相比于现有技术,能够提升大规模数据爬取时爬虫数据保存的可靠性。

其中,作为一种实施方式,所述电子设备在执行步骤S302以获取目标爬虫数据时,可以先获取与所述目标网页信息对应的当前网页内容数据和历史网页内容数据;然后,所述电子设备根据所述爬取对象集合在所述当前网页内容数据中匹配出所述网页对象集合所对应的目标爬虫数据,以及在所述历史网页内容数据中匹配出所述网页对象集合对应的目标爬虫数据;其中,所述当前网页内容数据为所述目标网页信息所指示的网页地址在当前时刻的网页内容数据,所述历史网页内容数据为所述目标网页信息所指示的网页地址在历史时刻的网页内容数据。如此,通过针对当前网页内容数据和历史网页内容数据进行爬取,能够充分的爬取用户所需的数据,提高数据爬取的完整性。

另外,作为一种实施方式,所述电子设备在执行步骤S303以将所述目标爬虫数据保存至目标分布式保存节点中时,可以在将所述网页对象集合对应的目标爬虫数据保存至所述目标分布式保存节点的过程中,初始化数据保存进程的单位数据保存资源量,其中,所述数据保存进程的单位数据保存资源量用于指示每一次数据保存操作所对应的目标爬虫数据的数据量。

然后,所述电子设备获取单位数据保存上限值,其中,所述单位数据保存上限值用于指示所述数据保存进程在保存所述目标爬虫数据的过程中但每一次数据保存操作所对应的目标爬虫数据的上限数据量。

接下来,所述电子设备根据所述单位数据保存上限值,对所述数据保存进程的单位数据保存资源量进行更新。

然后,所述电子设备根据更新后的所述数据保存进程,对所述目标爬虫数据继续执行数据保存操作。

其中,所述电子设备在根据所述单位数据保存上限值,对所述数据保存进程的单位数据保存资源量进行更新的过程中,当所述单位数据保存上限值小于预设的单位数据保存阈值时,将所述数据保存进程的单位数据保存资源量乘以第一预设比例系数,并将计算得到的结果作为更新后的所述数据保存进程的单位数据保存资源量。另一方面,当所述单位数据保存上限值大于或等于所述单位数据保存阈值时,将所述数据保存进程的单位数据保存资源量除以第二预设比例系数,并将计算得到的结果作为更新后的所述数据保存进程的单位数据保存资源量。也就是说,在本实施例中,所述电子设备可以采用所述第一预设比例系数和所述第二预设比例系数对单位数据保存资源量进行调整。

可以理解,上述的第一预设比例系数和所述第二预设比例系数均为用户预先设置的系数,具体取值以用户输入的为准,本发明对此不进行限定。

并且,在本实施例中,所述电子设备在所述历史网页内容数据中匹配出所述网页对象集合对应的目标爬虫数据时,可以先获取与所述网页对象集合中各个目标网页对象对应的目标虚拟对象数据;其中,每一个目标虚拟对象数据用于表征对应的目标网页对象的网页画像。

然后,当对所述网页对象集合所有的目标网页对象各自对应的目标虚拟对象数据的均进行安全验证通过时,所述电子设备根据对象转换策略对每一个所述目标虚拟对象数据进行虚拟对象转换,得到每一个所述目标网页对象各自对应的网页对象画像。

接下来,当每一个所述网页对象画像均满足预设的画像匹配条件时,所述电子设备从网页信息保存服务器中获取与接收的爬取时间区间相匹配的各个网页对象画像所对应的历史网页对象数据,得到每个网页对象画像各自对应的初始爬虫数据包;其中,所述网页信息保存服务器中保存有所有目标网页对象各自所对应的爬虫数据。

然后,所述电子设备根据每一个所述初始爬虫数据包各自携带的画像类型标签,对具有相同画像类型标签的各个初始爬虫数据包进行合并,得到每个画像类型标签各自对应的虚拟对象数据。

接下来,所述电子设备对每个画像类型标签各自对应的虚拟对象数据进行筛选,得到中间虚拟对象数据。

然后,所述电子设备根据预先配置的秘钥生成策略对每一个所述中间虚拟对象数据进行秘钥生成,得到每一个中间虚拟对象数据各自对应的虚拟对象秘钥信令。

接下来,所述电子设备对所有所述虚拟对象秘钥信令进行安全信令校验。

然后,所述电子设备根据每一个安全信令校验的校验结果,从所有通过安全校验的虚拟对象秘钥信令所对应的中间虚拟对象数据确定为待选定虚拟对象数据。

接下来,所述电子设备将所有的所述待选定虚拟对象数据各自所对应的目标网页对象构建为待选定网页对象集合。

然后,所述电子设备将所述网页信息保存服务器获取与所述待选定网页对象集合中所有的目标网页对象所对应的爬虫数据,作为匹配出的所述网页对象集合所对应的目标爬虫数据。

如此,通过本发明提供的上述方案,能够提高爬虫数据的安全性,避免数据污染。

其中,作为一种实施方式,所述电子设备在获取与所述网页对象集合中各个目标网页对象对应的目标虚拟对象数据时,可以先读取网页对象画像保存节点保存的当前画像数据,并统计已读取节点数量。

其中,在读取的过程中,当所述已读取节点数量与满足设定的节点数量阈值时,所述电子设备根据预设的节点选取策略,从所有已读取的网页对象画像保存节点中选举出目标画像保存节点集群。比如,作为一种实施方式,所述预设的节点选取策略可以为随机选取,或者是,按照节点所占存储空间大小,按照预设的topk策略选取。

接下来,所述电子设备根据所述目标画像保存节点集群中各个网页对象保存节点已读取到的当前画像数据,计算出平均画像值水平和标准画像值水平。

然后,所述电子设备根据所述平均画像值水平、所述标准画像值水平,对所述网页对象画像保存节点进行正常网页对象画像保存节点搜索,并将搜索得到的正常网页对象画像保存节点所对应的当前画像数据作为网页对象画像。

接下来,所述电子设备从网页信息保存服务器中获取预设的数据分析时间段内各个网页对象画像的历史网页对象数据,并得到各个网页对象画像的虚拟对象数据。

然后,所述电子设备根据所述虚拟对象数据携带的画像类型标签,对携带有相同画像类型标签的各个虚拟对象数据进行分类,得到与各个目标网页对象对应的目标虚拟对象数据。

另外,在本实施例中,所述电子设备在获取与各个目标网页对象对应的目标虚拟对象数据之后,还可以根据每一个所述目标虚拟对象数据各自对应的目标画像类型标签,从所有的所述目标虚拟对象数据中筛选出目标校验虚拟对象数据。

然后,所述电子设备根据所述目标校验虚拟对象数据,计算出参考画像平均值水平。

接下来,所述电子设备将所述参考画像平均值水平和预设的参考画像平均水平阈值进行对比。

当所述参考画像平均值水平大于所述预设的参考画像平均水平阈值时,确定参考平均水平验证通过。

其中,在本实施例中,所述参考平均水平可以用于指示爬取的爬虫数据的可靠程度。

另外,作为一种实施方式,所述电子设备在获取与所述目标网页信息对应的当前网页内容数据时,可以先根据所述目标网页信息,在服务数据库中将网页链接与所述目标网页信息相关的所有网页内容确定为待选定网页内容,其中,所述服务数据库中包括有多个网页数据和所述多个网页数据各自对应的网页内容;然后,所述电子设备获取所述待选定网页内容对应的所述当前网页内容数据。

再者,作为一种实施方式,所述电子设备在获取历史网页数据保存表项时,可以先接收针对所述历史网页数据保存表项对应的第一表项解析策略;其中,所述第一表项解析策略用于指示所述历史网页数据保存表项中的解析地址,即:指示所述历史网页数据保存表项中具体的第一行到第二行的值,以及第一列到第二列的值。

然后,所述电子设备可以确定出所述第一表项解析策略所指示的表项内容地址范围。

接下来,所述电子设备遍历所述目标网页信息所对应的目标表项地址范围。

然后,当遍历的目标表项地址范围所包括的表项内容地址范围未超出所述第一表项解析策略所指示的表项内容地址范围时,则所述电子设备继续遍历;当遍历的目标表项地址范围所包括的表项内容地址范围达到所述第一表项解析策略所指示的表项内容地址范围时,则所述电子设备将遍历得到的目标表项地址范围作为候选目标表项地址范围;当遍历的目标表项地址范围所包括的表项内容地址范围超出所述第一表项解析策略所指示的表项内容地址范围时,则所述电子设备将遍历到的目标表项地址范围,按照所包括的表项内容地址范围中各个表项地址的顺序进行地址排序,得到候选目标表项地址范围。

接下来,所述电子设备确定所述候选目标表项地址范围与预设的地址查找范围的地址匹配程度。

然后,当所述地址匹配程度达到设定的匹配度阈值,则所述电子设备将所述目标表项地址范围作为待查找的表项地址范围。

接下来,所述电子设备在网页信息保存服务器中,查找与所述目标表项地址范围对应的网页内容数据时间分布标签。

然后,所述电子设备根据所述网页内容数据时间分布标签的时间分布特征,匹配出与所述历史网页数据保存表项对应的第二表项解析策略。其中,所述第二表项解析策略与所述第一表项解析策略指示的是不同的解析地址。

接下来,所述电子设备从所述网页信息保存服务器中,查找出与所述第二表项解析策略相对应的目标历史信息查找地址范围。

然后,所述电子设备在所述网页信息保存服务器中查找出与所述目标历史信息查找地址范围对应的网页内容数据,得到历史网页内容数据。

并且,作为本发明另一种实施方式,所述电子设备在执行步骤S302以获取目标爬虫数据的过程中,当在服务数据库中匹配出与所述目标网页信息相对应的网页内容时,所述电子设备将所述对应的网页内容确定为待选定网页内容,其中,所述服务数据库中包括有多个网页数据和所述多个网页数据各自对应的网页内容;然后,所述电子设备获取与所述目标网页信息对应的当前网页内容数据;接下来,所述电子设备将所述爬取对象集合在所述当前网页内容数据中对应的网页内容数据,确定为所述网页对象集合对应的目标爬虫数据。

另外,基于与本发明提供的上述基于网络爬虫的数据处理方法相同的发明构思,本发明还提供一种如图3所示的基于网络爬虫的数据处理系统500,所述数据处理系统500包括处理模块510及保存模块520。

处理模块510,用于获取用户输入的网页爬虫指令,其中,所述网页爬虫指令包括目标网页信息和爬取对象集合,所述爬取对象集合用于指示所述目标网页信息中待爬取的网页对象集合;

所述处理模块510还用于,获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据;

保存模块520,用于将所述目标爬虫数据保存至目标分布式保存节点中,其中,所述目标分布式保存节点为分布式存储系统中与所述网页对象集合对应的保存节点。

可选地,作为一种实施方式,所述处理模块510在获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据时,具体用于:

获取与所述目标网页信息对应的当前网页内容数据和历史网页内容数据;

根据所述爬取对象集合在所述当前网页内容数据中匹配出所述网页对象集合所对应的目标爬虫数据,以及在所述历史网页内容数据中匹配出所述网页对象集合对应的目标爬虫数据;

其中,所述当前网页内容数据为所述目标网页信息所指示的网页地址在当前时刻的网页内容数据,所述历史网页内容数据为所述目标网页信息所指示的网页地址在历史时刻的网页内容数据。

可选地,作为一种实施方式,所述保存模块520在将所述目标爬虫数据保存至目标分布式保存节点中时,具体用于:

将所述网页对象集合对应的目标爬虫数据保存至所述目标分布式保存节点的过程中,初始化数据保存进程的单位数据保存资源量,其中,所述数据保存进程的单位数据保存资源量用于指示每一次数据保存操作所对应的目标爬虫数据的数据量;

获取单位数据保存上限值,其中,所述单位数据保存上限值用于指示所述数据保存进程在保存所述目标爬虫数据的过程中但每一次数据保存操作所对应的目标爬虫数据的上限数据量;

根据所述单位数据保存上限值,对所述数据保存进程的单位数据保存资源量进行更新;

根据更新后的所述数据保存进程,对所述目标爬虫数据继续执行数据保存操作;

其中,所述根据所述单位数据保存上限值,对所述数据保存进程的单位数据保存资源量进行更新,包括:

当所述单位数据保存上限值小于预设的单位数据保存阈值时,将所述数据保存进程的单位数据保存资源量乘以第一预设比例系数,并将计算得到的结果作为更新后的所述数据保存进程的单位数据保存资源量;

当所述单位数据保存上限值大于或等于所述单位数据保存阈值时,将所述数据保存进程的单位数据保存资源量除以第二预设比例系数,并将计算得到的结果作为更新后的所述数据保存进程的单位数据保存资源量。

可选地,作为一种实施方式,所述处理模块510在所述历史网页内容数据中匹配出所述网页对象集合对应的目标爬虫数据时,具体用于:

获取与所述网页对象集合中各个目标网页对象对应的目标虚拟对象数据;其中,每一个目标虚拟对象数据用于表征对应的目标网页对象的网页画像;

当对所述网页对象集合所有的目标网页对象各自对应的目标虚拟对象数据的均进行安全验证通过时,根据对象转换策略对每一个所述目标虚拟对象数据进行虚拟对象转换,得到每一个所述目标网页对象各自对应的网页对象画像;

当每一个所述网页对象画像均满足预设的画像匹配条件时,从网页信息保存服务器中获取与接收的爬取时间区间相匹配的各个网页对象画像所对应的历史网页对象数据,得到每个网页对象画像各自对应的初始爬虫数据包;其中,所述网页信息保存服务器中保存有所有目标网页对象各自所对应的爬虫数据;

根据每一个所述初始爬虫数据包各自携带的画像类型标签,对具有相同画像类型标签的各个初始爬虫数据包进行合并,得到每个画像类型标签各自对应的虚拟对象数据;

对每个画像类型标签各自对应的虚拟对象数据进行筛选,得到中间虚拟对象数据;

根据预先配置的秘钥生成策略对每一个所述中间虚拟对象数据进行秘钥生成,得到每一个中间虚拟对象数据各自对应的虚拟对象秘钥信令;

对所有所述虚拟对象秘钥信令进行安全信令校验;

根据每一个安全信令校验的校验结果,从所有通过安全校验的虚拟对象秘钥信令所对应的中间虚拟对象数据确定为待选定虚拟对象数据;

将所有的所述待选定虚拟对象数据各自所对应的目标网页对象构建为待选定网页对象集合;

将所述网页信息保存服务器获取与所述待选定网页对象集合中所有的目标网页对象所对应的爬虫数据,作为匹配出的所述网页对象集合所对应的目标爬虫数据。

可选地,作为一种实施方式,所述处理模块510在获取与所述网页对象集合中各个目标网页对象对应的目标虚拟对象数据时,具体用于:

读取网页对象画像保存节点保存的当前画像数据,并统计已读取节点数量;

当所述已读取节点数量与满足设定的节点数量阈值时,根据预设的节点选取策略,从所有已读取的网页对象画像保存节点中选举出目标画像保存节点集群;

根据所述目标画像保存节点集群中各个网页对象保存节点已读取到的当前画像数据,计算出平均画像值水平和标准画像值水平;

根据所述平均画像值水平、所述标准画像值水平,对所述网页对象画像保存节点进行正常网页对象画像保存节点搜索,并将搜索得到的正常网页对象画像保存节点所对应的当前画像数据作为网页对象画像;

从网页信息保存服务器中获取预设的数据分析时间段内各个网页对象画像的历史网页对象数据,并得到各个网页对象画像的虚拟对象数据;

根据所述虚拟对象数据携带的画像类型标签,对携带有相同画像类型标签的各个虚拟对象数据进行分类,得到与各个目标网页对象对应的目标虚拟对象数据。

可选地,作为一种实施方式,所述处理模块510在获取与各个目标网页对象对应的目标虚拟对象数据之后,还用于:

根据每一个所述目标虚拟对象数据各自对应的目标画像类型标签,从所有的所述目标虚拟对象数据中筛选出目标校验虚拟对象数据;

根据所述目标校验虚拟对象数据,计算出参考画像平均值水平;

将所述参考画像平均值水平和预设的参考画像平均水平阈值进行对比;

当所述参考画像平均值水平大于所述预设的参考画像平均水平阈值时,确定参考平均水平验证通过。

可选地,作为一种实施方式,所述处理模块510在获取与所述目标网页信息对应的当前网页内容数据时,具体用于:

根据所述目标网页信息,在服务数据库中将网页链接与所述目标网页信息相关的所有网页内容确定为待选定网页内容,其中,所述服务数据库中包括有多个网页数据和所述多个网页数据各自对应的网页内容;

获取所述待选定网页内容对应的所述当前网页内容数据。

可选地,作为一种实施方式,所述处理模块510在获取与所述目标网页信息对应的历史网页内容数据时,具体用于:

获取历史网页数据保存表项;

接收针对所述历史网页数据保存表项对应的第一表项解析策略;

确定出所述第一表项解析策略所指示的表项内容地址范围;

遍历所述目标网页信息所对应的目标表项地址范围;

当遍历的目标表项地址范围所包括的表项内容地址范围未超出所述第一表项解析策略所指示的表项内容地址范围时,则继续遍历;

当遍历的目标表项地址范围所包括的表项内容地址范围达到所述第一表项解析策略所指示的表项内容地址范围时,则将遍历得到的目标表项地址范围作为候选目标表项地址范围;

当遍历的目标表项地址范围所包括的表项内容地址范围超出所述第一表项解析策略所指示的表项内容地址范围时,则将遍历到的目标表项地址范围,按照所包括的表项内容地址范围中各个表项地址的顺序进行地址排序,得到候选目标表项地址范围;

确定所述候选目标表项地址范围与预设的地址查找范围的地址匹配程度;

当所述地址匹配程度达到设定的匹配度阈值,则将所述目标表项地址范围作为待查找的表项地址范围;

在网页信息保存服务器中,查找与所述目标表项地址范围对应的网页内容数据时间分布标签;

根据所述网页内容数据时间分布标签的时间分布特征,匹配出与所述历史网页数据保存表项对应的第二表项解析策略;

从所述网页信息保存服务器中,查找出与所述第二表项解析策略相对应的目标历史信息查找地址范围;

在所述网页信息保存服务器中查找出与所述目标历史信息查找地址范围对应的网页内容数据,得到历史网页内容数据。

可选地,作为一种实施方式,所述处理模块510在获取与所述目标网页信息和所述爬取对象集合对应的目标爬虫数据时,具体用于:

当在服务数据库中匹配出与所述目标网页信息相对应的网页内容时,将所述对应的网页内容确定为待选定网页内容,其中,所述服务数据库中包括有多个网页数据和所述多个网页数据各自对应的网页内容;

获取与所述目标网页信息对应的当前网页内容数据;

将所述爬取对象集合在所述当前网页内容数据中对应的网页内容数据,确定为所述网页对象集合对应的目标爬虫数据。

另外,基于与本发明提供的上述基于网络爬虫的数据处理方法相同的发明构思,本发明还提供一种计算机可读取存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于网络爬虫的数据处理方法。

另外,基于与本发明提供的上述基于网络爬虫的数据处理方法相同的发明构思,本发明还提供一种云平台,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的基于网络爬虫的数据处理方法。

在本发明所提供的实施例中,应该理解到,所揭露的系统和方法,也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的一些实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。

也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。

也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明的一些实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明的一些实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其它的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 一种基于网络爬虫的数据处理方法、系统及云平台
  • 网络爬虫系统和基于网络爬虫系统的数据处理方法
技术分类

06120112363626