掌桥专利:专业的专利平台
掌桥专利
首页

一种网络爬虫实现方法、系统、计算设备及存储介质

文献发布时间:2023-06-19 12:10:19


一种网络爬虫实现方法、系统、计算设备及存储介质

技术领域

本发明涉及互联网领域,特别涉及一种网络爬虫实现系统、方法、计算设备及存储介质。

背景技术

随着互联网技术的发展,通过在互联网中进行检索已经成为一种重要的获取信息的手段。而在互联网中进行检索从而获取信息时,对互联网中的网页进行信息爬取是一项关键的步骤。因此,网络爬虫技术应运而生。

现有的网络爬虫技术中,常使用Crawler4j框架或Nutch框架的网络爬虫设计方案对网页进行爬取,具有使用便捷等特点。但Crawler4j框架的网络爬虫设计方案不能够进行网络爬虫的分布式部署,当具有众多网页需要爬取时,会出现爬取效率和速度降低的情况。Nutch框架的网络爬虫设计方案在爬取到网页后,无法对网页中的目标内容进行精确抽取,从而高效提取有效数据。

为此,需要一种新的网络爬虫实现方法和系统。

发明内容

为此,本发明提供一种网络爬虫实现方法和系统,以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面,提供一种网络爬虫实现方法,适于在一种网络爬虫实现系统中执行,系统包括消息队列服务器,和与消息队列服务器通信连接的多个网页采集器和多个内容抓取器,方法包括步骤:消息队列服务器接收来自用户的网络爬虫任务,网络爬虫任务包括多项查询关键词;消息队列服务器根据网络爬虫任务的多项查询关键词,建立多个消息队列,每项查询关键词对应于一个消息队列;网页采集服务器根据网络爬虫任务中的一项查询关键词,从互联网中爬取得到与查询关键词相关的多个网页,并将多个网页的URL发送至消息队列服务器;消息队列服务器接收多个网页的URL,将多个网页的URL存放到与目标查询关键词对应的消息队列;内容抓取器从消息队列服务器中的一个消息队列,获取与查询关键词相关的多个网页的URL,根据每个网页的URL进行下载得到多个网页,从多个网页中抓取信息,生成网络爬虫结果。

可选地,在根据本发明的方法中,网页采集服务器从互联网中爬取得到与查询关键词相关的多个网页包括步骤:网页采集服务器构建查询关键词的正则表达式;根据正则表达式匹配主题与查询关键词相同的网页。

可选地,在根据本发明的方法中,内容抓取器从消息队列服务器中的一个消息队列,获取与查询关键词相关的多个网页的URL包括步骤:内容抓取器与消息队列服务器中的一个消息队列建立消息通道,通过消息通道获取与目标查询关键词相关的多个网页的URL。

可选地,在根据本发明的方法中,内容抓取器从多个网页中抓取信息,生成网络爬虫结果包括步骤:内容抓取器根据网络爬虫任务中的一项查询关键词,生成配置文件;对每个网页根据配置文件抓取目标信息,得到查询关键词的目标信息集合;对目标信息集合进行去重,将去重后的目标信息集合组成查询关键词的网络爬虫结果。

可选地,在根据本发明的方法中,系统还包括URL分析器,系统中的多个网页采集器通过URL分析器与消息队列服务器通信连接,方法还包括步骤:网页采集器向URL分析器发送多个网页的URL;URL分析器根据预设规则对网页采集器发送的多个网页的URL进行过滤和排重;URL分析器将过滤和排重后的多个网页的URL发送至消息队列服务器。

可选地,在根据本发明的方法中,系统还包括与多个内容采集器通信连接的存储服务器,方法还包括:内容采集器将网络爬虫结果存储到存储服务器中,以便于用户进行查询和获取。

根据本发明的另一个方面,提供一种网络爬虫实现系统,系统包括消息队列服务器,和与消息队列服务器通信连接的多个网页采集器和多个内容抓取器,其中,消息队列服务器适于接收来自用户的网络爬虫任务,网络爬虫任务包括多项查询关键词,根据网络爬虫任务的多项查询关键词,建立多个消息队列,每项查询关键词对应于一个消息队列;网页采集服务器适于根据网络爬虫任务中的一项查询关键词,从互联网中爬取得到与查询关键词相关的多个网页,并将多个网页的URL发送至消息队列服务器;消息队列服务器还包括交换器,交换器适于接收多个网页的URL,将多个网页的URL存放到与目标查询关键词对应的消息队列;内容抓取器适于从消息队列服务器中的一个消息队列,获取与查询关键词相关的多个网页的URL,根据每个网页的URL进行下载得到多个网页,从多个网页中抓取信息,生成网络爬虫结果。

可选地,在根据本发明的系统中,网页采集服务器进一步适于:构建查询关键词的正则表达式;根据正则表达式匹配主题与查询关键词相同的网页。

可选地,在根据本发明的系统中,内容抓取器进一步适于:与消息队列服务器中的一个消息队列建立消息通道,通过消息通道获取与目标查询关键词相关的多个网页的URL。

可选地,在根据本发明的系统中,内容抓取器进一步适于:根据网络爬虫任务中的一项查询关键词,生成配置文件;对每个网页根据配置文件抓取目标信息,得到查询关键词的目标信息集合;对目标信息集合进行去重,将去重后的目标信息集合组成查询关键词的网络爬虫结果。

可选地,在根据本发明的系统中,还包括URL分析器,系统中的多个网页采集器通过URL分析器与消息队列服务器通信连接,网页采集器还适于向URL分析器发送多个网页的URL;URL分析器适于根据预设规则对网页采集器发送的多个网页的URL进行过滤和排重,将过滤和排重后的多个网页的URL发送至消息队列服务器。

可选地,在根据本发明的系统中,还包括与多个内容采集器通信连接的存储服务器,存储服务器适于接收并存储所述内容采集服务器发送的网络爬虫结果,以便于用户进行查询和获取。

根据本发明的又一方面,提供了一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序包括用于执行根据本发明的一种网络爬虫实现方法的任一方法的指令。

根据本发明的还有一个方面,提供了一种存储一个或多个程序的计算机可读存储介质,一个或多个程序包括指令,该指令当由计算设备执行时,使得计算设备执行根据本发明的一种网络爬虫实现方法中的任一方法。

本发明中的网络爬虫实现系统包括可分布式部署的多个网页采集器和多个内容抓取器,并且所有网页采集器和内容抓取器均与消息队列服务器通讯连接。通过将网页采集器和内容抓取器采用多服务器分布式部署的方式,可以将消息队列服务器所接收到的网络爬虫任务进行分割执行,从而快速爬取目标网页,适于完成大量繁重的网络爬虫任务。并且通过向系统中增加部署网页采集器的方式,即可快速对系统进行拓展,提高网络爬虫实现系统的网页爬取能力。

网络爬虫实现系统同时采用消息队列服务器作为网页采集器和内容抓取器之间的中间件,使得网页爬取和网页内容解析进行解耦,提高网页采集器和内容抓取器协同工作效率。

并进一步的,网络爬虫实现系统还包括URL分析器,网页采集器均通过所述URL分析器与所述消息队列服务器通信连接,URL分析器对网页采集器所爬取到的网页进行过滤和排重,将过滤和排重后的多个网页的URL发送至所述消息队列服务器,以保证网页采集器所采集到的网页均为采集信息所需要的网页。

附图说明

为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个示范性实施例的网络爬虫实现系统100的示意图;

图2示出了根据本发明一个示范性实施例的计算设备200的结构框图;以及

图3示出了根据本发明的一个示范性实施例的提供网络爬虫实现方法300的流程示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个示范性实施例的网络爬虫实现系统100的示意图。如图1所示,系统100包括网页采集器111~113、URL分析器120、消息队列服务器130、内容抓取器141~143和存储服务器150。其中,网页采集器111~113分别与URL分析器120通信连接,消息队列服务器130与URL分析器120和内容抓取器141~143通信连接,并且内容抓取器141~143分别与存储服务器150通信连接。图1所示的网络爬虫实现系统100的连接方式仅是示例性的,本发明对网络爬虫实现系统100中所包括的网页采集器及内容抓取器的数量不作限制。

根据本发明的一个实施例,消息队列服务器130可实现为RabbitMQ服务器,本发明对消息队列服务器130的类型不作限制。消息队列服务器130接收来自用户的网络爬虫任务,网络爬虫任务包括多项查询关键词。消息队列服务器130提供与用户进行通信的通信接口,用户在根据业务需要部署一项网络爬虫任务时,可通过通信接口向消息队列服务器130发送打包的多项查询关键词。网络爬虫任务中的每一项查询关键词均对应于一个网页采集器所要爬取网页的主题。消息队列服务器130中包括消息队列模块132。消息队列服务器130根据网络爬虫任务的多项查询关键词在消息队列模块132中建立多个消息队列,每项查询关键词对应于一个消息队列,每个消息队列接收一个网页采集器所爬取的页面。

网页采集器111~113可实现为分布式部署的网页采集器集群。网页采集器111~113根据网络爬虫任务中的一项查询关键词,从互联网中爬取得到与查询关键词相关的多个网页。根据本发明的一个实施例,当消息队列服务器130所接收到的网络爬虫任务包括三项查询关键词时,网页采集器111~113各自选择三项查询关键词中的一项,根据所选择的查询关键词从互联网中爬取与查询关键词相关的网页,每个网页采集器所选择的查询关键词互不相同。网页采集器111~113在爬取得到与查询关键词相关的多个网页后,将多个网页的URL发送至消息队列服务器130。

消息队列服务器130中还包括交换器131。交换器131接收多个网页的URL,将多个网页的URL存放到与目标查询关键词对应的消息队列。网页采集器和消息队列模块132中的消息队列共同对应一项目标关键词。交换器131根据网页采集器和消息队列所共同对应的目标关键词对所接收到的网页的URL进行分发和存储。

根据本发明的一个实施例,消息队列服务器130接受到用户发送的一项网络爬虫任务。网络爬虫任务包括“品牌1”、“车系A”和“车系B”三项查询关键词。则消息队列服务器130在消息队列模块132中建立消息队列1~3,分别对应于“品牌1”、“车系A”和“车系B”。网页采集器111选择“车系A”作为爬取的主题进行网页爬取;网页采集器112选择“车系B”作为爬取的主题进行网页的爬取;网页采集器113选择“品牌1”作为爬取的主题进行网页的爬取。网页采集器111~113在爬取完毕相应查询关键词的网页后,将网页的URL发送至消息队列服务器130的交换器131。由于消息队列2所对应的查询关键词的为“车系A”,网页采集器111所选择的查询关键词也为“车系A”。因此交换器131接收到网页采集器111所采集的网页的URL后,将其存放到消息队列2。同理,交换器131对接受到的网页采集器112和113所爬取的网页的URL也进行分发和存放。

内容抓取器141~143从消息队列服务器130中的一个消息队列,获取与查询关键词相关的多个网页的URL,根据每个网页的URL进行下载得到多个网页,从多个网页中抓取信息,生成网络爬虫结果。内容抓取器141~143可实现为分布式部署的内容抓取器集群。内容抓取器141~143从消息队列模块132中任意选择一个消息队列,并从中获取与查询关键词相关的多个网页的URL。每个内容抓取器所选择的消息队列互不相同。内容抓取器141~143根据网页的URL对网页进行下载,根据所选择的消息队列所对应的查询关键词从下载好的网页中抓取信息。

网络爬虫实现系统100中还包括URL分析器120。系统中的多个网页采集器111~113均通过URL分析器120与消息队列服务器130通信连接。URL分析器120根据预设规则对网页采集器111~113发送的多个网页的URL进行过滤和排重,将过滤和排重后的多个网页的URL发送至消息队列服务器130。

网络爬虫实现系统100中还包括存储服务器150。存储服务器150可实现为分布式部署的存储服务器,本发明的存储服务器150的具体类型和部署形式不作限制。存储服务器150接收并存储内容采集服务器发送的网络爬虫结果,以便于用户进行查询和获取。

网络爬虫实现系统100中的网页采集器111~113、URL分析器120、消息队列服务器130、内容抓取器141~143和存储服务器150均可实现为一种计算设备。图2示出了根据本发明一个示范性实施例的计算设备200的结构框图。如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。

取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。

取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个程序222以及程序数据224。在一些实施方式中,程序222可以布置为在操作系统上由一个或者多个处理器204利用程序数据224执行根据本发明的方法300的指令223。

计算设备200还可以包括储存接口总线234。储存接口总线234实现了从储存设备232(例如,可移除储存器236和不可移除储存器238)经由总线/接口控制器230到基本配置202的通信。操作系统220、应用222以及数据224的至少一部分可以存储在可移除储存器236和/或不可移除储存器238上,并且在计算设备200上电或者要执行应用222时,经由储存接口总线234而加载到系统存储器206中,并由一个或者多个处理器204来执行。

计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个A/V端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个I/O端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

在根据本发明的计算设备200中,应用222包括执行网络爬虫实现方法300的多条程序指令,这些程序指令可以指示处理器204执行本发明的计算设备200中运行的网络爬虫实现方法300中的部分步骤,以便计算设备200中的各部分通过执行本发明的网络爬虫实现方法300来实现对网页进行爬取。

计算设备200可以实现为服务器,例如文件服务器240、数据库250、服务器、应用程序服务器等,这些电子设备可以是诸如个人数字助理(PDA)、无线网络浏览设备、应用专用设备、或者可以包括上面任何功能的混合设备。可以实现为包括桌面计算机和笔记本计算机配置的个人计算机,也在一些实施例中,计算设备200被配置为执行网络爬虫实现方法300。

图3示出了根据本发明的一个示范性实施例的网络爬虫实现方法300的流程示意图。方法300在网络爬虫实现系统100中执行。如图3所示,网络爬虫实现方法300始于步骤S310,消息队列服务器130接收来自用户的网络爬虫任务,网络爬虫任务包括多项查询关键词。查询关键词对应于实际业务中的业务标识,具体可实现为业务标识的用户类型和车系类型等。根据本发明的一个实施例,消息队列服务器130接受到用户的一项网络爬虫任务包括:“品牌1”、“车系A”和“车系B”三项查询关键词。

随后,执行步骤S320,消息队列服务器130根据网络爬虫任务的多项查询关键词,建立多个消息队列,每项查询关键词对应于一个消息队列。根据本发明的一个实施例,消息队列服务器130在消息队列模块132中建立消息队列1~3,分别对应于“品牌1”、“车系A”和“车系B”。

随后,执行步骤S330,网页采集服务器根据网络爬虫任务中的一项查询关键词,从互联网中爬取得到与查询关键词相关的多个网页,并将多个网页的URL发送至消息队列服务器130。根据本发明的一个实施例,网页采集器111选择“车系A”作为爬取的主题进行网页爬取;网页采集器112选择“车系B”作为爬取的主题进行网页的爬取;网页采集器113选择“品牌1”作为爬取的主题进行网页的爬取。

网页采集服务器从互联网中爬取得到与查询关键词相关的多个网页时,网页采集服务器构建查询关键词的正则表达式,根据正则表达式匹配主题与查询关键词相同的网页。正则表达式通常被用来检索符合某个规则的文本。网页采集服务区通过构建查询关键字的政策表达式,在网页中进行检索是否包含该查询关键字,如果包含该查询关键字,则将网页作为主题与查询关键词相同的网页。

根据本发明的一个实施例,网页采集器111选择“车系A”作为爬取的主题进行网页爬取时,构建“车系A”的正则表达式,从而检索包含“车系A”的网页。并且在对包含“车系A”的网页进行爬取时,采用聚焦网络爬虫的方式对网页进行爬取。随后,网页采集器111将包含“车系A”的网页作为主题与查询关键词相同的网页,将这些网页的URL发送至消息队列服务器130。

根据本发明的一个实施例,在网页采集器111~113将爬取到的多个网页的URL发送至消息队列服务器130时,先将这些网页的URL发送至URL分析器120。URL分析器120根据预设规则对网页采集器111~113发送的多个网页的URL进行过滤和排重。预设规则包括:URL分析器120对所接受到的网页的URL进行排重,去除重复的网页;随后将去重后得到的多个网页,判断网页中是否包括一定数目的检索关键词,例如判断网页中是否包括有5个及以上的“车系A”,从而再次确定该网页的主题是否为“车系A”,对网页采集器111所发送的网页进行过滤。URL分析器120还可以通过语义分析算法判断该网页的主题是否为“车系A”。本发明对URL分析器120对网页进行排重和过滤的预设规则不作限制,开发人员可以根据实际业务需求自行拟定排重和过滤的预设规则。最后,URL分析器120将过滤和排重后的多个网页的URL发送至消息队列服务器130。

随后,执行步骤S340,消息队列服务器130接收多个网页的URL,将多个网页的URL存放到与目标查询关键词对应的消息队列。网页采集器和消息队列模块132中的消息队列共同对应一项目标关键词。交换器131接收多个网页的URL,根据网页采集器和消息队列所共同对应的目标关键词对所接收到的网页的URL进行分发和存储。根据本发明的一个实施例,消息队列2所对应的查询关键词的为“车系A”,网页采集器111所选择的查询关键词也为“车系A”。因此交换器131接收到网页采集器111所采集的网页的URL后,将其存放到消息队列2。同理,交换器131对接受到的网页采集器112和113所爬取的网页的URL也进行分发和存放。

最后,执行步骤S350,内容抓取器141~143从消息队列服务器130中的一个消息队列,获取与查询关键词相关的多个网页的URL,根据每个网页的URL进行下载得到多个网页,从多个网页中抓取信息,生成网络爬虫结果。内容抓取器141~143从消息队列服务器130中的消息队列模块132中,选择一个消息队列,建立消息通道,通过消息通道获取与目标查询关键词相关的多个网页的URL。每个内容抓取器与一个消息队列均建立消息通道,消息通道为一条独立的双向数据流通道;所有内容抓取器141~143与消息队列服务器130建立的所有消息通道复用一条TCP连接。

网页采集器111~113和内容抓取器141~143采用多服务器分布式部署的方式,可以将消息队列服务器130所接收到的网络爬虫任务进行分割执行,从而快速爬取目标网页,能够完成大量繁重的网络爬虫任务。网络爬虫实现系统100采用消息队列服务器130作为网页采集器111~113和内容抓取器141~143之间的中间件,使得网页爬取和网页内容解析进行解耦,内容抓取器141~143与网页采集器111~113运行时,相互之间互不影响,提高系统整体工作效率。

内容抓取器141~143从多个网页中抓取信息,生成网络爬虫结果时,首先内容抓取器141~143根据网络爬虫任务中的一项查询关键词,生成配置文件。配置文件为查询关键词下所需要查询的配置项目。一个查询关键词下可以包括多个配置项目。根据本发明的一个实施例,内容抓取器141在接收消息队列2所存放的,以“车系A”为主题的多个网页的URL后,生成查询关键词“车系A”的配置文件。该配置文件包括“车系A”的品牌名称,厂商价格,发送机参数等配置项目。

随后,内容抓取器141~143对每个网页根据配置文件抓取目标信息,得到查询关键词的目标信息集合。根据本发明的一个实施例,内容抓取器141~143在对每个网页根据配置文件抓取目标信息时,可以通过Xpath语言抽取页面中的信息。内容抓取器141对网页进行解析,使用Xpath语言查找“车系A”的品牌名称,厂商价格,发送机参数等配置项目。

最后,对目标信息集合进行去重,将去重后的目标信息集合组成查询关键词的网络爬虫结果。内容抓取器141~143对网页采集器111~113所爬取到的所有网页进行目标信息抓取后,将爬取到的信息进行去重。根据本发明的一个实施例,内容抓取器141从页面a和页面b中均查找到了“车系A”的品牌名称,则保留一项作为“车系A”的品牌名称;接着将包括“车系A”的品牌名称,厂商价格,发送机参数的目标信息集合组成“车系A”的网络爬虫结果。

根据本发明的一个实施例,系统还包括与多个内容采集器通信连接的存储服务器150,内容采集器将网络爬虫结果存储到存储服务器150中,以便于用户进行查询和获取。存储服务器150将用户发送的网络爬虫任务的所有网络爬虫结果进行存储,用户可在存储服务器150中进行查阅,或在其他业务板块中进行调用。

根据本发明的一个实施例,本发明中的网络爬虫实现系统100还支持网络爬虫该任务的断点续爬功能。当网络爬虫实现系统100在处理网络爬虫任务时,接受到由用户主动发起的暂停指令或由于外界原因异常中断时,可对正在处理的网络爬虫任务进行暂停。URL分析器120可对校验过得URL进行存储,存储服务器150会对内容采集器已经生成的网络爬虫结果进行存储。当网络爬虫实现系统100再次启动时,URL分析器120会判断网页采集器111~113所发送的URL是否已经校验过,若校验过,则处理下一条URL。本发明应用上述技术手段,从而保存已经处理好的网络爬虫结果,并避免对URL进行重复校验,提高网络爬虫任务处理效率,从而实现断点续爬功能。

本发明中的网络爬虫实现系统包括可分布式部署的多个网页采集器和多个内容抓取器,并且所有网页采集器和内容抓取器均与消息队列服务器通讯连接。通过将网页采集器和内容抓取器采用多服务器分布式部署的方式,可以将消息队列服务器所接收到的网络爬虫任务进行分割执行,从而快速爬取目标网页,适于完成大量繁重的网络爬虫任务。并且通过向系统中增加部署网页采集器的方式,即可快速对系统进行拓展,提高网络爬虫实现系统的网页爬取能力。

网络爬虫实现系统同时采用消息队列服务器作为网页采集器和内容抓取器之间的中间件,使得网页爬取和网页内容解析进行解耦,提高网页采集器和内容抓取器协同工作效率。

并进一步的,网络爬虫实现系统还包括URL分析器,网页采集器均通过所述URL分析器与所述消息队列服务器通信连接,URL分析器对网页采集器所爬取到的网页进行过滤和排重,将过滤和排重后的多个网页的URL发送至所述消息队列服务器,以保证网页采集器所采集到的网页均为采集信息所需要的网页。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

A5、如A4所述的方法,其中,所述系统还包括URL分析器,所述系统中的多个网页采集器通过所述URL分析器与所述消息队列服务器通信连接,所述方法还包括步骤:

所述网页采集器向所述URL分析器发送多个网页的URL;

所述URL分析器根据预设规则对网页采集器发送的多个网页的URL进行过滤和排重;

所述URL分析器将过滤和排重后的多个网页的URL发送至所述消息队列服务器。

A6、如A5所述的方法,其中,所述系统还包括与多个内容采集器通信连接的存储服务器,所述方法还包括:

所述内容采集器将所述网络爬虫结果存储到所述存储服务器中,以便于用户进行查询和获取。

B11、如B10所述的系统,还包括URL分析器,所述系统中的多个网页采集器通过所述URL分析器与所述消息队列服务器通信连接,所述网页采集器还适于向所述URL分析器发送多个网页的URL;

所述URL分析器适于根据预设规则对网页采集器发送的多个网页的URL进行过滤和排重,将过滤和排重后的多个网页的URL发送至所述消息队列服务器。

B12、如B11所述的系统,还包括与多个内容采集器通信连接的存储服务器,所述存储服务器适于接收并存储所述内容采集服务器发送的网络爬虫结果,以便于用户进行查询和获取。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间,以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的设备停机状态的判断方法。

以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

相关技术
  • 一种网络爬虫实现方法、系统、计算设备及存储介质
  • 一种支持人工会话嫁接的网络爬虫系统和实现方法
技术分类

06120113195325