掌桥专利:专业的专利平台
掌桥专利
首页

一种网络爬虫的处理方法、系统及设备

文献发布时间:2023-06-19 11:52:33


一种网络爬虫的处理方法、系统及设备

技术领域

本申请涉及计算机领域,尤其涉及一种网络爬虫的处理方法、系统及设备。

背景技术

据统计,互联网上高达30%-60%的流量是由Bot网络机器人所产生,仅有部分流量是由人类正常访问行为产生。这些程序流量并非全部恶意,也有正常Bot程序,如搜索引擎爬虫、广告程序、第三方合作伙伴程序、Robots协议友好程序等,它们是属于正常机器流量。

然而恶意爬虫Bot程序则会造成业务网站服务不可用、用户体验降低、网站漏洞安全问题、业务故障等问题,导致业务数据被爬、接口被刷、CC攻击导致服务不可用等,会给企业带来极高的风险及难以估计的损失。恶意爬虫Bot流量占整体网络流量的比例更是高达30%以上。其中大公司面临的恶意Bot流量的威胁更为严峻,行业更是分布在在线博彩、航司、金融、医疗、票务等,其中电商、医疗、航司行业的恶意Bot流量的专业化程度更高,在现有技术中对于恶意爬虫Bot的识别效率低下,防护薄弱,不能精确识别恶意爬虫和正常流量,导致网站业务和知识产权极易受到侵害,例如:营销作弊、恶意撞库、航旅占座、无效运营、敏感信息被爬、接口被刷、服务器过载等后果。

现有方案一:通常网站会基于网络防火墙依靠IP识别做阻断,或通过与已经构建好的IP库做对比,其缺点在于:1)防护手段误伤概率较高;2)与已构建好的IP地址库对比,信息同步比较慢,且容易被代理IP绕过,无法产生相应的防护效果。

现有方案二:基于业务关键节点做控制,通过设置网站访问频率来限制访问请求,其缺点在于:1)只能针对部分场景化接口,误伤概率较高;2)与业务层的耦合性比较高,维护成本高,不能满足业务系统要求。

现有方案三:针对已知Bot类型开启防护,其缺点在于:1)防护处置方式手段单一;2)无法对未知Bot发现总结,且没有可视化页面直观展示爬虫数据,不利于网站管理人员针对性分析。

发明内容

本申请的一个目的是提供一种网络爬虫的处理方法、系统及设备,解决现有技术中对于恶意爬虫的识别效率低下,防护薄弱,不能精确识别恶意爬虫和正常流量,无法直观展示爬虫数据的问题。

根据本申请的一个方面,提供了一种网络爬虫的处理方法,该方法包括:

接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;

对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;

根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。

进一步地,所述对所述访问流量进行识别,包括:

根据历史爬虫网络地址以及行为特征信息来识别访问流量的爬虫信息,其中,所述历史爬虫网络地址为已知的爬虫信息。

进一步地,所述爬虫类别包括恶意爬虫和合法爬虫,所述方法包括:

根据预设的处置动作对已知爬虫中的恶意爬虫以及未知爬虫中的恶意爬虫进行处置处理得到处置后的洁净流量,将所述洁净流量返回源站。

进一步地,所述对未确定出所属的爬虫类别的访问流量进行行为分析识别,包括:

根据历史浏览数据以及历史爬虫抓取数据构建数据集,利用所述数据集训练人工智能模型,得到预设的人工智能模型;

通过所述预设的人工智能模型对未确定出所属的爬虫类别的访问流量进行行为分析识别。

进一步地,所述根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示包括:

根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别统计所述已知爬虫及所述未知爬虫的信息,根据统计到的所述已知爬虫及所述未知爬虫的信息进行聚类分析,确定爬虫类别信息,其中,所述爬虫类别信息包括:爬虫请求次数、已知爬虫的信息、未知爬虫的信息、合法爬虫的信息以及恶意爬虫的信息;

将所述访问流量按照对应的爬虫类别信息进行可视化展示。

进一步地,所述方法包括:

根据所述未知爬虫所属的类别、设备指纹、网络地址段、根据网站业务进行的行为对所述未知爬虫进行可视化展示。

进一步地,所述预设的处置动作包括:

根据用户的业务标识进行以下任意一项或多项组合处理:返回假数据、观察、放行、拦截、人机识别以及预设自定义字体库。

进一步地,所述方法还包括:

添加由控制策略组成的规则集以限制请求频率不在预设阈值内的访问流量。

根据本申请另一方面提供了一种网络爬虫的处理系统,其中,所述系统包括:爬虫检测模块、爬虫识别模块以及爬虫展示模块,其中,

所述爬虫检测模块用于接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;

所述爬虫识别模块用于对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;

所述爬虫展示模块用于根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。

进一步地,所述系统包括爬虫处理模块,所述爬虫处理模块用于根据预设的处置动作对已知爬虫中的恶意爬虫以及未知爬虫中的恶意爬虫进行处置处理得到处置后的洁净流量,将所述洁净流量返回源站。

根据本申请又一方面提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述任一项所述的一种网络爬虫的处理方法。

根据本申请再一方面提供了一种网络爬虫的处理设备,其中,所述设备包括:

一个或多个处理器;以及

存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述任一项所述一种网络爬虫的处理方法的操作。

与现有技术相比,本申请通过接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,根据历史爬虫网络地址库以及行为特征信息对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。从而高效、精确地识别了恶意爬虫和正常流量并分别加以处置,同时可视化直观展示了爬虫数据,便于网站管理人员对爬虫类别相关数据进行针对性分析。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出根据本申请的一个方面提供的一种网络爬虫的处理方法流程示意图;

图2示出本申请一优选实施例中的流量处理方法流程示意图;

图3示出根据本申请的另一个方面提供的一种网络爬虫的处理系统框架示意图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

图1示出根据本申请的一个方面提供的一种网络爬虫的处理方法流程示意图,该方法包括:步骤S11~S13,其中,步骤S11,接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;

步骤S12,对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;

步骤S13,根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。从而高效、精确地识别了恶意爬虫和正常流量并分别加以处置,同时可视化直观展示了爬虫数据,便于网站管理人员对爬虫类别相关数据进行针对性分析。

具体地,步骤S11,接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别。在此,所述边缘防护节点为客户业务接入防火墙后为客户提供的防护网络协议地址(防护IP地址),将当前业务的所有访问流量牵引到防火墙边缘的防护节点以保护网站源网络协议地址,所述行为特征信息是基于用户代理(Useragent)中的特征,比如含有Python脚本、golang程序标识等,在此,所述访问流量包括现有的所有访问类型。

优选地,根据历史爬虫网络地址以及行为特征信息来识别访问流量的爬虫信息,其中,所述历史爬虫网络地址为已知的爬虫信息。对比历史爬虫的网络地址和行为特征信息与所述访问流量中的网络地址与行为特征信息是否一致,若是,则根据历史爬虫的网络地址和行为特征信息确定所述访问流量中的已知爬虫以及所述已知爬虫所属的爬虫类别;若否,则为未确定的爬虫。在此,历史爬虫网络地址库中的历史爬虫网络地址为已知的网际互联协议(IP)威胁情报信息,可以直接判断爬虫类型,所述爬虫类型包括但不限于搜索引擎爬虫、合作伙伴爬虫、监控爬虫、聚合器爬虫、社交网络爬虫、广告爬虫、反向链接爬虫、IDC数据中心爬虫、恶意UA爬虫、伪造搜索引擎爬虫、IP信誉库黑名单、代理池爬虫。所述行为特征信息包含但不限于回源比,动态资源比,静态资源比,动态资源回源比,静态资源回源比,总访问数量,恶意UA占比,访问时长,平均每分钟访问次数,去重ua数量,去重ua占比,去重访问url数量,去重url占比,平均请求响应时间,网站IP平均访问数量,网站IP总数量,总访问数量与网站IP平均访问数量的比值等。并按照其特征及行为确定是否可以归类至已知爬虫,若是则归类至已知爬虫分类,从而不断扩充已知爬虫,若否则人工进行干预决定是否归类或新增分类。

步骤S12,对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别。在此,所述行为就是根据网站业务类别进行的行为类别划分,比如登录行为、提交行为或获取数据行为。可以利用人工智能对未确定出所属的爬虫类别的访问流量进行行为分析识别,根据识别结果确定出未知爬虫的威胁值以衡量威胁度,判断所述威胁值是否在预设阈值内,若是,则所述未知爬虫为合法爬虫,若否,则所述未知爬虫为恶意爬虫。

在本申请一优选实施例中,人工智能模型计算出的预测值为0到1之间的浮点数,越接近于1的威胁程度越高,人工智能模型采用机器学习算法,如LightGBM,通过分析访客行为来进行预先检测,所述预先检测的项目包含但不限于回源比、动态资源比、静态资源比、动态资源回源比、静态资源回源比、总访问数量、恶意用户代理(UA)占比,访问时长,平均每分钟访问次数,去重用户代理(UA)数量,去重用户代理(UA)占比,去重访问url数量,去重url占比,平均请求响应时间,网站IP平均访问数量,网站IP总数量,总访问数量与网站IP平均访问数量的比值。对不同的访客行为预设不同的分值,根据获取到的访客行为参照预设的分值进行打分。设置预设阈值为0.7,则检测后得到威胁值大于等于0.7的未知爬虫即为恶意爬虫。

步骤S13,根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。在此,访问流量可视化展示以使得用户快速获得当前每个业务被爬取情况以及爬虫类型,例如被搜索引擎爬取情况、爬取数据动静资源比例、合法爬虫与恶意爬虫在所有爬虫数据中的占比等,为调整流量管控策略提供最直接的参考数据。

优选地,所述爬虫类别包括恶意爬虫和合法爬虫,根据预设的处置动作对已知爬虫中的恶意爬虫以及未知爬虫中的恶意爬虫进行处置处理得到处置后的洁净流量,将所述洁净流量返回源站。在此,所述预设的处置动作包括但不限于返回假数据、观察、放行、拦截以及人机识别。通过对所述恶意爬虫进行拦截后,得到处置后的洁净流量,所述洁净流量为去除所有恶意爬虫后的合法流量,接着将所述洁净流量返回源站。

优选地,步骤S12中,根据历史浏览数据以及历史爬虫抓取数据构建数据集,利用所述数据集训练人工智能模型,得到预设的人工智能模型;通过所述预设的人工智能模型对未确定出所属的爬虫类别的访问流量进行行为分析识别。在此,所述行为分析识别的过程为:先获取网站已有的历史正常浏览数据和历史爬虫抓取数据,构建数据集,将所述数据集转化成历史爬虫流量相关数据并进行量化处理,也就是利用一系列数字值直观评价历史爬虫流量,再根据所述一系列数字值结合人工智能算法(AI算法)进行训练,得出预设的人工智能模型。接着利用预设的人工智能模型对未确定出所属的爬虫类别的访问流量进行行为分析识别,例如进行网站请求的预测等。其中,所述未知爬虫指当前未纳入已知爬虫类型中的爬虫,优选地,所述已知爬虫会根据分析得到的未知爬虫的类别进行更新,将新分析得到的未知爬虫类别记录入已知爬虫类别中。在本申请一优选实施例中,通过人工智能引擎(AI引擎)判断访问流量是否为未确定的爬虫,若确定为未知爬虫则标记为未知爬虫,并按照其行为特征信息确定是否可以归类至已知爬虫,若是则归类至已知爬虫分类,从而不断扩充已知爬虫,若否则人工进行干预决定是否归类或新增分类;若AI引擎判断不是未知爬虫,则为正常流量。

优选地,步骤S13中,根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别统计所述已知爬虫及所述未知爬虫的信息,根据统计到的所述已知爬虫及所述未知爬虫的信息进行聚类分析,确定爬虫类别信息,其中,所述爬虫类别信息包括:爬虫请求次数、已知爬虫的信息、未知爬虫的信息、合法爬虫的信息以及恶意爬虫的信息;将所述访问流量按照对应的爬虫类别信息进行可视化展示。在此,根据聚类分析的结果图表化展示爬虫(Bot)的请求趋势、流量趋势、动静态资源请求次数趋势、已知爬虫(已知Bot)活动分析、未知爬虫(未知Bot)活动分析等。可以使得用户快速获得当前每个业务当前被爬取情况以及爬虫类型,例如被搜索引擎爬取情况,爬取数据动静资源比例、合法爬虫占比、恶意爬虫占比,为调整流量管控策略提供最直接的参考依据。

优选地,根据所述未知爬虫所属的类别、设备指纹、网络地址段、根据网站业务进行的行为对所述未知爬虫进行可视化展示。在此,根据未知爬虫所属的类别、设备指纹、网络地址段、根据网站业务进行的行为这些类别对所述未知爬虫进行聚类分析,并进行可视化展示。

优选地,根据用户的业务标识进行以下任意一项或多项组合处理:返回假数据、观察、放行、拦截、人机识别以及预设自定义字体库。在此,所述用户的业务标识优选为登录用户标识,从而实现账号联动,也就是针对同一个登录用户设置一套处理方式,其中所述处理方式为返回假数据、观察、放行、拦截、人机识别以及预设自定义字体库中的一项或多项组合处理,以便于管理同一个用户的所有请求数据来管理爬虫。

优选地,添加由控制策略组成的规则集以限制请求频率不在预设阈值内的访问流量。在此,在控制台中添加规则集,对所述规则集添加控制策略,其中,所述控制策略包括对统一资源定位符(URL)、网际互连协议(IP)、引用(Referer)、区域、用户代理(UA)、请求类型、请求参数、查询字符串、请求头、请求时间、请求方法、设备类型、网际互连协议类型(IP类型)、后缀、网际互连协议请求频率(IP请求频率)的组合访问控制策略,可以有效管控爬虫流量。

在本申请一优选实施例中,以网际互连协议请求(IP请求)频率为例,逻辑为大于,请求时间为3s,次数为100,处置方式为阻断时,也就是说,当IP请求时间在3s的请求次数达到100次后自动限制当前IP继续请求,以有效避免被恶意爬取数据。在此,针对爬虫流量的处置,不限于恶意爬虫,针对友好爬虫也可以做流量处置,比如当客户服务器性能不允许被大量访问时,如果搜索引擎发起超过某个值的数量的请求可能导致服务器过载,在这种情况下也可以对搜索引擎流量做管控处置,比如拒绝访问等。

图2示出本申请一优选实施例中的流量处理方法流程示意图,爬虫管理是建立在网页应用防火墙(Web应用防火墙)之上,通过将所有访问流量牵引到设有网页应用防火墙边缘的防护节点,在所述边缘防护节点上通过已知爬虫IP库及特征识别快速识别出已知爬虫,同时通过人工智能及行为分析识别出未知爬虫,并对未知爬虫通过设备指纹、IP段、行为等进行聚类分析展示,并对已经识别出来的爬虫按照配置的处置动作进行处置。接着,在恶意流量在边缘被处置后,所述边缘防护节点将洁净流量返回源站。

图3示出一种网络爬虫的处理系统,其中,所述系统包括:爬虫检测模块11、爬虫识别模块12以及爬虫展示模块13,其中,所述爬虫检测模块11用于接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;所述爬虫识别模块12用于对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;所述爬虫展示模块13用于根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。从而高效、精确地识别了恶意爬虫和正常流量并分别加以处置,同时可视化直观展示了爬虫数据,便于网站管理人员对爬虫类别相关数据进行针对性分析。

具体地,所述爬虫检测模块11用于接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别,在此,所述爬虫检测模块11将当前业务的所有访问流量牵引到防火墙边缘的防护节点,优选地,根据历史爬虫网络地址库以及行为特征信息对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别。接着,所述爬虫检测模块11对比历史爬虫的网络地址库和行为特征信息与所述访问流量中的网络地址与行为特征信息是否一致,若是,则根据历史爬虫的网络地址库和行为特征信息确定所述访问流量中的已知爬虫以及所述已知爬虫所属的爬虫类别;若否,则为未确定的爬虫。

所述爬虫识别模块12用于对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别,在此,所述爬虫识别模块12可以利用人工智能对未确定出所属的爬虫类别的访问流量进行行为分析识别,根据识别结果确定出未知爬虫的威胁值以衡量威胁度,判断所述威胁值是否在预设阈值内,若是,则所述未知爬虫为合法爬虫,若否,则所述未知爬虫为恶意爬虫。

所述爬虫展示模块13用于根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量,在此,所述爬虫展示模块13用于图表化、可视化展示访问流量的所有统计数据,以使得用户快速获得当前每个业务被爬取情况以及爬虫类型,例如被搜索引擎爬取情况、爬取数据动静资源比例、合法爬虫与恶意爬虫在所有爬虫数据中的占比等,为调整流量管控策略提供最直接的参考数据。

进一步地,所述系统包括爬虫处理模块14,所述爬虫处理模块14用于根据预设的处置动作对已知爬虫中的恶意爬虫以及未知爬虫中的恶意爬虫进行处置处理得到处置后的洁净流量,将所述洁净流量返回源站。在此,所述预设的处置动作包括但不限于返回假数据、观察、放行、拦截以及人机识别。例如,所述爬虫处理模块14通过对所述恶意爬虫进行拦截后,得到处置后的洁净流量,所述洁净流量为去除所有恶意爬虫后的合法流量,接着,所述爬虫处理模块14将所述洁净流量返回源站。在本申请一优选实施例中,所述爬虫处理模块14作为网页应用防火墙(Web应用防火墙)其中一个模块,管理爬虫的同时可以快速获取抗DDoS、漏洞防护、性能优化等能力。

此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述一种网络爬虫的处理方法。

根据本申请再一个方面,还提供了一种网络爬虫的处理设备,其中,所述设备包括:

一个或多个处理器;以及

存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行前述的一种网络爬虫的处理方法的操作。

例如,计算机可读指令在被执行时使所述一个或多个处理器:

接收访问流量,将所述访问流量牵引到设有防火墙边缘的防护节点,对所述访问流量进行识别,确定出已知爬虫以及已知爬虫所属的爬虫类别;对未确定出所属的爬虫类别的访问流量进行行为分析识别,确定出未知爬虫的威胁值,根据所述威胁值确定所述未知爬虫所属的爬虫类别;根据所述已知爬虫所属的爬虫类别以及所述未知爬虫所属的类别进行访问流量可视化展示,并调整所述当前业务的访问流量。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

相关技术
  • 网络爬虫系统和基于网络爬虫系统的数据处理方法
  • 一种网络爬虫系统及网络爬虫多任务执行和调度方法
技术分类

06120113079165