掌桥专利:专业的专利平台
掌桥专利
首页

页面抓取方法、装置、电子设备及计算机存储介质

文献发布时间:2024-01-17 01:27:33


页面抓取方法、装置、电子设备及计算机存储介质

技术领域

本发明涉及电子商务技术领域,具体涉及一种页面抓取方法、装置、电子设备及计算机存储介质。

背景技术

域中,经常会利用谷歌Google、必应Bing、Yandex等搜索引擎抓取、收录网站页面进行网站排名和流量获取;当网站出现在搜索引擎前列时,就可以获得大量的流量,这样就会提升转化率;当网站拥有良好的排名后,还可以增加企业的曝光度,从而就能树立企业品牌形象。

由于搜索引擎只能抓取同步页面,从而导致网站大部分静态/异步页面无法抓取,非常不利于网站搜索引擎优化(Search Engine Optimization,SEO),基于现有网站实现,为了解决这个问题,只有两种方式:将网站全部改为同步渲染或者将动态的异步内容转存为超文本标记语言(Hyper Text Markup Language,HTML)文件;其中将所有页面改为同步渲染费时费力,而且有些页面并非一定需要在服务端提前渲染,这种方案成本较高,投资回报率(Return On Investment,ROI)较为低下。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的页面抓取方法、装置、电子设备及计算机存储介质。

根据本发明的一个方面,提供了一种页面抓取方法,包括:

接收浏览器发送的第一网页访问请求;其中,所述第一网页访问请求中携带第一预设标识;

根据所述第一预设标识确定是否符合预设爬虫抓取逻辑;

如果符合预设爬虫抓取逻辑,则通过无界面浏览器页面生成逻辑返回静态页面或者单页面应用程序SPA超文本标记语言HTML文件。

根据本发明的另一个方面,提供了一种页面抓取装置,包括:

请求接收模块,用于接收浏览器发送的第一网页访问请求;其中,所述第一网页访问请求中携带第一预设标识;

判断模块,用于根据所述第一预设标识确定是否符合预设爬虫抓取逻辑;

页面生成模块,用于如果符合预设爬虫抓取逻辑,则通过无界面浏览器页面生成逻辑返回静态页面或者单页面应用程序SPA超文本标记语言HTML文件。

根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行本发明所述的页面抓取方法对应的操作。

根据本发明的另一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行本发明所述的页面抓取方法对应的操作。

根据本发明公开的页面抓取方法、电子设备及计算机存储介质,通过无界面浏览器模拟用户行为,通过区分爬虫和真实用户,解决绝大部分动态(异步)页面不支持搜索引擎爬虫抓取的问题。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明实施例一提供的一种页面抓取方法的流程示意图;

图2示出了根据本发明实施例一提供的一种页面抓取方法中执行主体架构图;

图3示出了根据本发明实施例二提供的一种页面抓取装置的结构示意图;

图4示出了根据本发明实施例四提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

图1示出了根据本发明实施例一提供的一种页面抓取方法的流程示意图。本实施例的执行主体可以为本发明实施例提供的页面抓取装置,或集成了本发明实施例提供的页面抓取装置的源站应用路由层,其中图2示出了本发明实施例各执行主体的框架图。如图1和图2所示,该方法包括:

步骤S11,接收浏览器发送的第一网页访问请求;其中,所述第一网页访问请求中携带第一预设标识。

其中,第一网页访问请求为HTTP请求,该HTTP请求中包含第一预设标识,其中,第一预设标识用于区分发起第一网页访问请求的主体是真实用户还是爬虫。

具体的,如图2所示,用户和爬虫都可以通过浏览器向源站应用路由层发送HTTP请求,源站应用路由层根据HTTP请求携带的第一预设标识确定发起主体是用户还是爬虫,从而针对用户或爬虫执行不同的页面抓取逻辑。其中,包含用户代理User-Agent(例如,DHHEADLES或者Refresh-Cache)、爬虫标识(例如,)、桌面标识Desktop和设备标识Mobile中的至少一种标识。

步骤S12,根据所述第一预设标识确定是否符合预设爬虫抓取逻辑。

通过源站应用路由层判断第一预设标识是否符合爬虫bot逻辑,如果第一预设标识中包含的User-Agent中包含Googlebot|bingbot|YandexBot字段,则认为是爬虫发起的网页访问请求,符合爬虫抓取逻辑,否则不符合爬虫抓取逻辑,判断为用户发起的网页访问请求。

步骤S13,如果符合预设爬虫抓取逻辑,则通过无界面浏览器页面生成逻辑返回静态页面或者单页面应用程序(Single-Page Application,简称SPA)HTML文件。

其中,无界面浏览器Headless Chrome是Chrome浏览器的无界面形态,可以在不打开浏览器的前提下,使用所有Chrome支持的特性,在命令行中运行你的脚本。相比于其他浏览器,Headless Chrome能够更加便捷的运行web自动化测试、编写爬虫、截取图等功能。

具体的,如果确定符合预设爬虫抓取逻辑,则支持爬虫抓取,则通过无界面浏览器页面生成逻辑返回静态页面或者SPA的HTML文件。

由此可见,本实施例通过无界面浏览器模拟用户行为,通过区分爬虫和真实用户,解决绝大部分动态(异步)页面不支持搜索引擎爬虫抓取的问题。

在一个可选实施例中,步骤S13具体包括:

步骤S131,在无界面浏览器页面头文件中写入第二预设标识。

其中,第二预设标识包含用户代理、爬虫标识、桌面标识和设备标识中的至少一种标识。

步骤S132,基于所述第二预设标识通过无界面浏览器页面生成逻辑生成静态页面或者单页面应用程序SPA的超文本标记语言HTML文件。

在一个可选实施例中,步骤S132具体包括:

步骤S1321,根据所述第二预设标识确定动态设置页面。

具体的,首先根据第二标识携带的User-Agent以及识别Desktop、Mobile类型,根据识别的类型动态设置页面宽高。然后,启动无界面浏览器执行目标页面的javascript程序代码,组装静态页面/SPA等页面的HTML代码(包含异步执行后动态写入的HTML代码)。

步骤S1322,通过无界面浏览器向前端服务器发送第二网页访问请求,从所述前端服务器获取静态资源,根据所述静态资源生成静态页面;或通过无界面浏览器向后端服务器发送异步网页访问请求,从所述后端服务器获取JSON数据资源,根据所述JSON数据生成单页面应用程序SPA的超文本标记语言HTML文件。

在一个可选实施例中,所述方法还包括:

步骤S15,在Nginx缓存层缓存通过无界面浏览器页面生成逻辑生成的静态页面或者SPA的HTML文件。

从Nginx缓存中获取通过无界面浏览器页面生成逻辑生成的静态页面或者SPA的HTML文件。具体的,判断是否命中目标网页的爬虫缓存文件即Nginx缓存层是否存在缓存文件,如果命中,直接返回缓存好的完整HTML文件(包含javascript执行后异步渲染内容),如果没有命中,则通过无界面浏览器访问正常网页,通过无界面浏览器页面生成逻辑返回执行完javascript的HTML页面,Nginx将返回的文件进行缓存。或者,判读是否为更新Nginx缓存请求,如果是更新缓存,则通过无界面浏览器访问正常网页,通过无界面浏览器页面生成逻辑返回执行完javascript的HTML页面,Nginx将返回内容进行缓存;如果不是,则直接返回Nginx缓存的完整HTML文件(包含javascript异步渲染内容)。

本实施例利用无界面浏览器模拟用户行为,将渲染后的页面缓存至Nginx,通过用户代理区分bot和真实用户,bot访问缓存页面,解决绝大部分动态(异步)页面不支持SEO爬虫抓取的问题。

在一个可选实施例中,本发明实施例的方法还包括如下步骤:

步骤S14,如果不符合预设爬虫抓取逻辑,则通过正常浏览器页面生成逻辑返回静态页面或者SPA的HTML文件。

具体的,如果不符合预设爬虫抓取逻辑,则说明为真实用户,则不应用无界面浏览器页面生成逻辑,通过正常用户原有逻辑即正常浏览器页面生成逻辑返回静态页面或者SPA的HTML文件。

在一个可选实施例中,步骤S14具体包括:用户通过浏览器向前端服务器发送第三网页访问请求,从所述前端服务器获取静态资源,根据所述静态资源生成静态页面;或用户通过所述浏览器向后端服务器发送异步网页访问请求,从所述后端服务器获取JSON数据资源,根据所述JSON数据生成SPA的HTML文件。

其中,第三网页访问请求可以为HTTP请求。

上述实施例可以方便地控制浏览器或浏览器的无界面模式,轻松模拟用户行为将异步页面进行缓存,方便搜索引擎爬虫爬取和搜录,提高页面爬虫访问性能,减轻中后台服务压力,为网上SEO搜录和排名提供快捷有效的解决方案。

实施例二

图3示出了根据本发明实施五提供的一种页面抓取装置的结构示意图。如图3所示,该装置包括:请求接收模块21、判断模块22和页面生成模块23;其中,

请求接收模块21用于接收浏览器发送的第一网页访问请求;其中,所述第一网页访问请求中携带第一预设标识;

判断模块22用于根据所述第一预设标识确定是否符合预设爬虫抓取逻辑;

页面生成模块23用于如果符合预设爬虫抓取逻辑,则通过无界面浏览器页面生成逻辑返回静态页面或者单页面应用程序SPA超文本标记语言HTML文件。

进一步的,所述页面生成模块23还用于:如果不符合预设爬虫抓取逻辑,则通过正常浏览器页面生成逻辑返回静态页面或者SPA的HTML文件。

进一步的,所述页面生成模块23具体用于:在无界面浏览器页面头文件中写入第二预设标识;基于所述第二预设标识通过无界面浏览器页面生成逻辑生成静态页面或者单页面应用程序SPA的超文本标记语言HTML文件。

进一步的,所述页面生成模块23具体用于:根据所述第二预设标识确定动态设置页面;通过无界面浏览器向前端服务器发送第二网页访问请求,从所述前端服务器获取静态资源,根据所述静态资源生成静态页面;或通过无界面浏览器向后端服务器发送异步网页访问请求,从所述后端服务器获取JSON数据资源,根据所述JSON数据生成单页面应用程序SPA的超文本标记语言HTML文件。

进一步的,所述装置还包括:缓存模块24;其中,

所述缓存模块24,用于在Nginx缓存层缓存通过无界面浏览器页面生成逻辑生成的静态页面或者单页面应用程序SPA的超文本标记语言HTML文件。

进一步的,所述页面生成模块23具体用于:用户通过浏览器向前端服务器发送第三网页访问请求,从所述前端服务器获取静态资源,根据所述静态资源生成静态页面;或用户通过所述浏览器向后端服务器发送异步网页访问请求,从所述后端服务器获取JSON数据资源,根据所述JSON数据生成SPA的HTML文件。

进一步的,所述第二预设标识包含用户代理、爬虫标识、桌面标识和设备标识中的至少一种标识。

本实施例所述的页面抓取装置用于执行上述实施例一所述的页面抓取方法,其工作原理与技术效果类似,这里不再赘述。

实施例三

本发明实施例三提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的页面抓取方法。

实施例四

图4示出了根据本发明实施例四提供的一种电子设备的结构示意图。本发明具体实施例并不对电子设备的具体实现做限定。

如图4所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。

其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述方法实施例中的相关步骤。

具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。

处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。

存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。

程序310具体可以用于使得处理器302执行上述任意方法实施例中的页面抓取方法。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序商品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

技术分类

06120116222553