掌桥专利:专业的专利平台
掌桥专利
首页

一种通过接码平台和selenium突破点选验证码的方法及系统

文献发布时间:2023-06-19 13:45:04


一种通过接码平台和selenium突破点选验证码的方法及系统

技术领域

本发明涉及数据保护技术领域,具体的说是一种通过接码平台和selenium突破点选验证码的方法及系统。

背景技术

在互联网科技深度发展下,大数据技术成为一门具备独特魅力的新的科学。

伴随着大数据技术的蓬勃发展,数据呈现爆发式的增长。大数据其数据的丰富性和多样性以及数据的延续性使其成为一种重要的生产资料和生产力。通过对庞大规模的数据进行处理和分析,能够有效的提升决策水平,并且能够更加有效的整合资源。

大数据技术的前提是数据规模大,数据种类丰富,这就给数据的收集和存储带来更大的挑战。爬虫技术是一种重要的数据来源,但也面临着众多的困难。这其中比较常见的就是纷繁复杂的验证码。通过使用验证码来防止爬虫是一种常见的反爬虫方式。

基于此,设计研发一种通过接码平台和selenium突破点选验证码的方法及系统,以提高爬虫采集数据的能力和效力,拓宽数据来源。

发明内容

本发明针对目前技术发展的需求和不足之处,提供一种通过接码平台和selenium突破点选验证码的方法及系统,以提高爬虫采集数据的能力和效力,拓宽数据来源。

首先,本发明提供一种通过接码平台和selenium突破点选验证码的方法,解决上述技术问题采用的技术方案如下:

一种通过接码平台和selenium突破点选验证码的方法,使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。

具体的,所涉及方法的具体实现过程包括:

步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;

步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;

步骤S3、将步骤S2中的截图发送给第三方接码平台,并接收返回结果;

步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;

步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;

步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。

更具体的,执行步骤S3时,将步骤S2中的截图首先序列化为base64,随后发送给第三方接码平台。

更具体的,所涉及方法的具体实现过程中,可以点选任意个位置的验证码图片。

其次,本发明提供一种通过接码平台和selenium突破点选验证码的系统,解决上述技术问题采用的技术方案如下:

一种通过接码平台和selenium突破点选验证码的系统,其实现基于selenium和第三方接码平台;

使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。

具体的,基于selenium和第三方接码平台,所涉及系统的具体实现过程为:

步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;

步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;

步骤S3、将步骤S2中的截图发送给第三方接码平台,并接收返回结果;

步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;

步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;

步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。

更具体的,执行步骤S3时,将步骤S2中的截图首先序列化为base64,随后发送给第三方接码平台。

具体的,所涉及系统的具体实现过程中,可以点选任意个位置的验证码图片。

本发明的一种通过接码平台和selenium突破点选验证码的方法及系统,与现有技术相比具有的有益效果是:

本发明使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码,以提高爬虫采集数据的能力和效力,拓宽数据来源。

附图说明

附图1是本发明的实现流程图。

具体实施方式

为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。

实施例一:

本实施例提出一种通过接码平台和selenium突破点选验证码的方法,使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。

结合附图1,本实施例的一种通过接码平台和selenium突破点选验证码的方法,具体实现过程包括:

步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;

步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;

步骤S3、将步骤S2中的截图序列化为base64,随后发送给第三方接码平台,并接收返回结果;

步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;

步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;

步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。

本实施例的具体实现过程中,可以点选任意个位置的验证码图片。

实施例二:

结合附图1,本实施例提出一种通过接码平台和selenium突破点选验证码的系统,其实现基于selenium和第三方接码平台;

使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。

本实施例的一种通过接码平台和selenium突破点选验证码的系统,基于selenium和第三方接码平台,具体实现过程包括:

步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;

步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;

步骤S3、将步骤S2中的截图序列化为base64,随后发送给第三方接码平台,并接收返回结果;

步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;

步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;

步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。

本实施例的具体实现过程中,可以点选任意个位置的验证码图片。

综上可知,采用本发明的一种通过接码平台和selenium突破点选验证码的方法及系统,使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码,以提高爬虫采集数据的能力和效力,拓宽数据来源。

以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

技术分类

06120113792442