掌桥专利:专业的专利平台
掌桥专利
首页

目标信息获取方法、装置及计算机可读存储介质

文献发布时间:2023-06-19 11:26:00


目标信息获取方法、装置及计算机可读存储介质

技术领域

本申请属于领域,具体涉及一种目标信息获取方法、装置及计算机可读存储介质。

背景技术

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认其为现有技术。

互联网上充斥着大量的赌博欺诈网站,给社会带来巨大财富损失。其中能够有效防范赌博欺诈的措施就是掐断犯罪分子的入账渠道,方式之一就是对赌博欺诈网站的收款卡号进行封禁,而封禁的前提条件是获得相关收款卡号。现有获取赌博收款卡号的方式,主要是通过人工排查方式对海量的赌博网站进行排查,获得赌博网站的收款账户。除此之外,还有诸如钓鱼网站、传销网站等各类网站,需要人工的方式去排查以及从中确定出目标信息。人工方式效率低下,获取信息的能力有限,且耗费人力巨大。

发明内容

针对上述现有技术的问题,本申请实施例提出了一种目标信息获取方法、装置及计算机可读存储介质。利用这种方法及装置,能够至少部分解决上述问题。

本申请的实施例中提供了以下方案:一种目标信息获取方法,包括:

将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;

将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;

根据所述代码结构类型查找对应的交互策略,并根据查找到的交互策略与对应的目标网站进行交互,以获取目标信息,其中,所述目标网站为所述目标网页所属网站。

在一些实施例中,所述目标网页的网页代码结构特征包括:超文本标记语言元素深度、超文本标记语言并列元素数量和图片元素数三者中的至少一项。

在一些实施例中,所述目标信息包括:目标网站的收款账户;

所述交互操作策略包括:依次进行注册操作、登录操作、充值操作以获取收款账户,或者依次进行注册操作、登录操作、联系客服、模拟聊天以获取收款账户。

在一些实施例中,进行注册操作,包括:

对网页进行机器视觉分析以定位注册按钮,并对注册按钮进行模拟点击;或者,

确定网页源代码中注册关键字指向的网址,并跳转至注册关键字指向的网址。

在一些实施例中,根据查找到的交互策略与对应的目标网站进行交互,包括:

对网页进行机器视觉分析以定位待填写信息所在文本框的提示文字;

在相对于定位出的提示文字进行位移,以在对应的文本框内执行点击操作而启动文本填入。

在一些实施例中,充值操作以获取收款账户,包括:

对网页进行机器视觉分析以定位充值按钮,并对充值按钮进行模拟点击,以获取收款账户;或者,

分析网页源代码,根据充值关键字识别用于启动充值的页面元素,并模拟点击所识别出的页面元素,以获取收款账户。

在一些实施例中,当获取到收款链接时,根据收款链接提取收款账户。

在一些实施例中,所述待分析网址的网页内容特征包括:

待分析网址的网页的文字特征、图片特征和视频特征中的至少一项。

在一些实施例中,还包括:

对种子网站进行遍历搜索,得到至少一个关联网站的至少一个网址及各网址对应的网页内容,其中,搜索到的网址作为待分析网址。

在一些实施例中,对种子网站进行遍历搜索,包括:对种子网站进行深度遍历或广度遍历搜索。

在一些实施例中,所述第一模型包括机器学习模型,和/或,所述第二模型包括机器学习模型。

本申请的实施例中提供了以下方案:一种目标信息获取装置,包括:

第一分析模块,用于将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;

第二分析模块,用于将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;

目标信息获取模块,用于根据所述代码结构类型查找对应的交互策略,并根据查找到的交互策略与对应的目标网站进行交互,以获取目标信息,其中,所述目标网站为所述目标网页所属网站。

在一些实施例中,所述目标网页的网页代码结构特征包括:超文本标记语言元素深度、超文本标记语言并列元素数量和图片元素数三者中的至少一项。

在一些实施例中,所述目标信息包括:目标网站的收款账户;

所述交互操作策略包括:依次进行注册操作、登录操作、充值操作以获取收款账户,或者依次进行注册操作、登录操作、联系客服、模拟聊天以获取收款账户。

在一些实施例中,目标信息获取模块具体用于::

对网页进行机器视觉分析以定位注册按钮,并对注册按钮进行模拟点击;或者,

确定网页源代码中注册关键字指向的网址,并跳转至注册关键字指向的网址。

在一些实施例中,目标信息获取模块具体用于:

对网页进行机器视觉分析以定位待填写信息所在文本框的提示文字;

在相对于定位出的提示文字进行位移,以在对应的文本框内执行点击操作而启动文本填入。

在一些实施例中,目标信息获取模块具体用于:

对网页进行机器视觉分析定位充值按钮,并对充值按钮进行模拟点击,以获取收款账户;或者,

分析网页源代码,根据充值关键字识别用于启动充值的页面元素,并模拟点击所识别出的页面元素,以获取收款账户。

在一些实施例中,目标信息获取模块具体用于:当获取到收款链接时,根据收款链接提取收款账户。

在一些实施例中,所述待分析网址的网页内容特征包括:

待分析网址的网页的文字特征、图片特征和视频特征中的至少一项。

在一些实施例中,还包括:

网页搜索模块,用于对种子网站进行遍历搜索,得到至少一个关联网站的至少一个网址及各网址对应的网页内容,其中,搜索到的网址作为待分析网址。

在一些实施例中,网页搜索模块具体用于:对种子网站进行深度遍历或广度遍历搜索。

在一些实施例中,所述第一模型包括机器学习模型;和/或,所述第二模型包括机器学习模型。

本申请的实施例中提供了以下方案:一种目标信息获取装置,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:前述的方法。

本申请的实施例中提供了以下方案:一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器执行:前述的方法。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:同一类型的目标网页的网页内容特征具有一定的相似性,故可以根据网页内容特征判断一个网页是不是所关注类型的目标网页。为降低网站开发的成本,目标网站通常采用相似的网页代码结构。如两个网站的网页代码结构的相似度足够高,可推断二者与用户的交互方式的相似度也就足够高。如此,可以根据目标网页的网页代码结构特征推断与对应的目标网站的交互策略,进而在于目标网站进行交互的过程中,成功获得目标信息的成功率较高。上述过程均可由程序运行而执行,大大降低人力成本。

应当理解,上述说明仅是本申请技术方案的概述,以便能够更清楚地了解本申请的技术手段,从而可依照说明书的内容予以实施。为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本申请的具体实施方式。

附图说明

通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的优点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:

图1为根据本申请实施例的目标信息获取方法的流程示意图;

图2为根据本申请一实施例的目标信息获取装置的结构示意图;

图3为根据本申请另一实施例的目标信息获取装置的结构示意图。

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

在本申请中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。

另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1为根据本申请一实施例的目标信息获取方法的流程示意图,该方法用于确定目标网站并从中获取目标信息,在该流程中,从设备角度而言,执行主体可以是一个或者多个电子设备;从程序角度而言,执行主体相应地可以是搭载于这些电子设备上的程序。

图1中的流程可以包括以下步骤101~步骤103。

步骤101、将待分析网址(URL)的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;

步骤102、将目标网页的网页代码结构特征输入第二模型,得到所述目标网页的代码结构类型;

步骤103、根据所述代码结构类型查找对应的交互策略,并根据查找到的交互策略与对应的目标网站进行交互,以获取目标信息,其中,所述目标网站为所述目标网页所属网站。

同一类型的目标网页的网页内容特征具有一定的相似性,故可以根据网页内容特征判断一个网页是不是所关注类型的目标网页。为降低网站开发的成本,目标网站通常采用相似的网页代码结构。如两个网站的网页代码结构的相似度足够高,可推断二者与用户的交互方式的相似度也就足够高。如此,可以根据目标网页的网页代码结构特征对网页代码结构进行分类。相同或相似的网页代码结构通常具有相同的交互策略。如此,可推断出与对应的目标网站的交互策略,进而在与目标网站进行交互的过程中,成功获得目标信息的成功率较高。上述过程均可由程序运行而执行,大大降低人力成本。

代码结构类型与交互策略的对应关系可以是预设的。本领域技术人员可以根据经验对此进行设定。

基于图1的目标信息获取方法,本申请的一些实施例还提供了该方法的一些具体实施方案,以及扩展方案,下面进行说明。以下部分的实施例中,以目标网站为赌博网站,目标信息为赌博网站的收款账户为例进行说明。基于相同的发明构思,目标网站也可以是其他类型的网站,目标信息也可以是其他类型的信息。

在一些实施例中,所述目标网页的网页代码结构特征包括:超文本标记语言(HTML)元素深度、超文本标记语言并列元素数量和图片元素数三者中的至少一项。

即对目标网页的网页代码进行分析,提取网页代码的结构特征。如两个赌博网站的网页的网页代码的结构相似,则可推断二者的开发人员的设计思想一致或者说是批量复制生成的网站,进而推断这两个赌博网站与用户交互的方式是相同的。

在一些实施例中,所述目标信息包括:目标网站的收款账户;所述交互操作策略包括:依次进行注册操作、登录操作、充值操作以获取收款账户,或者依次进行注册操作、登录操作、联系客服、模拟聊天以获取收款账户。

如能获取到赌博网站的收款账户,则能够进一步对该收款账户进行监控、分析等进一步操作。

一些赌博网站的充值过程为:首先用户需要进行注册,然后登陆该赌博网站,随后点击充值按钮从而进行充值操作。那么对于这类赌博网站,程序的交互操作策略为:依次进行注册操作、登录操作、充值操作以获取收款账户。

另一些赌博网站的充值过程为:首先用户需要进行注册,然后登陆该赌博网站,随后与客服人员进行聊天从而客服人员会在聊天界面提供收款账户或收款链接。那么对于这类赌博网站,程序的交互操作策略为:依次进行注册操作、登录操作、联系客服、模拟聊天以获取收款账户。

本领域技术人员可以根据经验设置什么网页代码结构的网站对应什么样的交互策略。本申请对二者的对应关系如何建立不做限定。

以下介绍程序如何执行注册操作。

一种实施方式为:对网页进行机器视觉分析以定位注册按钮,并对注册按钮进行模拟点击,从而进入注册页面。

另一种实施方式为:分析网页源代码,提取关键字“注册”指向的网址,然后跳转至该网址,从而进入注册页面。

进入注册页面之后,一般需要填写账户名、密码、手机号、邮箱等信息。这些信息可以事先设置,为避免赌博网站的风控机制,可以随机生成注册信息并填写至注册界面。

以下为程序如何填写信息的实现方式:对网页进行机器视觉分析以定位待填写信息所在文本框的提示文字;在相对于定位出的提示文字进行位移,以在对应的文本框内执行点击操作而启动文本填入。

在一些赌博网站中,完成登录之后即可进行充值,从而能够获得收款账户。

具体地,对网页进行机器视觉分析以定位充值按钮,并对充值按钮进行模拟点击,以获取收款账户;或者,分析网页源代码,根据充值关键字识别用于启动充值的页面元素,并模拟点击所识别出的页面元素,以获取收款账户。

在一些赌博网站中,用户点击充值按钮后即向用户展示收款账户或收款链接。如展示的是收款链接,则程序需要从中提取收款账户。

在一些实施例中,步骤101中,待分析网址的网页的文字特征、图片特征和视频特征中的至少一项进行分析,从而确定待分析网页是不是目标网页。

以赌博网站是网页为例,网页内容中的字经常会包含:“百家乐”、“荷官”、“赛马”等字段,网页中展示的图片和视频也与正常网站所含图片和视频有显著差异,通过对网页的文字特征、图片特征以及视频特征进行提取,并将这些特征输入训练好的机器学习模型(例如是神经网络模型),从而可以对赌博网站进行高效的识别。

以上文字特征可以从网页的源代码中提取,图片和视频可以根据网页源代码中的链接而获取。

以下是待分析网址的一种获取方式:在步骤100、对种子网站进行遍历搜索,得到至少一个关联网站的至少一个网址及各网址对应的网页内容,其中,搜索到的网址作为待分析网址。

如程序关注的是赌博网站,则种子网站为已知的赌博网站。遍历的方法例如有深度遍历和广度遍历。

在一些实施例中,该方法还包括:识别验证码并填写,或者识别特定赌博网站的验证方式进而完成赌博网站的自动化验证。

目前很多赌博网站都具有一定的反侦察、反扒取意识,如检测到频繁访问、多次测试充值等操作,经常会执行封IP、封硬件地址等操作。因此需要采用一定的反封锁技术,例如,通过模拟器变更IP以及设备信息等,以应对赌博网站的风控措施。

以上方法执行过程中,还可以对获取到的所有网址(URL)、目标网站的网址、目标网页的内容、获取到的目标信息(例如是支付账户)、交互策略等信息进行存储。

本申请对第一模型和第二模型的结构以及形式不做限定,例如二者均为机器学习模型。对如何训练和优化第一模型和第二模型同样不做限定,本领域技术人员可以根据模型运算的目的灵活地设置第一模型和第二模型。

基于相同的技术构思,本申请实施例还提供一种目标信息获取装置,用于执行上述任一实施例所提供的方法。图2为本申请实施例提供的一种目标信息获取装置结构示意图。

如图2所示,目标信息获取装置包括:第一分析模块2,用于将待分析网址的网页内容特征输入第一模型,以判断对应的网页是否为目标网页;

第二分析模块3,用于将目标网页的网页代码结构特征输入第二模型,得到针对于目标网站的交互策略,其中,所述目标网站为目标网页所属网站;

目标信息获取模块4,用于根据所述交互策略与对应的目标网站进行交互,以获取目标信息。

在一些实施例中,所述目标网页的网页代码结构特征包括:超文本标记语言元素深度、超文本标记语言并列元素数量和图片元素数三者中的至少一项。

在一些实施例中,所述目标信息包括:目标网站的收款账户;

所述交互操作策略包括:依次进行注册操作、登录操作、充值操作以获取收款账户,或者依次进行注册操作、登录操作、联系客服、模拟聊天以获取收款账户。

在一些实施例中,目标信息获取模块4具体用于::

对网页进行机器视觉分析以定位注册按钮,并对注册按钮进行模拟点击;或者,

确定网页源代码中注册关键字指向的网址,并跳转至注册关键字指向的网址。

在一些实施例中,目标信息获取模块4具体用于:

对网页进行机器视觉分析以定位待填写信息所在文本框的提示文字;

在相对于定位出的提示文字进行位移,以在对应的文本框内执行点击操作而启动文本填入。

在一些实施例中,目标信息获取模块4具体用于:

对网页进行机器视觉分析定位充值按钮,并对充值按钮进行模拟点击,以获取收款账户;或者,

分析网页源代码,根据充值关键字识别用于启动充值的页面元素,并模拟点击所识别出的页面元素,以获取收款账户。

在一些实施例中,目标信息获取模块4具体用于:当获取到收款链接时,根据收款链接提取收款账户。

在一些实施例中,所述待分析网址的网页内容特征包括:

待分析网址的网页的文字特征、图片特征和视频特征中的至少一项。

在一些实施例中,还包括:网页搜索模块1,用于对种子网站进行遍历搜索,得到至少一个关联网站的至少一个网址及各网址对应的网页内容,其中,搜索到的网址作为待分析网址。

在一些实施例中,网页搜索模块1具体用于:对种子网站进行深度遍历或广度遍历搜索。

在一些实施例中,所述第一模型包括机器学习模型;和/或,所述第二模型包括机器学习模型。

需要说明的是,本申请实施例中的装置可以实现前述方法的实施例的各个过程,并达到相同的效果和功能,这里不再赘述。

图3为根据本申请一实施例的目标信息获取装置,用于执行图1所示出的目标信息获取方法,该装置包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行:前述的目标信息获取方法。

根据本申请的一些实施例,提供了方法的非易失性计算机存储介质,其上存储有计算机可执行指令,该计算机可执行指令设置为在由处理器运行时执行:前述的目标信息获取方法。

本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以其描述进行了简化,相关之处可参见方法实施例的部分说明即可。

本申请实施例提供的装置和计算机可读存储介质与方法是一一对应的,因此,装置和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置和计算机可读存储介质的有益技术效果。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

相关技术
  • 目标信息获取方法、装置及计算机可读存储介质
  • 一种身份信息获取方法、装置、计算机装置及计算机可读存储介质
技术分类

06120112922977