掌桥专利:专业的专利平台
掌桥专利
首页

异常网站分类方法、装置、设备及存储介质

文献发布时间:2024-04-18 19:58:26


异常网站分类方法、装置、设备及存储介质

技术领域

本申请涉及机器学习技术领域,尤其涉及一种异常网站分类方法、装置、设备及存储介质。

背景技术

网络信息技术的不断发展,涌现了大量的违法的异常网站,利用异常网站进行违法操作,会对用户利益和社会稳定造成损坏。

在现有技术中,可以获取多个历史异常网站的历史异常链接,根据多个历史异常链接确定各类型异常网站的异常特征,根据各类型异常网站的异常特征确定目标网站的异常标签。然而,在实际应用过程中,通过异常链接确定异常特征较为局限,异常网站的链接可以通过微小的修改,而避开异常特征的检测,使得异常网站的检测分类准确性较差。

发明内容

本申请提供一种异常网站分类方法、装置、设备及存储介质,用以解决异常网站的检测分类准确性的技术问题。

第一方面,本申请提供一种异常网站分类方法,包括:

确定所述目标网站的链接特征、文本特征和页面图像特征,所述文本特征中包括链接文本特征和页面文本特征;

根据所述链接特征、所述文本特征和所述页面图像特征,确定所述目标网站的融合特征向量;

根据所述融合特征向量,判断所述目标网站的链接是否为异常网站;

若是,则根据所述融合特征向量和预设分类模型,确定所述目标网站的至少一个分类标签。

在一种可能的实施方式中,确定所述目标网站的链接特征、文本特征和页面图像特征,包括:

获取所述目标网站的统一资源定位标志URL,并根据URL确定所述链接特征和所述链接文本特征;

根据所述URL,获取所述目标网站的访问页面;

根据所述访问页面确定所述目标网站的页面文本特征和页面图像特征。

在一种可能的实施方式中,根据所述访问页面确定所述目标网站的页面文本特征和页面图像特征,包括:

确定所述访问页面的第一页面文本和第一页面图像,所述第一页面图像中包括第二页面文本和第二页面图像;

对所述第一页面文本和所述第二页面文本进行文本处理,得到所述页面文本特征;

对所述第二页面图像进行图像处理,得到所述页面图像特征。

在一种可能的实施方式中,对所述第二页面图像进行图像处理,得到所述页面图像特征,包括:

通过预设图像处理模型对第二页面图像进行图像处理,得到所述第二页面图像的多维特征向量;

对所述多维特征向量进行池化处理,得到一维特征向量,并将所述一维特征向量确定为页面图像特征。

在一种可能的实施方式中,对所述第一页面文本和所述第二页面文本进行文本处理,得到所述页面文本特征,包括:

对所述第一页面文本和所述第二页面文本进行分词处理,得到多个分词,并确定每个分词的第一分词数量;

将所述每个分词的分词数量除以所述每个分词的分词数量之和,得到每个分词的分词词频;

根据所述每个分词的分词词频确定所述每个分词的重要度;

根据所述每个分词的重要度,确定预设分词的重要度,并将所述预设分词的重要度确定为页面文本特征。

在一种可能的实施方式中,根据所述链接特征、所述文本特征和所述页面图像特征,确定所述目标网站的融合特征向量,包括:

对所述链接特征、所述文本特征和所述页面图像特征分别进行编码处理,得到链接特征向量、文本特征向量和图像特征向量;

根据预设融合模型对所述链接特征向量、所述文本特征向量和所述图像特征向量进行拼接处理,得到所述融合特征向量。

在一种可能的实施方式中,根据所述融合特征向量和预设分类模型,确定所述目标网站的至少一个分类标签,包括:

确定预设分类模型;

将所述融合特征向量作为所述预设分类模型的输入,得到所述目标网站的分类向量;

根据所述分类向量,确定所述目标网站的至少一个分类标签。

在一种可能的实施方式中,根据所述融合特征向量,判断所述目标网站的链接是否为异常网站,包括:

确定异常网站识别模型;

根据所述异常网站识别模型和所述融合特征向量,确定所述目标网站的类型向量;

根据所述类型向量确定所述目标网站的链接是否为异常网站。

第二方面,本申请提供一种异常网站分类装置,包括第一确定模块、第二确定模块、判断模块和第三确定模块:

所述第一确定模块用于,确定所述目标网站的链接特征、文本特征和页面图像特征,所述文本特征中包括链接文本特征和页面文本特征;

所述第二确定模块用于,根据所述链接特征、所述文本特征和所述页面图像特征,确定所述目标网站的融合特征向量;

所述判断模块用于,根据所述融合特征向量,判断所述目标网站的链接是否为异常网站;

所述第三确定模块用于,若是,则根据所述融合特征向量和预设分类模型,确定所述目标网站的至少一个分类标签。

在一种可能的实施方式中,所述第一确定模块具有用于:

获取所述目标网站的统一资源定位标志URL,并根据URL确定所述链接特征和所述链接文本特征;

根据所述URL,获取所述目标网站的访问页面;

根据所述访问页面确定所述目标网站的页面文本特征和页面图像特征。

在一种可能的实施方式中,所述第一确定模块具有用于:

确定所述访问页面的第一页面文本和第一页面图像,所述第一页面图像中包括第二页面文本和第二页面图像;

对所述第一页面文本和所述第二页面文本进行文本处理,得到所述页面文本特征;

对所述第二页面图像进行图像处理,得到所述页面图像特征。

在一种可能的实施方式中,所述第一确定模块具有用于:

通过预设图像处理模型对第二页面图像进行图像处理,得到所述第二页面图像的多维特征向量;

对所述多维特征向量进行池化处理,得到一维特征向量,并将所述一维特征向量确定为页面图像特征。

在一种可能的实施方式中,所述第一确定模块具有用于:

对所述第一页面文本和所述第二页面文本进行分词处理,得到多个分词,并确定每个分词的第一分词数量;

将所述每个分词的分词数量除以所述每个分词的分词数量之和,得到每个分词的分词词频;

根据所述每个分词的分词词频确定所述每个分词的重要度;

根据所述每个分词的重要度,确定预设分词的重要度,并将所述预设分词的重要度确定为页面文本特征。

在一种可能的实施方式中,所述第二确定模块具体用于:

对所述链接特征、所述文本特征和所述页面图像特征分别进行编码处理,得到链接特征向量、文本特征向量和图像特征向量;

根据预设融合模型对所述链接特征向量、所述文本特征向量和所述图像特征向量进行拼接处理,得到所述融合特征向量。

在一种可能的实施方式中,所述第三确定模块具体用于:

确定预设分类模型;

将所述融合特征向量作为所述预设分类模型的输入,得到所述目标网站的分类向量;

根据所述分类向量,确定所述目标网站的至少一个分类标签。

在一种可能的实施方式中,所述判断模块具体用于:

确定异常网站识别模型;

根据所述异常网站识别模型和所述融合特征向量,确定所述目标网站的类型向量;

根据所述类型向量确定所述目标网站的链接是否为异常网站。

第三方面,本申请提供一种电子设备,包括:存储器和处理器;

所述存储器存储计算机执行指令;

所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行第一方面任一项所述的异常网站分类方法。

第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述计算机执行指令被处理器执行时用于实现第一方面任一项所述的异常网站分类方法。

本申请提供的异常网站分类方法、装置、设备及存储介质,可以根据目标网站的链接特征、文本特征和页面图像特征判断目标网站是否异常,若为异常网站,则可以将链接特征、文本特征和页面图像特征的融合特性向量作为预设分类模型的输入,确定目标网站的至少一个分类标签,通过目标网站的链接和网页信息对目标网站进行异常分类,即使对目标网站的链接进行了修改,也可以通过访问页面的页面特征,确定目标网站的分类标签,提高了异常网站的检测分类准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的应用场景的示意图;

图2为本申请实施例提供的一种异常网站分类方法的流程示意图;

图3为本申请实施例提供的另一种异常网站分类方法的流程示意图;

图4为本申请实施例提供的确定访问页面特征的流程示意图;

图5为本申请实施例提供的确定异常网站识别模型和预设分类模型的架构示意图;

图6为本申请实施例提供的异常网站分类方法的结构示意图;

图7为本申请实施例提供的一种异常网站分类装置的结构示意图;

图8为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。

图1为本申请实施例提供的应用场景的示意图。请参见图1,包括多个终端设备101和处理设备102。

终端设备101可以安装应用软件和浏览器,用户可以通过终端设备101对目标网站进行访问,终端设备101中可以存储历史链接和历史链接的日志信息,终端设备101还可以获取处理设备102中确定的目标网站的至少一个分类标签。

处理设备102可以根据终端设备101目标网站的链接和访问页面,确定链接特征、文本特征和页面图像特征,根据目标网站的链接特征、文本特征和页面图像特征确定目标网站的融合特征向量,根据融合特征向量确定是否为异常网站,若是异常网站,则可以通过预设分类模型确定目标网站的至少一个分类标签,处理设备102还可以在多个终端设备101中获取多个历史链接和每个历史链接的日志信息,确定预设分类模型。

现有技术中,可以获取多个历史异常网站的历史异常链接,根据多个历史异常链接确定各类型异常网站的异常特征,根据各类型异常网站的异常特征确定目标网站的异常标签。然而,通过异常链接确定异常特征较为局限,异常网站的链接可以通过微小的修改,而躲避异常特征的检测,使得异常网站的检测分类准确性较差。

本申请实施例中,可以根据目标网站的链接特征、文本特征和页面图像特征判断目标网站是否异常,若为异常网站,则可以将链接特征、文本特征和页面图像特征的融合特性向量作为预设分类模型的输入,确定目标网站的至少一个分类标签,通过目标网站的链接和网页信息对目标网站进行异常分类,即使对目标网站的链接进行了修改,也可以通过访问页面的页面特征,确定目标网站的分类标签,提高了异常网站的检测分类准确性。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

图2为本申请实施例提供的一种异常网站分类方法的流程示意图。请参考图2,该方法可以包括:

S201、确定目标网站的链接特征、文本特征和页面图像特征。

本申请实施例的执行主体可以为处理设备,也可以为设置在处理设备中的异常网站分类装置。异常网站分类装置可以通过软件实现,也可以通过软件和硬件的结合实现。

目标网站可以为终端设备待访问的网站,可以获取目标网站的网站链接,根据网站链接确定链接特征、文本特征和页面图像特征。

链接特征可以用于描述统一资源定位标志(Uniform Resource Locator,URL)中的URL长度、主机/顶级域名的长度、特定字符的数量、是否包含IP地址、文件名长度、是否更改顶级域名和是否替换查询字符等特征。

例如,假设链接特征包括URL长度、主机/顶级域名的长度、特定字符的数量和是否更改顶级域名,假设URL长度为5,主机/顶级域名的长度为11,特定字符的数量为3,更改顶级域名,假设更改顶级域名为1,不更改顶级域名为0,则可以确定链接特征为{5,11,3,1}。

文本特征中可以包括链接文本特征和页面文本特征,其中,可以根据account和banking等敏感词汇确定链接文本特征。

可以根据URL访问目标网站的访问页面,根据访问页面确定页面文本特征和页面图像特征。

S202、根据链接特征、文本特征和页面图像特征,确定目标网站的融合特征向量。

可以将链接特征、文本特征和页面图像特征进行量化,将量化后的链接特征、文本特征和页面图像特征进行拼接,得到融合特征向量。

例如,假设目标网站量化后的链接特征为{2,2,3}、量化后的文本特征{2,3}、量化后的页面图像特征{5,6,7,8},则可以确定融合特征向量为{2,2,3,2,3,5,6,7,8}。

S203、根据融合特征向量,判断目标网站的链接是否为异常网站。

可以根据如下方式判断目标网站的链接是否为异常网站:确定异常网站识别模型;根据异常网站识别模型和融合特征向量,确定目标网站的类型向量;根据类型向量确定目标网站的链接是否为异常网站。

可以对初始识别模型进行训练得到异常网站识别模型,将融合特征向量作为异常网站识别模型的输入,得到目标网站的类型向量。

可以将类型向量与正常向量和异常向量相对比,若类型向量与正常向量相同,则可以确定目标网站的链接为正常网站;若类型向量与异常向量相同,则可以确定目标网站的链接为异常网站。

例如,假设目标网站的类型向量为{0,1},假设正常向量为{1,0},异常向量为{0,1},则可以确定目标网站的链接为异常网站。

S204、若是,则根据融合特征向量和预设分类模型,确定目标网站的至少一个分类标签。

可以对初始分类模型进行训练,得到预设分类模型,将融合特征向量作为预设分类模型的输入,得到目标网站的至少一个分类标签。

分类标签可以包括正常(normal)标签和钓鱼(fishing)标签等。

例如,假设目标网站的融合特征向量为融合特征向量1,将融合特征向量1作为预设分类模型的输入,假设共有3个分类标签,分别为分类标签1-3,可以得到目标网站的分类标签为分类标签1和分类标签2。

若目标网站的链接不是异常网站,则确定目标网站的标签为正常标签。

本申请实施例提供的异常网站分类方法,可以根据链接特征、文本特征和页面图像特征,确定目标网站的融合特征向量,根据融合特征向量,判断目标网站的链接是否为异常网站,若是,则根据融合特征向量和预设分类模型,确定目标网站的至少一个分类标签,通过目标网站的链接和网页信息对目标网站进行异常分类,提高了异常网站的检测分类准确性。

图3为本申请实施例提供的另一种异常网站分类方法的流程示意图。请参考图3,该方法可以包括:

S301、获取目标网站的统一资源定位标志URL,并根据URL确定链接特征和链接文本特征。

由于目标网站可以对其链接中的信息进行隐藏,可以根据JavaScript页面跳转方法由目标网站的链接转跳至目标网站的URL,在URL可以包括目标网站的真实信息,根据URL确定链接特征和链接文本特征可以提高准确性。

其中,共有四种JavaScript页面转跳方法,分别为:“location.href="URL"”、“location.replace("URL")”、“location.assign("URL")”和“window.open("URL")”。

S302、根据URL,获取目标网站的访问页面。

根据URL可以访问目标网站的访问页面,可以获取访问页面,访问页面中可以包括文本信息和图像信息,其中在图像信息中可以包括文本和图像。

S303、根据访问页面确定目标网站的页面文本特征和页面图像特征。

可以根据如下方式确定页面文本特征和页面图像特征:确定访问页面的第一页面文本和第一页面图像,第一页面图像中包括第二页面文本和第二页面图像;对第一页面文本和第二页面文本进行文本处理,得到页面文本特征;对第二页面图像进行图像处理,得到页面图像特征。

例如,假设访问页面中的第一页面文本可以为{首页,事务查询,数据说明,融合信息多模态信息},假设第一页面图像中的第二页面文本可以为{第23届人工智能比赛},则可以根据{首页,事务查询,数据说明,融合信息多模态信息}和{第23届人工智能比赛}确定页面文本特征。

S303的具体执行过程可以参考下文的实施例,此处不再进行赘述。

S304、对链接特征、文本特征和页面图像特征分别进行编码处理,得到链接特征向量、文本特征向量和图像特征向量。

可以通过Transformer编码器和注意力机制对链接特征、文本特征和页面图像特征分别进行编码处理后,可以进行归一化处理,得到链接特征向量、文本特征向量和图像特征向量。

可以通过编码处理,将链接特征、文本特征和页面图像特征中存在的文本进行量化;可以通过归一化处理使得链接特征向量、文本特征向量和图像特征向量具有相同的度量范围。

S305、根据预设融合模型对链接特征向量、文本特征向量和图像特征向量进行拼接处理,得到融合特征向量。

链接特征向量、文本特征向量和图像特征向量可以通过预设融合模型进行分析和融合,得到融合特征向量,其中,可以预设融合模型为多层感知机(MultilayerPerceptron,MLP)。

S306、确定异常网站识别模型。

可以根据如下方式确定异常网站识别模型:在解析日志中获取历史链接数据集;对多个历史链接进行特征处理,得到每个历史链接的历史融合特征向量;根据每个历史链接的历史融合特征向量和每个历史链接的网站类型的类型向量确定异常网站识别样本集;根据异常网站识别样本集对初始识别模型进行训练,得到异常网站识别模型。

在历史链接数据集中可以包括多个历史链接和每个历史链接的网站类型的类型向量,网站类型包括异常网站和正常网站。

例如,假设网站类型为异常网站,则类型向量可以为{1,0},假设网站类型为正常网站,则类型向量可以为{0,1},则历史链接数据集可以如表1所示。

表1

可以根据步骤S301-S305确定每个历史链接的历史融合特征向量,根据每个历史链接的历史融合特征向量和每个历史链接的类型向量确定异常网站识别样本集,异常网站识别样本集可以如表2所示。

表2

S307、根据异常网站识别模型和融合特征向量,确定目标网站的类型向量。

将融合特征向量作为异常网站识别模型的输入,可以得到目标网站的类型向量。

S308、根据类型向量确定目标网站的链接是否为异常网站。

S308的执行过程可以参见S203的执行过程,此处不再进行赘述。

S309、若是,则确定预设分类模型。

可以根据如下方式确定预设分类模型:在解析日志中获取历史链接数据集;对多个历史链接进行特征处理,得到每个历史链接的历史融合特征向量;获取每个历史链接的至少一个分类标签;根据每个历史链接的历史融合特征向量和每个历史链接的至少一个分类标签,对初始分类模型进行训练,得到预设分类模型。

可以根据历史链接的至少一个分类标签,确定该历史链接的分类向量。

例如,假设共有3个分类标签,分别为分类标签1-3,假设链接1存在分类标签1和分类标签2,不存在分类标签3,则可以确定分类向量为{1,1,0}。

例如,假设分类标签为第一标签、第二标签、第三标签、第四标签和第五标签,则可以确定多个历史链接的历史融合特征向量和至少一个标签类型可以如表3所示。

表3

S310、将融合特征向量作为预设分类模型的输入,得到目标网站的分类向量。

例如,假设融合特征向量为特征向量1,将特征向量1作为预设分类模型的输入,可以得到分类向量为{0,0,1,1,1}。

S311、根据分类向量,确定目标网站的至少一个分类标签。

例如,假设分类向量为{0,0,1,1,1},可以确定目标网站包括第三标签、第四标签和第五标签。

本申请实施例提供的异常网站分类方法,可以根据目标网站的访问页面确定页面文本特征和页面图像特征,根据目标网站的URL确定链接特征和链接文本特征,确定了目标网站的多个维度特征,通过多维度特征确定目标网站的分类标签,可以提高异常网站的检测分类准确性。

为了便于理解,在上述实施例的基础上,下面,结合图4,对步骤S303根据访问页面确定目标网站的页面文本特征和页面图像特征的执行过程进行进一步的说明。

图4为本申请实施例提供的确定访问页面特征的流程示意图。请参见图4,该方法可以包括:

S401、确定访问页面的第一页面文本和第一页面图像。

第一页面图像中可以包括第二页面文本和第二页面图像。

S402、对第一页面文本和第二页面文本进行分词处理,得到多个分词,并确定每个分词的第一分词数量。

例如,假设第一页面文本包括分词1、分词2和分词3,在第一页面文本中各分词的数据可以如表4所示,第二页面文本包括分词1、分词3和分词4,在第二页面文本中各分词的数据可以如表4所示,则可以确定分词1的数量为4、分词2的数量为4、分词3的数量为5、分词4的数量为2。

表4

S403、将每个分词的分词数量除以每个分词的分词数量之和,得到每个分词的分词词频。

例如,假设共有4个分词,分别为分词1-4,假设分词数量可以如表4所示,则可以确定分词1的分词词频为0.27,分词2的分词词频为0.27,分词3的分词词频为0.33,分词4的分词词频为0.13。

S404、根据每个分词的分词词频确定每个分词的重要度。

可以将每个分词的分词词频确定为每个分词的重要度,也可以将每个分词的分词词频进行归一化处理后,确定为每个分词的重要度。

S405、根据每个分词的重要度,确定预设分词的重要度,并将预设分词的重要度确定为页面文本特征。

可以将异常网站中常出现的敏感词汇确定为预设分词,其中,预设分词具有敏感词汇的代表性,且预设分词之间的相似性较低。

例如,假设共有4个分词,分别为分词1-4,分词1的重要度为0.27,分词2的重要度为0.27,分词3的重要度为0.33,分词4的重要度为0.13,假设预设分词为分词1和分词3,则可以确定页面文本特征为{0.27,0.33}。

S406、通过预设图像处理模型对第二页面图像进行图像处理,得到第二页面图像的多维特征向量。

可以选的,可以根据预设图像处理模型对第二页面图像进行图像处理,得到中间特征向量;确定第二页面图像和预设异常图像的图像相似度;将中间特征向量和图像相似度进行拼接,得到多维特征向量。

预设图像处理模型可以包括ResNet50模型和卷积神经网络等。

可以通过Hamming距离和欧氏距离等计算模型计算第二页面图像和预设异常图像的图像相似度。

可以通过尺度不变特征变换(Scale Invariant Feature Transform,SIFT)算法和特征检测(Oriented FAST and Rotated BRIEF,ORB)算法等算法对多个历史异常网站的历史异常图像进行特征提取,确定预设异常图像。

S407、对多维特征向量进行池化处理,得到一维特征向量,并将一维特征向量确定为页面图像特征。

例如,假设多维特征向量为{2,3,4,5;5,5,6,7;4,5,6,7},则可以根据池化处理,得到一维特征向量为{2,4,5,6},并将{2,4,5,6}确定为页面图像特征。

本申请实施例提供的异常网站分类方法,提取目标网站的访问页面的特征信息,得到页面文本特征和页面图像特征,根据访问页面的特征信息确定目标网站的分类标签,可以提高异常网站的检测分类准确性。

为了便于理解,下面,结合图5对本申请实施例提供的异常网站识别模型和预设分类模型的确定过程进行进一步的说明。

图5为本申请实施例提供的确定异常网站识别模型和预设分类模型的架构示意图。请参见图5,可以在DNS解析日志中获取历史链接数据集,历史链接数据集中包括多个历史链接,可以确定每个历史链接的网站类型。可以获取多个历史链接的URL和访问页面,根据URL和访问页面提取每个历史链接的链接特征、文本特征和页面图像特征,将链接特征、文本特征和页面图像特征进行特征融合,得到每个历史链接的历史融合特征向量。

根据多个历史链接的历史融合特征向量和多个历史链接的网站类型,对初始识别模型进行训练得到异常网站识别模型。根据多个历史链接的历史融合特征向量和多个历史链接的至少一个分类标签,对初始分类模型进行训练得到预设分类模型。

图6对本申请实施例提供的异常网站分类方法的结构示意图。请参见图6,获取目标网站的链接后,确定目标网站的URL,可以根据URL确定链接特征和链接文本特征;可以根据URL,获取目标网站的访问页面,根据访问页面确定目标网站的页面文本特征和页面图像特征;其中,文本特征包括链接文本特征和页面文本特征,对链接特征、文本特征和页面图像特征进行编码和拼接处理,得到融合特征向量,根据预设分类模型可以确定目标网站的至少一个分类标签。

图7为本申请实施例提供的一种异常网站分类装置的结构示意图。请参见图7,该异常网站分类装置10可以包括第一确定模块11、第二确定模块12、判断模块13和第三确定模块14:

第一确定模块11用于,确定目标网站的链接特征、文本特征和页面图像特征,文本特征中包括链接文本特征和页面文本特征;

第二确定模块12用于,根据链接特征、文本特征和页面图像特征,确定目标网站的融合特征向量;

判断模块13用于,根据融合特征向量,判断目标网站的链接是否为异常网站;

第三确定模块14用于,若是,则根据融合特征向量和预设分类模型,确定目标网站的至少一个分类标签。

本申请实施例提供的异常网站分类装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。

在一种可能的实施方式中,第一确定模块11具有用于:

获取目标网站的统一资源定位标志URL,并根据URL确定链接特征和链接文本特征;

根据URL,获取目标网站的访问页面;

根据访问页面确定目标网站的页面文本特征和页面图像特征。

在一种可能的实施方式中,第一确定模块11具有用于:

确定访问页面的第一页面文本和第一页面图像,第一页面图像中包括第二页面文本和第二页面图像;

对第一页面文本和第二页面文本进行文本处理,得到页面文本特征;

对第二页面图像进行图像处理,得到页面图像特征。

在一种可能的实施方式中,第一确定模块11具有用于:

通过预设图像处理模型对第二页面图像进行图像处理,得到第二页面图像的多维特征向量;

对多维特征向量进行池化处理,得到一维特征向量,并将一维特征向量确定为页面图像特征。

在一种可能的实施方式中,第一确定模块11具有用于:

对第一页面文本和第二页面文本进行分词处理,得到多个分词,并确定每个分词的第一分词数量;

将每个分词的分词数量除以每个分词的分词数量之和,得到每个分词的分词词频;

根据每个分词的分词词频确定每个分词的重要度;

根据每个分词的重要度,确定预设分词的重要度,并将预设分词的重要度确定为页面文本特征。

在一种可能的实施方式中,第二确定模块12具体用于:

对链接特征、文本特征和页面图像特征分别进行编码处理,得到链接特征向量、文本特征向量和图像特征向量;

根据预设融合模型对链接特征向量、文本特征向量和图像特征向量进行拼接处理,得到融合特征向量。

在一种可能的实施方式中,第三确定模块14具体用于:

确定预设分类模型;

将融合特征向量作为预设分类模型的输入,得到目标网站的分类向量;

根据分类向量,确定目标网站的至少一个分类标签。

在一种可能的实施方式中,判断模块13具体用于:

确定异常网站识别模型;

根据异常网站识别模型和融合特征向量,确定目标网站的类型向量;

根据类型向量确定目标网站的链接是否为异常网站。

本申请实施例提供的异常网站分类装置可以执行上述方法实施例所示的技术方案,其实现原理以及有益效果类似,此处不再进行赘述。

图8为本申请实施例提供的一种电子设备的结构示意图。请参见图7,该电子设备20可以包括处理器21和存储器22。示例性地,处理器21、存储器22,各部分之间通过总线23相互连接。

存储器22存储计算机执行指令;

处理器21执行存储器22存储的计算机执行指令,使得处理器21执行如上述方法实施例所示的异常网站分类方法。

相应地,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当计算机执行指令被处理器执行时用于实现上述方法实施例的异常网站分类方法。

相应地,本申请实施例还可提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,可实现上述方法实施例所示的异常网站分类方法。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

相关技术
  • 词表生成方法、文本分类方法、装置、设备及存储介质
  • 一种网站放行方法、装置、设备及可读存储介质
  • 网站访问方法、装置、可读存储介质及计算机设备
  • 应用软件异常反馈方法、装置、计算机设备及存储介质
  • 异常处理方法、装置、计算机设备以及存储介质
  • 异常分类方法、装置、异常分类设备及存储介质
  • 网站分类方法、装置、分类设备及存储介质
技术分类

06120116489355