基于片化结构与内容的网页篡改评判方法、装置及存储介质

文献发布时间：2023-06-19 10:19:37

技术领域

本发明属于IT网页安全防护领域，具体涉及一种基于片化结构与内容的网页篡改评判方法、装置及存储介质。

背景技术

随着互联网的快速发展，各个行业的网络应用产品呈现井喷，但伴随而来的网络安全问题同样日益突出，不可忽视。网页浏览方式现已成为我们日常获取信息的主要渠道，据2018年不完全统计，仅国内就已有2604亿个网站。而对于这些网站的安全维护，也受到了越来越多的挑战。2017年，国家互联网应急中心监测发现我国境内约2万个网站被篡改，其中被篡改的政府网站有618个。从网页被篡改的方式来看，被植入暗链的网站占全部被篡改网站的比例为68％，仍是我国境内网站被篡改的主要方式。网页篡改行为已经从普通的修改页面文本，偏移向了植入暗链。

而目前现有技术中的，对于现有网页是否被篡改的行为评判，大多是采用了基于整个网页源代码的哈希水印对比技术，哈希对比不同后循环递归到具体发生变化的文档对象模型DOM(Document Object Model)节点XPATH(XML Path Language，XML路径语言)路径下，然后输出该XPATH的一个告警信息。通过计算两者的文本相似度作为评判网页是否被篡改的主要依据，这种方法所需资源少，且较容易实现，主要适用于篡改前后，网页结构和内容变动差异明显的场景。

但面对仅仅只是插入了一条暗链，在大文本量的动态网页中，想要通过相似度匹配作为评判，有一定的难度。基于相似度匹配算法，从全局的角度来考虑网页是否经过篡改，无法定位大文本量网页中的小部分内容篡改。并且，相似度评判阈值，依赖于人为选取。阈值选取过低，会导致大量篡改漏判，阈值选取过高，会导致大量篡改误报。单纯从文本内容进行评判，灵活度不够，较难适用于现今普遍存在的动态内容网页。

发明内容

本发明提供了一种基于片化结构与内容的网页篡改评判方法、装置及存储介质，解决了现有技术中，判断网页是否出现篡改仅依据文本比对容易忽视暗链植入的方式的问题。

本发明的基础方案为：一种基于片化结构与内容的网页篡改评判方法，包括以下步骤：

获取HTML源码；

将HTML源码分别输入预设的标签树结构模型和预设的内容评估模型；其中，所述标签树结构模型通过第一神经网络模型和训练样本集合训练得到，训练样本包括存在篡改及不存在篡改的样本；所述内容评估模型通过第二神经网络模型和包括文本内容的样本库训练得到；

根据所述HTML源码和所述标签树结构模型计算可疑性权重α，并根据所述HTML源码和所述内容评估模型计算内容差异度β；

综合评判器将可疑性权重α和内容差异度β代入判断公式，根据输出值判定篡改行为的存在。

基础方案的原理及有益效果：本方案中采用标签树结构模型对网页中存在的所有链接进行排查，得到暗链修改/插入的可疑性，通过内容评估模型对网页中的文本进行排查，得到体现内容被修改可能性的内容差异度，并根据两者的结合综合判断网页是否被篡改。综合考虑到了网页篡改中文本篡改和链接篡改两种方式，相比现有技术中只根据文本对比识别而言，判断网页篡改更为精确。并且，建立片状结构的标签树结构模型来对标签层级对应的可疑性进行计算，解决了检测暗链是否存在时容易出现错漏、以及相似度判断阈值需要人为设定的问题。

进一步，所述第一神经网络模型训练样本集合的过程，包括：

获取训练样本集合，提取训练样本集合中HTML源码中的标签树，生成标签路径集合并归一化，使用第一神经网络模型训练归一化后的标签路径集合。

有益效果：标签树是片化结构的一种表现形式，将所有标签的路径进行整理。本方案中采用LSTM网络模型对训练样本集合中的标签树进行学习，通过对比LSTM网络模型输出的期望与预设期望之间的对比结果，对LSTM网络模型进行调试，以保证S2步骤所输出的LSTM网络模型在运行时其误差在预设范围内。因此，本方案旨在训练和调试LSTM网络模型。且在该过程中，无需人工判定LSTM网络模型的学习过程是否到位，由输出期望值之间的对比结果，自动调整LSTM参数，并保证了LSTM网络模型输出的标签树结构模型的误差限定在阈值内。

进一步，所述第一神经网络模型训练样本集合得到标签树结构模型的过程，包括：

根据训练样本集合中所预设的实际期望与第一神经网络模型最终输出的理论期望之间的差值，调整第一神经网络模型的参数。

进一步，所述根据HTML源码和标签树结构模型计算可疑性权重α，包括；

对所述HTML源码中的标签路径进行归一化，并代入预设的标签树结构模型，将t时刻标签树结构模型的输出作为可疑性权重α。

有益效果：本方案中，采用上一步骤得出的稳定的标签树结构模型来计算本次所采集到HTML源码中的标签路径，从而得到输出的中间结果，并将该中间结果作为可疑性权重α。

上一步骤得出的稳定的标签树结构模型不仅包括了根据标签计算出可疑性权重的方法，还包括来了标准数据集，该标准数据集是指没有出现被篡改的样本集合。为此，针对每个标签路径，计算出一个可疑性权重α，标签对应的X(i)在标准数据集中越少出现，权重α就会越高，表示该标签的层级结构在被篡改网页中越可能出现。

进一步，通过LSTM网络模型建立内容评估模型，包括以下步骤：

所述通过第二神经网络模型训练样本库的过程，包括：

获取样本库，提取样本库中标签对应的文本内容，生成词汇集合并归一化，使用第二神经网络模型训练归一化的词汇集合。

有益效果为：本方案中，利用样本库训练LSTM网络模型，根据该LSTM网络模型输出期望值与预设的期望值之间的对比结果，对LSTM网络模型进行参数微调，使得最终LSTM网络模型输出的内容评估模型保证精确性。

进一步，所述根据HTML源码内容评估模型计算内容差异度β，包括：

提取HTML源码中的每个标签的标签内容，组成标签集合并归一化，代入预设的内容评估模型，各个标签输出的结果为内容差异度β。

有益效果：本方案中，将当前网页的HTML源码中的每个标签的标签内容输入到内容评估模型中，从而计算出标签对应的内容差异度β，挖掘标签路径内容与整个网页的内容差异度量。

进一步，所述归一化处理采用Word2vec。

进一步，所述判断公式为:

J(i)＝(α(i)+σ)*β(i)，i∈(1,2,…,N)；

其中，N表示HTML源码所生成的标签树中路径的总数，α(i)表示第i个标签路径的可疑度权重，σ表示一个经验常数，β(i)表示第i个标签路径的文本内容与整个网页内容之间的差异度。

有益效果：本方案支持无基准网页，直接根据当前网页即可判定其是否存在篡改行为，整体计算模型灵活性高，系统训练后具有一定的通用性。

进一步，在将可疑性权重α和内容差异度β代入判断公式前，还包括：

根据基准网页的基准HTML生成标签路径集合与当前网页的HTML源码中标签路径集合之间的对比结果，更新内容差异度β的数值。

有益效果：本方案中，还考虑了是否存在基准网页，在基准网页存在时，通过基准网页中标签路径集合Base(i)与当前网页HTML源码中标签路径集合Path(i)的对比，直接判断两者之间的内容差异情况，并更新。若当前网页与基准网页一致，而当前网页通过内容评估模型计算出的内容差异度β会无线趋近与0，相比于实际上两者之间内容差异度为0而言，具有一定误差；本方案直接根据当前网页与基准网页是否一致的判断结果，更新内容差异度β的数值，提高了方案整体的精准度。

本发明还提供一种片化结构与内容的网页篡改评判装置，包括信息获取模块、存储模块、标签树结构模型创建模块、内容评估模型创建模块、可疑性权重计算模块、内容差异度计算模块和综合评判器；

所述信息获取模块，用于获取当前网页的HTML源码，将HTML源码发送给可疑性权重计算模块和内容差异度计算模块；

所述存储模块，包括样本存储区和模型存储区，样本存储区用于存储训练样本集合和样本库，模型存储区用于存储标签树结构模型和内容评估模型；

所述标签树结构模型创建模块，用于获取存储模块中的训练样本集合，并通过训练样本集合对LSTM网络模型进行训练得到标签树结构模型，并将标签树结构模型发送到存储模块中进行存储和更新；

所述内容评价模型创建模块，用于获取存储模块中的样本库，并通过样本库对LSTM网络进行训练得到内容评估模型，并将内容评估模型发送到存储模块中进行存储和更新；

所述可疑性权重计算模块，用于接收信息接收模块所发送的HTML源码，并从存储模块中获取标签树结构模型，将HTML源码进行归一化后代入标签树结构模型计算得到可疑性权重α，并将可疑性权重α发送给综合评判器；

所述内容差异度计算模块，用于接收信息接收模块所发送的HTML源码，并从存储模块获取内容评估模型，将HTML源码进行归一化后代入内容评估模型计算得到内容差异度β，并将内容差异度β发送给综合评判器；

所述综合评判器，用于接收可疑性权重计算模块所发送的可疑性权重α和内容差异度计算模块所发送的内容差异度β，根据基准网页的存在情况对内容差异度β进行更新，将可疑性权重α和内容差异度β代入判断公式，根据J(i)的数值大小得到判定结果，并将判定结果输出。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有一个或一个以上的指令，所述一个或一个以上的指令被执行时实现上述基于片化结构与内容的网页篡改评判方法。

一种电子设备，包括：存储器和处理器；所述存储器中存储有至少一条程序指令；所述处理器，通过加载并执行所述至少一条程序指令以实现上述的基于片化结构与内容的网页篡改评判方法。

附图说明

图1为本发明第一实施方式提供的一种基于片化结构与内容的网页篡改评判方法的流程图；

图2为图1中建立标签树结构模型相关的流程图；

图3为图2中生成标签路径集合的示意图；

图4为图1中可疑性权重计算相关的流程图；

图5为图1中建立内容评估模型相关的流程图；

图6为图1中建立内容评估模型的示意图；

图7为图1中内容差异度计算相关的流程图；

图8为图1中综合评判器的运行流程图；

图9为本发明第三实施方式提供的一种基于片化结构与内容的网页篡改评判装置的模块示意图；

图10为本发明第四实施方式提供的一种电子设备的结构示意图。

具体实施方式

下面通过具体实施方式进一步详细的说明：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种基于片化结构与内容的网页篡改评判方法，片化结构采用标签树的表现形式，标签树的实质是所有标签进行路径整理的集合。

在本实施方式中，如图1所示，一种基于片化结构与内容的网页篡改评判方法，包括以下步骤：

S1，获取当前待检测网页页面的HTML源码；

S2，获取预设的标签树结构模型；

S3，根据HTML源码和预设的标签树结构模型计算可疑性权重α；

S4，获取预设的内容评估模型；

S5，根据HTML源码和预设的内容评估模型计算内容差异度β；

S6，综合判断器将可疑性权重α和内容差异度β代入判断公式，根据输出值判定篡改行为的存在。

方案中采用预设的标签树结构模型对网页中存在的所有链接进行排查，得到暗链修改/插入的可疑性，通过预设的内容评估模型对网页中的文本进行排查，得到体现内容被修改可能性的内容差异度，并根据两者的结合综合判断网页是否被篡改。综合考虑到了网页篡改中文本篡改和链接篡改两种方式，相比现有技术中只根据文本对比识别而言，判断网页篡改更为精确。并且，建立片状结构的标签树结构模型来对标签层级对应的可疑性进行计算，解决了检测暗链是否存在时容易出现错漏、以及相似度判断阈值需要人为设定的问题。

下面对本实施方式的基于片化结构与内容的网页篡改评判的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须，本实施方式的具体流程如图1所示，本实施方式应用于网络侧的服务端。

具体地，S2中预设的标签树结构模型，其预设过程是在S1开始之前就已经完成，如图2所示，标签树结构模型的设置过程为：

S2-1，获取训练样本集合；

如图3所示，提取训练样本集合中HTML源码中的标签树，生成标签路径集合Path(i)，i的取值为[1，n]之间的任意整数，n代表了训练样本中标签路径总数，执行S2-2；

S2-2，采用Word2vec对Path(i)进行归一化处理，使得任一Path(i)都能映射到[0,1]区间的一个数值，执行S2-3和S2-4；

S2-3，提取判断不存在篡改的样本对应的Path(i)集合，结合期望输出γ＝0，将其作为LSTM网络模型的输入样本，执行S2-5；

S2-4，提取判断存在篡改的样本对应的Path(i)集合，结合期望输出γ＝1，将其作为LSTM网络模型的输入样本，执行S2-5；

S2-5，在t时刻，LSTM网络模型输出对应Path(i)的中间结果，该中间结果作为可疑性权重α，在n时刻LSTM网络模型输出对应Path(i)的最终输出，该最终输出作为期望值γ’，执行S2-6；

S2-6，对LSTM网络模型执行Drop out处理，执行正向传播，执行S2-7；

S2-7，对比Path(i)的实际期望γ和理论期望γ’，计算出整体误差，执行S2-8；

S2-8，将整体误差与预设的误差阈值范围进行对比，若整体误差满足误差阈值范围，则执行S2-9；若整体误差超出误差阈值范围，则执行S2-10；

S2-9，将上述LSTM网络模型作为标签树结构训练模型输出；

S2-10，调整LSTM网络模型的参数，重新执行S2-3和S2-4。

其中，S2-1中的训练样本集合与本申请S1中的HTML源码所对应的页面并不同，该训练样本集合为已知网页的众多HTML源码，其是否有攻击存在已经有定论。在经过S2-2归一化后，在S2-3和S2-4步骤中，根据Path(i)是否存在篡改赋予不同的实际期望输出γ，并整理后分别输入到LSTM网络模型中。由于S2-3和S2-4中，输入LSTM网络是源源不断的，即按照时间将Path(i)集合和对应的实际期望输出γ依次输入给LSTM网络，在不同的时刻，LSTM网络模型的输出期望值不同，在t时刻输出的期望值为中间结果，该中间结果作为可疑性权重，在n时刻输出的期望值为最终输出期望值γ’，n时刻的意义为所有Path(i)集合全部输入，t时刻为Path(i)集合未完全输入。S2-6中，采用Drop out处理防止LSTM网络模型的过度训练，减少过度拟合。S2-8中，根据实际期望γ和理论期望γ’之间的整体误差与预设的误差阈值范围之间的对比结果，决定是否进行LSTM网络的调试。

本方案中，LSTM网络模型作为第一神经网络模型，第一神经网络模型可以采用其他神经网络模型来进行。误差阈值范围是由设计人员预设的，且设置后不可更改。

故S2的实质是，通过已知众多网-页中标签所对应的路径和它对应的网络篡改情况，来训练LSTM网络模型，通过LSTM网络模型所算出的理论期望与实际已知的实际期望之间的对比，进一步调整LSTM网络模型的参数，使得LSTM网络模型对于样本对应标签链接路径和中间输出量之间的对应情况更为紧密。最终通过S2-9输出的LSTM网络模型作为标签树结构训练模型，并将该标签树结构模型在S1执行之前预先设定。

具体地，如图4所示，S3，根据HTML源码和预设的标签树结构模型计算可疑性权重α，包括以下步骤；

S3-1，提取S1中HTML源码中的标签路径，并组成集合Path(i)；

S3-2，通过Word2vec对Path(i)进行归一化处理，使得任意Path(i)都能映射到(0,1)区间的一个数值，构成X(i)；

S3-3，将X(i)带入S2输出的标签树结构模型中，计算出在t时刻，标签树结构模型输出的数值，该数值计为中间结果，该中间结果为可疑性权重α。

S3中采用上一步骤得出的稳定的标签树结构模型，不仅包括了根据标签计算出可疑性权重的方法，还包括了标准数据集，该标准数据集是指没有出现被篡改的样本集合。为此，针对每个标签路径，计算出一个可疑性权重α，标签对应的X(i)在标准数据集中越少出现，权重α就会越高，表示该标签的层级结构在被篡改网页中越可能出现。

采用预设的标签树结构模型对网页中存在的所有链接进行排查，得到暗链修改/插入的可疑性，通过预设的内容评估模型对网页中的文本进行排查，得到体现内容被修改可能性的内容差异度，并根据两者的结合综合判断网页是否被篡改。综合考虑到了网页篡改中文本篡改和链接篡改两种方式，相比现有技术中只根据文本对比识别而言，判断网页篡改更为精确。

具体地，S4中预设的内容评估模型，其预设构成在S1开始之前就已经完成，如图5和图6所示，内容评估模型的设置过程为：

S4-1，获取样本库；

提取样本库中的文本内容，将文本内容拆分为多个词汇，每个词汇对应一个标签，形成词汇集合B(i)，i∈[1，n]，n为样本中标签总数，执行S4-2；

S4-2，对词汇集合B(i)进行归一化处理，使得任一B(i)都能映射到[0,1]区间的一个数值，执行S4-3；

S4-3，LSTM网络模型输出对应B(i)的最终输出，该输出作为期望值θ’，执行S4-4；

S4-4，获取样本库中每个标签预设的期望值θ，获取LSTM网络模型输出对应该标签输出的期望值θ’，计算出样本库中各个标签内容的内容差异度Y(i)，执行S4-5；

S4-5，根据标签内容差异度Y(i)的集合计算出整个样本库的文本内容的整体误差损失，执行S4-6；

S4-6，将整体误差损失于预设的误差损失阈值范围进行对比，若整体误差损失满足误差损失阈值范围，则执行S4-7；若整体误差损失超出误差损失阈值范围，则执行S4-8；

S4-7，将上述LSTM网络模型作为内容评估模型输出；

S4-8，调整上述LSTM网络模型的参数，重新执行S4-3。

其中，S4-1中的样本库与本申请S1中的HTML源码所对应的页面并不同，该样本库为已知网页的众多HTML源码，其是否有攻击存在已经有定论。故S4的实质是，通过已知众多网页中标签所对应的内容和它对应的网络篡改情况，来训练LSTM网络模型，通过LSTM网络模型所算出的理论期望与实际已知的实际期望之间的对比，进一步调整LSTM网络模型的参数，使得LSTM网络模型对于样本标签对应内容和输出值(即内容差异度)之间的对应情况更为紧密。

具体地，如图7和图8所示，S5中，根据HTML源码和预设的内容评估模型计算内容差异度β，包括以下步骤：

S5-1，提取S1中HTML源码中的每个标签的标签内容，并组成标签集合，执行S5-2；

S5-2，对标签集合进行归一化处理，使得任一标签集合都能映射到(0,1)区间的一个数值，构成X(i)，执行S5-3；

S5-3，将X(i)带入S4输出的内容评估模型中，计算出各个标签输出的结果，该结果为内容差异度β。

其中，S5将当前网页的HTML源码中的每个标签的标签内容输入到内容评估模型中，从而计算出标签对应的内容差异度β，挖掘标签路径内容与整个网页的内容差异度量，便于后续工作人员根据内容差异度β的数值来区分内容差异度，如，预设内容差异度分为以下五个等级，高度相关[0.0,0.3)，一般相关[0.3,0.5)，无法评判[0.5,0.8)，不太相关[0.8,1)，完全无关1.0；当内容差异度β的数值为0.3时，就可以判断其内容差异度对应的程度为“一般相关”。

具体地，如图8所示，S6中，综合评判器将可疑性权重α和内容差异度β代入判断公式，根据输出值判定篡改行为的存在，包括以下步骤：

S6-1，判断是否存在基准网页，若存在则执行S6-5，若存在则执行S6-2；

S6-2，获取S3输出的可疑度权重α，获取S5输出的内容差异度β，执行S6-3；

S6-3，将可疑性权重α和内容差异度β代入判断公式J(i)＝(α(i)+σ)*β(i)，得到输出值J(i)，其中，N表示HTML源码所生成的标签树中路径的总数，J(i)表示HTML源码所生成的标签树中第i个标签发生篡改的篡改可疑值，α(i)表示第i个标签路径的可疑度权重，σ表示一个经验常数，β(i)表示第i个标签路径的文本内容与整个网页内容之间的差异度；执行S6-4；

S6-4，根据篡改可疑值J(i)的数值判断是否存在篡改行为；若J(i)＞0.5，则判定存在篡改；若J(i)≤0.5，则判定不存在篡改；将判定结果输出；

S6-5，获得基准网页的基准HTML，执行S6-6；

S6-6，提取基准HTML中的标签，生成标签路径集合Base(i)，执行S6-7；

S6-7，将基准HTML中标签路径集合Base(i)与HTML源码中标签路径集合Path(i)进行对比判断内容是否一致，若两者内容一致，则执行S6-8；若两者内容不一致，则执行S6-3；

S6-8，重置内容差异度β的数值，并执行S6-3。

本方案的综合评判器可以在存在基准网页和不存在基准网页，两种情况下工作，并根据可疑性权重α和内容差异度β来判断是否存在网页篡改行为。在S6-1步骤中先行判断是否存在基准网页，在基准网页存在时，通过基准网页中标签路径集合Base(i)与当前网页HTML源码中标签路径集合Path(i)的对比，直接判断两者之间的内容差异情况，并更新，若当前网页与基准网页一致，而当前网页通过内容评估模型计算出的内容差异度β会无线趋近与0，相比于实际上两者之间内容差异度为0而言，具有一定误差；本方案直接根据当前网页与基准网页是否一致的判断结果，更新内容差异度β的数值，提高了方案整体的精准度。在S6-1步骤中判断不存在基准网页时，即无基准网页存在时，直接根据当前网页即可判定其是否存在篡改行为，整体计算模型灵活性高，系统训练后具有一定的通用性。

本发明的第二实施方式涉及一种基于片化结构与内容的网页篡改评判方法。第二实施方式为第一实施方式的细化。在本发明的第二实施方式中，S6综合评判器通过可疑性权重α和内容差异度β来判断是否存在网页篡改行为后，将当前网页的HTML源码和网页篡改行为判断结果带入到S2的标签树结构模型和S4的内容评估模型的计算过程中。

具体地，若S6-4中，篡改可疑值J(i)＞0.5，则判定当前HTML源码对应网页存在篡改，将HTML源码和存在篡改带入到S2-1中所提及的训练样本集合，以及S4-1所提及的样本库中。若S6-4中，篡改可疑值J(i)≤0.5，则判定当前HTML源码对应网页不存在篡改，将HTML源码和不存在篡改带入到S2-1中所提及的训练样本集合，以及S4-1所提及的样本库中。

本实施例中，将综合判断器新判定结果带入到训练样本集合和样本库中，丰富了训练样本和样本库，随着本方法的运行，训练样本集合和样本库也会进行不断的自我丰富，使得每次运行前所进行的标签树结构模型和内容评估模型的建立更为准确。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第三实施方式涉及了一种片化结构与内容的网页篡改评判装置。如图9所示，包括信息获取模块、存储模块、标签树结构模型创建模块、内容评估模型创建模块、可疑性权重计算模块、内容差异度计算模块和综合评判器。

所述信息获取模块，用于获取当前网页的HTML源码，将HTML源码发送给可疑性权重计算模块和内容差异度计算模块。其获取方式包括但不限于采用爬虫软件爬取当前网页的HTML源码，HTML源码中包括各个标签的路径和标签内容。

所述存储模块，包括样本存储区和模型存储区，样本存储区用于存储训练样本集合和样本库，模型存储区用于存储标签树结构模型和内容评估模型。

所述标签树结构模型创建模块，用于获取存储模块中的训练样本集合，并通过训练样本集合对LSTM网络模型进行训练得到标签树结构模型，并将标签树结构模型发送到存储模块中进行存储和更新。存储和更新执行过程为，若存储模块中没有标签树模型，则将标签树模型进行存储；若存储模块中有标签树模型，则将标签树模型进行更新，标签树结构模型创建模块将标签树模型发送给存储模块，存储模块将标签树结构模型创建模块所发送的标签树结构模型替代原先的标签树结构模型。

所述内容评价模型创建模块，用于获取存储模块中的样本库，并通过样本库对LSTM网络进行训练得到内容评估模型，并将内容评估模型发送到存储模块中进行存储和更新。存储和更新的执行过程为，若存储模块中没有内容评估模型，则将内容评估模型进行存储；若存储模块中有内容评估模型，则将内容评估模型进行更新，内容评估模型创建模块将内容评估模型发送给存储模块，存储模块将内容评估模型创建模块所发送的内容评估模型替代原先的内容评估模型。

所述可疑性权重计算模块，用于接收信息接收模块所发送的HTML源码，并从存储模块中获取标签树结构模型，将HTML源码进行归一化后代入标签树结构模型计算得到可疑性权重α，并将可疑性权重α发送给综合评判器。

所述内容差异度计算模块，用于接收信息接收模块所发送的HTML源码，并从存储模块获取内容评估模型，将HTML源码进行归一化后代入内容评估模型计算得到内容差异度β，并将内容差异度β发送给综合评判器。

所述综合评判器，用于接收可疑性权重计算模块所发送的可疑性权重α和内容差异度计算模块所发送的内容差异度β，根据基准网页的存在情况对内容差异度β进行更新，将可疑性权重α和内容差异度β代入判断公式J(i)＝(α(i)+σ)*β(i)，根据J(i)的数值大小得到判定结果，并将判定结果输出；其中，N表示HTML源码所生成的标签树中路径的总数，J(i)表示HTML源码所生成的标签树中第i个标签发生篡改的篡改可疑值，α(i)表示第i个标签路径的可疑度权重，σ表示一个经验常数，β(i)表示第i个标签路径的文本内容与整个网页内容之间的差异度。

此外，综合评判器还用于将当前网页的HTML和判定结果发送给存储模块进行存储，进而丰富存储模块中样本存储区训练样本集合和样本库的内容。

不难发现，本实施方式为与第一或第二实施方式相对应的系统实施例，本实施方式可与第一或第二实施方式互相配合实施。第一或第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一或第二实施方式中。

与现有技术相比，本实施方式提供一种片化结构与内容的网页篡改评判装置，利用标签树结构模型创建模块和内容评估模型创建模块对存储模块中的标签树结构模型和内容评估模型进行更新，可疑性权重计算模块利用当前网页的HTML源码和标签树结构模型计算出可疑性权重，差异度计算模块利用当前网页的HTML源码和内容评估模型计算出内容差异度，综合判断器根据可疑性权重和内容差异度判断是否存在篡改。采用预设的标签树结构模型对网页中存在的所有链接进行排查，得到暗链修改/插入的可疑性，通过预设的内容评估模型对网页中的文本进行排查，得到体现内容被修改可能性的内容差异度，并根据两者的结合综合判断网页是否被篡改，综合考虑到了网页篡改中文本篡改和链接篡改两种方式，相比现有技术中只根据文本对比识别而言，判断网页篡改更为精确。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第四实施方式涉及一种电子设备。如图10所示，包括至少一个处理器，以及，与至少一个处理器连接的存储器；其中存储器中存储有可被至少一个处理器执行的指令；处理器，通过加载并执行所述至少一条程序指令，以实现上述的基于深度迁移学习的异常流量监测与分析方法。

存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。所述计算机可读存储介质中存储有一个或一个以上的指令，所述一个或一个以上的指令被执行时实现上述实施例中基于片化结构与内容的网页篡改评判方法。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：杜家浩;黄旭;石少东;
专利申请人：中移(杭州)信息技术有限公司;中国移动通信集团有限公司;

上一篇：一种电力作业安全带
下一篇：一种可消除框架膨胀效应的自复位耗能钢梁及其施工方法