一种网页敏感内容的风险识别方法、系统及装置

文献发布时间：2024-04-18 20:02:18

技术领域

本发明涉及网络内容安全的技术领域，更具体地说，尤其涉及一种网页敏感内容的风险识别方法。本发明还涉及实现该种方法的系统及装置。

背景技术

网站(website)是在互联网上拥有域名或地址并提供一定网络服务的主机，是存储文件的空间，以服务器为载体。人们可以通过网站来发布自己想要公开的资讯，或者利用网站来提供相关的网络服务。随着互联网的迅速发展，网站每天所产生的数据将变得越来越大，这些信息大多被存储在服务器内，这些信息缺乏有效的监测和审核措施，随时存在被黑客攻击、篡改等风险。现网站开发人员或管理人员并没有行之有效的方式对这些数据进行快速检测，筛查出存在问题的页面。当有问题的内容被用户浏览时，会出现不当言论(如涉政、辱骂等)、敏感内容(如色情)、隐私数据、木马等不良信息，这对于运营带来巨大的不良影响。

现在避免该问题的方法多采用人为审查、用户反馈等方式，但这些方法不仅效率低，并且还大大降低了发现此类信息的时效性。即使借助人工智能算法进行判断，也会出现大量的遗漏、误判信息。因此，亟待设计出一种能够更为有效的识别出网页敏感内容风险的方法，以增强用户的浏览体验。

发明内容

本发明的第一目的在于提供一种网页敏感内容的风险识别方法，该方法通过建立海量敏感词库，对提取的页面进行敏感词和隐私信息的精准识别，也极大的改善了性能，以满足对网页的批量监测，通过对敏感词库分值进行调整或者增删敏感词，或对可以算法进行微调，可整体控制监测精度。

本发明的第二目的在于提供一种网页敏感内容的风险识别系统，该系统能够有效对网页中的敏感词进行监测。本发明的第三目的是提供执行该风险识别系统的装置。

本发明采用的第一技术方案如下：

一种网页敏感内容的风险识别方法，包括以下步骤：

S1、建立敏感词库，加载敏感词库并构建识别系统上下文环境；

S2、逐一读取有效页面的内容并进行格式化处理后输出格式化的页面内容；

S3、将步骤S2所得格式化的页面内容与敏感词库的敏感词进行识别后提取出所有含敏感词的数据信息的敏感内容元数据；

S4、将步骤S3中的敏感内容元数据通过无监督分本分类进行语义分析获得敏感内容结果；

S5、将步骤S2所得格式化的页面内容利用正则判断识别出隐私泄露信息数据；

S6、将步骤S4所得的敏感内容结果和步骤S5所得的隐私泄露信息数据输出。

进一步的，所述的步骤S1中所建立的敏感词库包括敏感词黑名单、敏感词白名单、各个敏感词所属类型以及各个敏感词的分数值，通过设置正则表达式后加载敏感词库，构建出识别系统上下文环境。

进一步的，所述的步骤S2具体操作为：读取页面内容，当页面属于无效页面时，直接丢弃并读取下一页面内容，当页面属于有效页面时进行格式化处理得到含标签的html1文件和不含标签的html2文件。

进一步的，所述的步骤S3包括以下步骤：

S3.1、将敏感词库中的所有敏感词批量输入到AC自动机算法中，与html1文件中的内容进行比对，识别出页面中包含的所有敏感词以及各个敏感词在页面上的具体位置坐标，并将页面存在的各个敏感词及具体位置坐标暂存；

S3.2、将步骤S3.1暂存的页面存在的各个敏感词与敏感词库中的敏感词白名单进行判断，将属于敏感词白名单的敏感词及具体位置坐标从暂存的页面存在的各个敏感词中剔除；

S3.3、逐个将完成步骤S3.2后暂存的页面存在的各个敏感词在页面里对应的具体位置的上下文提取出来，将敏感词的具体位置上下文暂存；

S3.4、将完成步骤S3.2得到的敏感词在原页面里的行号进行定位，将行号结果暂存，由最终暂存的页面存在的各个敏感词、具体位置坐标、具体位置上下文结果和行号组成敏感内容元数据。

进一步的，所述的步骤S3中，提取出敏感内容元数据后，还将敏感内容元数据进行可疑度分值计算后更新敏感内容元数据，具体步骤为：

S3.5、在步骤S3.4所得敏感内容元数据中筛选出敏感词的分数值达到或超出设定阈值的敏感词得到超分数敏感词对应的敏感内容元数据暂存，将剩余的敏感词对应的敏感内容元数据暂存；

S3.6、将剩余的敏感词对应的敏感内容元数据按其所属类型进行归类，得到各个类型所包含的敏感词结果暂存；

S3.7、对步骤S3.6得到的各个类型所包含的敏感词结果进行分类数量统计，若分类数量大于等于设定阈值，则计算该分类的敏感词对应的敏感词分数值，若该分类的敏感词分数值大于等于设定阈值，将该分类的敏感词对应的敏感内容元数据添加至步骤S3.5中超分数敏感词对应的敏感内容元数据中。

进一步的，所述的步骤S4中，将步骤S3中的敏感内容元数据逐一输入到无监督文本语义分析模型内，对敏感词的上下文信息进行分析，若该项敏感词对应的敏感内容元数据为常规的敏感内容则将其删除，完成分析后得到的敏感内容元数据即为敏感内容结果。

进一步的，所述步骤S5中，是将html2文件利用正则判断识别出隐私泄露信息数据。

本发明采用的第二技术方案如下：

一种网页敏感内容的风险识别系统，包括：

敏感词库模块：用于存储敏感词黑名单、敏感词白名单以及各个敏感词的分数值；

页面提取模块：用于提取有效页面的内容；

页面敏感词识别模块：用于从提取出的有效页面的内容中识别出敏感内容元数据；

页面隐私泄露信息识别模块：用于从提取出的有效页面中识别出隐私泄露信息；

所述页面提取模块的输出端和敏感词库模块的输出端均与页面敏感词识别模块的输入端连接，所述页面提取模块的输出端还与页面隐私泄露信息识别模块的输入端连接。

进一步的，还包括：

无监督分本分类模块：用于将识别出的敏感内容元数据进行语义分析；

可疑度分值分析模块：用于将识别出的敏感内容元数据进行可疑度内容计算；

所述可疑度分值分析模块的输入端与页面敏感词识别模块的输出端连接，所述可疑度分值分析模块的输出端与无监督分本分类模块的输入端连接。

本发明采用的第三技术方案如下：

一种网页敏感内容的风险识别装置，包括存储器和处理器，所述的存储器存储有计算机程序，所述处理器执行计算机程序时实现上述任一所述风险识别方法的步骤。

与现有技术相比，本发明具有的有益效果为：

1.本发明的一种网页敏感内容的风险识别方法，建立敏感词库，加载敏感词库并构建识别系统上下文环境；逐一读取有效页面的内容并进行格式化处理后输出格式化的页面内容；将格式化的页面内容与敏感词库的敏感词库进行识别后提取出所有含敏感词的数据信息的敏感内容元数据；将敏感内容元数据通过无监督分本分类进行语义分析获得敏感内容结果；将格式化的页面内容利用正则判断识别出隐私泄露信息数据；将敏感内容结果和隐私泄露信息数据输出。通过建立海量敏感词库并支持自定义黑白名单的方式进行精准匹配，通过参数化方式实现敏感词大小写的区分，性能开销与速度都不会随着敏感词库的数量大小而衰减；再在配合无监督分本分类进行误判筛查，以实现精准监测的同时，极大的改善了性能，满足网站所有网页批量地进行监测。本发明的风险识别方法只需要对敏感词库分值进行调整或者增删敏感词，或对可疑度算法进行微调，便可整体控制监测精度。

2.本发明的一种web页面的数据抽取、转换和加载的系统，通过设置敏感词库模块、页面提取模块、页面敏感词识别模块和页面隐私泄露信息识别模块，各模块间相互关联，能够有效对网页中的敏感词进行监测。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本方法的步骤流程图；

图2是本系统的结构示意图。

具体实施方式

下面结合具体实施方式，对本发明的技术方案作进一步的详细说明，但不构成对本发明的任何限制。

参照图1所示，本发明的一种网页敏感内容的风险识别方法，包括以下步骤：

S1、建立敏感词库，加载敏感词库并构建识别系统上下文环境。

其中，所建立的敏感词库包括敏感词黑名单、敏感词白名单、各个敏感词所属类型以及各个敏感词的分数值，通过设置正则表达式后加载敏感词库，构建出识别系统上下文环境。敏感词的分数值可设置如1～9分，敏感词所属类型可设置为，如1＝涉政，2＝违禁等，词库越大对识别效果越有益。

S2、逐一读取有效页面的内容并格式化处理后输出格式化的页面内容。

具体操作为：读取页面内容，当页面属于无效页面时，直接丢弃并读取下一页面内容，当页面属于有效页面时进行格式化处理得到含标签的html1文件和不含标签的html2文件。经过格式化页面，使其还原成与浏览器一致的呈现效果。

S3、将步骤S2所得格式化的页面内容与敏感词库的敏感词进行识别后提取出所有含敏感词的数据信息的敏感内容元数据。

具体包括以下步骤：

S3.1、将敏感词库中的所有敏感词批量输入到AC自动机算法中，与html1文件中的内容进行比对，识别出页面中包含的所有敏感词以及各个敏感词在页面上的具体位置坐标，并将页面存在的各个敏感词及具体位置坐标暂存。利用AC自动机算法，实现快速提取将页面内的敏感内容。

S3.2、将步骤S3.1暂存的页面存在的各个敏感词与敏感词库中的敏感词白名单进行判断，将属于敏感词白名单的敏感词及具体位置坐标从暂存的页面存在的各个敏感词中剔除。

S3.3、逐个将完成步骤S3.2后暂存的页面存在的各个敏感词在页面里对应的具体位置的上下文提取出来，将敏感词的具体位置上下文暂存。

提取出敏感内容元数据后，还将敏感内容元数据进行可疑度分值计算后更新敏感内容元数据，具体步骤为：

S3.5、在步骤S3.4所得敏感内容元数据中筛选出敏感词的分数值达到或超出设定阈值的敏感词得到超分数敏感词对应的敏感内容元数据暂存，将剩余的敏感词对应的敏感内容元数据暂存。

S3.6、将剩余的敏感词对应的敏感内容元数据按其所属类型进行归类，得到各个类型所包含的敏感词结果暂存。

S3.7、对步骤S3.6得到的各个类型所包含的敏感词结果进行分类数量统计，若分类数量大于等于设定阈值，则计算该分类的敏感词对应的敏感词分数值，若该分类的敏感词分数值大于等于设定阈值，将该分类的敏感词对应的敏感内容元数据添加至步骤S3.5中超分数敏感词对应的敏感内容元数据中。通过分值设计与一系列基于真实场景大量数据统计，最终推导得出的计算方式与判定值，筛选出可能存在高风险的敏感内容。将高可疑度的内容作为入参，交由无监督文本分类模型进行高精准度核验，能够有效减少误判的出现。

S4、将步骤S3中的敏感内容元数据通过无监督分本分类进行语义分析获得敏感内容结果。

具体操作为：将步骤S3中的敏感内容元数据逐一输入到无监督文本语义分析模型内，对敏感词的上下文信息进行分析，若该项敏感词对应的敏感内容元数据为常规的敏感内容则将其删除，完成分析后得到的敏感内容元数据即为敏感内容结果。

S5、将步骤S2所得格式化的页面内容利用正则判断识别出隐私泄露信息数据。具体的，是将html2文件利用正则判断识别出隐私泄露信息数据。

S6、将步骤S4所得的敏感内容结果和步骤S5所得的隐私泄露信息数据输出。

本发明的风险识别方法通过建立海量敏感词库并支持自定义黑白名单的方式进行精准匹配，通过参数化方式实现敏感词大小写的区分，性能开销与速度都不会随着敏感词库的数量大小而衰减；再在配合无监督分本分类进行误判筛查，以实现精准监测的同时，极大的改善了性能，满足网站所有网页批量地进行监测。本发明的风险识别方法只需要对敏感词库分值进行调整或者增删敏感词，或对可疑度算法进行微调，便可整体控制监测精度。

参照图2所示，本发明的一种网页敏感内容的风险识别系统，包括：

敏感词库模块：用于存储敏感词黑名单、敏感词白名单以及各个敏感词的分数值；

页面提取模块：用于提取有效页面的内容；

页面敏感词识别模块：用于从提取出的有效页面的内容中识别出敏感内容元数据；

页面隐私泄露信息识别模块：用于从提取出的有效页面中识别出隐私泄露信息；

所述页面提取模块的输出端和敏感词库模块的输出端均与页面敏感词识别模块的输入端连接，所述页面提取模块的输出端还与页面隐私泄露信息识别模块的输入端连接。本发明的风险识别系统通过各模块间相互关联，能够有效对网页中的敏感词进行监测。

进一步的，还包括：

无监督分本分类模块：用于将识别出的敏感内容元数据进行语义分析；

可疑度分值分析模块：用于将识别出的敏感内容元数据进行可疑度内容计算；

所述可疑度分值分析模块的输入端与页面敏感词识别模块的输出端连接，所述可疑度分值分析模块的输出端与无监督分本分类模块的输入端连接。

本发明的一种网页敏感内容的风险识别装置，包括存储器和处理器，所述的存储器存储有计算机程序，所述处理器执行计算机程序时实现任一所述方法的步骤。

实施例1

本发明的一种网页敏感内容的风险识别方法，先预设敏感词库，并对所有敏感词进行分数设置(如1～9分)，所属类型设置(如1＝涉政，2＝违禁)。

对需要监测的网站页面进行下载后将页面内容输入本发明的一种网页敏感内容的风险识别系统识别，最后得到输出识别结果输。本发明的一种网页敏感内容的风险识别系统识别的识别过程如下：

S01:加载敏感词库(含黑名单与白名单)并初始化系统。

S02:读取页面内容，判断页面内容是否有效，如果属于空白页面则直接丢弃。否则将页面格式化，输出2种格式化数据；一种为与浏览器一致的外观，命名为html1；另一种为去除所有html标签，命名为html2。

S03:采用ac自动机算法，将敏感词批量输入到自动机内，与html1进行比对，识别出页面包含的所有敏感词以及敏感词在页面上的位置坐标。将识别出的结果命名为result1并暂存。

S04:将result1与敏感词白名单进行判断，将属于白名单的敏感词对应的结果剔除。

S05:将result1在html1里的上下文提取出来(例如前后30个字符)，并将结果更新到result1内。

S06:将result1在html1里的行号进行定位，查找出敏感词所在的行号，并将结果更新到result1内。

S07:将result1内所有分值大于等于x分的敏感词筛查出来，其中x为设定阈值，这些均视为属于高可疑度敏感内容，结果保存为risk，将剩下的敏感词进行下一步处理。

S08:按敏感词类型进行归类。

S09：判断所有分类总数：

若分类数量大于等于n类，其中n为设定阈值，按计算该分类的敏感词对应的敏感词分数值，否则跳过。

若该分类的敏感词分数值大于等于m分，其中m为设定阈值，将该分类的敏感词对应的敏感内容元数据更新到risk里；否则丢弃。

S10:将高可疑度敏感内容risk输入到无监督文本语义分析模型内，由模型对敏感词的上下文信息进行分析，剔除结果为常规的敏感内容，仅保留有问题的结果并输出。

S11：利用正则表达式将html2内的隐私信息进行识别并提取，暂存为hide.

S12：将高可疑度敏感内容结果risk与隐私信息hide合并输出。

以上所述仅为本发明的较佳实施例，凡在本发明的精神和原则范围内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：东信网安(深圳)科技有限公司;

上一篇：一种全自动一体化槽式翻抛机
下一篇：一种图像采集设备的标定方法、装置、设备及介质