掌桥专利:专业的专利平台
掌桥专利
首页

网站敏感词检测系统及方法

文献发布时间:2023-06-19 10:02:03


网站敏感词检测系统及方法

技术领域

本发明涉及网站信息维护的技术领域,尤其是涉及一种网站敏感词检测系统及方法。

背景技术

目前网站中出现了越来越多的“不明确的敏感词”,在多数网站,敏感词一般是指带有敏感政治倾向(或反执政党倾向)、暴力倾向、不健康色彩的词或不文明用语,也有一些网站根据自身实际情况,设定一些只适用于本网站的特殊敏感词。许多网站因为敏感词导致网站被封停,造成经济损失。或是一些黑客利用弹框输入一些敏感词汇,许多浏览网站的游客通过操作触发弹框看见敏感词汇,引起社会舆论或对社会秩序造成影响,法律责任重大。

现有技术可参考申请公开号为CN110750981A的中国发明专利,其公开了一种基于机器学习的高准确度网站敏感词检测方法,将待检测文件首先与敏感词数据库进行规则匹配,得到包含敏感词的文档集合,对训练数据进行处理、学习以输出机器学习模型,随后将文档集合输入模型,得到网站敏感词检测结果。本发明结合机器学习算法进行模型训练,而后对爬取的网站页面首先进行敏感词规则匹配,然后再次对规则匹配后的输出网站进行机器学习自动分析,减少机器学习模型预测的数据量,提高检测速度和准确性,最终通过统计推算得出页面包含敏感词的可能性。

上述中的现有技术方案存在以下缺陷:虽然现在已有对网站敏感词进行检测拦截的方法,但是在目前恶意发送敏感词的方式多种多样,单纯依靠现有语言识别已经难以剔除全部敏感词了。

发明内容

本发明的目的是提供一种网站敏感词检测方法,能够对以图片等格式发送的敏感词进行检测,有效增加敏感词的剔除准确度,扩大敏感词的检测范围。

本发明的上述技术目的是通过以下技术方案得以实现的:

一种网站敏感词检测方法,包括以下步骤:

一、输入需要检测的域名、IP地址,填写需要检测的带有敏感词的标题;

二、将标题按照不同的字体转化为图片;

三、在对应域名、IP地址的网站中检测标题和图片;

四、将检测到的网站的含有标题或图片的文件路径进行显示;

五、将带有敏感信息的域名、IP地址以及该域名内带有标题或图片的信息进行显示。

通过采用上述方案,用户在输入需要检测的敏感词和检测范围后,本方法可以自动为用户显示带有敏感词的信息和文件路径,方便用户对带有敏感词的信息进行处理,在检测时,能够通过图片格式的敏感词来检索他人恶意上传的图片、动态图、视频等格式的信息,有效增大对敏感词的检测范围,增加对敏感词的剔除准确度。

本发明进一步设置为:还包括:

二a、在敏感词中的每个字之间添加空白字符;

三a、在对应域名、IP地址的网站中检测添加空白字符之后的敏感词,搜索时空白字符为一个任意字符。

通过采用上述方案,能够进一步拓展对敏感词的检测范围,避免有人用空格等简单字符将敏感词分割开来躲避检测。

本发明进一步设置为:还包括:

六、将显示的信息生成数据并建立文档,将数据存储入指定文档内。

通过采用上述方案,用户可以随时查看文档中的信息,以保证在用户没有时间处理带有敏感词的信息或来不及处理时使得用户可以在方便的时间进行处理。

本发明进一步设置为:还包括:

七、打开文档后,选择任一带有敏感信息的域名、IP地址以及该域名所带有标题含有敏感字的信息,根据选择的信息自动查询对应的文件路径。

通过采用上述方案,用户能够在选择带有敏感词的信息时直接了解到文件路径,便于用户对信息进行处理。

本发明进一步设置为:还包括:

三b、在检测图片前,对检测图片的模糊度进行设置,模糊度越高检测的图片范围越大。

通过采用上述方案,用户可以根据实际情况设置检测模糊度,能够根据实际情况控制对图片等信息的检索范围,来提高检测的精准度,尽量确保在能够检测到带有敏感词的信息的同时又不会错检出太多正常信息。

本发明的目的是提供一种网站敏感词检测系统,能够对以图片等格式发送的敏感词进行检测,有效增加敏感词的剔除准确度,扩大敏感词的检测范围。

本发明的上述技术目的是通过以下技术方案得以实现的:

一种网站敏感词检测系统,包括输入模块、图像转化模块、检测模块、路径显示模块和信息显示模块;

所述输入模块接收输入的域名、IP地址和带有敏感词的标题并将域名、IP地址和带有敏感词的标题输出;

所述图像转化模块接收输入模块输出的带有敏感词的标题,图像转化模块将标题按照不同的字体转化为图片,并将图片输出;

所述检测模块接收输入模块输出的域名、IP地址和标题以及图像转化模块输出的图片,检测模块根据接收的域名和IP地址锁定网站,并在锁定的网站上检测与接收的标题和图片相同或相似的信息,检测模块将检测到带有敏感信息的网站的含有标题或图片的文件路径传输给路径显示模块,检测模块将检测到带有敏感信息的网站的域名、IP地址以及该网站内带有标题或图片的信息传输给信息显示模块;

所述路径显示模块将接收到的带有敏感信息的网站的含有标题或图片的文件路径进行显示;

所述信息显示模块将接收到的带有敏感信息的网站的域名、IP地址以及该网站内带有标题或图片的信息进行显示。

通过采用上述方案,用户向系统输入待检测的敏感词和检测范围后系统就可以自动对设定范围进行敏感词检测,方便用户对带有敏感词的信息进行处理,在检测时,系统能够通过图片格式的敏感词来检索他人恶意上传的图片、动态图、视频等格式的信息,有效增大对敏感词的检测范围,增加对敏感词的剔除准确度。

本发明进一步设置为:还包括:文字处理模块,所述文字处理模块接收输入模块输出的带有敏感词的标题,文字处理模块在敏感词中的每个字之间添加空白字符形成疑似敏感词,并将疑似敏感词传输给检测模块;

所述检测模块在锁定的网站上检测与疑似敏感词相同的信息,在检测时空白字符为一个任意字符。

通过采用上述方案,文字处理模块能够进一步拓展对敏感词的检测范围,避免有人用空格等简单字符将敏感词分割开来躲避检测。

本发明进一步设置为:还包括:存储模块,所述存储模块接收输入的信息并建立文档,将接收的信息存储进文档内,路径显示模块将文件路径传输给存储模块进行存储,信息显示模块将信息传输给存储模块进行存储。

通过采用上述方案,用户可以通过存储模块随时查看文档中的信息,以保证在用户没有时间处理带有敏感词的信息或来不及处理时使得用户可以在方便的时间进行处理。

本发明进一步设置为:还包括:自动查找模块,所述自动查找模块根据接收的指令调用存储模块存储的文档并选择文档中存储的信息,自动查找模块根据选择的信息自动查询对应的文件路径并显示。

通过采用上述方案,用户在打开文档后选择带有敏感词的信息时自动查找模块自动检索对应的文件路径并显示给用户,便于用户对信息进行处理。

本发明进一步设置为:其特征在于:所述检测模块接收外界输入的信息并根据输入的信息调节检测图片的模糊度,模糊度越高检测的图片范围越大。

通过采用上述方案,用户可以根据实际情况在检测模块设置检测模糊度,能够通过根据实际情况控制对图片等信息的检索范围,来提高检测的精准度,尽量确保在能够检测到带有敏感词的信息的同时又不会错检出太多正常信息。

综上所述,本发明具有以下有益效果:

1.本方法和系统在对敏感词进行检测时,能够通过图片格式的敏感词来检索他人恶意上传的图片、动态图、视频等格式的信息,有效增大对敏感词的检测范围,增加对敏感词的剔除准确度;

2. 文字处理模块能够进一步拓展对敏感词的检测范围,避免有人用空格等简单字符将敏感词分割开来躲避检测。

附图说明

图1是实施例二的整体系统框图。

图中,1、输入模块;2、图像转化模块;3、文字处理模块;4、检测模块;5、路径显示模块;6、信息显示模块;7、存储模块;8、自动查找模块。

具体实施方式

实施例一:一种网站敏感词检测方法,具体步骤如下:

步骤一、输入需要检测的域名、IP地址,填写需要检测的带有敏感词的标题。

步骤二、将标题按照不同的字体转化为图片。在敏感词中的每个字之间添加空白字符。

步骤三、用户对检测图片的模糊度进行设置,模糊度越高检测的图片范围越大。设置完成后在对应域名、IP地址的网站中检测标题、图片和添加空白字符之后的敏感词,搜索时空白字符为一个任意字符。

步骤四、将检测到的网站的含有标题或图片的文件路径进行显示、

步骤五、将带有敏感信息的域名、IP地址以及该域名内带有标题或图片的信息进行显示。

步骤六、将显示的信息生成数据并建立文档,将数据存储入指定文档内。用户可以随时查看文档中的信息,以保证在用户没有时间处理带有敏感词的信息或来不及处理时使得用户可以在方便的时间进行处理。

步骤七、打开文档后,选择任一带有敏感信息的域名、IP地址以及该域名所带有标题含有敏感字的信息,根据选择的信息自动查询对应的文件路径。用户能够在选择带有敏感词的信息时直接了解到文件路径,便于用户对信息进行处理。

用户在输入需要检测的敏感词和检测范围后,本方法可以自动为用户显示带有敏感词的信息和文件路径,方便用户对带有敏感词的信息进行处理。在检测时,能够通过图片格式的敏感词来检索他人恶意上传的图片、动态图、视频等格式的信息,还能够通过增加空白字符避免有人用空格等简单字符将敏感词分割开来躲避检测。有效增大对敏感词的检测范围,增加对敏感词的剔除准确度。

实施例二:一种网站敏感词检测系统,如图1所示,包括输入模块1、图像转化模块2、文字处理模块3、检测模块4、路径显示模块5、信息显示模块6、存储模块7和自动查找模块8。

如图1所示,输入模块1接收输入的域名、IP地址和带有敏感词的标题并将域名、IP地址和带有敏感词的标题输出。图像转化模块2接收输入模块1输出的带有敏感词的标题,图像转化模块2将标题按照不同的字体转化为图片,并将图片输出。文字处理模块3接收输入模块1输出的带有敏感词的标题,文字处理模块3在敏感词中的每个字之间添加空白字符形成疑似敏感词,并将疑似敏感词传输给检测模块4。

如图1所示,检测模块4接收外界输入的信息并根据输入的信息调节检测图片的模糊度,模糊度越高检测的图片范围越大。用户可以根据实际情况在检测模块4设置检测模糊度,能够通过根据实际情况控制对图片等信息的检索范围,来提高检测的精准度,尽量确保在能够检测到带有敏感词的信息的同时又不会错检出太多正常信息。

如图1所示,检测模块4接收输入模块1输出的域名、IP地址和标题、图像转化模块2输出的图片以及文字处理模块3输出的疑似敏感词。检测模块4根据接收的域名和IP地址锁定网站,并在锁定的网站上检测与接收的标题、图片和疑似敏感词相同或相似的信息,在检测时空白字符为一个任意字符。检测模块4将检测到带有敏感信息的网站的含有标题或图片的文件路径传输给路径显示模块5。检测模块4将检测到带有敏感信息的网站的域名、IP地址以及该网站内带有标题或图片的信息传输给信息显示模块6。

如图1所示,路径显示模块5将接收到的带有敏感信息的网站的含有标题或图片的文件路径进行显示。信息显示模块6将接收到的带有敏感信息的网站的域名、IP地址以及该网站内带有标题或图片的信息进行显示。用户向系统输入需要检测的敏感词和检测范围后,本系统可以自动为用户显示带有敏感词的信息和文件路径,方便用户对带有敏感词的信息进行处理。在检测时,能够通过图片格式的敏感词来检索他人恶意上传的图片、动态图、视频等格式的信息,还能够通过增加空白字符避免有人用空格等简单字符将敏感词分割开来躲避检测。本系统能够有效增大对敏感词的检测范围,增加对敏感词的剔除准确度。

如图1所示,存储模块7接收输入的信息并建立文档,将接收的信息存储进文档内,路径显示模块5将文件路径传输给存储模块7进行存储,信息显示模块6将信息传输给存储模块7进行存储。自动查找模块8根据接收的指令调用存储模块7存储的文档并选择文档中存储的信息,自动查找模块8根据选择的信息自动查询对应的文件路径并显示。用户在打开文档后选择带有敏感词的信息时自动查找模块8自动检索对应的文件路径并显示给用户,便于用户对信息进行处理。用户可以根据实际情况在检测模块4设置检测模糊度,能够通过根据实际情况控制对图片等信息的检索范围,来提高检测的精准度,尽量确保在能够检测到带有敏感词的信息的同时又不会错检出太多正常信息。

本具体实施方式的实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。

相关技术
  • 网站敏感词检测系统及方法
  • 一种网站敏感词屏蔽方法
技术分类

06120112389135