掌桥专利:专业的专利平台
掌桥专利
首页

基于clickhouse的赌博网站检测方法

文献发布时间:2023-06-19 12:16:29


基于clickhouse的赌博网站检测方法

技术领域

本发明涉及数据分析技术领域,具体为基于clickhouse的赌博网站检测方法。

背景技术

随着互联网的飞速发展,传统的博彩平台很多已经转移到网络,线上博彩平台层出不穷。同事网络博彩也有着传统博彩所不具备的特点,使其更加诱人。譬如网络博彩的即时性和跨区域性,还有博彩的各种新的类型包括足球、篮球、赛马等。网络博彩是违法犯罪行为,极具欺骗性和危害性,国家严厉打击网络博彩。

但是现在打击网络博彩的手段有限,缺乏专业系统的一套打击手段。目前对于赌博网站的检测识别方法有基于卷积神经网络的赌博网站识别方法。批量获取网站的网页截图;标注网页截图的类别;以标注的网页截图作为训练数据,训练卷积神经网络模型;利用训练好的卷积神经网络模型对待预测网站的网页截图进行识别,判断其是否为赌博网站。这种识别方法无法实现仅从IP数据包中就就能分析网站是否属于赌博网站,且没有完整的实现装置。

发明内容

为了克服现有技术方案的不足,本发明提供基于clickhouse的赌博网站检测方法,能有效的解决背景技术提出的问题。

本发明解决其技术问题所采用的技术方案是:

基于clickhouse的赌博网站检测方法,包括以下检测步骤:

步骤S1:通过深度报文解析将网络数据包进行赌博网站关键字匹配,形成可疑数据;

步骤S2:将形成的可疑数据记录到clickhouse数据库;

步骤S3:通过正则规则匹配和训练出来的数据模型对数据进行分析处理;

步骤S4:给确认的赌博网站数据打上标签,并存入clickhouse数据库;

步骤S5:根据业务需求从clickhouse中读取赌博网站数据进行展示。

进一步地,在步骤S1中,通过深度报文解析获取到对应的报文信息,根据报文信息抓取网络数据包、并对其进行网络协议还原,获得还原后的数据,再对数据进行关键字匹配。

进一步地,在步骤S2中,数据分析平台通过clickhouser-driver连接clickhouse数据库的方式将可疑数据写入clickhouse数据库。

进一步地,在步骤S3中,数据处理平台采用多层正则匹配、模型匹配,分析判断深度报文解析获取到的疑似记录是否属于赌博网站数据,将确认的全量数据记录到clickhouse的http表中。

进一步地,在步骤S5中,业务需要通过MySQL连接clickhouse,将处理后的赌博网站数据转存到MySQL数据库,后台根据业务需要从MySQL数据库获取已经处理完成的数据,交给前端进行展示。

与现有技术相比,本发明的有益效果是:

本发明通过检测识别IP数据包中的赌博信息,采用了基于clickhouse,通过正则与模型匹配的赌博网站检测的方案,实现了从IP数据包中较为准确地识别网络赌博平台的目的,从而识别赌博网站,可以帮助有关部门加强对互联网赌博这种违法行为的整治,防止互联网环境被严重破坏,防止社会风气被破坏。

附图说明

图1为本发明工作流程示意图;

图2为本发明检测步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供了基于clickhouse的赌博网站检测方法,包括以下检测步骤:

步骤S1:通过深度报文解析将网络数据包进行赌博网站关键字匹配,形成可疑数据,通过深度报文解析获取到对应的报文信息,根据报文信息抓取网络数据包、并对其进行网络协议还原,获得还原后的数据,再对数据进行关键字匹配;

步骤S2:将形成的可疑数据记录到clickhouse数据库,数据分析平台通过clickhouser-driver连接clickhouse数据库的方式将可疑数据写入clickhouse数据库;

步骤S3:通过正则规则匹配和训练出来的数据模型对数据进行分析处理,数据处理平台采用多层正则匹配、模型匹配,分析判断深度报文解析获取到的疑似记录是否属于赌博网站数据,将确认的全量数据记录到clickhouse的http表中;

步骤S4:给确认的赌博网站数据打上标签,并存入clickhouse数据库;

步骤S5:根据业务需求从clickhouse中读取赌博网站数据进行展示,业务需要通过MySQL连接clickhouse,将处理后的赌博网站数据转存到MySQL数据库,后台根据业务需要从MySQL数据库获取已经处理完成的数据,交给前端进行展示。

与传统技术相比,本技术方案通过检测识别IP数据包中的赌博信息,采用了基于clickhouse,通过正则与模型匹配的赌博网站检测的方案,实现了从IP数据包中较为准确地识别网络赌博平台的目的,从而识别赌博网站,可以帮助有关部门加强对互联网赌博这种违法行为的整治,防止互联网环境被严重破坏,防止社会风气被破坏。

实施例:

本发明是将网络流量进行采集,通过深度报文解析DPI将网络数据进行关键字匹配处理并记录到clickhouse,通过检测数据清洗,模型检测给数据打上标签以此过滤信息,将处理后的数据返回到clickhouse,前端根据数据标签label的不同,获取到赌博网站的信息进行展示,如下所述:

(1)通过深度报文解析DPI解析试点机房获取到的报文信息,抓取网络数据包、并对其进行网络协议还原,获得还原后的数据,再对数据进行关键字匹配,形成疑似赌博网站的记录;

(2)在clickhouse中创建接收深度报文解析DPI数据的各协议类型表(如dns、http、ftp等),包括IP域名,服务器IP、端口号,客户端IP、端口号,数据请求时间和数据包请求内容,以及相应的时间戳;

(3)数据分析平台写入clickhouse数据库的配置信息,通过clickhouser-driver连接clickhouse数据库;

(4)初始化赌博网站的检测引擎类illegal_recognize_engine_idc和检测模型IllegalModel;

(5)illegal_recognize_engine_idc检测引擎通过多层正则匹配,初步判定网站是否属于赌博网站,再通过检测模型IllegalModel进行更进一步的检测。IllegalModel的训练框架采用pytorch,先收集数据集,对数据集进行清理,必要时对数据增强,通过调整参数优化训练模型,不断提高模型的准确率;

(6)通过数据处理平台,采用多层正则匹配、模型匹配,分析判断深度报文解析DPI获取到的疑似记录是否属于赌博网站数据,将确认的赌博网站记录的IP下发给深度报文解析DPI,深度报文解析DPI再将此IP的全量数据记录到clickhouse的http表中,并通过数据处理平台产生一条告警信息,同时将告警信息存入磁盘,其他协议类型的数据直接存入clickhouse的对应协议类型表中;

(7)由于深度报文解析DPI数据包数量很多数据庞大,也是为了提高处理效率,所以通过队列进行多线程并行处理检测引擎类illegal_recognize_engine_idc,illegal_recognize_engine_idc返回新的list列表;

(8)通过正则匹配和IllegalModel模型对list数据进行识别,对每条数据打上标签label;

(9)将确定的赌博网站数据添加到clickhouse的新表ml_recognize_result表中;

(10)由于click house是用于数据分析的列式数据库,每行读写的效率较低,所以通过业务需要可以通过MySQL连接clickhouse,将处理后的赌博网站数据转存到MySQL数据库;

(11)最后,后台根据业务需要从MySQL数据库获取已经处理完成的数据,交给前端进行展示。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

相关技术
  • 基于clickhouse的赌博网站检测方法
  • 一种基于网站联合特征的钓鱼网站检测方法
技术分类

06120113237324