掌桥专利:专业的专利平台
掌桥专利
首页

一种非法网站识别和锁定方法

文献发布时间:2023-06-19 10:38:35


一种非法网站识别和锁定方法

技术领域

本发明涉及网站识别和锁定技术领域,具体涉及一种非法网站识别和锁定 方法及系统。

背景技术

随着互联网的高速发展,网站自身的开放性以及电子支付的普遍性使得网 站安全问题日益突出,通过各类网站平台非法从事多种金融交易的活动增多, 带来了较大的金融和社会风险隐患,涉及的经济犯罪日益增多。网站违法交易 行为性质多样化,当前发现的网络交易违法行为主要集中在网上非法集资和虚 拟货币交易网站等方面。

这些非法的互联网及移动互联网软件往往具有合法的形式与外观,具有较 强的迷惑性和欺骗性,大大超出了普通网民及互联网金融消费者的辨识能力, 导致互联网经济犯罪大、要案件频发,造成公私财产损失巨大且难以挽回。通 过技术手段主动识别非法的平台软件,促使工作中心前移,及时化解互联网经 济犯罪风险,精准打击互联网经济犯罪显得尤为重要。非法软件识别锁定技术, 就是依托互联网与大数据,总结提炼非法平台软件的表现特征,构建非法网站 软件的识别特征库,采用主动学习算法对其进行自动识别;并采用IP地址识别、 路由跟踪等技术对其进行锁定,以实现涉案线索自动识别与发现,涉案电子数 据的智能锁定,主动、提前进行犯罪防控。

但是,现有的非法软件识别技术在进行目标锁定时,对非法网站中的信息 提取有局限性,目标锁定的精确度不高。

发明内容

针对现有技术中的缺陷,本发明提供的一种非法网站识别和锁定方法,提 高目标锁定的准确度。

为了解决上述技术问题,本发明提供以下技术方案:

一种非法网站识别和锁定方法,包括以下步骤:

S101:关键词监控和采集,根据神经网络算法建立训练样本;

S102:特征词提取:首先,从训练样本中获取非法网站的类型,使用tf-idf 算法计算每一类型非法网站中关键词的权重,然后,对每一类型中关键词的权 重进行排序,选取权重较大的N个关键词作为该类型非法网站的特征词,最后, 对N个关键词的权重进行归一化处理;URL特征提取:首先,从训练样本中获 取非法网站的类型,然后,从训练样本中获取与非法网站类型相关的样本数据, 最后,从样本数据中提取不同非法网站类型的URL信息;

S103:对待识别网站中的关键词进行文本识别:首先,对待识别的文本进 行向量化,将文本中的关键词与每一类型的非法网站的关键词通过朴素贝叶斯 公式进行匹配计算,分别得到该文本中第i个关键词与每一类型的非法网站的关 键词的匹配概率

S104:根据匹配概率

进一步地,所述步骤S102中使用tf-idf算法计算每一类型非法网站中关 键词权重的过程包括:

S10201:对训练样本中的关键词进行去重,删除停用词和常用词;

S10202:针对每一非法网站的类型进行关键词重要性tf

S10203:针对每一非法网站的类型进行关键词普遍重要性idf

S10204:计算每一个关键词i的重要程度tfidf

进一步地,所述步骤S102和步骤S103中非法网站的类型包括非法集资和 虚拟货币类型。

进一步地,所述语料库用于存储包含关键词的文件。

进一步地,包括监控模块、存储词库、修改模块、分析模块和输出模块,

所述监控模块用于对网站中的关键词进行检测,将检测到的关键词添加到 存储词库中;

所述存储词库用于存储网站中的关键词并构建训练样本,对训练样本中的 关键词进行去重,关键词的类别包括理财、众筹、私募、期权、金融创新、网 络借贷、虚拟货币、金融互动和爱心慈善;

所述修改模块用于对存储词库中的关键词进行增加、修改或删除;

所述分析模块用于将待识别网站的关键词与存储词库中的关键词进行计 算,得到待识别网站属于每一类型的概率;

所述输出模块用于对待识别网站属于每一类型的概率进行显示。

由上述技术方案可知,本发明的有益效果:首先,通过对非法网站中的特 征词和URL特征进行提取,根据特征词对待识别网站中的关键词进行文本识别, 确定待识别网站中关键词与每一类型的非法网站的关键词的匹配概率,根据 URL特征计算待识别网站中URL信息的相似度,根据匹配概率和相似度,计算 待识别网站属于每一类型的概率,充分考虑特征词和URL特征之间两个方面的 因素,提高待识别网站目标锁定的准确度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将 对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附 图中,类似的元件或部分一般由类似的附图标记标识。附图中,各元件或部分 并不一定按照实际的比例绘制。

图1为本发明的流程图;

图2为本发明步骤S102中使用tf-idf算法计算每一类型非法网站中关键 词权重的流程图;

图3本发明的系统模块图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例 仅用于更加清楚地说明本发明的技术方案,因此只作为示例,而不能以此来限 制本发明的保护范围。

参阅图1所示,本实施例提供的一种非法网站识别和锁定方法,包括以下 步骤:

S101:关键词监控和采集,根据神经网络算法建立训练样本;

S102:特征词提取:首先,从训练样本中获取非法网站的类型,使用tf-idf 算法计算每一类型非法网站中关键词的权重,然后,对每一类型中关键词的权 重进行排序,选取权重较大的N个关键词作为该类型非法网站的特征词,最后, 对N个关键词的权重进行归一化处理;URL特征提取:首先,从训练样本中获 取非法网站的类型,然后,从训练样本中获取与非法网站类型相关的样本数据, 最后,从样本数据中提取不同非法网站类型的URL信息;

S103:对待识别网站中的关键词进行文本识别:首先,对待识别的文本进 行向量化,将文本中的关键词与每一类型的非法网站的关键词通过朴素贝叶斯 公式进行匹配计算,分别得到该文本中第i个关键词与每一类型的非法网站的关 键词的匹配概率

S104:根据匹配概率

在实际使用中,首先,通过对非法网站中的特征词和URL特征进行提取, 根据特征词对待识别网站中的关键词进行文本识别,确定待识别网站中关键词 与每一类型的非法网站的关键词的匹配概率,根据URL特征计算待识别网站中 URL信息的相似度,根据匹配概率和相似度,计算待识别网站属于每一类型的 概率,充分考虑特征词和URL特征之间两个方面的因素,提高待识别网站目标 锁定的准确度。

参阅图2所示,所述步骤S102中使用tf-idf算法计算每一类型非法网站 中关键词权重的过程包括:

S10201:对训练样本中的关键词进行去重,删除停用词和常用词;

S10202:针对每一非法网站的类型进行关键词重要性tf

S10203:针对每一非法网站的类型进行关键词普遍重要性idf

S10204:计算每一个关键词i的重要程度tfidf

在实际使用中,首先,对每一个关键词进行重要程度计算,然后,针对每 一类的每一个关键词进行重要程度计算,选取权重较大的N个关键词作为非法 网站的特征词,能够全面考虑非法网站中出现的所有关键词,保证在非法网站 确定过程中不遗漏关键信息。

在本实施例中,所述步骤S102和步骤S103中非法网站的类型包括非法集 资和虚拟货币类型等。

在本实施例中,所述语料库用于存储包含关键词的文件。

参阅图3所示,包括监控模块、存储词库、修改模块、分析模块和输出模 块,

所述监控模块用于对网站中的关键词进行检测,将检测到的关键词添加到 存储词库中;

所述存储词库用于存储网站中的关键词并构建训练样本,对训练样本中的 关键词进行去重,关键词的类别包括理财、众筹、私募、期权、金融创新、网 络借贷、虚拟货币、金融互动和爱心慈善等;

所述修改模块用于对存储词库中的关键词进行增加、修改或删除;

所述分析模块用于将待识别网站的关键词与存储词库中的关键词进行计 算,得到待识别网站属于每一类型的概率;

所述输出模块用于对待识别网站属于每一类型的概率进行显示,便于直观 展示待识别网站所属类型的计算结果。

在实际使用中,通过监控模块对网站中的关键词进行实时监控,将检测到 的关键词添加到存储词库中,不断丰富存储词库,另外,还可以通过手动增加、 修改或删除的方式对存储词库中的关键词进行增加和修订,不断封堵存储词库, 使存储词库的信息具有完整的特点,然后,将待识别网站的关键词与存储词库 中的关键词进行计算,得到待识别网站属于每一类型的概率,基于存储词库的 信息完善的基础上,有利于提高待识别网站属于每一类型的概率,提高目标锁 定的准确率。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明 的权利要求和说明书的范围当中。

相关技术
  • 一种非法网站识别和锁定方法
  • 一种非法网站识别方法、装置、设备及介质
技术分类

06120112623656