一种加权的暗网资源危险评估分类方法及系统

文献发布时间：2023-06-19 10:32:14

技术领域

本发明涉及互联网领域，尤其是涉及一种加权的暗网资源危险评估分类方法及系统。

背景技术

暗网是指不能通过静态链接获取其内容的web页面，这些页面是目前搜索引擎无法直接抓取的网页，且不能直接进行检索的网页，目前用户可以根据暗网域名，利用匿名网络即洋葱路由器(The Onion Router，Tor)进入暗网的页面。

暗网为用户提供了匿名化的服务，在保证用户隐私的同时也助长了犯罪的行为。暗网中包含了大量重要的隐藏数据信息，为了对暗网网站进行安全性检测和评估，现有的暗网资源评估方法是对暗网资源进行分类，然后对不同分类的暗网进行危险等级排列，进而确定某暗网的危险等级；

现有的暗网资源危险评估方法不能准确的体现暗网的危险等级，对于各暗网资源之间的危险等级没有明确的划分。

发明内容

针对上述问题，本发明提供了一种加权的暗网资源危险评估分类方法及系统，通过计算暗网中词汇的TF-IDF值，精确获取暗网中的中心词汇，同时采用一种加权的手段，通过暗网html文件不同标签下的词汇重要程度不同，再次进行重要程度加权，进而进行危险评估和等级划分。

为实现上述目的，本发明提供了一种加权的暗网资源危险评估分类方法，包括：

爬取暗网网址，获取该网址的html文件；

按照所述html文件中的标签提取网站内容；

计算所述网站内容中每个词的TF-IDF值；

预设html文件中各标签的重要程度值；

将每个词的所述TF-IDF值与该词所属标签的重要程度值相乘作为网站的文本特征；

根据网站的文本特征构建网站空间向量；

将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估，输出网站危险等级。

作为本发明的进一步改进，所述html文件中的标签包括title、link、body、 head、h1、b、strong、a href＝“…”和i。

作为本发明的进一步改进，所述预设html文件中各标签的重要程度值，包括：

根据各标签使用位置的不同，设置其标签重要程度值；

标签重要程度值从大到小依次为title>head>h1>body>strong＝b>i> link>ahref＝“…”。

作为本发明的进一步改进，当所述词所属的标签有多个时，计算多个标签的重要程度值平均值作为该词对应标签的重要程度值。

作为本发明的进一步改进，计算所述网站内容中每个词的TF-IDF值，其中每个词不包括应删除词，应删除词不能表示网页的危险程度，应删除词包括"的"、"是"、"和"、"中"、"地"、"得"。

作为本发明的进一步改进，根据网站的文本特征利用word2vec模型构建网站的空间向量。

作为本发明的进一步改进，将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估，输出网站危险等级，包括：

将待评估网站的空间向量输入训练好的空间向量评估分类模型；

所述空间向量评估分类模型评估该网站的危险程度值；

根据预设危险程度值与危险等级的对应关系，输出所述待评估网站的危险等级。

作为本发明的进一步改进，所述危险等级包括特别危险和普通危险。

作为本发明的进一步改进，所述空间向量评估分类模型，训练过程包括：

模型预设各危险等级对应的危险程度值范围；

爬取多个暗网的网址，获取各网址的html文件；

以网址为单位按照所述html文件中的标签提取网站内容；

对各网站内容利用word2vec模型分别构建空间向量；

将各网站的空间向量输入空间向量评估分类模型进行训练；

模型识别空间向量中出现频率在预设频率阈值以上的词汇，形成危险词汇库，作为核心危险词汇；

将所有危险词汇的重要程度值相加，作为网站的危险程度值；

根据危险程度值对应输出危险等级。

本发明还提供了一种如上所述加权的暗网资源危险评估分类方法的系统，其特征在于，包括：信息获取模块、内容提取模块、加权模块、空间向量构建模块、评估分类模块；

所述信息获取模块，用于：

爬取暗网网址，获取该网址的html文件；

所述内容提取模块，用于：

按照所述html文件中的标签提取网站内容；

所述加权模块、用于：

计算所述网站内容中每个词的TF-IDF值；

预设html文件中各标签的重要程度值；

将每个词的所述TF-IDF值与该词所属标签的重要程度值相乘作为网站的文本特征；

所述空间向量构建模块，用于：

根据网站的文本特征构建网站空间向量；

所述评估分类模块，用于：

将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估，输出网站危险等级。

与现有技术相比，本发明的有益效果为：

本发明通过计算暗网中词汇的TF-IDF值，精确获取暗网中的中心词汇，同时采用一种加权的手段，通过暗网html文件不同标签下的词汇重要程度不同，再次进行重要程度加权，进而准确的获取到暗网中相对重要的词汇，进一步的，基于重要的词汇进行评估和分类，相对更加准确，能够满足用户针对特定暗网资源进行分类评估的需求。

附图说明

图1为本发明一种实施例公开的加权的暗网资源危险评估分类方法流程图；

图2为本发明一种实施例公开的加权的暗网资源危险评估分类系统示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

实施例：

如图1所示，本发明提供的一种加权的暗网资源危险评估分类方法，包括：

S1、爬取暗网网址，获取该网址的html文件；

S2、按照html文件中的标签提取网站内容；

其中，

html文件中的标签包括title、link、body、head、h1、b、strong、a href＝“…”和i；

S3、计算网站内容中每个词的TF-IDF值；

进一步的，

每个词不包括应删除词，应删除词不能表示网页的危险程度，应删除词包括"的"、"是"、"和"、"中"、"地"、"得"等三十多个。

S4、预设html文件中各标签的重要程度值；

其中，

根据各标签使用位置的不同，设置其标签重要程度值；

标签重要程度值从大到小依次为title>head>h1>body>strong＝b>i> link>ahref＝“…”。

例如：

S5、将每个词的TF-IDF值与该词所属标签的重要程度值相乘作为网站的文本特征；

其中，

当词所属的标签有多个时，计算多个标签的重要程度值平均值作为该词对应标签的重要程度值。

S6、根据网站的文本特征构建网站空间向量；

其中，

根据网站的文本特征利用word2vec模型构建网站的空间向量。

S7、将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估，输出网站危险等级；

其中，空间向量评估分类模型的训练过程为：

模型预设各危险等级对应的危险程度值范围；

爬取多个暗网的网址，获取各网址的html文件；

以网址为单位按照html文件中的标签提取网站内容；

对各网站内容利用word2vec模型分别构建空间向量；

将各网站的空间向量输入空间向量评估分类模型进行训练；

模型识别空间向量中出现频率在预设频率阈值以上的词汇，形成危险词汇库，作为核心危险词汇；用于模型训练的网站越多，得到的核心危险词汇越精确。

将所有危险词汇的重要程度值相加，作为网站的危险程度值；

根据危险程度值对应输出危险等级；

其中，空间向量评估分类模型对待评估网站的评估过程为：

将待评估网站的空间向量输入训练好的空间向量评估分类模型；

空间向量评估分类模型评估该网站的危险程度值；

根据预设危险程度值与危险等级的对应关系，输出待评估网站的危险等级。

进一步的，危险等级包括特别危险和普通危险。

如图2所示，一种加权的暗网资源危险评估分类方法的系统，包括：信息获取模块、内容提取模块、加权模块、空间向量构建模块、评估分类模块；

信息获取模块，用于：

爬取暗网网址，获取该网址的html文件；

内容提取模块，用于：

按照html文件中的标签提取网站内容；

加权模块、用于：

计算网站内容中每个词的TF-IDF值；

预设html文件中各标签的重要程度值；

将每个词的TF-IDF值与该词所属标签的重要程度值相乘作为网站的文本特征；

空间向量构建模块，用于：

根据网站的文本特征构建网站空间向量；

评估分类模块，用于：

将网站空间向量输入训练好的空间向量评估分类模型进行网站危险等级评估，输出网站危险等级。

本发明的优点：

通过计算暗网中词汇的TF-IDF值，精确获取暗网中的中心词汇，同时采用一种加权的手段，通过暗网html文件不同标签下的词汇重要程度不同，再次进行重要程度加权，进而准确的获取到暗网中相对重要的词汇，进一步的，基于重要的词汇进行评估和分类，相对更加准确，能够满足用户针对特定暗网资源进行分类评估的需求。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：何泾沙;他永君;朱娜斐;
专利申请人：北京工业大学;

上一篇：一种空气源热泵节能型除霜装置
下一篇：一种单分散大粒径二氧化硅微球的制备方法