导航：首页> 计算；推算；计数>一种网络运维系统中基于URL相关性的恶意URL图检测方法

一种网络运维系统中基于URL相关性的恶意URL图检测方法

文献发布时间：2024-04-18 19:52:40

技术领域

本发明涉及智能IT运维的领域，具体涉及一种运维系统中基于节点构图的行为异常检测方法。

背景技术

在网络环境中存在着大量恶意URL，恶意URL检测是网络安全领域中的一个重要任务，对提供网络安全防护、捕捉新型威胁、提高安全意识以及保护整个网络生态系统的安全至关重要。传统的恶意URL检测方法难以发掘URL之间的潜在关系，且常用的URL相关性判断方法比如余弦相似度存在诸多问题。

在网络环境中，现有的绝大多数恶意URL检测方法没有考虑到不同URL之间的关系特征，且传统的相似度计算方法存在诸多不足，以余弦相似度为例：

(1)URL中通常会包含一些参数，但很多毫不相干的URL可能会使用同一个参数，比如“ID”参数被各大网站广泛使用，这些参数会在向量空间上提升两个URL之间的相似度。例如s1＝'de.test.mail.cn'和s2＝'test.de.edu'的相似度只有0.65，而加入了“id”参数之后s1＝'de.test.mail.cn/id＝5'和s2＝'test.de.edu/id＝5'的相似度就提升到了0.78，形成了这两个URL之间的虚假相关性。

(2)在向量空间上面，比如s1＝'www.mail.de'和s2＝'www.mail.online'，可能是“de”和“online”两个域名的邮件服务器，如果“de”和“online”之间没有相关性，那这两个URL就没有相关性，但是在向量空间上它们的相似度却达到了0.84，这是不希望看到的结果。

(3)向量的余弦相似度计算时没有考虑词语的顺序，对于相同词的不同排列组成的URL，比如s1＝'de.test.mail.cn/id＝5'和s2＝'test.mail.de.cn/id＝5'在向量空间上的具有很强的相关性，相似度高达100％，这和完全相同的URL具有同种级别的相似度，会影响构造异质图时边的权重设定。

除此之外，不同于自然语言处理，URL中经常会出现无规则的词语，这些词语通常由注册者自己设定，这意味着词典空间不可能包括所有可能出现的词，某些URL之间将无法计算相似度。再者，余弦相似度的度量结果是分布在[-1,1]之间的连续值，很难给出一个确定的数值作为划分URL是否相关的界限。

发明内容

本发明的目的在于克服现有技术存在的不足，而提供一种网络运维系统中基于URL相关性的恶意URL图检测方法。

本发明的目的是通过如下技术方案来完成的：一种网络运维系统中基于URL相关性的恶意URL图检测方法，该方法包括以下步骤：

(1)、获取运维系统中访问HTTP的日志信息，并提取url字段、ip字段、content字段；

(2)、对每个URL中url字段包含的多条路径进行分割，形成[路径1,路径2…]的形式，作为URL的字符串特征，将字符串特征输入到词嵌入模型中进行训练，获得URL的最终特征表示；

(3)、以URL为节点，根据ip字段、content字段的信息建立URL关系图；

(4)、将URL关系图作为节点关系图，URL的最终特征表示作为节点特征输入到图神经网络中进行训练；

(5)、将需要检测的URL依据上述步骤得到节点特征、URL关系图，输入到训练后的图神经网络中进行恶意URL的检测。

更进一步的，步骤(1)中，url字段，表示用户访问的URL地址；ip字段，表示用户访问的URL对应的IP；content字段，表示用户访问的URL的内容信息。

更进一步的，步骤(3)中，具体方法如下：

(3.1)URL关系图用矩阵

(3.2)对每个URL进行相关性判定，如果节点i,j存在相关性，则a

首先对传入的两个URL进行信息的抽取，包括超文本传输协议、主域名、二级域名、参数；对URL进行相似度计算，如果两者相似度>0.7，则接着对主域名进行判断，如果主域名相同，则两者相关；否则进行恶意URL特点库的检测，如果两个URL都符合URL特点库中某一特点，则判定它们之间具有相关性。

更进一步的，所述相似度计算，步骤如下：

使用content字段，对每个URL的content做词嵌入表示，输出每个URL的content表示向量，按照如下公式计算两两之间的相似度；

其中，i,j分别为两个URL，A

更进一步的，步骤(4)中，具体方法如下：将提取得到的URL特征作为节点特征，URL关系图作为邻接矩阵，URL是否恶意作为标签，非恶意则标记为0，恶意则标记为1，输入到图神经网络中进行训练。

本发明的有益效果为：本发明设计了一种基于图神经网络的恶意URL检测方法，并设计了一种新的URL相似度计算方法，可以有效识别恶意URL。本发明可以更好地判断两个URL是否相关。在考虑不同URL之间的关系后不仅可以增强检测效果，而且可以挖掘未表现出恶意行为的潜在恶意URL。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面将结合附图对本发明做详细的介绍：

如图1所示，本发明提供了一种网络运维系统中基于URL相关性的恶意URL图检测方法，该方法包括以下步骤：

(1)、获取运维系统中访问HTTP的日志信息，日志信息包括url字段、ip字段、content字段；具体方法如下：获取运维系统中访问HTTP的日志信息，并提取url字段、ip字段、content字段，具体说明如下：url字段，表示用户访问的URL地址；ip字段，表示用户访问的URL对应的IP；content字段，表示用户访问的URL的内容信息。Content字段主要用来判断URL之间的相似性，构建关系图。Content字段能够提供更丰富的URL信息，使用它进行相似性判断能够使判断结果更准确。

(2)、提取日志信息中的URL的字符串特征，将其输入到词嵌入模型中获得词嵌入向量；

(2.1)对每条URL的多条路径进行分割，形成[路径1,路径2…]的形式，作为URL的字符串特征。URL的结构是由“协议类型://服务器地址/路径1/路径2…”的形式构成的。

例如：http://job-hunt.org/get@job/Wbo/Uhagva？919122234.html分割后得到[get@job，Wbo，Uhagva？919122234]。分割方法可以依靠工具或编写脚本实现，本发明不作详述。

(2.2)将得到的URL的字符串特征输入词嵌入模型进行训练，得到URL的词嵌入表示，URL的词嵌入表示即作为URL的最终特征表示。例如，上述特征经训练后得到词嵌入表示[0.66,0.897,0.219,0.0087]。词嵌入模型如Word2vec为公知方法，本发明不作详述。

(3)、以URL为节点，根据ip字段、content字段的信息建立URL关系图；

(3.1)URL关系图用矩阵

(3.2)对每个URL进行相关性判定，如果节点i,j存在相关性，则a

所述的URL相关性判断方法说明如下：

(3.2.1)使用日志的content字段，对每个URL的Content做词嵌入表示，输出每个URL的content表示向量，然后按照如下公式计算两两之间的相似度。

其中，i,j分别为两个URL，A

(3.2.2)将提取到的恶意代码内嵌URL和恶意代码的特征分开保存，按照URL的组成，对URL进行解析，提取出超文本传输协议(协议字段)、主域名、二级域名、参数等信息，具体表示为['url','scheme','netloc','domain','subdomain','suffix','path','params','query']，URL解析的方法可以使用工具或者简单的脚本实现，本发明不作详述。

(3.2.3)URL的注册者在设计域名的时候，通常会在命名上反映出个人的习惯。本文在观察中发现某些URL中含有长串连续字符串，比如“EEEEEEEEEEEEEEEEEEE”、“CCCCCCCCCCCCCCCCCC”，由此可以猜测这两个网站出于同一人或同一组织之手。为此本发明添加一条URL的判断性规则：如果出现八个以上连续字符，可认为这两个URL相关。搭建一个URL特点库，每次从URL中发现的一些可以反应出命名者习惯的特点都将加入这个库。

根据以上判定规则，URL相关性分析算法如下：

首先对传入的两个URL进行信息的抽取，包括超文本传输协议、主域名、二级域名、参数等；对URL使用(3.2.1)的公式进行相似度计算，如果两者相似度>0.7，则接着对主域名进行判断，如果主域名相同，则两者相关；否则进行恶意URL特点库的检测，如果两个URL都符合特点库中某一特点，则判定它们之间具有相关性。

(4)、输入节点关系图和节点特征进行训练：将提取得到的URL特征作为节点特征，URL关系图作为邻接矩阵，URL是否恶意作为标签(非恶意则标记为0，恶意则标记为1)输入到图神经网络中进行训练。训练模型，所使用的数据可以包括公开数据集或者实验者收集到的URL数据。这些数据都是已经标记好的，恶意性已知。图神经网络和训练方法均为公知方法，本发明不作详述。

(5)、将需要检测的URL依据上述步骤得到节点特征、URL关系图，输入到训练后的图神经网络中进行恶意URL的检测。

本发明的创新点是利用URL的content字段和ip字段，对余弦相似度判断相关性进行了补充，通过余弦相似度方法构建URL关系图，并将url字段的嵌入向量作为节点属性，利用图神经网络进行恶意URL检测。本发明可以更好地判断两个URL是否相关，Content字段能够提供更多的特征信息，使得URL相似性的判断更加准确。另外，本发明不仅考虑URL本身的属性特征，而且兼顾URL之间的关系特征。在考虑不同URL之间的关系后不仅可以增强检测效果，不仅可以增强检测效果，而且可以挖掘未表现出恶意行为的潜在恶意URL。

可以理解的是，对本领域技术人员来说，对本发明的技术方案及发明构思加以等同替换或改变都应属于本发明所附的权利要求的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：北京广通优云科技股份有限公司;杭州优云软件有限公司;

上一篇：一种低沸点介质不锈钢液罐车及其工作方式
下一篇：考虑有限运输资源和多目标分布式柔性作业车间调度方法