掌桥专利:专业的专利平台
掌桥专利
首页

异常虚拟拨号设备检测方法、装置及设备

文献发布时间:2024-04-18 19:52:40


异常虚拟拨号设备检测方法、装置及设备

技术领域

本公开涉及通信安全技术领域,具体而言,涉及一种异常虚拟拨号设备检测方法、装置及电子设备。

背景技术

虚拟拨号设备可用于异地网络远程拨号通信。一些虚拟拨号设备用于异常目的,因此需要对其进行检测。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种异常虚拟拨号设备检测方法、装置及电子设备。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一方面,提供一种异常虚拟拨号设备检测方法,包括:获取目标网络流量数据;基于应用层特征对所述目标网络流量数据进行解析,从所述目标网络流量数据中获得会话初始协议SIP会话数据;获取用户上网话单数据;将所述SIP会话数据和所述用户上网话单数据按照用户标识进行关联和整合,获得SIP用户信息清单,所述SIP用户信息清单包括各个待测用户的SIP会话信息和上网话单信息;基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与所述异常用户对应的异常虚拟拨号设备。

根据本公开的一实施例,基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,包括:根据所述各个待测用户的SIP会话信息和上网话单信息获得各个待测用户的特征集,所述特征集包括标准化的多个特征,所述多个特征包括SIP会话特征、网络速率特征以及用户类型特征;基于所述各个待测用户的特征集对各个待测用户进行分类,识别出所述多个待测用户中的异常用户。

根据本公开的一实施例,所述方法还包括:获取历史正常用户的特征集和历史异常用户的特征集;利用所述历史正常用户的特征集和所述历史异常用户的特征集以最小化均方误差为目标对初始随机森林分类模型进行迭代训练,获得训练后的随机森林分类模型;基于所述各个待测用户的特征集对各个待测用户进行分类,识别出所述多个待测用户中的异常用户,包括:基于所述各个待测用户的特征集利用所述训练后的随机森林分类模型对各个待测用户进行分类,识别出所述多个待测用户中的异常用户。

根据本公开的一实施例,所述SIP会话数据包括SIP用户代理标识和服务端IP;基于应用层特征对所述目标网络流量数据进行解析,从所述目标网络流量数据中获得会话初始协议SIP会话数据,包括:基于应用层特征从所述目标网络流量数据中识别出SIP会话;对识别出的SIP会话对应的SIP头域进行解析,获得所述SIP会话数据的SIP用户代理标识和服务端IP;所述SIP会话信息包括SIP用户代理标识和服务端IP;所述多个特征还包括SIP用户代理比对特征和服务端IP比对特征;根据所述各个待测用户的SIP会话信息和上网话单信息获得各个待测用户的特征集,包括:将各个待测用户的SIP用户代理标识与异常用户代理名单进行比对,获得各个待测用户的SIP用户代理比对特征;将各个待测用户的服务端IP与异常服务端IP名单进行比对,获得各个待测用户的服务端IP比对特征。

根据本公开的一实施例,所述SIP会话数据包括被叫号码类型信息;基于应用层特征对所述目标网络流量数据进行解析,从所述目标网络流量数据中获得会话初始协议SIP会话数据,包括:基于应用层特征从所述目标网络流量数据中识别出SIP会话;对识别出的SIP会话对应的被叫号码字段进行解析,获得所述SIP会话数据的被叫号码类型信息;所述SIP会话信息包括被叫号码类型信息;所述多个特征还包括被叫号码离散度特征;根据所述各个待测用户的SIP会话信息和上网话单信息获得各个待测用户的特征集,包括:对各个待测用户的被叫号码类型信息进行字典类型特征提取处理,获得各个待测用户的被叫号码离散度特征。

根据本公开的一实施例,所述SIP会话数据包括SIP会话时间信息和SIP会话大小信息;基于应用层特征对所述目标网络流量数据进行解析,从所述目标网络流量数据中获得会话初始协议SIP会话数据,包括:按照预设SIP请求报文识别规则对所述目标网络流量数据进行解析,获得SIP请求报文识别结果;按照预设SIP响应报文识别规则对所述目标网络流量数据进行解析,获得SIP响应报文识别结果;根据所述SIP请求报文识别结果和所述SIP响应报文识别结果从所述目标网络流量数据中识别出SIP会话;按照SIP会话结束请求识别规则获得识别出的SIP会话的完整信息;对识别出的SIP会话的完整信息进行解析,获得所述SIP会话时间信息和所述SIP会话大小信息。

根据本公开的一实施例,获取目标网络流量数据,包括:采用异常监测系统捕获全网流量数据;将所述全网流量数据去除链路层的头文件信息,提取传输层、网络层、应用层协议信息数据,获得所述目标网络流量数据。

根据本公开的一实施例,所述SIP会话数据包括SIP会话时间信息、服务端IP和端口信息;基于应用层特征对所述目标网络流量数据进行解析,从所述目标网络流量数据中获得会话初始协议SIP会话数据,包括:基于应用层特征从所述目标网络流量数据中识别出SIP会话;对识别出的SIP会话对应的SIP头域进行解析,获得所述SIP会话数据的服务端IP;对识别出的SIP会话进行解析,获得所述SIP会话时间信息和所述端口信息;所述SIP会话信息包括服务端IP、SIP会话时间信息和端口信息;基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与所述异常用户对应的异常虚拟拨号设备,包括:基于各个待测用户的SIP会话信息和上网话单信息识别出所述异常用户;利用溯源系统将所述异常用户的SIP会话信息中的服务端IP、SIP会话时间信息和端口信息关联到宽带装机地址以及相关用户信息,获得所述异常用户对应的异常虚拟拨号设备的位置信息。

根据本公开的再一方面,提供一种异常虚拟拨号设备检测装置,包括:第一获取模块,用于获取目标网络流量数据;流量解析模块,用于基于应用层特征对所述目标网络流量数据进行解析,从所述目标网络流量数据中获得会话初始协议SIP会话数据;第二获取模块,用于获取用户上网话单数据;信息处理模块,用于将所述SIP会话数据和所述用户上网话单数据按照用户标识进行关联和整合,获得SIP用户信息清单,所述SIP用户信息清单包括各个待测用户的SIP会话信息和上网话单信息;异常识别模块,用于基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与所述异常用户对应的异常虚拟拨号设备。

根据本公开的再一方面,提供一种电子设备,包括:存储器、处理器及存储在所述存储器中并可在所述处理器中运行的可执行指令,所述处理器执行所述可执行指令时实现如上述任一种方法。

根据本公开的再一方面,提供一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述任一种方法。

本公开的实施例提供的异常虚拟拨号设备检测方法,通过基于应用层特征对获取的目标网络流量数据进行解析,从目标网络流量数据中获得会话初始协议SIP会话数据,然后将SIP会话数据和用户上网话单数据按照用户标识进行关联和整合,获得包括各个待测用户的SIP会话信息和上网话单信息的SIP用户信息清单,再基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与异常用户对应的异常虚拟拨号设备。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。

图1是根据一示例性实施例示出的一种GOIP通信的典型组网。

图2示出本公开实施例中一种异常虚拟拨号设备检测方法的流程图。

图3示出了图2中所示的步骤S202在一实施例中的处理过程示意图。

图4示出了图2中所示的步骤S204在一实施例中的处理过程示意图。

图5是根据图3和图4示出的一种示例性现网监测程序界面示意图。

图6是根据图3至图5示出的一种SIP会话数据清单输出界面示意图。

图7示出了图2中所示的步骤S210在一实施例中的处理过程示意图。

图8是根据图7示出的一种数据处理过程示意图。

图9示出了图2中所示的步骤S210在另一实施例中的处理过程示意图。

图10是根据图7至图9示出的一种建立异常GOIP设备检测模型的过程示意图。

图11示出了图2中所示的步骤S210在又一实施例中的处理过程示意图。

图12是根据图2、图4和图11示出的一种异常GOID设备溯源流程示意图。

图13是根据图2至图12示出的一种异常GOIP设备检测整体流程示意图。

图14是根据图2至图12示出的一种异常GOIP设备检测系统示意图。

图15示出本公开实施例中一种异常虚拟拨号设备检测装置的框图。

图16示出本公开实施例中另一种异常虚拟拨号设备检测装置的框图。

图17示出本公开实施例中一种电子设备的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。

在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。

GOIP技术,是实现运营商移动信号与互联网SIP(Session initializationProtocol,会话初始协议)相互转换的技术,是目前异常网络通信普遍使用的一种技术。图1是根据一示例性实施例示出的一种GOIP通信的典型组网。异常目的人员102通过GOIP平台104使用SIP协议下发指令至GOIP设备106,GOIP设备106控制卡池内SIM卡将拨号数据传输至基站108拨出电话,例如可以向移动电话110和固定电话112拨出。此种方式具有机卡分离,可以远程通话,支持更加复杂的呼叫控制等特点。本公开实施例中以虚拟拨号设备为GOIP设备为例进行说明,但并不以此为限。

相关技术中异常虚拟拨号设备检测方法基于号码及话单等进行分析,以进行异常判断。GOIP设备由于是将电话信号转为网络信号,通过互联网呼出,并且一台GOIP设备可以控制多个SIM卡,使用基于号码及话单的手段检测GOIP异常难度较大。

本公开提供了一种异常虚拟拨号设备检测方法,通过基于应用层特征对获取的目标网络流量数据进行解析,从目标网络流量数据中获得会话初始协议SIP会话数据,然后将SIP会话数据和用户上网话单数据按照用户标识进行关联和整合,获得包括各个待测用户的SIP会话信息和上网话单信息的SIP用户信息清单,再基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与异常用户对应的异常虚拟拨号设备,可有效检测异常GOIP设备。

图2是根据一示例性实施例示出的一种异常虚拟拨号设备检测方法的流程图。如图2所示的方法例如可以应用于检测异常GOIP设备。

参考图2,本公开实施例提供的方法20可以包括以下步骤。

在步骤S202中,获取目标网络流量数据。

在一些实施例中,可采用异常监测系统捕获全网流量数据,进行处理后保留所有需要的控制信息,具体实施方式可参照图3。

在步骤S204中,基于应用层特征对目标网络流量数据进行解析,从目标网络流量数据中获得会话初始协议SIP会话数据。

在一些实施例中,SIP会话数据可以包括SIP会话时间信息、SIP会话大小信息、被叫号码类型信息、SIP用户代理标识和服务端IP等信息。可通过加载SIP会话识别模块,基于应用层特征从目标网络流量数据中识别出SIP会话,然后提取并输出全量SIP会话数据。具体实施方式可参照图4至图6。

在步骤S206中,获取用户上网话单数据。

在一些实施例中,用户上网话单数据可以包括固定电话用户和移动电话用户上网话单数据。用户上网话单数据可以包括与用户标识对应的上网话单信息,例如网络速率、所有会话流量与时长等等。

在步骤S208中,将SIP会话数据和用户上网话单数据按照用户标识进行关联和整合,获得SIP用户信息清单,SIP用户信息清单包括各个待测用户的SIP会话信息和上网话单信息。

在一些实施例中,可将所得SIP会话数据与移动网用户上网话单、固网用户上网话单的用户属性进行组合解析,获得包括各个待测用户的SIP会话信息和上网话单信息的用户信息清单。可获取大网监测的SIP会话信息中的用户属性特征,包括用户当日SIP会话流量、会话时长、首次会话时间、末次会话时间、被叫号码、设备User agent信息,服务端IP;获取移动网用户和固网用户上网话单信息中的用户属性特征,包括用户类型、用户IP、用户端口、用户上网时间、用户当日总流量、用户上行速率、用户下行速率,将所得SIP会话数据与移动网用户上网话单、固网用户上网话单的用户属性进行组合解析。

例如,可对SIP会话数据、移动网、固网用户上网话单中的用户数据和业务属性(SIP会话流量、速率、SIP会话时间、被叫号码、应用层User Agent、服务端IP)进行关联和整合,形成SIP用户信息库,获得的SIP会话信息可以包括SIP用户代理标识、服务端IP、被叫号码类型信息、SIP会话时间信息和端口信息等等,上网话单信息可以包括网络速率、所有会话流量、会话时长等等。

在步骤S210中,基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与异常用户对应的异常虚拟拨号设备。

在一些实施例中,可根据各个待测用户的SIP会话信息和上网话单信息获得各个待测用户的特征集,特征集可以包括标准化的多个特征,多个特征包括SIP会话特征、网络速率特征以及用户类型特征,然后基于各个待测用户的特征集对各个待测用户进行分类,识别出多个待测用户中的异常用户。

在一些实施例中,SIP会话特征可以包括SIP会话流量占比、会话时长、首次会话时间、末次会话时间等特征。网络速率特征可以包括上行速率、上下行速率比较等特征。多个特征可以还包括SIP用户代理比对特征和服务端IP比对特征。多个特征还包括被叫号码离散度特征。获得各个特征的具体实施方式可参照图7和图8。

例如,可对得到的SIP用户信息库进行提取和清洗,生成训练特征子集,然后使用特征子集数据以及历史异常数据,以最小化均方误差为目标,多次迭代训练,获得最终GOIP异常检测的分类模型,对步骤S208更新后的SIP用户信息库进行识别。分类模型训练的具体实施方式可参照图9和图10。

在一些实施例中,可根据异常用户的SIP会话信息中的服务端IP、SIP会话时间信息和端口信息对异常GOIP设备进行溯源,具体实施方式可参照图11和图12。

根据本公开实施例提供的异常虚拟拨号设备检测方法,基于应用层协议特征,实现大网精确识别SIP会话:通过应用层流量特征多点识别,建立SIP会话信息识别模型,利用现有的大网监测监测系统,实现运营商级全网SIP流量准实时监控能力;多维度组合判断提升GOIP异常设备识别准确率:通过已知的正常业务、异常业务的分析识别,基于SIP协议流量、会话时间、被叫号码、User Agent信息、服务端IP等多维度属性与GOIP异常电话之间的关联,建立GOIP异常识别模型,提升异常判别能力,精确识别异常设备。

图3示出了图2中所示的步骤S202在一实施例中的处理过程示意图。如图3所示,本公开实施例中,上述步骤S202可以进一步包括以下步骤S302至步骤S304。

步骤S302,采用异常监测系统捕获全网流量数据。

在一些实施例中,可接收多个系统的监测数据及日志。

步骤S304,将全网流量数据去除链路层的头文件信息,提取传输层、网络层、应用层协议信息数据,获得目标网络流量数据。

在一些实施例中,可借助固网僵木蠕监测系统和/或移动网移动恶意程序监测系统采集现网流量,去除链路层等的头文件信息,提取传输层、网络层、应用层协议信息数据包并限制大小,确保保留所有需要的控制信息。

相关技术中需新建专用检测系统,占用大量计算资源、部署多个监测点,规模推广难度较大。本公开实施例提供的方法,借助现网僵木蠕和移动恶意程序监测系统的能力即可轻量级实现,整体成本较低。监测点可设置于运营商出口网络侧,确保全网覆盖。

图4示出了图2中所示的步骤S204在一实施例中的处理过程示意图。图4可建立SIP会话信息识别分析模型并加载到大网监测系统上,用于现网流量的SIP会话识别。如图4所示,本公开实施例中,上述步骤S204可以进一步包括以下步骤S402至步骤S414。

步骤S402,按照预设SIP请求报文识别规则对目标网络流量数据进行解析,获得SIP请求报文识别结果。

步骤S404,按照预设SIP响应报文识别规则对目标网络流量数据进行解析,获得SIP响应报文识别结果。

步骤S406,根据SIP请求报文识别结果和SIP响应报文识别结果从目标网络流量数据中识别出SIP会话。

在一些实施例中,可通过SIP请求和响应报文规则组合判断是否为SIP会话。例如,SIP请求报文:SIP Request=Method+Request-URI+SIP-Version,创建请求报文的识别规则:(invite|register|cancel)sip[x09-x0d-~]*sip/[0-2].[0-9];SIP响应报文:SIPResponse=SIP-Version+Status-Code+Reason-Phrase,创建响应报文的识别规则:sip/[0-2].[0-9][1-5][0-9][0-9][a-zA-Z]*。

步骤S408,按照SIP会话结束请求识别规则获得识别出的SIP会话的完整信息。

在一些实施例中,可通过bye请求识别判断一次完整的SIP会话,可使用from tag+to tag+call id作为会话唯一标识。

步骤S410,对识别出的SIP会话对应的被叫号码字段进行解析,获得SIP会话数据的被叫号码类型信息。

在一些实施例中,可解析to tag字段,创建被叫号码识别规则,将号码按类型识别并输出:手机号码、sip序号+手机号码、手机号码+sip序号、固话号码、sip序号+固话号码、固话号码+sip序号,以剔除内网通话。

步骤S412,对识别出的SIP会话对应的SIP头域进行解析,获得SIP会话数据的SIP用户代理标识和服务端IP。

在一些实施例中,可解析SIP Header,获取服务端IP(Internet Protocol,互联网协议)、用户代理(User agent)信息。

步骤S414,对识别出的SIP会话的完整信息进行解析,获得SIP会话时间信息、SIP会话大小信息和端口信息。

在一些实施例中,可解析获得SIP会话时间(例如可以包括会话开始和结束时间)、会话大小(字节,byte)、用户端IP、端口信息。

在一些实施例中,可关联规则形成SIP会话识别模型,输出一次完整的SIP会话信息,包含会话标识、会话开始和结束时间、被叫号码等信息。

例如,输出的SIP会话信息可如下表1所示。

表1

其中,From_to_call id表示会话标识,Start_time表示会话开始时间,End_time表示会话结束时间,Called_num表示被叫号码,Diaglog_byte表示会话大小。

图5是根据图3和图4示出的一种示例性现网监测程序界面示意图。如图5所示,现网僵木蠕程序界面的左侧一栏可选择“日志报表”——>“上网行为日志”,然后可在出现的界面上选择时间,例如“最近6小时”,威胁级别系统,通过选择应用名称“SIP”,加载SIP会话识别模型,然后通过在“批量操作”处选择导出的报表的格式类型,按日输出包含时间、本对端IP(源IP和目的IP)、端口、UA信息、SIP会话信息等的全量SIP会话数据。

图6是根据图3至图5示出的一种SIP会话数据清单输出界面示意图。如图6所示,可按日输出包含时间、源IP、目的IP)、源端口、目的端口、协议信息等的全量SIP会话数据。

根据本公开实施例提供的SIP会话判断识别方法,通过应用层信息特征进行SIP会话判断,与相关技术中通过网络层、传输层等的IP、端口判断的方法相比,可避免其无法适用更换默认SIP端口、使用代理等场景,提高SIP会话识别的准确率。能够解决相关技术中基于上网数据采样、IP及端口的分析方法,无法有效识别语音SIP协议的问题。而且本方法可基于现有的应用层监测技术改造,易于实现。

图7示出了图2中所示的步骤S210在一实施例中的处理过程示意图。如图7所示,本公开实施例中,上述步骤S210可以进一步包括以下步骤。

步骤S702,根据各个待测用户的SIP会话信息和上网话单信息获得各个待测用户的SIP会话特征。

在一些实施例中,SIP会话特征可以包括SIP会话流量占比、会话时长、首次会话时间、末次会话时间等特征。

步骤S704,根据各个待测用户的上网话单信息获得各个待测用户的网络速率特征以及用户类型特征。

在一些实施例中,网络速率特征可以包括上行速率、上下行速率比较等特征。

步骤S706,将各个待测用户的SIP用户代理标识与异常用户代理名单进行比对,获得各个待测用户的SIP用户代理比对特征。

在一些实施例中,可将应用层User Agent与UA异常黑名单关联,输出是否命中UA黑名单库的特征。

步骤S708,将各个待测用户的服务端IP与异常服务端IP名单进行比对,获得各个待测用户的服务端IP比对特征。

在一些实施例中,服务端IP可以包括源IP和目标IP。可以将服务端IP与境外异常GOIP平台情报库进行关联,输出是否命中异常平台情报库的特征。情报库来源例如可以为公安机关案件数据库信息、历史已知黑名单、厂商情报等等。

步骤S710,对各个待测用户的被叫号码类型信息进行字典类型特征提取处理,获得各个待测用户的被叫号码离散度特征。

在一些实施例中,可对被叫号码等类别属性进行字典特征离散化。

在一些实施例中,可对所有特征进行标准化,以保证各特征转换到统一规格,最终形成特征子集:SIP会话流量占比、上行速率、上下行速率比较、用户类型、会话时长、首次会话时间、末次会话时间、被叫号码离散度、设备UA命中UA黑名单、服务端IP命中情报库等。下表2示出了各个特征的字段、数据格式、含义等信息。

表2

图8是根据图7示出的一种数据处理过程示意图。如图8所示,首先对SIP会话数据802、移动网用户上网话单804以及固网用户上网话单806中的用户数据和业务属性(上述SIP会话流量、速率、SIP会话时间、被叫号码、应用层User Agent、服务端IP等等)进行提取和清洗(S8002)。然后将服务端IP与境外异常GOIP平台情报库808进行关联(S8004),输出是否命中异常平台情报库的特征;并将应用层User Agent与UA异常黑名单810关联(S8004),输出是否命中UA黑名单库的特征。然后对被叫号码等类别属性进行字典特征离散化,并对所有特征进行标准化(S8006),以保证各特征转换到统一规格,最终形成特征子集。

相关技术中多通过话单、号码入网特征等方面进行分析,误差相对较大,根据本公开实施例提供的方法,增加SIP会话、应用层UserAgent信息匹配、威胁情报比对等多因素判断,扩大了关联属性,对异常设备判断准确率较高。移动恶意程序监测系统已覆盖5G网络,本公开实施例提供的方法亦可应用于5G网络的SIP会话监测,进一步判定是否涉及GOIP异常等。

图9示出了图2中所示的步骤S210在另一实施例中的处理过程示意图。如图9所示,本公开实施例中,上述步骤S210可以进一步包括以下步骤。

步骤S902,获取历史正常用户的特征集和历史异常用户的特征集。

步骤S904,利用历史正常用户的特征集和历史异常用户的特征集以最小化均方误差为目标对初始随机森林分类模型进行迭代训练,获得训练后的随机森林分类模型。

步骤S906,基于各个待测用户的特征集利用训练后的随机森林分类模型对各个待测用户进行分类,识别出多个待测用户中的异常用户。

图10是根据图7至图9示出的一种建立异常GOIP设备检测模型的过程示意图。如图10所示,可基于集成学习中的随机森林算法1008,对于表2中的特征集1002构造决策树,对正常业务1006赋值为0,对异常业务1004赋值为1,根据最小化均方误差目标,多次迭代训练(S10002),获得最终GOIP异常检测的分类模型1010,可将GOIP异常检测的分类模型1010表示为Y=f(a,b,c,d,e,f,g,h,i,j),即特征集1002对应输入a、b……,输出为该GOIP设备的异常值Y(0为正常,1为异常)。

图11示出了图2中所示的步骤S210在又一实施例中的处理过程示意图。如图11所示,本公开实施例中,上述步骤S210可以进一步包括以下步骤。

步骤S1102,基于各个待测用户的SIP会话信息和上网话单信息识别出异常用户。

步骤S1104,利用溯源系统将异常用户的SIP会话信息中的服务端IP、SIP会话时间信息和端口信息关联到宽带装机地址以及相关用户信息,获得异常用户对应的异常虚拟拨号设备的位置信息。

在一些实施例中,可将获取到的异常用的用户本端IP、端口、时间信息,借助AAA(认证(Authentication)、授权(Authorization)和计费(Accounting))、CRM(CustomerRelationship Management,客户关系管理)等溯源系统溯源关联用户号码/装宽带机地址等信息,输出GOIP设备位置输出GOIP设备位置。解决了相关技术中基于号码和话单分析异常行为的办法,只能定位到基站,无法精确定位GOIP设备的技术问题。

图12是根据图2、图4和图11示出的一种异常GOID设备溯源流程示意图。如图12所示,将SIP会话清单1202关联GOIP异常检测模型1204,输出异常用户清单1206,然后根据异常用户清单1206中时间、本端IP、端口等信息,借助AAA、CRM等溯源系统1208溯源关联宽带装机地址及用户等信息,输出GOIP设备位置1210。

相关技术中依靠监测点部署的方法,对GOIP探测点流量进行分析,覆盖率无法保障。本公开实施例提供的方法通过借助大网出口侧的监测系统实现GOIP监测,做到运营商级网络100%覆盖。当前国内三家主流通信运营商均为综合业务运营商,都同时具备移动网、有线宽带网,本公开实施例的方法对于三家运营商均适用。

图13是根据图2至图12示出的一种异常GOIP设备检测整体流程示意图。如图13所示,异常GOIP设备检测整体流程可以包括以下步骤S1302至步骤S1308。

步骤S1302,建立SIP会话识别模型。

1)分析SIP协议应用层特征;

2)建立SIP会话识别模型。具体实施方式可参照图4。

步骤S1304,现网流量采集分析。

1)借助固网僵木蠕监测系统、移动网移动恶意程序监测系统采集现网流量;具体实施方式可参照图3;

2)加载SIP会话识别模型,识别所有SIP会话信息清单。具体实施方式可参照图4至图6。

步骤S1306,建立GOIP异常识别模型。

1)收集正常GOIP业务、历史已知异常业务,形成样本集;

2)对样本集进行特征工程,提取的特征包括:SIP协议流量占比、应用层UserAgent、被叫号码离散度、使用时段、是否命中威胁情报等;具体实施方式可参照图7和表2;

3)采用随机森林对样本进行训练,形成分类识别模型。具体实施方式可参照图9。

步骤S1308,输出异常用户清单。

1)将现网采集到的SIP会话信息清单与GOIP异常识别模型关联,最终得到异常用户清单;具体实施方式可参照图10。

2)根据异常用户清单,通过AAA、CRM等系统对设备进行定位。

具体实施方式可参照图11。

图14是根据图2至图12示出的一种异常GOIP设备检测系统示意图。如图14所示,该系统可以包括会话数据采集模块1402、用户信息模块1404、情报模块1406、异常判断模块1408和设备溯源模块1410。

会话数据采集模块1402,可用于基于应用层特征,针对SIP会话识别并区分出不同类型的用户会话数据,具体实施方式可参照图4。

用户信息模块1404,可用于基于SIP会话数据、固网和移动网用户上网话单数据,整合出用户信息数据,具体实施方式可参照步骤S208。

情报模块1406,包含UA黑名单库、境外异常GOIP平台信息、历史异常业务信息,可用于步骤S706、步骤S708和步骤S902。

异常判断模块1408,可用于实现上述的训练后的随机森林分类模型,用于根据用户会话及业务属性信息,计算异常的可能性。

设备溯源模块1410,用于对异常业务的IP进行溯源定位,具体实施方式可参照图11和图12。

下面结合具体的应用场景对本公开实施例的技术方案进行进一步说明。

实施例:使用近期存在异常的10000例业务流进行验证,经过本公开实施例提供的训练后的随机森林分类模型分类识别后得到的混淆矩阵及准确率和召回率指标数据如下表3。

表3

其中,TP表示正确预测为异常的数量,TN表示正确预测为正常的数量,FN表示错误预测为正常数量,FP表示错误预测为异常的数量。

准确率:所有预测正确的占总的比重:

精确率:正确预测为异常的占全部预测为异常的比例:

召回率:正确预测为异常的占全部实际为异常的比例:

该模型同时兼顾了分类的精确率Precision和召回率Recall:

可见,该模型的准确率和召回率数值较高,因此模型准确度较高。

图15是根据一示例性实施例示出的一种异常虚拟拨号设备检测装置的框图。参考图15,本公开实施例提供的装置150可以包括第一获取模块1502、流量解析模块1504、第二获取模块1506、信息处理模块1508和异常识别模块1510。

第一获取模块1502可用于获取目标网络流量数据。

流量解析模块1504可用于基于应用层特征对目标网络流量数据进行解析,从目标网络流量数据中获得会话初始协议SIP会话数据。

第二获取模块1506可用于获取用户上网话单数据。

信息处理模块1508可用于将SIP会话数据和用户上网话单数据按照用户标识进行关联和整合,获得SIP用户信息清单,SIP用户信息清单包括各个待测用户的SIP会话信息和上网话单信息。

异常识别模块1510可用于基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与异常用户对应的异常虚拟拨号设备。

图16是根据一示例性实施例示出的另一种异常虚拟拨号设备检测装置的框图。参考图16,本公开实施例提供的装置160可以包括第一获取模块1602、流量解析模块1604、第二获取模块1606、信息处理模块1608、模型建立模块1609、异常识别模块1610。

第一获取模块1602可用于获取目标网络流量数据。

第一获取模块1602还可用于采用异常监测系统捕获全网流量数据;将全网流量数据去除链路层的头文件信息,提取传输层、网络层、应用层协议信息数据,获得目标网络流量数据。

流量解析模块1604可用于基于应用层特征对目标网络流量数据进行解析,从目标网络流量数据中获得会话初始协议SIP会话数据。

SIP会话数据可以包括SIP用户代理标识、服务端IP和端口信息。

SIP会话数据还可以包括被叫号码类型信息。

SIP会话数据还可以包括SIP会话时间信息和SIP会话大小信息。

流量解析模块1604还可用于基于应用层特征从目标网络流量数据中识别出SIP会话;对识别出的SIP会话对应的SIP头域进行解析,获得SIP会话数据的SIP用户代理标识和服务端IP。

流量解析模块1604还可用于基于应用层特征从目标网络流量数据中识别出SIP会话;对识别出的SIP会话对应的被叫号码字段进行解析,获得SIP会话数据的被叫号码类型信息。

流量解析模块1604还可用于按照预设SIP请求报文识别规则对目标网络流量数据进行解析,获得SIP请求报文识别结果;按照预设SIP响应报文识别规则对目标网络流量数据进行解析,获得SIP响应报文识别结果;根据SIP请求报文识别结果和SIP响应报文识别结果从目标网络流量数据中识别出SIP会话;按照SIP会话结束请求识别规则获得识别出的SIP会话的完整信息;对识别出的SIP会话的完整信息进行解析,获得SIP会话时间信息、SIP会话大小信息和和端口信息。

第二获取模块1606可用于获取用户上网话单数据。

信息处理模块1608可用于将SIP会话数据和用户上网话单数据按照用户标识进行关联和整合,获得SIP用户信息清单,SIP用户信息清单包括各个待测用户的SIP会话信息和上网话单信息。

SIP会话信息可以包括SIP用户代理标识和服务端IP。

SIP会话信息还可以包括被叫号码类型信息。

模型建立模块1609可用于获取历史正常用户的特征集和历史异常用户的特征集;利用历史正常用户的特征集和历史异常用户的特征集以最小化均方误差为目标对初始随机森林分类模型进行迭代训练,获得训练后的随机森林分类模型。

异常识别模块1610可用于基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与异常用户对应的异常虚拟拨号设备。

异常识别模块1610还可用于根据各个待测用户的SIP会话信息和上网话单信息获得各个待测用户的特征集,特征集包括标准化的多个特征,多个特征包括SIP会话特征、网络速率特征以及用户类型特征;基于各个待测用户的特征集对各个待测用户进行分类,识别出多个待测用户中的异常用户。

多个特征还可以包括SIP用户代理比对特征和服务端IP比对特征。

多个特征还可以包括被叫号码离散度特征。

异常识别模块1610还可用于将各个待测用户的SIP用户代理标识与异常用户代理名单进行比对,获得各个待测用户的SIP用户代理比对特征;将各个待测用户的服务端IP与异常服务端IP名单进行比对,获得各个待测用户的服务端IP比对特征。

异常识别模块1610还可用于基于各个待测用户的特征集利用训练后的随机森林分类模型对各个待测用户进行分类,识别出多个待测用户中的异常用户。

异常识别模块1610还可用于对各个待测用户的被叫号码类型信息进行字典类型特征提取处理,获得各个待测用户的被叫号码离散度特征。

异常识别模块1610还可用于基于各个待测用户的SIP会话信息和上网话单信息识别出异常用户;利用溯源系统将异常用户的SIP会话信息中的服务端IP、SIP会话时间信息和端口信息关联到宽带装机地址以及相关用户信息,获得异常用户对应的异常虚拟拨号设备的位置信息。

本公开实施例提供的装置中的各个模块的具体实现可以参照上述方法中的内容,此处不再赘述。

图17示出本公开实施例中一种电子设备的结构示意图。需要说明的是,图17示出的设备仅以计算机系统为示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图17所示,设备1700包括中央处理单元(CPU)1701,其可以根据存储在只读存储器(ROM)1702中的程序或者从存储部分1708加载到随机访问存储器(RAM)1703中的程序而执行各种适当的动作和处理。在RAM 1703中,还存储有设备1700操作所需的各种程序和数据。CPU1701、ROM 1702以及RAM 1703通过总线1704彼此相连。输入/输出(I/O)接口1705也连接至总线1704。

以下部件连接至I/O接口1705:包括键盘、鼠标等的输入部分1706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1707;包括硬盘等的存储部分1708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1709。通信部分1709经由诸如因特网的网络执行通信处理。驱动器1710也根据需要连接至I/O接口1705。可拆卸介质1711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1710上,以便于从其上读出的计算机程序根据需要被安装入存储部分1708。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1709从网络上被下载和安装,和/或从可拆卸介质1711被安装。在该计算机程序被中央处理单元(CPU)1701执行时,执行本公开的系统中限定的上述功能。

需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取模块、流量解析模块、第二获取模块、信息处理模块和异常识别模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一获取模块还可以被描述为“采集全网流量的模块”。

作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:

获取目标网络流量数据;基于应用层特征对目标网络流量数据进行解析,从目标网络流量数据中获得会话初始协议SIP会话数据;获取用户上网话单数据;将SIP会话数据和用户上网话单数据按照用户标识进行关联和整合,获得SIP用户信息清单,SIP用户信息清单包括各个待测用户的SIP会话信息和上网话单信息;基于各个待测用户的SIP会话信息和上网话单信息识别出多个待测用户中的异常用户,以检测与异常用户对应的异常虚拟拨号设备。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

技术分类

06120116332945