掌桥专利:专业的专利平台
掌桥专利
首页

异常检测方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 10:32:14


异常检测方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域,尤其涉及一种异常检测方法、装置、电子设备及存储介质。

背景技术

异常检测是指检测出数据中不符合预期行为模式的数据,这种不符合预期行为模式即被称为异常。异常检测在各行业各领域中有着广泛的应用,比如贷款面审欺诈检测、保险或医疗保健、网络安全入侵检测、铁路运营系统故障检测、公安办案辅助检测等等。目前,实现异常检测的算法或模型已有很多,并且能在一定的条件下达到很不错的效果,但是,其检测的准确度仍有待很高。

发明内容

针对上述问题,本申请提供了一种异常检测方法、装置、电子设备及存储介质,有利于提高单分类问题中异常检测的准确度。

为实现上述目的,本申请实施例第一方面提供了一种异常检测方法,该方法包括:

获取第一数据集;所述第一数据集包括以下中的至少一种:铁路运营故障检测数据、网络安全入侵检测数据、挖掘潜在涉毒人员的通联数据及银行贷款面审数据;

根据所述第一数据集得到至少一个目标聚类簇;

利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应;

获取第二数据集;所述第二数据集与所述第一数据集属于同一类型;

利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

结合第一方面,在一种可能的实现方式中,所述根据所述第一数据集得到至少一个目标聚类簇,包括:

对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇;所述N为大于1的整数;

从第1次至第(N-1)次聚类的所述至少一个聚类簇中确定出所述至少一个目标聚类簇;第1次至第(N-1)次聚类的所述至少一个聚类簇与所述至少一个目标聚类簇一一对应。

结合第一方面,在一种可能的实现方式中,所述对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇,包括:

对所述第一数据集进行第1次聚类,得到第1次聚类的所述至少一个聚类簇;

将第1次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据进行第2次聚类,得到第2次聚类的所述至少一个聚类簇;

将第2次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据执行相同的操作,直至进行第N次聚类,得到第N次聚类的所述至少一个聚类簇。

结合第一方面,在一种可能的实现方式中,从所述N次聚类中任意一次聚类的所述至少一个聚类簇中确定目标聚类簇,包括:

选取所述至少一个聚类簇中各聚类簇之间具有区分度的数据作为区分度指标;所述具有区分度是指各聚类簇之间属于同一维度的数据的差距大于或等于所述同一维度的数据的标准差;

将所述至少一个聚类簇中所述区分度指标大于或等于第一阈值的聚类簇确定为候选目标聚类簇;

获取所述候选目标聚类簇中的数据符合预设规则的比例;

在所述比例大于或等于第二阈值的情况下,将所述候选目标聚类簇确定为目标聚类簇;其中,第N次聚类的所述至少一个聚类簇中不存在目标聚类簇。

结合第一方面,在一种可能的实现方式中,所述至少一个单分类模型采用以下中的任一种构建:单分类支持向量机、孤立森林、支持向量数据描述及深度支持向量数据描述。

结合第一方面,在一种可能的实现方式中,所述预设规则是根据所述第一数据集中的异常数据确定的。

本申请实施例第二方面提供了一种异常检测装置,该装置包括:

第一获取模块,用于获取第一数据集;所述第一数据集包括以下中的至少一种:铁路运营故障检测数据、网络安全入侵检测数据、挖掘潜在涉毒人员的通联数据及银行贷款面审数据;

确定模块,用于根据所述第一数据集得到至少一个目标聚类簇;

构建模块,用于利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应;

第二获取模块,用于获取第二数据集;所述第二数据集与所述第一数据集属于同一类型;

检测模块,用于利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

本申请实施例第三方面提供了一种电子设备,该电子设备包括输入设备和输出设备,还包括处理器,适于实现一条或多条指令;以及,计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如下步骤:

获取第一数据集;所述第一数据集包括以下中的至少一种:铁路运营故障检测数据、网络安全入侵检测数据、挖掘潜在涉毒人员的通联数据及银行贷款面审数据;

根据所述第一数据集得到至少一个目标聚类簇;

利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应;

获取第二数据集;所述第二数据集与所述第一数据集属于同一类型;

利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

本申请实施例第四方面提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:

获取第一数据集;所述第一数据集包括以下中的至少一种:铁路运营故障检测数据、网络安全入侵检测数据、挖掘潜在涉毒人员的通联数据及银行贷款面审数据;

根据所述第一数据集得到至少一个目标聚类簇;

利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应;

获取第二数据集;所述第二数据集与所述第一数据集属于同一类型;

利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

本申请的上述方案至少包括以下有益效果:与现有技术相比,本申请实施例通过获取第一数据集;根据所述第一数据集得到至少一个目标聚类簇;利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;然后获取第二数据集;利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。这样从第一数据集中确定出至少一个目标聚类簇,利用每个目标聚类簇分别建立对应的单分类模型,使得单分类模型可以专注于某一类数据进行异常检测,克服了数据存在多个类别时无法很好地分割出每个类别中的异常点和正常点的问题,采用这样的单分类模型对第二数据集进行异常检测,有利于提高异常检测的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种应用环境的示意图;

图2为本申请实施例提供的一种异常检测方法的流程示意图;

图3为本申请实施例提供的一种从迭代聚类到获取异常检测结果的示意图;

图4为本申请实施例提供的一种选取目标聚类簇的示意图;

图5为本申请实施例提供的另一种异常检测方法的流程示意图;

图6为本申请实施例提供的一种异常检测装置的结构示意图;

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

本申请说明书、权利要求书和附图中出现的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,术语“第一”、“第二”和“第三”等是用于区别不同的对象,而并非用于描述特定的顺序。

本申请实施例提供一种异常检测方法,可基于图1所示的应用环境实施,请参见图1,该应用环境包括终端设备和服务器,终端设备和服务器通过有线或无线网络连接通信,该终端设备用于向服务器提供进行异常检测的数据集,该数据集可以是用于构建单分类模型的样本集,也可以是请求服务器进行分类的应用场景数据,例如:铁路运营系统中的运营数据、公安办案时嫌弃人的通联数据,可选的,该数据集可以是终端设备实时采集的,也可以是用户通过终端设备从本地数据库或第三方数据库获取的,还可以是用户在终端设备上直接输入的,在此不作限定。服务器用于在接收到样本集的情况下,对样本集进行聚类分群,然后从分群结果中选出与异常样本数据分布最接近的最优类,以该最优类构建单分类模型,将最优类从样本集中剔除,对样本集中剩余的数据再进行聚类-找出最优类-构建单分类模型的操作,即采用迭代聚类的方法直至对样本集中剩余的数据进行聚类后无法找出最优类为止,如此,可得到多个单分类模型,每个单分类模型可专注于某一个类别进行分类。在接收到应用场景数据的情况下,服务器可调用这些单分类模型对应用场景数据进行分类,得到与每个单分类模型所专注的类别最接近的数据,该数据即应用场景数据中的异常数据。应当理解的,构建单分类模型所采用的终端设备和服务器,与对应用场景数据进行分类的终端设备和服务器可以相同,也可以不同。

基于图1所示的应用环境,以下结合其他附图对本申请实施例提供的异常检测方法进行详细阐述。

请参见图2,图2为本申请实施例提供的一种异常检测方法的流程示意图,该方法应用于服务器,如图2所示,包括步骤S21-S25:

S21,获取第一数据集。

S22,根据所述第一数据集得到至少一个目标聚类簇。

本申请具体实施例中,第一数据集可以是样本集,通常包括正常数据和异常数据,比如在公共安全领域的涉毒人员挖掘中,第一数据集中可以包括已知涉毒人员的通联数据和未涉毒人员的通联数据、已涉毒人员的消费数据和未涉毒人员的消费数据、已涉毒人员的人脸数据和未涉毒人员的人脸数据,等等,比如在铁路运营故障检测中,第一数据集可以包括列车的故障数据和列车的正常数据,比如在银行贷款面审中,第一数据集可以包括欺诈人员人脸数据和未欺诈人员人脸数据,等等。传统的分类方法通常是基于正常数据进行模型构建,也就是说样本集中正常数据的量远远大于异常数据,但是,在某些领域中,由于隐私保护等各种问题,并不能明确得知哪些是正常数据,此时以正常样本为训练目标的方法往往无法适用,因此,本申请提出的异常检测方法以异常数据为训练目标,在该第一数据集中加入了预设比例的异常数据。

目标聚类簇是指在数据分布上与异常数据的相似程度最大的聚类簇,简而言之就是目标聚类簇中的数据尽可能接近异常数据。在根据所述第一数据集得到至少一个目标聚类簇方面,如图3所示,首先对第一数据集进行聚类,得到至少一个聚类簇,例如:在涉毒人员的挖掘中,若第一数据集被聚类为4个群体,那么说明已知涉毒通联模式被分为了4类,由于聚类后,并不是所有的类别对构建模型都有显著的效果,虽然现有技术中已经提出针对每个类分别构建一个单分类模型,但是聚类效果的好坏会对单分类模型的学习效果造成一定影响,导致分类不佳,此处从该至少一个聚类簇中选出一个目标聚类簇,用于后续构建单分类模型。在选出该目标聚类簇后,将该目标聚类簇从第一数据集中剔除,对第一数据集中剩余的数据再进行聚类,得到至少一个聚类簇,从该至少一个聚类簇中选出一个目标聚类簇,再将该目标聚类簇从第一数据集中剔除,针对第一数据集中剩余的数据重复执行上述操作,直至聚类后的至少一个聚类簇中无法选出目标聚类簇为止,每次聚类后选出的目标聚类簇即构成上述的至少一个目标聚类簇。可选的,对第一数据集进行聚类可以采用K均值聚类算法、模糊C均值聚类算法、核模糊C均值聚类算法等。这样在构建单分类模型前,先对第一数据集进行聚类分群,可以保证每个聚类簇只维持一个类中心,采用只存在一个类中心的目标聚类簇构建单分类模型,使得每个单分类模型仅专注于一个类别进行分类,有利于解决传统的单分类方法无法找到某个超平面能很好的分割所有的异常数据和正常数据的问题。

在一种可能的实现方式中,如图4所示,采用如下方法从聚类后得到的至少一个聚类簇中确定目标聚类簇:

S41,选取所述至少一个聚类簇中各聚类簇之间具有区分度的数据作为区分度指标;

S42,将所述至少一个聚类簇中所述区分度指标大于或等于第一阈值的聚类簇确定为候选目标聚类簇;

S43,获取所述候选目标聚类簇中的数据符合预设规则的比例;

S44,在所述比例大于或等于第二阈值的情况下,将所述候选目标聚类簇确定为目标聚类簇。

本申请具体实施例中,对于聚类后得到的至少一个聚类簇,服务器对各个聚类簇的数据分布进行分析,以确定出差异较为明显的特征数据,即聚类簇之间具有区分度的数据,将该类数据作为选取目标聚类簇的区分度指标,例如:在涉毒人员的挖掘中,聚类簇A与聚类簇B、聚类簇C之间具有区分度的数据是在某时间段通联次数的多少,则可将该时间段的通联次数确定为区分度指标,当聚类簇A中该时间段的通联次数达到第一阈值时,将聚类簇A确定为候选目标聚类簇,第一阈值可根据经验值或实际情况设定。对于候选目标聚类簇,将其数据分布与预设规则进行匹配,以得到候选目标聚类簇符合预设规则的比例,当该比例达到第二阈值的情况下,将该候选目标聚类簇确定为目标聚类簇,第二阈值可根据经验值或实际情况设定。例如:预设规则有10条,聚类簇A中的数据符合其中的8条,其比例达到50%,则认为聚类簇A中的数据已经十分接近已涉毒人员的数据分布,即可将其作为目标聚类簇。可选的,该预设规则是根据第一样本集中的异常数据确定的,例如:已明确知道已涉毒人员在某个时间段的通联次数很高,则可根据该通联次数生成一条规则。可选的,该预设规则包括专家规则和人为规则,专家规则是指对每条数据的标注,比如明确标注出该条数据为已涉毒人员的数据,人为规则是指人为制定、存储在服务器中的规则。这样根据异常数据制定预设规则,通过将候选目标聚类簇与预设规则进行匹配可以找到与异常数据更为接近的类,另外,引入专家规则和人为规则很好地将数据所携带的信息和人为经验结合,有利于使单分类模型学习到更多信息。

在一种可能的实现方式中,所述具有区分度是指各聚类簇之间属于同一维度的数据的差距大于或等于所述同一维度的数据的标准差;所述选取所述至少一个聚类簇中各聚类簇之间具有区分度的数据作为区分度指标,包括:

将各聚类簇之间同一维度的数据进行比较,得到各聚类簇之间所述同一维度的数据的差距;

获取各聚类簇之间所述同一维度的数据的标准差;

在所述差距大于或等于所述标准差的情况下,将所述同一维度的数据确定为具有区分度的数据,并作为所述区分度指标。

具体的,每个聚类簇中可能会存在多个维度的数据,例如:已涉毒人员在某个时间段的通联次数是一个维度、在某个时间段的外出次数是另一个维度,等等,将各聚类簇中同一个维度的数据进行比较,以确定各聚类簇在该维度上的差距,比如聚类簇A和聚类簇B在该维度上的差距,将该差距与各聚类簇之间该维度的数据的标准差进行比较,若该差距大于或等于该标准差,则认为该维度的数据是具有区分度的数据,可以用作选取目标聚类簇的区分度指标。

S23,利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应。

本申请具体实施例中,在步骤S22中每确定出一个目标聚类簇后,便用该目标聚类簇构建单分类模型,例如:在对第一数据集进行第1次聚类后确定出目标聚类簇a,用该目标聚类簇a构建一个单分类模型,对第一数据集中除目标聚类簇a以外的数据进行第2次聚类后确定出目标聚类簇b,用该目标聚类簇b构建一个单分类模型,简而言之就是每个目标聚类簇对应一个单分类模型。可选的,单分类模型可以采用以下中的任一种构建:单分类支持向量机、孤立森林、支持向量数据描述及深度支持向量数据描述,比如,孤立森林可以采用树模型识别出输入数据中的异常数据。

S24,获取第二数据集。

S25,利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

本申请具体实施例中,第二数据集与第一数据集属于同一类型,第二数据集可以是第一数据集,也可以是与第一数据集不同的测试集,或者还可以是应用场景数据,例如:在第一数据集是挖掘潜在涉毒人员的通联数据的情况下,第二数据集也应是已涉毒人员、未涉毒人员和潜在涉毒人员的通联数据。对于该第二数据集,请继续参见图3,将其输入S23中的每个单分类模型,得到每个单分类模型输出的检测结果,对每个单分类模型的检测结果进行聚合,便得到第二数据集最终的异常检测结果,比如第二数据集中哪些是涉毒人员。举例说明,在涉毒人员的挖掘中,假设目标聚类簇a对应的是通联模式a,那么目标聚类簇a构建的单分类模型对第二数据集进行分类可以输出与通联模式a最接近的通联模式,即检测出与目标聚类簇a最接近的异常数据,同理,其他单分类模型也是输出与其专注的类别最接近的异常数据。

在一种可能的实现方式中,所述至少一个单分类模型中的每个单分类模型均有对应的预设异常数据,所述预设异常数据是从所述每个单分类模型对应的目标聚类簇中选出的;所述第二数据集包括正常数据子集和异常数据子集;所述方法还包括:

针对所述至少一个单分类模型中的每个单分类模型,计算所述每个单分类模型的输出结果与所述正常数据子集中每条数据的第一相似度;

计算所述每个单分类模型的输出结果与所述异常数据子集中每条数据的第二相似度;

根据所述第一相似度和所述第二相似度得到所述每个单分类模型的第一评价指标;

计算所述预设异常数据与所述异常数据子集中每条数据的第三相似度;

根据所述第二相似度和所述第三相似度得到所述每个单分类模型的第二评价指标;

根据所述第一评价指标和所述第二评价指标确定所述每个单分类模型的分类效果。

本申请具体实施例中,异常数据子集是指第二数据集中所有异常数据构成的数据集,正常数据子集则是第二数据集中所有异常数据构成的数据集,第一相似度、第二相似度和第三相似度均可采用现有相似度算法得到,例如:余弦相似度、搬土距离、汉明距离等,对第一相似度进行累加求和,得到其求和结果,对第二相似度进行累加求和,得到其求和结果,用第一相似度累加求和的结果减去第二相似度累加求和的结果,然后取绝对值得到上述第一评价指标。采用预设公式:

可以看出,本申请实施例通过获取第一数据集;根据所述第一数据集得到至少一个目标聚类簇;利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;然后获取第二数据集;利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。这样从第一数据集中确定出至少一个目标聚类簇,利用每个目标聚类簇分别建立对应的单分类模型,使得单分类模型可以专注于某一类数据进行异常检测,克服了数据存在多个类别时无法很好地分割出每个类别中的异常点和正常点的问题,采用这样的单分类模型对第二数据集进行异常检测,有利于提高异常检测的准确度。

请参见图5,图5本申请实施例提供的另一种异常检测方法的流程示意图,如图5所示,包括步骤S51-S56:

S51,获取第一数据集;所述第一数据集包括以下中的至少一种:铁路运营故障检测数据、网络安全入侵检测数据、挖掘潜在涉毒人员的通联数据及银行贷款面审数据;

S52,对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇;所述N为大于1的整数;

S53,从第1次至第(N-1)次聚类的所述至少一个聚类簇中确定出至少一个目标聚类簇;第1次至第(N-1)次聚类的所述至少一个聚类簇与所述至少一个目标聚类簇一一对应;

S54,利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应;

S55,获取第二数据集;所述第二数据集与所述第一数据集属于同一类型;

S56,利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

在一种可能的实现方式中,对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇,包括:

对所述第一数据集进行第1次聚类,得到第1次聚类的所述至少一个聚类簇;

将第1次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据进行第2次聚类,得到第2次聚类的所述至少一个聚类簇;

将第2次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据执行相同的操作,直至进行第N次聚类,得到第N次聚类的所述至少一个聚类簇。

其中,相同的操作是指先聚类、然后从第一数据集中剔除的操作,进行N次聚类即迭代聚类的过程,由于在第N次聚类后迭代聚类就停止了,说明第N次聚类的至少一个聚类簇中不存在目标聚类簇,那么至少一个目标聚类簇即是从第1次至第(N-1)次聚类的至少一个聚类簇中确定出的,也即第1次聚类的至少一个聚类簇中确定出一个目标聚类簇、第2次聚类的至少一个聚类簇中确定出一个目标聚类簇……第(N-1)次聚类的至少一个聚类簇中确定出一个目标聚类簇。

其中,步骤S51-S56的具体实施方式在图2-图4所示的实施例中已有相关说明,且能达到相同或相似的有益效果,为避免重复,此处不再赘述。

基于上述异常检测方法实施例的描述,请参见图6,图6为本申请实施例提供的一种异常检测装置的结构示意图,如图6所示,该装置包括:

第一获取模块61,用于获取第一数据集;所述第一数据集包括以下中的至少一种:铁路运营故障检测数据、网络安全入侵检测数据、挖掘潜在涉毒人员的通联数据及银行贷款面审数据;

确定模块62,用于根据所述第一数据集得到至少一个目标聚类簇;

构建模块63,用于利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应;

第二获取模块64,用于获取第二数据集;所述第二数据集与所述第一数据集属于同一类型;

检测模块65,用于利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

在一种可能的实现方式中,在根据所述第一数据集得到至少一个目标聚类簇方面,所述第一获取模块具体用于:

对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇;所述N为大于1的整数;

从第1次至第(N-1)次聚类的所述至少一个聚类簇中确定出所述至少一个目标聚类簇;第1次至第(N-1)次聚类的所述至少一个聚类簇与所述至少一个目标聚类簇一一对应。

在一种可能的实现方式中,在对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇方面,确定模块62具体用于:

对所述第一数据集进行第1次聚类,得到第1次聚类的所述至少一个聚类簇;

将第1次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据进行第2次聚类,得到第2次聚类的所述至少一个聚类簇;

将第2次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据执行相同的操作,直至进行第N次聚类,得到第N次聚类的所述至少一个聚类簇。

在一种可能的实现方式中,在从所述N次聚类中任意一次聚类的所述至少一个聚类簇中确定目标聚类簇方面,确定模块62具体用于:

选取所述至少一个聚类簇中各聚类簇之间具有区分度的数据作为区分度指标;所述具有区分度是指各聚类簇之间属于同一维度的数据的差距大于或等于所述同一维度的数据的标准差;

将所述至少一个聚类簇中所述区分度指标大于或等于第一阈值的聚类簇确定为候选目标聚类簇;

获取所述候选目标聚类簇中的数据符合预设规则的比例;

在所述比例大于或等于第二阈值的情况下,将所述候选目标聚类簇确定为目标聚类簇;其中,第N次聚类的所述至少一个聚类簇中不存在目标聚类簇。

在一种可能的实现方式中,所述至少一个单分类模型采用以下中的任一种构建:单分类支持向量机、孤立森林、支持向量数据描述及深度支持向量数据描述。

在一种可能的实现方式中,所述预设规则是根据所述第一数据集中的异常数据确定的。

根据本申请的一个实施例,图6所示的异常检测装置的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于异常检测装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。

根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的异常检测装置设备,以及来实现本申请实施例的异常检测方法。所述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。

基于上述方法实施例和装置实施例的描述,本申请实施例还提供一种电子设备。请参见图7,该电子设备至少包括处理器71、输入设备72、输出设备73以及计算机存储介质74。其中,电子设备内的处理器71、输入设备72、输出设备73以及计算机存储介质74可通过总线或其他方式连接。

计算机存储介质74可以存储在电子设备的存储器中,所述计算机存储介质74用于存储计算机程序,所述计算机程序包括程序指令,所述处理器71用于执行所述计算机存储介质74存储的程序指令。处理器71(或称CPU(Central Processing Unit,中央处理器))是电子设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。

在一个实施例中,本申请实施例提供的电子设备的处理器71可以用于进行一系列异常检测处理:

获取第一数据集;所述第一数据集包括以下中的至少一种:铁路运营故障检测数据、网络安全入侵检测数据、挖掘潜在涉毒人员的通联数据及银行贷款面审数据;

根据所述第一数据集得到至少一个目标聚类簇;

利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应;

获取第二数据集;所述第二数据集与所述第一数据集属于同一类型;

利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

再一个实施例中,处理器71执行所述根据所述第一数据集得到至少一个目标聚类簇,包括:

对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇;所述N为大于1的整数;

从第1次至第(N-1)次聚类的所述至少一个聚类簇中确定出所述至少一个目标聚类簇;第1次至第(N-1)次聚类的所述至少一个聚类簇与所述至少一个目标聚类簇一一对应。

再一个实施例中,处理器71执行所述对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇,包括:

对所述第一数据集进行第1次聚类,得到第1次聚类的所述至少一个聚类簇;

将第1次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据进行第2次聚类,得到第2次聚类的所述至少一个聚类簇;

将第2次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据执行相同的操作,直至进行第N次聚类,得到第N次聚类的所述至少一个聚类簇。

再一个实施例中,处理器71执行从所述N次聚类中任意一次聚类的所述至少一个聚类簇中确定目标聚类簇,包括:

选取所述至少一个聚类簇中各聚类簇之间具有区分度的数据作为区分度指标;所述具有区分度是指各聚类簇之间属于同一维度的数据的差距大于或等于所述同一维度的数据的标准差;

将所述至少一个聚类簇中所述区分度指标大于或等于第一阈值的聚类簇确定为候选目标聚类簇;

获取所述候选目标聚类簇中的数据符合预设规则的比例;

在所述比例大于或等于第二阈值的情况下,将所述候选目标聚类簇确定为目标聚类簇;其中,第N次聚类的所述至少一个聚类簇中不存在目标聚类簇。

再一个实施例中,所述至少一个单分类模型采用以下中的任一种构建:单分类支持向量机、孤立森林、支持向量数据描述及深度支持向量数据描述。

再一个实施例中,所述预设规则是根据所述第一数据集中的异常数据确定的。

示例性的,上述电子设备可以是服务器、云服务器、计算机主机、服务器集群、分布式系统等,电子设备包括但不仅限于处理器71、输入设备72、输出设备73以及计算机存储介质74。本领域技术人员可以理解,所述示意图仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。

需要说明的是,由于电子设备的处理器71执行计算机程序时实现上述的异常检测方法中的步骤,因此上述异常检测方法的实施例均适用于该电子设备,且均能达到相同或相似的有益效果。

本申请实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是电子设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器71加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器71的计算机存储介质。在一个实施例中,可由处理器71加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关异常检测方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器71加载并执行如下步骤:

获取第一数据集;所述第一数据集包括以下中的至少一种:铁路运营故障检测数据、网络安全入侵检测数据、挖掘潜在涉毒人员的通联数据及银行贷款面审数据;

根据所述第一数据集得到至少一个目标聚类簇;

利用所述至少一个目标聚类簇进行模型构建,得到至少一个单分类模型;所述至少一个单分类模型与所述至少一个目标聚类簇一一对应;

获取第二数据集;所述第二数据集与所述第一数据集属于同一类型;

利用所述至少一个单分类模型对所述第二数据集进行异常检测,得到异常检测结果。

再一种示例中,计算机存储介质中的一条或多条指令由处理器71加载时还执行如下步骤:

对所述第一数据集进行N次聚类,得到每次聚类的至少一个聚类簇;所述N为大于1的整数;

从第1次至第(N-1)次聚类的所述至少一个聚类簇中确定出所述至少一个目标聚类簇;第1次至第(N-1)次聚类的所述至少一个聚类簇与所述至少一个目标聚类簇一一对应。

再一种示例中,计算机存储介质中的一条或多条指令由处理器71加载时还执行如下步骤:

对所述第一数据集进行第1次聚类,得到第1次聚类的所述至少一个聚类簇;

将第1次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据进行第2次聚类,得到第2次聚类的所述至少一个聚类簇;

将第2次聚类的所述至少一个聚类簇中确定出的目标聚类簇从所述第一数据集中剔除;

对所述第一数据集中剩余的数据执行相同的操作,直至进行第N次聚类,得到第N次聚类的所述至少一个聚类簇。

再一种示例中,计算机存储介质中的一条或多条指令由处理器71加载时还执行如下步骤:

选取所述至少一个聚类簇中各聚类簇之间具有区分度的数据作为区分度指标;所述具有区分度是指各聚类簇之间属于同一维度的数据的差距大于或等于所述同一维度的数据的标准差;

将所述至少一个聚类簇中所述区分度指标大于或等于第一阈值的聚类簇确定为候选目标聚类簇;

获取所述候选目标聚类簇中的数据符合预设规则的比例;

在所述比例大于或等于第二阈值的情况下,将所述候选目标聚类簇确定为目标聚类簇;其中,第N次聚类的所述至少一个聚类簇中不存在目标聚类簇。

再一种示例中,所述至少一个单分类模型采用以下中的任一种构建:单分类支持向量机、孤立森林、支持向量数据描述及深度支持向量数据描述。

再一种示例中,所述预设规则是根据所述第一数据集中的异常数据确定的。

示例性的,计算机存储介质的计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是,由于计算机存储介质的计算机程序被处理器执行时实现上述的异常检测方法中的步骤,因此上述异常检测方法的所有实施例均适用于该计算机存储介质,且均能达到相同或相似的有益效果。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

相关技术
  • 异常检测方法和装置、电子设备及计算机可读存储介质
  • 智能网卡的异常检测方法、装置、电子设备及存储介质
技术分类

06120112586911