掌桥专利:专业的专利平台
掌桥专利
首页

非法外联检测方法及设备

文献发布时间:2024-04-18 19:58:26


非法外联检测方法及设备

技术领域

本申请涉及通信技术领域,尤其涉及一种非法外联检测方法及设备。

背景技术

一些与互联网隔离的特殊网络,安全措施并没有互联网完善,防范意识比较薄弱,如果将内部主机与互联网进行相连,无疑增加了内部网络的安全隐患。

现有的非法外联系统大多采用黑白名单的模式进行检测,即将用户的外联网络地址或IP与已知的恶意网络地址/IP数据库进行比对,如果命中则判断为非法外联。

但由于恶意网络地址/IP增加速度快,容易出现黑白名单更新不及时导致出现防护漏洞。

发明内容

本申请提供一种非法外联检测方法及设备,根据实际的记录信息生成检测模型,提高了识别外联网络是否非法的准确度和实时性。

第一方面,本申请提供一种非法外联检测方法,包括:

获取外联网络的历史数据,所述历史数据包括多条记录信息,其中,所述记录信息包括外联网络的网络地址、IP地址和非法标签,所述非法标签用于指示所述记录信息是否非法;

对所述多个记录信息进行聚类处理,得到多个聚类簇,其中,每个聚类簇中的记录信息的非法标签一致;待检测记录信息的非法标签与所述待检测记录信息所处的聚类簇的非法标签一致。

在一种可能的设计中,所述对所述多条记录信息进行聚类处理,得到多个聚类簇,包括:

针对每个记录信息,对所述记录信息中的网络地址进行分词处理,得到多个地址分词;

通过GloVe算法对所述多个地址分词和所述IP地址进行向量转换处理,得到多个词向量;

根据所述词向量和所述词向量对应的特征权重,得到记录向量;

对所述多个记录向量进行聚类处理,得到多个聚类簇。

在一种可能的设计中,所述根据所述词向量和所述词向量对应的特征权重,得到记录向量,包括:

获取每个记录信息中每个地址分词的特征权重以及所述IP地址的特征权重;其中,所述特征权重用于指示重要程度;

对每个词向量的第i个元素与各自对应的权重特征进行加权求和,得到所述记录向量中的第i个元素,所述i为正整数。

在一种可能的设计中,所述对所述多个记录向量进行聚类处理,得到多个聚类簇,包括:

随机选择X个记录向量作为初始聚类中心;

遍历每个记录向量,获取各个记录向量到所述聚类中心的最短欧氏距离;

根据所述最短欧氏距离将所述多个记录向量分为X个候选聚类簇,将各所述候选聚类簇中各记录向量的均值向量作为新聚类中心,重复迭代过程,直至得到多个聚类簇,且多个聚类簇中的记录信息的非法标签一致。

在一种可能的设计中,所述重复迭代过程,直至得到多个聚类簇,包括:

重复迭代过程,直至聚类中心的记录向量不变,得到X个候选聚类簇;

判断所述各候选聚类簇中的每个记录向量对应的非法标签是否一致;

若一致,则结束聚类过程,将所述X个候选聚类簇作为所述多个聚类簇;

若不一致,则随机选择M个记录向量作为新的初始聚类中心,重新进行聚类过程,直至得到多个聚类簇,且多个聚类簇中的记录信息的非法标签一致。

在一种可能的设计中,所述重新进行聚类过程,直至得到多个聚类簇,包括:

根据所述记录向量到新的初始聚类中心的最短欧氏距离,获取所述记录向量的被选中概率;

根据每个记录向量的被选中概率,得到新的聚类中心,重复迭代过程直至得到多个聚类簇,其中,所述各记录向量的被选中概率越大,被选为聚类中心的概率越大。

在一种可能的设计中,所述根据所述记录向量到新的初始聚类中心的最短欧氏距离,获取所述记录向量的被选中概率,包括:

获取所有记录向量到新的初始聚类中心的最短欧氏距离的和值;

根据各记录向量到所述新的聚类中心的最短欧氏距离和所述和值的比值,得到所述各记录向量的被选中概率。

在一种可能的设计中,所述根据每个记录向量的被选中概率,得到新的聚类中心,包括:

根据各记录向量的被选中概率,在轮盘上划分多个概率区间,其中,所述各记录向量的被选中概率越大,则对应的概率区间在轮盘上的面积越大;

通过转动轮盘获取被选中的目标概率区间,在所述目标概率区间中随机选择一个记录向量,作为新的聚类中心。

第二方面,本申请提供了另一种非法外联检测方法,包括:

获取待检测记录信息的待检测记录向量;

根据多个聚类簇中每个聚类簇的覆盖范围,获取所述待检测记录向量所属的目标聚类簇;其中,所述多个聚类簇是第一方面中得到的多个聚类簇;

根据所述目标聚类簇的非法标签,判断所述待检测记录向量是否非法;其中,待检测记录向量的非法标签与所述目标聚类簇的非法标签一致。

第三方面,本申请提供了一种非法外联检测设备,包括:

获取模块,用于获取外联网络的历史数据,所述历史数据包括多条记录信息,其中,所述记录信息包括外联网络的网络地址、IP地址和非法标签,所述非法标签用于指示所述记录信息是否非法;

聚类模块,用于对所述多个记录信息进行聚类处理,得到多个聚类簇,其中,每个聚类簇中的记录信息的非法标签一致;待检测记录信息的非法标签与所述待检测记录信息所处的聚类簇的非法标签一致。

在一种可能的设计中,所述聚类模块具体用于:

针对每个记录信息,对所述记录信息中的网络地址进行分词处理,得到多个地址分词;

通过GloVe算法对所述多个地址分词和所述IP地址进行向量转换处理,得到多个词向量;

根据所述词向量和所述词向量对应的特征权重,得到记录向量;

对所述多个记录向量进行聚类处理,得到多个聚类簇。

在一种可能的设计中,所述聚类模块还具体用于:

获取每个记录信息中每个地址分词的特征权重以及所述IP地址的特征权重;其中,所述特征权重用于指示重要程度;

对每个词向量的第i个元素与各自对应的权重特征进行加权求和,得到所述记录向量中的第i个元素,所述i为正整数。

在一种可能的设计中,所述聚类模块还具体用于:

随机选择X个记录向量作为初始聚类中心;

遍历每个记录向量,获取各个记录向量到所述聚类中心的最短欧氏距离;

根据所述最短欧氏距离将所述多个记录向量分为X个候选聚类簇,将各所述候选聚类簇中各记录向量的均值向量作为新聚类中心,重复迭代过程,直至得到多个聚类簇,且多个聚类簇中的记录信息的非法标签一致。

在一种可能的设计中,所述聚类模块还具体用于:

重复迭代过程,直至聚类中心的记录向量不变,得到X个候选聚类簇;

判断所述各候选聚类簇中的每个记录向量对应的非法标签是否一致;

若一致,则结束聚类过程,将所述X个候选聚类簇作为所述多个聚类簇;

若不一致,则随机选择M个记录向量作为新的初始聚类中心,重新进行聚类过程,直至得到多个聚类簇,且多个聚类簇中的记录信息的非法标签一致。

在一种可能的设计中,所述聚类模块还具体用于:

根据所述记录向量到新的初始聚类中心的最短欧氏距离,获取所述记录向量的被选中概率;

根据每个记录向量的被选中概率,得到新的聚类中心,重复迭代过程直至得到多个聚类簇,其中,所述各记录向量的被选中概率越大,被选为聚类中心的概率越大。

在一种可能的设计中,所述聚类模块还具体用于:

获取所有记录向量到新的初始聚类中心的最短欧氏距离的和值;

根据各记录向量到所述新的聚类中心的最短欧氏距离和所述和值的比值,得到所述各记录向量的被选中概率。

在一种可能的设计中,所述聚类模块还具体用于:

根据各记录向量的被选中概率,在轮盘上划分多个概率区间,其中,所述各记录向量的被选中概率越大,则对应的概率区间在轮盘上的面积越大;

通过转动轮盘获取被选中的目标概率区间,在所述目标概率区间中随机选择一个记录向量,作为新的聚类中心。

第四方面,本申请提供了另一种非法外联检测设备,包括:

获取模块,用于获取待检测记录信息的待检测记录向量;

计算模块,用于根据多个聚类簇中每个聚类簇的覆盖范围,获取所述待检测记录向量所属的目标聚类簇;其中,所述多个聚类簇是第三方面中得到的多个聚类簇;

判断模块,用于根据所述目标聚类簇的非法标签,判断所述待检测记录向量是否非法;其中,待检测记录向量的非法标签与所述目标聚类簇的非法标签一致。

第五方面,本发明实施例提供一种非法外联检测设备,包括:至少一个处理器和存储器;

所述存储器存储计算机执行指令;

所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上任一方面中任一种可能实现方式中的非法外联检测方法。

第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上如上任一方面中任一种可能实现方式中的非法外联检测方法。

本实施例提供的非法外联检测方法,通过获取外联网络的历史数据,所述历史数据包括多条记录信息,其中,记录信息包括外联网络的网络地址、IP地址和非法标签,非法标签用于指示所述记录信息是否非法;对所述多个记录信息进行聚类处理,得到多个聚类簇,其中,每个聚类簇中的记录信息的非法标签一致;待检测记录信息的非法标签与待检测记录信息所处的聚类簇的非法标签一致。本实施例通过对记录信息中的主要信息和次要信息赋予不同的权重,按照权重将记录信息转化为记录向量,通过对记录向量进行聚类训练生成分类模型,从而实现根据实际的记录信息生成检测模型,提高了识别外联网络是否非法的准确度和实时性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1是本申请实施例提供的非法外联检测方法流程图一。

图2是本申请实施例提供的非法外联检测方法流程图二。

图3是本申请实施例提供的非法外联检测方法流程图三。

图4是本申请实施例提供的非法外联检测方法流程图四。

图5为本发明实施例提供的非法外联检测设备的结构示意图一。

图6为本发明实施例提供的非法外联检测设备的结构示意图二。

图7为本发明实施例提供的非法外联检测设备的硬件示意图。

通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

针对恶意网络地址/IP增加速度快,容易出现黑白名单更新不及时导致出现防护漏洞这一问题,本发明设计了一种非法外联检测方法,通过对记录信息中的网络地址和IP地址进行精简并对其中的主要信息和次要信息赋予不同的权重,按照权重将记录信息转化为记录向量,通过聚类的方法训练生成分类模型,从而实现根据实际的记录信息生成检测模型,提高识别的准确度和实时性。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。

图1是本申请实施例提供的非法外联检测方法流程图一。如图1所示,该方法包括:

S101、获取外联网络的历史数据,所述历史数据包括多条记录信息,其中,所述记录信息包括外联网络的网络地址、IP地址和非法标签,所述非法标签用于指示所述记录信息是否非法。

在本实施例中,上述外联网络的历史数据可以是从非法外联检测系统中提取的多条记录信息,所述记录信息包括外联网络的网络地址、IP地址和非法标签,其中,一个完整的网络地址遵守如下语法规则:

scheme://host.domain:port/path/filename

其中,scheme指定因特网服务的类型,例如“HTTP”。domain指定因特网域名,例如“crazyit.org”、“fkjava.org”。host指定此域中的主机,例如,HTTP的默认主机是“www”。port指定主机的端口号,例如,HTTP服务的端口号是“80”。path指定远程服务器上的路径,filename指定远程文档的名称,如果省略该文件名,通常会定位到index.html等文件。

IP地址是互联网协议地址,是一个32位的二进制数,通常被分割为4个“8位二进制数”,例如“221.12.33.67”是一个IP地址。非法标签是每条记录信息都具有的一个标签,该标签可以为非法或合法。

S102、对所述多个记录信息进行聚类处理,得到多个聚类簇,其中,每个聚类簇中的记录信息的非法标签一致;待检测记录信息的非法标签与所述待检测记录信息所处的聚类簇的非法标签一致。

在本实施例中,可以通过聚类算法对多条记录信息进行聚类处理,所述聚类算法可以是K-Means聚类算法,也可以是其他聚类算法,本实施例对聚类算法的实现方式不做特别限制。在对多个记录信息进行聚类处理后得到多个聚类簇,每个簇中的记录信息的非法标签一致,例如,一个簇中的记录信息的非法标签全是非法或者全是合法。

在具体实现过程中,当对多个记录信息进行聚类处理得到多个聚类簇后,就可以对新的外联网络进行检测,当进行非法外联检测时,根据新的外联网络的记录信息所处的聚类簇对新的外联网络的记录信息进行非法外联检测判断,例如,当新的外联网络的记录信息处于全是非法记录信息的聚类簇中,则所述新的外联网络被判断为非法。

本实施例提供的非法外联检测方法,通过获取外联网络的历史数据,所述历史数据包括多条记录信息,其中,记录信息包括外联网络的网络地址、IP地址和非法标签,非法标签用于指示所述记录信息是否非法;对所述多个记录信息进行聚类处理,得到多个聚类簇,其中,每个聚类簇中的记录信息的非法标签一致;待检测记录信息的非法标签与待检测记录信息所处的聚类簇的非法标签一致。本实施例通过对记录信息中的主要信息和次要信息赋予不同的权重,按照权重将记录信息转化为记录向量,通过对记录向量进行聚类训练生成分类模型,从而实现根据实际的记录信息生成检测模型,提高了识别外联网络是否非法的准确度和实时性。

图2是本申请实施例提供的非法外联检测方法流程图二。如图2所示,本实施例在上述实施例的基础上,对记录信息的聚类过程进行详细说明。

S201、针对每个记录信息,对所述记录信息中的网络地址进行分词处理,得到多个地址分词。

一条记录信息中包括网络地址,IP地址和非法标签,利用分词器对其中的网络地址部分进行分割,得到多个网络地址单词。例如,针对“http://www.search.com/newtab”这一网址,利用分词器将其分成“http”、“www”、“search”、“com”、“newtab”五个地址分词。

S202、通过GloVe算法对所述多个地址分词和所述IP地址进行向量转换处理,得到多个词向量。

若上述网络地址“http://www.search.com/newtab”对应的IP地址为“221.12.33.67”,利用Glove算法将“http”、“www”、“search”、“com”、“newtab”这五个地址分词与IP地址转化为机器能够识别计算的词向量。例如,转化后的词向量依次为[2,1,5,3,4],[1,0,2,4,3],[1,2,0,3,4],[1,3,5,0,4],[1,5,2,3,4],[2,4,1,3,5],其中,词向量的位数可以为5位,也可以为7位,本实施例对此不做特别限制。

S203、根据所述词向量和所述词向量对应的特征权重,得到记录向量。

在具体实现过程中,得到多个地址分词后,获取每个地址分词以及IP地址对应的特征权重,其中,特征权重用于指示各地址分词的重要程度。示例性地,针对地址分词“http”、“www”、“search”、“com”、“newtab”以及IP地址“221.12.33.67”,根据其特征权重依次赋予其权重为w

其中,S

示例性地,对上述地址分词、IP地址以及对应地权重进行加权求和,则记录信息对应地记录向量为[S

S

重相乘的是每个词向量的第一位,同样的,S

S204、随机选择X个记录向量作为初始聚类中心。

S205、遍历每个记录向量,获取各个记录向量到所述聚类中心的最短欧氏距离。

在本实施例中,在多个记录向量中随机选择X个聚类向量作为初始聚类中心,遍历每个记录向量,计算记录向量到各聚类中心的欧氏距离,其中最小的欧式距离即为该记录向量的最短欧氏距离。

S206、根据所述最短欧氏距离将所述多个记录向量分为X个候选聚类簇,将各所述候选聚类簇中各记录向量的均值向量作为新聚类中心。

具体地,针对一记录向量,将该记录向量归类到该向量的最短欧氏距离对应的聚类中心的聚类簇中,同样的,将所述多个记录向量进行分类得到X个候选聚类簇。然后对每个候选聚类簇中的各记录向量进行平均得到均值向量,将每个候选聚类簇中的均值向量作为新的聚类中心。

S207、重复迭代过程,直至聚类中心的记录向量不变,得到X个候选聚类簇。

在具体实现过程中,若S206中得到的新的聚类中心与原聚类中心一致,则进行S208,若不一致,则重复迭代过程,也就是重新遍历每个记录向量,获取各个记录向量到所述聚类中心的最短欧氏距离,根据最短欧氏距离重新将多个记录向量分为X个候选聚类簇,将各所述候选聚类簇中各记录向量的均值向量作为新聚类中心,直到新的聚类中心与原聚类中心一致。

S208、判断所述各候选聚类簇中的每个记录向量对应的非法标签是否一致,若是,执行S209,若否,执行S210。

S209、结束聚类过程,将所述X个候选聚类簇作为所述多个聚类簇。

S210、更改聚类中心,进行重新聚类。

在本实施例中,当X个候选聚类簇的聚类中心不变后,判断每个候选聚类簇中的记录向量对应的非法标签是否一致,若一致,则结束聚类过程,将X个候选聚类簇作为最终的用于非法外联检测的聚类簇。若不一致,需要更改聚类中心,进行重新聚类,直到每个聚类簇中的记录向量对应的非法标签一致。

图3是本申请实施例提供的非法外联检测方法流程图三。如图3所示,本实施例在上述实施例的基础上,对重新聚类过程进行详细说明。

S301、随机选择M个记录向量作为新的初始聚类中心。

S302、获取所有记录向量到新的初始聚类中心的最短欧氏距离的和值。

S303、根据各记录向量到所述新的聚类中心的最短欧氏距离和所述和值的比值,得到所述各记录向量的被选中概率。

具体地,重新选择聚类中心后,对所有记录向量到新的初始聚类中心的最短欧氏距离进行求和,然后根据各记录向量到新的聚类中心的最短欧氏距离与和值的比值,得到各记录向量的被选中概率。例如,向量k的最短欧氏距离是O(K)

其中,n表示共有n条记录向量,i表示第i个记录向量,O(i)

S304、根据各记录向量的被选中概率,在轮盘上划分多个概率区间,其中,所述各记录向量的被选中概率越大,则对应的概率区间在轮盘上的面积越大。

S305、通过转动轮盘获取被选中的目标概率区间,在所述目标概率区间中随机选择一个记录向量,作为新的聚类中心。

在具体实现过程中,将多个记录向量均分为N组,根据每组中记录向量的被选中概率之和在轮盘上划分多个概率区间,其中,被选中概率之和越大,该组的概率区间在轮盘上的面积越大,通过转动轮盘获取被选中的目标概率区间,然后在目标概率区间中随机选择一条记录向量,作为新的聚类中心。

示例性地,目前有15条记录向量,每条记录向量的被选中概率都不同,将这15条记录向量分平均分为5组,每组有3条记录向量,获取每组记录向量的被选中概率之和以及所有向量的被选中概率之和,根据每组记录向量的被选中概率之和与所有向量的被选中概率之和的比值,在圆盘上划分多个概率区间,其中,概率区间越大,在轮盘上的面积越大。然后通过转动轮盘获取被选中的目标概率区间,在目标概率区间中随机选择一个记录向量,作为新的聚类中心。

S306、重复迭代过程直至得到多个聚类簇,其中,所述各记录向量的被选中概率越大,被选为聚类中心的概率越大。

在具体实现过程中,得到新的聚类中心后,对多个记录向量进行重新聚类,也就是重新执行S205~S208,直至得到的多个聚类簇中,每个聚类簇的各记录信息的非法标签一致。

在本实施例中,通过各记录向量到所述新的聚类中心的最短欧氏距离和所述和值的比值,得到所述各记录向量的被选中概率,根据各记录向量的被选中概率重新选择新的聚类中心,尽可能使得聚类中心更分散,聚类效果更好,最终的非法外联检测结果更准确。

图4是本申请实施例提供的非法外联检测方法流程图四。如图4所示,本实施例是在上述实施例完成之后,对待检测记录信息的检测过程进行说明。

S401、获取待检测记录信息的待检测记录向量。

具体地,将待检测记录信息进行分词处理,得到多个地址分词,然后通过Glove算法将该记录向量的地址分词以及IP地址进行转换,得到多个词向量,然后根据每个地址分词和IP地址的特征权重对每个地址分词和IP地址赋予不同权重,将每个词向量的第i个元素与各自对应的权重特征进行加权求和,得到记录向量中的第i个元素,最终得到一条完整的待检测记录向量。其中,待检测记录向量的获取方式,与上述实施例中的基于历史数据获取的记录向量相同,本实施例在此不再赘述。

S402、根据多个聚类簇中每个聚类簇的覆盖范围,获取所述待检测记录向量所属的目标聚类簇;其中,所述多个聚类簇可以是通过图2实施例得到的聚类簇。

S403、根据所述目标聚类簇的非法标签,判断所述待检测记录向量是否非法;其中,待检测记录向量的非法标签与所述目标聚类簇的非法标签一致。

在本实施例中,根据待检测记录信息的待检测记录向量,判断该记录向量属于哪一个聚类簇的覆盖范围,即可获取待检测记录向量所属的目标聚类簇,然后根据目标聚类簇的非法标签,判断待检测记录向量是否非法,例如,待检测记录向量所属的聚类簇的非法标签为合法,则判断待检测记录信息为合法的记录信息。

本实施例中,针对待检测的记录信息,通过与上述实施例获取历史数据的记录向量的相同方式,获取待检测记录向量;根据上述实施例中得到的多个聚类簇中每个聚类簇的覆盖范围,获取所述待检测记录向量所属的目标聚类簇;根据目标聚类簇的非法标签,判断待检测记录向量是否非法。本实施例利用现有外联网络的记录信息进行聚类处理生成的分类模型,对待检测记录信息进行分类,提高了识别的准确度和实时性,降低了出现防护漏洞的风险。

图5为本发明实施例提供的非法外联检测设备的结构示意图一。如图5所示,该语音端点检测设备50包括:获取模块501、聚类模块502。

获取模块501,用于获取外联网络的历史数据,所述历史数据包括多条记录信息,其中,所述记录信息包括外联网络的网络地址、IP地址和非法标签,所述非法标签用于指示所述记录信息是否非法;

聚类模块502,用于对所述多个记录信息进行聚类处理,得到多个聚类簇,其中,每个聚类簇中的记录信息的非法标签一致;待检测记录信息的非法标签与所述待检测记录信息所处的聚类簇的非法标签一致。

在一种可能的设计中,所述聚类模块502具体用于:

针对每个记录信息,对所述记录信息中的网络地址进行分词处理,得到多个地址分词;

通过GloVe算法对所述多个地址分词和所述IP地址进行向量转换处理,得到多个词向量;

根据所述词向量和所述词向量对应的特征权重,得到记录向量;

对所述多个记录向量进行聚类处理,得到多个聚类簇。

在一种可能的设计中,所述聚类模块502还具体用于:

获取每个记录信息中每个地址分词的特征权重以及所述IP地址的特征权重;其中,所述特征权重用于指示重要程度;

对每个词向量的第i个元素与各自对应的权重特征进行加权求和,得到所述记录向量中的第i个元素,所述i为正整数。

在一种可能的设计中,所述聚类模块502还具体用于:

随机选择X个记录向量作为初始聚类中心;

遍历每个记录向量,获取各个记录向量到所述聚类中心的最短欧氏距离;

根据所述最短欧氏距离将所述多个记录向量分为X个候选聚类簇,将各所述候选聚类簇中各记录向量的均值向量作为新聚类中心,重复迭代过程,直至得到多个聚类簇,且多个聚类簇中的记录信息的非法标签一致。

在一种可能的设计中,所述聚类模块502还具体用于:

重复迭代过程,直至聚类中心的记录向量不变,得到X个候选聚类簇;

判断所述各候选聚类簇中的每个记录向量对应的非法标签是否一致;

若一致,则结束聚类过程,将所述X个候选聚类簇作为所述多个聚类簇;

若不一致,则随机选择M个记录向量作为新的初始聚类中心,重新进行聚类过程,直至得到多个聚类簇,且多个聚类簇中的记录信息的非法标签一致。

在一种可能的设计中,所述聚类模块502还具体用于:

根据所述记录向量到新的初始聚类中心的最短欧氏距离,获取所述记录向量的被选中概率;

根据每个记录向量的被选中概率,得到新的聚类中心,重复迭代过程直至得到多个聚类簇,其中,所述各记录向量的被选中概率越大,被选为聚类中心的概率越大。

在一种可能的设计中,所述聚类模块502还具体用于:

获取所有记录向量到新的初始聚类中心的最短欧氏距离的和值;

根据各记录向量到所述新的聚类中心的最短欧氏距离和所述和值的比值,得到所述各记录向量的被选中概率。

在一种可能的设计中,所述聚类模块502还具体用于:

根据各记录向量的被选中概率,在轮盘上划分多个概率区间,其中,所述各记录向量的被选中概率越大,则对应的概率区间在轮盘上的面积越大;

通过转动轮盘获取被选中的目标概率区间,在所述目标概率区间中随机选择一个记录向量,作为新的聚类中心。

本实施例提供的设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。

图6为本发明实施例提供的非法外联检测设备的结构示意图二。如图6所示,该语音端点检测设备60包括:获取模块601、计算模块602、判断模块603。

获取模块601,用于获取待检测记录信息的待检测记录向量;

计算模块602,用于根据多个聚类簇中每个聚类簇的覆盖范围,获取所述待检测记录向量所属的目标聚类簇;其中,所述多个聚类簇是通过上述实施例所述的方法得到的聚类簇;

判断模块603,用于根据所述目标聚类簇的非法标签,判断所述待检测记录向量是否非法;其中,待检测记录向量的非法标签与所述目标聚类簇的非法标签一致。

本实施例提供的设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。

图7为本发明实施例提供的非法外联检测设备的硬件示意图。如图7所示,本实施例提供的非法外联检测设备70包括:至少一个处理器701和存储器702。该设备70还包括通信部件703。其中,处理器701、存储器702以及通信部件703通过总线704连接。

在具体实现过程中,至少一个处理器701执行所述存储器702存储的计算机执行指令,使得至少一个处理器701执行如上非法外联检测设备训练方法。

处理器701的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。

在上述的图7所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。

总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上非法外联检测方法。

上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备70中。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

相关技术
  • 一种非法文件的检测方法、装置、设备及存储介质
  • 一种微波驱动无极紫外联合催化燃烧处理VOCs气体的方法和设备
  • 非法外联设备检测方法及装置
  • 一种设备非法外联的检测方法及装置
技术分类

06120116495097