掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法及数据处理装置

文献发布时间:2023-06-19 10:58:46


数据处理方法及数据处理装置

技术领域

本申请涉及计算机技术领域,尤其涉及数据处理方法及数据处理装置。

背景技术

时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。通常,基于时间序列进行分析适用于大数据业务场景,后续对时间序列的分析结果可以用于对大数据业务场景进行异常检测。

目前,对大数据业务场景进行异常检测方法主要是基于人工经验选取阈值,并基于选取的阈值用于筛选异常数据。现有方案中,需要人工的介入,由于人工介入具有主观性,选取的阈值因人而异,人工选取的阈值在数据波动较大的业务场景中不具有普适性。因此,使得最终筛选的数据不够准确。

发明内容

本申请实施例提出了一种数据处理方法、装置、计算机设备以及存储介质,可以提高上限阈值和下限阈值选取的效率和准确性。

本申请实施例一方面提供了一种数据处理方法,包括:

获取样本数据集合,所述样本数据集合包括的每一组样本数据由标注数据和所述标注数据对应的同比数据组成;

对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,所述聚类处理结果用于指示每一组样本数据所属的聚类类别;

根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,所述目标聚类类别为所述聚类处理结果中满足特定条件的任一聚类类别;

根据各个目标聚类类别所对应的属性参数,确定所述样本数据集合对应的目标上限阈值和目标下限阈值,所述目标上限阈值和所述目标下限阈值用于筛选异常数据。

本申请实施例一方面提供了一种数据处理装置,包括:

获取单元,用于获取样本数据集合,所述样本数据集合包括的每一组样本数据由标注数据和所述标注数据对应的同比数据组成;

处理单元,用于对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,所述聚类处理结果用于指示每一组样本数据所属的聚类类别;

确定单元,用于根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,所述目标聚类类别为所述聚类处理结果中满足特定条件的任一聚类类别;

确定单元,还用于根据各个目标聚类类别所对应的属性参数,确定所述样本数据集合对应的目标上限阈值和目标下限阈值,所述目标上限阈值和所述目标下限阈值用于筛选异常数据。

本申请实施例一方面提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序包括计算机指令,计算机指令存储在计算机可读存储介质中,计算机指令被终端设备的处理器执行时,执行上述各实施例中的方法。

本申请实施例中,计算机设备对样本数据集合中的样本数据进行聚类处理,得到聚类处理结果;然后根据聚类处理结果指示的每一组样本数据所属的聚类类别,确定属于目标聚类类别的样本数据所对应的属性参数,最后,根据各个目标聚类类别所对应的属性参数,确定样本数据集合对应的目标上限阈值和目标下限阈值。相比于基于人工经验选取阈值的方法,本申请不需要人工干预,因此可以提高上下限阈值选取的效率和准确性。进一步地,基于准确性较高的上下限阈值可以更好的筛选异常数据,在筛选异常数据的过程中准确筛选出异常数据。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理系统的结构示意图;

图2是本申请实施例提供的一种数据处理方法的流程示意图;

图3a是本申请实施例提供的一种核心对象的示意图;

图3b是本申请实施例提供的一种聚类类别的示意图;

图4是本申请实施例提供的一种确定属性参数的流程示意图;

图5是本申请实施例提供的另一种数据处理方法的流程示意图;

图6是本申请实施例提供的一种数据处理装置的结构示意图;

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了能够更好地理解本申请实施例,下面对本申请实施例涉及的专业术语进行介绍:

聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。

异常检测:在数据挖掘中,异常检测(anomaly detection)对不匹配预期模式或数据集中其他项目的项目、事件或观测值的识别。

时间序列:时间序列(或称动态数列)是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的深度学习技术。

深度学习(Deep Learning,DL)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本申请中,主要涉及深度技术对样本数据集合中的样本数据进行聚类处理,得到聚类处理结果。然后,计算机设备可以根据聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,目标聚类类别为聚类处理结果中满足特定条件的任一聚类类别;最后,计算机设备根据各个目标聚类类别所对应的属性参数,确定样本数据集合对应的目标上限阈值和目标下限阈值。后续,目标上限阈值和目标下限阈值可以用于筛选异常数据。

在一种可能的实现方式中,本申请实施例提供的方案还基于区块链技术。如本申请所公开的样本数据集合,每一组样本数据(包括标注数据和标注数据对应的同比数据)、样本数据所对应的属性参数、以及目标上限阈值和目标下限阈值等,均可以存储于区块链中。

本申请可应用于如下场景:根据历史数据的波动,高效且低成本的计算判定异常的阈值,来替代人工选定的固定阈值。例如,在QB大资讯业务、看点商业化、应用宝、手Q游戏业务等大盘数据监控中,基于本方案提供的数据处理方法,确定出的目标上限阈值和目标下限阈值可以用于筛选异常数据,筛选出来的异常数据可以用于异常检测模型针对大规模时序指标进行异常检测,可以有效提高了检测效率,并且过滤掉敏感性比较低的样本,提升了检测的准确率。另外,还可以作为异常检测系统的召回策略,帮助过滤出可疑的异常数据,提高检测效率。

请参见图1,图1是本申请实施例提供的一种数据处理系统的结构示意图。该数据处理系统包括服务器140以及终端设备集群,其中,终端设备集群可以包括:终端设备110、终端设备120、...、终端设备130等。终端设备集群与服务器140可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。

图1所示的服务器140可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

图1所示的终端设备110、终端设备120、终端设备130等可以是手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、车辆、路边设备、飞行器、可穿戴设备,例如智能手表、智能手环、计步器等,等具有数据处理功能的智能设备。

以终端设备110为例,终端设备110获取样本数据集合,样本数据集合包括的每一组样本数据由标注数据和所述标注数据对应的同比数据组成。终端设备110将样本数据集合发送至服务器140,服务器140获取到样本数据集合之后,对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,其中,聚类处理结果用于指示每一组样本数据所属的聚类类别。然后,服务器140根据聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,目标聚类类别为所述聚类处理结果中满足特定条件的任一聚类类别;最后,服务器140根据各个目标聚类类别所对应的属性参数,确定样本数据集合对应的目标上限阈值和目标下限阈值。后续,当服务器140获取到终端设备110发送的数据获取请求时,服务器140可以将目标上限阈值和目标下限阈值发送至终端设备110。进一步地,终端设备110可以基于目标上限阈值和目标下限阈值,在大数据业务场景中筛选出异常数据。

在一种可能的实现方式中,终端设备110获取待检测时间序列以及同比时间序列,其中,待检测时间序列由多个标注数据组成,所述同比时间序列由多个同比数据组成,所述待检测时间序列中的多个标注数据与所述同比时间序列中的多个同比数据一一对应;终端设备110根据待检测时间序列以及同比时间序列,确定样本数据集合。

需要说明的是,对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果;根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数;最后根据各个目标聚类类别所对应的属性参数,确定所述样本数据集合对应的目标上限阈值和目标下限阈值的所有操作步骤,并不一定由服务器140来执行,也可以由终端设备110或者终端设备集群中任意的终端设备来执行。或者,根据目标上限阈值和目标下限阈值筛选异常数据,也可以由服务器140来执行而并不需要终端设备110来执行。

在一种可能的实现方式中,本申请所公开的数据处理系统中的服务器140以及终端设备集群可组成为一条区块链,并且服务器140、终端设备110、终端设备120、...、终端设备130等可以为区块链网络中的节点。

可以理解的是,本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。

请参见图2,图2是本申请实施例提供的一种数据处理方法的流程示意图。该方法应用于计算机设备,计算机设备例如可以是智能手机、平板电脑、智能可穿戴设备等等智能终端,计算机设备还可以由计算机设备和服务器协同完成,计算机设备还可以为服务器。如图2所示,该数据处理方法可包括步骤S210~S240。

步骤S210:获取样本数据集合,所述样本数据集合包括的每一组样本数据由标注数据和所述标注数据对应的同比数据组成。

具体实现时,样本数据集合可以包括多组样本数据,多组样本数据中的每一组样本数九由标注数据和标注数据对应的同比数据组成。其中,标注数据可以是在银行、股票、天气等业务场景中获取到的数据,同比数据是与标注数据对应的,同比数据与标注数据之间对应的关系是基于周期来衡量的。例如,周期为一天(即日同比),例如,标注数据为某一天上午11:00基于某一业务指标获取到的数据,则与之对应的同比数据可以为第二天上午11:00基于同一业务指标获取到的数据。又如,周期为一个月(即月同比),例如,标注数据为1月1号上午11:00基于某一业务指标获取到的数据,则与之对应的同比数据可以为2月1号上午11:00基于同一业务指标获取到的数据。

在一种可能的实现方式中,获取样本数据集合中的样本数据可以是在QB大资讯业务、看点商业化、应用宝、手Q游戏业务等大盘数据监控等业务场景中,获取到的数据。即计算机设备可以从QB大资讯业务、看点商业化、应用宝、手Q游戏业务等大盘数据监控场景中获取相应的样本数据集合。

在一种可能的实现方式中,计算机设备获取待检测时间序列以及同比时间序列,其中,待检测时间序列由N个标注数据组成,同比时间序列由N个同比数据组成,待检测时间序列中的N个标注数据与同比时间序列中的N个同比数据一一对应,N为正整数。其中,待检测时间序列是指包括N个标注数据的基于某一统计指标并基于时间发生的先后顺序而组成的动态数列。同理,同比时间序列是指包括N个同比数据的基于同一统计指标并基于时间发生的先后顺序而组成的动态数列。

需要说明的是,待检测时间序列包括的N个标注数据以及同比时间序列包括的N个同比数据均是基于同一统计指标并按照其发生的时间先后顺序排列而成。例如,待检测时间序列可以为X={X1,X2,X3,…,Xn},在X中,X1,X2,X3,…,Xn,是按照时间发生的先后顺序依次排列的,因此X1发生的时间先于X2发生的时间,X2发生的时间先于X3发生的时间等等。又如,待检测时间序列可以为T={T1,T2,T3,…,Tn},在T中,T1,T2,T3,…,Tn,是按照时间发生的先后顺序依次排列的,因此T1发生的时间先于T2发生的时间,T2发生的时间先于T3发生的时间等等。并且,T1与X1之间对应,T2与X2之间对应,...,Tn与Xn之间对应。例如,待检测时间序列可以为某某超市每天的消费额,2300,3200,3402,3492,....。

进一步地,计算机设备根据待检测时间序列以及同比时间序列,确定样本数据集合。具体来说,计算机设备对待检测时间序列进行截取处理,得到由M个标注数据组成的待检测截取时间序列,M为正整数,M小于N;计算机设备对待检测截取时间序列和同比截取时间序列分别进行归一化处理,得到归一化后的待检测截取时间序列和归一化后的同比截取时间序列;计算机设备将归一化后的时间序列和归一化后的同比截取时间序列进行组合,得到样本数据集合,样本数据集合包括M组样本数据,每一组样本数据由归一化后的标注数据和归一化后的标注数据对应的同比数据组成。其中,待检测截取时间序列中的M个标注数据与同比截取时间序列中的M个同比数据一一对应。

举例来说,首先计算机设备对待检测时间序列进行截取处理:截取时间长度为m的连续时间序列,即待检测截取时间序列Xm ={Xn-m-1,Xn-m,Xn-m+1,…,Xn-1};同时截取对应的同比时间序列,即同比截取时间序列Tm = {Tn-m-1,Tn-m,Tn-m+1,…,Tn-1}。然后,对Xm利用如下公式(1.1)进行归一化计算:

其中,公式(1)中,Xmax和Xmin分别是指待检测截取时间序列Xm中的最大标注数据和最小标注数据。并且,n-m-1 <= i <= n-1。其中,m在实际应用过程中通常选取15天。

同理,对Tm利用如下公式(1.2)进行归一化计算:

其中,公式(1)中,Tmax和Tmin分别是指同比截取时间序列Tm中的最大同比数据和最小同比数据。并且,n-m-1 <= i <= n-1。其中,m在实际应用过程中通常选取15天。

然后,将归一化后的待检测截取时间序列记为xm={xn-m-1,xn-m,xn-m+1,…,xn-1};将归一化后的同比截取时间序列记为tm={txn-m-1,tn-m,tn-m+1,…,txn-1}。并且,根据归一化的结果xm和tm组成样本数据集合D={(xn-m-1,tn-m-1),( xn-m,tn-m),( xn-m+1,tn-m+1),…,( xn-1,tn-1)}。样本数据集合中,(xn-m-1,tn-m-1),( xn-m,tn-m)等均称为一组样本数据,每组样本数据由xn-m-1和与之对应的tn-m-1组成。

步骤S220:对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,所述聚类处理结果用于指示每一组样本数据所属的聚类类别。

具体实现时,计算机设备对样本数据集合中的样本数据进行聚类处理具体可以是指利用聚类算法对样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,其中,聚类处理结果用于指示每一组样本数据所属的聚类类别。即聚类处理结果具体可以是样本数据集合对应的一个或者多个聚类类别。

在一种可能的实现方式中,聚类算法可以包括基于距离类的聚类算法或者基于密度类的聚类算法,基于距离类的聚类算法可以包括k-meams聚类算法或者层次聚类算法等,基于密度类的聚类算法可以包括具有噪声的基于密度的空间聚类算法(Density-BasedSpatial Clustering of Applications with Noise,DBSCAN)等。进一步的,k-meams聚类算法可以以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。层次聚类算法可以将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中,或者某个终结条件被满足。DBSCAN算法可以将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。

基于以上分析,本申请采用的聚类算法具体可以是DBSCAN算法(具有噪声的基于密度的聚类方法。它是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般适用于凸样本集的聚类方法相比,DBSCAN既适用凸样本集,也适用非凸样本集,其主要的优点是:

(1)可以对任意形状的稠密数据集锦聚类,相对的,K-Means之类的聚类算法一般适用于凸数据集。

(2)能够识别出噪声点。对离群点有较好的鲁棒性,甚至可以检测离群点。聚类结果无偏移,相对的,K-Means之类的聚类算法初始值对聚类结果有很大影响。

(3)与K-Means比较起来,不需要输入要划分的聚类个数。

具体实现时,DBSCAN算法原理:

输入:样本数据集合D={(xn-m-1,tn-m-1),(xn-m,tn-m),( xn-m+1,tn-m+1),…,( xn-1,tn-1)},邻域参数(Eps,MinPts),样本距离度量公式。

输出:簇划分结果C={Cn-m-1,Cn-m,Cn-m+1,…, Ck}。其中,邻域参数中Eps是指扫描半径,邻域参数中MinPts是指参考样本数。

在一种可能的实现方式中,计算机设备获取扫描半径和参考样本数,其中,扫描半径和参考样本数可以是基于样本数据集合确定的,扫描半径和参考样本数也可以是基于经验设定了固定参数。然后,计算机设备根据扫描半径和参考样本数,针对样本数据集合创建一个或多个样本簇,其中,每个样本簇对应一个核心对象,样本簇所包括的样本数据的组数大于或者等于参考样本数,且所包括的样本数据均处于样本簇所对应的区域范围内,区域范围以核心对象为中心且半径为所述扫描半径。最后,计算机设备基于聚类算法对各个样本簇进行迭代聚类处理,得到聚类处理结果。

举例来说,本申请通过利用DBSCAN算法对样本数据集合中的样本数据进行聚类处理的详细流程,主要如下:

首先,将样本数据聚合中的每组样本数据看做为一个点(称为样本数据点),然后,基于扫描半径和参考样本数,将所有样本数据中的核心对象确定出来。其中,核心对象是指,以某个样本数据点为中心,扫描半径为半径的圆内,所包含的样本数据点的数量大于或者等于参考样本数时,那么该样本数据点即为一个核心对象。通过上述方法,可以根据所有的样本数据点,将所有的核心对象确定出来。请参见图3a,图3a是本申请实施例提供的一种核心对象的示意图。如图3a所示,图3a中的p1,p2,p3,p4,p5,p6均为核心对象,然后分别以p1,p2,p3,p4,p5,p6为中心,扫描半径为半径所对应的区域范围即为样本簇。

进一步地,基于样本数据集合和扫描半径以及参考样本数,首先定义以下概念。

密度直达:如果xi位于xj的邻域(即样本簇对应的区域范围)中,且xj是核心对象,则称xi由xj密度直达。注意反之不一定成立,即此时不能说xj由xi密度直达,除非且xi也是核心对象。

密度可达:对于xi和xj,如果存在样本序列p1,p2,...,pT,满足p1=xi,pT=xj,且pt+1由pt密度直达,则称xj由xi密度可达。也就是说,密度可达满足传递性。此时序列中的传递样本p1,p2,...,pT−1均为核心对象,因为只有核心对象才能使其他样本密度直达。注意密度可达也不满足对称性,这个可以由密度直达的不对称性得出。

密度相连:对于xi和xj,如果存在核心对象样本xk,使xi和xj均由xk密度可达,则称xi和xj密度相连。注意密度相连关系是满足对称性的。

终上所述,对DBSCAN算法总结如下:由密度可达关系导出的最大密度相连的样本集合,即为我们最终聚类的一个聚类类别,或者说一个簇。

具体来说,计算机设备基于聚类算法对各个样本簇进行迭代聚类处理,得到聚类处理结果的过程如下。首先,基于DBSCAN算法通过检查样本数据集合中每个样本数据点的Eps邻域(Eps邻域:给定对象半径Eps内的邻域称为该对象的Eps邻域)来搜索簇,如果点p的Eps邻域包含的点多于MinPts个,则创建一个以p为核心对象的簇;然后,DBSCAN迭代地聚集从这些核心对象直接密度可达的对象,这个过程可能涉及一些密度可达簇的合并;最后,当没有新的点添加到任何簇时,该过程结束。

在一种可能的实现方式中,可以针对样本数据集合设置相应的对于扫描半径和参考样本数。具体来说,Eps的值可以使用绘制k-距离曲线(k-distance graph)方法得到,在k-距离曲线图明显拐点位置为对应较好的参数。若参数设置过小,大部分数据不能聚类;若参数设置过大,多个簇和大部分对象会归并到同一个簇中。其中,k-距离是指:给定数据集P={p(i);i=0;1;…n},对于任意点P(i),计算点P(i)到集合D的子集S={p(1),p(2),…,p(i-1),p(i+1),…,p(n)}中所有点之间的距离,距离按照从小到大的顺序排序,假设排序后的距离集合为D={d(1),d(2),…,d(k-1),d(k),d(k+1),…,d(n)},则d(k)就被称为k-距离。也就是说,k-距离是点p(i)到所有点(除了p(i)点)之间距离第k近的距离。对待聚类集合中每个点p(i)都计算k-距离,最后得到所有点的k-距离集合E={e(1),e(2),…,e(n)}。根据得到的所有点的k-距离集合E,对集合E进行升序排序后得到k-距离集合E’,需要拟合一条排序后的E’集合中k-距离的变化曲线图,然后绘出曲线,通过观察,将急剧发生变化的位置所对应的k-距离的值,确定为半径Eps的值。

MinPts的选取有一个指导性的原则(a rule of thumb),MinPts≥dim+1。其中dim表示待聚类数据的维度。MinPts设置为1是不合理的,因为设置为1,则每个独立点都是一个簇,MinPts≤2时,与层次距离最近邻域结果相同,因此,MinPts必须选择大于等于3的值。若该值选取过小,则稀疏簇中结果由于密度小于MinPts,从而被认为是边界点儿不被用于在类的进一步扩展;若该值过大,则密度较大的两个邻近簇可能被合并为同一簇。因此,该值是否设置适当会对聚类结果造成较大影响。

一般来说,默认的参数设置是Eps=0.3,MinPts=5。

根据基于DBSCAN算法对图3a中所示的样本簇进行迭代聚集的方式,请参见图3b,图3b是本申请实施例提供的一种聚类类别的示意图。最终,通过样本簇的迭代聚集处理,得到如图3b所示的4个聚类类别。当然,图3b中所包括的聚类类别仅仅用于示例,在实际业务场景中,根据具体业务场景的不同,最终计算得到的聚类处理结果,即所包括的聚类类别的数量也不同。

步骤S230:根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,所述目标聚类类别为所述聚类处理结果中满足特定条件的任一聚类类别。

具体实现时,属性参数包括均值和方差。满足特定条件的聚类类别是指:聚类处理结果包括多个聚类类别,每个聚类类别对应的样本数据的组数中非最小组数对应的聚类类别。

在一种可能的实现方式中,计算机设备根据聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数之前,计算机设备根据聚类处理结果,确定各个聚类类别所包括的样本数据的组数;然后,计算机设备根据各个聚类类别所包括的样本数据的组数,将聚类处理结果中满足过滤条件的聚类类别包括的样本数据进行剔除。其中,过滤条件可以是指:所包含的样本数据的组数中最少的组数。

举例来说,假设根据样本数据集合确定的聚类处理结果包括10个聚类类别,每个聚类类别包括一组或多组样本数据。然后,分别获取这10个聚类类别对应的样本数据的组数,假设这10个聚类类别(类别1,类别2,类别3,类别4,类别5,类别6,类别7,类别8,类别9,类别10)分别对应的组数为12,14,11,7,15,8,9,16,20,15。则将包括样本数据的组数为7的聚类类别(即类别4)包括的这7个样本数据进行剔除处理。

在一种可能的实现方式中,计算机设备根据各个聚类类别所包括的样本数据的组数,按照所包括的样本数据的组数从低到高的顺序对各个聚类类别进行排序,将排序排在前M位的聚类类别所包括的样本数据进行剔除。

举例来说,假设根据样本数据集合确定的聚类处理结果包括10个聚类类别,每个聚类类别包括一组或多组样本数据。然后,分别获取这10个聚类类别对应的样本数据的组数,假设这10个聚类类别分别对应的组数为12,14,11,7,15,8,9,16,20,15。然后,将包括样本数据的组数由低到高依次排序后为:7,8,9,11,12,14,15,15,20。若M=3,则将包含样本数据的组数为7对应的类别4,包含样本数据的组数为8对应的类别6,和包含样本数据的组数为9对应的类别7。确定为需要进行剔除处理的聚类类别,然后将这三个聚类类别(类别4,类别6和类别7)的样本数据进行剔除处理。

步骤S240:根据各个目标聚类类别所对应的属性参数,确定所述样本数据集合对应的目标上限阈值和目标下限阈值。

具体实现时,每个目标聚类类别对应有属性参数,然后计算机设备根据各个目标聚类类别所对应的属性参数,可以确定样本数据集合对应的目标上限阈值和目标下限阈值。其中,目标上限阈值和目标下限阈值可以用于筛选异常数据。

在一种可能的实现方式中,计算机设备根据各个目标聚类类别所对应的属性参数,确定各个目标聚类类别对应的参考上限阈值和参考下限阈值。

在一种可能的实现方式中,计算机设备根据各个目标聚类类别所对应的属性参数,可以利用3-Sigma准则计算各个目标聚类类别对应的参考上限阈值和参考下限阈值。其中,3-Sigma准则又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。

具体来说,3-Sigma准则为数值分布在

其中,确定各个目标聚类类别对应的参考上限阈值如公式(2.2)所示:

其中,

当然,需要说明的是,除了利用3-Sigma准则计算各个目标聚类类别对应的参考上限阈值和参考下限阈值之外,本申请还可以采用其它阈值确定方法,例如阈值确定方法包括但不限于:平均数分析、拐点分析、二八法则、四分位分析和标准差等等。

在一种可能的实现方式中,计算机设备根据各个目标聚类类别所对应的属性参数,确定各个目标聚类类别对应的参考上限阈值和参考下限阈值之后。计算机设备将各个目标聚类类别对应的参考上限阈值中阈值最小的参考上限阈值确定为样本数据集合对应的目标上限阈值;以及将各个目标聚类类别对应的参考下限阈值中阈值最小的参考下限阈值确定为样本数据集合对应的目标下限阈值。

举例来说,假设根据上述公式2.1和公式2.2计算得到了每个目标聚类类别分别对应的参考上限阈值和参考下限阈值。假设有6个目标聚类类别,每个聚类类别分别对应的参考上限阈值和参考下限阈值如表1所示:

表1.参考上限阈值和参考下限阈值

然后,根据表1,计算机设备将s1,s2,s3,s4,s5,s6中最小值作为样本数据集合对应的目标上限阈值,将d1,d2,d3,d4,d5,d6中最小值作为样本数据集合对应的目标上限阈值。

在一种可能的实现方式中,计算机设备将各个目标聚类类别对应的参考上限阈值中阈值最小的参考上限阈值确定为样本数据集合对应的目标上限阈值,以及将各个目标聚类类别对应的参考下限阈值中阈值最大的参考下限阈值确定为样本数据集合对应的目标下限阈值。

需要说明的是,通常情况下,采用目标上限阈值和目标下限阈值均选取最小值的方案作为优选方案选取目标上下限阈值。是因为如果在参考下限阈值中选取最大值作为目标下限阈值以及在参考上限阈值中选取最小值作为目标上限阈值的情况下,有可能存在目标下限阈值大于目标上限阈值的情况,这种情况不合理;另外,如果在参考下限阈值中选取最大值作为目标下限阈值以及在参考上限阈值中选取最大值作为目标上限阈值的情况下,对应的范围过大,后续通过目标上限阈值和目标下限阈值用于筛选得到的异常数据不够精确。因此,通过选取参考上限阈值中的最小值作为目标上限阈值以及选取参考下限阈值中的最小值作为目标下限阈值,可以提高筛选异常数据的准确性。

在一种可能的实现方式中,计算机设备将各个目标聚类类别对应的参考上限阈值中阈值最大的参考上限阈值确定为样本数据集合对应的目标上限阈值,以及将各个目标聚类类别对应的参考下限阈值中阈值最小的参考下限阈值确定为样本数据集合对应的目标下限阈值。或者,计算机设备将各个目标聚类类别对应的参考上限阈值中阈值最大的参考上限阈值确定为样本数据集合对应的目标上限阈值,以及将各个目标聚类类别对应的参考下限阈值中阈值最大的参考下限阈值确定为样本数据集合对应的目标下限阈值。

需要说明的是,在选取目标上限阈值和目标下限阈值的过程中,若目标下限阈值大于目标上限阈值,则可以换一种选择方式,使得目标下限阈值小于目标上限阈值。通常情况下,优先选取第一种方案作为优选方案选取目标上下限阈值。

举例来说,在一些基于时间序列的业务领域中,例如医学分析,天气预报,股票预测等领域。可以通过本申请提供的方案,通过获取历史数据,然后对未来数据进行数据监控和异常检测。例如,在股票预测场景中,通过本方案可以获取过去一年内的某种股票的样本数据集合,然后,基于本申请实施例提供的数据处理方案,可以针对该种类型的股票自适应的确定出对应的目标上限阈值和目标下限阈值。基于目标上限阈值和目标下限阈值,可以对该种类型的股票未来的数据波动(例如股票走势等)进行风险预测,从而可以基于风险预测结果避免盲目的股票炒卖等等。当然,针对复杂的无明显规律性质的数据:也可以通过本申请的方案将获取到的样本数据集合中的异常数据筛选出来,后续,筛选得到的异常数据可以用于异常检测模型进行检测,或者用于对异常检测模型的训练样本数据。另外,针对周期性或者规律性较强的数据而言,通过本申请的方案可以直接筛选出异常数据,并进行剔除处理。

通过本申请实施例所提供的数据处理方法,比于基于人工经验选取阈值的方法,本申请不需要人工干预,因此可以提高阈值选取的处理效率;另外,本申请根据每个目标聚类类别对应的属性参数从而确定目标上限阈值和目标下限阈值,还可以提高筛选异常数据的准确性。基于聚类的阈值选择方法可以省去固定阈值的维护成本,同时也可以将得到的结果应用于异常检测中,对经过智能阈值初筛后的样本进行检测,能有效提高检测效率(无需对所有样本进行检测,只需要对可疑样本进行检测),并且提升异常检测模型的准确率。

请参见图4,图4是本申请实施例提供的一种确定属性参数的流程示意图。该方法应用于计算机设备,图4实施例为图2实施例中步骤S230对应的一个具体实施例。如图4所示,该数据处理方法可包括步骤S410~S440。

步骤S410:根据所述聚类处理结果,确定各个聚类类别所包括的样本数据的组数。

在一种可能的实现方式中,举例来说,假设根据样本数据集合确定的聚类处理结果包括10个聚类类别,每个聚类类别包括一组或多组样本数据。然后,分别获取这10个聚类类别对应的样本数据的组数,例如:这10个聚类类别(类别1,类别2,类别3,类别4,类别5,类别6,类别7,类别8,类别9,类别10)分别对应的组数为12,14,11,7,15,8,9,16,20,15。

步骤S420:根据各个聚类类别所包括的样本数据的组数,将所述聚类处理结果中满足过滤条件的聚类类别所包括的样本数据进行剔除。

其中,过滤条件是指:由低到高/由高到低排序后的各个聚类类别中的指定位置处。或者,聚类类别所包括的样本数据的组数小于或者等于参考数量阈值。

在一种可能的实现方式中,计算机设备根据各个聚类类别所包括的样本数据的组数,按照所包括的样本数据的组数从低到高的顺序对各个聚类类别进行排序,将排序排在前M位的聚类类别所包括的样本数据进行剔除。

举例来说,假设根据样本数据集合确定的聚类处理结果包括10个聚类类别,每个聚类类别包括一组或多组样本数据。然后,分别获取这10个聚类类别对应的样本数据的组数,假设这10个聚类类别分别对应的组数为12,14,11,7,15,8,9,16,20,15。然后,将包括样本数据的组数由低到高依次排序后为:7,8,9,11,12,14,15,15,16,20。若M=3,则将包含样本数据的组数为7对应的类别4,包含样本数据的组数为8对应的类别6,和包含样本数据的组数为9对应的类别7。确定为需要进行剔除处理的聚类类别,然后将这三个聚类类别(类别4,类别6和类别7)的样本数据进行剔除处理。

在一种可能的实现方式中,计算机设备根据各个聚类类别所包括的样本数据的组数,按照所包括的样本数据的组数从高到低的顺序对各个聚类类别进行排序,将排序排在前M位的聚类类别所包括的样本数据进行剔除。

举例来说,假设根据样本数据集合确定的聚类处理结果包括10个聚类类别,每个聚类类别包括一组或多组样本数据。然后,分别获取这10个聚类类别对应的样本数据的组数,假设这10个聚类类别分别对应的组数为12,14,11,7,15,8,9,16,20,15。然后,将包括样本数据的组数由高到低依次排序后为:20,16,15,15,14,12,11,9,8,7。若M=2,则将包含样本数据的组数为20对应的类别10,包含样本数据的组数为16对应的类别9确定为需要进行剔除处理的聚类类别,然后将这两个聚类类别(类别9和类别6)的样本数据进行剔除处理。

在一种可能的实现方式中,计算机设备将各个聚类类别由高到低排序后的指定位置处的聚类类别所包括的样本数据进行剔除处理。或者,计算机设备将各个聚类类别由低到高排序后的指定位置处的聚类类别所包括的样本数据进行剔除处理。指定位置可以具体包括:前X位和后Y位。其中,X和Y均为正整数,并且X和Y之间可以相同,也可以不相同;并且X和Y相加之后的值小于聚类类别的总数量。例如,将由高到低(或者由低到高)排序后的10个聚类类别中的前1位和后2位的聚类类别所包括的样本数据进行剔除。

当然,指定位置还可以包括:第Z位,其中Z为正整数,并且Z小于或者等于聚类类别的总数量。例如,将由高到低(或者由低到高)排序后的10个聚类类别中的第3位的聚类类别所包括的样本数据进行剔除。

在一种可能的实现方式中,计算机设备根据各个聚类类别所包括的样本数据的组数,将所包括的样本数据的组数小于或者等于参考数量阈值的聚类类别所包括的样本数据进行剔除。例如,10个聚类类别分别对应的组数为12,14,11,7,15,8,9,16,20,15。参考数量阈值为10,则计算机设备将包含样本数据的组数为7对应的类别4,包含样本数据的组数为8对应的类别6,和包含样本数据的组数为9对应的类别7确定为需要进行剔除处理的聚类类别,然后将这三个聚类类别(类别4,类别6和类别7)的样本数据进行剔除处理。

需要说明的是,可以根据具体业务场景的不同选择合适的过滤条件,本申请实施例并不限定过滤条件。

步骤S430:根据所述聚类处理结果,计算属于目标聚类类别的样本数据所包括的同比数据的均值和方差。

具体实现时,目标聚类类别是指根据样本数据集合确定的聚类处理结果中所包括的所有聚类类别中,不满足过滤条件的任一聚类类别。例如,10个聚类类别(类别1,类别2,类别3,类别4,类别5,类别6,类别7,类别8,类别9,类别10)分别对应的组数为12,14,11,7,15,8,9,16,20,15。则不满足过滤条件的目标聚类类别包可以包括:类别1,类别2,类别3,类别5,类别6,类别7,类别8,类别9,类别10。当然,过滤条件也可以是:所包含的样本数据的组数中由低到高排序得到的前M个组数。其中,过滤条件可以是指:所包含的样本数据的组数中最少的组数。当然,若M=3,则不满足过滤条件的目标聚类类别也可以包括:类别1,类别2,类别3,类别5,类别8,类别9,类别10。

在一种可能的实现方式中,假设目标聚类类别所包括的样本数据为(x1,t1),(x2,t2),(x3,t3),(x4,t4),(x5,t5)。则均值计算公式如公式(3.1)所示:

方差计算公式如公式(3.2)所示:

其中,公式3.1和公式3.2中的N是指样本数据的组数。

然后,计算机设备根据均值计算公式和方差计算公式,计算得到目标聚类类别包括的样本数据中的同比数据的均值和方差。

具体来说,根据公式3.1得到目标聚类类别的均值如公式(4.1)所示:

根据公式3.2,得到目标聚类类别的方差如公式(4.2)所示:

又如,假设目标聚类类别所包括的样本数据为(x7,t7),(x8,t8),(x9,t9),(x11,t11),(x12,t12),(x13,t13)。则计算机设备根据均值计算公式和方差计算公式,计算得到目标聚类类别包括的样本数据中的同比数据的均值和方差。

具体来说,根据公式3.1得到目标聚类类别的均值如公式(4.3)所示:

根据公式3.2,得到目标聚类类别的方差如公式(4.4)所示:

步骤S440:将所述均值和所述方差作为属于所述目标聚类类别的样本数据所对应的属性参数。

在一种可能的实现方式中,基于以上分析,可以将各个目标聚类类别分别对应的均值和方差均计算出来。然后,将目标聚类类别对应的均值和方差作为属于目标聚类类别的样本数据所对应的属性参数。

请参见图5,图5是本申请实施例提供的另一种数据处理方法的流程示意图。该方法应用于计算机设备,计算机设备例如可以是智能手机、平板电脑、智能可穿戴设备等等智能终端,计算机设备还可以由计算机设备和服务器协同完成,计算机设备还可以为服务器。如图5所示,该数据处理方法可包括步骤S510~S560。

步骤S510:样本的同比值和真值归一化。

具体实现时,计算机设备获取样本数据集合,样本数据集合包括的每一组样本数据由标注数据和标注数据对应的同比数据组成。

在一种可能的实现方式中,样本数据集合可以包括多组样本数据,多组样本数据中的每一组样本数九由标注数据和标注数据对应的同比数据组成。其中,标注数据可以是在银行、股票、天气等业务场景中获取到的数据,同比数据是与标注数据对应的,同比数据与标注数据之间对应的关系是基于周期来衡量的。例如,周期为一天(即日同比),例如,标注数据为某一天上午11:00基于某一业务指标获取到的数据,则与之对应的同比数据可以为第二天上午11:00基于同一业务指标获取到的数据。又如,周期为一个月(即月同比),例如,标注数据为1月1号上午11:00基于某一业务指标获取到的数据,则与之对应的同比数据可以为2月1号上午11:00基于同一业务指标获取到的数据。

在一种可能的实现方式中,计算机设备获取待检测时间序列以及同比时间序列,其中,待检测时间序列由N个标注数据组成,同比时间序列由N个同比数据组成,待检测时间序列中的N个标注数据与同比时间序列中的N个同比数据一一对应,N为正整数。其中,待检测时间序列是指包括N个标注数据的基于某一统计指标并基于时间发生的先后顺序而组成的动态数列。同理,同比时间序列是指包括N个同比数据的基于同一统计指标并基于时间发生的先后顺序而组成的动态数列。

进一步地,计算机设备根据待检测时间序列以及同比时间序列,确定样本数据集合。具体来说,计算机设备对待检测时间序列进行截取处理,得到由M个标注数据组成的待检测截取时间序列,M为正整数,M小于N;计算机设备对待检测截取时间序列和同比截取时间序列分别进行归一化处理,得到归一化后的待检测截取时间序列和归一化后的同比截取时间序列;计算机设备将归一化后的时间序列和归一化后的同比截取时间序列进行组合,得到样本数据集合,样本数据集合包括M组样本数据,每一组样本数据由归一化后的标注数据和归一化后的标注数据对应的同比数据组成。其中,待检测截取时间序列中的M个标注数据与同比截取时间序列中的M个同比数据一一对应。

步骤S520:通过聚类算法得到分类结果。

具体实现时,计算机设备对样本数据集合中的样本数据进行聚类处理具体可以是指利用聚类算法对样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,其中,聚类处理结果用于指示每一组样本数据所属的聚类类别。即聚类处理结果具体可以是样本数据集合对应的一个或者多个聚类类别。

在一种可能的实现方式中,聚类算法可以包括基于距离类的聚类算法或者基于密度类的聚类算法,基于距离类的聚类算法可以包括k-meams聚类算法或者层次聚类算法等,基于密度类的聚类算法可以包括具有噪声的基于密度的空间聚类算法(Density-BasedSpatial Clustering of Applications with Noise,DBSCAN)等。

步骤S530:过滤掉包含样本数量最小的类别。

在一种可能的实现方式中,因为聚类模型会将数据分为正常波动类别和异常波动类别,而异常波动的类别所包含的样本数量相对少,阈值的计算依赖正常波动类别的样本值。因此,计算机设备根据聚类处理结果,确定各个聚类类别所包括的样本数据的组数。然后,计算机设备根据各个聚类类别所包括的样本数据的组数,将聚类处理结果中满足过滤条件的聚类类别所包括的样本数据进行剔除。

在一种可能的实现方式中,计算机设备根据各个聚类类别所包括的样本数据的组数,按照所包括的样本数据的组数从低到高的顺序对各个聚类类别进行排序,将排序排在前M位的聚类类别所包括的样本数据进行剔除。

步骤S540:计算其余每个类样本的同比值均值和方差。

具体实现时,每个目标聚类类别对应有属性参数,然后计算机设备根据各个目标聚类类别所对应的属性参数,可以确定样本数据集合对应的目标上限阈值和目标下限阈值。其中,目标上限阈值和目标下限阈值可以用于筛选异常数据。

在一种可能的实现方式中,计算机设备根据各个目标聚类类别所对应的属性参数,确定各个目标聚类类别对应的参考上限阈值和参考下限阈值。

步骤S550:利用3-Sigma准则计算上限阈值和下限阈值。

在一种可能的实现方式中,计算机设备根据各个目标聚类类别所对应的属性参数,可以利用3-Sigma准则计算各个目标聚类类别对应的参考上限阈值和参考下限阈值。其中,3-Sigma准则又称为拉依达准则,它是先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除。

步骤S560:选取上限阈值和下限阈值的最小值作为最终的阈值的上限和下限。

在一种可能的实现方式中,计算机设备根据各个目标聚类类别所对应的属性参数,确定各个目标聚类类别对应的参考上限阈值和参考下限阈值之后。计算机设备将各个目标聚类类别对应的参考上限阈值中阈值最小的参考上限阈值确定为样本数据集合对应的目标上限阈值;以及将各个目标聚类类别对应的参考下限阈值中阈值最小的参考下限阈值确定为样本数据集合对应的目标下限阈值。

通过本申请实施例所提供的数据处理方法,比于基于人工经验选取阈值的方法,本申请不需要人工干预,因此可以提高阈值选取的处理效率;另外,本申请根据每个目标聚类类别对应的属性参数从而确定目标上限阈值和目标下限阈值,还可以提高筛选异常数据的准确性。基于聚类的阈值选择方法可以省去固定阈值的维护成本,同时也可以将得到的结果应用于异常检测中,对经过智能阈值初筛后的样本进行检测,能有效提高检测效率(无需对所有样本进行检测,只需要对可疑样本进行检测),并且提升异常检测模型的准确率。

请参见图6,图6是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置600可应用于图2~图5对应的方法实施例中的计算机设备。数据处理装置600可以是运行于轻量节点中的一个计算机程序(包括程序代码),例如该数据处理装置600为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该数据处理装置600可包括:

获取单元610,用于获取样本数据集合,所述样本数据集合包括的每一组样本数据由标注数据和所述标注数据对应的同比数据组成;

处理单元620,用于对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,所述聚类处理结果用于指示每一组样本数据所属的聚类类别;

确定单元630,用于根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,所述目标聚类类别为所述聚类处理结果中满足特定条件的任一聚类类别;

确定单元630,还用于根据各个目标聚类类别所对应的属性参数,确定所述样本数据集合对应的目标上限阈值和目标下限阈值,所述目标上限阈值和所述目标下限阈值用于筛选异常数据。

在一种可能的实现方式中,所述处理单元620对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,包括:

获取扫描半径和参考样本数;

根据所述扫描半径和所述参考样本数,针对所述样本数据集合创建一个或多个样本簇,其中,每个样本簇对应一个核心对象,针对每个样本簇,所述样本簇所包括的样本数据的组数大于或者等于所述参考样本数,且所述样本簇所包括的样本数据均处于所述样本簇所对应的区域范围内,所述区域范围以所述样本簇对应的核心对象为中心且半径为所述扫描半径;

基于聚类算法对各个样本簇进行迭代聚类处理,得到聚类处理结果。

在一种可能的实现方式中,本申请实施例提供的数据处理装置还包括:删除单元640。

所述处理单元620根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数之前,所述方法还包括:

确定单元630根据所述聚类处理结果,确定各个聚类类别所包括的样本数据的组数;

删除单元640根据各个聚类类别所包括的样本数据的组数,将所述聚类处理结果中满足过滤条件的聚类类别所包括的样本数据进行剔除。

在一种可能的实现方式中,所述确定单元630根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,包括:

根据所述聚类处理结果,计算属于目标聚类类别的样本数据所包括的同比数据的均值和方差;

将所述均值和所述方差作为属于所述目标聚类类别的样本数据所对应的属性参数;

其中,所述目标聚类类别为所述聚类处理结果中不满足过滤条件的任一聚类类别。

在一种可能的实现方式中,所述确定单元630根据各个目标聚类类别所对应的属性参数,确定所述样本数据集合对应的目标上限阈值和目标下限阈值,包括:

根据各个目标聚类类别所对应的属性参数,确定各个目标聚类类别对应的参考上限阈值和参考下限阈值;

根据所述各个目标聚类类别对应的参考上限阈值和参考下限阈值,确定所述样本数据集合对应的目标上限阈值和目标下限阈值。

在一种可能的实现方式中,所述确定单元630根据所述各个目标聚类类别对应的参考上限阈值和参考下限阈值,确定所述样本数据集合对应的目标上限阈值和目标下限阈值,包括:

将所述各个目标聚类类别对应的参考上限阈值中阈值最小的参考上限阈值确定为所述样本数据集合对应的目标上限阈值;

根据所述各个目标聚类类别对应的参考下限阈值,确定所述样本数据集合对应的目标下限阈值。

在一种可能的实现方式中,所述确定单元630根据所述各个目标聚类类别对应的参考下限阈值,确定所述样本数据集合对应的目标下限阈值,包括:

将所述各个目标聚类类别对应的参考下限阈值中阈值最小的参考下限阈值确定为所述样本数据集合对应的目标下限阈值。

在一种可能的实现方式中,所述获取单元610获取样本数据集合,包括:

获取待检测时间序列以及同比时间序列,所述待检测时间序列由N个标注数据组成,所述同比时间序列由N个同比数据组成,所述待检测时间序列中的N个标注数据与所述同比时间序列中的N个同比数据一一对应,N为正整数;

根据所述待检测时间序列以及所述同比时间序列,确定样本数据集合。

在一种可能的实现方式中,所述确定单元630根据所述待检测时间序列以及所述同比时间序列,确定样本数据集合,包括:

对所述待检测时间序列进行截取处理,得到由M个标注数据组成的待检测截取时间序列,M为正整数,M小于N;

对所述同比时间序列进行截取处理,得到由M个同比数据组成的同比截取时间序列;

将所述待检测截取时间序列和所述同比截取时间序列进行归一化处理后进行组合,得到样本数据集合,所述样本数据集合包括M组样本数据,每一组样本数据由归一化后的标注数据和所述归一化后的标注数据对应的同比数据组成。

请参见图7,图7是本申请实施例提供的一种计算机设备的结构示意图,该计算机设备700用于执行图2~图5对应的方法实施例中计算机设备所执行的步骤,该计算机设备700包括:一个或多个处理器710;一个或多个输入设备720,一个或多个输出设备730和存储器740。上述处理器710、输入设备720、输出设备730和存储器740通过总线750连接。存储器740用于存储计算机程序,所述计算机程序包括程序指令,处理器710用于执行存储器740存储的程序指令,执行以下操作:

获取样本数据集合,所述样本数据集合包括的每一组样本数据由标注数据和所述标注数据对应的同比数据组成;

对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,所述聚类处理结果用于指示每一组样本数据所属的聚类类别;

根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,所述目标聚类类别为所述聚类处理结果中满足特定条件的任一聚类类别;

根据各个目标聚类类别所对应的属性参数,确定所述样本数据集合对应的目标上限阈值和目标下限阈值,所述目标上限阈值和所述目标下限阈值用于筛选异常数据。

在一种可能的实现方式中,处理器710对所述样本数据集合中的样本数据进行聚类处理,得到聚类处理结果,包括:

获取扫描半径和参考样本数;

根据所述扫描半径和所述参考样本数,针对所述样本数据集合创建一个或多个样本簇,其中,每个样本簇对应一个核心对象,针对每个样本簇,所述样本簇所包括的样本数据的组数大于或者等于所述参考样本数,且所述样本簇所包括的样本数据均处于所述样本簇所对应的区域范围内,所述区域范围以所述样本簇对应的核心对象为中心且半径为所述扫描半径;

基于聚类算法对各个样本簇进行迭代聚类处理,得到聚类处理结果。

在一种可能的实现方式中,处理器710根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数之前,所述方法还包括:

根据所述聚类处理结果,确定各个聚类类别所包括的样本数据的组数;

根据各个聚类类别所包括的样本数据的组数,将所述聚类处理结果中满足过滤条件的聚类类别所包括的样本数据进行剔除。

在一种可能的实现方式中,处理器710根据所述聚类处理结果,确定属于目标聚类类别的样本数据所对应的属性参数,包括:

根据所述聚类处理结果,计算属于目标聚类类别的样本数据所包括的同比数据的均值和方差;

将所述均值和所述方差作为属于所述目标聚类类别的样本数据所对应的属性参数;

其中,所述目标聚类类别为所述聚类处理结果中不满足过滤条件的任一聚类类别。

在一种可能的实现方式中,处理器710根据各个目标聚类类别所对应的属性参数,确定所述样本数据集合对应的目标上限阈值和目标下限阈值,包括:

根据各个目标聚类类别所对应的属性参数,确定各个目标聚类类别对应的参考上限阈值和参考下限阈值;

根据所述各个目标聚类类别对应的参考上限阈值和参考下限阈值,确定所述样本数据集合对应的目标上限阈值和目标下限阈值。

在一种可能的实现方式中,处理器710根据所述各个目标聚类类别对应的参考上限阈值和参考下限阈值,确定所述样本数据集合对应的目标上限阈值和目标下限阈值,包括:

将所述各个目标聚类类别对应的参考上限阈值中阈值最小的参考上限阈值确定为所述样本数据集合对应的目标上限阈值;

根据所述各个目标聚类类别对应的参考下限阈值,确定所述样本数据集合对应的目标下限阈值。

在一种可能的实现方式中,处理器710根据所述各个目标聚类类别对应的参考下限阈值,确定所述样本数据集合对应的目标下限阈值,包括:

将所述各个目标聚类类别对应的参考下限阈值中阈值最小的参考下限阈值确定为所述样本数据集合对应的目标下限阈值。

在一种可能的实现方式中,处理器710获取样本数据集合,包括:

获取待检测时间序列以及同比时间序列,所述待检测时间序列由N个标注数据组成,所述同比时间序列由N个同比数据组成,所述待检测时间序列中的N个标注数据与所述同比时间序列中的N个同比数据一一对应,N为正整数;

根据所述待检测时间序列以及所述同比时间序列,确定样本数据集合。

在一种可能的实现方式中,处理器710根据所述待检测时间序列以及所述同比时间序列,确定样本数据集合,包括:

对所述待检测时间序列进行截取处理,得到由M个标注数据组成的待检测截取时间序列,M为正整数,M小于N;

对所述同比时间序列进行截取处理,得到由M个同比数据组成的同比截取时间序列;

将所述待检测截取时间序列和所述同比截取时间序列进行归一化处理后进行组合,得到样本数据集合,所述样本数据集合包括M组样本数据,每一组样本数据由归一化后的标注数据和所述归一化后的标注数据对应的同比数据组成。

应当理解,本申请实施例中所描述的计算机设备可执行前文图2~图5所对应实施例中对数据处理方法的描述,也可执行前文图6所对应实施例中对数据处理装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。

此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有前文提及的数据处理装置所执行的计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文图2~图5所对应实施例中的方法,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。

根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文图2~图5所对应实施例中的方法,因此,这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。

以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

技术分类

06120112758564