掌桥专利:专业的专利平台
掌桥专利
首页

审计大数据融合聚类与风险数据检测方法、介质、设备

文献发布时间:2023-06-19 12:24:27


审计大数据融合聚类与风险数据检测方法、介质、设备

技术领域

本发明属于审计大数据处理技术领域,尤其涉及一种审计大数据融合聚类与风险数据检测方法、介质、设备。

背景技术

审计数据就是被审计数据和服务于审计的数据(资料)的集合。从广义上讲,与审计有关的数据都是审计数据。因此大数据时代,具体的审计数据往往也是大数据。它们有大数据4V特点,且目前无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

例如,在金融证券、银行等金融机构,数据往往分布于大量且异构的存储介质中,这些数据存在其自身的几个特征:数据量大、跨地域、跨系统分布:数据组织形式多样、结构各异、无统一标准。当前,别说用常规软件工具(审计软件)整体捕捉、管理和处理这些数据,就是对一部分数据融合聚类和风险数据检测都还鲜有人探讨。

大数据的通常特点是:

第一,数据体量巨大。从TB级别跃升到PB级别。

第二,数据类型繁多,如网络日志、视频、图片、地理位置信息等等。

第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

近些年来,数据挖掘技术已经成为一个研究的热点,特别是在数据库和人工智能等研究领域,聚类分析与离群点检测是数据挖掘技术中最重要的两个分支,二者的研究的出发点与目的截然不同:聚类是将原始数据集中个性相近或相似的对象归为同一类别;它的研究目的是使区分类别之间差异;离群点检测的研究对象是数据集中很小一部分对象,这小部分对象往往明显有别于数据集总绝大部分对象。

面向审计的聚类分析是面向审计数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

目前,已经有许多聚类分析方法,例如经典的k-means,spectralclustering等方法,以及最近的基于低秩表示的子空间聚类方法。但是这些方法并不适用于大数据。一方面是因为大部分经典的聚类方法模型本 身就没有考虑大数据的多视角、异构等特点,另一方面是这些算法的时间复杂度是非线性的,在大数据环境下无法实现快速计算。

审计大数据挖掘方法:审计数据处理基本上可分为采集、导入及预处理、统计及分析、挖掘等四个步骤。与前面统计及分析过程不同的是,大数据环境下的数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,并进一步实现一些高级别数据分析的需求。

数据挖掘可能的方法有很多,它们分别从不同的角度对数据进行挖掘。这些挖掘方法基本上可以分为四类:1.数据概化。2.统计分析。3.关联分析。4.聚类分析。聚类分析是把一组个体按照相似性归成若干类别,目的是使得同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大,该方法可为不同的信息用户提供不同类别的信息集。如审计人员可运用该方法识别密集和稀疏的区域,从而发现被审计数据的分布模式,以及数据属性间的关系,以进一步确定重点审计领域。企业的财务报表数据会随着企业经营业务的变化而变化,一般来说,真实的财务报表中主要发明的数据变动具有一定的规律性,如果其变动表现异常,表明数据中的异常点可能隐藏了重要的信息,反映了被审计报表发明数据可能存在虚假成分。

通过创新性的数据分析方法实现对大数据的快速、高效、及时地分析与计算是大数据分析技术领域的研究热点。其中基于深度学习的方法在最近两年取得了较大的进展,使用深度网络构建的特征提取和分类算法在图像识别和语音识别中都取得了非常好的成绩。Dean等人详细报道了采用深度网络在大规模图像识别任务中所采用的技术和所取得的突破性的进展。为了能够更好地应对大数据,深度网络的学习算法一般都采用并行化方式进行,有些同时采用了并行化的一阶梯度和二阶梯度优化算法,并在一定程度上同时实现了模块和数据的并行化。目前,包括微软、谷歌、IBM等许多知名的IT公司都致力于开发商用化的深度学习系统。

但是由于审计数据不同一般的数据,不可避免存在着数据的错误或不一致等问题,如数据造假、数据重复、数据缺失等错误。一般的大数据挖掘算法不能直接应用于审计大数据。目前没有针对审计大数据有效实用的挖掘方法。

最近涌现了少量讨论大数据的聚类方法。其中也有考虑多视角融合聚类的算法。针对多视角的数据集,融合聚类较单视角聚类确实具有较好的聚类性能,但仍存在不足,最重要的是如何自动确定不同视角的权重。

聚类的边界点位于簇的边沿,它们通常具有多个簇的聚类特征,其归属并不明确。边界点不同于离群点,边界点是紧紧分布在稠密数据(如聚类)的周围,它与聚类内部的点在很大程度上有着相似的性质。由于边界点具有不确定性,因而这个集合更应该引起高度重视,因为他们身上可能蕴含某些重要的有趣的特征。准确识别聚类边界对提高聚类精度和研究聚类特征具有重要作用。因此,聚类的边界点检测在数据审计、疾病防治、医药研制、虚拟现实等领域具有重要的研究价值和应用价值。然而现有边界检测算法的时间复杂度都是非线性的,因此没有适用于大数据的边界检测算法。例如DBSCAN算法和CBORDER算法的时间复杂度大多为非线性的,仅适用于小数据的边界检测,无法有效应对大数据带来的挑战。

数据融合与聚类:如何从海量异构的数据源中抽取知识,并进行融合,是目前数据管理和信息抽取领域的一个重要学术课题。相比于传统的数据集成,在面向大数据融合过程中,融合算法的效率、多源数据的数据质量评估等都给现有的数据集成技术带来了巨大的挑战。Nguyen等提出了一种样本和时间阈值的数据融合算法。Guinaudeau等将数据集平均分成3个子数据集,采用分治的思想降低问题规模,随后在每个子数据集上使用聚类算法;现有文献利用抽样的思想,采用抽取候选集的方法来降低问题规模。这些方法在一定程度上都解决了大数据融合带来的挑战。

大数据对传统的聚类方法也构成了巨大挑战。数据规模的不断扩大,数据特征的日趋复杂(高维数据),数据样本的可伸缩性和多样性等等,使得传统聚类算法不再适用。传统的聚类算法假设数据可以利用单一的特征空间或视图进行描述。然而许多应用领域中,出现了大量须要由多种表示方法或多种视角描述的多视角数据(multi-view data)。多视角数据集即对于同一个样本,从不同的角度可以获得不同的数据信息,从而更全面、更客观地描述数据集特性。相较于单视角数据集,多视角大数据包含的数据信息量大,对于实际应用有较高的价值。多视角大数据广泛存在于科学、经济和社会等各个领域。比如同一个被审计单位的财务情况可以由多个不同机构以不同的方式记录或搜集;再比如医学方面,对有核红细胞通常通过密度、几何特征、颜色和纹理等不同的角度来进行描述,每个视角代表了一种特定的度量值。

Bickel等人提出的多视角聚类算法,将每个视角单独进行K-means聚类,再将每个视角的聚类标号提供给其他视角使用。2005年,Bickel等人又提出了基于Co-EM的混合统计模型,在最大期望(expectation maximization,EM)算法的基础上引入了多视角机制。Tong等人把拉普拉斯特征映射进行降维的方法引入到谱聚类算法中,提出了基于谱聚类的多视角聚类算法。2009年,Cleuziou等人提出了中心化模糊聚类 (CoFKM)算法,对各个视角得到的聚类结果给出了新的融合策略。针对多视角的数据集,以上算法较单视角聚类算法确实具有较好的聚类性能,但仍存在不足。上述算法在对不同视角融合时,均默认各个视角是同等重要的,并没有考虑某些视角存在质量不好的情况。例如某个视角数据的各个类别数据分布非常集中,难以完全分开;某个视角数据存在噪声点或例外点的干扰,使得某个视角的聚类结果较其他视角存在差距。此时需要赋予聚类结果不好的视角的数据较小的权值,尽量赋予聚类结果较好的视角的数据较大的权值,从而得到更好的聚类结果。

然而对于高维数据集,在聚类之前,无法获得清晰的数据分布信息,因此无法确定哪一个数据视角质量较高。其次,如果只利用其中一个数据视角进行聚类,丢弃其余视角,则会造成信息的浪费,导致局部最优,全局最优难以实现。因此,在聚类过程中实现对数据视角的自动加权成为重要的研究方向。2010年 Tzortzis等人提出了基于样本混合模型的加权多视角聚类(WCMM)算法,2011年Chen等人提出了两级变量加权多视角聚类(TW-k-means)算法,他们在算法中都分别考虑了视角权重的问题。

离群点检测:离群点检测是数据挖掘领域一个重要的研究方向,其目的是消除噪音或发现潜在的、有意义的知识。Hawkins的定义揭示了离群点的本质:“离群点的表现与其他点如此不同,不禁让人怀疑它是由不同机制产生的”。在数据集中,离群数据通常被认为是与其他数据对象有着明显差异的数据。离群数据并不等同于错误数据,离群数据中可能蕴含着极为重要的信息,例如在银行客户交易、信用卡欺诈检测、故障诊断、网络入侵等领域中,离群点都是数据分析的主要对象,离群数据的发现有着重要的意义。由于研究离群数据的离群行为有助于发现有价值的知识,并且可能给予本发明新的视角,从而导致新的理论和新的应用的不断出现,因此对离群数据进行分析与研究具有十分重要的理论意义和实际应用价值。离群数据挖掘近年来成为了据挖掘中的热点方向。

目前,对离群点的检测和分析已经发展成为数据挖掘中一项重要而又有趣的研究任务。离群点检测最早出现在统计学领域。后来,Knorr等将其引入到数据挖掘领域。现有的离群点检测方法大致包括:(1)基于深度的方法;(2)基于分布的方法;(3)基于密度的方法;(4)基于距离的方法。目前离群点数据检测中比较常用的算法是基于密度的局部离群点检测算法LOF。其基本思想是用局部离群因子来表征一个数据对象的局部离群程度,LOF算法出现后,出现了很多局部偏离程度的度量算法。这些算法适用于静态环境下的数据库,但在工程应用领域,大部分数据库中的数据是随时间动态增加的,新增加的数据可能会影响某些对象的局部偏离程度,在二次挖掘时,需重新计算所有数据对象的局部偏离因子,计算时间复杂度很高,因此,这些算法在动态环境中不易实现。现有文献在LOF算法的基础上,提出一种动态环境下局部离群数据挖掘的增量算法lncLOF,当新增数据对象到达时,只对受影响的数据对象重新计算其LOF,但该算法只讨论了每次插入一条数据对象时的情形,即在原数据集中受影响的数据对象很少时,其计算时间效率高于LOF算法,而当数据库中同时插入多个数据对象时,随着受影响数据对象数目的增多,其时间效率下降较快,甚至低于原LOF算法。

传统的离群点检测方法在高维环境下会产生维灾难而失效。为了克服维灾难问题,Aggarwal等人提出的基于空间投影的离群点检测算法EvolutionaryOutlierSearch、复旦大学Wei等人提出的HOT算法能较为有效地在高维环境中发现离群点。但上述方法使用超图进行计算,将安全数据映射到超图空间中,在超图空间中通过计算每一条数据关联度进行离群分析,需要多次反复地计算,时间及空间效率极低。He等人在2005年作出进一步研究后提出了基于频繁模式的离群点检测算法FindFPoF,该算法提出了新的离群点度量标示--频繁模式离群因子。该方法认为频繁模式为通常模式,一个数据中包含的频繁模式越少,则成为离群点的可能性越大。通过计算每条数据的频繁模式因子来发现离群点,避免了超图环境中的反复计算,相比前两种算法的时间复杂度有一定程度的降低,但其忽略了不同长度的频繁模式对离群程度的不同影响,存在大量非必要计算,时间复杂度仍然较高。随后Zhou等人在2007年提出了新的改进算法--WFPOF 算法,该算法针对不同频繁模式对离群度的影响,引入了权值加以区分。该算法在频繁模式离群因子概念基础上,给出了新的类别属性数据流数据的离群度量即加权频繁模式离群因子,并针对数据流特点提出基于WFPOF的高维数据流离群点的检测算法FODFP-Stream(fast outlier detection for highdimensional categorical data streams based on frequentpattern)。利用WFPOF算法能够更有效地度量高维数据离群度的优点,并结合适应离群点检测特点的数据流频繁模式发现维护方法,能够更加快速有效地检测离群点。自2009年以来,更多的学者在频繁模式离群检测研究中侧重于存储方式的研究,提出了更加快捷有效的多种树型结构,如FP-growth算法的多种改进算法,而较少在算法上进行修改。在实际检测中,往往需要对离群点数据中的离群属性进行定位,上述方法都不能准确对离群点数据中的离群属性定位。

边界点检测:聚类的边界点紧紧分布在稠密数据(如聚类)的周围,它与聚类内部的点在很大程度上有着相似的性质;而孤立点/噪声点分布比较稀疏,它与聚类内部的点在本质上有着不同的性质。DBSCAN (Density-based spatial clustering of applicationswith noise)算法基于密度定义了聚类边界点的概念,但是并没有给出获取完整聚类边界的方法。Xia等提出的BORDER边界点检测算法利用核心点的反向K近邻个数大于边界点的反向K近邻个数这一特性来检测聚类的边界,该算法对于不含噪声的数值属性数据集具有良好的边界检测结果,但不能区分噪声点和边界点。BRIM算法依据数据点在其正负半领域内分布不均匀的特点来获取聚类的边界,解决了BORDER算法不能区分边界点和噪声点的问题,但是BRIM算法仍然有可能将靠近簇的噪声点误认为边界点。BDDTS算法首先根据双阈值形成候选边界集,然后对其进行二次处理获取边界点。虽然BDDTS算法使用多次处理策略能够提高边界检测的精度,但是需要多个输入参数。为了进一步提高聚类边界检测的精度,基于边界点的变异系数大于内部点及噪声点的变异系数这一事实,薛丽香等提出了BAND算法,但是该算法不能对分类属性数据集及混合属性数据集进行有效的聚类边界检测。CBORDER算法是针对上述边界检测算法不能用于高维分类属性数据集的问题而提出的,该算法利用随机分配初始聚类中心和边界度对类进行划分并获取记录边界点的证据,然后运用证据积累的思想获得聚类的边界。CBORDER采用证据积累能有效地消除随机分配初始聚类中心带来的误差,同时能够检测出高维分类属性数据集的聚类边界。

大规模模式分类方法:模式分类(有监督学习)面临的一个新挑战是如何处理大数据。目前包含大规模数据的分类问题是普遍存在的,但是传统分类算法不能处理大数据.例如传统统计机器学习方法用于大数据分类有两大瓶颈问题:(1)计算密集型,几乎不能用于大规模数据集;(2)鲁棒和非参数的置信区间的拟合模型的预测往往是未知的。针对上述问题,在Kim等提出适用于大数据的特征提取和分类算法。该算法所需内存较少,无需存储较大矩阵,可更好地解决大规模数据分类问题。除此之外,在一些应用领域,也有针对大数据的分类算法提出。例如Li等提出一种半监督的学习算法—基于随机森林的协同训练,用来估计未诊断样本的标记自信度,能较易得出先验知识。针对大规模图像数据集的分类性能问题,Lin等提出在特征提取和分类器训练方面提高效率。

人工神经网络是另一种常用的模式分类方法。人工神经网络其实是一种实现仿生模式识别的手段。当前还鲜有将其应用于审计大数据的研究成果。

目前,未见有面向审计大数据的风险数据检测论文和著作。

通过上述分析,现有技术存在的问题及缺陷为:

(1)当前,无论是用常规软件工具(审计软件)整体捕捉、管理和处理审计数据,还是对一部分数据融合聚类和风险数据检测都还鲜有人探讨。

(2)大部分经典的聚类方法模型本身就没有考虑大数据的多视角、异构等特点,另一方面是这些算法的时间复杂度是非线性的,在大数据环境下无法实现快速计算,并不适用于大数据。

(3)现有边界检测算法的时间复杂度都是非线性的,因此没有适用于大数据的边界检测算法。同时,一般的大数据挖掘算法不能直接应用于审计大数据。因此,目前没有针对审计大数据有效实用的挖掘方法。

解决以上问题及缺陷的难度为:处理审计大数据目的要找违规、违法、不正确或不真实事件小概率事件。而传统数据挖掘方法和以上大数据处理方法只能处理大概率事件。因此解决以上问题及缺陷有相当难度。

解决以上问题及缺陷的意义为:将创新大数据处理方法,突破审计大数据处理瓶颈。

发明内容

针对现有技术存在的问题,本发明提供了一种审计大数据融合聚类与风险数据检测方法、介质、设备。

本发明是这样实现的,一种审计大数据融合聚类与风险数据检测方法,所述审计大数据融合聚类与风险数据检测方法包括以下步骤:

步骤一,构建针对多视角大数据的低秩子空间聚类模型。

步骤二,确定审计数据点集D,定义离散点、边界点、聚类内点,利用基于边界网格细分的审计大数据风险数据快速检测算法找出聚类的内点,组成集合D

步骤三,离群点检测:对于小数据集D

步骤四,边界点检测:视小数据集D-D

步骤五,模式二分类:对于数据集D

进一步,步骤一中,设{X

其中,Z为所有视角公用的变量。

进一步,步骤一中,所述针对多视角审计大数据的低秩子空间聚类算法中,利用分块的思想,将变量分成N个块,并设计一个正则项,将不同块变量进行融合,优化问题如下:

其中,x∈R

x=[x

其中,

更新第i个块变量时,求解如下问题:

其中,

从四方面用两个低秩矩阵对X进行逼近。即将矩阵X分解为X=LR

通过这两条性质,在核范数优化中,可以考虑将矩阵的核范数用等式右边进行替换,用基于梯度的优化算法,求解诱导出的新问题。

在求解模型得到误差项E之后,可应用于离群点检测为鲁棒起见,引入阈值k。则E的第i列(即第i 个样本)如果满足|E

进一步,步骤二中,定义第一类型风险数据点为离群点;第二类型风险数据点为边界点;第三类型风险数据点为高值点;第四类风险数据点为高频且局部频率超出率高的数据。求第四类风险数据点利用排序算法加局部频率超出率公式:

设ε是一小的正数,P为数据集中的点,∪(P,ε)={Q|ρ(P,Q)<ε},则P的局部频率超出率为:

进一步,步骤二中,所述基于边界网格细分的审计大数据风险数据快速检测算法的构建方法,包括:

(1)确定聚类区域。数据集D经过网格划分以后,每一个聚类的点集一定存在边界点。根据先求出来的边界单元来求出聚类点的大致范围,这个区域内的点不可能是离群点,从而可以将其删除。在检测非密集网格单元之前,只需删除非边界网格单元中的聚类点信息。

将聚类区域定义为:满足该区域中的点的密度大于其相邻的区域即为一个聚类区域。由网格相关定义可知:在网格划分的数据结构中,每一个网格单元都是对等的,即每一个网格单元格的大小与体积都是相等的。由此可知,对于网格单元密度的计算可以等效为网格单元格中数据点数量的计算,将网格单元中数据点的个数看作该网格单元的密度。预先设定一个阈值,当单元格中数据点个数大于该阂值时,将其视为稠密的。最终要确定的聚类区域即为所有连通的稠密的网格单元的集合。

(2)确定网格划分。对不同维取不同间隔的划分。将前p维的间隔设为k,后d-p维的间隔设为q,如果各维数据分布相差很大,采用的间隔取值可以设置相对偏大。各维划分空间的设定是相对独立的,每一维划分的间隔是不同的;其次,在确定每一维的划分间隔时,以各相邻数据点之间分布情况作为确定每一维划分间隔大小的依据。

(3)边界网格细分。网格划分会产生许多新的边界,对于这些边界上的点,不同的网格需要区别对待,如果某个网格中的点经过判定是需要舍弃的,那么在舍弃这些网格内点的同时,应该保留其边界点。在判定某个网格的边界点时,如果它周围的点因为前面网格划分的原因被舍弃掉,则在这儿要重新拿回来为判定边界点做出贡献。即计算候选点的性质时,用到大数据中的其它点。

进一步,步骤二中,所述聚类的内点的确定方法满足:周围所有由网格划分出的邻居都有一定密度,所述聚类内点算法复杂度O(N+Ak

进一步,步骤三中,所述总体复杂度为O(N+Cn

进一步,步骤五中,所述审计大数据优先度排序紧密覆盖二分类模型采用优先度排序RBF网络的拓扑结构,所述优先度排序RBF网络的拓扑结构是由若干个不同的广义RBF神经元按照不同的优先度组合在一起。

优先度排序RBF网络的拓扑结构中,P

y=C(y

其中,Q(·):R

所述优先度排序RBF网络是一种三层前馈网络,输入层接收样本矢量,隐层由RBF神经元构成,输出层完成优先度排序的决策功能。网络的隐层神经元包括:

1)每一个隐层神经元的参数不仅包括中心权值c

2)在训练和识别的过程中,RBF神经元的激活函数为硬限幅函数,即:

其中,

3)隐层神经元的数目和参数在训练的过程中自适应地生成,神经元的优先度级别P

进一步,步骤五中,所述审计大数据优先度排序紧密覆盖二分类模型的训练(设置)方法,包括:

假定审计大数据(样本)集D反映了审计数据的本质分布,审计大数据(样本)集D按照以上方法获得了审计大数据(样本)集中所有不离群点的集合D

1)设D

2)设置第一个神经元参数:

3)设置第j个神经元参数,2≤j≤M-1:c

进一步,步骤五中,所述总体复杂度为O(N),N为D的点的个数。

本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下步骤:

构建针对多视角大数据的低秩子空间聚类模型;

确定审计数据点集D,定义离散点、边界点、聚类内点,利用基于边界网格细分的审计大数据风险数据快速检测算法找出聚类的内点,组成集合D

离群点检测:对于小数据集D

边界点检测:视小数据集D-D

模式二分类:对于数据集D

本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:

构建针对多视角大数据的低秩子空间聚类模型;

确定审计数据点集D,定义离散点、边界点、聚类内点,利用基于边界网格细分的审计大数据风险数据快速检测算法找出聚类的内点,组成集合D

离群点检测:对于小数据集D

边界点检测:视小数据集D-D

模式二分类:对于数据集D

本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述的审计大数据融合聚类与风险数据检测方法。

结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明提供的审计大数据融合聚类与风险数据检测方法,通过多视角数据的融合和基于分块的分布式优化算法,实现聚类算法的快速计算,从而将解决基于低秩表示的子空间聚类方法不适合大数据聚类的难题,提出的融合聚类方法也适用于一般的大数据聚类。

本发明通过网格划分和边界网格细分等过程,实现大数据的过滤,即不可能为离群点的点去掉,实现检测点集的更小化;通过边界网格细分将边界点检测范围缩减到小数据上面,从而可以实现快速检测。

本发明以聚类为核心,以审计为应用背景,以大数据为研究对象,以最优化理论及神经网络为研究工具,将管理与决策、计算机技术、应用数学、数据挖掘等多个学科和多个研究方向有机地融合整合在一起。通过充分发挥管理、信息、数理等多学科合作研究的优势,本发明在大数据管理与决策价值分析与发现、大数据分析方法与支撑技术等方面的研究取得突破。具体来说本发明的特色和创新之处如下:

(1)提出融合多视角审计大数据的聚类模型。现有的许多模型在处理多视角时,需要人工加权,导致不同视角在问题中的权重缺乏理论指导。而本模型的可以实现对数据不同视角的自动加权。即在求解模型的同时可以求得最优的权重,从而对各个视角的不同程度影响有一个更清晰的认识,为后续的决策起到重要的参考价值。

(2)提出求解大数据优化问题的快速算法。基于分块思想的并行算法可以在降低变量规模的同时又可以并行计算,极大提高求解效率。目前的分块思想大多是基于变量可分离这个限制条件的,而本发明将突破这个限制,成功实现分块的关键是设计出合理的正则项,本发明提出一个合理的正则项设计策略。利用这个正则项可以在迭代的过程中把块变量融合在一起。

(3)提出基于边界网格细分的大数据风险数据快速检测算法。尽管目前有不少时间复杂度为O(N

(4)提出审计大数据优先度排序紧密覆盖二分类模型,从而提供一个有效判断未知点是离群点还是非离群点的工具。目前国际国内没有这方面的模式分类成果。有了审计大数据优先度排序紧密覆盖二分类模型,就可在极短时间内判断未知类别数据是否为第一类风险数据。这将填补现在国内外相关的研究空白。

本发明与重大研究计划中总体目标的关系:本发明是针对重大研究计划发明指南中“多源异构管理与决策大数据融合方法和实时分析”问题提出来的,以审计大数据为研究对象,给出一种解决多源异构管理与决策大数据融合方法和实时分析问题的办法,提高管理与决策大数据分析方法与支撑技术水平。

附图说明

图1是本发明实施例提供的审计大数据融合聚类与风险数据检测方法流程图。

图2是本发明实施例提供的基于低秩表示的子空间聚类流程图。

图3是本发明实施例提供的风险数据快速检测流程图。

图4是本发明实施例提供的优先度排序RBF网络的拓扑结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

针对现有技术存在的问题,本发明提供了一种审计大数据融合聚类与风险数据检测方法、介质、设备,下面结合附图对本发明作详细的描述。

如图1所示,本发明实施例提供的审计大数据融合聚类与风险数据检测方法包括以下步骤:

S101,构建针对多视角大数据的低秩子空间聚类模型。

S102,确定审计数据点集D,定义离散点、边界点、聚类内点,利用基于边界网格细分的审计大数据风险数据快速检测算法找出聚类的内点,组成集合D

S103,离群点检测:对于小数据集D

S104,边界点检测:视小数据集D-D

S105,模式二分类:对于数据集D

下面结合实施例对本发明的技术方案作进一步描述。

1、针对多视角的数据集,融合聚类较单视角聚类确实具有较好的聚类性能,但仍存在不足,最重要的是如何自动确定不同视角的权重。本发明考虑在聚类过程中实现对数据视角的自动加权,从而得到多视角数据的最优融合。本发明提出面向审计的多视角大数据融合聚类,该方法将通过多视角数据的融合和基于分块的分布式优化算法,实现聚类算法的快速计算,从而将解决基于低秩表示的子空间聚类方法不适合大数据聚类的难题。提出的融合聚类方法也适用于一般的大数据聚类。本发明通过网格划分和边界网格细分等过程,实现大数据的过滤,即不可能为离群点的点去掉,实现检测点集的更小化。本发明通过边界网格细分将边界点检测范围缩减到小数据上面,从而可以实现快速检测。

2、内容、目标,以及解决的问题

2.1内容

(1)针对多视角审计大数据的低秩子空间聚类

首先给出子空间聚类的定义如下:定义:子空间聚类(Subspace clustering,SC)。给定一组数据 X=[x

低秩子空间聚类的基本思想来源于稀疏子空间聚类。回顾稀疏子空间聚类的基本思想:将数据x

这里Z

基于低秩表示的子空间聚类模型最初如下:

该模型利用低秩表示(Low Rank Representation,简记为LRR)迫使每个数据仅用同一子空间中其他数据的线性组合来表示。在数据所属的子空间相互独立的情况下,模型的解Z具有块对角结构,这种结构揭示了数据的子空间属性:块的个数代表子空间个数,每个块的大小代表对应子空间的维数,同一个块的数据属于同一子空间。在实际应用中,数据往往受到各种噪声或者离群样本的影响,这时,数据X表示为 X=DZ+E,其中E为噪声或者奇异样本,通常D取为数据X本身或者干净字典D。故低秩表示模型可进一步扩展为:

其中,F(E)可针对数据中噪声的不同分布采用不同的矩阵范数,常用的有L

而本发明将提出的针对多视角大数据的低秩子空间聚类模型如下:设{X

需要注意的是这里Z为所有视角公用的变量,实质起到了融合不同视角的作用。其直观意义是明显的:如果一个样本x属于某一类c,那么从不同视角测量这个样本时,然后聚类得到的结果在理想情况下也都应该是属于c类。故不同视角得到的相似度矩阵应该是一致的,反映在模型中,也就是Z应该是多个视角共享。

在统计学习,机器学习等领域碰到的许多优化问题都有一个共同特点,即数据量大,导致对应的优化问题变量规模也大,而传统的许多优化方法无法适用于大规模变量的情况。对于一些特殊的优化问题,即变量在目标函数和约束中都是可分离的,一种有效的求解方法称为乘子交替迭代法(Alternating Direction Method of Multipliers,ADMM)。其基本思想是写出优化问题的增广Lagrange函数,然后固定其中一个变量,更新另一个变量,如此迭代,直到收敛。变量的可分离性可以完美地保证算法的快速收敛。但是这种方法有两个缺陷:

第一,要求变量必须是可分离的。

第二,可分离的变量不可以超过三个,否则无法保证收敛性。

以上两点严重限制了算法的适用范围。例如,在本模型中,变量就不是可分离的。因此,本发明还将研究如何将ADMM算法扩展到更一般的情况:不管变量是否可以分离,都可以将变量人为强制分成块,然后使用交替迭代法。这里的关键是如何设计把这些块变量联系在一起的正则项,并且能保证算法收敛。具体内容将在后续给出。

本发明可以借助于E快速检测到离群点。最简单的方式就是找出E中的非0列,其对应的样本即是离群点。当然如果数据普遍含有噪声时,可以考虑引入一个阈值进一步筛选。

(2)基于边界网格细分的大数据风险数据快速检测算法

本发明定义第一类型风险数据点为离群点;第二类型风险数据点为边界点;第三类型风险数据点为高值点;第四类风险数据点为高频且局部频率超出率高的数据。求第三类型风险数据点的算法,即排序算法现在有高效算法,这里不赘述,求第四类风险数据点可以用排序算法加局部频率超出率公式:设ε是一小的正数,P为数据集中的点,∪(P,ε)={Q|ρ(P,Q)<ε},则P的局部频率超出率为:

审计人员找到风险数据点,就有可能比较快地查找出被审计单位的违法、违规、错误或舞弊行为。若审计人员没有找到任何风险点,那么面对大数据的审计工作犹如大海捞针。因此说大数据时代,风险数据快速检测对审计工作至关重要。

本发明的第二方面内容就是从审计大数据中快速检测风险数据(离群点,边界点)。其总体框架如图3 所示。对数据集的挖掘往往涉及到时间复杂度高于一阶的计算,这些算法直接用于大数据挖掘肯定不行。例如,著名的离群点检测算法LOF的计算复杂度为O(N

本发明不用并行挖掘方法,因此要研究压缩数据方法,保证该方法不会把风险数据压缩掉。首先研究把大数据中许许多多不可能成为风险数据(离群点、边界点)的点找出来,删除掉。拟提出边界网格细分的聚类内点(与小范围的周围所有点相似,即聚为同一类)算法来实现该目标。边界网格细分有望能删除大数据中较多聚类内点,而不会丢掉风险数据。

然后研究小数据点集上风险数据(离群点和边界点)的检测算法,拟进一步改进一些离群点和边界点检测算法。边界网格细分的聚类内点算法时间复杂度为O(N),把把大数据中许许多多不可能成为离群点、边界点的点找出来。这些点是大数据中绝大部分聚类内点(与小范围的周围所有点相似,即聚为同一类),这些点的集合占整个大数据也是绝大部分。

本发明将重点研究基于网格划分的两大技术:聚类区域的确定与网格划分。聚类区域的划定方式有关将直接影响算法的时间复杂度,而确定网格划分的方式与选取何种存储结构直接影响到算法的空间复杂度。在高维空间中由于数据分布的稀疏性导致数据集空间通常被分割为多个子空间在对数据集进行扫描阶段,每当一个数据子空间对应的数据子集映射到相对应的网格单元后,首先立即求出其子空间的聚类区域并将其不可能成为离群点的数据删除掉,从而将数据集大小与内存容量控制在一定范围之类,有效地实现高维大数据集上的数据挖掘。

经过网格划分和边界网格细分的过滤过程,只剩余一小部分待做边界点和离群点检测。其中边界网格细分是指边界网格区域可进一步细分(例如

(3)审计大数据优先度排序紧密覆盖二分类模型

本发明要利用以上的部分结论,结合仿生模式识别思想方法,审计大数据优先度排序紧密覆盖二分类模型,审计大数据优先度排序紧密覆盖二分类模型采用优先度排序RBF网络的拓扑结构,如图4所示。优先度排序RBF网络的拓扑结构是由若干个不同的广义RBF神经元按照不同的优先度组合在一起。

图4中,P

y=C(y

其中,Q(·):R

优先度排序RBF网络是一种三层前馈网络,输入层接收样本矢量,隐层由RBF神经元构成,输出层完成优先度排序的决策功能。网络的隐层神经元具有以下特点:

1)每一个隐层神经元的参数不仅包括中心权值c

2)在训练和识别的过程中,RBF神经元的激活函数为硬限幅函数,即:

其中,

3)隐层神经元的数目和参数在训练的过程中自适应地生成,神经元的优先度级别P

本发明如何应用优先度排序紧密覆盖二分类模型对审计大数据在短时间内判断未知类别数据是否为第一类风险数据。这点用处很大。

2.2目标

(1)提出多视角审计大数据融合方法。本模型可以将多视角下的数据通过一个共同的相似度矩阵融合在一起。其直观意义是明显的:如果一个样本x属于某一类c,那么从不同视角测量这个样本时,然后聚类得到的结果在理想情况下也都应该是属于c类。故不同视角得到的相似度矩阵应该是一致的,反映在模型中,也就是Z应该是多个视角共享。

(2)提出基于分块的分布式优化算法。目前尽管已经有基于分块思想的优化算法研究,但大部分都限制变量是可分离的。而本发明将突破这种限制,研究变量不可分离情况下的优化算法。基于变量分块的思想,可以实现降低变量规模的同时又可以并行计算,极大提高求解效率。分块优化的关键是提出一种正则项。利用这个正则项可以在迭代的过程中把块变量融合在一起。

(3)提出大数据风险数据快速检测算法。目前,国际国内还未见有有效的大数据的边界检测算法,更未见审计大数据的风险数据快速检测算法。当前,确有不少时间复杂度为O(N

(4)提出未知数据二分类问题的求解方法。通过解决未知数据二分类问题。可判断未知点是离群点还是非离群点。目前,国际国内还没有见能判断未知点是离群点还是非离群点的成果。

2.3解决的问题

(1)如何快速求解变量不可分离的优化问题。尽管变量的分块思想既可以降低变量规模,又有利于并行计算。但其关键是如何合理的设计正则项,这直接关系到算法的成败。

(2)秩函数与替代函数的关系研究。本发明针对多视角大数据的低秩子空间聚类模型本质是一个矩阵秩极小化问题,即低秩问题。然而由于秩函数的非凸性和不连续性,秩极小化问题是NP-hard,即使是对小规模的优化在实际中都没有快速有效的算法,更别说本发明中碰到的大数据。目前的主流思想是在用核范数作为秩函数的替代函数。但是除了核范数之外,还有其它的替代函数,那么其它每一种替代函数诱导出的优化问题的最优解与原问题(秩极小化问题)的最优解之间的关系是什么,这直接决定了模型是否可在实际中发挥作用。

(3)边界网格细分的聚类内点算法研究。边界网格细分的聚类内点算法要改进已有的网格的聚类内点算法。使得找出来要删掉的集合D

3、方案

(1)针对多视角审计大数据的低秩子空间聚类

在一般情况下上面模型的求解已经有许多相关算法,例如交替迭代法,固定点迭代法等。但面对大数据的挑战,其求解速度往往达不到实际需求。亟待寻求更有效的算法。本发明还将用分块的思想,即将变量分成N个块,这样有利于利用并行计算快速求解。充分利用现有的硬件条件开发快速的、并行的算法对问题的高效求解和实际应用具有重要的作用,例如利用图形处理器(Graphics processing unit,GPU)强大的并行处理功能,可以极大提高算法实际的运行效率。当然,为了把不同块联系到一起,需要设计一个正则项,将不同块变量融合在一起。为此,考虑更一般的优化问题:

其中,x∈R

x=[x

其中,

通过合理的设计正则项--如果设计的巧妙—可以完美地同时解决以上两个问题!初步的策略是:更新第i个块变量时,求解如下问题:

其中,

现有的关于核范数极小化的算法也可在具体求解时进行借鉴。具体来说,可以从四方面考虑用两个低秩矩阵对X进行逼近。即将矩阵X分解为X=LR

通过这两条性质,在核范数优化中,可以考虑将矩阵的核范数用等式右边进行替换。这样诱导出的新问题中目标函数的可微性将得到保证。从而可以用基于梯度的优化算法,例如共轭梯度法和增广Lagrange 法,求解诱导出的新问题。

在求解模型得到误差项E之后,可应用于离群点检测为鲁棒起见,考虑引入阈值k。则E的第i列(即第i 个样本)如果满足|E

(2)基于边界网格细分的审计大数据风险数据快速检测算法

具体来说可从以下三个方面着手:

第一,确定聚类区域。数据集D经过网格划分以后,每一个聚类的点集一定存在边界点。本发明可以根据先求出来的边界单元来求出聚类点的大致范围,这个区域内的点不可能是离群点,从而可以将其删除。边界网格单元里的数据信息是非密集网格单元中挖据离群点数据对象的重要区。因此,本发明在检测非密集网格单元之前,只需删除非边界网格单元中的聚类点信息。由于本发明主要采取基于密度的方法对网格划分的数据集进行研究与分析,因此本发明可以将聚类区域定义为:满足该区域中的点的密度大于其相邻的区域即为一个聚类区域。由网格相关定义可知:在网格划分的数据结构中,每一个网格单元都是对等的,即每一个网格单元格的大小与体积都是相等的。由此可知,对于网格单元密度的计算可以等效为网格单元格中数据点数量的计算,将网格单元中数据点的个数看作该网格单元的密度。本发明可以预先设定一个阈值,当单元格中数据点个数大于该阂值时,将其视为稠密的。本发明最终要确定的聚类区域即为所有连通的稠密的网格单元的集合。

第二,确定网格划分。在基于网格划分的聚类分析与离群点检查中,如何确定网格单元格划分的方法是问题的关键。最常用也是最简单的一种划分方法是将每个维度做等距离划分。例如,在对d维数据空间进行网格划分时,每一维度的距离为k,划分后所得到的网格单元数为k

这种基于等间隔的划分方式主要的缺陷在于:一方面,划分得到的网格单元格数量与数据集维度呈指数级相关,很难适用高维大数据集空间的划分;另一方面,由于k值是人为预先设定的,该值的微小变换将对挖掘算法的效率以及对最终结果的准确性影响巨大。如果k值选择过大,含有离群点的网格单元会被视为非边界网格单元而被删除掉,导致离群点丢失。当k值选择过小,一方面网格单元的计算量会大大增加;另一方面可能导致比较稀疏的聚类点不容易被检测到。

为了解决这一问题,可以考虑对不同维取不同间隔的划分。例如,可以将前p维的间隔设为k,后d-p 维的间隔设为q,如果各维数据分布相差很大,采用的间隔取值可以设置相对偏大。针对这种方法的还可以考虑如下改进:首先,各维划分空间的设定是相对独立的,每一维划分的间隔是不同的;其次,在确定每一维的划分间隔时,以各相邻数据点之间分布情况作为确定每一维划分间隔大小的依据。这种划分方法的优点明显优于等间隔划分方法:一方面能够把距离邻近的点划分到同一个网格单元,不会因为k值取得过大而损失划分精度;另方面也不会因为k值取得过小而增加没有必要参与计算的网格单元的数量,能够很大程度上提高算法执行的效率。

第三,边界网格细分。尽管网格划分的方式可以过滤掉大量内点,极大减少了离群点和边界点的检测数量。但是网格划分会产生许多新的边界。对于这些边界上的点,不同的网格需要区别对待,如果某个网格中的点经过判定是需要舍弃的,那么在舍弃这些网格内点的同时,应该保留其边界点。做后续进一步的判定。另一方面,在判定某个网格的边界点时,如果它周围的点因为前面网格划分的原因被舍弃掉,则在这儿要重新拿回来为判定边界点做出贡献!即,计算候选点的性质时,可能用到大数据中的其它点。

(3)审计大数据优先度排序紧密覆盖二分类模型的训练(设置)算法

假定审计大数据(样本)集D反映了审计数据的本质分布,审计大数据(样本)集D按照以上方法获得了审计大数据(样本)集中所有不离群点的集合D

1)设D

2)设置第一个神经元参数:

3)设置第j个神经元参数,2≤j≤M-1:c

4)最后设置第个神经元参数:

注:

(a)很清楚输入神经元网络的数据首先要通过第一个神经元的判定。若数据在以c

(b)本发明看到,若未知类别的数据不在第一个超球之外,又不在第超球之内,就要检查它是否在以 c

(c)紧密覆盖是指覆盖类l

(d)模型设置算法时间复杂度为O(N)。有了审计大数据优先度排序紧密覆盖二分类模型,就可在极短时间内判断未知类别数据是否为第一类风险数据。

4、本发明以聚类为核心,以审计为应用背景,以大数据为研究对象,以最优化理论及神经网络为研究工具,将管理与决策、计算机技术、应用数学、数据挖掘等多个学科和多个研究方向有机地融合整合在一起。通过充分发挥管理、信息、数理等多学科合作研究的优势,本发明有望在大数据管理与决策价值分析与发现、大数据分析方法与支撑技术等方面的研究取得突破,使我国在大数据驱动的管理与决策研究相关领域跻身国际前列。具体来说本发明:

(1)提出融合多视角审计大数据的聚类模型。现有的许多模型在处理多视角时,需要人工加权,导致不同视角在问题中的权重缺乏理论指导。而本模型的可以实现对数据不同视角的自动加权。即在求解模型的同时可以求得最优的权重,从而对各个视角的不同程度影响有一个更清晰的认识,为后续的决策起到重要的参考价值。

(2)提出求解大数据优化问题的快速算法。基于分块思想的并行算法可以在降低变量规模的同时又可以并行计算,极大提高求解效率。目前的分块思想大多是基于变量可分离这个限制条件的,而本发明将突破这个限制,成功实现分块的关键是设计出合理的正则项,本发明有望提出一个合理的正则项设计策略。利用这个正则项可以在迭代的过程中把块变量融合在一起。

(3)提出基于边界网格细分的大数据风险数据快速检测算法。尽管目前有不少时间复杂度为O(N

(4)提出审计大数据优先度排序紧密覆盖二分类模型。从而提供一个有效判断未知点是离群点还是非离群点的工具。目前国际国内没有这方面的模式分类成果。有了审计大数据优先度排序紧密覆盖二分类模型,就可在极短时间内判断未知类别数据是否为第一类风险数据。这将填补现在国内外相关的研究空白。

本发明是针对重大研究计划发明指南中“多源异构管理与决策大数据融合方法和实时分析”问题提出来的,有望以审计大数据为研究对象,给出一种解决多源异构管理与决策大数据融合方法和实时分析问题的办法,提高管理与决策大数据分析方法与支撑技术水平。本发明主要目的是提出多视角大数据的融合聚类方法、基于边界网格细分的大数据风险数据快速检测算法和审计大数据优先度排序紧密覆盖二分类模型,成果目标是有关技术方法达到国际先进水平。

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

相关技术
  • 审计大数据融合聚类与风险数据检测方法、介质、设备
  • 基于区块链共识机制的企业联网大数据审计风险控制架构
技术分类

06120113283528