掌桥专利:专业的专利平台
掌桥专利
首页

提升审计精度的方法及系统

文献发布时间:2023-06-19 09:36:59


提升审计精度的方法及系统

技术领域

本发明涉及数据审计领域,具体涉及一种提升审计精度的方法及系统。

背景技术

在审计领域数据的录入的过程中,由于各种因素导致录数据可能出现异常,一般数据都是由业务人员凭借人工进行统计,简单分析,没有系统的数据分析方法。审计领域中现有的数据分析方法是依靠审计人员的经验进行人工检测,效率比较低下。而在其他有类似需求的领域,则是基于统计法的检验方法,但是由于审计领域的数据量非常大,首先需要根据需求对大量的数据进行分组,然后再对每组数据进行分析,而其他领域的分析方法并未考虑到审计领域的数据特征,所以难以应用在审计领域中。因此,引入机器学习针对审计系统进行数据分析,可以合理高效的利用审计系统数据,提炼有价值数据,增强审计系统时效性成为时代的主流。

在机器学习的众多算法中,统计分析是最基本的算法,包含许多重要的模型,为其他机器学习算法提供训练样本等,其中概率分布模型是统计分析中最重要的组成部分,正态分布又名高斯分布,是一个在数学、物理及工程等领域都非常重要的概率分布,若随机变量服从一个位置参数、尺度参数为的概率分布,记为:则其概率密度函数为正态分布的数学期望值或期望值等于位置参数,决定了分布的位置;其方差的开平方或标准差等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此又经常称之为钟形曲线。

审计系统采购信息记录物料价格是连续型变量,故排除离散型分布;经过基本的统计分析以及对业务场景的了解,判定同一物料的大部分采购信息价格处在均值附近,存在少量异常值,故排除均匀分布和指数分布。

正态分布是许多统计方法的理论基础。检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布,因而大样本时这些统计推断方法也是以正态分布为理论基础的。

现有数据审计,仅仅依赖正态分布模型,只经过正态分布模型处理的数据,往往存在偏差,因此导致审计精度不高,图3为现有审计精度指标图,从图中看出其审计精度存在大量离散点。

发明内容

本发明的目的是提供一种提升审计精度的方法及系统,解决了设计数据中出现的偏差,极大地提高了审计精度。

本发明采取如下技术方案实现上述目的,提升审计精度的方法,包括:

步骤(1)、对数据进行预处理,确定审计数据;

步骤(2)、对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;

步骤(3)、根据清洗之后的数据建立正态分布模型并进行仿真;

步骤(4)、在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。

进一步的是,在步骤(2)中,异常值包括:人工录入的异常数据以及审计系统存在的异常数据。

进一步的是,在步骤(2)中,运用格拉布斯检验法剔除异常值的具体方法包括:

21、对原始审计数据进行异常值剔除以及异常离散值剔除;

22、剔除异常值及异常离散值后,确定审计数据中的最大值和最小值;

23、将最大值及最小值与审计数据均值差值最大的的值作为可疑值;

24、运用格拉布斯模型剔除可疑值,并进行二次格拉布斯模型异常值剔除。

进一步的是,在步骤(4)中,引入偏度模型修正正态分布模型的具体方法包括:

41A、获取正态分布模型处理后的审计数据;

42A、根据正态分布模型处理后的审计数据建立偏度模型;

43A、根据偏度模型分析审计数据偏度,若偏度大于零,则设定偏度值对正态分布模型进行修正;若偏度小于零,则采取剔除异常值之后进行二次正态分布模型运算;

44A、对正态分布模型进行偏度修正或二次正态分布模型运算后,根据仿真结果调整偏度系数,得到最优解。

进一步的是,在步骤44A中,得到最优审计数据的具体方法包括:根据仿真结果调整偏度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。

进一步的是,在步骤(4)中,引入峰度模型修正正态分布模型的具体方法包括:

41B、获取正态分布模型处理后的审计数据;

42B、根据正态分布模型处理后的审计数据建立峰度模型;

43B、根据峰度模型分析审计数据峰度,根据审计数据峰度设定峰度值修正正态分布模型;

44B、对正态分布模型进行峰度修正后,根据仿真结果调整峰度系数,得到最优解。

进一步的是,在步骤44B中,得到最优审计数据的具体方法包括:根据仿真结果调整峰度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。

提升审计精度的系统,包括:

数据预处理模块,用于对数据进行预处理,确定审计数据;

数据清洗模块,用于对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;

仿真模块,用于根据清洗之后的数据建立正态分布模型并进行仿真;

修正模块,用于在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。

本发明对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗,减少了数据的误差,然后再根据清洗后的数据建立正态分布模型并进行仿真,并在仿真过程中通过引入偏度以及峰度模型对已建立的正态分布模型进行修正,降低了数据出现的偏差,极大地提高了审计的精度。

附图说明

图1是本发明提升审计精度的方法的方法流程图。

图2是本发明提升审计精度的系统的结构框图。

图3是现有未优化的审计系统精度指标图。

图4是本发明对异常数据剔除优化后审计精度图。

图5是本发明经过偏度模型修正后审计精度图。

图6是本发明经过峰度模型修正后审计精度图。

具体实施方式

本发明提升审计精度的方法,其方法流程图如图1,包括:

步骤101、对数据进行预处理,确定审计数据;

步骤102、对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;

步骤103、根据清洗之后的数据建立正态分布模型并进行仿真;

步骤104、在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。

步骤102中,异常值包括:人工录入的异常数据以及审计系统存在的异常数据。

步骤102中,运用格拉布斯检验法剔除异常值的具体方法包括:

201、对原始审计数据进行异常值剔除以及异常离散值剔除;

202、剔除异常值及异常离散值后,确定审计数据中的最大值和最小值;

203、将最大值及最小值与审计数据均值差值最大的的值作为可疑值;

204、运用格拉布斯模型剔除可疑值,并进行二次格拉布斯模型异常值剔除。

步骤102中,运用格拉布斯检验法剔除异常值的具体方法可以称作3σ原则,通常利用3σ原则对审计数据进行首次优化或者数据清洗。

如图4,为采用3σ原则优化后的审计精度图,横坐标表示个数,纵坐标表示审计数据,采用3σ原则优化后,发现审计系统数据分析精准度从不到50%提升到60%。

步骤104,引入偏度模型修正正态分布模型的具体方法包括:

401A、获取正态分布模型处理后的审计数据;

402A、根据正态分布模型处理后的审计数据建立偏度模型;

403A、根据偏度模型分析审计数据偏度,若偏度大于零,则设定偏度值对正态分布模型进行修正;若偏度小于零,则采取剔除异常值之后进行二次正态分布模型运算;

404A、对正态分布模型进行偏度修正或二次正态分布模型运算后,根据仿真结果调整偏度系数,得到最优解。

步骤404A中,得到最优审计数据的具体方法包括:根据仿真结果调整偏度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。

如图5,为引入偏度模型修正正态分布模型后,通过正态分布模型处理后得到的审计数据精度图,横坐标表示个数,纵坐标表示审计数据,采用偏度模型修正后,发现审计系统数据分析精准度从60%达到85%。

步骤104,引入峰度模型修正正态分布模型的具体方法包括:

401B、获取正态分布模型处理后的审计数据;

402B、根据正态分布模型处理后的审计数据建立峰度模型;

403B、根据峰度模型分析审计数据峰度,根据审计数据峰度设定峰度值修正正态分布模型;

404B、对正态分布模型进行峰度修正后,根据仿真结果调整峰度系数,得到最优解。

步骤404B中,得到最优审计数据的具体方法包括:根据仿真结果调整峰度系数,再次对正态分布模型进行偏度修正,然后通过修正后的正态分布模型对审计数据进行处理,得到最优审计数据。

如图6所示,为引入峰度模型修正正态分布模型后,通过正态分布模型处理后得到的审计数据精度图,横坐标表示个数,纵坐标表示审计数据,采用峰度模型修正后,发现审计系统数据分析精准度从85%达到90%。

本发明提升审计精度的系统,其结构框图如图2,数据清洗模块分别与数据预处理模块以及仿真模块连接,仿真模块与修正模块;

数据预处理模块,用于对数据进行预处理,确定审计数据;

数据清洗模块,用于对审计数据运用格拉布斯检验法剔除异常值,进行数据清洗;

仿真模块,用于根据清洗之后的数据建立正态分布模型并进行仿真;

修正模块,用于在仿真过程中,引入偏度以及峰度模型修正正态分布模型提升审计精度。

其中偏度,衡量随机变量概率分布的不对称性,是相对于平均值不对称程度的度量。

具体计算公式:

其中SD代表标准差,

这个统计量同样需要与正态分布相比较,偏度=0表示其数据分布形态与正态分布的偏斜程度相同;偏度>0表示其数据分布形态与正态分布相比为正偏(右偏),即有一条长尾巴拖在右边,数据右端有较多的极端值,数据均值右侧的离散程度强;偏度<0表示其数据分布形态与正态分布相比为负偏(左偏),即有一条长尾拖在左边,数据左端有较多的极端值,数据均值左侧的离散程度强,偏度的绝对值数值越大表示其分布形态的偏斜程度越大。

峰度,峰度是概率密度函数在均值处峰值高低的特征,通常定义四阶中心矩除以方差的平方减3。

具体计算公式:

在具体实施例中,首先,根据审计系统采购信息记录数据进行基本数据统计,剔除异常数据,其次根据剔除异常值之后的数据进行正态分布模型建模,调整参数,

详细的技术方案实施步骤如下所述:

审计系统中采用偏度以及峰度模型优化修正正态分布模型,数据异常值处理之后获取所有采购信息记录。

第一步:确认选择一个月时间为时间区间,即20170101-20170131为一个区间,一共20个区间;

第二步:根据一个月时间区间,依据时间区间分析模型选择处在时间区间内的相同物料的采购信息记录;

第三步:确定时间区间内最小价格(min),根据最小价格计算每条记录的差价,差价比,计算所有差价比的均值、标准差,差价:时间区间内物料价格-最小价格,差价比b:差价/最小价格,均值p:差价比总和/差价比总个数n;标准差:

第四步:依据正态分布模型,均值+2*标准差(95.4%)作为预警离群值,均值+3*标准差(99.6%)作为熔断离群值;

依据数据离散程度,给定的熔断离群值不能超过时间区间内物料差价比最大值,特此选择偏度和峰度修正正态分布模型;

第五步:针对熔断离群值大于最大差价比的物料修正预警值和熔断值。

修正方法如下:

(1)计算时间区间内差价比的偏度和峰度;

(2)偏度>0.5,依据正态分布模型,采取最大差价比*0.95作为预警离群值,最大差价比*0.99作为熔断离群值;

其中偏度>0.5中0.5依据数据统计与经验值,0.95以及0.99依据正态分布模型均值+2标准差,均值+3标准差;

(3)偏度<-0.5,剔除差价比小于平均值的记录,其他记录重新计算均值,标准差,依据正态分布模型,给出预警离群值和熔断离群值;

说明偏度<-0.5依据数据统计与经验值,剔除差价比小于平均值的记录依据偏度和峰度模型。

综上所述,本发明解决了设计数据中出现的偏差,极大地提高了审计精度。

相关技术
  • 提升审计精度的方法及系统
  • 一种提升测量系统测量精度的方法及系统
技术分类

06120112232393