掌桥专利:专业的专利平台
掌桥专利
首页

数据波动性的检查方法、装置、电子设备及存储介质

文献发布时间:2023-06-19 19:30:30


数据波动性的检查方法、装置、电子设备及存储介质

技术领域

本文件涉及数据业务领域,尤其涉及一种数据波动性的检查方法、装置、电子设备及存储介质。

背景技术

数据波动性是指数据由于业务或者由于数据异常产生的周期范围内数据的波动行为。随着电子技术的快速发展和业务数据量的大幅增长,针对数据波动性进行检查的需求日益增加。

通过人工配置数据波动性的检查阈值,依赖于配置人员的开发经验,且难以频繁更新,使得波动性检查的准确性较低。

发明内容

本发明实施例的目的是提供一种数据波动性的检查方法、装置、电子设备及存储介质,以解决如何提高数据波动性检查的准确性的问题。

为解决上述技术问题,本发明实施例是这样实现的:

第一方面,本发明实施例提供了一种数据波动性的检查方法,该方法包括:

根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;

通过所述历史数据采集脚本获得满足所述数据检查参数的第一历史数据,根据所述第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;所述第一区间边界阈值小于所述第二区间边界阈值;

根据所述第一区间边界阈值、所述第二区间边界阈值、所述数据检查参数和第二脚本模板,生成数据检查脚本;

通过所述数据检查脚本,检查满足所述数据检查参数的实时数据的波动性是否正常。

第二方面,本发明实施例提供了一种数据波动性的检查装置,该装置包括:

第一脚本生成模块,用于根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;

边界阈值生成模块,用于通过所述历史数据采集脚本获得满足所述数据检查参数的第一历史数据,根据所述第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;所述第一区间边界阈值小于所述第二区间边界阈值;

第二脚本生成模块,用于根据所述第一区间边界阈值、所述第二区间边界阈值、所述数据检查参数和第二脚本模板,生成数据检查脚本;

波动性检查模块,用于通过所述数据检查脚本,检查满足所述数据检查参数的实时数据的波动性是否正常。

第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器所述存储器上存储有计算机可执行指令,所述计算机可执行指令在被处理器执行时,能够实现上述第一方面所述的数据波动性的检查方法。

第四方面,本发明实施例提供了一种存储介质,该存储介质中存储有计算机可执行指令,该计算机可执行指令在被处理器执行时实现上述第一方面所述的数据波动性的检查方法。

根据本发明实施例的技术方案,首先,根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;其次,通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;接着,第一区间边界阈值小于第二区间边界阈值;根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本;最后,通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。通过本发明实施例的技术方案,能够自动确定用于检测数据波动性的数据波动区间,使得该数据波动区间的边界阈值不依赖于人工设置且随着数据变化而快速更新,进而提高数据波动性检查的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一个或多个实施例提供的一种数据波动性的检查方法的流程示意图;

图2为本发明一个或多个实施例提供的一种获得数据波动区间的边界阈值的流程示意图;

图3a为本发明一个或多个实施例提供的差分处理前不具有平稳性的第一历史数据的示意图;

图3b为本发明一个或多个实施例提供的差分处理后具有平稳性的第一历史数据的示意图;

图4为本发明一个或多个实施例提供的一种数据波动性的检查装置的数据流向示意图;

图5为本发明一个或多个实施例提供的一种数据波动性的检查装置的示意框图;

图6为本发明一个或多个实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

数据波动性是指数据由于业务或者由于数据异常产生的周期范围内数据的波动行为。数据波动性的检查装置可以是为了确保数据波动性在规定的合理范围,当数据异常波动时能够自动进行检查而制定的检查装置。数据波动性的检查方法可以是运行于数据波动性的检查装置上,数据波动性的检查方法可以用于检查数据的波动性是否正常。

例如,电子设备需要对5G(5th Generation Mobile Communication Technology,第五代移动通信技术)用户数进行数据波动性的检查,确保5G用户数的每日的波动保持在合理的波动范围之内,当波动值超出既定的波动范围时则需要进行预警,配置的信息可以如下表所示。

表1示出了一种5G用户数的波动性检测方法所采用的数据波动性检查规则的参数配置表。该参数配置表中包含待检查的业务数据、检查周期、波动范围上限以及波动范围下限。

表1

一方面,当通过人工设置波动范围上限和波动范围下限时,波动范围的制定依赖于配置人员的开发经验,缺乏对数据周期性变化的观测与动态衡量,可能造成波动性异常误报或漏报。

另一方面,根据波动范围上限和波动范围下限配置数据波动性检查规则时,需要配置人员逐条定制单一性的规则,浪费人工。

为克服上述问题,本发明提供如下所示的多个实施例。

图1为本发明一个或多个实施例提供的一种数据波动性的检查方法的流程示意图。

参照图1所示,该数据波动性的检查方法包括步骤S102、步骤S104、步骤S106以及步骤S108。下面对图1的示例实施例中的数据波动性的检查方法进行详细的说明。

步骤S102,根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本。

数据检查参数可以是用于从指定的存储空间中筛选数据的筛选条件参数,例如,存储空间包含X个数据库,一个数据库中包含Y张表,一个表格中包含Z个字段,各字段的字段值可能随时间变化,则根据数据库的标识、表名称、字段名称以及数据检查周期,可以筛选得到指定的数据,例如,在标识为001的数据库包含的表2的字段“5G用户数”的一天内的字段值。

第一脚本模板可以是预先构建的SQL(Structured Query Language,结构化查询语言)模板。通过在该SQL模板中填写用户输入的数据检查参数,可以生成电子设备可识别并执行的SQL语句,该SQL语句可以用于采集符合该数据检查参数的历史数据。

例如,用户输入目标表名称“表2”、目标字段名称“5G用户数”以及数据检查周期“天”,则电子设备根据目标表名称“表2”、目标字段名称“5G用户数”以及数据检查周期“天”以及预先构建的SQL模板,生成用于采集表2的字段“5G用户数”的一天内的字段值的SQL语句。

具体实施时,历史数据可以对应于第一周期,实时数据可以对应于第二周期。第一周期位于第二周期之前。历史数据可以是第一周期所采集的全部数据,实时数据可以是当前时间点所采集的数据,该当前时间点位于第二周期内,该实时数据显然不是第二周期所采集的全部数据。

此处通过简单的例子对历史数据和实时数据进行说明。例如,数据检查参数包括目标数据库标识“001”、目标表名称“表2”、目标字段名称“5G用户数”以及数据检查周期“天”。此处,根据数据检查周期“天”,可以将昨天的0点到今天0点作为第一周期,将今天0点到明天0点作为第二周期。则在今天10点所采集的实时数据可以是电子设备今天10点在标识为001的数据库包含的表2的字段“5G用户数”的字段值,而历史数据可以是电子设备从昨天的0点到今天0点在标识为001的数据库包含的表2的字段“5G用户数”的全部字段值。

可选地,数据检查参数包括目标表名称、目标字段名称以及目标数据检查周期;在步骤S102被执行之前,数据波动性的检查方法还包括:读取预先存储的表结构信息;表结构信息包括至少一个表名称以及各表名称对应的至少一个字段名称;根据表结构信息,生成数据检查参数的配置页面;在配置页面接收针对目标表名称提交的第一选择操作、针对目标字段名称提交的第二选择操作、针对数据检查周期提交的第三选择操作以及配置确认操作;根据第一选择操作、第二选择操作、第三选择操作以及配置确认操作,确定用户输入的目标表名称、目标字段名称以及目标数据检查周期。

预先存储的表结构信息可以包括至少一个表名称以及各表名称对应的至少一个字段名称。表结构信息可以从指定的存储空间获取并集中存储在指定位置。

具体实施时,电子设备可以构建一个基于表结构信息生成的可勾选表名称的可视化界面,在该可视化界面中,用户可以在至少一个表名称中勾选目标表名称。在用户勾选目标表名称之后,该可视化界面中可以显示有目标表名称对应的至少一个字段名称。用户可以在至少一个字段名称中勾选目标字段名称。在用户勾选目标字段名称之后,该可视化界面中可以显示有多种预设的数据检查周期,用户可以在多种预设的数据检查周期中勾选目标数据检查周期。在用户勾选目标数据检查周期之后,用户可以进行配置确认操作,例如,单击位于该可视化界面的最下方的“确认”控件。电子设备可以根据前述的各个用户操作,确定用户输入的目标表名称、目标字段名称以及目标数据检查周期。

步骤S104,通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;第一区间边界阈值小于第二区间边界阈值。

电子设备可以运行SQL语句,对存储空间内的数据进行筛选,获得满足数据检查参数的第一历史数据。存储空间内的数据可以是历史业务数据,例如,运营商的历史订单数据、历史话单数据等。

第一历史数据,例如,存储空间包含X个存储有历史订单数据的数据库,一个数据库中包含Y张表,一个表格中包含Z个字段,各字段的字段值可能随时间变化,则根据数据库的标识、表名称、字段名称以及数据检查周期,可以从存储的历史订单数据中筛选得到指定的历史订单数据,例如,在标识为001的数据库包含的表2的字段“5G用户数”的一天内的字段值。

数据波动区间的第一区间边界阈值可以是数据波动区间的最小值,数据波动区间的第二区间边界阈值可以是数据波动区间的最大值。通过最小值和最大值可以定位唯一的数据波动区间,以检查数据的波动性是否正常。其中,数据的波动性正常指的是数据位于数据波动区间中,数据的波动性异常指的是数据位于数据波动区间之外。

可选地,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值,包括:对第一历史数据进行预处理和平稳化处理,得到第二历史数据;根据第二历史数据和时间序列预测模型,求得第二历史数据所对应的多个预测数据;根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。

此处可以结合图2进行说明。图2为本发明一个或多个实施例提供的一种获得数据波动区间的边界阈值的流程示意图。

如图2,步骤S202,输入预处理后的第一历史数据。

步骤S204,判断预处理后的第一历史数据是否具有稳定性。

若是,则执行步骤S208;若否,则执行步骤S206。

步骤S206,差分处理。

电子设备对不具有稳定性的第一历史数据进行差分处理,执行完差分处理后,返回步骤S204。

步骤S208,获取多个预测数据。

根据第二历史数据和时间序列预测模型,求得第二历史数据所对应的多个预测数据。

步骤S210,计算第一区间边界阈值和第二区间边界阈值。

根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值

可选地,对第一历史数据进行预处理和平稳化处理,得到第二历史数据,包括:对第一历史数据进行预处理;通过单位根检验方法判断预处理后的第一历史数据是否具有平稳性;若是,则将预处理后的第一历史数据确定为第二历史数据;若否,则对预处理后的第一历史数据进行差分处理,直到确定差分处理后的第一历史数据具有平稳性,将差分处理后具有平稳性的第一历史数据确定为第二历史数据。

预处理包括且不限于补全缺失的值,识别或删除离群点,解决数据量纲、单位等带来的不一致性,完成格式标准化,异常数据清除,错误纠正,重复数据的清除。

序列平稳性是进行时间序列分析的前提条件,平稳是要求经由样本时间序列所得到的拟合曲线在未来一段时间内仍能顺着现有的形态延续下去。序列的均值和方差与自回归系数不发生明显变化。

此处电子设备可以对预处理后的第一历史数据进行时间序列分析。时间序列的单位根检验用于判断时间序列的平稳性,包括DF(Dickey and Fuller,1979)、ADF(augmentedDickey-Fuller,1981)、PP(Phillips and Perron,1988)三种检验方法。具体地,电子设备可以采用DF单位根检验方法判断预处理后的第一历史数据是否具有平稳性。此处可以通过第三方开源工具实现。

若判断结果为预处理后的第一历史数据具有平稳性,则将该预处理后的第一历史数据确定为第二历史数据。

若判断结果为预处理后的第一历史数据不具有平稳性,则对该预处理后的第一历史数据进行差分处理。判断差分处理后的第一历史数据是否具有平稳性,若是,则将差分处理后的第一历史数据确定为第二历史数据;若否,则对该差分处理后的第一历史数据进行第二次差分处理……直到差分处理后的第一历史数据具有平稳性,则将差分处理后具有平稳性的第一历史数据确定为第二历史数据。通常只需要不平稳的数据进行一两次差分处理,即可得到具有平稳性的数据。

需要对第一历史数据进行平稳化处理的理由如下:在时间序列计算中,存在不平稳的数据会导致模型输出的结果存在较大的误差,通俗的说模型输出的结果就算高达98%以上,也有可能模型根本无法使用,因为模型所使用的数据是不平稳的数据,就比如在一堆产品中,尽管已经发现了存在劣质品,但模型仍然会告诉你产品毫无缺陷,原因就很可能是模型的输入数据存在不平稳的数据。数据平稳是时间序列模型对输入数据的基本要求。

本发明实施例采用差分处理对不平稳的第一历史数据进行平稳化处理,使数据尽可能平稳,提升模型的准确性。差分原理是对等周期间隔的数据进行线性求减,就是后一时间点的值减去当前时间点,其公式为y

图3a为本发明一个或多个实施例提供的差分处理前不具有平稳性的第一历史数据的示意图;图3b为本发明一个或多个实施例提供的差分处理后具有平稳性的第一历史数据的示意图。

如图3a所示,横坐标为时间t,纵坐标为第一历史数据中与时间t对应的5G用户数的数量,用x(t)表示。如图3b所示,横坐标为时间t,纵坐标为第一历史数据中与时间t对应的5G用户数的数量的差分值,用diff[x(t)]表示。当diff[x(t)]在0附近时,表示第一历史数据中与时间t对应的5G用户数的数量x(t)的数值具有平稳性。

根据第二历史数据和时间序列预测模型,求得第二历史数据所对应的多个预测数据。其中,时间序列预测模型可以是差分自回归移动平均模型。模型公式如下:

公式(1)中y

可选地,根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值,包括:根据第二历史数据所对应的多个预测数据,计算得到预测数据的平均绝对误差;确定多个预测数据中的最高值和最低值;根据平均绝对误差、最高值以及最低值,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。

具体实施时,可以采用均方误差MSE(Mean Square Error,均方误差)对获得的的多个预测数据进行拟合。同时将预测数据的MAE(Mean Absolute Error,平均绝对误差)作为预测数据的可波动范围限制。假设想要预测的变量为Y=(y

下文针对公式(2)的应用举例说明:假如想要预测的变量的真实值为Y=(1,1,2,1),而当前的预测值为:

MSE=1/4*[(1-0.6)

MAE=1/4*[|1-0.6|+|1-0.6|+|2-1.6|+|1-0.6|]=0.4

通过模型评估后的预测值与在训练模型时得到的平均绝对误差,求和计算每个样本字段的下一周期波动性范围,即得到该字段在下一周期的数据量所应当处在的阈值上下限。即波动范围上限=1.6+0.4=2,波动范围下限=0.6+0.4=1。

本发明实施例可以实现自动生成波动范围阈值、并且根据数据的历史波动情况自动调整范围阈值,覆盖了数据量历史周期变化趋势,以机器学习的方法完成对数据量波动的正确度量,提升了波动性规则检查的完备性和识别能力。

步骤S106,根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本。

第二脚本模板可以是预先构建的SQL(Structured Query Language,结构化查询语言)模板。通过在该SQL模板中填写第一区间边界阈值、第二区间边界阈值以及数据检查参数,可以生成电子设备可识别并执行的SQL语句,该SQL语句可以用于采集符合该数据检查参数的实时数据并生成该实时数据分别与第一区间边界阈值、第二区间边界阈值之间的偏差量。

步骤S108通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。

当实时数据位于数据波动区间内,实时数据的波动性正常;当实时数据位于数据波动区间之外,实时数据的波动性异常。

可选地,通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常,包括:运行数据检查脚本,获得实时数据与第一区间边界阈值的差值,作为第一差值,以及,获得实时数据与第二区间边界阈值的差值,作为第二差值;若第一差值大于等于零,且第二差值小于等于零,则确定实时数据的波动性正常;若第一差值小于零,且第二差值小于零,则确定实时数据的波动性不正常;若第一差值大于零,且第二差值大于零,则确定实时数据的波动性不正常。

通过运行数据检查脚本,可以采集实时数据,且获得该实时数据与第一区间边界阈值的差值,作为第一差值,获得实时数据与第二区间边界阈值的差值,作为第二差值。电子设备可以根据第一差值与零的比较结果和第二差值与零的比较结果,判断实时数据的波动性是否正常。

具体为:

若第一差值大于等于零,且第二差值小于等于零,则说明实时数据大于等于数据波动区间的最小值,且小于等于数据波动区间的最大值,即该实时数据位于数据波动区间内,故确定实时数据的波动性正常;

若第一差值小于零,且第二差值小于零,则说明实时数据小于数据波动区间的最小值,不在数据波动区间内,故确定实时数据的波动性不正常;

若第一差值大于零,且第二差值大于零,则说明实时数据大于数据波动区间的最大值,不在数据波动区间内,故确定实时数据的波动性不正常。

可选地,在步骤S108被执行之后,数据波动性的检查方法还包括:若确定实时数据的波动性正常,则确定实时数据的稽核结果为正常;若确定实时数据的波动性不正常,则确定实时数据的稽核结果为异常;针对稽核结果为异常的实时数据生成告警通知。

若确定实时数据的波动性正常,则确定实时数据的波动性的稽核结果为正常,即实时数据的波动性通过稽核;若确定实时数据的波动性异常,则确定实时数据的波动性的稽核结果为异常,即实时数据的波动性未通过稽核。当实时数据的波动性未通过稽核时,针对稽核结果为异常的实时数据生成告警通知,该告警通知可以携带有该实时数据对应的表名称、字段名称、数据量等信息。告警通知可以采用短信、电子邮件、消息(Kafka、Redis、ActiveMQ等)等方式。

根据图1的示例实施例中的数据波动性的检查方法,首先,根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;其次,通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;接着,第一区间边界阈值小于第二区间边界阈值;根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本;最后,通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。通过本发明实施例的技术方案,能够自动确定用于检测数据波动性的数据波动区间,使得该数据波动区间的边界阈值不依赖于人工设置且随着数据变化而快速更新,进而提高数据波动性检查的准确性。

图4为本发明一个或多个实施例提供的一种数据波动性的检查装置的数据流向示意图。

参照图4所示,数据波动性的检查装置包括表结构信息获取单元401、波动性规则配置单元402、数据样本模板单元403、波动范围阈值自动生成单元404、规则稽核单元405、检查SQL模板单元406以及告警单元407。

其中,表结构信息获取单元401用于采集表结构信息,为数据波动性的检查做基础准备,该表结构信息获取单元401采集表结构信息并将表结构信息入库。具体地,采集表结构信息,包括:获取仓库中所有的表结构信息,包括表名称、表结构字段信息;将表结构信息入库:将采集到的表结构等信息入库,将表结构集中管理起来,用以作为下一单元的数据准备。此处的仓库指的是用于存储海量的业务数据的数据库。

波动性规则配置单元402,用于配置波动性检查规则,该波动性规则配置单元402执行如下步骤:

(1)读取数据表信息:对表结构信息获取单元401所采集的表结构信息进行读取。

(2)选择需要检查的表:构建一个可勾选表名称的可视化界面,可选择上一步读取到的表结构信息。

(3)勾选需要检查的字段:在选择表结构信息以后,提供一个可勾选上一步选择的需要检查的表所包含的字段的界面,通过界面选择要计算波动性指标的目标字段。

(4)勾选需要检查的周期:提供一个可勾选上一步选择的需要检查的表的数据周期的界面,通过该界面选择要计算波动性指标的周期。

(5)调用SQL模板:从数据样本模板单元403中调用SQL模板。

(6)根据模板自动生成历史数据SQL:将表名称、目标字段、计算周期等参数填入被调用的SQL模板,以生成的对应的SQL脚本;运行SQL脚本,获取满足被用户勾选的表、字段以及周期的历史数据并存储下来、作为下一单元的数据准备。

数据样本模板单元403,用于生成历史数据样本SQL模板并存储。

波动范围阈值自动生成单元404,用于根据获取到的历史数据,自动生成数据波动区间的边界阈值。该波动范围阈值自动生成单元404执行如下步骤:获取检查SQL;执行检查SQL获取所有的历史数据;执行时间序列模型;输出波动性范围阈值。

具体实施时,该波动范围阈值自动生成单元404可以对第一历史数据进行预处理和平稳化处理,得到第二历史数据;根据第二历史数据和时间序列预测模型,求得第二历史数据所对应的多个预测数据;根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。该波动范围阈值自动生成单元404所执行的各个步骤可以参照图1所示的实施例,此处不再赘述。

规则稽核单元405,用于进行波动检查规则的执行及稽核。该规则稽核单元执行如下步骤:

(1)获取波动范围阈值:获取波动范围阈值自动生成单元404输出的第一区间边界阈值和第二区间边界阈值,作为规则稽核的数据基础。

(2)生成检查样本SQL脚本:调用检查SQL模板单元406中的检测样本SQL模板,将第一区间边界阈值和第二区间边界阈值填入该检测样本SQL模板中,以生成检查样本SQL脚本。

(3)执行波动性检查SQL:运行波动性检查SQL脚本,获取本周期的统计值以及统计值与波动范围阈值之间的偏差量,并存储下来。

(4)记录检查结果值:根据统计值与波动范围阈值之间的偏差量,判断统计值是否处于第一区间边界阈值和第二区间边界阈值之间,若是,则输出为通过稽核,若否,则输出为不通过稽核。

检查SQL模板单元406,用于生成检查样本SQL模板并存储。

告警单元407,根据不通过波动性稽核的表名称,表字段,数据量等消息进行告警通知,可采用短信、电子邮件、消息(Kafka、Redis、ActiveMQ等)等方式。

另外,本实施例提供的数据波动性的检查装置可以通过如下方式构建:

(1)建立表结构信息获取单元401,在元数据管理系统中源表对应的数据信息建立配置表,根据所述配置表按预设周期提取所述源表所对应的数据信息。建立配置表,根据所述配置表按预设周期提取所述表所对应的数据。

(2)建立波动性规则配置单元402,用以配置完成不同需求所需要的目标表及字段,周期等信息,通过勾选的方式简化了以往需要逐条SQL输入的波动性检查规则配置。

(3)建立数据样本模板单元403,目的是为了对人工配置好的波动性稽核需求投入自动化的波动性计算。为下一步模型建立提供样本数据。

(4)为了在上述单元配置的规则及采集到样本数据进行建模,并输出波动性阈值,建立波动阈值范围自动生成单元404,完成以往需要人工经验配置的波动性规则阈值计算,并会根据数据周期的变化合理化的调整阈值范围。

(5)建立检查SQL模板单元406,目的是完成波动性阈值计算结果和稽核单元的数据联系。通过开发好的模板完成自动化,智能化的稽核判断。

(6)建立规则稽核单元406,对待稽核的需求进行稽核,完成稽核,输出稽核结果。

(7)建立告警单元407,根据稽核结果进行告警。

如图4所示的实施例提供的数据波动性的检查装置能够实现前述数据波动性的检查方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。

图5为本发明一个或多个实施例提供的一种数据波动性的检查装置的示意框图。

参照图5所示,该数据波动性的检查装置500包括:

第一脚本生成模块501,用于根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;

边界阈值生成模块502,用于通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;第一区间边界阈值小于第二区间边界阈值;

第二脚本生成模块503,用于根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本;

波动性检查模块504,用于通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。

在本发明的一些实施例中,基于上述方案,边界阈值生成模块502,包括:

历史数据处理单元,用于对第一历史数据进行预处理和平稳化处理,得到第二历史数据;

预测数据获取单元,用于根据第二历史数据和时间序列预测模型,求得第二历史数据所对应的多个预测数据;

边界阈值计算单元,用于根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。

在本发明的一些实施例中,基于上述方案,数据检查参数包括目标表名称、目标字段名称以及目标数据检查周期;该数据波动性的检查装置500还包括:

表结构信息读取模块,用于读取预先存储的表结构信息;表结构信息包括至少一个表名称以及各表名称对应的至少一个字段名称;

配置页面生成模块,用于根据表结构信息,生成数据检查参数的配置页面;

用户操作接收模块,用于在配置页面接收针对目标表名称提交的第一选择操作、针对目标字段名称提交的第二选择操作、针对数据检查周期提交的第三选择操作以及配置确认操作;

目标参数确定模块,用于根据第一选择操作、第二选择操作、第三选择操作以及配置确认操作,确定用户输入的目标表名称、目标字段名称以及目标数据检查周期。

在本发明的一些实施例中,基于上述方案,波动性检查模块504,具体用于:

运行数据检查脚本,获得实时数据与第一区间边界阈值的差值,作为第一差值,以及,获得实时数据与第二区间边界阈值的差值,作为第二差值;

若第一差值大于等于零,且第二差值小于等于零,则确定实时数据的波动性正常;

若第一差值小于零,且第二差值小于零,则确定实时数据的波动性不正常;

若第一差值大于零,且第二差值大于零,则确定实时数据的波动性不正常。

在本发明的一些实施例中,基于上述方案,数据波动性的检查装置500还包括:

第一结果确定模块,用于若确定实时数据的波动性正常,则确定实时数据的稽核结果为正常;

第二结果确定模块,用于若确定实时数据的波动性不正常,则确定实时数据的稽核结果为异常;

告警通知生成模块,用于针对稽核结果为异常的实时数据生成告警通知。

在本发明的一些实施例中,基于上述方案,边界阈值计算单元,具体用于:

根据第二历史数据所对应的多个预测数据,计算得到预测数据的平均绝对误差;

确定多个预测数据中的最高值和最低值;

根据平均绝对误差、最高值以及最低值,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。

在本发明的一些实施例中,基于上述方案,历史数据处理单元,具体用于:

对第一历史数据进行预处理;

通过单位根检验方法判断预处理后的第一历史数据是否具有平稳性;

若是,则将预处理后的第一历史数据确定为第二历史数据;

若否,则对预处理后的第一历史数据进行差分处理,直到确定差分处理后的第一历史数据具有平稳性,将差分处理后具有平稳性的第一历史数据确定为第二历史数据。

根据本发明实施例的技术方案,首先,根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;其次,通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;接着,第一区间边界阈值小于第二区间边界阈值;根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本;最后,通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。通过本发明实施例的技术方案,能够自动确定用于检测数据波动性的数据波动区间,使得该数据波动区间的边界阈值不依赖于人工设置且随着数据变化而快速更新,进而提高数据波动性检查的准确性。

本发明一个或多个实施例提供的数据波动性的检查装置能够实现前述数据波动性的检查方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。

进一步地,本发明实施例还提供了一种电子设备,图6为本发明一个或多个实施例提供的一种电子设备的结构示意图,如图6所示,该电子设备包括存储器601、处理器602、总线603和通信接口604。存储器601、处理器602和通信接口604通过总线603进行通信,通信接口604可以包括输入输出接口,输入输出接口包括但不限于键盘、鼠标、显示器、麦克风、扩音器等。

图6中,存储器601上存储有计算机可执行指令,该计算机可执行指令在被处理器602执行时,能够实现以下流程:

根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;

通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;第一区间边界阈值小于第二区间边界阈值;

根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本;

通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。

可选地,该计算机可执行指令在被处理器702执行时,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值,包括:

对第一历史数据进行预处理和平稳化处理,得到第二历史数据;

根据第二历史数据和时间序列预测模型,求得第二历史数据所对应的多个预测数据;

根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。

可选地,该计算机可执行指令在被处理器702执行时,数据检查参数包括目标表名称、目标字段名称以及目标数据检查周期;在根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本之前,还包括:

读取预先存储的表结构信息;表结构信息包括至少一个表名称以及各表名称对应的至少一个字段名称;

根据表结构信息,生成数据检查参数的配置页面;

在配置页面接收针对目标表名称提交的第一选择操作、针对目标字段名称提交的第二选择操作、针对数据检查周期提交的第三选择操作以及配置确认操作;

根据第一选择操作、第二选择操作、第三选择操作以及配置确认操作,确定用户输入的目标表名称、目标字段名称以及目标数据检查周期。

可选地,该计算机可执行指令在被处理器702执行时,通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常,包括:

运行数据检查脚本,获得实时数据与第一区间边界阈值的差值,作为第一差值,以及,获得实时数据与第二区间边界阈值的差值,作为第二差值;

若第一差值大于等于零,且第二差值小于等于零,则确定实时数据的波动性正常;

若第一差值小于零,且第二差值小于零,则确定实时数据的波动性不正常;

若第一差值大于零,且第二差值大于零,则确定实时数据的波动性不正常。

可选地,在通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常之后,该计算机可执行指令在被处理器702执行时,还可以执行如下流程:

若确定实时数据的波动性正常,则确定实时数据的稽核结果为正常;

若确定实时数据的波动性不正常,则确定实时数据的稽核结果为异常;

针对稽核结果为异常的实时数据生成告警通知。

可选地,该计算机可执行指令在被处理器702执行时,根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值,包括:

根据第二历史数据所对应的多个预测数据,计算得到预测数据的平均绝对误差;

确定多个预测数据中的最高值和最低值;

根据平均绝对误差、最高值以及最低值,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。

可选地,该计算机可执行指令在被处理器702执行时,对第一历史数据进行预处理和平稳化处理,得到第二历史数据,包括:

对第一历史数据进行预处理;

通过单位根检验方法判断预处理后的第一历史数据是否具有平稳性;

若是,则将预处理后的第一历史数据确定为第二历史数据;

若否,则对预处理后的第一历史数据进行差分处理,直到确定差分处理后的第一历史数据具有平稳性,将差分处理后具有平稳性的第一历史数据确定为第二历史数据。

根据本发明实施例的技术方案,首先,根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;其次,通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;接着,第一区间边界阈值小于第二区间边界阈值;根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本;最后,通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。通过本发明实施例的技术方案,能够自动确定用于检测数据波动性的数据波动区间,使得该数据波动区间的边界阈值不依赖于人工设置且随着数据变化而快速更新,进而提高数据波动性检查的准确性。

本发明实施例提供的电子设备能够实现前述数据波动性的检查方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。

进一步地,本发明实施例还提供一种存储介质,该存储介质中存储有计算机可执行指令,该计算机可执行指令在被处理器702执行时,能够实现以下流程:

根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;

通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;第一区间边界阈值小于第二区间边界阈值;

根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本;

通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。

可选地,该计算机可执行指令在被处理器702执行时,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值,包括:

对第一历史数据进行预处理和平稳化处理,得到第二历史数据;

根据第二历史数据和时间序列预测模型,求得第二历史数据所对应的多个预测数据;

根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。

可选地,该计算机可执行指令在被处理器702执行时,数据检查参数包括目标表名称、目标字段名称以及目标数据检查周期;在根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本之前,还包括:

读取预先存储的表结构信息;表结构信息包括至少一个表名称以及各表名称对应的至少一个字段名称;

根据表结构信息,生成数据检查参数的配置页面;

在配置页面接收针对目标表名称提交的第一选择操作、针对目标字段名称提交的第二选择操作、针对数据检查周期提交的第三选择操作以及配置确认操作;

根据第一选择操作、第二选择操作、第三选择操作以及配置确认操作,确定用户输入的目标表名称、目标字段名称以及目标数据检查周期。

可选地,该计算机可执行指令在被处理器702执行时,通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常,包括:

运行数据检查脚本,获得实时数据与第一区间边界阈值的差值,作为第一差值,以及,获得实时数据与第二区间边界阈值的差值,作为第二差值;

若第一差值大于等于零,且第二差值小于等于零,则确定实时数据的波动性正常;

若第一差值小于零,且第二差值小于零,则确定实时数据的波动性不正常;

若第一差值大于零,且第二差值大于零,则确定实时数据的波动性不正常。

可选地,在通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常之后,该计算机可执行指令在被处理器702执行时,还可以执行如下流程:

若确定实时数据的波动性正常,则确定实时数据的稽核结果为正常;

若确定实时数据的波动性不正常,则确定实时数据的稽核结果为异常;

针对稽核结果为异常的实时数据生成告警通知。

可选地,该计算机可执行指令在被处理器702执行时,根据第二历史数据所对应的多个预测数据,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值,包括:

根据第二历史数据所对应的多个预测数据,计算得到预测数据的平均绝对误差;

确定多个预测数据中的最高值和最低值;

根据平均绝对误差、最高值以及最低值,计算得到数据波动区间的第一区间边界阈值和第二区间边界阈值。

可选地,该计算机可执行指令在被处理器702执行时,对第一历史数据进行预处理和平稳化处理,得到第二历史数据,包括:

对第一历史数据进行预处理;

通过单位根检验方法判断预处理后的第一历史数据是否具有平稳性;

若是,则将预处理后的第一历史数据确定为第二历史数据;

若否,则对预处理后的第一历史数据进行差分处理,直到确定差分处理后的第一历史数据具有平稳性,将差分处理后具有平稳性的第一历史数据确定为第二历史数据。

根据本发明实施例的技术方案,首先,根据用户输入的数据检查参数和第一脚本模板,生成历史数据采集脚本;其次,通过历史数据采集脚本获得满足数据检查参数的第一历史数据,根据第一历史数据,生成数据波动区间的第一区间边界阈值和第二区间边界阈值;接着,第一区间边界阈值小于第二区间边界阈值;根据第一区间边界阈值、第二区间边界阈值、数据检查参数和第二脚本模板,生成数据检查脚本;最后,通过数据检查脚本,检查满足数据检查参数的实时数据的波动性是否正常。通过本发明实施例的技术方案,能够自动确定用于检测数据波动性的数据波动区间,使得该数据波动区间的边界阈值不依赖于人工设置且随着数据变化而快速更新,进而提高数据波动性检查的准确性。

本发明一个或多个实施例提供的存储介质能够实现前述数据波动性的检查方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。

其中,该存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明上述实施例的方法。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

相关技术
  • 数据分布存储方法、装置、存储介质及电子设备
  • 多版本数据存储管理方法及装置、电子设备、存储介质
  • 海量数据存储方法、装置、存储介质及电子设备
  • 数据存储方法、装置、电子设备及存储介质
  • 数据提取方法、数据提取装置、存储介质和电子设备
  • 数据检查方法、装置、电子设备及存储介质
  • 地震数据重复性检查的方法、装置、电子设备及存储介质
技术分类

06120115936985