掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法、装置、设备及介质

文献发布时间:2024-04-18 19:58:30


一种数据处理方法、装置、设备及介质

技术领域

本申请涉及异常检测、网络推断、回归分析技术领域,尤其涉及一种数据处理方法、装置、设备及介质。

背景技术

在信息技术高速发展的当下,海量的网络型数据被广泛应用于各个领域中,以促使行业的发展和技术的进步。然而在数据获取和传输的过程中,不可避免的存在某些客观因素或人为因素狐疑导致数据缺失等问题,这可能会影响到这些数据的安全使用。若将丢失的数据确定为预设数据或根据其他数据确定该数据,则可能会导致数据异常等问题。

发明内容

本申请实施例提供了一种数据处理方法、装置、设备及介质,用于确定缺失数据。

第一方面,本申请实施例还提供了一种数据处理方法,所述方法包括:

获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据,其中,所述第一预设特征为交易金额或交易时间间隔;

根据所确定的数据构建第一数据矩阵,并补充所述第一数据矩阵中的缺失位置的数据,其中,同一时间点接收到的数据位于所述第一数据矩阵中同一行,同一特征的数据位于同一列;

重复执行以下步骤:对所述第一数据矩阵进行奇异值(Singular ValueDecomposition,SVD)分解,得到第一矩阵、第一对角矩阵及第二矩阵,将所述第一对角矩阵中预设位置处的元素调整为预设数值,根据所述第一矩阵、调整后的第一对角矩阵及所述第二矩阵,确定第二数据矩阵;将所述第二数据矩阵中所述缺失位置处对应的数据补充至所述第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和所述第二数据矩阵的第二范式模,若根据所述第一范式模和所述第二范式模确定的数值小于预设的阈值,则将所述目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将所述目标矩阵更新为所述第一数据矩阵。

第二方面,本申请实施例还提供了一种数据处理装置,所述装置包括:

获取确定模块,用于获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据,其中,所述第一预设特征为交易金额或交易时间间隔;

补充模块,用于根据所确定的数据构建第一数据矩阵,并补充所述第一数据矩阵中的缺失位置的数据,其中,同一时间点接收到的数据位于所述第一数据矩阵中同一行,同一特征的数据位于同一列;

处理模块,用于重复执行以下步骤:对所述第一数据矩阵进行SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,将所述第一对角矩阵中预设位置处的元素调整为预设数值,根据所述第一矩阵、调整后的第一对角矩阵及所述第二矩阵,确定第二数据矩阵;将所述第二数据矩阵中所述缺失位置处对应的数据补充至所述第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和所述第二数据矩阵的第二范式模,若根据所述第一范式模和所述第二范式模确定的数值小于预设的阈值,则将所述目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将所述目标矩阵更新为所述第一数据矩阵。

第三方面,本申请实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时执行上述任一所述数据处理方法的步骤。

在本申请实施例中,电子设备获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据,其中,第一预设特征为交易金额或交易时间间隔;根据所确定的数据构建第一数据矩阵,并补充第一数据矩阵中的缺失位置的数据,其中,同一时间点接收到的数据位于第一数据矩阵中同一行,同一特征的数据位于同一列;重复执行以下步骤:对第一数据矩阵进行SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,将第一对角矩阵中预设位置处的元素调整为预设数值,根据第一矩阵、调整后的第一对角矩阵及第二矩阵,确定第二数据矩阵;将第二数据矩阵中缺失位置处对应的数据补充至第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和第二数据矩阵的第二范式模,若根据第一范式模和第二范式模确定的数值小于预设的阈值,则将目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将目标矩阵更新为第一数据矩阵。由于在本申请实施例中,电子设备通过补足第一数据矩阵中缺失位置的数据,并对第一数据矩阵进行处理,确定的第一数据矩阵相关第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和第二数据矩阵的第二范式模,直至根据第一范式模和第二范式模确定的数值小于预设的阈值,将第二数据矩阵中缺失位置处对应的数据确定为标准补充数据,从而可以尽可能的还原完整包含缺失数据的目标矩阵,进而可以准确地确定出缺失数据。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理的过程示意图;

图2为本申请实施例提供的一种数据处理的详细过程示意图;

图3为本申请实施例提供的一种数据处理装置结构示意图;

图4为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

为了准确地确定缺失数据,本申请实施例提供了一种数据处理方法、装置、设备及介质。

该数据处理方法包括:电子设备获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据,其中,第一预设特征为交易金额或交易时间间隔;根据所确定的数据构建第一数据矩阵,并补充第一数据矩阵中的缺失位置的数据,其中,同一时间点接收到的数据位于第一数据矩阵中同一行,同一特征的数据位于同一列;重复执行以下步骤:对第一数据矩阵进行SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,将第一对角矩阵中预设位置处的元素调整为预设数值,根据第一矩阵、调整后的第一对角矩阵及第二矩阵,确定第二数据矩阵;将第二数据矩阵中缺失位置处对应的数据补充至第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和第二数据矩阵的第二范式模,若根据第一范式模和第二范式模确定的数值小于预设的阈值,则将目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将目标矩阵更新为第一数据矩阵。从而可以准确地确定出缺失数据。

实施例1:

图1为本申请实施例提供的一种数据处理的过程示意图,该过程包括以下步骤:

S101:获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据,其中,所述第一预设特征为交易金额或交易时间间隔。

本申请实施例提供的数据处理方法应用于电子设备,该电子设备可以为PC或服务器等智能设备。

为了准确地确定缺失数据,电子设备可以先获取预设时间长度中每个时间点接收到的数据,其中,数据可以是其他设备在对数据进行处理后发送至电子设备的,也可以其他设备在获取到数据后发送至电子设备的。

电子设备在获取到每个数据之后,可以确定该每个数据中对应第一预设特征的每个数据。其中,第一预设特征即为用户感兴趣想要确定缺失数据的特征,第一预设特征可以为用户通过自身使用的设备将第一预设特征发送至电子设备,电子设备即可基于该第一预设特征进行后续缺失数据的确定,此外第一预设特征也可以为用户在电子设备的预设页面选择的。第一预设特征可以为交易金额或交易时间间隔,第一预设特征也可以为其他用户感兴趣的特征。

S102:根据所确定的数据构建第一数据矩阵,并补充所述第一数据矩阵中的缺失位置的数据,其中,同一时间点接收到的数据位于所述第一数据矩阵中同一行,同一特征的数据位于同一列。

在确定每个数据后,电子设备可以根据确定的每个特征构建第一数据矩阵。其中,电子设备同一时间点接收到的数据位于第一数据矩阵中同一行,同一特征的数据位于同一列。

在构建得到第一数据矩阵后,第一数据矩阵中存在缺失位置,电子设备补充第一数据矩阵中缺失位置的数据,具体的,电子设备可以针对每个缺失位置,获取该缺失位置所在的列中任一数据,将该数据补充至该缺失位置。需要说明的是,本申请实施例所描述的缺失位置在第一数据矩阵中较为分散,且占比较少,一般为5%-10%。

S103:重复执行以下步骤:对所述第一数据矩阵进行SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,将所述第一对角矩阵中预设位置处的元素调整为预设数值,根据所述第一矩阵、调整后的第一对角矩阵及所述第二矩阵,确定第二数据矩阵;将所述第二数据矩阵中所述缺失位置处对应的数据补充至所述第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和所述第二数据矩阵的第二范式模,若根据所述第一范式模和所述第二范式模确定的数值小于预设的阈值,则将所述目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将所述目标矩阵更新为所述第一数据矩阵。

在获取到补充完缺失位置的数据后的第一数据矩阵后,电子设备重复执行以下步骤:

电子设备可以对第一数据矩阵进行SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,具体的如何对某一矩阵进行SVD分解为现有技术,在此不再赘述,例如,对矩阵Y进行SVD分解可以得到Y=LSR

电子设备可以将第一对角矩阵中预设位置处的元素调整为预设数值,其中,该预设数值可以为0,电子设备可以根据第一矩阵、调整后的第一对角矩阵及第二矩阵确定第二数据矩阵,具体的,电子设备可以确定第一矩阵与调整后的第一对角矩阵的乘积得到的矩阵,将该矩阵与第二矩阵的乘积得到的矩阵确定为第二数据矩阵。

在得到第二数据矩阵后,电子设备可以将第二数据矩阵中缺失位置处对应的数据补充至第一数据矩阵中对应缺失位置,生成目标矩阵。具体的,电子设备可以针对第一数据矩阵中每个缺失位置,确定该缺失位置所在的行及列,并获取第二数据矩阵中该行及该列的数据,将该数据补充至该缺失位置处。在获取到目标矩阵后,电子设备可以判断该目标矩阵是否收敛,具体的,电子设备可以确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和第二数据矩阵的第二范式模,根据该第一范式模与第二范式模确定数值,在一种可能的实施方式中,电子设备可以根据该第一范式模与第二范式模的差值确定该数值,若该数值低于预设的数值,则确定该目标矩阵收敛,若该数值不低于预设的数值,则确定该目标矩阵不收敛,若根据第一范式模和第二范式模确定的数值小于预设的阈值,则将目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将目标矩阵更新为所述第一数据矩阵。直至根据第一范式模和第二范式模确定的数值小于预设的阈值。至此,重复执行的步骤结束。

需要说明的是,还可以将补足缺失数据的第一数据矩阵称为响应矩阵Y,具体的,电子设备可以先对Y进行SVD分解Y=LSR

具体的,电子设备可以采用以下公式得到目标矩阵:

其中,L为新得到的目标矩阵,Y为第一数据矩阵,A为第二数据矩阵,M={(i,j):Y

本申请实施例提供的方法相当于在数据处理的阶段利用需要预测的特征组成的第一数据矩阵的稀疏性,通过迭代算法补充缺失数据,该方法可应用于数据安全、网络数据分析等相关领域。

在实际场景中,可以是电子设备的响应变量矩阵SVD分解模块对第一数据矩阵进行SVD分解,电子设备的缺失样本模块根据分解后的第一矩阵、第一对角矩阵及第二矩阵进行缺失位置处的数据的确定。

由于在本申请实施例中,电子设备通过补足第一数据矩阵中缺失位置的数据,并对第一数据矩阵进行处理,确定的第一数据矩阵相关第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和第二数据矩阵的第二范式模,直至根据第一范式模和第二范式模确定的数值小于预设的阈值,将第二数据矩阵中缺失位置处对应的数据确定为标准补充数据,从而可以尽可能的还原完整包含缺失数据的目标矩阵,进而可以准确地确定出缺失数据。

实施例2:

为了补充第一数据矩阵中缺失位置处的数据,在上述实施例公开的基础上,在本申请实施例中,所述补充所述第一数据矩阵中的缺失位置的数据包括:

将预设数据补充至所述第一数据矩阵中的缺失位置处;或,

针对每个缺失位置,确定该缺失位置处对应特征,将针对该特征对应保存的数据补充至所述第一数据矩阵中该缺失位置处;或,

针对每个缺失位置,确定与该缺失位置处的数据为同一特征的每个数据的平均值,将所述平均值补充至所述第一数据矩阵中该缺失位置处。

电子设备可以将预设数据补充至第一数据矩阵中的缺失位置处。

电子设备还可以针对每个缺失位置,确定该缺失位置处对应的特征,将针对该特征对应保存的数据补充至第一数据矩阵中该缺失位置处。

电子设备还可以针对每个缺失位置,确定与该缺失位置处的数据为同一特征的每个数据的平均值,即确定该缺失位置所在的列中每个数据的平均值,将该平均值补充至第一数据矩阵中该缺失位置处。

为了准确地获取第二数据矩阵,在上述各实施例公开的基础上,在本申请实施例中,所述将所述第一对角矩阵中预设位置处的元素调整为预设数值包括:

将所述第一对角矩阵中对角的每个元素按照元素所处的行排序,获取排序结果中第预设数量个元素之后的每个元素,将获取到的每个元素均调整为预设数值。

电子设备可以将第一对角矩阵中对角的每个元素按照元素所处的行进行排序,获取排序结果,在获取到排序结果后,电子设备可以获取排序结构中第预设数量个元素之后的每个元素,并将该每个元素均调整为预设数值。具体的,将第一对角矩阵中该每个元素均调整为预设数值。电子设备相当于保留第一对角矩阵中前预设数量个对角元素不变,将其他的对角元素全部变为预设数值,其中,该预设数值可以为0。

为了准确地获取第二数据矩阵,在上述各实施例公开的基础上,在本申请实施例中,所述预设数量通过以下公式确认:

其中,τ

电子设备可以通过以下公式确定预设数量:

其中,τ

需要说明的是,

为了准确地确定缺失位置处的数据,在上述各实施例公开的基础上,在本申请实施例中,根据所述第一范式模和所述第二范式模确定数值包括:

确定所述第一范式模与所述第二范式模的比值,根据所述比值确定数值。

电子设备在获取到第一范式模和第二范式模之后,可以确定第一范式模和第二范式模的比值,并根据该比值确定数值,具体的,可以将该比值确定为数值。

具体的,电子设备可以采用以下公式确定该数值:

其中,A

其中,在

实施例3:

为了提升数据确定的准确性,在上述各实施例公开的基础上,在本申请实施例中,所述方法还包括:

确定所述每个数据中对应第二预设特征的其他数据;其中,所述第二预设特征为与所述第一预设特征关联的特征,所述第二预设特征为公司面积、业务量、公司标识中的任一个;

根据获取到所述其他数据构建第三数据矩阵,其中所述第三数据矩阵与所述第一数据矩阵的构建方式相同;

对所述第一范式模和所述第二范式模确定的数值小于预设的阈值时对应的第二数据矩阵进行SVD分解,得到第三矩阵、第二对角矩阵及第四矩阵;基于广义最小二乘法,对所述第三数据矩阵,所述第三矩阵、预设的单位矩阵以及所述第一数据矩阵的行数进行处理,获取矩阵U;

根据所述矩阵U、所述第二对角矩阵、所述第四矩阵和所述第一数据矩阵的行数,确定回归系数矩阵和异常值矩阵;

根据所述异常值矩阵中每个非预设数据的数据与该数据在所述第一数据矩阵中对应的数据的差值,确定异常数据对应的标准数据。

在实际场景中,接收到的第一预设特征的数据中可能存在异常数据,为了准确地确定异常数据,电子设备可以根据与第一预设特征关联的其他数据进行确定。

具体的,电子设备可以确定获取到的每个数据中对应第二预设特征的其他数据,其中,第二预设特征为与第一预设特征关联的特征,第二预设特征可以为公司面积、公司的业务量、公司标识中任一个,在获取到每个其他数据后,可以根据获取到的其他数据构建数据矩阵,为了便于区分,可以将该数据矩阵称为第三数据矩阵,其中,第三数据矩阵与第一数据矩阵的构建方式相同。在构建第三数据矩阵后,电子设备可以获取第一范式模和第二范式模确定的数据小于预设的阈值时的第二数据矩阵,并对该第二数据矩阵进行SVD分解,得到第三矩阵、第二对角矩阵及第四矩阵。具体的,如何对矩阵进行SVD分解为现有技术,在此不再赘述。

电子设备可以基于广义最小二乘法,对第三数据矩阵、第三矩阵、预设的单位矩阵及第一数据矩阵中每个的数据的数量进行处理,获取矩阵U。具体的,电子设备可以基于高维稀疏低秩回归模型为Y=XB+C+E确定异常值矩阵C,其中,Y∈R

其中,为了提升计算效率,可以对第三矩阵的每个列对应的回归系数并行计算,具体的,假设第二数据矩阵A进行SVD分解A=ZDV

基于

其中,

在实际场景中,可以使电子设备的并行计算特征向量模块进行矩阵U的确定。

电子设备通过该方式即可得到矩阵U的每个列对应的列矩阵,电子设备通过以下步骤即可得到回归系数矩阵及异常值矩阵:

其中,M

在得到矩阵B及矩阵C对应的每个矩阵之后,电子设备可以将矩阵B对应的每个矩阵相加,得到矩阵B,并将矩阵C对应的每个矩阵相加得到矩阵C。

在得到矩阵Y之后,电子设备可以根据

在获取到异常值矩阵后,电子设备可以根据异常值矩阵中每个非预设数据的数据与该数据在第一数据矩阵中对应数据的差值,确定异常数据对应的标准数据。具体的,电子设备可以将该差值的相反数确定为异常数据对应的标准数据。在实际场景中,可以是电子设备计算异常值矩阵模块及估计回归系数模块等模块进行异常数据的确定。

在信息技术高速发展的当下,海量的网络型关联数据被广泛应用于各个领域中以促使行业的发展和技术的进步,如扩散网络和推荐系统等新型应用模型,这些数据的特点是存在显著的关联性,本申请实施例相当于用一些已知的特征去预测感兴趣的变量特征的数据,在本申请实施例中即为用第二预设特征的数据预测第一预设特征的数据。稀疏降秩回归是挖掘大规模响应预测器关联网络结构的重要工具和方法,它使用系数稀疏的线性模型来刻画用于已知特征和需要预测的变量之间的关联。因此本申请实施例可以准确地确定出异常数据。本申请实施例相当于提供了一种存在数据缺失的网络型关联数据的异常值检验和模型参数估计的方法。

对于稀疏降秩回归模型的分析和推理,数据的质量尤其重要,然而,实际中使用的数据往往有存在很多问题:在数据获取和传输的过程中,不可避免的存在客观因素或人为因素导致的数据异常值干扰和响应数据缺失等问题,这可能会影响到这些数据的安全使用,造成模型估计的失败和数据的失效,另外海量的数据也会对计算资源产生考验。现有的研究对于这些问题也提出了一些针对性的解决方案,例如利用模型稀疏性进行异常值推断,利用已知数据估计缺失数据等方法,但是对于这些网络推断中的数据质量问题难以全面的考虑,并且缺少系统性的数据处理分析流程。为了解决网络数据分析中的数据使用安全问题,需要准确识别出数据中的异常值,本申请实施例提出的存在数据缺失的多响应线性回归模型异常值检验和参数估计的方法,综合考虑了计算量大,缺失部分响应变量的问题。本申请实施例相当于在一定的假设条件下由第三数据矩阵X和包含缺失位置处的数据的第一数据矩阵Y得到异常值矩阵C和回归模型系数矩阵B的估计。

这样,电子设备即可在数据部分缺失和存在异常值的情况下识别出了异常值,并且得到了相应模型的估计。

针对于网络中存在的网络关联的数据,本申请实施例相当于先把它们抽象成数值矩阵型的数据,对于非数值类的特征可以采用编码或分类的方法表示成数值形式,其中每行表示一次接收到的数据,每列对应的一个特征,建立线性模型来刻画已知特征和需要预测的特征之间的关联性,并且假设数据缺失仅存在于需要预测的变量上,并且将异常值定义为需要预测的变量收到一个稀疏(即只有少量数据存在异常值)且固定的扰动。得到回归系数矩阵相当于在部分数据缺失和异常值的情况下得到已知的特征和感兴趣的相关特征之间的关系,对此,本申请实施例使用线性模型来刻画已知的特征和感兴趣的相关特征之间的关联性,并且假设数据缺失仅存在于需要预测的变量上,并且将异常值定义为需要预测的变量受到一个稀疏且固定的扰动。基于此本申请实施例采用上述实施例所描述的方式可以准确地确定出异常数据。

本申请实施例提出的方法针对网络数据关联性挖掘的异常值干扰和数据缺失问题,提出了一套流程进行大规模线性模型的数据处理,异常值识别和模型估计,解决了现有的多响应高维稀疏回归模型估计推断方法中无法兼顾使用的数据存在规模太大计算困难,存在异常值干扰,部分预测器中的存在数据缺失的问题,保证了数据的安全使用和充分利用,在数据质量不佳的情况下依然能够保证数据的可用性和模型估计的有效性。本申请实施例提出的方法适用于存在缺失数据和异常值干扰的网络数据关联挖掘领域,实现大规模多响应线性回归模型的估计和异常值检测,并且在计算过程中使用并行计算,提升了算法的计算效率和速度。

图2为本申请实施例提供的一种数据处理的详细过程示意图,该过程包括以下步骤:

S201:获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据及对应第二预设特征的每个其他数据。

S202:根据所确定的数据构建第一数据矩阵,并补充第一数据矩阵中的缺失位置的数据。

S203:根据补充缺失位置的数据后的第一数据矩阵,确定第一数据矩阵中的标准补充数据。

具体的,可以采用以下步骤确定标准补充数据,重复执行以下步骤:对第一数据矩阵进行SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,将第一对角矩阵中预设位置处的元素调整为预设数值,根据第一矩阵、调整后的第一对角矩阵及第二矩阵,确定第二数据矩阵;将第二数据矩阵中缺失位置处对应的数据补充至第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和第二数据矩阵的第二范式模,若根据第一范式模和第二范式模确定的数值小于预设的阈值,则将目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将目标矩阵更新为第一数据矩阵。

S204:将标准补充数据补充至第一数据矩阵中缺失位置处。

S205:根据获取到其他数据构建第三数据矩阵。

S206:对第一范式模和第二范式模确定的数值小于预设的阈值时对应的第二数据矩阵进行SVD分解,得到第三矩阵、第二对角矩阵及第四矩阵;基于广义最小二乘法,对第三数据矩阵,第三矩阵、预设的单位矩阵以及第一数据矩阵的行数进行处理,获取矩阵U。

具体的,如何确定矩阵U在上述实施例中已经描述过,在此不再赘述。

S207:根据矩阵U、第二对角矩阵、第四矩阵和第一数据矩阵的行数,确定回归系数矩阵和异常值矩阵。

S208:根据异常值矩阵中每个非预设数据的数据与该数据在第一数据矩阵中对应的数据的差值,确定异常数据对应的标准数据。

需要说明的是,在实际场景中,电子设备也可以先确定第三数据矩阵,具体的,电子设备是否先确定第三数据矩阵在此不做限制。

在一种可能的实施方式中,回归模型可以写成

其中,

且,

其中,U∈R

实施例4:

为了提高数据确定的准确性,在上述各实施例公开的基础上,在本申请实施例中,所述方法还包括:

若接收到携带所述预设时间长度中每个时间点接收到的每个待预测数据的预测请求,则确定所述每个待预测数据中对应第二预设特征的待处理数据;根据获取到的待处理数据构建第四数据矩阵;其中,所述第四数据矩阵的构建过程与所述第一数据矩阵相同;

将所述第四数据矩阵与所述回归系数矩阵相乘得到的矩阵,确定为目标数据矩阵;

根据所述目标矩阵中包含的数据,确定所述待预测数据中对应第一预设特征的每个目标数据。

在电子设备获取到回归系数矩阵后,即可得到第一预设特征的数据与第二预设特征的数据的关联程度,因此若在已知第二预设特征的数据的情况下,可以根据回归系数矩阵预测第一预设特征的数据,进而直接根据预测出的第一预设特征的数据与接收到的第一预设特征的数据,确定第一预设特征的数据中缺失的数据。

具体的,在用户有预测第一预设特征的数据的需求时,可以在自身使用的设备的预设页面,选择预设时间长度中每个时间点接收到的每个待预测数据,并点击预设按钮,例如“预测”按钮,此时电子设备即可接收到携带预设时间长度中每个时间点接收到的每个待预测数据的预测请求,电子设备在接收到预测请求中,可以确定预测请求中携带的每个待预测数据中对应第二预设特征的待处理数据,并根据获取到的待处理数据构建第四数据矩阵,其中,第四数据矩阵的构建过程与第一数据矩阵相同,在此不再赘述。

在获取到第四数据矩阵后,电子设备可以将第四数据矩阵与回归系数矩阵相乘得到的矩阵确定为目标数据矩阵。电子设备在获取到目标数据矩阵后,即可根据目标数据矩阵中包含的数据,确定待预测数据中对应第一预设特征的每个目标数据。

为了提升预测的数据的准确性,在上述各实施例公开的基础上,在本申请实施例中,所述方法还包括:

将调整异常数据及补足缺失数据之后的第一数据矩阵与第三数据矩阵的逆矩阵的乘积,对所述回归系数矩阵进行更新。

为了提升回归系数矩阵确定的准确性,电子设备在获取到异常数据及缺失数据后,可以调整异常数据并补足缺失数据,获取调整异常数据及补足缺失数据之后的第一数据矩阵,并获取调整异常数据及补足缺失数据的第一数据矩阵与第三数据矩阵的逆矩阵的乘积,采用该乘积对应的矩阵对回归系数矩阵进行更新。

具体的,电子设备可以令Y′=A-C′为修正的响应变量矩阵,其中,A为第一范式模与第二范式模所确定的数值小于阈值时的第二数据矩阵,即可以被认为是补足缺失数据后的第一数据矩阵,C′为异常值矩阵,因此Y′即为本申请实施例所描述的调整异常数据及补足缺失数据之后的第一数据矩阵,再利用不包含异常值的回归模型Y′=XB+E得到回归系数矩阵B的估计,具体的,E是每行独立同分布的随机误差矩阵,在此忽略不计,即Y′=XB,因此电子设备可以基于Y′及X采用广义最小二乘法重新确定回归系数矩阵B,提高回归系数矩阵确定的准确性。

具体的,电子设备可以采用以下公式重新确定回归系数矩阵:

第一步:对调整异常数据及补足缺失数据之后的第一数据矩阵A

第二步:找出最优的秩参数

其中,

第三步:对

其中,

在获取到回归系数矩阵对应的每个矩阵之后,电子设备即可将回归系数矩阵对应的每个矩阵相加,得到回归系数矩阵。

具体的,回归系数矩阵B进行SVD分解B=U

本申请实施例为了解决网络数据挖掘中使用的数据存在规模太大计算困难,存在异常值干扰,部分预测器中的响应数据缺失的数据质量和安全使用的问题,提出了一种新的多响应线性回归模型参数估计方法,此方法利用低秩特性估计缺失数据,将缺失数据视为线性模型稀疏系数的一部分进行估计,并且在计算过程中使用并行计算的方法提升计算的效率,最终识别出数据中的异常值和完成模型系数参数的估计,实现数据的安全使用和充分利用,并且形成一套数据处理,异常识别和模型估计的完整流程。

实施例5:

图3为本申请实施例提供的一种数据处理装置结构示意图,该装置包括:

获取确定模块301,用于获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据,其中,所述第一预设特征为交易金额或交易时间间隔;

补充模块302,用于根据所确定的数据构建第一数据矩阵,并补充所述第一数据矩阵中的缺失位置的数据,其中,同一时间点接收到的数据位于所述第一数据矩阵中同一行,同一特征的数据位于同一列;

处理模块303,用于重复执行以下步骤:对所述第一数据矩阵进行奇异值SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,将所述第一对角矩阵中预设位置处的元素调整为预设数值,根据所述第一矩阵、调整后的第一对角矩阵及所述第二矩阵,确定第二数据矩阵;将所述第二数据矩阵中所述缺失位置处对应的数据补充至所述第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和所述第二数据矩阵的第二范式模,若根据所述第一范式模和所述第二范式模确定的数值小于预设的阈值,则将所述目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将所述目标矩阵更新为所述第一数据矩阵。

在一种可能的实施方式中,所述补充模块302,具体用于将预设数据补充至所述第一数据矩阵中的缺失位置处;或,针对每个缺失位置,确定该缺失位置处对应的特征,将针对该特征对应保存的数据补充至所述第一数据矩阵中该缺失位置处;或,针对每个缺失位置,确定与该缺失位置处的数据为同一特征的每个数据的平均值,将所述平均值补充至所述第一数据矩阵中该缺失位置处。

在一种可能的实施方式中,所述处理模块303,具体用于将所述第一对角矩阵中对角的每个元素按照元素所处的行排序,获取排序结果中第预设数量个元素之后的每个元素,将获取到的每个元素均调整为预设数值。

在一种可能的实施方式中,所述处理模块303,还用于通过以下公式确认预设数量:

在一种可能的实施方式中,所述处理模块303,具体用于确定所述第一范式模与所述第二范式模的比值,根据所述比值确定数值。

在一种可能的实施方式中,所述处理模块303,还用于确定所述每个数据中对应第二预设特征的其他数据;其中,所述第二预设特征为与所述第一预设特征关联的特征,所述第二预设特征为公司面积、业务量、公司标识中的任一个;根据获取到所述其他数据构建第三数据矩阵,其中所述第三数据矩阵与所述第一数据矩阵的构建方式相同;对所述第一范式模和所述第二范式模确定的数值小于预设的阈值时对应的第二数据矩阵进行SVD分解,得到第三矩阵、第二对角矩阵及第四矩阵;基于广义最小二乘法,对所述第三数据矩阵,所述第三矩阵、预设的单位矩阵以及所述第一数据矩阵的行数进行处理,获取矩阵U;根据所述矩阵U、所述第二对角矩阵、所述第四矩阵和所述第一数据矩阵的行数,确定回归系数矩阵和异常值矩阵;根据所述异常值矩阵中每个非预设数据的数据与该数据在所述第一数据矩阵中对应的数据的差值,确定异常数据对应的标准数据。

在一种可能的实施方式中,所述处理模块303,还用于若接收到携带所述预设时间长度中每个时间点接收到的每个待预测数据的预测请求,则确定所述每个待预测数据中对应第二预设特征的待处理数据;根据获取到的待处理数据构建第四数据矩阵;其中,所述第四数据矩阵的构建过程与所述第一数据矩阵相同;将所述第四数据矩阵与所述回归系数矩阵相乘得到的矩阵,确定为目标数据矩阵;根据所述目标矩阵中包含的数据,确定所述待预测数据中对应第一预设特征的每个目标数据。

在一种可能的实施方式中,所述处理模块303,还用于将调整异常数据及补足缺失数据之后的第一数据矩阵与第三数据矩阵的逆矩阵的乘积,对所述回归系数矩阵进行更新。

实施例6:

在上述各实施例的基础上,本申请实施例还提供了一种电子设备,如图4所示,包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。

所述存储器403中存储有计算机程序,当所述程序被所述处理器401执行时,使得所述处理器401执行如下步骤:

获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据,其中,所述第一预设特征为交易金额或交易时间间隔;

根据所确定的数据构建第一数据矩阵,并补充所述第一数据矩阵中的缺失位置的数据,其中,同一时间点接收到的数据位于所述第一数据矩阵中同一行,同一特征的数据位于同一列;

重复执行以下步骤:对所述第一数据矩阵进行SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,将所述第一对角矩阵中预设位置处的元素调整为预设数值,根据所述第一矩阵、调整后的第一对角矩阵及所述第二矩阵,确定第二数据矩阵;将所述第二数据矩阵中所述缺失位置处对应的数据补充至所述第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和所述第二数据矩阵的第二范式模,若根据所述第一范式模和所述第二范式模确定的数值小于预设的阈值,则将所述目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将所述目标矩阵更新为所述第一数据矩阵。

进一步地,所述处理器401,具体用于将预设数据补充至所述第一数据矩阵中的缺失位置处;或,

针对每个缺失位置,确定该缺失位置处对应的特征,将针对该特征对应保存的数据补充至所述第一数据矩阵中该缺失位置处;或,

针对每个缺失位置,确定与该缺失位置处的数据为同一特征的每个数据的平均值,将所述平均值补充至所述第一数据矩阵中该缺失位置处。

进一步地,所述处理器401,具体用于将所述第一对角矩阵中对角的每个元素按照元素所处的行排序,获取排序结果中第预设数量个元素之后的每个元素,将获取到的每个元素均调整为预设数值。

进一步地,所述处理器401,具体用于通过以下公式确认所述预设数量:

其中,τ

进一步地,所述处理器401,具体用于确定所述第一范式模与所述第二范式模的比值,根据所述比值确定数值。

进一步地,所述处理器401,还用于确定所述每个数据中对应第二预设特征的其他数据;其中,所述第二预设特征为与所述第一预设特征关联的特征,所述第二预设特征为公司面积、业务量、公司标识中的任一个;

根据获取到所述其他数据构建第三数据矩阵,其中所述第三数据矩阵与所述第一数据矩阵的构建方式相同;

对所述第一范式模和所述第二范式模确定的数值小于预设的阈值时对应的第二数据矩阵进行SVD分解,得到第三矩阵、第二对角矩阵及第四矩阵;基于广义最小二乘法,对所述第三数据矩阵,所述第三矩阵、预设的单位矩阵以及所述第一数据矩阵的行数进行处理,获取矩阵U;

根据所述矩阵U、所述第二对角矩阵、所述第四矩阵和所述第一数据矩阵的行数,确定回归系数矩阵和异常值矩阵;

根据所述异常值矩阵中每个非预设数据的数据与该数据在所述第一数据矩阵中对应的数据的差值,确定异常数据对应的标准数据。

进一步地,所述处理器401,还用于若接收到携带所述预设时间长度中每个时间点接收到的每个待预测数据的预测请求,则确定所述每个待预测数据中对应第二预设特征的待处理数据;根据获取到的待处理数据构建第四数据矩阵;其中,所述第四数据矩阵的构建过程与所述第一数据矩阵相同;

将所述第四数据矩阵与所述回归系数矩阵相乘得到的矩阵,确定为目标数据矩阵;

根据所述目标矩阵中包含的数据,确定所述待预测数据中对应第一预设特征的每个目标数据。

进一步地,所述处理器401,还用于将调整异常数据及补足缺失数据之后的第一数据矩阵与第三数据矩阵的逆矩阵的乘积,对所述回归系数矩阵进行更新。

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。

通信接口402用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例7:

在上述各实施例的基础上,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:

所述存储器中存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行如下步骤:

获取预设时间长度中每个时间点接收到的每个数据,并确定对应第一预设特征的每个数据,其中,所述第一预设特征为交易金额或交易时间间隔;

根据所确定的数据构建第一数据矩阵,并补充所述第一数据矩阵中的缺失位置的数据,其中,同一时间点接收到的数据位于所述第一数据矩阵中同一行,同一特征的数据位于同一列;

重复执行以下步骤:对所述第一数据矩阵进行SVD分解,得到第一矩阵、第一对角矩阵及第二矩阵,将所述第一对角矩阵中预设位置处的元素调整为预设数值,根据所述第一矩阵、调整后的第一对角矩阵及所述第二矩阵,确定第二数据矩阵;将所述第二数据矩阵中所述缺失位置处对应的数据补充至所述第一数据矩阵中对应缺失位置,生成目标矩阵,确定第二数据矩阵与初始第二数据矩阵的差值矩阵的第一范式模和所述第二数据矩阵的第二范式模,若根据所述第一范式模和所述第二范式模确定的数值小于预设的阈值,则将所述目标矩阵中缺失位置处的数据,确定为标准补充数据,否则,将所述目标矩阵更新为所述第一数据矩阵。

在一种可能的实施方式中,所述补充所述第一数据矩阵中的缺失位置的数据包括:

将预设数据补充至所述第一数据矩阵中的缺失位置处;或,

针对每个缺失位置,确定该缺失位置处对应的特征,将针对该特征对应保存的数据补充至所述第一数据矩阵中该缺失位置处;或,

针对每个缺失位置,确定与该缺失位置处的数据为同一特征的每个数据的平均值,将所述平均值补充至所述第一数据矩阵中该缺失位置处。

在一种可能的实施方式中,所述将所述第一对角矩阵中预设位置处的元素调整为预设数值包括:

将所述第一对角矩阵中对角的每个元素按照元素所处的行排序,获取排序结果中第预设数量个元素之后的每个元素,将获取到的每个元素均调整为预设数值。

在一种可能的实施方式中,所述预设数量通过以下公式确认:

其中,τ

在一种可能的实施方式中,根据所述第一范式模和所述第二范式模确定数值包括:

确定所述第一范式模与所述第二范式模的比值,根据所述比值确定数值。

在一种可能的实施方式中,所述方法还包括:

确定所述每个数据中对应第二预设特征的其他数据;其中,所述第二预设特征为与所述第一预设特征关联的特征,所述第二预设特征为公司面积、业务量、公司标识中的任一个;

根据获取到所述其他数据构建第三数据矩阵,其中所述第三数据矩阵与所述第一数据矩阵的构建方式相同;

对所述第一范式模和所述第二范式模确定的数值小于预设的阈值时对应的第二数据矩阵进行SVD分解,得到第三矩阵、第二对角矩阵及第四矩阵;基于广义最小二乘法,对所述第三数据矩阵,所述第三矩阵、预设的单位矩阵以及所述第一数据矩阵的行数进行处理,获取矩阵U;

根据所述矩阵U、所述第二对角矩阵、所述第四矩阵和所述第一数据矩阵的行数,确定回归系数矩阵和异常值矩阵;

根据所述异常值矩阵中每个非预设数据的数据与该数据在所述第一数据矩阵中对应的数据的差值,确定异常数据对应的标准数据。

在一种可能的实施方式中,所述方法还包括:

若接收到携带所述预设时间长度中每个时间点接收到的每个待预测数据的预测请求,则确定所述每个待预测数据中对应第二预设特征的待处理数据;根据获取到的待处理数据构建第四数据矩阵;其中,所述第四数据矩阵的构建过程与所述第一数据矩阵相同;

将所述第四数据矩阵与所述回归系数矩阵相乘得到的矩阵,确定为目标数据矩阵;

根据所述目标矩阵中包含的数据,确定所述待预测数据中对应第一预设特征的每个目标数据。

在一种可能的实施方式中,所述方法还包括:

将调整异常数据及补足缺失数据之后的第一数据矩阵与第三数据矩阵的逆矩阵的乘积,对所述回归系数矩阵进行更新。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

相关技术
  • 一种数据处理方法及装置、一种计算设备及存储介质
  • 一种数据处理方法、数据处理装置、计算机设备及可读存储介质
  • 一种数据处理方法、装置、设备及存储介质
  • 一种调用链数据的处理方法、装置、设备及存储介质
  • 一种区块链的数据处理方法、装置、设备及介质
  • 数据记录设备、数据记录方法、数据处理设备、数据处理方法、程序、程序记录介质、数据记录介质、和数据结构
  • 数据加密处理方法、数据解密处理方法、装置、电子设备及可读存储介质
技术分类

06120116496972