掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及神经网络技术领域,更具体地,涉及一种流量数据的异常检测方法及装置、电子设备、存储介质。

背景技术

现如今,随着微信、支付宝、各类信用卡的推广和发展,越来越多的人选择在线交易支付这种方便、快捷的方式,因此金融领域的交易欺诈行为也逐渐变得越来越多,比如通过盗用的身份信息从发卡行获取信用卡或者通过伪造的信用卡,然后绑定这种类型的信用卡进行购物消费、进一步的套现等等,这不仅会给各大金融机构带来经济上的损失,还会给他们的声誉和形象带来重大的负面影响,因此如何有效的检测出这些存在高度可能性的交易欺诈行为成为各大银行金融机构关注的重点。

对于欺诈的预防和检测,传统的方法是基于规则的,由专家手动制定规则,然后用于交易数据的标记,但这种方法灵活性不强,不法分子很容易绕过这些制定的规则,利用平台的漏洞进行各种欺诈行为,给银行企业和各种金融理财产品客户造成巨大的损失。

现有技术应用于风险控制体系结构较多采用的是基于大数据的信用评估系统,其通常只是对有问题的交易数据进行被动的事后分析,但已经无法挽回造成的损失。再者,风险审查工作一般是由人工完成的,但人工审查存在很大的不确定性以及稳定性较差,无法真正的适用市场目前日益增长的金融交易数据需求。

此外,这些系统大多数直接将预处理好的原始数据直接带入学习算法中构建反欺诈检测模型,如在中国申请的专利“一种欺诈检测模型训练方法和装置及欺诈检测方法和装置”(公开日2019.03.01,公开号CN109410036A)所公开的技术方案。其存在的不足是:在将原始数据带入算法训练之前,会有人为的数据清洗、数据特征选择或者数据降维的过程;由于人为主观因素的存在,在特征选取过程中,一些原始数据的深层次特征有可能被过滤掉或丢失,从而影响后面模型的识别检测,导致检测结果不够准确。

发明内容

本发明为克服上述现有技术所述的缺陷,提供一种流量数据的异常检测方法及装置、电子设备、存储介质,能够提高异常检测准确率。

为解决上述技术问题,本发明的技术方案如下:

本发明实施例第一方面公开一种流量数据的异常检测方法,包括以下步骤:

S1:将预处理后的流量数据输入自动编码网络模型,以对所述流量数据进行自动编码解码获得重构特征向量;

S2:将所述重构特征向量输入到循环神经网络模型中,以获得内部特征信息;其中,所述内部特征信息用于表征所述流量数据的内部特征的前后相关性;

S3:通过Sigmoid函数对所述内部特征信息进行分类,以获得二分类结果;所述二分类结果用于表征所述流量数据是否异常。

进一步地,所述自动编码网络模型包括编码器和解码器;步骤S1包括:

S1.1:将预处理后的流量数据输入所述编码器,以使所述编码器将所述流量数据映射为低维中间向量;

S1.2:将所述低维中间向量输入所述解码器,以使所述解码器对所述低维中间向量进行解码重构获得重构特征向量。

进一步地,步骤S1.2包括:

将所述低维中间向量输入所述解码器,以使所述解码器对所述低维中间向量进行解码重构,获得候选重构特征向量;若所述候选重构特征向量与所述流量数据之间的接近程度达到指定条件,通过reshape函数对所述候选重构特征向量进行调整,获得可输入到循环神经网络模型中的重构特征向量。

进一步地,步骤S3中,所述二分类结果具体为1或0,当所述二分类结果为1时,所述二分类结果用于表征所述流量数据异常;当所述二分类结果为0时,所述二分类结果用于表征所述流量数据不异常。

本发明实施例第二方面公开一种流量数据的异常检测装置,包括:

重构单元,用于将预处理后的流量数据输入自动编码网络模型,以对所述流量数据进行自动编码解码获得重构特征向量;

特征获取单元,用于将所述重构特征向量输入到循环神经网络模型中,以获得内部特征信息;其中,所述内部特征信息用于表征所述流量数据的内部特征的前后相关性;

分类单元,用于通过Sigmoid函数对所述内部特征信息进行分类,以获得二分类结果;所述二分类结果用于表征所述流量数据是否异常。

进一步地,所述自动编码网络模型包括编码器和解码器;所述重构单元包括:

降维模块,用于将预处理后的流量数据输入所述编码器,以使所述编码器将所述流量数据映射为低维中间向量;

重构模块,用于将所述低维中间向量输入所述解码器,以使所述解码器对所述低维中间向量进行解码重构获得重构特征向量。

进一步地,所述重构模块,具体用于将所述低维中间向量输入所述解码器,以使所述解码器对所述低维中间向量进行解码重构,获得候选重构特征向量;若所述候选重构特征向量与所述流量数据之间的接近程度达到指定条件,通过reshape函数对所述候选重构特征向量进行调整,获得可输入到循环神经网络模型中的重构特征向量。

进一步地,所述二分类结果具体为1或0,当所述二分类结果为1时,所述二分类结果用于表征所述流量数据异常;当所述二分类结果为0时,所述二分类结果用于表征所述流量数据不异常。

本发明实施例第三方面公开一种电子设备,包括:

存储有可执行程序代码的存储器;

与所述存储器耦合的处理器;

所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种流量数据的异常检测方法。

本发明实施例第四方面公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种流量数据的异常检测方法。所述计算机可读存储介质包括ROM/RAM、磁盘或光盘等。

本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比,本发明技术方案的有益效果是:本发明公开一种流量数据的异常检测方法及装置、电子设备、存储介质,通过将预处理后的流量数据输入自动编码网络模型,以对流量数据进行自动编码解码获得重构特征向量,然后将重构特征向量输入到循环神经网络模型中,以获得内部特征信息;其中,内部特征信息用于表征流量数据的内部特征的前后相关性,最后通过Sigmoid函数对内部特征信息进行分类,以获得用于表征流量数据是否异常的二分类结果,从而能够在保证数据完整的前提下,通过自动编码网络模型将复杂的高维数据映射为低维向量,并且对流量数据内部特征的前后相关性进行深度挖掘,获取到流量数据的隐含序列特征,能够更好地利用数据之间的特性,进而提高异常检测准确率。同时,利用神经网络算法进行检测,可以大大提高异常检测的效率。

附图说明

图1为本发明实施例公开的一种流量数据的异常检测方法的流程图。

图2为本发明实施例公开的一种BiLSTM网络模型的网络结构示意图。

图3是本发明实施例公开的一种流量数据的异常检测装置的结构示意图。

图4为本发明实施例公开的一种电子设备的结构示意图。

其中:301、重构单元;302、特征获取单元;303、分类单元;401、存储器;402、处理器。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示,本实施例提供一种流量数据的异常检测方法,包括如下步骤:

S1:将预处理后的流量数据输入自动编码网络模型,以对流量数据进行自动编码解码获得重构特征向量。

其中,流量数据可以包括但不限于金融交易数据和代码流量数据等。

需要说明的是,在一种应用场景下,即当流量数据包括金融交易数据时,实施本发明实施例公开的一种流量数据的异常检测方法,相比于传统的基于大数据的信用评估系统,能够在保证数据完整的前提下,通过自动编码网络模型将复杂的高维数据映射为低维向量,并且对金融交易数据内部特征的前后相关性进行深度挖掘,获取到金融交易数据的隐含序列特征,能够更好地利用数据之间的特性,能够更加准确地检测出异常的金融交易数据,进而识别出欺诈行为,降低金融交易风险,同时,通过利用神经网络算法的高效性,能够更加高效地检测出异常的金融交易数据。

其中,自动编码网络模型包括但不限于Encoder网络模型或降噪自编码器DAE等。自动编码网络模型是基于神经网络训练而得到的,比如,给定一个神经网络,并假设其输出与输入是相同的,然后训练这个神经网络调整其参数,得到每一层中的权重,就表示自动编码网络模型训练完成。自动编码网络模型就是一种尽可能复现输入信号的神经网络。为了实现这种复现,自动编码网络模型就必须捕捉到可以代表输入的输入信号的最重要因素,找到可以代表原信息(输入信号)的主要成分,这属于编码过程,然后根据这些主要成分进行解码,即可实现对输入信号的重构。

自然地,当将预处理后的流量数据输入自动编码网络模型时,模型就会自动根据训练时候所调整出的每一层中的权重对流量数据进行特征提取,那么就可以得到流量数据的几种不同表示(每一层代表一种表示),任一层的表示都是流量数据的主要成分,这表示的过程就属于编码过程,然后根据任一层的表示进行解码,即可实现对流量数据的重构,复现出非常接近流量数据的重构特征向量。

可选地,在步骤S1之前,还可以包括以下步骤:

对获取到的流量数据进行预处理,包括但不限于对流量数据中存在的缺失值、重复值、异常值进行清洗归一化操作,同时针对流量数据类分布不均衡进行正负样本的重采样处理,所采用的重采样方法可以为合成少数类过采样技术smote。如此,通过采用合成少数类过采样技术smote对数据进行增强,可以进一步提高检测的准确率。

可选地,自动编码网络模型包括编码器和解码器;步骤S1可以包括:

S1.1:将预处理后的流量数据输入编码器,以使编码器将流量数据映射为低维中间向量;

假设预处理后的流量数据为x,那么将x输入自动编码网络模型之后,自动编码网络模型的编码器则会通过以下公式(1)对x进行降维处理,即将x映射为一个低维中间向量y,该低维中间向量的维度低于流量数据的维度:

y=σ(Wx+b) (1)

式中,σ表示非线性激活函数,W表示编码权重值,b表示编码偏置值。

S1.2:将低维中间向量输入解码器,以使解码器对低维中间向量进行解码重构获得重构特征向量。

然后将低维中间向量y输入自动编码网络模型的解码器之后,解码器则可以通过以下公式(2)对编码器生成的低维中间向量进行解码重构,以获得保留有大部分关键信息的重构特征向量Z:

Z=σ(W'y+b') (2)

式中,W'表示解码权重值,b'表示解码偏置值。

进一步可选地,步骤S1.2可以包括:将低维中间向量输入解码器,以使解码器对低维中间向量进行解码重构,获得候选重构特征向量;若候选重构特征向量与流量数据之间的接近程度达到指定条件,通过reshape函数对候选重构特征向量进行调整,获得可输入到循环神经网络模型中的重构特征向量。

其中,指定条件可根据实际情况进行设定。候选重构特征向量与流量数据之间的接近程度表示候选重构特征向量所保留的大部分关键信息与流量数据本有的关键信息之间的近似度,当接近程度达到指定条件时,说明候选重构特征向量所保留的大部分关键信息足够多,那么说明候选重构特征向量能够较好的保留流量数据的主要特征,可以进一步对候选重构特征向量的维度进行调整,以获得维度适应循环神经网络模型的重构特征向量,该重构特征向量的维度小于流量数据的维度。通过该实施方式,可以对流量数据进行压缩降维,使中间层的维度小于输入层,并获取压缩的重构特征向量进行表示,可以获得流量数据最具代表性和有意义的显著特征。

可选地,重构特征向量具体可以为三维向量。

S2:将重构特征向量输入到循环神经网络模型中,以获得内部特征信息;其中,内部特征信息用于表征流量数据的内部特征的前后相关性;

其中,循环神经网络模型用于学习重构特征向量的隐含序列特征,以获得用于表征流量数据的内部特征的前后相关性的内部特征信息。循环神经网络模型可以记住网络在上一个时刻的输出值,并将该值用于当前时刻输出值的生成,这由网络中的循环层实现。循环神经网络模型的输入即为重构特征向量,循环神经网络模型可以在每个时刻接收一个输入,并对输入的值进行加权后产生一个输出值,然后用激活函数进行作用,得到输出(即内部特征信息)。这个输出是由之前的序列共同作用决定的,即,将上一时刻的状态值与当前时刻的输入值整合到一起,因此内部特征信息可以用于表征流量数据的内部特征的前后相关性。

可选地,循环神经网络模型包括但不限于BiLSTM网络模型或门控循环单元GRU等。

可选地,若自动编码网络模型具体为Encoder网络模型,循环神经网络模型具体为BiLSTM网络模型。那么在步骤S1之前,可以先设计Encoder-BiLSTM相结合的模型框架,包括Encoder网络模型和BiLSTM网络模型;然后获取用于训练模型的原始数据样本集对模型框架进行训练,获得训练好的Encoder网络模型和BiLSTM网络模型;其中,Encoder网络模型用于对预处理后的流量数据进行自动编码解码处理,并生成重构特征向量,BiLSTM网络模型用于学习重构特征向量的隐含序列特征,以获得用于表征流量数据的内部特征的前后相关性的内部特征信息。

可选地,原始数据样本集可以是个人的金融交易记录集,该金融交易记录集中包括若干金融交易数据样本。其中,在训练模型之前,还可以对原始数据样本进行预处理。具体地,首先考虑到金融交易数据样本的隐私性,可以先对金融交易数据样本中含有的某些敏感的特征信息进行删除,删除后的每个金融交易数据样本都包含各个维度的特征信息,比如交易商品、交易时间、交易金额、交易地点等。同时,金融交易数据样本还可能存在缺失值、重复值或者异常值,则可以进一步判断金融交易数据样本中是否存在缺失值,并去除不相关的冗余信息;接下来,由于不同特征的取值不同,还可以对金融交易数据样本的特征进行标准归一化处理,使其映射到[0,1]区间之内,从而使得网络更加易于学习,进而提高模型的训练效率。

以及可选地,在原始数据样本集中,正负样本类别的比例通常是极不平衡的,还可以进一步利用合成少数类过采样技术smote对金融交易数据样本进行正负样本的重采样,从而可以使根据这些金融交易数据样本所训练出的模型具有更好的准确率。

可选地,为了提高Encoder网络模型的准确率,还可以在Encoder网络模型的训练过程中,通过均方误差函数MSE对Encoder网络模型的参数进行优化。

其中,均分误差函数可以如下式(3)所示:

式中,y

可选地,BiLSTM网络模型的网络结构可以如图2所示,它是LSTM的改进版,其包括两个LSTM层,分别是从右到左处理序列的前向LSTM层和从左到右处理序列的后向LSTM层,其中,每个LSTM层包括有n个LSTM神经元,如图2中圆圈所示,每个LSTM神经元之间权值共享,每个LSTM神经元的内部都包括未图示的遗忘门、输入门和输出门,其中,遗忘门用于控制冗余信息的消除,输入门用于控制输入信息的保留,输出门用于接受遗忘门和输出门的信息,因此每个LSTM神经元可以在其内部对信号进行筛选后再传递给下一个LSTM神经元。这样,BiLSTM网络模型能很好的解析双向数据信息,保存长数据特征的依赖关系,提供一个更加细粒度的计算。

如图2所示,X

具体可选地,BiLSTM网络模型的计算过程可以通过以下公式表示:

式中,

可选地,为了获得更加精准的BiLSTM网络模型,在针对BiLSTM网络模型的训练过程中,可以采用对数损失函数和自适应矩估计(Adaptive Moment Estimation,Adam)优化器对模型不断地进行迭代优化处理来获得期望模型。

S3:通过Sigmoid函数对内部特征信息进行分类,以获得二分类结果。

其中,二分类结果用于表征流量数据是否异常。

其中,Sigmoid函数是一个常见的S型函数,也称为S型生长曲线。由于其单增以及反函数单增等特点,Sigmoid函数可被用作神经网络的阈值函数,将内部特征信息映射到0到1之间,具体可以通过以下公式(7)进行计算:

式中,S(z)表示映射结果,e为常数,z表示内部特征信息。

因此,步骤S3可以包括:通过以上公式(7)对内部特征信息进行映射,获得内部特征信息在[0,1]区间中的映射结果,然后判断映射结果是偏向于0还是偏向于1,进而可以获得内部特征信息的二分类结果。可选地,二分类结果具体可以为1或0,当其为1时,可以表示风险高,则流量数据异常,而当其为0时,则表示风险低,流量数据不异常。

本实施例提供一种流量数据的异常检测方法,通过将预处理后的流量数据输入自动编码网络模型,以对流量数据进行自动编码解码获得重构特征向量,然后将重构特征向量输入到循环神经网络模型中,以获得内部特征信息;其中,内部特征信息用于表征流量数据的内部特征的前后相关性,最后通过Sigmoid函数对内部特征信息进行分类,以获得用于表征流量数据是否异常的二分类结果,从而能够在保证数据完整的前提下,通过自动编码网络模型将复杂的高维数据映射为低维向量,并且对流量数据内部特征的前后相关性进行深度挖掘,获取到流量数据的隐含序列特征,能够更好地利用数据之间的特性,进而提高异常检测准确率。同时,利用神经网络算法进行检测,可以大大提高异常检测的效率。

实施例2

如图3所示,本实施例提供一种流量数据的异常检测装置,包括重构单元301、特征获取单元302和分类单元303,其中:

重构单元301,用于将预处理后的流量数据输入自动编码网络模型,以对流量数据进行自动编码解码获得重构特征向量;

特征获取单元302,用于将重构特征向量输入到循环神经网络模型中,以获得内部特征信息;内部特征信息用于表征流量数据的内部特征的前后相关性;

分类单元303,用于通过Sigmoid函数对内部特征信息进行分类,以获得二分类结果;二分类结果用于表征流量数据是否异常。

可选地,自动编码网络模型包括编码器和解码器;上述的重构单元301可以包括以下未图示的模块:

降维模块,用于将预处理后的流量数据输入编码器,以使编码器将流量数据映射为低维中间向量;

重构模块,用于将低维中间向量输入解码器,以使解码器对低维中间向量进行解码重构获得重构特征向量。

可选地,上述的重构模块,具体用于将低维中间向量输入解码器,以使解码器对低维中间向量进行解码重构,获得候选重构特征向量;若候选重构特征向量与流量数据之间的接近程度达到指定条件,通过reshape函数对候选重构特征向量进行调整,获得可输入到循环神经网络模型中的重构特征向量。

可选地,二分类结果具体为1或0,当二分类结果为1时,二分类结果用于表征流量数据异常;当二分类结果为0时,二分类结果用于表征流量数据不异常。

本实施例提供一种流量数据的异常检测装置,通过将预处理后的流量数据输入自动编码网络模型,以对流量数据进行自动编码解码获得重构特征向量,然后将重构特征向量输入到循环神经网络模型中,以获得内部特征信息;其中,内部特征信息用于表征流量数据的内部特征的前后相关性,最后通过Sigmoid函数对内部特征信息进行分类,以获得用于表征流量数据是否异常的二分类结果,从而能够在保证数据完整的前提下,通过自动编码网络模型将复杂的高维数据映射为低维向量,并且对流量数据内部特征的前后相关性进行深度挖掘,获取到流量数据的隐含序列特征,能够更好地利用数据之间的特性,进而提高异常检测准确率。同时,利用神经网络算法进行检测,可以大大提高异常检测的效率。

实施例3

如图4所示,本实施例提供一种电子设备,包括:

存储有可执行程序代码的存储器401;

与存储器401耦合的处理器402;

其中,处理器402调用存储器401中存储的可执行程序代码,执行上述各实施例中描述的流量数据的异常检测方法。

需要说明的是,图4所示的电子设备还可以包括电源、输入按键、扬声器、麦克风、屏幕、RF电路、Wi-Fi模块、蓝牙模块、传感器等未显示的组件,本实施例不作赘述。还可以包括扬声器模组、摄像模组、显示屏、光投射模组、电池模组、无线通信模组(如移动通信模块、WIFI模块、蓝牙模块等)、传感器模组(如接近传感器、压力传感器等)、输入模组(如麦克风、按键)以及用户接口模组(如充电接口、对外供电接口、卡槽、有线耳机接口等)等未显示的部件。

本申请实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行上述各实施例中描述的流量数据的异常检测方法。

本申请实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

相关技术
  • 一种流量数据异常检测方法、装置和存储介质
  • 异常流量数据检测方法、装置、设备及存储介质
技术分类

06120112224838