掌桥专利:专业的专利平台
掌桥专利
首页

一种异常账号的识别方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 10:11:51


一种异常账号的识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能技术领域,尤其涉及一种异常账号的识别方法、装置、计算机设备及存储介质。

背景技术

在互联网时代,不同的用户在互联网各个网站平台上都会有不同的账号。而账号在保管不当、被攻击或者账号的用户违反平台规则进行了非法操作,例如发布虚假违法信息的时候,系统通常会将该账号设置为异常账号,以避免平台或者账号主人的利益损失和隐私泄漏。

目前,认定账号异常的手段,通常是采用将当前采集的账户的相关信息与预先为该账号设定的合法信息进行比对,或者判断当前账号操作是否为合法操作来确定账号是否异常的,例如,对社交网站账号,常见可以在用户登录账号时,采集用户当前的登录信息(例如登录地,登录设备),然后通过与设定的合法登录信息比对确定当前登录的账号是否异常。

但需要说明的是,上述的异常账号的认定方法,在一些账号的异常并不简单在于其账户信息是否异常或账户操作是否合法的场景下,却很难适用。常见的,例如在对羊毛党账号的识别场景下,羊毛党用户通过采用猫池等设备,构建多个虚拟账号参与大量优惠活动牟取暴利,但是这些虚拟账号也即羊毛党账号,往往是在账号信息上是被认定为正常账号的,而其参加优惠活动的操作本身也往往是系统允许的合法行为,这种情况下,采用现有技术的认定规则,这些账号也就会被认定为正常账号,不能有效甄别。

发明内容

本申请实施例的目的在于提出一种异常账号的识别方法、装置、计算机设备及存储介质,以解决现有技术中无法对复杂场景下异常账号进行有效识别的技术问题。

为了解决上述技术问题,本申请实施例提供一种异常账号的识别方法,采用了如下所述的技术方案:

获取目标账号的账号信息数据和账号操作数据;

将所述账号操作数据输入目标LSTM模型,得到所述目标账号为异常账号的第一概率,并将所述账号信息数据输入目标DeepFM模型,得到所述目标账号为异常账号的第二概率;

将所述第一概率和所述第二概率合并输入目标LR模型,输出所述目标账号为异常账号的判别结果。

为了解决上述技术问题,本申请实施例还提供一种异常账号的识别装置,采用了如下所述的技术方案:

第一获取模块,用于获取目标账号的账号信息数据和账号操作数据;

计算模块,用于将所述账号操作数据输入目标LSTM模型,得到所述目标账号为异常账号的第一概率,并将所述账号信息数据输入目标DeepFM模型,得到所述目标账号为异常账号的第二概率;

判别模块,用于将所述第一概率和所述第二概率合并输入目标LR模型,输出所述目标账号为异常账号的判别结果。

为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:

一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如上述异常账号识别方法的步骤。

为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:

一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上述异常账号识别方法的步骤。

与现有技术相比,本申请实施例主要有以下有益效果:

本申请实施例,在获取到目标账号的账号信息数据和账号操作数据后,将账号操作数据输入目标LSTM模型,将账号信息数据输入目标DeepFM模型,进而将目标LSTM模型和目标DeepFM模型的输出结果合并输入到目标LR模型,最终由目标LR模型输出该目标账号为异常账号的判别结果。综上,本申请实施例中,是通过提供一种集成模型,对目标账号的账号信息数据和账号操作数据进行处理,输出该目标账号是否为异常账号的判别结果,其相比现有技术,可以实现一些复杂场景下异常账号的识别。

附图说明

为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图;

图2为本申请的异常账号的识别方法的一个实施例的流程示意图;

图3是本申请实施例中所应用的集成模型的结构示意图;

图4为图2中步骤S202之前的一种实施例的流程示意图;

图5为本申请的异常账号的识别装置500的一个实施例示意图;

图6为本申请的异常账号的识别装置500的又一个实施例示意图;

图7为本申请的一种计算机设备700的一个实施例示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面3(MovingPicture ExpertsGroup Audio Layer III,MP3)播放器、动态影像专家压缩标准音频层面4(Moving PictureExperts Group Audio Layer IV,MP4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的异常账号的识别方法一般由

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的异常账号的识别方法的一个实施例的流程图。所述的异常账号的识别方法,包括以下步骤:

步骤S201,获取目标账号的账号信息数据和账号操作数据。

在本实施例中,异常账号的识别方法运行于其上的第一电子设备(例如图1所示的

在一个可能的实现方式中,在步骤S201之前,目标账号可以是经过简单的初筛条件筛选后确定的可能处于异常状态的账号。具体的,可以预先获取多个账号的账号信息数据或账号操作数据,之后,采用预设的初筛条件,从该多个账号的账号信息数据或账号操作数据筛选可能满足异常账号初筛条件的目标账号。例如,异常账号是指羊毛党账号,账号操作数据主要包括账号参与优惠活动的相关记录数据,则初筛条件可以包括账号参与优惠活动的频率;例如折扣程度。例如,某一账号参加了多个优惠活动且参与频次较高,那么就可能是羊毛党;再例如,参加的多个活动的优惠幅度平均值,如果过高,那也可能是羊毛党等。因为羊毛党毕竟为少数,且采用集成模型识别计算量较大,本实施例中通过设定一些简单的异常账号初筛条件,可以减少数据采集,减轻计算负担。

在一个具体的实现方式中,上述目标账号的账号信息数据和账号操作数据可以通过数据埋点的方式来进行获取。数据埋点采集信息的过程一般也称作日志采集,具体可以在APP或者web产品中植入一段代码,监控账号操作事件(例如点击参与某个抽奖活动、领取优惠券活动等)的记录。用户一旦触发了该事件,就会上传埋点代码中定义的、需要上传的有关该事件的信息。而具体需要记录的活动、账号信息数据和账号操作数据内容,可以由用户自行预先设定,例如账号信息数据具体可以包括用户ID、用户设备ID、用户设备的IP信息、用户的好友信息和用户的地址信息等中一种或者多种,账号操作数据可以是当前事件编码、触发时间和用户历史参与事件记录等中的一种或者多种。

步骤S202,将所述账号操作数据输入目标LSTM模型,得到所述目标账号为异常账号的第一概率,并将所述账号信息数据输入目标DeepFM模型,得到所述目标账号为异常账号的第二概率。

其中,鉴于采用单个神经网络模型进行异常账户的识别时,往往会出现训练得到的模型,其识别结果要么容易欠拟合要么容易过拟合,为了获得泛化性能优良的识别模型,本申请实施例中,基于机器学习中集成学习(ensemble learning)的思想,在第一电子设备本地预置了一个经过预先训练得到的包含多层级和多个子模型网络结构的集成模型。

具体的,现有集成模型可以采用多种融合方法,例如可以采用平均融合,加权融合,投票融合等方法,本实施例及后续实施例中所采用的集成模型可以为堆叠法(stacking)结构。其中,Stacking是一种通过对多个基学习器进行异质集成的集成学习方法,旨在提升模型的泛化性能。本申请中,该训练得到的该集成模型包括两层结构,其简略的结构示意图可以参照图3所示的示意图,该集成模型可以包括:

低层级的目标长短期记忆网络(long short-term memory,LSTM)模型和目标DeepFM模型,以及高层级的目标逻辑回归(logistic regression,LR)模型。原始数据在分别输入目标LSTM模型和目标DeepFM模型后,分别输出初步的识别结果。之后,对上一步骤输出的初步识别结果进行整合,并作为目标LR模型的输入进行计算,输出最终的识别结果。

参照图3所示的结构示意图,在前述获取到目标账号的账号信息数据和账户操作数据后,可以将账户操作数据作为目标LSTM模型的输入,进而输出目标账号为异常账号的第一概率,将账号信息数据作为目标DeepFM模型的输入,输出目标账号为异常账号的第二概率。

步骤S203,将所述第一概率和所述第二概率合并输入目标LR模型,输出所述目标账号为异常账号的判别结果。

本实施例中,参照图3所示的示意图,在得到第一概率和第二概率后,可以将第一概率和第二概率合并,即作为一组数据输入到目标LR模型中做判别,输出该目标账号为异常账号的最终判别结果。例如,第一概率为0.8,第二概率为0.75,则合并后为一组数(0.8.0.75),将该组数输入到目标LR模型,输出最终的判别结果。

在一个可能的实现方式中,若目标LSTM模型和目标DeepFM模型均设置有不同的权重值,则将第一概率和第二概率合并输入目标LR模型时,则具体为加权合并的方式。具体的,假设目标LSTM模型和目标DeepFM模型的权重分别为1.0和0.8,第一概率为0.8,第二概率为0.75,则合并后为(0.8*1.0,0.8*0.75),即(0.8,0.6),从而将该组数输入到目标LR模型,输出最终的判别结果。

与现有技术相比,本申请实施例主要有以下有益效果:

本申请实施例,在获取到目标账号的账号信息数据和账号操作数据后,将账号操作数据输入目标LSTM模型,将账号信息数据输入目标DeepFM模型,进而将目标LSTM模型和目标DeepFM模型的输出结果合并输入到目标LR模型,最终由目标LR模型输出该目标账号为异常账号的判别结果。综上,本申请实施例中,是通过提供一种集成模型,对目标账号的账号信息数据和账号操作数据进行处理,输出该目标账号是否为异常账号的判别结果,其相比现有技术,可以实现一些复杂场景下异常账号的识别。

在一些可能的实现方式中,本申请实施例中集成模型,即目标LSTM模型、目标DeepFM模型和目标LR模型,其预先的训练过程可以在第一电子设备上进行,也可以是在其他的第二电子设备,可以是高性能计算设备(例如工作站或者专用服务器)上进行,并在训练完成后由第二电子设备推送给该第一电子设备。本申请实施例中,以第一电子设备为例,对目标集成模型的训练过程进行说明,在第二电子设备上进行的训练过程,与此类似,此处不做过多赘述。具体训练过程可以参照图4,图4为图2中步骤S202之前的一种实施例示意图,该异常账号的识别方法还可以包括:

步骤S401,构建账号操作数据集和账号信息数据集。

本实施例中,数据采集过程如前述步骤S201中采用数据埋点方式采集,采集之后的数据可以保存在数据库中。若数据库中已存在设置了用户标签的异常账号用户和正常用户的有关数据,则可以从该有关数据中,根据账号操作数据和账号信息数据的类型,提取满足预设要求的异常账号和正常用户的账号操作数据和账号信息数据,得到账号操作数据集和账号信息数据集。预设要求可以是预设数量或比例,例如,要求要求数据总量为10000,异常账号5000条,正常用户5000条。若数据库中不存在关于异常账号用户和正常用户的有关数据,或者,存在的有关数据未达到预设要求,则可以就欠缺的数据进行后续采集和标注。具体的,从数据库中提取记录的所有用户的账号操作数据和账号信息数据,并可以由人工为这些数据设置标签,从而最终得到满足预设要求的账号操作数据集和账号信息数据集。

需要说明的是,账号操作数据集中的每条账号操作数据在所述账号信息数据集中具有一一对应的一条账号信息数据,且每组一一对应的账号操作数据和条账号信息数据对应同一个账户主体。账号操作数据集和账号信息数据集中同一用户的账号操作数据和账号信息数据的标签是相同的,若账号操作数据集和账号信息数据集中存在同一用户对应不同标签的情况,则可以单独剔除出来,由人工重新标注再添加进数据集中。

在一个实际的应用场景中,本申请实施例涉及的异常账号可以包括羊毛党账号,异常账号的识别也即为羊毛党账号的识别。其中,羊毛党一个非常显著的特征是他们在获取优惠券以及参与各种活动获得奖励时,他们的时间间隔要小于正常用户。为此可以采用数据埋点的方式采集出各个账号参与各个预设优惠活动的时间差值,构造形成一条时间差值序列,以该时间差值序列数据作为账号操作数据。其中,时间差值序列数据可以举例如下:

(1)用户X登录APP的时间在09:52:20;

(2)参与活动1的时间在09:52:25;

(3)参与活动2的时间在09:52:28;

(4)退出APP的时间09:52:30。

最终形成的时间差值序列即为[5,3,2]。

需要强调的是,为进一步保证上述账号操作数据和账号信息数据的私密和安全性,上述账号操作数据和账号信息数据还可以存储于一区块链的节点中,该区块链可以是私有链或者联盟链。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

此时,步骤S401中构建账号操作数据集可以包括:

采集多个账号参与预设的多个优惠活动的时间差值序列数据后,从而构建包含该时间差值序列数据的账号操作数据集。

步骤S402,将所述账号操作数据集分为第一训练集和第一测试集,将所述账号信息数据集分为第二训练集和第二测试集。

本实施例中,将数据集划分为训练集和测试集可以有多种方式,划分比例可以预先设定,例如可以是8:2,具体划分方法为目前常见的现有技术,此处不做赘述。

步骤S403,利用数据切分后的所述第一训练集对初始LSTM模型进行交叉训练,并利用交叉训练得到的所述目标LSTM模型对所述第一训练集和所述第一测试集进行预测,分别输出LSTM训练集预测数据和LSTM测试集预测数据。

其中,LSTM是一种特殊的循环神经网络(recurrent neural network,RNN),可以学习长期依赖信息。LSTM有很多个版本,其中一个重要的版本是GRU(gated recurrentunit),本提案对LSTM模型的具体版本不做限制。

对第一训练集的数据切分以及对初始LSTM模型的交叉训练等过程,涉及到了Stacking集成模型中交叉验证的过程,流程具体如下:

(1)将账号操作数据集划分为第一训练集和第一测试集后,对第一训练集进行划分为K(正整数,可以自行定义)份数据量一致的集合,取其中一份作为验证集,其余的为子训练集,组合成K个不同的训练组合。

(2)交叉利用训练组合中的子训练集对初始LSTM模型进行训练,并利用每轮训练得到的目标LSTM模型对训练组合中验证集和测试集进行预测,得到K组验证集预测数据和K组测试集预测数据。

(3)合并K组验证集预测数据作为LSTM训练集预测数据,将K组测试集预测数据平均得到的预测数据作为最终的LSTM测试集预测数据。

下面举例说明:

例如,假定账号操作数据集总共3500组数据,数据切分后,训练集一共具有3000组数据,测试集500组数据,分组数K设为3,其中K为分组数,则训练过程为:

步骤A:设定3000中的1-1000个数据为验证集,以1001-3000为子训练集训练初始LSTM模型,训练结束之后,利用第一轮训练得到的目标LSTM模型分别对1-1000验证集和测试集进行预测,得到1-1000的1000*1矩阵形式的LSTM验证集预测数据和500*1矩阵形式的第一轮LSTM测试集预测数据;

步骤B:设定3000中的1001-2000为验证集,以1-1001和2001-3000为子训练集训练初始LSTM模型,训练结束之后,利用第二轮训练得到的目标LSTM模型分别对1001-2000验证集和测试集进行预测,得到1001-2000的1000*1矩阵形式的LSTM验证集预测数据和第二轮LSTM测试集预测数据;

步骤C:设定3000中的2001-3000为验证集,以1-2000为子训练集训练初始LSTM模型,训练结束之后,利用第三轮训练得到的目标LSTM模型分别对2001-3000验证集和测试集进行预测,得到2001-3000的1000*1矩阵形式的LSTM验证集预测数据和第三轮LSTM测试集预测数据;

步骤D:对上述步骤的3组LSTM验证集预测数据进行合并,最终得到1-3000的3000*1矩阵形式的LSTM训练集预测数据,对上述3轮的LSTM测试集预测数据进行平均,得到最终的500*1LSTM测试集预测数据。

步骤S404,利用数据切分后的所述第二训练集对初始DeepFM模型进行交叉训练,并利用交叉训练得到的所述目标DeepFM模型对所述第二训练集和所述第二测试集进行预测,分别输出DeepFM训练集预测数据和DeepFM测试集预测数据。

其中,DeepFM算法有效的结合了因子分解机与神经网络在特征学习中的优点:同时提取到低阶组合特征与高阶组合特征,所以越来越被广泛使用。在DeepFM中,FM算法负责对一阶特征以及由一阶特征两两组合而成的二阶特征进行特征的提取;DNN算法负责对由输入的一阶特征进行全连接等操作形成的高阶特征进行特征的提取。DeepFM算法结合了广度和深度模型的优点,联合训练FM模型和DNN模型,可以同时学习低阶特征组合和高阶特征组合;端到端模型,无需特征工程;DeepFM共享相同的输入和embedding vector,训练更高效。

本实施例中,对第二训练集进行的数据切分,以及对初始DeepFM模型的交叉训练与上述步骤S403中针对第一训练集和初始LSTM模型的相关过程类似,此处不再赘述。

步骤S405,分别将所述LSTM训练集预测数据和所述DeepFM训练集预测数据、所述LSTM测试集预测数据和所述DeepFM测试集预测数据进行合并,得到训练集预测数据和测试集预测数据。

本实施例中,进行合并后,可以增加数据维度,例如参照步骤S403中所举示例,若训练集数据量为3000,测试集为500,则上述步骤S403和步骤S404之后,得到的LSTM训练集预测数据和DeepFM训练集预测数据均为3000*1矩阵形式的数据,则合并后得到的训练集预测数据为3000*2矩阵形式的数据,对应的,合并得到的测试集预测数据也变为500*2矩阵形式的数据。

在一些可能的实现方式中,若目标LSTM模型和目标DeepFM模型均设置有权重,则上述预测数据合并时,可以是加权合并。例如,目标LSTM模型和目标DeepFM模型的权重分别是1.0和0.8,同一个账号,在目标LSTM模型中的概率值为0.9,在目标DeepFM模型中的概率值为0.8,则合并之后,得到的一组数据为(0.9*1,0.8*0.8),即(0.9,0.64)。具体模型权重值的设定由用户自行设定,此处不做过多限制。需要说明的是,若设置有权重,则在步骤S203中,第一概率和第二概率合并时,同样需要加权合并。

步骤S406,利用所述训练集预测数据和所述测试集预测数据对初始LR模型进行训练,得到所述目标LR模型。

具体的,以上述3000*2的概率矩阵作为训练集对LR模型进行训练,并以预测数据作为基准对训练结果进行控制,最终训练得到目标LR模型。

在一些可能的实现方式中,初始LSTM和初始DeepFM模型在训练过程各自最后得到的目标模型个数为在交叉验证训练时,对训练集所分的份数K,也即K个并列的目标LSTM模型和K个并列的目标DeepFM模型。

此时,步骤S203中,将所述第一概率和所述第二概率合并输入目标LR模型,输出所述目标账号为异常账号的判别结果,可以分为两种处理方式:

(1)将目标账号的账号操作数据和账号信息数据分别输入K个目标LSTM模型和K个目标DeepFM模型后,分别得到K个第一概率和K个第二概率;分别对K个第一概率和K个第二概率先取均值进行合并,或加权合并,最后以得到的一对概率的均值,输入目标LR模型,输出最终确定的目标账号为异常账号的判别结果。

(2)将目标账号的账号操作数据和账号信息数据分别输入K个目标LSTM模型和K个目标DeepFM模型后,分别得到K个第一概率和K个第二概率;合并,或加权合并得到K对概率对;将K对概率对输入LR,得到K个概率值;对K个概率值取均值,得到目标账号为异常账号最终的判别结果。

与现有技术相比,本申请实施例主要有以下有益效果:

本申请实施例中,提供了在第一电子设备上进行集成模型训练的方法。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图5,作为对上述图2所示方法的实现,本申请提供了一种异常账号的识别装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例该的一种异常账号的识别装置500包括:

第一获取模块501,用于获取目标账号的账号信息数据和账号操作数据;

计算模块502,用于将该账号操作数据输入目标LSTM模型,得到该目标账号为异常账号的第一概率,并将该账号信息数据输入目标DeepFM模型,得到该目标账号为异常账号的第二概率;

判别模块503,用于将该第一概率和该第二概率合并输入目标LR模型,输出该目标账号为异常账号的判别结果。

在一些可能的实现方式中,进一步参考图6,图6为本申请实施例中一种异常账号的识别装置500的又一个实施例示意图,异常账号的识别装置500还可以包括:

数据集构建模块504,用于构建账号操作数据集和账号信息数据集;

数据切分模块505,用于将该账号操作数据集分为第一训练集和第一测试集,将该账号信息数据集分为第二训练集和第二测试集;

第一训练模块506,用于利用数据切分后的该第一训练集对初始LSTM模型进行交叉训练,得到该目标LSTM模型,并利用该目标LSTM模型对该第一训练集和该第一测试集进行预测,分别输出LSTM训练集预测数据和LSTM测试集预测数据;

第二训练模块507,用于利用数据切分后的该第二训练集对初始DeepFM模型进行交叉训练,并利用交叉训练得到的该目标DeepFM模型对该第二训练集和该第二测试集进行预测,分别输出DeepFM训练集预测数据和DeepFM测试集预测数据;

合并模块508,用于分别将该LSTM训练集预测数据和该DeepFM训练集预测数据、该LSTM测试集预测数据和该DeepFM测试集预测数据进行合并,得到训练集预测数据和测试集预测数据;

第三训练模块509,用于利用该训练集预测数据和该测试集预测数据对初始LR模型进行训练,得到该目标LR模型。

在一些可能的实现方式中,数据集构建模块504,具体用于获取用户参加各个活动的时间差值序列数据,并构建包含该时间差值序列数据的账号操作数据集和包含该账号信息数据的账号信息数据集。

在一些可能的实现方式中,异常账号的识别装置500还可以包括:

第二获取模块,用于获取多个账号的账号信息数据或账号操作数据;

筛选模块,用于确定该多个账号的账号信息数据或账号操作数据中,满足异常账号初筛条件的该目标账号。

在一些可能的实现方式中,判别模块503,具体用于根据预先为该目标LSTM模型和该目标DeepFM模型分别设置的权重值,将该第一概率和该第二概率加权合并输入目标LR模型,输出该目标账号为异常账号的判别结果。

在一些可能的实现方式中,第一训练模块506,具体包括:

数据切分子模块,用于将该第一训练集划分为K份数据量一致的集合,取其中一份作为验证集,其余作为子训练集,得到K个不同的训练组合,其中,K为正整数;

交叉训练子模块,用于交叉利用每个训练组合中的子训练集对该初始LSTM模型进行训练,并利用每轮训练得到的该目标LSTM模型对当前轮次的验证集和该测试集进行预测,得到K组验证集预测数据和K组测试集预测数据;

合并子模块,用于合并该K组验证集预测数据作为该LSTM训练集预测数据,并将该K组测试集预测数据进行平均,作为最终的该LSTM测试集预测数据。

与现有技术相比,本申请实施例主要有以下有益效果:

本申请实施例,异常账号的识别装置500在获取到目标账号的账号信息数据和账号操作数据后,将账号操作数据输入目标LSTM模型,将账号信息数据输入目标DeepFM模型,进而将目标LSTM模型和目标DeepFM模型的输出结果合并输入到目标LR模型,最终由目标LR模型输出该目标账号为异常账号的判别结果。综上,本申请实施例中,是通过提供一种集成模型,对目标账号的账号信息数据和账号操作数据进行处理,输出该目标账号是否为异常账号的判别结果,其相比现有技术,可以实现一些复杂场景下异常账号的识别。

为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。

所述计算机设备700包括通过系统总线相互通信连接存储器701、处理器702、网络接口703。需要指出的是,图中仅示出了具有组件61-703的计算机设备700,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器701至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器701可以是所述计算机设备700的内部存储单元,例如该计算机设备700的硬盘或内存。在另一些实施例中,所述存储器701也可以是所述计算机设备700的外部存储设备,例如该计算机设备700上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器701还可以既包括所述计算机设备700的内部存储单元也包括其外部存储设备。本实施例中,所述存储器701通常用于存储安装于所述计算机设备700的操作系统和各类应用软件,例如上述异常账号的识别方法的计算机可读指令等。此外,所述存储器701还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器702在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器702通常用于控制所述计算机设备700的总体操作。本实施例中,所述处理器702用于运行所述存储器701中存储的计算机可读指令或者处理数据,例如运行所述异常账号的识别方法的计算机可读指令。

所述网络接口703可包括无线网络接口或有线网络接口,该网络接口703通常用于在所述计算机设备700与其他电子设备之间建立通信连接。

与现有技术相比,本申请实施例主要有以下有益效果:

本申请实施例,在获取到目标账号的账号信息数据和账号操作数据后,将账号操作数据输入目标LSTM模型,将账号信息数据输入目标DeepFM模型,进而将目标LSTM模型和目标DeepFM模型的输出结果合并输入到目标LR模型,最终由目标LR模型输出该目标账号为异常账号的判别结果。综上,本申请实施例中,是通过提供一种集成模型,对目标账号的账号信息数据和账号操作数据进行处理,输出该目标账号是否为异常账号的判别结果,其相比现有技术,可以实现一些复杂场景下异常账号的识别。

本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的异常账号的识别方法的步骤。

与现有技术相比,本申请实施例主要有以下有益效果:

本申请实施例,在获取到目标账号的账号信息数据和账号操作数据后,将账号操作数据输入目标LSTM模型,将账号信息数据输入目标DeepFM模型,进而将目标LSTM模型和目标DeepFM模型的输出结果合并输入到目标LR模型,最终由目标LR模型输出该目标账号为异常账号的判别结果。综上,本申请实施例中,是通过提供一种集成模型,对目标账号的账号信息数据和账号操作数据进行处理,输出该目标账号是否为异常账号的判别结果,其相比现有技术,可以实现一些复杂场景下异常账号的识别。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。

相关技术
  • 一种异常账号的识别方法、装置、计算机设备及存储介质
  • 异常账号识别方法、装置、计算机设备和存储介质
技术分类

06120112456086