掌桥专利:专业的专利平台
掌桥专利
首页

异常判别模型训练及其判别方法、装置、设备和介质

文献发布时间:2024-01-17 01:13:28


异常判别模型训练及其判别方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域,尤其涉及机器学习或深度学习技术。

背景技术

随着计算机的不断发展,以计算机学科为基础,以统计学、数理逻辑心理学、哲学等多学科交叉融合的人工智能技术应运而生。通过将人工智能技术应用于不同的业务场景,为相应业务的开展过程,提供了诸多便利。

发明内容

本公开提供了一种异常判别模型训练及其判别方法、装置、设备和介质。

根据本公开的一方面,提供了一种异常判别模型训练方法,包括:

获取各样本访问地址下的样本业务参与方,在访问目标业务时所生成的样本业务数据;

提取各样本业务数据在不同维度下的样本业务特征;

针对任一样本访问地址下的样本业务参与方,根据该样本业务参与方在该样本访问地址下的至少一个样本业务特征,确定该样本业务参与方在该样本访问地址下的目标标签类别;其中,目标标签类别为正常参与方或异常参与方;

根据各样本业务参与方在不同样本访问地址下的各样本业务特征和相应目标标签类别,对预先构建的异常判别模型进行训练。

根据本公开的另一方面,还提供了一种异常判别方法,包括:

获取预测访问地址下的预测业务参与方,在访问目标业务时所生成的预测业务数据;

提取各预测业务数据在不同维度下的预测业务特征;

将预测业务数据输入至训练好的异常判别模型,得到预测业务参与方在预测访问地址下的类别判定结果;其中,异常判别模型基于本公开实施例提供的任意一种异常判别模型训练方法训练得到。

根据本公开的又一方面,还提供了一种电子设备,包括:

至少一个处理器;以及

与至少一个处理器通信连接的存储器;其中,

存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开实施例提供的任意一种异常判别模型训练方法,和/或,本公开实施例提供的任意一种异常判别方法。

根据本公开的再一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行根据本公开实施例提供的任意一种异常判别模型训练方法,和/或,本公开实施例提供的任意一种异常判别方法。

根据本公开的技术,提供了异常判别模型的标注成本,同时提高了模型判别结果准确度。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本公开的限定。其中:

图1是本公开实施例提供的一种异常判别模型训练方法的流程图;

图2A是本公开实施例提供的另一种异常判别模型训练方法的流程图;

图2B是本公开实施例提供的一种候选标签类别确定过程示意图;

图3是本公开实施例提供的一种异常判别方法的流程图;

图4是本公开实施例提供的一种异常判别模型训练装置的结构图;

图5是本公开实施例提供的一种异常判别装置的结构图;

图6是用来实现本公开实施例的异常判别模型训练方法和/或异常判别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供的异常判别模型训练方法,适用于基于访问目标业务过程中所生成的样本业务数据,进行异常参与方的异常判别模型训练的场景中。本公开实施例所提供的各异常判别模型训练方法,可以由异常判别模型训练装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中,本公开对此不作任何限定。

参见图1所示的一种异常判别模型训练方法,包括:

S101、获取各样本访问地址下的样本业务参与方,在访问目标业务时所生成的样本业务数据。

其中,访问地址可以是线上参与目标业务时,为参与设备所分配的用于屏蔽物理地址差异的逻辑地址。例如,访问地址可以是IP地址(Internet Protocol Address,互联网协议地址)。其中,样本访问地址特指在异常判别模型训练阶段所对应的访问地址。

其中,业务参与方用于表征使用参与设备进行目标业务访问的参与方,可以是用户、组织或团体等。例如,业务参与方可以包括账号等信息中的至少一种。其中,样本业务参与方特指在异常判别模型训练阶段所对应的业务参与方。需要说明的是,相同样本访问地址下可以对应有至少一个样本业务参与方,本公开对相同样本访问地址下的样本业务参与方的数量不作任何限定。

其中,业务数据为业务参与方在访问目标业务时所生成的数据;样本业务数据特指在异常判别模型训练阶段所对应的业务数据。业务数据可以是在授权情况下采集的日志数据。例如日志数据可以包括安全SDK(Software Development Kit,软件开发工具包)数据、设备指纹数据和业务请求数据等中的至少一种。其中,安全SDK数据为承载有目标业务的应用所集成的安全SDK在授权情况下实时上报或触发上报的设备信息和安全环境信息等。其中,设备信息可以包括设备标识和系统标识等;安全环境信息可以包括设备运行环境的安全指标参数。其中,安全指标参数可以包括设备运行环境是否为模拟器、系统或应用是否被注入、系统是否被root(获取超级管理员权限)、应用是否被重打包等中的至少一种。其中,设备指纹数据可以包括基于设备信息生成的唯一表征访问目标业务所使用参与设备的指纹标识。其中,业务请求数据可以包括参与目标业务时所发送业务请求中的访问地址、请求账号、请求设备、请求时间、访问频次、参与方式和参与程度等中的至少一种。在一个可选实施例中,若目标业务为营销活动,则参与方式可以包括领券和下单等中的至少一种;相应的参与程度可以是领券数量、领券金额、下单数量和下单金额等中的至少一种。

其中,样本业务数据可以从业务数据生成方获取,或者与业务数据生成方相关联的存储设备中获取。需要说明的是,对样本业务数据的获取可以采用实时或定时获取的方式加以实现,本公开对样本业务数据的具体获取方式不作任何限定。

S102、提取各样本业务数据在不同维度下的样本业务特征。

其中,业务特征可以包括在账号属性特征、设备属性特征、网络属性特征和业务行为特征等中的至少一种。其中,账号属性特征可以包括账号昵称、账号注册来源和账号注册时间等中的至少一种;设备属性特征可以包括系统版本和设备型号等中的至少一种;网络属性特征可以包括访问地址等中的至少一种;业务行为特征可以包括参与目标业务的参与频次、参与方式和参与程度等中的至少一种。相应的,样本业务特征特指在异常判别模型训练阶段下的业务特征。其中,样本业务特征对应维度可以包括至少一种,本公开对样本业务特征的维度数量不作任何限定,可以根据实际需求或经验进行设置或调整。

示例性的,可以识别样本业务数据中的特征字段,并提取特征字段对应的特征数据,将所提取特征数据作为特征字段对应特征维度的样本业务特征。

S103、针对任一样本访问地址下的样本业务参与方,根据该样本业务参与方在该样本访问地址下的至少一个样本业务特征,确定该样本业务参与方在该样本访问地址下的目标标签类别。

其中,目标标签类别为正常参与方或异常参与方。其中,异常参与方可以理解为想要通过参与目标业务异常获利的样本业务参与方;正常参与方可以理解为样本业务参与方中除异常参与方之外的其他样本业务参与方,通常作为普通用户正常参与目标业务,正常享受目标业务下的优惠策略等。

可以理解的是,通过限定样本访问地址下的样本业务参与方,进行样本业务参与方在对应样本访问地址下的目标标签类别,能够适配相同样本业务参与方在不同样本访问地址下参与目标业务的情况,提高了对样本业务参与方在不同样本访问地址下的目标标签类别确定结果的准确度。

在一个可选实施例中,可以基于无监督模型或预设专家策略,根据该样本业务参与方在该样本访问地址下的至少一个样本业务特征,确定该样本业务参与方在该样本访问地址下的目标标签类别,从而无需人工进行目标标签类别的标注,减少了标签标注的时间成本和人力成本。其中,无监督模型可以采用现有技术中的至少一种无监督机器学习模型加以实现,本公开对此不作任何限定;其中,预设专家策略可以由技术人员根据经验或业务需求人为设置或调整。

S104、根据各样本业务参与方在不同样本访问地址下的各样本业务特征和相应目标标签类别,对预先构建的异常判别模型进行训练。

其中,异常判别模型可以采用现有技术中的至少一种机器学习模型或深度学习模型加以实现,本公开对异常判别模型的具体网络结构不作任何限定。可选的,异常判别模型可以是XGBoost(eXtreme Gradient Boosting,极致梯度提升)模型。

示例性的,可以根据各样本业务参与方在不同样本访问地址下的各样本业务特征,输入至待训练的异常判别模型中,得到各样本业务参与方在不同样本访问地址下的异常类别判定结果;根据异常类别判定结果与相应目标标签类别之间的差异情况,调整异常判别模型中的网络参数,直至满足训练截止条件,从而在对异常判别模型训练过程中,使得异常判别模型逐步学习到样本业务参与方在不同样本访问地址下的异常聚集判别能力,进而提高了异常判别模型进行正常参与方和异常参与方的判别结果准确度。

其中,训练截止条件可以是样本数量达到预设数量阈值、训练次数达到预设次数阈值、或者异常类别判定结果与相应目标标签类别之间的差异情况趋于平稳等。其中,上述差异情况可以采用预设损失函数进行量化,本公开对预设损失函数的函数类别不作任何限定。

本公开实施例通过引入不同维度下的样本业务特征,进行样本业务参与方在样本访问地址下的目标标签类别的确定,实现了目标标签类别的自动化确定,降低了目标标签类别确定的时间成本和人力成本,进而提高了异常判别模型的训练效率,降低了训练成本。同时,针对样本业务参与方,按照不同样本访问地址进行目标标签类别确定,实现了更细粒度的目标标签类别的标注,从而提高了目标标签类别确定结果的准确度,使得异常判别模型能够学习到样本业务参与方,在不同样本访问地址下异常与否的判别能力,进而提高了异常判别模型的识别结果准确度。

在上述各技术方案的基础上,本公开还提供了一个可选实施例,在该可选实施例中,将目标标签类别的确定操作,进行了优化改进。需要说明的是,在本公开实施例中未详述部分,可参见其他实施例中的相关表述,在此不再赘述。

参见图2A所示的一种异常判别模型训练方法,包括:

S201、获取各样本访问地址下的样本业务参与方,在访问目标业务时所生成的样本业务数据。

S202、提取各样本业务数据在不同维度下的样本业务特征。

S203、针对任一样本访问地址下的样本业务参与方,基于不同评价方式,根据该样本业务参与方在该样本访问地址下的至少一个样本业务特征,确定该样本业务参与方在该样本访问地址下的候选标签类别。

其中,候选标签类别用于表征在相应评价方式下,所确定的样本业务参与方在相应样本访问地址下的标签类别。其中,候选标签类别可以是样本参与方或异常参与方。需要说明的是,不同评价方式下对应的候选标签类别可以相同或至少部分不同。

在一个可选实施例中,可以根据预设专家策略,确定该样本业务参与方在该样本访问地址下的不同维度的样本业务特征的策略满足情况;根据策略满足情况,确定该样本业务参与方在该样本访问地址下的候选标签类别。其中,预设专家策略可以由技术人员根据经验或业务需求进行设置或调整。本公开对预设专家策略的数量和设置方式不作具体限定。其中,策略满足情况可以是满足或不满足。可以理解的是,预设专家策略可以根据目标业务的变更或调整情况,进行适应性调整。

可以理解的是,预设专家策略具备目标业务针对性,因此能够一定程度上提高候选标签类别的灵敏度或特异性。然而,预设专家策略存在灵活性差的缺陷,难以综合提高候选标签类别确定结果的准确度。

在另一可选实施例中,可以将该样本访问地址下的各样本业务参与方作为样本业务参与方组;根据样本业务参与方组中各样本业务参与方在至少一个维度下的样本业务特征,分别确定样本业务参与方组中各样本业务参与方,在该样本访问地址下的候选标签类别。

其中,样本业务参与方组,即为相同样本访问地址下的各样本业务参与方的集合,可以作为相同样本访问地址下业务参与方由于异常聚集,而出现异常参与方的判定基础。

示例性的,确定样本业务特征的特征类型;可以基于第一无监督模型,根据该样本业务参与方组中各样本业务参与方,在至少一个维度下的连续型样本业务特征,确定样本业务参与方组中各样本业务参与方在该样本访问地址下的候选标签类别;可以基于第二无监督模型,根据该样本业务参与方组中各样本业务参与方,在至少一个维度下的非连续型样本业务特征,确定样本业务参与方组中各样本业务参与方在该样本访问地址下的候选标签类别。

其中,第一无监督模型和第二无监督模型可以由技术人员根据需要或经验值进行设置或调整。在一个具体实现方式中,第一无监督模型可以采用DBSCAN(Density-BasedSpatial Clustering of Applications with Noise,基于密度的噪声应用空间聚类)算法实现;第二无监督模型可以使用交叉熵进行聚集度判定的机器学习模型加以实现。

可选的,可以基于不同特征字段与特征类型之间的第一对应关系,确定各样本业务特征对应特征字段所属的特征类型。或者可选的,可以基于不同字段属性与特征类型之间的第二对应关系,根据样本业务特征对应特征字段的字段属性,确定样本业务特征的特征类型。其中,上述第一对应关系和第二对应关系可以由技术人员根据需要或经验值进行设定。在一个具体实现方式中,连续型特征可以包括业务行为特征等中的至少一种;非连续型特征可以包括账号属性特征和设备属性特征等中的至少一种。

在一个具体实现方式中,可以根据样本业务参与方组中各样本业务参与方在单一特征维度下的样本业务特征,确定样本业务参与方组中各样本业务参与方,在该样本访问地址下的候选标签类别,从而从单一特征维度下,不同样本业务参与方在样本参与方组中的特征聚集情况,进行候选标签类别的精细化确定。

在另一具体实现方式中,可以根据样本业务参与方组中各样本业务参与方在不同关联关系的特征维度下的样本业务特征,确定样本业务参与方组中各样本业务参与方,在该样本访问地址下的候选标签类别,从而从具备关联关系的局部特征维度下,不同样本业务参与方在样本参与方组中的特征聚集情况,进行候选标签类别的细粒度确定。其中,具备关联关系的特征维度可以由技术人员根据经验或实际需求进行设定或调整。

在又一具体实现方式中,可以根据样本业务参与方组中各样本业务参与方在全部特征维度下的样本业务特征,确定样本业务参与方组中各样本业务参与方,在该样本访问地址下的候选标签类别,从而从不同样本业务参与方在样本参与方组中的全局特征聚集情况,进行候选标签类别的融合确定。示例性的,可以基于孤立森林算法,根据样本业务参与方组中各样本业务参与方在全部特征维度下的样本业务特征,确定样本业务参与方组中各样本业务参与方,在该样本访问地址下的候选标签类别。

需要说明的是,上述不同实现方式可以择一使用,从而减少候选标签类别确定过程的数据运算量,或者选择至少两种实现方式一并使用,相互补充,从而提高候选标签类别确定结果的准确度。

可以理解的是,通过引入样本业务参与方组,进行相同样本访问地址下不同样本业务参与方的候选标签类别的确定,能够同时实现多样本业务参与方的候选标签类别的一并确定,提高了候选标签类别的确定效率。同时,根据不同维度下的样本业务特征,能够考虑单一特征维度、局部关联的局部特征维度以及全局特征维度等,提高了候选标签类别确定的多样性和丰富性。进一步的,通过不同维度下的样本业务特征的特征内或特征间的表征情况,提高了候选标签类别确定结果的准确度。

在另一可选实施例中,可以根据该样本业务参与方在该样本访问地址下的至少一个样本业务特征,确定相应样本业务特征的时间响应变量;根据时间响应变量对应样本业务数据的生成时间信息,确定相应样本业务特征的业务时间序列;根据该样本业务参与方在该样本访问地址下的各业务时间序列,确定该样本业务参与方在该样本访问地址下的候选标签类别。

其中,时间响应变量即数值随时间变化的变量。可选的,可以直接将样本业务特征下的数值型的业务变量,作为时间响应变量。例如,PV(Page View,点击量)和UV(UniqueVisitor,独立访客)等。或者可选的,可以将非数值型的业务变量转化为数值型的业务变量,并将转化结果作为时间响应变量。例如,基于系统版本生成的系统版本熵等。其中,时间响应变量的变量类别和变量数量,可以由技术人员根据需要或经验值进行设置或调整,本公开对两者不作任何限定。

其中,不同样本业务特征对应业务时间序列,能够反映出相应样本业务特征的时间变化情况,从而侧面表征样本业务特征的数据变化趋势。相应的,可以基于态势感知算法,根据该样本业务参与方在该样本访问地址下的各业务时间序列,确定该样本业务参与方在该样本访问地址下的候选标签类别。

可以理解的是,通过引入样本业务特征的时间响应变量,生成业务时间序列,并基于各业务时间序列进行候选标签类别的确定,从而在候选标签类别确定过程中,能够引入相应样本业务特征的时间变化趋势和时间变化幅度,从而在时间维度下进行候选标签类别的确定,提高了候选标签类别的确定方式的丰富性和多样性。同时,通过多时间点的业务时间序列的综合使用,提高了候选标签类别确定结果的准确度。

由于时间响应变量随时间变化的因素较多,为了避免非人为因素导致的时间响应变量的正常波动(如业务调整、系统误差等),给候选标签类别确定结果带来的影响,在一个可选实施例中,还可以在基于业务时间序列进行候选标签类别确定过程中,引入验证机制。

示例性的,根据该样本业务参与方在该样本访问地址下的各业务时间序列,确定该样本业务参与方在该样本访问地址下的候选标签类别,可以包括:根据该样本业务参与方在该样本访问地址下的各业务时间序列,确定该样本业务参与方在该样本访问地址下的初始标签类别;获取各业务时间序列对应的业务验证数据;根据各业务验证数据和初始标签类别,确定该样本业务参与方在该样本访问地址下的候选标签类别。

其中,业务验证数据用于表征业务时间序列在其他类别确定机制下进行标签类别确定的参照数据。可选的,业务验证数据可以包括相应业务时间序列对应样本业务数据的线上拦截数据、线下拦截数据和业务调整数据中的至少一种,从而提高了业务验证数据的丰富性和多样性,进而提高了候选标签类别确定方式的丰富性和多样性。其中,线上拦截数据用于量化表征相应样本业务参与方,在参与目标业务过程中的线上拦截情况,例如,线上拦截数据可以是实时异常拦截率。线下拦截数据用于量化表征相应样本业务参与方,在参与目标业务过程中的线下拦截情况,例如,线下拦截数据可以包括离线异常检出率。业务调整数据用于表征业务是否有调整,以及具体的业务调整情况,便于排除由于业务调整或业务变更带来业务时间序列的异常波动。

示例性的,结合图2B所示的候选标签类别确定过程示意图,可以基于态势感知模型,根据该样本业务参与方在该样本访问地址下的各业务时间序列,确定该样本业务参与方在该样本访问地址下的初始标签类别;其中,初始标签类别为异常参与方或正常参与方;获取各业务时间序列对应的业务验证数据;根据业务验证数据对初始标签类别进行修正,得到该样本业务参与方在该样本访问地址下的候选标签类别。

进一步的,继续结合图2B,若初始标签类别为异常参与方、目标业务未调整、且线上拦截数据或线下拦截数据突增,则确定相应候选标签类别为异常参与方;若初始标签类别为异常参与方且目标业务已调整,则进一步优化前述进行初始标签类别确定的态势感知模型,以使优化后的态势感知模型能够适配调整后的目标业务;若初始标签类别为异常参与方,且线上拦截数据和线下拦截数据均未突增,则进一步优化前述进行初始标签类别确定的态势感知模型,以使提高态势感知模型的预测结果准确度。其中,线上拦截数据突增可以是线上拦截数据增幅大于第一预设阈值;线下拦截数据突增可以是线下拦截数据增幅大于第二预设阈值。其中,第一预设阈值和第二预设阈值,可以分别由技术人员根据需要或经验值进行设置,或通过大量试验进行调整。

由于异常参与方数量通常远小于正常参与方数量,为了减少后续进行异常参与方标注过程的数据运算量,还可以将异常参与方添加至异常名单中,通过异常名单命中与否的判定,确定相应样本业务参与方是否为异常参与方。

可以理解的是,通过引入业务时间序列,进行初始标签类别的确定,通过引入业务验证数据对初始标签类别进行修正,得到候选标签类别,实现了多层级的候选标签类别的确定,能够避免非人为因素导致的时间响应变量的正常波动,给候选标签类别确定结果带来的影响,从而提高了候选标签类别确定结果的准确度,进而有助于提高异常判别模型的判别结果的准确度。

S204、根据该样本业务参与方在该样本访问地址下的各候选标签类别,确定该样本业务参与方在该样本访问地址下的目标标签类别。

可选的,针对任一样本访问地址下的样本业务参与方,若该样本访问地址下的该样本业务参与方,存在为异常参与方的候选标签类别,则将该样本业务参与方在该样本访问地址下的目标标签类别,设置为异常参与方,从而减少了异常参与方的漏识别率,进而提高了目标标签类别确定结果的准确度。进一步的,若不存在异常参与方的候选标签类别,则将相应的目标标签类别设置为正常参与方。

或者可选的,针对任一样本访问地址下的样本业务参与方,若该样本访问地址下的该样本业务参与方,若异常参与方的候选标签类别占比大于预设百分比阈值,则将相应目标标签类别设置为异常参与方,从而减少了异常参与方的误识别率。进一步的,若异常参与方的候选标签类别占比不大于预设百分比阈值,则将相应目标标签类别设置为正常参与方。其中,预设百分比阈值可以由技术人员根据需要或经验进行设置或调整,或通过大量试验反复确定。

或者可选的,针对任一样本访问地址下的样本业务参与方,若不存在为异常参与方的候选标签类别,则根据该样本业务参与方的名单归属情况,确定该样本业务参与方在该访问地址下的目标标签类别。

具体的,若该样本业务参与方属于异常名单,则确定该样本业务参与方在该访问地址下的目标标签类别为异常参与方;或者若该样本业务参与方不属于正常名单,则确定该样本业务参与方在该访问地址下的目标标签类别为异常参与方。其中,异常名单和正常名单可以由技术人员根据经验或实际情况进行人为设定;或者可以预先将历史时段内的样本业务数据,采用前述至少一种异常参与方确定方式,所确定的异常参与方汇总为异常名单,以及预先将历史时段内的样本业务数据,采用前述至少一种正常参与方确定方式,所确定的正常参与方汇总为正常名单。

可以理解的是,通过名单归属情况,进行目标标签类别的确定,能够减少异常参与方的漏识别情况,从而减少了异常参与方的漏识别率,进而提高了目标标签类别确定结果的准确度。

由于样本访问地址下的正常参与方远大于异常参与方,为了避免后续所训练异常判别模型出现过拟合的情况发生,还可以从未标注为异常参与方的样本参与方中,选取不属于异常名单或属于正常名单的样本业务参与方,并且该样本业务参与方的样本特征数据中的预设特征维度,在所属样本业务参与方组中无聚集的样本业务参与方,设置为正常参与方。其中,预设特征维度可以由技术人员根据需要或经验值进行设置或调整,或通过大量试验反复确定。在一个具体实现方式中,预设特征维度可以包括设备属性特征和账号属性特征等中的至少一种。例如,预设特征维度包括设备标识特征、系统版本特征和注册来源特征等。

S205、根据各样本业务参与方在不同样本访问地址下的各样本业务特征和相应目标标签类别,对预先构建的异常判别模型进行训练。

本公开实施例通过基于不同评价方式,对相同样本业务参与方在相同样本访问地址下,进行不同候选标签类别的确定,从而基于不同候选标签类别的确定结果,综合进行目标标签类别的确定,避免了单一目标标签类别的误识别或漏识别情况的发生,从而提高了目标标签类别确定结果的可靠性,进而提高了目标标签类别确定结果的准确度。

上述对异常判别模型的训练过程进行了详细说明,以下将对基于训练好的异常判别模型的异常判别过程,进行详述。需要说明的是,在本公开实施例中未详述部分,可参见其他实施例中的相关表述,在此不再赘述。

参见图3所示的一种异常判别方法,包括:

S301、获取预测访问地址下的预测业务参与方,在访问目标业务时所生成的预测业务数据。

其中,访问地址可以是线上参与目标业务时,为参与设备所分配的用于屏蔽物理地址差异的逻辑地址。例如,访问地址可以是IP地址。其中,预测访问地址特指在异常判别模型使用阶段所对应的访问地址。

其中,业务参与方用于表征使用参与设备进行目标业务访问的参与方,可以是用户、组织或团体等。例如,业务参与方可以包括账号等信息中的至少一种。其中,预测业务参与方特指在异常判别模型使用阶段所对应的业务参与方。

其中,业务数据为业务参与方在访问目标业务时所生成的数据;预测业务数据特指在异常判别模型使用阶段所对应的业务数据。业务数据可以是在授权情况下采集的日志数据。例如日志数据可以包括安全SDK数据、设备指纹数据和业务请求数据等中的至少一种。其中,安全SDK数据为承载有目标业务的应用所集成的安全SDK在授权情况下实时上报或触发上报的设备信息和安全环境信息等。其中,设备信息可以包括设备标识和系统标识等;安全环境信息可以包括设备运行环境的安全指标参数。其中,安全指标参数可以包括设备运行环境是否为模拟器、系统或应用是否被注入、系统是否被root(获取超级管理员权限)、应用是否被重打包等中的至少一种。其中,设备指纹数据可以包括基于设备信息生成的唯一表征访问目标业务所使用参与设备的指纹标识。其中,业务请求数据可以包括参与目标业务时所发送业务请求中的访问地址、请求账号、请求设备、请求时间、访问频次、参与方式和参与程度等中的至少一种。在一个可选实施例中,若目标业务为营销活动,则参与方式可以包括领券和下单等中的至少一种;相应的参与程度可以是领券数量、领券金额、下单数量和下单金额等中的至少一种。

其中,预测业务数据可以从业务数据生成方获取,或者与业务数据生成方相关联的存储设备中获取。需要说明的是,对预测业务数据的获取可以采用实时或定时获取的方式加以实现,本公开对预测业务数据的具体获取方式不作任何限定。在一个具体实现方式中,为了保证异常判别的时效性,通常实时从业务数据生成方,进行预测业务数据的实时获取。

S302、提取各预测业务数据在不同维度下的预测业务特征。

其中,业务特征可以包括在账号属性特征、设备属性特征、网络属性特征和业务行为特征等中的至少一种。其中,账号属性特征可以包括账号昵称、账号注册来源和账号注册时间等中的至少一种;设备属性特征可以包括系统版本和设备型号等中的至少一种;网络属性特征可以包括访问地址等中的至少一种;业务行为特征可以包括参与目标业务的参与频次、参与方式和参与程度等中的至少一种。相应的,预测业务特征特指在异常判别模型使用阶段下的业务特征。其中,预测业务特征对应维度可以包括至少一种,本公开对预测业务特征的维度数量不作任何限定,仅需保证预测业务特征的维度与异常判别模型训练过程对应样本业务特征的维度相对应即可。

S303、将预测业务数据输入至训练好的异常判别模型,得到预测业务参与方在预测访问地址下的类别判定结果。

其中,异常判别模型基于本公开实施例所提供的任意一种异常判别模型训练方法训练得到。

具体的,将预测业务数据输入至训练好的异常判别模型,得到该预测业务参与方在预测访问地址下属于正常参与方的判别概率,以及属于异常参与方的判别概率;若属于正常参与方的判别概率大于第一概率阈值,则确定该预测业务参与方在该预测访问地址下属于正常参与方;若属于异常参与方的判别概率大于第二概率阈值,则确定该预测业务参与方在该预测访问地址下属于异常参与方。其中,第一概率阈值和第二概率阈值可以由技术人员根据需要或经验值进行设置或调整,或基于大量试验确定。

本公开实施例通过引入前述实施例所训练的异常判别模型,进行预测业务参与方在预测访问地址下的类别判别,由于异常判别模型学习到了业务参与方在不同访问地址异常与否的判别能力,从而提高了异类别判别结果的准确度。

作为上述各异常判别模型训练方法的实现,本公开还提供了一种实施上述各异常判别模型训练方法的执行装置的可选实施例。

参见图4所示的一种异常判别模型训练装置400,适用于基于访问目标业务过程中所生成的样本业务数据,进行异常参与方的异常判别模型训练的场景中,该装置可以采用软件和/或硬件实现,具体包括:样本业务数据获取模块401、样本业务特征提取模块402、目标标签类别确定模块403和异常判别模型训练模块404。其中,

样本业务数据获取模块401,用于获取各样本访问地址下的样本业务参与方,在访问目标业务时所生成的样本业务数据;

样本业务特征提取模块402,用于提取各所述样本业务数据在不同维度下的样本业务特征;

目标标签类别确定模块403,用于针对任一样本访问地址下的样本业务参与方,根据该样本业务参与方在该样本访问地址下的至少一个样本业务特征,确定该样本业务参与方在该样本访问地址下的目标标签类别;其中,所述目标标签类别为正常参与方或异常参与方;

异常判别模型训练模块404,用于根据各所述样本业务参与方在不同样本访问地址下的各所述样本业务特征和相应目标标签类别,对预先构建的异常判别模型进行训练。

本公开实施例通过引入不同维度下的样本业务特征,进行样本业务参与方在样本访问地址下的目标标签类别的确定,实现了目标标签类别的自动化确定,降低了目标标签类别确定的时间成本和人力成本,进而提高了异常判别模型的训练效率,降低了训练成本。同时,针对样本业务参与方,按照不同样本访问地址进行目标标签类别确定,实现了更细粒度的目标标签类别的标注,从而提高了目标标签类别确定结果的准确度,使得异常判别模型能够学习到样本业务参与方,在不同样本访问地址下异常与否的判别能力,进而提高了异常判别模型的识别结果准确度。

在一个可选实施例中,所述目标标签类别确定模块403,包括:

候选标签类别确定单元,用于基于不同评价方式,根据该样本业务参与方在该样本访问地址下的至少一个样本业务特征,确定该样本业务参与方在该样本访问地址下的候选标签类别;

目标标签类别确定单元,用于根据该样本业务参与方在该样本访问地址下的各所述候选标签类别,确定该样本业务参与方在该样本访问地址下的目标标签类别。

在一个可选实施例中,所述候选标签类别确定单元,包括:

样本业务参与方组确定子单元,用于将该样本访问地址下的各样本业务参与方作为样本业务参与方组;

第一候选标签类别确定子单元,用于根据所述样本业务参与方组中各所述样本业务参与方在至少一个维度下的样本业务特征,分别确定所述样本业务参与方组中各所述样本业务参与方,在该样本访问地址下的候选标签类别。

在一个可选实施例中,所述候选标签类别确定单元,包括:

时间响应变量确定子单元,用于根据该样本业务参与方在该样本访问地址下的至少一个样本业务特征,确定相应样本业务特征的时间响应变量;

业务时间序列确定子单元,用于根据所述时间响应变量对应样本业务数据的生成时间信息,确定相应样本业务特征的业务时间序列;

第二候选标签类别确定子单元,用于根据该样本业务参与方在该样本访问地址下的各所述业务时间序列,确定该样本业务参与方在该样本访问地址下的候选标签类别。

在一个可选实施例中,所述第二候选标签类别确定子单元,包括:

初始标签类别确定从单元,用于根据该样本业务参与方在该样本访问地址下的各所述业务时间序列,确定该样本业务参与方在该样本访问地址下的初始标签类别;

业务验证数据获取从单元,用于获取各所述业务时间序列对应的业务验证数据;

第二候选标签类别确定从单元,用于根据各所述业务验证数据和所述初始标签类别,确定该样本业务参与方在该样本访问地址下的候选标签类别。

在一个可选实施例中,所述业务验证数据包括相应业务时间序列对应样本业务数据的线上拦截数据、线下拦截数据和业务调整数据中的至少一种。

在一个可选实施例中,所述目标标签类别确定单元,包括:

异常参与方确定子单元,用于若存在为异常参与方的候选标签类别,则将该样本业务参与方在该样本访问地址下的目标标签类别设置为所述异常参与方;或者,

名单归属情况使用子单元,用于若不存在为异常参与方的候选标签类别,则根据该样本业务参与方的名单归属情况,确定该样本业务参与方在该访问地址下的目标标签类别。

上述异常判别模型训练装置可执行本公开任意实施例所提供的异常判别模型训练方法,具备执行各异常判别模型训练方法相应的功能模块和有益效果。

作为上述各异常判别方法的实现,本公开还提供了一种实施上述各异常判别方法的执行装置的可选实施例。

参见图5所示的一种异常判别装置500,适用于基于前述训练好的异常判别模型,进行异常参与方类别判定的应用场景,该装置可以采用软件和/或硬件实现,具体包括:预测业务数据获取模块501、预测业务特征提取模块502和类别判定结果确定模块503。其中,

预测业务数据获取模块501,用于获取预测访问地址下的预测业务参与方,在访问目标业务时所生成的预测业务数据;

预测业务特征提取模块502,用于提取各所述预测业务数据在不同维度下的预测业务特征;

类别判定结果确定模块503,用于将所述预测业务数据输入至训练好的异常判别模型,得到所述预测业务参与方在所述预测访问地址下的类别判定结果;

其中,所述异常判别模型基于本公开实施例提供的任意一种异常判别模型训练装置训练得到。

本公开实施例通过引入前述实施例所训练的异常判别模型,进行预测业务参与方在预测访问地址下的类别判别,由于异常判别模型学习到了业务参与方在不同访问地址异常与否的判别能力,从而提高了异类别判别结果的准确度。

本公开的技术方案中,所涉及的样本业务数据和预测业务数据等的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。

根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如异常判别模型训练方法和异常判别方法中的至少一种。例如,在一些实施例中,异常判别模型训练方法和异常判别方法中的至少一种可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时,可以执行上文描述的异常判别模型训练方法和异常判别方法中的至少一种的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行异常判别模型训练方法和异常判别方法中的至少一种。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

相关技术
  • 海棠种和品种的判别方法、装置、存储介质及电子设备
  • 模型训练方法、广告推荐方法、相关装置、设备及介质
  • 神经网络的训练方法、图像分割方法、装置、设备及介质
  • 活体检测模型的训练方法、检测方法、装置、介质及设备
  • 神经网络的训练方法、横向控制方法、装置、设备及介质
  • 文本判别模型的训练方法、装置、存储介质及电子设备
  • 行为判别模型的训练方法、装置、电子设备及存储介质
技术分类

06120116061129