掌桥专利:专业的专利平台
掌桥专利
首页

数据处理方法、装置、计算机设备及存储介质

文献发布时间:2023-06-19 11:32:36


数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域,尤其涉及数据处理方法、数据处理装置、计算机设备及计算机可读存储介质。

背景技术

在资源交换的过程中,往往需要对资源交换事件的风险性进行评估。目前,由于资源交换过程中的不同环节通常是在不同的平台完成,导致产生了数据鸿沟,因此,往往是基于资源交换过程中的单一环节所涉及的数据进行风险评估。但基于单一环节所涉及的数据确定出的风险评估结果具有较低的准确性。

发明内容

本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质,可以有效提高风险评估结果的准确性。

一方面,本申请实施例提供了一种数据处理方法,所述方法包括:

获取与资源交换事件的第一环节相关的第一数据集,对所述第一数据集进行处理,得到第一特征矩阵;

获取与所述资源交换事件的第二环节相关的第二数据集,对所述第二数据集进行处理,得到第二特征矩阵;其中,所述第一数据集和所述第二数据集包括一个或多个特征维度的数据,所述第一数据集和所述第二数据集中的数据所对应的特征维度相匹配;

对所述第一特征矩阵和所述第二特征矩阵进行特征比对,得到评分矩阵;所述评分矩阵中的评分参数用于指示所述第一特征矩阵和所述第二特征矩阵中的相应元素之间的相似度;

对所述评分矩阵进行处理,得到所述资源交换事件的风险评估结果。

一方面,本申请实施例提供了一种数据处理装置,所述装置包括:

获取单元,用于获取与资源交换事件的第一环节相关的第一数据集;

处理单元,用于对所述第一数据集进行处理,得到第一特征矩阵;

所述获取单元,还用于获取与所述资源交换事件的第二环节相关的第二数据集;

所述处理单元,还用于对所述第二数据集进行处理,得到第二特征矩阵;其中,所述第一数据集和所述第二数据集包括一个或多个特征维度的数据,所述第一数据集和所述第二数据集中的数据所对应的特征维度相匹配;

所述处理单元,还用于对所述第一特征矩阵和所述第二特征矩阵进行特征比对,得到评分矩阵;所述评分矩阵中的评分参数用于指示所述第一特征矩阵和所述第二特征矩阵中的相应元素之间的相似度;

所述处理单元,用于对所述评分矩阵进行处理,得到所述资源交换事件的风险评估结果。

在一实施例中,所述处理单元,具体用于将所述评分矩阵输入风险评估模型中进行处理,得到所述资源交换事件的风险评估结果;其中,所述风险评估模型是利用训练集训练得到的,所述训练集包括多组样本集,所述多组样本集包括正样本集和负样本集,每一组样本集包括特定资源交换事件对应的第一环节相关数据和第二环节相关数据,所述第一环节相关数据包括一个或多个时间维度下各特征维度的数据,所述第二环节相关数据包括相应一个或多个时间维度下所述各特征维度的数据。

在一实施例中,所述处理单元,具体用于对所述评分矩阵进行二值化处理,得到二值化处理后的评分矩阵;将所述二值化处理后的评分矩阵输入风险评估模型中进行处理,得到所述资源交换事件的风险评估结果。

在一实施例中,所述获取单元,还用于获取包括所述多组样本集的所述训练集;

所述处理单元,还用于:针对所述多组样本集中任一组样本集包括的第一环节相关数据和第二环节相关数据,对第一环节相关数据进行处理,得到第一参考特征矩阵,以及对第二环节相关数据进行处理,得到第二参考特征矩阵;对所述第一参考特征矩阵和所述第二参考特征矩阵进行特征比对,得到中间评分矩阵,所述中间评分矩阵中的评分参数用于指示所述第一参考特征矩阵和所述第二参考特征矩阵中的相应元素之间的相似度;对所述中间评分矩阵进行二值化处理,得到参考评分矩阵;

其中,所述装置还包括训练单元,用于根据所述多组样本集中各组样本集对应的参考评分矩阵,确定训练评分矩阵集,利用所述训练评分矩阵集对初始风险评估模型进行训练,得到训练后的风险评估模型。

在一实施例中,所述训练单元,具体用于针对所述多组样本集中任一组样本集对应的参考评分矩阵,确定参考评分矩阵的稀疏度;根据各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的参考评分矩阵,确定训练评分矩阵集。

在一实施例中,所述训练单元,具体用于:针对各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的任一参考评分矩阵,对参考评分矩阵中的特征参数进行筛选,得到第一训练评分矩阵,所述第一训练评分矩阵包括参考评分矩阵中按照所对应变量区分能力从高到低排序后排在前M位的M维特征参数;对所述第一训练评分矩阵中的特征参数进行筛选,得到第二训练评分矩阵,所述第二训练评分矩阵包括所述第一训练评分矩阵中按照所对应变量区分能力从高到低排序后排在第X位至Y位的多维特征参数中的N维特征参数,根据所述第二训练评分矩阵确定出的正则参数小于或等于特定数值;根据各个稀疏度大于或等于稀疏度阈值的参考评分矩阵对应的第一训练评分矩阵和第二训练评分矩阵,确定训练评分矩阵集。

在一实施例中,所述训练单元,具体用于:利用所述训练评分矩阵集包括的多个第一训练评分矩阵,对初始风险评估模型进行初步训练;利用所述训练评分矩阵集包括的多个第二训练评分矩阵,对初步训练完成的风险评估模型进行再次训练,得到训练后的风险评估模型。

在一实施例中,所述获取单元,还用于获取所述资源交换事件在第一环节所涉及的账户信息,以及获取所述资源交换事件在第二环节所涉及的账户信息;

其中,所述装置还包括检测单元,用于:若所述在第一环节所涉及的账户信息与所述在第二环节所涉及的账户信息不相匹配,则确定所述在第二环节所涉及的账户信息是否满足第一风险管控条件;若所述在第二环节所涉及的账户信息不满足所述第一风险管控条件,则执行所述获取单元获取与资源交换事件的第一环节相关的第一数据集。

在一实施例中,所述检测单元,还用于若所述在第二环节所涉及的账户信息满足所述第一风险管控条件,则确定所述资源交换事件的风险评估等级为目标类风险等级,并将所述目标类风险等级确定为所述资源交换事件的风险评估结果。

在一实施例中,所述装置还包括风控单元,用于根据所述风险评估结果确定是否满足第二风险管控条件;若满足所述第二风险管控条件,则在未完成所述资源交换事件的第二环节时,暂停所述资源交换事件的第二环节所涉及的任务,或者,在完成所述资源交换事件的第二环节时,冻结所述资源交换事件的第二环节所涉及的资源。

一方面,本申请实施例提供了一种计算机设备,包括:处理器、通信接口和存储器,所述处理器、所述通信接口和所述存储器相互连接,其中,所述存储器存储有可执行程序代码,所述处理器用于调用所述可执行程序代码,执行本申请实施例所提供的数据处理方法。

相应地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行本申请实施例所提供的数据处理方法。

相应地,本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行本申请实施例所提供的数据处理方法。

本申请实施例通过基于与资源交换事件的第一环节相关的第一数据集以及与资源交换事件的第二环节相关的第二数据集,确定资源交换事件的风险评估结果,从而可以综合资源交换事件的不同环节所涉及的数据进行风险评估,这样可以有效提高风险评估结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的数据处理方法所适用的一种网络架构;

图2是本申请实施例提供的一种数据处理方法的流程示意图;

图3是本申请实施例提供的一种模型训练方法的流程示意图;

图4示出了模型训练所涉及的训练数据准备及特征比对的流程;

图5示出了模型训练的另一种流程;

图6是本申请实施例提供的一种数据处理装置的结构示意图;

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在资源交换的过程中,往往需要对资源交换事件的风险性进行评估。目前,由于资源交换过程中的不同环节通常是在不同的平台完成,导致产生了数据鸿沟,因此,往往是基于资源交换过程中的单一环节所涉及的数据进行风险评估。例如,在线上交易场景中,由于交易环节中下单与支付这两个环节分别在商户侧和支付平台侧完成,因此下单环节和支付环节的相关数据也是分别记录的,因此产生了数据鸿沟,目前往往只能依赖于下单或者支付环节涉及的单一环节数据进行风险评估。但基于单一环节所涉及的数据确定出的风险评估结果具有较低的准确性。

基于此,本申请实施例提供了一种数据处理方法,以综合资源交换事件的不同环节所涉及的数据对资源交换事件进行风险评估,从而有效提高风险评估结果的准确性。本申请实施例提供的产品展示方法基于AI(Artificial Intelligence,人工智能)技术。AI是指利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。AI技术是一门综合学科,其涉及的领域较为广泛;而本申请实施例提供的数据处理方法主要涉及AI技术中的机器学习(Machine Learning,ML)技术。机器学习技术是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在可行的实施例中,本申请实施例提供的产品展示方法还基于云技术(Cloud technology)和/或区块链技术。具体可以涉及云技术中的云存储(Cloud storage)和云数据库(Cloud Database),等等,例如,将本申请实施例所涉及的数据进行云存储。例如,还可以将申请实施例所涉及的数据以区块的形式存储到区块链网络中。

本申请实施例提供的数据处理方法适用于图1所示的网络架构,该数据处理方法由图1所示的处理设备执行,该处理设备可以是执行资源交换事件的第一环节所涉及的任务的计算机设备;也可以是执行资源交换事件的第二环节所涉及的任务的计算机设备;还可以是设置的专门用于进行风险评估的计算机设备,该计算机设备可以不执行资源交换事件的相关任务。具体的,处理设备从数据库中获取与资源交换事件的不同环节相关的不同数据集,一个数据集包括与资源交换事件的某环节相关的一个或多个特征维度的数据,包括:某环节相关账户的账户活跃度、账户所登录设备的设备信息、资源交换相关数据、账户所登录设备的设备地理位置信息,等等。分别基于不同环节所对应的数据集,构建不同环节所对应的特征矩阵;将不同环节所对应的特征矩阵进行比对,得到评分矩阵,评分矩阵中的评分参数用于指示不同特征矩阵中的相应元素之间的相似度。最后对评分矩阵进行处理,得到资源交换事件的风险评估结果。采用此方法,可以基于与资源交换事件的不同环节相关的不同数据集,确定资源交换事件的风险评估结果,从而可以综合资源交换事件的不同环节所涉及的数据进行风险评估,这样可以有效提高风险评估结果的准确性。基于高准确度的风险评估结果,可以准确判定是否需要进行风险控制,这有利于保证资源交换事件的安全性。以上对本申请实施例提供的数据处理方法进行了简要介绍,下面对该数据处理方法的具体实现方式进行详细阐述。

请参阅图2,为本申请实施例提供的一种数据处理方法的流程示意图。本申请实施例中所描述的方法由图1所示的处理设备执行,包括但不限于如下步骤:

S201、获取与资源交换事件的第一环节相关的第一数据集,对所述第一数据集进行处理,得到第一特征矩阵。

本申请实施例中,第一数据集包括与资源交换事件的第一环节相关的一个或多个特征维度的数据,包括:第一环节相关账户的账户活跃度、账户所登录设备的设备信息(包括:设备本身的诸如MAC地址等信息、设备上存储的诸如用户指纹等用户信息)、资源交换相关数据(如所交换的资源的名称、数量等等)、账户所登录设备的设备地理位置信息,等等。上述各个特征维度的数据均与第一环节相关账户存在一定的关联性。第一数据集所包括的数据包括:执行资源交换事件的第一环节相关任务的过程中所涉及的数据(例如资源交换相关数据、设备信息、设备地理位置信息)、基于执行资源交换事件的第一环节相关任务的过程中所涉及的数据、以及相关历史数据确定出的特定数据(例如第一环节的账户的活跃度)。其中,第一数据集可以包括一个或多个时间维度下各特征维度的数据,例如包括:第一环节相关账户在一个星期内的活跃度、在一个月内的活跃度;活跃度可以包括活跃时长、活跃天数,活跃可以是指账户在线。

在一实施例中,执行资源交换事件的第一环节相关任务的过程中所涉及的数据会存储到数据库中,历史资源交换事件的第一环节相关数据也会存储到数据库中。基于此,如图1所示,处理设备可以基于从数据库中获取的数据得到与资源交换事件的第一环节相关的第一数据集。其中,该数据库可以是处理设备的本地数据库,也可以是处理设备能够访问的云端数据库。

在一实施例中,资源交换事件可以是线上交易,第一环节可以是下单环节。

在获取到与资源交换事件的第一环节相关的第一数据集之后,对第一数据集中各特征维度下的数据分别进行归一化处理,可以采用0均值标准化即Z-score方法进行归一化处理;然后根据归一化处理后的数据得到第一特征矩阵。例如,第一特征矩阵如下所示:

其中,A1和A5表示同一特征维度不同时间维度下的数据,例如:A1表示第一环节相关账户在一个星期内的活跃度,A5表示第一环节相关账户在在一个月内的活跃度。B1和B5等类似。(A1、A5)、(B1、B5)和(C1、C5)分别表示不同特征维度下的数据,A1、B1和C1表示同一时间维度不同特征维度下的数据,(A1、B1、C1)和(A5、B5、C5)分别表示不同时间维度下的数据。

S202、获取与所述资源交换事件的第二环节相关的第二数据集,对所述第二数据集进行处理,得到第二特征矩阵。

本申请实施例中,资源交换事件的第二环节晚于第一环节。第二数据集包括与资源交换事件的第二环节相关的一个或多个特征维度的数据,特征维度与第一环节保持一致,包括:第二环节相关账户的账户活跃度、账户所登录设备的设备信息(包括:设备本身的诸如MAC地址等信息、设备上存储的诸如用户指纹等用户信息)、资源交换相关数据(如所交换的资源的名称、数量等等)、账户所登录设备的设备地理位置信息,等等。上述各个特征维度的数据均与第二环节相关账户存在一定的关联性。第二数据集所包括的数据包括:执行资源交换事件的第二环节相关任务的过程中所涉及的数据(例如资源交换相关数据、设备信息、设备地理位置信息)、基于执行资源交换事件的第二环节相关任务的过程中所涉及的数据、以及相关历史数据确定出的特定数据(例如第二环节的账户的活跃度)。其中,第二数据集的时间维度与第一环节保持一致,包括一个或多个时间维度下各特征维度的数据,例如:第二环节相关账户在一个星期内的活跃度、在一个月内的活跃度。

在一实施例中,执行资源交换事件的第二环节相关任务的过程中所涉及的数据会存储到数据库中,历史资源交换事件的第二环节相关数据也会存储到数据库中。基于此,如图1所示,处理设备可以基于从数据库中获取的数据得到与资源交换事件的第二环节相关的第二数据集。其中,该数据库可以是处理设备的本地数据库,也可以是处理设备能够访问的云端数据库。

在一实施例中,资源交换事件可以是线上交易,第二环节可以是支付环节。

在获取到与资源交换事件的第二环节相关的第二数据集之后,对第二数据集中各特征维度下的数据分别进行归一化处理,同样可以采用0均值标准化即Z-score方法进行归一化处理;然后根据归一化处理后的数据得到第二特征矩阵。第二特征矩阵与前文所述的第一特征矩阵类似。在一实施例中,第二特征矩阵中的元素与第一特征矩阵中的元素一一对应,例如,第二特征矩阵和第一特征矩阵中相同位置(如第一行第一列)处的元素对应相同的特征维度和时间维度。

需要说明的是,步骤S201和步骤S202可以是同步执行的,步骤S201和步骤S202没有必然的先后执行顺序。

S203、对所述第一特征矩阵和所述第二特征矩阵进行特征比对,得到评分矩阵。

本申请实施例中,评分矩阵中的评分参数用于指示第一特征矩阵和第二特征矩阵中的相应元素之间的相似度。可以利用BLAST算法(一种序列局部比对算法)对第一特征矩阵和第二特征矩阵进行特征比对,得到评分矩阵。

S204、对所述评分矩阵进行处理,得到所述资源交换事件的风险评估结果。

本申请实施例中,可以将评分矩阵输入风险评估模型中进行处理,得到资源交换事件的风险评估结果。风险评估结果可以用于指示资源交换事件的风险等级。其中,风险评估模型是利用训练集训练得到的,训练集包括多组样本集,多组样本集包括正样本集和负样本集,每一组样本集包括特定资源交换事件对应的第一环节相关数据和第二环节相关数据,第一环节相关数据包括一个或多个时间维度下各特征维度的数据,第二环节相关数据包括相应一个或多个时间维度下各特征维度的数据,第一环节相关数据和第二环节相关数据所对应的特征维度和时间维度均相匹配(或者说保持一致)。

在一实施例中,所述将评分矩阵输入风险评估模型中进行处理,得到资源交换事件的风险评估结果的方式可以为:先对评分矩阵进行二值化处理,即将评分矩阵中大于或者等于预设阈值的评分参数置为1,将评分矩阵中小于预设阈值的评分参数置为0。其中,各特征维度所对应的预设阈值可以相同,也可以不同。然后将二值化处理后的评分矩阵输入风险评估模型中进行处理,得到资源交换事件的风险评估结果。将评分矩阵进行二值化处理后输入风险评估模型中进行处理,这样更加利于机器运算。

在可行的实施例中,在执行步骤S201和/或步骤S202之前,先获取资源交换事件在第一环节所涉及的账户信息,包括以下一种或者多种:第一环节账户、第一环节账户所登录设备的设备信息;以及获取资源交换事件在第二环节所涉及的账户信息,包括以下一种或者多种:第二环节账户、第一环节账户所登录设备的设备信息、第二环节账户的活跃度、第二环节账户上一次活跃与当前次活跃之间的时间间隔、第二环节账户所绑定的用户信息(包括用户年龄),等。

若所述在第一环节所涉及的账户信息与所述在第二环节所涉及的账户信息相匹配,例如第一环节账户与第二环节账户一致,且在两个环节中账户所登录的设备一致,则表明资源交换事件的风险性很低,此时可以确定资源交换事件的风险评估等级为一类风险等级,一类风险等级为低风险等级,并直接将一类风险等级确定为资源交换事件的最终风险评估结果。

若所述在第一环节所涉及的账户信息与所述在第二环节所涉及的账户信息不相匹配,例如第一环节账户与第二环节账户不一致和/或在两个环节中账户所登录的设备不一致,则进一步确定所述在第二环节所涉及的账户信息是否满足第一风险管控条件,包括:检测第二环节账户的活跃度是否小于或等于预设活跃度阈值,检测第二环节账户上一次活跃与当前次活跃之间的时间间隔是否大于或等于预设时间间隔阈值,若第二环节账户的活跃度小于或等于预设活跃度阈值、和/或第二环节账户上一次活跃与当前次活跃之间的时间间隔大于或等于预设时间间隔阈值,则确定满足第一风险管控条件,反之则确定不满足第一风险管控条件。或者,如果检测到第二环节账户为新注册用户,且第二环节账户所绑定的用户信息指示用户年龄大于或者等于预设年龄阈值,则确定满足第一风险管控条件,反之则确定不满足第一风险管控条件。

若所述在第二环节所涉及的账户信息不满足第一风险管控条件,表明资源交换事件存在一定的风险性,此时可以确定资源交换事件的风险评估等级为二类风险等级,二类风险等级高于一类风险等级,为较高风险等级,此时则需要进一步采用步骤S201至S204中的方式确定资源交换事件的最终风险评估结果。该最终风险评估结果所指示的风险等级包括在二类风险等级中,具体为二类风险等级中的子风险等级,例如包括较低风险等级、中风险等级、较高风险等级中的任一种。

若所述在第二环节所涉及的账户信息满足第一风险管控条件,则表明资源交换事件的风险性很高,此时可以确定资源交换事件的风险评估等级为目标类风险等级(如三类风险等级),目标类风险等级为高于二类风险等级和一类风险等级,并直接将目标类风险等级确定为资源交换事件的最终风险评估结果。

本申请实施例中,在确定出资源交换事件的最终风险评估结果之后,还可以根据风险评估结果确定是否满足第二风险管控条件(即确定是否存在欺诈行为),包括:若风险评估结果所指示的风险评估等级高于或者等于预设风险等级,例如高于或者等于前文所述的二类风险等级中的中风险等级,则确定满足第二风险管控条件,反之,则确定不满足第二风险管控条件。

若满足第二风险管控条件,则表示存在欺诈行为,此时需要进行风险管控,包括:可以在未完成资源交换事件的第二环节时,暂停资源交换事件的第二环节所涉及的任务,或者,在完成资源交换事件的第二环节时,冻结资源交换事件的第二环节所涉及的资源。例如,若资源交换事件为线上交易,第一环节为下单环节,第二环节为支付环节时,则在满足第二风险管控条件的情况下,在交易未完成支付时,拒绝针对该交易的支付请求,这样可以及时阻止欺诈行为,避免被欺诈用户的财产损失,从而保证支付的安全性;或者,在交易完成支付时,冻结针对该交易所支付的款项,这样有利于被欺诈用户能够及时追回损失的财产。还可以在满足第二风险管控条件的情况下,控制在第二环节账户所登录的设备的显示界面上显示风险提示信息,以使第二环节账户的用户及时了解到风险的存在,这样可以降低用户被欺诈的可能性。

本申请实施例通过基于与资源交换事件的第一环节相关的第一数据集以及与资源交换事件的第二环节相关的第二数据集,确定资源交换事件的风险评估结果,从而可以综合资源交换事件的不同环节所涉及的数据进行风险评估,这样可以有效提高风险评估结果的准确性。

以上介绍了本申请实施例所提供的数据处理方法的具体实现方式,下面对本申请实施例所涉及的风险评估模型的训练方法进行介绍。请参阅图3,为本申请实施例提供的一种风险评估模型训练方法的流程示意图。本申请实施例中所描述的方法由处理设备执行,该处理设备可以与执行上述数据处理方法的处理设备相同,也可以不同。本申请实施例中所描述的风险评估模型训练方法包括但不限于如下步骤:

S301、获取包括多组样本集的训练集。

本申请实施例中,该多组样本集包括正样本集和负样本集;每一组样本集包括特定历史资源交换事件对应的第一环节相关数据和第二环节相关数据;第一环节相关数据为与该特定历史资源交换事件的第一环节相关的数据集,第二环节相关数据为与该特定历史资源交换事件的第二环节相关的数据集。

第一环节相关数据包括一个或多个时间维度下各特征维度的数据,特征维度包括:第一环节相关账户的账户活跃度、账户所登录设备的设备信息(包括:设备本身的诸如MAC地址等信息、设备上存储的诸如用户指纹等用户信息)、资源交换相关数据(如所交换的资源的名称、数量等等)、账户所登录设备的设备地理位置信息,等等。第二环节相关数据包括相应一个或多个时间维度下各特征维度的数据,特征维度和时间维度与第一环节相关数据保持一致。

需要说明的是,如果第一环节相关数据或者第二环节相关数据在某时间维度下某特征维度的数据不存在,则可以用特殊字符(例如NULL)表示或者置空。正样本集包括的是判定为不存在欺诈行为的资源交换事件对应的第一环节相关数据和第二环节相关数据,负样本集包括的是判定为存在欺诈行为的资源交换事件对应的第一环节相关数据和第二环节相关数据。每一组样本集携带正或负样本标识,还可以携带所对应资源交换事件被判定为的风险等级的等级标识。

本申请实施例中,资源交换事件的第二环节晚于第一环节。在一实施例中,资源交换事件可以是线上交易,第一环节可以是下单环节,第二环节可以是支付环节。

S302、针对所述多组样本集中任一组样本集包括的第一环节相关数据和第二环节相关数据,对第一环节相关数据进行处理,得到第一参考特征矩阵,以及对第二环节相关数据进行处理,得到第二参考特征矩阵。

本申请实施例中,针对任一组样本集,对其包括的第一环节相关数据中各特征维度下的数据分别进行归一化处理,以及对其包括的第二环节相关数据中各特征维度下的数据分别进行归一化处理,然后根据归一化处理后的第一环节相关数据得到第一参考特征矩阵,根据归一化处理后的第一环节相关数据得到第二参考特征矩阵。其中,可以采用0均值标准化即Z-score方法对第一环节相关数据和第二环节相关数据进行归一化处理。

在一实施例中,第二参考特征矩阵中的元素与第一参考特征矩阵中的元素一一对应,例如,第二参考特征矩阵和第一参考特征矩阵中相同位置(如第一行第一列)处的元素对应相同的特征维度和时间维度。例如,第一参考特征矩阵和第二参考特征矩阵如下所示:

其中,以第一参考特征矩阵为例,A1和A5表示同一特征维度不同时间维度下的数据,例如:A1表示第一环节相关账户在一个星期内的活跃度,A5表示第一环节相关账户在在一个月内的活跃度。B1和B5等类似。(A1、A5)、(B1、B5)和(C1、C5)分别表示不同特征维度下的数据,A1、B1和C1表示同一时间维度不同特征维度下的数据,(A1、B1、C1)和(A5、B5、C5)分别表示不同时间维度下的数据。第二参考特征矩阵类似,且a1与A1对应相同的特征维度和时间维度,其余类似。

在另一实施例中,可以将训练集中属于同一账户的不同资源交换事件的各组第一环节相关数据组合形成该同一账户所对应的第一参考特征矩阵;并将各组第一环节相关数据所对应的第二环节相关数据组合形成第二参考特征矩阵。

例如,第一参考特征矩阵和第二参考特征矩阵如下所示:

其中,第一参考特征矩阵中的第一列数据,为某账户的某一资源交换事件的第一环节相关数据对应的特征数据;第一参考特征矩阵中的最后一列数据,为该某账户的另一资源交换事件的第一环节相关数据对应的特征数据。相应的,第二参考特征矩阵中的第一列数据,为该某一资源交换事件的第二环节相关数据对应的特征数据;第二参考特征矩阵中的最后一列数据,为该另一资源交换事件的第二环节相关数据对应的特征数据。

S303、对所述第一参考特征矩阵和所述第二参考特征矩阵进行特征比对,得到中间评分矩阵。

本申请实施例中,针对任一组样本集所对应的第一参考特征矩阵和第二参考特征矩阵,对第一参考特征矩阵和第二参考特征矩阵进行特征比对,得到中间评分矩阵。中间评分矩阵中的评分参数用于指示第一参考特征矩阵和第二参考特征矩阵中的相应元素之间的相似度。可以利用BLAST算法对第一参考特征矩阵和第二参考特征矩阵进行特征比对,得到中间评分矩阵。

S304、对所述中间评分矩阵进行二值化处理,得到参考评分矩阵。

本申请实施例中,针对任一组样本集所对应的中间评分矩阵,对中间评分矩阵进行二值化处理,得到参考评分矩阵。二值化处理也即将中间评分矩阵中大于或者等于预设阈值的评分参数置为1,将评分矩阵中小于预设阈值的评分参数置为0。其中,各特征维度所对应的预设阈值可以相同,也可以不同。

S305、根据所述多组样本集中各组样本集对应的参考评分矩阵,确定训练评分矩阵集。

本申请实施例中,先针对多组样本集中任一组样本集对应的参考评分矩阵,确定参考评分矩阵的稀疏度。可以利用Hoyer方法(一种矩阵稀疏度确定方法)通过计算参考评分矩阵的L1范数和L2范数,并比较L1范数和L2范数的差异来确定参考评分矩阵的稀疏度。其中,L1范数为矩阵中所有元素的绝对值之和,L2范数为矩阵中所有元素的平方之和的平方根。稀疏度的具体计算公式如下所示:

其中,sparseness(x)表示稀疏度,n表示矩阵中的元素数目,x

进一步的,根据各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的参考评分矩阵,确定训练评分矩阵集。具体方式可以为:

针对各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的任一参考评分矩阵,对参考评分矩阵中的特征参数进行筛选,得到第一训练评分矩阵,第一训练评分矩阵包括参考评分矩阵中按照所对应变量区分能力从高到低排序后排在前M位的M维特征参数。

对第一训练评分矩阵中的特征参数进行筛选,得到第二训练评分矩阵,第二训练评分矩阵包括第一训练评分矩阵中按照所对应变量区分能力从高到低排序后排在第X位至Y位的多维特征参数中的N维特征参数,根据第二训练评分矩阵确定出的正则参数小于或等于特定数值。其中,M、X、Y和N均为正整数,N小于M;该正则参数可以是第二训练评分矩阵的L2范数,为矩阵中所有元素的平方之和的平方根。M例如可以是100,N例如可以是20。可以利用极限梯度提升树模型XGBoost作为特征筛选器,对参考评分矩阵中的特征参数进行筛选,得到第一训练评分矩阵和第二训练评分矩阵。

最后将各个稀疏度大于或等于稀疏度阈值的参考评分矩阵所对应的第一训练评分矩阵和第二训练评分矩阵作为训练评分矩阵集中的元素,得到训练评分矩阵集。

S306、利用所述训练评分矩阵集对初始风险评估模型进行训练,得到训练后的风险评估模型。

本申请实施例中,先利用训练评分矩阵集包括的多个第一训练评分矩阵,对初始风险评估模型进行初步训练。为避免模型出现过拟合现象,此轮训练可以设置L1正则参数和惩罚参数对模型进行训练。L1正则参数用作正则项,可以是根据L1范数确定出的,惩罚参数用于构建惩罚函数,以使模型输出的值小于某个固定值,从而加快模型收敛。

然后利用训练评分矩阵集包括的多个第二训练评分矩阵,对初步训练完成的风险评估模型进行再次训练,得到训练后的风险评估模型。同样为避免过拟合现象,此轮训练可以设置L2正则参数对模型进行训练,而L2正则参数的数值应设置较小以避免欠拟合发生。L2正则参数用作正则项,可以是根据L2范数确定出的,这也是为什么需要限定第二训练评分矩阵需要满足根据第二训练评分矩阵确定出的正则参数小于或等于特定数值的条件的原因所在。

上述方式中,第一训练评分矩阵和第二训练评分矩阵中包括较少维度的且变量区分能力较高的特征数据,模型训练过程中特征数据的有效降维能显著提升模型分类的准确率与适应性。另外,上述方式中,综合了历史资源交换事件的不同环节所涉及的数据对风险评估模型进行训练,这样可以使得训练后的风险评估模型具有较高的风险评估准确度。

为更好的理解本申请实施例所提供的数据处理方法以及风险评估模型的训练方法,下面以资源交换事件为线上交易,第一环节为下单环节,第二环节为支付环节为例,对本申请实施例的主要思想进行介绍。

在线上交易场景中,欺诈账户及欺诈交易(包括:诈骗团伙利用线上支付渠道进行诈骗收款的交易)的分析识别过程中,目前往往是依赖于单一交易环节或单一交易身份进行识别。比如,在下单环节集中挖掘诈骗者的身份特征与行为模式进行风险识别,在支付环节集中挖掘被骗用户的身份特征与行为模式进行风险识别。存在这个现象的主要原因是当前交易环节中下单与与支付这两个重要过程分别在商户侧和支付平台侧完成,因此产生了数据鸿沟。单一过程下的特征累积往往不足以构建有效的风险评估模型,对可疑欺诈交易的准确识别率低。基于此,本申请实施例通过打通下单与支付环节间的数据壁垒,基于两侧环节的多个维度(包括多个时间维度和多个特征维度)数据分别构建下单账户身份矩阵与支付账户身份矩阵,通过最优化算法对两侧矩阵进行比对生成差异0/1矩阵,并作为入参训练机器学习评分卡模型,得到训练后的风险评估模型。线上实时交易触发后,实时构建当前交易的下单账户身份矩阵与支付账户身份矩阵,并输入训练后的风险评估模型中进行处理,可以得到准确度较高的风险评估结果,从而根据该风险评估结果可以准确确定是否存在欺诈交易。

以下对风险评估模型的训练过程进行详细介绍,主要包括训练数据准备、特征比对和模型训练等过程。训练数据准备和特征比对的流程如图4所示,模型训练的流程如图5所示。包括但不限于如下步骤:

一、训练数据准备

数据采集与预处理:目的是为构建标准化的下单支付两侧账户身份信息序列,方便数据计算比对与后续模型构建。下单支付两侧账户所对应的是同一笔交易。数据分为特征与时间两个维度,数据采集过程为特征维度数据的实时收集存储。下单环节账户数据采集主要通过商户侧线上应用程序实现,包括账户活跃度、LBS地理位置信息、设备指纹信息、交易账单数据等维度;支付环节账户数据采集主要通过支付应用程序实现,特征维度与下单环节保持一致。并且相同特征维度下的数据利用0均值标准化即Z-score方法进行归一化处理。

特征矩阵生成:通过离线数据库表的回溯与统计,获取不同时间维度下各特征维度的数值,比如当日账户活跃时长、当月账户活跃天数,分别对下单账户与交易账户采取该方法,将各特征维度数据映射到不同时间区间后生成特征矩阵。

数据库导入:通过Spark任务,分别将下单侧与支付侧的账户特征矩阵数据导入HDFS数据库便于后续计算。

二、特征比对

利用BLAST打分矩阵对下单侧与支付侧的特征矩阵进行局部最优化比对。具体方法为:选取同一时间维度下两侧的特征维度序列作为入参向量,相同点位确保为相同特征维度的数据。利用BLAST算法进行局部比对最优解打分,生成比对结果评分。针对每个时间维度比对完成之后,得到评分矩阵,评分矩阵中的评分参数用于指示下单侧与支付侧的特征矩阵中相应元素之间的相似度。在可行的实施例中,若下单侧与支付侧的特征维度序列数据完整率高,可利用诸Needleman-Wunsch或Smith-Waterman等全局比对算法进行全局最优化特征比对。但若特征维度序列的初始特征维度较高,则最好采用局部比对算法以满足准实时计算的系统时效要求。进一步的,针对评分矩阵,设置阈值对每个时间维度下的特征维度比对评分结果进行二值化处理,常用的阈值为0.5、0.6、0.8,不同阈值对应比对评分的不同置信程度,处理完成后最终生成0/1特征矩阵。

三、模型训练

样本打标:从离线数据库分别选取某个月内的无投诉正常交易作为白样本,选取明确非本人下单支付的欺诈交易作为黑样本。为保证黑样本准确性,可以控制样本抽取口径为用户存在明确非本人下单描述且经过交易审核侧人工审核归档为被骗的交易。白样本标记为0,黑样本标记为1。

样本筛选:对于选定的黑白样本,分别基于预设的时间维度与特征维度按照前述步骤计算生成0/1特征矩阵。利用Hoyer方法通过计算并比较矩阵的L1范数与L2范数的差异来确定矩阵稀疏度。其中,L1范数为矩阵中所有元素的绝对值之和,L2范数为矩阵中所有元素的平方之和的平方根。稀疏度的具体计算公式如下所示:

其中,sparseness(x)表示稀疏度,n表示矩阵中的元素数目,x

特征工程:由于样本的特征维度通常较高,需借助特征工程进行变量筛选。可以选取极限梯度提升树模型XGBoost作为特征筛选器,通过多轮实验确定收敛效果下的模型最优参数,返回变量区分能力排名最高的前M(如100)维特征作为模型入模变量。

模型训练:样本按照特定比例(如7:3)随机分配至训练集与验证集,使用LogisticsRegression逻辑回归模型建模,训练目标为识别黑样本的评分卡模型。具体可以分为如下两个步骤:将M维特征向量作为模型输入,为避免模型出现过拟合现象,设置L1正则参数和惩罚参数c,对模型进行训练。由于入模数据维度仍然较高,可以构建Lasso惩罚函数来对模型进行降维优化,通过在目标函数后添加惩罚项

进一步的,选出N(如20)维响应度较高的特征,再次输入模型训练。同样为减少过拟合情况发生,此轮训练设置L2正则参数作为正则项,而正则项的数值应设置较小以避免欠拟合发生,因此,此训练过程选取的是N(小于M)维响应度较高特征,以保证正则项的数值较小。

最终训练得到的风险评估模型的表达式例如如下式所示:

其中,z=ω

上述模型训练过程中,选取的是较少维度的且变量区分能力较高的特征数据对模型进行训练,模型训练过程中特征数据的有效降维能显著提升模型分类的准确率与适应性。

需要说明的是,风险评估模型还可采用逻辑回归外的其他机器学习模型方法,因逻辑回归模型自身变量可解释强且计算复杂度低,因此推荐在线上实时系统部署。若实时系统计算性能满足,在先验可达到更高准确率的前提下,可使用其他模型算法进行风险评分。

本申请实施例所提供的数据处理方法还涉及线上部署,主要涉及账户特征矩阵的准实时构建、风险评估模型的离线训练、风控策略打击的实时响应,等。由于特征采集、预处理、存储相对较为耗时,所以可以将特征矩阵的构建部署于准实时风控系统,用户在商户侧的下单环节或平台侧支付环节发起请求后,系统即时进入数据累计与加工流程,分钟级响应。风险评估模型的训练过程离线实施,而为保持模型的长期有效响应能力,模型迭代更新频率可以设置为月度或周度离线进行。另外,线上实时交易触发时,风控策略系统运行要求实时性响应,因此利用风险评估模型进行交易风险评估的功能完整部署于线上实时系统,以毫秒级返回交易风险识别结果。

利用采用上述模型训练方法所训练得到的风险评估模型,可以基于下单和支付两侧账户的多维度数据,实时且准确得出交易的风险评估结果,从而根据该风险评估结果可以准确确定是否存在欺诈交易;若存在欺诈交易,则可以进行实时风险管控,包括:在交易未完成支付时,拒绝针对该交易的支付请求,或者,在交易完成支付时,冻结针对该交易所支付的款项;还可以控制在支付账户所登录的设备的显示界面上显示风险提示信息,以使支付账户的用户及时了解到风险的存在。通过及时的风险管控,可以及时阻止欺诈行为,避免被欺诈用户的财产损失,以及有利于被欺诈用户能够及时追回损失的财产。

请参阅图6,为本申请实施例提供的一种数据处理装置的结构示意图。本申请实施例中所描述的数据处理装置,对应于前文所述的处理设备,所述装置包括:

获取单元601,用于获取与资源交换事件的第一环节相关的第一数据集;

处理单元602,用于对所述第一数据集进行处理,得到第一特征矩阵;

所述获取单元601,还用于获取与所述资源交换事件的第二环节相关的第二数据集;

所述处理单元602,还用于对所述第二数据集进行处理,得到第二特征矩阵;其中,所述第一数据集和所述第二数据集包括一个或多个特征维度的数据,所述第一数据集和所述第二数据集中的数据所对应的特征维度相匹配;

所述处理单元602,还用于对所述第一特征矩阵和所述第二特征矩阵进行特征比对,得到评分矩阵;所述评分矩阵中的评分参数用于指示所述第一特征矩阵和所述第二特征矩阵中的相应元素之间的相似度;

所述处理单元602,用于对所述评分矩阵进行处理,得到所述资源交换事件的风险评估结果。

在一实施例中,所述处理单元602,具体用于将所述评分矩阵输入风险评估模型中进行处理,得到所述资源交换事件的风险评估结果;其中,所述风险评估模型是利用训练集训练得到的,所述训练集包括多组样本集,所述多组样本集包括正样本集和负样本集,每一组样本集包括特定资源交换事件对应的第一环节相关数据和第二环节相关数据,所述第一环节相关数据包括一个或多个时间维度下各特征维度的数据,所述第二环节相关数据包括相应一个或多个时间维度下所述各特征维度的数据。

在一实施例中,所述处理单元602,具体用于对所述评分矩阵进行二值化处理,得到二值化处理后的评分矩阵;将所述二值化处理后的评分矩阵输入风险评估模型中进行处理,得到所述资源交换事件的风险评估结果。

在一实施例中,所述获取单元601,还用于获取包括所述多组样本集的所述训练集;

所述处理单元602,还用于:针对所述多组样本集中任一组样本集包括的第一环节相关数据和第二环节相关数据,对第一环节相关数据进行处理,得到第一参考特征矩阵,以及对第二环节相关数据进行处理,得到第二参考特征矩阵;对所述第一参考特征矩阵和所述第二参考特征矩阵进行特征比对,得到中间评分矩阵,所述中间评分矩阵中的评分参数用于指示所述第一参考特征矩阵和所述第二参考特征矩阵中的相应元素之间的相似度;对所述中间评分矩阵进行二值化处理,得到参考评分矩阵;

其中,所述装置还包括训练单元603,用于根据所述多组样本集中各组样本集对应的参考评分矩阵,确定训练评分矩阵集,利用所述训练评分矩阵集对初始风险评估模型进行训练,得到训练后的风险评估模型。

在一实施例中,所述训练单元603,具体用于针对所述多组样本集中任一组样本集对应的参考评分矩阵,确定参考评分矩阵的稀疏度;根据各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的参考评分矩阵,确定训练评分矩阵集。

在一实施例中,所述训练单元603,具体用于:针对各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的任一参考评分矩阵,对参考评分矩阵中的特征参数进行筛选,得到第一训练评分矩阵,所述第一训练评分矩阵包括参考评分矩阵中按照所对应变量区分能力从高到低排序后排在前M位的M维特征参数;对所述第一训练评分矩阵中的特征参数进行筛选,得到第二训练评分矩阵,所述第二训练评分矩阵包括所述第一训练评分矩阵中按照所对应变量区分能力从高到低排序后排在第X位至Y位的多维特征参数中的N维特征参数,根据所述第二训练评分矩阵确定出的正则参数小于或等于特定数值;根据各个稀疏度大于或等于稀疏度阈值的参考评分矩阵对应的第一训练评分矩阵和第二训练评分矩阵,确定训练评分矩阵集。

在一实施例中,所述训练单元603,具体用于:利用所述训练评分矩阵集包括的多个第一训练评分矩阵,对初始风险评估模型进行初步训练;利用所述训练评分矩阵集包括的多个第二训练评分矩阵,对初步训练完成的风险评估模型进行再次训练,得到训练后的风险评估模型。

在一实施例中,所述获取单元601,还用于获取所述资源交换事件在第一环节所涉及的账户信息,以及获取所述资源交换事件在第二环节所涉及的账户信息;

其中,所述装置还包括检测单元604,用于:若所述在第一环节所涉及的账户信息与所述在第二环节所涉及的账户信息不相匹配,则确定所述在第二环节所涉及的账户信息是否满足第一风险管控条件;若所述在第二环节所涉及的账户信息不满足所述第一风险管控条件,则执行所述获取单元601获取与资源交换事件的第一环节相关的第一数据集。

在一实施例中,所述检测单元604,还用于若所述在第二环节所涉及的账户信息满足所述第一风险管控条件,则确定所述资源交换事件的风险评估等级为目标类风险等级,并将所述目标类风险等级确定为所述资源交换事件的风险评估结果。

在一实施例中,所述装置还包括风控单元605,用于根据所述风险评估结果确定是否满足第二风险管控条件;若满足所述第二风险管控条件,则在未完成所述资源交换事件的第二环节时,暂停所述资源交换事件的第二环节所涉及的任务,或者,在完成所述资源交换事件的第二环节时,冻结所述资源交换事件的第二环节所涉及的资源。

可以理解的是,本申请实施例所提供的数据处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。

本申请实施例通过基于与资源交换事件的第一环节相关的第一数据集以及与资源交换事件的第二环节相关的第二数据集,确定资源交换事件的风险评估结果,从而可以综合资源交换事件的不同环节所涉及的数据进行风险评估,这样可以有效提高风险评估结果的准确性。

请参阅图7,为本申请实施例提供的一种计算机设备的结构示意图。本申请实施例中所描述的计算机设备对应于前文所述的处理设备,包括:处理器701、通信接口702及存储器703。其中,处理器701、通信接口702及存储器703可通过总线或其他方式连接,本申请实施例以通过总线连接为例。

其中,处理器701(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据,例如:CPU可以用于解析用户向计算机设备所发送的开关机指令,并控制计算机设备进行开关机操作;再如:CPU可以在计算机设备内部结构之间传输各类交互数据,等等。通信接口702可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器701的控制用于收发数据。存储器703(Memory)是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器703既可以包括计算机设备的内置存储器,当然也可以包括计算机设备所支持的扩展存储器。存储器703提供存储空间,该存储空间存储了计算机设备的操作系统,可包括但不限于:Android系统、iOS系统、Windows Phone系统等等,本申请对此并不作限定。

在本申请实施例中,处理器701通过运行存储器703中的可执行程序代码,执行如下操作:

获取与资源交换事件的第一环节相关的第一数据集,对所述第一数据集进行处理,得到第一特征矩阵;获取与所述资源交换事件的第二环节相关的第二数据集,对所述第二数据集进行处理,得到第二特征矩阵;其中,所述第一数据集和所述第二数据集包括一个或多个特征维度的数据,所述第一数据集和所述第二数据集中的数据所对应的特征维度相匹配;对所述第一特征矩阵和所述第二特征矩阵进行特征比对,得到评分矩阵;所述评分矩阵中的评分参数用于指示所述第一特征矩阵和所述第二特征矩阵中的相应元素之间的相似度;对所述评分矩阵进行处理,得到所述资源交换事件的风险评估结果。

在可行的实施例中,处理器701获取数据时,可以是通过通信接口702从计算机设备所能访问的云端数据库中获取数据。

在一实施例中,处理器701对所述评分矩阵进行处理,得到所述资源交换事件的风险评估结果时,具体用于:将所述评分矩阵输入风险评估模型中进行处理,得到所述资源交换事件的风险评估结果;其中,所述风险评估模型是利用训练集训练得到的,所述训练集包括多组样本集,所述多组样本集包括正样本集和负样本集,每一组样本集包括特定资源交换事件对应的第一环节相关数据和第二环节相关数据,所述第一环节相关数据包括一个或多个时间维度下各特征维度的数据,所述第二环节相关数据包括相应一个或多个时间维度下所述各特征维度的数据。

在一实施例中,处理器701将所述评分矩阵输入风险评估模型中进行处理,得到所述资源交换事件的风险评估结果时,具体用于:对所述评分矩阵进行二值化处理,得到二值化处理后的评分矩阵;将所述二值化处理后的评分矩阵输入风险评估模型中进行处理,得到所述资源交换事件的风险评估结果。

在一实施例中,处理器701还用于:获取包括所述多组样本集的所述训练集;针对所述多组样本集中任一组样本集包括的第一环节相关数据和第二环节相关数据,对第一环节相关数据进行处理,得到第一参考特征矩阵,以及对第二环节相关数据进行处理,得到第二参考特征矩阵;对所述第一参考特征矩阵和所述第二参考特征矩阵进行特征比对,得到中间评分矩阵,所述中间评分矩阵中的评分参数用于指示所述第一参考特征矩阵和所述第二参考特征矩阵中的相应元素之间的相似度;对所述中间评分矩阵进行二值化处理,得到参考评分矩阵;根据所述多组样本集中各组样本集对应的参考评分矩阵,确定训练评分矩阵集,利用所述训练评分矩阵集对初始风险评估模型进行训练,得到训练后的风险评估模型。

在一实施例中,处理器701根据所述多组样本集中各组样本集对应的参考评分矩阵,确定训练评分矩阵集时,具体用于:针对所述多组样本集中任一组样本集对应的参考评分矩阵,确定参考评分矩阵的稀疏度;根据各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的参考评分矩阵,确定训练评分矩阵集。

在一实施例中,处理器701根据各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的参考评分矩阵,确定训练评分矩阵集时,具体用于:针对各组样本集对应的参考评分矩阵中稀疏度大于或等于稀疏度阈值的任一参考评分矩阵,对参考评分矩阵中的特征参数进行筛选,得到第一训练评分矩阵,所述第一训练评分矩阵包括参考评分矩阵中按照所对应变量区分能力从高到低排序后排在前M位的M维特征参数;对所述第一训练评分矩阵中的特征参数进行筛选,得到第二训练评分矩阵,所述第二训练评分矩阵包括所述第一训练评分矩阵中按照所对应变量区分能力从高到低排序后排在第X位至Y位的多维特征参数中的N维特征参数,根据所述第二训练评分矩阵确定出的正则参数小于或等于特定数值;根据各个稀疏度大于或等于稀疏度阈值的参考评分矩阵对应的第一训练评分矩阵和第二训练评分矩阵,确定训练评分矩阵集。

在一实施例中,处理器701利用所述训练评分矩阵集对初始风险评估模型进行训练,得到训练后的风险评估模型时,具体用于:利用所述训练评分矩阵集包括的多个第一训练评分矩阵,对初始风险评估模型进行初步训练;利用所述训练评分矩阵集包括的多个第二训练评分矩阵,对初步训练完成的风险评估模型进行再次训练,得到训练后的风险评估模型。

在一实施例中,处理器701获取与资源交换事件的第一环节相关的第一数据集之前,还用于:获取所述资源交换事件在第一环节所涉及的账户信息,以及获取所述资源交换事件在第二环节所涉及的账户信息;若所述在第一环节所涉及的账户信息与所述在第二环节所涉及的账户信息不相匹配,则确定所述在第二环节所涉及的账户信息是否满足第一风险管控条件;若所述在第二环节所涉及的账户信息不满足所述第一风险管控条件,则获取与资源交换事件的第一环节相关的第一数据集。

在一实施例中,处理器701还用于:若所述在第二环节所涉及的账户信息满足所述第一风险管控条件,则确定所述资源交换事件的风险评估等级为目标类风险等级,并将所述目标类风险等级确定为所述资源交换事件的风险评估结果。

在一实施例中,处理器701还用于:若满足所述第二风险管控条件,则在未完成所述资源交换事件的第二环节时,暂停所述资源交换事件的第二环节所涉及的任务,或者,在完成所述资源交换事件的第二环节时,冻结所述资源交换事件的第二环节所涉及的资源。

具体实现中,本申请实施例中所描述的处理器701、通信接口702及存储器703可执行本申请实施例提供的数据处理方法中所描述的计算机设备的实现方式,也可执行本申请实施例提供的数据处理装置中所描述的实现方式,在此不再赘述。

本申请实施例通过基于与资源交换事件的第一环节相关的第一数据集以及与资源交换事件的第二环节相关的第二数据集,确定资源交换事件的风险评估结果,从而可以综合资源交换事件的不同环节所涉及的数据进行风险评估,这样可以有效提高风险评估结果的准确性。

本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如本申请实施例所提供的数据处理方法。其具体实现方式可参考前文描述,此处不再赘述。

本申请实施例还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行如本申请实施例所提供的数据处理方法。其具体实现方式可参考前文描述,此处不再赘述。

需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。

以上所揭露的仅为本申请部分实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

相关技术
  • 数据处理方法、装置、计算机设备和计算机可读存储介质
  • 数据处理方法、装置、计算机可读存储介质和计算机设备
技术分类

06120112964557