掌桥专利:专业的专利平台
掌桥专利
首页

用户类型确定方法、装置、计算机设备和存储介质

文献发布时间:2024-04-18 19:58:53


用户类型确定方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域,特别是涉及一种用户类型确定方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

近年来,随着经济的发展,用户的交易次数和交易金额逐年增多,同时,在交易中存在异常行为的用户逐渐增多,异常交易行为例如可以是诈骗行为等。基于此,需要识别哪些用户存在异常交易行为,由于用户在交易时都有特定的行为模式,因此可以通过特征提取的方式识别用户是否存在异常交易行为。

相关技术中,是通过衍生变量构建传统机器学习模型的方式识别异常交易行为。但是,衍生变量的构建是根据人为经验对数据信息进行提取得到的,衍生变量的特征维度较低,挖掘的特征是数据表面的特征,导致基于上述特征得到的机器学习模型的预测精度较低。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提升预测精度的用户类型确定方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面,本申请提供了一种用户类型确定方法,包括:

获取待检测用户的目标交易数据;

基于预设特征提取算法以及数据标准格式,确定所述目标交易数据对应的交易时序特征,所述交易时序特征包含所述待检测用户的固定长度的特征数据;

将所述待检测用户的交易时序特征输入至训练好的用户类型预测模型,得到所述用户类型预测模型的类型预测结果,并基于所述类型预测结果确定所述待检测用户的用户类型。

在其中一个实施例中,所述获取待检测用户的目标交易数据,包括:

获取待检测用户在预设时间范围的初始交易数据;

基于预设的数据筛选条件,在所述待检测用户的预设时间范围的初始交易数据中进行筛选,得到包含目标字段的目标交易数据。

在其中一个实施例中,所述基于预设特征提取算法以及数据标准格式,确定所述目标交易数据对应的交易时序特征,包括:

对目标交易数据进行统计处理,得到所述目标交易数据对应的衍生字段;

基于预设特征提取算法,对所述衍生字段对应的数据以及所述目标交易数据进行特征提取处理,得到初始交易特征;

通过数据标准格式包含的序列号和预设总时长,确定每个序列号对应的时间段;

基于所述每个序列号对应的时间段,在所述初始交易特征中确定符合所述时间段的目标交易特征,并将各所述序列号对应的目标交易特征进行合并,得到所述目标交易数据对应的交易时序特征。

在其中一个实施例中,所述类型预测结果包含用户异常概率值;所述基于所述类型预测结果确定所述待检测用户的用户类型,包括:

若所述类型预测结果包含的用户异常概率值与预设的阈值范围匹配,则确定所述待检测用户的用户类型是存在异常交易行为的异常用户;

对所述待检测用户对应的交易行为进行关闭处理。

在其中一个实施例中,所述方法还包括:

获取样本训练集,所述样本训练集包含各个样本用户在预设时间内的样本交易时序特征和所述各个样本用户的样本用户类型;

通过待训练的用户类型预测模型以及各所述样本用户的样本交易时序特征进行预测,得到各所述样本用户分别对应的用户异常预测值;

基于各所述样本用户的样本用户类型,以及各所述样本用户的用户异常预测值,计算损失函数;

若确定所述待训练的用户类型预测模型不满足训练完成条件,则基于所述损失函数对所述待训练的用户类型预测模型的参数进行更新,重新执行所述通过待训练的用户类型预测模型以及各所述样本用户的样本交易时序特征进行预测的步骤,直至得到训练好的用户类型预测模型。

在其中一个实施例中,所述获取样本训练集,包括:

基于预设的数据筛选条件,在各所述样本用户的预设时间范围的初始样本交易数据中进行筛选,得到包含目标字段的目标样本交易数据;

对目标样本交易数据进行统计处理,得到所述目标样本交易数据对应的衍生字段,基于预设特征提取算法,对所述衍生字段对应的数据以及所述目标样本交易数据进行特征提取处理,得到初始样本交易特征;

通过数据标准格式包含的序列号和预设总时长,确定每个序列号对应的时间段,基于所述每个序列号对应的时间段,在所述初始样本交易特征中确定符合所述时间段的目标样本交易特征,并将各所述序列号对应的目标样本交易特征进行合并,得到所述目标样本交易数据对应的交易时序特征;

将预设的各所述样本用户的样本用户类型和各所述样本用户对应的交易时序特征一一匹配,得到所述样本训练集。

第二方面,本申请还提供了一种用户类型确定装置,包括:

交易数据获取模块,用于获取待检测用户的目标交易数据;

时序特征确定模块,用于基于预设特征提取算法以及数据标准格式,确定所述目标交易数据对应的交易时序特征,所述交易时序特征包含所述待检测用户的固定长度的特征数据;

用户类型确定模块,用于将所述待检测用户的交易时序特征输入至训练好的用户类型预测模型,得到所述用户类型预测模型的类型预测结果,并基于所述类型预测结果确定所述待检测用户的用户类型。

在其中一个实施例中,所述交易数据获取模块,具体用于:获取待检测用户在预设时间范围的初始交易数据;基于预设的数据筛选条件,在所述待检测用户的预设时间范围的初始交易数据中进行筛选,得到包含目标字段的目标交易数据。

在其中一个实施例中,所述时序特征确定模块,具体用于:

对目标交易数据进行统计处理,得到所述目标交易数据对应的衍生字段;

基于预设特征提取算法,对所述衍生字段对应的数据以及所述目标交易数据进行特征提取处理,得到初始交易特征;

通过数据标准格式包含的序列号和预设总时长,确定每个序列号对应的时间段;

基于所述每个序列号对应的时间段,在所述初始交易特征中确定符合所述时间段的目标交易特征,并将各所述序列号对应的目标交易特征进行合并,得到所述目标交易数据对应的交易时序特征。

在其中一个实施例中,所述类型预测结果包含用户异常概率值,所述用户类型确定模块,具体用于:

若所述类型预测结果包含的用户异常概率值与预设的阈值范围匹配,则确定所述待检测用户的用户类型是存在异常交易行为的异常用户;

对所述待检测用户对应的交易行为进行关闭处理。

在其中一个实施例中,所述装置还包括模型训练模块,具体用于:

获取样本训练集,所述样本训练集包含各个样本用户在预设时间内的样本交易时序特征和所述各个样本用户的样本用户类型;

通过待训练的用户类型预测模型以及各所述样本用户的样本交易时序特征进行预测,得到各所述样本用户分别对应的用户异常预测值;

基于各所述样本用户的样本用户类型,以及各所述样本用户的用户异常预测值,计算损失函数;

若确定所述待训练的用户类型预测模型不满足训练完成条件,则基于所述损失函数对所述待训练的用户类型预测模型的参数进行更新,重新执行所述通过待训练的用户类型预测模型以及各所述样本用户的样本交易时序特征进行预测的步骤,直至得到训练好的用户类型预测模型。

在其中一个实施例中,所述装置还包括样本训练集获取模块,具体用于:

基于预设的数据筛选条件,在各所述样本用户的预设时间范围的初始样本交易数据中进行筛选,得到包含目标字段的目标样本交易数据;

对目标样本交易数据进行统计处理,得到所述目标样本交易数据对应的衍生字段,基于预设特征提取算法,对所述衍生字段对应的数据以及所述目标样本交易数据进行特征提取处理,得到初始样本交易特征;

通过数据标准格式包含的序列号和预设总时长,确定每个序列号对应的时间段,基于所述每个序列号对应的时间段,在所述初始样本交易特征中确定符合所述时间段的目标样本交易特征,并将各所述序列号对应的目标样本交易特征进行合并,得到所述目标样本交易数据对应的交易时序特征;

将预设的各所述样本用户的样本用户类型和各所述样本用户对应的交易时序特征一一匹配,得到所述样本训练集。

第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述方法的步骤。

第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述方法的步骤。

第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述方法的步骤。

上述用户类型确定方法、装置、计算机设备、存储介质和计算机程序产品,服务器从待检测用户的所有交易数据中获取待检测用户的目标交易数据,通过特征提取算法提取目标交易数据的交易特征,并通过数据标准格式进一步将交易特征转换为目标交易数据的交易时序特征。基于此,将交易时序特征输入至训练好的用户类型预测模型,用户类型预测模型能够对交易时序特征进行计算,得到该交易时序特征对应的类型预测结果,通过类型预测结果能够确定待检测用户的用户类型。通过采用本方法,可以根据待检测用户的目标交易数据和用户类型预测模型确定待检测用户的用户类型,从而能够对该用户采取限制措施。特征提取算法可以提取目标交易数据的隐含特征,数据标准格式能够将隐含特征按照时间排列,从而得到具有时间维度的特征序列,因此采用该方法预测得到的用户类型具有更高的准确度,从而提升预测存在异常交易行为的异常用户的预测模型的预测精度。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一个实施例中用户类型确定方法的应用环境图;

图2为一个实施例中用户类型确定方法的流程示意图;

图3为一个实施例中获取目标交易数据的步骤的流程示意图;

图4为一个实施例中确定交易时序特征的步骤的流程示意图;

图5为一个实施例中确定用户类型的步骤的流程示意图;

图6为一个实施例中训练用户类型预测模型的步骤的流程示意图;

图7为一个实施例中获取样本训练集的步骤的流程示意图;

图8为一个实施例中时序卷积神经网络的结构示意图;

图9为一个实施例中用户类型确定装置的结构框图;

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的用户类型确定方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信,终端102可以输入待检测用户的用户信息,服务器104根据用户信息从数据存储系统中获取待检测用户的全部交易数据,并对全部交易数据进行处理。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个示例性的实施例中,如图2所示,提供了一种用户类型确定方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤。

步骤S202,获取待检测用户的目标交易数据。

其中,待检测用户是需要确定是否是交易中出现异常行为的用户,例如可以是潜在被诈骗的用户,或是正在被诈骗的用户。目标交易数据可以从待检测用户存储在系统中的所有交易数据获取,目标交易数据中包含待检测用户的多维度的交易特征,例如可以包括交易时间维度、交易金额维度、剩余金额、交易对象账户等等。

具体地,服务器可以针对系统中每个待检测用户,获取待检测用户的历史交易数据以及当前正在执行的交易对应的交易数据。根据预设的字段,服务器从历史交易数据和当前正在执行的交易对应的交易数据中,筛选得到能够表现交易特征的目标交易数据。

可选地,服务器从客户端获取待检测用户当前交易对应的当前交易数据,服务器从数据库获取待检测用户在预设时间段的历史交易数据,历史交易数据可以是距离当前时间预设时间内的交易数据,预设时间可以是三个月、六个月、一年等。服务器将符合预设字段的当前交易数据和历史交易数据作为目标交易数据。

步骤S204,基于预设特征提取算法以及数据标准格式,确定目标交易数据对应的交易时序特征。

其中,特征提取算法可以从目标交易数据中获取每个字段对应的特征数据,数据标准格式用于限定每一个时间单位所包含的固定长度的数据,交易时序特征包含待检测用户的固定长度的特征数据。

具体地,服务器将目标交易数据输入特征提取算法,通过特征提取算法,基于预设的顺序遍历目标交易数据,对于每一条目标交易数据,可以得到多个字段各自对应的特征值,并将多个字段各自对应的特征值合并,得到该目标交易数据的特征数据,直到遍历完成。服务器根据数据标准格式中对目标交易数据的时间字段的限定,确定每个时间字段所包含的特征数据,并基于时间顺序将多个时间字段的特征数据合并,得到目标交易数据对应的交易时序特征。

可选地,服务器可以将目标交易数据按照时间字段划分为多段目标交易数据,并按照时间顺序通过预设的特征提取算法提取每段目标交易数据对应的特征数据。基于此,服务器可以将多段特征数据合并,得到目标交易数据对应的交易时序数据。

步骤S206,将待检测用户的交易时序特征输入至训练好的用户类型预测模型,得到用户类型预测模型的类型预测结果,并基于类型预测结果确定待检测用户的用户类型。

其中,用户类型预测模型可以是有监督学习模型,用户类型预测模型是根据包含多个样本用户的交易数据以及多个样本用户的样本用户类型的训练样本集训练得到的,用户类型预测模型可以是包含时间特征的机器学习模型。用户类型预测模型的类型预测结果可以是以数字表示的预测值,预测值越大表示待检测用户是出现异常交易行为的用户的可能性越高。用户类型可以分为异常交易用户和正常用户。

具体地,服务器将待检测用户在预设时间内的交易时序特征输入至训练好的用户类型预测模型,用户类型预测模型将交易时序特征进行卷积处理,并通过多个隐含层计算出输出结果,并采用预设的激活函数确定用户类型预测模型的输出结果,若输出结果符合用户类型分类规则,则确定待检测用户的用户类型。

可选地,服务器可以将待检测用户的交易时序特征输入至训练好的时域卷积神经网络,时域卷积神经网络将交易时序特征进行卷积处理,并通过多个隐含层计算出输出结果,并采用预设的激活函数确定时域卷积神经网络的输出结果,得到用户类型预测模型的类型预测结果,并基于类型预测结果确定待检测用户的用户类型,隐含层可以是由膨胀因果1D卷积层。例如,服务器可以采用卷积层数为2,卷积核大小为6的时域卷积神经网络模型。

基于上述的用户类型确定方法,可知服务器从待检测用户的所有交易数据中获取待检测用户的目标交易数据,通过特征提取算法提取目标交易数据的交易特征,并通过数据标准格式进一步将交易特征转换为目标交易数据的交易时序特征。基于此,将交易时序特征输入至训练好的用户类型预测模型,用户类型预测模型能够对交易时序特征进行计算,得到该交易时序特征对应的类型预测结果,通过类型预测结果能够确定待检测用户的用户类型。通过采用本方法,可以根据待检测用户的目标交易数据和用户类型预测模型确定待检测用户的用户类型,从而能够对该用户采取限制措施。特征提取算法可以提取目标交易数据的隐含特征,数据标准格式能够将隐含特征按照时间排列,从而得到具有时间维度的特征序列,因此采用该方法预测得到的用户类型具有更高的准确度,从而提升预测存在异常交易行为的异常用户的预测模型的预测精度。。

在一个示例性的实施例中,如图3所示,步骤“获取待检测用户的目标交易数据”的具体实现过程,包括:

步骤S302,获取待检测用户在预设时间范围的初始交易数据。

其中,预设时间范围的初始交易数据是待检测用户在系统存储的交易数据,交易数据的时间字段与预设时间范围匹配。

具体地,服务器根据待检测用户的用户信息,在数据库中确定待检测用户的全部数据,基于此,服务器在待检测用户的全部数据中筛选符合预设时间范围的初始交易数据。

步骤S304,基于预设的数据筛选条件,在待检测用户的预设时间范围的初始交易数据中进行筛选,得到包含目标字段的目标交易数据。

其中,数据筛选条件用于从初始交易数据中筛选出所需字段的数据;目标字段可以用于表示待检测用户的特征。

具体地,由于初始交易数据包含冗余的交易数据,冗余的交易数据不能表示待检测用户的特征,服务器可以通过数据筛选条件剔除冗余的交易数据。基于此,服务器可以根据数据筛选条件中包含的目标字段,从初始交易数据对应的字段中查找和目标字段相同的字段,并将该相同的字段对应的交易数据全部保留,并删除非目标字段的对应的交易数据。

本实施例中,通过数据筛选条件可以获取能够表示待检测用户的特征的目标字段,从而获取更准确的目标交易数据,基于更准确的目标交易数据可以得到的精准度更高的特征数据。

在一个示例性的实施例中,如图4所示,步骤“基于预设特征提取算法以及数据标准格式,确定目标交易数据对应的交易时序特征”的具体实现过程,包括:

步骤S402,对目标交易数据进行统计处理,得到目标交易数据对应的衍生字段。

其中,衍生字段可以是基于目标交易数据的基础字段计算得到的,或者可以是基于目标交易数据的基础字段对应的数据信息表得到的。基础字段是目标交易数据包含的各个字段。数据信息表可以是存储在数据库中的交易数据中各个字段作为主键的表。例如,服务器可以通过账户表以及交易双方的唯一标识符,确定目标交易数据的交易双方的详细信息。

具体地,服务器基于预设的衍生字段与基础字段的转换算法,在目标交易数据中确定所需的基础字段。服务器将各所需的基础字段对应的字段值,输入至转换算法中,从而得到计算后的字段值,并将计算后的字段值作为衍生字段的字段值。

可选地,服务器根据目标交易数据中的时间字段,以及预设的多个时间范围,可以确定在每个时间范围内目标交易数据包含的交易次数,从而创建交易次数对应的衍生字段以及交易次数对应的字段值。

步骤S404,基于预设特征提取算法,对衍生字段对应的数据以及目标交易数据进行特征提取处理,得到初始交易特征。

其中,衍生字段对应的数据可以是衍生字段的字段值。初始交易特征包含目标交易数据和衍生字段的数据各自对应的特征数据。

具体地,服务器通过预设的特征提取算法,获取衍生字段对应的特征向量,以及目标交易数据中各字段的特征向量,并将衍生字段对应的特征向量和目标交易数据中各字段的特征向量合并为向量矩阵。

步骤S406,通过数据标准格式包含的序列号和预设总时长,确定每个序列号对应的时间段。

其中,一个序列号可以作为一个时间段的编号,多个时间段可以组成一个时间序列,时间序列可以存储特征数据。预设总时长可以用于计算每个序列号可以分配多少时长。

具体地,服务器将预设总时长与序列号的数量相除,得到每个序列号对应的时间段。

步骤S408,基于每个序列号对应的时间段,在初始交易特征中确定符合时间段的目标交易特征,并将各序列号对应的目标交易特征进行合并,得到目标交易数据对应的交易时序特征。

具体地,服务器针对每个序列号对应的时间段,以及目标交易数据中的时间字段,确定符合时间段的目标交易数据,并将符合时间段的目标交易数据对应的初始交易特征作为目标交易特征,基于此,按照上述过程依次得到对每个时间段的目标交易特征。服务器可以按照序列号的先后顺序,将多个目标交易特征合并,得到包含时间顺序的交易时序特征。

在一个示例中,序列号是1至10、预设总时长是十个月,通过预设总时长与序列号的数量相除,可以得到每个序列号对应的时间段为一个月。基于此,在目标交易数据中获取距今一个月的目标交易数据,以及距今一个月的目标交易数据对应的目标交易特征;以此类推,得到距今一个月到二个月之间的目标交易特征、距今二个月至三个月之间的目标交易特征,直到获得距今九个月到十个月之间的目标交易特征。服务器将上述十个目标交易特征按照时间顺序合并,得到交易时序特征。

本实施例中,通过统计处理创建衍生字段,提取衍生字段和目标交易数据对应的交易特征,并按照数据标准格式得到按照时间顺序排列的各个时间段对应的交易时序特征,从而得到包含衍生字段、时序信息等多种维度的特征数据,可知,输入至用户类型预测模型的特征数据越丰富,得到的预测结果越精确,因此,本实施例可以提升预测结果的精确度。

在一个示例性的实施例中,类型预测结果包含用户异常概率值,如图5所示,步骤“基于类型预测结果确定待检测用户的用户类型”的具体实现过程,包括:

步骤S502,若类型预测结果包含的用户异常概率值与预设的阈值范围匹配,则确定待检测用户的用户类型是存在异常交易行为的异常用户。

其中,用户异常概率值可以是基于激活函数计算得到的数值,其取值范围可以是0至1。阈值范围可以是0至1之间的数值区间,例如[0.8,1]。

具体地,服务器获取用户异常概率值,并确定用户异常概率值是否在阈值范围之内,若用户异常概率值在阈值范围之内,则确定待检测用户的用户类型是存在异常交易行为的异常用户;若用户异常概率值不在阈值范围之内,则确定待检测用户的用户类型是不存在异常交易行为的正常用户。

步骤S504,对待检测用户对应的交易行为进行关闭处理。

具体地,服务器确定待检测用户为异常用户之后,关闭异常用户的交易权限。或者,服务器关闭异常用户正在进行的交易。

本实施例中,通过阈值确定待检测用户是否为异常用户,并关闭异常用户的交易,从而减少用户发生异常交易的概率,保证用户的资金安全。

在一个示例性的实施例中,如图6所示,用户类型确定方法,还包括:

步骤S602,获取样本训练集。

其中,样本训练集包含各个样本用户在预设时间内的样本交易时序特征和各个样本用户的样本用户类型。样本交易时序特征包含样本用户的固定长度的特征数据,样本用户类型可以分为异常交易用户和正常用户。

具体地,服务器从数据库中获取预设时间内多个样本用户的样本交易数据,通过特征提取算法确定样本交易时序特征。服务器将预设的多个样本用户的样本用户类型与样本交易时序特征一一匹配,得到样本训练集。

步骤S604,通过待训练的用户类型预测模型以及各样本用户的样本交易时序特征进行预测,得到各样本用户分别对应的用户异常预测值。

其中,待训练的用户类型预测模型是未经样本训练集训练,且未对模型参数进行调优的用户类型预测模型。用户异常预测值是用户类型预测模型的输出结果,用于预测样本用户的样本用户类型,用户类型预测模型可以是时域卷积神经网络。

具体地,待训练的时域卷积神经网络包含各个模型参数的初始值,例如,卷积层数、卷积核大小、学习率等。基于各个模型参数的初始值,服务器可以将样本用户的样本交易时序特征输入至待训练的时域卷积神经网络,计算得到待训练的用户类型预测模型对应的用户异常预测值。

步骤S606,基于各样本用户的样本用户类型,以及各样本用户的用户异常预测值,计算损失函数。

其中,损失函数用于表示用户类型预测模型的预测结果与实际结果的差异。

具体地,服务器确定样本用户类型对应的数值,例如正常用户类型为0,样本用户类型为1。将样本用户类型对应的数值和各样本用户的用户异常预测值输入至损失函数,可以确定损失函数对应的损失值。

步骤S608,若确定待训练的用户类型预测模型不满足训练完成条件,则基于损失函数对待训练的用户类型预测模型的参数进行更新,重新执行通过待训练的用户类型预测模型以及各样本用户的样本交易时序特征进行预测的步骤,直至得到训练好的用户类型预测模型。

其中,训练完成条件可以是当前的训练迭代次数满足预设训练迭代次数阈值,可以是损失函数对应的损失值满足预设收敛条件,预设收敛条件可以是小于损失值对应的阈值。

具体地,若服务器确定当前训练迭代次数满足预设的训练迭代次数阈值,并且服务器确定损失函数的损失值小于损失值对应的阈值,则该用户类型预测模型是训练好的用户类型预测模型。若服务器确定当前训练迭代次数不满足预设的训练迭代次数阈值,或者,服务器确定损失函数的损失值大于损失值对应的阈值,则根据损失函数的损失值,按照预设的权重,调整待训练的用户类型预测模型的模型参数,得到更新后的用户类型预测模型,并将返回步骤S604迭代训练。

可选地,服务器可以按照预设比例,将样本训练集分为目标训练集和目标测试集,在服务器目标训练集基于训练完成条件的用户类型预测模型之后,将目标测试集输入至训练后的用户类型预测模型,得到测试结果集;通过准确率、召回率、F1值确定测试结果集的评估分数,测试结果集的评估分数若低于预设阈值,则重新调整训练完成条件以及用户类型预测模型的模型参数,并返回步骤S604迭代训练;若测试结果集的评估分数不低于预设阈值,则得到训练好的用户类型预测模型。

本实施例中,通过样本训练集以及损失函数多次迭代训练用户类型预测模型,当满足训练完成条件后,得到训练好的用户类型预测模型,从而得到具有更高预测精度的用户类型预测模型。

在一个示例性的实施例中,如图7所示,步骤“获取样本训练集”的具体实现过程,包括:

步骤S702,基于预设的数据筛选条件,在各样本用户的预设时间范围的初始样本交易数据中进行筛选,得到包含目标字段的目标样本交易数据。

其中,数据筛选条件用于从初始样本交易数据中筛选出所需字段的数据;目标字段可以用于表示样本用户的特征。

具体地,由于初始样本交易数据包含冗余的交易数据,冗余的交易数据不能表示样本用户的特征,服务器可以通过数据筛选条件剔除冗余的交易数据。基于此,服务器可以根据数据筛选条件中包含的目标字段,从初始样本交易数据对应的字段中查找和目标字段相同的字段,并将该相同的字段对应的交易数据全部保留,并删除非目标字段的对应的交易数据。

步骤S704,对目标样本交易数据进行统计处理,得到目标样本交易数据对应的衍生字段,基于预设特征提取算法,对衍生字段对应的数据以及目标样本交易数据进行特征提取处理,得到初始样本交易特征。

其中,衍生字段可以是基于目标样本交易数据的基础字段计算得到的,或者可以是基于目标样本交易数据的基础字段对应的数据信息表得到的。衍生字段对应的数据可以是衍生字段的字段值。初始样本交易特征包含目标样本交易数据和衍生字段的数据各自对应的特征数据。

具体地,服务器基于预设的衍生字段与基础字段的转换算法,在目标样本交易数据中确定所需的基础字段。服务器将各所需的基础字段对应的字段值,输入至转换算法中,从而得到计算后的字段值,并将计算后的字段值作为衍生字段的字段值。服务器通过预设的特征提取算法,获取衍生字段对应的特征向量,以及目标样本交易数据中各字段的特征向量,并将衍生字段对应的特征向量和目标样本交易数据中各字段的特征向量合并为向量矩阵。

步骤S706,通过数据标准格式包含的序列号和预设总时长,确定每个序列号对应的时间段,基于每个序列号对应的时间段,在初始样本交易特征中确定符合时间段的目标样本交易特征,并将各序列号对应的目标样本交易特征进行合并,得到目标样本交易数据对应的交易时序特征。

具体地,服务器将预设总时长与序列号的数量相除,得到每个序列号对应的时间段。服务器针对每个序列号对应的时间段,以及目标样本交易数据中的时间字段,确定符合时间段的目标样本交易数据,并将符合时间段的目标样本交易数据对应的初始样本交易特征作为目标样本交易特征,基于此,按照上述过程依次得到对每个时间段的目标样本交易特征。服务器可以按照序列号的先后顺序,将多个目标样本交易特征合并,得到包含时间顺序的交易时序特征。

步骤S708,将预设的各样本用户的样本用户类型和各样本用户对应的交易时序特征一一匹配,得到样本训练集。

具体地,服务器将预先设置的样本用户的样本用户类型以及样本用户对应的交易时序特征,存储至一个键值对中,以表示各交易时序特征与各样本用户类型一一匹配。

本实施例中,通过样本用户的目标样本交易数据和衍生字段,确定初始样本交易特征,并通过数据格式标准得到目标样本交易数据对应的交易时序特征,从而创建高质量样本训练集,最终通过高质量样本训练集训练用户类型预测模型,得到高精确度的用户类型预测模型。

在一个示例性的实施例中,结合一个具体实施例,详细描述用户类型确定方法的具体执行过程,包括以下步骤:

步骤1:时序行为数据提取、规范。

步骤1.a:服务器收集数据正负样本数据共10万条,其中负面样本为被欺诈客户,正面样本为正常客户,提取每个样本客户近6个月时序交易行为流水,如客户在a时刻进行交易,交易金额为b,交易对象为c,账户余额d。

步骤1.b:时序行为规范,将时序交易行为流水规范为等长度的交易行为序列,得到如客户在时刻a1-a2之间,共进行了b1次交易,交易金额为c1元;客户在时刻a2-a3之间,共进行了b2次交易,交易金额为c2元等。即将步骤1.a中的可变长度输入规范为固定长度输入。

步骤2:本申请使用的模型为时域卷积神经网络模型,时域卷积神经网络模型由具有相同输入长度和输出长度的膨胀因果1D卷积层组成。如图8所示,时域卷积神经网络包含由X=x

Y=y

在一个示例中,感受野决定时域卷积神经网络模型结构能够将当前交易与之前多久的交易进行卷积,从而挖掘多长时间内的深层交易联系。时域卷积神经网络模型的感受野的大小受隐含层层数、卷积核大小等决定,例如可以在被诈骗者行为识别中,采用卷积层数为2,核大小为6的TCN网络结构。

步骤3:训练模型。利用步骤1中规范后的样本,使用步骤2的网络结构,以及步骤1.b规范后的数据,将用户数据划分为训练集、测试集,并根据训练集训练模型、根据测试集评估模型,并调整模型参数以在测试集上取得符合预设条件的结果,可以采用梯度下降函数训练模型的参数。

经试验比对,相较于传统机器学习建模方案,本申请的时域卷积神经网络模型,在都认定分数最高的5%的客户为被欺诈客户并进行交易管控的前提下,提高召回率4.9%。

步骤4:部署模型。将步骤1中的数据处理流程和步骤3中的模型训练结果进行部署,当潜在被诈骗者交易时,收集该客户近6个月的交易流水并组织为步骤1.a中的形式,并对其进行步骤1.b中的规范处理,然后使用步骤3中的模型进行预测,根据预测结果决定是否对交易进行管控。

应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的用户类型确定方法的用户类型确定装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户类型确定装置实施例中的具体限定可以参见上文中对于用户类型确定方法的限定,在此不再赘述。

在一个示例性的实施例中,如图9所示,提供了一种用户类型确定装置900,包括:交易数据获取模块901、时序特征确定模块902和用户类型确定模块903,其中:

交易数据获取模块901,用于获取待检测用户的目标交易数据;

时序特征确定模块902,用于基于预设特征提取算法以及数据标准格式,确定目标交易数据对应的交易时序特征,交易时序特征包含待检测用户的固定长度的特征数据;

用户类型确定模块903,用于将待检测用户的交易时序特征输入至训练好的用户类型预测模型,得到用户类型预测模型的类型预测结果,并基于类型预测结果确定待检测用户的用户类型。

进一步地,交易数据获取模块901,具体用于:获取待检测用户在预设时间范围的初始交易数据;基于预设的数据筛选条件,在待检测用户的预设时间范围的初始交易数据中进行筛选,得到包含目标字段的目标交易数据。

进一步地,时序特征确定模块902,具体用于:

对目标交易数据进行统计处理,得到目标交易数据对应的衍生字段;

基于预设特征提取算法,对衍生字段对应的数据以及目标交易数据进行特征提取处理,得到初始交易特征;

通过数据标准格式包含的序列号和预设总时长,确定每个序列号对应的时间段;

基于每个序列号对应的时间段,在初始交易特征中确定符合时间段的目标交易特征,并将各序列号对应的目标交易特征进行合并,得到目标交易数据对应的交易时序特征。

进一步地,类型预测结果包含用户异常概率值,用户类型确定模块803,具体用于:

若类型预测结果包含的用户异常概率值与预设的阈值范围匹配,则确定待检测用户的用户类型是存在异常交易行为的异常用户;

对待检测用户对应的交易行为进行关闭处理。

进一步地,装置还包括模型训练模块,具体用于:

获取样本训练集,样本训练集包含各个样本用户在预设时间内的样本交易时序特征和各个样本用户的样本用户类型;

通过待训练的用户类型预测模型以及各样本用户的样本交易时序特征进行预测,得到各样本用户分别对应的用户异常预测值;

基于各样本用户的样本用户类型,以及各样本用户的用户异常预测值,计算损失函数;

若确定待训练的用户类型预测模型不满足训练完成条件,则基于损失函数对待训练的用户类型预测模型的参数进行更新,重新执行通过待训练的用户类型预测模型以及各样本用户的样本交易时序特征进行预测的步骤,直至得到训练好的用户类型预测模型。

进一步地,装置还包括样本训练集获取模块,具体用于:

基于预设的数据筛选条件,在各样本用户的预设时间范围的初始样本交易数据中进行筛选,得到包含目标字段的目标样本交易数据;

对目标样本交易数据进行统计处理,得到目标样本交易数据对应的衍生字段,基于预设特征提取算法,对衍生字段对应的数据以及目标样本交易数据进行特征提取处理,得到初始样本交易特征;

通过数据标准格式包含的序列号和预设总时长,确定每个序列号对应的时间段,基于每个序列号对应的时间段,在初始样本交易特征中确定符合时间段的目标样本交易特征,并将各序列号对应的目标样本交易特征进行合并,得到目标样本交易数据对应的交易时序特征;

将预设的各样本用户的样本用户类型和各样本用户对应的交易时序特征一一匹配,得到样本训练集。

上述用户类型确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各个用户的目标交易数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户类型确定方法。

本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要符合相关规定。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

技术分类

06120116511365