掌桥专利:专业的专利平台
掌桥专利
首页

技术领域

本发明涉及网络安全技术领域,尤其涉及一种黑产用户识别方法、TEE节点及计算机可读存储介质。

背景技术

近年来,针对运营商服务的各种类型的黑产行为愈演愈烈,严重影响运营商品牌形象、造成运营商和用户大量经济损失。其中黑产用户由于类型较多(如薅羊毛、欺诈电话等),目前比较常见的方式是针对运营商内部可获取的特征建模分析,这种方式仅依靠运营商内部的特征,识别结果难免片面,存在识别不准确或识别率不高等问题。

发明内容

本发明所要解决的技术问题是针对现有技术的上述不足,提供一种黑产用户识别方法、TEE节点及计算机可读存储介质,用以解决现有的黑产用户识别方法仅依靠运营商内部的特征进行建模分析,识别结果难免片面,存在识别不准确或识别率不高的问题。

第一方面,本发明提供一种黑产用户识别方法,应用于可信执行环境TEE集群中任意一个TEE节点,所述方法包括:

获取样本数据集,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据;

基于所述样本数据集建立决策树模型;

接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,得到所述待识别的用户数据的识别结果。

优选地,所述运营商侧特征数据包括手机号、所述手机号对应用户所拥有的手机号个数、第一上线次数、第一平均在线时长以及IP跨省次数;所述银行侧特征数据包括所述手机号、第二上线次数、第二平均在线时长、注册天数、账户余额和信用卡逾期次数;

所述获取样本数据集具体包括:

采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐,得到所述样本数据集;

其中,所述对齐后的运营商侧特征数据和银行侧特征数据具体包括:所述手机号、所述手机号对应用户所拥有的手机号个数、所述第一上线次数、所述第一平均在线时长、所述IP跨省次数、所述第二上线次数、所述第二平均在线时长、所述注册天数、所述账户余额和所述信用卡逾期次数。

优选地,所述TEE集群至少包括运营商侧TEE节点和银行侧TEE节点,所述任意一个TEE节点为运营商侧TEE节点或银行侧TEE节点。

优选地,所述任意一个TEE节点为运营商侧TEE节点;

所述采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐之前,所述方法还包括:

获取一天内的所有固网数据,所述固网数据包括手机号、用户标识、IP地址、上线时间、下线时间、在线时长以及所在省份;

根据所有所述固网数据中的所述用户标识获取每个手机号对应用户所拥有的手机号个数;

根据所有所述固网数据统计所述一天内每个所述手机号的上线次数,得到对应的所述第一上线次数;

根据以下公式计算每个所述手机号对应的所述第一平均在线时长:

其中,Time_online

根据所有所述固网数据中的IP地址以及所在省份获取每个所述手机号对应的所述IP跨省次数。

优选地,所述任意一个TEE节点为银行侧TEE节点;

所述采用基于RSA算法的样本对齐方式对所述运营商侧特征数据和所述银行侧特征数据按所述手机号进行对齐之前,所述方法还包括:

获取一天内的银行APP数据,所述银行APP数据包括手机号、用户标识、注册日期、上线时间、下线时间、账户余额和信用卡逾期次数;

根据所述银行APP数据统计所述一天内每个手机号的上线次数,得到对应的所述第二上线次数;

根据以下公式计算每个所述手机号对应的所述第二平均在线时长:

其中,Time_online

根据以下公式计算每个所述手机号对应的所述注册天数:

RegisterDays=DateToday-RegisterDate

其中,DateToday为当前日期,RegisterDate为所述注册日期。

优选地,所述基于所述样本数据集建立决策树模型,具体包括:

遍历所述样本数据集中的所有特征,并根据以下公式计算遍历到的特征的信息增益:

g(D,A)=H(D)-H(D|A)

其中,

使用信息增益最大的特征来进行划分,重复此过程,直到所述样本数据集中所有的样本都被划分完毕或达到最大的训练次数,得到所述决策树模型。

第二方面,本发明提供一种TEE节点,包括:

数据集获取模块,用于获取样本数据集,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据;

模型建立模块,与所述数据集获取模块连接,用于基于所述样本数据集建立决策树模型;

识别模块,与所述模型建立模块连接,用于接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,得到所述待识别的用户数据的识别结果。

第三方面,本发明提供一种TEE节点,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以实现上述第一方面所述的黑产用户识别方法。

第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的黑产用户识别方法。

本发明提供的黑产用户识别方法、TEE节点及计算机可读存储介质,通过获取样本数据集,其中,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据,并基于所述样本数据集建立决策树模型,以及接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,能够得到所述待识别的用户数据的识别结果。由于本发明基于可信执行环境,因此,能够在确保数据机密性和完整性的同时,将运营商侧的特征数据和银行侧的特征数据进行联合建模分析,不仅扩充了训练特征数据,而且提高了黑产用户识别的准确率和覆盖率,解决了现有的黑产用户识别方法仅依靠运营商内部的特征进行建模分析,识别结果难免片面,存在识别不准确或识别率不高的问题。

附图说明

图1:为本发明实施例1的一种黑产用户识别方法的流程图;

图2:为本发明实施例的运营商侧特征数据和银行侧特征数据的对齐示意图;

图3:为本发明实施例2的一种TEE节点的结构示意图;

图4:为本发明实施例3的一种TEE节点的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案,下面将结合附图对本发明实施方式作进一步地详细描述。

可以理解的是,此处描述的具体实施例和附图仅仅用于解释本发明,而非对本发明的限定。

可以理解的是,在不冲突的情况下,本发明中的各实施例及实施例中的各特征可相互组合。

可以理解的是,为便于描述,本发明的附图中仅示出了与本发明相关的部分,而与本发明无关的部分未在附图中示出。

可以理解的是,本发明的实施例中所涉及的每个单元、模块可仅对应一个实体结构,也可由多个实体结构组成,或者,多个单元、模块也可集成为一个实体结构。

可以理解的是,在不冲突的情况下,本发明的流程图和框图中所标注的功能、步骤可按照不同于附图中所标注的顺序发生。

可以理解的是,本发明的流程图和框图中,示出了按照本发明各实施例的系统、装置、设备、方法的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可代表一个单元、模块、程序段、代码,其包含用于实现规定的功能的可执行指令。而且,框图和流程图中的每个方框或方框的组合,可用实现规定的功能的基于硬件的系统实现,也可用硬件与计算机指令的组合来实现。

可以理解的是,本发明实施例中所涉及的单元、模块可通过软件的方式实现,也可通过硬件的方式来实现,例如单元、模块可位于处理器中。

申请概述

目前比较常见的黑产用户识别方法是针对运营商内部可获取的特征建模分析,由于恶意用户具有分散性、潜伏性、复杂性等特点,单方的数据已经很难满足对黑产用户识别的要求。目前的这种方式仅依靠运营商内部的特征进行建模分析,难免存在识别不准确或识别率不高的问题。

针对上述技术问题,本申请的构思是提供一种黑产用户识别方法、TEE(TrustedExecution Environment,可信执行环境)节点及计算机可读存储介质,在可信执行环境下,将运营商侧的特征数据和银行侧的特征数据进行联合建模分析,通过扩充训练特征数据,能够提高最终模型对黑产用户识别的准确率和覆盖率,从而能够更好地帮助行业进行黑产用户的识别,以便于净化网络环境,避免企业客户的财产损失,同时,在建立模型的过程中能够确保运营商侧特征数据和银行侧特征数据的机密性和完整性。

在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。

实施例1:

本实施例提供一种黑产用户识别方法,应用于可信执行环境TEE集群中任意一个TEE节点,如图1所示,该方法包括:

步骤S102:获取样本数据集,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据。

需要说明的是,可信执行环境是CPU内的一个安全区域。它运行在一个独立的环境中且与操作系统并行运行。CPU确保TEE中代码和数据的机密性和完整性都得到保护。通过同时使用硬件和软件来保护数据和代码,TEE比操作系统更加安全。在TEE中运行的受信任应用程序可以访问设备主处理器和内存的全部功能,而硬件隔离保护这些组件不受主操作系统中运行的用户安装的应用程序的影响。运行在TEE中的代码和数据,是保密且不可篡改的。本发明提供的黑产用户识别方法可以应用于TEE集群中任意一个TEE节点,该TEE集群包括运营商侧TEE节点、银行侧TEE节点和其他TEE节点,本方法优选应用于TEE集群中的运营商侧TEE节点或银行侧TEE节点。

可选地,运营商侧特征数据包括手机号、手机号对应用户所拥有的手机号个数、第一上线次数、第一平均在线时长以及IP跨省次数;银行侧特征数据包括手机号、第二上线次数、第二平均在线时长、注册天数、账户余额和信用卡逾期次数;

获取样本数据集具体包括:

采用基于RSA算法的样本对齐方式对运营商侧特征数据和银行侧特征数据按手机号进行对齐,得到样本数据集;

其中,对齐后的运营商侧特征数据和银行侧特征数据具体包括:手机号、手机号对应用户所拥有的手机号个数、第一上线次数、第一平均在线时长、IP跨省次数、第二上线次数、第二平均在线时长、注册天数、账户余额和信用卡逾期次数。

在本实施例中,运营商侧特征数据由运营商侧TEE节点获取,银行侧特征数据由银行侧TEE节点获取,双方均可基于RSA算法的样本对齐方式获取对齐后的运营商侧特征数据和银行侧特征数据。

具体地,运营商在本地部署有TEE节点,运营商侧TEE节点存储有原始的运营商侧数据,即用户固网数据,运营商侧TEE节点从中获取一天内的所有固网数据,该固网数据包括黑产用户的固网数据和正常用户的固网数据,固网数据比如可以包括手机号、用户标识、IP地址、上线时间、下线时间、在线时长以及所在省份等,运营商侧TEE节点对其中一些指标进行预处理,转化为离散特征,得到对应的运营商侧特征数据:

(1)该用户所拥有的手机号个数(T_PhoneCount):用户标识可以为模糊化处理后的身份证号码,同一身份证件号码在全国范围内最多可办理10个手机号,根据所有固网数据中的用户标识即可获取每个手机号对应用户所拥有的手机号个数;

(2)第一上线次数(T_DaysOnline):即为用户通过对应手机号上网的次数,根据所有固网数据统计一天内每个手机号的上线次数,即可得到每个手机号对应的第一上线次数。

(3)第一平均在线时长(T_TimeAvg):即为对应手机号上网的平均在线时长,具体可以根据以下公式计算每个手机号对应的第一平均在线时长,单位为分钟:

其中,Time_online

(4)IP跨省次数(T_CrossCount):根据所有固网数据中的IP地址以及所在省份即可获取每个手机号对应的IP跨省次数,即统计每个手机号一天内的IP地址共出现在多少省份,通常固网用户上下线(开关一次路由器)一次就可能会变换一次IP,变换的IP省份也不固定,有可能是本省,也有可能是外省。正常用户一天上下线(开关路由器)的次数很少,但是黑产用户的手机号一般会不停的变换IP(有的app会限制IP登录次数)以更大程度的进行黑产,如薅羊毛等活动,因此将IP跨省次数作为特征。

最终得到的运营商侧特征数据包括运营商侧的手机号T_PhoneNumber、手机号对应用户所拥有的手机号个数T_PhoneCount、第一上线次数T_DaysOnline、第一平均在线时长T_TimeAvg和IP跨省次数T_CrossCount。

具体地,银行在本地部署有TEE节点,银行侧TEE节点存储有原始的银行侧数据,原始的银行侧数据使用的是用户在银行app中的数据,即银行APP数据,具体可以包括手机号、用户标识、注册日期、上线时间、下线时间、账户余额和信用卡逾期次数;银行侧TEE节点对其中一些指标进行预处理,转化为离散特征,得到对应的银行侧特征数据:

1)第二上线次数(B_DaysOnline):即为用户通过对应手机号登陆银行APP的次数,根据银行APP数据统计一天内每个手机号的上线次数,即可得到对应的第二上线次数。

2)第二平均在线时长(B_TimeAvg):即为对应手机号在银行APP的平均在线时长,具体可以根据以下公式计算每个手机号对应的第二平均在线时长,单位为分钟:

其中,Time_online

3)注册天数(B_RegisterDays):单位为天,计算方式为:

RegisterDays=DateToday-RegisterDate

其中,DateToday为当前日期,RegisterDate为注册日期。

最终得到的银行侧特征数据包括银行侧的手机号B_PhoneNumber、第二上线次数B_DaysOnline、第二平均在线时长B_TimeAvg、注册天数B_RegisterDays、账户余额B_AcountBalance和信用卡逾期次数B_ODTimes,其中,账户余额B_AcountBalance即为该手机号在银行APP或对应银行卡上的余额,信用卡逾期次数B_ODTimes为统计的该手机号对应信用卡(若有)的逾期的次数。

具体地,由于运营商侧的特征数据和银行侧的特征数据并不是完全统一的,因此以手机号作标准进行样本对齐,具体可以采用基于RSA算法的样本对齐方式,以便在运营商侧和银行侧不公开各自数据的前提下确认双方的共有用户数据。

假设运营商侧为A,运营商侧的特征数据为X

(a)B通过RSA算法生成公钥对(n,e)和私钥对(n,d),其中公钥对(n,e)发送给A。

(b)A对其特征数据X

(c)B收到Y

同时,B对自己的特征数据X

以上步骤完成后,B将Z

(d)A收到Y

此时,我们可以发现D

步骤S104:基于样本数据集建立决策树模型。

在本实施例中,样本数据集D={(x

遍历样本数据集中的所有特征,并根据以下公式计算遍历到的特征的信息增益:

g(D,A)=H(D)-H(D|A)

其中,

使用信息增益最大的特征来进行划分,重复此过程,直到样本数据集中所有的样本都被划分完毕或达到最大的训练次数,得到决策树模型。

在得出最终模型后,TEE节点将模型输出,其中的运算过程以及加解密的双方数据均在TEE节点安全区域内部立即进行销毁,保证整个过程中数据的安全性。

步骤S106:接收待识别的用户数据,将待识别的用户数据输入决策树模型中,得到待识别的用户数据的识别结果。

在本实施例中,TEE节点可以将建立的决策树模型部署到服务器,并提供相应的接口,供用户调用,具体地,用户可以将待识别的用户数据(包括手机号、手机号对应用户所拥有的手机号个数、第一上线次数、第一平均在线时长、IP跨省次数、第二上线次数、第二平均在线时长、注册天数、账户余额和信用卡逾期次数)输入决策树模型中,即可得到对应的识别结果。

本发明实施例提供的黑产用户识别方法,通过获取样本数据集,其中,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据,并基于所述样本数据集建立决策树模型,以及接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,能够得到所述待识别的用户数据的识别结果。由于本发明基于可信执行环境,因此,能够在确保数据机密性和完整性的同时,将运营商侧的特征数据和银行侧的特征数据进行联合建模分析,不仅扩充了训练特征数据,而且提高了黑产用户识别的准确率和覆盖率,解决了现有的黑产用户识别方法仅依靠运营商内部的特征进行建模分析,识别结果难免片面,存在识别不准确或识别率不高的问题。

实施例2:

如图3所示,本实施例提供一种TEE节点,包括:

数据集获取模块12,用于获取样本数据集,样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据;

模型建立模块14,与数据集获取模块12连接,用于基于样本数据集建立决策树模型;

识别模块16,与模型建立模块14连接,用于接收待识别的用户数据,将待识别的用户数据输入决策树模型中,得到待识别的用户数据的识别结果。

可选地,运营商侧特征数据包括手机号、手机号对应用户所拥有的手机号个数、第一上线次数、第一平均在线时长以及IP跨省次数;银行侧特征数据包括手机号、第二上线次数、第二平均在线时长、注册天数、账户余额和信用卡逾期次数;

数据集获取模块12具体用于采用基于RSA算法的样本对齐方式对运营商侧特征数据和银行侧特征数据按手机号进行对齐,得到样本数据集;

其中,对齐后的运营商侧特征数据和银行侧特征数据具体包括:手机号、手机号对应用户所拥有的手机号个数、第一上线次数、第一平均在线时长、IP跨省次数、第二上线次数、第二平均在线时长、注册天数、账户余额和信用卡逾期次数。

可选地,TEE集群至少包括运营商侧TEE节点和银行侧TEE节点,任意一个TEE节点为运营商侧TEE节点或银行侧TEE节点。

可选地,任意一个TEE节点为运营商侧TEE节点,所述运营商侧TEE节点还可以包括:

固网数据获取模块,用于获取一天内的所有固网数据,固网数据包括手机号、用户标识、IP地址、上线时间、下线时间、在线时长以及所在省份;

手机号个数获取模块,用于根据所有固网数据中的用户标识获取每个手机号对应用户所拥有的手机号个数;

第一上线次数获取模块,用于根据所有固网数据统计一天内每个手机号的上线次数,得到对应的第一上线次数;

第一平均在线时长获取模块,用于根据以下公式计算每个手机号对应的第一平均在线时长:

其中,Time_online

IP跨省次数获取模块,用于根据所有固网数据中的IP地址以及所在省份获取每个手机号对应的IP跨省次数。

可选地,任意一个TEE节点为银行侧TEE节点,所述银行侧TEE节点还可以包括:

银行APP数据获取模块,用于获取一天内的银行APP数据,银行APP数据包括手机号、用户标识、注册日期、上线时间、下线时间、账户余额和信用卡逾期次数;

第二上线次数获取模块,用于根据银行APP数据统计一天内每个手机号的上线次数,得到对应的第二上线次数;

第二平均在线时长获取模块,用于根据以下公式计算每个手机号对应的第二平均在线时长:

其中,Time_online

注册天数获取模块,用于根据以下公式计算每个手机号对应的注册天数:

RegisterDays=DateToday-RegisterDate

其中,DateToday为当前日期,RegisterDate为注册日期。

可选地,模型建立模块14具体用于:

遍历样本数据集中的所有特征,并根据以下公式计算遍历到的特征的信息增益:

g(D,A)=H(D)-H(D|A)

其中,

使用信息增益最大的特征来进行划分,重复此过程,直到样本数据集中所有的样本都被划分完毕或达到最大的训练次数,得到决策树模型。

实施例3:

参考图4,本实施例提供一种TEE节点,包括存储器22和处理器24,存储器22中存储有计算机程序,处理器24被设置为运行所述计算机程序以执行实施例1中的黑产用户识别方法。

其中,存储器22与处理器24连接,存储器22可采用闪存或只读存储器或其他存储器,处理器24可采用中央处理器或单片机。

实施例4:

本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例1中的黑产用户识别方法。

该计算机可读存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。计算机可读存储介质包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read-Only Memory,只读存储器),EEPROM(Electrically ErasableProgrammable read only memory,带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(Compact Disc Read-Only Memory,光盘只读存储器),数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

实施例2至实施例4提供的TEE节点及计算机可读存储介质,通过获取样本数据集,其中,所述样本数据集中的样本包括黑产用户样本和正常用户样本,每个样本均包括对齐后的运营商侧特征数据和银行侧特征数据,并基于所述样本数据集建立决策树模型,以及接收待识别的用户数据,将所述待识别的用户数据输入所述决策树模型中,能够得到所述待识别的用户数据的识别结果。由于本发明基于可信执行环境,因此,能够在确保数据机密性和完整性的同时,将运营商侧的特征数据和银行侧的特征数据进行联合建模分析,不仅扩充了训练特征数据,而且提高了黑产用户识别的准确率和覆盖率,解决了现有的黑产用户识别方法仅依靠运营商内部的特征进行建模分析,识别结果难免片面,存在识别不准确或识别率不高的问题。

可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

相关技术
  • 一种黑产用户识别方法、TEE节点及计算机可读存储介质
  • 黑产用户识别方法、系统、电子设备及存储介质
技术分类

06120113821386