掌桥专利:专业的专利平台
掌桥专利
首页

一种基于AI和数据挖掘的诈骗号码识别预警方法

文献发布时间:2023-06-19 18:27:32


一种基于AI和数据挖掘的诈骗号码识别预警方法

技术领域

本发明涉及电信诈骗识别技术领域,尤其是涉及一种基于AI和数据挖掘的诈骗号码识别预警方法。

背景技术

近年来电信诈骗异常猖獗,除了给受骗群众带来经济损失以外,还涉及部分案件对于社会的恶劣影响,以及用户对于运营商的误解,因此对于诈骗电话的识别,及时通过封号等手段来割掉电信诈骗的毒瘤,也是当前运营商行业内一项重要工作。

目前诈骗电话治理主要基于大数据分析模型和高危漫游地的管控,该模式已在全国推广。

诈骗电话大数据分析模型主要是通过业务分析的几类场景进行分析,常用的判别场景主要如下几点:一是号码复用率低,终端复用率高;二是号码使用时间多为集中在工作日白天;三是使用地区相对集中;四是主叫占比高,被叫相对较离散。通过以上四种业务场景,设计对应指标,对于发生交叉场景涉及指标越多,则作为诈骗号码风险越高。

传统关于诈骗电话识别流程是,通过对于号码复用率低终端复用率高 IMEI号构建高风险IMEI号终端库,通过对号码使用终端进行识别是否高风险终端,对于高风险终端判别是否使用地区漫游地区为高风险诈骗地区,且主叫占比高,通过逐级筛选最终判别为诈骗号码满足3-4个条件为高风险用户,满足其中1-2个为中风险用户。

在传统诈骗号码识别过程中,主要是通过业务知识结合数据分析一些风险临界值判别验证,将风险结果进行封号等处理;这种诈骗号码识别主要是一些常态化业务规则判别、人为的数据统计分析模型来进行事后的稽核判别,这一类的模型最大的缺点一是滞后性,通过事后判别事件延迟,其次是识别方法欠缺一定科学合理性。

发明内容

针对上述问题,本发明提供了一种基于AI和数据挖掘的诈骗号码识别预警方法,添加更具备事实依据的AI稽核识别的标签,在基础数据质量标签基础上使数据更完整更具备实际价值,由事后方式转为事前识别方式,提前干预提前进行管控,使管控更及时。

为实现上述目的,本发明公开了一种基于AI和数据挖掘的诈骗号码识别预警方法,包括:

根据入网时长选取目标用户;

对所述目标用户进行原始特征收集;

针对所述原始特征进行新特征提取,根据各所述原始特征及所述新特征的信息价值,获取一组训练特征;

根据所述训练特征获取训练数据集,训练获取朴素贝叶斯分类器;

将所有所述目标用户的特征数据输入所述朴素贝叶斯分类器,获得各所述目标用户的诈骗号码风险概率。

作为本发明的进一步改进,对所述目标用户进行原始特征收集;包括:

收集目标用户的基本属性、消费属性、活动属性、行为属性、稽核属性。

作为本发明的进一步改进,所述基本属性包括:姓名、年龄、性别、号码、状态、归属、品牌、资费套餐、入网时间、存量客户或新增客户、是否高端客户、是否集团客户;

所述消费属性包括:当月账户金额、近3月ARPU值;

所述活动属性包括:积分、手机IMEI、手机型号、手机网络制式、使用时长、是否新增、是否支持5G、是否支持4G;

所述行为属性包括通话行为和业务属性,所述通话行为包括主被叫次数、通话时长、本地通话时长、网内通话次数、网外通话时长、长途通话次数、网内通话时长、网外通话次数、呼转次数、投诉次数,长途通话时长、漫游次数、漫游时长;所述业务属性包括:基于各种业务的订购和使用反应客户的业务行为属性;

所述稽核属性包括实名制稽核和基础业务AI稽核,所述实名制稽核包括同身份证件开卡数、异地身份证开卡识别,所述基础业务AI稽核包括入网现场采集的人像照片是否异常。

作为本发明的进一步改进,所述针对所述原始特征进行新特征提取,根据各所述原始特征及所述新特征的信息价值,获取一组训练特征;包括:

将所述原始特征转换为具有物理意义或统计意义或核的新特征;

计算各原始特征和新特征的IV值,根据IV值从高到低挑选一组最具预测能力的训练特征。

作为本发明的进一步改进,根据所述训练特征获取训练数据集,训练获取朴素贝叶斯分类器;包括:

计算训练数据集中每个训练特征的先验概率;

通过朴素贝叶斯算法及所述先验概率计算训练数据所属的各风险等级的后验概率;

通过K-近邻算法找到各训练数据的k个邻居,通过线性方法给每个邻居加权,在加权后的邻域内构建朴素贝叶斯分类器。

作为本发明的进一步改进,通过朴素贝叶斯算法及所述先验概率计算训练数据所属的各风险等级的后验概率;公式为:

其中:

X表示训练特征向量,X={x1,x2,...,xn};

P(Ci)表示先验概率;

P(C

P(X)对所有训练特征为常数;

若训练特征为分类属性,则P(x

若训练特征为连续值属性,则假设连续值属性服从均值为η、标准差为σ的高斯分布,表示为:

则P(x

作为本发明的进一步改进,在计算P(X|C

作为本发明的进一步改进,所述通过K-近邻算法找到各训练数据的k个邻居,通过线性方法给每个邻居加权,在加权后的邻域内构建朴素贝叶斯分类器;包括:

选择不同的k值,构建多个朴素贝叶斯分类器;

选择分类准确度最高的朴素贝叶斯分类器作为最终的分类器。

与现有技术相比,本发明的有益效果为:

本发明在传统的业务识别的方法基础上,通过训练提取诈骗号码通信行为特征,结合基础业务AI稽核结果、异动监控、实名违规稽核结果,应用机器学习算法进行预判,识别诈骗高风险电话号码,在作案前,就能根据号码的风险等级采取有针对性的管控措施。推进诈骗电话“事后治理”向“事前管控”的模式转变,实现诈骗电话管控手段前移。

附图说明

图1为本发明一种实施例公开的基于AI和数据挖掘的诈骗号码识别预警方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述:

如图1所示,本发明提供的一种基于AI和数据挖掘的诈骗号码识别预警方法,包括:

S1、根据入网时长选取目标用户;

例如:选取入网时长<=3个月且当月在网用户。

S2、对目标用户进行原始特征收集;

其中,

原始特征收集通过对用户基础信息及用户使用行为信息等数据进行沉淀汇总,作为建模前期模型基础宽表,用于后期特征工程及特征选择,包括基本属性、消费属性、活动属性、行为属性、稽核属性;

具体的,

基本属性包括:姓名、年龄、性别、号码、状态、归属、品牌、资费套餐、入网时间、存量客户或新增客户、是否高端客户、是否集团客户;

消费属性包括:当月账户金额、近3月ARPU值;

活动属性包括:积分、手机IMEI、手机型号、手机网络制式、使用时长、是否新增、是否支持5G、是否支持4G;

行为属性包括通话行为和业务属性,通话行为包括主被叫次数、通话时长、本地通话时长、网内通话次数、网外通话时长、长途通话次数、网内通话时长、网外通话次数、呼转次数、投诉次数,长途通话时长、漫游次数、漫游时长;业务属性包括:基于各种业务的订购和使用反应客户的业务行为属性;

稽核属性包括实名制稽核和基础业务AI稽核(如:图像识别出入网场景下异常稽核点,采用AI识别方法,结果作为入模字段),实名制稽核包括同身份证件开卡数、异地身份证开卡识别,基础业务AI稽核包括入网现场采集的人像照片是否异常。

S3、针对原始特征进行新特征提取,根据各原始特征及新特征的信息价值,获取一组训练特征;

例如:

将原始特征转换为具有物理意义或统计意义或核的新特征;

计算各原始特征和新特征的IV值,根据IV值从高到低挑选一组最具预测能力的训练特征。

其中,

特征提取将原始特征转换为一组具有明显物理意义(Gabor、几何特征[角点、不变量]、纹理[LBP HOG])或者统计意义或核的特征,即根据原有的一些特征衍生新的特征。

特征选择:从特征集合中挑选一组最具统计意义的特征,达到降维的效果。

具体的,

以在网时长为例进行IV值计算,公式为:

V衡量的是某一个变量的信息量,从公式来看的话,相当于是自变量WOE 值的一个加权求和,其值的大小决定了自变量对于目标变量的影响程度,对于分组i,其对应的IV值参考下面,其中n是分组个数,注意,在变量的任何分组中,不应该出现响应数为0或非响应数为0的情况,当变量的一个分组的响应数为0时,对应的woe就为负无穷,此时IV值为正无穷。如果可能,直接把这个分组做成一个规则,作为模型的前置条件或补充条件;

计算了一个训练特征数据各个组的IV值之后,我们就可以计算整个变量的IV值:

IV值用于特征选择,如果想要对训练特征的预测能力进行排序的话,可以按IV值从高到低筛选即可。

S4、根据训练特征获取训练数据集,训练获取朴素贝叶斯分类器;

其中,

计算训练数据集中每个训练特征的先验概率;

通过朴素贝叶斯算法及先验概率计算训练数据所属的各风险等级的后验概率;

通过K-近邻算法找到各训练数据的k个邻居,通过线性方法给每个邻居加权,在加权后的邻域内构建朴素贝叶斯分类器。

具体的,

首先:朴素贝叶斯算法说明:

(1)、设D是训练元组和它们相关联的类标号的集合。每个元组用一个 n维属性向量X={x1,x2,...,xn}表示。

(2)、假定有m个类C1,C2,...Cm。给定元组X,分类法将预测X 属于具有最高后验概率的类。也就是说,朴素贝叶斯分类法预测X属于类Ci,当且仅当

P(Ci|X)>P(Cj|X)1≤j≤m,j≠i

这样,P(Ci|X)最大的类Ci称为最大后验概率。根据贝叶斯定理

(3)、由于P(X)对所有类为常数,所以只需要P(X|Ci)P(Ci)最大即可。若类的先验概率未知,则通常假定这些类是等概率的,即 P(C1)=P(C2)=...=P(Cm),并据此对P(Ci|X)最大化,否则最大化P(Ci|X)P(Ci)

(4)、给定具有很多属性的数据集,计算P(X|Ci)的开销非常大。为了降低计算开销,可以做类条件独立的朴素假定。给定元组的类标号,假定属性值有条件地相互独立。因此

考察该属性是分类的还是连续值的,例如为了计算P(X|Ci),考虑如下两种情况:

(a)、如果Ak是分类属性,则P(xk|Ci)是D中属性Ak的值为xk的Ci类的元组数除以D中Ci类的元组数|Ci,D|

(b)、如果Ak是连续值属性,则假定连续值属性服从均值为η、标准差为σ的高斯分布,由下式定义:

则P(x

为了预测X得类标号,对每个类Ci,计算P(X|Ci)P(Ci)。该分类法预测输入元组X的类为Ci,当且仅当,P(X|Ci)P(Ci)>P(X|Cj)P(Cj),1≤j≤m,j ≠i。即是,被预测的类标号是使P(X|Ci)P(Ci)最大的类Ci。

具体的,朴素贝叶斯算法实现过程:

(1)先验概率

P(Ci)为先验概率,计算在IV值选择不同值时号码为诈骗号码的概率,如下:

计算每个变量的先验概率。例如P(入网现场采集照片是否异常)=0.8

(2)平滑参数

朴素贝叶斯分类是一种生成式分类

p(y|x)=p(y,x)/p(x)=p(x|y)*p(y)|p(x)

在训练的时候假设x的所有特征是相互独立的,所以p(x|y)=所有p(xi|y) 的乘积只要通过贝叶斯展开+有xi独立就能得到,这个模型里的参数就是,给定y这个条件下,生成某个特征xi的概率(),以及y本身的分布(使用中心极限定理得到均值就能作为估计);

这里存在一个问题,就是如果在所有样本里,某个特征xi没出现过,那么根据中心极限定理得到均值就是0,那么最后的乘积就是0;

这个结果对于实际来说不太合理,对于训练样本中没出现过的特征,实际的测试的时候,也是有可能出现,所以需要做拉普拉斯平滑;

就是在用中心极限定理得到均值的时候分子分母同时加上一个数,一般分子加1,分母加的是分类数,这样每个特征的条件概率肯定不为0了。

(3)关于K近邻局部加权改进

近邻局部加权的朴素贝叶斯K-LWNB(K-Locally Weigh-led Naive Bayes)。它首先应用K-近邻算法找到测试实例的k个邻居,然后应用线性方法来给每个邻居加权,最后在加权后的邻域内构建朴素贝叶斯分类器。K-LWNB算法于K-近邻算法一样是一种k相关的学习算法,要求用户在使用的时候自己人为地输入学习参数k,并且k的取值在一定程度上影响了它的分类性能。所以对于k的选择是相当重要的。本案例中提出了一种选择邻域大小k值的数值邻域上学习一组朴素贝叶斯分类器,然后在其中选择一个最高分类准确度的朴素贝叶斯分类测试实例。在设计具体算法的时候,我们输入的数据包括有:邻域的最大值K

设变量数组count[k]//该变量为正确分类的实例个数;

for(i=K

Count(i)=0;//对[K

While((e∈T)==true)//对于每一个实例e,T=T-[e];

Find(e,K

For(i=K

Set to train a NB;//用k个邻居训练训练一个NB;

if(NB==true)

Set the NB to classify e;//用这个NB分类e

If(e==the right class)

Count[k]++;//如果分类正确,count[k]++;

Else

Delete the furthest neighbor;//删除最远那个邻居;

Else

Retraining NB;//重新用k个邻居训练一个NB;

K

Max count=count[K

for(i=K

If(count[k]>max count)

{K

Max count=count[k];

}

Return K

模型结果:

条件独立性假设在很大程度上影响了朴素贝叶斯的分类性能,进而影响模型预测能力。实际上在现实的生产中,对于属性之间的条件独立是很少的,但是,由于朴素贝叶斯对于条件独立性的属性分类又是极其优秀的。所以针对这种情况本专利进行了算法改进。从局部释放这种条件独立性的假设,最后从实际模型效果可以看出,确实提高了分类性能提高了模型查准率。尤其在进行IV值进行筛选了变量后,对整个算法执行效率上也更为有效。在此基础上使用K-近邻局部加权的朴素贝叶斯算法分类提到了提高,模型精准度也得到了提高。

S5、将所有目标用户的特征数据输入朴素贝叶斯分类器,获得各目标用户的诈骗号码风险概率。

其中,

将目标用户的特征数据输入精确度最高的朴素贝叶斯分类器,依次得到各目标用户的诈骗号码风险概率,或输出诈骗号码风险概率清单。

本发明的优点:

(1)本发明在传统的业务识别的方法基础上,通过训练提取诈骗号码通信行为特征,结合基础业务AI稽核结果、异动监控、实名违规稽核结果,应用机器学习算法进行预判,识别诈骗高风险电话号码,在作案前,就能根据号码的风险等级采取有针对性的管控措施。推进诈骗电话“事后治理”向“事前管控”的模式转变,实现诈骗电话管控手段前移。

(2)本发明的关键点是诈骗号码识别引入AI稽核方式,二是由事后稽核转变为事前稽核,三是应用机器学习方法联合上面两种方法进行诈骗号码多层次融合,提升诈骗号码识别科学性及合理性。

(3)本发明的整个设计思路是借用业务判别+AI识别+机器学习算法联合应用,进行诈骗号码判别,输出诈骗号码风险概率清单。AI识别方法主要是关于图像识别出入网场景下异常稽核点,采用AI识别方法结果加入,作为入模字段增加;其次是加入机器学习算法,应用朴素贝叶斯算法通过加权平均提高分类及模型查准率,最后输出风险概率,达到事前预测,事前管控。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种基于实时话单大数据的诈骗号码识别方法和装置
  • 一种基于人工智能的诈骗号码识别分析方法
技术分类

06120115572394