掌桥专利:专业的专利平台
掌桥专利
首页

用户行为异常分析方法、装置、设备及存储介质

文献发布时间:2023-06-19 12:13:22


用户行为异常分析方法、装置、设备及存储介质

技术领域

本发明涉及大数据领域,尤其涉及一种用户行为异常分析方法、装置、设备及存储介质。

背景技术

对于保险业来说,经营车险的保险公司每年因保险赔付损失等风险问题造成的损失较大。保险公司在车险赔付损失案的高额费用支出直接导致车险综合赔付率一直处于高位,同时间接推高车险产品价格。

传统的风险识别方案使用的模型基于历史赔付数据以及保险公司根据经验形成的判断用户行为异常的特定规则。可用于检测用户行为异常的数据往往局限于保险公司收集的赔案数据和少量的外部数据。用户异常检测流程大多依靠保险公司理赔人员进行人工处理,效率较低,欺诈检测具有时滞性,使得车险赔付异常屡禁不止。

若使用传统的深度监督学习算法,保险企业需要雇用大量的数据算法工程师对数据进行复杂繁琐的特征工程,以确保模型能够同时提取低阶和高阶的组合特征,也加长了模型的训练时间和降低了模型的识别准确度。

发明内容

本发明的主要目的在于解决现有车险赔付相关的用户行为异常识别方法存在识别准确度较低的技术问题。

本发明第一方面提供了一种用户行为异常分析方法,包括:获取车险赔付相关的用户行为信息,其中,所述用户行为信息包括多个用户行为因子;对各所述用户行为因子进行特征清洗,并从清洗后的用户行为因子中筛选符合预置模型指标标准的多个用户行为因子作为模型因子;通过预置特征工程对各所述模型因子进行数值化处理,得到各所述模型因子对应的特征编码;通过预置的用户行为异常分析模型,计算各所述特征编码之间的一维关联信息和二维交叉信息,并根据所述一维关联信息和所述二维交叉信息,对车险赔付相关的用户行为进行分类处理,得到所述用户行为的异常分析结果。

可选的,在本发明第一方面的第一种实现方式中,在所述获取车险赔付相关的用户行为信息之后,还包括:从所述用户行为信息中选取时序特征相关的用户行为因子,并对选取的用户行为因子进行特征加工,得到用户行为集成信息;采用所述用户行为集成信息,计算车险赔付相关的用户行为轨迹,并将所述用户行为轨迹作为模型因子。

可选的,在本发明第一方面的第二种实现方式中,所述通过预置特征工程对各所述模型因子进行数值化处理,得到各所述模型因子对应的特征编码包括:依次对各所述模型因子进行离散特征的数值化处理,得到各所述模型因子对应的初始特征编码;根据各所述初始特征编码的数值分布,分别对各所述初始特征编码进行分组处理,得到多个特征编码组合;分别对各所述特征编码组合中的初始特征编码进行归一化处理,得到预置数值区间的多组特征编码组合,其中,各所述特征编码组合中包含各模型因子对应的特征编码。

可选的,在本发明第一方面的第三种实现方式中,所述通过预置的用户行为异常分析模型,计算各所述特征编码之间的一维关联信息和二维交叉信息包括:将各所述特征编码输入预置的用户行为异常分析模型,其中,所述用户行为异常分析模型包括组合层和网络层;通过所述网络层提取所述特征编码的一维特征向量,并根据所述一维特征向量计算各所述特征编码之间一维关联信息;通过所述组合层计算每两个特征编码之间编码组合对应的交叉权重矩阵,并根据所述交叉权重矩阵计算各所述编码组合的二维交叉信息。

可选的,在本发明第一方面的第四种实现方式中,所述通过所述组合层计算每两个特征编码之间编码组合对应的交叉权重矩阵包括:根据每两个特征编码的编码组合数量,通过所述组合层确定对应的组合辅助向量,并对各所述编码组合和所述组合辅助向量进行合并,得到嵌入向量矩阵;根据预置权重公式和所述嵌入向量矩阵,通过所述组合层计算各所述编码组合的交叉权重,并根据所述交叉权重,构建交叉权重矩阵。

可选的,在本发明第一方面的第五种实现方式中,所述从清洗后的用户行为因子中筛选符合预置模型指标标准的多个用户行为因子作为模型因子包括:分别计算各所述行为因子的特征饱和度,并依次判断各所述行为因子的特征饱和度是否大于预置饱和度阈值;若所述行为因子的特征饱和度大于饱和度阈值,则计算对应行为因子的模型相关性系数,并判断所述模型相关性系数的绝对值是否小于预置相关性阈值;若所述模型相关性系数的绝对值小于所述相关性阈值,则确定对应的行为因子符合预置模型指标标准,并将符合模型指标标准的用户行为因子作为模型因子。

本发明第二方面提供了一种用户行为异常分析装置,包括:获取模块,用于获取车险赔付相关的用户行为信息,其中,所述用户行为信息包括多个用户行为因子;筛选模块,用于对各所述用户行为因子进行特征清洗,并从清洗后的用户行为因子中筛选符合预置模型指标标准的多个用户行为因子作为模型因子;数值处理模块,用于通过预置特征工程对各所述模型因子进行数值化处理,得到各所述模型因子对应的特征编码;分析模块,用于通过预置的用户行为异常分析模型,计算各所述特征编码之间的一维关联信息和二维交叉信息,并根据所述一维关联信息和所述二维交叉信息,对车险赔付相关的用户行为进行分类处理,得到所述用户行为的异常分析结果。

可选的,在本发明第二方面的第一种实现方式中,所述用户行为异常分析装置还包括:选取模块,用于从所述用户行为信息中选取时序特征相关的用户行为因子,并对选取的用户行为因子进行特征加工,得到用户行为集成信息;计算模块,用于采用所述用户行为集成信息,计算车险赔付相关的用户行为轨迹,并将所述用户行为轨迹作为模型因子。

可选的,在本发明第二方面的第二种实现方式中,所述数值处理模块包括:离散处理单元,用于依次对各所述模型因子进行离散特征的数值化处理,得到各所述模型因子对应的初始特征编码;分组单元,用于根据各所述初始特征编码的数值分布,分别对各所述初始特征编码进行分组处理,得到多个特征编码组合;归一化单元,用于分别对各所述特征编码组合中的初始特征编码进行归一化处理,得到预置数值区间的多组特征编码组合,其中,各所述特征编码组合中包含各模型因子对应的特征编码。

可选的,在本发明第二方面的第三种实现方式中,所述分析模块包括:输入单元,用于将各所述特征编码输入预置的用户行为异常分析模型,其中,所述用户行为异常分析模型包括组合层和网络层;一维提取单元,用于通过所述网络层提取所述特征编码的一维特征向量,并根据所述一维特征向量计算各所述特征编码之间一维关联信息;二维交叉单元,用于通过所述组合层计算每两个特征编码之间编码组合对应的交叉权重矩阵,并根据所述交叉权重矩阵计算各所述编码组合的二维交叉信息。

可选的,在本发明第二方面的第四种实现方式中,所述二维交叉单元还用于:根据每两个特征编码的编码组合数量,通过所述组合层确定对应的组合辅助向量,并对各所述编码组合和所述组合辅助向量进行合并,得到嵌入向量矩阵;根据预置权重公式和所述嵌入向量矩阵,通过所述组合层计算各所述编码组合的交叉权重,并根据所述交叉权重,构建交叉权重矩阵。

可选的,在本发明第二方面的第五种实现方式中,所述筛选模块包括:第一判别单元,用于分别计算各所述行为因子的特征饱和度,并依次判断各所述行为因子的特征饱和度是否大于预置饱和度阈值;第二判别单元,用于若所述行为因子的特征饱和度大于饱和度阈值,则计算对应行为因子的模型相关性系数,并判断所述模型相关性系数的绝对值是否小于预置相关性阈值;筛选单元,用于若所述模型相关性系数的绝对值小于所述相关性阈值,则确定对应的行为因子符合预置模型指标标准,并将符合模型指标标准的用户行为因子作为模型因子。

本发明第三方面提供了一种用户行为异常分析设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述用户行为异常分析设备执行上述的用户行为异常分析方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的用户行为异常分析方法。

本发明提供的技术方案中,通过从车险赔付相关的信息中整合出多个用户行为因子,然后对其进行清洗并选取符合模型指标标准的模型因子,接着通过特征工程将模型因子进行数值化处理,得到模型输入的特征编码,完成对用户行为因子的特征处理,提升后续模型训练的准确度;最后再以训练好的用户行为异常分析模型计算特征编码的一维关联信息和二维交叉信息,从一维特征和二维特征的角度分析用户行为的类别,比如该用户行为类别为异常或者正常,快速对车险赔付的用户行为类别进行判别,提升用户行为异常识别模型的识别准确度和训练效率。

附图说明

图1为本发明实施例中用户行为异常分析方法的第一个实施例示意图;

图2为本发明实施例中用户行为异常分析方法的第二个实施例示意图;

图3为本发明实施例中用户行为异常分析方法的第三个实施例示意图;

图4为本发明实施例中用户行为异常分析装置的一个实施例示意图;

图5为本发明实施例中用户行为异常分析装置的另一个实施例示意图;

图6为本发明实施例中用户行为异常分析设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种用户行为异常分析方法、装置、设备及存储介质,获取车险赔付相关的用户行为信息,其中,用户行为信息包括多个用户行为因子;对各用户行为因子进行特征清洗,并从清洗后的用户行为因子中筛选符合预置模型指标标准的多个用户行为因子作为模型因子;通过预置特征工程对各模型因子进行数值化处理,得到各模型因子对应的特征编码;通过预置的用户行为异常分析模型,计算各特征编码之间的一维关联信息和二维交叉信息,并根据一维关联信息和二维交叉信息,对车险赔付相关的用户行为进行分类处理,得到用户行为的异常分析结果。本申请提升了用户行为异常识别模型的训练时间和识别准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中用户行为异常分析方法的第一个实施例包括:

101、获取车险赔付相关的用户行为信息,其中,用户行为信息包括多个用户行为因子;

可以理解的是,本发明的执行主体可以为用户行为异常分析装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中,将车险赔付相关的多个因素整合成多个底层因子,并对不同类型的底层因子进行分类,并打包进行集中存储;针对每个用户,可以通过继承每个用户行为因子对应的参数变量,并赋值目标用户的参数值,即可得到各用户的用户行为因子,并存储在用户行为信息中。

具体的,可以通过Spark平台执行对底层因子的选择,并整合出多种类型的多个底层因子,可以包括如下几类以及每个类型的底层因子示例:

(1)历史索赔记录:历史索赔次数、历史索赔金额,历史索赔频率等;

(2)出险现场记录:是否有人受伤,受损部位,损失程度,出险现场天气,是否违规装载等;

(3)维修厂维修记录:施救费用,维修天数,损失部位,维修费用,车辆残值等;

(4)投保单信息:投报前询价次数,保费,车辆使用类型(商用,家用),投保渠道等;

(5)被投保人信息:性别,年纪,年收入级别,职业类型,历史投保单数量,客户价值层次等;

(6)时序特征信息:经纬度信息,WIFI连接信息等。

102、对各用户行为因子进行特征清洗,并从清洗后的用户行为因子中筛选符合预置模型指标标准的多个用户行为因子作为模型因子;

本实施例中,通过对各用户行为因子进行特征清洗,选取对后续建模有用的用户行为因子,其中,模型指标标准可以通过各用户行为因子中包含数据的饱和度和模型相关性来表示,因为数据饱和度太低的话,对应用户行为因子对建模没有帮助,而模型相关性太高,完全吻合某一个类型的特征,则可能存在数据泄露问题,均需要剔除。特征选择的方式主要也是下面两点:

1)饱和度:某用户行为因子的非空数据量占该用户行为因子总数据量的占比,通常选择饱和度>50%的用户行为因子用于建模,具体数值此处不作限定;

2)模型相关性:即用户行为因子取值和模型中Y标签取值的相关系数,如果相关系数的绝对值太高,该用户行为因子有潜在可能是由Y标签生成,则需要删掉该用户行为因子。

103、通过预置特征工程对各模型因子进行数值化处理,得到各模型因子对应的特征编码;

本实施例中,预先设置的特征工程包括对模型因子进行三方面的数值化处理,包括对模型因子进行离散特征数值化、数据分箱和数值特征归一化。离散特征数值化针对不同的模型因子分别进行数值化处理,可以通过One-hot编码方法或者Target Encoding方法进行离散特征数值化,但不限于这两种方法;在对离散特征数值化后,再对模型因子对应的数值进行数据分箱,根据数值由大至小进行排列,然后等比分成多组数值,并设置对应的标签;接着进行模型因子对应的数值进行特征归一化处理,将不同标签的数值组的取值范围转换成预置的取值范围。

104、通过预置的用户行为异常分析模型,计算各特征编码之间的一维关联信息和二维交叉信息,并根据一维关联信息和二维交叉信息,对车险赔付相关的用户行为进行分类处理,得到用户行为的异常分析结果。

本实施例中,用户行为异常分析模型中包括网络层、组合层以及分类层,其中,网络层可以应用深度神经网络DNN(Deep Neural Networks),组合层可以应用交叉组合的模型,比如FM(Factorization Machines,分解机)模型、FFM(Field FactorizationMachines,因子分解机),分类层可以采用Sigmoid、Softmax。

优选地,可以通过深度神经网络DNN计算各个特征编码之间的一维关联信息。首先提取各特征编码的一维特征向量(x

优选地,可以通过FM模型计算各特征编码之间的二维交叉信息。若特征编码的数量为n,则在各特征编码之间进行相互交叉关联后,即可得到n*n个交叉特征编码;也可以随机选取i*j个特征编码进行交叉关联,其中i,j∈n。

优选地,可以通过分类层Sigmoid对车险赔付相关的用户行为进行分类处理,Sigmoid的输入包括一维关联信息和二维交叉信息,通过预先设置的sigmoid函数进行用户行为异常类别概率的计算,并将计算结果映射至[0,1]之间,具体的sigmoid函数为:p=sigmoid(y

本发明实施例中,通过从车险赔付相关的信息中整合出多个用户行为因子,然后对其进行清洗并选取符合模型指标标准的模型因子,接着通过特征工程将模型因子进行数值化处理,得到模型输入的特征编码,完成对用户行为因子的特征处理,提升后续模型训练的准确度;最后再以训练好的用户行为异常分析模型计算特征编码的一维关联信息和二维交叉信息,从一维特征和二维特征的角度分析用户行为的类别,比如该用户行为类别为异常或者正常,快速对车险赔付的用户行为类别进行判别,提升用户行为异常识别模型的识别准确度和训练效率。

请参阅图2,本发明实施例中用户行为异常分析方法的第二个实施例包括:

201、获取车险赔付相关的用户行为信息,其中,用户行为信息包括多个用户行为因子;

202、从用户行为信息中选取时序特征相关的用户行为因子,并对选取的用户行为因子进行特征加工,得到用户行为集成信息;

203、采用用户行为集成信息,计算车险赔付相关的用户行为轨迹,并将用户行为轨迹作为模型因子;

本实施例中,用户行为信息中包含多种类型的用户行为因子,其中,对于带有时序特征的用户行为因子可以进行进一步加工,整合成更具有用户行为特异性的模型因子,比如LBS(Location Based Services)因子加工、网络因子加工、距离因子加工等,具体如下所示:

1、LBS因子加工:基于车辆行驶的经纬度和POI(Point of Interest,感兴趣点)相关的LBS因子,加工用户预置时间段内的生活轨迹,比如前往酒吧、公园、餐厅、咖啡厅等的频率,最晚回家时间段等;

2、WIFI因子加工:根据用户的WIFI链接信息,以及历史黑名单记录加工当前客户与异常用户黑名单之间的相关性;

3、距离因子加工:比如出险地与修理厂之间的距离,出险驾驶人与被保人是否同一人等与骗保可能有关联的因子。

具体的,可以通过Spark计算集群进行加工,比如对于上述的LBS因子加工,主要使用了分组计算最晚回家时间和地点逗留频次统计等,WIFI因子加工也是基于连接频次的统计,如果某客户与异常用户黑名单客户共同链接相同WIFI的频次大于预设阈值,则视为高相关性,距离因子加工则是基于两地之间的经纬度,使用的球面距离计算公式两地距离。

204、对各用户行为因子进行特征清洗,分别计算各行为因子的特征饱和度,并依次判断各行为因子的特征饱和度是否大于预置饱和度阈值;

205、若行为因子的特征饱和度大于饱和度阈值,则计算对应行为因子的模型相关性系数,并判断模型相关性系数的绝对值是否小于预置相关性阈值;

206、若模型相关性系数的绝对值小于相关性阈值,则确定对应的行为因子符合预置模型指标标准,并将符合模型指标标准的用户行为因子作为模型因子;

本实施例中,特征饱和度指的是:单个行为因子中的非空数据量占总数据量的占比,通常选择的饱和度>50%的特征用于建模;模型相关性指的是:用户行为参数和模型中Y标签取值的相关性系数,若相关性系数的绝对值高于预设阈值,则该用户行为因子有潜在可能是由Y标签生成,存在数据泄露的可能性。

207、通过预置的用户行为异常分析模型,计算各特征编码之间的一维关联信息和二维交叉信息,并根据一维关联信息和二维交叉信息,对车险赔付相关的用户行为进行分类处理,得到用户行为的异常分析结果。

本发明实施例中,首先通过整合车险赔付相关的多个用户行为因子,初步对各用户行为因子进行加工,以得到满足模型训练需要的数据集,先对用户行为因子进行充分的预处理,提高建模的特征相关性,在后续用于建模时,更贴合实际的情况,得到的分析结果更准确。

请参阅图3,本发明实施例中用户行为异常分析方法的第三个实施例包括:

301、获取车险赔付相关的用户行为信息,其中,用户行为信息包括多个用户行为因子;

302、对各用户行为因子进行特征清洗,并从清洗后的用户行为因子中筛选符合预置模型指标标准的多个用户行为因子作为模型因子;

303、依次对各模型因子进行离散特征的数值化处理,得到各模型因子对应的初始特征编码;

304、根据各初始特征编码的数值分布,分别对各初始特征编码进行分组处理,得到多个特征编码组合;

305、分别对各特征编码组合中的初始特征编码进行归一化处理,得到预置数值区间的多组特征编码组合,其中,各特征编码组合中包含各模型因子对应的特征编码;

本实施例中,对于模型因子的离散型特征数值化处理,比如模型因子包括:历史索赔次数、损失程度,施救费用,则可以采用One-Hot编码,依次编码为[1,0,0]、[1,1,0]、[,0,1];或者采用Target Encoding进行编码,比如历史索赔次数中包含的参数值数量为5,损失程度中包含的参数值数量为10,施救费用中包含的参数值数量为10次,则对应TargetEncoding编码后,历史索赔次数的初始特征编码为0.2,损失程度的初始特征编码为0.4,救援费用的初始特征编码为0.4。

本实施例中,将初始特征编码按照数据按照从小到大排序,然后将排序靠前10%的初始特征编码设为分组1,并备注标签1,将排序在10%~20%的初始特征编码设为分组2,并备注标签2,……,将排序在90%~100%的初始特征编码设为分组10,并备注标签10,并将分组后的特征编码组合用户分别用于后续的归一化处理,使得用于后续模型训练时,模型泛化能力更强。

本实施例中,可以使用Z-scroe方法,用每一个组别内的初始特征编码减去均值,然后再除以标准差,得到最终的特征编码,这样做的好处是让数据输入约束到一定范围内(主要在-1~1之间),有利于用户异常行为识别模型训练的稳定,因为模型训练过程中计算参数的梯度会用到输入的特征编码,如果数据的范围过大,会造成梯度爆炸的问题。

306、将各特征编码输入预置的用户行为异常分析模型,其中,用户行为异常分析模型包括组合层和网络层;

307、通过网络层提取特征编码的一维特征向量,并根据一维特征向量计算各特征编码之间一维关联信息;

本实施例中,根据特征编码的数量,分成n个分片,然后根据每个分片中包含的参数值的数量,从每个分片中提取中k个特征参数,然后将n*k个编码特征作为k个通道的一维特征向量,每个通道包括n个一维特征向量;而对于网络层使用的一维卷积核采用的卷积公式是:

其中,T

通过网络层中的一维卷积核进行卷积后,即可得到各特征编码之间的一维关联信息。

308、通过组合层计算每两个特征编码之间编码组合对应的交叉权重矩阵,并根据交叉权重矩阵计算各编码组合的二维交叉信息;

本实施例中,先对每两个特征编码进行组合,得到编码组合,然后计算每个编码组合对应的交叉权重矩阵,最后通过交叉权重矩阵计算各编码组合之间的二维交叉信息。具体的,可以通过以下公式对特征编码进行交叉组合:

其中,y

另外,将不同的编码之间进行交叉关联之后,与后续分类标签之间相关性提高,比如“历史索赔记录”中的“索赔金额”和投保单上的“保费”,对两者对应的特征编码进行交关联后,确定每次金额跟保费之间的关系,后续在分类中是否为异常用户行为关联性更高。

具体的,可以通过下述步骤计算各编码组合的二维交叉信息:

(1)根据每两个特征编码的编码组合数量,通过组合层确定对应的组合辅助向量,并对各编码组合和组合辅助向量进行合并,得到嵌入向量矩阵;

(2)根据预置权重公式和嵌入向量矩阵,通过组合层计算各编码组合的交叉权重,并根据交叉权重,构建交叉权重矩阵。

309、根据一维关联信息和二维交叉信息,对车险赔付相关的用户行为进行分类处理,得到用户行为的异常分析结果。

本发明实施例中,详细介绍了用户行为异常分析模型的学习过程,仅通过用户相关的一维关联信息和二维交叉信息对用户行为的类别进行分类处理,将离散的多个用户行为因子对应的特征编码关联起来,将其与用户行为的类别相对应,大大提升模型学习的速度。

上面对本发明实施例中用户行为异常分析方法进行了描述,下面对本发明实施例中用户行为异常分析装置进行描述,请参阅图4,本发明实施例中用户行为异常分析装置一个实施例包括:

获取模块401,用于获取车险赔付相关的用户行为信息,其中,所述用户行为信息包括多个用户行为因子;

筛选模块402,用于对各所述用户行为因子进行特征清洗,并从清洗后的用户行为因子中筛选符合预置模型指标标准的多个用户行为因子作为模型因子;

数值处理模块403,用于通过预置特征工程对各所述模型因子进行数值化处理,得到各所述模型因子对应的特征编码;

分析模块404,用于通过预置的用户行为异常分析模型,计算各所述特征编码之间的一维关联信息和二维交叉信息,并根据所述一维关联信息和所述二维交叉信息,对车险赔付相关的用户行为进行分类处理,得到所述用户行为的异常分析结果。

本发明实施例中,通过从车险赔付相关的信息中整合出多个用户行为因子,然后对其进行清洗并选取符合模型指标标准的模型因子,接着通过特征工程将模型因子进行数值化处理,得到模型输入的特征编码,完成对用户行为因子的特征处理,提升后续模型训练的准确度;最后再以训练好的用户行为异常分析模型计算特征编码的一维关联信息和二维交叉信息,从一维特征和二维特征的角度分析用户行为的类别,比如该用户行为类别为异常或者正常,快速对车险赔付的用户行为类别进行判别,提升用户行为异常识别模型的识别准确度和训练效率。

请参阅图5,本发明实施例中用户行为异常分析装置的另一个实施例包括:

获取模块401,用于获取车险赔付相关的用户行为信息,其中,所述用户行为信息包括多个用户行为因子;

筛选模块402,用于对各所述用户行为因子进行特征清洗,并从清洗后的用户行为因子中筛选符合预置模型指标标准的多个用户行为因子作为模型因子;

数值处理模块403,用于通过预置特征工程对各所述模型因子进行数值化处理,得到各所述模型因子对应的特征编码;

分析模块404,用于通过预置的用户行为异常分析模型,计算各所述特征编码之间的一维关联信息和二维交叉信息,并根据所述一维关联信息和所述二维交叉信息,对车险赔付相关的用户行为进行分类处理,得到所述用户行为的异常分析结果。

具体的,所述用户行为异常分析装置还包括:

选取模块405,用于从所述用户行为信息中选取时序特征相关的用户行为因子,并对选取的用户行为因子进行特征加工,得到用户行为集成信息;

计算模块406,用于采用所述用户行为集成信息,计算车险赔付相关的用户行为轨迹,并将所述用户行为轨迹作为模型因子。

具体的,所述数值处理模块403包括:

离散处理单元4031,用于依次对各所述模型因子进行离散特征的数值化处理,得到各所述模型因子对应的初始特征编码;

分组单元4032,用于根据各所述初始特征编码的数值分布,分别对各所述初始特征编码进行分组处理,得到多个特征编码组合;

归一化单元4033,用于分别对各所述特征编码组合中的初始特征编码进行归一化处理,得到预置数值区间的多组特征编码组合,其中,各所述特征编码组合中包含各模型因子对应的特征编码。

具体的,所述分析模块404包括:

输入单元4041,用于将各所述特征编码输入预置的用户行为异常分析模型,其中,所述用户行为异常分析模型包括组合层和网络层;

一维提取单元4042,用于通过所述网络层提取所述特征编码的一维特征向量,并根据所述一维特征向量计算各所述特征编码之间一维关联信息;

二维交叉单元4043,用于通过所述组合层计算每两个特征编码之间编码组合对应的交叉权重矩阵,并根据所述交叉权重矩阵计算各所述编码组合的二维交叉信息。

具体的,所述二维交叉单元4043还用于:

根据每两个特征编码的编码组合数量,通过所述组合层确定对应的组合辅助向量,并对各所述编码组合和所述组合辅助向量进行合并,得到嵌入向量矩阵;

根据预置权重公式和所述嵌入向量矩阵,通过所述组合层计算各所述编码组合的交叉权重,并根据所述交叉权重,构建交叉权重矩阵。

具体的,所述筛选模块402包括:

第一判别单元4021,用于分别计算各所述行为因子的特征饱和度,并依次判断各所述行为因子的特征饱和度是否大于预置饱和度阈值;

第二判别单元4022,用于若所述行为因子的特征饱和度大于饱和度阈值,则计算对应行为因子的模型相关性系数,并判断所述模型相关性系数的绝对值是否小于预置相关性阈值;

筛选单元4023,用于若所述模型相关性系数的绝对值小于所述相关性阈值,则确定对应的行为因子符合预置模型指标标准,并将符合模型指标标准的用户行为因子作为模型因子。

本发明实施例中,首先通过整合车险赔付相关的多个用户行为因子,初步对各用户行为因子进行加工,以得到满足模型训练需要的数据集,先对用户行为因子进行充分的预处理,提高建模的特征相关性,在后续用于建模时,更贴合实际的情况,得到的分析结果更准确;此外,本发明实施例中还详细介绍了用户行为异常分析模型的学习过程,仅通过用户相关的一维关联信息和二维交叉信息对用户行为的类别进行分类处理,将离散的多个用户行为因子对应的特征编码关联起来,将其与用户行为的类别相对应,大大提升模型学习的速度。

上面图4和图5从模块化功能实体的角度对本发明实施例中的用户行为异常分析装置进行详细描述,下面从硬件处理的角度对本发明实施例中用户行为异常分析设备进行详细描述。

图6是本发明实施例提供的一种用户行为异常分析设备的结构示意图,该用户行为异常分析设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对用户行为异常分析设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在用户行为异常分析设备600上执行存储介质630中的一系列指令操作。

用户行为异常分析设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的用户行为异常分析设备结构并不构成对用户行为异常分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种用户行为异常分析设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述用户行为异常分析方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述用户行为异常分析方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

相关技术
  • 用户行为异常分析方法、装置、设备及存储介质
  • 一种基于LDA的用户行为异常分析方法、系统及存储介质
技术分类

06120113211314