一种异常理赔案件检测方法、装置、设备及存储介质
文献发布时间:2024-04-18 19:58:21
技术领域
本发明涉及计算机技术领域,特别涉及一种异常理赔案件检测方法、装置、设备及存储介质。
背景技术
在保险理赔反欺诈应用场景中,传统统计建模方法是应用统计学方法对用户的特征属性进行分析,手工选取一定的特征及阈值,建立黑名单、规则或建立广义线性模型(GLM,generalize linear model)、例如logistic回归方法进行判定,当某一客户、车辆被黑名单、规则或模型预测结果高于模型预测阈值时即判定其为潜在异常案件,其主要原理仍然基于统计学频数统计及专家经验。
传统反欺诈方法有以下三个缺陷:第一,黑名单、规则等传统方法需要人工定义用户行为特征,主要还是基于业务专家或者建模人员根据自身工作经验总结提供,然而即使拥有若干年经验丰富的业务专家提供出的特征数量也很难涵盖全部理赔信息,尤其是在当前信息技术跳跃式发展的时代,可以收集到比过去更多的车辆特征信息、损失特征信息,专家提供的经验总结无法涵盖收集到的全部特征信息,很可能错过一些关键特征;第二,广义线性模型,例如logistic等,虽然有速度快、可解释性强的特点,其本质仍然是线性回归器,自变量和因变量线性关系不足以完全分辨欺诈案件,其泛用性不足以对全部潜在案件进行识别;第三,欺诈案件在赔付案件中属于极小概率事件,统计样本极不平衡,传统的规则、统计学方法和机器学习方法极难对其进行异常检测。
发明内容
有鉴于此,本发明的目的在于提供一种异常理赔案件检测方法、装置、设备和存储介质,能够便于分析案件的异常行为,提升了检测的准确率。其具体方案如下:
第一方面,本申请公开了一种异常理赔案件检测方法,包括:
从保险理赔数据库中获取历史数据集,并将所述历史数据集转化为高维向量;所述高维向量为维度数量满足预设高维条件的向量;
将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件;
将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。
可选的,所述从保险理赔数据库中获取历史数据集之前,还包括:
从全部理赔记录中获取原始数据,并对所述原始数据执行数据预处理操作,以得到预处理数据;
基于所述预处理数据以及预先获取的用于进行数据集划分的意见集合构建所述历史数据集。
可选的,所述将所述历史数据集转化为高维向量,包括:
获取预先训练的特征提取模型,并将所述历史数据集中的所述训练数据集输入至所述特征提取模型进行预设特征变换操作,以得到所述高维向量。
可选的,所述将所述历史数据集中的所述训练数据集输入至所述特征提取模型进行预设特征变换操作,以得到所述高维向量,包括:
将所述历史数据集中的所述训练数据集输入至所述特征提取模型,以便基于预设变量确定规则确定所述历史数据集中的欺诈变量以及干扰变量;
通过所述预设特征变换操作将所述欺诈变量的百分比提高至预设欺诈阈值,并将所述干扰变量的百分比降低至预设干扰阈值,以得到所述高维向量。
可选的,所述从保险理赔数据库中获取历史数据集之前,还包括:
基于所述特征提取模型、所述反欺诈模型以及所述欺诈类型检测模型构建目标模型;
将所述目标模型部署至容器中并进行包装,并以同步接口的形式执行所述从保险理赔数据库中获取历史数据集的步骤。
可选的,所述将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件之前,还包括:
将所述高维向量输入原始反欺诈模型,并基于所述高维向量预设参数训练方法训练所述原始反欺诈模型,得到所述反欺诈模型;其中,所述预设参数训练方法包含交叉验证以及网格搜索。
可选的,所述将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件,包括:
将所述高维向量输入所述反欺诈模型计算对应的用于表征为所述目标异常案件的概率值;
判断所述概率值是否大于或等于预设阈值,若所述概率值大于或等于所述预设阈值,则判定当前案件为所述目标异常案件并触发报警;
若所述概率值小于所述预设阈值,则判定当前案件为正常案件并结束。
第二方面,本申请公开了一种异常理赔案件检测装置,包括:
数据集获取模块,用于从保险理赔数据库中获取历史数据集;
数据集转化模块,用于将所述历史数据集转化为高维向量;
异常案件检测模块,用于将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件;
欺诈类型检测模块,用于将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。
第三方面,本申请公开了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现如前述公开的异常理赔案件检测方法的步骤。
第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如前述公开的异常理赔案件检测方法。
可见,本申请提供了一种异常理赔案件检测方法,包括:从保险理赔数据库中获取历史数据集,并将所述历史数据集转化为高维向量;所述高维向量为维度数量满足预设高维条件的向量;将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件;将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。由此可见,本申请通过训练数据集生成高维向量特征集,然后利用高维特征向量集训练非线性模型生成反欺诈模型,用于潜在异常案件检测,有利于分析案件的异常行为,提升了检测的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种异常理赔案件检测方法流程图;
图2为本申请公开的一种具体的异常理赔案件检测方法流程图;
图3为本申请提供的异常理赔案件检测装置结构示意图;
图4为本申请提供的一种电子设备结构图;
图5为本申请提供的一种存储器结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,传统反欺诈方法有以下三个缺陷:第一,黑名单、规则等传统方法需要人工定义用户行为特征,主要还是基于业务专家或者建模人员根据自身工作经验总结提供,然而专家提供的经验总结无法涵盖收集到的全部特征信息,很可能错过一些关键特征;第二,广义线性模型虽然有速度快、可解释性强的特点,其本质仍然是线性回归器,自变量和因变量线性关系不足以完全分辨欺诈案件,其泛用性不足以对全部潜在案件进行识别;第三,欺诈案件在赔付案件中属于极小概率事件,统计样本极不平衡,传统的规则、统计学方法和机器学习方法极难对其进行异常检测。为此,本申请提供了一种异常理赔案件检测方法,能够便于分析案件的异常行为,提升了检测的准确率。
本发明实施例公开了一种异常理赔案件检测方法,参见图1所示,该方法包括:
步骤S11:从保险理赔数据库中获取历史数据集,并将所述历史数据集转化为高维向量。
本实施例中,从保险理赔数据库中获取历史数据集,并将所述历史数据集转化为高维向量;所述高维向量为维度数量满足预设高维条件的向量;所述高维向量为维度数量满足预设高维条件的向量。可以理解的是,在从保险理赔数据库中获取历史数据集之前,从全部理赔记录中获取原始数据,并对所述原始数据执行数据预处理操作,以得到预处理数据;基于所述预处理数据以及预先获取的用于进行数据集划分的意见集合构建所述历史数据集。
从理赔记录中获取原始数据,并在基于Hadoop/Spark的大数据平台上对原始数据进行预处理,预处理操作包含去噪、清洗、特征提取和特征选择等步骤。具体的,在数据预处理之后,在特征提取及选择过程中参考业务专家意见来构建可靠的历史数据集,所述历史数据集为所述保险理赔数据库中预设时间范围内的所有案件数据的集合,所述历史数据集包括训练数据集以及测试数据集。
基于所述特征提取模型、所述反欺诈模型以及所述欺诈类型检测模型构建目标模型;将所述目标模型部署至容器中并进行包装,并以同步接口的形式执行所述从保险理赔数据库中获取历史数据集的步骤。可以理解的是,将训练好的特征提取模型、所述反欺诈模型以及所述欺诈类型检测模型进行线性组合得到目标模型,将目标模型部署于容器中进行包装,以http/https同步接口的形式向外部系统提供服务,应用于欺诈异常检测。当新的理赔数据输入时,先经由特征提取模型进行特征提取,该模型将理赔数据提取为欺诈检测特征向量(即高维向量),将高维向量输入反欺诈模型,自动输出其是否为欺诈案件以及其概率得分。如果概率得分高于阈值,则会触发预设的警报机制,同时数据会输入所述欺诈类型检测模型,自动输出案件可能属于的欺诈类型,以方便后续业务人员针对性调查。
步骤S12:将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件。
本实施例中,从保险理赔数据库中获取历史数据集,并将所述历史数据集转化为高维向量之后,将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件。具体的,将所述高维向量输入所述反欺诈模型计算对应的用于表征为所述目标异常案件的概率值;判断所述概率值是否大于或等于预设阈值,若所述概率值大于或等于所述预设阈值,则判定当前案件为所述目标异常案件并触发报警;若所述概率值小于所述预设阈值,则判定当前案件为正常案件并结束。可以理解的是,利用通过所述训练数据集生成的高维向量特征集训练非线性模型,以生成用于潜在异常案件检测的反欺诈模型,从而通过反欺诈模型进行预设异常案件检测操作。
例如,某一车辆在某时间段内出险,且其历史出险次数明显高于正常出险水平,因此该被保险人可能存在欺诈骗险行为。又例如,某一个身份证号码多次出险在不同的案件中,其超过黑名单中出现次数上限规则,因此该身份证号码有可能存在欺诈骗险行为。通过反欺诈模型进行预设异常案件检测操作,以得到目标异常案件。
步骤S13:将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。
本实施例中,将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件之后,将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。可以理解的是,在得到所述目标异常案件对应的目标异常类型之后,将检测结果和统计数据,例如总体准确率和误报率等,汇总为图表和报告展示给用户,有助于保险公司追踪和分析异常行为,提高业务管理的决策效率。
需要指出的是,基于案件欺诈类型构建多分类模型训练,通过对欺诈类型的识别,提升前一模型的可解释性。具体的,通过高维特征向量集生成用于确定潜在异常案件的欺诈类型的欺诈类型检测模型,并使用所述测试数据集检验上述反欺诈模型与欺诈类型检测模型的效果。
进一步的,从保险理赔数据库中获取历史数据集,将所述待训练数据集通过大数据技术转换为高维特征向量集,并生成上述的反欺诈模型与欺诈类型检测模型,同时利用容器技术实现上述两个模型的在线实时异常检测。
本发明是一种基于机器学习进行保险理赔欺诈案件检测的系统,解决了通过专家规则、黑名单及广义线性模型等传统方法难以识别保险理赔案件中欺诈行为的问题,且可以有效考虑到反欺诈模型的泛用性及样本不平衡性,从而识别出更多潜在异常案件。本发明可以应用于任何希望提升保险理赔反欺诈效果的专业领域。
可见,本申请提供了一种异常理赔案件检测方法,包括:从保险理赔数据库中获取历史数据集,并将所述历史数据集转化为高维向量;所述高维向量为维度数量满足预设高维条件的向量;将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件;将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。由此可见,本申请通过训练数据集生成高维向量特征集,然后利用高维特征向量集训练非线性模型生成反欺诈模型,用于潜在异常案件检测,有利于分析案件的异常行为,提升了检测的准确率。
参见图2所示,本发明实施例公开了一种异常理赔案件检测方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。
步骤S21:从保险理赔数据库中获取历史数据集。
步骤S22:获取预先训练的特征提取模型,将所述历史数据集中的所述训练数据集输入至所述特征提取模型进行预设特征变换操作,以得到所述高维向量。
本实施例中,在进行模型训练与参数优化时,基于已获取的历史数据集,使用机器学习算法进行模型训练。通过构建好的预先训练的特征提取模型,将原始理赔数据通过特征变换为高维向量,以强化欺诈相关变量、弱化干扰变量。也即将所述历史数据集中的所述训练数据集输入至所述特征提取模型,以便基于预设变量确定规则确定所述历史数据集中的欺诈变量以及干扰变量;通过所述预设特征变换操作将所述欺诈变量的百分比提高至预设欺诈阈值,并将所述干扰变量的百分比降低至预设干扰阈值,以得到所述高维向量。
步骤S23:将所述高维向量输入原始反欺诈模型,并基于所述高维向量预设参数训练方法训练所述原始反欺诈模型,得到所述反欺诈模型。
本实施例中,将所述历史数据集中的所述训练数据集输入至所述特征提取模型进行预设特征变换操作,以得到所述高维向量之后,将所述高维向量输入原始反欺诈模型,并基于所述高维向量预设参数训练方法训练所述原始反欺诈模型,得到所述反欺诈模型。将是否欺诈作为训练目标,例如采用梯度提升树(GBDT,Gradient Boosting DecisionTree)、随机森林(RF,Random Forest)训练反欺诈模型。同时通过交叉验证和网格搜索等预设参数训练方法来优化模型参数,以达到更高的准确性。
步骤S24:将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件。
步骤S25:将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。
关于上述步骤S21、S24、S25的具体内容可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本申请实施例通过从保险理赔数据库中获取历史数据集;获取预先训练的特征提取模型,将所述历史数据集中的所述训练数据集输入至所述特征提取模型进行预设特征变换操作,以得到所述高维向量;将所述高维向量输入原始反欺诈模型,并基于所述高维向量预设参数训练方法训练所述原始反欺诈模型,得到所述反欺诈模型;将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件;将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型,有利于分析案件的异常行为,提升了检测的准确率。
参见图3所示,本申请实施例还相应公开了一种异常理赔案件检测装置,包括:
数据集获取模块11,用于从保险理赔数据库中获取历史数据集;
数据集转化模块12,用于将所述历史数据集转化为高维向量;
异常案件检测模块13,用于将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件;
欺诈类型检测模块14,用于将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。
可见,本申请包括:从保险理赔数据库中获取历史数据集,并将所述历史数据集转化为高维向量;所述高维向量为维度数量满足预设高维条件的向量;将所述高维向量输入反欺诈模型进行预设异常案件检测操作,以得到目标异常案件;将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。由此可见,本申请通过训练数据集生成高维向量特征集,然后利用高维特征向量集训练非线性模型生成反欺诈模型,用于潜在异常案件检测,有利于分析案件的异常行为,提升了检测的准确率。
在一些具体实施例中,所述数据集获取模块11,具体包括:
原始数据获取单元,用于从全部理赔记录中获取原始数据;
数据预处理单元,用于对所述原始数据执行数据预处理操作,以得到预处理数据;
历史数据集构建单元,用于基于所述预处理数据以及预先获取的用于进行数据集划分的意见集合构建所述历史数据集;
目标模型构建单元,用于基于所述特征提取模型、所述反欺诈模型以及所述欺诈类型检测模型构建目标模型;
模型包装单元,用于将所述目标模型部署至容器中并进行包装,并以同步接口的形式执行所述从保险理赔数据库中获取历史数据集的步骤;
历史数据集获取单元,用于从保险理赔数据库中获取历史数据集。
在一些具体实施例中,所述数据集转化模块12,具体包括:
特征提取模型获取单元,用于获取预先训练的特征提取模型;
变量确定单元,用于将所述历史数据集中的所述训练数据集输入至所述特征提取模型,以便基于预设变量确定规则确定所述历史数据集中的欺诈变量以及干扰变量;
欺诈变量百分比调整单元,用于通过所述预设特征变换操作将所述欺诈变量的百分比提高至预设欺诈阈值;
干扰变量百分比调整单元,用于将所述干扰变量的百分比降低至预设干扰阈值,以得到所述高维向量;所述高维向量为维度数量满足预设高维条件的向量。
在一些具体实施例中,所述异常案件检测模块13,具体包括:
高维向量输入单元,用于将所述高维向量输入原始反欺诈模型;
反欺诈模型获取单元,用于基于所述高维向量预设参数训练方法训练所述原始反欺诈模型,得到所述反欺诈模型;其中,所述预设参数训练方法包含交叉验证以及网格搜索;
概率值计算单元,用于将所述高维向量输入所述反欺诈模型计算对应的用于表征为所述目标异常案件的概率值;
概率值判断单元,用于判断所述概率值是否大于或等于预设阈值;
目标异常案件判定单元,用于若所述概率值大于或等于所述预设阈值,则判定当前案件为所述目标异常案件并触发报警;
正常案件判定单元,用于若所述概率值小于所述预设阈值,则判定当前案件为正常案件并结束。
在一些具体实施例中,所述欺诈类型检测模块14,具体包括:
欺诈类型检测单元,用于将所述目标异常案件输入欺诈类型检测模型,以得到所述目标异常案件对应的目标异常类型。
进一步的,本申请实施例还提供了一种电子设备。图4是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图4为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的异常理赔案件检测方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的异常理赔案件检测方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。可以理解的是,如图5所示,为保证模型及相关计算机程序部署的便利性和通用性,采用了容器中间件作为模型及其配套的计算机程序222的包装,使模型能不受限制的部署在任意容器支持的软硬件及操作系统平台上,支持包括但不限于X86、ARM、MIPS等架构的处理器;Windows、Unix、Linux等操作系统平台。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的异常理赔案件检测方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种异常理赔案件检测方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
- 医保理赔费用检测方法、装置、计算机设备和存储介质
- 一种液位检测装置和包含其的设备以及液位检测方法、电子设备及计算机可读存储介质
- 一种存储系统的状态检测方法、装置、设备及存储介质
- 一种软件运行异常的分析方法、装置、电子设备及存储介质
- 医保报销异常检测方法、装置、计算机设备和存储介质
- 一种存储设备的异常检测方法、装置、设备及存储介质
- 一种接触网紧固件异常检测方法、设备、检测装置及存储介质