免体检额度预测方法、装置、电子设备及存储介质

文献发布时间：2023-06-19 16:04:54

技术领域

本申请涉及数据处理技术领域，尤其涉及一种免体检额度预测方法、装置、电子设备及存储介质。

背景技术

目前，保险行业在进行核保时，对于高风险客户和低风险客户均采用统一的免体检额度标准，并未针对高风险客户和低风险客户动态制定免体检额度。对于高风险客户来说，免体检额度过低，容易增加该客户逆选择的风险，使客户承担过大风险，承保质量较低。对于低风险客户来说，免体检额度过高，容易使该客户产生抵触心理，进而导致因体检导致保单的脱落，既不利于业务的发展，也不利于客户的承保体验。因此，亟需一种动态给出客户免体检额度的方案。

发明内容

有鉴于此，本申请的目的在于提出一种免体检额度预测方法、装置、电子设备及存储介质。

基于上述目的，本申请第一方面提供一种免体检额度预测方法，包括：

获取历史保单数据；

基于所述历史保单数据对机器学习模型进行训练，得到客户风险分级模型；

根据所述客户风险分级模型，确定投保客户的风险等级；

基于预设的精算假设模型和所述风险等级，确定所述投保客户的最优免体检额度。

进一步地，所述基于所述历史保单数据对机器学习模型进行训练，得到客户风险分级模型包括：

根据所述历史保单数据生成训练数据，并对所述训练数据进行标注，其中，短期出险的保单对应的训练数据标记为阳性样本，非短期出险的保单对应的训练数据标记为阴性样本；

对标注好的训练数据进行均衡处理；

利用过滤式特征筛选方法对均衡处理后训练数据进行特征选择，得到输入特征；

将所述输入特征输入至少两个机器学习模型中，输出对应的风险预测结果；

根据模型效果评估指标对每个所述机器学习模型进行评估，以确定所述客户风险分级模型。

进一步地，所述精算假设模型的表达式如下：

其中，Profit表示总利润现值，m表示免体检额度，m

进一步地，所述基于预设的精算假设模型和所述风险等级，确定所述投保客户的最优免体检额度包括：

根据所述风险等级、地区和年龄段对客户进行划分人群；

通过调整免体检额度，使所述总利润现值到达最大值，并将当前的免体检额度作为所述投保客户对应人群的最优免体检额度。

进一步地，所述历史单数据包括：保单信息、投保人信息、被保人信息、销售员信息和受益人信息。

进一步地，所述过滤式特征筛选方法包括：卡方检验、互信息、基尼系数或IV值。

进一步地，所述模型效果评估指标包括：准确率、精确率、召回率和ROC曲线下面积AUC。

基于同一发明构思，本申请第二方面提供一种免体检额度预测装置，包括：

数据获取模块，被配置为获取历史保单数据；

模型构建模块，被配置为基于所述历史保单数据对机器学习模型进行训练，得到客户风险分级模型；

风险预测模块，被配置为根据所述客户风险分级模型，确定投保客户的风险等级；

免体检额度预测模块，被配置为基于预设的精算假设模型和所述风险等级，确定所述投保客户的最优免体检额度。

基于同一发明构思，本申请第三方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

基于同一发明构思，本申请第四方面提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行第一方面所述的方法。

从上面所述可以看出，本申请提供的免体检额度预测方法、装置、电子设备及存储介质，将机器学习模型和精算假设模型相结合，其中，机器学习模型能够评估客户的风险等级，而精算假设模型能够进行承保利润分析，通过将二者进行有效结合，解决了免体检额度相对固定的现状，通过机器学习模型对客户的承保风险进行分析，通过精算假设模型对变更后的免体检额度给保险公司带来的收益进行计算，从而在有效控制承保风险的基础上，能够动态给出客户的免体检额度，使低风险客户享受更高的免体检额度，降低高风险客户的免体检额度，在提升客户承保体验的同时，促进业务的发展，增加保险公司的保费收入。

附图说明

为了更清楚地说明本申请或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的免体检额度预测方法流程图；

图2为本申请实施例的客户风险分级模型的构建和训练方法流程图；

图3为本申请实施例的最优免体检额度确定方法流程图；

图4为本申请实施例的免体检额度预测装置结构示意图；

图5为本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本申请进一步详细说明。

需要说明的是，除非另外定义，本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如背景技术部分所述，相关技术中的免体检额度的确定方案还难以满足需要，一般通过人为设置免体检额度，无论是高风险客户还是低风险客户都采用同一标准。申请人在实现本申请的过程中发现现有技术中的免体检额度的确定方案至少存在以下问题：对高风险客户和低风险客户设置统一的免体检额度标准，当免体检额度过高时，高风险客户逆选择的风险较高，高风险客户承担的风险较大，保险公司的承保质量较低；当免体检额度过低时，低风险客户的体检概率增加，客户对保险公司提出的体检行为较为抵触，不利于客户的承保体验，且容易因体检导致保单脱落，不利于保险公司的业务发展。

有鉴于此，本申请实施例提供一种免体检额度预测方法，基于机器学习和精算假设差异化设定客户的免体检额度。其中，通过构建并训练客户风险分级模型，得到客户的风险等级评估结果，将风险等级评估结果输入至精算假设模型中，得到对应客户的承保利润分析结果，将总利润现值达到最大时对应的免体检额度作为该客户的最优免体检额度。

以下，通过具体实施例来详细说明本申请的技术方案。

参考图1，本申请一个实施例提供的一种免体检额度预测方法，具体包括以下步骤：

步骤S101，获取历史保单数据。

本步骤中，历史单数据包括：保单信息、投保人信息、被保人信息、销售员信息和受益人信息。

步骤S102，基于所述历史保单数据对机器学习模型进行训练，得到客户风险分级模型。

本步骤中，机器学习模型可采用随机森林、Xgboost、LightGBM等算法。

步骤S103，根据所述客户风险分级模型，确定投保客户的风险等级。

本步骤中，通过逻辑回归方式将客户风险分级模型输出结果转化为分数的形式，并根据分数分布情况进行等级的划分。

此外，采用Docker+Flask+uwsgi+Nginx的部署方式，以uwsgi作为后端web服务器，通过配置其进程数、线程数等参数信息，增强其接收客户端并发请求能力；将Flask框架与uwsgi服务器一同封装在Docker容器中，方便快速复制与部署应用到不同服务器上；最后利用Nginx作为统一的反向代理服务器接受来自客户端的请求，再将请求分发到web服务器上，起到负载均衡作用

步骤S104，基于预设的精算假设模型和所述风险等级，确定所述投保客户的最优免体检额度。

可见，本实施例提供的免体检额度预测方法，将机器学习模型和精算假设模型相结合，其中，机器学习模型能够评估客户的风险等级，而精算假设模型能够进行承保利润分析，通过将二者进行有效结合，解决了免体检额度相对固定的现状，通过机器学习模型对客户的承保风险进行分析，通过精算假设模型对变更后的免体检额度给保险公司带来的收益进行计算，从而在有效控制承保风险的基础上，能够动态给出客户的免体检额度，使低风险客户享受更高的免体检额度，降低高风险客户的免体检额度，在提升客户承保体验的同时，促进业务的发展，增加保险公司的保费收入。

在一些实施例中，结合图2，对于前述实施例中的步骤S102，其还可以包括以下步骤：

步骤S1021，根据所述历史保单数据生成训练数据，并对所述训练数据进行标注，其中，短期出险的保单对应的训练数据标记为阳性样本，非短期出险的保单对应的训练数据标记为阴性样本。

具体的，设置短期出险的期限为三年，将短期出险的理赔情况作为目标变量，即如果保单在承保后三年内发生理赔，则将对应保单标记为阳性样本，否则标记为阴性样本。

步骤S1022，对标注好的训练数据进行均衡处理。

本步骤中，通过采用随机欠采样、随机过采样、smote采样等方式对数据进行均衡处理，使阳性样本数量和阴性样本数量尽量保持平衡。

步骤S1023，利用过滤式特征筛选方法对均衡处理后训练数据进行特征选择，得到输入特征。

本步骤中，所述过滤式特征筛选方法包括：卡方检验、互信息、基尼系数或IV值。此外，也可通过嵌入式(Embedded)特征筛选方法进行特征选择，；例如：lgb、xgb等机器学习模型。

步骤S1024，将所述输入特征输入至少两个机器学习模型中，输出对应的风险预测结果。

步骤S1025，根据模型效果评估指标对每个所述机器学习模型进行评估，以确定所述客户风险分级模型。

本步骤中，模型效果评估指标包括：准确率、精确率、召回率和ROC曲线下面积AUC。通过对不同机器学习模型的效果进行评估，选择预测效果最优的机器学习模型作为最终的客户风险分级模型。

在一些实施例中，所述精算假设模型的表达式如下：

其中，Profit表示总利润现值，m表示免体检额度，m

需要说明的是，

例如：保险产品A，其赔付条件为满足疾病确诊定义或身故，不再续缴保费且发生赔付，赔付概率服从经验发生率表；同时，该保险产品的缴费期限为n

在一些实施例中，参考图3，对于前述实施例中的步骤S104，其还可以包括以下步骤：

步骤S1041，根据所述风险等级、地区和年龄段对客户进行划分人群。

本步骤中，用客户风险分级模型对客户进行分级后，将客户风险等级、地区、年龄段相同的人群划分为一个群体，评估该群体的最佳免检额，以划分后的一个人群为例，设定免体检额为m，保额高于m的人群全部体检，保单数为m

步骤S1042，通过调整免体检额度，使所述总利润现值到达最大值，并将当前的免体检额度作为所述投保客户对应人群的最优免体检额度。

本步骤中，当免体检额度发生变化时，对应的体检人数和免体检人数均会发生变化，进而导致精算假设模型计算得到的总利润现值也发生改变。通过不断调整免体检额度，使得总利润现值达到最大，此时的免检额为对应风险等级、地区、年龄段下的最优免体检额度。

需要说明的是，本申请实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种免体检额度预测装置。

参考图4，所述免体检额度预测装置，包括：

数据获取模块401，被配置为获取历史保单数据。

模型构建模块402，被配置为基于所述历史保单数据对机器学习模型进行训练，得到客户风险分级模型。

风险预测模块403，被配置为根据所述客户风险分级模型，确定投保客户的风险等级。

免体检额度预测模块404，被配置为基于预设的精算假设模型和所述风险等级，确定所述投保客户的最优免体检额度。

作为一个可选的实施例，所述模型构建模块402具体被配置为根据所述历史保单数据生成训练数据，并对所述训练数据进行标注，其中，短期出险的保单对应的训练数据标记为阳性样本，非短期出险的保单对应的训练数据标记为阴性样本；对标注好的训练数据进行均衡处理；利用过滤式特征筛选方法对均衡处理后训练数据进行特征选择，得到输入特征；将所述输入特征输入至少两个机器学习模型中，输出对应的风险预测结果；根据模型效果评估指标对每个所述机器学习模型进行评估，以确定所述客户风险分级模型。

作为一个可选的实施例，所述精算假设模型的表达式如下：

其中，Profit表示总利润现值，m表示免体检额度，m

作为一个可选的实施例，所述免体检额度预测模块404具体被配置为根据所述风险等级、地区和年龄段对客户进行划分人群；

通过调整免体检额度，使所述总利润现值到达最大值，并将当前的免体检额度作为所述投保客户对应人群的最优免体检额度。

作为一个可选的实施例，所述历史单数据包括：保单信息、投保人信息、被保人信息、销售员信息和受益人信息。

作为一个可选的实施例，所述过滤式特征筛选方法包括：卡方检验、互信息、基尼系数或IV值。

作为一个可选的实施例，所述模型效果评估指标包括：准确率、精确率、召回率和ROC曲线下面积AUC。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的免体检额度预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的免体检额度预测方法。

图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的免体检额度预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的免体检额度预测方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的免体检额度预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本申请的范围(包括权利要求)被限于这些例子；在本申请的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本申请实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本申请实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本申请实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本申请的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本申请的具体实施例对本申请进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本申请实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：于高升;朱涛;
专利申请人：中国人寿保险股份有限公司;