一种退保预警方法及系统

文献发布时间：2023-06-19 18:30:43

技术领域

本发明涉及计算机技术领域，特别涉及一种退保预警方法及系统。

背景技术

保险公司的主要业务是开发保险和理财产品向客户售卖，而保险和理财产品是一种长期性、连续性的产品，需要客户不断的续保，在客户长期的续保过程中，很多客户会因为各种各样的原因而选择退保。退保对保险公司来说是一项损失，不仅会损失该项保单业务，甚至会直接损失一个客户，因此，维护老的客户续保和开拓新客户售卖产品同等重要。

一般来说，当客户决定退保时，大多是客户经过深思熟虑的结果，基本都是无法挽回了。但是，在客户决定退保前，客户都会经过一段时间的考虑，若能在这段时期就发现客户的退保想法，提前介入就有可能挽回客户，从而减小损失。因此，能否提前预警到客户的退保想法显得尤为重要。

发明内容

为了解决上述问题，本发明提供一种退保预警方法及系统。

本发明的上述技术目的是通过以下技术方案得以实现的：一种退保预警方法，包括：

S1：建立退保预警数据库；

S2：调取与客户通话录音的文字文本；

S3：筛选出客户的录音文本数据，并进行分词；

S4：提取客户录音文本数据中的关键词；

S5：将提取的关键词与退保预警数据库进行对比判断；

S6：评估该客户的退保风险并发出预警信号。

通过采用上述技术方案，建立退保预警数据库，将客户的录音文本数据通过分词技术和关键词提取技术找出客户录音文本数据里的关键词，再将该关键词与退保预警数据库中的关键词进行对比判断，从而评判出该客户的退保风险并及时反馈，便于保险机构预先了解客户动向，提前介入挽留客户，降低退保风险。

进一步的，所述建立退保预警数据库包括：

S1.1：调取海量已退保客户通话录音的文字文本；

S1.2：筛选出客户通话录音文字文本，并进行分词；

S1.3：提取客户通话录音文字文本中的关键词存入数据库。

通过采用上述技术方案，根据已退保客户的通话录音来作为原始资料建立数据库，针对性强，便于更精准的提取客户退保的关键词。

进一步的，所述步骤S1.3中关键词的提取采用TF-IDF算法，通过TF-IDF算法计算出各分词在客户通话录音文字文本中所占的权重，提取所占权重大的分词作为关键词。

通过采用上述技术方案，采用TF-IDF算法，通过词频(TF)和逆文档频率(IDF)的乘积计算出每个分词的TF-IDF值，根据TF-IDF值的大小来判断分词在整个文本中的重要性，从而确定各客户通话录音文字文本的关键词。

进一步的，所述从客户录音文本数据中提取的关键词包括类别关键词和程度关键词，所述类别关键词为客户退保原因所属的类别，所述程度关键词为客户退保原因中类别关键词的程度副词。

通过采用上述技术方案，将关键词分为类别关键词和程度关键词，通过类别关键词和程度关键词的结合来判断客户的退保风险，精准度高。

进一步的，所述关键词还包括与其语义相近的关联词。

通过采用上述技术方案，在关键词中增加与其语义相近的关联词，将语义相似度在90％以上的词语均定义为关联词，从而扩大关键词的匹配范围，提高预警的准确度。

进一步的，所述步骤S6中的退保风险评估是先将客户录音文本数据中的类别关键词与退保预警数据库中的类别关键词进行对比，若无相关性，则判定无退保风险；如有相关性，则提取客户录音文本数据中该类别关键词所对应的程度关键词，根据程度关键词的语义程度判定有无退保风险。

通过采用上述技术方案，先根据类别关键词进行初判，筛选出不存在退保关键词的数据，然后再对存在退保关键词的数据进行细判，根据程度关键词来判断客户的退保意向，从而评估客户的退保风险，为退保预警提供支撑。

进一步的，所述步骤S3和步骤S1.2中分词的方法采用jieba库加载自定义的停用词典和自定义字典进行分词。

通过采用上述技术方案，采用jieba库加载自定义的停用词典和自定义字典进行分词，便于后续利用TF-IDF算法进行提取关键词。

一种退保预警系统，包括退保预警数据库、对比分析单元和预警提示单元，所述退保预警数据库用于收集并不断补充完善退保关键词；所述对比分析单元用于提取客户录音文本数据中的关键词并与退保预警数据库进行对比分析，评判退保风险；所述预警提示单元将对比分析单元评判有退保风险的客户录音文本数据进行标记并发出预警提示。

通过采用上述技术方案，设置退保预警数据库、对比分析单元和预警提示单元，分别用于建立和完善数据库、对比并评判退保风险、标记并发出预警提示，从而形成一整套的提取、对比、评判、预警流程，实现客户退保的自动筛选和自动预警。

综上所述，本发明具有以下有益效果：

1、本申请中，通过建立退保预警数据库，将客户的录音文本数据通过分词技术和关键词提取技术找出客户录音文本数据里的关键词，将该关键词与退保预警数据库中的关键词进行对比判断，从而评判出该客户的退保风险并及时反馈，便于保险机构预先了解客户动向，提前介入挽留客户，降低退保风险；

2、本申请中，通过设置退保预警数据库、对比分析单元和预警提示单元，分别用于建立和完善数据库、对比并评判退保风险、标记并发出预警提示，从而形成一整套的提取、对比、评判、预警流程，实现客户退保的自动筛选和自动预警。

附图说明

图1是本发明实施例的流程示意图；

图2是本发明实施例建立退保预警数据库的流程示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1-2所示，本申请实施例公开一种退保预警方法，主要应用于重疾险、医疗险等险种，包括以下步骤：

S1：建立退保预警数据库，具体如下：

S1.1：调取海量已退保客户通话录音的文字文本，具体的，可根据工单类型找出理赔投诉类工单对应的录音文字文本编号，然后根据录音文字文本编号找出涉及理赔投诉的相关录音文字文本。

S1.2：在上述文字文本中筛选出客户通话录音文字文本，将客服人员的录音文本数据删除，可以减少客服人员录音文本数据对后续提取关键词的干扰，使得关键词的提取更加准确。然后采用jieba分词技术，通过jieba库加载自定义的停用词典和自定义字典进行分词，将客户通话录音文字文本中文句子切分成一个个较短的分词。

S1.3：采用TF-IDF算法提取客户通话录音文字文本中的关键词并存入数据库，通过TF-IDF算法计算出各分词在客户通话录音文字文本中所占的权重，即TF-IDF值，提取所占权重大的分词作为关键词。具体的，各分词的TF-IDF值为TF和IDF的乘积，TF为词频，即表示词条t在文档d中出现的频率，计算公式如下：

IDF为逆文档频率，可以由总文档d的数目除以包含词条t的文档d的数目，再将得到的商取对数得到，计算公式如下：

词条t在文档d中的TF-IDF值即为：

TF-IDF值＝TF×IDF

TF值和IDF值越大，则TF-IDF值越大，即当词条t在文档d中出现的次数越大、包含词条t的文档d的数目越大，就会使得TF-IDF值越大，也就说明词条t在文档d中的重要性越大，因而将所有文档中TF-IDF值靠前的词条t作为关键词存入数据库。在采用TF-IDF算法过程中，会出现如“的”、“是”、“在”等这一类最常用的词，把这一类词叫做“停用词”，“停用词”在退保预警中不存在实际意义，因此需要将这一类“停用词”过滤掉。

TF-IDF算法的优点是简单快速，结果比较符合实际情况，通过TF-IDF算法从已退保客户的录音文本数据中提取出前200个TF-IDF值大的词，如：‘退保’、‘不满意’、‘报销’、‘生气’、‘赔付’、‘服务态度’、‘不好’、‘差’……这一类词与客户退保有着非常重要的关系，存入数据库中可以作为退保预警风险评判的依据。

上述从客户通话录音文字文本中提取的关键词包括类别关键词和程度关键词，这些关键词还包括与其语义相近的关联词，在数据库中需要将这些关键词进行分类。关联词指的是与关键词语义相近的词，主要是由于客户录音一般都是白话式表达，考虑到不同地区、不同层次的客户的表达习惯以及方言等问题，对同一个词可能会有多种叫法或表达，因为讲这些语义相同或相近，但表述不同的词作为关联词补充到关键词中，再对关键词进行分类时，语义相近的关联词会与对应的关键词归属到同一类。类别关键词为客户退保原因所属的类别，根据提取的关键词进行整理，从而归纳出客户退保的原因包括哪些类型，再将这些类型相关的关键词归属到一个类别中去，如提取的关键词中有‘服务’、‘态度’等词，可以将这些词及相关的关联词给归属到‘服务态度’一类；如‘报销’、‘报哪些’、‘怎么报’等词，可以给归属到‘报销范围’一类，进而将类别关键词归类为‘服务态度’、‘报销范围’、‘赔付范围’、‘价格’等类型。

程度关键词则是客户退保原因中类别关键词的程度副词。比如‘好’、‘不好’、‘差’、‘很差’、‘一般’、‘贵’、‘少’、‘小’、‘广’、‘不满意’、‘满意’、‘恶劣’等，这一类词一般是对应类别关键词出现的，用于对类别关键词进行补充说明，表明客户对类别关键词所表现出的情绪。可以是消极的也可以是积极的，像‘不好’、‘差’、‘很差’、‘恶劣’等词一般是对‘服务态度’的进一步说明，‘贵’、‘很贵’、‘好贵’、‘不便宜’等词可能是对‘价格’的进一步说明，‘少’、‘好少’、‘小’等词则是对‘报销范围’、‘赔付范围’的进一步说明，进而通过类别关键词和程度关键词的组合，如‘服务态度差’、‘价格贵’、‘报销范围少’等，继而可以作为评判客户退保风险的依据。

S2：调取与客户通话录音的文字文本。

S3：在与客户通话录音的文字文本中筛选出客户的录音文本数据，将客服人员的录音文本数据删除，可以减少客服人员录音文本数据对后续提取关键词的干扰，使得关键词的提取更加准确。然后采用jieba分词技术，通过jieba库加载自定义的停用词典和自定义字典进行分词，将客户通话录音文字文本中文句子切分成一个个较短的分词。

S4：采用TF-IDF算法提取该客户录音文本数据中的关键词。

S5：将提取的关键词与退保预警数据库中的关键词进行对比判断；

S6：评估该客户的退保风险并发出预警信号，具体的，先将客户录音文本数据中的类别关键词与退保预警数据库中的类别关键词进行对比，若无相关性，即客户录音文本数据中的类别关键词没有在退保预警数据库中出现，则说明该客户录音文本数据并未涉及到相关的退保原因，便判定无退保风险；如有相关性，即客户录音文本数据中的类别关键词出现在退保预警数据库中，则提取客户录音文本数据中该类别关键词所对应的程度关键词，根据程度关键词的语义程度判定有无退保风险，主要依据程度关键词所体现的消极或积极情绪来判定。例如，类别关键词为‘赔付范围’，对应的程度关键词为‘少’、‘小’、‘窄’、‘不够’等消极类词语时，即可判定客户对赔付范围并不满意，从而就会存在退保风险；若对应的程度关键词为‘大’、‘广’、‘多’等积极类词语时，则说明客户对赔付范围比较满意，从而就不会存在退保风险。

本实施例还公开了一种退保预警系统，包括退保预警数据库、对比分析单元和预警提示单元，采用上述的退保预警方法。具体的，退保预警数据库用于收集并不断补充完善退保关键词，即首先根据已退保客户的通话录音文字文本来进行关键词的提取，从而建立数据库；在后续的不断使用过程中，客户录音文本数据的量会不断增加，这样就可能会有新的关键词和关联词出现，退保预警数据库需要将这些新的关键词和关联词不断补充到数据库，从而使得数据库不断扩大，收集到的关键词越来越多，会使得后期的对比分析更加准确。对比分析单元主要用于提取客户录音文本数据中的关键词并与退保预警数据库进行对比分析，通过类别关键词和程度关键词的组合来评判客户是否存在退保风险；预警提示单元将对比分析单元评判有退保风险的客户录音文本数据进行标记并发出预警提示，保险公司可根据预警提示单元标记的客户录音文本数据找到客户信息，联系客户解决客户所关心的问题，从而尽可能降低客户的疑虑，打消客户的退保想法，降低退保率。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：万军民;江渔剑;于振亚;
专利申请人：上海恒格信息科技有限公司;

上一篇：一种废气处理系统及其净化处理方法
下一篇：一种煤层风氧化指标及深度的判定方法