一种基于主题模型的相似诉求工单筛选方法和装置

文献发布时间：2023-06-19 12:10:19

技术领域

本发明涉及到一种相似诉求工单筛选方法，特别涉及一种基于主题模型的相似诉求工单筛选方法和装置。

背景技术

随着社会服务的不断发展，社会服务中诉求受理问题愈发多样化，接诉即办的呼声也越来越高。如何快速筛选出相似诉求工单，精确给出预测结果，最终实现接诉即办的半自动化处理，提升工作质量，提高诉求解决方案准确率，减少人工的目的，成为当前相似诉求工单筛选工作中一项急需解决的问题。

目前，相似诉求工单筛选的方式大多以人工经验判断为主，诉求受理人员根据诉求的不同内容，结合以往经验，回忆相似工单。但这种方式随着诉求数据的不断变大，使业务人员逐渐呈现出工作效率低下等问题。

在大数据挖掘技术的不断发展的背景下，相关人员研究出基于统计学、机器学习等与业务人员经验知识相融合的方法进行相似工单的智能化筛选，统计学类方法主要基于已获取大量历史诉求数据，对数据进行数据预处理(如文本数据分词等)后，对历史数据中高频词进行统计，得到诉求工单的关键词。当得到一条新诉求数据后，首先通过关键词进行搜索，并计算工单相似度，从而确定相似工单。另一类方法主要结合自然语言处理TF-IDF算法，将大量历史诉求数据进行数据分词后，利用TF-IDF机器学习算法提取全部历史工单的高频关键词，将全部历史工单的高频关键词作为筛选参考模型。针对新诉求数据对模型关键词进行余弦相似度计算，最终确定相似诉求工单。但随着社会问题不断多样化，关键词不断增多，新词不断出现，数据愈发嘈杂，业务复杂性和各部门间职能存在交叉的状况，现有相似工单筛选的准确率不高，并且基于统计学、机器学习方法的时间复杂度和空间复杂度都为O(n)，难以满足在业务人员处理问题时快速反馈相似工单的要求，致使办理效率底下，办理部门反复推诿，诉求转办效率不能满足诉求接诉即办的需求。

综上所述，为满足诉求数据不断扩大，准确快速筛选相似诉求并使相似诉求与目标诉求尽可能相似，本发明设计了一种基于主题模型的相似诉求工单筛选方法和装置，采用基于“词袋词频向量+LDA+快速发现新诉求部门分类+相似度计算”的主题模型方法快速准确给出与新诉求数据相似的历史工单，此方法属于无监督训练，可更好实现诉求数据筛选相似工单。

发明内容

对历史诉求数据进行数据预处理操作，主要包括空值数据清洗、数据规范化。根据规范化数据在实际情况下所属的不同办理部门对数据分组，将分组后的各办理部门数据采用 jieba分词进行特征词提取，并运用统计学方法提取关键词形成词袋词频向量，然后应用LDA 算法训练各部门分类数据，构建对应的主题模型。获取一条新来诉求数据后，结合权重叠加、根据权重和排序确定前3个候选分类。根据目标工单的时间范围与智能分类所从得候选分类，筛选历史数据，将目标工单与符合要求的历史工单进行相似度计算，最终确定相似工单TOP5。

本发明所采用的技术方案如下：

一种基于主题模型的相似诉求工单筛选方法和装置，包括以下步骤：

A.基于各不同办理部门诉求数据，采用jieba.analyse分词算法进行诉求特征词提取，并对运用统计学方法对各部门历史诉求数据构建词袋词频向量。

B.应用LDA算法对筛选后各部门词袋词频向量进行训练，构建对应主题模型。通过调整狄利克雷分布函数中超参数，得到不同办理部门的LDA模型，基于所得各办理部门LDA主题模型，对所得各办理部门模型数据以“主题词*权重”的形式整合到总模型库中，得到办理部门总模型。

C.针对新来诉求根据各办理部门LDA模型进行权重叠加，根据权重和排序确定前3个候选部门分类。

D.根据目标工单的时间范围与步骤C智能分类所得候选分类，确定筛选的历史数据；将目标工单与符合要求的历史工单进行相似度计算，最终确定相似度前5的工单。

步骤A中，在对已获取数据进行jieba.analyse分词时，将全部部门诉求数据作为总语料库，根据关键词在不同部门中的出现情况计算IDF值，得到各个数据的分词结果；根据数据分词结果，结合统计学知识，针对不同部门，统计数据词频出现次数构建词袋词频向量。

步骤B中，在LDA模型训练时，输入数据为各办理部门的词袋词频向量，通过设置主题数为1，通过得到的词-主题矩阵、关键词-文档矩阵、文档-主题矩阵的概率分布，调整狄利克雷分布函数中的超参数，得到修正模型，并最终得到各办理部门权重*主题词文档，如：[0.027*"交通"+0.022*"供水点"+0.020*"小区"+0.016*"街道"+0.014*"业主" +0.014*"生活"]。

步骤C中，在办理部门预测阶段，每获取一条新来诉求数据，通过权重叠加，确定其中3个候选部门。权重叠加是指，将新诉求数据的所有分词对每一办理部门模型逐一进行主题词权重叠加，并取出权重最大的3个候选办理部门。

步骤D中，确定筛选历史工单步骤，根据新来诉求数据的时间，结合步骤C中的处理结果，筛选出3个候选部门中最近一个月的历史诉求；将目标与筛选出的历史诉求进行相似诉求拟合度计算公式如下：

根据相似度的值对符合要求的历史工单进一步调整，并取出历史相似诉求拟合度最高的五个工单，作为新诉求的相似工单。

附图说明

为了更清楚的说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为相似诉求工单筛选模块图。

图2为相似诉求工单筛选训练模型技术流程图。

图3为相似诉求工单筛选处理新诉求技术流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

我们使用中国某省的诉求热线数据进行测试。实验数据为2020年8月4日到2021年2月16日的诉求热线数据

步骤一，根据规范化数据在实际情况下所属的不同办理部门对数据进行分组，将全部诉求部门诉求作为总语料库，进行jieba分词。

步骤二，根据分词结果，运用统计学方法,统计每条诉求信息关键词出现次数，并汇总整个部门的诉求信息，形成部门的词袋词频向量。

步骤三，通过所得到的各部门词袋词频向量，使用基于狄利克雷分布的LDA主题模型训练算法对各办理部门进行模型训练，得到各办理部门模型数据。然后对所得各办理部门模型数据以“主题词*权重”的形式整合到总模型库中，得到办理部门总模型。

步骤四，每输入一条新诉求数据，使用已训练各办理部门主题模型，结合权重叠加、根据权重排序确定前3个候选部门。

步骤五，根据权重累加候选出的3个候选部门，筛选出目标工单前一个月的全部工单数据，将目标工单与筛选出的历史工单进行相似度计算，最终确定相似度排名前5的工单。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：黄伟;刘昕;李弟诚;席永轲;孙洪展;杨大伟;
专利申请人：中国石油大学(华东);

上一篇：一种可提高抗热冲击性能的玻璃及其制备方法
下一篇：—种微晶陶瓷板室内连续贴墙施工设备及其施工方法