运营商智能定责方法及装置
文献发布时间:2023-06-19 18:37:28
技术领域
本申请涉及深度学习领域,具体为一种基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法及装置。
背景技术
在运营商客服作业流程中,产生了大量的客户反馈意见,每天需要花费大量的人力物力进行意见的原因追踪和定责,对这些客户的投诉工单进行传统的人工定责时,需要花费大量的人力、物力和时间,且人工的定责效率较低。
关键词提取从最早期开始,主要是基于词典与规则的方法,它们依赖于语言学家的手工构造的规则模板,容易产生错误,不同领域间无法移植。因此,这种方法只能处理一些简单的文本数据,对于复杂非结构化的数据却无能为力。随后主要是基于统计机器学习的方法,这些方法包括隐马尔可夫模型(HMM)、最大熵模型(MEM)、支持向量机(SVM)和条件随机场(CRF)等。但是这些方法在特征提取方面仍需要大量的人工参与,且严重依赖于语料库,识别效果并非很理想。
所以,近些年来,深度学习被应用到中文关键词提取研究上。基于深度学习的方法,是通过获取数据的特征和分布式表示,避免繁琐的人工特征抽取,具有良好的泛化能力。深度学习出现了许多这个领域的研究,如LSTM-CRF、BiLSTM-CRF、CNN-CRF和CNN-BiLSTM-CRF等许许多多神经网络模型,这些模型都在关键词提取上展现出了很好的效果。
然而,以上方法存在这样的一个问题:这些方法无法表征一词多义,因为它们主要注重词、字符或是词与词之间的特征提取,而忽略了词上下文的语境或语义,这样提取出来的只是一种不包含上下文语境信息的静态词向量,因而导致其实体识别能力下降。为解决该问题,现有技术提出来一种BERT进一步增强词向量模型泛化能力,充分描述字符级、词级、句子级甚至句间关系特征,更好地表征不同语境中的句法与语义信息。
又因为虽然人工神经网络能够准确做出预测,但也存在收敛速度慢、容易陷入局部最小化等问题,且贝叶斯神经网络可以更好避免过拟合。
鉴于此,克服该现有技术产品所存在的不足是本技术领域亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法及装置,基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法,能够结合词间和句间的语义,很好的识别投诉工单中的关键词,并通过关键词进行工单的智能定责,正确快速追踪到投诉责任的归属方,更快的解决客户问题,提升工单处理效率,最终提升服务质量和用户满意度。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法,所述方法包括步骤:
S1:获取通信运营商的投诉工单语料库,基于所述投诉工单语料库对工单进行数据清洗,得到清洗好的工单;
S2:将清好的工单输入至BERT模型,得到训练数据的词向量;
S3:采用CRF算法对词向量进行特征提取,得到特征词序列;
S4:将特征词序列输入贝叶斯神经网络模型进行训练,调优参数,形成问题根因分析模型;
S5:根据问题根因分析模型对待定责的工单进行分析,确定责任归属。
进一步地,所述获取通信运营商的投诉工单语料库,基于所述投诉工单语料库对工单进行数据清洗,得到清洗好的工单包括:
获取工单数据的产品类型、服务类型和服务内容;
对产品类型和服务类型进行规范化处理,使用下划线符号替换产品类型和服务类型中的正斜杠符号,使用连字符拼接产品类型和服务类型,生成工单类型;
对服务内容进行文本预处理,将所有的字母转换为小写,并使用Tokenizer对文本进行处理,得到处理后的数据;
将处理后的数据进行ecode处理,将处理后的数据转变为词嵌入、类型嵌入和位置嵌入,得到清洗好的工单。
进一步地,所述BERT模型采用双向Transformer作为编码器,以融合字左右两侧的上下文;
其中,Transformer采用了多头模式,以扩展模型专注于不同位置,增大注意力单元的表示子空间。
进一步地,所述BERT模型的编码单元中加入残差网络,如下式所示:
其中,
按照如下公式计算多头注意力机制的输出,如下式所示:
Transformer结构中的全链接前馈网络有两层dense,其中,第一层的激活函数是ReLU,第二层是一个线性激活函数,其中,
进一步地,所述采用CRF算法对词向量进行特征提取,得到特征词序列包括:
将BERT模型的输出作为CRF模块的输入,CRF能通过邻近标签的关系获得一个最优的预测序列,其中,给定条件随机场的观测序列f=f
其中,在CRF模块中,给定观测序列f和状态序列y的条件概率分布如式所示:
其中,ω
进一步地,所述采用CRF算法对词向量进行特征提取,得到特征词序列包括:
CRF采用极大似然估计进行训练,得到条件概率最大的输出序列;
经过CRF模块后,输出的是每一个工单的中的所有的特征词序列。
进一步地,所述将特征词序列输入贝叶斯神经网络模型进行训练,调优参数,形成问题根因分析模型包括:
通过贝叶斯神经网络将先验分布放置在其参数上,给定第i层的权值矩阵为w
进一步地,所述将特征词序列输入贝叶斯神经网络模型进行训练,调优参数,形成问题根因分析模型包括:
预先定义1个似然分布p(y|x,w),其中,x表示输入值、y表示输出值和w为神经网络的权值;
采用如下公式得到参数似然分布的后验概率函数,通过最大化后验概率获得参数点估计;
p(y
其中,x*表示通过积分预测新的输入数据,y*表示通过积分预测新的输出数据。
进一步地,所述将特征词序列输入贝叶斯神经网络模型进行训练,调优参数,形成问题根因分析模型包括:
在贝叶斯神经网络模型中,基于最大似然估计对参数进行识别,最大似然估计的公式为:
W
在最大似然估计中,将w取不同值概率视为均等,并不对w做出先验估计;如果为w引入先验估计,变成最大后验估计(MAP),公式如下所示:
W
W
在贝叶斯神经网络模型中包含隐含层,在将BERT+CRF所提取出的关键词使用doc2vec转换为300维的类句向量;
将句向量输入贝叶斯神经网络中,BP神经网络更新的是w和b,贝叶斯神经网络更新的参数是数据的均值和方差,通过极大似然估计方法得出α,σ
将上述公式反复迭代,直到满足收敛条件,然后将参数代入初始权值后验概率分布式中,求出权值的最优解。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种基于BERT+CRF的贝叶斯神经网络的运营商智能定责装置,包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现本申请所述的基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法。
本申请的有益效果是:本申请提供一种基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法及装置,所述方法包括步骤:获取通信运营商的投诉工单语料库,基于所述投诉工单语料库对工单进行数据清洗,得到清洗好的工单;将清好的工单输入至BERT模型,得到训练数据的词向量;采用CRF算法对词向量进行特征提取,得到特征词序列;将特征词序列输入贝叶斯神经网络模型进行训练,调优参数,形成问题根因分析模型;根据问题根因分析模型对待定责的工单进行分析,确定责任归属。
在本发明中,基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法,能够结合词间和句间的语义,很好的识别投诉工单中的关键词,并通过关键词进行工单的智能定责,正确快速追踪到投诉责任的归属方,更快的解决客户问题,提升工单处理效率,最终提升服务质量和用户满意度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法的流程示意图;
图2是本发明实施例提供的一种运营商智能定责系统的结构示意图;
图3是本发明实施例提供的一种基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法的技术模型图;
图4是本发明实施例提供的BERT+CRF的关键词提取模型图;
图5是本发明实施例提供的一种贝叶斯神经网络定责结构。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本申请中,“示例性”一词用来表示“用作例子、例证或说明”。本申请中被描述为“示例性”的任何实施例不一定被解释为比其它实施例更优选或更具优势。为了使本领域任何技术人员能够实现和使用本申请,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本申请。在其它实例中,不会对公知的结构和过程进行详细阐述,以避免不必要的细节使本申请的描述变得晦涩。因此,本申请并非旨在限于所示的实施例,而是与符合本申请所公开的原理和特征的最广范围相一致。
需要说明的是,本申请实施例方法由于是在电子设备中执行,各电子设备的处理对象均以数据或信息的形式存在,例如时间,实质为时间信息,可以理解的是,后续实施例中若提及尺寸、数量、位置等,均为对应的数据存在,以便电子设备进行处理,具体此处不作赘述。
实施例1:
在实际应用场景下,由于业务需求增长,投诉工单的类型与数量大大增加,而想要将投诉工单定责,人工一一核对定责消耗大量人力物力,而一些传统的监督学习、半监督学习、RNN、CNN等的工单定责的方法也无法满足日益增长的需求。本发明实施例融合BERT、CRF和贝叶斯神经网络,提出一种基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法,用于提高工单定责效率和准确度。
为了实现发明目的,采用的技术方案如下:
S1:获取通信运营商的投诉工单语料库,基于所述投诉工单语料库对工单进行数据清洗,得到清洗好的工单;
在本实施例中,获取工单数据,工单数据包括:产品类型、服务类型和服务内容等;对产品类型和服务类型进行规范化处理,使用下划线符号(_)替换产品类型和服务类型中的正斜杠符号(/),使用连字符(-)拼接产品类型和服务类型,生成工单类型。
对服务内容进行文本预处理,将所有的字母转换为小写,并使用Tokenizer对文本进行分词,并进行特殊字符删除、字符间间隔等处理;为了减少数据集的噪音,过滤服务内容的文本长度小于16或大于800的数据样本,而又因BERT输入的最大长度限制为512,去除[CLS][SEP]后还剩510个位置,所以内容文本长度应大于16小于510,这里常用的处理方式是a)直接截断;b)抽取重要片段;c)分段,本发明实施例选择直接截断的方式进行处理。
将处理后的数据进行ecode处理转变为词嵌入(token embedding)、类型嵌入(segment embedding)和位置嵌入(position embedding),其中,词嵌入的维度为768维,如果只有一句话,类型嵌入(segment embedding)为768维的数据全为0的矩阵,位置嵌入(position embedding)的公式表示具体如下:
其中,pos是词在词表中出现的位置序号,i是维度序号,2i和2i+1是交替出现的。
在本实施例中,将词嵌入、位置嵌入和类型嵌入作为BERT模型的输入。把每个数据集随即分割为训练集、验证集和测试集,通过训练集对BERT模型进行训练,通过验证集对BERT模型进行验证,通过测试集对BERT模型进行测试。
S2:将清好的工单输入至BERT模型,得到训练数据的词向量;
S3:采用CRF算法对词向量进行特征提取,得到特征词序列;
S4:将特征词序列输入贝叶斯神经网络模型进行训练,调优参数,形成问题根因分析模型;
S5:根据问题根因分析模型对待定责的工单进行分析,确定责任归属。
在本实施例中,对工单、客户反馈等的内容的加和后的词向量进行训练,整个算法由BERT模型、CRF算法和贝叶斯神经网络组成,具体结构如下:
其中,步骤S2具体包括如下步骤:
(1)为融合字左右两侧的上下文,BERT模型采用双向Transformer作为编码器,编码单元最主要的模块是自注意力(Self-Attention)部分,如式所示:
其中,Q、K、V均是输入字向量矩阵,d
为扩展BERT模型专注于不同位置的能力,增大注意力单元的表示子空间,Transformer采用了“多头”模式,如下式所示:
MultiHead(Q,K,V)=Concat(head
(2)为了解决深度学习中的退化问题,编码单元中加入残差网络,如下式所示:
Transformer结构中的全链接前馈网络有两层dense:第一层的激活函数是ReLU,第二层是一个线性激活函数,其中
(3)将BERT模型的输出作为CRF算法的输入,CRF能通过邻近标签的关系获得一个最优的预测序列,假设f=f
其中,ω
其中,步骤S3具体包括如下步骤:
(4)CRF算法采用极大似然估计进行训练,表达式如下,得到条件概率最大的输出序列。
经过CRF算法后,输出的是每一个工单的中的所有的特征词序列。
其中,步骤S4具体包括如下步骤:
(5)贝叶斯神经网络将先验分布放置在其参数上,给定第i层的权值矩阵为w
p(y
得到参数似然分布的后验概率函数后通过最大化后验概率获得参数点估计。
在贝叶斯神经网络中,参数识别通常基于最大似然估计(MLE),见公式:
W
(6)在最大似然估计中,将w取不同值概率视为均等,即并不对w做出先验估计。如果为w引入先验估计,就变成了最大后验估计(MAP),公式如下所示:
W
W
(7)由于贝叶斯神经网络隐含层层数过多时训练时间会很长,且容易出现过拟合现象,所以只使用一个隐含层,下面是具体的操作步骤:
在将BERT+CRF所提取出的关键词使用doc2vec转换为300维的类句向量,doc2vec会考虑关键词之间的相互关系,原理与world2vec类似;
将句向量输入贝叶斯神经网络中,BP神经网络更新的是w和b,贝叶斯神经网络更新的参数是数据的均值和方差,通过极大似然估计方法得出α,σ
将上述公式反复迭代,直到满足收敛条件,然后将参数代入初始权值后验概率分布式中,求出权值的最优解。
贝叶斯神经网络的激活函数选用ReLU函数,通过ReLU函数对工单进行分类,完成运营商内部的智能定责。
在本发明实施例中,基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法,能够结合词间和句间的语义,很好的识别投诉工单中的关键词,并通过关键词进行工单的智能定责,正确快速追踪到投诉责任的归属方,更快的解决客户问题,提升工单处理效率,最终提升服务质量和用户满意度。
实施例2:
结合图4和图5,为使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面对本发明的实施方式作进一步详细的说明:
(1)“FTP文件系统”获取原始工单数据,包括产品类型、服务类型、服务内容和接单班组;
(2)“数据处理系统”对产品类型和服务类型进行规范化处理,生成工单类型,每个工单类型单独生成相应的目录用于储存服务内容和模型;
(3)“数据处理系统”对服务内容进行数据预处理,使用BERT的tokenizer进行分词并剔除停用词与无效信息;
在本实施例中,获取工单数据,工单数据包括:产品类型、服务类型和服务内容等;对产品类型和服务类型进行规范化处理,使用下划线符号(_)替换产品类型和服务类型中的正斜杠符号(/),使用连字符(-)拼接产品类型和服务类型,生成工单类型。
对服务内容进行文本预处理,将所有的字母转换为小写,并使用Tokenizer对文本进行分词,并进行特殊字符删除、字符间间隔等处理;为了减少数据集的噪音,过滤服务内容的文本长度小于16或大于800的数据样本,而又因BERT输入的最大长度限制为512,去除[CLS][SEP]后还剩510个位置,所以内容文本长度应大于16小于510,这里常用的处理方式是a)直接截断;b)抽取重要片段;c)分段,本发明实施例选择直接截断的方式进行处理。
将处理后的数据进行ecode处理转变为词嵌入(token embedding)、类型嵌入(segment embedding)和位置嵌入(position embedding),其中,词嵌入的维度为768维,如果只有一句话,类型嵌入(segment embedding)为768维的数据全为0的矩阵,位置嵌入(position embedding)的公式表示具体如下:
其中,pos是词在词表中出现的位置序号,i是维度序号,2i和2i+1是交替出现的。
在本实施例中,将词嵌入、位置嵌入和类型嵌入作为BERT模型的输入。把每个数据集随即分割为训练集、验证集和测试集,通过训练集对BERT模型进行训练,通过验证集对BERT模型进行验证,通过测试集对BERT模型进行测试。
(4)“智能定责系统”使用tokenizer的encode生成服务内容的词向量;
(5)“智能定责系统”使用BERT+CRF的贝叶斯神经网络训练词向量,并保存生成的智能定责模型;
(6)“智能定责系统”对测试文本进行定责预测,根据概率阈值得到最终分类预测结果。
在本实施例中,对工单、客户反馈等的内容的加和后的词向量进行训练,整个算法由BERT模型、CRF算法和贝叶斯神经网络组成,具体结构如下:
(1)为融合字左右两侧的上下文,BERT模型采用双向Transformer作为编码器,编码单元最主要的模块是自注意力(Self-Attention)部分,如式所示:
其中,Q、K、V均是输入字向量矩阵,d
为扩展BERT模型专注于不同位置的能力,增大注意力单元的表示子空间,Transformer采用了“多头”模式,如下式所示:
MultiHead(Q,K,V)=Concat(head
(2)为了解决深度学习中的退化问题,编码单元中加入残差网络,如下式所示:
Transformer结构中的全链接前馈网络有两层dense:第一层的激活函数是ReLU,第二层是一个线性激活函数,其中
(3)将BERT模型的输出作为CRF算法的输入,CRF能通过邻近标签的关系获得一个最优的预测序列,假设f=f
其中,ω
(4)CRF算法采用极大似然估计进行训练,表达式如下,得到条件概率最大的输出序列。
经过CRF算法后,输出的是每一个工单的中的所有的特征词序列。
(5)贝叶斯神经网络将先验分布放置在其参数上,给定第i层的权值矩阵为w
p(y
得到参数似然分布的后验概率函数后通过最大化后验概率获得参数点估计。
在贝叶斯神经网络中,参数识别通常基于最大似然估计(MLE),见公式:
W
(6)在最大似然估计中,将w取不同值概率视为均等,即并不对w做出先验估计。如果为w引入先验估计,就变成了最大后验估计(MAP),公式如下所示:
W
W
(7)由于贝叶斯神经网络隐含层层数过多时训练时间会很长,且容易出现过拟合现象,所以只使用一个隐含层,下面是具体的操作步骤:
在将BERT+CRF所提取出的关键词使用doc2vec转换为300维的类句向量,doc2vec会考虑关键词之间的相互关系,原理与world2vec类似;
将句向量输入贝叶斯神经网络中,BP神经网络更新的是w和b,贝叶斯神经网络更新的参数是数据的均值和方差,通过极大似然估计方法得出α,σ
将上述公式反复迭代,直到满足收敛条件,然后将参数代入初始权值后验概率分布式中,求出权值的最优解。
贝叶斯神经网络的激活函数选用ReLU函数,通过ReLU函数对工单进行分类,完成运营商内部的智能定责。
在本发明实施例中,基于BERT+CRF的贝叶斯神经网络的运营商智能定责方法,能够结合词间和句间的语义,很好的识别投诉工单中的关键词,并通过关键词进行工单的智能定责,正确快速追踪到投诉责任的归属方,更快的解决客户问题,提升工单处理效率,最终提升服务质量和用户满意度。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。