一种语音质检方法、系统及存储介质

文献发布时间：2023-06-19 11:11:32

技术领域

本发明涉及语音处理技术领域，具体涉及一种语音质检方法、系统及存储介质。

背景技术

在客服质检行业，为了保障客服服务质量，需要人工对客服通话记录进行质检，目前，服务器热线的语音质检服务器在存储了客服与用户之间沟通的录音文件后，通过人工质检或是简单的语音质检模型进行质检；若采用人工质检方式时，一般是质检人员对所有的录音文件人工复听以进行语音质检，不仅质检效率低下，而且检测结果的准确性受人为影响一般偏低；若采用简单的语音质检模型对录音文件进行语音质检时，一般仅能针对录音文件单一方面的特征进行质检，检测结果偏向于单一维度且准确率偏低。

发明内容

本发明所要解决的技术问题是提供一种语音质检方法、系统及存储介质，对录音文件进行多维度检测，并对质检结果进行评分，提高质检的检测结果的准确性，降低主观因素导致的差错率。

本发明解决上述技术问题的技术方案如下：一种语音质检方法，包括：

获取录音文件；

对所述录音文件进行语音识别转换得到通话文本；

根据预设语音质检策略对所述通话文本和/或所述录音文件进行多维度检测得到检测结果，并对所述检测结果进行质检评分得到质检评分结果。

本发明的有益效果是：获取录音文件并转化为通话文本，便于后续质检；在质检过程中，根据预设语音质检策略对通话文本和/或所述录音文件进行多维度检测，对语音进行自动化质检，提高了质检效率，且多维度检测提高了语音质检的检测结果的准确性；且还可以对语音的多维度特征的质检结果进行综合评分，降低主观因素导致的差错率。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步，所述根据预设语音质检策略对所述通话文本和/或所述录音文件进行多维度检测得到检测结果包括：

根据语音端点检测模型VAD检测所述录音文件的音频信号的语音出现点和语音消失点；当相邻的所述语音消失点和语音出现点之间的时长超过预设静音时长，得到静音检测结果；

通过预先训练的文本情绪识别模型对所述通话文件中客服对应文本进行情绪分析，当存在负面情绪时，得到情绪检测结果。

采用上述进一步方案的有益效果是：通过对待质检录音文件中的语音通话内容进行端点检测，实现对通话内容的静音检测，以准确检测出客服人员的非规范服务，且通过文本情绪识别模型对通话文本中客服对应的文本进行情绪分析，得到通话文本中客服对应的文本相应的情绪识别结果，以准确检测出客服人员的服务态度不佳的问题。

进一步，所述根据预设语音质检策略对所述通话文本和/或所述录音文件进行多维度检测得到检测结果还包括：

通过人声分离算法分离所述录音文件中的客服声音和客户声音；

检测所述客服声音对应的音频文件中客服的每句话的时长和字数；

将所述时长和字数的商作为所述客服的语速，当所述语速超过标准语速范围，得到语速超标检测结果；

根据所述VAD检测所述音频文件中客户的每句话的语音消失点对应的结束时间，且检测所述音频文件中客服的每句话的语音出现点对应的出现时间，当客户的结束时间与客服的开始时间重复，得到抢话检测结果。

采用上述进一步方案的有益效果是：通过对待质检录音文件进行对话者分离后，计算客服的语速，进而进行语速检测，还可以客户上一句话结束时间与当前客服开始说话时间，计算是否出现有效抢话，从而准确找出一通录音文件中存在抢话的时间段和时长，以准确检测出客服人员的非规范服务。

进一步，所述根据预设语音质检策略对所述通话文本和/或所述录音文件进行多维度检测得到检测结果还包括：

获取所述通话文本中客服对应的文本；

当所述文本中的关键字属于预设敏感词集合时，得到敏感词检测结果；

当所述文本中的话术属于预设话术分析模型，得到话术分析检测结果，所述预设话术分析模块包括应受理未受隐患模型、安抚客户模型、转接热线模型、不予受理模型、未使用正确的欢迎语模型和未使用正确的结束语模型。

采用上述进一步方案的有益效果是：对录音中的敏感词进行搜索，分析检查客服人员对话中是否包含服务忌语；还可以通过这些事先部署的话术检测模型，检查客服人员是否按照流程规定的顺序说出合理话术，以准确检测出客服人员的非规范服务。

进一步，所述根据预设语音质检策略对所述通话文本和/或所述录音文件进行多维度检测得到检测结果还包括：

将所述通话文本中客服对应的文本中预设位置的文本对应的关键字组成语义向量；

将所述语义向量输入预设训练的卷积神经网络，得到业务分类结果。

采用上述进一步方案的有益效果是：根据通话内容提取文本特征，再通过卷积神经网络完成特征分析后，自动进行高准确性业务归类。

进一步，所述并对所述检测结果进行质检评分得到质检评分结果包括：

获取各检测结果的参数权重，根据各参数权重和所述检测结果得到质检评分结果。

采用上述进一步方案的有益效果是：每进行上述一个类型的检测对应得到一个检测结果时，通过各参数权重对通话文本和录音文件的检测结果，从而得到质检评分结果，降低主观因素导致的差错率。

进一步，根据预设语音质检策略对所述通话文本和/或所述录音文件进行多维度检测得到检测结果之后包括：

将包含所述检测结果和所述质检评分结果的质检报告发送给质检员终端进行复检。

采用上述进一步方案的有益效果是：通过将质检报告发送给质检员终端进行复检，提供检测的准确度。

进一步，根据预设语音质检策略对所述通话文本和/或所述录音文件进行多维度检测得到检测结果之后包括：

当所述检测结果与预设的自动预警和实时干预条件匹配时，将所述录音文件发送给所述质检员终端进行实时干预复检。

采用上述进一步方案的有益效果是：通过预设的自动预警和实时干预条件，将所述录音文件发送给所述质检员终端进行实时干预复检，提高服务的满意度。

为了解决上述问题，本发明实施例还提供一种语音质检系统，语音质检系统包括：数据获取模块，语音转写模块、语音质检模块和质检员终端；

所述数据获取模块用于获取录音文件；

所述语音转写模块用于对所述录音文件进行语音识别转换得到通话文本；

所述语音质检模块用于根据预设语音质检策略对所述通话文本和/或所述录音文件进行多维度检测得到检测结果，并对所述检测结果进行质检评分得到质检评分结果。

为了解决上述问题，本发明实施例还提供一种存储介质，存储介质包括存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现上所述的智能语音交互方法的步骤。

附图说明

图1为本发明一实施例提供的一种语音质检方法的流程图；

图2为本发明一实施例提供的一种语音质检系统的结构图；

图3为本发明一实施例提供的语音质检模块的实现流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，图1为发明实施例提供的一种语音质检方法的流程图，该语音质检方法应用与语音质检系统，该语音质检方法包括：

S101、获取录音文件；

S102、对录音文件进行语音识别转换得到通话文本；

S103、根据预设语音质检策略对通话文本和/或录音文件进行多维度检测得到检测结果，并对检测结果进行质检评分得到质检评分结果。

在本实施例中，获取录音文件并转化为通话文本，便于后续质检；在质检过程中，根据预设语音质检策略对通话文本和/或录音文件进行多维度检测，对语音进行自动化质检，提高了质检效率，且多维度检测提高了语音质检的检测结果的准确性；且还可以对语音的多维度特征的质检结果进行综合评分，降低主观因素导致的差错率。

可以理解的是，用户拨打了客服热线，与后台人工客服或智能机器人客服进行沟通后的录音文件是先存储在外部系统的录音文件库，外部系统包括呼叫中心、客服中心或呼叫代接服务中心。当需要语音质检时，需要从外部系统的录音文件库中提取待质检的录音文件。在本实施例中，步骤S101具体包括：预先配置好质检数据源获取地址，通过FTP(File Transfer Protocol，文件传输协议)协议到外部系统的录音文件库下载对应的录音文件，其中获取的录音文件可以是一条，也可以是多条。

在本实施例中，步骤S102具体包括：首先对待质检的录音文件的语音信号进行分析和处理，除去冗余信息；然后提取影响语音识别的关键信息和表达语言含义的特征信息，紧扣特征信息，用最小单元识别字词，接着按照不同语言的各自语法，依照先后次序识别字词，把前后意思当作辅助识别条件，有利于分析和识别；最后按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成，合成通话文本。

值得注意的是，步骤S103中对通话文本和/或录音文件进行多维度检测可以包括静音检测、语速检测、抢话检测、情绪检测、敏感词分析、话术分析和业务分析检测等；具体检测如下：

静音检测包括：根据语音端点检测模型VAD检测录音文件的音频信号的语音出现点和语音消失点；当相邻的语音消失点和语音出现点之间的时长超过预设静音时长，得到静音检测结果。一个VAD算法会将音频信号划分为发音部分(voiced)、未发音部分(unvoiced)和静默部分(silence)，其中VAD检测步骤为将音频信号进行分帧处理，从每一帧数据当中提取特征，利用人声信号短时特性与非人声信号短时特性的差异可以有效地找出人声开始和结束的端点；在一个已知语音和静默信号区域的数据帧集合上训练一个分类器，对未知的分帧数据进行分类，判断其属于语音信号还是静默信号，进而确定出音频信号的语音出现点和语音消失点；预设静音时长可以根据实际需求进行灵活调整，例如预设静音时长为2分钟，当检测出相邻的语音出现点和语音出现点之间的时长超过2分钟，表示存在静音，则输出为1的静音检测结果；例如用户说完话之后，超过2分钟，客服才说话；或客服说完话之后，超过2分钟，用户才说话。

语速检测包括：通过人声分离算法分离录音文件中的客服声音和客户声音；检测客服声音对应的音频文件中客服的每句话的时长和字数；将时长和字数的商作为客服的语速，当语速超过标准语速范围，得到语速超标检测结果；当若客服的语速过快，可能导致客户很难听清楚，影响服务质量；而语速过慢则可能坐席技能不够熟练、或者工作状态不佳。其中标准语速范围可以根据实际需求进行灵活调整，例如标准语速范围为每分钟250-260字的播音速度。

抢话检测包括：通过人声分离算法分离录音文件中的客服声音和客户声音；根据VAD检测音频文件中客户的每句话的语音消失点对应的结束时间，且检测音频文件中客服的每句话的语音出现点的出现时间，当客户的结束时间与客服的开始时间重复，得到抢话检测结果；进一步的，还可以检测客户上一句话结束时间与当前客服开始说话时间的重复时长超过预设重复时长时，得到抢话检测结果。在本实施例中，还可以获取客服每句话所对应的时间戳范围，当确定客服存在抢话行为，定位到这句话对应的时间戳范围，便于后续人工复检。

情绪检测包括：通过预先训练的文本情绪识别模型对通话文件中客服对应文本进行情绪分析，当存在负面情绪时，得到情绪检测结果。其中通过通话文本进行情绪分析包括，对客服对应文本的上下文语义和文本分析，确定客服情绪异常产生的位置，通过预先训练的文本情绪识别模型对客服情绪异常产生的位置对应的文本进行情绪分析，其中预先训练的文本情绪识别模型可以是HiGRU(Hierarchical Gated Recurrent Units)模型，负面情绪忧愁、悲伤、愤怒、紧张、焦虑、痛苦、恐惧和憎恨等。在一些实施例中，还可以对录音文件中客服对应音频信号进行情绪分析，提取能量(energy)，音高(pitch)，梅尔频率倒谱系数(MFCC)等语音特征，输入到预先训练好的分类器中进行判别，输出情感状态的结果，分类器包括有高斯混合模型(GMM)，隐马尔可夫模型(HMM)，支持向量机(SVM)等。在一些实施例中，还可以结合通话文本和录音文件中客服对应音频信号进行情绪分析，例如当通过通话文本确定某句话存在负面情绪时，通过对音频信号进行情绪分析再次检测。

敏感词分析检测包括：获取通话文本中客服对应的文本；当文本中的关键字属于预设敏感词集合时，得到敏感词检测结果；通过对录音中的敏感词进行搜索，分析检查客服人员对话中是否包含服务忌语。其中，预先配置敏感词集合(可以视为不文明用语模型)包括多个敏感词；由于存在将通话文本合成之前的各关键词，因此可获知客服对应的文本中包括的关键词，此时可以将客服对应的文本中包括的各关键词与敏感词集合中的各敏感词一一比对，一旦客服对应的文本中包括的各关键词存在敏感词，则可判定客服存在不文明用语的问题，得到敏感词检测结果。

话术分析检测包括：获取通话文本中客服对应的文本，当文本中的话术属于预设话术分析模型，得到话术分析检测结果，预设话术分析模块包括应受理未受隐患模型、安抚客户模型、转接热线模型、不予受理模型、未使用正确的欢迎语模型和未使用正确的结束语模型。通过语义分析，检查客服人员是否按照流程规定的顺序说出合理话术，其中应受理未受隐患模型用于检测出本应当受理却被归类为不予受理事项/非市人民政府、非承办单位事项的通话；安抚客户模型用于检测出客服语句中出现安抚客户的语句、转接热线模型用于检测出应转接到其他机构单位的通话、不予受理模型用于检测出客服无法给予受理的通话、未使用正确的欢迎语模型用于检测出客服未使用正确的欢迎语、未使用正确的结束语模型用于检测出客服未使用正确的结束语。

业务分析检测包括：获取通话文本中客服对应的文本；将文本中预设位置的文本对应的关键字组成语义向量；将语义向量输入预设训练的卷积神经网络，得到业务分类结果。通过对通话内容提取文本特征，再通过卷积神经网络完成特征分析后，自动进行高准确性业务归类，预设卷积神经网络用于业务分类；其中将客户的前几句话，如前3句话，对应文本所提取的关键词组成语义向量后，输入至卷积神经网络后，即可获知用户待办理的业务类型，并可调用该业务类型对应的话术对客服进行通话的质检。

在本实施例中，得到各检测结果后，对检测结果进行质检评分得到质检评分结果包括：获取各检测结果的参数权重，根据各参数权重和检测结果得到质检评分结果。对通话文本和/或录音文件依次进行了静音检测、语速检测、抢话检测、情绪检测、敏感词分析、话术分析，每进行上述一个类型的检测对应得到一个检测结果时，均可以将该检测结果对应转化为一个评分值，将得到对应的检测结果设为1，例如设得到的静音检测结果为1，语速超标检测结果为1，抢话检测结果为1，情绪检测结果1，敏感词检测结果为1，话术分析检测结果为1，将权重与对应的检测结果相乘得到质检评分结果；例如对某录音文件进行静音检测、语速检测、抢话检测、情绪检测、敏感词分析、话术分析检测，得到静音检测结果、抢话检测结果和话术分析检测结果，则质检评分结果为：0.2*1+0.1*1+0.2*1＝0.4；通过可以对语音的多维度特征的质检结果结合预设的评分规则进行综合评分，降低主观因素导致的差错率。

在本实施例中，步骤S103之后还包括，将检测结果和质检评分结果组成质检报告，将质检报告发送给质检员终端，其中可以是将所有录音文件的质检报告发送给质检员终端，也可以是将部分质检报告发送给质检员终端，例如当存在静音情况、负面情绪或敏感词的检测结果时，将质检报告发送给质检员终端；又例如当质检评分结果大于预设值，将质检报告发送给质检员终端；质检员终端可以显示检测结果和质检评分结果，质检员可以根据该检测结果和质检评分结果可以人工复听该录音文件后进行人工复检。例如当质检评分结果对应值大于预设评分值时，则对对应的录音文件进行人工复检，且在人工复检时，可以选择参数权重较大的检测结果进行重点复检。

值得注意的是，在本实施例中，根据预设语音质检策略对通话文本和/或录音文件进行多维度检测得到检测结果后之后还可以，当检测结果与预设的自动预警和实时干预条件匹配时，将录音文件发送给质检员终端进行实时干预复检。可以理解的是，本实施例中可以实时获取客服和客户的录音文件，进而对录音文件的进行质检，当检测结果满足进行自动预警和实时干预条件的检测结果，则可进行人工干预复检；自动预警和实时干预条件可以根据实际需求进行灵活调整，例如当静音检测结果对应是存在3分钟以上静音，则将录音文件发送给质检员终端进行复检，则复检确定存在3分钟以上静音时，可以通过质检员终端进行实时干预。

本实施例提供的语音质检的方法，通过多维度的质检模型对语音质检服务器中的海量语音数据进行自动化的质检，提高了语音质检效率和准确率，可以对多条语音同时进行自动化质检，提高了质检效率；可以对语音进行静音检测、语速检测、抢话检测、情绪检测、敏感词分析、话术分析、业务分析等多维度的质检，提高了语音质检的检测结果的准确性，可以对语音的多维度特征的质检结果结合预设的评分规则进行综合评分，降低主观因素导致的差错率。

实施例2

本实施例提供一种语音质检系统，如图2所示，语音质检系统包括：数据获取模块201，语音转写模块202、语音质检模块203；

数据获取模块201用于获取录音文件；

语音转写模块202用于对录音文件进行语音识别转换得到通话文本；

语音质检模块203用于根据预设语音质检策略对通话文本和/或录音文件进行多维度检测得到检测结果，并对检测结果进行质检评分得到质检评分结果。

该语音质检系统通过数据获取软件模块从外部系统中的录音文件库获取录音文件，数据获取软件模块将录音文件发送至语音转写模块进行语音识别得到通话文本。语音转写模块将通话文本发送至语音质检模块中，根据其中存储的语音质检模型进行静音检测、语速检测、抢话检测、情绪检测、敏感词分析、话术分析、业务分析后得到录音文件对应的质检评分结果。

其中数据获取模块201获取录音文件的过程如下：

数据获取模块201通过预先设置的数据源获取地址与外部系统的录音文件库建立连接；

数据获取模块201通过FTP协议从录音文件库中下载对应的待质检录音文件；

数据获取模块201通过局域网TCP将待质检录音文件发送至语音转写模块202。

其中语音转写模块202进行语音识别的过程如下：

对待质检录音文件的语音信号进行分析和处理，除去冗余信息；

提取影响语音识别的关键信息和表达语言含义的特征信息，紧扣特征信息，用最小单元识别字词；

按照不同语言的各自语法，依照先后次序识别字词，把前后意思当作辅助识别条件，有利于分析和识别；

按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成，合成通话文本。

如图3所示，其中语音质检模块203进行语音质检的过程如下：

S301、语音质检模块203通过对待质检录音文件中的语音通话内容进行端点检测，以判断是否有存在超过3分钟的静音音频；若存在超过3分钟的静音音频，则输出静音检测结果(输出1)；

S302、语音质检模块203通过待质检录音文件进行对话者分离，获取客服对应的音频数据进行语速计算得到语速结果，以判断语速结果是否超过标准语速范围；若语速结果未超出标准语速范围，则输出语速检测结果(输出1)；

S303、语音质检模块203通过待质检录音文件进行对话者分离，获取客服和客户对应的音频数据，根据客户对应的音频数据获取客户的每句话的语音消失点对应的结束时间，且检测音频文件中客服的每句话的语音出现点对应的出现时间，当客户的结束时间与客服的开始时间重复，则输出抢话检测结果(输出1)；

S304、语音质检模块203通过文本情绪识别模型对通话文本中客服对应的文本进行情绪分析，得到通话文本中客服对应的文本相应的情绪识别结果，若客服存在负面情绪，则输出情绪检测结果(输出1)；

S305、语音质检模块203通过预先配置的敏感词集合对通话文本进行敏感词检测，以判断通话文本对应的关键词中是否存在敏感词；若通话文本对应的关键词中存在敏感词，则输出敏感词分析检测结果(输出1)；

S306、语音质检模块203通过预先配置的话术分析模型判断通话文本中客服对应的文本中是否存在对应的非合理话术；若通话文本中客服对应的文本中存在对应的非合理话术，则输出话术分析检测结果(输出1)；

S307、语音质检模块203对通话文本中客户对应的文本中前3句话进行关键词提取以组成语义向量，将语义向量作为预先训练的卷积神经网络的输入，得到业务分类结果；

S308、语音质检模块203根据步骤S301-步骤S306中所得到的每一检测结果进行质检评分的计算，得到质检评分结果；质检评分结果的这一计算规则可以是预先配置好的参数权重，将参数权重与对应检测结果相乘得到质检评分结果。

需要说明的是，对上述步骤S301～S307的步骤的先后顺序并无限定，可以灵活调整。

在本实施例中，语音质检模块203将录音文件对应的检测结果和质检评分结果发送至质检员终端，在质检员终端上进行人工复检等操作。

其中质检员终端模块进行语音质检复检的过程如下：

获取由各检测结果和质检评分结果组成质检报告；

将质检报告在质检员终端进行显示以供人工复检。

语音质检模块203还可以当检测结果与预设的自动预警和实时干预条件匹配时，将所述录音文件发送给所述质检员终端，质检员终端模块进行实时干预复检。

本实施例还提供一种存储介质，该存储介质包括存储有一个或者多个计算机程序，一个或者多个计算机程序可被一个或者多个处理器执行，以实现如上所述的语音质检方法的步骤，在此不再一一赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明实施例所提供的技术方案进行了详细介绍，本专利中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王吉星;马晓亮;李应春;刘育楠;黄湘闽;杨威;蓝兰;陈柱安;
专利申请人：天讯瑞达通信技术有限公司;