导航：首页> 乐器；声学>音频质检的方法及系统

音频质检的方法及系统

文献发布时间：2024-04-18 19:58:30

技术领域

本申请涉及语音通信技术领域，尤其涉及一种音频质检的方法及系统。

背景技术

客服质检是为了促进企业营销、市场开拓，提高客户满意度、完善客户服务，同时对客服人员工作的考评。呼叫中心产生庞大的电话录音，需要对这些录音进行质检，检测客服人员是否使用规范用语、是否服务到位，满足客户所需。

根据与客户沟通媒介的不同，客服可以分为两类：一种是文字客服，一种是语音客服。文字客服是指主要以打字聊天的形式进行的客户服务。语音客服主要包括以电话或在线语音的形式进行的客户服务。

为了保证客服的服务质量，一些实例中通常是通过人力重复听通话录音等音频文件进行质检来识别音频内容，然后对语音进行评分、是否言语不当等不同维度的分析，耗时耗力，成本非常高，而且人工音频质检效率低下，准确率低，劳动重复性大，特别是在业务量大的情况下，人工质检工作量非常大。

发明内容

本申请实施例提供一种音频质检的方法及系统，以解决现有人工进行客服质检，耗时耗力、成本高、效率低的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，提供了一种音频质检的方法，包括：

获取待质检的音频文件，并对所述待质检的音频文件进行音频分轨处理，得到用户语音文件和坐席语音文件；

将所述坐席语音文件转换为文本文件，并判断所述文本文件中是否包括预设词库中的任一预设关键词；

若所述文本文件中包括所述预设关键词库中的任一预设关键词，则提取所述文本文件的语义特征矩阵，并根据所述语义特征矩阵获取所述文本文件的预设关键词概率以及判断坐席人员的情感信息；

基于所述预设关键词概率和所述坐席人员的情感信息，确定所述坐席人员的服务质量。

第二方面，提供了一种音频质检的系统，包括：

处理模块，用于获取待质检的音频文件，并对所述待质检的音频文件进行音频分轨处理，得到用户语音文件和坐席语音文件；

判断模块，用于将所述坐席语音文件转换为文本文件，并判断所述文本文件中是否包括预设词库中的任一预设关键词；

获取模块，用于若所述文本文件中包括所述预设关键词库中的任一预设关键词，则提取所述文本文件的语义特征矩阵，并根据所述语义特征矩阵获取所述文本文件的预设关键词概率以及判断坐席人员的情感信息；

确定模块，用于基于所述预设关键词概率和所述坐席人员的情感信息，确定所述坐席人员的服务质量。

第三方面，提供了一种终端设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法的步骤。

在本申请实施例中，首先获取待质检的音频文件，并对待质检的音频文件进行音频分轨处理，得到用户语音文件和坐席语音文件，然后将坐席语音文件转化为文本文件，并判断文本文件中是否包括预设关键词库中的任一预设关键词，若文本文件中包括预设关键词库中的任一预设关键词，则提取文本文件的语义特征矩阵，并根据语义特征矩阵获取文本文件的预设关键词概率以及判断坐席人员的情感信息，最后基于预设关键词概率和坐席人员的情感信息，确定坐席人员的服务质量。在本实施例中，通过对分轨得到的坐席语音文件进行预设关键词概率的获取和判断坐席人员的服务质量，实现准确全面对坐席音频进行分析，并基于分析结果对坐席的服务质量进行针对性的优化，提高坐席人员的服务质量。同时，通过上述各个步骤进行音频质检，可以减少质检时长，提高质检效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例提供的音频质检的方法的流程图；

图2是本申请实施例提供的音频质检的系统的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图1-2，通过具体的实施例及其应用场景对本申请实施例提供的一种音频质检的方法及系统进行详细地说明。

如图1所示，为本申请实施例提供的一种音频质检的方法的流程图。如图1所示，该音频质检的方法可以包括：S101至S104所示的内容。

在S101中，获取待质检的音频文件，并对待质检的音频文件进行音频分轨处理，得到用户语音文件和坐席语音文件。

其中，待质检的音频文件可以是坐席人员与用户进行日常交流时的某一段语音，还可以是某一段纠纷语音，可以是随机选取的，也可以是选定的，具体地根据实际情况确定，本申请实施例中不做限定。

音频分轨处理是指将一段音频文件中的不同人物的声音区分开，得到多个具有单一人物的语音文件。

将待质检的音频文件进行音频分轨处理，是为了将坐席语音文件从待质检的音频文件中分离出来，以便后续进行检测。

值得说明的是，本申请中还可以预先搭建关键词库，即预设关键词库，以便后续检测坐席语音文件中是否包括预设关键词库中的关键词。预设关键词库中的预设关键词可以是包含负面情绪的词语，或是一些禁用词语，或者业务敏感词语等，具体地可以根据实际情况设定，本申请实施例中不做限定。

在S102中，将坐席语音文件转化为文本文件，并判断文本文件中是否包括预设关键词库中的任一预设关键词。

其中，将语音转化为文本为本领域的常规技术手段，本申请实施例中不做具体描述。

在S103中，若文本文件中包括预设关键词库中的任一预设关键词，则提取文本文件的语义特征矩阵，并根据语义特征矩阵获取文本文件的预设关键词概率以及判断坐席人员的情感信息。

其中，坐席人员的情感信息可以包括生气、高兴、害怕、悲伤、惊讶和中性等情绪。

本实施例中，若是文本文件中包括预设关键词库中的任一预设关键词，说明坐席语音文件中包括负面情绪的词语，或是一些禁用词语，或者业务敏感词语等，一些行业不应该出现的词语，此时需要提取文本文件的语义特征矩阵，并根据该矩阵获取预设关键词概率以及判断坐席人员的情感信息，以便确定坐席人员的服务质量。

在S104中，基于预设关键词概率和坐席人员的情感信息，确定坐席人员的服务质量。

在本申请的一个可能的实施方式中，若文本文件中包括预设关键词库中的任一预设关键词，则提取文本文件的语义特征矩阵，并根据语义特征矩阵获取文本文件的预设关键词概率，可以包括以下步骤。

若文本文件中包括预设关键词库中的任一预设关键词，则获取文本文件的关键词的初始词向量；根据初始词向量确定文本文件的初始矩阵，初始矩阵包括文本文件的关键词特征向量；基于文本文件的关键词特征向量确定文本文件的预设关键词概率。

也就是说，若当前的坐席语音文件对应的文本文件中存在预设关键词，则可以将该坐席语音文件标记为违规语音进行质检。质检过程为：获取文本文件的关键词的初始词向量，例如X

在本申请的一个可能的实施方式中，基于文本文件的关键词特征向量确定文本文件的预设关键词概率，包括：利用下述公式确定文本文件的预设关键词概率S

其中，S

基于上述计算获取的预设关键词概率，再根据该预设关键词概率进行标定是否对坐席语音文件进行语音情感信息识别，即是否对坐席人员的情感信息进行判断，具体地如下实施例。

在本申请的一个可能的实施方式中，该音频质检的方法还可以包括：根据文本文件的预设关键词概率，确定是否判断坐席人员的情感信息；在文本文件的预设关键词概率大于第一阈值的情况下，判断坐席人员的情感信息。相应的，在文本文件的预设关键词概率小于或等于第一阈值的情况下，不判断坐席人员的情感信息。

也就是说，在语音检测的过程中，可以设置第一阈值，即违规概率阈值，若是大于该违规概率阈值，则进行坐席人员的情感信息的判断，判断其是生气、高兴、害怕、悲伤还是惊讶的情绪，以便后续进行相应管理处理。

可选地，判断坐席人员的情感信息，可以包括：根据文本文件的语义特征矩阵，获取坐席语音文件的短时能量值特征信息、共振峰特征信息和基音周期特征信息；基于短时能量值特征信息、共振峰特征信息和基音周期特征信息，确定坐席人员的情感信息。

其中，坐席语音文件的短时能量值特征信息是指坐席语音文件中包含预设关键词的有效语音信息所包含的短时能量值。共振峰表示为语音信号频谱中能量值较为集中密集的区域，是对语音信号进行描述的重要参数，可决定语音质量而且在生理方面也反应了声道(共振腔)的物理特征。基音周期特征信息是指从基音周期的变化趋势进行判断，若间隔内坐席人员的基音发生变化，就可以判断出坐席人员的情绪产生了波动。

在本申请实施例中，可以根据文本文件的语义特征矩阵，获取坐席语音文件的短时能量值特征信息、共振峰特征信息和基音周期特征信息，进而利用上述信息确定坐席人员的情感信息，以便更准确的进行音频质检。

在本申请的一个可能的实施方式中，根据文本文件的语义特征矩阵，获取坐席语音文件的短时能量值特征信息、共振峰特征信息和基音周期特征信息，可以包括以下步骤。

根据文本文件的语义特征矩阵，确定包含预设关键词的语句的端点，端点包括起始点和结束点；根据包含预设关键词的语句的端点，确定坐席语音文件中的有效语音信号；根据有效语音信号，得到短时能量值特征信息。

基于文本文件语义特征矩阵，确定包含预设关键词的语句的端点，即违规语句的开始点与结束点，从而获取该段语音信号内有效的语音信号(即当前业务语音违规段)，以减少无效计算，第n帧信号的短时能量具体如下式所示：

其中，En为第n帧信号的短时能量，x(n)为坐席语音信号序列经过加窗处理后所得到的第n段短时语音。

通过上述计算，可以获取包含预设关键词的语句的短时能量特征信息。

若一段语音在n时刻所产生的短时能量的均值用En表示，则

h(n)＝ω

其中，N则表示该段语音信号中的帧长。

在本申请的一个可能的实施方式中，该音频质检方法还可以包括：对坐席语音文件中的有效语音信号进行加窗处理，得到加窗语音信号；根据加窗语音信号，得到共振峰特征信息；根据共振峰特征信息，得到基音周期特征信息。

其中，共振峰表示为语音信号频谱中能量值较为集中密集的区域，是对语音信号进行描述的重要参数，可决定语音质量而且在生理方面也反应了声道(共振腔)的物理特征。

设Sw(n)是一段经过加窗处理语音信号，它所对应的非零区间即为n＝0～(N-1)；

常用Sw(n)的自相关函数表示语音信号S(n)的短时自相关函数，即共振峰特征信息Rw(k)，可以表示为：

再基于共振峰特征信息获取基音周期特征信息，其从基音周期的变化趋势进行判断，若间隔内坐席人员的基音发生变化，就可以判断出坐席人员的情绪产生了波动。具体地基音周期特征信息R(k)表示为：

其中，X(n)为原信号值，K为延迟点，随着k值的不断增大，R(k)则衰减。

在应用时，预先搭建关键词库，包括生气、高兴、害怕、悲伤、惊讶和中性情绪特征，参数如下表所示：

基于上述获取的短时能量值特征信息、共振峰特征信息和基音周期特征信息进行对提取的端点进行识别，包括基音频率的最大值、最小值、均值和短时能量的最大值、最小值、均值以及第一次共振峰的最大值、最小值、均值等。

借助上表所示，节拍最大值以及节拍最小值和均值分别对应基音频率的最大值、最小值、均值；而第一共振峰均值和共振峰方差对应第一次共振峰的最大值、最小值、均值等；短时能量的最大值、最小值、均值对应能量变化率的均值、能量变化率的方差、能量变化率的变化率。

具体的，在业务中，对提取的端点进行识别(标定某新一端坐席语音)，基于上述计算，获取短时能量值特征信息、共振峰特征信息和基音周期特征信息，即：分别获取基音频率的最大值、最小值、均值和短时能量的最大值、最小值、均值以及第一次共振峰的最大值、最小值、均值等。

基于上述参数值，作为语音识别评估值，具体评估如下：

另外，端点语音信号数据的基频最大值>245时，为情绪波动，当基频最小值>50、基频均值>140、第一次共振峰均值<13或者>20、共振峰方差>8、能量变化率<1.7e-5或者>2.1e-5时，为情绪波动。

在本申请的一个可能的实施方式中，在将坐席语音文件转换为文本文件之前，该音频质检方法还可以包括：对坐席语音文件进行高斯滤波处理。

具体地，在应用时，坐席语音文件进行滤波处理，表示为对语音信号进行高斯滤波处理，表示为：

其中，G(x，y)为高斯值；σ

另外，处理后的语音信号的每帧的输出函数，表示为：

其中，Q

在本申请实施例中，通过对坐席语音文件进行滤波处理是为了降噪，进而提高识别和计算精度。

如图2所示，为本申请实施例提供的一种音频质检的系统的示意图。如图2所示，该音频质检的系统可以包括：处理模块201、判断模块202、获取模块203和确定模块204。

具体地，处理模块201，用于获取待质检的音频文件，并对所述待质检的音频文件进行音频分轨处理，得到用户语音文件和坐席语音文件；判断模块202，用于将所述坐席语音文件转换为文本文件，并判断所述文本文件中是否包括预设关键词库中的任一预设关键词；获取模块203，用于若所述文本文件中包括所述预设关键词库中的任一预设关键词，则提取所述文本文件的语义特征矩阵，并根据所述语义特征矩阵获取所述文本文件的预设关键词概率以及判断坐席人员的情感信息；确定模块204，用于基于所述预设关键词概率和所述坐席人员的情感信息，确定所述坐席人员的服务质量。

在本申请实施例中，首先处理模块201获取待质检的音频文件，并对待质检的音频文件进行音频分轨处理，得到用户语音文件和坐席语音文件，然后判断模块202将坐席语音文件转化为文本文件，并判断文本文件中是否包括预设关键词库中的任一预设关键词，若文本文件中包括预设关键词库中的任一预设关键词，获取模块203则提取文本文件的语义特征矩阵，并根据语义特征矩阵获取文本文件的预设关键词概率以及判断坐席人员的情感信息，最后确定模块204基于预设关键词概率和坐席人员的情感信息，确定坐席人员的服务质量。在本实施例中，通过对分轨得到的坐席语音文件进行预设关键词概率的获取和判断坐席人员的服务质量，实现准确全面对坐席音频进行分析，并基于分析结果对坐席的服务质量进行针对性的优化，提高坐席人员的服务质量。同时，通过上述各个步骤进行音频质检，可以减少质检时长，提高质检效率。

在本申请的一个可能的实施方式中，获取模块203，用于：若文本文件中包括预设关键词库中的任一预设关键词，则获取文本文件的关键词的初始词向量；根据初始词向量确定文本文件的初始矩阵，初始矩阵包括文本文件的关键词特征向量；基于文本文件的关键词特征向量确定文本文件的预设关键词概率。

在本申请的一个可能的实施方式中，获取模块203，用于：利用下述公式确定文本文件的预设关键词概率S

其中，S

在本申请的一个可能的实施方式中，获取模块203，用于：根据文本文件的预设关键词概率，确定是否判断坐席人员的情感信息；在文本文件的预设关键词概率大于第一阈值的情况下，判断坐席人员的情感信息。

在本申请的一个可能的实施方式中，获取模块203，用于：根据文本文件的语义特征矩阵，获取坐席语音文件的短时能量值特征信息、共振峰特征信息和基音周期特征信息；基于短时能量值特征信息、共振峰特征信息和基音周期特征信息，确定坐席人员的情感信息。

在本申请的一个可能的实施方式中，获取模块203，用于：根据文本文件的语义特征矩阵，确定包含预设关键词的语句的端点，端点包括起始点和结束点；根据包含预设关键词的语句的端点，确定坐席语音文件中的有效语音信号；根据有效语音信号，得到短时能量值特征信息。

在本申请的一个可能的实施方式中，获取模块203，用于：对坐席语音文件中的有效语音信号进行加窗处理，得到加窗语音信号；根据加窗语音信号，得到共振峰特征信息；根据共振峰特征信息，得到基音周期特征信息。

在本申请的一个可能的实施方式中，该音频质检的系统还可以包括：过滤模块。

该过滤模块，用于对坐席语音文件进行高斯滤波处理。

本申请所述的音频质检的系统的功能已在图1所示的方法实施例中进行了详细的描述，故本实施例的描述中未详尽之处，可参见前述实施例中的相关说明，在此不再赘述。

可选地，本申请实施例还提供一种终端设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现音频质检的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

可选地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述音频质检的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：中国移动通信集团四川有限公司;中国移动通信集团有限公司;

上一篇：一种提高语音识别准确率的方法、系统和介质
下一篇：语音交互方法及装置