掌桥专利:专业的专利平台
掌桥专利
首页

基于语音处理的呼叫中心智能客服交互方法

文献发布时间:2024-07-23 01:35:21


基于语音处理的呼叫中心智能客服交互方法

技术领域

本申请涉及语音处理技术领域,具体涉及基于语音处理的呼叫中心智能客服交互方法。

背景技术

随着科学技术的发展,智能客服也逐渐应用于各个领域中。智能客服主要通过IVR语音导航、TTS语义识别、ASR实时转译以及自主学习分析等技术,实现自动化响应用户提出的常见问题,从而减少人工客服的工作量。

由于用户在使用智能客服时所处的环境不一,在进行语音交互的过程中智能客服接收到的用户输入音频可能存在较大的噪声,进而影响智能客服进行语义识别时的精确程度,因此智能客服在处理输入音频时,会利用LMS(Least Mean Square)算法对输入音频进行去噪。

由于用户在进行音频输入的过程中,噪声存在的时间、大小并非固定的,而传统的LMS算法中步长因子的设定是固定的,从而可能导致噪声较少时,收敛速度较慢,或噪声较大时,去噪效果较差的情况。

发明内容

鉴于以上内容,有必要提供一种基于语音处理的呼叫中心智能客服交互方法,相对于传统的呼叫中心智能客服交互方法,提高了呼叫中心智能客服处理输入音频的速度和可靠性。

本申请的基于语音处理的呼叫中心智能客服交互方法采用如下技术方案:

本申请一个实施例提供了基于语音处理的呼叫中心智能客服交互方法,该方法包括以下步骤:

获取呼叫中心智能客服接收到的输入音频数据;

将输入音频数据拟合为输入音频曲线,将输入音频数据均匀划分为预设数量个音频区间,基于各音频区间的波动剧烈情况、波峰尖锐程度,以及各音频区间与其余音频区间之间的波动情况差异,确定各音频区间的输入音频噪声存在性指数;

基于聚类算法获取各噪声明显区间;基于噪声明显区间之间的波动程度差异、周期差异和各噪声明显区间的信号强度突出特征,确定各噪声明显区间的离群表征值;

基于各噪声明显区间与相邻音频区间之间的信号强度差异和音频叠加情况差异,确定各噪声明显区间的邻近差异指数;

基于各噪声明显区间的离群表征值和邻近差异指数,确定各噪声明显区间的人声稀少指数;

基于所述人声稀少指数和所述输入音频噪声存在性指数,结合LMS算法中的预设步长因子,确定各音频区间的步长因子修正值,采用LMS算法对各音频区间去噪,实现基于语音处理的呼叫中心智能客服交互。

在其中一种实施例中,所述输入音频噪声存在性指数的确定过程为:

基于各音频区间的波动剧烈情况和波峰尖锐程度,确定各音频区间的输入音频受扰系数;

基于各音频区间与其余音频区间之间的波动情况差异,确定各音频区间的输入音频变化差异指数;

将各音频区间的输入音频受扰系数与输入音频变化差异指数进行正向融合,将正向融合的结果作为各音频区间的输入音频噪声存在性指数。

在其中一种实施例中,所述输入音频受扰系数的确定过程为:

获取各音频区间的频域数据,对各音频区间的频域数据拟合得到各音频区间的频域曲线;

对于各音频区间,将音频区间的频域曲线的各波峰点与相邻前一个波谷点的连线记为各波峰点的频域谷峰线,将各波峰点与相邻后一个波谷点的连线记为各波峰点的频域峰谷线,将各波峰点的频域谷峰线和频域峰谷线的夹角记为各波峰点的波峰包络宽度表征角;

针对各音频区间的输入音频曲线,采用各波峰点的频域谷峰线的获取方法,获取各波峰点的时域谷峰线;

计算各音频区间的所有波峰点的波峰包络宽度表征角的均值,记为夹角均值;

计算各音频区间的所有任意相邻两个波峰点的时间间隔的均值,记为时间间隔均值;

计算各音频区间的所有时域谷峰线的斜率的均值,记为斜率均值;

综合各音频区间的音频基频、所述夹角均值、所述斜率均值、所述时间间隔均值,确定各音频区间的输入音频受扰系数;

各音频区间的输入音频受扰系数分别与各音频区间的音频基频、所述夹角均值、所述斜率均值成正相关性,与各音频区间的所述时间间隔均值成负相关性。

在其中一种实施例中,所述输入音频变化差异指数的确定过程为:

计算各音频区间与其余所有音频区间之间短时能量的差异,记为短时能量差异;

计算各音频区间与其余所有音频区间之间波峰数量的差异,记为波峰数量差异;

综合各音频区间的所有所述短时能量差异和所有所述波峰数量差异,确定各音频区间的输入音频变化差异指数;

各音频区间的输入音频变化差异指数分别与各音频区间的所有所述短时能量差异、所有所述波峰数量差异成正相关性。

在其中一种实施例中,所述噪声明显区间的确定过程为:

利用聚类算法得到所有音频区间的输入音频噪声存在性指数的各聚类簇,计算每个聚类簇中输入音频噪声存在性指数的均值,将均值最大的聚类簇中各输入音频噪声存在性指数对应的音频区间作为各噪声明显区间。

在其中一种实施例中,所述离群表征值的确定过程为:

计算各噪声明显区间与其余各噪声明显区间之间波动程度的差异,记为波动程度差异;

计算各噪声明显区间与其余各噪声明显区间之间周期性的差异,记为周期差异;

统计所有噪声明显区间的信号强度均值的最小值,计算各噪声明显区间的信号强度均值与所述最小值的差异,记为信号强度差异;

综合各噪声明显区间的所有所述波动程度差异、所有所述周期差异和所有所述信号强度差异,确定各噪声明显区间的离群表征值;

各噪声明显区间的离群表征值分别与各噪声明显区间的所有所述波动程度差异、所有所述周期差异成正相关性;与各噪声明显区间的所有所述信号强度差异成负相关性。

在其中一种实施例中,所述邻近差异指数的确定过程为:

将各噪声明显区间相邻前、后各预设数目个音频区间作为各噪声明显区间的各关系判断区间;

将各音频区间的输入音频数据按照时序组成各音频区间的信号强度序列;计算噪声明显区间与其各关系判断区间的信号强度序列之间的距离;

计算噪声明显区间与其各关系判断区间之间基频频率的差异,记为基频频率差异;计算噪声明显区间与其各关系判断区间之间波峰的分布密度的差异,记为波峰分布差异;

将噪声明显区间与其各关系判断区间之间的所述距离、所述基频频率差异和所述波峰分布差异进行正向融合,将噪声明显区间对应所有正向融合结果的均值,作为噪声明显区间的邻近差异指数。

在其中一种实施例中,所述人声稀少指数的确定过程为:

将各噪声明显区间的离群表征值和邻近差异指数进行正向融合,将正向融合的结果作为各噪声明显区间的人声稀少指数。

在其中一种实施例中,所述步长因子修正值的确定过程为:

将噪声明显区间以外的音频区间的人声稀少指数设定为0;

计算各音频区间的人声稀少指数与预设大于0的调参常数的和值,记为第三调参和值,将各音频区间的输入音频噪声存在性指数与所述第三调参和值的比值,记为调参比值,将各音频区间的所述调参比值与LMS算法中的预设步长因子的乘积,作为各音频区间的步长因子修正值。

在其中一种实施例中,所述采用LMS算法对各音频区间去噪,实现基于语音处理的呼叫中心智能客服交互的过程为:

将每个音频区间分别作为输入,利用LMS算法,将每个音频区间的步长因子修正值作为LMS算法的步长因子,输出去噪后的音频区间;将所有音频区间进行语音拼接,获得去噪完成后的输入音频;

将去噪完成后的输入音频传输至呼叫中心的智能客服系统。

本申请至少具有如下有益效果:

基于输入音频中噪声存在特点,分析输入音频在时域和频域中的特征,构建输入音频噪声存在性指数,表征输入音频中的噪声存在情况;

基于用户进行语音输入时的停顿、间隔情况,分析输入音频在时域和频域中的特征,构建人声稀少指数,表征输入音频中人声的存在情况;

基于输入音频噪声存在性指数和人声稀少指数针对噪声及人声的不同存在情况区分出去噪效果需求不一的音频区间;进一步构建步长因子修正值,用于改进LMS算法中的步长因子,解决了当前LMS算法步长因子设置较为固定而不能同时兼顾收敛速度和去噪效果的问题,进而提高了呼叫中心智能客服处理输入音频的速度和可靠性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。

图1为本申请提供的基于语音处理的呼叫中心智能客服交互方法的步骤流程图;

图2为输入音频噪声存在性指数的确定流程示意图;

图3为人声稀少指数的确定流程示意图;

图4为步长因子修正值的获取流程示意图。

具体实施方式

在本申请实施例的描述中,“示例性”、“或者”、“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性”、“或者”、“例如”等词旨在以具体方式呈现相关概念。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。应理解,本申请中除非另有说明,“/”表示或的意思。

另外需要说明的是,本申请中的术语“第一”、“第二”是用于区别类似的对象,而不是用于描述特定的顺序或先后次序。本申请实施例中公开的方法或流程图所示出的方法,包括用于实现方法的一个或多个步骤,在不脱离权利要求的范围的情况下,多个步骤的执行顺序可以彼此互换,其中某些步骤也可以被删除。

下面结合附图具体的说明本申请所提供的基于语音处理的呼叫中心智能客服交互方法的具体方案。

本申请一个实施例提供的基于语音处理的呼叫中心智能客服交互方法,具体的,提供了如下的基于语音处理的呼叫中心智能客服交互方法,请参阅图1,该方法包括以下步骤:

步骤1,获取呼叫中心智能客服接收到的输入音频数据。

在呼叫中心的智能客服音频接收平台中,获取本次智能客服接收到的用户输入音频数据,并且为了防止输入音频数据在传输过程中丢失,影响后续分析,本申请利用数据填充方法对输入音频数据进行填充。

本申请的一个实施例中,采用均值填充方法对输入音频数据进行填充,作为其他实施方式,在可实现对输入音频数据进行填充的基础上,实施者可采用其他现有技术对输入音频数据进行填充,本申请不做特殊限制。

步骤2,根据输入音频的噪声存在特点,构建音频区间的噪声存在性指数,以表征输入音频中的噪声存在情况。

在用户使用智能客服的过程中,语音信号在无线信道传输中可能受到多种环境因素干扰,并且用户可能处于移动状态,导致语音信号在传输时容易陷入随机性衰落,使得智能客服接收到的输入音频信噪比较低且信噪比波动程度较大,因此对于输入音频需要分析其噪声强度,进而更好地调节步长因子。

具体地,当输入音频中存在噪声时,输入音频会受到较大的干扰,输入音频的时域波形图上的包络会因噪声的加入发生较大的改变,在形成更多信号波峰的同时,输入音频的包络宽度会明显增加。

采用曲线拟合算法获取输入音频数据的拟合曲线,记为输入音频曲线。

本申请的一个实施例中,采用线性回归曲线拟合算法获取输入音频曲线,作为其他实施方式,在可实现获取输入音频曲线的基础上,实施者可采用其他现有技术获取输入音频曲线,本申请不做特殊限制。

由于用户在进行音频输入时,说话可能存在一定的间隔,且噪声的产生也可能存在一定的间隔,因而会导致输入音频中可能存在人声与噪声叠加、仅存在噪声或仅存在人声的情况,其中,人声与噪声叠加还包括人声较多噪声较少和噪声较多人声较少的情况。

为了更准确地对输入音频进行分析,本申请将输入音频数据均匀划分为预设数量个音频区间,并将音频区间作为输入,利用傅里叶变换输出所有音频区间的频域数据,对各音频区间的频域数据拟合得到各音频区间的频域曲线。

需要说明的是:傅里叶变换仅仅是本申请的一个实施例,在可实现将输入音频数据从时域转换到频域的基础上,实施者可根据实际情况自行选择现有技术将输入音频数据从时域转换到频域,本申请不做特殊限制。

本申请的一个实施例中,预设数量的取值为30,预设数量的取值由人为预设,实施者可自行设定,本申请不做特殊限制。

基于各音频区间的波动剧烈情况、波峰尖锐程度,以及各音频区间与其余音频区间之间的波动情况差异,确定各音频区间的输入音频噪声存在性指数。

步骤2.1,基于各音频区间的波动剧烈情况和波峰尖锐程度,确定各音频区间的输入音频受扰系数。

各音频区间的输入音频受扰系数的确定过程为:

对于各音频区间,将音频区间的频域曲线的各波峰点与相邻前一个波谷点的连线记为各波峰点的频域谷峰线,将各波峰点与相邻后一个波谷点的连线记为各波峰点的频域峰谷线,将各波峰点的频域谷峰线和频域峰谷线的夹角记为各波峰点的波峰包络宽度表征角。当波峰包络宽度越大,波峰包络宽度表征角越大。

针对各音频区间的输入音频曲线,采用各波峰点的频域谷峰线的获取方法,获取各波峰点的时域谷峰线;

计算各音频区间的所有波峰点的波峰包络宽度表征角的均值,记为夹角均值;

计算各音频区间的所有任意相邻两个波峰点的时间间隔的均值,记为时间间隔均值;

计算各音频区间的所有时域谷峰线的斜率的均值,记为斜率均值;

综合各音频区间的音频基频、所述夹角均值、所述斜率均值、所述时间间隔均值,确定各音频区间的输入音频受扰系数;

各音频区间的输入音频受扰系数分别与各音频区间的音频基频、所述夹角均值、所述斜率均值成正相关性,与各音频区间的所述时间间隔均值成负相关性。

需要理解的是:正相关性指因变量与自变量的变化趋势方向相同,例如相乘关系、相加关系等,实施者可根据实际情况自行限定;负相关性指因变量与自变量的变化趋势方向相反,例如相除关系、相减关系等,实施者可根据实际情况自行限定。

本申请的一个实施例中,利用余弦定理计算各波峰包络宽度表征角的大小,作为其他实施方式,在可计算波峰包络宽度表征角大小的基础上,实施者可采用其他现有技术计算波峰包络宽度表征角的大小,本申请不做特殊限制。

本申请的一个实施例中,计算各音频区间的音频基频、所述夹角均值和所述斜率均值三者的乘积,记为综合乘积,计算各音频区间的所述时间间隔均值与预设大于0的调参常数的和值,记为第一调参和值,将各音频区间的所述综合乘积与所述第一调参和值的比值,作为各音频区间的输入音频受扰系数;其中,调参常数的目的为避免分母为0,调参常数的取值为1,调参常数的取值实施者可自行设定,本申请不做特殊限制。

需要说明的是:若音频区间的信噪比越低,噪声混叠情况越严重,使得音频基频频率值越大,波峰包络宽度表征角越大,波峰点之间的时间间隔越小,音频区间的波动剧烈情况越明显,输入音频受扰系数的值越大;若音频区间干扰较为严重时,会出现较大的包络,使得时域谷峰线的斜率越大,音频区间波峰尖锐程度越大,输入音频受扰系数的值越大。

步骤2.2,基于各音频区间与其余音频区间之间的波动情况差异,确定各音频区间的输入音频变化差异指数。

各音频区间的输入音频变化差异指数的确定过程为:

计算各音频区间与其余所有音频区间之间短时能量的差异,记为短时能量差异;

计算各音频区间与其余所有音频区间之间波峰数量的差异,记为波峰数量差异;

综合各音频区间的所有所述短时能量差异和所有所述波峰数量差异,确定各音频区间的输入音频变化差异指数;

各音频区间的输入音频变化差异指数分别与各音频区间的所有所述短时能量差异、所有所述波峰数量差异成正相关性。

需要理解的是:差异指两者的区别,例如差值绝对值关系、比值关系等,实施者可根据实际情况自行设定;本申请的一个实施例中,差异为两者的差值绝对值。

本申请的一个实施例中,计算各音频区间的所有所述短时能量差异的均值,记为短时能量均值,计算各音频区间的所有所述波峰数量差异的均值,记为波峰数量均值,将各音频区间的所述短时能量均值与所述波峰数量均值的乘积,作为各音频区间的输入音频变化差异指数。

需要说明的是:当某个音频区间的短时能量与其余各音频区间的差异越大,且波峰数量越突出,说明该音频区间相对于其余音频区间内语音信号的波动情况差异程度越大,在输入音频中的突出程度较高,越可能是受到噪声干扰。

步骤2.3,基于各音频区间的输入音频受扰系数与输入音频变化差异指数,确定各音频区间的输入音频噪声存在性指数。

各音频区间的输入音频噪声存在性指数的确定过程为:

将各音频区间的输入音频受扰系数与输入音频变化差异指数进行正向融合,将正向融合的结果作为各音频区间的输入音频噪声存在性指数。

需要理解的是:正向融合指将多个自变量以增强整体效果的方式结合在一起,例如相加关系、相乘关系等。

本申请的一个实施例中,将各音频区间的输入音频受扰系数与输入音频变化差异指数的乘积,作为各音频区间的输入音频噪声存在性指数。

本申请的另一个实施例中,将各音频区间的输入音频受扰系数与输入音频变化差异指数的和值,作为各音频区间的输入音频噪声存在性指数。

需要说明的是:当音频区间内存在噪声影响的可能性越大,且受到的影响程度越高时,音频区间的输入音频噪声存在性指数越大,越需要对音频区间进行更强力的去噪。

至此,可获取每个音频区间的输入音频噪声存在性指数。输入音频噪声存在性指数的确定流程示意图如图2所示。

步骤3,根据用户进行语音输入时的停顿、间隔情况,分析输入音频的人声存在特点,构建噪声明显区间中的人声稀少指数,以表征人声的存在情况。

由于用户在进行音频输入时,人声部分并非完全连续,用户在进行音频输入时会存在停顿间隔的情况,因此,输入音频中存在仅有噪声而无人声的情况,针对这种音频区间,即便进行去噪效果的调整,对音频中人声识别的效果产生的影响较小,且如果这种音频区间内的噪声过大,会将其判别为噪声明显的音频区间,进行步长因子的调整后,可能会增加整体的去噪收敛时间,因此还需要对音频区间进行进一步的分析。

步骤3.1,基于聚类算法获取各噪声明显区间。

将所有音频区间的输入音频噪声存在性指数作为输入,利用聚类算法得到各聚类簇。

本申请的一个实施例中,采用密度峰值聚类算法进行聚类,密度峰值聚类算法中的截断距离人为预设为3,作为其他实施方式,在可实现对所有音频区间的输入音频噪声存在性指数进行聚类的基础上,实施者可采用其他现有技术进行聚类,本申请不做特殊限制。

计算每个聚类簇中输入音频噪声存在性指数的均值,将均值最大的聚类簇中各输入音频噪声存在性指数对应的音频区间作为各噪声明显区间,对噪声明显区间进行去噪时需要将步长因子进行增大。

步骤3.2,基于噪声明显区间之间的波动程度差异、周期差异和各噪声明显区间的信号强度突出特征,确定各噪声明显区间的离群表征值。

各噪声明显区间的离群表征值的确定过程为:

计算各噪声明显区间与其余各噪声明显区间之间波动程度的差异,记为波动程度差异;

计算各噪声明显区间与其余各噪声明显区间之间周期性的差异,记为周期差异;

统计所有噪声明显区间的信号强度均值的最小值,计算各噪声明显区间的信号强度均值与所述最小值的差异,记为信号强度差异;

综合各噪声明显区间的所有所述波动程度差异、所有所述周期差异和所有所述信号强度差异,确定各噪声明显区间的离群表征值;

各噪声明显区间的离群表征值分别与各噪声明显区间的所有所述波动程度差异、所有所述周期差异成正相关性;与各噪声明显区间的所有所述信号强度差异成负相关性。

其中,波动程度可以为噪声明显区间的信号强度的方差或标准差;周期性可以为噪声明显区间的ApEn值、周期性强度或PLV(Phase Locking Value)值;本申请的一个实施例中,波动程度为方差,周期性为ApEn值。

本申请的一个实施例中,对于各噪声明显区间,计算噪声明显区间的各所述信号强度差异与预设大于0的调参常数的和值,记为第二调参和值,计算噪声明显区间的各所述波动程度差异与对应周期差异的乘积,记为波动乘积,将噪声明显区间的所有所述波动乘积与对应第二调参和值的比值的均值,作为噪声明显区间的离群表征值;其中,调参常数的目的为避免分母为0,调参常数的取值为1,调参常数的取值实施者可自行设定,本申请不做特殊限制。

需要说明的是:若噪声明显区间中人声越少,噪声明显区间相较于其余噪声明显区间的波动程度越轻,差异越大,离群表征值越大;若噪声明显区间中存在的人声越少,噪声明显区间表现出的周期性情况越少,与其余存在人声的噪声明显区间的周期性差异越大,离群表征值越大;若噪声明显区间中存在的人声越少,噪声明显区间整体的混叠情况越弱,噪声明显区间中整体的信号强度越弱,与所有噪声明显区间的信号强度均值的最小值差异越小,离群表征值越大;此时,噪声明显区间与其余噪声明显区间相比具有显著的不同特征。

步骤3.3,基于各噪声明显区间与相邻音频区间之间的信号强度差异和音频叠加情况差异,确定各噪声明显区间的邻近差异指数。

各噪声明显区间的邻近差异指数的确定过程为:

当噪声明显区间中存在人声时,其混叠情况较大,相较于无人声的纯噪声音频区间的语音信号强度更强,且存在人声的音频区间中的周期性较强。为了分析各噪声明显区间人声的存在情况,将各噪声明显区间相邻前、后各预设数目个音频区间作为各噪声明显区间的各关系判断区间。

本申请的一个实施例中,预设数目的取值为2,预设数目的取值由人为预设,实施者可根据实际情况自行设定,本申请不做特殊限制。

将各音频区间的输入音频数据按照时序组成各音频区间的信号强度序列;计算噪声明显区间与其各关系判断区间的信号强度序列之间的距离;

计算噪声明显区间与其各关系判断区间之间基频频率的差异,记为基频频率差异;计算噪声明显区间与其各关系判断区间之间波峰的分布密度的差异,记为波峰分布差异;

将噪声明显区间与其各关系判断区间之间的所述距离、所述基频频率差异和所述波峰分布差异进行正向融合,将噪声明显区间对应所有正向融合结果的均值,作为噪声明显区间的邻近差异指数。

其中,噪声明显区间的所述波峰的分布密度可以为噪声明显区间中所有波峰的数量或所有相邻两个波峰之间时间间隔的均值;本申请的一个实施例中,噪声明显区间的所述波峰的分布密度为噪声明显区间中所有波峰的数量。

本申请的一个实施例中,计算噪声明显区间与其各关系判断区间之间的所述距离、所述基频频率差异、所述波峰分布差异三者的乘积,记为融合乘积,将噪声明显区间对应所有所述融合乘积的均值,作为噪声明显区间的邻近差异指数;其中,所述距离可以为欧式距离,作为其他实施方式,在可实现度量两个序列之间的距离的基础上,实施者可采用其他现有技术度量两个序列之间的距离,本申请不做特殊限制。

需要说明的是:若噪声明显区间与其关系判断区间之间的信号强度差异越明显,信号强度序列之间的距离越大,邻近差异指数越大;若噪声明显区间与其关系判断区间之间的基频频率差异越大、波峰的分布密度的差异越明显,邻近差异指数越大,说明输入音频在噪声明显区间内的语音输入可能发生了较大变化。

步骤3.4,基于各噪声明显区间的离群表征值和邻近差异指数,确定各噪声明显区间的人声稀少指数。

各噪声明显区间的人声稀少指数的确定过程为:将各噪声明显区间的离群表征值和邻近差异指数进行正向融合,将正向融合的结果作为各噪声明显区间的人声稀少指数。

本申请的一个实施例中,将各噪声明显区间的离群表征值和邻近差异指数的乘积,作为各噪声明显区间的人声稀少指数。

本申请的另一个实施例中,对于各噪声明显区间,将噪声明显区间的离群表征值和邻近差异指数分别作为以自然常数为底数的指数函数的指数,记为离群指数函数和邻近差异指数函数,将所述离群指数函数的计算结果与所述邻近差异指数函数的计算结果的和值,作为噪声明显区间的人声稀少指数。

需要说明的是:当噪声明显区间的人声稀少指数越大,说明噪声明显区间内的人声较少,内容的重要性越弱,所需的去噪效果可降低。

至此,获得每个噪声明显区间的人声稀少指数。人声稀少指数的确定流程示意图如图3所示。

步骤4,基于各噪声明显区间的人声稀少指数和各音频区间的输入音频噪声存在性指数,结合LMS算法中的预设步长因子,确定各音频区间的步长因子修正值,采用LMS算法对各音频区间去噪,实现基于语音处理的呼叫中心智能客服交互。

步骤4.1,基于各噪声明显区间的人声稀少指数和各音频区间的输入音频噪声存在性指数,结合LMS算法中的预设步长因子,确定各音频区间的步长因子修正值。

各音频区间的步长因子修正值的确定过程为:

将噪声明显区间以外的音频区间的人声稀少指数设定为0。

计算各音频区间的人声稀少指数与预设大于0的调参常数的和值,记为第三调参和值,将各音频区间的输入音频噪声存在性指数与所述第三调参和值的比值,记为调参比值,将各音频区间的所述调参比值与LMS算法中的预设步长因子的乘积,作为各音频区间的步长因子修正值;其中,调参常数的目的为避免分母为0,调参常数的取值为1,调参常数的取值实施者可自行设定,本申请不做特殊限制。

需要说明的是:当输入音频中人声与噪声混合时,噪声越多,步长因子修正值越大,对输入音频的去噪效果越好,人声的清晰度越高;当输入音频中噪声较少或仅存在噪声时,步长因子修正值越小,提高算法的收敛速度。步长因子修正值的获取流程示意图如图4所示。

步骤4.2,基于各音频区间的步长因子修正值采用LMS算法对各音频区间去噪,实现基于语音处理的呼叫中心智能客服交互。

将每个音频区间分别作为输入,利用LMS算法,将每个音频区间的步长因子修正值作为LMS算法的步长因子,输出去噪后的音频区间;将所有音频区间进行语音拼接,获得去噪完成后的输入音频。其中LMS算法、语音拼接均为公知技术,本申请不再进行赘述。

将去噪完成后的输入音频传输至呼叫中心的智能客服系统中,智能客服系统首先利用IVR(Interactive Voice Response)语音导航中的ASR(Automatic SpeechRecognition)实时转译技术,将输入音频转译为文本信息数据,再通过自然语言处理(Natural Language Processing,NLP)技术,理解用户输入音频的实际含义,最后利用语音合成(Text to Speech,TTS)技术,识别智能客服对于用户输入内容的回答文本信息,并将回答文本信息转换为语音数据进行输出,实现基于语音处理的呼叫中心智能客服交互。

综上所述,本申请基于输入音频中噪声存在特点,分析输入音频在时域和频域中的特征,构建输入音频噪声存在性指数,表征输入音频中的噪声存在情况;

进一步,基于用户进行语音输入时的停顿、间隔情况,分析输入音频在时域和频域中的特征,构建人声稀少指数,表征输入音频中人声的存在情况;

进一步,基于输入音频噪声存在性指数和人声稀少指数针对噪声及人声的不同存在情况区分出去噪效果需求不一的音频区间;进一步构建步长因子修正值,用于改进LMS算法中的步长因子,解决了当前LMS算法步长因子设置较为固定而不能同时兼顾收敛速度和去噪效果的问题,进而提高了呼叫中心智能客服处理输入音频的速度和可靠性。

附图中的流程图和框图显示了根据本公开实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。在附图中的流程图和框图所对应的描述中,不同的方框所对应的操作或步骤也可以以不同于描述中所披露的顺序发生,有时不同的操作或步骤之间不存在特定的顺序。例如,两个连续的操作或步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这可以依所涉及的功能而定。框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将本申请上述的实施例看作是示范性的,而且是非限制性的。

相关技术
  • 一种基于语音处理技术的信息中心智能客服终端
  • 一种基于软交换的智能客服呼叫中心系统
技术分类

06120116679627