掌桥专利:专业的专利平台
掌桥专利
首页

对讲终端的语音处理方法、装置、终端设备及存储介质

文献发布时间:2024-04-18 19:59:31


对讲终端的语音处理方法、装置、终端设备及存储介质

技术领域

本发明涉及语音处理技术领域,尤其涉及一种对讲终端的语音处理方法、装置、终端设备及存储介质。

背景技术

随着语音技术的广泛应用,各个智能语音设备可以利用智能语音技术与用户进行交互。在对讲终端中,对讲终端的输入端接收用户的输入语音,经由对讲终端的输出端将用户的输入语音输出。在对讲终端接收到输入语音后,现有技术通常未经处理将所输入的语音直接输出到语音输出端,这样导致所接收到的语音包含过多噪音,所输出的语音质量低。因此,亟需一种能提高对讲终端输出语音质量的方法。

发明内容

本发明实施例提供一种对讲终端的语音处理方法、装置、终端设备及存储介质,能提高对讲终端输出语音质量。

本发明一实施例提供一种对讲终端的语音处理方法,包括:

获取对讲终端的输入语音;

对所述输入语音进行检测,在检测到所述输入语音包含噪声时,将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音中的活动语音,并对所述活动语音进行增益,输出消除噪声的第一语音;

根据所述第一语音确定输出语音,以使对讲终端输出所述输出语音。

进一步地,所述降噪模型包括:活动语音检测子模型和增益子模型;

所述活动语音检测子模型由具有24个神经元的Dense层、具有24个神经元的GRU层和具有1个神经元的Dense层构成;

所述增益子模型由具有48个神经元的GRU层、具有96个神经元的GRU层和具有22个神经元的Dense层构成。

进一步地,所述将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音中的活动语音,并对所述活动语音进行增益,输出消除噪声的第一语音,包括:

将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音的特征点,并将所述特征点输入活动语音检测子模型,以使所述特征点经过活动语音检测子模型处理后,确定输入语音中活动语音的位置;将所述特征点输入增益子模型,以使所述特征点经过增益子模型处理后,确定输入语音对应的目标增益;

所述降噪模型根据所述目标增益对输入语音中的活动语音进行增益,输出消除噪声的第一语音。

进一步地,还包括:

在检测到所述输入语音包含回声时,根据回声消除算法对所述输入语音进行处理,生成消除回声的第二语音;

根据所述第一语音和第二语音确定输出语音,以使对讲终端输出所述输出语音。

进一步地,所述根据回声消除算法对所述输入语音进行处理,生成消除回声的第二语音,包括:

获取所述输入语音的近端信号和远端信号;

对所述近端信号和远端信号分别进行傅里叶变换,生成第一转换信号和第二转换信号;

根据所述第一转换信号、第二转换信号和NLMS自适应算法确定误差信号;

根据所述误差信号、第一转换信号和第二转换信号确定输入语音的回声状态;

根据所述回声状态和误差信号确定回声抑制滤波器的滤波系数;

根据所述滤波系数调整回声抑制滤波器,以使回声抑制滤波器消除所述误差信号,生成消除回声的第二语音。

在上述方法项实施例的基础上,本发明对应提供了装置项实施例;

本发明一实施例对应提供了一种对讲终端的语音处理装置,包括:语音获取模块、语音处理模块和语音输出模块;

所述语音获取模块,用于获取对讲终端的输入语音;

所述语音处理模块,用于对所述输入语音进行检测,在检测到所述输入语音包含噪声时,将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音中的活动语音,并对所述活动语音进行增益,输出消除噪声的第一语音;

所述语音输出模块,用于根据所述第一语音确定输出语音,以使对讲终端输出所述输出语音。

进一步地,所述降噪模型包括:活动语音检测子模型和增益子模型;

所述活动语音检测子模型由具有24个神经元的Dense层、具有24个神经元的GRU层和具有1个神经元的Dense层构成;

所述增益子模型由具有48个神经元的GRU层、具有96个神经元的GRU层和具有22个神经元的Dense层构成。

进一步地,所述将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音中的活动语音,并对所述活动语音进行增益,输出消除噪声的第一语音,包括:

将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音的特征点,并将所述特征点输入活动语音检测子模型,以使所述特征点经过活动语音检测子模型处理后,确定输入语音中活动语音的位置;将所述特征点输入增益子模型,以使所述特征点经过增益子模型处理后,确定输入语音对应的目标增益;

所述降噪模型根据所述目标增益对输入语音中的活动语音进行增益,输出消除噪声的第一语音。

本发明另一实施例提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述发明实施例所述的一种对讲终端的语音处理方法。

本发明另一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行上述发明实施例所述的一种对讲终端的语音处理方法。

通过实施本发明具有如下有益效果:

本发明提供了一种对讲终端的语音处理方法、装置、终端设备及存储介质,所述方法通过获取对讲终端的输入语音,并对输入语音进行检测,在检测到的输入语音中包含有噪声时,根据降噪模型确定输入语音中的活动语音,即确定输入语音中的人声部分,根据降噪模型对所确定的活动语音进行增益以达到消除噪声的效果,继而再将消除噪声后的第一语音作为输出语音;通过对输入语音的处理,解决了将输入语音直接输出导致输出语音包含过多噪声使语音质量低的问题,提高了对讲终端输出语音质量。

附图说明

图1是本发明一实施例提供的一种对讲终端的语音处理方法的流程示意图。

图2是本发明一实施例提供的降噪模型的网络层级结构示意图。

图3是本发明一实施例提供的一种回声消除算法对输入语音进行处理的流程示意图。

图4是本发明一实施例提供的一种对讲终端的语音处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,是本发明一实施例提供的一种对讲终端的语音处理方法,包括:

步骤S1:获取对讲终端的输入语音;

步骤S2:对所述输入语音进行检测,在检测到所述输入语音包含噪声时,将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音中的活动语音,并对所述活动语音进行增益,输出消除噪声的第一语音;

步骤S3:根据所述第一语音确定输出语音,以使对讲终端输出所述输出语音。

对于步骤S1、在对讲终端中,通常包括用于获取输入语音的输入端,如麦克风等以及用于输出语音的输出端,如扬声器等;示例性的:对讲终端将用户A从终端A的麦克风输入语音,所输入的语音经过处理后最终传输至用户B所使用的终端B,从终端B的扬声器中输出。在此步骤中,即是获取对讲终端中用户A从终端A的麦克风中输入的输入语音。

对于步骤S2和步骤S3、对步骤S1所获取的输入语音进行检测,在检测到输入语音中包含有噪声时,将输入语音输入到降噪模型中,以使降噪模型对输入语音进行增益,消除输入语音中的噪声。将消除噪声后的第一语音作为输出语音从用户B的终端B的扬声器中输出,以达到噪声消除的效果。

在一个优选的实施例中,所述降噪模型包括:活动语音检测子模型和增益子模型;所述活动语音检测子模型由具有24个神经元的Dense层、具有24个神经元的GRU层和具有1个神经元的Dense层构成;所述增益子模型由具有48个神经元的GRU层、具有96个神经元的GRU层和具有22个神经元的Dense层构成。

在一个优选的实施例中,所述将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音中的活动语音,并对所述活动语音进行增益,输出消除噪声的第一语音,包括:将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音的特征点,并将所述特征点输入活动语音检测子模型,以使所述特征点经过活动语音检测子模型处理后,确定输入语音中活动语音的位置;将所述特征点输入增益子模型,以使所述特征点经过增益子模型处理后,确定输入语音对应的目标增益;所述降噪模型根据所述目标增益对输入语音中的活动语音进行增益,输出消除噪声的第一语音。

具体的,如图2所示,是本发明实施例提供的降噪模型的网络层级结构示意图。采用降噪模型对输入语音中的噪声进行处理,降噪模型是采用AI降噪算法,采用开源的keras库对通用的RNNOISE降噪模型进行训练得到的,通过该降噪模型对输入语音进行处理,能将输入语音中所包含的噪声消除。

该降噪模型包括两个子模型,分别为活动语音检测子模型和增益子模型;活动语音检测子模型用于确定输入语音中的活动语音的位置,增益子模型用于确定增益值,根据所确定的增益值对输入语音中的活动语音进行增益,以得到增益后的第一语音。示例性的:在图2中,每个方框代表一个神经元,括号中该层所包含的神经元个数,例如Dense(24)层表示具有24个神经元的致密层。活动语音检测子模型由Dense(24)层、GRU(24)层和Dense(1)层构成;增益子模型由GRU(48)层、GRU(96)层和Dense(22)层构成。将输入语音输入到降噪模型中,降噪模型中提取输入语音的特征点;图2中的input features即表示为输入语音的42个特征点,将所提取的42个特征点输入Dense(24)层,Dense(24)层根据所输入的特征点采用tanh激活函数处理后得到第一特征输出,将所得到的第一特征输出传输至GRU(24)层,GRU(24)层将第一特征输出通过ReLU激活函数进行处理得到第二特征输出,并将第二特征输出传输至Dense(1)层,经过sigmoid激活函数输出VAD(Voice Activity Detection,语音活动检测),继而输出保留活动语音的输入语音。

需要说明的是,VAD的主要作用是将语音信号中的静默部分去除,保留语音部分,以便后续处理和分析。在语音通信中,如果能够准确地检测出语音信号的活动部分和非活动部分,就可以有效地减少数据传输量,提高通信效率。

同时,将所提取的42个特征点输入GRU(48)层,将GRU(24)层和Dense(24)层输出的第一特征输出和第二特征输出输入到GRU(48)层,GRU(48)层根据所输入的特征点、第一特征输出和第二特征输出采用ReLU激活函数对其进行处理得到噪音谱的估计;将噪音谱的估计作为GRU(96)层的输入,同时将所提取的特征点输入到GRU(96)层中,将GRU(24)层输出的第二特征输出输入到GRU(96)层中,使GRU(96)层根据噪音谱、所提取的特征点和第二特征输出通过tanh函数的处理得到最终的特征点,将所得到的最终的特征点经过Dense(22)层的处理最终得到22个增益值输出,所输出的22个增益值分别对应活动语音中各个频带的增益;继而根据所确定的增益对所确定的活动语音进行处理得到消除噪声的第一语音。

在一个优选的实施例中,还包括:在检测到所述输入语音包含回声时,根据回声消除算法对所述输入语音进行处理,生成消除回声的第二语音;根据所述第一语音和第二语音确定输出语音,以使对讲终端输出所述输出语音。

在一个优选的实施例中,所述根据回声消除算法对所述输入语音进行处理,生成消除回声的第二语音,包括:获取所述输入语音的近端信号和远端信号;对所述近端信号和远端信号分别进行傅里叶变换,生成第一转换信号和第二转换信号;根据所述第一转换信号、第二转换信号和NLMS自适应算法确定误差信号;根据所述误差信号、第一转换信号和第二转换信号确定输入语音的回声状态;根据所述回声状态和误差信号确定回声抑制滤波器的滤波系数;根据所述滤波系数调整回声抑制滤波器,以使回声抑制滤波器消除所述误差信号,生成消除回声的第二语音。

具体的,在检测到输入语音中包含有回声时,采用48K高采样率回声消除算法对输入语音中所包含的回声进行消除,以提高输出语音的清晰度和避免回声对输出语音质量的影响。

在本发明实施例中,采用NLMS自适应算法对比远端语音信号和近端语音信号的相似度,判断输入语音中是否包含有回声,结合NLP非线性处理对回声进行处理,以滤除回声得到干净语音。示例性的,如图3所示是本发明实施例提供的一种回声消除算法对输入语音进行处理的流程示意图。首先,获取输入语音中所包含的近端信号d(n)和远端信号x(n),近端信号d(n)为麦克风采集的音频信号的时间序列,远端信号x(n)为喇叭播放的时间序列;分别对近端信号d(n)和远端信号x(n)进行傅里叶变换;近端信号d(n)经过傅里叶变换处理后得到第一转换信号D(w),远端信号x(n)经过傅里叶变换处理后得到第二转换信号X(w);第二转换信号X(w)经滤波器组后结合第一转换信号D(w)采用基于固定步长的NLMS自适应算法对这两个信号进行处理,得到误差信号E(w);所得到的误差信号E(w)用于更新滤波器组的参数,优选的,更新的滤波器组参数为滤波器组的带宽w。将误差信号E(w)、第一转换信号D(w)和第二转换信号X(w)通过基于相干性的远距离信号检测处理,以计算误差信号E(w)与第一转换信号D(w)的相干性,误差信号E(w)和第二转换信号X(w)的相干性,根据所计算的两者的相干性得到输入语音的回声状态state。将所得到的回声状态state和误差信号E(w)经过非线性回声抑制处理后得到回声抑制滤波器的滤波系数H(w);根据回声抑制滤波器的滤波系数H(w)调制误差信号E(w),并加入舒适噪声处理后输出去除回声的第二语音。

根据消除了噪声后的第一语音和消除回声后的第二语音进行整合即可得到输出语音,将所得到的输出语音从用户B的终端B的扬声器中输出,所输出的语音即为消除噪声和回声后的干净语音。

在上述方法项实施例的基础上,本发明对应提供了装置项实施例。

如图4所示,本发明一实施例提供了一种对讲终端的语音处理装置,包括:语音获取模块、语音处理模块和语音输出模块;

所述语音获取模块,用于获取对讲终端的输入语音;

所述语音处理模块,用于对所述输入语音进行检测,在检测到所述输入语音包含噪声时,将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音中的活动语音,并对所述活动语音进行增益,输出消除噪声的第一语音;

所述语音输出模块,用于根据所述第一语音确定输出语音,以使对讲终端输出所述输出语音。

在一个优选的实施例中,所述降噪模型包括:活动语音检测子模型和增益子模型;

所述活动语音检测子模型由具有24个神经元的Dense层、具有24个神经元的GRU层和具有1个神经元的Dense层构成;

所述增益子模型由具有48个神经元的GRU层、具有96个神经元的GRU层和具有22个神经元的Dense层构成。

在一个优选的实施例中,所述将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音中的活动语音,并对所述活动语音进行增益,输出消除噪声的第一语音,包括:

将所述输入语音输入降噪模型中,以使所述降噪模型提取输入语音的特征点,并将所述特征点输入活动语音检测子模型,以使所述特征点经过活动语音检测子模型处理后,确定输入语音中活动语音的位置;将所述特征点输入增益子模型,以使所述特征点经过增益子模型处理后,确定输入语音对应的目标增益;

所述降噪模型根据所述目标增益对输入语音中的活动语音进行增益,输出消除噪声的第一语音。

需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

所述领域的技术人员可以清楚地了解到,为了方便和简洁,上述描述的装置的具体工作过程,可参考前述方法实施例中对应的过程,在此不再赘述。

在上述方法项实施例的基础上,本发明对应提供了终端设备项实施例。

本发明一实施例提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现本发明中任意一项所述的一种对讲终端的语音处理方法。

终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。

所述存储器可用于存储所述计算机程序,所述处理器通过运行或执行存储在所述存储器内的计算机程序,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据手机的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在上述方法项实施例的基础上,本发明对应提供了存储介质项实施例。

本发明一实施例提供了一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行本发明中任意一项所述的一种对讲终端的语音处理方法。

所述存储介质为计算机可读存储介质,所述计算机程序存储在所述计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

相关技术
  • 一种负极片及含有该负极片的金属锂电池
  • 复合负极材料及其制备方法、锂离子二次电池负极极片和锂离子二次电池
  • 一种锂离子电池负极材料及制备得到的锂离子电池负极
  • 一种聚酰亚胺型锂电池负极极片及制备方法
  • 一种固态电池用正极片或负极片的制备方法、固态电池用正极片或负极片、固态电池
  • 一种负极活性物质、负极片及含有该负极片的脉冲缓冲单体电池、电池组和动力电池模块
技术分类

06120116518437