掌桥专利:专业的专利平台
掌桥专利
首页

基于特征压缩和声纹信息自适应融合的语音提取方法

文献发布时间:2024-04-18 19:58:53


基于特征压缩和声纹信息自适应融合的语音提取方法

技术领域

本发明涉及人工智能基于特征压缩和声纹信息自适应融合的语音提取相关领域,具体而言,涉及一种基于特征压缩和声纹信息自适应融合的语音提取方法、装置、存储介质及电子装置。

背景技术

近些年来,随着人工智能与深度神经网络的快速发展,各行各业均或多或少受到冲击。而智能语音技术也在其影响下不断应用到人们的日常生活当中。目标语音提取作为智能语音技术的重要任务之一,也正在向深度学习为代表的数据驱动方法转变,端到端的网络结构成为主要的技术路线。

目标语音提取任务起源于鸡尾酒效应,即在日常生活中,即使我们在具有噪声、混响或者干扰说话人的声学条件下,我们的大脑可以展现出出色的能力,能够集中注意力并有效地筛选出目标语音,而忽略其他噪音。几十年来,研究人员致力于研究接近人类的听力能力的技术。在这项任务当中,一个关键问题是处理干扰说话人的声音,因为其与目标说话人具有相似的特征,使得他们的识别/分离变得复杂。基于此,目标语音提取技术被提出,其利用可以识别目标说话人的先验注册信息,从有或者没有噪声或者混响的一个或多个说话人的混合语音中分离出目标说话人的语音信号。这些先验信息通常是预先录制的目标说话人的注册语音,从中可以得到他们的声学特征。目标语音提取是一个新兴的研究领域,近年来受到越来越多的关注,因为它为鸡尾酒酒会问题提供了一种适用的方法。

当前目标语音提取任务中,主流方法都是在短时傅里叶变换域内对混合语音信号进行建模,利用注册语音的先验信息指引目标语音提取。但是固定的频谱分辨率给这类方法带来了局限。一方面,过低的分辨率难以区分语音谐波间的噪声,会导致系统的性能下降;另一方面,过高的分辨率将大幅提升计算复杂度以及模型的参数量,不适合实际应用部署。此外,由于实际场景下带噪语音中目标说话人声音特征会在语句过程中出现动态的变化,传统的使用单一静态先验信息也很难准确指引目标语音部分的提取。相关技术中,语音提取准确度较低。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于特征压缩和声纹信息自适应融合的语音提取方法、装置、存储介质及电子装置,以至少解决现有技术中,基于特征压缩和声纹信息自适应融合的语音提取准确度较低的技术问题。

根据本发明实施例的一个方面,提供了一种基于特征压缩和声纹信息自适应融合的语音提取方法,包括:获取目标对象的带噪语音和注册语音,其中,所述注册语音与所述带噪语音中所述目标对象的语音是不同的声音;从所述带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从所述注册语音提取对应的第二低频特征和第二中高频压缩感知特征;基于深度神经网络的噪音编码器对所述第一低频特征以及所述第一中高频压缩感知特征进行编码,得到编码特征;基于所述深度神经网络的注册编码器对所述第二低频特征以及所述第二中高频压缩感知特征进行映射,得到映射特征;将所述编码特征和所述映射特征融合,得到融合特征;基于所述深度神经网络的解码器解码所述融合特征得到目标语音。

可选的,所述将所述编码特征和所述映射特征融合,得到融合特征,包括:将所述目标对象身份信息的高维表征线性投影到与所述带噪语音中间特征相同的特征空间;计算所述带噪语音经过所述噪音编码器得到的高维特征中的每一帧与投影后的所述目标对象表征进行相似度计算;相似度加权所述目标对象表征得到所述目标对象的动态身份表征;将得到的所述目标对象动态身份表征融合到带噪语音高维表征,得到所述融合特征。

可选的,所述提基于所述深度神经网络的解码器解码所述融合特征得到目标语音,包括:重构所述目标语音信号低频部分以及高频部分;将得到的低频语音信号和中高频信号在频域融合,然后利用傅里叶反变换将频域信号转回到时域,得到所述目标语音。

可选的,所述从所述带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从所述注册语音提取对应的第二低频特征和第二中高频压缩感知特征,包括:基于人耳听觉特性的特征压缩方式,将所述带噪语音以及所述注册语音均分成低频和中高频两个部分;分别对所述带噪语音以及所述注册语音中的中高频部分进行特征压缩,分别得到对应的所述第一中高频压缩感知特征和所述第二中高频压缩感知特征。

可选的,所述分别对所述带噪语音以及所述注册语音中的中高频部分进行特征压缩,分别得到对应的所述第一中高频压缩感知特征和所述第二中高频压缩感知特征,包括:对所述带噪语音以及所述注册语音中的中高频部分进行特征压缩方式均如下:对语音取模平方得到能量谱;基于人耳听觉感知特性对能量谱进行非线性滤波;对相同带宽通道内频点进行取平均值操作来减少特征维度。

根据本发明实施例的另一方面,还提供了一种基于特征压缩和声纹信息自适应融合的语音提取装置,包括:获取单元,用于获取目标对象的带噪语音和注册语音,其中,所述注册语音与所述带噪语音中所述目标对象的语音是不同的声音;提取单元,用于从所述带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从所述注册语音提取对应的第二低频特征和第二中高频压缩感知特征;处理单元,用于基于深度神经网络的噪音编码器对所述第一低频特征以及所述第一中高频压缩感知特征进行编码,得到编码特征;基于所述深度神经网络的注册编码器对所述第二低频特征以及所述第二中高频压缩感知特征进行映射,得到映射特征;融合单元,用于将所述编码特征和所述映射特征融合,得到融合特征;解码单元,用于基于所述深度神经网络的解码器解码所述融合特征得到目标语音。

可选的,所述融合单元,包括:映射模块,用于将所述目标对象身份信息的高维表征线性投影到与所述带噪语音中间特征相同的特征空间;计算模块,用于计算所述带噪语音经过所述噪音编码器得到的高维特征中的每一帧与投影后的所述目标对象表征进行相似度计算;处理模块,用于相似度加权所述目标对象表征得到所述目标对象的动态身份表征;融合模块,用于将得到的所述目标对象动态身份表征融合到带噪语音高维表征,得到所述融合特征。

根据本申请实施例的第一个方面,提供了一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述基于特征压缩和声纹信息自适应融合的语音提取方法。

根据本申请实施例的第一个方面,提供了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述基于特征压缩和声纹信息自适应融合的语音提取方法。

在本发明实施例中,获取目标对象的带噪语音和注册语音,其中,注册语音与带噪语音中目标对象的语音是不同的声音;从带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从注册语音提取对应的第二低频特征和第二中高频压缩感知特征;基于深度神经网络的噪音编码器对第一低频特征以及第一中高频压缩感知特征进行编码,得到编码特征;基于深度神经网络的注册编码器对第二低频特征以及第二中高频压缩感知特征进行映射,得到映射特征;将编码特征和映射特征融合,得到融合特征;基于深度神经网络的解码器解码融合特征得到目标语音。基于特征压缩和声纹信息自适应融合的目标语音提取目标语音。进而解决了现有技术中,基于特征压缩和声纹信息自适应融合的语音提取准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种可选的基于特征压缩和声纹信息自适应融合的语音提取方法的移动终端的硬件结构框图;

图2是根据本发明实施例的一种可选的基于特征压缩和声纹信息自适应融合的语音提取方法的流程图;

图3是根据本发明实施例的一种可选的基于特征压缩和声纹信息自适应融合的目标语音提取流程图;

图4是根据本发明实施例的一种可选的提取基于人耳听觉特性的压缩特征流程图;

图5是根据本发明实施例的一种可选的注册语音编码器处理流程图;

图6是根据本发明实施例的一种可选的目标说话人表征向量自适应融合流程图;

图7是根据本发明实施例的一种可选的基于特征压缩和声纹信息自适应融合的语音提取装置图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一序列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例所提供的基于特征压缩和声纹信息自适应融合的语音提取方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种基于特征压缩和声纹信息自适应融合的语音提取方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的基于特征压缩和声纹信息自适应融合的语音提取方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中还提供了一种基于特征压缩和声纹信息自适应融合的语音提取方法,图2是根据本发明实施例的基于特征压缩和声纹信息自适应融合的语音提取方法的流程图,如图2所示,该基于特征压缩和声纹信息自适应融合的语音提取方法流程包括如下步骤:

步骤S202,获取目标对象的带噪语音和注册语音,其中,所述注册语音与所述带噪语音中所述目标对象的语音是不同的声音。

步骤S204,从所述带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从所述注册语音提取对应的第二低频特征和第二中高频压缩感知特征。

步骤S206,基于深度神经网络的噪音编码器对所述第一低频特征以及所述第一中高频压缩感知特征进行编码,得到编码特征;基于所述深度神经网络的注册编码器对所述第二低频特征以及所述第二中高频压缩感知特征进行映射,得到映射特征。

步骤S208,将所述编码特征和所述映射特征融合,得到融合特征。

步骤S210,基于所述深度神经网络的解码器解码所述融合特征得到目标语音。

在本实施例中,上述基于特征压缩和声纹信息自适应融合的语音提取方法可以包括但不限于从噪音中提取目标对象的语音信号。其中,目标语音提取任务的多种场景数据合成。

目标语音提取任务旨在从带有各种背景噪声或者干扰人声中只提取目标说话人语音,为此,需要合成三种场景类型的训练数据,分别为:目标语音+干扰人声;目标语音+背景噪声;目标语音+干扰人声+背景噪声。此外,在各种场景下均准备有目标说话人注册语音作为参考信息,该注册语音与带噪语音中目标说话人的语音是不同的声音。

在本实施例中,对带噪语音音频和目标说话人注册语音音频,均采用基于人耳听觉特性的压缩特征进行特征提取,得到原始语音的两种声学特征--低频特征、中高频压缩感知特征。

其中,在本实施例中,利用基于深度神经网络的编码器提取输入特征的高阶抽象表示。使用两个编码器分别对带噪语音和注册语音建模。带噪语音编码器,对带噪语音的压缩感知特征进行编码,结构是以因果卷积神经网络(CNN)为基础,对输入特征进行下采样,通过训练能够作为一个具有强泛化能力的带噪语音的高维特征提取器。同时满足因果性的前提条件,卷积神经网络在进行计算时只使用当前帧和过去帧来计算给定帧的预测,保证了系统可以进行实时应用。注册语音编码器,对目标说话人注册语音进行编码,编码器结构主要以长短时记忆网络(LSTM)、全连接网络(FC)以及卷积神经网络(CNN组成),将原始注册语音手工特征映射到高维表征,即目标说话人的声纹信息,以至于更容易被下游提取神经网络学习和拟合。

通过本申请提供的实施例,获取目标对象的带噪语音和注册语音,其中,注册语音与带噪语音中目标对象的语音是不同的声音;从带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从注册语音提取对应的第二低频特征和第二中高频压缩感知特征;基于深度神经网络的噪音编码器对第一中高频压缩感知特征进行编码,得到编码特征;基于深度神经网络的注册编码器对第二中高频压缩感知特征进行映射,得到映射特征;将编码特征和映射特征融合,得到融合特征;基于深度神经网络的解码器解码融合特征得到目标语音。基于特征压缩和声纹信息自适应融合的目标语音提取目标语音。进而解决了现有技术中,基于特征压缩和声纹信息自适应融合的语音提取准确度较低的技术问题。

需要说明的是,通过深度神经网络实现目标语音提取,即获取带噪语音和注册语音,其中,注册语音与带噪语音中目标对象的语音是不同声音;进行短时傅里叶变换;在时频域进行提出的基于人耳听觉特征的特征压缩,分别得到第一、第二压缩特征;使用噪音编码器和注册编码器对第一、第二压缩特征分别进行编码和映射;使用提出的声纹信息自适应融合方法融合编码特征与映射特征;使用基于深度神经网络的编码器得到目标语音;解决了传统目标语音提取使用固定频率分辨率带来的问题以及目标对象动态声音特征变化的问题,提高了现有技术中提取的目标语音质量。

可选的,所述将所述编码特征和所述映射特征融合,得到融合特征,包括:将所述目标对象身份信息的高维表征线性投影到与所述带噪语音中间特征相同的特征空间;计算所述带噪语音经过所述噪音编码器得到的高维特征中的每一帧与投影后的所述目标对象表征进行相似度计算;相似度加权所述目标对象表征得到所述目标对象的动态身份表征;将得到的所述目标对象动态身份表征融合到带噪语音高维表征,得到所述融合特征。

可选的,所述提基于所述深度神经网络的解码器解码所述融合特征得到目标语音,可以包括:重构所述目标语音信号低频部分以及高频部分;将得到的低频语音信号和中高频信号在频域融合,然后利用傅里叶反变换将频域信号转回到时域,得到所述目标语音。

可选的,所述从所述带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从所述注册语音提取对应的第二低频特征和第二中高频压缩感知特征,可以包括:基于人耳听觉特性的特征压缩方式,将所述带噪语音以及所述注册语音均分成低频和中高频两个部分;分别对所述带噪语音以及所述注册语音中的中高频部分进行特征压缩,分别得到对应的所述第一中高频压缩感知特征和所述第二中高频压缩感知特征。

可选的,所述分别对所述带噪语音以及所述注册语音中的中高频部分进行特征压缩,分别得到对应的所述第一中高频压缩感知特征和所述第二中高频压缩感知特征,可以包括:对所述带噪语音以及所述注册语音中的中高频部分进行特征压缩方式均如下:对语音取模平方得到能量谱;基于人耳听觉感知特性对能量谱进行非线性滤波;对相同带宽通道内频点进行取平均值操作来减少特征维度。

作为可选的实施例,本申请还提出一种基于特征压缩和声纹信息自适应融合的目标语音提取方法。如图3所示,基于特征压缩和声纹信息自适应融合的目标语音提取方法流程图。

本实施例中,基于特征压缩和声纹信息自适应融合的目标语音提取方法,主要包括两点关键创新。第一,基于人耳听觉特性的特征压缩方法,该方法采用可变分辨率的时频转换方式,以适应不同频带的分辨率需求。第二,目标说话人声纹信息自适应融合方法,该方法采用动态的声纹特征注入机制,可以实时的跟踪带噪语音中目标说话人语音特征的变化。

首先,基于人耳听觉特性的特征压缩方法具体包括如下内容。

为了在不明显影响目标语音提取任务性能的前提下,同时减小模型输入规模,考虑到人耳对语音的频率感知具有非线性过滤的特点,进行针对性的特征压缩,在保证主观感知质量的前提下降低数据冗余度。

首先使用传统信号处理方法对原始音频进行预加重、分帧、加窗以及快速傅里叶变换。其次,进行滤波操作,将信号分成低频和中高频两个部分。由于人耳对于语音信号低频区域敏感度更高,所以保留该区域不变,然后对于中高频部分进行特征压缩。包括三个步骤,首先进行取模平方得到能量谱;然后基于人耳听觉感知特性对能量谱进行非线性滤波;最后对相同带宽通道内频点进行取平均值操作来减少特征维度。

其次,目标说话人声纹信息自适应融合方法具体包括如下内容。

人类说话者的声音特征会在语句过程中出现动态变化,传统的固定融合方式无法对此进行建模。为解决这个问题,目标说话人声纹信息自适应融合模块,可以对能够表征目标说话人身份信息的高维特征与输入的带噪语音特征进行动态关联建模。在提取过程中,可以对应到带噪语音中目标说话人声音的变化来逐帧调整目标说话人注册语音中的声纹信息。这种逐帧调整,使得融合可以动态自适应到对应输入带噪语音中目标说话人声音特征的变化。在下游的语音提取网络中,使用这个自适应融合表示作为条件信息,可以进一步提升系统对目标说话人语音的提取质量。

需要说明的是,本申请实施例中,一种基于特征压缩和声纹信息自适应融合的目标语音提取系统,主要包括如下5个步骤:

步骤1,针对目标语音提取任务的多种场景数据合成。

目标语音提取任务旨在从带有各种背景噪声或者干扰人声中只提取目标说话人语音,为此,需要合成三种场景类型的训练数据,分别为:目标语音+干扰人声;目标语音+背景噪声;目标语音+干扰人声+背景噪声。此外,在各种场景下均准备有目标说话人注册语音作为参考信息,该注册语音与带噪语音中目标说话人的语音是不同的声音。

其中,根据干净语音集、噪声集、混响以及注册语音构建训练数据。

实际场景中,目标说话人的声音可能受到背景噪声、其他干扰说话人以及声学环境混响的影响。针对于此,为提升基于压缩特征和自适应学习系统的鲁棒性,在训练过程中需要准备三种类型的数据集来进行训练:目标语音+背景噪声;目标语音+干扰说话人语音;目标语音+背景噪声+干扰说话人语音。并且,在数据合成过程中可以加入一些混响来模拟真实的环境。具体的,以已有的干净语音集作为合出这三种类型的带噪语音的源数据同时作为训练时的标签,然后进行加噪处理,合出不同类型、信噪比、响度和声学环境的带噪语音信号。

步骤2,提取基于人耳听觉特性的压缩特征。

对带噪语音音频和目标说话人注册语音音频,均采用上述基于人耳听觉特性的特征压缩方法进行特征提取,得到原始语音的两种声学特征--低频特征、中高频压缩感知特征。

其中,如图4所示,提取基于人耳听觉特性的压缩特征流程图。首先对训练数据中带噪语音、注册语音原始音频进行分帧、加窗操作,然后进行快速傅里叶变换,得到时频特征-语谱图。接下来对语谱图特征进行压缩处理,一方面,对于语音信号的中高频部分进行基于人耳对不同频率分辨力的非线性规律的非线性通道内滤波。具体的,先对语谱图的中高频范围进行取模平方运算得到能量谱,然后在同一通道内进行平均池化操作,通道长度基于人耳声学带宽度量方式,在较低频时,带宽较窄,分辨力好。随着频率上升,带宽按照一定关系变宽,也就是说不同中心频率带宽呈现非线性规律。另一方面,同时提供原始语音信号的完整低频信息作为模型输入。这种方式既可保证关键语音频带的频率分辨率不受影响,使模型可以充分学习低频区域的语音特征,同时也提供对语音信号全频带的抽象概括。两者的结合使模型同时享有低频精细建模与高频抽象建模的优势。

步骤3,利用基于深度神经网络的编码器提取输入特征的高阶抽象表示。

使用两个编码器分别对带噪语音和注册语音建模。带噪语音编码器,对带噪语音的压缩感知特征进行编码,结构是以因果卷积神经网络(CNN)为基础,对输入特征进行下采样,通过训练能够作为一个具有强泛化能力的带噪语音的高维特征提取器。同时满足因果性的前提条件,卷积神经网络在进行计算时只使用当前帧和过去帧来计算给定帧的预测,保证了系统可以进行实时应用。注册语音编码器,对目标说话人注册语音进行编码,编码器结构主要以长短时记忆网络(LSTM)、全连接网络(FC)以及卷积神经网络(CNN组成),将原始注册语音手工特征映射到高维表征,即目标说话人的声纹信息,以至于更容易被下游提取神经网络学习和拟合。

具体的,本实施例中,使用两个编码器分别对注册语音和带噪语音进行建模。注册语音编码器包含两个分支,分别对两种压缩后的感知语音特征进行处理。每条分支首先使用长短时记忆单元学习时序特征,然后接三层卷积模块,如图5所示,注册语音编码器处理流程图。

其中,每层卷积模块由一层3×3卷积(卷积核大小为3×3)、批归一化、参数化修正线性单元和1×1点卷积(卷积核大小为1×1)组成。然后将两分支输出特征拼接,过一层全连接网络后在时间维度计算特征平均,获得目标说话人的语音向量表示。带噪语音编码器将对应输入的压缩感知特征进行编码,将其映射到高维表征。

步骤4,目标说话人声纹信息自适应融合。

其中,步骤4的实现过程主要分为四个步骤:第一,将可表示目标说话人身份信息的高维表征线性投影到与带噪语音中间特征相同的特征空间。第二,计算带噪语音经过编码器得到的高维特征中的每一帧与投影后的目标说话人表征进行相似度计算。第三,利用第二步骤得到的相似度加权目标说话人表征得到目标说话人的动态身份表征。第四,将得到的目标说话人动态身份表征融合到带噪语音高维表征,然后输入到下游目标语音提取网络进行预测目标信号。

在本实施例中,如图6所示,目标说话人表征向量自适应融合流程图。

第一步,对得到的目标说话人特征表示向E

第二步,计算目标说话人表征与带噪语音高维表征的每一帧之间的相似度,得到一个时间维度上的权重向量。

其中Softmax函数将每一帧的相似度分数缩放到[0,1]之间,

第三步,利用得到的相似度向量W

最后,采用逐元素相乘的方式⊙,将自适应的目标说话人表征E

H

步骤5,利用基于深度神经网络的解码器恢复出目标语音。

使用两个解码器作为下游提取网络,将前面得到的高维特征进行上采样,旨在重构出目标语音信号。分为三个步骤:第一步,重构目标语音信号低频部分;第二步,重构出目标语音中高频部分;第三步,将得到的低频语音信号和中高频信号在频域融合,然后利用傅里叶反变换将频域信号转回到时域,得到最后的目标语音信号。

具体的,在本实施例中,使用两个解码器完成对于目标语音的提取。第一个是低频解码器,它以前面步骤得到的融合表征作为输入,预测目标语音信号低频部分的复值掩码,该掩码与带噪语音的低频部分相乘,提取目标语音的低频部分。由于此时只是在带噪语音的低频分量中进行操作,中高频区域内仍可能存在某些噪声成分,所以使用中高频解码器进行进一步的精细化操作,其输入仍然为前面得到的融合特征作为输入,预测出目标语音中高频压缩特征的掩码值,然后先讲该压缩特征域内掩码值转换到中高频域,同样得到目标信号中高频成分的复值掩码值,然后利用改掩码值点乘带噪语音的中高频成分,即可完成对目标语音中高频成分的提取。最后,将两部分在频域融合,然后进行傅里叶反变换生成完整目标语音。

通过本申请实施例,第一,基于人耳听觉特性的特征压缩方法,该方法采用可变分辨率的时频转换方式,以适应不同频带的分辨率需求。第二,目标说话人声纹信息自适应融合方法,该方法采用动态的声纹特征注入机制,可以实时的跟踪带噪语音中目标说话人语音特征的变化。这两点分别从语音特征表示和先验信息建模方面,对现有短时傅里叶转换+静态融合框架进行了重要改进。它们互为补充,共同提高了目标语音提取系统的建模能力,是实现可实际应用部署且个性化的目标语音提取系统的关键。可变分辨率时频转换可灵活平衡增强质量与效率,动态声纹特征融合解决语音特征动态变化造成的不匹配问题。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种智能设备的控制装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图7是根据本发明实施例的基于特征压缩和声纹信息自适应融合的语音提取装置的结构框图,如图7所示,该基于特征压缩和声纹信息自适应融合的语音提取装置包括:

获取单元71,用于获取目标对象的带噪语音和注册语音,其中,所述注册语音与所述带噪语音中所述目标对象的语音是不同的声音。

提取单元73,用于从所述带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从所述注册语音提取对应的第二低频特征和第二中高频压缩感知特征。

处理单元75,用于基于深度神经网络的噪音编码器对所述第一低频特征以及所述第一中高频压缩感知特征进行编码,得到编码特征;基于所述深度神经网络的注册编码器对所述第二低频特征以及所述第二中高频压缩感知特征进行映射,得到映射特征。

融合单元77,用于将所述编码特征和所述映射特征融合,得到融合特征。

解码单元79,用于基于所述深度神经网络的解码器解码所述融合特征得到目标语音。

通过本申请实施例,获取单元71获取目标对象的带噪语音和注册语音,其中,所述注册语音与所述带噪语音中所述目标对象的语音是不同的声音;提取单元73从所述带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从所述注册语音提取对应的第二低频特征和第二中高频压缩感知特征;处理单元75基于深度神经网络的噪音编码器对所述第一低频特征以及所述第一中高频压缩感知特征进行编码,得到编码特征;基于所述深度神经网络的注册编码器对所述第二低频特征以及所述第二中高频压缩感知特征进行映射,得到映射特征;融合单元77将所述编码特征和所述映射特征融合,得到融合特征;解码单元79基于所述深度神经网络的解码器解码所述融合特征得到目标语音。基于特征压缩和声纹信息自适应融合的目标语音提取目标语音。进而解决了现有技术中,基于特征压缩和声纹信息自适应融合的语音提取准确度较低的技术问题。

可选的,所述融合单元77,可以包括:映射模块,用于将所述目标对象身份信息的高维表征线性投影到与所述带噪语音中间特征相同的特征空间;计算模块,用于计算所述带噪语音经过所述噪音编码器得到的高维特征中的每一帧与投影后的所述目标对象表征进行相似度计算;处理模块,用于相似度加权所述目标对象表征得到所述目标对象的动态身份表征;融合模块,用于将得到的所述目标对象动态身份表征融合到带噪语音高维表征,得到所述融合特征。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

S1,获取目标对象的带噪语音和注册语音,其中,注册语音与带噪语音中目标对象的语音是不同的声音;

S2,从带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从注册语音提取对应的第二低频特征和第二中高频压缩感知特征;

S3,基于深度神经网络的噪音编码器对第一低频特征以及第一中高频压缩感知特征进行编码,得到编码特征;基于深度神经网络的注册编码器对第二低频特征以及第二中高频压缩感知特征进行映射,得到映射特征;

S4,将编码特征和映射特征融合,得到融合特征;

S5,基于深度神经网络的解码器解码融合特征得到目标语音。

可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

S1,获取目标对象的带噪语音和注册语音,其中,注册语音与带噪语音中目标对象的语音是不同的声音;

S2,从带噪语音中提取对应的第一低频特征和第一中高频压缩感知特征,从注册语音提取对应的第二低频特征和第二中高频压缩感知特征;

S3,基于深度神经网络的噪音编码器对第一低频特征以及第一中高频压缩感知特征进行编码,得到编码特征;基于深度神经网络的注册编码器对第二低频特征以及第二中高频压缩感知特征进行映射,得到映射特征;

S4,将编码特征和映射特征融合,得到融合特征;

S5,基于深度神经网络的解码器解码融合特征得到目标语音。

可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种声纹信息提取模型生成、声纹信息提取的方法和装置
  • 一种声纹信息提取模型生成、声纹信息提取的方法和装置
技术分类

06120116512899