掌桥专利:专业的专利平台
掌桥专利
首页

一种音频处理方法、模型训练方法、装置和电子设备

文献发布时间:2023-06-19 13:29:16


一种音频处理方法、模型训练方法、装置和电子设备

技术领域

本申请涉及数据处理技术领域,具体涉及一种音频处理方法、模型训练方法、装置和电子设备。

背景技术

语音活动检测(Voice Activity Detection,VAD)的主要作用是从声音信号流中识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用。现有的语音活动检测技术主要是依靠卷积神经网络(Convolutional Neural Network,CNN)进行检测。然而,由于卷积神经网络的最后两层通常采用全连接层,使得CNN不能满足流式推理的要求,从而导致语音检测效果较差的问题。

发明内容

本申请提供了一种音频处理方法、模型训练方法、装置和电子设备,可以提高在语音活动检测过程中的语音检测效果。

为了解决上述技术问题,本申请的具体实现方案如下:

第一方面,本申请实施例提供了一种音频处理方法,包括:

获取初始音频数据,所述初始音频数据包括n帧音频数据;

基于对所述n帧音频数据进行特征提取,得到与所述n帧音频数据对应的n组特征数据;

将所述n组特征数据输入语音端点检测网络模型,得到所述语音端点检测网络模型输出的与所述n组特征数据对应的n个评分值,其中,所述评分值用于表征对应帧的音频数据是否包含音频内容,所述语音端点检测网络模型包括第一卷积神经网络和至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络GCNN层和池化层;

基于所述n个评分值确定目标音频数据,并输出所述目标音频数据,所述目标音频数据为所述初始音频数据中包括音频内容的音频数据。

第二方面,本申请实施例还提供一种模型训练方法,包括:

获取训练数据,所述训练数据包括m帧音频数据和m个期望值,其中,一个所述音频数据对应一个所述期望值,所述期望值用于表征对应帧音频数据实际是否包括音频内容;

对所述m帧音频数据进行特征提取,得到与所述m帧音频数据对应的m组特征数据;

将所述m组特征数据输入初始网络模型,对所述初始网络模型进行训练,得到语音端点检测网络模型,所述初始网络模型包括第一卷积神经网络及至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络层和池化层。

第三方面,本申请实施例还提供了一种音频处理装置,包括:

第一获取模块,用于获取初始音频数据,所述初始音频数据包括n帧音频数据;

第一特征提取模块,用于对所述n帧音频数据进行特征提取,得到与所述n帧音频数据对应的n组特征数据;

第一预测模块,用于将所述n组特征数据输入语音端点检测网络模型,得到所述语音端点检测网络模型输出的与所述n组特征数据对应的n个评分值,其中,所述评分值用于表征对应帧的音频数据是否包含音频内容,所述语音端点检测网络模型包括第一卷积神经网络和至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络GCNN层和池化层;

输出模块,用于基于所述n个评分值确定目标音频数据,并输出所述目标音频数据,所述目标音频数据为所述初始音频数据中包括音频内容的音频数据。

第四方面,本申请实施例还提供一种模型训练装置,包括:

第二获取训练数据,用于获取训练数据,所述训练数据包括m帧音频数据和m个期望值,其中,一个所述音频数据对应一个所述期望值,所述期望值用于表征对应帧音频数据实际是否包括音频内容;

第二特征提取模块,用于对所述m帧音频数据进行特征提取,得到与所述m帧音频数据对应的m组特征数据;

训练模块,用于将所述m组特征数据输入初始网络模型,对所述初始网络模型进行训练,得到语音端点检测网络模型,所述初始网络模型包括第一卷积神经网络及至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络层和池化层。

通过在构建初始网络模型中设置至少两个第二卷积神经网络,且使每个第二卷积神经网络均包括池化层,这样,在模型训练时,至少两个第二卷积神经网络中的池化层可以依次对特征数据进行降维处理,以使至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端的输出数据为1维数据,从而适配第一卷积神经网络的输入要求。由于至少两个第二卷积神经网络中的池化层可以实现对输入数据的降维,因此,训练得到的语音端点检测网络模型可以接收任意维度的数据,从而使得语音端点检测网络模型符合流式推理的要求,提高在语音活动检测过程中的语音检测效果。

第五方面,本申请实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面和第二方面所述方法的步骤。

第六方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面和第二方面所述方法的步骤。

本申请实施例中,通过在语音端点检测网络模型中设置至少两个第二卷积神经网络,且使每个第二卷积神经网络均包括池化层,这样,至少两个第二卷积神经网络中的池化层可以依次对特征数据进行降维处理,以使至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端的输出数据为1维数据,从而适配第一卷积神经网络的输入要求。由于至少两个第二卷积神经网络中的池化层可以实现对输入数据的降维,因此,语音端点检测网络模型可以接收任意维度的数据,从而使得语音端点检测网络模型符合流式推理的要求,进而可以提高在语音活动检测过程中的语音检测效果。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的音频处理方法的流程图;

图2是本申请实施例中目标网络结构的结构示意图;

图3是本申请实施例中目标网络结构中的第二卷积神经网络的结构示意图;

图4是本申请实施例中GCNN层的结构示意图;

图5是本申请实施例中不同步长的膨胀卷积神经网络的特征提取过程的示意图;

图6是本申请实施例提供的模型训练方法的流程图;

图7是本申请实施例提供的音频处理装置的结构图之一;

图8是本申请实施例提供的模型训练装置的结构图之一;

图9是本申请实施例提供的音频处理装置的结构图之二;

图10是本申请实施例提供的模型训练装置的结构图之二。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

相关技术中,主要基于长短期记忆网络(Long short-term memory,LSTM)和卷积神经网络(Convolutional Neural Network,CNN)两种网络结构实现语音活动检测。其中,LSTM具有时序建模能力,能记录历史时序信息,减轻循环神经网络中的梯度消失、梯度爆炸的问题。CNN具有模型参数量小、局部建模能力强、时移不变性等优点。但是这两种网络应用在语音活动检测时都具有各自的问题。所述语音活动检测场景一般需要处理长时序序列,LSTM在处理长时序序列时,性能会大幅度下降。CNN在对时序建模时,需要让CNN的感受野尽量的大,因此,需要堆叠多层CNN,这样的深层神经网络结构是难以训练的,同时过多的CNN堆叠也会导致推理速度变慢。此外,由于CNN的最后两层通常采用全连接层,其中,全连接层要求CNN的输入数据和输出数据为非流式数据,即全连接层要求CNN的输入数据和输出数据为固定长度的数据,例如,可以是长度为5s的音频数据。在此情况下,CNN仅能逐一处理固定长度的数据,且需要在处理完成一条数据之后,才能接收下一条数据,而无法满足流式推理的要求。其中,所述流式推理的要求是指:模型能够接收非固定长度的数据,且能够实现在不断读取一条较长的数据(例如,时长为1个小时的音频数据)的同时,输出对应的处理结果。

基于此,本申请实施例中,通过采用第一卷积神经网络代替全连接层,实现模型识别结果的输出。由于采用第一卷积神经网络代替全连接层时,对语音端点检测网络模型的输入和输出数据的长度没有限制,因此,可以满足流式推理的要求。此外,所述语音端点检测网络模型还包括至少两个第二卷积神经网络,每个第二卷积神经网络包括图卷积神经网络层和池化层,由于所述图卷积神经网络层可以对输入的特征数据进行特征提取,所述池化层可以对所述图卷积神经网络层所提取的特征进行降维处理,这样,所述至少两个第二卷积神经网络可以在对输入数据进行特征提取的同时,将提取得到的特征数据进行降维处理,以使至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端的输出数据为1维数据,从而适配第一卷积神经网络的输入要求。

进一步地,图卷积神经网络层包括膨胀卷积神经网络(Dilated Convolution,dilated-CNN)、批量归一化层(Batch Normalization,BN)和池化层等。其中,dilated-CNN是CNN的变种,进行卷积时引入一些空洞,在相同计算量条件下感受野更大。BN层用于加速收敛和正则化作用。池化层主要作用是,在不改变输出时序维度的情况下,减少输出的频率维度,以配合后续的第一卷积神经网络进行流式推理。因此,本申请实施例中基于语音端点检测网络模型对音频的语音活动检测,从而可以提高语音活动检测的效果。

请参见图1,为本申请实施例提供的一种音频处理方法,包括:

步骤101、获取初始音频数据,所述初始音频数据包括n帧音频数据;

步骤102、基于对所述n帧音频数据进行特征提取,得到与所述n帧音频数据对应的n组特征数据;

步骤103、将所述n组特征数据输入语音端点检测网络模型,得到所述语音端点检测网络模型输出的与所述n组特征数据对应的n个评分值;

其中,所述评分值用于表征对应帧的音频数据是否包含音频内容,所述语音端点检测网络模型包括第一卷积神经网络和至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络(Convolutional Neural Network,CNN)的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络(Graph Convolutional NeuralNetwork,GCNN)层和池化层,其中,所述第一卷积神经网络可以是1×1的卷积神经网络,以作为全连接层输出所述评分值;

步骤104、基于所述n个评分值确定目标音频数据,并输出所述目标音频数据,所述目标音频数据为所述初始音频数据中包括音频内容的音频数据。

具体地,可以基于本申请实施例提供的音频处理方法,以实现对上述初始音频数据进行语音活动检测,并在消除所述初始音频数据中的静音段之后,输出所述目标音频数据。

上述基于预设手段分别对所述n帧音频数据中的音频特征进行提取的具体过程可以是:基于现有的语音识别工具分别对每一帧音频数据进行特征提取,例如,可以基于Kaldi工具提取每桢音频数据中的语音特征,其中,所述语音特征可以是以下特征中的任意一种:DFT、MFCC、FBank等。

上述第二卷积神经网络:是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理具有较好的效果。在本实施中,上述第二卷积神经网络可以响应一部分覆盖范围内的周围单元,其中,所述第二卷积神经网络在时域维度的卷积核参数为2,这样,在处理过程中只会对当前帧及前一帧的信息进行处理,不涉及未来帧信息,减少了处理信息的内容,有利于提高推理的效率。

上述池化层可以为最大池化、平均池化等。在本申请一个实施例中,所述池化层为最大池化层max pool,其中,所述池化层可以在不改变输出时序维度的情况下,减少输出的频率维度,以配合后续的第一卷积神经网络进行流式推理。

请参见图2,在本申请一个实施例中,所述语音端点检测网络模型还包括特征输入层和输出层,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的首个第二卷积神经网络的输入端与所述特征输入层的输出端连接,所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,所述第一卷积神经网络的输出端与所述输出层的输入端连接。基于图2所示的语音端点检测网络模型进行检测的具体过程如下:

可以将所提取的n组特征数据依次输入所述语音端点检测网络模型的特征输入层,特征输入层将所接收到的特征数据传输至少两个第二卷积神经网络中的首个第二卷积神经网络,首个第二卷积神经网络中的GCNN层可以对所接收到的特征数据进行特征提取,得到第一特征数据,首个第二卷积神经网络中的池化层可以对第一特征数据进行降维处理,并将降维后的特征数据输入至下一个第二卷积神经网络,下一个第二卷积神经网络在接收到上层第二卷积神经网络输出的降维后的特征数据之后,再次对第一特征数据进行特征提取,以及,对提取的特征进行降维处理,如此逐层传递,直至所述最后一个第二卷积神经网络输出目标特征数据,其中,所述目标特征数据为1维数据,然后,由第一卷积神经网络接收所述目标特征数据,并基于所述目标特征数据进行评分,输出对应的评分值。

上述n个评分值的取值范围可以是位于0-1之间。在基于所述n个评分值确定目标音频数据的过程中,可以在0-1之间确定一个阈值,当某一帧音频数据的评分值大于或等于所述阈值时,可以将该帧音频数据确定为包括音频内容的数据,当该帧音频数据的评分值小于所述阈值时,可以将该帧音频数据确定为不包括音频内容的数据。其中,所述不包括音频内容的数据可以视为静音期,所述包括音频内容的数据可以视为非静音期。如此,即可确定n帧音频数据中的每一帧音频数据是否包括音频内容。

在基于上述方法确定n帧音频数据中的每一帧音频数据是否包括音频内容之后,可以对所述n帧音频数据进行平滑处理,以得到所述目标音频数据。其中,所述对所述n帧音频数据进行平滑处理的具体过程可以是:

将所述n帧音频数据按照播放的先后顺序进行排序,然后,按照该排序进行分组,得到k个音频数据组,其中,每个音频数据组中可以包括m帧连续帧的音频数据,所述n为大于1的整数,所述k为大于1的整数,所述m小于所述n。然后,获取每个音频数据组中的m帧连续帧的音频数据对应的m个评分值,并计算所述m个评分值的平均值,再将计算得到的平均值与上述阈值进行比较。当所述平均值大于或等于所述阈值时,确定该音频数据组为包括音频内容的数据,相应地,当所述平均值小于所述阈值时,确定该音频数据组为不包括音频内容的数据。这样,即可确定上述k个音频数据组是否为包括音频内容的数据组,然后,可以将所述k个音频数据组中包括音频内容的数据组作为上述目标音频数据进行输出。此外,也可以将所述k个音频数据组中,包括音频内容且帧号连续的音频数据组进行合并之后,将合并后的音频数据组作为所述目标音频数据进行输出。

该实施方式中,通过在语音端点检测网络模型中设置至少两个第二卷积神经网络,且使每个第二卷积神经网络均包括池化层,这样,至少两个第二卷积神经网络中的池化层可以依次对特征数据进行降维处理,以使至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端的输出数据为1维数据,从而适配第一卷积神经网络的输入要求。由于至少两个第二卷积神经网络中的池化层可以实现对输入数据的降维,因此,语音端点检测网络模型可以接收任意维度的数据,从而使得语音端点检测网络模型符合流式推理的要求,进而可以提高在语音活动检测过程中的语音检测效果。

可选地,所述第二卷积神经网络可以是由多个网络结构串联形成的卷积块,例如,所述第二卷积神经网络包括至少两个子网络,所述至少两个子网络依次串联,所述子网络包括所述GCNN层和所述池化层,且在每个所述子网络中,所述GCNN层的输出端与所述池化层的输入端连接;

所述图卷积神经网络层用于对输入的特征数据进行特征提取;所述池化层用于对所述图卷积神经网络层所提取的特征进行降维处理,得到特征提取结果。

具体地,请参见图3,为本申请一个实施例中,第二卷积神经网络的结构示意图,其中,所述第二卷积神经网络包括4个依次串联的子网络。由于每个子网络均包括一个GCNN层和一个池化层,这样,每个子网络可以分别对所接收到的上一层子网络输出的特征进一步进行特征提取,并且每个子网络在完成特征提取之后,可以基于池化层对所提取出的特征进行降维处理,然后将降维处理后的数据输出至下一层子网络。如此,由于每一个第二卷积神经网络均能对上一层第二卷积神经网络输出的特征进行4次特征提取,因此,可以提高对音频特征的提取效果。同时,由于每一个第二卷积神经网络均能够对所提取的特征进行4次降维处理,使得所述语音端点检测网络模型可以接收更高维度的特征数据,而更高维度的特征数据所携带的特征的数量会相应增多,从而可以进一步提高音频检测的效果。

可选地,所述GCNN层包括膨胀卷积神经网络(Dilated Convolution,dilated-CNN)和门限激活网络,且所述膨胀卷积神经网络的输出端与所述门限激活网络的输入端连接;

所述膨胀卷积神经网络用于对输入的特征数据进行特征提取;所述门限激活网络用于将所述膨胀卷积神经网络所提取的特性传输至所述池化层。

其中,上述膨胀卷积神经网络为卷积神经网络的变种,与标准的卷积核不同,请参见图5,所述膨胀卷积神经网络在膨胀卷积核中增加了一些空洞,这样,在相同计算量条件下感受野更大。

请参见图4,上述门限激活网络包括并联的tanh激活层和第一sigmoid激活层,其中,门限激活网络可以保留语音端点检测网络模型的网络结构的非线性,同时,可以提供一个非缩放路径sigmoid激活层,所述sigmoid激活层作为乘法性质的残差连接,有利于梯度向后传播,进而能构建更深层次的CNN网络结构,由于门限激活网络允许网络控制各层的信息,因此,有利于通过当前帧的特征预测未来帧的VAD性能,这种结构符合VAD的分类模型的任务建模需求,能提高VAD准确率。

该实施方式中,通过采用膨胀卷积神经网络进行特征提取,由于膨胀卷积神经网络具有较宽的感受野,因此,可以减少CNN层数,从而有利于简化语音端点检测网络模型的训练过程。此外,通过设置门限激活网络有利于提高语音活动检测过程的准确率。

可选地,所述至少两个子网络中,任意子网络中的膨胀卷积神经网络的步长大于上一层子网络中的膨胀卷积神经网络的步长。

具体地,由于膨胀卷积神经网络的步长越长,其越能够提取出更深层的特征,因此,通过将任意子网络中的膨胀卷积神经网络的步长设置为大于其上一层子网络中的膨胀卷积神经网络的步长,这样,每个第二卷积神经网络中的各子网络可以逐渐提取出音频数据的更深层次的特征信息,从而有利于提高特征提取的效果。

例如,请参见图3,在本申请一个实施例中,所述第二卷积神经网络包括4个子网络,4个子网络中,由首个子网络至末个子网络的方向,子网络中的膨胀卷积神经网络的步长分别为1、2、4、8。请参见图5,为各子网络中的膨胀卷积神经网络的特征提取过程的示意图。

该实施方式中,通过将任意子网络中的膨胀卷积神经网络的步长设置为大于其上一层子网络中的膨胀卷积神经网络的步长,这样,有利于提高特征提取的效果。

可选地,所述子网络包括还包括批量归一化层(Batch Normalization,BN),所述GCNN层的输出端通过所述批量归一化层与所述池化层的输入端连接。

该实施方式中,通过在子网络中设置批量归一化层,这样,可以通过批量归一化层加快模型训练时的收敛速度,使得模型训练过程更加稳定,避免梯度爆炸或者梯度消失的问题,而且可以起到一定的正则化作用。

可选地,所述第一卷积神经网络的输出端包括第二sigmoid激活层,所述第二sigmoid激活层用于对所述初始音频数据进行二分类评分,并输出所述评分值。

该实施方式中,通过基于第一卷积神经网络中的第二sigmoid激活层分别基于所提取出的每桢音频数据的特征进行二分类评分,从而输出每桢音频数据对应的评分值。

在本申请一个实施例中,上述初始音频数据可以是从电话信道对话场景中获取的对话内容,音频特征可以是40维FBank特征,请参见图2,所述语音端点检测网络模型可以包括6个依次串联的第二卷积神经网络。下文以对所述初始音频数据中的其中一帧音频数据进行处理的处理过程为例,对本申请实施例中的音频处理方法作进一步的解释说明:

从目标帧音频数据中提取40维FBank特征,将所述40维FBank特征输入语音端点检测网络模型,语音端点检测网络模型的6个依次串联的第二卷积神经网络依次对所述40维FBank特征进行特征提出,6个依次串联的第二卷积神经网络中的,最后一层的第二卷积神经网络输出1维的目标特征,然后,由第一卷积神经网络中的第二sigmoid激活层基于所述1维的目标特征对所述目标帧音频数据进行评分,输出所述目标帧音频数据的评分值。如此,依次对所述n帧音频数据进行处理,即可得到所述n个评分值。然后,对所述n个评分值进行平滑处理,从而得到所述目标音频数据。

上述音频处理方法还可以适用于对数据流进行处理,其具体实现过程如下:

获取时域语音,对时序语音进行窗长25ms、窗移10ms、fft点数512的FBank语音特征提取,得到特征序列;将特征序列输入语音端点检测网络模型进行预测,得到时域语音中的每一帧音频数据对应的评分值;然后对所得到的评分值进行平滑处理,从而得到目标音频数据。

请参见图6,为本申请实施例提供的一种模型训练方法,包括:

步骤601、获取训练数据,所述训练数据包括m帧音频数据和m个期望值,其中,一个所述音频数据对应一个所述期望值,所述期望值用于表征对应帧音频数据实际是否包括音频内容;

步骤602、对所述m帧音频数据进行特征提取,得到与所述m帧音频数据一一对应的m组特征数据;

步骤603、将所述m组特征数据输入初始网络模型,对所述初始网络模型进行训练,得到语音端点检测网络模型,所述初始网络模型包括第一卷积神经网络及至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络层和池化层。

该实施方式中,通过训练得到语音端点检测网络模型,由于语音端点检测网络模型中设置至少两个第二卷积神经网络,且使每个第二卷积神经网络均包括池化层,这样,至少两个第二卷积神经网络中的池化层可以依次对特征数据进行降维处理,以使至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端的输出数据为1维数据,从而适配第一卷积神经网络的输入要求。由于至少两个第二卷积神经网络中的池化层可以实现对输入数据的降维,因此,语音端点检测网络模型可以接收任意维度的数据,从而使得语音端点检测网络模型符合流式推理的要求,进而可以提高在语音活动检测过程中的语音检测效果。

可选地,所述将所述m组特征数据输入初始网络模型,对所述初始网络模型进行训练,得到语音端点检测网络模型,包括:

将所述m组特征数据特征数据输入初始网络模型,得到所述初始网络模型输出的与所述m组特征数据一一对应的m个评分值,其中,所述评分值用于表征对应帧的音频数据是否包含音频内容;

基于所述m个期望值和所述m个评分值生成损失函数;

基于所述损失函数对所述初始网络模型进行训练,得到语音端点检测网络模型。

该实施方式中,通过基于m个期望值和所述m个评分值构建损失函数,然后,基于损失函数对初始网络模型训练,在训练过程中,可以不断优化初始网络模型的参数,从而得到训练后的语音端点检测网络模型。

可选地,所述获取训练数据,所述训练数据包括m帧音频数据和m个期望值之前,所述方法还包括:构建初始网络模型。

可选地,所述第二卷积神经网络包括至少两个子网络,所述至少两个子网络依次串联,所述子网络包括所述GCNN层和所述池化层,且在每个所述子网络中,所述GCNN层的输出端与所述池化层的输入端连接;

所述图卷积神经网络层用于对输入的特征数据进行特征提取;所述池化层用于对所述图卷积神经网络层所提取的特征进行降维处理,得到特征提取结果。可选地,所述GCNN层包括膨胀卷积神经网络和门限激活网络,且所述膨胀卷积神经网络的输出端与所述门限激活网络的输入端连接;

所述膨胀卷积神经网络用于对输入的特征数据进行特征提取;所述门限激活网络用于将所述膨胀卷积神经网络所提取的特性传输至所述池化层。

可选地,所述至少两个子网络中,任意子网络中的膨胀卷积神经网络的步长大于上一层子网络中的膨胀卷积神经网络的步长。

可选地,所述门限激活网络包括并联的tanh激活层和第一sigmoid激活层。

可选地,所述子网络还包括批量归一化层,所述GCNN层的输出端通过所述批量归一化层与所述池化层的输入端连接。

可选地,所述第一卷积神经网络的输出端包括第二sigmoid激活层,所述第二sigmoid激活层用于对所述初始音频数据进行二分类评分,并输出所述评分值。

本申请实施例提供的模型训练方法为用于训练上述实施例中所述的语音端点检测网络模型的方法,训练得到的语音端点检测网络模型具有上述实施例中语音端点检测网络模型的全部有益效果,为避免重复在此不再予以赘述。

请参见图7,为本申请实施例提供的一种音频处理装置700,包括:

第一获取模块701,用于获取初始音频数据,所述初始音频数据包括n帧音频数据;

第一特征提取模块702,用于对所述n帧音频数据进行特征提取,得到与所述n帧音频数据对应的n组特征数据;

第一预测模块703,用于将所述n组特征数据输入语音端点检测网络模型,得到所述语音端点检测网络模型输出的与所述n组特征数据对应的n个评分值,其中,所述评分值用于表征对应帧的音频数据是否包含音频内容,所述语音端点检测网络模型包括第一卷积神经网络和至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络GCNN层和池化层;

输出模块704,用于基于所述n个评分值确定目标音频数据,并输出所述目标音频数据,所述目标音频数据为所述初始音频数据中包括音频内容的音频数据。

可选地,所述第二卷积神经网络包括至少两个子网络,所述至少两个子网络依次串联,所述子网络包括所述图卷积神经网络层和所述池化层,在每个所述子网络中,所述图卷积神经网络层的输出端与所述池化层的输入端连接;

所述图卷积神经网络层用于对输入的特征数据进行特征提取;所述池化层用于对所述图卷积神经网络层所提取的特征进行降维处理,得到特征提取结果。

可选地,所述图卷积神经网络层包括膨胀卷积神经网络和门限激活网络,且所述膨胀卷积神经网络的输出端与所述门限激活网络的输入端连接;

所述膨胀卷积神经网络用于对输入的特征数据进行特征提取;所述门限激活网络用于将所述膨胀卷积神经网络所提取的特性传输至所述池化层。

可选地,所述至少两个子网络中,任意子网络中的膨胀卷积神经网络的步长大于上一层子网络中的膨胀卷积神经网络的步长。

可选地,所述门限激活网络包括并联的tanh激活层和第一sigmoid激活层。

可选地,所述子网络包括还包括批量归一化层,所述子网络还包括批量归一化层,所述图卷积神经网络层的输出端通过所述批量归一化层与所述池化层的输入端连接。

可选地,所述第一卷积神经网络的输出端包括第二sigmoid激活层,所述第二sigmoid激活层用于对所述初始音频数据进行二分类评分,并输出所述评分值。

本申请实施例提供的音频处理装置700能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。

请参见图8,为本申请实施例提供的一种模型训练装置800,包括:

第二获取训练数据801,用于获取训练数据,所述训练数据包括m帧音频数据和m个期望值,其中,一个所述音频数据对应一个所述期望值,所述期望值用于表征对应帧音频数据实际是否包括音频内容;

第二特征提取模块802,用于对所述m帧音频数据进行特征提取,得到与所述m帧音频数据对应的m组特征数据;

训练模块803,用于将所述m组特征数据输入初始网络模型,对所述初始网络模型进行训练,得到语音端点检测网络模型,所述初始网络模型包括第一卷积神经网络及至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络层和池化层。

可选地,所述训练模块803包括:

输入子模块,用于将所述m组特征数据特征数据输入初始网络模型,得到所述初始网络模型输出的与所述m组特征数据一一对应的m个评分值,其中,所述评分值用于表征对应帧的音频数据是否包含音频内容;

生成子模块,用于基于所述m个期望值和所述m个评分值生成损失函数;

训练子模块,用于基于所述损失函数对所述初始网络模型进行训练,得到语音端点检测网络模型。

可选地,所述第二卷积神经网络包括至少两个子网络,所述至少两个子网络依次串联,所述子网络包括所述GCNN层和所述池化层,且在每个所述子网络中,所述GCNN层的输出端与所述池化层的输入端连接;

所述图卷积神经网络层用于对输入的特征数据进行特征提取;所述池化层用于对所述图卷积神经网络层所提取的特征进行降维处理,得到特征提取结果。可选地,所述GCNN层包括膨胀卷积神经网络和门限激活网络,且所述膨胀卷积神经网络的输出端与所述门限激活网络的输入端连接;

所述膨胀卷积神经网络用于对输入的特征数据进行特征提取;所述门限激活网络用于将所述膨胀卷积神经网络所提取的特性传输至所述池化层。

可选地,所述至少两个子网络中,任意子网络中的膨胀卷积神经网络的步长大于上一层子网络中的膨胀卷积神经网络的步长。

可选地,所述门限激活网络包括并联的tanh激活层和第一sigmoid激活层。

可选地,所述子网络还包括批量归一化层,所述GCNN层的输出端通过所述批量归一化层与所述池化层的输入端连接。

可选地,所述第一卷积神经网络的输出端包括第二sigmoid激活层,所述第二sigmoid激活层用于对所述初始音频数据进行二分类评分,并输出所述评分值。

本申请实施例提供的模型训练装置800能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。

参见图9,图9是本申请又一实施提供的音频处理装置900的结构图,如图9所示,音频处理装置900包括:处理器901、存储器902及存储在所述存储器902上并可在所述处理器上运行的计算机程序,数据发送装置900中的各个组件通过总线接口903耦合在一起,所述计算机程序被所述处理器901执行时实现如下步骤:

获取初始音频数据,所述初始音频数据包括n帧音频数据;

对所述n帧音频数据进行特征提取,得到与所述n帧音频数据对应的n组特征数据;

将所述n组特征数据输入语音端点检测网络模型,得到所述语音端点检测网络模型输出的与所述n组特征数据对应的n个评分值,其中,所述评分值用于表征对应帧的音频数据是否包含音频内容,所述语音端点检测网络模型包括第一卷积神经网络和至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络层和池化层;

基于所述n个评分值确定目标音频数据,并输出所述目标音频数据,所述目标音频数据为所述初始音频数据中包括音频内容的音频数据。

可选地,所述第二卷积神经网络包括至少两个子网络,所述至少两个子网络依次串联,所述子网络包括所述图卷积神经网络层和所述池化层,在每个所述子网络中,所述图卷积神经网络层的输出端与所述池化层的输入端连接;

所述图卷积神经网络层用于对输入的特征数据进行特征提取;所述池化层用于对所述图卷积神经网络层所提取的特征进行降维处理,得到特征提取结果。

可选地,所述图卷积神经网络层包括膨胀卷积神经网络和门限激活网络,且所述膨胀卷积神经网络的输出端与所述门限激活网络的输入端连接;

所述膨胀卷积神经网络用于对输入的特征数据进行特征提取;所述门限激活网络用于将所述膨胀卷积神经网络所提取的特性传输至所述池化层。

可选地,所述至少两个子网络中,任意子网络中的膨胀卷积神经网络的步长大于上一层子网络中的膨胀卷积神经网络的步长。

可选地,所述门限激活网络包括并联的tanh激活层和第一sigmoid激活层。

可选地,所述子网络还包括批量归一化层,所述图卷积神经网络层的输出端通过所述批量归一化层与所述池化层的输入端连接。

可选地,所述第一卷积神经网络的输出端包括第二sigmoid激活层,所述第二sigmoid激活层用于对所述初始音频数据进行二分类评分,并输出所述评分值。

参见图10,图10是本申请又一实施提供的模型训练装置1000的结构图,如图10所示,模型训练装置1000包括:处理器1001、存储器1002及存储在所述存储器1002上并可在所述处理器1001上运行的计算机程序,数据发送装置1000中的各个组件通过总线接口1003耦合在一起,所述计算机程序被所述处理器1001执行时实现如下步骤:

获取训练数据,所述训练数据包括m帧音频数据和m个期望值,其中,一个所述音频数据对应一个所述期望值,所述期望值用于表征对应帧音频数据实际是否包括音频内容;

对所述m帧音频数据进行特征提取,得到与所述m帧音频数据对应的m组特征数据;

将所述m组特征数据输入初始网络模型,对所述初始网络模型进行训练,得到语音端点检测网络模型,所述初始网络模型包括第一卷积神经网络及至少两个第二卷积神经网络,所述至少两个第二卷积神经网络依次串联,且所述至少两个第二卷积神经网络中的最后一个第二卷积神经网络的输出端与所述第一卷积神经网络的输入端连接,每个所述第二卷积神经网络包括图卷积神经网络层和池化层。

可选地,所述将所述m组特征数据输入初始网络模型,对所述初始网络模型进行训练,得到语音端点检测网络模型,包括:

将所述m组特征数据特征数据输入初始网络模型,得到所述初始网络模型输出的与所述m组特征数据一一对应的m个评分值,其中,所述评分值用于表征对应帧的音频数据是否包含音频内容;

基于所述m个期望值和所述m个评分值生成损失函数;

基于所述损失函数对所述初始网络模型进行训练,得到语音端点检测网络模型。

可选地,所述获取训练数据,所述训练数据包括m帧音频数据和m个期望值之前,所述方法还包括:构建初始网络模型。

可选地,所述第二卷积神经网络包括至少两个子网络,所述至少两个子网络依次串联,所述子网络包括所述GCNN层和所述池化层,且在每个所述子网络中,所述GCNN层的输出端与所述池化层的输入端连接;

所述图卷积神经网络层用于对输入的特征数据进行特征提取;所述池化层用于对所述图卷积神经网络层所提取的特征进行降维处理,得到特征提取结果。可选地,所述GCNN层包括膨胀卷积神经网络和门限激活网络,且所述膨胀卷积神经网络的输出端与所述门限激活网络的输入端连接;

所述膨胀卷积神经网络用于对输入的特征数据进行特征提取;所述门限激活网络用于将所述膨胀卷积神经网络所提取的特性传输至所述池化层。

可选地,所述至少两个子网络中,任意子网络中的膨胀卷积神经网络的步长大于上一层子网络中的膨胀卷积神经网络的步长。

可选地,所述门限激活网络包括并联的tanh激活层和第一sigmoid激活层。

可选地,所述子网络还包括批量归一化层,所述GCNN层的输出端通过所述批量归一化层与所述池化层的输入端连接。

可选地,所述第一卷积神经网络的输出端包括第二sigmoid激活层,所述第二sigmoid激活层用于对所述初始音频数据进行二分类评分,并输出所述评分值。

本申请实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。

本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台电子设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

相关技术
  • 音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质
  • 音频处理模型的训练方法及装置、音频处理方法及装置
技术分类

06120113690927