掌桥专利:专业的专利平台
掌桥专利
首页

一种应用于低功耗电路的语音活动检测方法及系统

文献发布时间:2023-06-19 12:24:27


一种应用于低功耗电路的语音活动检测方法及系统

技术领域

本发明涉及语音算法设计领域,特别是涉及一种基于线性SVM(支持向量机,Support vector machine)的语音静默检测方法及系统。

背景技术

语音活动检测(Voice Activity Detection,VAD),又称语音端点检测,顾名思义便是要判定语音开始和结束的位置,最早应用于电话传输与检测等通信领域,如今也在语音识别、语音压缩领域应用广泛,是重要的语音预处理技术。

在已有的语音端点检测算法,根据分类使用语音特征,可以分为时域特征VAD算法、频域特征VAD算法。其中时域特征下包括:短时能量、短时过零率、短时自相关等;频域特征又包括:基音周期、梅尔倒谱距离等。同时语音端点检测实际上是一个二分类问题,即根据语音段与噪声段在时域或频域上特征的差异进行语音信号分类。所以不同的VAD算法可能会采用不同的分类器,例如最经典的双门限检测算法采用阈值判断,也算法有基于决策树、有限状态机或神经网络等更复杂的分类器进行分类。

语音特征需要可以较好地体现出语音和噪声的区别;时域特征在高信噪比的情况下有较好的结果,但是在噪声比较大的环境中,会出现噪声淹没语音信号的情况,从而导致基于能量或过零率这类型特征的判决出错。频域特征在一定程度上受噪声影响程度低于时域特征,但频域特征计算复杂度相较时域特征更高。

发明内容

为了折中现有技术计算复杂度和准确率的矛盾,以较低的算法复杂度实现较好的分类准确率,本发明提出一种应用于低功耗电路的语音活动检测方法及系统。

本发明的技术问题通过以下的技术方案予以解决:

本发明提出一种应用于低功耗电路的语音活动检测方法,其特征在于,包括如下步骤:S1:接收输入的语音,进行语音特征提取,采用子带能量特征,减少子带数量;经过特征提取,得到特征值进入后续分类;S2:选择支持向量机的线性分类器进行训练分类,输出语音分类结果,完成语音活动检测。

在一些实施例,在S1步骤中,将语音以帧长进行分帧,帧移等于帧长;采用矩形窗,对语音信号进行加窗运算来实现分帧加窗操作,窗长为对应帧长的数据点数。

在一些实施例,在分帧加窗操作后,带通滤波,计算短时能量。

在一些实施例,在S1步骤中,所述语音特征提取采用全模拟电路实现。

在一些实施例,在S1步骤中,增加基于递归平均估计的背景噪声特征作为新特征。

在一些实施例,基于递归平均估计的背景噪声计算方式如下:

for_E(i)

NL(i)=β

帧信号的背景噪声和短时能量;平滑因子β的取值采用阈值法,根据NL(i-1)与E(i)的大小关系选取不同β值。

在一些实施例,对模拟域特征进行量化,转为8bit数字域特征。

在一些实施例,对支持向量机的线性分类器的权重值进行位数限制,以降低复杂度。

本发明还提出一种应用于低功耗电路的语音活动检测系统,其特征在于,包括:特征提取模块,分类模块;所述特征提取模块,接收输入的语音,进行语音特征提取,采用子带能量、基于递归平均估计的背景噪声作为分类特征;所述分类模块,采用支持向量机的线性分类器进行训练分类;经过所述特征提取模块后,得到特征值进入后续分类模块进行训练分类,输出语音分类结果,完成语音活动检测。

本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以上任一所述方法的步骤。

本发明与现有技术对比的有益效果包括:本发明相较于传统的使用子带能量特征的算法,子带数目大幅减少,降低了算法复杂度;在分类器方面,采用了准确率与复杂度折中的SVM作为分类器;同时NL特征的引入使得准确率相较传统算法并未有明显下降;本发明采用较低的实现复杂度取得了在低信噪比下较好的分类准确率。

在一些实施例,本发明与现有技术对比的有益效果包括:同时由于该方法的语音特征提取部分采用全模拟电路实现,在设计时便考虑了实际电路实现可能性,从而使得该方法可以同时额外满足低功耗电路需求。

附图说明

图1是本发明实施例的处理流程示意图;

图2是本发明实施例的特征提取模块语音示意图;

图3是本发明实施例的分类模块语音示意图。

具体实施方式

下面对照附图并结合优选的实施方式对本发明作进一步说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本实施例中的左、右、上、下、顶、底等方位用语,仅是互为相对概念,或是以产品的正常使用状态为参考的,而不应该认为是具有限制性的。

本发明的目的在于,提出一种较为简单的语音活动检测方法及系统,其在低信噪比的情况下依旧可以有较好的分类准确率;同时由于该方法的语音特征提取部分可以采用全模拟电路实现,从而使得该方法可以同时额外满足低功耗电路需求。

本发明实施例的语音活动检测方法处理流程如图1所示,由特征提取模块和分类模块组成,其中特征提取模块采用子带能量及基于递归平均估计的背景噪声NL作为分类特征;分类模块采用线性SVM作为分类器。

本发明实施例的一种应用于低功耗电路的语音活动检测方法,包括如下步骤:S1:接收输入的语音,进行语音特征提取,采用子带能量特征,减少子带数量;经过特征提取,得到特征值进入后续分类;S2:选择支持向量机的线性分类器进行训练分类,输出语音分类结果,完成语音活动检测。

在S1步骤中,将语音以帧长进行分帧,帧移等于帧长;采用矩形窗,对语音信号进行加窗运算来实现分帧加窗操作,窗长为对应帧长的数据点数。

在分帧加窗操作中,带通滤波,计算短时能量。

在S1步骤中,所述语音特征提取采用全模拟电路实现。

在S1步骤中,增加基于递归平均估计的背景噪声特征作为新特征。

该方法处理流程具体如下:

第一阶段:将语音以25ms帧长进行分帧,同时考虑到若帧移小于帧长,则电路实现时要采用数字电路加入寄存器,不方便低功耗模拟电路实现。故本设计中帧移等于帧长,即帧与帧之间没有重叠。在方法实现时采用矩形窗,对语音信号进行加窗运算来实现分帧操作,窗长为25ms对应的数据点数,按照一般语音信号16k的采样率,窗长N为400。

在语音特征选择部分,我们采用子带能量特征,但大幅减少了子带数量,仅在声音频谱中的100-5khz间选取4个频带计算短时能量。这在一定程度上降低了分类准确率,作为补偿,我们增加了背景噪声估计NL特征作为新特征。该基于递归平均估计的背景噪声计算方式如下:

for_E(i)

NL(i)=β

征基于时间常数递归平均得到,递归平均是语音增强领域常用的方法,且计算对象大多是信噪比SNR,递归平均可以减小突变情况,使得计算目标变化较为平滑。上式便是通过递归平均计算背景噪声NL,公式中β

经过特征提取模块后,得到的5组特征值经过量化操作,在送入后续的分类模块进行训练分类。

第二阶段:在分类器方面,我们选择支持向量机的线性分类器SVM。与其他种类的分类器相比,相较域值判断和决策树,支持向量机的线性分类器SVM具有更高的准确率;相较于DNN深度神经网络,支持向量机的线性分类器SVM具有更小的复杂度。在SVM分类器中,有带核函数的SVM与线性SVM,经过算法仿真比较,对于所选语音特征,我们发现线性SVM的效果与核函数相差很小,但电路实现更加简单,功耗更低,故最终选定线性SVM分类器。

同时考虑到电路实现部分,我们对模拟域特征进行量化,转为8bit数字域特征。同时对线性SVM分类器的权重值w进行位数限制,以降低复杂度。若依照每一帧的分类结果与数据集提供的标签之间相同点判为分类正确,如图3,正确帧数占总帧数的比例即为分类准确率。若不考虑噪声段与语音段分开计算,那么最终该算法可以10db信噪比情况下,达到90%的分类准确率;在5db信噪比下,也有85%的分类准确率。若按照将噪声段与语音段分开考虑分类准确率,则10db信噪比情况下,噪声部分准确率为89.87%,语音部分为91.55%。

本发明实施例的一种应用于低功耗电路的语音活动检测系统,包括:特征提取模块,分类模块;所述特征提取模块,接收输入的语音,进行语音特征提取,采用子带能量、基于递归平均估计的背景噪声作为分类特征;所述分类模块,采用支持向量机的线性分类器进行训练分类;经过所述特征提取模块后,得到特征值进入后续分类模块进行训练分类,输出语音分类结果,完成语音活动检测。

本发明实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如以上任一所述方法的步骤。

本发明提出的语音活动检测方法采用较低的实现复杂度取得了在低信噪比下较好的分类准确率;同时在设计时便考虑了实际电路实现可能性,使得该方法特征提取部分可以采用全模拟电路实现,以达到低功耗需求。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

技术分类

06120113282756