掌桥专利:专业的专利平台
掌桥专利
首页

一种跨子带谱熵加权似然比语音检测方法及系统

文献发布时间:2024-01-17 01:26:37


一种跨子带谱熵加权似然比语音检测方法及系统

技术领域

本发明涉及语音检测技术领域,更具体的,涉及一种跨子带谱熵加权似然比语音检测方法及系统。

背景技术

语音激活检测(Voice Activity Detection, VAD)目的在于从信号中区分出语音信号和非语音信号。语音信号处理系统常涉及VAD检测问题。在语音编码系统中,通过VAD判断当前信号是否有语音,采取不同的比特分配方式或不同的编解码方法,从而在不影响合成语音质量的前提下降低编码速率;在语音识别系统或者说话人识别系统中,准确的VAD判决可提高识别率并节省处理时间。传统的语音激活检测主要是基于短时能量、过零率、谱熵、LPC参数、倒谱特征、高阶统计量等语音特征参数的方法,它们在信噪比较高的条件下具有令人满意的效果,但随着信噪比降低,检测性能急剧下降。

为了解决低信噪比下VAD问题,目前提出基于似然比检验的VAD算法,此方法利用高斯统计模型对信号的傅里叶变换系数按语音与非语音两种假设进行建模,通过似然比检验法评估两种统计模型与当前观测数据适配程度,从而作出VAD判决。一方面,语音信号的谱熵特征具有一定稳健性,当信噪比降低时,语音信号的谱熵形状大体保持不变;另一方面,语音信号的谱熵与幅度无关,而只与信号的随机性(即分布)有关,并且谱平坦度越大,谱熵值越大,语音的谱熵通常都要小于噪声的谱熵。不同频带的谱熵在相同时段呈现出对存在语音的判决能力不尽相同,考虑可利用不同子频带的谱熵值作为似然比检验法中似然比判决的辅助特征。此发明提出一种跨子带谱熵加权似然比语音激活检测方法,方法对子带进行非连续划分并计算子带的谱熵,根据子带谱熵设置子带频分量似然比权值,使用加权的似然比作为语音检测判决依据。

发明内容

为了解决上述技术问题,本发明提出了一种跨子带谱熵加权似然比语音检测方法及系统。

本发明第一方面提供了一种跨子带谱熵加权似然比语音检测方法,包括:

步骤S01:给定待检测采样信号

步骤S02:在频域范围进行子带划分,所述子带为非均匀部分重叠;

步骤S03:根据步骤S02中划分子带的频率上下限,计算第

步骤S04:计算所有非语音信号帧第

步骤S05:根据第

步骤S06:对似然比检验值按权值进行加权求和后计算平均值,根据似然比阈值判决第

本方案中:所述步骤S02具体为:

子带划分的频段范围是

根据

本方案中,根据

当采样率

当采样率

按此划分后得到各个子带是非重叠的,将划分得到的各个子带的边界频率视为各子带的频率上限和频率下限。设第

本方案中,把相邻子带设置为部分重叠,具体为:

根据

本方案中,所述步骤S03具体为:

根据各子带的频率上限

计算第

计算第

本方案中,所述步骤S04具体为:

计算第

计算所有非语音信号帧第

本方案中,所述步骤S05具体为:

给定第

否则,则把第

其中,所述似然比权值

式中

本方案中,所述非语音信号帧具体指在过去已检测的时间范围内,在离第

在第一个有效时间区域出现之前,将被检测信号

本方案中,所述有效时间区域,具体为:

时间区域是指按一定数量信号帧形成的区域,设

本发明第二方面还提供了一种跨子带谱熵加权似然比语音检测系统,该系统包括:存储器、处理器,所述存储器中包括一种跨子带谱熵加权似然比语音检测方法程序,所述处理器执行一种跨子带谱熵加权似然比语音检测方法的步骤。

本发明公开了一种跨子带谱熵加权似然比语音检测方法及系统,首先在频域进行非均匀部分重叠子带划分,提取各子带的谱熵特征;然后根据子带谱熵大小以及子带的能量谱与非语音帧子带平均能量谱的比值大小,设置对应子带的似然比权值;最后利用加权后的似然比结合预设阈值检测判断某帧信号是否为语音帧。本发明依据语音信号谱熵特征在噪声背景下具有稳健性,利用子带谱熵信息设置似然比检验检测法中的似然比权值,使用加权的似然比作为语音检测判决依据之一,提升了低信噪比环境下的似然比检验语音检测方法的检测准确率,适用于语音识别、说话人识别等语音信号处理领域。

附图说明

为了更清楚地说明本发明实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的附图。

图1示出了本发明一种跨子带谱熵加权似然比语音检测方法的流程图;

图2示出了本发明计算各子带的谱熵的流程图;

图3示出了本发明设置子带的似然比权值的方法流程图;

图4示出了本发明所提供方法与传统方法检测结果对比举例示意图;

图5示出了本发明一种跨子带谱熵加权似然比语音检测系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。

实施例1

图1示出了本发明一种跨子带谱熵加权似然比语音检测方法的流程图。

如图1所示,本发明第一方面提供了一种跨子带谱熵加权似然比语音检测方法,包括:

步骤S01:给定待检测采样信号

步骤S02:在频域范围进行子带划分,所述子带为非均匀部分重叠;

步骤S03:根据步骤S02中划分子带的频率上下限,计算第

步骤S04:计算所有非语音信号帧第

步骤S05:根据第

步骤S06:对似然比检验值按权值进行加权求和后计算平均值,根据似然比阈值判决第

需要说明的是:所述步骤S02具体为:子带划分的频段范围是

根据

需要说明的是,当采样率

需要说明的是,需进一步把相邻子带设置为部分重叠。

需要说明的是,如图2所示,所述步骤S03具体为:

S302,根据各子带的频率上限

S304,计算第

S306,计算第

需要说明的是,所述步骤S04具体为:

计算第

计算所有非语音信号帧第

需要说明的是,如图3所示,所述步骤S05具体为:

S502,给定第

S504,否则,则把第

其中,所述似然比权值

式中

需要说明的是,所述非语音信号帧具体指在过去已检测的时间范围内,在离第

需要说明的是,时间区域是指的是按一定数量信号帧形成的区域,设

实施例2

在本实施例中,制作了低信噪比信号样本并利用所提供方法实施语音激活检测,并把方法与传统的似然比语音激活检测方法进行效果对比。

本发明提供的一种跨子带谱熵加权似然比语音检测方法,步骤如下:

步骤S01:给定待检测采样信号

在汉语普通话自然口语对话语料库(CADCC)中选择多人对话样本,选择多人对话样本,总时长约为20分37.526秒,共含528个语音段,采样率为8000Hz。对样本进行人工标注以便进行检测准确率统计,标注语音帧(包含元音和辅音)与非语音帧,其中语音帧约占75.03%,非语音帧约占24.97%。采用NOISEX-92噪声数据库作为叠加噪声源,选取噪声样本包括高斯白噪声(平稳噪声)和嘈杂噪声(非平稳噪声);把语音与噪声合成信噪比0dB的低信噪比语音信号样本,将其作为待检测采样信号

当对高斯白噪声语音样本进行检测时,设置似然比判决阈值

步骤S02:在频域范围进行子带划分,所述子带为非均匀部分重叠;

(1)在频域范围进行子带划分

由于信号采样率

当信号采样率

表1非重叠子带频率上限与下限及对应频点

(2)把相邻子带设置为部分重叠

进一步把相邻子带设置为部分重叠,当前子带总数

表2部分重叠子带频率上限与下限及对应频点

步骤S03:根据步骤S02中划分的子带频率上下限,计算第

(1)根据已设置傅里叶变换的长度

(2)计算第

计算第

步骤S04:计算所有非语音信号帧第

计算第

所述非语音信号帧具体指在过去已检测的时间范围内,在离第

所述时间区域指的是按一定数量信号帧形成的区域,设

步骤S05:根据第

设置阈值

式中

表3各子带谱熵的预设阈值对应表

步骤S06:对似然比检验值按权值进行加权求和后计算平均值,最后根据似然比阈值

将所提供的方法与传统似然比检验语音检测方法进行效果对比,通过检测结果举例和检测准确率统计进一步说明所提供方法的有效性。图4示给出了本实施例所提供方法与传统方法检测结果对比举例(第22帧-第294帧)。

检测准确率对比如表4所示,在0dB信噪比(白噪声和嘈杂噪声)环境下,所提供方法相比传统方法在检测准确率上均有明显提高。

表4所提供方法与传统方法检测准确率对比

实施例3

图5示出了本发明一种跨子带谱熵加权似然比语音检测系统的框图。

本发明第二方面还提供了一种跨子带谱熵加权似然比语音检测系统5,该系统包括:存储器51、处理器52,所述存储器中包括一种跨子带谱熵加权似然比语音检测方法程序,所述一种跨子带谱熵加权似然比语音检测方法程序被所述处理器执行时实现如下步骤:

给定待检测采样信号

在频域范围进行子带划分,所述子带为非均匀部分重叠;

根据划分子带的频率上下限,计算第

计算所有非语音信号帧第

根据第

对似然比检验值按权值进行加权求和后计算平均值,根据似然比阈值判决第

本发明第三方面还提供一种计算机可读存储介质,所述计算机可读存储介质中包括一种跨子带谱熵加权似然比语音检测方法程序,所述一种跨子带谱熵加权似然比语音检测方法程序被处理器执行时,实现如上述任一项所述的一种跨子带谱熵加权似然比语音检测方法的步骤。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

技术分类

06120116210099