掌桥专利:专业的专利平台
掌桥专利
首页

语音存在概率计算方法、系统、语音增强方法以及耳机

文献发布时间:2023-06-19 19:28:50


语音存在概率计算方法、系统、语音增强方法以及耳机

技术领域

本说明书涉及语音信号处理技术领域,尤其涉及一种语音存在概率计算方法、系统、语音增强方法以及耳机。

背景技术

在基于波束成形算法的语音增强技术中,特别是最小方差无失真响应(MinimumVariance Distortionless Response,简称MVDR)的自适应波束形成算法中,怎么求解描述不同麦克风之间噪声统计特性关系的参量——噪声协方差矩阵至关重要。现有技术中的主要方法是基于语音存在概率的方法计算噪声协方差矩阵,比如通过语音活动检测方法(Voice Activity Detection,简称VAD)估计语音存在概率,进而计算噪声协方差矩阵。但是现有技术中的语音存在概率估计准确率不够,导致噪声协方差矩阵估计精度较低,进而导致MVDR算法的语音增强效果较差。尤其当麦克风数目较少,比如小于5个时,效果急剧下降。因此,现有技术中的MVDR算法多用于手机、智能音箱等麦克风数量多且间距大的麦克风阵列设备中,而对于耳机这种麦克风数量少且间距小的设备语音增强效果较差。

因此,需要提供一种精度更高的语音存在概率计算方法、系统、语音增强方法以及耳机。

发明内容

本说明书提供一种精度更高的语音存在概率计算方法、系统、语音增强方法以及耳机。

第一方面,本说明书提供一种语音存在概率计算方法,用于呈预设阵列形状分布的M个麦克风,所述M为大于1的整数,包括:获取所述M个麦克风输出的麦克风信号,所述麦克风信号满足高斯分布的第一模型或第二模型,所述第一模型和所述第二模型中的一个为语音存在模型,另一个为语音不存在模型;基于极大似然估计以及期望最大化算法分别对所述第一模型以及所述第二模型进行迭代优化,直至收敛,在迭代过程中,基于所述麦克风信号为所述第一模型时的第一概率的熵以及所述麦克风信号为所述第二模型时的第二概率的熵,确定所述语音存在模型是所述第一模型还是所述第二模型,所述第一概率与所述第二概率互补;以及在所述极大似然估计以及期望最大化算法收敛时,将所述麦克风信号为所述语音存在模型的概率作为所述麦克风信号的语音存在概率并输出。

在一些实施例中,所述第一模型对应的高斯分布的第一方差包括第一参数与第一空间协方差矩阵的乘积;以及所述第二模型对应的高斯分布的第二方差包括第二参数与第二空间协方差矩阵的乘积;所述基于极大似然估计以及期望最大化算法分别对所述第一模型以及所述第二模型进行迭代优化,包括:基于极大似然估计以及期望最大化算法,构建目标函数;确定优化参数,所述优化参数包括所述第一空间协方差矩阵以及所述第二空间协方差矩阵;确定所述优化参数的初始值;基于所述目标函数以及所述优化参数的初始值,对所述优化参数进行多次迭代,直至所述目标函数收敛,包括:在所述多次迭代中基于所述第一概率的熵和所述第二概率的熵确定所述语音存在概率是所述第一模型还是所述第二模型;以及输出所述优化参数的收敛值及其对应的所述第一概率和所述第二概率。

在一些实施例中,所述在所述多次迭代中基于所述第一概率的熵和所述第二概率的熵确定所述语音存在概率是所述第一模型还是所述第二模型,包括:在所述多次迭代的任意一次迭代中,计算所述第一概率的熵和所述第二概率的熵,确定所述语音存在概率是所述第一模型还是所述第二模型,包括:确定所述第一概率的熵大于所述第二概率的熵,确定所述语音存在模型为所述第二模型;或者确定所述第一概率的熵小于所述第二概率的熵,确定所述语音存在模型为所述第一模型。

在一些实施例中,所述在所述多次迭代中基于所述第一概率的熵和所述第二概率的熵确定所述语音存在概率是所述第一模型还是所述第二模型,包括:在所述多次迭代的第一次迭代中,计算所述第一概率的熵和所述第二概率的熵,确定所述语音存在概率是所述第一模型还是所述第二模型,包括:确定所述第一概率的熵大于所述第二概率的熵,确定所述语音存在模型为所述第二模型;或者确定所述第一概率的熵小于所述第二概率的熵,确定所述语音存在模型为所述第一模型。

在一些实施例中,所述对所述优化参数进行多次迭代,还包括在所述多次迭代的每次迭代中:基于所述第一概率的熵和所述第二概率的熵对所述第一概率和所述第二概率进行修正,包括:确定所述第一模型为所述语音存在模型,以及所述第一概率的熵大于所述第二概率的熵,将所述第一概率对应的值与所述第二概率对应的值互换;或者确定所述第二模型为所述语音存在模型,以及所述第二概率的熵大于所述第一概率的熵,将所述第一概率对应的值与所述第二概率对应的值互换;以及基于修正后的所述第一概率和所述第二概率更新所述优化参数。

在一些实施例中,所述对所述优化参数进行多次迭代,还包括在所述多次迭代的每次迭代中:对所述优化参数进行可逆化修正,包括:确定所述优化参数不可逆,通过偏差矩阵对所述优化参数进行修正,所述偏差矩阵包括单位矩阵、服从正态分布或均匀分布的随机矩阵中的一种。

第二方面,本说明书还提供一种语音存在概率计算系统,包括至少一个存储介质以及至少一个处理器,所述至少一个存储介质存储有至少一个指令集用于语音存在概率计算;所述至少一个处理器,同所述至少一个存储介质通信连接,其中当所述语音存在概率计算系统运行时,所述至少一个处理器读取所述至少一个指令集并实施本说明书第一方面所述的语音存在概率计算方法。

第三方面,本说明书还提供一种语音增强方法,用于呈预设阵列形状分布的M个麦克风,所述M为大于1的整数,包括:获取所述M个麦克风输出的麦克风信号;基于权利要求1-7中任一项所述的语音存在概率计算方法,确定所述麦克风信号的所述语音存在概率;基于所述语音存在概率确定所述麦克风信号的噪声协方差矩阵;基于MVDR方法以及所述噪声空间协方差矩阵,确定所述麦克风信号对应的滤波系数;以及基于所述滤波系数对所述麦克风信号进行合并,输出目标音频信号。

第四方面,本说明书还提供一种耳机,包括麦克风阵列以及计算装置,所述麦克风阵列包括呈预设阵列形状分布的M个麦克风,所述M为大于1的整数;所述计算装置运行时与所述麦克风阵列通信连接,并执行本说明书第三方面所述的语音增强方法。

在一些实施例中,所述M个麦克风呈线性分布,并且所述M不大于5,所述M个麦克风中相邻麦克风的间距在20mm~40mm之间,所述耳机还包括第一壳体以及第二壳体,所述麦克风阵列安装在所述第一壳体上,所述第一壳体包括第一接口以及触点,所述第一接口设置有第一磁性装置,所述触点设置在所述第一接口处,与所述麦克风阵列通信连接;所述计算装置安装在所述第二壳体上,所述第二壳体包括第二接口以及导轨,所述第二接口设置有第二磁性装置,所述导轨设置在所述第二接口处,与所述计算装置通信连接,其中,所述第一磁性装置与所述第二磁性装置之间的吸附力使得所述第一壳体与所述第二壳体可拆卸连接,当所述第一壳体与所述第二壳体连接时,所述触点与所述导轨接触,使得所述麦克风阵列与所述计算装置通信连接。

由以上技术方案可知,本说明书提供的语音存在概率计算方法、系统、语音增强方法以及耳机,用于由多个麦克风组成的麦克风阵列。其中,所述麦克风阵列中的每个麦克风均可以采集空间中的多个音源的音频,并输出相对应的麦克风信号。其中,每个音源的音频信号满足高斯分布。多个麦克风阵列输出的多个麦克风信号满足联合高斯分布。为了获取所述多个麦克风信号中的语音存在概率,所述语音存在概率计算方法、系统、语音增强方法以及耳机可以分别获取多个麦克风信号中存在语音时的语音存在模型和不存在语音时的语音不存在模型,并基于极大似然估计以及期望最大化算法通过多次迭代优化,并在迭代过程中根据语音存在概率的熵和语音不存在概率的熵,对语音存在概率和语音不存在概率进行修正,从而计算确定语音存在模型的模型参数和语音不存在时的模型参数,在所述极大似然估计以及期望最大化算法收敛时,获取语音存在模型对应的语音存在概率。所述语音存在概率计算方法、系统、语音增强方法以及耳机,通过对比语音存在概率的熵和语音不存在概率的熵来对迭代过程中的语音存在概率和语音不存在概率进行修正,以获取更快的收敛速度和更好的收敛结果,从而使得语音存在概率和噪声协方差矩阵估计精度更高,进而提高MVDR的语音增强效果。

本说明书提供的语音存在概率计算方法、系统、语音增强方法以及耳机的其他功能将在以下说明中部分列出。根据描述,以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的语音存在概率计算方法、系统、语音增强方法以及耳机的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一种语音存在概率计算系统的硬件示意图;

图2A示出了根据本说明书的实施例提供的一种电子设备的爆炸结构示意图;

图2B示出了根据本说明书的实施例提供的一种第一壳体的主视图;

图2C示出了根据本说明书的实施例提供的一种第一壳体的俯视图;

图2D示出了根据本说明书的实施例提供的一种第二壳体的主视图;

图2E示出了根据本说明书的实施例提供的一种第二壳体的仰视图;

图3示出了根据本说明书的实施例提供的一种语音存在概率计算方法的流程图;

图4示出了根据本说明书的实施例提供的一种迭代优化的流程图;

图5示出了根据本说明书的实施例提供的一种多次迭代的流程图;

图6示出了根据本说明书的实施例提供的另一种多次迭代的流程图;以及

图7示出了根据本说明书的实施例提供的一种语音增强方法的流程图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求,目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说,对所公开的实施例的各种局部修改是显而易见的,并且在不脱离本说明书的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用。因此,本说明书不限于所示的实施例,而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的,而不是限制性的。比如,除非上下文另有明确说明,这里所使用的,单数形式“一”,“一个”和“该”也可以包括复数形式。当在本说明书中使用时,术语“包括”、“包含”和/或“含有”意思是指所关联的整数,步骤、操作、元素和/或组件存在,但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述,本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图,所有这些形成本说明书的一部分。然而,应该清楚地理解,附图仅用于说明和描述的目的,并不旨在限制本说明书的范围。还应理解,附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解,流程图的操作可以不按顺序实现。相反,操作可以以反转顺序或同时实现。此外,可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了方便描述,首先对说明书中将要出现的术语进行如下解释:

最小方差无失真响应(Minimum Variance Distortionless Response,简称MVDR):是一种基于最大信干噪比(SINR)准则的自适应波束形成算法,MVDR算法可以自适应的使阵列输出在期望方向上的功率最小同时信干噪比最大。其目标是最小化记录信号的方差。如果噪声信号和期望信号不相关,那么记录信号的方差是期望信号和噪声信号的方差之和。因此,MVDR解决方案寻求最小化该总和,从而减轻噪声信号的影响。其原理是在期望信号无失真的约束条件下,选择合适的滤波器系数,使得阵列输出的平均功率最小化。

语音存在概率:在当前的音频信号中存在目标语音信号的概率。

高斯分布:正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、方差为σ

图1示出了根据本说明书的实施例提供的一种语音存在概率计算系统的硬件示意图。语音存在概率计算系统可以应用于电子设备200。

在一些实施例中,电子设备200可以是无线耳机、有线耳机、智能穿戴式设备,比如,智能眼镜、智能头盔或者智能腕表等具有音频处理功能的设备。电子设备200也可以是移动设备、平板电脑、笔记本电脑、机动车内置装置或类似内容,或其任意组合。在一些实施例中,移动设备可包括智能家居设备、智能移动设备或类似设备,或其任意组合。比如,所述智能移动设备可包括手机、个人数字辅助、游戏设备、导航设备、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)等,或其任意组合。在一些实施例中,所述智能家居装置可包括智能电视、台式电脑等,或任意组合。在一些实施例中,机动车中的内置装置可包括车载计算机、车载电视等。

在本说明书中,我们以电子设备200为耳机为例进行描述。所述耳机可以是无线耳机,也可以是有线耳机。如图1所示,电子设备200可以包括麦克风阵列220以及计算装置240。

麦克风阵列220可以是电子设备200的音频采集设备。麦克风阵列220可以被配置为获取本地音频,并输出麦克风信号,也就是携带了音频信息的电子信号。麦克风阵列220可以包括呈预设阵列形状分布的M个麦克风222。其中,所述M为大于1的整数。M个麦克风222可以均匀分布,也可以非均匀分布。M个麦克风222可以输出麦克风信号。M个麦克风222可以输出M个麦克风信号。每个麦克风222对应一个麦克风信号。所述M个麦克风信号统称为所述麦克风信号。在一些实施例中,M个麦克风222可以呈线性分布。在一些实施例中,M个麦克风222也可以呈其他形状的阵列分布,比如,圆形阵列,矩形阵列等等。为了方便描述,下面的描述中我们将以M个麦克风222呈线性分布为例进行描述。在一些实施例中啊,M可以是大于1的任意整数,比如,2,3,4,5,甚至更多,等等。在一些实施例中,由于空间限制,M可以是大于1且不大于5的整数,比如在耳机等产品中。当电子设备200为耳机时,M个麦克风222中相邻麦克风222的间距可以在20mm~40mm之间。在一些实施例中,相邻麦克风222的间距可以更小,比如在10mm~20mm之间。

在一些实施例中,麦克风222可以是直接采集人体振动信号的骨传导麦克风。骨传导麦克风可以包括振动传感器,比如光学振动传感器、加速度传感器等。所述振动传感器可以采集机械振动信号(比如,由用户说话时皮肤或骨骼产生的振动产生的信号),并将该机械振动信号转换成电信号。这里所说的机械振动信号主要指经由固体传播的振动。骨传导麦克风通过所述振动传感器或与所述振动传感器连接的振动部件与用户的皮肤或骨骼进行接触,从而采集用户在发出声音时骨骼或皮肤产生的振动信号,并将振动信号转换为电信号。在一些实施例中,所述振动传感器可以是对机械振动敏感而对空气振动不敏感的装置(即所述振动传感器对于机械振动的响应能力超过所述振动传感器对于空气振动的响应能力)。由于骨传导麦克风能够直接拾取发声部位的振动信号,骨传导麦克风能降低环境噪声的影响。

在一些实施例中,麦克风222也可以是直接采集空气振动信号的气传导麦克风。气传导麦克风通过采集用户在发出声音时引起的空气振动信号,并将空气振动信号转化为电信号。

在一些实施例中,M个麦克风220可以是M个骨传导麦克风。在一些实施例中,M个麦克风220也可以是M个气传导麦克风。在一些实施例中,M个麦克风220既可以包括骨传导麦克风,也可以包括气传导麦克风。当然,麦克风222也可以是其他类型的麦克风。比如光学麦克风,接收肌电信号的麦克风,等等。

计算装置240可以与麦克风阵列220通信连接。所述通信连接是指能够直接地或者间接地接收信息的任何形式的连接。在一些实施例中,计算装置240可以同麦克风阵列220通过无线通信连接来彼此传递数据;在一些实施例中,计算装置240也可以同麦克风阵列220通过电线直接连接来彼此传递数据;在一些实施例中,计算装置240也可以通过电线同其他电路直接连接来建立同麦克风阵列220的间接连接,从而实现彼此传递数据。在本说明书中将以计算装置240同麦克风阵列220电线直接连接为例进行描述。

计算装置240可以是具有数据信息处理功能的硬件设备。在一些实施例中,语音存在概率计算系统可以包括计算装置240。在一些实施例中,语音存在概率计算系统可以应用于计算装置240。即语音存在概率计算系统可以在计算装置240上运行。语音存在概率计算系统可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。当然,语音存在概率计算系统也可以仅为具有数据处理能力的硬件设备,或者,仅为运行在硬件设备中的程序。

语音存在概率计算系统可以存储有执行本说明书描述的语音存在概率计算方法的数据或指令,并可以执行所述数据和/或指令。当语音存在概率计算系统在计算装置240上运行时,语音存在概率计算系统可以基于所述通信连接从麦克风阵列220中获取所述麦克风信号,并执行本说明书描述的语音存在概率计算方法的数据或指令,计算所述麦克风信号中的语音存在概率。所述语音存在概率计算方法在本说明书中的其他部分介绍。比如,在图3至图6的描述中介绍了所述语音存在概率计算方法。

如图1所示,计算装置240可以包括至少一个存储介质243和至少一个处理器242。在一些实施例中,电子设备200还可以包括通信端口245和内部通信总线241。

内部通信总线241可以连接不同的系统组件,包括存储介质243、处理器242和通信端口245。

通信端口245可以用于计算装置240同外界的数据通信。比如,计算装置240可以通过通信端口245从麦克风阵列220中获取所述麦克风信号。

至少一个存储介质243可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质,也可以是暂时性存储介质。比如,所述数据存储装置可以包括磁盘、只读存储介质(ROM)或随机存取存储介质(RAM)中的一种或多种。当语音存在概率计算系统可以在计算装置240上运行时,存储介质243还可以包括存储在所述数据存储装置中的至少一个指令集,用于对所述麦克风信号进行语音存在概率计算。所述指令是计算机程序代码,所述计算机程序代码可以包括执行本说明书提供的语音存在概率计算方法的程序、例程、对象、组件、数据结构、过程、模块等等。

至少一个处理器242可以同至少一个存储介质243通过内部通信总线241通信连接。所述通信连接是指能够直接地或者间接地接收信息的任何形式的连接。至少一个处理器242用以执行上述至少一个指令集。当语音存在概率计算系统可以在计算装置240上运行时,至少一个处理器242读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行本说明书提供的语音存在概率计算方法。处理器242可以执行语音存在概率计算方法包含的所有步骤。处理器242可以是一个或多个处理器的形式,在一些实施例中,处理器242可以包括一个或多个硬件处理器,例如微控制器,微处理器,精简指令集计算机(RISC),专用集成电路(ASIC),特定于应用的指令集处理器(ASIP),中央处理单元(CPU),图形处理单元(GPU),物理处理单元(PPU),微控制器单元,数字信号处理器(DSP),现场可编程门阵列(FPGA),高级RISC机器(ARM),可编程逻辑器件(PLD),能够执行一个或多个功能的任何电路或处理器等,或其任何组合。仅仅为了说明问题,在本说明书中计算装置240中仅描述了一个处理器242。然而,应当注意,本说明书中计算装置240还可以包括多个处理器242,因此,本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行,也可以由多个处理器联合执行。例如,如果在本说明书中计算装置240的处理器242执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同处理器242联合或分开执行(例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。

图2A示出了根据本说明书的实施例提供的一种电子设备200的爆炸结构示意图。如图2A所示,电子设备200可以包括麦克风阵列220、计算装置240、第一壳体260以及第二壳体280。

第一壳体260可以是麦克风阵列220的安装基体。麦克风阵列220可以安装在第一壳体260内部。第一壳体260的形状可以根据麦克风阵列220的分布形状做适应性设计,本说明书对此不做过多限定。第二壳体280可以是计算装置240的安装基体。计算装置240可以安装在第二壳体280的内部。第二壳体280的形状可以根据计算装置240的形状做适应性设计,本说明书对此不做过多限定。当电子设备200为耳机时,第二壳体280可以与穿戴部位连接。第二壳体280可以与第一壳体260连接。如前所述,麦克风阵列220可以与计算装置240电连接。具体地,麦克风阵列220可以与计算装置240通过第一壳体260和第二壳体280的连接实现电连接。

在一些实施例中,第一壳体260可以与第二壳体280固定连接,比如,一体成型、焊接、铆接、粘接,等等。在一些实施例中,第一壳体260可以与第二壳体280可拆卸连接。计算装置240可以与不同的麦克风阵列220通信连接。具体地,不同的麦克风阵列220可以是麦克风阵列220中的麦克风222的数量不同、阵列形状不同、麦克风222间距不同、麦克风阵列220在第一壳体260中的安装角度不同,麦克风阵列220在第一壳体260中的安装位置不同等等。使用者可以根据应用场景的不同,更换对应的麦克风阵列220,以使电子设备200适用于更广泛的场景。比如,当应用场景中使用者与电子设备200的距离较近时,使用者可以更换为间距更小的麦克风阵列220。再比如,当应用场景中使用者与电子设备200的距离较近时,使用者可以更换为间距更大、数量更多的麦克风阵列220,等等。

所述可拆卸连接可以是任意形式的物理连接,比如,螺纹连接、卡扣连接、磁吸连接,等等。在一些实施例中,第一壳体260与第二壳体280之间可以是磁吸连接。即第一壳体260与第二壳体280之间通过磁性装置的吸附力进行可拆卸连接。

图2B示出了根据本说明书的实施例提供的一种第一壳体260的主视图;图2C示出了根据本说明书的实施例提供的一种第一壳体260的俯视图。如图2B和图2C所示,第一壳体260可以包括第一接口262。在一些实施例中,第一壳体260还可以包括触点266。在一些实施例中,第一壳体260还可以包括角度传感器(图2B和图2C中未示出)。

第一接口262可以是第一壳体260与第二壳体280的安装接口。在一些实施例中,第一接口262可以是圆形。第一接口262可以与第二壳体280转动连接。当第一壳体260安装在第二壳体280上时,第一壳体260可以相对于第二壳体280转动,调整第一壳体260相对于第二壳体280的角度,从而调整麦克风阵列220的角度。

第一接口262上可以设置有第一磁性装置263。第一磁性装置263可以设置在第一接口262靠近第二壳体280的位置。第一磁性装置263可以产生磁性吸附力,从而实现与第二壳体280的可拆卸连接。当第一壳体260靠近第二壳体260时,通过所述吸附力,使第一壳体260与第二壳体280快速连接。在一些实施例中,在第一壳体260与第二壳体280连接后,第一壳体260还可以相对于第二壳体280转动,以调整麦克风阵列220的角度。在所述吸附力的作用下,在第一壳体260相对于第二壳体280转动时,依然可以保持第一壳体260与第二壳体280的连接。

在一些实施例中,第一接口262上还可以设置有第一定位装置(图2B和图2C中未示出)。所述第一定位装置可以是向外凸起的定位台阶,也可以是向内延伸的定位孔。所述第一定位装置可以与第二壳体280配合,以实现第一壳体260与第二壳体280的快速安装。

如图2B和图2C所示,在一些实施例中,第一壳体260还可以包括触点266。触点266可以安装在第一接口262处。触点266可以从第一接口262处向外突出。触点266可以与第一接口262弹性连接。触点266可以与麦克风阵列220中的M个麦克风222通信连接。触点266可以由具有弹性的金属制成,以实现数据传输。当第一壳体260与第二壳体280连接时,麦克风阵列220可以通过触点266与计算装置240实现通信连接。在一些实施例中,触点266可以呈圆形分布。在第一壳体260与第二壳体280连接后,第一壳体260相对于第二壳体280转动时,触点266也可以相对于第二壳体280转动,并保持与计算装置240的通信连接。

在一些实施例中,第一壳体260上还可以设置有角度传感器(图2B和图2C中未示出)。所述角度传感器可以与触点266通信连接,从而实现与计算装置240的通信连接。所述角度传感器可以采集第一壳体260的角度数据,从而确定麦克风阵列220所处的角度,为后续的语音存在概率的计算提供参考数据。

图2D示出了根据本说明书的实施例提供的一种第二壳体280的主视图;图2E示出了根据本说明书的实施例提供的一种第二壳体280的仰视图。如图2D和图2E所示,第二壳体280可以包括第二接口282。在一些实施例中,第二壳体280还可以包括导轨286。

第二接口282可以是第二壳体280与第一壳体260的安装接口。在一些实施例中,第二接口282可以是圆形。第二接口282可以与第一壳体260的第一接口262转动连接。当第一壳体260安装在第二壳体280上时,第一壳体260可以相对于第二壳体280转动,调整第一壳体260相对于第二壳体280的角度,从而调整麦克风阵列220的角度。

第二接口282上可以设置有第二磁性装置283。第二磁性装置283可以设置在第二接口282靠近第一壳体260的位置。第二磁性装置283可以产生磁性吸附力,从而实现与第一接口262的可拆卸连接。第二磁性装置283可以与第一磁性装置263配合使用。当第一壳体260靠近第二壳体260时,通过第二磁性装置283与第一磁性装置263间的吸附力,使第一壳体260快速安装在第二壳体280上。当第一壳体260安装在第二壳体260上时,第二磁性装置283与第一磁性装置263的位置相对。在一些实施例中,在第一壳体260与第二壳体280连接后,第一壳体260还可以相对于第二壳体280转动,以调整麦克风阵列220的角度。在所述吸附力的作用下,在第一壳体260相对于第二壳体280转动时,依然可以保持第一壳体260与第二壳体280的连接。

在一些实施例中,第二接口282上还可以设置有第二定位装置(图2D和图2E中未示出)。所述第二定位装置可以是向外凸起的定位台阶,也可以是向内延伸的定位孔。所述第二定位装置可以与第一壳体260的第一定位装置配合,以实现第一壳体260与第二壳体280的快速安装。当所述第一定位装置为所述定位台阶时,所述第二定位装置可以是所述定位孔。当所述第一定位装置为所述定位孔时,所述第二定位装置可以是所述定位台阶。

如图2D和图2E所示,在一些实施例中,第二壳体280还可以包括导轨286。导轨286可以安装在第二接口282处。导轨286可以与计算装置240通信连接。导轨286可以由金属材质制成,以实现数据传输。当第一壳体260与第二壳体280连接时,触点266可以与导轨286接触形成通信连接,从而实现麦克风阵列220与计算装置240的通信连接,以实现数据传输。如前所述,触点266可以与第一接口262弹性连接。因此,在第一可以260与第二壳体280连接后,在所述弹性连接的弹力作用下,可以使触点266与导轨286完全接触,以实现可靠的通信连接。在一些实施例中,导轨286可以呈圆形分布。在第一壳体260与第二壳体280连接后,第一壳体260相对于第二壳体280转动时,触点266也可以相对于导轨286转动,并保持与导轨286的通信连接。

图3示出了根据本说明书的实施例提供的语音存在概率计算方法P100的流程图。所述方法P100可以计算所述麦克风信号的语音存在概率。具体地,处理器242可以执行所述方法P100。如图3所示,所述方法P100可以包括:

S120:获取M个麦克风222输出的麦克风信号。

如前所述,每个麦克风222都可以输出对应的麦克风信号。M个麦克风222对应M个麦克风信号。所述方法P100在计算语音存在概率时,可以基于M个麦克风信号中的所有麦克风信号进行计算,也可以基于部分麦克风信号进行计算。因此,所述麦克风信号可以包括M个麦克风222对应M个麦克风信号或者部分麦克风信号。本说明书后面的描述中将以所述麦克风信号可以包括M个麦克风222对应M个麦克风信号为例进行描述。

如前所述,麦克风222可以采集周围环境中的噪声,也可以采集目标用户的目标语音。假设麦克风222的周围存在N个信号源,分别为s

其中,a

麦克风信号x(t)为时域信号。在一些实施例中,在步骤S120中,计算装置240还可以对所述麦克风信号x(t)进行频谱分析。具体地,计算装置240可以基于麦克风信号的时域信号x(t)做傅里叶变换,获取所述麦克风信号的频域信号x

此时,麦克风信号x

其中,

在一些实施例中,所述高斯分布

根据公式(2)和公式(3)可知,麦克风信号x

其中,

所述麦克风信号x

/>

为了计算

为了方便描述我们将第一模型定义为以下公式:

其中,

我们将第二模型定义为以下公式:

其中,

为了计算

S140:基于极大似然估计以及期望最大化极大似然估计以及期望最大化算法分别对所述第一模型以及所述第二模型进行迭代优化,直至收敛。

计算装置240可以采用迭代优化的方法分别对第一模型以及第二模型进行迭代优化,以获取第一模型的第一方差

第一概率

所述麦克风信号x

图4示出了根据本说明书的实施例提供的一种迭代优化的流程图。图4所示的为步骤S140。如图4所示,步骤S140可以包括:

S142:基于极大似然估计以及期望最大化算法,构建目标函数。

如前所述,未知参数包括第一模型的第一方差

S144:确定优化参数。

第一参数

第二参数

因此,所述优化参数可以包括所述第一空间协方差矩阵

S145:确定所述优化参数的初始值。

为了方便描述,我们将第一空间协方差矩阵

S146:基于所述目标函数以及所述优化参数的初始值,对所述优化参数进行多次迭代,直至所述目标函数收敛。

如前所述,计算装置240可以在所述多次迭代过程中,基于所述第一概率

在一些实施例中,计算装置240可以在所述多次迭代中的任意一次迭代中基于所述第一概率

S146-2:对所述优化参数进行可逆化修正。

具体地,步骤S146-2可以是,确定所述优化参数不可逆时,通过偏差矩阵对所述优化参数进行修正。所述偏差矩阵可以包括单位矩阵、服从正态分布或均匀分布的随机矩阵中的一种。如前所述,所述优化参数包括第一空间协方差矩阵

具体地,计算装置240可以对第一空间协方差矩阵

当第一空间协方差矩阵

其中,Q为偏差矩阵。μ为偏差系数。在一些实施例中,μ=0.001。

当第一空间协方差矩阵

S146-3:基于公式(11)和公式(12)确定第一参数

S146-4:基于公式(8)和公式(9)确定第一概率

S146-5:基于第一概率

第一空间协方差矩阵

S146-6:基于目标函数,判断迭代是否停止。

步骤S146-6可以包括:

S146-7:确定迭代停止,输出优化参数的收敛值。或者

S146-8:确定迭代没有停止,继续进行下一次迭代。

如图5所示,步骤S146还可以包括:

S146-9:在所述多次迭代的任意一次迭代中,基于第一概率

步骤S146-9可以是在迭代过程中执行,也可以是在迭代结束后,以所述多次迭代中的任意一次迭代中的第一概率

具体地,在步骤S146-9中,计算装置240可以获取任意一次迭代中的第一概率

在一些实施例中,计算装置240可以在所述多次迭代中的第一次迭代中基于所述第一概率

S146-10:在所述多次迭代的第一次迭代中,计算第一概率

具体地,在步骤S146-1中,计算装置240可以在第一次迭代中,基于基于公式(11)和公式(12)确定第一参数

如图6所示,步骤S146还可以包括在第一次迭代之后的每一次迭代中:

S146-11:对所述优化参数进行可逆化修正。如前所述的步骤S146-2,在此不再赘述。

S146-12:基于公式(11)和公式(12)确定第一参数

S146-13:基于公式(8)和公式(9)确定第一概率

S146-14:基于第一概率

具体地,步骤S146-14可以是计算装置240计算第一概率

S146-15:基于修正后的第一概率

在步骤S146-14和步骤S146-15中,可以使每次迭代过程中,语音存在模型的熵小于语音不存在模型的熵,以保证每次迭代向着目标方向收敛,从而加快收敛速度。

S146-16:基于目标函数,判断迭代是否停止。

步骤S146-16可以包括:

S146-17:确定迭代停止,输出优化参数的收敛值。或者

S146-18:确定迭代没有停止,继续进行下一次迭代。

如图4所示,步骤S140还可以包括:

S148:输出所述优化参数的收敛值及其对应的第一概率

如前所述,当目标函数收敛时,计算装置240可以将目标函数收敛时对应的优化参数的值作为优化参数的收敛值进行输出。同时,计算装置240可以将优化参数的收敛值对应的第一概率

如图3所示,所述方法P100还可以包括:

S160:在极大似然估计以及期望最大化算法收敛时,将麦克风信号x

如前所述,在步骤S140中,计算装置240可以基于第一概率

计算装置240可以将语音存在概率

综上所述,本说明书提供的语音存在概率计算系统和方法P100中,计算装置240可以根据第一模型对应的第一概率

本说明书还提供一种语音增强系统。语音增强系统也可以应用于电子设备200。在一些实施例中,语音增强系统可以包括计算装置240。在一些实施例中,语音增强系统可以应用于计算装置240。即语音增强系统可以在计算装置240上运行。语音增强系统可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。当然,语音增强系统也可以仅为具有数据处理能力的硬件设备,或者,仅为运行在硬件设备中的程序。

语音增强系统可以存储有执行本说明书描述的语音增强方法的数据或指令,并可以执行所述数据和/或指令。当语音增强系统在计算装置240上运行时,语音增强系统可以基于所述通信连接从麦克风阵列220中获取所述麦克风信号,并执行本说明书描述的语音增强方法的数据或指令。所述语音增强方法在本说明书中的其他部分介绍。比如,在图7的描述中介绍了所述语音增强方法。

当语音增强系统在计算装置240上运行时,所述语音增强系统与麦克风阵列220通信连接。存储介质243还可以包括存储在所述数据存储装置中的至少一个指令集,用于对所述麦克风信号进行基于MVDR的语音增强计算。所述指令是计算机程序代码,所述计算机程序代码可以包括执行本说明书提供的语音增强方法的程序、例程、对象、组件、数据结构、过程、模块等等。处理器242可以读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行本说明书提供的语音增强方法。处理器242可以执行语音增强方法包含的所有步骤。

图7示出了根据本说明书的实施例提供的语音增强方法P200的流程图。所述方法P200可以基于MVDR方法对所述麦克风信号进行语音增强。具体地,处理器242可以执行所述方法P200。如图7所示,所述方法P200可以包括:

S220:获取所述M个麦克风输出的麦克风信号x

如步骤S120所述,在此不再赘述。

S240:基于所述语音存在概率计算方法P100,确定麦克风信号x

S260:基于语音存在概率

噪声协方差矩阵

S280:基于MVDR方法以及所述噪声空间协方差矩阵

滤波系数ω

其中,

在一些实施例中,滤波系数ω

其中,

S290:基于所述滤波系数ω

目标音频信号y

y

计算装置240可以将目标音频信号y

综上所述,本说明书提供的语音存在概率计算系统和方法P100、语音增强系统和方法P200以及电子设备200,用于由多个麦克风222组成的麦克风220阵列。所述语音存在概率计算系统和方法P100、语音增强系统和方法P200以及电子设备200可以分别获取多个麦克风信号中存在语音时的语音存在模型和不存在语音时的语音不存在模型,并基于极大似然估计以及期望最大化算法通过多次迭代优化,并在迭代过程中根据语音存在概率的熵和语音不存在概率的熵,对语音存在概率和语音不存在概率进行修正,从而计算确定语音存在模型的模型参数和语音不存在时的模型参数,在所述极大似然估计以及期望最大化算法收敛时,获取语音存在模型对应的语音存在概率。所述语音存在概率计算系统和方法P100、语音增强系统和方法P200以及电子设备200,通过对比语音存在概率的熵和语音不存在概率的熵来对迭代过程中的语音存在概率和语音不存在概率进行修正,以获取更快的收敛速度和更好的收敛结果,从而使得语音存在概率和噪声协方差矩阵估计精度更高,进而提高MVDR的语音增强效果。

本说明书另一方面提供一种非暂时性存储介质,存储有至少一组用来语音存在概率计算可执行指令,当所述可执行指令被处理器执行时,所述可执行指令指导所述处理器实施本说明书所述的语音存在概率计算方法P100的步骤。在一些可能的实施方式中,本说明书的各个方面还可以实现为一种程序产品的形式,其包括程序代码。当所述程序产品在计算设备(比如计算装置240)上运行时,所述程序代码用于使计算设备执行本说明书描述的语音存在概率计算步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码,并可以在计算设备上运行。然而,本说明书的程序产品不限于此,在本说明书中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统(例如处理器242)使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备上执行、部分地在计算设备上执行、作为一个独立的软件包执行、部分在计算设备上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者是可能有利的。

综上所述,在阅读本详细公开内容之后,本领域技术人员可以明白,前述详细公开内容可以仅以示例的方式呈现,并且可以不是限制性的。尽管这里没有明确说明,本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变,改进和修改。这些改变,改进和修改旨在由本说明书提出,并且在本说明书的示例性实施例的精神和范围内。

此外,本说明书中的某些术语已被用于描述本说明书的实施例。例如,“一个实施例”,“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征,结构或特性可以包括在本说明书的至少一个实施例中。因此,可以强调并且应当理解,在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外,特定特征,结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解,在本说明书的实施例的前述描述中,为了帮助理解一个特征,出于简化本说明书的目的,本说明书将各种特征组合在单个实施例、附图或其描述中。然而,这并不是说这些特征的组合是必须的,本领域技术人员在阅读本说明书的时候完全有可能将其中一部分特征提取出来作为单独的实施例来理解。也就是说,本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利,专利申请,专利申请的出版物和其他材料,例如文章,书籍,说明书,出版物,文件,物品等,可以通过引用结合于此。用于所有目的的全部内容,除了与其相关的任何起诉文件历史,可能与本文件不一致或相冲突的任何相同的,或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说,如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时,使用本文件中的术语为准。

最后,应理解,本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此,本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此,本说明书的实施例不限于申请中被精确地描述过的实施例。

相关技术
  • 耳机装置、语音处理系统和语音处理方法
  • 基于MFrSRRPCA算法的语音增强系统及方法
  • 利用语音存在概率的语音增强方法
  • 基于语音存在概率和相位估计的语音增强方法
技术分类

06120115925591