掌桥专利:专业的专利平台
掌桥专利
首页

语音分离方法、装置、介质和电子设备

文献发布时间:2023-06-19 09:24:30


语音分离方法、装置、介质和电子设备

技术领域

本公开涉及语音处理技术,尤其是一种语音分离方法、语音分离装置、存储介质以及电子设备。

背景技术

语音分离技术可以从由多个声源混合信号中提取出初始声源信号,从而实现对期望信号的增强。目前,语音分离技术已被使用于智能家居系统、视频会议系统以及语音识别系统等多种应用中。

基于GMM(Gaussian Mixture Model,高斯混合模型)-IVA(Independent VectorAnalysis,独立向量分析)的语音分离技术,是一种将GMM作为IVA算法中的声源先验模型的语音分离技术。然而,由于GMM中的参数通常需要采用预训练的方式来确定初始值,因此,基于GMM-IVA的语音分离技术不能较好的适用于无法进行预训练的应用场景中。如何提高基于GMM-IVA的语音分离技术的语音分离的适用范围,是一个值得关注的技术问题。

发明内容

为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种语音分离方法、语音分离装置、存储介质以及电子设备。

根据本公开实施例的一方面,提供一种语音分离方法,包括:获取待处理的时频域混合信号;根据所述时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;根据所述分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。

根据本公开实施例的另一方面,提供一种语音分离装置,包括:获取混合信号模块,用于获取待处理的时频域混合信号;获取分离矩阵模块,用于根据所述获取混合信号模块获取到的时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得所述时频域混合信号的分离矩阵;分离处理模块,用于根据所述获取分离矩阵模块获得的分离矩阵,从所述时频域混合信号中获得每个声源的时频域信号。

基于本公开上述实施例提供的一种语音分离方法以及装置,通过在高斯混合模型中设置幅度调整因子来适应音频信号的非平稳特点,从而可以在不需要对高斯混合模型中的多个参数进行预训练的情况下,利用待处理的时频域混合信号以及独立向量分析的代价函数,快捷的获得分离矩阵,从而可以利用分离矩阵,快捷的从时频域混合信号中获得每个声源的时频域信号。由此可知,本公开提供的技术方案有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。

下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例,并且连同描述一起用于解释本公开的原理。

参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:

图1为本公开所适用的一个场景示意图;

图2为本公开所适用的另一个场景示意图;

图3为本公开的语音分离方法一个实施例的流程图;

图4为本公开的获取待处理的时频域混合信号的过程一个实施例的流程图;

图5为本公开的语音分离装置一个实施例的结构示意图

图6为本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。

应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。

还应理解,在本公开实施例中,“多个”可以指两个或者两个以上,“至少一个”可以指一个、两个或两个以上。

还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。

另外,本公开中术语“和/或”,仅是一种描述关联对象的关联关系,表示可以存在三种关系,如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。

还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。

同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中,任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中,发明人发现,高斯混合模型是一种灵活度较高的模型。在为高斯混合模型选取了合适的参数后,在理论上,高斯混合模型可以表示任何概率密度分布,因此,将高斯混合模型作为IVA的声源先验模型,能够较好的实现语音分离。然而,高斯混合模型中存在着大量待估计模型参数,因此,在实现语音分离之前,通常需要利用纯净的声源信号对高斯混合模型进行训练,并利用训练获得的参数值,对高斯混合模型的参数进行初始化,以便于获得较好的语音分离结果。然而,在实际应用场景中,一方面有时难以获取到纯净的声源信号,另一方面,由于计算时间以及计算量限制等因素,往往无法实施预训练的过程。如果采用随机初始化等方式对高斯混合模型中的参数进行赋值,由于音频信号的幅度具有非平稳特性,因此,通常无法获得满意的语音分离效果。如果能够及时对音频信号的统计特性的幅度进行调整,则在采用随机初始化等方式对高斯混合模型中的参数进行赋值的情况下,可以获得较为满意的语音分离效果。

本公开提供的语音分离技术可广泛应用于现场会议、远程会议以及语音交互等任务中。

一个例子如图1所示。设置于讲台100上的麦克风101a和麦克风101b可以为型号完全相同的麦克风。麦克风101a和麦克风101b分别与数据处理设备102连接,且数据处理设备102可以与至少一个音箱连接。图1中仅示意性的示出了音箱103和音箱104,且数据处理设备102与音箱103和音箱104之间的连接可以无线连接。

假定主讲者位于麦克风101a和麦克风101b前进行发言。麦克风101a和麦克风101b可以通过实时采集外部的音频信号,分别获得声源混合信号,该声音混合信号可以为主讲者的声源信号与背景噪音相混合的声源混合信号。数据处理设备102可以利用本公开提供的语音分离技术从当前获得的声源混合信号中分离出主讲者的声源信号。之后,数据处理设备102可以基于分离出的主讲者的声源信号形成输出信号,并通过音箱103和音箱104播放输出信号,从而避免了背景噪音同时被播放出去的现象,有利于提高主讲者的声音清晰度,使参加现场会议的与会人员可以听到主讲者清晰的讲话。

另外,数据处理设备102还可以将基于分离出的主讲者的声源信号形成的输出信号,通过网络实时的传输给异地会场中的设备(如异地会场中的数据处理设备等),由异地会场的设备实时播放其接收到的信号,从而实现远程会议。

另一个例子如图2所示。可随身携带的翻译设备200(例如,智能移动电话等)中可以设置有两个麦克风。翻译设备200用于实现双语翻译。

在用户201与用户202对话过程中,用户201使其翻译设备200处于第一语言(如汉语等)与第二语言(如英语等)之间双向翻译的工作状态。

翻译设备200通过其内部设置的麦克风实时采集外部的音频信号,获得声源混合信号,该声源混合信号可以为当前讲话者的声源信号与背景噪音相混合的声源混合信号。翻译设备200可以利用本公开提供的语音分离技术从当前获得的声源混合信号中分离出当前讲话者的声源信号,从而可以避免背景噪音对后续语音识别处理的影响,有利于提高当前讲话者的声音清晰度。

之后,翻译设备200可以根据分离出的当前讲话者的声源信号,执行语音识别处理操作,翻译设备200可以根据语音识别处理的结果,确定出当前讲话者所使用的语言以及当前讲话者讲话的内容。

最后,翻译设备200可以将当前讲话者讲话的内容,转换为另一种语言,并输出,例如,翻译设备200将转换后的另一种语言通过其显示屏显示出来,再例如,翻译设备200将转换后的另一种语言通过其扬声器播放。

重复上述采集音频信号、分离出声源信号、语音识别处理以及语言转换处理等操作,从而可以帮助用户201和用户202之间实现连续对话。

图3为本公开的语音分离方法一个实施例的结构示意图。如图3所示,该实施例的语音分离方法包括步骤:S300、S301以及S302。下面对各单元分别进行说明。

S300、获取待处理的时频域混合信号。

本公开中的待处理的时频域混合信号可以称为待分离的时频域混合信号。本公开中的时频域混合信息是基于多个初始声源的时频域信号。其中的多个初始声源可以包括:期望的初始声源以及不期望的初始声源等。期望的初始声源可以为会议中的发言者,也可以为对话中的一方或两方讲话者等。不期望的初始声源通常为噪声声源等,也可以为不期望的干扰语音。

本公开中的时频域混合信号可以是指:同时包含了频域信息和时域信息的信号。时频域混合信号通常可以描述出各类随机信号的频域分量随时间的变化。

S301、根据时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得时频域混合信号的分离矩阵。

本公开中的幅度调整因子可以是指:用于对时频域混合信号的方差的幅度进行调整的参数。本公开中的幅度调整因子可以随时间变化而变化,因此,本公开中的幅度调整因子也可以称为时变因子。

本公开中的分离矩阵通常是指用于对时频域混合信号进行声源分离处理的矩阵。本公开中的包含有幅度调整因子的高斯混合模型可以称为时变的高斯混合模型。本公开可以将包含有幅度调整因子的高斯混合模型作为独立向量分析的算法中声源的先验模型。

本公开可以根据时频域混合信号,对包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,从而可以根据期望最大化处理结果,获得时频域混合信号的分离矩阵。

S302、根据上述分离矩阵,从上述时频域混合信号中获得每个声源的时频域信号。

本公开中的分离矩阵可以包括:多个分离矩阵,且多个分离矩阵各行分别对应不同通道中的不同频点。本公开可以利用多个分离矩阵,获得不同通道的各声源的时频域信号。

本公开通过在高斯混合模型中设置幅度调整因子,来适应音频信号的非平稳特点,从而可以在不需要对高斯混合模型中的多个参数进行预训练的情况下,通过利用时频域混合信号以及独立向量分析的代价函数(例如,利用时频域混合信号,对独立向量分析的代价函数进行期望最大化处理),可以快捷的获得分离矩阵,进而可以利用该分离矩阵,快捷的从时频域混合信号中获得每个声源的时频域信号。因此,本公开提供的技术方案有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。

在一个可选示例中,本公开获取待处理的时频域混合信号的过程可以如图4所示。图4中的流程包括步骤:S400、S401以及S402。

S400、基于多个音频采集装置各自对应的通道获取时域信号,得到多个时域信号。

可选的,本公开中的音频采集装置可以是指:用于采集音频信号的音频采集元件(如麦克风等)。一个音频采集装置对应一个通道。本公开中的时域信号可以称为时域下的信号。时域信号在时域中的波形可以表达出该信号随着时间的变化。

S401、将多个时域信号中的每一个时域信号分别转换为基于时频域的时频点信号,从而得到多个第一时频点信号。

可选的,本公开可以使用离散短时傅里叶变换,将多个时域信号中的每一个时域信号分别转换为基于时频域的时频点信号,本公开将转换后的基于时频域的时频点信号称为第一时频点信号。本公开中的每一个第一时频点信号均对应有相应的通道。

可选的,本公开中的离散短时傅里叶变换所使用的窗函数可以为汉宁窗,汉宁窗窗长可以为128ms(毫秒),时域帧间的交叠率可以为75%。也就是说,在进行离散短时傅里叶变换过程中,前一个待变换的时长为128ms的时域信号与后一个待变换的时长为128ms的时域信号之间,存在时长为96ms的相同时域信号。

S402、将多个第一时频点信号进行空间白化处理,获得空间白化处理后的多个第二时频点信号。即本公开可以联合多个通道的各时频点信号,进行空间白化处理,获得空间白化处理后的各通道的时频点信号。

可选的,本公开可以使用下述公式(1)实现对第一时频点信号的空间白化处理:

在上述公式(1)中,

在上述公式(2)中,T表示进行空间白化处理的时频点信号的总帧数;t表示第t帧;f表示频点;x

可选的,本公开中的待处理的时频域混合信号可以由多个第二时频点信号形成。例如,本公开可以将各第二时频点信号均作为待处理的时频域混合信号。每一个第二时频点信号对应相应的通道。另外,本公开也可以对多个第二时频点信号进行其他处理,并将经过其他处理后的第二时频点信号,作为待处理的时频域混合信号。

本公开通过对时频点信号进行空间白化处理,并利用空间白化处理后的时频点信号来获得分离矩阵,有利于提高获得分离矩阵的效率。

在一个可选示例中,本公开中的根据时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得时频域混合信号的分离矩阵的过程可以为:首先,确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值。其次,根据时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得时频域混合信号的分离矩阵。

可选的,本公开中的包含有幅度调整因子的高斯混合模型中的多个参数的初始值,并不是利用训练的方式获得的,而是根据预先设置的信息获得的。也就是说,本公开是利用预设初始值方式,来设置包含有幅度调整因子的高斯混合模型中的多个参数的初始值。这里的参数可以包括但不限于:各声源的高斯混合模型中的各高斯模型的帧间共有频域特征、各声源的高斯混合模型中的各帧的幅度调整因子以及各声源的高斯混合模型中的各高斯模型的先验概率。

在一个可选示例中,本公开中的时变高斯混合模型可以表示为下述公式(3)的形式:

在上述公式(3)中,

在上述公式(4)中,d

在上述公式(5)中,

本公开中的

可选的,本公开中的独立向量分析(IVA)的代价函数可以表示为下述公式(7)的形式:

在上述公式(7)中,θ表示概率密度分布模型(本公开为高斯混合模型)的所有参数;W表示概率密度分布模型的所有频点的分离矩阵(等号左边的W);T表示时频点信号的总帧数;t表示第t帧;i表示第i个初步估计声源,本公开中的声源数量和声道数量相同;

在上述公式(8)中,

可选的,本公开对上述公式(7)所示的IVA的代价函数进行期望最大化处理,可以认为是对下述公式(9)进行最大化的前提下估计高斯混合模型中的各参数,本公开可以根据估计的结果,获得各声源的各频点的分离矩阵。

在上述公式(9)中,t表示第t帧;d是一个M维的列向量;M表示声源的数量;f表示频点;p(d)表示第d种混合状态的先验概率,也可以认为是第二时频点信号的高斯混合模型中的第d种高斯模型的先验概率,且p(d)=Π

可选的,在声源的数量为2,一个声源的高斯混合模型的状态数为2的情况下,两个声源的高斯混合模型包括4个高斯模型,由于上述公式(9)中的约束条件为

在上述公式(10)中,

可选的,本公开可以基于EM(Expectation Maximization,期望最大化)算法的优化步骤对上述公式(8)应用Jensen不等式,从而获得下述公式(11):

在上述公式(11)中,t表示第t帧;d表示M个初步估计声源的混合状态,也可以表示第二时频混合信号所满足的高斯混合模型的混合状态;q

在上述公式(12)中,d'指代第二时频混合信号所满足的高斯混合模型中的第d’个状态,Φ

本公开通过采用预设初始值方式,设置包含有幅度调整因子的高斯混合模型中的多个参数的初始值,可以避免对高斯混合模型中的多个参数进行预训练的过程,从而一方面可以避免难以获取到用于训练的纯净的声源信号的问题,另一方面,消除了训练对计算时间以及计算量的要求。因此,有利于提高语音分离技术的可实施性。

在一个可选示例中,本公开可以利用随机初始化方式,为各声源的高斯混合模型中的各高斯模型的帧间共有频域特征设置初始值。例如,本公开可以从第一预定数值区间(如[0.999,1.001])中随机选取相应的数值,作为各声源的高斯混合模型中的各高斯模型的帧间共有频域特征的初始值。

在一个可选示例中,本公开可以利用预先设置的均匀概率分布,确定各声源的高斯混合模型中的各高斯模型的先验概率的初始值。另外,本公开可以利用预先设置的均匀概率分布,确定q

本公开通过利用随机初始化方式以及均匀概率分布来设置高斯混合模型中的多个参数的初始值,不仅简化了设置高斯混合模型中的多个参数的初始值的过程,而且,由于幅度调整因子可以适应音频信号的非平稳特点,可以避免音频信号的幅度的非平稳特性对语音分离效果的影响。因此,有利于提高语音分离技术的可实施性,从而有利于提高语音分离技术的适用范围。

在一个可选示例中,本公开中的分离矩阵可以为基于酉矩阵形式的分离矩阵,也就是说,本公开可以利用上述获得的时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得代价函数中的各频点的基于酉矩阵形式的分离矩阵。

可选的,本公开中的基于酉矩阵形式的分离矩阵可以为2×2的矩阵,该2×2的矩阵中的四个元素分别为:位于矩阵左上角的第一元素,位于矩阵右上角的第二元素,位于矩阵左下角第三元素,且第三元素为第二元素的复共轭的负值,位于矩阵右下角的第四元素,且第四元素为第一元素的复共轭。基于酉矩阵形式的分离矩阵可以表示为下述公式(13)的形式:

在上述公式(13)中,W

本公开通过采用基于酉矩阵形式的分离矩阵,有利于简化对IVA的代价函数进行期望最大化处理的过程,从而有利于提高获得分离矩阵的效率。

在一个可选示例中,本公开中的根据分离矩阵,从时频域混合信号中获得每个声源的时频域信号的过程可以包括:

首先,将多个第二时频点信号分别与相应频点的分离矩阵相乘。该相乘的结果可以认为是本公开分离出的声源的第t帧中的第f频点的初始时频域信号,本公开可以针对该初始时频域信号进行后处理,从而获得最终分离出的声源的时频域信号。本公开的相乘的过程可以采用下述公式(14)表示:

在上述公式(14)中,

其次,根据上述相乘的结果以及针对各频点的空间白化处理构造的对角矩阵,最终获得每个声源的时频域信号,本公开利用该对角矩阵,最终获得每个声源的时频域信号的过程可以称为后处理过程。本公开可以利用下述公式(15)最终获得每个声源的时频域信号:

在上述公式(15)中,

在对第一时频点信号进行空间白化处理的情况下,利用分离矩阵获得声源的时频域信号,通常会具有一个较平的频谱。本公开通过利用对角矩阵,可以使分离出的声源的时频域信号的频域特征得到恢复;另外,本公开通过利用最小失真原则构造对角矩阵,可以减小频域特征失真的现象;因此,本公开有利于提高最终分离获得的声源的时频域信号的准确性。

可选的,本公开可以对最终分离出的声源的时频域信号进行逆短时傅里叶变换,从而获得分离出的声源的时域信号。

本公开在利用随机初始化的方式,设置时变高斯混合模型中的多个参数的初始值,并利用具有初始值的时变高斯混合模型,分离出声源的时频域信号后,可以通过迭代方式,利用分离出的时频域信号,来更新时变高斯混合模型中的多个参数的取值。例如,本公开可以通过对公式(11)求导,来获得更新后的

在上述公式(16)中,d

在上述公式(17)中,d

在上述公式(18)中,T表示时频域信号的总帧数;t表示时频域信号中的第t帧;q

M

在上述公式(19)中,M

在上述公式(20)中,t表示时频域信号中的第t帧;d指代M个初步估计声源的混合状态,也可以指代第二时频混合信号所满足的高斯混合模型的第d种混合状态;q

q

在上述公式(21)中,d

在每一次迭代更新参数的过程中,本公开均可以利用上述获得的各参数以及分离出的各声源的时频域信号,计算代价函数。如果相邻两次迭代过程所计算出的代价函数的变化率达到预定收敛标准(如小于10

图5为本公开语音分离装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述各方法实施例。如图5所示,该实施例的装置包括:获取混合信号模块500、获取分离矩阵模块501以及分离处理模块502。

获取混合信号模块500用于获取待处理的时频域混合信号。

可选的,获取混合信号模块500可以基于多个音频采集装置各自对应的通道获取时域信号,得到多个时域信号,之后,获取混合信号模块500将多个时域信号中的每一个时域信号转换为基于时频域的时频点信号,得到多个第一时频点信号,然后,获取混合信号模块500将多个第一时频点信号进行空间白化处理,获得空间白化处理后的多个第二时频点信号。其中,待处理的时频域混合信号由多个第二时频点信号形成。

获取分离矩阵模块501用于根据获取混合信号模块500获取到的时频域混合信号以及包含有幅度调整因子的高斯混合模型的独立向量分析的代价函数,获得时频域混合信号的分离矩阵。

可选的,获取分离矩阵模块501可以包括:初始化子模块和获取分离矩阵子模块。其中的初始化子模块用于确定包含有幅度调整因子的高斯混合模型中的多个参数的初始值。例如,初始化子模块可以为各声源的高斯混合模型中的各高斯模型的帧间共有频域特征以及各声源的高斯混合模型中的各帧的幅度调整因子分别设置初始值。再例如,初始化子模块可以利用预先设置的均匀概率分布,确定各声源的高斯混合模型中的各高斯模型的先验概率的初始值。其中的获取分离矩阵子模块用于根据获取混合信号模块500获取的时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得时频域混合信号的分离矩阵。例如,获取分离矩阵子模块可以根据时频域混合信号,对具有初始值的高斯混合模型的独立向量分析的代价函数进行期望最大化处理,获得代价函数中的各频点的基于酉矩阵形式的分离矩阵。

分离处理模块502用于根据获取分离矩阵模块501获得的分离矩阵,从时频域混合信号中获得每个声源的时频域信号。

可选的,分离处理模块502可以将多个第二时频点信号分别与相应频点的分离矩阵相乘,并根据相乘的结果以及针对各频点的空间白化处理构造的对角矩阵,获得每个声源的时频域信号。分离处理模块502可以根据空间白化处理所使用的时频域混合信号相关矩阵和所述各频点的分离矩阵,利用最小失真准则构造各频点各自对应的对角矩阵。

下面参考图6来描述根据本公开实施例的电子设备。图6示出了根据本公开实施例的电子设备的框图。如图6所示,电子设备61包括一个或多个处理器611和存储器612。

处理器611可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备61中的其他组件以执行期望的功能。

存储器612可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器,例如,可以包括:随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器,例如,可以包括:只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器611可以运行所述程序指令,以实现上文所述的本公开的各个实施例的语音分离方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中,电子设备61还可以包括:输入装置613以及输出装置614等,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外,该输入设备613还可以包括例如键盘、鼠标等等。该输出装置614可以向外部输出各种信息。该输出设备614可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图6中仅示出了该电子设备61中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备61还可以包括任何其他适当的组件。

除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音分离方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音分离方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括:具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述,以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言,是非常显而易见的,并且在此定义的一般原理可以应用于其他方面,而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

技术分类

06120112159009