掌桥专利:专业的专利平台
掌桥专利
首页

音频信号处理方法、装置、设备、车辆以及存储介质

文献发布时间:2024-04-18 20:02:18


音频信号处理方法、装置、设备、车辆以及存储介质

技术领域

本公开涉及音频处理技术领域,具体而言,涉及一种音频信号处理方法、装置、电子设备、车辆以及存储介质。

背景技术

随着互联网和智能终端的发展,智能车辆的应用也越来越广泛,用户可以通过语音与车载终端进行交互,实现用户需求。为了提升用户交互体验,车载终端会根据在的不同区域的用户发出的语音信号,执行相应的反馈操作。例如,位于主驾驶位的用户需要打开座椅加热功能,车载终端将识别主驾驶位的用户的语音指令,并执行相应的操作,打开主驾驶座位的座椅加热功能。

为了实现这个效果,通常需要对采集的语音信号进行音区定位处理,也即,要识别出各个音区对应的目标语音信号,因此,如何提升各个音区输出语音信号的准确性,是业界一直追求的目标。

发明内容

本公开实施例至少提供一种音频信号处理方法、装置、电子设备、车辆以及存储介质,可以利用预先训练好的音频信号处理模型对多路音频信号进行回声消除处理以及音区分离处理,进而可以提升各个音区输出语音信号的准确性。

本公开实施例提供了一种音频信号处理方法,包括:

通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到多路音频信号;所述目标车内环境被划分成多个目标环境音区,每个拾音装置对应一个目标环境音区,所述音频信号包括近端语音信号以及回声信号;

获取回声参考信号,并将所述多路音频信号以及所述回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

在一种可能的实施方式中,所述音频信号处理模型通过以下步骤训练得到:

获取训练样本集,所述训练样本集包括多个训练样本子集,每个训练样本子集包括多路音频样本信号,所述多路音频样本信号对应同一车内环境,每路音频样本信号对应一个车载拾音装置,且每个车载拾音装置对应一个车内环境音区;

获取待训练的音频信号处理模型,并基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型。

在一种可能的实施方式中,所述基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型,包括:

将所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号,其中,每路预测语音信号分别对应一个车内环境音区;

基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失,并基于所述目标损失调整所述待训练的音频信号处理模型的模型参数;

重复上述步骤,直到训练结果符合预设要求,得到所述训练好的音频信号处理模型。

在一种可能的实施方式中,所述基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失,包括:

基于所述预设的损失函数分别确定每路预测语音信号与对应的样本标签之间的第一损失,并基于各个第一损失确定所述目标损失。

在一种可能的实施方式中,所述待训练的音频信号处理模型包括编码模块、映射模块以及解码模块;所述将所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号,包括:

针对每路音频样本信号,基于所述编码模块对所述音频样本信号以及与所述音频样本信号对应的样本标签分别进行特征提取,得到与所述音频样本信号对应的第一特征向量以及与所述样本标签对应的第二特征向量;

将所述第一特征向量以及所述第二特征向量输入至映射模块,以根据所述第二特征向量对所述第一特征向量进行映射处理,得到与所述第一特征向量对应的预测特征向量;

基于解码模块对各个预测特征量分别进行解码处理得到所述多路预测语音信号。

本公开实施例还提供了一种语音交互方法,应用于车辆,所述车辆内设置有多个拾音装置,所述方法包括:

获取各个目标环境音区分别对应的目标语音信号,所述目标语音信号采用上述任一所述的音频信号处理方法得到;

针对每一路目标语音信号,对所述目标语音信号进行语音识别处理得到语音识别结果;

基于所述语音识别结果,执行与对应的目标环境音区相应的反馈操作。

本公开实施例提供了一种音频信号处理装置,包括:

信号采集模块,用于通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到多路音频信号;所述目标车内环境被划分成多个目标环境音区,每个拾音装置对应一个目标环境音区,所述音频信号包括近端语音信号以及回声信号;

信号处理模块,用于获取回声参考信号,并将所述多路音频信号以及所述回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

在一种可能的实施方式中,所述信号处理模块具体用于:

获取训练样本集,所述训练样本集包括多个训练样本子集,每个训练样本子集包括多路音频样本信号,所述多路音频样本信号对应同一车内环境,每路音频样本信号对应一个车载拾音装置,且每个车载拾音装置对应一个车内环境音区;

获取待训练的音频信号处理模型,并基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型。

在一种可能的实施方式中,所述信号处理模块具体用于:

将所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号,其中,每路预测语音信号分别对应一个车内环境音区;

基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失,并基于所述目标损失调整所述待训练的音频信号处理模型的模型参数;

重复上述步骤,直到训练结果符合预设要求,得到所述训练好的音频信号处理模型。

在一种可能的实施方式中,所述信号处理模块具体用于:

基于所述预设的损失函数分别确定每路预测语音信号与对应的样本标签之间的第一损失,并基于各个第一损失确定所述目标损失。

在一种可能的实施方式中,所述待训练的音频信号处理模型包括编码模块、映射模块以及解码模块;所述信号处理模块具体用于:

针对每路音频样本信号,基于所述编码模块对所述音频样本信号以及与所述音频样本信号对应的样本标签分别进行特征提取,得到与所述音频样本信号对应的第一特征向量以及与所述样本标签对应的第二特征向量;

将所述第一特征向量以及所述第二特征向量输入至映射模块,以根据所述第二特征向量对所述第一特征向量进行映射处理,得到与所述第一特征向量对应的预测特征向量;

基于解码模块对各个预测特征量分别进行解码处理得到所述多路预测语音信号。

本公开实施例还提供了一种语音交互装置,应用于车辆,所述车辆内设置有多个拾音装置,所述装置包括:

信号获取模块,用于获取各个目标环境音区分别对应的目标语音信号,所述目标语音信号采用上述音频信号处理装置得到;

语音识别模块,用于针对每一路目标语音信号,对所述目标语音信号进行语音识别处理得到语音识别结果;

操作执行模块,用于基于所述语音识别结果,执行与对应的目标环境音区相应的反馈操作。

本公开实施例提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述任一可能的实施方式中所述的音频信号处理方法或者上述所述的语音交互方法。

本公开实施例提供了一种车辆,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述任一可能的实施方式中所述的音频信号处理方法或者上述所述的语音交互方法。

本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时实现如上述任一可能的实施方式中所述的音频信号处理方法或者上述所述的语音交互方法。

本公开实施例中所提供的音频信号处理方法、装置、电子设备、车辆以及存储介质,首先通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到包括近端语音信号以及回声信号的多路音频信号;接着获取回声参考信号,然后将多路音频信号以及回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

这样,由于训练好的音频信号处理模型是基于多路音频样本信号经有监督训练得到的,而多路音频样本信号是车内环境的人声样本信号与回声参考样本信号经混合处理后得到,因此,将多路音频信号以及所述回声参考信号输入训练好的音频信号处理模型内,不仅可以消除回声,还可以实现音区分离,进而得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号。如此,由于目标语音信号中的回声被滤除了,可以提升语音识别的精度,此外,模型输出的多路目标语音信号是与各个目标环境音区对应的,因此,可以提升各个音区输出语音信号的准确性,进而提升了位于车内环境中不同目标环境音区的用户的语音交互的准确性,从而提升用户体验。

为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要引用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种音频信号处理方法的流程图;

图2示出了本公开实施例所提供的一种多个拾音装置在车辆环境中不同环境音区的分布示意图;

图3示出了本公开实施例所提供的一种音频信号处理方法的过程示意图;

图4示出了本公开实施例所提供的一种音频信号处理模型的训练方法的流程图;

图5示出了本公开实施例所提供的一种基于训练样本子集对音频信号处理模型进行训练的方法流程图;

图6示出了本公开实施例所提供的一种音频信号处理模型的结构示意图;

图7示出了本公开实施例所提供的一种语音交互方法的流程图;

图8示出了本公开实施例所提供的一种音频信号处理装置的结构示意图;

图9示出了本公开实施例所提供的一种语音交互装置的结构示意图;

图10示出了本公开实施例所提供的一种电子设备的结构示意图;

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

随着互联网和智能终端的不断发展,智能汽车应用日益普及,用户可以通过语音与车载终端进行交互,实现用户需求。为了提高用户的交互体验,车载终端能够根据位于车内不同区域的用户发出的语音信号执行相应的操作。为了实现该操作,通常需要对采集的语音信号进行音区定位处理,也即,要识别出各个音区对应的目标语音信号。

本公开实施例提供了一种音频信号处理方法,首先通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到包括近端语音信号以及回声信号的多路音频信号;所述目标车内环境被划分成多个目标环境音区,每个拾音装置对应一个目标环境音区;接着获取回声参考信号,然后将多路音频信号以及回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

本公开实施例中,由于训练好的音频信号处理模型是基于多路音频样本信号经有监督训练得到的,而多路音频样本信号是车内环境的人声样本信号与回声参考样本信号经混合处理后得到,因此,将多路音频信号以及所述回声参考信号输入训练好的音频信号处理模型内,不仅可以消除回声,还可以实现音区分离,进而得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号。这样,由于目标语音信号中的回声被滤除了,可以提升语音识别的精度,此外,模型输出的多路目标语音信号是与各个目标环境音区对应的,因此,可以提升各个音区输出语音信号的准确性,进而提升了位于车内环境中不同目标环境音区的用户的语音交互的准确性,从而提升用户体验。

为便于对本实施例进行理解,首先对本公开实施例所提供的音频信号处理方法的执行主体进行详细介绍。本公开实施例所提供的音频信号处理方法的执行主体为电子设备。该电子设备可以终端设备或者服务器。其中,该终端设备还可以为移动设备、用户终端、终端、手持设备、计算设备、车载设备、可穿戴设备等。该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云存储、大数据和人工智能平台等基础云计算服务的云服务器。可选的,该方法还可应用于由电子设备和服务器所组成的实施环境。

在一些实施方式中,本公开实施例所提供的音频信号处理方法的执行主体还可以为车辆。所述车辆包括但不限于轿车、客车、货车及牵引车等,在此不做限定。其中,轿车、客车和货车等又可统称为汽车。

在其他实施方式中,该方法还可应用于由车辆和服务器所组成的实施环境。此外,该音频信号处理方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面结合附图对本申请实施例所提供的音频信号处理方法进行详细说明。参见图1所示,为本公开实施例提供的一种音频信号处理方法的流程图,该音频信号处理方法包括以下S101~S102:

S101,通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到多路音频信号;所述目标车内环境被划分成多个目标环境音区,每个拾音装置对应一个目标环境音区,所述音频信号包括近端语音信号以及回声信号。

其中,所述目标车内环境是是指任一车辆的车内座舱环境,所述车内座舱包括主驾驶座位、副驾驶座位以及后排座位,所述车辆配备了多个拾音装置,目标车内环境被划分成了多个目标环境音区,所述多个拾音装置设置于车辆内部,且分布于不同的目标环境音区中,如此,可以采集到位于不同车内区域的音频信号,提高了对声音信号采集的全面性。具体地,参见图2所示,以图2所示车辆P为例,所述车辆P的目标车内环境被划分成四个不同的目标环境音区A、B、C、D。通常情况下,在所述目标环境音区中会布设不同数量的拾音装置,在一些实施例中,一个目标环境音区会对应多个所述拾音装置。例如,在所述车辆P的主驾驶位、副驾驶位以及后排座位分别布设了拾音装置A1、A2、B1、B2、C1、C2以及D1、D2,所述拾音装置A1、A2对应目标音区A,拾音装置B1、B2对应目标音区B,拾音装置C1、C2和D1、D2也是如此,不再赘述。在一些其它实施例中,一个所述目标环境音区对应一个拾音装置,在此不做具体限定。通过所述拾音装置A1、A2、B1、B2、C1、C2以及D1、D2对车辆内部环境的声音信号进行采集,每个拾音装置对所述车辆内部环境的声音信号进行采集时均会采集一路音频信号,进而可以得到所述车辆内部环境中的多路音频信号。

可以理解的是,所述拾音装置是用于采集音频信号的装置,本公开实施例中,拾音装置为麦克风,其他实施例中,拾音装置还可以为其他声音传感器。通过多个拾音装置对目标车内环境的声音信号进行采集,采集到多路音频信号,每路音频信号包括近端语音信号以及回声信号,所述近端语音信号是指在目标车内环境中的用户的语音信号;所述回声信号是指在目标车内环境中从扬声器中播放的音频信号与周围环境中的物体或界面相互作用,反射到麦克风上的信号,可以包括从扬声器中播放出来的各种音频信号(音乐、导航语音以及有声读物等)。比如,用户位于一辆车的副驾驶位,车内扬声器正在播放音乐,坐在副驾驶的用户发出语音信号,车内的各个音区的拾音装置均会接收到一路音频信号,所述拾音装置接收到的音频信号中包括车内扬声器正在播放的音乐经过反射后传输到拾音装置形成的回声信号以及用户的语音信号。

S102,获取回声参考信号,并将所述多路音频信号以及所述回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

这里,所述回声参考信号是指所述回声信号的音源信号,即所述音源信号从扬声器播放经过反射或其它情况被拾音装置采集成为回声信号。在获得回声参考信号之后,可以基于所述训练好的音频信号处理模型对所述多路音频信号以及所述回声参考信号进行处理,即可得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号。关于所述音频信号处理模型的训练方法,将在后文进行详细阐述。

示例性地,参见图3所示,从拾音装置0、1、···、N采集的所述多路音频信号与回声参考信号Q一同输入到所述训练好的音频信号处理模型中,然后分别输出与目标环境音区0、1、···、M对应的多路目标语音信号,所述各个目标环境音区对应的目标语音信号可以不止一路。这里,所述车内的拾音装置N与所述目标环境音区M的数量可以不同,比如,拾音装置N的数量可以是2个、4个或8个,所示目标环境音区M的数量可以是1个、2个或4个,通常情况下,所述目标环境音区M的数量小于所述拾音装置N的数量。在一些其它实施例中,所述车内的拾音装置N与所述目标车内环境的目标环境音区M具有一一对应的关系,即一个车内的目标环境音区对应一个车内拾音装置。

在本公开实施例中,由于训练好的音频信号处理模型是基于多路音频样本信号经有监督训练得到的,而多路音频样本信号是车内环境的人声样本信号与回声参考样本信号经混合处理后得到,因此,将多路音频信号以及所述回声参考信号输入训练好的音频信号处理模型内,不仅可以消除回声,还可以实现音区分离,进而得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号。如此,由于目标语音信号中的回声被滤除了,可以提升语音识别的精度,此外,模型输出的多路目标语音信号是与各个目标环境音区对应的,可以提升各个音区输出语音信号的准确性,进而提升了位于车内环境中不同目标环境音区的用户的语音交互的准确性,从而提升用户体验。

下面对上述音频信号处理模型的训练方法进行详细说明,参见图4所示,为本公开实施例提供的一种音频信号处理模型的训练方法的流程图,该音频信号处理模型的训练方法包括以下S401~S402:

S401,获取训练样本集,所述训练样本集包括多个训练样本子集,每个训练样本子集包括多路音频样本信号,所述多路音频样本信号对应同一车内环境,每路音频样本信号对应一个车载拾音装置,且每个车载拾音装置对应一个车内环境音区。

可以理解的是,所述训练样本集是针对多个车型分别进行音频样本信号采集得到的训练样本集合,在采集所述训练样本集合时,可以针对一个车型的不同车辆的声音信号进行采集得到多路音频样本信号,也可以针对不同的车型分别进行训练样本采集。训练样本集包括了多个训练样本子集,所述训练样本子集表示属于同一车辆中多个车载拾音装置采集到的多路音频样本信号。这里,所述多路音频样本信号是第一音频样本信号与回声参考样本信号经过预设混合比例进行混合处理后得到,所述第一音频样本信号为车内环境的人声样本信号。其中,在同一车辆中的不同环境音区的所述预设混合比例可以相同。在另一些实施例中,所述预设混合比例可以根据车内环境音区的不同而进行相应调整。

S402,获取待训练的音频信号处理模型,并基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型。

其中,这里音频信号处理模型可以包括但不限于长短时记忆神经网络、卷积神经网络或循环神经网络等神经网络模型等。在获取待训练的音频信号处理模型后,基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练得到所述训练好的音频信号处理模型。

参见图5所示,在基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型时,可以包括以下S4021~S4025:

S4021,将所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号,其中,每路预测语音信号分别对应一个车内环境音区。

这里,所述多路预测语音信号是指所述训练样本子集的多路音频样本信号经过所述待训练的音频信号处理模型处理后得到的结果。在一些实施例中,参见图6所示,所述待训练的音频信号处理模型包括编码模块、映射模块以及解码模块;在所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号时,可以包括以下(a)~(c):

(a)针对每路音频样本信号,基于所述编码模块对所述音频样本信号以及与所述音频样本信号对应的样本标签分别进行特征提取,得到与所述音频样本信号对应的第一特征向量以及与所述样本标签对应的第二特征向量;

(b)将所述第一特征向量以及所述第二特征向量输入至映射模块,以根据所述第二特征向量对所述第一特征向量进行映射处理,得到与所述第一特征向量对应的预测特征向量;

(c)基于解码模块对各个预测特征量分别进行解码处理得到所述多路预测语音信号。

可以理解的是,在所述训练样本子集输入至所述待训练的音频信号处理模型后,首先将所述每路音频样本信号M输入至所述音频信号处理模型中的编码模块中,基于所述编码模块对所述音频样本信号M以及与所述音频样本信号对应的样本标签N分别进行分帧、加窗处理,并通过傅里叶变换将所述音频样本信号M以及与所述音频样本信号对应的样本标签N的时域信号转换成频域特征,得到与所述音频样本信号M对应的第一特征向量M’以及与所述样本标签N对应的第二特征向量N’,所述第一特征向量M’是所述音频样本信号M的声学特征向量,所述第二特征向量N’是与所述音频样本信号M对应的样本标签N的声学特征向量,所述声学特征向量具体可以包括幅度谱、频率谱以及短时能量等特征。这里,所述样本标签N是与所述音频样本信号M对应的环境音区的纯净人声信号。如此,可以确保在模型处理过程中运用的是所述音频样本信号M以及所述样本标签N的频域信号。

然后将所述第一特征向量M’以及所述第二特征向量N’输入至映射模块,以根据所述第二特征向量N’的幅度谱对所述第一特征向量M’进行映射处理,得到与所述第一特征向量M’对应的预测特征向量O。这里,所述映射处理可以包括但不限于主成分分析、独立成分分析以及多维缩放等映射方法。在一些其它实施例中,所述映射处理方法还可以包括自编码器或小波变换等映射方式。这样,由于所述预测特征向量O是第一特征向量M’根据所述第二特征向量N’基于映射方法得到,可以提升音区分离的准确性,进而提升音区定位的准确性。

最后,由于在所述音频信号处理模型的编码模块中将所述音频样本信号M由时域信号转换成了频域信号(第一特征向量M’),因此,在所述音频信号处理模型的解码模块中需要对每一路的所述预测特征向量O进行解码处理,即将每一路的所述预测特征向量O经过逆傅里叶变换得到得到时域的所述多路预测语音信号T。

S4022,基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失。

所述损失函数用于衡量模型的预测结果与真实目标之间的差异,本实施例中所述损失函数是均方误差损失函数。在一些其它实施例中,所述损失函数还可以包括但不限于交叉熵损失函数以及对数损失函数等。具体地,在基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失时,需要基于所述预设的损失函数分别确定每路预测语音信号与对应的样本标签之间的第一损失,并基于各个第一损失确定所述目标损失。这样,在训练模型过程中,对所述音频信号处理模型的调整是基于整个模型的目标损失进行调整的,而不是基于单个第一损失进行调整,提高了模型的性能以及训练模型的效率。

S4023,判断训练结果是否符合预设要求;若是,执行步骤S4025,若否,执行步骤S4024。

这里,所述预设要求包括两种情况,一种情况是所述音频信号处理模型的训练次数达到预设次数;一种情况是上述步骤S4022中预设的损失函数计算的所述目标损失达到预设数值。

S4024,基于所述目标损失调整所述待训练的音频信号处理模型的模型参数。

在所述训练结果不符合预设要求的情况下,需要基于所述目标损失对所述待训练的音频信号处理模型进行参数的调整,具体地,可以根据目标损失调整所述待训练的音频信号处理模型的学习率、层数以及神经元数目等参数。在对待训练的音频信号处理模型进行参数的调整后,再次执行上述步骤S4021,直至训练结果符合预设要求。

S4025,得到所述训练好的音频信号处理模型。

在所述训练结果符合预设要求的情况下,得到所述训练好的音频信号处理模型。

在一些实施例中,本公开实施例还提供一种语音交互方法,下面结合附图对本申请实施例所提供的语音交互方法进行详细说明。参见图7所示,为本公开实施例提供的一种语音交互方法的流程图,该语音交互方法包括以下S701~S703:

S701,获取各个目标环境音区分别对应的目标语音信号,所述目标语音信号采用上述任一所述的音频信号处理方法得到;

S702,针对每一路目标语音信号,对所述目标语音信号进行语音识别处理得到语音识别结果;

S703,基于所述语音识别结果,执行与对应的目标环境音区相应的反馈操作。

在得到所述目标语音信号后,即可对每一路所述目标语音信号进行语音识别,并基于所述语音识别结果,执行与对应的目标环境音区相应的反馈操作。示例性地,请再次参加图2,所述反馈操作可以包括用户与车机系统的语音反馈操作,例如车辆P的主驾驶目标环境音区B和副驾驶目标环境音区A分别配备了两个车机系统,当主驾驶座位的用户向车机系统发出查询天气情况的语音信号,与此同时,副驾驶座位的用户向车机系统发出查询导航的语音信号,车机系统通过对两个位于不同目标环境音区的目标语音信号进行语音识别后,在主驾驶座位的车机系统以语音形式向主驾驶目标环境音区B的用户反馈天气情况的同时,副驾驶座位的车机系统向副驾驶目标环境音区A的用户反馈导航信息;所述反馈操作还可以包括动作执行操作,例如位于主驾驶目标环境音区B的用户向车机系统提出调整座椅或打开窗户的需求,车机系统通过对位于主驾驶目标环境音区B的目标语音信号进行语音识别后,基于语音识别结果,执行与所述主驾驶目标环境音区B对应的操作以满足用户需求。在一些其他实施例中,所述反馈操作还可以是文本反馈操作等,在此不做具体限定。

本公开实施例中,由于目标语音信号是通过上述任一所述的音频信号处理方法得到的,提升了目标语音信号的音区定位的准确性,进而针对语音识别结果执行相应目标环境音区的反馈操作也会更加准确,提高了人机语音交互质量,如此,有利于提升用户体验。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思,本公开实施例中还提供了与音频信号处理方法对应的音频信号处理装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述音频信号处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。

参照图8所示,为本公开实施例提供的一种音频信号处理装置800的示意图,所述装置包括:

信号采集模块801,用于通过多个车载拾音装置分别对目标车内环境的声音信号进行采集,得到多路音频信号;所述目标车内环境被划分成多个目标环境音区,每个拾音装置对应一个目标环境音区,所述音频信号包括近端语音信号以及回声信号;

信号处理模块802,用于获取回声参考信号,并将所述多路音频信号以及所述回声参考信号输入至训练好的音频信号处理模型中,得到分别与各个目标环境音区对应的滤除所述回声信号的多路目标语音信号;所述音频信号处理模型基于所述多路音频样本信号经有监督训练得到;所述音频样本信号为第一音频样本信号与回声参考样本信号经混合处理后得到;所述第一音频样本信号为车内环境的人声样本信号,每路音频样本信号对应的样本标签为与所述音频样本信号对应的环境音区的纯净人声信号。

在一种可能的实施方式中,所述信号处理模块802具体用于:

获取训练样本集,所述训练样本集包括多个训练样本子集,每个训练样本子集包括多路音频样本信号,所述多路音频样本信号对应同一车内环境,每路音频样本信号对应一个车载拾音装置,且每个车载拾音装置对应一个车内环境音区;

获取待训练的音频信号处理模型,并基于所述训练样本集对所述待训练的音频信号处理模型进行有监督训练,得到所述训练好的音频信号处理模型。

在一种可能的实施方式中,所述信号处理模块802具体用于:

将所述训练样本子集输入至所述待训练的音频信号处理模型,得到与所述训练样本子集对应的多路预测语音信号,其中,每路预测语音信号分别对应一个车内环境音区;

基于预设的损失函数确定所述多路预测语音信号与所述多路音频样本信号对应的样本标签之间的目标损失,并基于所述目标损失调整所述待训练的音频信号处理模型的模型参数;

重复上述步骤,直到训练结果符合预设要求,得到所述训练好的音频信号处理模型。

在一种可能的实施方式中,所述信号处理模块802具体用于:

基于所述预设的损失函数分别确定每路预测语音信号与对应的样本标签之间的第一损失,并基于各个第一损失确定所述目标损失。

在一种可能的实施方式中,所述待训练的音频信号处理模型包括编码模块、映射模块以及解码模块;所述信号处理模块802具体用于:

针对每路音频样本信号,基于所述编码模块对所述音频样本信号以及与所述音频样本信号对应的样本标签分别进行特征提取,得到与所述音频样本信号对应的第一特征向量以及与所述样本标签对应的第二特征向量;

将所述第一特征向量以及所述第二特征向量输入至映射模块,以根据所述第二特征向量对所述第一特征向量进行映射处理,得到与所述第一特征向量对应的预测特征向量;

基于解码模块对各个预测特征量分别进行解码处理得到所述多路预测语音信号。

同理,基于同一发明构思,本公开实施例中还提供了与语音交互方法对应的语音交互装置,参照图9所示,为本公开实施例提供的一种语音交互装置900的示意图,所述装置包括:

信号获取模块901,用于获取各个目标环境音区分别对应的目标语音信号,所述目标语音信号采用上述音频信号处理装置得到;

语音识别模块902,用于针对每一路目标语音信号,对所述目标语音信号进行语音识别处理得到语音识别结果;

操作执行模块903,基于所述语音识别结果,执行与对应的目标环境音区相应的反馈操作。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。

基于同一技术构思,本公开实施例还提供了一种电子设备。参照图10所示,为本公开实施例提供的电子设备1000的结构示意图,包括处理器1001、存储器1002、和总线1003。其中,存储器1002用于存储执行指令,包括内存10021和外部存储器10022;这里的内存10021也称内存储器,用于暂时存放处理器1001中的运算数据,以及与硬盘等外部存储器10022交换的数据,处理器1001通过内存10021与外部存储器10022进行数据交换。

本申请实施例中,存储器1002具体用于存储执行本申请方案的应用程序代码,并由处理器1001来控制执行。也即,当电子设备1000运行时,处理器1001与存储器1002之间通过总线1003通信,使得处理器1001执行存储器1002中存储的应用程序代码,进而执行前述任一实施例中所述的方法。

其中,存储器1002可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。

处理器1001可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP,Digital Signal Processing)、专用集成电路(ASIC,Application Specific Integrated Circuit)、现场可编程门阵列(FPGA,Field Programmable Gate Array)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

可以理解的是,本申请实施例示意的结构并不构成对电子设备1000的具体限定。在本申请另一些实施例中,电子设备1000可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。

本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的音频信号处理方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的音频信号处理方法的步骤,具体可参见上述方法实施例,在此不再赘述。

其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

技术分类

06120116576379