导航：首页> 工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热>语音分离方法及模型产品、电子设备及计算机存储介质

语音分离方法及模型产品、电子设备及计算机存储介质

文献发布时间：2024-01-17 01:19:37

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种语音分离方法、语音分离模型产品、电子设备及计算机存储介质。

背景技术

语音分离是将目标语音从具有干扰的背景语音中分离出来的一种技术，目前，较为常用的是基于单通道的语音分离技术。但在混有噪声和混响的复杂场景下，基于单通道的语音分离算法很难达到理想的语音分离性能需求，附加的降噪和去混响任务严重影响单通道语音分离算法的表现，使原本在纯净语音分离任务上有较好表现的单通道语音分离算法，在面对混有噪声和混响的语音分离任务时出现明显的分离能力下降，无法有效进行语音分离。

为此，多通道语音分离算法应运而生。在一种常用的多通道语音分离算法中，通过声源定位方法来进行多通道语音中的目标语音分离。例如，较为常用的基于波束形成的声源定位方法。该方法中，将麦克风阵列中各个传感器所采集到的信号进行滤波、加权叠加后形成波束，扫描整个声音接收空间，对一个平面的声压分布进行成像可视化。进而，结合声源定位的结果，确定出目标语音。但是，由于多通道中噪声和混响的影响，包括波束形成在内的声源定位算法往往产生较大的定位误差，造成多通道语音分离的分离性能较差。

发明内容

有鉴于此，本申请实施例提供一种语音分离方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种语音分离方法，包括：获取待进行语音分离的多通道语音数据，所述多通道语音数据中携带有多个说话人的语音的到达时间差的信息；对携带有所述到达时间差的信息的所述多通道语音数据进行特征提取，获得对应的多通道语音特征序列；对所述多通道语音特征序列进行基于门控的联合注意力处理，获得所述多个说话人分别对应的说话人语音特征序列；基于所述说话人语音特征序列，进行语音分离。

根据本申请实施例的第二方面，提供了另一种语音分离方法，包括：获取会议语音数据，其中，所述会议语音数据为携带有多个说话人的语音的到达时间差的信息的多通道语音数据；对携带有所述到达时间差的信息的所述多通道语音数据进行特征提取，获得对应的多通道语音特征序列；对所述多通道语音特征序列进行基于门控的联合注意力处理，获得所述多个说话人分别对应的说话人语音特征序列；基于所述说话人语音特征序列，进行语音分离，获得所述多个说话人分别对应的会议语音数据。

根据本申请实施例的第三方面，提供了一种语音分离模型产品，包括：编码器、分离器和解码器；其中：所述编码器，用于对携带有多个说话人的语音的到达时间差的信息的多通道语音数据进行特征提取，获得对应的多通道语音特征序列；所述分离器，用于对所述多通道语音特征序列进行基于门控的联合注意力处理，获得所述多个说话人分别对应的说话人语音特征序列；所述解码器，用于基于所述说话人语音特征序列，进行语音分离。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面或第二方面所述方法对应的操作。

根据本申请实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面或第二方面所述的方法。

根据本申请实施例的第五方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令指示计算设备执行如第一方面或第二方面所述方法对应的操作。

根据本申请实施例提供的方案，针对具有噪声和混响的多通道语音，一方面，在多通道语音数据中携带说话人的语音到达时间差的信息，以能够对不同说话人的说话位置进行准确定位；另一方面，基于具有到达时间差的信息的多通道语音数据，对其对应的多通道语音特征序列进行基于门控的联合注意力处理，从而使得在获得单个说话人的说话人语音特征序列时，能够充分考虑单个说话人的局部特征信息及其在整个语音中的全局特征信息，使得获得的针对该单个说话人的特征表达(即该单个说话人的说话人语音特征序列)也更为准确；再一方面，在获得了多个说话人分别对应的说话人语音特征序列后，相较于相关技术中需要结合编码器的输出来进行解码以进行语音分离的方式，本申请实施例的方案中，不再需要编码器的输出，而是基于说话人语音特征序列直接进行解码，以实现语音分离。通过上述方式，本申请实施例的方案不仅针对多通道语音数据的语音分离效果更好，且实现也更为简单，降低了方案实现成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例方案的示例性系统的示意图；

图2A为根据本申请实施例一的一种语音分离方法的步骤流程图；

图2B为图2A所示实施例中的一种基于语音分离模型进行语音分离的示例性过程示意图；

图2C为图2A所示实施例的一种场景示例图；

图3A为根据本申请实施例二的一种语音分离模型产品的结构框图；

图3B为图3A所示实施例中的一种语音分离模型产品的结构示意图；

图3C为图3B所示语音分离模型产品中的基于门控的联合注意力处理模块的结构示意图；

图3D为图3以所示基于门控的联合注意力处理模块中的卷积模块的结构示意图；

图4为根据本申请实施例三的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1示出了一种适用本申请实施例的语音分离方案的示例性系统。如图1所示，该系统100可以包括云服务端102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。

云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备，包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中，云服务端102可以执行任何适当的功能。例如，在一些实施例中，云服务端102可以用于基于用户设备106发送来的多通道语音数据进行语音分离处理。作为可选的示例，在一些实施例中，云服务端102在接收到用户设备106发送来的原始语音数据后，将其处理为待进行语音分离的、且携带有多个说话人的语音的到达时间差的信息的多通道语音数据；接着，对该多通道语音数据进行特征提取，获得对应的多通道语音特征序列；进而，对该多通道语音特征序列进行基于门控的联合注意力处理，得到多个说话人分别对应的说话人语音特征序列；然后，基于说话人语音特征序列，进行语音分离；再将语音分离的结果发送回用户设备106。作为另一示例，在一些实施例中，云服务端102中设置有语音分离模型，云服务端102可以通过该语音分离模型执行上述语音分离任务。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(Wide Area Network，WAN)、局域网(Local Area Network,LAN)、无线网络、数字订户线路(Digital Subscriber Line，DSL)网络、帧中继网络、异步转移模式(AsynchronousTransfer Mode,ATM)网络、虚拟专用网(Virtual Private Network，VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到云服务端102。通信链路可以是适合于在用户设备106和云服务端102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于与用户交互并接收用户的语音数据的任何一个或多个用户设备。在一些实施例中，用户设备106可以将接收的原始多通道语音数据发送给云服务端102，由云服务端102进行上述语音分离处理。作为另一示例，在一些实施例中，用户设备106还可以将原始多通道语音数据处理为上述待进行语音分离的多通道语音数据后，将该多通道语音数据发送给云服务端102，由云服务端102进行语音分离处理。但不限于此，若用户设备106具有较高的软、硬件性能，则可在用户设备106本地执行语音分离。此种情况下，由用户设备106自身来对原始的语音数据进行处理，以获得待进行语音分离的多通道语音数据；再对该多通道语音数据进行特征提取，获得对应的多通道语音特征序列；进而，对该多通道语音特征序列进行基于门控的联合注意力处理，得到多个说话人分别对应的说话人语音特征序列；然后，基于说话人语音特征序列，进行语音分离，获得语音分离结果。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。

基于上述系统，本申请实施例提供了一种语音分离方案，以下通过多个实施例进行说明。

实施例一

参照图2A，示出了根据本申请实施例一的一种语音分离方法的步骤流程图。

本实施例的语音分离方法包括以下步骤：

步骤S202：获取待进行语音分离的多通道语音数据。

多通道语音数据意指基于多个麦克风语音装置进行语音信号采集获得的语音数据，本申请实施例中，多通道语音数据中携带有多个说话人的语音的TDOA(TimeDifference Of Arrival，到达时间差)的信息。TDOA用于表征不同语音信号到达麦克风语音装置的时间差，在有多个说话人时，通过该时间差可提供在语音帧中的说话人位置信息。

需要说明的是，本申请实施例中，若无特殊说明，“多个”、“多种”、“多通道”等与“多”有关的数量，均意指两个及两个以上。

在一种可行方式中，本步骤可以实现为：获取原始的多个通道的语音数据；对该多个通道的语音数据进行叠加，获得待进行语音分离的多通道语音数据。与传统方式中，通过从横向方向上将多个通道的语音数据进行拼接，形成多通道语音数据不同，本申请实施例中，从纵向方向上对多个通道的语音数据进行叠加，从而形成多通道语音数据。示例性地，假设有4个通道的语音数据A、B、C和D，采用传统方式形成的多通道语音数据形如：A-B-C-D；而采用本申请实施例的叠加方式形成的多通道语音数据形如：

又因在实际应用中，一次处理的语音数据的数量可能有限，不能将原始的语音数据，尤其是长语音数据一次性处理完，则在此情况下，可将多个通道的原始语音数据对齐后，按照所能处理的语音数据的长度进行切分，再对对应于相同时间段的多个通道的语音数据进行叠加，获得待进行语音分离的多通道语音数据。

此外，可选地，当使用语音分离模型执行语音分离任务时，可按照语音分离模型的输入维度，如，需输入语音分离模型中的编码器的输入维度，对多个通道的语音数据进行叠加，以获得待进行语音分离的多通道语音数据。进而，可将该多通道语音数据输入语音分离模型，如语音分离模型的编码器中，以进行处理。按照语音分离模型的输入维度来对多个通道的语音数据进行叠加，可以使得获得的多通道语音数据的维度与语音分离模型的输入相匹配，更便于语音分离模型的处理。

步骤S204：对携带有到达时间差的信息的多通道语音数据进行特征提取，获得对应的多通道语音特征序列。

本步骤中，可以采用任意适当的方式对多通道语音数据进行特征提取，包括但不限于卷积的方式。因多通道语音数据中携带有不同说话人的语音的到达时间差的信息，因此，进行特征提取后获得的多通道语音特征序列中同样携带有该信息，以表征不同说话人的语音在该特征序列中的位置。

在一种可行方式中，本实施例的语音分离方法可由语音分离模型实现，该语音分离模型包括编码器、分离器和解码器。其中，编码器用于对携带有多个说话人的语音的到达时间差的信息的多通道语音数据进行特征提取，获得对应的多通道语音特征序列；分离器用于对多通道语音特征序列进行基于门控的联合注意力处理，获得多个说话人分别对应的说话人语音特征序列；解码器用于基于说话人语音特征序列，进行语音分离。

基于此，一种基于上述语音分离模型进行语音分离的示例性过程如图2B所示，由图2B可见，多通道语音数据会输入该语音分离模型的编码器，再由编码器实现本步骤的对多通道语音数据的特征提取。通过该编码器，可将多通道语音数据编码成包含不同说话人的语音特征的特征序列，以作为进行语音分离任务的数字表达形式。

步骤S206：对多通道语音特征序列进行基于门控的联合注意力处理，获得多个说话人分别对应的说话人语音特征序列。

本申请实施例中，联合注意力处理意指在对多通道语音特征序列进行注意力处理时，不仅关注某个说话人对应的特征部分，而且关注该说话人对应的特征部分与多通道语音特征序列整体间的关系。而门控机制的加入，可以更好地捕获序列上特征间的依赖关系。

其中，如前所述，通过语音的到达时间差的信息，可以表征不同说话人对应于多通道语音特征序列中的位置，以此为依据，对多通道语音特征序列进行基于门控的联合注意力处理，获得的处理结果对应的特征序列中，不同的说话人可对应至不同的特征序列部分。

因语音分离的目标是分离出不同说话人对应的语音数据，因此，在一种可行方式中，本步骤可以实现为：对多通道语音特征序列进行基于门控的联合注意力处理，获得注意力特征序列；按照多个说话人的数目，对注意力特征序列进行扩展，获得多个说话人分别对应的说话人语音特征序列。示例性地，假设注意力特征序列的序列维度为

其中，在一种可行方式中，对多通道语音特征序列进行基于门控的联合注意力处理，获得注意力特征序列可以实现为：通过注意力计算，对多通道语音特征序列进行基于门控的多通道语音数据的局部特征提取和全局特征提取；基于局部特征提取的结果和全局特征提取的结果，获得混合的注意力特征序列。其中，局部特征提取和全局特征提取均通过注意力计算实现。局部特征提取以到达时间差标示的某个说话人的语音位置的语音特征为依据，以多通道语音特征序列中的其它语音特征为辅助，重点对该部分语音特征进行注意力计算，即局部特征提取；全局特征提取以多通道语音特征序列中的语音特征整体为依据，对多通道语音特征序列进行注意力计算，即全局特征提取。进而，基于这两部分特征提取的结果，即可获得由该两部分特征提取的结果形成的混合的注意力特征序列。通过这种方式，既能使得针对说话人的特征提取更有针对性，又在针对说话人进行特征提取时充分考虑了全局信息，从而从整体上提升了提取出的特征的准确度。

在获得了注意力特征序列后，如前所述，还需对注意力特征序列进行扩展，以便于后续处理。在一种可行方式中，在获得了注意力特征序列后，可以按照多个说话人的数目，对注意力特征序列进行扩展，获得对应的多个注意力特征序列；对多个注意力特征序列分别进行特征提取，并对特征提取后获得的对应的多个特征序列进行门控处理；基于门控处理结果，获得多个说话人分别对应的说话人语音特征序列。对多个注意力特征序列分别进行特征提取，可以进一步提取到更具代表性的说话人语音特征；再基于这些更具代表性的说话人语音特征进行门控处理，可有效建模各说话人语音特征间的关系，使得后续更容易进行语音分离。

当采用前述语音分离模型实现语音分离时，如图2B所示，本步骤可由语音分离模型的分离器实现。该分离器通过上述处理，对多通道语音特征序列进行分离建模，完成从多通道语音特征序列到不同说话人的说话人语音特征序列的映射。

步骤S208：基于说话人语音特征序列，进行语音分离。

在一种可行方式中，可以通过对不同说话人对应的说话人语音特征序列分别进行解码；基于说话人语音特征序列的解码结果，进行多通道语音数据的语音分离。通过对不同说话人对应的说话人语音特征序列进行解码，可以输出不同说话人对应的语音数据，有效实现语音分离。

当采用前述语音分离模型实现语音分离时，如图2B所示，本步骤可由语音分离模型的解码器实现。解码器基于分离器输出的各个说话人所对应的单独的说话人语音特征序列进行解码，以实现语音重建，输出不同说话人的语音数据，并且，在此过程中，解码器的参数会在不同说话人的说话人语音特征序列的解码过程中共享，以提高解码速度和效率，进而提高语音分离的速度和效率。

并且，本申请实施例中，在对说话人语音特征序列进行解码时，无需再结合编码器输出的特征序列，而是依据分离器的输出直接进行解码和语音分离操作。因分离器输出的不同说话人的说话人语音特征序列已能够充分表征当前说话人的特征，为避免引入其它特征对当前说话人的特征的干扰，获得更好的多通道语音数据的语音分离效果，因此，本申请实施例的方案中，直接基于分离器的输出进行解码，实现语音分离。

以下，以一个会议场景为示例，对上述过程进行示例性说明。

在会议场景中，通常有多个会议参与人，也即多个说话人，并且，会议所在的物理场景中还多有噪声和混响。本示例中，假设通过多个麦克风装置采集会议音频，以形成原始的多个通道的语音数据，本示例中也称为会议语音数据。此外，采集会议音频时，还会同步生成相应的不同说话人的语音的到达时间差的信息。进而，该携带到达时间差的信息的会议语音数据可被发送至后台进行语音分离处理。示例性地，可发送至后台的语音分离设备，如语音分离终端或者语音分离服务器或云端等，进行语音分离处理。

示例性地，如图2C所示，语音分离设备在接收到该会议语音数据后，会将其处理为待进行语音分离的多通道语音数据。例如，对会议语音数据中包含的多个通道的语音数据进行对齐后，再进行叠加，以获得待进行语音分离的多通道语音数据。并且，该多通道语音数据中也携带有多个说话人的语音的到达时间差的信息。

进而，该语音分离设备会通过如图2B中所示的语音分离模型，先通过其编码器对携带有到达时间差的信息的多通道语音数据进行特征提取，获得对应的多通道语音特征序列；再通过其分离器对多通道语音特征序列进行基于门控的联合注意力处理，获得多个说话人分别对应的说话人语音特征序列；然后，通过解码器基于说话人语音特征序列，进行语音分离，获得多个说话人分别对应的会议语音数据。其中，语音分离模型的上述操作的具体实现可参照本实施例中的上述过程描述，在此不再赘述。

在获得了语音分离结果后，还可以根据多个说话人分别对应的会议语音数据，生成多个说话人分别对应的会议记录文本。例如，可采用语音识别方式，将语音数据识别生成文本数据。

由此，极大地方便了会议记录，提高了会议记录效率，节省了会议记录成本。

由上可见，通过本实施例，针对具有噪声和混响的多通道语音，一方面，在多通道语音数据中携带说话人的语音到达时间差的信息，以能够对不同说话人的说话位置进行准确定位；另一方面，基于具有到达时间差的信息的多通道语音数据，对其对应的多通道语音特征序列进行基于门控的联合注意力处理，从而使得在获得单个说话人的说话人语音特征序列时，能够充分考虑单个说话人的局部特征信息及其在整个语音中的全局特征信息，使得获得的针对该单个说话人的特征表达(即该单个说话人的说话人语音特征序列)也更为准确；再一方面，在获得了多个说话人分别对应的说话人语音特征序列后，相较于相关技术中需要结合编码器的输出来进行解码以进行语音分离的方式，本申请实施例的方案中，不再需要编码器的输出，而是基于说话人语音特征序列直接进行解码，以实现语音分离。通过上述方式，本申请实施例的方案不仅针对多通道语音数据的语音分离效果更好，且实现也更为简单，降低了方案实现成本。

以下，结合一种语音分离模型的具体实现，对本申请实施例提供的语音分离方案进行说明。

实施例二

参照图3A，示出了根据本申请实施例二的一种语音分离模型产品的结构框图。

本实施例的语音分离模型包括：编码器302、分离器304和解码器306。

其中：

编码器302，用于对携带有多个说话人的语音的到达时间差的信息的多通道语音数据进行特征提取，获得对应的多通道语音特征序列。

分离器304，用于对多通道语音特征序列进行基于门控的联合注意力处理，获得多个说话人分别对应的说话人语音特征序列。

解码器306，用于基于说话人语音特征序列，进行语音分离。

本实施例中，为了使语音分离模型能够有效针对多通道语音数据进行处理，会将原始的语音数据处理为可由语音分离模型进行处理的数据，包括：获取原始的多个通道的语音数据；按照编码器的输入维度，对多个通道的语音数据进行叠加，获得待进行语音分离的多通道语音数据，该多通道语音数据中携带有多个说话人的语音的到达时间差的信息。通过该种方式，可以将多个通道的语音数据进行对齐，并能够使用语音的到达时间差表征不同说话人的语音位置，以使语音分离模型可以高效地进行针对多通道语音数据的语音分离处理。

以下，以一个语音分离模型的具体结构为示例，对本实施例的语音分离模型产品进行示例性说明，如图3B所示。

图3B中，编码器302包括一维卷积层(1D Convolution Layer)和整流线性单元(ReLU)，该编码器302用于对携带有多个说话人的语音的到达时间差的信息的多通道语音数据进行特征提取，获得对应的多通道语音特征序列。

如前所述，本实施例中，会先将多个通道的语音数据进行叠加，作为语音分离模型的原始输入特征，也即输入编码器302的待进行语音分离的多通道语音数据。多通道的数目等于输入特征的维度，即编码器302可接收的输入特征的维度。编码器302不仅将输入的多通道语音数据编码为高维表示，而且会保留多通道麦克风收到的说话人语音信号的到达时间差的信息，以为后续的分离器304提供有效的说话人的语音帧位置信息。编码器302的整流线性单元将输出的编码向量限制为非负值。经整流线性单元处理后，编码器302输出的编码向量即携带有多个说话人的语音的到达时间差的信息的多通道语音特征序列。

分离器304用于将编码器302输出的编码向量即多通道语音特征序列处理为不同说话人的说话人语音特征序列，完成特征层面的语音分离任务。如图3B中所示，多通道语音特征序列进入分离器304后，首先进行归一化处理，得到归一化多通道语音特征序列。然后，为了后续的注意力计算，为归一化多通道语音特征序列添加位置编码(positionembedding)，图3B中示意为“正弦位置编码”。接着，将添加了位置编码的归一化多通道语音特征序列进行逐点卷积和重塑。通过逐点卷积的方式，可以使得特征信息可被有效融合和提取；而通过重塑方式，可将卷积后的多通道语音特征序列重塑为可进行注意力计算的形式。

基于此，重塑后的多通道语音特征序列被传递给基于门控的局部和全局联合注意力模块，以通过注意力计算进行局部特征提取和全局特征提取。本示例中，基于门控的局部和全局联合注意力模块包括N个，也即，多通道语音特征序列被进行了N次基于门控的局部和全局联合注意力处理。其中，N为超参数，可由本领域技术人员根据实际需求适当设置，以可使得该模块对多通道语音特征序列的处理达到较好效果为准。示例性地，N≥3。

其中，基于门控的局部和全局联合注意力模块为基于带卷积增强联合自注意的门控单头自注意力架构的模块，如图3C所示，其包括：四个卷积模块、一个缩放&偏移&旋转位置编码模块、一个局部&全局联合注意力模块、和三个门控(图中示意为

重塑后的多通道语音特征序列首先被输入第一个卷积模块，该卷积模块对该多通道语音特征序列进行线性投影和深度卷积处理后，传递给缩放&偏移&旋转位置编码模块。缩放&偏移&旋转位置编码模块对第一个卷积模块处理后的多通道语音特征序列进行缩放、偏移、以及位置编码操作，以获取可用于后续局部注意力计算的Q和K，以及全局注意力计算的Q’和K’。

第二个卷积模块也对重塑后的多通道语音特征序列进行线性投影和深度卷积处理，并输出可用于后续局部注意力计算的U；第三个卷积模块也对重塑后的多通道语音特征序列进行线性投影和深度卷积处理，并输出可用于后续局部注意力计算的V。进而，基于可用于后续局部注意力计算的U和V，以及已获得的可用于全局注意力计算的Q’和K’，可获得用于全局注意力计算的U’和V’。进一步地，分别基于U、V，和U’、V’，进行对应的局部注意力计算和全局注意力计算；再根据这两部分的注意力计算结果，可获得联合注意力计算的结果。其中，上述注意力计算可实现为单头自注意力计算。

在此基础上，如图3C中所示，针对联合注意力计算的结果，使用三重门控对其进行处理，以有效整合局部注意力计算的结果所表征的局部特征和全局注意力计算的结果所表征的全局特征，实现特征间的长距离建模。需要说明的是，图3C中，左侧门控之后还设置了激活函数，但不限于此，该激活函数还可设置在右侧门控之后。通过该激活函数，可降低激活函数所在的门控分支的结果对整个模块的输出结果的影响，使得输出结果更为准确。

在进行了三重门控的处理之后，多通道语音特征序列被输入第四个卷积模块中，再次进行特征提取。该次特征提取的结果将与输入的原始的重塑后的多通道语音特征序列进行加和，输出加和后的注意力计算结果。

由上可见，本示例中，基于门控的局部&全局联合注意力模块只学习了特征序列的残差部分，并使用跳跃连接从模块的输入连接到输出，从而提升了模块的特征处理效率。

如前所述，基于门控的局部&全局联合注意力模块包括N个，当前的基于门控的局部&全局联合注意力模块的输出将被传递至下一个基于门控的局部&全局联合注意力模块作为输入，继续进行处理，直至最后一个基于门控的局部&全局联合注意力模块，输出最终结果。

一种可行方式中，在上述基于门控的局部&全局联合注意力模块中，第一、第二、第三和第四卷积模块的一种示例性结构均如图3D所示。由图3D可见，卷积模块依次包括：归一化处理层、线性层、激活层、第一重塑层、一维深度卷积层、第二重塑层、随机失活(Dropout)层。

对于输入第一、第二、第三或第四卷积模块中的特征序列，先通过归一化处理层进行归一化处理；再通过线性层进行线性投影处理；然后通过激活层进行非线性数值处理；再通过第一重塑层将激活层处理后的特征序列重塑为符合卷积形式的特征序列；通过一维深度卷积层对重塑后的特征序列进行特征卷积，再通过第二重塑层重塑为可用于随机失活处理的特征序列形式；再由随机失活层对第二重塑层重塑后的特征序列进行随机失活处理，然后输出。

通过上述基于门控的局部&全局联合注意力模块的处理，可以提取出更具代表性的多通道语音特征序列。

进一步地，基于门控的局部&全局联合注意力模块输出的结果被重塑为满足后续处理形式的特征序列后，传递给下一个整流线性单元；然后，再次进行一次逐点卷积处理，将特征序列的维度扩展到与多个说话人的数目相对应的维度；接着，再对逐点卷积处理的结果再次进行重塑后，通过并行的多个逐点卷积模块分别对重塑后的特征序列进行处理，以获得分别针对每个说话人的说话人语音特征序列；进而，再通过一个门控线性单元对每个说话人的说话人语音特征序列进行门控处理，以更好地建模多个说话人的说话人语音特征序列之间的关系；之后，该门控处理后的说话人语音特征序列被再次进行逐点卷积和整流线性单元的处理，以获得更为准确的多个说话人分别对应的多个说话人语音特征序列。进而，多个说话人语音特征序列将被分别输入至解码器中进行处理。

本示例中，解码器用于直接将分离器输出的说话人语音特征序列进行解码，根据解码结果进行多通道语音数据的语音分离。示例性地，该解码器可以包括一维转置卷积层，其使用与编码器相同的内核大小和步幅，以根据对每个说话人的说话人语音特征序列进行解码的结果，对每个说话人进行语音数据重建，实现多个说话人的语音分离。其中，解码器的参数对所有的说话人语音特征序列共享，也即，该解码器为参数共享的解码器，由此，可提升包括该解码器在内的整个语音分享模型的通用性，并能够降低解码器和模型的参数量。

由此，通过本实施例的语音分离模型，可有效针对多通道语音数据进行处理；而且，解码器直接根据分离器的输出结果进行解码处理，将分离器从相关方式中的估计掩蔽(MASK)转换设计成估计说话人语音特征分量，从而绕过声源定位算法，直接在噪声和混响等复杂场景下进行语音分离任务。并且，通过多通道语音数据中携带的语音的到达时间差的信息，结合基于门控的联合注意力处理，降低了复杂场景下噪声和混响对分离性能的干扰，大幅提升了语音分离模型的整体分离性能。

实施例三

参照图4，示出了根据本申请实施例三的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图4所示，该电子设备可以包括：处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。

其中：

处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。

通信接口404，用于与其它电子设备或服务器进行通信。

处理器402，用于执行程序410，具体可以执行上述语音分离方法实施例中的相关步骤。

具体地，程序410可以包括程序代码，该程序代码包括计算机操作指令。

处理器402可能是CPU，或者是GPU(Graphic Processing Unit，图形处理器)或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器406，用于存放程序410。存储器406可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序410可包括多条计算机指令，程序410具体可以通过多条计算机指令使得处理器402执行前述方法实施例中所描述的语音分离方法对应的操作。

程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中所描述的方法。该计算机存储介质包括但不限于：只读光盘(Compact Disc Read-Only Memory，CD-ROM)、随机存储器(Random Access Memory，RAM)、软盘、硬盘或磁光盘等。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述方法实施例中的语音分离方法对应的操作。

此外，需要说明的是，本申请实施例所涉及到的与用户有关的信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于对模型进行训练的样本数据、用于处理的语音数据、用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD-ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如专用集成电路(Application Specific Integrated Circuit，ASIC)或现场可编辑门阵列(Field Programmable Gate Array，FPGA))的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，随机存储器(Random Access Memory，RAM)、只读存储器(Read-Only Memory，ROM)、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：赵胜奎;马斌;
专利申请人：阿里巴巴（中国）有限公司;

上一篇：一种电化学同步法回收NCM电池正负极材料的方法
下一篇：一种给排水管道穿墙后封堵的防火密封系统及其施工方法