语音处理方法、模型训练方法、界面显示方法及设备

文献发布时间：2023-06-19 11:03:41

技术领域

本申请涉及计算机技术领域，尤其涉及一种语音处理方法、模型训练方法、界面显示方法及设备。

背景技术

随着科技的不断发展，带有语音交互功能的智能终端，例如：智能音箱逐渐出现在人们的视野中。

在日常使用过程中，用户需要通过唤醒词唤醒智能音箱，唤醒后的智能音箱开启麦克风对周围环境进行音频采集，采集完之后对采集到的音频进行语音识别，根据语音识别结果进行响应。而现有技术中，智能音箱通常是在检测到用户静默的时长达到设定时长后，就认为用户语音已经结束，也即采集完毕，进而执行后续识别、响应等操作。

然而，这种检测语音是否结束的方法很容易出现智能音箱响应慢或中断用户语音等问题。

发明内容

鉴于上述问题，提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的语音处理方法、模型训练方法、界面显示方法及设备。

于是，在本申请的一个实施例中，提供了一种语音处理方法。该方法包括：

对采集到的待识别语音进行语音识别，得到声学信息和文本信息；

根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果；其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；并根据所述融合特征，检测所述待识别语音是否结束；

根据所述检测结果，执行相应操作。

在本申请的另一实施例中，提供了一种模型训练方法。该模型训练方法，包括：

获取样本语音对应的样本声学信息和样本文本信息；

根据所述样本声学信息和样本文本信息，利用检测模型获得实际检测结果；其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述样本声学信息进行特征提取，得到样本声学特征；所述第二网络用于对所述样本文本信息进行特征提取，得到样本文本特征；所述第三网络用于融合所述样本声学特征和所述样本文本特征，得到样本融合特征；根据所述样本融合特征，检测所述样本语音是否结束；

根据所述实际检测结果以及所述样本语音对应的期望检测结果，对所述检测模型进行参数优化；

其中，所述检测模型用于识别待识别语音是否结束。

在本申请的另一实施例中，提供了一种适于服务端的语音处理方法。该语音处理方法，包括：

接收到客户端发送的检测请求后，对所述客户端发送来的其采集到的待识别语音进行语音识别，得到声学信息和文本信息；

根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果；其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；根据所述融合特征，检测所述待识别语音是否结束；

根据所述检测结果，执行相应操作。

在本申请的另一实施例中，提供了一种适于客户端的语音处理方法。该语音处理方法，包括：

向服务端发送检测请求以及采集到的待识别语音，以使所述服务端接收到客户端发送的检测请求后，对所述待识别语音进行语音识别，得到声学信息和文本信息；根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果；并当检测到所述待识别语音结束时，向所述客户端发送语音结束信号；其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；根据所述融合特征，检测所述待识别语音是否结束；

接收到所述服务端发送的语音结束信号后，执行相应的响应操作。

在本申请的另一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

对采集到的待识别语音进行语音识别，得到声学信息和文本信息；

根据所述检测结果，执行相应操作。

在本申请的另一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

获取样本语音对应的样本声学信息和样本文本信息；

根据所述实际检测结果以及所述样本语音对应的期望检测结果，对所述检测模型进行参数优化；

其中，所述检测模型用于识别待识别语音是否结束。

在本申请的另一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

接收到客户端发送的检测请求后，对所述客户端发送来的其采集到的待识别语音进行语音识别，得到声学信息和文本信息；

根据所述检测结果，执行相应操作。

在本申请的另一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

接收到所述服务端发送的语音结束信号后，执行相应的响应操作。

在本申请的另一实施例中，提供了一种语音处理方法。该语音处理方法，包括：

对采集到的用户点餐语音进行语音识别，得到声学信息和文本信息；

检测出所述用户点餐语音结束时，根据所述文本信息，记录用户点餐内容。

在本申请的另一实施例中，提供了一种界面显示方法。该界面显示方法，包括：

显示语音处理界面；

对采集到的待识别语音进行语音识别，得到声学信息和文本信息的过程中，在所述语音处理界面显示第一提示信息；

根据所述声学信息和所述文本信息，利用训练好的检测模型获得有关所述待识别语音是否结束的检测结果的过程中，在所述语音处理界面显示第二提示信息。

在本申请的另一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

对采集到的用户点餐语音进行语音识别，得到声学信息和文本信息；

检测出所述用户点餐语音结束时，根据所述文本信息，记录用户点餐内容。

在本申请的另一实施例中，提供了一种电子设备。该电子设备，包括：存储器和处理器，其中，

所述存储器，用于存储程序；

所述处理器，与所述存储器耦合，用于执行所述存储器中存储的所述程序，以用于：

显示语音处理界面；

对采集到的待识别语音进行语音识别，得到声学信息和文本信息的过程中，在所述语音处理界面显示第一提示信息；

本申请实施例提供的技术方案，结合待识别语音的声学信息和语义信息，并通过一个可学习的检测模型来预测该待识别语音是否结束，这种检测语音是否结束的方式更加合理、更加智能，在缩短智能终端的响应时间的同时，还可降低中断用户语音的次数，提高用户体验。并且，该检测模型被设计成分别对声学信息和文本信息进行特征提取，然后通过声学特征和文本特征的融合结果作出最终的预测，可有效提高预测准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请一实施例提供的VAD信号；

图1b为本申请一实施例提供的语音处理方法的流程示意图；

图2为本申请又一实施例提供的模型训练方法的流程示意图；

图3为本申请又一实施例提供的语音处理方法的流程示意图；

图4为本申请又一实施例提供的语音处理方法的流程示意图；

图5为本申请一实施例提供的语音处理装置的结构框图；

图6为本申请又一实施例提供的模型训练装置的结构框图；

图7为本申请又一实施例提供的语音处理装置的结构框图；

图8为本申请又一实施例提供的电子设备的结构框图。

具体实施方式

现有技术中，智能音箱检测到用户静默的时长达到设定时长时，就会认为用户说完了，进而执行后续识别、响应等操作。通常，在实际应用中，智能音箱在认为用户说完了之后，会执行关闭麦克风的操作，结束收音以避免采集到过多的噪声引起误判，然后执行后续识别、响应等操作。而这种方法会导致智能音箱的响应慢、并且有可能在用户长时间停顿的时候引起误判，中断用户的语句。

其方案具体为：通过VAD(Voice Activity Detection，语音端点检测)技术对采集到的用户语音进行信号处理，得到VAD信号。具体地，通过VAD技术可对用户语音中的每一音频帧都进行预测，预测用户语音中的某一音频帧为声音信号时，对应该音频帧输出为非0；预测用户语音中的某一音频帧为静默信号时，对应该音频帧输出为0。如图1a所示，用户说“XXXX”和“播放音乐”的时候，对应的输出值为2，这两句中间的停顿部分、开头部分和结尾部分都是静默的时候，对应的输出值为0。这样，得到的VAD信号由0和非0组成，VAD信号中连续的至少一个0组成一个静默部分；VAD信号中连续的至少一个非0组成一个发音部分。现有的技术方案是在检测到静默时间达到某个阈值(比如700ms)的时候判断为句尾，从而进行后续的闭麦、识别、响应等操作。这种方法有很多缺陷，例如：如果用户语句中间停顿时间过长，长于静默阈值的时候，虽然用户话没说完，也会被判断为句尾，这时候会导致用户语句中断；再例如：如果用户说完了音箱仍然等待静默时间达到阈值，这时候会导致响应慢，同时长时间的等待未闭麦，可能会引入其他背景噪声，影响后续语义理解流程的准确性。

为了解决上述技术问题，本申请提出一种新的判断用户是否说完的检测模型，旨在更智能地缩短智能音箱的响应时间、更智能地决定闭麦时机，同时也减少误闭麦导致中断语句的情况。本申请同时利用声学和语义两个方面的信息，在利用声学信号的同时，也利用语义信号，语义信号对判断句尾是有帮助的，比如：如果语义上表明句子不完整，那么即使有较长时间的停顿，也能判断为不是句尾，减少误判；如果语义上表明句子意义完整，已经说完了，那么即使静默时间没有达到阈值，也可以判断为是句尾，从而进行识别、响应、闭麦等操作，节省时间。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

此外，在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图1b示出了本申请一实施例提供的语音处理方法的流程示意图。该方法的执行主体可以为客户端，也可以为服务端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备、智能音箱等任意终端设备。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。如图1b所示，该方法包括：

101、对采集到的待识别语音进行语音识别，得到声学信息和文本信息。

102、根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果。

其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；并根据所述融合特征，检测所述待识别语音是否结束。

103、根据所述检测结果，执行相应操作。

上述101中，待识别语音可以由终端设备上的语音采集单元采集得到的。该终端设备可以为智能音箱，智能音箱上的语音采集单元，例如：麦克风或麦克风阵列可以对周围环境进行语音采集。

其中，声学信息中包含有待识别语音的发音信息、语调信息、语速信息等。在一实例中，上述声学信息具体可以为音素信息。

可采用ASR(Automatic Speech Recognition，自动语音识别)技术对采集到的待识别语音进行语音识别，得到声学信息和文本信息。其中，ASR技术就是让机器通过识别和理解将声音转变成文字或命令的技术。具体地，可先构建一个ASR解码器；该ASR解码器中包括声学模型和语言模型；通过海量语音、语言数据库对ASR解码器中的声学模型和语音模型中的参数进行优化，得到最终训练好的ASR解码器；后续即可将采集到的待识别语音输入至训练好的ASR解码器中，将声学模型输出的音素信息作为上述声学信息；将声学模型输出的音素信息输入到语音模型中，语音模型输出上述文本信息。其中，ASR解码器中具体实现步骤以及工作原理可参见现有技术，在此不再赘述。

上述102中，其中，所述检测模型包括第一网络、第二网络以及第三网络。该检测模型具体可以为神经网络模型，即所述第一网络、第二网络以及第三网络均可为神经网络。采用神经网络模型，可有效提高模型预测的准确率。上述检测模型可通过样本语音对应的样本声学信息和样本文本信息以及样本语音对应的期望检测结果进行训练，具体的训练过程将在下述实施例中进行详细介绍。

实际应用时，可将所述声学信息和所述文本信息作为上述训练好的检测模型的输入，执行所述检测模型，得到所述检测模型输出的检测结果。上述声学特征也即是声学方面的特征，上述文本特征也即是语义方面的特征。

上述103中，待识别语音未结束，则表明用户的话未说完；待识别语音结束，则表明用户的话已说完。

所述检测结果表明所述待识别语音未结束时，可继续保持语音采集。当上述执行主体为服务端时，检测结果表明所述待识别语音未结束时，可向客户端发送语音采集保持信号，以使客户端接收到该语音采集保持信号后继续保持语音采集；或者，不向客户端发送任何信号，这样客户端将会继续保持语音采集。

所述检测结果表明所述待识别语音结束时，可根据所述文本信息，执行相应的任务响应。例如：所述文本信息为“今天天气怎么样”，则可将今天的天气情况提供给用户；再例如：所述文本信息为“我想听轻音乐”，则可将某一首钢琴曲播放给用户。当上述执行主体为服务端时，检测结果表明所述待识别语音结束时，可向客户端发送所述文本信息，以使所述客户端根据所述文本信息执行相应的任务响应。

现有技术中，为了避免采集到过多的背景噪声影响后续语义理解流程的准确性，会在检测用户说完了之后，执行关闭用于采集语音的语音采集单元(例如：麦克风或麦克风阵列)的操作。在执行关闭语音采集单元的操作之后，根据所述文本信息，执行相应的任务响应。当上述执行主体为服务端时，检测结果表明所述待识别语音结束时，可向客户端发送语音结束信号以及上述文本信息，以使客户端根据该语音结束信号关闭语音采集单元，并根据该文本信息，执行相应的任务响应。

在一实例中，上述“融合所述声学特征和所述文本特征，得到融合特征”，具体可采用如下步骤来实现：

S11、拼接所述声学特征和所述文本特征，得到拼接特征。

S12、根据所述拼接特征，确定融合特征。

上述S11中，上述声学特征具体可以为声学特征向量；上述文本特征具体可以为文本特征向量；上述拼接特征具体可以为拼接特征向量。拼接声学特征向量和文本特征向量，得到拼接特征向量。拼接得到的拼接特征中既包含有声学特征，还包含有文本特征。

举例来说：声学特征向量为N维向量，文本特征向量为M维向量，则拼接特征向量为(N+M)维向量。例如：声学特征向量为(a1，a2，a3)，文本特征向量为(b1，b2，b3)，则拼接特征向量为(a1，a2，a3，b1，b2，b3)。

在一种可实现的方案中，上述S12中，可将拼接特征直接作为融合特征。也即是，在预测最终结果中，将声学特征和文本特征视为同等重要。

在另一种可实现的方案中，上述S12中“根据所述拼接特征，确定融合特征”，具体可采用如下步骤来实现：

S121、根据所述拼接特征，预测所述声学特征对应的第一权重以及所述文本特征对应的第二权重。

S122、根据所述声学特征、所述文本特征、所述第一权重以及所述第二权重，确定所述融合特征。

上述S121中，上述第三网络中可存在有两个分别用于计算第一权重和第二权重的权重向量，这两个权重向量中的参数值已在模型训练过程中优化好。所述拼接特征具体为拼接特征向量；将该拼接特征向量与用于计算第一权重的权重向量进行点乘，得到第一权重；将拼接特征向量与用于计算第二权重的权重向量进行点乘，得到第二权重。

上述S122中，可根据第一权重和第二权重，对所述声学特征和所述文本特征进行加权求和，得到所述融合特征。

在本实施例中，会预测声学特征和文本特征对预测结果的重要程度，这样更加贴合实际情况，可以更好地融合声学特征和文本特征，进而提高模型的预测准确率。

在具体实施时，上述第三网络中具体可包括门控融合网络(Gated FusionNetwork)、注意力网络或记忆网络(Memory Network)。

进一步的，上述“对所述文本信息进行特征提取，得到文本特征”，具体可采用如下步骤来实现：

S21、获取多个文本单元各自对应的第一向量。

其中，所述文本信息由所述多个文本单元按序组成。

S22、针对每一个文本单元，综合所述多个文本单元各自对应的第一向量，通过上下文语义融合得到每一个文本单元对应的第二向量。

S23、根据所述多个文本单元各自对应的第二向量，确定所述文本特征。

上述S21中，文本单元可以为字，也可为词。具体地，可根据词典，对文本信息进行标识化(Tokenization)处理，得到多个文本单元。

在一实例中，可通过词嵌入技术，获取得到每一个文本单元对应的初始向量。可将每一个文本单元对应的初始向量直接作为每一个文本单元对应的第一向量。具体地，可通过词嵌入(wordembedding)，对每一个文本单元进行编码得到每一个文本单元对应的初始向量。

在另一实例中，还可通过本申请实施例提供的方式，对每一个文本单元对应的初始向量进行多次上下文语义融合，得到每一个文本单元对应的第一向量。多次上下文语义融合中，上一次上下文语义融合的结果作为下一次上下文语义融合的基础。多个文本单元各自对应的第一向量是多次上下文语义融合中最后一次上下文语义融合得到的结果，作为上述S22中上下文语义融合的基础。

上述S22中，针对每一个文本单元，综合所述多个文本单元各自对应的第一向量，通过上下文语义融合得到每一个文本单元对应的第二向量。也就是说，每一个文本单元对应的第二向量不仅仅与其对应的第一向量有关，还融合了其他文本单元对应的第一向量，也即是融合了上下文语义关系，这样可确保得到的文本特征的表达更好。

具体地，所述多个文本单元中包括第一文本单元；上述S22中“针对所述第一文本单元，综合所述多个文本单元各自对应的第一向量，通过上下文语义融合得到所述第一文本单元对应的第二向量”，具体可采用如下步骤来实现：

S221、分别对所述多个文本单元各自对应的第一向量进行特征提取，得到所述多个文本单元各自对应的第三向量。

S222、根据所述多个文本单元中各文本单元对应的第一向量，计算所述多个文本单元中各文本单元与所述第一文本单元的语义相关性。

S223、根据所述语义相关性以及所述多个文本单元各自对应的第三向量，确定所述第一文本单元对应的第二向量。

上述S221中，可并行地分别对所述多个文本单元各自对应的第一向量进行特征提取。

在一种可实现的方案中，上述S221中，所述第二网络中可存在有特征提取矩阵，特征提取矩阵中的参数值已在模型训练过程中优化好。可将多个文本单元各自对应的第一向量分别与所述特征提取矩阵相乘，得到多个文本单元各自对应的第三向量。具体实施时，可将多个文本单元各自对应的第一向量堆叠成堆叠矩阵，将堆叠矩阵与特征提取矩阵进行矩阵相乘，得到第一矩阵；其中，第一矩阵中每一个行向量即为所述多个文本单元中一文本单元对应的第三向量。

上述S222中，可并行地计算所述多个文本单元中各文本单元与所述第一文本单元的语义相关性。

在一种可实现的方案中，上述S222中，所述第二网络中可存在有第一相关矩阵和第二相关矩阵，第一相关矩阵和第二相关矩阵中的参数值已在模型训练过程中优化好。可将多个文本单元各自对应的第一向量分别与第一相关矩阵相乘，得到多个文本单元各自对应的第一相关向量；将多个文本单元各自对应的第一向量分别与第二相关矩阵相乘，得到多个文本单元各自对应的第二相关向量。具体实施时，可将多个文本单元各自对应的第一向量堆叠成堆叠矩阵，将堆叠矩阵与第一相关矩阵进行矩阵相乘，得到第二矩阵；其中，第二矩阵中每一个行向量即为多个文本单元中一文本单元对应的第一相关向量。同理，可将堆叠矩阵与第二相关矩阵进行矩阵相乘，得到第三矩阵；其中，第三矩阵中每一个行向量即为多个文本单元中一文本单元对应的第二相关向量。

可将所述多个文本单元中各文本单元对应的第二相关向量与所述第一文本单元的第一相关向量进行点乘，得到所述多个文本单元中各文本单元与第一文本单元的语义相关性。

上述S223中，具体地，可根据语义相关性，确定多个文本单元各自对应的第三向量的融合权重；根据多个文本单元各自对应的第三向量的融合权重，对多个文本单元各自对应的第三向量进行加权求和，得到第一文本单元对应的第二向量。语义相关性越大，融合权重就越大。

需要补充的是，第二网络中可包括多层子网络，每一层子网络用于执行一次上下文语义融合，每一层子网络中都具有上述提及的特征提取矩阵、第一相关矩阵和第二相关矩阵，但不同层子网络中的特征提取矩阵不同、不同层子网络中的第一相关矩阵不同、不同层子网络中的第二相关矩阵也不同。

上述S23中，由于每一个文本单元各自对应的第二向量都是融合了上下文语义关系的，故可将多个文本单元中的任一个文本单元对应的第二向量作为文本特征。为了提高文本特征的表征能力，可事先指定某一个文本单元对应的第二向量作为文本特征。

具体地，上述方法在对所述文本信息进行特征提取，得到文本特征的步骤之前，还包括：在所述文本信息的开始位置处添加第一字符，在所述文本信息的结束位置处添加第二字符，得到处理后的文本信息；其中，所述处理后的文本信息由所述多个文本单元按序组成；其中，所述多个文本单元中排在首位的为所述第一字符；所述多个文本单元中排在末位的为所述第二字符。

当上述第二网络为Bert模型时，上述第一字符具体可以为CLS，第二字符具体可以为SEP。

相应的，上述S23中“根据所述多个文本单元各自对应的第二向量，确定所述文本特征”，具体为：将所述第一字符对应的第二向量作为所述文本特征。

上述第二网络具体可采用Bert模型来实现。Bert模型可以并行处理，缩短数据处理时间；并且是双向语言模型，能够实现上述上下文语义关系的融合，提高文本特征的表达能力。

当然，在实际应用时，第二网络还可为基于transformer的GPT、基于transformer的GPT-2以及XLNet模型。

需要说明是，上述第二网络可以进行预训练。即可事先利用文本训练库，对第二网络进行预训练。其中，所述文本训练库中包括多个训练文本及其对应的训练标签。具体地预训练方式可参见现有技术，在此不再赘述。通过预训练可有效提高第二网络的特征提取能力。

进一步的，上述待识别语音中可包括多个音频帧；多个音频帧按序排列。所述声学信息中包括所述多个音频帧各自对应的帧向量。多个音频帧各自对应的帧向量可由上述ASR解码器中的声学模型获取得到。上述“对所述声学信息进行特征提取，得到声学特征”，具体可采用如下步骤来实现：

S31、堆叠所述多个音频帧各自对应的帧向量，得到音频矩阵。

S32、对所述音频矩阵进行卷积处理，得到至少一个卷积后矩阵。

S33、根据所述至少一个卷积后矩阵，得到所述声学特征。

上述S31中，音频矩阵中的每一行向量或每一列向量即为多个音频帧中一音频帧对应的帧向量。

上述S32中，第一网络中可包括一卷积层，利用卷积层对音频矩阵进行卷积处理，得到至少一个卷积后矩阵。

在一种可实现的方案中，上述S33中，可分别对至少一个卷积后矩阵中各卷积后矩阵在列向量上进行池化(pooling)操作，得到多个池化后向量；将多个池化后向量进行拼接得到声学特征。

举例来说：至少一个卷积后矩阵的数量为N个；卷积后矩阵的尺寸为h*w，池化后得到w维的池化后向量；再将N个w维的池化后向量进行拼接得到(N*w)维的声学特征向量，即上述声学特征。

上述步骤S31、S32和S33实现了对多个音频帧各自对应的帧向量的并行处理，得到声学特征，可缩短数据处理时间。上述第一网络具体可以为卷积神经网络(ConvolutionalNeural Networks，CNN)，具体可以为具有一层卷积层的卷积神经网络。当然，上述第一网络还可以为transformer网络。

进一步的，上述“根据所述融合特征，检测所述待识别语音是否结束”，具体可采用如下步骤来实现：

S41、根据所述融合特征，对所述待识别语音进行分类。

S42、根据分类结果，确定所述待识别语音是否结束。

上述第三网络中还可包括二分类网络；该二分类网络中可包括两个全连接层和分类器。将上述融合特征输入至该两个全连接层中进行全连接操作，得到全连接结果；将全连接结果输入至分类器，由分类器进行分类。例如：可事先定义结束为1类；未结束为0类。分类器会输出属于1类的概率以及属于0类的概率。当属于1类的概率大于属于0类的概率，则表明待识别语音结束；当属于0类的概率大于属于1类的概率，则表明待识别语音未结束。

实际应用时，可每隔预设时间间隔针对当前收集到的待识别语音进行是否结束的检测。而这种检测方式会引入很多不必要的数据处理量，例如：在用户持续说话的过程中就无需进行是否结束的检测，因为在这个过程中用户的话肯定没有说完。为了降低数据处理量，降低数据处理所占用的计算资源，上述方法，还可包括：

104、根据采集到的所述待识别语音，采用语音端点检测技术，检测当前静默时长。

105、根据所述当前静默时长，确定是否触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤。

上述104中，利用语音端点检测技术，得到采集到的待识别语音的VAD信号，VAD信号中包括发音部分和静默部分。语音端点检测技术的具体实现原理可参见现有技术，在此不再赘述。可实时检测当前静默时长或每隔预设时间间隔来检测当前静默时长。

上述105中，可事先设置一个第一预设时长，当当前静默时长达到第一预设时长时，可触发上述101“对采集到的待识别语音进行语音识别，得到声学信息和文本信息”的步骤，也即是触发检测当前采集到的待识别语音是否结束的过程。其中，第一预设时长的具体数值可根据实际需要来设定，本申请实施例对此不作具体限定。在一实例中，上述第一预设时长可设置为100ms。

在实际应用中，当前静默时长在达到第一预设时长后，静默还可能持续。那么，在持续静默的过程中需要进行多次触发上述101的步骤。具体地，上述104中“根据所述当前静默时长，确定是否触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤”，具体可采用如下步骤来实现：

1041、获取上一次触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤的触发时间点。

1042、确定所述触发时间点距当前时刻的时间间隔。

1043、所述时间间隔大于所述当前静默时长、且所述当前静默时长达到第一预设时长时，触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤。

上述1043中，时间间隔大于当前静默时长，说明在上一次触发时间点到当前时间之间，用户说话了，并非都是静默。

进一步的，上述104中“根据所述当前静默时长，确定是否触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤”，还包括：

1044、所述时间间隔小于所述当前静默时长、且所述时间间隔达到所述第一预设时长时，触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤。

上述1044中，时间间隔小于当前静默时长，说明在上一次触发时间点到当前时刻之间，用户持续保持静默。

其中，当前静默时长指的是从上述VAD信号中最后一次发音部分的结束时刻到当前时刻的时间间隔。

举例来说：第一预设时长为100ms，上一次触发时间点为第200ms，当前时刻为400ms，则上一次触发时间点距当前时刻的时间间隔为200ms；VAD信号中最后一次发音部分的结束时刻为第300ms，则当前静默时长为100ms；即上述时间间隔大于当前静默时长，当前静默时长达到第一预设时长，则触发上述步骤101。

再举例来说：第一预设时长为100ms，上一次触发时间点为第200ms，当前时刻为300ms，则上一次触发时间点距当前时刻的时间间隔为100ms；VAD信号中最后一次发音部分的结束时刻为第100ms，则当前静默时长为200ms；即上述时间间隔小于当前静默时长，且时间间隔达到第一预设时长，则触发上述步骤101。

在实际应用中，还会出现在用户持续很长时间的静默时，检测模型检测出的检测结果均显示未结束，这时继续等待已没有意义了，只会延长响应时长。故可设置一个兜底的第二预设时长，一旦当前静默时长大于第二预设时长时，直接判定该待识别语音结束。第二预设时长大于第一预设时长，第二预设时长的具体数值可根据实际需要来设定，例如：第二预设时长为700ms。具体地，上述方法，还包括：

106、当前静默时长大于第二预设时长时，判定所述待识别语音结束。

判定待识别语音结束后，可执行相应操作，例如：执行任务响应、关闭用于采集语音的语音采集单元的操作。

本申请实施例提供的语音处理方法可应用于智能音箱、机器人、手机等智能设备，具体应用场景可以为家庭场景和酒店场景。其中，家庭场景具体可以为：点歌、家电控制等场景。酒店场景具体可以为：点餐场景。

下面将介绍一种上述检测模型的训练方法，如图2所示，该训练方法，包括：

201、获取样本语音对应的样本声学信息和样本文本信息。

202、根据所述样本声学信息和样本文本信息，利用检测模型获得实际检测结果。

其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述样本声学信息进行特征提取，得到样本声学特征；所述第二网络用于对所述样本文本信息进行特征提取，得到样本文本特征；所述第三网络用于融合所述样本声学特征和所述样本文本特征，得到样本融合特征；根据所述样本融合特征，检测所述样本语音是否结束。

203、根据所述实际检测结果以及所述样本语音对应的期望检测结果，对所述检测模型进行参数优化。

其中，所述检测模型用于识别待识别语音是否结束。

上述201中，可事先对样本语音进行识别，得到样本声学信息和文本信息。其中，样本声学信息中包含有样本语音的发音信息、语调信息、语速信息等。在一实例中，上述样本声学信息具体可以为音素信息。

可采用ASR技术对样本语音进行识别，得到样本声学信息和样本文本信息。其中，ASR技术的具体实现及原理可参见上述各实施例中相应内容，在此不再赘述。

上述202中，其中，所述检测模型包括第一网络、第二网络以及第三网络。该检测模型具体可以为神经网络模型，即所述第一网络、第二网络以及第三网络均可为神经网络。采用神经网络模型，可有效提高模型预测的准确率。

将样本声学信息和样本文本信息作为检测模型的输入，执行所述检测模型，得到所述检测模型输出的实际检测结果。样本声学特征也即是声学方面的特征，样本文本特征也即是语义方面的特征。

上述203中，根据所述实际检测结果以及所述样本语音对应的期望检测结果，对所述检测模型进行参数优化。

其中，根据所述实际检测结果与所述样本语音对应的期望检测结果，对所述检测模型进行参数优化可以具体利用损失函数(loss function)实现，损失函数是用来估量模型的实际检测结果与期望检测结果的不一致程度，通常是一个非负实值函数。

可选地，该损失函数可以具体为交叉熵(Cross Entropy)loss。

对检测模型进行参数优化，可以获得检测模型中各个参数的调整系数，利用各个参数的调整系数对各个参数进行数值调整，即可以得到检测模型的参数。

利用损失函数进行参数优化的方式与现有技术相同，在此不再进行过多赘述。

该期望检测结果可以是指样本语音对应的训练标签，该训练标签用以表明该样本语音是否结束，例如：训练标签为1，则表明该样本语音结束；训练标签为0，则表明该样本语音未结束。

下面将介绍一种样本制备方法。具体地，上述方法，还包括：

204、获取训练语音。

205、对所述训练语音进行语音端点检测，得到所述训练语音的语音端点检测信号。

206、所述待识别语音端点检测信号中第一静默部分的静默时长大于第一预设时长时，在所述训练语音中所述第一静默部分对应的第一语音片段中确定第一截取音频帧。

207、从所述训练语音中，截取所述第一截取音频帧及位于其之前的第二语音片段，得到所述样本语音。

上述205中，语音端点检测信号中包括至少一个发音部分和至少一个静默部分。对训练语音进行语音端点检测，得到语音端点检测信号的具体实现及原理可参照上述各实施例中相应内容，在此不再赘述。

上述206中，第一预设时长的具体数值可参见上述各实施例中相应内容，在此不再赘述。第一静默部分可以为上述至是一个静默部分中的任一个。

可在训练语音中第一静默部分对应的第一语音片段中随机确定第一截取音频帧，还可将训练语音中第一静默部分对应的第一语音片段中指定排序处的音频帧作为第一截取音频帧。指定排序可以根据第一预设时长以及训练语音中任意相邻两个音频帧之间的时间间隔来确定，具体地，指定排序可以为第一预设时长与训练语音中任意相邻两个音频帧之间的时间间隔的商的整数倍。

例如：第一预设时长为100ms，训练语音中的任意相邻两个音频帧之间的时间间隔为20ms，第一语音片段中包括按序排列的11帧音频帧，则指定排序可以为第5帧或第10帧。

上述207中，第二语音片段为所述训练语音中位于所述第一截取音频帧之前的全部语音片段。

进一步的，上述方法，还可包括：

208、对所述训练语音进行语音识别，得到训练文本信息。

209、对所述样本语音进行语音识别，得到所述样本文本信息。

210、根据所述样本文本信息与所述训练文本信息是否相同，确定所述样本语音对应的期望检测结果。

上述208和209均可采用ASR技术来实现，具体实现及原理可参见上述各实施例中相应内容，在此不再赘述。

上述210中，样本文本信息与训练文本信息相同，则说明截取得到的样本语音是完整的语句，也就说明用户在发出样本语音后，话已经说完了，则该样本语音对应的期望检测结果设为结束。样本文本信息与训练文本信息不相同，则说明截取得到的样本语音并不是完整的语句，也就说明用户在发出样本语音后，话还没有说完，则该样本语音对应的期望检测结果设为未结束。

为了提高第二网络的特征提取能力，可对第二网络进行预训练。具体地，上述方法，还可包括：

211、利用文本训练库，对所述第二网络进行预训练。

其中，所述文本训练库中包括多个训练文本及其对应的训练标签。对第二网络进行预训练，可有效增强第二网络对文本的特征表达能力，还可降低上述检测模型的训练成本。预训练好的第二网络用来作为初始化，然后再用上述样本声学信息、样本文本信息以及样本语音对应的训练标签来对整个检测模型的网络参数来进行微调(finetune)。

对第二网络进行预训练的过程具体可参见现有技术。当第二网络为bert模型时，多个训练文本中可包括部分文本单元被遮蔽的第一训练文本和包含两个句子的第二训练文本。第一训练文本对应的训练标签即为被遮蔽的部分文本；第二训练文本对应的训练标签即为两个句子之间的真实上下句关系。

在一实例中，上述“融合所述样本声学特征和所述样本文本特征，得到样本融合特征”，具体可采用如下步骤来实现：

S51、拼接所述样本声学特征和所述样本文本特征，得到样本拼接特征。

S52、根据所述样本拼接特征，确定样本融合特征。

上述S51中，上述样本声学特征具体可以为样本声学特征向量；上述样本文本特征具体可以为样本文本特征向量；上述样本拼接特征具体可以为样本拼接特征向量。拼接样本声学特征向量和样本文本特征向量，得到样本拼接特征向量。拼接得到的样本拼接特征向量中既包含有样本声学特征，还包括有样本文本特征。

上述S52中，在一种可实现的方案中，可将样本拼接特征直接作为样本融合特征。也即是，在预测最终结果中，将样本声学特征和样本文本特征视为同等重要。

在另一种可实现的方案中，上述S52中“根据所述样本拼接特征，确定样本融合特征”，具体可采用如下步骤来实现：

S521、根据所述样本拼接特征，预测所述样本声学特征对应的第一样本权重以及所述样本文本特征对应的第二样本权重。

S522、根据所述样本声学特征、所述样本文本特征、所述第一样本权重以及所述第二样本权重，确定所述样本融合特征。

上述S521中，上述第三网络中可存在有两个分别用于计算第一样本权重和第二样本权重的权重向量，这两个权重向量中的参数值待优化。所述样本拼接特征具体为样本拼接特征向量；将该样本拼接特征向量与用于计算第一样本权重的权重向量进行点乘，得到第一样本权重；将拼接特征向量与用于计算第二样本权重的权重向量进行点乘，得到第二样本权重。

上述S122中，可根据第一样本权重和第二样本权重，对所述样本声学特征和所述样本文本特征进行加权求和，得到所述样本融合特征。

在本实施例中，会预测样本声学特征和样本文本特征对预测结果的重要程度，这样更加贴合实际情况，可以更好地融合样本声学特征和样本文本特征，进而提高模型的预测准确率。

在具体实施时，上述第三网络中具体可包括门控融合网络(Gated FusionNetwork)、注意力网络或记忆网络(Memory Network)。

进一步的，上述“对所述样本文本信息进行特征提取，得到样本文本特征”，具体可采用如下步骤来实现：

S61、获取多个样本文本单元各自对应的第一向量。

其中，所述样本文本信息由所述多个样本文本单元按序组成。

S62、针对每一个样本文本单元，综合所述多个样本文本单元各自对应的第一向量，通过上下文语义融合得到每一个样本文本单元对应的第二向量。

S63、根据所述多个样本文本单元各自对应的第二向量，确定所述样本文本特征。

上述S61中，样本文本单元可以为字，也可为词。具体地，可根据词典，对样本文本信息进行标识化(Tokenization)处理，得到多个样本文本单元。

在一实例中，可通过词嵌入技术，获取得到每一个样本文本单元对应的初始向量。可将每一个样本文本单元对应的初始向量直接作为每一个样本文本单元对应的第一向量。具体地，可通过词嵌入(wordembedding)，对每一个样本文本单元进行编码得到每一个样本文本单元对应的初始向量。

在另一实例中，还可通过本申请实施例提供的方式，对每一个样本文本单元对应的初始向量进行多次上下文语义融合，得到每一个样本文本单元对应的第一向量。多次上下文语义融合中，上一次上下文语义融合的结果作为下一次上下文语义融合的基础。多个样本文本单元各自对应的第一向量是多次上下文语义融合中最后一次上下文语义融合得到的结果，作为上述S62中上下文语义融合的基础。

上述S62中，针对每一个样本文本单元，综合所述多个样本文本单元各自对应的第一向量，通过上下文语义融合得到每一个样本文本单元对应的第二向量。也就是说，每一个样本文本单元对应的第二向量不仅仅与其对应的第一向量有关，还融合了其他样本文本单元对应的第一向量，也即是融合了上下文语义关系，这样可确保得到的样本文本特征的表达更好。

具体地，所述多个样本文本单元中包括第一样本文本单元；上述S22中“针对所述第一样本文本单元，综合所述多个样本文本单元各自对应的第一向量，通过上下文语义融合得到所述第一样本文本单元对应的第二向量”，具体可采用如下步骤来实现：

S621、分别对所述多个样本文本单元各自对应的第一向量进行特征提取，得到所述多个样本文本单元各自对应的第三向量。

S622、根据所述多个样本文本单元中各样本文本单元对应的第一向量，计算所述多个样本文本单元中各样本文本单元与所述第一样本文本单元的样本语义相关性。

S623、根据所述样本语义相关性以及所述多个样本文本单元各自对应的第三向量，确定所述第一样本文本单元对应的第二向量。

上述S621中，可并行地分别对所述多个样本文本单元各自对应的第一向量进行特征提取。

在一种可实现的方案中，上述S621中，所述第二网络中可存在有特征提取矩阵，特征提取矩阵中的参数值待优化。可将多个样本文本单元各自对应的第一向量分别与所述特征提取矩阵相乘，得到多个样本文本单元各自对应的第三向量。具体实施时，可将多个样本文本单元各自对应的第一向量堆叠成样本堆叠矩阵，将样本堆叠矩阵与特征提取矩阵进行矩阵相乘，得到第一样本矩阵；其中，第一样本矩阵中每一个行向量即为所述多个样本文本单元中一样本文本单元对应的第三向量。

上述S622中，可并行地计算所述多个样本文本单元中各样本文本单元与所述第一样本文本单元的样本语义相关性。

在一种可实现的方案中，上述S622中，所述第二网络中可存在有第一相关矩阵和第二相关矩阵，第一相关矩阵和第二相关矩阵中的参数值待优化。可将多个样本文本单元各自对应的第一向量分别与第一相关矩阵相乘，得到多个样本文本单元各自对应的第一相关向量；将多个样本文本单元各自对应的第一向量分别与第二相关矩阵相乘，得到多个样本文本单元各自对应的第二相关向量。具体实施时，可将多个样本文本单元各自对应的第一向量堆叠成样本堆叠矩阵，将样本堆叠矩阵与第一相关矩阵进行矩阵相乘，得到第二样本矩阵；其中，第二样本矩阵中每一个行向量即为多个样本文本单元中一样本文本单元对应的第一相关向量。同理，可将样本堆叠矩阵与第二相关矩阵进行矩阵相乘，得到第三样本矩阵；其中，第三样本矩阵中每一个行向量即为多个样本文本单元中一样本文本单元对应的第二相关向量。

可将所述多个样本文本单元中各样本文本单元对应的第二相关向量与所述第一样本文本单元的第一相关向量进行点乘，得到所述多个样本文本单元中各样本文本单元与第一样本文本单元的样本语义相关性。

上述S623中，具体地，可根据样本语义相关性，确定多个样本文本单元各自对应的第三向量的融合权重；根据多个样本文本单元各自对应的第三向量的融合权重，对多个样本文本单元各自对应的第三向量进行加权求和，得到第一样本文本单元对应的第二向量。

上述S63中，由于每一个样本文本单元各自对应的第二向量都是融合了上下文语义关系的，故可将多个样本文本单元中的任一个样本文本单元对应的第二向量作为样本文本特征。为了提高样本文本特征的表征能力，可事先指定某一个样本文本单元对应的第二向量作为样本文本特征。

具体地，上述方法在对所述样本文本信息进行特征提取，得到样本文本特征的步骤之前，还包括：在所述样本文本信息的开始位置处添加第一字符，在所述样本文本信息的结束位置处添加第二字符，得到处理后的样本文本信息；其中，所述处理后的样本文本信息由所述多个样本文本单元按序组成；其中，所述多个样本文本单元中排在首位的为所述第一字符；所述多个样本文本单元中排在末位的为所述第二字符。

当上述第二网络为Bert模型时，上述第一字符具体可以为CLS，第二字符具体可以为SEP。

相应的，上述S63中“根据所述多个样本文本单元各自对应的第二向量，确定所述样本文本特征”，具体为：将所述第一字符对应的第二向量作为所述样本文本特征。

上述第二网络具体可采用Bert模型来实现。Bert模型可以并行处理，缩短数据处理时间；并且是双向语言模型，能够实现上下文语义关系的融合，提高文本特征的表达能力。

当然，在实际应用时，第二网络还可为基于transformer的GPT、基于transformer的GPT-2以及XLNet模型。

进一步的，上述样本语音中可包括多个样本音频帧；多个样本音频帧按序排列。所述样本声学信息中包括所述多个样本音频帧各自对应的帧向量。多个样本音频帧各自对应的帧向量可由上述ASR解码器中的声学模型获取得到。上述“对所述样本声学信息进行特征提取，得到样本声学特征”，具体可采用如下步骤来实现：

S71、堆叠所述多个样本音频帧各自对应的帧向量，得到样本音频矩阵。

S72、对所述样本音频矩阵进行卷积处理，得到至少一个样本卷积后矩阵。

S73、根据所述至少一个样本卷积后矩阵，得到所述样本声学特征。

上述S71中，样本音频矩阵中的每一行向量或每一列向量即为多个样本音频帧中一样本音频帧对应的帧向量。

上述S72中，第一网络中可包括一卷积层，利用卷积层对样本音频矩阵进行卷积处理，得到至少一个卷积后矩阵。

在一种可实现的方案中，上述S73中，可分别对至少一个样本卷积后矩阵中各样本卷积后矩阵在列向量上进行池化(pooling)操作，得到多个样本池化后向量；将多个样本池化后向量进行拼接得到样本声学特征。

举例来说：至少一个样本卷积后矩阵的数量为N个；样本卷积后矩阵的尺寸为h*w，池化后得到w维的样本池化后向量；再将N个w维的样本池化后向量进行拼接得到(N*w)维的样本声学特征向量，即上述样本声学特征。

上述步骤S71、S72和S73实现了对多个样本音频帧各自对应的帧向量的并行处理，得到样本声学特征，可缩短数据处理时间。上述第一网络具体可以为卷积神经网络(Convolutional Neural Networks，CNN)，具体可以为具有一层卷积层的卷积神经网络。当然，上述第一网络还可以为transformer网络。

进一步的，上述“根据所述样本融合特征，检测所述样本语音是否结束”，具体可采用如下步骤来实现：

S81、根据所述样本融合特征，对所述样本语音进行分类。

S82、根据分类结果，确定所述样本语音是否结束。

上述第三网络中还可包括二分类网络；该二分类网络中可包括两个全连接层和分类器。将上述样本融合特征输入至该两个全连接层中进行全连接操作，得到全连接结果；将全连接结果输入至分类器，由分类器进行分类。例如：可事先定义结束为1类；未结束为0类。分类器会输出属于1类的概率以及属于0类的概率。当属于1类的概率大于属于0类的概率，则表明样本语音结束；当属于0类的概率大于属于1类的概率，则表明样本语音未结束。

图3示出了本申请又一实例提供的语音处理方法的流程示意图。该方法，适于服务端。其中，服务端可以是常用服务器、云端或虚拟服务器等，本申请实施例对此不作具体限定。如图3所示，该方法包括：

301、接收到客户端发送的检测请求后，对所述客户端发送来的其采集到的待识别语音进行语音识别，得到声学信息和文本信息；

302、根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果。

其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；根据所述融合特征，检测所述待识别语音是否结束；

303、根据所述检测结果，执行相应操作。

上述301中，客户端可每隔预设时间间隔向服务端发送一次检测请求，也可在每次向服务端发送检测请求时携带上在当前预设时间间隔内采集到的语音信息。

在另一实例中，客户端还可根据采集到的所述待识别语音，采用语音端点检测技术，检测当前静默时长；根据所述当前静默时长，确定是否向所述服务端发送检测请求。其中，所述根据所述当前静默时长，确定是否向所述服务端发送检测请求，具体包括：获取上一次触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤的触发时间点；确定所述触发时间点距当前时刻的时间间隔；所述时间间隔大于所述当前静默时长、且所述当前静默时长达到第一预设时长时，确定向所述服务端发送检测请求；所述时间间隔小于所述当前静默时长、且所述时间间隔达到所述第一预设时长时，确定向所述服务端发送检测请求。

进一步的，所述根据所述当前静默时长，确定是否向所述服务端发送检测请求，可包括：

S91、获取当前语音处理模式。

S92、所述当前语音处理模式为第一语音处理模式时，根据所述当前静默时长，确定是否向所述服务端发送检测请求。

上述S91中，可事先为客户端设置至少两种语音处理模式。在一实例中，至少两种语音处理模式包括：第一语音处理模式和第二语音处理模式。在一实例中，至少两种语音处理模式可供用户自主选择，以提高用户使用体验；在另一实例中，可根据实际情况，从至少两种语音处理模式中确定出合适的语音处理模式，以提高检测效率。

其中，第一语音处理模式具体可以为远端(即服务端)处理模式，即请求服务端进行语音是否结束的检测。第二语音处理模型具体可以为本端(即客户端)处理模式，即在客户端本地进行语音是否结束的检测。

上述S92中“根据所述当前静默时长，确定是否向所述服务端发送检测请求”的具体实现可参见上述实施例中相应内容，在此不再赘述。

在一实例中，上述S91中“获取当前语音处理模式”，具体可采用如下步骤来实现：

S911a、获取用户信息。

S912a、根据用户信息，确定当前语音处理模式。

其中，用户信息可以为用户配置信息或用户行为习惯信息，其中，用户行为习惯信息中可包括用户历史上使用次数最多的语音处理模式。

当用户信息为用户配置信息时，可在客户端界面显示语音处理模式的配置界面，在所述配置界面显示所述至少两种语音处理模式，以供用户选择，根据用户在所述配置界面选中的语音处理模式，生成所述用户配置信息，所述用户配置信息中记录有用户选中的语音处理模式。

在另一实例中，上述S91中“获取当前语音处理模式”，具体可采用如下步骤来实现：

S911b、判断所述待识别语音是否满足第一预设条件。

S912b、所述待识别语音满足所述第一预设条件时，确定当前语音处理模式为所述第一语音处理模式。

在一种可实现的方案中，上述S911b中，可确定待识别语音中是否存在环境噪声；待识别语音中存在环境噪声时，判定待识别语音满足第一预设条件。通常，存在环境噪声时，本端语音处理模式的检测准确率会大幅度降低，故需要采用远端语音处理模式以提高检测准确率。当待识别语音中不存在环境噪声时，则判定待识别语音不满足第一预设条件。

上述S91中“获取当前语音处理模式”，还可包括：

S913b、所述待识别语音不满足第一预设条件时，确定当前语音处理模式为第二语音处理模式。

进一步的，上述方法，还可包括：

304、所述当前语音处理模式为第二语音处理模式时，根据所述当前静默时长，确定所述待识别语音是否结束。

具体地，可预先设置一个第三预设时长，当前静默时长小于或等于第三预设时长时，确定待识别语音未结束；当前静默时长大于第三预设时长时，确定待识别语音结束。

其中，第三预设时长可根据实际需要来设定，例如：第三预设时长为700ms。

上述301中“对所述客户端发送来的其采集到的待识别语音进行语音识别，得到声学信息和文本信息”的具体实现可参见上述各实施例中相应内容，在此不再赘述。

上述302和303的具体实现可参见上述各实施例中相应内容，在此不再赘述。

进一步的，上述303中“根据所述检测结果，执行相应操作”，具体为：所述检测结果表明所述待识别语音结束时，向所述客户端发送语音结束信号和所述文本信息，以使所述客户端关闭用于采集语音的语音采集单元，并根据所述文本信息，执行相应的任务响应。其中，语音结束信号也即是关闭语音采集单元的指令。

这里需要说明的是：本申请实施例提供的所述方法中各步骤未尽详述的内容可参见上述实施例中的相应内容，此处不再赘述。此外，本申请实施例提供的所述方法中除了上述各步骤以外，还可包括上述各实施例中其他部分或全部步骤，具体可参见上述各实施例相应内容，在此不再赘述。

图4示出了本申请又一实例提供的语音处理方法的流程示意图。该方法，适于客户端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备、智能音箱等任意终端设备。如图4所示，该方法，包括：

401、向服务端发送检测请求以及采集到的待识别语音，以使所述服务端接收到客户端发送的检测请求后，对所述待识别语音进行语音识别，得到声学信息和文本信息；根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果；并当检测到所述待识别语音结束时，向所述客户端发送语音结束信号；其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；根据所述融合特征，检测所述待识别语音是否结束；。

402、接收到所述服务端发送的语音结束信号后，执行相应的响应操作。

上述401中，客户端可每隔预设时间间隔向服务端发送检测请求，并可在向服务端发送检测请求时携带上当前预设时间间隔内采集到的语音。

在另一实例中，上述方法，还可包括：

403、根据采集到的所述待识别语音，采用语音端点检测技术，检测当前静默时长。

404、根据所述当前静默时长，确定是否向所述服务端发送检测请求。

上述403和404的具体实现可参见上述各实施例中相应内容，在此不再赘述。

上述402中，接收到所述服务端发送的语音结束信号后，可执行关闭用于采集语音的语音采集单元的操作。此外，服务端还可在发送语音结束信号时携带上文本信息，这样，客户端还可根据文本信息，执行相应的任务响应。

上述401和402的具体实现可参见上述各实施例中的相应内容，在此不再赘述。

在实际应用时，上述待识别语音具体可以为用户点餐语音。例如：在饭店中，用户面对机器人进行点餐，告知机器人其想要点的菜肴。具体地，上述语音处理方法，包括：

A、对采集到的用户点餐语音进行语音识别，得到声学信息和文本信息。

B、根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果。

其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；并根据所述融合特征，检测所述待识别语音是否结束；

C、检测出所述用户点餐语音结束时，根据所述文本信息，记录用户点餐内容。

上述步骤A和B的具体实现可参见上述各实施例中相应内容。

本申请实施例还提供了一种界面显示方法。该方法，适于客户端。其中，所述客户端可以是集成在终端上的一个具有嵌入式程序的硬件，也可以是安装在终端中的一个应用软件，还可以是嵌入在终端操作系统中的工具软件等，本申请实施例对此不作限定。该终端可以为包括手机、平板电脑、智能穿戴设备、智能音箱等任意终端设备。该方法，包括：

X、显示语音处理界面。

Y、对采集到的待识别语音进行语音识别，得到声学信息和文本信息的过程中，在所述语音处理界面显示第一提示信息。

Z、根据所述声学信息和所述文本信息，利用训练好的检测模型获得有关所述待识别语音是否结束的检测结果的过程中，在所述语音处理界面显示第二提示信息。

上述步骤X中，可在用户的触发指令下，显示语音处理界面。具体地，根据用户发出的唤醒词，生成所述触发指令；或者，根据用户针对第一界面的语音录入控件的触发操作，生成所述触发指令。

上述步骤Y中，在用户的触发指令下，显示语音处理界面的同时，可开启语音采集单元进行语音采集。

在语音识别过程中，可在语音处理界面显示第一提示信息。第一提示信息用于提醒用户当前处于语音识别过程中。第一提示信息例如可以为“语音识别中”。

其中，对采集到的待识别语音进行语音识别，得到声学信息和文本信息的过程具体可参见上述各实施例中相应内容，在此不再赘述。

上述步骤Z中，在利用训练好的检测模型获得有关所述待识别语音是否结束的检测结果的过程中，在所述语音处理界面显示第二提示信息。第二提示信息用于提醒用户当前处于语音是否结束的检测过程中。第二提示信息具体可以为“句尾检测中”。

其中，第一提示信息和第二提示信息不同。

本申请实施例中提供的技术方案中，在不同的语音处理过程中，会在语音处理界面对应显示不同的提示信息，能够让用户清晰地了解到当前处理进度，提高用户体验。

在一种可实现的方案中，检测模型可以为上述各实施例中提及的检测模型。即所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；并根据所述融合特征，检测所述待识别语音是否结束。

所述检测模型的具体实现过程可参见上述各实施例中相应内容，在此不再赘述。

进一步的，上述方法，还可包括：

T、获得所述检测结果后，在所述语音处理界面显示所述检测结果。

例如：所述检测结果为待识别语音结束时，在语音处理界面显示“语音结束”；所述检测结果为待识别语音未结束时，在语音处理界面显示“语音未结束”。

图5示出了本申请又一实施例提供的语音处理装置的流程示意图。如图5所示，该装置包括：

第一识别模块501，用于对采集到的待识别语音进行语音识别，得到声学信息和文本信息；

第一获取模块502，用于根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果；其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；并根据所述融合特征，检测所述待识别语音是否结束；

第一执行模块503，用于根据所述检测结果，执行相应操作。

进一步的，上述装置，还可包括：

第一检测模块，用于根据采集到的所述待识别语音，采用语音端点检测技术，检测当前静默时长；

第一确定模块，用于根据所述当前静默时长，确定是否触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤。

进一步的，上述第一确定模块，具体用于：

获取上一次触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤的触发时间点；

确定所述触发时间点距当前时刻的时间间隔；

所述时间间隔大于所述当前静默时长、且所述当前静默时长达到第一预设时长时，触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤；

所述时间间隔小于所述当前静默时长、且所述时间间隔达到所述第一预设时长时，触发所述对采集到的待识别语音进行语音识别，得到声学信息和文本信息的步骤。

进一步的，上述装置，还可包括：

第一判定模块，用于当前静默时长大于第二预设时长时，判定所述待识别语音结束。

进一步的，上述第一执行模块，具体用于：

所述检测结果表明所述待识别语音结束时，执行关闭用于采集语音的语音采集单元的操作。

这里需要说明的是：上述实施例提供的语音处理装置可实现上述各方法实施例中描述的技术方案与技术效果，上述各模块、检测模型具体实现及原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图6示出了本申请又一实施例提供的模型训练装置的流程示意图。如图6所示，该装置包括：

第二获取模块601，用于获取样本语音对应的样本声学信息和样本文本信息；

第三获取模块602，用于根据所述样本声学信息和样本文本信息，利用检测模型获得实际检测结果；其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述样本声学信息进行特征提取，得到样本声学特征；所述第二网络用于对所述样本文本信息进行特征提取，得到样本文本特征；所述第三网络用于融合所述样本声学特征和所述样本文本特征，得到样本融合特征；根据所述样本融合特征，检测所述样本语音是否结束；

第一优化模块603，用于根据所述实际检测结果以及所述样本语音对应的期望检测结果，对所述检测模型进行参数优化；

其中，所述检测模型用于识别待识别语音是否结束。

进一步的，所述第二获取模块601，还用于：

获取训练语音；

对所述训练语音进行语音端点检测，得到所述训练语音的语音端点检测结果；

所述待识别语音端点检测结果中第一静默部分的静默时长大于第一预设时长时，在所述训练语音中所述第一静默部分对应的第一语音片段中确定第一截取音频帧；

从所述训练语音中，截取所述第一截取音频帧及位于其之前的第二语音片段，得到所述样本语音。

进一步的，所述第二获取模块601，还用于：

对所述训练语音进行语音识别，得到训练文本信息；

对所述样本语音进行语音识别，得到所述样本文本信息；

根据所述样本文本信息与所述训练文本信息是否相同，确定所述样本语音对应的期望检测结果。

进一步的，上述装置，还可包括：

预训练模块，用于利用文本训练库，对所述第二网络进行预训练；

其中，所述文本训练库中包括多个训练文本及其对应的训练标签。

这里需要说明的是：上述实施例提供的模型训练装置可实现上述各方法实施例中描述的技术方案与技术效果，上述各模块、检测模型具体实现及原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图5示出了本申请又一实施例提供的语音处理装置的流程示意图。该装置设置在服务端侧。如图5所示，该装置包括：

第一识别模块501，用于接收到客户端发送的检测请求后，对所述客户端发送来的其采集到的待识别语音进行语音识别，得到声学信息和文本信息。

第一获取模块502，用于根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果。

其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；根据所述融合特征，检测所述待识别语音是否结束。

第一执行模块503，用于根据所述检测结果，执行相应操作。

进一步的，第一执行模块503，具体用于：所述检测结果表明所述待识别语音结束时，向所述客户端发送语音结束信号和所述文本信息，以使所述客户端关闭用于采集语音的语音采集单元，并根据所述文本信息，执行相应的任务响应。

图7示出了本申请又一实施例提供的语音处理装置的结构框图。该装置，设置在客户端侧。如图7所示，该装置包括：

第一发送模块701，用于向服务端发送检测请求以及采集到的待识别语音，以使所述服务端接收到客户端发送的检测请求后，对所述待识别语音进行语音识别，得到声学信息和文本信息；根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果；并当检测到所述待识别语音结束时，向所述客户端发送语音结束信号；其中，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；根据所述融合特征，检测所述待识别语音是否结束；

第二执行模块702，用于接收到所述服务端发送的语音结束信号后，执行相应的响应操作。

进一步的，上述装置，还可包括：

第二检测模块，用于根据采集到的所述待识别语音，采用语音端点检测技术，检测当前静默时长；

第二确定模块，用于根据所述当前静默时长，确定是否向所述服务端发送检测请求。

进一步的，所述第二确定模块，具体用于：

获取当前语音处理模式；

所述当前语音处理模式为第一语音处理模式时，根据所述当前静默时长，确定是否向所述服务端发送检测请求。

进一步的，所述第二确定模块，具体用于：

获取用户信息；

根据用户信息，确定当前语音处理模式。

进一步的，所述第二确定模块，具体用于：

判断所述待识别语音是否满足第一预设条件；

所述待识别语音满足所述第一预设条件时，确定当前语音处理模式为所述第一语音处理模式。

进一步的，上述装置，还包括：

第三确定模块，用于所述当前语音处理模式为第二语音处理模式时，根据所述当前静默时长，确定所述待识别语音是否结束。

本申请又一实施例提供的语音处理装置的结构框图。该装置包括：

第二识别模块，用于对采集到的用户点餐语音进行语音识别，得到声学信息和文本信息。

第四获取模块，用于根据所述声学信息和所述文本信息，利用训练好的检测模型获得检测结果。

第一记录模块，用于检测出所述用户点餐语音结束时，根据所述文本信息，记录用户点餐内容。

本申请又一实施例提供的界面显示装置的结构框图。该装置包括：

第一显示模块，用于显示语音处理界面；

第二显示模块，用于对采集到的待识别语音进行语音识别，得到声学信息和文本信息的过程中，在所述语音处理界面显示第一提示信息；

第三显示模块，用于根据所述声学信息和所述文本信息，利用训练好的检测模型获得有关所述待识别语音是否结束的检测结果的过程中，在所述语音处理界面显示第二提示信息。

进一步的，所述检测模型包括第一网络、第二网络以及第三网络；所述第一网络用于对所述声学信息进行特征提取，得到声学特征；所述第二网络用于对所述文本信息进行特征提取，得到文本特征；所述第三网络用于融合所述声学特征和所述文本特征，得到融合特征；并根据所述融合特征，检测所述待识别语音是否结束。

进一步的，上述装置，还包括：

第四显示模块，用于获得所述检测结果后，在所述语音处理界面显示所述检测结果。

这里需要说明的是：上述实施例提供的界面显示装置可实现上述各方法实施例中描述的技术方案与技术效果，上述各模块、检测模型具体实现及原理可参见上述各方法实施例中的相应内容，此处不再赘述。

图8示出了本申请一实施例提供的电子设备的结构示意图。如图8所示，所述电子设备包括存储器1101以及处理器1102。存储器1101可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令。存储器1101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

所述存储器1101，用于存储程序；

所述处理器1102，与所述存储器1101耦合，用于执行所述存储器1101中存储的所述程序，以实现上述各方法实施例提供的语音处理方法、模型训练方法或界面显示方法。

进一步，如图8所示，电子设备还包括：通信组件1103、显示器1104、电源组件1105、音频组件1106等其它组件。图8中仅示意性给出部分组件，并不意味着电子设备只包括图8所示组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各方法实施例提供的语音处理方法、模型训练方法、界面显示方法中各方法的步骤或功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：袁园;胡于响;姜飞俊;
专利申请人：阿里巴巴集团控股有限公司;