导航：首页> 发电、变电或配电>一种语音端点检测方法、装置及存储介质

一种语音端点检测方法、装置及存储介质

文献发布时间：2023-06-19 19:38:38

技术领域

本申请涉及通信技术领域，尤其涉及一种语音端点检测方法、装置及存储介质。

背景技术

语音端点检测技术(voice activity detection，VAD)可以从音频流中检测出有效音频片段，识别有效语音的开始、结束位置，将实际语音与静音片段区分开来，是智能语音识别、语音交互系统中的重要组成部分。

目前，随着人机交互技术的推广和应用，针对人机交互场景下的语音端点检测方法主要是利用单一的音频数据或者结合音频和图像(人脸)数据进行语音端点检测，识别用户每轮对话的结束点。

但是，通用方法在人机交互场景中很容易将用户在对话时由于思考或者其他原因产生的停顿检测为结束位置，或者由于环境中其他人声的影响，认为对话未结束。因此，通用方法对应的语音端点检测的准确率低，影响用户的交互体验。

发明内容

本申请提供一种语音端点检测方法、装置及存储介质，用于解决通用方法中语音端点检测准确率较低的问题。

为达到上述目的，本申请采用如下技术方案：

第一方面，提供一种语音端点检测方法，包括：在获取到目标对象的原始对话数据之后，可以对原始对话数据进行预处理操作，得到处理后的目标对话数据，然后，将目标对话数据输入预先训练好的目标语音端点检测模型，可以得到有效语音的语音端点。其中，原始对话数据包括：音频数据和视频数据中的至少一种，目标语音端点检测模型是根据样本对话数据训练得到的。

可选的，该语音端点检测方法，还包括：获取历史时间段内的多个对象的历史对话数据；对历史对话数据进行预处理操作，得到样本对话数据；样本对话数据对应预先确定的样本语音端点；根据样本对话数据和样本语音端点，训练初始语音端点检测模型，得到目标语音端点检测模型。

可选的，当原始对话数据包括音频数据时，目标对话数据包括：音频数据对应的文本数据；对原始对话数据进行预处理操作，得到处理后的目标对话数据的方法，包括：对音频数据执行特征提取操作，得到音频数据对应的音频特征参数；识别音频特征参数中的文本信息，并将文本信息进行格式转化，得到文本数据。

可选的，当原始对话数据包括视频数据时，目标对话数据包括：视频数据对应的图像数据；对原始对话数据进行预处理操作，得到处理后的目标对话数据的方法，包括：从视频数据中获取多个图像帧；根据多个图像帧，确定图像数据；图像数据包括：多个图像帧中，显示发声位置的目标区域。

第二方面，提供一种语音端点检测装置，包括：获取单元和处理单元；获取单元，用于获取目标对象的原始对话数据；原始对话数据包括：音频数据和视频数据中的至少一种；处理单元，用于对原始对话数据进行预处理操作，得到处理后的目标对话数据；处理单元，还用于将目标对话数据输入预先训练好的目标语音端点检测模型，得到原始对话数据中，有效语音的语音端点；目标语音端点检测模型是根据样本对话数据训练得到的。

可选的，获取单元，还用于：获取历史时间段内的多个对象的历史对话数据；处理单元，还用于对历史对话数据进行预处理操作，得到样本对话数据；样本对话数据对应预先确定的样本语音端点；处理单元，还用于根据样本对话数据和样本语音端点，训练初始语音端点检测模型，得到目标语音端点检测模型。

可选的，当原始对话数据包括音频数据时，目标对话数据包括：音频数据对应的文本数据；处理单元，具体用于：对音频数据执行特征提取操作，得到音频数据对应的音频特征参数；识别音频特征参数中的文本信息，并将文本信息进行格式转化，得到文本数据。

可选的，当原始对话数据包括视频数据时，目标对话数据包括：视频数据对应的图像数据；处理单元，具体用于：从视频数据中获取多个图像帧；根据多个图像帧，确定图像数据；图像数据包括：多个图像帧中，显示发声位置的目标区域。

第三方面，提供一种语音端点检测装置，包括存储器和处理器；存储器用于存储计算机执行指令，处理器与存储器通过总线连接；当语音端点检测装置运行时，处理器执行存储器存储的计算机执行指令，以使语音端点检测装置执行第一方面所述的语音端点检测方法。

该语音端点检测装置可以是网络设备，也可以是网络设备中的一部分装置，例如网络设备中的芯片系统。该芯片系统用于支持网络设备实现第一方面及其任意一种可能的实现方式中所涉及的功能，例如，获取、确定、发送上述语音端点检测方法中所涉及的数据和/或信息。该芯片系统包括芯片，也可以包括其他分立器件或电路结构。

第四方面，提供一种计算机可读存储介质，计算机可读存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得该计算机执行第一方面所述的语音端点检测方法。

第五方面，还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在语音端点检测装置上运行时，使得语音端点检测装置执行如上述第一方面所述的语音端点检测方法。

需要说明的是，上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中，第一计算机可读存储介质可以与语音端点检测装置的处理器封装在一起的，也可以与语音端点检测装置的处理器单独封装，本申请对此不作限定。

本申请中第二方面、第三方面、第四方面以及第五方面的描述，可以参考第一方面的详细描述；并且，第二方面、第三方面、第四方面以及第五方面的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。

在本申请中，上述语音端点检测装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本申请类似，属于本申请权利要求及其等同技术的范围之内。

本申请的这些方面或其他方面在以下的描述中会更加简明易懂。

本申请提供的技术方案至少带来以下有益效果：

基于上述任一方面，本申请提供了一种语音端点检测方法，在获取到目标对象的原始对话数据之后，可以对原始对话数据进行预处理操作，得到处理后的目标对话数据，然后，将目标对话数据输入预先训练好的目标语音端点检测模型，可以得到有效语音的语音端点。由于原始对话数据包括：音频数据和视频数据中的至少一种，目标语音端点检测模型是根据样本对话数据训练得到的，因此，本申请中的目标语音端点检测模型可以通过多模态，实现原始对话数据中有效语音的语音端点的确定，从而提高语音端点检测的准确率，给用户带来更佳的体验。

附图说明

图1为本申请实施例提供的一种语音端点检测系统的结构示意图；

图2为本申请实施例提供的一种语音端点检测设备的结构示意图；

图3为本申请实施例提供的一种语音端点检测装置的硬件结构示意图一；

图4为本申请实施例提供的一种语音端点检测装置的硬件结构示意图二；

图5为本申请实施例提供的一种语音端点检测方法的流程示意图一；

图6为本申请实施例提供的一种语音端点检测方法的流程示意图二；

图7为本申请实施例提供的一种语音端点检测方法的流程示意图三；

图8为本申请实施例提供的一种语音端点检测方法的流程示意图四；

图9为本申请实施例提供的一种语音端点检测方法的流程示意图五；

图10为本申请实施例提供的一种语音端点检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

为了便于清楚描述本申请实施例的技术方案，在本申请实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。

如背景技术所示，通用方法在人机交互场景中很容易将用户在对话时由于思考或者其他原因产生的停顿检测为结束位置，或者由于环境中其他人声的影响，认为对话未结束。因此，通用方法对应的语音端点检测的准确率低，影响用户的交互体验。

本申请实施例提供了一种语音端点检测方法，在获取到目标对象的原始对话数据之后，可以对原始对话数据进行预处理操作，得到处理后的目标对话数据，然后，将目标对话数据输入预先训练好的目标语音端点检测模型，可以得到有效语音的语音端点。由于原始对话数据包括：音频数据和视频数据中的至少一种，目标语音端点检测模型是根据样本对话数据训练得到的，因此，本申请中的目标语音端点检测模型可以通过多模态，实现原始对话数据中有效语音的语音端点的确定，从而提高语音端点检测的准确率，给用户带来更佳的体验。

该语音端点检测方法适用于语音端点检测系统。图1示出了一种语音端点检测系统的结构示意图。如图1所示，该语音端点检测系统包括：数据获取设备101、语音端点检测设备102。

可选的，数据获取设备101与语音端点检测设备102之间可以通过有线或无线的方式连接。

可选的，该语音端点检测系统可应用于人机对话场景、例如，服务机器人、车载语音等。此时，语音端点检测设备102还可以连接人机交互设备。其中，人机交互设备用于根据数据获取设备101确定的有效语音，确定回复内容，并在回复节点输出回复内容。回复节点为语音端点检测设备102确定的语音端点的结束位置。

可选的，数据获取设备101和语音端点检测设备102均可以为人机交互设备内部的功能模块，也可以分别部署在与人机交互设备相互独立设置的设备上。

容易理解的是，当数据获取设备101和语音端点检测设备102均是人机交互设备内部的功能模块时，数据获取设备101和语音端点检测设备102之间的交互方式为人机交互设备内部模块之间的交互。这种情况下，二者之间的交互流程与“数据获取设备101和语音端点检测设备102均部署在与人机交互设备相互独立设置的设备上”的情况下的二者的交互流程相同。

在一种实施例中，数据获取设备101可以用于获取音频数据和视频数据，例如，可以同时采集音频的摄像设备等设备。

在一种实施例中，语音端点检测设备102用于对数据获取设备101获取到的原始对话数据进行语音端点检测。

可选的，语音端点检测设备102可以是一个功能实体，物理实体可位于某个交互设备上，也可以是一个独立的服务器或者其他形态的物理设备。本申请对于语音端点检测设备102的具体实体形态不作限定。

当语音端点检测设备102为独立的物理设备时，该物理设备可以是服务器集群(由多个服务器组成)中的一个服务器，也可以是物理设备中的芯片，还可以是物理设备中的片上系统，还可以通过部署在物理机上的虚拟机实现，本申请实施例对此不作限定。结合图1，如图2所示，语音端点检测设备102可以包括：数据预处理装置201、模型训练装置202和语音端点检测装置203。

其中，数据预处理装置201可以包括：用于处理音频数据的音频处理模块211和语音识别模块212、用于处理文本数据的文本处理模块213、用于处理视频数据的视频处理模块214和图像处理模块215。

模型训练装置202可以包括：样本数据获取模块221、模型训练模块222。

语音端点检测装置203可以包括：模型检测模块231。

结合图1，语音端点检测系统中的数据获取设备101与语音端点检测设备102均包括图3或图4所示通信装置所包括的元件。下面以图3和图4所示的通信装置为例，介绍数据获取设备101与语音端点检测设备102的硬件结构。

如图3所示，为本申请实施例提供的通信装置的一种硬件结构示意图。该通信装置包括处理器21，存储器22、通信接口23、总线24。处理器21，存储器22以及通信接口23之间可以通过总线24连接。

处理器21是通信装置的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器21可以是一个通用中央处理单元(central processing unit，CPU)，也可以是其他通用处理器等。其中，通用处理器可以是微处理器或者是任何常规的处理器等。

作为一种实施例，处理器21可以包括一个或多个CPU，例如图3中所示的CPU 0和CPU 1。

存储器22可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

一种可能的实现方式中，存储器22可以独立于处理器21存在，存储器22可以通过总线24与处理器21相连接，用于存储指令或者程序代码。处理器21调用并执行存储器22中存储的指令或程序代码时，能够实现本发明下述实施例提供的语音端点检测方法。

另一种可能的实现方式中，存储器22也可以和处理器21集成在一起。

通信接口23，用于通信装置与其他设备通过通信网络连接，所述通信网络可以是以太网，无线接入网，无线局域网(wireless local area networks，WLAN)等。通信接口23可以包括用于接收数据的接收单元，以及用于发送数据的发送单元。

总线24，可以是工业标准体系结构(industry standard architecture，ISA)总线、外部设备互连(peripheral component interconnect，PCI)总线或扩展工业标准体系结构(extended industry standard architecture，EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

图4示出了本发明实施例中通信装置的另一种硬件结构。如图4所示，通信装置可以包括处理器31以及通信接口32。处理器31与通信接口32耦合。

处理器31的功能可以参考上述处理器21的描述。此外，处理器31还具备存储功能，可以起上述存储器22的功能。

通信接口32用于为处理器31提供数据。该通信接口32可以是通信装置的内部接口，也可以是通信装置对外的接口(相当于通信接口23)。

需要指出的是，图3(或图4)中示出的结构并不构成对通信装置的限定，除图3(或图4)所示部件之外，该通信装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合附图对本申请实施例提供的语音端点检测方法进行详细介绍。

如图5所示，该语音端点检测方法包括：

S501、语音端点检测设备获取目标对象的原始对话数据。

可选的，原始对话数据包括：音频数据和视频数据中的至少一种。

在一种可以实现的方式中，结合图1，在人机对话场景中，目标对象发出语音指令或提出问题时，面部会产生动作，同时发出声音，此时，数据获取设备101可以接收到目标对象的原始对话数据，并向语音端点检测设备102发送原始对话数据。相应的，语音端点检测设备可以获取到目标对象的原始对话数据。

S502、语音端点检测设备对原始对话数据进行预处理操作，得到处理后的目标对话数据。

可选的，当原始对话数据包括音频数据时，目标对话数据包括：音频数据对应的文本数据。当原始对话数据包括视频数据时，目标对话数据包括：视频数据对应的图像数据。

在一种可以实现的方式中，在人机对话场景中，可能存在除有效语音以外的环境噪音，以及背景环境的图像变化等，例如，场景中的其他人声和动作。因此，语音端点检测设备需要对原始对话数据进行预处理操作，减少环境影响，以使得对处理后的目标对话数据进行语音端点确定的准确率更高。

在一种可以实现的方式中，预处理操作包括：语音端点检测设备对音频数据执行特征提取操作，得到音频数据对应的音频特征参数。然后，识别音频特征参数中的文本信息，并将文本信息进行格式转化，得到文本数据。

在另一种可以实现的方式中，预处理操作还包括：从视频数据中获取多个图像帧。根据多个图像帧，确定包括发声位置的图像数据。

S503、语音端点检测设备将目标对话数据输入预先训练好的目标语音端点检测模型，得到原始对话数据中，有效语音的语音端点。

其中，目标语音端点检测模型是根据样本对话数据训练得到的。

在一种可以实现的方式中，根据目标语音端点检测模型，得到的语音端点可以作为人机交互场景中机器人的回复节点。

上述实施例提供的技术方案至少带来以下有益效果：由S501-S503可知，在获取到目标对象的原始对话数据之后，可以对原始对话数据进行预处理操作，得到处理后的目标对话数据，然后，将目标对话数据输入预先训练好的目标语音端点检测模型，可以得到有效语音的语音端点。由于原始对话数据包括：音频数据和视频数据中的至少一种，目标语音端点检测模型是根据样本对话数据训练得到的，因此，本申请中的目标语音端点检测模型可以通过多模态，实现原始对话数据中有效语音的语音端点的确定，从而提高语音端点检测的准确率，给用户带来更佳的体验。

在一种可选的实施例中，在图5实施例所示的方法基础上，如图6所示，该语音端点检测方法，还包括：

S601、语音端点检测设备获取历史时间段内的多个对象的历史对话数据。

可选的，多个对象可以包括目标对象。

在一种可以实现的方式中，语音端点检测设备获取历史对话数据的方法可以包括：语音端点检测设备从网络中获取大量的对话数据，作为历史对话数据。另外，语音端点检测设备还可以将历史对话过程中的对话数据作为历史对话数据。

S602、语音端点检测设备对历史对话数据进行预处理操作，得到样本对话数据。

其中，样本对话数据对应预先确定的样本语音端点。

在一种可以实现的方式中，可以人工对样本对话数据的语音端点进行标注，得到与样本对话数据对应的样本语音端点。

S603、语音端点检测设备根据样本对话数据和样本语音端点，训练初始语音端点检测模型，得到目标语音端点检测模型。

在一种可以实现的方式中，语音端点检测设备可以选取多模态预训练模型作为初始语音端点检测模型，可以充分融合并提取多种类型的输入数据的编码特征。当初始语音端点检测模型根据样本对话数据和样本语音端点完成训练之后，还可以针对特定领域或特定任务对模型参数进行调整，以提高模型准确率。

上述实施例提供的技术方案至少带来以下有益效果：由S601-S603可知，语音端点检测设备可以获取到历史时间段内的多个对象的历史对话数据，然后对历史对话数据进行预处理操作，得到样本对话数据，并根据样本对话数据和样本语音端点，训练初始语音端点检测模型，得到目标语音端点检测模型。本申请实施例提供一种训练语音端点检测模型的方法，以使得后续可以通过目标语音端点检测模型对目标对话数据进行语音端点的确定。

在一种可选的实施例中，结合图5，如图7所示，当原始对话数据包括音频数据时，目标对话数据包括：音频数据对应的文本数据的情况下，S502中，语音端点检测设备对原始对话数据进行预处理操作，得到处理后的目标对话数据的方法包括：

S701、语音端点检测设备对音频数据执行特征提取操作，得到音频数据对应的音频特征参数。

在一种可以实现的方式中，语音端点检测设备可以将音频数据转换为预先设定的符合模型输入的数据格式，并提取音频特征，例如，梅尔(Mel)频率倒谱系数(Melfrequency cepstrum coefficient，MFCC)、滤波器组(filter bank，FBank)、Log-FBank等。

S702、语音端点检测设备识别音频特征参数中的文本信息，并将文本信息进行格式转化，得到文本数据。

在一种可以实现的方式中，语音端点检测设备可以将提取到的音频特征通过语音识别模型转写为文本，得到的文本内容输入到文本数据处理通道中进行数值化，将文字转化为模型可识别的数值，以使得每个数字仅可与一个文字形成唯一映射关系。其中，语音识别模型可以使用自动语音识别技术(automatic speech recognition，ASR)模型，然后选择适当的开源模型完成识别。

上述实施例提供的技术方案至少带来以下有益效果：由S701-S702可知，语音端点检测设备可以对音频数据执行特征提取操作，得到音频数据对应的音频特征参数。然后，可以识别音频特征参数中的文本信息，并将文本信息进行格式转化，得到文本数据。本申请实施例提供一种对音频数据进行预处理的方法，以使得处理后的音频数据符合模型输入的要求。

在一种可选的实施例中，结合图5，如图8所示，当原始对话数据包括视频数据时，目标对话数据包括：视频数据对应的图像数据的情况下，S502中，语音端点检测设备对原始对话数据进行预处理操作，得到处理后的目标对话数据的方法，包括：

S801、语音端点检测设备从视频数据中获取多个图像帧。

在一种可以实现的方式中，语音端点检测设备可以将视频数据中与音频数据时序顺序对应视频图像按照预设的时间间隔进行截取，得到多个图像帧。

S802、语音端点检测设备根据多个图像帧，确定图像数据。

其中，图像数据包括：多个图像帧中，显示发声位置的目标区域。

在一种可以实现的方式中，语音端点检测设备可以从每个图像帧中提取目标对象的发声位置对应的目标区域，再对提取后的图像进行格式或尺寸的调整，例如归一化、体积压缩等，以适配模型的输入要求。

上述实施例提供的技术方案至少带来以下有益效果：由S801-S802可知，语音端点检测设备可以从视频数据中获取多个图像帧，然后根据多个图像帧，确定图像数据。其中，图像数据包括：多个图像帧中，显示发声位置的目标区域。本申请实施例提供一种对视频数据进行预处理的方法，以使得处理后的视频数据符合模型输入的要求。

下面结合图9对本申请实施例提供的语音端点检测方法进行说明。如图9所示，在人机对话场景中，该语音端点检测方法，包括：

S901、语音端点检测设备获取目标对象的原始对话数据。

S902、语音端点检测设备对原始对话数据进行预处理操作，得到处理后的目标对话数据。

S903、语音端点检测设备将目标对话数据输入预先训练好的目标语音端点检测模型，得到原始对话数据中，有效语音的语音端点。

S904、语音端点检测设备根据语音端点，确定当前对话是否结束。

当语音端点为结束端点时，可以认为当前对话结束。

在当前对话结束时，执行S905。

在当前对话未结束时，重复执行S901-S904。

S905、语音端点检测设备指示人机对话设备输出有效语音对应的回复内容。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对语音端点检测装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。可选的，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图10所示，为本申请实施例提供的一种语音端点检测装置的结构示意图。该语音端点检测装置可以用于执行图5至图9所示的语音端点检测的方法。图10所示语音端点检测装置包括：获取单元1001和处理单元1002。

获取单元1001，用于获取目标对象的原始对话数据；原始对话数据包括：音频数据和视频数据中的至少一种。

处理单元1002，用于对原始对话数据进行预处理操作，得到处理后的目标对话数据。

处理单元1002，还用于将目标对话数据输入预先训练好的目标语音端点检测模型，得到原始对话数据中，有效语音的语音端点；目标语音端点检测模型是根据样本对话数据训练得到的。

可选的，获取单元1001，还用于：获取历史时间段内的多个对象的历史对话数据；处理单元1002，还用于对历史对话数据进行预处理操作，得到样本对话数据；样本对话数据对应预先确定的样本语音端点。

处理单元1002，还用于根据样本对话数据和样本语音端点，训练初始语音端点检测模型，得到目标语音端点检测模型。

可选的，当原始对话数据包括音频数据时，目标对话数据包括：音频数据对应的文本数据；处理单元1002，具体用于：对音频数据执行特征提取操作，得到音频数据对应的音频特征参数；识别音频特征参数中的文本信息，并将文本信息进行格式转化，得到文本数据。

可选的，当原始对话数据包括视频数据时，目标对话数据包括：视频数据对应的图像数据；处理单元1002，具体用于：从视频数据中获取多个图像帧；根据多个图像帧，确定图像数据；图像数据包括：多个图像帧中，显示发声位置的目标区域。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质包括计算机执行指令，当计算机执行指令在计算机上运行时，使得计算机执行如上述实施例提供的语音端点检测方法。

本申请实施例还提供一种计算机程序，该计算机程序可直接加载到存储器中，并含有软件代码，该计算机程序经由计算机载入并执行后能够实现上述实施例提供的语音端点检测方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机可读存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对通常技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：桑海岩;肖思琪;廉士国;
专利申请人：中国联合网络通信集团有限公司;联通数字科技有限公司;

上一篇：一种基于人居环境设计的园林景观喷泉
下一篇：一种瞬时大拖动力矩无刷电机控制系统