语音数据处理方法、装置及电子设备

文献发布时间：2023-06-19 18:35:48

技术领域

本申请涉及语音识别技术领域，具体而言，本申请涉及一种语音数据处理方法、装置、电子设备及计算机可读存储介质。

背景技术

目前，人工智能技术已被广泛应用于语音处理的多种应用场景，例如，人工智能技术可以应用于语音唤醒、语音识别、语音合成等应用场景。其中，在上述应用场景的处理中，通常需要语音识别模型来进行语音信息的识别，然而，目前，语音识别模型识别精度仍然较低，容易出现识别错误或识别失败等情况，给用户带来不便。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一，特别是语音识别模型的语音识别精度较低，导致语音识别的准确度较低的技术缺陷。

根据本申请的一个方面，提供了一种语音数据处理方法，该方法包括：接收第一语音；

基于语音识别模型，对所述第一语音进行语音识别，确定所述第一语音对应的识别信息；其中，所述语音识别模型为基于样本语音数据库中的目标样本语音进行训练得到的，所述目标样本语音为对初始样本语音进行语音检测得到的；其中，所述语音检测包括：语速检测、关键词频次检测以及留白检测中的至少一种；

根据所述识别信息，执行所述第一语音对应的处理操作。

可选的，所述对所述第一语音进行语音识别之前，所述方法还包括：

接收所述初始样本语音；

对所述初始样本语音进行所述语音检测，根据所述语音检测的检测结果，筛选满足预设样本要求的所述初始样本语音作为目标样本语音。

可选的，所述对所述初始样本语音进行所述语音检测，包括：

将所述初始样本语音分割成多个语音帧，确定所述语音帧中的有效语音帧；

筛选连续的有效语音帧的帧数量大于预设数量的语段作为有效语段；

对包括所述有效语段的所述初始样本语音进行所述语音检测。

可选的，所述确定所述语音帧中的有效语音帧，包括：

提取所述语音帧的声学特征；

确定所述语音帧的声学特征符合预设特征条件的情况下，确定所述语音帧为所述有效语音帧。

可选的，在所述语音检测包括留白检测的情况下，所述对所述初始样本语音进行所述语音检测，包括：

确定相邻的所述有效语段之间的间隔时长；

确定所述间隔时长是否在第一标准时长范围之内。

可选的，在所述语音检测包括语速检测的情况下，所述对所述初始样本语音进行所述语音检测，包括：

将所述有效语段的语段时长与第二标准时长范围进行比较，确定所述语段时长是否在所述第二标准时长范围之内。

可选的，在所述语音检测包括关键词频次检测的情况下，所述对所述初始样本语音进行所述语音检测，包括：

对所述有效语段进行语音识别，确定所述有效语段中是否包含目标关键词，以及包含所述目标关键词的有效语段的数量是否大于预设阈值。

可选的，所述根据所述语音检测的检测结果，筛选满足预设样本要求的所述初始样本语音作为目标样本语音，包括：

在所述语音检测包括单项检测的情况下，确定单项检测的检测结果满足预设样本要求的所述初始样本语音作为目标样本语音；

在所述语音检测包括多项检测的情况下，确定多项检测中，至少预设数量的检测结果满足预设样本要求的所述初始样本语音作为目标样本语音。

可选的，在所述接收所述初始样本语音之前，所述方法还包括：

接收第二语音；

确定所述第二语音中包含目标唤醒词的情况下，发送提示语音，和/或显示第一提示信息；

所述提示语音及所述第一提示信息指示开始采集所述初始样本语音；其中，所述第一提示信息中包括以下至少一项:

目标关键词；

目标关键词的采集次数；

目标关键词的之间的间隔时长。

可选的，所述方法还包括：

确定所述初始样本语音不满足预设样本条件的情况下，显示第二提示信息；

所述第二提示信息指示重新采集所述初始样本语音。

根据本申请的另一个方面，提供了一种语音数据处理装置，该装置包括：

接收模块，用于接收第一语音；

识别模块，用于基于语音识别模型，对所述第一语音进行语音识别，确定所述第一语音对应的识别信息；其中，所述语音识别模型为基于样本语音数据库中的目标样本语音进行训练得到的，所述目标样本语音为对初始样本语音进行语音检测得到的；其中，所述语音检测包括：语速检测、关键词频次检测以及留白检测中的至少一种；

执行模块，用于根据所述识别信息，执行所述第一语音对应的处理操作。

根据本申请的另一个方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据本申请的第一方面任一项所述的语音数据处理方法。

例如，本申请的第三方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；

存储器用于存放至少一可执行指令，可执行指令使处理器执行如本申请的第一方面所示的语音数据处理方法对应的操作。

根据本申请的再一个方面，提供了一种计算机可读存储介质，所述计算机程序被处理器执行时实现本申请的第一方面任一项所述的语音数据处理方法。

例如，本申请实施例的第四方面，提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现本申请第一方面所示的语音数据处理方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面的各种可选实现方式中提供的方法。

本申请提供的技术方案带来的有益效果是：

本申请实施例中，在语音识别的过程中，接收第一语音，基于语音识别模型，对所述第一语音进行语音识别，并执行所述第一语音对应的处理操作；其中，语音识别模型训练过程中所采用的目标样本语音是经过语音检测得到的，所述语音检测包括语速检测、关键词频次检测以及留白检测中的至少一种；这样，通过语音检测得到语音质量较高的目标样本语音，从而提高语音识别模型的语音识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种语音数据处理方法的系统架构示意图；

图2为本申请实施例提供的一种语音数据处理方法的流程示意图之一；

图3为本申请实施例提供的一种语音数据处理方法的应用场景示意图之一；

图4为本申请实施例提供的一种语音数据处理方法的应用场景示意图之二；

图5为本申请实施例提供的一种语音数据处理方法的应用场景示意图之三；

图6为本申请实施例提供的一种语音数据处理方法的应用场景示意图之四；

图7为本申请实施例提供的一种语音数据处理方法的应用场景示意图之五；

图8为本申请实施例提供的一种语音数据处理方法的应用场景示意图之六；

图9为本申请实施例提供的一种语音数据处理方法的流程示意图之二；

图10为本申请实施例提供的一种语音数据处理装置的结构示意图；

图11为本申请实施例提供的一种语音数据处理的电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供的语音数据处理方法中的至少部分内容涉及到人工智能领域中的机器学习等领域，还涉及云技术的多种领域，如云技术(Cloud technology)中的云计算、云服务以及大数据领域中的相关数据计算处理领域。

人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

首先结合图1，其为本申请实施例提供的语音数据处理方法的系统架构图。该系统可以包括服务器101以及终端集群，其中，服务器101可以认为是进行语音识别的后台服务器。

终端集群可以包括：终端102、终端103、终端104、……，其中，终端中安装有支持图像显示的客户端。终端之间可以存在通信连接，例如终端102与终端103之间存在通信连接，终端103与终端104之间存在通信连接。

同时，服务器101可以通过通信连接功能为终端集群提供服务，终端集群中的任一终端可以与服务器101存在通信连接，例如终端102与服务器101之间存在通信连接，终端103与服务器101之间存在通信连接，其中，上述的通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其他方式。

上述通信连接的网络可以通过网络可以是广域网或者局域网，又或者是二者的组合。本申请在此不做限制。

本申请实施例的语音数据处理方法，可以在服务器侧执行，也可在终端侧执行，本申请实施例中不对执行主体进行限定。本申请实施例所提供的方法可以由计算机设备执行，计算机设备包括但不限于终端(也包括上述的用户终端)或服务器(也包括上述的服务器101)。上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。上述终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

本申请实施例提供了一种可能的实现方式，该方案可以由任一电子设备执行，可选的，任一电子设备可以为具有语音数据处理能力的服务器设备，也可以为集成在这些设备上的装置或芯片。如图2所示，其为本申请实施例提供的一种语音数据处理方法的流程示意图之一，该方法包括如下步骤：

步骤S201：接收第一语音。

可选的，本申请实施例可以应用于语音识别技术领域，具体为对语音信息进行识别的应用场景。

其中，语音信息即本申请实施例中的第一语音，通过接收第一语音，以执行后续对第一语音的识别处理。

本申请实施例中，第一语音可以为用户的语音；例如，在实际的语音识别场景中，用户可以通过语音指令(语音指令即本申请实施例的第一语音)控制开启家用电器、还可以通过交互语音(交互语音即本申请实施例的第一语音)与机器人进行语音交互等等。此外，第一语音还可以为设备的语音，设备的语音如智能家电的语音、电子设备的语音等等。例如，在一些场景中，也可以通过电子设备的语音(即本申请实施例的第一语音)控制开启家用电器等等。

步骤S202：基于语音识别模型，对所述第一语音进行语音识别，确定所述第一语音对应的识别信息。

其中，所述语音识别模型为基于样本语音数据库中的目标样本语音进行训练得到的，所述目标样本语音为对初始样本语音进行语音检测得到的；其中，所述语音检测包括：语速检测、关键词频次检测以及留白检测中的至少一种。

具体而言，语音识别模型是基于目标样本语音进行训练得到的；其中，目标样本语音是通过语速检测、关键词频次检测以及留白检测等语音检测得到的；也就是说，本申请的目标样本语音是经过语音检测，且语音检测结果是符合预设样本要求的语音。

其中，语速检测是指对语音数据的语速进行检测。例如，在实际实施过程中，语速检测可以检测语音数据的时长，如，检测语音数据的时长是否在预设时长范围内，若语音数据的时长较长，说明语速较慢，若语音数据的时长较短，说明语速较块。

关键词频次检测是指检测预设时长内，语音数据中包含的关键词的数量。例如，关键词为“增大音量”，那么，可以检测语音数据中所包含的关键词“增大音量”出现的次数。

留白检测是指检测语音数据中相邻语段之间间隔的空白时长，空白时长例如用户在发出某一语段(例如一段关键词)的语音后，暂停发出语音所形成的没有语音数据的时间。作为示例，如，用户可以在发出关键词“增大音量”的语音后，停顿2秒，然后，再次发出关键词“增大音量”的语音；其中，停顿的2秒即为空白时长，即留白。

本申请实施例中，目标样本语音的语音检测结果符合预设样本要求；其中，预设样本要求可以包括语速在预设语速范围内，即语音数据的时长在预设时长范围内；还可以包括关键词频次在预设频次范围内，即语音数据中包含的关键词的数量在预设数量范围内；还可以包括留白在预设留白时长范围内，即语音数据中相邻语段之间间隔的空白时长在预设留白时长范围内。

步骤S203：根据所述识别信息，执行所述第一语音对应的处理操作。

具体而言，对所述第一语音进行语音识别，得到第一语音对应的识别信息后，可以根据所述识别信息，执行所述第一语音对应的处理操作。

例如，在实际场景中，得到第一语音对应的识别信息为“打开空调”，那么，可以相应的执行该识别信息对应的处理操作，即控制开启空调。

在本申请的一个实施例中，在所述对所述第一语音进行语音识别之前，还可以包括筛选目标样本语音的步骤，从而通过目标样本语音构建样本语音数据库，其中，具体步骤为：

接收所述初始样本语音；

对所述初始样本语音进行所述语音检测，根据所述语音检测的检测结果，筛选满足预设样本要求的所述初始样本语音作为目标样本语音。

具体而言，初始样本语音为待筛选的样本语音，初始样本语音可以为接收到的所有样本语音。例如，初始样本语音可以是不同性别、不同年龄段、不同声音特征的人员，在不同的采集距离下，对预先确定的关键词进行录制得到的语音数据。

在实际实施场景中，接收初始样本语音之前，还可以包括唤醒语音采集设备的步骤：

具体而言，可以接收第二语音；

确定所述第二语音中包含目标唤醒词的情况下，发送提示语音，和/或显示第一提示信息；

所述提示语音及所述第一提示信息指示开始采集所述初始样本语音；其中，所述第一提示信息中包括以下至少一项:

目标关键词；

目标关键词的采集次数；

目标关键词的之间的间隔时长。

其中，第二语音可以为唤醒语音，唤醒语音中可以包括唤醒词，当第二语音中包括目标唤醒词的情况下，可以向用户发送提示语音及展示第一提示信息。

作为示例，结合图3及图4所示，在采集初始样本语音的场景中，用户可以先通过语音交互唤醒语音采集设备，例如，语音交互过程中，唤醒语音可以为“你好，小A，开始数据采集”。通过对唤醒语音的语音识别及语义理解，确定唤醒语音中包含目标唤醒词“你好，小A”的情况下，通过自然语言生成及语音合成等技术，合成提示语音“好的，请按照屏幕提示内容进行音频录制”等。

此外，还可以通过提示屏幕显示第一提示信息，第一提示信息中可以包括目标关键词、目标关键词的采集次数、目标关键词的之间的间隔时长等。例如，结合图5所示，提示屏幕中可以显示“请用正常语速说五次“点亮屏幕”，每次之间停顿2秒”。其中，目标关键词为“点亮屏幕”；目标关键词的采集次数为五次；目标关键词的之间的间隔时长为2秒。

另外，在上述场景中，可以通过采集设备，采集设备例如麦克风设备、手机、平板电脑、麦克风阵列等设备，采集初始样本语音。此外，可以设置采集人数，例如采集人数700-800人；采集的用户的年龄可以分布于18-65周岁；采集距离可以设置为例如1米、3米、5米等。

得到初始样本语音后，本申请实施例中还可以包括筛选初始样本语音中的有效语段的步骤，具体为：

将所述初始样本语音分割成多个语音帧，确定所述语音帧中的有效语音帧；

筛选连续的有效语音帧的帧数量大于预设数量的语段作为有效语段；

对包括所述有效语段的所述初始样本语音进行所述语音检测。

具体而言，可以先对初始样本语音进行分割，将其分割为成多个语音帧，然后，确定所述语音帧中的有效语音帧。

有效语音帧可以理解为包含目标对象声音的语音帧，例如，在实际场景中，有效语音帧可以为包含真实用户声音的语音帧，即包含人的声音的语音帧。

在一个实施例中，确定所述语音帧中的有效语音帧的具体步骤可以包括：

提取所述语音帧的声学特征；

确定所述语音帧的声学特征符合预设特征条件的情况下，确定所述语音帧为所述有效语音帧。

在实际实施过程中，本申请实施例可以采用语音活性检测技术(Voice activitydetection，VAD)确定有效语音帧。

VAD技术中通常采用DNN作为分类器来计算语音帧属于有效语音帧的概率，其可以看做为二分类问题。在本申请实施例中，VAD采用ResNet34作为特征提取器，提取所述语音帧的声学特征，其卷积通道数可以为{32,64,128,256}，卷积核的大小为3。本申请实施例中，声学特征可以为80维的log Mel Fbank特征，其帧长为25ms，帧移为10ms。

然后，通过池化层每隔S帧进行一次池化，最后，通过两个BiLSTM层、两个全连接层以及sigmoid激活函数进行后处理，计算语音帧为有效语音帧的概率。

确定有效语音帧之后，可以筛选有效语段，有效语段即为多帧连续的有效语音帧，即一段有效语音。

在实际实施过程中，可以通过连续的检测多个语音帧，当多个连续的语音帧为有效语音帧时，该连续的有效语音帧即为有效语段；也就是说，第一个有效语音帧即为有效语段的“开头”，最后一个有效语音帧即为有效语段的“结尾”。

本申请实施例中，在确定了有效语段之后，可以对包括所述有效语段的所述初始样本语音进行所述语音检测。

具体而言，在所述语音检测包括关键词频次检测的情况下，所述对所述初始样本语音进行所述语音检测，包括：

对所述有效语段进行语音识别，确定所述有效语段中是否包含目标关键词，以及包含所述目标关键词的有效语段的数量是否大于预设阈值。

可选的，可以通过语音识别技术检测有效语段中的关键词，确定有效语段中是否包含目标关键词，以及确定包含目标关键词的有效语段的数量。例如，初始样本语音中包括3个有效语段，可以分别确定每个有效语段中是否包括目标关键词。

另外，在所述语音检测包括语速检测的情况下，所述对所述初始样本语音进行所述语音检测可以包括以下步骤：

将所述有效语段的语段时长与第二标准时长范围进行比较，确定所述语段时长是否在所述第二标准时长范围之内。

具体而言，可以通过VAD技术检测每个有效语段的语段时长，结合图6所示的语速检测的示意图，图6所示的t1、t2所示的时长分别为对应的有效语段的语段时长。

然后，确定所述语段时长是否在所述第二标准时长范围之内，其中，可以预先设置有效语段的标准时长范围(即第二标准时长范围)，例如，有效语段的标准时长范围为3秒至4秒。

此外，在所述语音检测包括留白检测的情况下，所述对所述初始样本语音进行所述语音检测可以包括以下步骤：

确定相邻的所述有效语段之间的间隔时长；

确定所述间隔时长是否在第一标准时长范围之内。

结合图7所示的留白检测的示意图，本申请实施例可以通过VAD技术检测两个相邻的所述有效语段之间的间隔时长，该间隔时长即留白，也就是图7所示的t3、t4、t5所示的时长。然后，确定所述间隔时长是否在第一标准时长范围之内，其中，可以预先设置留白的标准时长范围(即第一标准时长范围)，例如，留白的标准时长范围可以为1秒至2秒。

在本申请的一个实施例中，所述根据所述语音检测的检测结果，筛选满足预设样本要求的所述初始样本语音作为目标样本语音，包括：

在所述语音检测包括单项检测的情况下，确定单项检测的检测结果满足预设样本要求的所述初始样本语音作为目标样本语音；

在所述语音检测包括多项检测的情况下，确定多项检测中，至少预设数量的检测结果满足预设样本要求的所述初始样本语音作为目标样本语音。

具体而言，当所述语音检测包括单项检测时，例如，所述语音检测仅包括语速检测，或者仅包括留白检测等，这种情况下，可以在该单项检测的检测结果满足预设样本要求时，确定所述初始样本语音作为目标样本语音。

当所述语音检测包括多项检测时，例如，所述语音检测包括语速检测、关键词频次检测及留白检测等，这种情况下，可以在至少预设数量的检测结果满足预设样本要求的情况下，确定所述初始样本语音作为目标样本语音。例如，当语音检测包括上述三项检测时，可以在至少两项检测的检测结果满足预设样本要求时，确定所述初始样本语音作为目标样本语音。

其中，预设样本要求可以包括语速在预设语速范围内，即语音数据的时长在预设时长范围内；还可以包括关键词频次在预设频次范围内，即语音数据中包含的关键词的数量在预设数量范围内；还可以包括留白在预设留白时长范围内，即语音数据中相邻语段之间间隔的空白时长在预设留白时长范围内。

在本申请的一个实施例中，当初始样本语音不满足预设样本条件时，本申请实施例还可以包括以下处理步骤：

确定所述初始样本语音不满足预设样本条件的情况下，显示第二提示信息；

所述第二提示信息指示重新采集所述初始样本语音。

具体而言，在实际场景中，当初始样本语音不满足预设样本条件时，可以通过提示屏幕提示用户重新进行初始样本语音的采集。

下面结合图8及图9对本申请实施例中的采集初始样本语音及确定目标样本语音的完整流程进行说明：

如图8所示，其为语音采集的系统架构示意图，该系统架构中包括语音交互模块、大屏提词模块、质量检测模块、麦克风模块。

语音交互模块用于与用户进行交互，提示用户进行语音采集及重新采集等；大屏提词模块用于显示采集的语音中的目标关键词、语速及留白等；质量检测模块用于对采集的初始样本语音进行语音检测；麦克风模块用于采集初始样本语音。

如图9所示，在开始采集后，在提示屏幕上显示提示信息，提示信息如“请用正常语速说五次“点亮屏幕”，每次之间停顿2秒”，并且可以相应的发出提示语音“请按照屏幕提示内容进行音频录制”，以提示用户进行语音采集。

在接收到用户的初始样本语音后，可以通过语音活性检测，确定有效语段；然后，对各有效语段进行语音识别，确定有效语段中是否包含目标关键词；如果不包含目标关键词可以提示用户说出正确的目标关键词；如果包含目标关键词可以对有效语段进行语速检测，确定语速是否满足要求；如果语速不满足要求，可以提示用户按照提示语速发音；如果语速满足要求可以对各有效语段之间的留白进行检测，检测留白是否满足留白要求；如果留白不满足要求，可以提示用户注意发音停顿；如果留白满足要求，可以检测包含目标关键词的有效语段的数量是否满足要求，即录音次数是否满足要求；如果不满足录音次数要求，可以提示用户继续录制当前的目标关键词；如果满足录音次数要求，可以保存录音，进而可以切换至其他目标关键词的采集。

本申请实施例提供了一种语音数据处理装置，如图10所示，该语音数据处理装置100可以包括：接收模块1001、识别模块1002以及执行模块1003，其中，

接收模块1001，用于接收第一语音；

识别模块1002，用于基于语音识别模型，对所述第一语音进行语音识别，确定所述第一语音对应的识别信息；其中，所述语音识别模型为基于样本语音数据库中的目标样本语音进行训练得到的，所述目标样本语音为对初始样本语音进行语音检测得到的；其中，所述语音检测包括：语速检测、关键词频次检测以及留白检测中的至少一种；

执行模块1003，用于根据所述识别信息，执行所述第一语音对应的处理操作。

在本申请的一个实施例中，所述方法还包括：筛选模块，用于在所述对所述第一语音进行语音识别之前，

接收所述初始样本语音；

对所述初始样本语音进行所述语音检测，根据所述语音检测的检测结果，筛选满足预设样本要求的所述初始样本语音作为目标样本语音。

在本申请的一个实施例中，筛选模块具体用于将所述初始样本语音分割成多个语音帧，确定所述语音帧中的有效语音帧；

筛选连续的有效语音帧的帧数量大于预设数量的语段作为有效语段；

对包括所述有效语段的所述初始样本语音进行所述语音检测。

在本申请的一个实施例中，筛选模块具体用于提取所述语音帧的声学特征；

确定所述语音帧的声学特征符合预设特征条件的情况下，确定所述语音帧为所述有效语音帧。

在本申请的一个实施例中，在所述语音检测包括留白检测的情况下，筛选模块具体用于确定相邻的所述有效语段之间的间隔时长；

确定所述间隔时长是否在第一标准时长范围之内。

在本申请的一个实施例中，在所述语音检测包括语速检测的情况下，筛选模块具体用于将所述有效语段的语段时长与第二标准时长范围进行比较，确定所述语段时长是否在所述第二标准时长范围之内。

在本申请的一个实施例中，在所述语音检测包括关键词频次检测的情况下，筛选模块具体用于对所述有效语段进行语音识别，确定所述有效语段中是否包含目标关键词，以及包含所述目标关键词的有效语段的数量是否大于预设阈值。

在本申请的一个实施例中，筛选模块具体用于在所述语音检测包括单项检测的情况下，确定单项检测的检测结果满足预设样本要求的所述初始样本语音作为目标样本语音；

在所述语音检测包括多项检测的情况下，确定多项检测中，至少预设数量的检测结果满足预设样本要求的所述初始样本语音作为目标样本语音。

在本申请的一个实施例中，所述装置还包括：第一提示模块，用于在所述接收所述初始样本语音之前，

接收第二语音；

确定所述第二语音中包含目标唤醒词的情况下，发送提示语音，和/或显示第一提示信息；

所述提示语音及所述第一提示信息指示开始采集所述初始样本语音；其中，所述第一提示信息中包括以下至少一项:

目标关键词；

目标关键词的采集次数；

目标关键词的之间的间隔时长。

在本申请的一个实施例中，所述装置还包括：第二提示模块，用于确定所述初始样本语音不满足预设样本条件的情况下，显示第二提示信息；

所述第二提示信息指示重新采集所述初始样本语音。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，该电子设备包括：存储器和处理器；至少一个程序，存储于存储器中，用于被处理器执行时，与现有技术相比可实现：本申请实施例中，在语音识别的过程中，接收第一语音，基于语音识别模型，对所述第一语音进行语音识别，并执行所述第一语音对应的处理操作；其中，语音识别模型训练过程中所采用的目标样本语音是经过语音检测得到的，所述语音检测包括语速检测、关键词频次检测以及留白检测中的至少一种；这样，通过语音检测得到语音质量较高的目标样本语音，从而提高语音识别模型的语音识别精度。

在一个可选实施例中提供了一种电子设备，如图11所示，图11所示的电子设备4000包括：处理器4001和存储器4003。其中，处理器4001和存储器4003相连，如通过总线4002相连。可选地，电子设备4000还可以包括收发器4004，收发器4004可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器4004不限于一个，该电子设备4000的结构并不构成对本申请实施例的限定。

处理器4001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线4002可包括一通路，在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器4003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器4003用于存储执行本申请方案的应用程序代码(计算机程序)，并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、多媒体播放器、台式计算机等。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王炳乾;刘童;
专利申请人：京东方科技集团股份有限公司;

上一篇：利用金属碳化物催化剂生产甲胺的方法
下一篇：带悬臂式单侧安装车轮的自行车