语音数据集的筛选处理方法、筛选处理装置和存储介质

文献发布时间：2023-06-19 19:28:50

技术领域

本申请涉及数据通信技术领域，更具体地，涉及语音数据集的筛选处理方法、筛选处理装置和存储介质。

背景技术

随着技术的发展,语音关键词检测技术作为实现人机语音交互与智能设备控制的重要基础，在智能车载、智慧家居、机器人等领域得到广泛的应用，该技术主要基于机器学习中的监督学习方法训练一个离线识别模型，并将其应用在在线识别流程中。然而，当关键词识别技术在离线研发过程中，往往会因为数据集中的样本标签的有效性影响到最终识别模型在线识别关键词的效果。具体体现在，如果数据集标签有误，即训练数据中存在脏数据，则模型会错误学习训练数据的特征信息。

针对上述问题，业内采用将待预处理的关键词语音数据输入训练好的关键词检测模型，根据模型输出的关键词分类结果与实际标签是否相符来判定是否为低质量数据，并根据判断结果对训练数据集做预处理操作。然而，采用基于关键词检测模型进行筛选的方法仍然存在着一些问题：数据预处理的效果完全依赖于关键词检测模型的检测效果，若关键词检测模型的效果准确性较低将会导致一些标签正确的语音数据被清洗掉，造成一定程度上的数据信息损失，不利于后续构建准确的语音关键词检测模型。

申请内容

本申请实施例的目的在于提供语音数据集的筛选处理方法、筛选处理装置和存储介质，其能够有效提高脏数据清洗效率及清洗准确性和鲁棒性，能够避免清洁语音数据被清洗掉，以利于后续构建准确的关键词检测模型。

根据本申请的第一方案，提供了一种语音数据集的筛选处理方法，筛选处理后的语音数据集用于关键词检测模型的训练，包括如下步骤，由处理器：获取待筛选处理的原始语音数据集，其中各条语音数据包含语音信号数据及其关键词标签；基于所述原始语音数据集，确定有效语音数据集；为所述有效语音数据集中的每条语音数据计算时频特征；对各条语音数据，基于时频特征利用关键词检测模型，执行多次的标签预测处理，来确定各次的预测失准次数序列，该预测失准次数序列的各个元素按照语音数据顺序排列，且表示对应语音数据在该次的预测失准次数；对多次的预测失准次数序列求平均，来得到平均预测失准次数序列，该平均预测失准次数序列的各个元素按照语音数据顺序排列，且表示对应语音数据多次的平均预测失准次数；基于所述平均预测失准次数序列，来确定预测失准次数阈值；对于每条语音数据执行如下的失准筛选处理，来得到清洁语音数据集以用于关键词检测模型的训练：获取所述平均预测失准次数序列中该条语音数据的平均预测失准次数，与所述预测失准次数阈值进行比较，如果大于后者则判定为脏语音数据并删除，反之则保留存入清洁语音数据集。

根据本申请的第二方案，提供了一种语音数据集的筛选处理装置，包括：接口，其配置为获取待筛选处理的原始语音数据集，其中各条语音数据包含语音信号数据及其关键词标签；以及处理器，其配置为执行根据本申请各个实施例所述的语音数据集的筛选处理方法。

根据本申请的第三方案，提供了一种非暂时性计算机存储介质，其上存储有可执行指令，由处理器执行时，实现根据本申请各个实施例所述的语音数据集的筛选处理方法。

本申请实施例的有益效果在于：

本申请实施例提供的筛选处理方法，对各条语音数据基于时频特征利用关键词检测模型执行多次的标签预测处理，并对多次的预测失准次数序列求平均以得到平均预测失准次数。该平均预测失准次数能够准确、客观且真实的反映出各条语音数据进行了多次预测失准分析后的失准情况，基于该平均预测失准次数进行脏数据的筛选，具有更高的可靠性。此外，基于平均预测失准次数序列确定出预测失准次数阈值，该预测失准次数阈值能够有效的反映出清洁语音数据所在的合理的阈值情况。通过比较平均预测失准次数和预测失准次数阈值的大小，在平均预测失准次数大于预测失准次数阈值的情况下，判定该条数据为脏语音数据，如此，能够避免由于依赖于关键词检测模型导致的筛选错误等问题，有利于确保脏数据清洗的准确性，尽量避免损失干净语音数据，大幅度提升了语音关键词数据集数据清洗的效率。同时有助于提升后续基于清洗后的语音数据集进行关键词识别建模的精度。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。具有字母后缀或不同字母后缀的相同附图标记可以表示相似部件的不同实例。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本装置或方法的穷尽或排他实施例。

图1示出根据本申请实施例的所述语音数据集的筛选处理方法的流程图。

图2(a)示出根据本申请实施例所述的对各条语音数据执行每次的标签预测处理的流程图。

图2(b)示出根据本申请实施例所述的确定预测失准次数增量的方法流程图。

图3示出根据本申请的一个具体实施例的语音数据集的筛选流程图。

图4示出根据本申请的实施例所述的语音数据集的筛选处理装置的示意图。

具体实施方式

为使本领域技术人员更好的理解本申请的技术方案，下面结合附图和具体实施方式对本申请作详细说明。下面结合附图和具体实施例对本申请的实施例作进一步详细描述，但不作为对本申请的限定。

本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。在本申请中，各个步骤在图中所示的箭头仅仅作为执行顺序的示例，而不是限制，本申请的技术方案并不限于实施例中描述的执行顺序，执行顺序中的各个步骤可以合并执行，可以分解执行，可以调换顺序，只要不影响执行内容的逻辑关系即可。

本申请使用的所有术语(包括技术术语或者科学术语)与本申请所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

图1示出根据本申请实施例的所述语音数据集的筛选处理方法的流程图，筛选处理后的语音数据集用于关键词检测模型的训练，如图1所示，该方法包括如下步骤：

在步骤S101，由处理器获取待筛选处理的原始语音数据集，其中各条语音数据包含语音信号数据及其关键词标签。待筛选处理的原始语音数据集中的各条语音数据均具有各自的关键词标签，该原始语音数据集中的数据可能包含有标签有误或者特征失效的脏语音数据，需要经过筛选处理以删除掉脏语音数据而保留清洁语音数据。在一些实施例中，所述关键词语音包括用户向便携式智能设备下达的指令语音。例如，用户向便携式智能设备通过语音下达的“请播放音乐！”等指令。

在步骤S102，基于所述原始语音数据集，确定有效语音数据集，具体地，可以去除原始语音数据集中无效的语音数据(例如空白的语音数据或者噪声特别强的语音数据)，从而保留有效语音数据集。其中，所述原始语音数据集也可以不做处理，而直接将原始语音数据集作为有效语音数据集。此外，不排除其他确定有效语音数据集的实施例。

在步骤S103，为所述有效语音数据集中的每条语音数据计算时频特征，其中，所述时频特征可以包括MFCC特征、Fbank特征(基于Mel滤波器组的特征)及其变体和梅尔频谱中的一种，相应的，可以采用现有技术已经公开的方法计算其时频特征。MFCC即梅尔(Mel)倒谱系数，MFCC特征的提取过程包括预加重滤波处理、分帧、加窗、FFT、Mel滤波器组的滤波处理、对数运算、离散余弦变换(DCT)、动态特征(差分特征)提取等步骤。Mel滤波器组模拟了人体耳蜗纤毛声学感知器的听觉机理，低频分辨率高，高频分辨率低，和线性频率对应关系都近似对数关系，在此不赘述。

在步骤S104，对各条语音数据，基于时频特征利用关键词检测模型，执行多次的标签预测处理，来确定各次的预测失准次数序列，该预测失准次数序列的各个元素按照语音数据顺序排列，且表示对应语音数据在该次的预测失准次数。具体地，比如对第1条、第2条……第N条语音数据均执行4次标签预测处理。其中，对第1条、第2条……第N条语音数据执行第1次标签预测处理得到第1次的预测失准次数序列，该预测失准次数序列中的第1个元素对应第1条语音数据的预测失准次数，第2个元素对应第2条语音数据的预测失准次数，……第N个元素对应第N条语音数据的预测失准次数。也就是说，各次的预测失准次数序列中的各个元素是按照语音数据顺序排列的，并且，对应语音数据在该次的预测失准次数。在该具体实施例中，由于执行4次标签预测处理，可以获得4次标签预测处理对应的预测失准次数序列。

在步骤S105，对多次的预测失准次数序列求平均，来得到平均预测失准次数序列，该平均预测失准次数序列的各个元素按照语音数据顺序排列，且表示对应语音数据多次的平均预测失准次数。如上实施例所述，可以对这4次的预测失准次数序列求平均，来得到平均预测失准次数序列。比如，第1条语音数据执行了4次标签预测处理，每次预测结果显示失准2次，则在平均预测失准次数序列中的第1个元素就是2，即第1条语音数据的平均预测失准次数为2。依次类推，可以得到每一条语音数据多次的平均预测失准次数。该平均预测失准次数能够准确、客观且真实的反映出各条语音数据进行了多次预测失准分析后的失准情况，能够避免单次预测结果不准造成的恶劣影响，基于该平均预测失准次数进行脏数据的筛选，具有更高的可靠性和鲁棒性。

在步骤S106，基于所述平均预测失准次数序列，来确定预测失准次数阈值。对于预测失准次数阈值的具体数值不做限定，可以基于统计学数据自行设定。比如，对于大部分的语音数据为清洁数据，脏数据占比较低的语音数据集，经过统计计算，可以得到能够在脏数据和清洁数据的失准状况之间进行高效区分的阈值，该阈值兼具鲁棒性和灵敏度。该预测失准次数阈值可以从整体上反映出符合心理预期的语音数据集的整体情况。仅以此作为示例性说明，不排除其他能够确定出预测失准次数阈值的方法。

在步骤S107，对于每条语音数据执行如下的失准筛选处理，来得到清洁语音数据集以用于关键词检测模型的训练：获取所述平均预测失准次数序列中该条语音数据的平均预测失准次数，与所述预测失准次数阈值进行比较，如果大于后者则判定为脏语音数据并删除，反之则保留存入清洁语音数据集。如上所述，基于平均预测失准次数序列可以得到各条语音数据的平均预测失准次数，该平均预测失准次数能够整体的反映出该条语音数据的失准情况，鲁棒性较高。而且，预测失准次数阈值也能够较好的反映出较好的语音数据集的失准情况。在该条语音数据的平均预测失准次数大于预测失准次数阈值的情况下，判断该条语音数据稳定性较差，失准情况较为严重，则可以判断该条语音数据为脏语音数据，并删除该脏语音数据。如果该条语音数据的平均预测失准次数小于或者等于预测失准次数阈值，则说明该条语音数据的失准情况符合预期，可以作为清洁语音数据保留在语音数据集中。

相比于简单地通过判断关键词检测模型的输出结果与真实标签是否相符来认定该条语音数据是否为脏语音数据，本申请实施例提供的方法在筛选脏语音数据方面具有更高的可靠性、准确性和高效性，能够避免标签正确的语音数据被清洗掉，大幅度提升了语音关键词数据集数据清洗的效率，同时有助于提升后续基于清洗后的语音数据集进行关键词识别建模的精度。

在本申请的一些实施例中，对各条语音数据，基于时频特征执行多次的标签预测处理具体包括，通过图2(a)所示的步骤对各条语音数据执行每次的标签预测处理。在步骤S201，初始化关键词检测模型的参数和该次的预测失准次数序列，所述关键词检测模型利用学习网络来构造。其中，所述学习网络包括LSTM学习网络或GRU神经网络，本申请对此不作具体限定。通常，在小型芯片等算力(单核)和存储空间有限的情况下，可以采用2-4层的GRU神经网络，以节省算力和存储空间。通过使用LSTM神经网络，在考虑到时频语音特征在时域和频域上相邻点之间的相互作用的同时，又可以遗忘掉在时域和频域上距离较久远的点的影响。

在步骤S202，分步执行关键词检测模型的训练和调参，并确定该条语音数据各步的预测失准次数增量。对于每条语音数据执行的每次标签预测处理都要执行多步预测失准次数增量的计算。而对于确定各步的预测失准次数增量的具体步骤如图2(b)所示。在步骤S204，抽取所述有效语音数据集中的一组语音数据的时频特征，其中，所述一组语音数据是从有效语音数据集中随机抽取的，用于执行关键词检测模型的训练。通过随机抽取多条语音数据组成一组语音数据进行关键词检测模型的训练，可以减少关键词检测模型过拟合的风险，能够更好的反映真实的语音数据的失准情况。

在步骤S205，基于所抽取的一组语音数据的时频特征及其关键词的标签，执行反向传播算法来调节所述关键词检测模型的参数，从而得到调参后的关键词检测模型。反向传播算法(Backpropagation)的原理是利用链式求导法则计算实际输出结果与理想结果之间的损失函数对每个权重参数或偏置项的偏导数，然后根据优化算法逐层反向地更新权重或偏置项，它采用了前向-后向传播的训练方式，通过不断调整模型中的参数，使损失函数达到收敛，从而构建准确的模型结构。所述的调参后的关键词检测模型可以理解为已经利用随机抽取的一组语音数据的时频特征及其关键词的标签将关键词检测模型训练好了。在各步的训练关键词检测模型的过程中，都只是对随机抽取的一组语音数据进行的训练，而不是对所有有效语音数据集中的所有语音数据进行的训练，这极大地降低了对关键词检测模型训练的负荷，使得训练过程更加轻松且高效。

进一步地，在一些实施例中，各步的关键词检测模型的训练和调参，都基于关键词检测模型的初始化参数和初始化的预测失准次数序列来执行。通过多次初始化训练消除随机初始化网络参数对无效样本筛除的影响，从而能够高效且准确地实现训练数据的预处理。

在步骤S206，基于该条语音数据的时频特征，利用调参后的关键词检测模型来预测标签。在得到调参后的关键词检测模型之后，即可基于各条语音数据的时频特征来预测标签，需要注意的是，步骤206执行的是对每次的标签预测处理中的每步的各条语音数据进行预测标签。比如，每次的标签预测处理包括五步，则需要在每一步都随机抽取一组语音数据并进行关键词检测模型的训练，来得到每一步的调参后的关键词检测模型。然后，利用每一步的调参后的关键词检测模型对每条语音数据进行预测标签。

在步骤S207，将预测标签与对应语音数据的关键词标签进行比较，来确定该步的标签预测是否准确。判断的方法如步骤S208，如果该步的标签预测错误而上一步的标签预测正确，则预测失准次数增量为1，否则预测失准次数增量为0。具体来说，比如每次的标签预测处理包括五步，如果第1步的该条语音数据的预测标签通过与该条语音数据的关键词标签进行比较，得到的标签预测正确，而第2步的该条语音数据的标签预测错误，则可以理解为在利用第2步抽取的一组语音数据训练的关键词检测模型的输出结果劣化，说明该条语音数据具有不稳定、失准的概率，则将预测失准次数增量设置为1。以此类推，如果第3步的标签预测错误，则预测失准次数增量为0，如果第4步的标签预测正确，则预测失准次数增量依然为0，而如果第5步的标签预测错误(而第4步标签预测正确)，则将预测失准次数增量再加1，那么，该条语音数据在该次的标签预测处理中的这5步的累计的预测失准次数增量为2(该实施例仅为示例性说明)，即该条语音数据的预测失准次数为2。正如步骤S203所示，通过为该条语音数据累计各步的预测失准次数增量，来得到该次的预测失准次数序列中该条语音数据的预测失准次数。

进一步地，以图3所示的一个具体实施例的语音数据集的筛选为示例进行具体说明。首先，记录原始语音数据集为X

进一步地，确定有效语音数据集具体包括确定所述原始语音数据集X

其中，N

进一步地，将所确定的各条语音数据的语音能量E(x

在步骤S308，执行第k次初始化关键词检测模型(w，b)和Q

在一些实施例中，对于各步的关键词检测模型的训练和调参：在利用调参后的关键词检测模型来预测标签后，删除或更新关键词检测模型的当前参数；将预测标签与对应语音数据关键词标签进行比较，来确定该步的标签预测是否准确之后，保存该步的标签预测是否准确的结果。在该步中，利用调参后的关键词检测模型来预测标签后，在预测标签之后，将已经用过的调参后的关键词检测模型的当前参数删除，能够避免海量的参数占用极大地存储空间。也可以每一步时在上一步的当前参数的基础上来进行训练，在训练好了得到新的参数之后，将上一步的旧的当前参数更新为新的当前参数。此外，将预测标签与对应语音数据关键词标签进行比较，来确定该步的标签预测是否准确之后，保存该步的标签预测是否准确的结果，以便于基于该结果进行后续处理。

具体地，将每条语音x

重复步骤S307-S312，直至训练步数t达到自定义的t

如果步骤S313的判断结果为否，则执行步骤S315，每条语音预测失准的次数q

T＝μ

其中，T表示预测失准次数阈值，μ

基于平均预测失准的次数向量

进一步地，通过对采用本申请实施例的筛选处理方法删除的脏数据，进行二次人工检测，发现所有筛选出的脏数据确实都可判定为脏数据(空白语音、语谱特征缺失明显的语音、对应标签有误的语音等)，因此使用本申请可以有效提升关键词检测数据集的标签可信度。此外，基于本申请实施例提供的筛选处理方法能够间接提升多关键词检测模型的关键词检测的准确率以及模型训练过程中的效率。通过利用本申请实施例提供的筛选处理方法，对原始数据集进行处理后，输入模型的数据质量变高了，同样的模型结构可以很快学习到正确的关键词数据特征，处理后的数据去除了难检测的噪声数据，模型针对单个关键词的检测准确率和整体准确率均得到了较大提升。

图4示出根据本申请的实施例所述的语音数据集的筛选处理装置的示意图。其中，筛选处理装置400包括接口401和处理器402，所述接口401配置为获取待筛选处理的原始语音数据集，其中各条语音数据包含语音信号数据及其关键词标签。接口401可以包括但不限于网络适配器、电缆连接器、串行连接器、USB连接器、并行连接器、高速数据传输适配器等，例如光纤、USB 3.0、雷电接口(Thunderbolt)等，无线网络适配器，诸如WiFi适配器、电信(3G、4G/LTE等)适配器等。

在一些实施例中，接口401可以为网络接口，装置400可以通过接口401连接到网络，例如但不限于局域网或因特网。

所述处理器402配置为执行本申请各个实施例所述的语音数据集的筛选处理方法，处理器402可以是专用处理器，也可以是通用处理器。处理器402可以包括一个或多个已知的处理装置，例如来自IntelTM制造的PentiumTM、CoreTM、XeonTM或Itanium系列的微处理器等。另外，处理器402可以包括一个以上的处理器，例如，多核设计或多个处理器，每个处理器具有多核设计。

在一些实施例中，处理器402可以是包括一个或多个通用处理装置的处理装置，诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等一个或更多个通用处理设备的处理设备。更具体地，处理器602可以是复杂指令集运算(CISC)微处理器、精简指令集运算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。处理器602还可以是诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等一个或更多个专用处理设备。

本申请还提供了一种计算机可读存储介质，其上存储有可执行指令，由处理器执行时，实现根据本申请各个实施例所述的语音数据集的筛选处理方法。

可以理解的是，所述计算机可读存储介质诸如但并不限于只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、高速缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光存储部、盒式磁带或其他磁存储设备、或用于存储能够被计算机设备等访问的信息或指令的任何其他非暂时性介质。

本文描述了各种操作或功能，其可以被作为软件代码或指令实现或定义为软件代码或指令。这样的内容可以是可直接执行的(“对象”或“可执行”形式)源代码或差分代码(“增量”或“补丁”代码)。本文所述的实施例的软件实现可以经由其中存储有代码或指令的制品或者经由操作通信接口以经由通信接口发送数据的方法来提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作，并且包括以可由机器(例如，计算设备、电子系统等等)访问的形式存储信息的任何机制，诸如可记录/不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备、等等)。通信接口包括接合到硬连线、无线、光学等介质中的任何一个以与另一设备通信的任何机制，诸如存储器总线接口、处理器总线接口、互联网连接、磁盘控制器等。可以通过提供配置参数和/或发送信号来将通信接口配置成将该通信接口准备好以提供描述软件内容的数据信号。可以经由发送到通信接口的一个或更多个命令或信号来访问通信接口。

本文中的构件，可以通过SOC(片上系统)来实现，例如可以利用从ARM公司等购买的各种RISC(精简指令集计算机)处理器IP来作为SOC的处理器来执行对应的功能，可以实现为嵌入式系统。具体说来，在市场上可购买到的模块(IP)上具有很多模块，例如但不限于内存、各种通信模块、编解码器、缓存器等等。其它的比如天线和扬声器等可以外接到芯片上。用户可以通过基于购买的IP或自主研发的模块构建ASIC(特定用途集成电路)，来实现各种通信模块、编解码器等，以便降低功耗和成本。例如，用户也可以利用FPGA(现场可编程门阵列)来实现各种通信模块等，可以用于对硬件设计的稳定性进行验证。对于各种通信模块等，通常还可以配备缓存器，对处理过程中产生的数据进行暂时存储。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本申请的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本申请。这不应解释为一种不要求保护的申请的特征对于任一权利要求是必要的意图。相反，本申请的主题可以少于特定的申请的实施例的全部特征。从而，权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本申请的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：方静宜;陈锦明;刘英子;
专利申请人：恒玄科技(上海)股份有限公司;

上一篇：一种硅碳复合材料及其制备方法和应用
下一篇：计算地表沉降的复杂地质模型四面体网格划分方法及装置