一种声音卡片有效性检测方法及装置

文献发布时间：2023-06-19 11:11:32

技术领域

本申请涉及语音技术领域，尤其涉及一种声音卡片有效性检测方法及装置。

背景技术

随着5G和人工智能的快速发展，以及直播，短视频等泛娱乐产品的兴起，越来越多的社交互动玩法层出不穷，因此在用户注册和交互时就需要构建独有的声音属性，以便通过声音探知用户的行为属性和特征标签等。同时，在实际交互过程中大量的声音卡片就需要先通过有效性检测，对有效性检测合格的卡片做进一步分析，对不合格卡片做重新录制和删除处理。

目前常用的语音有效性检测方案分为两类，第一类是通过交互方式，由人工触控录音按钮开始和结束语音来判断，只要人工点击开始就开始录制音频，并未对每一帧声音信号做进一步有效性检测，这样就生成了大量的无效声音卡片被传播和保存。第二类是通过短时平均能量和平均过零率来判断是否为声音信号，但由于复杂场景的声音信号和噪声信号并无明显的特征区分和差异，导致双门限方式检测准确率不高，同样存在大量异常声音卡片被推荐和传播。

发明内容

本申请提供了一种声音卡片有效性检测方法及装置，用于解决现有的语音有效性检测准确率低导致异常声音卡片被大量推荐和传播的技术问题。

首先，本申请第一方面提供了一种声音卡片有效性检测方法包括：

获取待检测的声音卡片消息，并提取所述声音卡片消息中的声音信号；

提取所述声音信号的声音特征，所述声音特征包括：短时过零率、短时幅度、短时能量谱、自相关系数、基频、基音周期、谐波能量和、共振峰以及峰谷比；

将所述声音特征输入预置的声音特征检测模型，通过所述声音特征检测模型，对所述声音特征进行特征置信度运算，以便根据所述声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定所述声音卡片消息对应的声音卡片有效性检测结果，其中，所述声音特征检测模型为根据预置的声音特征样本训练得到的决策树模型。

优选地，提取所述声音卡片消息中的声音信号之后还包括：

对所述声音信号进行预处理，所述预处理包括：加窗分帧处理和预加重处理。

优选地，所述声音特征具体由短时过零率，短时能量谱，基音周期，共振峰，短时幅度和以及峰谷比组成。

优选地，所述根据所述声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定所述声音卡片消息对应的声音卡片有效性检测结果具体包括：

根据所述声音特征检测模型输出的特征置信度运算结果，提取所述特征置信度运算结果中的特征置信度；

根据所述特征置信度与预设的第一置信度区间、第二置信度区间的匹配结果，若所述特征置信度处于所述第一置信度区间的范围内，则确定所述声音卡片消息对应的声音卡片有效性检测结果为有效，若所述特征置信度处于所述第二置信度区间的范围内，则确定所述声音卡片消息对应的声音卡片有效性检测结果为无效。

优选地，所述声音特征检测模型具体为C4.5决策树模型。

同时，本申请第二方面提供了一种声音卡片有效性检测装置，包括：

声音信号提取单元，用于获取待检测的声音卡片消息，并提取所述声音卡片消息中的声音信号；

声音特征提取单元，用于提取所述声音信号的声音特征，所述声音特征包括：短时过零率、短时幅度、短时能量谱、自相关系数、基频、基音周期、谐波能量和、共振峰以及峰谷比；

有效性检测单元，用于将所述声音特征输入预置的声音特征检测模型，通过所述声音特征检测模型，对所述声音特征进行特征置信度运算，以便根据所述声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定所述声音卡片消息对应的声音卡片有效性检测结果，其中，所述声音特征检测模型为根据预置的声音特征样本训练得到的决策树模型。

优选地，还包括：

预处理单元，用于对所述声音信号进行预处理，所述预处理包括：加窗分帧处理和预加重处理。

优选地，所述声音特征具体由短时过零率，短时能量谱，基音周期，共振峰，短时幅度和以及峰谷比组成。

根据所述声音特征检测模型输出的特征置信度运算结果，提取所述特征置信度运算结果中的特征置信度；

优选地，所述声音特征检测模型具体为C4.5决策树模型。

从以上技术方案可以看出，本申请具有以下优点：

本申请第一方面提供了一种声音卡片有效性检测方法包括：获取待检测的声音卡片消息，并提取所述声音卡片消息中的声音信号；提取所述声音信号的声音特征，所述声音特征包括：短时过零率、短时幅度、短时能量谱、自相关系数、基频、基音周期、谐波能量和、共振峰以及峰谷比；将所述声音特征输入预置的声音特征检测模型，通过所述声音特征检测模型，对所述声音特征进行特征置信度运算，以便根据所述声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定所述声音卡片消息对应的声音卡片有效性检测结果，其中，所述声音特征检测模型为根据预置的声音特征样本训练得到的决策树模型。

本申请通过决策树模型与多特征属性结合来训练声音特征检测模型，通过训练的声音特征检测模型融合多特征进行语音的有效性检测，减少了人为调试对系统的干预，而且相比较双门限的特征分量做硬阈值判决，鲁棒性更好，泛化能力更强，解决了现有的语音有效性检测准确率低导致异常声音卡片被大量推荐和传播的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种声音卡片有效性检测方法的第一个实施例的流程示意图；

图2为本申请提供的一种声音卡片有效性检测方法的第二个实施例的流程示意图；

图3为本申请提供的一种声音卡片有效性检测装置的第一个实施例的结构示意图。

具体实施方式

本申请实施例提供了一种声音卡片有效性检测方法及装置，用于解决现有的语音有效性检测准确率低导致异常声音卡片被大量推荐和传播的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1，本申请第一个实施例提供了一种声音卡片有效性检测方法，包括：

步骤101、获取待检测的声音卡片消息，并提取声音卡片消息中的声音信号。

需要说明的是，在实施本申请实施例的技术方案时，首先获取待检测的声音卡片消息，然后从该声音卡片消息中提取出相应的声音信号。

步骤102、提取声音信号的声音特征，声音特征包括：短时过零率、短时幅度、短时能量谱、自相关系数、基频、基音周期、谐波能量和、共振峰以及峰谷比。

需要说明的是，基于步骤101获得的声音信号，进一步进行特征提取，获得该声音信号的声音特征，本实施例的声音特征具体包括：短时过零率、短时幅度、短时能量谱、自相关系数、基频、基音周期、谐波能量和、共振峰以及峰谷比。

步骤103、将声音特征输入预置的声音特征检测模型，通过声音特征检测模型，对声音特征进行特征置信度运算，以便根据声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定声音卡片消息对应的声音卡片有效性检测结果，其中，声音特征检测模型为根据预置的声音特征样本训练得到的决策树模型。

需要说明的是，将通过步骤102提取出声音特征作为模型输入，将其输入到预置的声音特征检测模型中，通过声音特征检测模型，对输入到模型中的声音特征进行特征置信度运算，以便根据声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定声音卡片消息对应的声音卡片有效性检测结果。

其中，声音特征检测模型为根据预置的声音特征样本训练得到的决策树模型，本实施例提及的声音特征样本是通过预置的声音卡片样本通过步骤102相同的特征提取方式提取出来的特征样本，其包含的内容与步骤102中提及的声音特征一致。

以上为本申请提供的一种声音卡片有效性检测方法的第一个实施例的详细说明，下面为本申请提供的一种声音卡片有效性检测方法的第二个实施例的详细说明。

请参阅图2，本申请第二个实施例提供了一种声音卡片有效性检测方法，包括：

步骤201、获取待检测的声音卡片消息，并提取声音卡片消息中的声音信号。

步骤202、对声音信号进行预处理，预处理包括：加窗分帧处理和预加重处理。

需要说明的是，预处理就是对PCM数据进行分帧加窗和预加重。分帧是指将语音信号依据短时平稳性进行切片，本实施例采用16ms帧长。加窗通常采用汉明窗或汉宁窗，本实施例优选采用汉明窗。预加重就是提升高频分量的能量，以此来避免因为声波信号受用户的声门振动和口鼻辐射引起的800Hz以上频率成分的6dB/倍频程衰减。出于预加重效果的考虑，本实施例优选采用一阶高通滤波器来实现预加重。

步骤203、提取声音信号的声音特征，声音特征具体由短时过零率，短时能量谱，基音周期，共振峰，短时幅度和以及峰谷比组成。

需要说明的是，基于反复试验选择的声音特征组合，本实施例提供的最优声音特征方案为，提取由短时过零率，短时能量谱，基音周期，共振峰，短时幅度和以及峰谷比组成的声音特征，以作为后续声音特征检测模型的输入参数，从而达到平衡检测准确度和检测时延的效果。

步骤204、将声音特征输入预置的声音特征检测模型，通过声音特征检测模型，对声音特征进行特征置信度运算，以便根据声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定声音卡片消息对应的声音卡片有效性检测结果，其中，声音特征检测模型为根据预置的声音特征样本训练得到的决策树模型。

更具体地，常用的决策树算法有ID3、C4.5、CART算法。本实施例按实际需要，优选采用效果更好的C4.5决策树算法，C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。通过C4.5决策树算法的监督学习机制：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。

本实施例的特征置信度运算结果与声音卡片有效性检测结果的对应关系具体包括：预设的第一置信度区间和第二置信度区间，通过根据声音特征检测模型输出的特征置信度运算结果中提取的特征置信度与上述第一置信度区间和第二置信度区间进行匹配，判断上述的特征置信度具体处于哪一个置信度区间的范围内，若特征置信度处于第一置信度区间的范围内，则确定声音卡片消息对应的声音卡片有效性检测结果为有效，若特征置信度处于第二置信度区间的范围内，则确定声音卡片消息对应的声音卡片有效性检测结果为无效。通常情况下，特征的置信度越高表明此声音卡片有效性越高，反之置信度越低表明此声音卡片有效性越低，因此，在本实施例中，第一置信度区间的范围取值大于第二置信度区间的范围取值，不同的业务场景可以依据不同的判别规则来确定置信度区间的合理范围。

以上为本申请提供的一种声音卡片有效性检测方法的第二个实施例的详细说明，下面为本申请提供的一种声音卡片有效性检测装置的第一个实施例的详细说明。

请参阅图3，本申请第三个实施例提供了一种声音卡片有效性检测装置，包括：

声音信号提取单元301，用于获取待检测的声音卡片消息，并提取声音卡片消息中的声音信号；

声音特征提取单元302，用于提取声音信号的声音特征，声音特征包括：短时过零率、短时幅度、短时能量谱、自相关系数、基频、基音周期、谐波能量和、共振峰以及峰谷比；

有效性检测单元303，用于将声音特征输入预置的声音特征检测模型，通过声音特征检测模型，对声音特征进行特征置信度运算，以便根据声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定声音卡片消息对应的声音卡片有效性检测结果，其中，声音特征检测模型为根据预置的声音特征样本训练得到的决策树模型。

更具体地，还包括：

预处理单元300，用于对声音信号进行预处理，预处理包括：加窗分帧处理和预加重处理。

更具体地，声音特征具体由短时过零率，短时能量谱，基音周期，共振峰，短时幅度和以及峰谷比组成。

更具体地，根据声音特征检测模型输出的特征置信度运算结果，结合预设的特征置信度运算结果与声音卡片有效性检测结果的对应关系，确定声音卡片消息对应的声音卡片有效性检测结果具体包括：

根据声音特征检测模型输出的特征置信度运算结果，提取特征置信度运算结果中的特征置信度；

根据特征置信度与预设的第一置信度区间、第二置信度区间的匹配结果，若特征置信度处于第一置信度区间的范围内，则确定声音卡片消息对应的声音卡片有效性检测结果为有效，若特征置信度处于第二置信度区间的范围内，则确定声音卡片消息对应的声音卡片有效性检测结果为无效。

更具体地，声音特征检测模型具体为C4.5决策树模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：马金龙;熊佳;汪暾;罗箫;焦南凯;徐志坚;谢睿;陈光尧;
专利申请人：广州欢城文化传媒有限公司;

上一篇：一种港口洗舱综合废水的分质处理系统及处理方法
下一篇：原煤系统深度筛分破碎工艺