掌桥专利:专业的专利平台
掌桥专利
首页

音频数据风险检测方法、装置、计算机设备及存储介质

文献发布时间:2024-01-17 01:16:56


音频数据风险检测方法、装置、计算机设备及存储介质

技术领域

本发明涉及语音处理技术领域,尤其涉及一种音频数据风险检测方法、装置、计算机设备及存储介质。

背景技术

随着科学技术不断的发展,语音处理技术也逐渐应用在不同的领域当中。比如,在风险检测场景下,通过将语音数据转换为文本信息,并对文本信息进行意图检测,以便针对意图检测结果采取相应的风险应对措施。

现有技术中,风险检测技术往往是通过风险信号标记、风险预测建模和文本风险挖掘进行风险预测,以及通过语音数据中的声纹特征与历史标记数据进行匹配,从而判断语音数据是否有违规、诈骗或刷单等风险。但是风险预测建模并不能覆盖所有场景,适用性差。只基于文本内容的风险检测结果的准确率不高,效果也不理想,也不能充分利用文本信息中的情感信息。而且通过声纹特征与历史标记数据进行匹配,也不能充分利于语音数据中的情感信息进行风险检测。

发明内容

本发明实施例提供一种音频数据风险检测方法、装置、计算机设备及存储介质,以解决现有技术中文本检测准确率低以及语音数据无法充分利用的问题。

一种音频数据风险检测方法,包括:

获取音频数据,通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果;

根据预设语音识别模型对所述音频数据进行语音识别,得到音频文本;

基于预设文本识别模型对所述音频文本进行文本情绪识别,得到文本情绪识别结果;

对所述音频数据进行语音特征提取,得到语音特征,并对所述语音特征进行语音情绪识别,确定语音情绪识别结果;

根据所述音频识别结果、所述文本情绪识别结果和所述语音情绪识别结果,确定风险检测结果。

一种音频数据风险检测装置,包括:

音频识别模块,用于获取音频数据,通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果;

语音识别模块,用于根据预设语音识别模型对所述音频数据进行语音识别,得到音频文本;

文本情绪识别模块,用于基于预设文本识别模型对所述音频文本进行文本情绪识别,得到文本情绪识别结果;

语音情绪识别模块,用于对所述音频数据进行语音特征提取,得到语音特征,并对所述语音特征进行语音情绪识别,确定语音情绪识别结果;

结果确定模块,用于根据所述音频识别结果、所述文本情绪识别结果和所述语音情绪识别结果,确定风险检测结果。

一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述音频数据风险检测方法。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述音频数据风险检测方法。

本发明提供一种音频数据风险检测方法、装置、计算机设备及存储介质,该方法通过预设声纹分析模型对音频数据进行音频识别,充分利用音频数据中包含的语音信息,从而实现了对音频识别结果的确定,进而提高了对音频数据风险检测的准确率。通过预设语音识别模型对音频数据进行语音识别,从而实现了对音频文本的获取,进而提高了音频文本内容识别的准确率。通过预设文本识别模型对音频文本进行文本情绪识别,充分抽取了音频文本中的语义信息,从而实现了对文本情绪识别结果的提取,进而提高了文本情绪识别结果的准确率。通过提取的语音情绪识别结果、文本情绪识别结果和音频识别结果对音频数据进行风险检测,从而提高了风险检测结果准确率,确保了对音频数据风险检测的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一实施例中音频数据风险检测方法的应用环境示意图;

图2是本发明一实施例中音频数据风险检测方法的流程图;

图3是本发明一实施例中音频数据风险检测方法中步骤S10的流程图;

图4是本发明一实施例中音频数据风险检测方法中步骤S106的流程图;

图5是本发明一实施例中音频数据风险检测装置的原理框图;

图6是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的音频数据风险检测方法,该音频数据风险检测方法可应用如图1所示的应用环境中。具体地,该音频数据风险检测方法应用在音频数据风险检测装置中,该音频数据风险检测装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于解决现有技术中文本检测准确率低以及语音数据无法充分利用的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。

在一实施例中,如图2所示,提供一种音频数据风险检测方法,以该方法应用在图1中的客户端为例进行说明,包括如下步骤:

S10:获取音频数据,通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果。

可理解地,音频数据为需要进行风险检测的对话。如在理赔过程中,音频数据为用户和客服之间的对话。如在智能会议场景中,音频数据可以是不同用户之间的对话。音频识别结果为声纹分析模型对音频数据进行音频风险识别得到的,用于表征音频数据中的风险。预设声纹分析模型用于对音频数据的声纹特征进行风险分析,该模型为基于ECAPA-TDNN框架改进的模型,模型参数与ECAPA-TDNN框架的参数不同。

进一步地,从服务器中调取音频数据,或者由用户从客户端发送至服务器的音频数据。通过MFCC对音频数据进行特征提取,得到与音频数据对应的特征,并将音频特征输入到预设声纹分析模型中,通过预设声纹分析模型对音频特征进行卷积层处理,得到卷积特征向量。根据残差网络层对卷积特征向量进行残差处理,得到残差特征向量。通过卷积池化层对残差特征向量进行卷积池化处理,得到输出特征向量。根据全连接层对输出特征向量进行预测处理,得到音频识别结果。

S20:根据预设语音识别模型对所述音频数据进行语音识别,得到音频文本。

可理解地,预设语音识别模型为用于将语音数据转换为音频文本。预设语音识别模型为conformer encoder(编码器)与CTC/attention decoder(时序分类解码器和注意力解码器)结合得到的。编码器为卷积增强的Transformer。时序分类解码器和注意力解码器为Wenet网络中的结构。

具体地,在得到音频数据之后,将音频数据同时也输入到预设语音识别模型,将音频数据转换为文本信息,先通过编码器对音频数据进行编码处理,也即将音频数据依次通过前向网络、注意力层、前向网络以及残差求和操作得到与音频数据对应的向量表示,并将该向量确定为音频向量。通过时序分类解码器对音频向量进行第一次解码,也即将时序分类解码器对音频向量的解码结果作为先验信息用于第二次解码。通过注意力解码器对流式结果和音频向量进行二次流式解码,并将得到的解码结果确定为音频文本。

S30:基于预设文本识别模型对所述音频文本进行文本情绪识别,得到文本情绪识别结果。

可理解地,预设文本识别模型为对音频文本进行检测的。预设文本识别模型为基于Text RNN与Attention改进的模型,也即通过两次双向长短期记忆网络和注意力进行文本情绪识别。

具体地,在得到音频文本之后,先对音频文本进行分词处理,将音频文本划分为一个一个的词,并对各个词进行编码处理,先将各个词采用数字进行表示,再将数字用向量表示,从而得到词向量。通过双向长短期记忆网络对词向量进行融合处理,也即采用双向LSTM从单词的两个方向来获取单词的注释,并根据上下文的信息将词向量合并为句向量。对每一个句向量进行线性变换,得到句向量的权重值。并双向LSTM通过权重值从上下文的信息和左右两边的信息对句向量进行合并处理,得到文本向量。注意力机制根据句向量的权重值对文本向量进行注意力处理,并通过softmax函数进行概率预测,从而得到文本情绪识别结果。

S40,对所述音频数据进行语音特征提取,得到语音特征,并对所述语音特征进行语音情绪识别,确定语音情绪识别结果。

可理解地,语音特征为用于表征音频数据中语义信息的。语音情绪识别结果为用于表征音频数据中的情绪。如开心、悲伤或害怕等。

具体地,在对音频文本进行情绪识别的同时,对音频数据进行分帧处理,即以固定的时段(如25毫秒)分别对音频数据进行划分,得到多个分帧单元。为避免相邻分帧单元的变化过大,让两相邻分帧单元之间有一段重叠区域。将每个分帧单元乘以窗函数,使每分帧单元的左端和右端具有连续性,从而得到连续的时间窗。对所有加窗后的分帧单元进行短时傅里叶变换,得到与各分帧单元相对应的频谱,即获得分布在时间轴上不同时间窗内的频谱。通过梅尔滤波器对频谱进行处理,得到与语音频谱图相对应的梅尔频谱,即将线形的自然频谱转换为体现人类听觉特性的梅尔频谱。对梅尔频谱的对数进行获取,得到梅尔频谱的对数能量,并根据离散余弦变换将对数能量进行逆变换,并取离散余弦变换后的第二个到第十三个系数作为梅尔频率倒谱系数,并将梅尔频率倒谱系数确定为语音特征。通过softmax函数将所有可能的情绪识别结果的概率转换到[0,1]之间,并将该组情绪识别结果中概率值最大的确定为语音情绪识别结果。

S50,根据所述音频识别结果、所述文本情绪识别结果和所述语音情绪识别结果,确定风险检测结果。

可理解地,风险检测结果为对音频数据进行风险检测得到的,用于表征音频数据是否为诈骗。风险预测模型为大量历史风险检测结果对预设预测模型训练得到的。

具体地,在得到语音情绪识别结果和文本情绪识别结果之后,可以通过风险预测模型对与该音频数据对应的所有音频识别结果、语音情绪识别结果和文本情绪识别结果进行风险检测,也即根据与音频数据对应的多个不同时间段内音频识别结果、语音情绪识别结果和文本情绪识别结果,实时检测音频数据中的风险,从而得到风险检测结果。如在一诈骗场景下,当诈骗人员得知用户同意时,会有开心或喜悦的情绪,当诈骗人员得知用户不同意时,会表现出失望的情绪。

其中,通过爬虫技术从服务器中获取大量的与历史音频数据对应的历史语音情绪识别结果、历史文本情绪识别结果、历史音频识别结果和与历史音频数据对应的历史风险检测结果。将所有与历史音频数据对应的历史语音情绪识别结果、历史文本情绪识别结果、历史音频识别结果和与历史音频数据对应的历史风险检测结果输入到预设训练模型中进行训练,通过预设训练模型对所有与历史音频数据对应的历史语音情绪识别结果、历史文本情绪识别结果、历史音频识别结果进行风险检测,得到预测风险检测结果。将历史音频数据对应的预测风险检测结果和历史风险检测结果进行比较,当两个风险检测结果不同时,将与历史音频数据对应的历史语音情绪识别结果、历史文本情绪识别结果、历史音频识别结果重新输入到预设训练模型中进行训练,如此使得预设训练模型输出的结果可以不断向准确地结果靠拢,让预测准确率越来越高,直至所有预测风险检测结果和历史风险检测结果相同时,将收敛之后的预设训练模型记录为风险预测模型。

在本发明实施例中的一种音频数据风险检测方法,该方法通过预设声纹分析模型对音频数据进行音频识别,充分利用音频数据中包含的语音信息,从而实现了对音频识别结果的确定,进而提高了对音频数据风险检测的准确率。通过预设语音识别模型对音频数据进行语音识别,从而实现了对音频文本的获取,进而提高了音频文本内容识别的准确率。通过预设文本识别模型对音频文本进行文本情绪识别,充分抽取了音频文本中的语义信息,从而实现了对文本情绪识别结果的提取,进而提高了文本情绪识别结果的准确率。通过提取的语音情绪识别结果、文本情绪识别结果和音频识别结果对音频数据进行风险检测,从而提高了风险检测结果准确率,确保了对音频数据风险检测的准确性。

在一实施例中,步骤S10中,也即获取音频数据,包括:

S101,获取语音数据,并对所述语音数据进行分帧处理,得到与所述语音数据对应的分帧数据。

S102,对所有所述分帧数据进行端点检测,得到各所述分帧数据的起始点和终止点。

S103,根据各所述分帧数据的起始点和终止点对所述语音数据进行去噪处理,得到所述音频数据。

可理解地,语音数据为需要进行语音检测的对话。如在保险公司的理赔过程中,语音数据为用户和客服之间的对话。如在智能会议场景中,语音数据还可以是不同用户之间的对话。分帧数据为对语音数据进行划分得到的。起始点为每个分帧数据中语音区域的开始位置。终止点为每个分帧数据中语音区域的结束位置。其中,每个分帧数据中可能包括其中一个端点或不包括端点。音频数据为仅包括语音区域的数据,如在智能会议场景中,音频数据仅包括不同用户之间的对话。

具体地,在得到语音数据之后,从服务器中调取语音数据,或者由用户从客户端发送至服务器的语音数据。对语音数据进行切割处理,也即可以通过固定的频段将语音数据划分为一段一段的语音数据,每个分割单元包含数量相同的信号采样点,并将一段一段的语音数据确定为分帧数据。然后计算每个分帧数据中信号的能量值。如果在语音数据的前端部分连续若干个分帧数据的能量值低于预设能量值阈值(该预设能量值阈值可以根据需求进行设定),接下来的连续若干个分帧数据能量值大于或等于预设能量值阈值,则在信号能量值增大的地方就是语音数据的起始点。同理的,如果连续的若干个分帧数据中语音的能量值较大,随后若干个分帧数据中语音的能量值变小,并且持续一定的时长,可以认为在能量值减小的地方即是语音数据的结束点。从而确定每段分帧数据中的起始点和终止点。将每段分帧数据中的起始点和终止点之间的语音数据保留,将各个分帧数据之间(第一个分帧数据终止点和第二个分帧数据起始点之间)的语音数据进行删除,并依次删除所有非语音数据。将所有保留的分帧数据按照分割顺序进行拼接,从而得到音频数据。

本发明实施例通过计算每段分帧数据中的信号的能量值,并将分帧数据的能量值和预设能量值阈值进行比较,从而实现了对每段分帧数据中起始点和/或终止点的确定。根据每段分帧数据中起始点和/或终止点按照顺序将每个终止点和下一个起始点之间的语音数据进行删除,从而实现了对音频数据的提取,减少了语音数据的冗余,提高了后续音频识别的准确性。

在一实施例中,如图3所示,步骤S10中,也即通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果,包括:

S104,对所述音频数据进行特征提取,得到音频特征。

S105,通过所述第一卷积层对所述音频特征进行卷积处理,得到卷积特征向量。

可理解地,卷积特征向量为通过第一卷积层对语音特征处理得到的。音频特征用于表征该音频数据。

具体地,通过上述步骤S30中的方法对音频向量进行特征提取,得到音频特征,具体过程步骤S30相同不再赘述。通过预设识别模型中第一卷积层对音频特征进行卷积处理。首先通过Conv1D对音频特征进行一维卷积处理,即将卷积特征向量中的帧数压缩成一维特征向量。再通过ReLU函数(Rectified Linear Unit,非线性整流函数)对一维特征向量进行激活处理。当激活后,将一维特征向量输入第一卷积层中的归一层,对一维特征向量进行归一化处理,得到卷积特征向量。

S106,将所述卷积特征向量输入至所述残差网络层中,并获取每一个所述残差网络层输出的残差特征向量。

可理解地,残差特征向量为通过残差网络层对卷积特征向量进行处理得到的。

具体地,将卷积特征向量输入至残差网络层中,通过三个残差网络层对卷积特征向量进行处理。首先对卷积特征向量进行维度压缩处理,即将卷积特征向量通过(1*1)的卷积矩阵进行压缩处理。再通过(3*3)的卷积矩阵对各通道的权重值进行计算。然后通过(1*1)的卷积矩阵恢复到原来的维度,通过SE-Block层对卷积特征向量和各通道的权重值进行计算,得到残差特征向量。同理,三个残差网络层依次对卷积特征向量进行处理,也即第一残差网络层输出的两个输出结果一个输入到第二卷积层中,一个输入到第二残差网络层中,第二残差网络层输出的两个输出结果一个输入到第二卷积层中,一个输入到第三残差网络层中,第三残差网络层输出一个输出结果输入到第二卷积层中,从而得到三个残差特征向量。

S107,通过所述第二卷积层对所有残差网络层输出的所述残差特征向量进行卷积处理,得到语音特征向量。

S108,通过所述注意力池化层对所述语音特征向量进行向量处理,得到输出特征向量。

S109,通过所述全连接层对所述输出特征向量进行预测处理,得到所述音频识别结果。

可理解地,语音特征向量为通过第二卷积层对所有残差特征向量进行卷积处理得到的。全连接层包括归一层和softmax层。

具体地,再通过第二卷积层对所有残差网络层输出的残差特征向量进行卷积处理,即同时对多个残差特征向量进行特征融合处理,将三个残差特征向量连接到一起,即可得到语音特征向量。通过注意力池化层对语音特征向量进行池化处理,得到每一帧不同的权重。然后通过注意力池化层中的归一层对每一帧不同的权重进行归一化计算,得到语音特征向量的均值和方差。根据均值和方差对语音特征向量进行拼接,得到输出特征向量。进一步地,将注意力池化层输出的所有输出特征向量乘以不同权重矩阵,得到计算结果。再通过全连接层中的归一层对计算结果进行归一化处理,并通过softmax层对归一化计算结果进行预测,将归一化计算结果的概率值转换到[0,1]之间,将概率值最大的预测结果记录为音频识别结果。

本发明实施例通过第一卷积层进行卷积处理,实现了对卷积特征向量的获取。通过残差网络层,使得残差网络层可以对音频特征进行推理识别,提高了特征识别的准确性。并通过第二卷积层对残差特征向量进行卷积处理,实现了对语音特征向量的确定。通过注意力池化层对语音特征向量进行向量处理,实现了对输出特征向量的确定。

在一实施例中,如图4所示,步骤S106中,也即将所述卷积特征向量输入至所述残差网络层中,并获取每一个所述残差网络层输出的残差特征向量,包括:

S1061,将所述卷积特征向量输入所述第一残差网络层,通过所述第一残差网络层对所述卷积特征向量进行特征提取,得到第一特征向量。

可理解地,第一特征向量为通过第一个残差网络层对卷积特征向量特征提取得到的。第一残差网络层包括第一数量的卷积核和第二数量的通道数。

具体地,在得到卷积特征向量之后,将卷积特征向量输入到第一个残差网络层中,通过第一个残差网络层中的第一个卷积层对卷积特征向量进行卷积处理,即对卷积特征向量的维度进行压缩。对压缩后的卷积特征向量进行空洞卷积处理,即根据设置的卷积核个数和通道数进行卷积处理,得到权重矩阵,使压缩后的卷积特征向量具有更多尺度的上下文信息。通过第一个残差网络层中的第二个卷积层对空洞卷积后的卷积特征向量进行卷积处理,也即对空洞卷积后的卷积特征向量的维度进行恢复。将恢复维度后的卷积特征向量通过SE-Block层进行处理,即将恢复维度后的卷积特征向量乘以权重矩阵,得到第一特征向量。

S1062,通过所述第二残差网络层对所述第一特征向量进行特征提取,得到第二特征向量。

可理解地,第二特征向量为通过第二个残差网络层对第一特征向量特征提取得到的。第一残差网络层包括第三数量的卷积核和第四数量的通道数。

具体地,在得到第一特征向量之后,将第一特征向量输入到第二个残差网络层中,通过第二个残差网络层中的第一个卷积层对第一特征向量进行卷积处理,即对第一特征向量的维度进行压缩。对压缩后的第一特征向量进行空洞卷积处理,即根据设置的卷积核个数和通道数进行卷积处理,得到权重矩阵,使压缩后的第一特征向量具有更多尺度的上下文信息。通过第二个残差网络层中的第二个卷积层对空洞卷积后的第一特征向量进行卷积处理,也即对空洞卷积后的第一特征向量的维度进行恢复。将恢复维度后的第一特征向量通过SE-Block层进行处理,即将恢复维度后的第一特征向量乘以权重矩阵,得到第二特征向量。

S1063,通过所述第三残差网络层对所述第二特征向量进行特征提取,得到第三特征向量。

S1064,将所述第一特征向量、所述第二特征向量和所述第三特征向量记录为所述残差特征向量。

可理解地,第三特征向量为通过第三个残差网络层对第二特征向量特征提取得到的。第一残差网络层包括第五数量的卷积核和第六数量的通道数。

具体地,在得到第二特征向量之后,将第二特征向量输入到第三个残差网络层中,通过第三个残差网络层中的第一个卷积层对第二特征向量进行卷积处理,即对第二特征向量的维度进行压缩。对压缩后的第二特征向量进行空洞卷积处理,即根据设置的卷积核个数和通道数进行卷积处理,得到权重矩阵,使压缩后的第二特征向量具有更多尺度的上下文信息。通过第三个残差网络层中的第二个卷积层对空洞卷积后的第二特征向量进行卷积处理,也即对空洞卷积后的第二特征向量的维度进行恢复。将恢复维度后的第二特征向量通过SE-Block层进行处理,即将恢复维度后的第二特征向量乘以权重矩阵,得到第三特征向量。并将将第一特征向量、第二特征向量和第三特征向量记录为残差特征向量。

本发明实施例通过三个残差网络层对卷积特征向量进行处理,实现了对不同残差特征向量的确定,进而提高了后续对特征预测的准确性,确保了音频识别结果的准确率。

在一实施例中,步骤S20中,也即通过预设语音识别模型对所述音频数据进行语音识别,得到音频文本,包括:

S201,通过所述编码器对所述音频数据进行编码处理,得到音频向量。

可理解地,预设语音识别模型包括编码器、时序分类解码器和注意力解码器。编码器为conformer encoder,该编码器是在Transformer encoder的基础上增加卷积层得到的。音频向量为对音频数据进行编码得到的。

具体地,在得到音频数据之后,将音频数据输入到预设语音识别模型中,预设语音识别模型中的编码器对音频数据进行编码处理,即先通过第一前向网络对音频数据进行预处理,也即通过两个线性层进行线性变换,并在两个线性变换之间通过swish非线性激活函数进行激活处理,再通过dropout层减少过程中出现的过拟合问题,最后通过残差求和操作,得到第一前向网络向量。接着通过注意力层对第一前向网络向量进行注意力处理,即通过多组权重矩阵对第一前向网络向量进行注意力处理,并通过dropout层减少一部分数据,从而得到注意力向量。然后通过卷积层对注意力向量进行卷积处理,得到卷积向量。最后通过第二前向网络对卷积向量进行处理,通过两次线性变换将卷积向量映射到原来的维度,再通过dropout层减少过程中出现的过拟合问题,最后通过残差求和操作,得到音频向量。

S202,通过所述时序分类解码器对所述音频向量进行流式解码,得到至少一个流式结果。

S203,通过所述注意力解码器对所有所述流式结果和所述音频向量进行二次流式解码,得到所述音频文本。

可理解地,流式结果为通过时序分类解码器对音频向量流式解码得到的。时序分类解码器为CTC decoder。该时序分类解码器为Wenet网络中的第一个解码器。音频文本为Wenet网络对音频数据识别得到的。注意力解码器为Attention decoder。该注意力解码器为Wenet网络中的第二个解码器。

具体地,在得到音频向量之后,通过时序分类解码器对所有音频向量进行第一次流式解码,得到多个解码结果,并将所有解码结果确定为流式结果,从而得到至少一个流式结果。本实施例中采用贪心搜索,也即通过贪心搜索计算每个音频向量对应的解码结果,该方法是在每一步中选择概率最大的输出值,即可得到最终解码的输出序列,并将该输出序列作为流式结果。通过上述方法得到各个音频向量对应的流式结果。进一步地,将音频向量和与音频向量对应的流式结果输入到注意力解码器中,通过注意力解码器根据音频向量和对应的流式结果进行评分,得到评分值。其中,注意力解码器采用chunk(组块)的注意力机制,将音频向量划分为多个固定大小的,每个组块内部的帧不会依赖于组块右侧的帧。同时,连续堆叠的卷积层会带来较大的右侧依赖,wenet则采用了因果卷积来避免卷积层的右侧依赖。并根据评分值对音频向量进行排序,将排序后的音频向量进行解码处理,从而得到音频文本。

本发明实施例通过conformer编码器对音频数据进行编码处理,从而实现了对音频向量的获取。通过时序分类解码器对音频向量进行流程解码,实现了对流式结果的获取。通过注意力解码器对音频向量和流式结果同时进行解码,从而实现了对音频文本的获取,进而提高了语音识别的准确率,确保了后续文本检测结果的准确性。

在一实施例中,步骤S30中,也即基于预设文本识别模型对所述音频文本进行文本识别,得到情绪识别结果,包括:

S301,对所述音频文本进行分词处理,得到分词结果。

S302,对所有所述分词结果进行编码处理,得到词向量。

可理解地,分词结果为音频文本中的单词或短语。词向量为分词结果的向量化得到的。

具体地,在得到音频文本之后,通过中文分词算法对音频文本进行切词处理,根据上下文特征的联系将音频文本进行全切分路径选择切词,也即将所有可能的切词结果全部列出来,从中选择最佳的切分路径,并将所有的切词结果组成有向无环图,可以通过将切词结果作为节点,词和词之间的边赋予权重,找到权重和最小的路径即为最终结果,比如可以通过词频作为权重,找到一条总词频最大的路径即可认为是最佳路径,从而得到与音频文本对应的至少一个分词结果。进一步地,通过预设的词袋库或预设的编码规则对分词结果进行向量转换,也即通过匹配的方式从词袋库中获取对应的向量,或者通过编码规则将所有分词结果采用数字进行表示,并将数字用向量表示,从而得到各个分词结果对应的词向量。

S303,通过第一双向长短期记忆网络对所述词向量进行线性变换,得到各所述词向量对应的第一权重值。

S304,根据各所述词向量对应的第一权重值对所有所述词向量进行注意力处理,得到句向量。

可理解地,第一权重值为词向量通过线性变换得到的。句向量为通过第一权重值对词向量拼接得到的。

具体地,在得到词向量之后,将词向量输入到预设文本识别模型中的第一双向长短期记忆网络中,通过第一双向长短期记忆网络对词向量进行线性变换处理,也即根据上下文本信息和左右文本信息对词向量在音频文本中的权重值进行计算,从而得到各词向量对应的第一权重值。对所有第一权重值进行加权求和,并对加权求和后的权重值进行注意力处理,选取其中权重值较大的词向量,并将所有词向量进行合并,从而得到多个句向量。

S305,通过第二双向长短期记忆网络对所述句向量进行线性变换,得到各所述句向量对应的第二权重值。

S306,根据各所述句向量对应的第二权重值对所有所述词向量进行注意力处理,得到文本向量。

S307,对所述文本向量进行预测处理,得到所述文本情绪识别结果。

可理解地,第二权重值为句向量通过线性变换得到的。文本向量为通过第二权重值对词向量拼接得到的。

具体的,通过第二双向长短期记忆网络对所有句向量进行线性变换,也即根据上下文本信息和左右文本信息计算句向量在音频文本中的权重,从而得到各句向量对应的第二权重值。对所有第二权重值进行加权求和,并对加权求和后的权重值进行注意力处理,选取其中权重值较大的句向量,并将所有句向量进行合并,从而得到文本向量。通过softmax对文本向量进行分类预测,将文本向量对应的特征的概率转换到[0,1]之间,将文本向量对应的最大概率值所对应的特征确定为与音频文本对应的文本情绪识别结果。

本发明实施例通过对音频文本进行分词处理,并对分词结果进行编码处理,从而实现了对词向量的转换。通过LSTM对所有词向量进行线性变换,实现了对第一权重值的确定,并根据加权求和后的权重值对词向量进行注意力处理,实现了对句向量的转换。通过LSTM对所有词向量进行线性变换,实现了对第二权重值的确定,并根据加权求和后的权重值对句向量进行注意力处理,实现了对文本向量的转换,从而提高了文本情绪识别结果提取的准确率。

应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

在一实施例中,提供一种音频数据风险检测装置,该音频数据风险检测装置与上述实施例中音频数据风险检测方法一一对应。如图5所示,该音频数据风险检测装置包括音频识别模块11、语音识别模块12、文本情绪识别模块13、语音情绪识别模块14和结果确定模块15。各功能模块详细说明如下:

音频识别模块11,用于获取音频数据,通过预设声纹分析模型对所述音频数据进行音频识别,得到音频识别结果;

语音识别模块12,用于根据预设语音识别模型对所述音频数据进行语音识别,得到音频文本;

文本情绪识别模块13,用于基于预设文本识别模型对所述音频文本进行文本情绪识别,得到文本情绪识别结果;

语音情绪识别模块14,用于对所述音频数据进行语音特征提取,得到语音特征,并对所述语音特征进行语音情绪识别,确定语音情绪识别结果;

结果确定模块15,用于根据所述音频识别结果、所述文本情绪识别结果和所述语音情绪识别结果,确定风险检测结果。

在一实施例中,所述音频识别模块11包括:

分帧数据单元,用于获取语音数据,并对所述语音数据进行分帧处理,得到与所述语音数据对应的分帧数据;

端点检测单元,用于对所有所述分帧数据进行端点检测,得到各所述分帧数据的起始点和终止点;

数据去噪单元,用于根据各所述分帧数据的起始点和终止点对所述语音数据进行去噪处理,得到所述音频数据。

在一实施例中,所述音频识别模块11还包括:

提取单元,用于对所述音频数据进行特征提取,得到音频特征;

卷积单元,用于通过所述第一卷积层对所述音频特征进行卷积处理,得到卷积特征向量;

残差单元,用于将所述卷积特征向量输入至所述残差网络层中,并获取每一个所述残差网络层输出的残差特征向量;

语音特征单元,用于通过所述第二卷积层对所有残差网络层输出的所述残差特征向量进行卷积处理,得到语音特征向量;

池化单元,用于通过所述注意力池化层对所述语音特征向量进行向量处理,得到输出特征向量。

预测单元,用于通过所述全连接层对所述输出特征向量进行预测处理,得到声学分析结果。

在一实施例中,所述残差单元包括:

第一特征向量子单元,用于将所述卷积特征向量输入所述第一残差网络层,通过所述第一残差网络层对所述卷积特征向量进行特征提取,得到第一特征向量;

第二特征向量子单元,用于通过所述第二残差网络层对所述第一特征向量进行特征提取,得到第二特征向量;

第三特征向量子单元,用于通过所述第三残差网络层对所述第二特征向量进行特征提取,得到第三特征向量;

残差特征向量子单元,用于将所述第一特征向量、所述第二特征向量和所述第三特征向量记录为所述残差特征向量。

在一实施例中,所述语音识别模块12包括:

编码单元,用于通过所述编码器对所述音频数据进行编码处理,得到音频向量;

流式解码单元,用于通过所述时序分类解码器对所述音频向量进行流式解码,得到至少一个流式结果;

音频文本单元,用于通过所述注意力解码器对所有所述流式结果和所述音频向量进行二次流式解码,得到所述音频文本。

在一实施例中,所述文本情绪识别模块13包括:

文本分词单元,用于对所述音频文本进行分词处理,得到分词结果;

词向量单元,用于对所有所述分词结果进行编码处理,得到词向量;

第一权重值单元,用于通过第一双向长短期记忆网络对所述词向量进行线性变换,得到各所述词向量对应的第一权重值;

句向量单元,用于根据各所述词向量对应的第一权重值对所有所述词向量进行注意力处理,得到句向量;

第二权重值单元,用于通过第二双向长短期记忆网络对所述句向量进行线性变换,得到各所述句向量对应的第二权重值;

文本向量单元,用于根据各所述句向量对应的第二权重值对所有所述词向量进行注意力处理,得到文本向量;

文本特征单元,用于对所述文本向量进行预测处理,得到所述文本情绪识别结果。

关于音频数据风险检测装置的具体限定可以参见上文中对于音频数据风险检测方法的限定,在此不再赘述。上述音频数据风险检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中音频数据风险检测方法所用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频数据风险检测方法。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中音频数据风险检测方法。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中音频数据风险检测方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围内。

技术分类

06120116105732