掌桥专利:专业的专利平台
掌桥专利
首页

基于深度学习的实时语音脱敏方法、装置、设备及存储介质

文献发布时间:2024-04-18 20:00:50


基于深度学习的实时语音脱敏方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域,具体涉及一种基于深度学习的实时语音脱敏方法、装置、设备及存储介质。

背景技术

如今实时语音的应用场景越来越多,譬如直播、游戏以及在线会议等,实时语音中往往包含大量敏感信息,需要对这些敏感信息进行屏蔽处理,而现有的语音敏感词屏蔽方式主要通过语音转文字后检测敏感词,将敏感词进行脱敏替换,将替换后的内容进行语音输出。

然而上述方法存在以下缺陷:

进行实时语音的快速转写、检测以及替换,需要准确性和实时性较高的模型处理,若模型准确性不足,则会导致语音识别效果差,不能屏蔽到敏感信息,若模型实时性不足,则会导致语音识别效率低,不能快速屏蔽敏感信息;

进行语言识别中,需要考虑不同的口音场景,确保敏感信息的准确屏蔽,目前多口音语音识别的鲁棒性研究采用大量不同语音数据训练模型,在没有足够的数据支撑下,训练模型无法达到较高的鲁棒性,语音识别结果易出现偏差。

发明内容

针对现有技术的不足,本发明提出一种基于深度学习的实时语音脱敏方法、装置、设备及存储介质,能够实现。

本发明第一方面公开了一种基于深度学习的实时语音脱敏方法,包括:

S101:获取训练数据集,所述训练数据集设置有多个真实口音标签和真实文字标签,用于训练语音识别模型;

S102:构建语音识别模型,所述语音识别模型包括降采样模块、编码模块、口音分类模块以及解码模块,所述编码模块为基于块注意力机制的多层编码器,用于根据上下文处理所述训练数据集,所述解码模块用于获得语音识别结果和对应的时间戳;

S103:将所述训练数据集输入语音识别模型中,通过反向传播算法训练语音识别模型直至收敛,求解语音识别模型的损失函数,用于判断所述语音识别模型的性能,所述语音识别模型的损失函数包括真实口音的损失函数和真实语音的损失函数;

S104:部署训练完成的语音识别模型对语音识别服务端输入的实时音频进行语音识别处理,获得语音识别结果和对应的时间戳,调用脱敏处理模块,基于语音识别结果和对应的时间戳,完成敏感词的识别和屏蔽,输出脱敏后的实时语音。

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S301:输入所述训练数据集,其中音频数据

S302:通过降采样模块对所述训练数据集进行降采样处理,得到降采样后的音频数据

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S303:将降采样后的音频数据

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S304:编码结果

其中,

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S305:编码结果

解码结果与真实文字标签的损失函数

其中,

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S306:基于分类口音与口音标签交叉熵损失函数

在一个可选的实施例中,步骤S104中,语音识别服务端输入实时音频包括如下步骤:

S401:采用视频采集混合和音频采集混合采集实时音频,所述视频采集混合采用X264编码,所述音频采集混合采用AAC编码;

S402:将所述实时音频进行重采样后,输入所述语音识别模型,实时输出识别结果和对应的时间戳;

S403:识别结果经脱敏处理模块实时检测,根据识别结果和对应的时间戳,替换识别结果中同脱敏处理模型词库相匹配的敏感词,获得脱敏音频;

S404:脱敏音频通过RTMP推流实时返回语音识别服务端进行输出。

本发明第二方面公开了一种基于深度学习的实时语音脱敏系统,所述系统包括:

训练集模块,用于获取训练数据集,所述训练数据集设置有多个真实口音标签和真实文字标签,用于训练语音识别模型;

模型生成模块,用于构建语音识别模型,所述语音识别模型包括降采样模块、编码模块、口音分类模块以及解码模块,所述编码模块为基于块注意力机制的多层编码器,用于根据上下文处理所述训练数据集,所述解码模块用于获得语音识别结果和对应的时间戳;

模型训练模块,用于将所述训练数据集输入语音识别模型中,通过反向传播算法训练语音识别模型直至收敛,求解语音识别模型的损失函数,用于判断所述语音识别模型的性能,所述语音识别模型的损失函数包括真实口音的损失函数和真实语音的损失函数;

语音脱敏处理模块,用于部署训练完成的语音识别模型对语音识别服务端输入的实时音频进行语音识别处理,获得语音识别结果和对应的时间戳,调用脱敏处理模块,基于语音识别结果和对应的时间戳,完成敏感词的识别和屏蔽,输出脱敏后的实时语音。

在一个可选的实施例中,所述模型训练模块还包括:

输入模块,用于输入所述训练数据集,其中音频数据

降采样模块,用于通过降采样模块对所述训练数据集进行降采样处理,得到降采样后的音频数据

编码模块,用于将降采样后的音频数据

口音分类模块,用于编码结果

其中,

解码模块,用于编码结果

解码结果与真实文字标签的损失函数

其中,

决策模块,用于基于分类口音与口音标签交叉熵损失函数

在一个可选的实施例中,所述语音脱敏处理模块包括:

音频采集模块,用于采用视频采集混合和音频采集混合采集实时音频,所述视频采集混合采用X264编码,所述音频采集混合采用AAC编码;

重采样模块,用于将所述实时音频进行重采样后,输入所述语音识别模型,实时输出识别结果和对应的时间戳;

脱敏模块,用于识别结果经脱敏处理模块实时检测,根据识别结果和对应的时间戳,替换识别结果中同脱敏处理模型词库相匹配的敏感词,获得脱敏音频;

推流模块,用于脱敏音频通过RTMP推流实时返回语音识别服务端进行输出。

本发明第三方面公开了一种基于深度学习的实时语音脱敏设备,包括:

至少一个处理器,以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面公开的任一项所述的基于深度学习的实时语音脱敏方法。

本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本发明第一方便公开的任一项所述的基于深度学习的实时语音脱敏方法。

与现有技术相比,本发明具有以下优点:

本发明通过基于块注意力机制的编码模块进行语音识别模型训练,可调节块大小控制语音识别模型的准确性和实时性,在语音识别模型解码后通过时间戳精准截取和实时屏蔽敏感词,同时引入口音分类模块进行模型训练,提高多口音场景下语音识别模型的鲁棒性,实现了实时语音的精准脱敏。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于深度学习的实时语音脱敏方法的流程图;

图2为本发明基于深度学习的实时语音脱敏系统的示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的,而不能理解为指示或暗示相对重要性。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1

参见图1,本发明实施方式公开了一种基于深度学习的实时语音脱敏方法,包括:

S101:获取训练数据集,所述训练数据集设置有多个真实口音标签和真实文字标签,用于训练语音识别模型;

S102:构建语音识别模型,所述语音识别模型包括降采样模块、编码模块、口音分类模块以及解码模块,所述编码模块为基于块注意力机制的多层编码器,用于根据上下文处理所述训练数据集,所述解码模块用于获得语音识别结果和对应的时间戳;

S103:将所述训练数据集输入语音识别模型中,通过反向传播算法训练语音识别模型直至收敛,求解语音识别模型的损失函数,用于判断所述语音识别模型的性能,所述语音识别模型的损失函数包括真实口音的损失函数和真实语音的损失函数;

S104:部署训练完成的语音识别模型对语音识别服务端输入的实时音频进行语音识别处理,获得语音识别结果和对应的时间戳,调用脱敏处理模块,基于语音识别结果和对应的时间戳,完成敏感词的识别和屏蔽,输出脱敏后的实时语音。

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S301:输入所述训练数据集,其中音频数据

S302:通过降采样模块对所述训练数据集进行降采样处理,得到降采样后的音频数据

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S303:将降采样后的音频数据

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S304:编码结果

其中,

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S305:编码结果

解码结果与真实文字标签的损失函数

其中,

在一个可选的实施例中,步骤S103中,训练语音识别模型包括如下步骤:

S306:基于分类口音与口音标签交叉熵损失函数

在一个可选的实施例中,步骤S104中,语音识别服务端输入实时音频包括如下步骤:

S401:采用视频采集混合和音频采集混合采集实时音频,所述视频采集混合采用X264编码,所述音频采集混合采用AAC编码;

S402:将所述实时音频进行重采样后,输入所述语音识别模型,实时输出识别结果和对应的时间戳;

S403:识别结果经脱敏处理模块实时检测,根据识别结果和对应的时间戳,替换识别结果中同脱敏处理模型词库相匹配的敏感词,获得脱敏音频;

S404:脱敏音频通过RTMP推流实时返回语音识别服务端进行输出。

本发明通过基于块注意力机制的编码模块进行语音识别模型训练,可调节块大小控制语音识别模型的准确性和实时性,在语音识别模型解码后通过时间戳精准截取和实时屏蔽敏感词,同时引入口音分类模块进行模型训练,提高多口音场景下语音识别模型的鲁棒性,实现了实时语音的精准脱敏。

如图2所示,本发明第二方面公开了一种基于深度学习的实时语音脱敏系统,所述系统包括:

训练集模块,用于获取训练数据集,所述训练数据集设置有多个真实口音标签和真实文字标签,用于训练语音识别模型;

模型生成模块,用于构建语音识别模型,所述语音识别模型包括降采样模块、编码模块、口音分类模块以及解码模块,所述编码模块为基于块注意力机制的多层编码器,用于根据上下文处理所述训练数据集,所述解码模块用于获得语音识别结果和对应的时间戳;

模型训练模块,用于将所述训练数据集输入语音识别模型中,通过反向传播算法训练语音识别模型直至收敛,求解语音识别模型的损失函数,用于判断所述语音识别模型的性能,所述语音识别模型的损失函数包括真实口音的损失函数和真实语音的损失函数;

语音脱敏处理模块,用于部署训练完成的语音识别模型对语音识别服务端输入的实时音频进行语音识别处理,获得语音识别结果和对应的时间戳,调用脱敏处理模块,基于语音识别结果和对应的时间戳,完成敏感词的识别和屏蔽,输出脱敏后的实时语音。

在一个可选的实施例中,所述模型训练模块还包括:

输入模块,用于输入所述训练数据集,其中音频数据

降采样模块,用于通过降采样模块对所述训练数据集进行降采样处理,得到降采样后的音频数据

编码模块,用于将降采样后的音频数据

口音分类模块,用于编码结果

其中,

解码模块,用于编码结果

解码结果与真实文字标签的损失函数

其中,

决策模块,用于基于分类口音与口音标签交叉熵损失函数

在一个可选的实施例中,所述语音脱敏处理模块包括:

音频采集模块,用于采用视频采集混合和音频采集混合采集实时音频,所述视频采集混合采用X264编码,所述音频采集混合采用AAC编码;

重采样模块,用于将所述实时音频进行重采样后,输入所述语音识别模型,实时输出识别结果和对应的时间戳;

脱敏模块,用于识别结果经脱敏处理模块实时检测,根据识别结果和对应的时间戳,替换识别结果中同脱敏处理模型词库相匹配的敏感词,获得脱敏音频;

推流模块,用于脱敏音频通过RTMP推流实时返回语音识别服务端进行输出。

本发明第三方面公开了一种基于深度学习的实时语音脱敏设备,包括:

至少一个处理器,以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面公开的任一项所述的基于深度学习的实时语音脱敏方法。

本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本发明第一方便公开的任一项所述的基于深度学习的实时语音脱敏方法。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

相关技术
  • 一种核电站大修期间辐射剂量预测方法及终端
  • 一种基于神经网络的经营数据预测方法、可读存储介质和预测系统
  • 一种地铁车站能耗短期预测方法及其预测系统
  • 一种基于轨道交通实时客流的预测方法及预测系统
  • 一种基于随机递归小波神经网络的船舶污水处理控制预测系统及预测方法
  • 一种基于剂量预测和参数优化的自动计划方法及系统
  • 一种剂量预测方法、系统、装置及存储介质
技术分类

06120116545804