掌桥专利:专业的专利平台
掌桥专利
首页

一种智能化的语音信号处理系统

文献发布时间:2023-06-19 19:35:22


一种智能化的语音信号处理系统

技术领域

本发明属于语音信号处理技术领域,尤其涉及一种智能化的语音信号处理系统。

背景技术

语音,即语言的物质外壳,是语言的外部形式,是最直接地记录人的思维活动的符号体系。它是人的发音器官发出的具有一定社会意义的声音。语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。语音即语言的声音,是语言符号系统的载体。它由人的发音器官发出,负载着一定的语言意义。语言依靠语音实现它的社会功能。语言是音义结合的符号系统,语言的声音和语言的意义是紧密联系着的,因此,语言虽是一种声音,但又与一般的声音有着本质的区别。语音是人类发音器官发出的具有区别意义功能的声音,不能把语音看成纯粹的自然物质;语音是最直接地记录思维活动的符号体系,是语言交际工具的声音形式;然而,现有智能化的语音信号处理系统采集的语音会有很大的噪声残留或者对目标声音有很大的损伤;同时,对语音识别不准确。

通过上述分析,现有技术存在的问题及缺陷为:

(1)现有智能化的语音信号处理系统采集的语音会有很大的噪声残留或者对目标声音有很大的损伤。

(2)对语音识别不准确。

发明内容

针对现有技术存在的问题,本发明提供了一种智能化的语音信号处理系统。

本发明是这样实现的,一种智能化的语音信号处理系统包括:

语音信号采集模块,与主控模块连接,用于通过声波在需求环境内采集目标语音信号;

主控模块,与语音信号采集模块、语音信号校准模块、信号特征提取模块、语音增强模块、语音识别模块、语音分析模块、显示模块连接,用于调节控制各个模块的数据信息,保障各个模块的正常工作;

语音信号校准模块,与主控模块连接,用于对获取到的语音信号进行自动校准;

信号特征提取模块,与主控模块连接,用于根据校准后的目标语音信号提取语音信号特征;

语音增强模块,与主控模块连接,用于对目标语音输入信号去噪处理、时频补偿,计算经过时频补偿的多个目标语音特征信息,并对目标语音输入信号进行分类得到目标语音分类结果,获得目标语音掩蔽值,最后获得目标语音输出信号;

语音识别模块,与主控模块连接,用于根据目标语音帧序列的每个语音帧中各时频点的强度获得每个语音帧中各时频点对应的色彩信息,生成目标语音信号的语谱图,在语谱图提取并识别语谱片段,得到语音识别语谱片段涉及的目标语种;

语音分析模块,与主控模块连接,用于对识别到的目标语音信号的语种进行分析;

显示模块,与主控模块连接,用于对各个模块中语音信号、识别结果、分析结果的显示,便于主控模块的操作。

进一步,所述语音增强模块增强方法如下:

(1)获取目标语音输入信号;对目标语音输入信号去噪处理;对所述目标语音输入信号进行时频补偿;计算经过时频补偿的多个目标语音特征信息,并对所述目标语音输入信号进行分类得到目标语音分类结果;

(2)根据所述多个目标语音特征信息和目标语音分类结果,确定目标语音掩蔽值;

根据所述多个目标语音特征信息和目标语音分类结果,确定目标语音掩蔽值的步骤,包括根据所述多个目标语音特征信息和预设掩蔽门限值,得到第一掩蔽值;在得到频域信号零和频域信号一后,采用分频带谱减法得到第二掩蔽值;基于所述目标语音分类结果,确定第三掩蔽值;在确定所述目标语音分类结果为噪声信号时,则确定目标语音掩蔽值为第三掩蔽值;在确定所述目标语音分类结果为目标语音信号时,则比较所述第一掩蔽值和第二掩蔽值,并基于比较结果确定目标语音掩蔽值;

基于所述目标语音掩蔽值,确定目标语音输出信号;

对所述目标语音输入信号进行时频补偿的步骤,包括:分别获取所述目标语音输入信号中第一麦克风的时域信号零和第二麦克风的时域信号一;对所述时域信号零进行分帧处理得到频域信号零,和,对所述时域信号一进行分帧处理得到频域信号一,其中,所述频域信号零和所述频域信号一包含有多个时频单元,每个所述时频单元对应一帧频域信号的一个频带;

确定与所述频域信号一中的每个时频单元对应的时频补偿参数一;基于所述时频补偿参数一对所述频域信号一中的各个所述时频单元进行时频补偿。

进一步,所述计算经过时频补偿的多个目标语音特征信息的步骤,包括:

计算经过时频补偿的双通道时间差ITD和双通道能量差IID;

将所述双通道时间差ITD和所述双通道能量差IID确定为所述目标语音输入信号的多个目标语音特征信息。

进一步,所述在计算经过时频补偿的多个目标语音特征信息之后,所述方法还包括:

判断所述频域信号零的目标帧是否为噪声信号;

在所述频域信号零的目标帧为噪声信号时,确定目标语音分类结果为噪声信号;或者,在所述频域信号零的目标帧不是噪声信号时,确定目标语音分类结果为目标语音信号。

进一步,所述在确定目标语音分类结果为噪声信号之后,所述方法还包括:基于所述频域信号零和所述频域信号一的信号差值更新所述时频补偿参数一。

进一步,所述基于所述目标语音掩蔽值,确定目标语音输出信号的步骤,包括:

对所述目标语音掩蔽值进行平滑处理;

基于平滑处理后的所述目标语音掩蔽值和经过分帧处理后得到的所述频域信号零,重建目标语音信号;

将重建后的目标语音信号确定为所述目标语音输出信号。

进一步,所述语音识别模块识别方法如下:

1)获取目标语音帧序列的每个语音帧中各时频点的强度;根据目标语音信号对应的匹配参数确定匹配参数对应的目标彩色色卡;匹配参数包括统计特征参数和聚类结果参数中的至少一项;根据目标彩色色卡所限定强度与色彩信息之间的对应关系和每个语音帧中各时频点的强度,确定每个语音帧中各时频点对应的色彩信息;按照每个语音帧中各时频点对应的色彩信息,生成目标语音信号的语谱图;获取待识别目标语音的语谱图;

2)基于第一滑窗在所述语谱图逐窗进行语种识别的第一识别结果,从所述语谱图提取再识别语谱片段;基于若干第二滑窗分别在所述再识别语谱片段逐窗进行语种识别的第二识别结果,分析得到所述再识别语谱片段涉及的目标语种;其中,所述若干第二滑窗的尺寸各不相同,且所述第二滑窗的尺寸小于所述第一滑窗的尺寸。

进一步,所述基于第一滑窗在所述语谱图逐窗进行语种识别的第一识别结果,从所述语谱图提取再识别语谱片段,包括:

基于所述第一滑窗在所述语谱图逐窗进行语种识别,得到若干第一语谱片段的第一识别结果;其中,所述第一识别结果包括所述第一语谱片段分别与若干预设语种的第一相关分值;

对于每一所述第一语谱片段,获取最高的第一相关分值与次高的第一相关分值之间的第一分值差值;

基于所述第一分值差值,从所述语谱图提取所述再识别语谱片段。

进一步,所述基于所述第一分值差值,从所述语谱图提取所述再识别语谱片段,包括:

基于所述第一分值差值低于第一阈值且连续的至少一组所述第一语谱片段,确定至少一组提取时段;其中,每组所述提取时段包括开始时刻和结束时刻;

分别基于各组所述提取时段,从所述语谱图提取得到所述再识别语谱片段。

进一步,所述识别方法还包括:

基于所述第一语谱片段的第一分值差异不低于第一阈值,将最高的第一相关分值对应的预设语种,作为所述第一语谱片段涉及的目标语种;

所述基于若干第二滑窗分别在所述再识别语谱片段逐窗进行语种识别的第二识别结果,分析得到所述再识别语谱片段涉及的目标语种,包括:

获取各个所述第二滑窗分别在所述再识别语谱片段逐窗进行语种识别的第二识别结果;所述第二识别结果包括所述再识别语谱片段分别与若干预设语种的第二相关分值;

对于每个所述第二滑窗,利用所述第二滑窗对应的统计识别结果对所述第二滑窗对应的第二识别结果进行规整,得到所述第二滑窗对应的规整识别结果;其中,所述统计识别结果是基于所述第二滑窗分别在若干样本语谱逐窗进行语种识别的样本识别结果而统计得到的;

基于融合所述若干第二滑窗对应的规整识别结果而得到的最终识别结果,确定所述再识别语谱片段涉及的目标语种;

所述获取各个所述第二滑窗分别在所述再识别语谱片段逐窗进行语种识别的第二识别结果,包括:

将各个所述第二滑窗分别作为当前滑窗;

基于所述当前滑窗在所述再识别语谱片段逐窗进行语种识别,得到若干第二语谱片段的第三识别结果;其中,所述第三识别结果包括所述第二语谱片段分别与若干预设语种的第三相关分值;

基于各个所述第二语谱片段分别与所述预设语种的第三相关分值,得到所述再识别语谱片段与对应所述预设语种的第二相关分值;

所述样本识别结果包括所述第二滑窗在所述样本语谱提取的若干样本语谱片段分别与所述若干预设语种的样本相关分值,所述统计识别结果是基于所述样本相关分值而统计到的标准差以及各个所述预设语种的平均相关分值,且所述规整识别结果包括所述再识别语谱片段分别与所述若干预设语种的规整相关分值;所述利用所述第二滑窗对应的统计识别结果对所述第二滑窗对应的第二识别结果进行规整,得到所述第二滑窗对应的规整识别结果,包括:

分别将各个所述预设语种作为当前语种;

获取所述当前语种对应的第二相关分值和所述平均相关分值之间的第二分值差值,并将所述第二分值差值与所述标准差之比,作为所述再识别语谱片段与所述当前语种的规整相关分值。

结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:

第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:

本发明通过语音增强模块对目标语音输入信号进行时频补偿,计算经过时频补偿的多个目标语音特征信息,并对目标语音输入信号进行分类得到目标语音分类结果,根据多个目标语音特征信息和目标语音分类结果,确定目标语音掩蔽值,最后基于目标语音掩蔽值,确定目标语音输出信号,降低噪音,提高语音清晰度;同时,通过语音识别模块获取待识别目标语音的语谱图,并基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果,从语谱图提取再识别语谱片段,有利于进一步提升识别准确性。

第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:

本发明通过语音增强模块对目标语音输入信号进行时频补偿,计算经过时频补偿的多个目标语音特征信息,并对目标语音输入信号进行分类得到目标语音分类结果,根据多个目标语音特征信息和目标语音分类结果,确定目标语音掩蔽值,最后基于目标语音掩蔽值,确定目标语音输出信号,降低噪音,提高语音清晰度;同时,通过语音识别模块获取待识别目标语音的语谱图,并基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果,从语谱图提取再识别语谱片段,有利于进一步提升识别准确性。

附图说明

图1是本发明实施例提供的智能化的语音信号处理系统结构框图。

图2是本发明实施例提供的语音增强模块增强方法流程图。

图3是本发明实施例提供的语音识别模块识别方法流程图。

图1中:1、语音信号采集模块;2、主控模块;3、语音信号校准模块;4、信号特征提取模块;5、语音增强模块;6、语音识别模块;7、语音分析模块;8、显示模块。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

一、解释说明实施例。为了使本领域技术人员充分了解本发明如何具体实现,该部分是对权利要求技术方案进行展开说明的解释说明实施例。

如图1所示,本发明实施例提供的智能化的语音信号处理系统包括:语音信号采集模块1、主控模块2、语音信号校准模块3、信号特征提取模块4、语音增强模块5、语音识别模块6、语音分析模块7、显示模块8。

语音信号采集模块1,与主控模块2连接,用于通过声波在需求环境内采集目标语音信号;

主控模块2,与语音信号采集模块1、语音信号校准模块3、信号特征提取模块4、语音增强模块5、语音识别模块6、语音分析模块7、显示模块8连接,用于调节控制各个模块的数据信息,保障各个模块的正常工作;

语音信号校准模块3,与主控模块2连接,用于对获取到的语音信号进行自动校准;

信号特征提取模块4,与主控模块2连接,用于根据校准后的目标语音信号提取语音信号特征;

语音增强模块5,与主控模块2连接,用于对目标语音输入信号去噪处理、时频补偿,计算经过时频补偿的多个目标语音特征信息,并对目标语音输入信号进行分类得到目标语音分类结果,获得目标语音掩蔽值,最后获得目标语音输出信号;

语音识别模块6,与主控模块2连接,用于根据目标语音帧序列的每个语音帧中各时频点的强度获得每个语音帧中各时频点对应的色彩信息,生成目标语音信号的语谱图,在语谱图提取并识别语谱片段,得到语音识别语谱片段涉及的目标语种;

语音分析模块7,与主控模块2连接,用于对识别到的目标语音信号的语种进行分析;

显示模块8,与主控模块2连接,用于对各个模块中语音信号、识别结果、分析结果的显示,便于主控模块的操作。如图2所示,本发明提供的语音增强模块5增强方法如下:

S101,获取目标语音输入信号;对目标语音输入信号去噪处理;对所述目标语音输入信号进行时频补偿;计算经过时频补偿的多个目标语音特征信息,并对所述目标语音输入信号进行分类得到目标语音分类结果;

S102,根据所述多个目标语音特征信息和目标语音分类结果,确定目标语音掩蔽值;

根据所述多个目标语音特征信息和目标语音分类结果,确定目标语音掩蔽值的步骤,包括根据所述多个目标语音特征信息和预设掩蔽门限值,得到第一掩蔽值;在得到频域信号零和频域信号一后,采用分频带谱减法得到第二掩蔽值;基于所述目标语音分类结果,确定第三掩蔽值;在确定所述目标语音分类结果为噪声信号时,则确定目标语音掩蔽值为第三掩蔽值;在确定所述目标语音分类结果为目标语音信号时,则比较所述第一掩蔽值和第二掩蔽值,并基于比较结果确定目标语音掩蔽值;

基于所述目标语音掩蔽值,确定目标语音输出信号;

对所述目标语音输入信号进行时频补偿的步骤,包括:分别获取所述目标语音输入信号中第一麦克风的时域信号零和第二麦克风的时域信号一;对所述时域信号零进行分帧处理得到频域信号零,和,对所述时域信号一进行分帧处理得到频域信号一,其中,所述频域信号零和所述频域信号一包含有多个时频单元,每个所述时频单元对应一帧频域信号的一个频带;

确定与所述频域信号一中的每个时频单元对应的时频补偿参数一;基于所述时频补偿参数一对所述频域信号一中的各个所述时频单元进行时频补偿。

本发明提供的计算经过时频补偿的多个目标语音特征信息的步骤,包括:

计算经过时频补偿的双通道时间差ITD和双通道能量差IID;

将所述双通道时间差ITD和所述双通道能量差IID确定为所述目标语音输入信号的多个目标语音特征信息。

本发明提供的在计算经过时频补偿的多个目标语音特征信息之后,所述方法还包括:

判断所述频域信号零的目标帧是否为噪声信号;

在所述频域信号零的目标帧为噪声信号时,确定目标语音分类结果为噪声信号;或者,在所述频域信号零的目标帧不是噪声信号时,确定目标语音分类结果为目标语音信号。

本发明提供的在确定目标语音分类结果为噪声信号之后,所述方法还包括:基于所述频域信号零和所述频域信号一的信号差值更新所述时频补偿参数一。

本发明提供的基于所述目标语音掩蔽值,确定目标语音输出信号的步骤,包括:

对所述目标语音掩蔽值进行平滑处理;

基于平滑处理后的所述目标语音掩蔽值和经过分帧处理后得到的所述频域信号零,重建目标语音信号;

将重建后的目标语音信号确定为所述目标语音输出信号。

如图3所示,本发明提供的语音识别模块6识别方法如下:

S201,获取目标语音帧序列的每个语音帧中各时频点的强度;根据目标语音信号对应的匹配参数确定匹配参数对应的目标彩色色卡;匹配参数包括统计特征参数和聚类结果参数中的至少一项;根据目标彩色色卡所限定强度与色彩信息之间的对应关系和每个语音帧中各时频点的强度,确定每个语音帧中各时频点对应的色彩信息;按照每个语音帧中各时频点对应的色彩信息,生成目标语音信号的语谱图;获取待识别目标语音的语谱图;

S202,基于第一滑窗在所述语谱图逐窗进行语种识别的第一识别结果,从所述语谱图提取再识别语谱片段;基于若干第二滑窗分别在所述再识别语谱片段逐窗进行语种识别的第二识别结果,分析得到所述再识别语谱片段涉及的目标语种;其中,所述若干第二滑窗的尺寸各不相同,且所述第二滑窗的尺寸小于所述第一滑窗的尺寸。

本发明提供的基于第一滑窗在所述语谱图逐窗进行语种识别的第一识别结果,从所述语谱图提取再识别语谱片段,包括:

基于所述第一滑窗在所述语谱图逐窗进行语种识别,得到若干第一语谱片段的第一识别结果;其中,所述第一识别结果包括所述第一语谱片段分别与若干预设语种的第一相关分值;

对于每一所述第一语谱片段,获取最高的第一相关分值与次高的第一相关分值之间的第一分值差值;

基于所述第一分值差值,从所述语谱图提取所述再识别语谱片段。

本发明提供的基于所述第一分值差值,从所述语谱图提取所述再识别语谱片段,包括:

基于所述第一分值差值低于第一阈值且连续的至少一组所述第一语谱片段,确定至少一组提取时段;其中,每组所述提取时段包括开始时刻和结束时刻;

分别基于各组所述提取时段,从所述语谱图提取得到所述再识别语谱片段。

本发明提供的述识别方法还包括:

基于所述第一语谱片段的第一分值差异不低于第一阈值,将最高的第一相关分值对应的预设语种,作为所述第一语谱片段涉及的目标语种;

所述基于若干第二滑窗分别在所述再识别语谱片段逐窗进行语种识别的第二识别结果,分析得到所述再识别语谱片段涉及的目标语种,包括:

获取各个所述第二滑窗分别在所述再识别语谱片段逐窗进行语种识别的第二识别结果;所述第二识别结果包括所述再识别语谱片段分别与若干预设语种的第二相关分值;

对于每个所述第二滑窗,利用所述第二滑窗对应的统计识别结果对所述第二滑窗对应的第二识别结果进行规整,得到所述第二滑窗对应的规整识别结果;其中,所述统计识别结果是基于所述第二滑窗分别在若干样本语谱逐窗进行语种识别的样本识别结果而统计得到的;

基于融合所述若干第二滑窗对应的规整识别结果而得到的最终识别结果,确定所述再识别语谱片段涉及的目标语种;

所述获取各个所述第二滑窗分别在所述再识别语谱片段逐窗进行语种识别的第二识别结果,包括:

将各个所述第二滑窗分别作为当前滑窗;

基于所述当前滑窗在所述再识别语谱片段逐窗进行语种识别,得到若干第二语谱片段的第三识别结果;其中,所述第三识别结果包括所述第二语谱片段分别与若干预设语种的第三相关分值;

基于各个所述第二语谱片段分别与所述预设语种的第三相关分值,得到所述再识别语谱片段与对应所述预设语种的第二相关分值;

所述样本识别结果包括所述第二滑窗在所述样本语谱提取的若干样本语谱片段分别与所述若干预设语种的样本相关分值,所述统计识别结果是基于所述样本相关分值而统计到的标准差以及各个所述预设语种的平均相关分值,且所述规整识别结果包括所述再识别语谱片段分别与所述若干预设语种的规整相关分值;所述利用所述第二滑窗对应的统计识别结果对所述第二滑窗对应的第二识别结果进行规整,得到所述第二滑窗对应的规整识别结果,包括:

分别将各个所述预设语种作为当前语种;

获取所述当前语种对应的第二相关分值和所述平均相关分值之间的第二分值差值,并将所述第二分值差值与所述标准差之比,作为所述再识别语谱片段与所述当前语种的规整相关分值。

二、应用实施例。为了证明本发明的技术方案的创造性和技术价值,该部分是对权利要求技术方案进行具体产品上或相关技术上的应用实施例。

本发明工作时,首先,通过语音信号采集模块1采集语音信号;其次,主控模块2通过语音信号校准模块3对语音信号进行校准;通过信号特征提取模块4提取语音信号特征;通过语音增强模块5对语音信号进行增强处理;通过语音识别模块6对语音信号进行识别;然后,通过语音分析模块7对语音信号进行分析;最后,通过显示模块8显示语音信号、识别结果、分析结果。

应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

三、实施例相关效果的证据。本发明实施例在研发或者使用过程中取得了一些积极效果,和现有技术相比的确具备很大的优势,下面内容结合试验过程的数据、图表等进行描述。

本发明通过语音增强模块对目标语音输入信号进行时频补偿,计算经过时频补偿的多个目标语音特征信息,并对目标语音输入信号进行分类得到目标语音分类结果,根据多个目标语音特征信息和目标语音分类结果,确定目标语音掩蔽值,最后基于目标语音掩蔽值,确定目标语音输出信号,降低噪音,提高语音清晰度;同时,通过语音识别模块获取待识别目标语音的语谱图,并基于第一滑窗在语谱图逐窗进行语种识别的第一识别结果,从语谱图提取再识别语谱片段,有利于进一步提升识别准确性。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

相关技术
  • 一种智能化垃圾综合处理系统
  • 一种电子通信设备语音信号处理系统
  • 一种电子耳蜗体外语音信号处理系统及电子耳蜗
技术分类

06120115962715