掌桥专利:专业的专利平台
掌桥专利
首页

一种工业流水线音频识别方法、装置及存储介质

文献发布时间:2023-06-19 10:11:51


一种工业流水线音频识别方法、装置及存储介质

技术领域

本发明主要涉及音频识别技术领域,具体涉及一种工业流水线音频识别方法、装置及存储介质。

背景技术

音频分类从本质上讲是一个音频识别过程,包括特征抽取和分类两个基本过程。音频分类是解决音频结构化问题和提取音频内容语义的重要手段之一,是当前基于内容的音频检索领域的研究热点,它在远程教学、数字图书馆和新闻节目检索等众多领域都具有极大的应用价值。音频分类是对音频进行深度处理的基础和前提。通过分类可以事先确定语音所处的音频环境,为语音模型的自适应调整算法提供线索,从而提高语音识别的精度。因此,分类问题是基于内容的音频检索的核心问题。音频分类技术是一个交叉研究领域,它涉及多个方面的知识,包括人耳的听觉特征、信号与系统、数字信号处理、语音信号处理、模式识别、统计学习和人工智能等。目前,该领域的研究重点主要在以下两个方面,即音频特征分析与抽取以及分类器设计。在进行音频自动分类之前,首先需要提取原始数据的特征信息。所选取的特征应该能够充分表示音频时频域的重要分类特性,对环境的改变具有鲁棒性和一般性。

现今,市场上对工业音频的识别普遍存在时间过长、准确率不高的情况,从而降低了处理工业音频的效率。

发明内容

本发明所要解决的技术问题是针对现有技术的不足,提供一种工业流水线音频识别方法、装置及存储介质。

本发明解决上述技术问题的技术方案如下:一种工业流水线音频识别方法,包括如下步骤:

导入多个原始音频数据,并分别对多个所述原始音频数据进行数据转化处理,得到多个待处理音频数据;

分别对多个所述待处理音频数据进行降维处理,得到多个降维音频数据;

分别对多个所述降维音频数据进行特征提取,得到多个音频特征数据,并集合多个所述音频特征数据,得到音频特征数据集;

构建训练模型,并根据所述训练模型对所述音频特征数据集进行训练,得到音频特征模型;

对所述音频特征模型进行参数更新,得到更新后的音频特征模型;

根据所述更新后的特征检测模型对待识别的音频数据进行识别,得到识别结果。

本发明解决上述技术问题的另一技术方案如下:一种工业流水线音频识别装置,包括:

数据转换处理模块,用于导入多个原始音频数据,并分别对多个所述原始音频数据进行数据转化处理,得到多个待处理音频数据;

降维处理模块,用于分别对多个所述待处理音频数据进行降维处理,得到多个降维音频数据;

特征提取模块,用于分别对多个所述降维音频数据进行特征提取,得到多个音频特征数据,并集合多个所述音频特征数据,得到音频特征数据集;

模型训练模块,用于构建训练模型,并根据所述训练模型对所述音频特征数据集进行训练,得到音频特征模型;

参数更新模块,用于对所述音频特征模型进行参数更新,得到更新后的音频特征模型;

识别结果获得模块,用于根据所述更新后的特征检测模型对待识别的音频数据进行识别,得到识别结果。

本发明的有益效果是:通过分别对多个原始音频数据的数据转化处理得到多个待处理音频数据,分别对多个待处理音频数据的降维处理得到多个降维音频数据,分别对多个降维音频数据的特征提取得到音频特征数据集,根据训练模型对音频特征数据集的训练得到音频特征模型,提高了对音频噪音和静音的分辨准确性,可以实现对小样本短时间的快速准确测定,代替了人工处理成分数据,实现了高智能化、高准确率以及高效率的目标,且实现方法简单,适合于普遍推广,具有广阔的市场前景。

附图说明

图1为本发明实施例提供的工业流水线音频识别方法的流程示意图;

图2为本发明实施例提供的工业流水线音频识别装置的模块框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

图1为本发明实施例提供的工业流水线音频识别方法的流程示意图。

如图1所示,一种工业流水线音频识别方法,包括如下步骤:

导入多个原始音频数据,并分别对多个所述原始音频数据进行数据转化处理,得到多个待处理音频数据;

分别对多个所述待处理音频数据进行降维处理,得到多个降维音频数据;

分别对多个所述降维音频数据进行特征提取,得到多个音频特征数据,并集合多个所述音频特征数据,得到音频特征数据集;

构建训练模型,并根据所述训练模型对所述音频特征数据集进行训练,得到音频特征模型;

对所述音频特征模型进行参数更新,得到更新后的音频特征模型;

根据所述更新后的特征检测模型对待识别的音频数据进行识别,得到识别结果。

应理解地,所述原始音频数据为在工业流水线设备运行时通过声音采集装置采集得到的。

应理解地,根据预设判定数据对所述音频特征模型进行验证,得到验证结果,并根据所述验证结果对所述音频特征模型进行参数更新,得到更新后的音频特征模型。

具体地,通过和对照组的标准测定基线对比,对比拟合度和置信分数,综合测定出音频类别。对于本发明模型,评价标准是选择决定系数和预测平方平均数误差和预测值平方平均数误差。一个具有良好预测能力的模型应该具有较高的选择决定系数和预测集的均方根误差值,以及较低的预测值平方平均数误差。预测平方平均数误差可以反映模型的精度,决定系数是拟合优度,因变量的变化可以用自变量的变化来进行预测。

上述实施例中,通过分别对多个原始音频数据的数据转化处理得到多个待处理音频数据,分别对多个待处理音频数据的降维处理得到多个降维音频数据,分别对多个降维音频数据的特征提取得到音频特征数据集,根据训练模型对音频特征数据集的训练得到音频特征模型,提高了对音频噪音和静音的分辨准确性,可以实现对小样本短时间的快速准确测定,代替了人工处理成分数据,实现了高智能化、高准确率以及高效率的目标,且实现方法简单,适合于普遍推广,具有广阔的市场前景。

可选地,作为本发明的一个实施例,在所述分别对多个所述原始音频数据进行数据转化处理,得到多个待处理音频数据的过程之前还包括:

利用预设的Python标准库分别对多个所述原始音频数据进行字符串识别,得到多个音频流字符串。

应理解地,将多个所述待处理音频数据进行存储。

应理解地,Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发,Python标准库是Python里的一个数据库。

具体地,将一维的wav所述原始音频数据通过Python标准库的wave模块识别获取所述音频流字符串,所述音频流字符串包括声道数、量化位数,采样率,总采样点。并将字符串转化为两列数组,保存为CSV文件,即所述待处理音频数据,并储存在数据库中。

上述实施例中,利用预设的Python标准库分别对多个原始音频数据的字符串识别得到多个音频流字符串,便于后续的数据处理,提高了对音频噪音和静音的分辨准确性,可以实现对小样本短时间的快速准确测定,代替了人工处理成分数据,实现了高智能化、高准确率以及高效率的目标,且实现方法简单,适合于普遍推广,具有广阔的市场前景。

可选地,作为本发明的一个实施例,所述分别对多个所述待处理音频数据进行降维处理,得到多个降维音频数据的过程包括:

利用PCA主成分分析算法分别对多个所述待处理音频数据进行降维处理,得到多个降维音频数据。

应理解地,通过PCA主成分分析算法,基于数据二阶统计特性的最佳正交变换。其变换后产生的新的分量正交或不相关,使得数据在一个低维的特征空间被处理,同时保存原始数据的绝大部分信息。故对二维样本采取奇异值分解,从求得的特征值中选取最大的分量来代表整个二维数组。PCA处理后能有效降低数据的噪声和压缩等操作带来的损失。

具体地,首先PCA主成分分析算法是一个典型的统计学分析方法,使用其是基于本发明数据的二阶统计特性的最佳正交变换。其变换后产生的新分量正交或不相关,使得数据在一个低维的特征空间被处理,同时保持原始数据的绝大部分的信息。对于其二维样本,X1,X2,其样本均值为μ=1/(X1+X2),离散矩阵为S=(X1-μ)(X1-μ)T+(X2-μ)(X2-μ)T。借助PCA可以推导出新的分量,这些新分量是原始数据的线性组合而且互不相关。当使用这些新分量去重建原始数据时,使得均方误差最小。因此,所求的新坐标系即由矩阵的非零特征值所对应的特征向量组成。对于特征值和特征向量的求解,采取奇异值分解的方法。在得到的特征值中利用由大到小的排列,取出最大的分量就可以最够精确的表达出整个数据,达到降维的目的。

上述实施例中,利用PCA主成分分析算法分别对多个待处理音频数据的降维处理得到多个降维音频数据,有效地降低了噪声所带来的影响。

可选地,作为本发明的一个实施例,所述分别对多个所述降维音频数据进行特征提取,得到多个音频特征数据的过程包括:

分别对多个所述降维音频数据进行语谱图的构建,得到多个语谱图;

根据多个所述语谱图分别对对应的各个所述降维音频数据进行特征提取,得到各个所述降维音频数据对应的音频特征数据。

上述实施例中,分别对多个降维音频数据的语谱图构建得到多个语谱图,根据多个语谱图分别对对应的各个降维音频数据的特征提取得到各个所述降维音频数据对应的音频特征数据,能够对音频特征数据进行区别细分,实现了将不同种类的特征进行放大,提高了对音频噪音和静音的分辨准确性,可以实现对小样本短时间的快速准确测定,代替了人工处理成分数据,实现了高智能化、高准确率以及高效率的目标,且实现方法简单,适合于普遍推广,具有广阔的市场前景。

可选地,作为本发明的一个实施例,所述分别对多个所述降维音频数据进行语谱图的构建得到多个语谱图的过程包括:

导入预设的滑动窗口,并根据所述滑动窗口分别对各个所述降维音频数据进行分帧处理,得到各个所述降维音频数据对应的分帧后的音频数据;

分别对各个所述分帧后的音频数据进行快速傅立叶变换,得到各个所述降维音频数据对应的音频数据横坐标和音频数据频率刻度;

利用周期图算法分别对各个所述音频数据横坐标进行功率谱估值的计算,得到各个所述降维音频数据对应的功率谱估值;

分别对各个所述功率谱估值进行质量分数的计算,得到各个所述降维音频数据对应的质量分数;

根据各个所述质量分数和对应的所述音频数据频率刻度进行二维图的构建,得到多个语谱图。

应理解地,针对所述降维音频数据样本时间短且混杂噪音的特点,本发明可以通过特制化的语谱图对所述降维音频数据的特征信息如共振峰、能量等频域参数进行精确采样。采样率为8000Hz,取窗长为512个数据点,帧移为窗长的1/4,即128个数据点。之后使用gabor滤波,属于加窗傅立叶变换,Gabor函数可以在频域不同尺度、不同方向上提取相关的特征。

上述实施例中,根据所述滑动窗口分别对各个降维音频数据的分帧处理得到各个降维音频数据对应的分帧后的音频数据,分别对各个分帧后的音频数据的快速傅立叶变换得到各个降维音频数据对应的音频数据横坐标和音频数据频率刻度,能够对音频特征数据进行区别细分,实现了将不同种类的特征进行放大,提高了对音频噪音和静音的分辨准确性,可以实现对小样本短时间的快速准确测定,代替了人工处理成分数据,实现了高智能化、高准确率以及高效率的目标,且实现方法简单,适合于普遍推广,具有广阔的市场前景。

可选地,作为本发明的一个实施例,所述利用周期图算法分别对各个所述音频数据横坐标进行功率谱估值的计算,得到各个所述降维音频数据对应的功率谱估值的过程包括:

通过第一式分别对各个所述音频数据横坐标进行功率谱估值的计算,得到各个所述降维音频数据对应的功率谱估值,所述第一式为:

Y=X*X,

其中,X为音频数据横坐标,Y为功率谱估值。

应理解地,周期图算法是一种信号功率谱密度估计方法。由于序列x(n)的离散傅里叶变换X()具有周期性,因而这种功率谱也具有周期性,常称为周期图。

上述实施例中,通过第一式分别对各个音频数据横坐标的功率谱估值计算得到各个降维音频数据对应的功率谱估值,能够对音频特征数据进行区别细分,实现了将不同种类的特征进行放大,提高了对音频噪音和静音的分辨准确性,可以实现对小样本短时间的快速准确测定,代替了人工处理成分数据,实现了高智能化、高准确率以及高效率的目标,且实现方法简单,适合于普遍推广,具有广阔的市场前景。

可选地,作为本发明的一个实施例,所述分别对各个所述功率谱估值进行质量分数的计算,得到各个所述降维音频数据对应的质量分数的过程包括:

通过第二式分别对各个所述功率谱估值进行质量分数的计算,得到各个所述降维音频数据对应的质量分数,所述第二式为:

M=10*log10(Y),

其中,M为质量分数,Y为功率谱估值。

上述实施例中,通过第二式分别对各个功率谱估值的质量分数计算得到各个降维音频数据对应的质量分数,能够对音频特征数据进行区别细分,实现了将不同种类的特征进行放大,提高了对音频噪音和静音的分辨准确性,可以实现对小样本短时间的快速准确测定,代替了人工处理成分数据,实现了高智能化、高准确率以及高效率的目标,且实现方法简单,适合于普遍推广,具有广阔的市场前景。

可选地,作为本发明的一个实施例,所述构建训练模型,并根据所述训练模型对所述音频特征数据集进行训练,得到音频特征模型的过程包括:

构建训练模型,所述训练模型包括9x9时域-频域滤波器、4x3滤波器、线性层、LSTM长短期记忆人工神经网络、和全连接深度神经网络;

将所述音频特征数据集依次输入所述9x9时域-频域滤波器和所述4x3滤波器进行滤波处理,得到滤波后的音频特征数据集;

将所述滤波后的音频特征数据集输入所述线性层进行降维处理,得到降维后的音频特征数据集;

将所述降维后的音频特征数据集输入至所述LSTM长短期记忆人工神经网络进行数据选择,得到选择后的音频特征数据集;

将所述选择后的音频特征数据集输入至所述全连接深度神经网络进行特征提取,得到音频特征模型。

应理解地,本发明采用半监督学习的方法故而预先设置所述训练模型在训练过程中的训练参数;其中,训练参数主要包括学习率和迭代次数。

具体地,本专利的CNN部分为两层CNN,每层256个feature maps,第一层采用9x9时域-频域滤波器,第二层为4x3滤波器,用于突出图像的特征以便更好的采集。池化层采用max-pooling策略,第一层pooling size是3,第二层CNN不接池化层。由于CNN最后一层输出维度很大,大小为feature-maps*time*frequency,所以在CNN后LSTM之前接一个线性层来降维,而实验也证明降维减少参数并不会对准确率有太大影响,线性层输出为256维。CNN后接2层LSTM,用于解决长序列训练过程中的梯度消失和梯度爆炸问题,随着我们训练模型层数的加深迭代更新难度加大,其主要原因是梯度的问题;梯度的爆炸和消失是无法避免的,引入lstm其主要功能就是选择性传导,在训练流程中通过自适应选择信息,减少修改参数的难度,一定程度上延缓梯度消失的风险,在深层模型中经常使用。每个LSTM层采用832个cells,512维映射层来降维,输出状态标签延迟5帧,此时DNN输出信息可以更好的预测当前帧,由于CNN的输入特征向左扩展了l帧向右扩展了r帧,为了确保LSTM不会干扰到未来多于5帧的内容,故将r设为0。最后,在频域和时域建模之后,将LSTM的输出连接几层全连接DNN层,用于采集特征,借鉴了图像领域CNN的应用,采用长短时特征,将CNN的输入特征作为短时特征直接输入给LSTM作为部分输入,CNN的输出特征直接作为DNN的部分输入特征,得到所述音频特征模型。

上述实施例中,将音频特征数据集依次输入9x9时域-频域滤波器和4x3滤波器的滤波处理得到滤波后的音频特征数据集,将滤波后的音频特征数据集输入线性层的降维处理得到降维后的音频特征数据集,将降维后的音频特征数据集输入至LSTM长短期记忆人工神经网络的数据选择得到选择后的音频特征数据集,将选择后的音频特征数据集输入至所述全连接深度神经网络进行特征提取,得到音频特征模型,提高了对音频噪音和静音的分辨准确性,可以实现对小样本短时间的快速准确测定,代替了人工处理成分数据,实现了高智能化、高准确率以及高效率的目标,且实现方法简单,适合于普遍推广,具有广阔的市场前景。

图2为本发明实施例提供的工业流水线音频识别装置的模块框图。

可选地,作为本发明的另一个实施例,如图2所示,一种工业流水线音频识别装置,包括:

数据转换处理模块,用于导入多个原始音频数据,并分别对多个所述原始音频数据进行数据转化处理,得到多个待处理音频数据;

降维处理模块,用于分别对多个所述待处理音频数据进行降维处理,得到多个降维音频数据;

特征提取模块,用于分别对多个所述降维音频数据进行特征提取,得到多个音频特征数据,并集合多个所述音频特征数据,得到音频特征数据集;

模型训练模块,用于构建训练模型,并根据所述训练模型对所述音频特征数据集进行训练,得到音频特征模型;

参数更新模块,用于对所述音频特征模型进行参数更新,得到更新后的音频特征模型;

识别结果获得模块,用于根据所述更新后的特征检测模型对待识别的音频数据进行识别,得到识别结果。

可选地,作为本发明的一个实施例,在所述数据转换处理模块之前还包括:

利用预设的Python标准库分别对多个所述原始音频数据进行字符串识别,得到多个音频流字符串。

可选地,本发明的另一个实施例提供一种工业流水线音频识别装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的工业流水线音频识别方法。该装置可为计算机等装置。

可选地,本发明的另一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的工业流水线音频识别方法。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。用于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

相关技术
  • 一种工业流水线音频识别方法、装置及存储介质
  • 一种音频数据的对象识别方法、装置、设备及存储介质
技术分类

06120112454622