一种音频处理系统、方法及存储介质

文献发布时间：2024-04-18 19:57:31

技术领域

本发明涉及数字多媒体技术领域，特别涉及一种音频处理系统、方法及存储介质。

背景技术

随着数字多媒体技术的快速发展，越来越多的多媒体技术应用到人们的工作和生活中，在多媒体系统的工作中，对音频文件进行处理是必不可少的一项工作。

音频一词已用作一般性描述音频范围内和声音有关的设备及其作用。人类能够听到的所有声音都称之为音频，它可能包括噪音等。声音被录制下来以后，无论是说话声、歌声、乐器都可以通过数字音乐软件处理，或是把它制作成CD，这时候所有的声音没有改变，因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。如果有计算机再加上相应的音频卡-就是我们经常说的声卡，可以把所有的声音录制下来，声音的声学特性如音的高低等都可以用计算机硬盘文件的方式储存下来。

在对音频进行实际的存储处理操作中还存在以下问题：

1、在对音频数据进行分析处理时，往往因为其音质或噪声问题影响对音频数据的使用，同时也会降低对音频内容的识别分析效果。

2、在对音频数据进行存储时，往往都是根据音频的时间或名称进行分区域存储，在进行存储时难以对音频的具体内容或关键信息进行批量的处理，从而使得后续在对音频文件进行调取获取用时带来不便。

3、在对音频进行检索和调取时，往往都是根据音频名称或者音频的时间进行选择调取，在需要对某一特定内容的音频进行调取时往往需要人工进行检索和查看，调取的效率和准确率都收到一定的影响。

发明内容

本发明的目的在于提供一种音频处理系统、方法及存储介质，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种音频处理系统，包括：

数据采集单元，用于：

对音频数据文件进行采集获取，并对所采集的音频数据文件进行预处理，并对经过预处理的音频文件进行文件输出；

音频处理单元，用于：

对数据采集单元所输出的音频文件进行处理，对音频文件进行整体的降噪优化，同时对完成优化的音频文件进行音频数据分类提取，并根据数据种类生成子音轨，所述子音轨包括人声子音轨和环境子音轨；

音频分析单元，用于：

基于音频处理单元所生成的子音轨，对子音轨进行音频分析，基于人声子音轨对人声音频进行智能识别分析，对人声音频进行文字转化并输出人声内容，基于环境子音轨对环境音频进行环境音识别及归类，并根据归类结果对环境音频赋予相对应的环境标签；

信息识别单元，用于：

基于音频分析单元所输出的人声内容，对人声内容进行信息识别，并对音频文件所对应的人声内容的关键信息进行提取和整理；

结果导出单元，用于：

对信息识别单元的识别结果进行分类结果导出。

进一步的，所述数据采集单元包括：

数据获取模块，用于：

对音频数据进行采集获取，对音频数据进行声音信号转换并转换为音频信号，并对音频信号进行传输；

信号处理模块，用于：

获取到目标音频信号，基于数据获取模块所采集获取的目标音频信号进行压缩处理并得到压缩音频信号，对压缩音频信号进行频率检测并确定目标输出频率；

数据输出模块，用于：

基于数据处理模块的处理结果对音频信号进行信号数据输出。

进一步的，所述音频处理单元包括：

音频接收模块，用于：

对数据采集单元所传输的音频数据文件的音频信号数据进行接收；

音频优化模块，用于：

对音频数据文件进行音频数据优化，在进行优化时，对输入的音频数据文件进行基音分析，对基音进行谐波噪声去除，对完成噪声去除的基因进行音频特征提取，根据特征提取的结构对音频数据进行噪声频谱估计并得出频带增益，对原始音频信号进行增益处理，优化完成后输出音频优化数据；

音频提取模块，用于：

对完成优化的音频优化数据进行音频数据分类提取，并根据数据种类生成子音轨，所述子音轨包括人声子音轨和环境子音轨。

进一步的，所述音频分析单元包括：

音频转译模块，用于：

对人声子音轨进行语音识别，并且对人声子音轨中的人声语音进行识别转译，对所转译出的人生语音内容进行文本数据记录并生成音轨内容文档数据；

特征捕捉模块，用于：

对环境子音轨中的环境音进行特征捕捉提取，将所提取出的环境特征音进行组合，生成环境特征组；

环境匹配模块，用于：

搭建特征匹配模型，将环境特征组放入特征匹配模型中进行特征匹配，根据特征匹配的结果对环境子音轨进行环境归类，并根据归类结果对音频数据赋予相对应的环境标签。

进一步的，所述音频分析单元还包括：

会话方关系判断模块，用于：

获取音轨内容文档数据中会话方的相互称谓信息，通过提取关键词确定会话主题，根据相互称谓信息和会话主题判断参与会话相关方的相互关系；

语境确定模块，用于：

根据参与会话相关方的相互关系、会话主题和环境标签，确定会话相关方的会话语境；

专业验证模块，用于：

根据会话语境确定会话涉及的专业领域，通过专业领域调取对应专业领域的专业术语词典，对人声子音轨进行二次语音识别，在二次语音识别过程中参照专业术语词典，对人声子音轨中存在与专业术语词典中内容发音相似度超过设定阈值的人声子音轨片段，采用专业术语词典中内容对相应的音轨内容文档数据进行更正。

进一步的，所述信息识别单元包括：

信息识别模块，用于：

对音轨内容文档数据进行特征捕捉提取，对音轨内容文档数据中的关键词信息进行高亮处理，对高亮处理的关键词信息进行整合并进行逻辑排序处理，输出音轨信息组；

信息关联模块，用于：

将音轨信息组与环境标签进行关联，并生成信息识别结果。

进一步的，所述结果导出单元包括：

标签处理模块，用于：

基于信息识别单元生成的信息识别结果生成音频内容关联标签，并将音频内容关联标签与相对应的音频数据文件进行匹配；

音频导出模块，用于：

对完成音频内容关联标签匹配的音频数据文件进行导出。

进一步的，所述专业验证模块包括：

人声音轨转化子模块，用于：

对专业术语词典中涉及的专业术语内容分别进行人声音轨模拟转化，得到专业术语内容的术语模拟音轨库；

图像化子模块，用于：

将人声子音轨转化为人声音轨曲线图像；并将术语模拟音轨库中的各术语模拟音轨转化为对应的术语模拟音轨曲线片段；

相似度计算子模块，用于：

遍历人声音轨曲线图像上的节点，以各节点为起点，根据用于对比的术语模拟音轨曲线片段长度，在人声音轨曲线图像上分别截取人声音轨曲线片段，将人声音轨曲线片段与术语模拟音轨曲线片段的起点模拟重合，然后采用以下公式计算起点模拟重合后人声音轨曲线片段与术语模拟音轨曲线片段上各对应点的距离均值：

上式中，

采用距离均值作为发音相似度，用于和设定阈值进行对比，若发音相似度超过设定阈值，即认定为人声音轨曲线片段对应的内容涉及专业术语内容，需要采用专业术语内容进行更正。

本申请实施例还提供一种音频处理方法，包括以下步骤：

音频采集，对音频数据进行采集获取并转换为音频信号，对目标音频信号进行压缩处理并得到压缩音频信号，对压缩音频信号进行频率检测并确定目标输出频率；

音频处理，对音频数据文件进行音频数据优化，对基音进行谐波噪声去除，并对原始音频信号进行增益处理，优化完成后输出音频优化数据，对音频优化数据进行音频数据分类提取，并根据数据种类生成人声子音轨和环境子音轨；

音频分析，对人声子音轨进行语音识别并转译，生成音轨内容文档数据，对环境子音轨中的环境音进行特征捕捉提取并组合生成环境特征组，搭建特征匹配模型对环境特征组进行特征匹配并环境归类，根据归类结果对音频数据赋予相对应的环境标签；

信息识别，对音轨内容文档数据进行特征捕捉提取并输出音轨信息组，将音轨信息组与环境标签进行关联，并生成信息识别结果；

结果导出，生成音频内容关联标签并将与相对应的音频数据文件进行匹配并导出完成匹配的音频数据文件。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的音频处理系统。

与现有技术相比，本发明的有益效果是：

1.现有技术下，在对音频数据进行分析处理时，往往因为其音质或噪声问题影响对音频数据的使用，同时也会降低对音频内容的识别分析效果，而本发明的音频优化模块对音频数据文件进行音频数据优化，通过音频优化模块可以对采集到的音频进行预处理，从而对音频数据进行优化处理，对音频中的噪声进行一层去除处理，不仅提高了后续在对音频调取使用时的音频整体质量，同时也提高了后续对音频内容进行智能识别分析时的准确性，提高音频的处理效果。

2.现有技术下，在对音频数据进行存储时，往往都是根据音频的时间或名称进行分区域存储，在进行存储时难以对音频的具体内容或关键信息进行批量的处理，从而使得后续在对音频文件进行调取获取用时带来不便，而本发明的音频转译模块对人声子音轨进行语音识别，特征捕捉模块对环境子音轨中的环境音进行特征捕捉提取及匹配，通过音频转译模块可以对音频中的人声内容进行识别并转译，同时与信息识别模块交互，可以对人声内容中的关键信息进行提取总结，通过特征捕捉模块可以环境音中的特征因素进行捕捉识别，从对音频的整体环境因素进行匹配并生成环境标签，从而使得可以通过处理对音频整体的内容和基础属性进行识别分析和匹配，可以对大量的音频文件进行识别处理，从而通过自动识别匹配提高对音频的处理效率。

3.现有技术下，在对音频进行检索和调取时，往往都是根据音频名称或者音频的时间进行选择调取，在需要对某一特定内容的音频进行调取时往往需要人工进行检索和查看，调取的效率和准确率都收到一定的影响，而本发明的标签处理模块基于信息识别单元生成的信息识别结果生成音频内容关联标签，并将音频内容关联标签与相对应的音频数据文件进行匹配，经过处理后的音频在导出后可以通过音频内容关联标签与音频的内容进行一定的相关性匹配，从而在对音频进行检索调取或使用时，根据音频的内容进行基本搜索，从而可以提高对相关音频的检索效率，无需人工对音频进行查看即可对内容进行先行的识别和标注，提高在对音频进行储存和调用时的便利性。

附图说明

图1为本发明音频处理系统的模块示意图；

图2为本发明音频处理方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供以下技术方案：

一种音频处理系统，包括：

数据采集单元，用于：

对音频数据文件进行采集获取，并对所采集的音频数据文件进行预处理，并对经过预处理的音频文件进行文件输出；

音频处理单元，用于：

音频分析单元，用于：

信息识别单元，用于：

基于音频分析单元所输出的人声内容，对人声内容进行信息识别，并对音频文件所对应的人声内容的关键信息进行提取和整理；

结果导出单元，用于：

对信息识别单元的识别结果进行分类结果导出。

具体的，在系统进行工作时，对音频数据进行采集获取并转换为音频信号，对目标音频信号进行压缩处理并得到压缩音频信号，对音频数据文件进行音频数据优化，对音频优化数据进行音频数据分类提取，并根据数据种类生成人声子音轨和环境子音轨，对人声子音轨进行语音识别并转译，对环境子音轨中的环境特征组进行特征匹配并环境归类，根据归类结果对音频数据赋予相对应的环境标签，对音轨内容文档数据进行特征捕捉提取并输出音轨信息组，将音轨信息组与环境标签进行关联，并生成信息识别结果，最后生成音频内容关联标签并将与相对应的音频数据文件进行匹配并导出完成匹配的音频数据文件。

数据采集单元包括：

数据获取模块，用于：

对音频数据进行采集获取，对音频数据进行声音信号转换并转换为音频信号，并对音频信号进行传输；

信号处理模块，用于：

数据输出模块，用于：

基于数据处理模块的处理结果对音频信号进行信号数据输出。

音频处理单元包括：

音频接收模块，用于：

对数据采集单元所传输的音频数据文件的音频信号数据进行接收；

音频优化模块，用于：

音频提取模块，用于：

对完成优化的音频优化数据进行音频数据分类提取，并根据数据种类生成子音轨，所述子音轨包括人声子音轨和环境子音轨。

具体的，通过音频优化模块可以对采集到的音频进行预处理，从而对音频数据进行优化处理，对音频中的噪声进行一层去除处理，不仅提高了后续在对音频调取使用时的音频整体质量，同时也提高了后续对音频内容进行智能识别分析时的准确性，提高音频的处理效果。

音频分析单元包括：

音频转译模块，用于：

对人声子音轨进行语音识别，并且对人声子音轨中的人声语音进行识别转译，对所转译出的人生语音内容进行文本数据记录并生成音轨内容文档数据；

特征捕捉模块，用于：

对环境子音轨中的环境音进行特征捕捉提取，将所提取出的环境特征音进行组合，生成环境特征组；

环境匹配模块，用于：

所述音频分析单元还包括：

会话方关系判断模块，用于：

获取音轨内容文档数据中会话方的相互称谓信息，通过提取关键词确定会话主题，根据相互称谓信息和会话主题判断参与会话相关方的相互关系；

语境确定模块，用于：

根据参与会话相关方的相互关系、会话主题和环境标签，确定会话相关方的会话语境；

专业验证模块，用于：

上述方案通过初次得到的音轨内容文档数据中会话方的相互称谓信息，以及通过提取关键词确定会话主题，判断参与会话相关方的相互关系；再结合参与会话相关方的相互关系、会话主题和环境标签，确定会话相关方的会话语境；根据会话语境确定会话涉及的专业领域，若不属于专业性会话，则不进行下面的步骤，若涉及专业性会话，则通过专业领域调取对应专业领域的专业术语词典，通过对人声子音轨进行二次语音识别，引入专业术语词典作为专业术语参照，通过发音相似度与设定阈值的对比确定是否涉及专业术语内容；如果发音相似度超过设定阈值，则表示涉及专业术语内容，原来语音识别时得出的音轨内容文档数据可能存在错误或者偏差，需要采用专业术语内容进行更正，从而提高对具有专业性会话的音轨内容文档数据的准确性。

信息识别单元包括：

信息识别模块，用于：

信息关联模块，用于：

将音轨信息组与环境标签进行关联，并生成信息识别结果。

具体的，通过音频转译模块可以对音频中的人声内容进行识别并转译，同时与信息识别模块交互，可以对人声内容中的关键信息进行提取总结，通过特征捕捉模块可以环境音中的特征因素进行捕捉识别，从对音频的整体环境因素进行匹配并生成环境标签，从而使得可以通过处理对音频整体的内容和基础属性进行识别分析和匹配，可以对大量的音频文件进行识别处理，从而通过自动识别匹配提高对音频的处理效率。

结果导出单元包括：

标签处理模块，用于：

基于信息识别单元生成的信息识别结果生成音频内容关联标签，并将音频内容关联标签与相对应的音频数据文件进行匹配；

音频导出模块，用于：

对完成音频内容关联标签匹配的音频数据文件进行导出。

具体的，经过处理后的音频在导出后可以通过音频内容关联标签与音频的内容进行一定的相关性匹配，从而在对音频进行检索调取或使用时，根据音频的内容进行基本搜索，从而可以提高对相关音频的检索效率，无需人工对音频进行查看即可对内容进行先行的识别和标注，提高在对音频进行储存和调用时的便利性，在操作者需要包含某一关键信息的音频文件进行调取时，可以对关键信息进行统一的搜索，从而可以对包含改关键信息关联标签的音频数据进行统一的检索和调取。

所述专业验证模块包括：

人声音轨转化子模块，用于：

对专业术语词典中涉及的专业术语内容分别进行人声音轨模拟转化，得到专业术语内容的术语模拟音轨库；

图像化子模块，用于：

将人声子音轨转化为人声音轨曲线图像；并将术语模拟音轨库中的各术语模拟音轨转化为对应的术语模拟音轨曲线片段；

相似度计算子模块，用于：

上式中，

上述方案通过将专业术语词典中涉及的专业术语内容音轨化，再通过将音轨转化为曲线图像表达方式，采用遍历人声音轨曲线图像上的节点作为起点，使用术语模拟音轨曲线片段的长度标准截取相应的人声音轨曲线片段，然后在两者起点模拟重合的基础上，采用上述公式计算术语模拟音轨曲线片段和各人声音轨曲线片段上各对应点的距离均值，采用距离均值作为发音相似度，用于和设定阈值进行对比，若发音相似度超过设定阈值，即认定为人声音轨曲线片段对应的内容涉及专业术语内容，原来语音识别时得出的音轨内容文档数据可能存在错误或者偏差，需要采用专业术语内容进行更正，从而提高对具有专业性会话的音轨内容文档数据的准确性。

请参阅图2，本申请还提供一种音频处理方法，包括以下步骤：

信息识别，对音轨内容文档数据进行特征捕捉提取并输出音轨信息组，将音轨信息组与环境标签进行关联，并生成信息识别结果；

结果导出，生成音频内容关联标签并将与相对应的音频数据文件进行匹配并导出完成匹配的音频数据文件。

本申请还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的音频处理系统。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：广州市升谱达音响科技有限公司;

上一篇：一种储能电池箱多极自切换式检测装置及其检测方法
下一篇：一种用于神经外科手术显微镜的辅助系统