掌桥专利:专业的专利平台
掌桥专利
首页

音频处理方法及系统

文献发布时间:2024-04-18 20:01:23


音频处理方法及系统

技术领域

本发明涉及音频处理技术领域,尤其涉及一种音频处理方法及系统。

背景技术

音频处理在现代通信、娱乐和广播领域中具有广泛的应用。然而传统的音频处理技术仅停留着音频听觉效果上,无法准确的分析音频所呈现的场景效果,存在着场景效果复现差,延迟较大的问题。

发明内容

基于此,有必要提供音频处理方法及系统,以解决至少一个上述技术问题。

为实现上述目的,一种音频处理方法及系统,所述方法包括以下步骤:

步骤S1:对音频进行信号收集,得到音频采样信号;对音频采样信号进行结构量化处理,得到音频采样量化信号;对音频采样量化信号进行数字编码转换,得到音频数字数据;

步骤S2:根据音频数字数据对音频进行音频内容提取处理,得到音频内容清洗数据;根据音频内容清洗数据进行文本分词处理,得到内容文本分词数据;根据内容文本分词数据进行情感解析分析,得到文本情感分析数据;

步骤S3:对音频进行时间戳标记,得到语音时间戳数据,对语音时间戳数据进行环境声修正,得到修正语音数据;对修正语音数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据;对语速情感特征数据以及语调情感特征数据进行特征结构整合,得到语音情感特征数据;对语音情感特征数据进行情感识别,得到语音情感分析数据;

步骤S4:根据文本情感分析数据以及语音情感分析数据进行音频场景模型构建,得到音频场景复原模型,以实现音频场景复原播放。

本发明通过对音频进行信号收集,可以获取音频的原始采样信号,这有助于捕捉音频的细节和特征,提供后续处理所需的基础数据,对音频采样信号进行结构量化处理,可以将连续的模拟信号转换为离散的数字信号,这有助于数字化音频数据,使其能够被计算机处理和存储,通过对量化后的音频信号进行数字编码转换,可以将其表示为数字数据,这有助于将音频信号转换为计算机能够理解和处理的形式,为后续的分析和处理提供基础;通过对音频数字数据进行音频内容提取处理,可以从音频中提取出有用的信息和内容,这有助于理解音频中所包含的语音、对话、音乐内容,为后续的分析和处理提供基础数据,根据音频内容清洗数据进行文本分词处理,将提取出的内容转化为有意义的词语,这有助于对音频中的语义和含义进行分析和理解,将长篇的文本划分为更小的单元,方便进一步的处理和分析,根据内容文本分词数据进行情感解析分析,可以推断出文本表达的情感倾向,通过分析文本中的词汇、语义以及句子结构信息,可以判断文本的情感状态,例如积极、消极或中性,这有助于深入了解音频中所表达的情感内容;通过对音频进行时间戳标记,可以将语音数据与特定时间点对应起来,这有助于在后续的分析和处理中准确地定位和引用音频的不同部分,方便进行精细的分析和处理,对语音时间戳数据进行环境声修正,可以去除环境噪音和杂音,提高语音数据的质量和清晰度,这有助于减少噪音对情感分析的干扰,使得情感特征的提取更加准确和可靠,对修正后的语音数据进行情感特征刨析,可以提取出语速和语调特征,语速情感特征数据反映语音的快慢程度,而语调情感特征数据反映语音的音高变化,这些特征可以帮助深入了解语音中所表达的情感信息,对语速情感特征数据和语调情感特征数据进行特征结构整合,将不同特征融合在一起,得到更全面、综合的语音情感特征数据,这有助于捕捉语音中丰富的情感表达,提供更准确和全面的情感分析结果,基于语音情感特征数据进行情感识别,可以判断语音所表达的情感状态,例如喜悦、悲伤、愤怒,这有助于理解语音中所蕴含的情感信息,为情感分析和情感导向的应用提供支持;通过结合文本情感分析数据和语音情感分析数据,可以构建一个音频场景模型,这个模型能够将情感信息与音频特征相结合,并学习到不同情感状态下的音频特征模式,这有助于建立情感与音频场景之间的关联性,为后续的音频场景复原提供基础;基于构建的音频场景模型,可以对音频进行场景复原,通过分析和处理音频特征,模型可以推断出音频所对应的情感状态和场景环境,这有助于还原音频中的情感氛围、背景环境和语境信息,使得音频的感受和体验更加丰富和真实。因此本发明音频处理方法及系统是对传统音频处理方法做出的优化,解决了传统音频处理方法存在的无法准确的分析音频所呈现的场景效果,存在着场景效果复现差,延迟较大的问题,能够准确的分析音频所呈现的场景效果,提高了场景效果复现的能力,降低了延迟。

优选地,步骤S1包括以下步骤:

步骤S11:对音频进行信号收集,得到音频信号;

步骤S12:对音频信号进行声音信号采样处理,得到音频采样信号;

步骤S13:对音频采样信号进行结构量化处理,得到音频采样量化信号;

步骤S14:对音频采样量化信号进行数字编码转换,得到音频数字数据。

本发明通过对音频进行信号收集,可以获取到原始的音频信号,这有助于从音频源头获取音频数据,为后续的处理和分析提供基础;对音频信号进行声音信号采样处理,将连续的模拟音频信号转换为离散的音频采样信号,通过采样处理,音频信号被离散化成一系列采样点,使得音频信号能够在数字系统中进行处理和表示;对音频采样信号进行结构量化处理,将连续的采样值映射为离散的量化值,这有助于减少音频数据的存储空间和传输带宽,同时保持音频的可感知质量;对音频采样量化信号进行数字编码转换,将量化值表示为数字形式的音频数据,通过数字编码,音频信号被转换为计算机能够处理和存储的二进制数据。

优选地,步骤S13包括以下步骤:

步骤S131:利用预设的振幅结构划分手册对音频采样信号进行采样信号结构划分,得到音频结构信号集;

步骤S132:对音频结构信号集进行相邻振幅差计算,得到音频振幅信号集;

步骤S133:对音频振幅信号集进行过零率计算,得到过零率信号集;

步骤S134:对音频振幅信号集进行交叠部分提取,得到音频振幅交叠信号;

步骤S135:根据音频振幅交叠信号以及过零率信号集对音频采样信号进行非线性量化处理,得到音频采样量化信号。

本发明利用预设的振幅结构划分手册对音频采样信号进行划分,将音频信号划分为不同的结构,这有助于将音频信号分解为更小的部分,使得后续的分析和处理更加精细和准确;对音频结构信号集进行相邻振幅差计算,得到音频振幅信号集,相邻振幅差反映了音频信号的振幅变化情况,这有助于提取振幅特征,用于后续的分析和处理;对音频振幅信号集进行过零率计算,得到过零率信号集,过零率表示音频信号通过零点的频率,反映了音频信号的快速变化情况,过零率计算可以提取音频的瞬时特征,用于后续的分析和处理;对音频振幅信号集进行交叠部分提取,得到音频振幅交叠信号,交叠部分提取可以识别音频中存在的交叠现象,即多个音频信号的重叠部分,这有助于分离和处理交叠信号,提高音频数据的质量和清晰度;根据音频振幅交叠信号和过零率信号集,对音频采样信号进行非线性量化处理,得到音频采样量化信号,非线性量化处理可以调整音频信号的动态范围和幅度分布,使得音频数据更适合于存储和传输。

优选地,步骤S2包括以下步骤:

步骤S21:根据音频数字数据对音频进行音频内容提取处理,得到音频内容文本数据;

步骤S22:对音频内容文本数据进行数据清洗,得到音频内容清洗数据;

步骤S23:根据音频内容清洗数据对音频内容文本数据进行文本分词处理,得到内容文本分词数据;

步骤S24:对内容文本分词数据进行语义分析,得到内容文本语义数据;

步骤S25:对内容文本语义数据进行关联实体标注,得到内容文本关联数据;

步骤S26:根据内容文本关联数据对内容文本语义数据进行情感解析分析,得到文本情感分析数据。

本发明根据音频数字数据,进行音频内容提取处理,将音频中的语音信息转换为文本数据,这有助于将音频中的信息提取出来,使得后续的文本处理和分析成为可能;对音频内容文本数据进行数据清洗,去除噪音、无关信息和错误数据,得到干净的音频内容数据,数据清洗可以提高数据的质量和准确性,为后续的处理和分析提供可靠的基础;对音频内容清洗数据进行文本分词处理,将文本拆分成有意义的词语或短语,文本分词可以将复杂的文本数据转化为更易于处理和分析的形式,为后续的语义分析和实体标注提供基础;对内容文本分词数据进行语义分析,理解文本数据的语义和含义,语义分析可以识别文本中的实体、关系和语境,帮助理解文本的内容,并为后续的关联实体标注和情感解析提供基础;根据内容文本清洗数据,对内容文本分词数据进行关联实体标注,识别文本中的实体,并给予相应的标注,关联实体标注可以识别文本中的重要实体和关键词,为后续的分析和应用提供更准确的信息;根据内容文本关联数据,对内容文本语义数据进行情感解析分析,识别文本中的情感倾向和情绪状态,情感解析分析可以帮助理解文本的情感含义,提取情感信息,为情感分析和应用提供基础。

优选地,步骤S26包括以下步骤:

步骤S261:对内容文本关联数据进行情感词性筛选,得到关键情感词性列表;

步骤S262:根据关键情感词性列表进行词汇组合转换分析,得到组合词性情感列表;

步骤S263:根据关键情感词性列表以及组合词性情感列表进行情感词典建立,得到关键情感词典;

步骤S264:对内容文本语义数据进行句法刨析,得到文本句法结构数据;

步骤S265:根据关键情感词典对文本句法结构数据进行情感解析分析,得到文本情感分析数据。

本发明对内容文本关联数据进行情感词性筛选,提取其中的关键情感词性,通过筛选出特定的词性,可以聚焦于表达情感的关键词汇,减少冗余信息,提高情感分析的准确性和效果;基于关键情感词性列表,对文本进行词汇组合转换分析,这意味着将关键情感词性按照一定规则进行组合,形成新的组合词性,这种分析可以捕捉到更复杂的情感表达方式,提供更全面和丰富的情感信息;根据关键情感词性列表和组合词性情感列表,建立情感词典,情感词典中包含了与关键情感词性相关的情感词汇和其对应的情感倾向,情感词典的建立可以为后续的情感分析提供参考,帮助判断文本中的情感情绪;对内容文本语义数据进行句法分析,分析文本中各个词汇之间的语法关系和句法结构,句法分析有助于理解文本的语法结构,捕捉到情感表达的上下文关系,从而更准确地解读文本的情感含义;根据关键情感词典和文本句法结构数据,进行情感解析分析,识别文本中的情感倾向和情绪状态,情感解析分析可以基于情感词典和句法结构,将情感信息与上下文关联起来,为情感分析提供更深入和准确的结果。

优选地,步骤S3包括以下步骤:

步骤S31:对音频进行角色语音数据收集,得到角色语音数据;

步骤S32:对角色语音数据进行时间戳标记,得到语音时间戳数据;

步骤S33:利用环境声修正算法对语音时间戳数据进行环境声修正,得到修正语音数据;

步骤S34:对修正语音数据进行语速音素特征提取以及语调音素特征提取,得到语速音素特征数据和语调音素特征数据;

步骤S35:对语速音素特征数据和语调音素特征数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据;

步骤S36:根据文本情感分析数据对语速情感特征数据进行语速情感评估,得到语速情感评估数据;

步骤S37:根据语速情感评估数据对语调情感特征数据进行情感适配评估,得到语调情感评估数据;

步骤S38:对语速情感评估数据以及语调情感评估数据进行特征结构整合,得到语音情感特征数据;

步骤S39:通过语音分析情感识别器对语音情感特征数据进行情感识别,得到语音情感分析数据。

本发明对音频进行角色语音数据收集,获取特定角色的语音数据,这有助于将音频与特定的角色或说话人相关联,为后续的分析和处理提供角色上下文;对角色语音数据进行时间戳标记,即为语音数据中的每个片段或单词添加时间标记,时间戳标记可以帮助在后续的处理中准确识别和定位语音数据的不同部分;利用环境声修正算法对语音时间戳数据进行环境声修正,即根据环境噪声对语音数据进行修正和调整,以提高语音数据的质量和可理解性;对修正语音数据进行语速音素特征提取,提取语音数据中的语速相关特征,这可以帮助捕捉到语音的快慢节奏和节拍,为后续的情感分析提供基础;对修正语音数据进行语调音素特征提取,提取语音数据中的语调相关特征,这可以帮助分析语音的音高、音调和声调变化,为后续的情感分析提供基础;对语速音素特征数据和语调音素特征数据进行情感特征刨析,即从语速和语调特征中提取与情感相关的信息,这可以帮助理解语速和语调与情感之间的关联,为后续的情感评估提供基础;根据文本情感分析数据对语速情感特征数据进行语速情感评估,评估语速特征与情感之间的关系,这可以帮助判断语速对情感表达的影响程度,提供语速相关的情感分析结果;根据语速情感评估数据对语调情感特征数据进行情感适配评估,评估语调特征与情感之间的关系,这可以帮助判断语调对情感表达的适配程度,提供语调相关的情感分析结果;对语速情感评估数据以及语调情感评估数据进行特征结构整合,将两者的评估结果综合起来,得到一体化的语音情感特征数据,这可以综合考虑语速和语调对情感的影响,提供更全面和准确的语音情感分析结果;通过语音分析情感识别器对语音情感特征数据进行情感识别,即将语音数据与情感进行关联和分类,得到语音情感分析数据,这可以帮助识别语音中所表达的情感,提供关于情感状态的信息。

优选地,步骤S33中的环境声修正算法如下所示:

式中,f表示修正后的语音数据,x表示输入的语音时间戳数据,λ表示声波的传播速度值,μ表示环境嘈杂系数,α表示空气阻尼系数,β表示声波振幅系数,γ表示载波频率值,t表示语音时长值,R表示环境声修正算法的偏差修正值。

本发明构建了一个环境声修正算法,该算法中的各参数对于修正后语音数据的质量和适应性具有重要的影响,合理地调节这些参数可以改善语音数据的可理解性、清晰度和自然度,使其更好地适应不同的环境噪声和声学条件。该算法充分考虑了输入的语音时间戳数据x,这是待修正的原始语音数据,经过时间戳标记后的结果,它提供了语音数据的时间信息,用于计算修正后的语音数据;声波的传播速度值λ,声波的传播速度是环境中声音传递的速度,在环境声修正中,通过调整传播速度值可以对语音数据进行时间上的调整,以适应不同的传播环境;环境嘈杂系数μ,该系数表示环境中的噪声水平,增大环境嘈杂系数可以增强对环境噪声的修正效果,减小环境噪声对语音数据的影响,提高语音的清晰度和可懂度;空气阻尼系数α,空气阻尼系数用于调节声波在空气中传播时的衰减效果,适当的空气阻尼系数可以减小由于传播距离增加而导致的声音衰减,改善语音的音质和可听性;声波振幅系数β,声波振幅系数表示声波的振幅大小,通过调节振幅系数,可以增强声音的强度,使修正后的语音数据更加清晰和明确;载波频率值γ,载波频率值用于调节修正算法中的频率特征,适当的载波频率值可以使修正后的语音数据在频域上更加平衡,减小频率偏移的影响,提高语音的准确性和自然度;语音时长值t,表示语音数据的时间点或时间段,在环境声修正中,语言时间值用于计算修正后的语音数据的时间位置,以确保数据在时间上的一致性和准确性;环境声修正算法的偏差修正值R,该值表示对修正结果进行偏差修正,以进一步优化修正后的语音数据,通过对偏差修正值的调整,可以更好地适应不同的环境条件,提高修正算法的准确性和鲁棒性;该算法的目的是为了对语音进行修正,该目的也可以通过常规语音处理技术进行修正,但效果往往没有该算法好。

优选地,步骤S35包括以下步骤:

步骤S351:对语速音素特征数据和语调音素特征数据进行三维热力图绘制,分别得到语速音素特征图和语调音素特征图;

步骤S352:对语速音素特征图以及语调音素特征图进行中心热力区域标记,得到语速热力区域数据以及语调热力区域数据;

步骤S353:根据语速音素特征图对语速热力区域数据进行分布密度计算,得到语速热力密度数据;

步骤S354:根据语调音素特征图对语调热力区域数据进行起伏变化计算,得到语调起伏变化数据;

步骤S355:将语速热力密度数据进行区域密度随机抽取,得到语速随机密度数据;将语调起伏变化数据进行起伏变化随机抽取,得到语调随机起伏数据;

步骤S356:分别对语速随机密度数据和语调随机起伏数据进行蒙特卡罗模拟,分别得到语速模拟输出数据以及语调模拟输出数据;

步骤S357:根据语速模拟输出数据以及语调模拟输出数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据。

本发明通过绘制语速音素特征数据和语调音素特征数据的三维热力图,可以直观地展示语速和语调在不同音素上的分布情况,这有助于理解语速和语调的整体特征,并发现其中的规律和趋势;通过对语速音素特征图和语调音素特征图进行中心热力区域标记,可以确定语速和语调的热力区域,即在特定范围内具有较高或较低值的区域,这有助于聚焦于语速和语调的关键特征区域,提取相关的信息;根据语速音素特征图对语速热力区域数据进行分布密度计算,可以得到语速热力密度数据,这样做可以量化语速的分布特征,了解语速在不同区域的密度分布情况,为后续的分析提供基础;根据语调音素特征图对语调热力区域数据进行起伏变化计算,可以得到语调起伏变化数据,这可以反映语调在不同区域的起伏程度,即语调的变化幅度。这有助于理解语调的动态性和表达特征;将语速热力密度数据进行区域密度随机抽取,得到语速随机密度数据;将语调起伏变化数据进行起伏变化随机抽取,得到语调随机起伏数据,这些随机抽取的数据可以用于模拟语速和语调的随机变化情况,进一步丰富数据样本,增加分析的多样性;对语速随机密度数据和语调随机起伏数据进行蒙特卡罗模拟,可以生成模拟输出数据,这些模拟输出数据可以帮助评估语速和语调的变化对情感特征的影响,提供评估和预测的依据;根据语速模拟输出数据和语调模拟输出数据进行情感特征刨析,可以得到语速情感特征数据和语调情感特征数据,这些数据反映了语速和语调与情感之间的关系,有助于了解语速和语调在情感表达中的作用,并为情感识别和情感生成等应用提供参考。

附图说明

图1为一种音频处理方法及系统的步骤流程示意图;

图2为图1中步骤S3的详细实施步骤流程示意图;

图3为图2中步骤S35的详细实施步骤流程示意图;

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面结合附图对本发明专利的技术方法进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域所属的技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器方法和/或微控制器方法中实现这些功能实体。

应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

为实现上述目的,请参阅图1至图3,一种音频处理方法及系统,所述方法包括以下步骤:

步骤S1:对音频进行信号收集,得到音频采样信号;对音频采样信号进行结构量化处理,得到音频采样量化信号;对音频采样量化信号进行数字编码转换,得到音频数字数据;

步骤S2:根据音频数字数据对音频进行音频内容提取处理,得到音频内容清洗数据;根据音频内容清洗数据进行文本分词处理,得到内容文本分词数据;根据内容文本分词数据进行情感解析分析,得到文本情感分析数据;

步骤S3:对音频进行时间戳标记,得到语音时间戳数据,对语音时间戳数据进行环境声修正,得到修正语音数据;对修正语音数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据;对语速情感特征数据以及语调情感特征数据进行特征结构整合,得到语音情感特征数据;对语音情感特征数据进行情感识别,得到语音情感分析数据;

步骤S4:根据文本情感分析数据以及语音情感分析数据进行音频场景模型构建,得到音频场景复原模型,以实现音频场景复原播放。

本发明实施例中,参考图1所述,为本发明一种音频处理方法及系统的步骤流程示意图,在本实例中,所述一种音频处理方法包括以下步骤:

步骤S1:对音频进行信号收集,得到音频采样信号;对音频采样信号进行结构量化处理,得到音频采样量化信号;对音频采样量化信号进行数字编码转换,得到音频数字数据;

本发明实施例中,通过麦克风或其他音频设备收集音频信号,对连续音频信号进行采样,将连续的音频信号进行离散化,即对连续时间的音频信号进行采样,以获取一系列离散的音频样本,对音频采样信号进行量化处理,将连续的模拟信号转换为离散的数字信号,这涉及到将采样信号映射到特定的离散值范围内,通常使用均匀量化或非均匀量化方法,将量化后的音频信号进行数字编码转换,将其表示为计算机可以理解和处理的数字数据,常用的编码方法包括脉冲编码调制(PCM)和压缩编码。

步骤S2:根据音频数字数据对音频进行音频内容提取处理,得到音频内容清洗数据;根据音频内容清洗数据进行文本分词处理,得到内容文本分词数据;根据内容文本分词数据进行情感解析分析,得到文本情感分析数据;

本发明实施例中,根据音频数字数据,对音频进行内容提取处理,以获取音频中的有用信息,这可以包括语音识别、语音分割、语音活动检测技术,以将音频转换为文本或标记语音的有意义部分,对从音频中提取的文本数据进行清洗和预处理,以去除噪音、静音、重复或不相关的部分,从而得到干净的音频内容数据,这可能涉及文本清洗、去除停用词、纠正拼写错误,对音频内容清洗数据进行分词处理,将文本分割成有意义的词语或短语,这可以使用自然语言处理(NLP)技术,如分词算法、词性标注,根据分词后的文本数据,进行情感解析和分析,以识别文本中的情感倾向和情感状态,这可以涉及情感词典、机器学习模型或深度学习模型的应用,用于推断文本的情绪、情感极性。

步骤S3:对音频进行时间戳标记,得到语音时间戳数据,对语音时间戳数据进行环境声修正,得到修正语音数据;对修正语音数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据;对语速情感特征数据以及语调情感特征数据进行特征结构整合,得到语音情感特征数据;对语音情感特征数据进行情感识别,得到语音情感分析数据;

本发明实施例中,根据音频数据,对每个音频样本进行时间戳标记,将每个样本与其对应的时间关联起来,这可以通过音频采样率和采样点数量来计算每个样本的时间戳;根据语音时间戳数据,对音频进行环境声修正,去除背景噪音和环境声音的干扰,以提高情感特征的准确性,这可以使用降噪算法、滤波技术进行环境声修正处理;对修正后的语音数据进行情感特征提取,包括语速情感特征数据和语调情感特征数据的刨析,这可以使用语音信号处理技术和特征提取算法,如基频提取、音调分析、语速分析;将提取的语速情感特征数据和语调情感特征数据进行结合,整合为一组综合的语音情感特征数据,这可以通过特征融合或特征组合的方法进行;对综合的语音情感特征数据进行情感识别,通过机器学习模型或其他算法,判断语音中所表达的情感状态,并得到语音情感分析数据,这可以使用分类算法、支持向量机、深度学习模型。

步骤S4:根据文本情感分析数据以及语音情感分析数据进行音频场景模型构建,得到音频场景复原模型,以实现音频场景复原播放。

本发明实施例中,收集已进行文本情感分析和语音情感分析的数据集,包括文本情感分析结果和对应的音频情感分析结果;从文本情感分析数据和语音情感分析数据中提取特征,这可能涉及到从文本数据中提取词向量或其他语义特征,以及从音频数据中提取音频特征,如语速、语调、情感倾向,使用已标记的文本情感分析数据和语音情感分析数据作为训练集,训练音频场景模型,这可以使用各种机器学习算法或深度学习模型来构建模型,如支持向量机、随机森林、神经网络,对训练得到的音频场景模型进行评估和调优,使用验证集或交叉验证方法来评估模型的性能,并进行参数调整和优化,以提高模型的准确性和泛化能力,将训练好的音频场景模型应用于新的音频数据,根据输入的音频特征,输出音频的情感场景复原结果,这可以通过将音频特征输入到模型中,并根据模型的输出进行音频场景复原数据,将音频场景复原数据通过语音播放的方式反馈至终端,这里语音播放可以还原情感氛围、背景环境和语境信息,在另一实施例中也可通过对音频场景复原数据可以进行视频流转换,将音频场景复原数据转换成视频的方式反馈至终端,这样可以更加直接的感受到还原的情感氛围、背景环境和语境信息。

本发明通过对音频进行信号收集,可以获取音频的原始采样信号,这有助于捕捉音频的细节和特征,提供后续处理所需的基础数据,对音频采样信号进行结构量化处理,可以将连续的模拟信号转换为离散的数字信号,这有助于数字化音频数据,使其能够被计算机处理和存储,通过对量化后的音频信号进行数字编码转换,可以将其表示为数字数据,这有助于将音频信号转换为计算机能够理解和处理的形式,为后续的分析和处理提供基础;通过对音频数字数据进行音频内容提取处理,可以从音频中提取出有用的信息和内容,这有助于理解音频中所包含的语音、对话、音乐内容,为后续的分析和处理提供基础数据,根据音频内容清洗数据进行文本分词处理,将提取出的内容转化为有意义的词语,这有助于对音频中的语义和含义进行分析和理解,将长篇的文本划分为更小的单元,方便进一步的处理和分析,根据内容文本分词数据进行情感解析分析,可以推断出文本表达的情感倾向,通过分析文本中的词汇、语义以及句子结构信息,可以判断文本的情感状态,例如积极、消极或中性,这有助于深入了解音频中所表达的情感内容;通过对音频进行时间戳标记,可以将语音数据与特定时间点对应起来,这有助于在后续的分析和处理中准确地定位和引用音频的不同部分,方便进行精细的分析和处理,对语音时间戳数据进行环境声修正,可以去除环境噪音和杂音,提高语音数据的质量和清晰度,这有助于减少噪音对情感分析的干扰,使得情感特征的提取更加准确和可靠,对修正后的语音数据进行情感特征刨析,可以提取出语速和语调特征,语速情感特征数据反映语音的快慢程度,而语调情感特征数据反映语音的音高变化,这些特征可以帮助深入了解语音中所表达的情感信息,对语速情感特征数据和语调情感特征数据进行特征结构整合,将不同特征融合在一起,得到更全面、综合的语音情感特征数据,这有助于捕捉语音中丰富的情感表达,提供更准确和全面的情感分析结果,基于语音情感特征数据进行情感识别,可以判断语音所表达的情感状态,例如喜悦、悲伤、愤怒,这有助于理解语音中所蕴含的情感信息,为情感分析和情感导向的应用提供支持;通过结合文本情感分析数据和语音情感分析数据,可以构建一个音频场景模型,这个模型能够将情感信息与音频特征相结合,并学习到不同情感状态下的音频特征模式,这有助于建立情感与音频场景之间的关联性,为后续的音频场景复原提供基础;基于构建的音频场景模型,可以对音频进行场景复原,通过分析和处理音频特征,模型可以推断出音频所对应的情感状态和场景环境,这有助于还原音频中的情感氛围、背景环境和语境信息,使得音频的感受和体验更加丰富和真实。因此本发明音频处理方法及系统是对传统音频处理方法做出的优化,解决了传统音频处理方法存在的无法准确的分析音频所呈现的场景效果,存在着场景效果复现差,延迟较大的问题,能够准确的分析音频所呈现的场景效果,提高了场景效果复现的能力,降低了延迟。

优选地,步骤S1包括以下步骤:

步骤S11:对音频进行信号收集,得到音频信号;

步骤S12:对音频信号进行声音信号采样处理,得到音频采样信号;

步骤S13:对音频采样信号进行结构量化处理,得到音频采样量化信号;

步骤S14:对音频采样量化信号进行数字编码转换,得到音频数字数据。

本发明实施例中,准备合适的音频信号收集设备,如麦克风或录音设备,确保收集音频的环境相对安静,以避免干扰和噪音对音频信号的影响,使用音频信号收集设备开始收集音频信号,可以是实时采集或从已有的音频文件中获取;确定音频采样的频率,即采样率,常用的采样率有8kHz、16kHz、44.1kHz,确定音频采样的位深度,即每个采样点的精度,常用的位深度有8位、16位、24位,使用采样率和采样深度,对音频信号进行采样处理,以获取一系列离散的音频采样点,确定音频采样信号的量化范围,即最大和最小值之间的范围,常用的量化范围有-1到1之间或-32767到32767之间,使用量化范围,将音频采样信号映射到离散的量化级别上,以获得离散的音频采样量化值,确定音频数字数据的编码方式,如脉冲编码调制(PCM)或其他压缩编码方式,使用选择的编码方式,将音频采样量化信号转换为相应的数字数据表示,如PCM编码的16位整数或浮点数。

本发明通过对音频进行信号收集,可以获取到原始的音频信号,这有助于从音频源头获取音频数据,为后续的处理和分析提供基础;对音频信号进行声音信号采样处理,将连续的模拟音频信号转换为离散的音频采样信号,通过采样处理,音频信号被离散化成一系列采样点,使得音频信号能够在数字系统中进行处理和表示;对音频采样信号进行结构量化处理,将连续的采样值映射为离散的量化值,这有助于减少音频数据的存储空间和传输带宽,同时保持音频的可感知质量;对音频采样量化信号进行数字编码转换,将量化值表示为数字形式的音频数据,通过数字编码,音频信号被转换为计算机能够处理和存储的二进制数据。

优选地,步骤S13包括以下步骤:

步骤S131:利用预设的振幅结构划分手册对音频采样信号进行采样信号结构划分,得到音频结构信号集;

步骤S132:对音频结构信号集进行相邻振幅差计算,得到音频振幅信号集;

步骤S133:对音频振幅信号集进行过零率计算,得到过零率信号集;

步骤S134:对音频振幅信号集进行交叠部分提取,得到音频振幅交叠信号;

步骤S135:根据音频振幅交叠信号以及过零率信号集对音频采样信号进行非线性量化处理,得到音频采样量化信号。

本发明实施例中,根据需要和应用场景,预先定义一组振幅结构划分手册,其中包含不同振幅范围的划分标准,根据振幅结构划分手册,将音频采样信号按照振幅大小进行划分,将每个采样点分配到相应的振幅结构中,形成音频结构信号集;对音频结构信号集中的每个结构进行相邻振幅差计算,即计算相邻振幅之间的差值,将相邻振幅差值作为音频振幅信号集的一部分,形成一个新的信号集,对音频振幅信号集中的每个振幅进行过零率计算,即计算信号穿过零点的次数,将计算得到的过零率作为过零率信号集的一部分,形成一个新的信号集,根据音频振幅信号集中的相邻振幅差值,提取出交叠部分,即振幅差值小于某个阈值的部分,将提取的交叠部分作为音频振幅交叠信号的一部分,形成一个新的信号;根据音频振幅交叠信号和过零率信号集,设计适当的非线性量化函数,将音频采样信号进行非线性量化处理,将经过非线性量化处理的音频采样信号作为音频采样量化信号的结果。

本发明利用预设的振幅结构划分手册对音频采样信号进行划分,将音频信号划分为不同的结构,这有助于将音频信号分解为更小的部分,使得后续的分析和处理更加精细和准确;对音频结构信号集进行相邻振幅差计算,得到音频振幅信号集,相邻振幅差反映了音频信号的振幅变化情况,这有助于提取振幅特征,用于后续的分析和处理;对音频振幅信号集进行过零率计算,得到过零率信号集,过零率表示音频信号通过零点的频率,反映了音频信号的快速变化情况,过零率计算可以提取音频的瞬时特征,用于后续的分析和处理;对音频振幅信号集进行交叠部分提取,得到音频振幅交叠信号,交叠部分提取可以识别音频中存在的交叠现象,即多个音频信号的重叠部分,这有助于分离和处理交叠信号,提高音频数据的质量和清晰度;根据音频振幅交叠信号和过零率信号集,对音频采样信号进行非线性量化处理,得到音频采样量化信号,非线性量化处理可以调整音频信号的动态范围和幅度分布,使得音频数据更适合于存储和传输。

优选地,步骤S2包括以下步骤:

步骤S21:根据音频数字数据对音频进行音频内容提取处理,得到音频内容文本数据;

步骤S22:对音频内容文本数据进行数据清洗,得到音频内容清洗数据;

步骤S23:根据音频内容清洗数据对音频内容文本数据进行文本分词处理,得到内容文本分词数据;

步骤S24:对内容文本分词数据进行语义分析,得到内容文本语义数据;

步骤S25:对内容文本语义数据进行关联实体标注,得到内容文本关联数据;

步骤S26:根据内容文本关联数据对内容文本语义数据进行情感解析分析,得到文本情感分析数据。

本发明实施例中,选择适当的音频内容提取技术,如语音识别或音频特征提取,根据音频数字数据将其转换为可处理的音频内容文本数据同时也可以使用选择的音频内容提取技术对音频数字数据进行处理,将音频中的语音内容转化为文本形式,得到音频内容文本数据;根据应用需求和数据质量要求,确定需要进行的数据清洗操作,如去除特殊字符、标点符号、停用词,对音频内容文本数据进行数据清洗操作,根据需求去除不需要的内容或进行文本规范化处理,得到音频内容清洗数据,选择适当的分词工具或算法,如中文分词器或词袋模型,用于将音频内容清洗数据进行分词处理,使用选择的分词工具将音频内容清洗数据进行分词,将文本拆分为一系列的词语或词组,得到内容文本分词数据,选择适当的语义分析技术,如词向量模型或深度学习模型,用于理解和推断文本的语义,使用选择的语义分析技术对内容文本分词数据进行处理,以提取文本的语义信息,得到内容文本语义数据;选择适当的实体标注工具或算法,如命名实体识别器或实体链接模型,用于识别和标注文本中的关键实体,使用选择的实体标注工具对内容文本语义数据进行处理,以识别和标注文本中与特定领域相关的关键实体,生成内容文本关联数据;选择适当的情感分析技术,如情感词典或深度学习模型等,用于识别和分析文本的情感倾向。

本发明根据音频数字数据,进行音频内容提取处理,将音频中的语音信息转换为文本数据,这有助于将音频中的信息提取出来,使得后续的文本处理和分析成为可能;对音频内容文本数据进行数据清洗,去除噪音、无关信息和错误数据,得到干净的音频内容数据,数据清洗可以提高数据的质量和准确性,为后续的处理和分析提供可靠的基础;对音频内容清洗数据进行文本分词处理,将文本拆分成有意义的词语或短语,文本分词可以将复杂的文本数据转化为更易于处理和分析的形式,为后续的语义分析和实体标注提供基础;对内容文本分词数据进行语义分析,理解文本数据的语义和含义,语义分析可以识别文本中的实体、关系和语境,帮助理解文本的内容,并为后续的关联实体标注和情感解析提供基础;根据内容文本清洗数据,对内容文本分词数据进行关联实体标注,识别文本中的实体,并给予相应的标注,关联实体标注可以识别文本中的重要实体和关键词,为后续的分析和应用提供更准确的信息;根据内容文本关联数据,对内容文本语义数据进行情感解析分析,识别文本中的情感倾向和情绪状态,情感解析分析可以帮助理解文本的情感含义,提取情感信息,为情感分析和应用提供基础。

优选地,步骤S26包括以下步骤:

步骤S261:对内容文本关联数据进行情感词性筛选,得到关键情感词性列表;

步骤S262:根据关键情感词性列表进行词汇组合转换分析,得到组合词性情感列表;

步骤S263:根据关键情感词性列表以及组合词性情感列表进行情感词典建立,得到关键情感词典;

步骤S264:对内容文本语义数据进行句法刨析,得到文本句法结构数据;

步骤S265:根据关键情感词典对文本句法结构数据进行情感解析分析,得到文本情感分析数据。

本发明实施例中,确定需要考虑的情感词性列表,如积极情感词性(如形容词、副词)和消极情感词性(如否定词、副词),根据定义的情感词性列表,对内容文本关联数据中的词性进行筛选,提取包含关键情感词性的词语,得到关键情感词性列表;确定需要考虑的组合词性列表,如积极情感词性组合和消极情感词性组合,根据关键情感词性列表,对内容文本关联数据中的词语进行组合转换分析,找出具有特定组合词性的词语,得到组合词性情感列表;根据关键情感词性列表和组合词性情感列表,建立一个包含积极和消极情感词汇的情感词典,将根据关键情感词性列表和组合词性情感列表筛选出的词语加入情感词典中,并为每个词语分配相应的情感极性;选择适当的句法分析工具或算法,如依存句法分析器或组块分析器等,用于分析文本的句法结构,使用选择的句法分析工具对内容文本语义数据进行处理,以获取文本的句法依存关系和语法结构,得到文本句法结构数据,选择适当的情感解析算法或模型,如基于规则的方法或基于机器学习的方法,用于根据关键情感词典和文本句法结构数据进行情感推理,使用选择的情感解析算法对文本句法结构数据进行处理,结合关键情感词典进行情感推理和分析,得到文本情感分析数据。

本发明对内容文本关联数据进行情感词性筛选,提取其中的关键情感词性,通过筛选出特定的词性,可以聚焦于表达情感的关键词汇,减少冗余信息,提高情感分析的准确性和效果;基于关键情感词性列表,对文本进行词汇组合转换分析,这意味着将关键情感词性按照一定规则进行组合,形成新的组合词性,这种分析可以捕捉到更复杂的情感表达方式,提供更全面和丰富的情感信息;根据关键情感词性列表和组合词性情感列表,建立情感词典,情感词典中包含了与关键情感词性相关的情感词汇和其对应的情感倾向,情感词典的建立可以为后续的情感分析提供参考,帮助判断文本中的情感情绪;对内容文本语义数据进行句法分析,分析文本中各个词汇之间的语法关系和句法结构,句法分析有助于理解文本的语法结构,捕捉到情感表达的上下文关系,从而更准确地解读文本的情感含义;根据关键情感词典和文本句法结构数据,进行情感解析分析,识别文本中的情感倾向和情绪状态,情感解析分析可以基于情感词典和句法结构,将情感信息与上下文关联起来,为情感分析提供更深入和准确的结果。

优选地,步骤S3包括以下步骤:

步骤S31:对音频进行角色语音数据收集,得到角色语音数据;

步骤S32:对角色语音数据进行时间戳标记,得到语音时间戳数据;

步骤S33:利用环境声修正算法对语音时间戳数据进行环境声修正,得到修正语音数据;

步骤S34:对修正语音数据进行语速音素特征提取以及语调音素特征提取,得到语速音素特征数据和语调音素特征数据;

步骤S35:对语速音素特征数据和语调音素特征数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据;

步骤S36:根据文本情感分析数据对语速情感特征数据进行语速情感评估,得到语速情感评估数据;

步骤S37:根据语速情感评估数据对语调情感特征数据进行情感适配评估,得到语调情感评估数据;

步骤S38:对语速情感评估数据以及语调情感评估数据进行特征结构整合,得到语音情感特征数据;

步骤S39:通过语音分析情感识别器对语音情感特征数据进行情感识别,得到语音情感分析数据。

作为本发明的一个实例,参考图2所示,在本实例中所述步骤S3包括:

步骤S31:对音频进行角色语音数据收集,得到角色语音数据;

本发明实施例中,明确需要收集语音数据的角色类型,例如男性、女性、儿童,以及角色的特点,如口音、语速,准备合适的录音设备或系统,确保录音设备的良好工作状态。可以选择专业的麦克风、录音棚或便携式录音设备,对收集到的语音数据进行整理和归档,确保每个角色的语音数据都能够被准确标识和管理。

步骤S32:对角色语音数据进行时间戳标记,得到语音时间戳数据;

本发明实施例中,准备待标记的角色语音数据,确保数据的文件格式和采样率与所选工具或算法兼容,根据需要设置时间戳标记的粒度和间隔,可以根据句子、音节或其他合适的单位进行标记。

步骤S33:利用环境声修正算法对语音时间戳数据进行环境声修正,得到修正语音数据;

本发明实施例中,在收集到的语音数据中,同时采集环境声音数据,例如静音或背景噪音,选择适当的环境声修正算法或技术,如噪声抑制、语音增强,用于校正语音时间戳数据中的环境声音,使用选择的环境声修正算法对语音时间戳数据进行处理,去除或抑制环境声音,得到修正语音数据。

步骤S34:对修正语音数据进行语速音素特征提取以及语调音素特征提取,得到语速音素特征数据和语调音素特征数据;

本发明实施例中,使用语音处理工具或算法,如声学分析、语音识别,对修正语音数据进行处理,提取与语速相关的音素特征,如音节持续时间、语速变化,使用语音处理工具或算法,如基频分析、声调识别,对修正语音数据进行处理,提取与语调相关的音素特征,如基频变化、声调轮廓。

步骤S35:对语速音素特征数据和语调音素特征数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据;

本发明实施例中,选择适当的情感特征刨析算法或模型,如基于统计方法或机器学习的方法,用于对语速音素特征数据和语调音素特征数据进行情感特征提取和分析,使用选择的情感特征刨析算法对语速音素特征数据和语调音素特征数据进行处理,提取与情感相关的特征,如语速的快慢程度、语调的升降程度,得到语速情感特征数据和语调情感特征数据。

步骤S36:根据文本情感分析数据对语速情感特征数据进行语速情感评估,得到语速情感评估数据;

本发明实施例中,选择适当的语速情感评估算法或模型,如基于规则的方法或基于机器学习的方法,用于根据文本情感分析数据对语速情感特征数据进行情感评估,使用选择的语速情感评估算法对语速情感特征数据进行处理,结合文本情感分析数据进行情感推理和评估,得到语速情感评估数据。

步骤S37:根据语速情感评估数据对语调情感特征数据进行情感适配评估,得到语调情感评估数据;

本发明实施例中,选择适当的语调情感适配评估算法或模型,如基于规则的方法或基于机器学学习的方法,用于根据语速情感评估数据对语调情感特征数据进行情感适配评估,使用选择的语调情感适配评估算法对语调情感特征数据进行处理,结合语速情感评估数据进行情感推理和评估,得到语调情感评估数据。

步骤S38:对语速情感评估数据以及语调情感评估数据进行特征结构整合,得到语音情感特征数据;

本发明实施例中,将语速情感评估数据和语调情感评估数据进行特征结构整合,可以将两者的特征进行组合、加权操作,得到整合后的语音情感特征数据。

步骤S39:通过语音分析情感识别器对语音情感特征数据进行情感识别,得到语音情感分析数据。

本发明实施例中,选择适当的语音情感识别器或模型,如基于特征的方法或基于深度学习的方法,用于对语音情感特征数据进行情感识别,用选择的语音情感识别器对整合后的语音情感特征数据进行处理和分析,进行情感推理和识别,得到语音情感分析数据。

本发明对音频进行角色语音数据收集,获取特定角色的语音数据,这有助于将音频与特定的角色或说话人相关联,为后续的分析和处理提供角色上下文;对角色语音数据进行时间戳标记,即为语音数据中的每个片段或单词添加时间标记,时间戳标记可以帮助在后续的处理中准确识别和定位语音数据的不同部分;利用环境声修正算法对语音时间戳数据进行环境声修正,即根据环境噪声对语音数据进行修正和调整,以提高语音数据的质量和可理解性;对修正语音数据进行语速音素特征提取,提取语音数据中的语速相关特征,这可以帮助捕捉到语音的快慢节奏和节拍,为后续的情感分析提供基础;对修正语音数据进行语调音素特征提取,提取语音数据中的语调相关特征,这可以帮助分析语音的音高、音调和声调变化,为后续的情感分析提供基础;对语速音素特征数据和语调音素特征数据进行情感特征刨析,即从语速和语调特征中提取与情感相关的信息,这可以帮助理解语速和语调与情感之间的关联,为后续的情感评估提供基础;根据文本情感分析数据对语速情感特征数据进行语速情感评估,评估语速特征与情感之间的关系,这可以帮助判断语速对情感表达的影响程度,提供语速相关的情感分析结果;根据语速情感评估数据对语调情感特征数据进行情感适配评估,评估语调特征与情感之间的关系,这可以帮助判断语调对情感表达的适配程度,提供语调相关的情感分析结果;对语速情感评估数据以及语调情感评估数据进行特征结构整合,将两者的评估结果综合起来,得到一体化的语音情感特征数据,这可以综合考虑语速和语调对情感的影响,提供更全面和准确的语音情感分析结果;通过语音分析情感识别器对语音情感特征数据进行情感识别,即将语音数据与情感进行关联和分类,得到语音情感分析数据,这可以帮助识别语音中所表达的情感,提供关于情感状态的信息。

优选地,步骤S33中的环境声修正算法如下所示:

式中,f表示修正后的语音数据,x表示输入的语音时间戳数据,λ表示声波的传播速度值,μ表示环境嘈杂系数,α表示空气阻尼系数,β表示声波振幅系数,γ表示载波频率值,t表示语音时长值,R表示环境声修正算法的偏差修正值。

本发明构建了一个环境声修正算法,该算法中的各参数对于修正后语音数据的质量和适应性具有重要的影响,合理地调节这些参数可以改善语音数据的可理解性、清晰度和自然度,使其更好地适应不同的环境噪声和声学条件。该算法充分考虑了输入的语音时间戳数据x,这是待修正的原始语音数据,经过时间戳标记后的结果,它提供了语音数据的时间信息,用于计算修正后的语音数据;声波的传播速度值λ,声波的传播速度是环境中声音传递的速度,在环境声修正中,通过调整传播速度值可以对语音数据进行时间上的调整,以适应不同的传播环境;环境嘈杂系数μ,该系数表示环境中的噪声水平,增大环境嘈杂系数可以增强对环境噪声的修正效果,减小环境噪声对语音数据的影响,提高语音的清晰度和可懂度;空气阻尼系数α,空气阻尼系数用于调节声波在空气中传播时的衰减效果,适当的空气阻尼系数可以减小由于传播距离增加而导致的声音衰减,改善语音的音质和可听性;声波振幅系数β,声波振幅系数表示声波的振幅大小,通过调节振幅系数,可以增强声音的强度,使修正后的语音数据更加清晰和明确;载波频率值γ,载波频率值用于调节修正算法中的频率特征,适当的载波频率值可以使修正后的语音数据在频域上更加平衡,减小频率偏移的影响,提高语音的准确性和自然度;语音时长值t,表示语音数据的时间点或时间段,在环境声修正中,语言时间值用于计算修正后的语音数据的时间位置,以确保数据在时间上的一致性和准确性;环境声修正算法的偏差修正值R,该值表示对修正结果进行偏差修正,以进一步优化修正后的语音数据,通过对偏差修正值的调整,可以更好地适应不同的环境条件,提高修正算法的准确性和鲁棒性;该算法的目的是为了对语音进行修正,该目的也可以通过常规语音处理技术进行修正,但效果往往没有该算法好。

优选地,步骤S35包括以下步骤:

步骤S351:对语速音素特征数据和语调音素特征数据进行三维热力图绘制,分别得到语速音素特征图和语调音素特征图;

步骤S352:对语速音素特征图以及语调音素特征图进行中心热力区域标记,得到语速热力区域数据以及语调热力区域数据;

步骤S353:根据语速音素特征图对语速热力区域数据进行分布密度计算,得到语速热力密度数据;

步骤S354:根据语调音素特征图对语调热力区域数据进行起伏变化计算,得到语调起伏变化数据;

步骤S355:将语速热力密度数据进行区域密度随机抽取,得到语速随机密度数据;将语调起伏变化数据进行起伏变化随机抽取,得到语调随机起伏数据;

步骤S356:分别对语速随机密度数据和语调随机起伏数据进行蒙特卡罗模拟,分别得到语速模拟输出数据以及语调模拟输出数据;

步骤S357:根据语速模拟输出数据以及语调模拟输出数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据。

作为本发明的一个实例,参考图3所示,在本实例中所述步骤S35包括:

步骤S351:对语速音素特征数据和语调音素特征数据进行三维热力图绘制,分别得到语速音素特征图和语调音素特征图;

本发明实施例中,准备语速音素特征数据和语调音素特征数据,这些数据可以是从语音信号中提取的相应特征,如语速和语调的变化,使用适当的算法或工具,从语速音素特征数据和语调音素特征数据中提取出具体的数值特征,这些特征可以是对应音素的语速和语调值,据数据的维度,确定三维热力图的坐标轴,通常,横轴可以表示时间,纵轴可以表示音素,而颜色可以表示语速或语调的值,使用适当的工具或库,将语速音素特征数据转化为三维热力图,根据确定的坐标轴,绘制出对应的热力图,其中颜色的变化反映了语速的变化,使用适当的工具或库,将语调音素特征数据转化为三维热力图,根据确定的坐标轴,绘制出对应的热力图,其中颜色的变化反映了语调的变化。

步骤S352:对语速音素特征图以及语调音素特征图进行中心热力区域标记,得到语速热力区域数据以及语调热力区域数据;

本发明实施例中,首先,需要确定一个适当的阈值来标记中心热力区域,该阈值可以根据具体应用和数据的特点进行选择,例如根据热力图中的颜色分布或数据的统计特征;使用合适的方法或算法检测语速音素特征图和语调音素特征图中的中心点,中心点通常表示热力最高或最密集的区域,代表着较高的语速或语调特征,以检测到的中心点为中心,根据预先确定的阈值,将中心周围的区域标记为热力区域,可以使用圆形、椭圆形或其他形状的区域标记方法,具体形状和大小可以根据需求进行调整,记录或提取语速音素特征图中被标记的热力区域数据,这些数据可以是热力区域的坐标、形状、面积或其他相关属性,以及对应的语速特征值,记录或提取语调音素特征图中被标记的热力区域数据。这些数据可以是热力区域的坐标、形状、面积或其他相关属性,以及对应的语调特征值。

步骤S353:根据语速音素特征图对语速热力区域数据进行分布密度计算,得到语速热力密度数据;

本发明实施例中,使用步骤S352中的方法获取语速热力区域数据,这些数据包括热力区域的坐标、形状、面积以及对应的语速特征值;将语速音素特征图划分为网格,使得每个网格单元都具有固定的大小,网格的大小可以根据数据的分布和分辨率进行选择;对于每个网格单元,统计语速热力区域数据中位于该网格内的热力区域数量,这可以通过计算热力区域中心点的坐标是否位于网格内来实现,对计算得到的每个网格的热力区域数量进行归一化,以使得密度值在一个可比较的范围内,归一化可以采用最大最小值缩放或其他合适的方法,将归一化后的密度值与对应的网格单元关联起来,构建语速热力密度数据,这些数据可以表示为热力图或矩阵的形式,其中每个网格单元都对应一个密度值。

步骤S354:根据语调音素特征图对语调热力区域数据进行起伏变化计算,得到语调起伏变化数据;

本发明实施例中,使用步骤S352中的方法获取语调热力区域数据,这些数据包括热力区域的坐标、形状、面积以及对应的语调特征值,从语调音素特征图中提取与语调相关的特征值。这可以是音高或频率的值,表示语调的高低变化,对于每个语调热力区域,计算该区域内所有语调特征值的平均值,这可以通过对区域内的语调特征值进行求和,然后除以语调区域的面积来实现,将每个语调热力区域的平均语调特征值与整个音素特征图的全局平均值进行比较,得到该区域的起伏变化值。可以使用差值或比例来表示区域的起伏程度,将每个语调热力区域的起伏变化值与对应的区域关联起来,构建语调起伏变化数据,这些数据可以表示为热力图或矩阵的形式,其中每个区域都对应一个起伏变化值。

步骤S355:将语速热力密度数据进行区域密度随机抽取,得到语速随机密度数据;将语调起伏变化数据进行起伏变化随机抽取,得到语调随机起伏数据;

本发明实施例中,获取语速热力密度数据,该数据表示了语速在不同区域的分布密度情况,据需要抽取一定数量的语速热力密度数据,可以根据抽取比例或具体数量进行选择,随机抽取可以通过从语速热力密度数据中随机选择区域或使用随机数生成器来实现,将抽取的语速热力密度数据组合起来,构建语速随机密度数据,这些数据可以表示为热力图或矩阵的形式,其中每个区域都对应一个随机密度值;获取语调起伏变化数据,该数据表示了语调在不同区域的起伏变化情况,根据需要抽取一定数量的语调起伏变化数据,可以根据抽取比例或具体数量进行选择,随机抽取可以通过从语调起伏变化数据中随机选择区域或使用随机数生成器来实现,将抽取的语调起伏变化数据组合起来,构建语调随机起伏数据,这些数据可以表示为热力图或矩阵的形式,其中每个区域都对应一个随机起伏值。

步骤S356:分别对语速随机密度数据和语调随机起伏数据进行蒙特卡罗模拟,分别得到语速模拟输出数据以及语调模拟输出数据;

本发明实施例中,获取语速随机密度数据,该数据表示了语速在不同区域的随机密度情况,确定蒙特卡罗模拟的参数,如模拟次数、模拟时间步长,这些参数将影响模拟的准确性和精度,创建一个与语速随机密度数据相同大小的空白矩阵,用于存储模拟的输出数据,对每个区域进行模拟。对于每个时间步长,根据该区域的随机密度值,使用适当的模型或方法进行模拟,得到模拟输出数据,可以根据需要选择合适的模型,如随机游走模型、随机扩散模型,根据模拟的输出数据更新模拟输出矩阵,将每个时间步长的模拟结果累积存储;获取语调随机起伏数据,该数据表示了语调在不同区域的随机起伏变化情况,确定蒙特卡罗模拟的参数,如模拟次数、模拟时间步长,这些参数将影响模拟的准确性和精度,创建一个与语调随机起伏数据相同大小的空白矩阵,用于存储模拟的输出数据,对每个区域进行模拟。对于每个时间步长,根据该区域的随机起伏值,使用适当的模型或方法进行模拟,得到模拟输出数据。可以根据需要选择合适的模型,如波动模型、随机振荡模型,根据模拟的输出数据更新模拟输出矩阵,将每个时间步长的模拟结果累积存储。

步骤S357:根据语速模拟输出数据以及语调模拟输出数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据。

本发明实施例中,获取语速模拟输出数据,该数据表示了语速在不同区域的模拟结果,据需要定义一些情感特征指标,例如平均语速、波动程度、变化速率,这些指标将用于分析语速的情感特征,对于每个区域或整体数据,根据定义的情感特征指标进行计算,例如,计算各区域的平均语速、计算整体数据的波动程度,将计算得到的情感特征指标与对应的区域或整体数据关联起来,构建语速情感特征数据,这些数据可以表示为热力图、矩阵或其他形式,其中每个区域或整体数据都对应一个情感特征值;获取语调模拟输出数据,该数据表示了语调在不同区域的模拟结果,根据需要定义一些情感特征指标,例如音高的变化范围、音调稳定性,这些指标将用于分析语调的情感特征,对于每个区域或整体数据,根据定义的情感特征指标进行计算,例如,计算各区域的音高变化范围、计算整体数据的音调稳定性,将计算得到的情感特征指标与对应的区域或整体数据关联起来,构建语调情感特征数据,这些数据可以表示为热力图、矩阵或其他形式,其中每个区域或整体数据都对应一个情感特征值。

本发明通过绘制语速音素特征数据和语调音素特征数据的三维热力图,可以直观地展示语速和语调在不同音素上的分布情况,这有助于理解语速和语调的整体特征,并发现其中的规律和趋势;通过对语速音素特征图和语调音素特征图进行中心热力区域标记,可以确定语速和语调的热力区域,即在特定范围内具有较高或较低值的区域,这有助于聚焦于语速和语调的关键特征区域,提取相关的信息;根据语速音素特征图对语速热力区域数据进行分布密度计算,可以得到语速热力密度数据,这样做可以量化语速的分布特征,了解语速在不同区域的密度分布情况,为后续的分析提供基础;根据语调音素特征图对语调热力区域数据进行起伏变化计算,可以得到语调起伏变化数据,这可以反映语调在不同区域的起伏程度,即语调的变化幅度。这有助于理解语调的动态性和表达特征;将语速热力密度数据进行区域密度随机抽取,得到语速随机密度数据;将语调起伏变化数据进行起伏变化随机抽取,得到语调随机起伏数据,这些随机抽取的数据可以用于模拟语速和语调的随机变化情况,进一步丰富数据样本,增加分析的多样性;对语速随机密度数据和语调随机起伏数据进行蒙特卡罗模拟,可以生成模拟输出数据,这些模拟输出数据可以帮助评估语速和语调的变化对情感特征的影响,提供评估和预测的依据;根据语速模拟输出数据和语调模拟输出数据进行情感特征刨析,可以得到语速情感特征数据和语调情感特征数据,这些数据反映了语速和语调与情感之间的关系,有助于了解语速和语调在情感表达中的作用,并为情感识别和情感生成等应用提供参考。

优选地,其中语音分析情感识别器的构建步骤包括以下步骤:

获取历史语音数据;

根据历史语音数据进行结构化分段处理,得到历史语音数据集;

对历史语音数据集进行时间段标记,得到语音时间段数据集;

根据语音时间段数据集进行语音起伏点提取,得到语音起伏点数据集;

根据语音起伏点数据集进行语音边缘时间段提取,得到语音边缘数据集;

利用Scikit-learn机器学习库对语音起伏点数据集进行语音机器学习并通过语音边缘数据集进行耦合关联,得到语音分析情感识别器。

本发明实施例中,收集足够数量的历史语音数据,这些数据应涵盖不同的情感状态和语音特征,历史语音数据可以来自不同的来源,如语音数据库、用户录音;根据需要和任务的要求,确定适当的分段策略,例如,可以根据语音长度、语音停顿、语音特征进行分段,根据所选的分段策略,对历史语音数据进行分段处理,基于语音长度,将语音数据按照固定长度或可变长度进行切割,可以根据时间窗口来确定每个语音段的长度,基于语音停顿通过检测语音中的停顿区域(即语音间的无声区域),将语音数据分割成不同的段落,停顿的定义和阈值可以根据具体需求进行调整;基于语音特征根据语音的特征进行分段,如能量、频谱、过零率,可以根据这些特征的变化来判断语音的分段位置,对每个分段得到的语音段落进行标记,以便后续的情感识别或其他分析任务,标记可以是情感标签、时间标签或其他所需的标签;选择适当的起伏点检测方法,常见的方法包括基于能量、频谱的阈值检测,差分检测、基于机器学习的分类方法,根据实际情况和任务需求选择最合适的方法,根据选择的起伏点检测方法,在每个语音时间段中检测和提取起伏点,这些起伏点表示语音中的情感变化点,即情感状态的转变,对提取的起伏点进行标记,以便后续的分析和训练,可以将起伏点标记为情感变化的起点或终点,并分配相应的情感标签,将标记后的起伏点和相应的情感标签组合成语音起伏点数据集,每个样本包含起伏点特征和对应的情感标签;准备包含起伏点特征和对应情感标签的语音起伏点数据集。每个样本代表一个语音起伏点及其情感标签,确定边缘时间段的定义,边缘时间段是指起伏点前后的语音段落,用于捕捉情感变化的上下文信息,可以根据需要定义边缘时间段的长度或其他标准,根据起伏点的位置,从语音起伏点数据集中提取边缘时间段,根据定义的边缘时间段长度,在每个起伏点的前后截取对应长度的语音段落,对提取的边缘时间段进行标记,以便后续的分析和训练,可以将边缘时间段标记为情感变化的上下文,并保留相应的情感标签,将标记后的边缘时间段和对应的情感标签组合成语音边缘数据集,每个样本包含边缘时间段的语音数据和对应的情感标签;准备语音起伏点数据集和语音边缘数据集。确保数据集中的特征和标签已经提取和标记,对语音起伏点数据集中的特征进行选择,以提取最相关和有区分性的特征,可以使用特征选择算法,如相关性分析、信息增益,选择对情感识别任务有帮助的特征,选择适当的机器学习模型用于情感识别任务,Scikit-learn提供了各种常见的机器学习算法,如支持向量机(SVM)、随机森林(Random Forest)、神经网络,根据任务需求和数据特点选择合适的模型,使用语音起伏点数据集对选定的机器学习模型进行训练,将数据集分为训练集和验证集,利用训练集对模型进行训练,并通过验证集评估模型的性能和调整超参数,使用验证集对训练好的模型进行评估,计算模型的准确率、精确率、召回率指标,以衡量模型的性能,根据评估结果进行调整和优化,如调整模型参数、尝试不同的特征选择方法,将训练好的情感识别模型与语音边缘数据集进行耦合关联,使用语音边缘数据集作为额外的上下文信息,以提高情感识别的准确性和鲁棒性。

本发明通过获取历史语音数据,构建了一个语音数据集,这是构建情感识别器的基础,历史语音数据可以包含不同情感状态下的语音样本,使得情感识别器能够学习不同情感的特征和模式;将历史语音数据进行结构化分段处理,可以将语音数据划分为不同的片段或段落,使得每个片段都包含了一个完整的语音单元,这样做有助于提取和分析每个语音单元的情感特征;通过对历史语音数据集进行时间段标记,可以将每个语音片段与其对应的时间段进行关联,这样,识别器可以了解不同时间段内的语音特征变化,从而更好地捕捉到情感的动态变化;通过对语音时间段数据集进行起伏点提取,识别器可以捕捉到语音中的情感变化点,这些起伏点可以是语音的高低音变化、语速的变化等,它们是情感表达中重要的特征之一;根据语音起伏点数据集,提取语音边缘数据集,语音边缘是指起伏点周围的时间段,它们包含了情感表达中的重要信息,通过提取语音边缘数据集,识别器可以关注起伏点周围的语音特征,更好地捕捉情感的细微变化;使用Scikit-learn机器学习库对语音起伏点数据集进行机器学习分析,这包括使用各种机器学习算法,如支持向量机、决策树、随机森林,以训练情感识别模型,通过机器学习,识别器可以从起伏点数据中学习情感的模式和特征;利用语音边缘数据集与语音起伏点数据集的耦合关联,进一步优化情感识别器的性能,这种关联可以帮助识别器更好地理解起伏点周围的语音特征与情感之间的联系,提高情感识别的准确性和鲁棒性。

优选地,本发明提供了一种音频处理方法及系统:

音频转换模块,用于对音频进行信号收集,得到音频采样信号;对音频采样信号进行结构量化处理,得到音频采样量化信号;对音频采样量化信号进行数字编码转换,得到音频数字数据。

文本分析模块,用于根据音频数字数据对音频进行音频内容提取处理,得到音频内容清洗数据;根据音频内容清洗数据进行文本分词处理,得到内容文本分词数据;根据内容文本分词数据进行情感解析分析,得到文本情感分析数据;

语音分析模块,用于对音频进行时间戳标记,得到语音时间戳数据,对语音时间戳数据进行环境声修正,得到修正语音数据;对修正语音数据进行情感特征刨析,得到语速情感特征数据和语调情感特征数据;对语速情感特征数据以及语调情感特征数据进行特征结构整合,得到语音情感特征数据;通过语音分析情感识别器对语音情感特征数据进行情感识别,得到语音情感分析数据;

音频场景复原模块,用于根据文本情感分析数据以及语音情感分析数据进行音频场景模型构建,得到音频场景复原模型,以实现音频场景复原播放。

本发明的有益效果,通过对音频进行信号收集,可以获取音频的原始采样信号,这有助于捕捉音频的细节和特征,提供后续处理所需的基础数据,对音频采样信号进行结构量化处理,可以将连续的模拟信号转换为离散的数字信号,这有助于数字化音频数据,使其能够被计算机处理和存储,通过对量化后的音频信号进行数字编码转换,可以将其表示为数字数据,这有助于将音频信号转换为计算机能够理解和处理的形式,为后续的分析和处理提供基础;通过对音频数字数据进行音频内容提取处理,可以从音频中提取出有用的信息和内容,这有助于理解音频中所包含的语音、对话、音乐内容,为后续的分析和处理提供基础数据,根据音频内容清洗数据进行文本分词处理,将提取出的内容转化为有意义的词语,这有助于对音频中的语义和含义进行分析和理解,将长篇的文本划分为更小的单元,方便进一步的处理和分析,根据内容文本分词数据进行情感解析分析,可以推断出文本表达的情感倾向,通过分析文本中的词汇、语义以及句子结构信息,可以判断文本的情感状态,例如积极、消极或中性,这有助于深入了解音频中所表达的情感内容;通过对音频进行时间戳标记,可以将语音数据与特定时间点对应起来,这有助于在后续的分析和处理中准确地定位和引用音频的不同部分,方便进行精细的分析和处理,对语音时间戳数据进行环境声修正,可以去除环境噪音和杂音,提高语音数据的质量和清晰度,这有助于减少噪音对情感分析的干扰,使得情感特征的提取更加准确和可靠,对修正后的语音数据进行情感特征刨析,可以提取出语速和语调特征,语速情感特征数据反映语音的快慢程度,而语调情感特征数据反映语音的音高变化,这些特征可以帮助深入了解语音中所表达的情感信息,对语速情感特征数据和语调情感特征数据进行特征结构整合,将不同特征融合在一起,得到更全面、综合的语音情感特征数据,这有助于捕捉语音中丰富的情感表达,提供更准确和全面的情感分析结果,基于语音情感特征数据进行情感识别,可以判断语音所表达的情感状态,例如喜悦、悲伤、愤怒,这有助于理解语音中所蕴含的情感信息,为情感分析和情感导向的应用提供支持;通过结合文本情感分析数据和语音情感分析数据,可以构建一个音频场景模型,这个模型能够将情感信息与音频特征相结合,并学习到不同情感状态下的音频特征模式,这有助于建立情感与音频场景之间的关联性,为后续的音频场景复原提供基础;基于构建的音频场景模型,可以对音频进行场景复原,通过分析和处理音频特征,模型可以推断出音频所对应的情感状态和场景环境,这有助于还原音频中的情感氛围、背景环境和语境信息,使得音频的感受和体验更加丰富和真实。因此本发明音频处理方法及系统是对传统音频处理方法做出的优化,解决了传统音频处理方法存在的无法准确的分析音频所呈现的场景效果,存在着场景效果复现差,延迟较大的问题,能够准确的分析音频所呈现的场景效果,提高了场景效果复现的能力,降低了延迟。

因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在申请文件的等同要件的含义和范围内的所有变化涵括在本发明内。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种树脂砂铸造设备及铸造工艺
  • 一种齿轮箱树脂砂铸造工艺
  • 一种树脂砂铸造设备及铸造工艺
技术分类

06120116552087