导航：首页> 家具；家庭用的物品或设备；咖啡磨；香料磨；一般吸尘器>生成音频的方法和系统

生成音频的方法和系统

文献发布时间：2023-06-19 15:50:55

技术领域

本说明书涉及音频信号处理领域，尤其涉及一种生成音频的方法和系统。

背景技术

在很多生活场景下，我们都被噪声所包围，为了更好的听觉体验，我们需要对语音进行增强。所谓语音增强也可以称为噪声抑制，即在某种程度上减轻或者抑制噪声，提高被噪声包围的语音的质量及可懂度等。在传统方法中，信号源的采集器件一般来说均为空气传导元件，即气传导麦克风。在大噪声场景下，气传导麦克风输出的有效语音信号几乎被噪声完全包裹。

目前，骨传导麦克风用于耳机等电子产品上，作为骨传导麦克风接收语音信号的应用越来越多。骨传导元件与气传导麦克风不同，可直接拾取发声部位的振动信号，在某种程度上能降低环境噪声的影响。越来越多的电子设备将具有不同特性的气传导麦克风与骨传导麦克风组合起来，使用气传导麦克风拾取外部音频信号，使用骨传导麦克风拾取发声部位振动信号，并对所拾取信号进行语音增强处理和融合。在某些场景下，比如风噪场景和大噪声场景下能够优化语音质量。

对于气传导麦克风与骨传导麦克风结合的方案，通常是截取由气导麦克风拾取信号的高频部分和由骨导麦克风拾取信号的低频部分加以组合，得到最终的语音信号输出。在目前大多数气传导麦克风与骨传导麦克风结合的方案中，将低于频率拼接点的频率对应的骨传导麦克风信号和高于频率拼接点的频率对应的气传导麦克风信号进行拼接，从而获取组合音频信号。

然而，不同的说话者在同样的环境噪声下使用同样的骨传导麦克风或气传导麦克风采集到的信号强度和信号特征是不同的。同样的说话者在不同的环境噪声下使用同样的骨传导麦克风或气传导麦克风采集到的信号强度和信号特征也是不同的。因此，对于不同的环境噪声下或者不同的说话者采用相同的频率拼接点对音频信号进行拼接，是不合理的，而且拼接后得到的语音质量也较差。

因此，需要提供一种新的生成音频的方法和系统，以根据环境噪声或说话者的音频信号选择频率拼接点，对音频信号进行拼接融合以获取更好的语音质量。

发明内容

本说明书提供一种新的生成音频的方法和系统，以根据环境噪声或说话者的音频信号选择频率拼接点，对音频信号进行拼接融合以获取更好的语音质量。

第一方面，本说明书提供一种生成音频的方法，所述方法包括：获取第一音频信号和第二音频信号；以及基于所述第一音频信号和所述第二音频信号，生成目标音频，所述目标音频的频域包括第一频率区间和第二频率区间，所述目标音频在所述第一频率区间的音频信号包括所述第一音频信号在所述第一频率区间的音频信号，所述目标音频信号在所述第二频率区间的音频信号包括所述第二音频信号在所述第二频率区间的音频信号，所述第一频率区间和所述第二频率区间的范围至少根据所述第一音频信号在所述频域内的第一评价指标的动态变动和所述第二音频信号在所述频域内的第二评价指标的动态变动进行动态调整。

在一些实施例中，所述第一评价指标与所述第一音频信号的语音质量正相关，所述第二评价指标与所述第二音频信号的语音质量正相关，在所述第一频率区间，所述第一音频信号的语音质量高于所述第二音频信号的语音质量，在所述第二频率区间，所述第一音频信号的语音质量低于所述第二音频信号的语音质量。

在一些实施例中，所述第一频率区间内的各个频率对应的所述第一评价指标高于所述第二评价指标。

在一些实施例中，所述第一评价指标包括所述第一音频信号对应的第一信噪比，所述第二评价指标包括所述第二音频信号对应的第二信噪比。

在一些实施例中，所述基于所述第一音频信号和所述第二音频信号，生成目标音频，包括：确定所述频域内的所述第一评价指标和所述第二评价指标，并进行对比；至少基于所述第一评价指标和所述第二评价指标的对比结果，确定至少一个目标频率，从而确定所述第一频率区间和所述第二频率区间，其中，所述至少一个目标频率中的每个目标频率为所述第一频率区间与所述第二频率区间的连接处对应的频率；以及基于所述第一频率区间和所述第二频率区间以及所述第一音频信号和所述第二音频信号，生成所述目标音频。

在一些实施例中，所述第一频率区间包括至少一个连续频率区间，所述第二频率区间包括至少一个连续频率区间。

在一些实施例中，所述确定所述第一频率区间和所述第二频率区间，包括：基于所述第一信噪比与所述第二信噪比相等时对应的频率，确定所述至少一个目标频率；以及以所述至少一个目标频率为临界点，确定所述第一信噪比高于所述第二信噪比对应的频率区间为所述第一频率区间，所述第一频率区间外的频率区间为所述第二频率区间。

在一些实施例中，所述至少一个目标频率中的每个目标频率包括所述第一信噪比和所述第二信噪比相等时对应的频率附近的预设宽度的频率区间内的任意频率。

在一些实施例中，所述确定所述第一频率区间和所述第二频率区间，包括：获得信噪比阈值；对比所述第一信噪比以及所述第二信噪比，将所述第一信噪比和所述第二信噪比相等时对应的频率作为至少一个第一目标频率；对比所述第一信噪比和所述信噪比阈值，将所述第一信噪比和所述信噪比阈值相等时对应的频率作为至少一个第二目标频率；对比所述至少一个第一目标频率和所述至少一个第二目标频率中各个频率对应的第一信噪比、第二信噪比以及所述信噪比阈值，将所述第一信噪比不小于所述第二信噪比和所述信噪比阈值对应的频率作为所述至少一个目标频率；以及以所述至少一个目标频率为临界点，确定所述第一信噪比均高于所述第二信噪比对应的频率区间为所述第一频率区间，所述第一频率区间外的频率区间为所述第二频率区间。

在一些实施例中，所述基于所述第一频率区间和所述第二频率区间以及所述第一音频信号和所述第二音频信号，生成所述目标音频，包括：对所述至少一个目标频率中的每个目标频率预设范围内的频率对应的所述第一音频信号和所述第二音频信号进行平滑处理，使得所述第一音频信号中位于所述预设范围的频率对应的音频信号与所述第二音频信号中位于所述预设范围内的频率对应的音频信号平滑过渡；以及将经过所述平滑处理后的所述第一音频信号中位于所述第一频率区间的音频信号和所述第二音频信号中位于所述第二频率区间的音频信号根据频率分布进行拼接，得到所述目标音频。

在一些实施例中，所述第一音频信号为至少一个第一类麦克风输出的音频信号，所述第二音频信号为至少一个第二类麦克风输出的音频信号。

在一些实施例中，所述至少一个第一类麦克风用于采集人体振动信号，包括骨传导麦克风；以及所述至少一个第二类麦克风用于采集空气振动信号，包括气传导麦克风。

在一些实施例中，所述第一音频信号包括所述至少一个第一类麦克风直接输出的音频信号，所述第二音频信号包括所述至少一个第二类麦克风直接输出的音频信号。

在一些实施例中，所述第一音频信号包括所述至少一个第一类麦克风直接输出的音频信号经过降噪处理后的音频信号，所述第二音频信号包括所述至少一个第二类麦克风直接输出的音频信号经过降噪处理后的音频信号。

第二方面，本说明书提供一种生成音频的系统，包括至少一个存储介质以及至少一个处理器，所述至少一个存储介质存储有至少一个指令集，用于生成音频；所述至少一个处理器同所述至少一个存储介质通讯连接，其中，当所述生成音频的系统运行时，所述至少一个处理器读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书第一方面所述的生成音频的方法。

由以上技术方案可知，本说明书提供的生成音频的方法和系统，可以获取并对比第一音频信号和第二音频信号在频域内的各个频率对应的评价指标，以对比第一音频信号和第二音频信号在频域内的各个频率对应的语音质量，根据语音质量动态选取音频信号的频率拼接点，从而对频域内的各个频率进行区域划分，将各个频率区间对应的语音质量更高的音频信号进行拼接，以得到第一音频信号和第二音频信号融合后的目标音频，使得目标音频在所述频域内的各个频率区间内的语音质量都是最优的，从而提高融合后的目标音频的语音质量。即使在不同的场景下，比如，说话者语音信号不同或者环境噪声不同的场景下，所述方法和系统也可以根据当前场景下的第一音频信号和第二音频信号的语音质量动态选取分频点，对频率进行动态区域划分，对音频信号进行拼接，以使融合后的目标音频获得更高的语音质量。

本说明书提供的生成音频的方法和系统的其他功能将在以下说明中部分列出。根据描述，以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的生成音频的方法和系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本说明书的实施例提供的一些生成音频的系统的设备示意图；

图2示出了根据本说明书的实施例提供的一些生成音频的方法流程图；

图3示出了根据本说明书的实施例提供的一些第一音频信号和第二音频信号的频谱示意图；

图4示出了根据本说明书的实施例提供的一些第一信噪比和第二信噪比示意图；

图5示出了根据本说明书的实施例提供的一些确定第一频率区间和第二频率区间的流程图；

图6示出了根据本说明书的实施例提供的一些第一频率区间和第二频率区间的示意图；

图7示出了根据本说明书的实施例提供的另一些确定第一频率区间和第二频率区间的流程图；

图8示出了根据本说明书的实施例提供的另一些第一频率区间和第二频率区间的示意图；

图9示出了根据本说明书的实施例提供的一些目标音频的示意图；以及

图10示出了根据本说明书的实施例提供的另一些目标音频的示意图。

具体实施方式

以下描述提供了本说明书的特定应用场景和要求，目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说，对所公开的实施例的各种局部修改是显而易见的，并且在不脱离本说明书的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用。因此，本说明书不限于所示的实施例，而是与权利要求一致的最宽范围。

这里使用的术语仅用于描述特定示例实施例的目的，而不是限制性的。比如，除非上下文另有明确说明，这里所使用的，单数形式“一”，“一个”和“该”也可以包括复数形式。当在本说明书中使用时，术语“包括”、“包含”和/或“含有”意思是指所关联的整数，步骤、操作、元素和/或组件存在，但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。

考虑到以下描述，本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图，所有这些形成本说明书的一部分。然而，应该清楚地理解，附图仅用于说明和描述的目的，并不旨在限制本说明书的范围。还应理解，附图未按比例绘制。

本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解，流程图的操作可以不按顺序实现。相反，操作可以以反转顺序或同时实现。此外，可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。

为了提高合成后的语音信号的语音质量，本说明书提供一种生成音频的方法和系统，能够根据骨传导麦克风信号和气传导麦克风信号在不同应用场景下的语音质量，对骨传导麦克风信号和气传导麦克风信号进行合成生成目标音频，以在频域内的任何频率选取语音质量更优的音频信号，并将所选取的音频信号进行拼接以获得目标音频，从而保证所述目标音频在频域内的任何频率内的音频信号都是最优的音频信号。

图1示出了一些生成音频的系统100(以下简称系统100)的设备示意图。系统100可以应用于电子设备200。

在一些实施例中，电子设备200可以是无线耳机、有线耳机、智能穿戴式设备，比如，智能眼镜、智能头盔或者智能腕表等具有音频处理功能的设备。电子设备200也可以是移动设备、平板电脑、笔记本电脑、机动车内置装置或类似内容，或其任意组合。在一些实施例中，移动设备可包括智能家居设备、智能移动设备或类似设备，或其任意组合。比如，所述智能移动设备可包括手机、个人数字辅助、游戏设备、导航设备、超级移动个人计算机(Ultra-mobile Personal Computer，UMPC)等，或其任意组合。在一些实施例中，所述智能家居装置可包括智能电视、台式电脑等，或任意组合。在一些实施例中，机动车中的内置装置可包括车载计算机、车载电视等。

电子设备200可以存储有执行本说明书描述的生成音频的方法的数据或指令，并可以执行所述数据和/或指令。电子设备200可以接收待处理音频信号，并执行本说明书描述的生成音频的方法的数据或指令，对所述待处理音频信号进行合成处理，并生成目标音频。所述生成音频的方法在本说明书中的其他部分介绍。比如，在图2至图10的描述中介绍了所述生成音频的方法。

所述待处理音频信号中至少包括两种不同的音频信号。所述生成音频的方法用于根据所述至少两种不同的音频信号在频域内的语音质量，对所述至少两种不同的音频信号进行拼接，获取目标音频，以提高所述目标音频的语音质量。具体地，电子设备200可以对比所述至少两种不同的音频信号在频域内的各个频率对应的语音质量，并选取各个频率内的语音质量更好的音频信号进行拼接，以得到所述目标音频。所述目标音频在所述频域内的所有频率内对应的音频信号的语音质量都是最优的。

所述待处理音频信号可以是电子设备200本地存储的音频信号，也可以是电子设备200的音频采集设备输出的音频信号，还可以是其他设备发送给电子设备200的音频信号，等等。所述音频采集设备可以集成在电子设备200上，也可以是与电子设备200通信连接的外接式设备。所述待处理音频信号可以是经过降噪处理的音频信号，也可以是没有经过降噪处理的音频信号。为了方便展示，以下的描述中将以所述待处理音频信号是电子设备200的音频采集设备输出的音频信号为例进行描述。

如图1所示，电子设备200可以包括至少一个存储介质230和至少一个处理器220。在一些实施例中，电子设备200还可以包括通信端口250和内部通信总线210。同时，电子设备200还可以包括I/O组件260。在一些实施例中，电子设备200还可以包括麦克风模组240。

内部通信总线210可以连接不同的系统组件，包括存储介质230、处理器220和麦克风模组240。

I/O组件260支持电子设备200和其他组件之间的输入/输出。比如，电子设备200可以通过I/O组件260获取所述待处理音频信号。

通信端口250用于电子设备200同外界的数据通信。比如，电子设备200也可以通过通信端口250获取所述待处理音频信号。

至少一个存储介质230可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质，也可以是暂时性存储介质。比如，所述数据存储装置可以包括磁盘232、只读存储介质(ROM)234或随机存取存储介质(RAM)236中的一种或多种。存储介质230还包括存储在所述数据存储装置中的至少一个指令集，用于生成音频。所述指令是计算机程序代码，所述计算机程序代码可以包括执行本说明书提供的生成音频的方法的程序、例程、对象、组件、数据结构、过程、模块等等。至少一个存储介质230中也可以存储有所述待处理音频信号。

至少一个处理器220可以同至少一个存储介质230通过内部通信总线210通信连接。所述通信连接是指能够直接地或者间接地接收信息的任何形式的连接。至少一个处理器220用以执行上述至少一个指令集。当系统100运行时，至少一个处理器220读取所述至少一个指令集，并且根据所述至少一个指令集的指示执行本说明书提供的生成音频的方法。处理器220可以执行生成音频的方法包含的所有步骤。处理器220可以是一个或多个处理器的形式，在一些实施例中，处理器220可以包括一个或多个硬件处理器，例如微控制器，微处理器，精简指令集计算机(RISC)，专用集成电路(ASIC)，特定于应用的指令集处理器(ASIP)，中央处理单元(CPU)，图形处理单元(GPU)，物理处理单元(PPU)，微控制器单元，数字信号处理器(DSP)，现场可编程门阵列(FPGA)，高级RISC机器(ARM)，可编程逻辑器件(PLD)，能够执行一个或多个功能的任何电路或处理器等，或其任何组合。仅仅为了说明问题，在本说明书中电子设备200中仅描述了一个处理器220。然而，应当注意，本说明书中电子设备200还可以包括多个处理器，因此，本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行，也可以由多个处理器联合执行。例如，如果在本说明书中电子设备200的处理器220执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同处理器220联合或分开执行(例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一和第二处理器共同执行步骤A和B)。

在一些实施例中，电子设备200还可以包括麦克风模组240。麦克风模组240可以是电子设备200的音频采集设备。麦克风模组240可以被配置为获取本地音频信号，并输出麦克风信号，也就是携带了音频信息的电子信号。所述待处理音频信号可以是麦克风模组240输出的所述麦克风信号。麦克风模组240可以与至少一个处理器220和至少一个存储介质230通信连接。当所述待处理音频信号是所述麦克风信号时，系统100运行时，至少一个处理器220可以读取所述至少一个指令集，并且根据所述至少一个指令集的指示获取所述麦克风信号，执行本说明书提供的生成音频的方法。麦克风模组240可以集成在电子设备200上，也可以是电子设备200的外接式设备。

麦克风模组240可以被配置为获取本地音频信号，并输出麦克风信号，也就是携带了音频信息的电子信号。麦克风模组240可以是耳外麦克风模组也可以是耳内麦克风模组。比如，麦克风模组240可以是设置在耳道外的麦克风，也可以是设置在耳道内的麦克风。麦克风模组240可以包括至少一个第一类麦克风242和至少一个第二类麦克风244。第一类麦克风242不同于第二类麦克风244。第一类麦克风242可以是直接采集人体振动信号的麦克风，比如骨传导麦克风。第二类麦克风244可以是直接采集空气振动信号的麦克风，比如气传导麦克风。当然，麦克风模组240也可以是其他类型的麦克风。比如第一类麦克风242可以是光学麦克风，第二类麦克风244也可以是接收肌电信号的麦克风，等等。为了方便展示，本披露在下面的陈述中将使用第一类麦克风242是骨传导麦克风和第二类麦克风244是气传导麦克风为例进行描述。

骨传导麦克风可以包括振动传感器，比如光学振动传感器、加速度传感器等。所述振动传感器可以采集机械振动信号(比如，由用户说话时皮肤或骨骼产生的振动产生的信号)，并将该机械振动信号转换成电信号。这里所说的机械振动信号主要指经由固体传播的振动。骨传导麦克风通过所述振动传感器或与所述振动传感器连接的振动部件与用户的皮肤或骨骼进行接触，从而采集用户在发出声音时骨骼或皮肤产生的振动信号，并将振动信号转换为电信号。在一些实施例中，所述振动传感器可以是对机械振动敏感而对空气振动不敏感的装置(即所述振动传感器对于机械振动的响应能力超过所述振动传感器对于空气振动的响应能力)。由于骨传导麦克风能够直接拾取发声部位的振动信号，骨传导麦克风能降低环境噪声的影响。

气传导麦克风通过采集用户在发出声音时引起的空气振动信号，并将空气振动信号转化为电信号。气传导麦克风可以是单独的一颗气传导麦克风，也可以是由两个及以上的气传导麦克风组成的麦克风阵列。麦克风阵列可以是波束形成麦克风阵列或者其他类似的麦克风阵列。通过麦克风阵列可以采集来自空间不同方向或不同位置的声音。

所述骨传导麦克风输出的音频信号在低频时可以有效降低噪声影响，因此，所述骨传导麦克风输出的音频信号在低频时的语音质量比气传导麦克风在低频时的语音质量高。在高频区域，所述骨传导麦克风输出的音频信号的语音质量较气传导麦克风输出的音频信号的语音质量差。而气传导麦克风输出的音频信号在各个频段都有较平稳。

第一类麦克风242可以输出第一音频信号。第二类麦克风244可以输出第二音频信号。所述待处理音频信号可以包括所述第一音频信号和所述第二音频信号。

本说明书提供的生成音频的方法，可以对所述第一音频信号和所述第二音频信号进行合成生成目标音频。所述第一音频信号可以是第一类麦克风242直接输出的音频信号，也可以是第一类麦克风242直接输出的音频信号经过降噪处理后的音频信号。所述第二音频信号可以是第二类麦克风244直接输出的音频信号，也可以是第二类麦克风244直接输出的音频信号经过降噪处理后的音频信号。需要说明的是，当第一音频信号是第一类麦克风242直接输出的音频信号时，第二音频信号也是第二类麦克风244直接输出的音频信号。当第一音频信号是第一类麦克风242直接输出的音频信号经过降噪处理的音频信号时，第二音频信号也是第二类麦克风244直接输出的音频信号经过降噪处理的音频信号。所述第一音频信号和所述第二音频信号的降噪处理方法可以相同也可以不相同。

当第一类麦克风242的数量为多个时，所述第一音频信号是所述多个第一类麦克风242输出的单麦克风音频信号融合后的音频信号。当第二类麦克风244的数量为多个时，所述第二音频信号是所述多个第二类麦克风244输出的单麦克风音频信号融合后的音频信号。

比如，当第一类麦克风242的数量为一个，第二类麦克风244的数量也为一个时，所述第一音频信号可以是第一类麦克风242直接输出的音频信号，此时，第二音频信号也是第二类麦克风244直接输出的音频信号；所述第一音频信号也可以是第一类麦克风242直接输出的音频信号经过降噪处理的音频信号，第二音频信号也是第二类麦克风244直接输出的音频信号经过降噪处理的音频信号。

比如，当第一类麦克风242的数量为一个，第二类麦克风244的数量为多个时，所述第一音频信号可以是第一类麦克风242直接输出的音频信号，此时，第二音频信号是第二类麦克风244中多个麦克风直接输出的音频信号进行单麦克降噪后通过信号融合得到的音频信号；所述第一音频信号也可以是第一类麦克风242直接输出的音频信号经过降噪处理的音频信号，第二音频信号也是第二类麦克风244中多个麦克风直接输出的音频信号进行单麦克降噪以及信号融合后进行多麦克风降噪处理后得到的音频信号。所述降噪处理算法可以是传统的语音降噪算法，比如，谱减法、维纳滤波法、MMSE算法、基于MMSE的改进算法中的一个或任意组合，等等。

特别是对于由多个气传导麦克风组成的第二类麦克风244来说，第二类麦克风244直接输出的音频信号在经过降噪处理后可以显著提高语音质量，因此，选用第二类麦克风244直接输出的音频信号在经过降噪处理后得到的音频信号作为所述第二音频信号，可以提高生成音频的效率，并提高目标音频的语音质量，同时减少计算量，降低计算成本。

系统100可以对所述目标音频进行进一步降噪处理，以提高所述目标音频的语音质量。系统100可以先对所述第一音频信号和所述第二音频信号进行降噪处理，再进行语音合成，生成目标音频，也可以先对所述第一音频信号和所述第二音频信号进行合成生成所述目标音频，再进行降噪处理。

图2示出了根据本说明书的实施例提供的一些生成音频的方法P100的流程图。所述方法P100可以对所述第一音频信号和所述第二音频信号进行合成，以获得语音质量更高的音频信号。具体地，所述方法P100可以根据所述第一音频信号和所述第二音频信号在频域内的语音质量，始终选取语音质量更高的音频信号并进行拼接，得到目标音频。如图2所示，所述方法P100可以包括：

S120：电子设备200获取第一音频信号以及第二音频信号。

如前所述，所述第一音频信号和所述第二音频信号为不同的音频信号。所述第一音频信号和所述第二音频信号具有不同的特性。所述第一音频信号和所述第二音频信号在频域内具有不同的语音质量。以所述第一音频信号为骨传导麦克风输出的音频信号，所述第二音频信号为气传导麦克风输出的音频信号为例，所述第一音频信号在低频部分具有较高的语音质量，所述第二音频信号在高频部分的语音质量比所述第一音频信号在低频部分的语音质量高。当然所述第一音频信号和所述第二音频信号也可以是其他类型的音频信号，比如光学麦克风输出的音频信号，接收肌电信号的麦克风输出的音频信号。

S140：电子设备200基于所述第一音频信号和所述第二音频信号，生成所述目标音频。具体地，步骤S140可以包括：

S142：电子设备200确定所述第一音频信号在频域内的第一评价指标和所述第二音频信号在所述频域内的第二评价指标，并进行对比。

在对所述第一音频信号和所述第二音频信号进合成时，可以通过对比所述第一音频信号和所述第二音频信号的语音质量，选取语音质量更好的音频信号进行拼接。具体地，电子设备200可以通过评价指标来代表所述待处理音频信号的语音质量。所述第一评价指标可以代表所述第一音频信号的语音质量，所述第一评价指标与所述第一音频信号的语音质量正相关；所述第二评价指标代表所述第二音频信号的语音质量，所述第二评价指标与所述第二音频信号的语音质量正相关。

在评价所述待处理音频信号的语音质量时，可以通过所述待处理音频信号中包含的有效音频信号的信号强度进行评价。所述有效音频信号可以是音频信号中携带的重要音频信号。噪声信号可以是所述有效音频信号之外的其他音频信号。比如，当进行语音通话时，所述有效音频信号可以是通话用户说话时的人声信号，所述噪声信号可以是环境噪声，比如，汽车声、鸣笛声，等等。当进行特殊声音采集时，比如在进行鸟叫声音采集时，所述有效音频信号可以是鸟叫的音频信号，所述噪声信号可以是风声、水声，等等。为了方便展示，下面的描述中将以语音通话为例进行描述，其中所述有效音频信号是通话用户说话时的人声信号，所述噪声信号可以是环境噪声。所述待处理音频信号的语音质量可以通过所述待处理音频信号中包含的有效语音信号强度进行评价。比如，当所述有效音频信号是人声信号时，所述有效语音信号的强度越高，所述有效语音信号的可懂度越高，则所述待处理音频信号的语音质量越高。

需要说明的是，所述噪声信号和所述有效音频信号都是通过估计算法得到的信号，不是精确的有效音频信号和噪声信号。所述噪声信号可以通过噪声估计算法进行估计。所述有效音频信号可以通过原始待处理音频信号减去所述噪声信号进行估算得到。

具体地，所述有效音频信号的强度可以通过所述评价指标来评价。所述评价指标可以是所述待处理音频信号的信噪比。所述第一评价指标可以是所述第一音频信号对应的第一信噪比，所述第二评价指标可以是所述第二音频信号对应的第二信噪比。所述第一信噪比可以是所述第一音频信号中的有效音频信号和噪声信号的比例。所述第二信噪比可以是所述第二音频信号中的有效音频信号和噪声信号的比例。所述第一音频信号的第一信噪比越高，代表当前频率中的有效音频信号的比例越高，所述第一音频信号的语音质量越高。所述第二音频信号的第二信噪比越高，代表当前频率中的有效音频信号的比例越高，所述第二音频信号的语音质量越高。所述第一评价指标高于所述第二评价指标可以是所述第一信噪比的数值高于所述第二信噪比的数值。

当然，所述待处理音频信号的语音质量也可以直接通过所述待处理音频信号中的有效语音信号进行评价。也就是说，所述评价指标也可以是所述有效语音信号。所述第一评价指标高于所述第二音频信号对应的第二评价指标，可以是所述第一音频信号对应的第一有效语音信号的强度数值高于所述第二音频信号对应的第二有效语音信号的强度数值。当然，所述评价指标也可以是所述待处理音频信号中的噪声信号。所述第一评价指标高于所述第二音频信号对应的第二评价指标，可以是所述第一音频信号对应的第一噪声信号的强度数值低于所述第二音频信号对应的噪声信号的强度数值。当然，所述评价指标也可以是所述待处理音频信号中的噪声信号强度。为了方便展示，下面的描述中将以所述评价指标为信噪比，所述第一评价指标是所述第一音频信号对应的第一信噪比，所述第二评价指标是所述第二音频信号对应的第二信噪比为例进行描述。本领域技术人员应当明白，其他能够评价语音质量的参数都可以作为所述第一评价指标和所述第一评价指标。

所述信噪比是与频率相关的参数。不同频率的音频信号对应的信噪比可能是不同的。具体地，在步骤S142中，所述确定所述第一音频信号在所述频域内的第一评价指标以及所述第二音频信号在所述频域内的评价指标可以是确定所述第一音频信号在所述频域内的各个频率对应的第一信噪比以及所述第二音频信号在所述频域内的各个频率对应的第二信噪比。

为了获取所述第一音频信号的第一评价指标和所述第二音频信号的第二评价指标，系统100可以先对所述第一音频信号和所述第二音频信号分别进行分帧处理。帧是组成音频信号的基本单位。在进行音频信号的数据处理时，常常以帧为基本单位进行计算。所述第一音频信号和所述第二音频信号分别可以包括一个或多个音频帧。所述音频帧包括预设时间长度的音频信号。每个音频帧内的音频信号是平稳的。相邻音频帧之间可以部分重叠。所述预设时间长度可以是20～50毫秒，比如，20毫秒、25毫秒、30毫秒、40毫秒、50毫秒，等等。当然，所述预设时间长度还可以是更长或者更短的时间。不同的音频帧的长度可以相同也可以不同。

每个音频帧由多个频率的信号叠加而成。为了获取所述第一音频信号在所述频域内的各个频率对应的第一评价指标和所述第二音频信号在所述频域内的各个频率对应的评价指标，系统100可以对所述音频帧进行傅里叶变换，获取所述音频帧中的各个频率的信号分布。所述各个频率的信号分布可以是所述音频帧中各个频率对应的音频信号的强度。

图3示出了根据本说明书的实施例提供的一些第一音频信号和第二音频信号的频谱示意图。图3所示为所述第一音频信号和所述第二音频信号中相对应的一个音频帧对应的频谱示意图。所述频谱示意图可以是一个音频帧中，频率与音频信号强度对应的关系图。如图3所示，横轴为频率，纵轴为信号幅度。曲线1为所述第一音频信号对应的频谱图，曲线2为所述第二音频信号对应的频谱图。图3只是示例性说明，本领域技术人员应该理解，不同的音频帧对应的曲线1和曲线2可能是不同的，曲线1和曲线2可能是动态变动的，曲线1和曲线2可能是任意形式的频谱曲线。

图4示出了根据本说明书的实施例提供的一些第一信噪比和第二信噪比示意图。图4中，纵轴为信噪比SNR，横轴为频率f。其中，曲线5是所述第一音频信号各个频率对应的第一信噪比曲线。曲线6是所述第二音频信号的各个频率对应的第二信噪比曲线。

如图4所示，对比曲线5和曲线6发现，在低频区域所述第一音频信号的第一信噪比高于所述第二音频信号的第二信噪比，在高频区域所述第一音频信号的第一信噪比低于所述第二音频信号的第二信噪比。也就是说，在低频区域所述第一音频信号的语音质量高于所述第二音频信号的语音质量，在高频区域所述第一音频信号的语音质量低于所述第二音频信号的语音质量。

不同的音频帧对应的第一信噪比和第二信噪比可能是不同的。第一信噪比和第二信噪比可能是动态变动的。同样，所述第一评价指标和所述第二评价指标也可能是动态变动的。

需要说明的是，图4只是示例性说明。图4中的曲线5和曲线6是以所述第一音频信号为骨传导麦克风的输出信号和所述第二音频信号为气传导麦克风的输出信号为例进行说明的。骨传导麦克风的输出信号在低频区域信噪比较高，语音质量较好，而在高频区域信噪比较低，语音质量较差。而气传导麦克风的输出信号在各个频段的信号较为平稳。本领域技术人员应该明白，当所述第一音频信号和所述第二音频信号为其他类型的麦克风输出的音频信号时，曲线5和曲线6的相对关系可能不同。本领域技术人员应当明白，所有类型的所述第一信噪比和所述第二信噪比示意图都在本说明书的保护范围内。

步骤S140还可以包括：

S144：电子设备200至少基于所述第一评价指标和所述第二评价指标的对比结果，确定至少一个目标频率，从而确定第一频率区间001和第二频率区间002。

如前所述，所述方法P100在对所述第一音频信号和所述第二音频信号进行合成时，可以将所述频域内各个频率对应的语音质量更高的音频信号进行拼接。因此，所述方法P100可以通过对比所述第一音频信号和所述第二音频信号在所述频域内的评价指标，对比所述第一音频信号和所述第二音频信号在所述频域内的语音质量。具体地，步骤S144可以是电子设备200根据所述第一音频信号在所述频域上的语音质量变化以及所述第二音频信号在所述频域上的语音质量变化，将所述频域划分为所述第一频率区间001和所述第二频率区间002，以使在所述第一频率区间001，所述第一音频信号的语音质量高于所述第二音频信号的语音质量，在所述第二频率区间002，所述第一音频信号的语音质量低于所述第二音频信号的语音质量。其中，所述第一频率区间001和所述第二频率区间002的范围，可以根据所述第一音频信号在所述频域内的第一评价指标的动态变动和所述第二音频信号在所述频域内的第二评价指标的动态变动进行动态调整。所述频域包括所述第一频率区间001和所述第二频率区间002。所述至少一个目标频率中的每个目标频率为所述第一频率区间001与所述第二频率区间002的连接处对应的频率。

在一些实施例中，所述方法P100可以根据所述第一音频信号的所述第一评价指标和所述第二音频信号的所述第二评价指标对比的相对结果，将所述频域内的频率划分为所述第一频率区间001和所述第二频率区间002。当所述第一音频信号的第一评价指标高于所述第二音频信号的第二评价指标时，代表所述第一音频信号的语音质量高于所述第一音频信号，则所述第一评价指标高于所述第二评价指标对应的频率区间被划分为第一频率区间001。第一频率区间001外的频率被划分为第二频率区间002。

在另一些实施中，所述方法P100可以根据所述第一评价指标和所述第二评价指标对比的相对结果以及所述第一评价指标与评价指标的绝对阈值对比的结果，将所述频域内的频率划分为所述第一频率区间001和所述第二频率区间002。当所述第一评价指标高于所述评价指标时，不能完全代表所述第一音频信号的语音质量高于所述第一音频信号。比如，当所述骨传导麦克风输出的音频信号的信噪比高于所述气传导麦克风输出的音频信号的信噪比，且所述骨传导麦克风输出的音频信号的信噪比较低，低于信噪比阈值时，骨传导麦克风输出的音频信号的语音质量可能低于气传导麦克风输出的音频质量。因此，在一些实施例中，特别是所述第一音频信号为骨传导麦克风输出的音频信号的实施例中，所述方法P100可以根据所述第一评价指标所述评价指标对比的相对结果以及所述第一评价指标与评价指标的绝对阈值对比的结果，将所述频域内的频率划分为所述第一频率区间001和所述第二频率区间002，从而提高区域划分的准确性，提升目标音频的语音质量。如前所述，所述第一评价指标可以是第一信噪比，所述第二评价指标可以是第二信噪比。所述评价指标的绝对阈值可以是信噪比阈值。

图5示出了根据本说明书的实施例提供的一些确定第一频率区间001和第二频率区间002的流程图。图5所示的示意图中，所述方法P100可以根据所述第一信噪比和所述第二信噪比对比的相对结果，将所述频域内的频率划分为所述第一频率区间001和所述第二频率区间002。如图5所示，步骤S144可以包括：

S144-2：电子设备200基于所述第一信噪比与所述第二信噪比相等时对应的频率，确定所述至少一个目标频率。

S144-3：电子设备200以所述至少一个目标频率为临界点，确定所述第一信噪比高于所述第二信噪比对应的频率区间为所述第一频率区间001，所述第一频率区间001外的频率区间为所述第二频率区间002。

图6示出了根据本说明书的实施例提供的一些第一频率区间001和第二频率区间002的示意图。图6为在图4基础上进行频率区间划分的示意图。图6与图5对应。如图6所示，为了方便描述，我们将曲线5和曲线6的交叉点处对应的频率定义为第一目标频率f

在一些实施例中，所述至少一个目标频率中的每个目标频率可以是第一目标频率f

电子设备200可以以所述至少一个目标频率为临界点，确定所述第一信噪比高于所述第二信噪比对应的频率区间为所述第一频率区间001，所述第一频率区间001外的频率区间为所述第二频率区间002。如图6所示，在小于第一目标频率f

所述第一频率区间001可以包括至少一个连续频率区间。所述第二频率区间002可以包括至少一个连续频率区间。图6中只示出了一个第一目标频率f

图7示出了根据本说明书的实施例提供的一另些确定第一频率区间001和第二频率区间002的流程图。图7所示的示意图中，所述方法P100可以根据所述第一信噪比和所述第二信噪比对比的相对结果以及所述第一信噪比与所述信噪比阈值对比的结果，将所述频域内的频率划分为所述第一频率区间001和所述第二频率区间002。如图7所示，步骤S144可以包括：

S144-4：获取信噪比阈值；

S144-5：电子设备200对比所述第一信噪比以及所述第二信噪比，将所述第一信噪比和所述第二信噪比相等时对应的频率作为至少一个第一目标频率f

S144-6：电子设备200对比所述第一信噪比和所述信噪比阈值，将所述第一信噪比和所述信噪比阈值相等时对应的频率作为至少一个第二目标频率f

S144-8：电子设备200对比所述至少一个第一目标频率f

S144-9：电子设备200以所述至少一个目标频率为临界点，确定所述第一信噪比均高于所述第二信噪比对应的频率区间为所述第一频率区间，所述第一频率区间外的频率区间为所述第二频率区间。

图8示出了根据本说明书的实施例提供的另一些第一频率区间和第二频率区间的示意图。图8为在图4基础上进行频率区间划分的示意图。图8对应图7。如图8所示，为了方便描述，我们将SNR

信噪比阈值SNR

电子设备200可以对比所述至少一个第一目标频率f

所述第一频率区间001可以包括至少一个连续频率区间。所述第二频率区间002可以包括至少一个连续频率区间。图8中只示出了一个第一目标频率f

如图4至图8所示，所述第一信噪比和所述第二信噪比可能会在小范围内上下震荡。也就是说，在小范围内可能出现多个频率对应的第一信噪比和第二信噪比相等。为了防止上述的信噪比震荡结果影响生成音频的准确性，可以预先设定频率区间宽度。当所述多个频率间的距离处于所述频率区间宽度内时，所述目标频率可以是所述多个频率中的任意一个，也可以是所述多个频率中对应的所述第一信噪比最大的一个，还可以是所述多个频率的平均值，等等。

步骤S140还可以包括：

S146：电子设备200基于所述第一频率区间001和所述第二频率区间002以及所述第一音频信号和所述第二音频信号，生成所述目标音频。

具体地，步骤S146中，电子设备200可以将所述第一音频信号中位于所述第一频率区间001的音频信号和所述第二音频信号中位于所述第二频率区间002的音频信号进行合成，得到所述目标音频。具体地，在所述频域中，所述目标音频在所述第一频率区间001的音频信号包括所述第一音频信号在所述第一频率区间的音频信号，所述目标音频信号在所述第二频率区间002的音频信号包括所述第二音频信号在所述第二频率区间的音频信号。

在一些实施例中，在所述目标频率处的所述第一音频信号的强度和所述第二音频信号的强度可能不同。将所述第一音频信号中位于所述第一频率区间001的音频信号和所述第二音频信号中位于所述第二频率区间002的音频信号进行拼接，可能会导致在所述目标频率处的信号不连续。为了避免所述信号不连续，步骤S146可以包括：

S146-2：电子设备200对所述至少一个目标频率中的每个目标频率预设范围内的频率对应的所述第一音频信号和所述第二音频信号进行平滑处理，使得所述第一音频信号中位于所述预设范围的频率对应的音频信号与所述第二音频信号中位于所述预设范围内的频率对应的音频信号平滑过渡；

S146-4：电子设备200将经过所述平滑处理后的所述第一音频信号中位于所述第一频率区间001的音频信号和所述第二音频信号中位于所述第二频率区间002的音频信号根据频率分布进行拼接，得到所述目标音频。

所述预设范围可以是包括所述目标频率在内的预设宽度的频率区间。所述平滑处理可以是增益处理，通过增益系数对所述预设范围内的音频信号进行增益。

图9示出了根据本说明书的实施例提供的一些目标音频的示意图。图10示出了根据本说明书的实施例提供的另一些目标音频的示意图。其中，图9与图6对应，图9中所示出的所述目标音频的所述目标频率为第一目标频率f

综上所述，所述方法P100和系统100可以根据所述第一音频信号和所述第二音频信号的评价指标来对比在频域内的所述第一音频信号和所述第二音频信号的语音质量；将所述第一音频信号的语音质量高于所述第二音频信号的语音质量对应的频率区间定义为第一频率区间001，将所述第一音频信号的语音质量低于所述第二音频信号的语音质量对应的频率区间定义为第二频率区间002；将所述第一音频信号中位于所述第一频率区间001中的音频信号和所述第二音频信号中位于所述第二频率区间002中的音频信号进行拼接，得到所述目标音频，从而提高生成音频的效果，提升所述目标音频的语音质量。所述方法P100和系统100可以根据所述第一音频信号和所述第二音频信号的语音质量，动态选取目标频率，根据目标频率动态划分第一频率区间001和第二频率区间002，以保证所述方法P100和系统100适用于任何场景。即在任何场景下，所述方法P100和系统100可以使所述目标音频在任何频率区间的语音质量都是最优的。

本说明书另一方面提供一种非暂时性存储介质，存储有至少一组用来生成音频的可执行指令，当所述可执行指令被处理器执行时，所述可执行指令指导所述处理器实施本说明书所述的生成音频的方法P100的步骤。在一些可能的实施方式中，本说明书的各个方面还可以实现为一种程序产品的形式，其包括程序代码。当所述程序产品在电子设备200上运行时，所述程序代码用于使电子设备200执行本说明书描述的生成音频的步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码，并可以在电子设备200上运行。然而，本说明书的程序产品不限于此，在本说明书中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统(例如处理器220)使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在电子设备200上执行、部分地在电子设备200上执行、作为一个独立的软件包执行、部分在电子设备200上部分在远程计算设备上执行、或者完全在远程计算设备上执行。

上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者是可能有利的。

综上所述，在阅读本详细公开内容之后，本领域技术人员可以明白，前述详细公开内容可以仅以示例的方式呈现，并且可以不是限制性的。尽管这里没有明确说明，本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变，改进和修改。这些改变，改进和修改旨在由本说明书提出，并且在本说明书的示例性实施例的精神和范围内。

此外，本说明书中的某些术语已被用于描述本说明书的实施例。例如，“一个实施例”，“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征，结构或特性可以包括在本说明书的至少一个实施例中。因此，可以强调并且应当理解，在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外，特定特征，结构或特性可以在本说明书的一个或多个实施例中适当地组合。

应当理解，在本说明书的实施例的前述描述中，为了帮助理解一个特征，出于简化本说明书的目的，本说明书将各种特征组合在单个实施例、附图或其描述中。然而，这并不是说这些特征的组合是必须的，本领域技术人员在阅读本说明书的时候完全有可能将其中一部分特征提取出来作为单独的实施例来理解。也就是说，本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。

本文引用的每个专利，专利申请，专利申请的出版物和其他材料，例如文章，书籍，说明书，出版物，文件，物品等，可以通过引用结合于此。用于所有目的的全部内容，除了与其相关的任何起诉文件历史，可能与本文件不一致或相冲突的任何相同的，或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说，如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时，使用本文件中的术语为准。

最后，应理解，本文公开的申请的实施方案是对本说明书的实施方案的原理的说明。其他修改后的实施例也在本说明书的范围内。因此，本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此，本说明书的实施例不限于申请中被精确地描述过的实施例。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：郑金波;周美林;廖风云;齐心;
专利申请人：深圳市韶音科技有限公司;

上一篇：GPU容器创建方法、装置、电子设备及存储介质
下一篇：清洁头及清洁工具