导航：首页> 生物化学；啤酒；烈性酒；果汁酒；醋；微生物学；酶学；突变或遗传工程>音频数据生成方法及装置、数据集构建方法、介质、设备

音频数据生成方法及装置、数据集构建方法、介质、设备

文献发布时间：2023-06-19 11:21:00

技术领域

本发明的实施方式涉及信号处理技术领域，更具体地，本发明的实施方式涉及一种音频数据生成方法、音频数据生成装置、音频数据集构建方法、计算机可读存储介质以及电子设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在一些音频数据生成方法中，可以通过人工主动采集进行生成。

其中，人工主动采集是指预先规划好待采集的场景和数据分布情况后，人工主导实施整个采集过程。具体的，首先，准备原始音频素材；其次，搭建录音环境，例如，可以根据需要选定录音场地，并布置好声源播放设备和录音采集设备，并在录音场地中布置空间混响以及环境噪音；最后，实施录音，并汇总录音结果，生成音频数据。

虽然人工采集法得到的音频数据来自实际场景，能够反映真实物理世界中的信号特点，保真性最佳；但是，由于各环节需要人工参与，在多样性和规模性方面很难兼顾，且音频数据的生成效率较低。

发明内容

但是，在一些技术中，一方面，由于各环节都需要人工参与，进而需要浪费大量的人力成本，且使得音频数据的生成效率较低；另一方面，人工主动采集法很难枚举出不同原始音频、噪音类型、噪声强度、录音场地等各种组合，进而使得生成的音频数据的多样性较差；再一方面，在对音频数据的录制过程中，会出现人为的错误进而导致音频数据的准确性较低。

因此在现有技术中，不能自动的对原始音频数据进行处理进而生成具有多样性的音频数据，这是非常令人烦恼的过程。

为此，非常需要一种改进的音频数据生成方法、音频数据生成装置、计算机可读存储介质以及电子设备，以避免由于各环节需要人工参与，在多样性和规模性方面很难兼顾，且音频数据的生成效率较低的问题，增加了音频数据的多样性，同时提高了音频数据的生成效率。

在本上下文中，本发明的实施方式期望提供一种音频数据生成方法、音频数据生成装置、音频数据集构建方法、计算机可读存储介质以及电子设备。

根据本公开的一个方面，提供一种音频数据生成方法，包括：

获取原始音频数据源以及非平稳点噪声源，并对所述原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号；

在预设的虚拟空间内，根据所述目标声源信号以及从所述目标声源信号到所述预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息；

根据所述非平稳点噪声源以及从所述非平稳点噪声源到所述音频接收设备之间的第二传递函数，生成第二信号信息；

对所述第一信号信息、第二信号信息进行叠加，得到音频数据。

在本公开的一种示例性实施例中，对所述原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号，包括：

对所述原始音频数据源的时间长度进行压缩或拉伸处理，并对时间长度压缩或拉伸处理后的原始音频数据源的音高频率进行压缩或拉伸，得到所述目标声源信号。

在本公开的一种示例性实施例中，在对所述原始音频数据源的时间长度进行压缩或拉伸处理之前，所述音频数据生成方法还包括：

对所述原始音频数据源的数据格式进行归一化处理，得到标准音频数据源；

对所述标准音频数据源进行截取，得到多个具有预设时间长度的子音频数据源；

根据所述标准音频数据源的数据标识以及各所述子音频数据源在所述标准音频数据源中的位置，为各所述子音频数据源创建唯一标识，以对标识后的各所述子音频数据源的时间长度进行压缩或拉伸处理。

在本公开的一种示例性实施例中，所述音频数据生成方法还包括：

根据随机采样的方法生成多个包括不同空间尺寸大小以及不同反射系数的虚拟空间集；

根据所述虚拟空间集中所包括的虚拟空间的尺寸大小，为所述虚拟空间中所包括的目标声源信号、一个或者多个非平稳点噪声源、以及音频接收设备配置三维坐标位置；

将所述虚拟空间的尺寸大小、反射系数以及所述三维坐标位置输入至房间冲击响应模型中，得到从目标声源信号到所述音频接收设备之间的第一传递函数，以及从非平稳点噪声源到所述音频接收设备之间的第二传递函数。

在本公开的一种示例性实施例中，在预设的虚拟空间内，根据所述目标声源信号以及从所述目标声源信号到所述预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息，包括：

从所述虚拟空间集中选取所述预设的虚拟空间，以及与所述预设的虚拟空间对应的第一传递函数以及第二传递函数；

对所述目标声源信号以及第一传递函数进行卷积操作，生成所述第一信号信息。

在本公开的一种示例性实施例中，根据所述非平稳点噪声源以及从所述非平稳点噪声源到所述音频接收设备之间的第二传递函数，生成第二信号信息，包括：

从一个或者多个所述非平稳点噪声源中确定目标点噪声源，并为所述目标点噪声源配置开关函数；其中，所述开关函数中包括开始时间节点以及结束时间节点；

将所述开关函数作用于所述目标点噪声源，得到具有开关时间点的目标点噪声源；

对具有开关时间点的目标点噪声源以及所述第二传递函数进行卷积处理，生成所述第二信号信息。

在本公开的一种示例性实施例中，从一个或者多个所述非平稳点噪声源中确定目标点噪声源，包括：

当所述非平稳点噪声源为一个时，将所述非平稳点噪声源确定为所述目标点噪声源；

当所述非平稳点噪声源为多个时，根据所述非平稳点噪声源的概率分布，从多个所述非平稳点噪声源中确定一个或者多个目标点噪声源；其中，所述概率分布包括均匀概率分布或者高斯概率分布。

在本公开的一种示例性实施例中，对所述第一信号信息、第二信号信息进行叠加，得到音频数据，包括：

根据所述第一信号信息与所述第二信号信息之间的信噪比关系，计算所述第二信号信息的权重常数；

根据所述第一信号信息与所述虚拟空间内包括的背景噪声信号之间的信噪比关系，计算所述背景噪声信号的权重常数；

对所述第一信号信息、所述第二信号信息以及所述第二信号信息的权重常数、所述背景噪声信号以及所述背景噪声信号的权重常数进行线性叠加，得到所述音频数据。

根据本公开的一个方面，提供一种音频数据集构建方法，包括：

根据上述任意一项所述的音频数据生成方法，得到多个音频数据；

根据所述多个音频数据构建所述音频数据集，以根据所述音频数据集对音频识别模型进行训练。

根据本公开的一个方面，提供一种音频数据生成装置，包括：

数据源获取模块，获取原始音频数据源以及非平稳点噪声源，并对所述原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号；

第一信息生成模块，用于在预设的虚拟空间内，根据所述目标声源信号以及从所述目标声源信号到所述预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息；

第二信息生成模块，用于根据所述非平稳点噪声源以及从所述非平稳点噪声源到所述音频接收设备之间的第二传递函数，生成第二信号信息；

音频数据生成模块，用于对所述第一信号信息、第二信号信息进行叠加，生成音频数据。

在本公开的一种示例性实施例中，对所述原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号，包括：

在本公开的一种示例性实施例中，所述音频数据生成装置还包括：

归一化处理模块，用于对所述原始音频数据源的数据格式进行归一化处理，得到标准音频数据源；

数据源截取模块，用于对所述标准音频数据源进行截取，得到多个具有预设时间长度的子音频数据源；

表示创建模块，用于根据所述标准音频数据源的数据标识以及各所述子音频数据源在所述标准音频数据源中的位置，为各所述子音频数据源创建唯一标识，以对标识后的各所述子音频数据源的时间长度进行压缩或拉伸处理。

在本公开的一种示例性实施例中，所述音频数据生成装置还包括：

虚拟空间集生成模块，用于根据随机采样的装置生成多个包括不同空间尺寸大小以及不同反射系数的虚拟空间集；

坐标位置配置模块，用于根据所述虚拟空间集中所包括的虚拟空间的尺寸大小，为所述虚拟空间中所包括的目标声源信号、一个或者多个非平稳点噪声源、以及音频接收设备配置三维坐标位置；

函数计算模块，用于将所述虚拟空间的尺寸大小、反射系数以及所述三维坐标位置输入至房间冲击响应模型中，得到从目标声源信号到所述音频接收设备之间的第一传递函数，以及从非平稳点噪声源到所述音频接收设备之间的第二传递函数。

从所述虚拟空间集中选取所述预设的虚拟空间，以及与所述预设的虚拟空间对应的第一传递函数以及第二传递函数；

对所述目标声源信号以及第一传递函数进行卷积操作，生成所述第一信号信息。

将所述开关函数作用于所述目标点噪声源，得到具有开关时间点的目标点噪声源；

对具有开关时间点的目标点噪声源以及所述第二传递函数进行卷积处理，生成所述第二信号信息。

在本公开的一种示例性实施例中，从一个或者多个所述非平稳点噪声源中确定目标点噪声源，包括：

当所述非平稳点噪声源为一个时，将所述非平稳点噪声源确定为所述目标点噪声源；

在本公开的一种示例性实施例中，对所述第一信号信息、第二信号信息进行叠加，得到音频数据，包括：

根据所述第一信号信息与所述第二信号信息之间的信噪比关系，计算所述第二信号信息的权重常数；

根据所述第一信号信息与所述虚拟空间内包括的背景噪声信号之间的信噪比关系，计算所述背景噪声信号的权重常数；

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的音频数据生成方法，以及上述任意一项所述的音频数据集构建方法。

根据本公开的一个方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的音频数据生成方法，以及上述任意一项所述的音频数据集构建方法。

根据本发明实施方式的音频数据生成方法和音频数据生成装置，通过获取原始音频数据源以及非平稳点噪声源，并对原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号；并在预设的虚拟空间内，根据目标声源信号以及从目标声源信号到预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息；然后根据非平稳点噪声源以及从非平稳点噪声源到音频接收设备之间的第二传递函数，生成第二信号信息；最后对第一信号信息、第二信号信息进行叠加，得到音频数据，而无需人工参与，从而显著地降低了人力成本，并且避免了在对音频数据的录制过程中，会出现人为的错误进而导致音频数据的准确性较低的问题，同时，由于可以根据实际需要配置不同的虚拟空间，生成不同的第一信号信息以及第二信号信息，增加了第一信号信息以及第二信号信息的多样性，进而增加了音频数据的多样性，为用户带来了更好的体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明示例实施例的一种音频数据生成方法的流程图；

图2示意性地示出了根据本发明示例实施例的一种第一传递函数或者第二传递函数的示例图；

图3示意性地示出了根据本发明示例实施例的一种对原始音频数据源进行归一化处理的方法流程图；

图4示意性地示出了根据本发明示例实施例的一种生成第一传递函数以及第二传递函数的方法流程图；

图5示意性地示出了根据本发明示例实施例的一种虚拟空间的示例图；

图6示意性地示出了根据本发明示例实施例的一种生成第二信号信息的方法流程图；

图7示意性地示出了根据本发明示例实施例的一种对所述第一信号信息、第二信号信息进行叠加，得到音频数据的方法流程图；

图8示意性地示出了根据本发明示例实施例的一种音频数据处理装置的框图；

图9示意性地示出了根据本发明示例实施例的一种用于对上述音频数据处理方法进行存储的计算机可读存储介质；

图10示意性地示出了根据本发明示例实施例的一种用于实现上述音频数据生成方法的电子设备。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种音频数据生成方法、音频数据生成装置、音频数据集构建方法、计算机可读存储介质以及电子设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

音频指纹(audio fingerprinting，afp)，是一种基于信号特征(feature)的音频检索技术。这里所述的“指纹”，是指通过特征提取算法从一段音频信号中提取的特征信息(一般是经过算法转换映射后的一组数值)，可作为该段音频的标识符。具体使用时，从音频数据中提取指纹，然后在预先建好的音频指纹库中进行比对查找，检索出该音频数据所对应的原始音频，并返回原始音频的相关信息。

音频指纹目前最常见的应用场景是音乐领域，包括听歌识曲、音频版权监控、电台节目播放列表生成等。以听歌识曲为例，用户在某个场合听到一段喜欢的音乐，却不知道歌名，此时可使用手机录制一小段音频，通过音频指纹技术在歌曲指纹库中检索到该音乐，获取该音乐的相关信息。

在上述应用场景中，录制的音频数据通常较短，一般不超过15秒(过长的录音等待时间有损用户体验)，且会受到周围环境的噪声干扰和空间混响的影响，这对指纹算法的准确性、抗噪性提出很大的挑战。鉴于此，如何提取鲁棒的指纹，是音频指纹算法领域的热点研究问题。而在算法研发过程中，通常需要在数据集上进行反复实验和效果论证。因此，数据集的构建非常重要，也是本发明讨论的重点。由于音频指纹通常用在音乐场景中，因此下文中以音乐场景进行示例说明，但需要声明的是，本公开并不局限于音乐场景，其他用到音频指纹技术的音频检索场景均可使用本发明中介绍的方法来构建数据集。

以音乐场景为例，音频指纹数据集包含两个组成部分：一个包含L首歌曲的曲库，以及一个包含N条样本的音频库(每条样本时长可统一为V秒，也可各不相同)，每条样本都标记了其在曲库中对应的原始歌曲。若可能，有时还会为样本标记其在曲库中对应歌曲的片段位置，以方便算法调试。

在一些指纹的具体计算方法中，先对L首歌曲分别提取指纹，在此基础上建立指纹检索库。然后，对于音频库中每条样本，提取音频指纹并在指纹检索库中检索，确认检索结果是否和已记录的原始歌曲一致，若一致，则说明该条样本检索正确，若检索结果为空或检索结果和已记录原始歌曲不一致，则检索失败或检索错误。完整跑完所有N条样本后，统计正确率和错误率等数据，作为该版本指纹算法的性能指标。

其中，一个高质量的音频指纹数据集需要具备以下3个特点：一方面，保真性：和真实环境采集的音频数据一致或尽可能接近；另一方面，多样性：覆盖各种音乐类型(流派、语种等)、噪声类型(人声干扰、环境突发噪声、背景平稳噪声等)、噪声强度(信噪比、噪声源数目、噪声持续时长)、播放设备(扬声器)、录音设备(麦克风)、录音场地(家居、咖啡厅、商场、酒吧等)、声源/采集位置(录音场地中的声源、采集位置)；再一方面，规模性：数据集规模大，例如包含数十万或数百万条query音频。在这种大规模数据集上的实验结果能够充分反映算法的效果。

现有的对于音频指纹数据集的构建过程，具体可以包括如下几个部分：首先，曲库歌曲：一般可直接从曲库导出，进行格式(采样率、通道数、位深)归一化后即可使用；其次，音频数据生成：一般来自人工采集或软件算法生成。

具体的，人工采集可分为主动采集和被动采集两大类。其中：

主动采集是指预先规划好待采集的场景和数据分布情况后，人工主导实施整个采集过程。流程上大致分为四步：首先，准备原始音频素材(即检索库歌曲)；其次，搭建录音环境：根据需要选定录音场地，并布置好声源播放设备和录音采集设备；同时，在此过程中要考虑空间混响和环境噪音；然后，实施录音；最后，汇总录音结果。

被动采集主要是利用线上运行的音频指纹系统收集音频样例，实施步骤包括两步：首先，线上afp系统对接收到的query音频进行存储记录；其次，对存储的音频进行人工标注，确认其对应的歌曲。

但是，人工主动采集法很难枚举出不同原始音频、噪音类型、噪声强度、录音场地等各种组合，特别地，用户真实录音场地接近无限种可能，而人工搭建十来种录音场地就需要极大的投入。此外，即使能够搭建一些录音场地，要采集多达数十万条覆盖各种组合的query音频，人力和时间成本也非常高昂。例如，采集10万条、每条时长为15秒的query，仅录音时间就超过400小时。因此，主动采集法一般只能获取非常小规模的数据集，同时多样性较差。

同时，人工被动采集法可以获取大量的真实环境query音频素材，但人工标注的难度很高。这是因为标注人员不可能熟知所有歌曲片段，标注成功率偏低。同时，该方案存在一个根本缺陷：对于信噪比低而无法听清楚的query音频素材，标注成功率趋近于0。而这类query音频却正是音频指纹算法改进的重点目标。

最后，人工采集法的一个不足是无法获取query音频片段在原始歌曲中的精确起止边界(粒度到10毫秒量级)。如果这个边界已知，在进行算法分析时就可以将query音频和原始歌曲对齐，分析音乐信号在空间传播过程中被噪声污染的情况以及混响所导致的时间/频率扭曲程度，对算法改进有很大帮助。

在另一种对于音频指纹数据集的构建过程中，可以基于一定的方法以较低成本快速生成大规模数据集，但由于是算法生成而非真实采集，保真性会有所欠缺。目前在音频指纹研究领域主要使用的生成方法为线性加噪法，其流程如下：首先，准备音频素材，包括原始音乐，噪声等；其次，从原始音乐中截取音频片段，然后根据预设信噪比，和一个或多个噪声音频进行线性叠加，生成受加性噪声污染的音频数据；最后，记录与音频数据对应的原始歌曲、截取位置、叠加时的信噪比等信息，供afp算法进行调优或者测试时参考。

在该音频数据生成方法中，可以较灵活地控制原始音乐类型、噪声类型、噪声强度等维度的参数，按照实际需要调节各种组合比例。例如，如果关注的是低信噪比人声干扰下的afp算法调优，则可以在生成过程中将信噪比控制在[-15db～-10db]，同时将噪声类型限制为人声。

然而，上述线性加噪法有天然缺陷，会导致生成的数据集保真性较差。具体见下：

一方面，仅考虑线性叠加噪声，而忽略了真实录音场景中，声波在录音空间内传播时的衰减、反射等声学效应。这些声学效应会对声音信号造成明显的失真。特别地，在真实的afp录音场景中，音乐、非平稳噪声等声源信号会在空间中多次反射衰减，实际录音设备采集的声音和原始声源信号有较大差异，而且这种失真程度还取决于录音空间的形状及各反射面反射系数等物理世界指标。

另一方面，仅考虑线性叠加噪声，而忽略了播放设备电子器件引入的音高偏移、时间伸缩等失真。音高偏移一般是指播放设备播放频率为f的声音信号时，实际产生的声波频率为f±Vf。时间伸缩则是指播放设备播放时长为t的声音信号时，实际播放时长为t±Vt。

由于上述天然缺陷，线性加噪生成的query音频相比真实场景失真程度明显不足，因此在此种数据集上测试的afp算法效果和真实场景会有一定差距。基于这种数据样例进行算法实验时，容易误导算法调优方向。

基于上述缺点，本发明提出一种音频数据生成方法，一方面，通过获取原始音频数据源以及非平稳点噪声源，并对原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号；并在预设的虚拟空间内，根据目标声源信号以及从目标声源信号到预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息；然后根据非平稳点噪声源以及从非平稳点噪声源到音频接收设备之间的第二传递函数，生成第二信号信息；最后对第一信号信息、第二信号信息进行叠加，得到音频数据，而无需人工参与，从而显著地降低了人力成本，并且避免了在对音频数据的录制过程中，会出现人为的错误进而导致音频数据的准确性较低的问题；另一方面，由于可以根据实际需要配置不同的虚拟空间，生成不同的第一信号信息以及第二信号信息，增加了第一信号信息以及第二信号信息的多样性，进而增加了音频数据的多样性，为用户带来了更好的体验；再一方面，对原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号，避免了由于未引入音高偏移以及时间伸缩等失真处理进而导致场景失真度缺乏，进而使得音频数据的准确率较低的问题。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

下面结合图1来描述根据本发明示例性实施方式的音频数据生成方法，该方法可以运行于服务器、服务器集群或云服务器等；当然，本领域技术人员也可以根据需求在其他平台运行本发明的方法，本示例性实施例中对此不做特殊限定。参考图1所示，该音频数据生成方法可以包括以下步骤：

步骤S110.获取原始音频数据源以及非平稳点噪声源，并对所述原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号；

步骤S120.在预设的虚拟空间内，根据所述目标声源信号以及从所述目标声源信号到所述预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息；

步骤S130.根据所述非平稳点噪声源以及从所述非平稳点噪声源到所述音频接收设备之间的第二传递函数，生成第二信号信息；

步骤S140.对所述第一信号信息、第二信号信息进行叠加，得到音频数据。

上述音频数据生成方法中，通过获取原始音频数据源以及非平稳点噪声源，并对原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号；并在预设的虚拟空间内，根据目标声源信号以及从目标声源信号到预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息；然后根据非平稳点噪声源以及从非平稳点噪声源到音频接收设备之间的第二传递函数，生成第二信号信息；最后对第一信号信息、第二信号信息进行叠加，得到音频数据，而无需人工参与，从而显著地降低了人力成本，并且避免了在对音频数据的录制过程中，会出现人为的错误进而导致音频数据的准确性较低的问题，同时，由于可以根据实际需要配置不同的虚拟空间，生成不同的第一信号信息以及第二信号信息，增加了第一信号信息以及第二信号信息的多样性，进而增加了音频数据的多样性，为用户带来了更好的体验。

以下，将结合附图对本公开音频数据生成方法中所涉及的各步骤进行详细的解释以及说明。

首先，对本公开所涉及到的名词进行解释。

stationary noise：平稳噪声，是用来模拟真实场景录音时，环境中的背景底噪，比如风扇、空调的声音。平稳噪声可按需进行采集或收集。

non-stationary noise：非平稳噪声，是用来模拟真实场景(例如听歌识曲)录音时，环境中的突发噪声，一般为点声源(例如突然边上有人说话、关门、电话响起等等)。非平稳噪声可按需进行采集或收集。

point sound source：点声源，声波从该声源处以球状向周围均匀扩散震荡，其所产生的声场可以以此声源为球中心。

room impulse response(RIR)：信号处理领域的概念，全称为房间脉冲响应，即：在一个给定房间room(也即本公开所提及的虚拟空间)内，声音信号从声源处(audiosource)到音频接收设备(microphone)之间的信号传递函数(transfer function)。根据RIR信号处理理论，可以虚拟出一个长方体room，自定义设置该room共6个面的反射系数，同时指定该room内虚拟的点声源和麦克风位置，即可得到从点声源到麦克风之间的信号传递函数，该传递函数能够近似物理空间中声波的传输过程(例如考虑了声波在墙面处的多次反射/吸收/衰减现象)。在已知该传递函数的情况下，将声源处的信号和该函数卷积(convolution)后，即为采集设备接收到的信号。其中，RIR理论下的信号传递函数|h(t)|形式具体可以如图2所示。

TSM(Time-Scale Modification)：对音频信号在时间轴上进行拉伸或压缩，即，改变音频的播放时长，但该音频的音高频率保持不变。

Pitch Shift：对音频信号在频率轴上进行拉伸或压缩，即，改变音频的音高，但该音频的时长保持不变。

其次，对本公开的发明目的进行解释以及说明。

如上文所述，数据集对音频指纹算法研发具有重要作用。而在构建数据集时，人工法成本巨大，因此只能少量投入，覆盖少数场景，费时费力。而基于线性叠加的软件生成方法保真度不足，未考虑混响、设备失真等各种真实场景情况。

针对以上问题，本发明提出一种基于信号处理的音频指纹数据集构建方法。在构建过程中，首先基于Time-Scale Modification(TSM)和Pitch Shift模拟设备播放失真，对目标声源信号进行时间、频率上的扭曲偏移，使得生成的query音频中，源信号在空间传播过程之前就存在一定程度的失真。然后，基于Room Impulse Response(RIR)模拟声音在空间中传播的过程，对目标声源信号和点噪声源分别进行空间传播建模，使得生成的query音频中，同时交织多种声源信号的混响失真。最后，在线性叠加上平稳噪声，以模拟真实场景中的背景底噪声，得到最终的音频数据。

此外，本公开通过参数控制+随机采样结合的方式，将音频数据依次经过的处理过程均限制在一定参数范围内，同时又不失随机性，这样可充分模拟海量真实录音场景(如各种混响、噪声数目、噪声强度、播放设备失真的组合)，使得最终构建出的数据集除了规模性、保真度较高，在多样性上也有较好的体现，兼具人工法和线性叠加生成法的优点。

以下，将对步骤S110-步骤S140进行解释以及说明。

在步骤S110中，获取原始音频数据源以及非平稳点噪声源，并对所述原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号。

在本示例实施例中，首先需要从数据库中获取原始音频数据源、非平稳点噪声源，当然，还可以获取平稳点噪声源(背景噪声信号)，本示例对此不做特殊限制。其中，原始音频数据可以是从曲库中直接导出的歌曲；同时，为了覆盖多种音乐类型，可以根据曲库已有标签，从每个标签类别下导出一定数目歌曲。例如，以流派为例，可以从古典、摇滚、电子、流行、嘻哈、古风等流派下分别导出一些歌曲；非平稳点噪声源可以是通过录音笔录制的电视节目声、电话铃声、说话声、警报声等等，当然也可以是各种开源的非平稳噪声数据集，本示例对此不做特殊限制。

进一步的，为了可以提高了音频数据的准确性，在对音频数据的时间长度以及音高频率处理之前，还需要对该原始音频数据源进行归一化处理。具体的，参考图3所示，该音频数据生成方法还可以包括步骤S310-步骤S330。其中：

在步骤S310中，对所述原始音频数据源的数据格式进行归一化处理，得到标准音频数据源；

在步骤S320中，对所述标准音频数据源进行截取，得到多个具有预设时间长度的子音频数据源；

在步骤S330中，根据所述标准音频数据源的数据标识以及各所述子音频数据源在所述标准音频数据源中的位置，为各所述子音频数据源创建唯一标识，以对标识后的各所述子音频数据源的时间长度进行压缩或拉伸处理。

以下，将对步骤S310-步骤S330进行解释以及说明。具体的，首先，对原始音频数据源的数据格式进行归一化处理，得到标准音频数据源，使得其格式和最终的音频数据保持一致。例如，归一化为8KHz，16bit位深，单通道的PCM数据；然后，直接对曲库歌曲(原始音频数据源)进行片段截取，得到多个长度为15秒的音频片段，并根据每个片段对应的歌曲id和截取位置对该片段进行命名。此处需要补充说明的是，每首歌可以截取多个片段，截取位置可以随机或指定范围。当然，也可以不进行截取，而是在生成最终的长query后，再进行截取，本示例对此不做特殊限制；同时，和曲库歌曲类似，非平稳噪声数据也可以在进行格式归一化后，可按需选择是否截取为片段。

其次，在得到上述标识后各子音频数据源以后，可以对子音频数据源时间长度以及音高频率进行处理，得到目标声源信号。具体的可以包括：对所述原始音频数据源的时间长度进行压缩或拉伸处理，并对时间长度压缩或拉伸处理后的原始音频数据源的音高频率进行压缩或拉伸，得到所述目标声源信号。

具体的，对原始音频数据源(子音频数据源)S[n]进行TSM和Pitch Shift处理；其中，TSM是在音高不变的情况下沿着时间轴进行拉伸或收缩，时长变为x

其中，S

在步骤S120中，在预设的虚拟空间内，根据所述目标声源信号以及从所述目标声源信号到所述预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息。

在本示例实施例中，为了可以生成第一信号信息，首先需要对第一传递函数的具体计算方法进行解释以及说明。具体的，参考图4所示，该音频数据生成方法还可以包括步骤S410-步骤S430。其中：

在步骤S410中，根据随机采样的方法生成多个包括不同空间尺寸大小以及不同反射系数的虚拟空间集；

在步骤S420中，根据所述虚拟空间集中所包括的虚拟空间的尺寸大小，为所述虚拟空间中所包括的目标声源信号、一个或者多个非平稳点噪声源、以及音频接收设备配置三维坐标位置；

在步骤S430中，将所述虚拟空间的尺寸大小、反射系数以及所述三维坐标位置输入至房间冲击响应模型中，得到从目标声源信号到所述音频接收设备之间的第一传递函数，以及从非平稳点噪声源到所述音频接收设备之间的第二传递函数。

以下，将对步骤S410-步骤S430进行解释以及说明。具体的，参考图5所示，可以基于Room Impulse Response(房间冲击响应)算法，虚拟出各种大小/反射系数的虚拟房间(虚拟空间)500，对于每个房间，再进一步虚拟出一个目标声源信号501、背景噪声信号502、多个非平稳点噪声源503，以及一个音频接收设备(即麦克风)504，然后根据RIR算法，生成这个房间中点声源信号从声源位置传播到麦克风的RIR传递函数(第一传递函数以及第二传递函数)，即，声源到采集设备的房间冲击响应。

其中，所构建的各种大小的虚拟房间可以包括：指定三种大小范围：大空间(100平米以上，高度4米以上)、中空间(50～100平米，高度3米～4米)、小空间(5～50平米，高度2～3米)；并且，每种大小范围下，可以选择三种反射系数，例如0.6～0.9、0.4～0.6、0.1～0.4，分别对应大混响、中混响、小混响。因此，组合共9种。每种组合下，可在上述范围内采样，生成M个虚拟房间。例如，对于“中空间-小混响”这种组合，可以在“房间大小(50～100平米，高度3米～4米)、反射系数(0.1～0.4)”这些数值范围内进行随机采样，生成“中空间-小混响”所对应的M个虚拟房间。需要补充说明的是，上述为一个示例，实际可按照目标场景进行虚拟房间的配置。例如，可以生成多达10万个不同大小、反射系数的房间，得到虚拟空间集。并且，由于房间参数是在一定范围内随机采样，故几乎任何两个房间都不相同，这样可充分保证数据集生成时的多样性。

然后，在每个虚拟房间中，可以在指定范围内随机生成一个麦克风位置，例如，要求麦克风在距离地面0.5～1.5米高度范围之间，距四周墙面距离在0.5米以上。在此范围内随机采样得到麦克风的三维坐标位置。类似地，在同一个房间内，随机生成1个目标声源位置，和K个非平稳点噪声源位置(由于非平稳点噪声源可以包括一个或多个，例如在图5示例中，有2个非平稳点噪声源，分别对应电视声和说话声，为方便起见，可预先设置一个较大的K，例如K＝10，后续使用时从这K个非平稳点噪声源的RIR中选取需要的数目即可)。此外，在生成目标声源信号的位置时，可以添加额外的约束，例如，要求目标生源信号位置距离麦克风在2米以上，高度上高于麦克风位置，目标生源信号、非平稳点噪声源以及背景噪声信号两两之间距离大于1米等等，这些约束可按需配置，目的是使得虚拟房间内的声音传播过程更接近音频指纹的真实录音场景。

在确定了虚拟房间长宽高/墙面反射系数、房间内的麦克风/目标声源信号/非平稳点噪声源的坐标位置、信号采样率这些参数数值后，将其输入到RIR模型中，即可由RIR算法生成该房间中所有点声源到麦克风的传递函数，共K+1个，其中的K是指K个非平稳点噪声源到麦克风的第二传递函数，1是指1个目标生源信号到麦克风的第一传递函数。

进一步的，当得到虚拟空间集、第一传递函数以及第二传递函数以后，即可以在预设的虚拟空间内，根据所述目标声源信号以及从所述目标声源信号到所述预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息。具体的可以包括：首先，从所述虚拟空间集中选取所述预设的虚拟空间，以及与所述预设的虚拟空间对应的第一传递函数以及第二传递函数；其次，对所述目标声源信号以及第一传递函数进行卷积操作，生成所述第一信号信息。

具体的，可以通过直接指定的方式从上述虚拟空间集中选取上述预设的虚拟空间(虚拟房间)，也可先在一定概率分布下随机采样房间大小/混响程度(例如从9种组合中随机采样1种)，然后在该组合下的M个房间中按照一定的概率分布随机抽取一个预设的虚拟空间，本示例对此不做特殊限定；进一步的，当预设的虚拟空间确定完成后，可以可获取与该虚拟空间对应的K+1个RIR传递函数，其中，对应目标声源的那第一传递函数用R

其中，S

在步骤S130中，根据所述非平稳点噪声源以及从所述非平稳点噪声源到所述音频接收设备之间的第二传递函数，生成第二信号信息。

在本示例实施例中，参考图6所示，根据所述非平稳点噪声源以及从所述非平稳点噪声源到所述音频接收设备之间的第二传递函数，生成第二信号信息，可以包括步骤S610-步骤S630。其中：

在步骤S610中，从一个或者多个所述非平稳点噪声源中确定目标点噪声源，并为所述目标点噪声源配置开关函数；其中，所述开关函数中包括开始时间节点以及结束时间节点。

在本示例实施例中，当所述非平稳点噪声源为一个时，将所述非平稳点噪声源确定为所述目标点噪声源；当所述非平稳点噪声源为多个时，根据所述非平稳点噪声源的概率分布，从多个所述非平稳点噪声源中确定一个或者多个目标点噪声源；其中，所述概率分布包括均匀概率分布或者高斯概率分布。

在步骤S620中，将所述开关函数作用于所述目标点噪声源，得到具有开关时间点的目标点噪声源。

在步骤S630中，对具有开关时间点的目标点噪声源以及所述第二传递函数进行卷积处理，生成所述第二信号信息。

以下，将对步骤S610-步骤S630进行解释以及说明。具体的，首先，预设的虚拟空间的U个非平稳点噪声源作为目标点噪声源，以PN

其中，每个j都有对应的[n

其中，“·”表示逐点相乘。

同时，在得到具有开关时间点的目标点噪声源以后，即可确定与其对应的第二传递函数RN

其中，PN

在步骤S140中，对所述第一信号信息、第二信号信息进行叠加，得到音频数据。

在本示例实施例中，参考图7所示，对所述第一信号信息、第二信号信息进行叠加，得到音频数据可以包括步骤S710-步骤S730。其中：

在步骤S710中，根据所述第一信号信息与所述第二信号信息之间的信噪比关系，计算所述第二信号信息的权重常数；

在步骤S720中，根据所述第一信号信息与所述虚拟空间内包括的背景噪声信号之间的信噪比关系，计算所述背景噪声信号的权重常数；

在步骤S730中，对所述第一信号信息、所述第二信号信息以及所述第二信号信息的权重常数、所述背景噪声信号以及所述背景噪声信号的权重常数进行线性叠加，得到所述音频数据。

以下，将对步骤S710-步骤S730进行解释以及说明。具体的，可以对传播至麦克风处的目标声源信号、点噪声源信号，以及始终存在的背景噪声信号进行线性叠加，叠加时对各噪声信号幅值进行加权调整，生成最终的音频数据Q[n]，具体可以如下公式(6)所示：

其中，α

至此，已经得到了最终的音频数据，可以将其保存成音频文件即可。同时，根据上述音频数据生成方法，可以得到多个音频数据；然后，根据所述多个音频数据构建所述音频数据集，以根据所述音频数据集对音频识别模型进行训练。基于该方法所生成的音频数据集，具有规模大、保真性高、多样性佳的特点。此外，通过控制上述流程中涉及的参数(例如采样时的概率分布、参数范围)，能够按需生成特定场景下的数据集。例如，可以将反射系数的参数设置得较大，使得生成的音频数据中混响失真大，这样就可用于定向研究大混响下的音频指纹算法。

至此可以得知，本公开所提供的一种基于信号处理算法自动生成音频数据的方法，在具体的处理过程中引入RIR、TSM、Pitch Shift等算法，通过组合串联，可方便地生成接近于真实场景录音的query音频，兼顾成本和保真性；同时，整个处理过程中的各项参数可控，能够根据目标场景特点进行配置或随机采样，使得每条query生成时参数动态调整，因此，能够生成适用于该目标场景下的高质量query音频数据集，同时多样性较佳。

进一步的，通过对各类控制参数的人工设定或随机采样，能够自动化、大批量、高保真地生成音频指纹场景下的音频数据，使得生成音频数据包含了非平稳点噪声干扰、平稳背景噪声、空间混响、设备时间/频率失真等真实物理世界具备的特性。此外，生成过程中可根据算法实际应用场景需要，灵活控制数据集样本数目、样本时长、噪声源种类/个数、信噪比强度、虚拟声场种类/声场大小等。

最后，基于本公开生成的音频数据，在达到高保真、高灵活性的同时，显著降低了数据集构造的人工/时间成本。此外，和线性加噪法类似，生成的带有噪声的音频数据在原始歌曲中起止位置已知，音频指纹算法研发过程中可以利用此信息对齐该音频数据和原始歌曲，方便分析音乐信号在空间传播过程中被噪声污染的情况，以及混响、播放设备所导致的时间/频率扭曲程度，对算法调优具有较高的参考价值。

在介绍了本发明示例性实施方式的音频数据生成方法之后，接下来，参考图8对本发明示例性实施方式的音频数据生成装置进行解释以及说明。参考图8所示，该音频数据生成装置可以包括数据源获取模块810、第一信息生成模块820、第二信息生成模块830以及音频数据生成模块840。其中：

数据源获取模块810可以用于获取原始音频数据源以及非平稳点噪声源，并对所述原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号；

第一信息生成模块可以用于在预设的虚拟空间内，根据所述目标声源信号以及从所述目标声源信号到所述预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息；

第二信息生成模块可以用于根据所述非平稳点噪声源以及从所述非平稳点噪声源到所述音频接收设备之间的第二传递函数，生成第二信号信息；

音频数据生成模块可以用于对所述第一信号信息、第二信号信息进行叠加，生成音频数据。

在本公开的一种示例实施例中，对所述原始音频数据源的时间长度以及音高频率进行处理，得到目标声源信号，包括：

在本公开的一种示例实施例中，所述音频数据生成装置还包括：

归一化处理模块，用于对所述原始音频数据源的数据格式进行归一化处理，得到标准音频数据源；

数据源截取模块，用于对所述标准音频数据源进行截取，得到多个具有预设时间长度的子音频数据源；

在本公开的一种示例实施例中，所述音频数据生成装置还包括：

虚拟空间集生成模块，用于根据随机采样的装置生成多个包括不同空间尺寸大小以及不同反射系数的虚拟空间集；

在本公开的一种示例实施例中，在预设的虚拟空间内，根据所述目标声源信号以及从所述目标声源信号到所述预设的虚拟空间中包括的音频接收设备之间的第一传递函数，生成第一信号信息，包括：

从所述虚拟空间集中选取所述预设的虚拟空间，以及与所述预设的虚拟空间对应的第一传递函数以及第二传递函数；

对所述目标声源信号以及第一传递函数进行卷积操作，生成所述第一信号信息。

在本公开的一种示例实施例中，根据所述非平稳点噪声源以及从所述非平稳点噪声源到所述音频接收设备之间的第二传递函数，生成第二信号信息，包括：

将所述开关函数作用于所述目标点噪声源，得到具有开关时间点的目标点噪声源；

对具有开关时间点的目标点噪声源以及所述第二传递函数进行卷积处理，生成所述第二信号信息。

在本公开的一种示例实施例中，从一个或者多个所述非平稳点噪声源中确定目标点噪声源，包括：

当所述非平稳点噪声源为一个时，将所述非平稳点噪声源确定为所述目标点噪声源；

在本公开的一种示例实施例中，对所述第一信号信息、第二信号信息进行叠加，得到音频数据，包括：

根据所述第一信号信息与所述第二信号信息之间的信噪比关系，计算所述第二信号信息的权重常数；

根据所述第一信号信息与所述虚拟空间内包括的背景噪声信号之间的信噪比关系，计算所述背景噪声信号的权重常数；

在介绍了本发明示例性实施方式的音频数据生成方法以及音频数据生成装置以后，接下来，参考图9对本发明示例性实施方式的存储介质进行说明。

参考图9所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品900，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备。

在介绍了本发明示例性实施方式的存储介质之后，接下来，参考图10对本发明示例性实施方式的电子设备进行说明。

图10显示的电子设备1000仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030、显示单元1040。

其中，所述存储单元1020存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元1010可以执行如图1中所示的步骤S110-S140。

存储单元1020可以包括易失性存储单元，例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202，还可以进一步包括只读存储单元(ROM)10203。

存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204，这样的程序模块10205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以包括数据总线、地址总线和控制总线。

电子设备1000也可以通过输入/输出(I/O)接口1050，与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了弹窗处理装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

应当注意，尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：李鹏;曹偲;潘颂声;刘华平;
专利申请人：杭州网易云音乐科技有限公司;

上一篇：一种喷药无人机喷头保护装
下一篇：一种鞍带石斑鱼头肾细胞系及其构建方法和应用