掌桥专利:专业的专利平台
掌桥专利
首页

数字音频的鲁棒认证

文献发布时间:2024-04-18 19:58:30


数字音频的鲁棒认证

背景技术

数字音频水印是一种用于协助实施版权的技术,并使用数据隐藏技术将消息嵌入到数字音频内容中,这些消息可随后被恢复,但希望人类在收听音频时无法听到。然而,黑客和盗版者意识到水印的使用,因此可能会试图篡改数字音频文件中的水印,诸如通过尝试使用不同的水印对其进行盖写或以擦除或降级水印的方式复制记录。一种方法是通过扬声器播放音频,并将播放的音频录制到不同的数字文件中。如果水印变得不可恢复,则版权实施的预期认证值可能会降低或丢失。

传统的水印方法有多个缺点:例如,放置在同一音频片段内的多个水印会相互干扰,可能会使其中一个水印不可恢复(损坏认证值),而常见的技术(诸如插入比特序列)通常使用重要性较低的比特,导致容易损坏的水印。传统的水印方法常见的权衡是,提高认证的鲁棒性会降低对用户的透明度,使水印可能被人类听到,并从而降低了用户的收听体验。

发明内容

参考下文列出的附图,在下文详细描述所揭示的示例。提供以下发明内容以解说本文所公开的一些示例。然而,这并不意味着将所有示例限制于任何特定配置或操作顺序。

用于认证数字音频的解决方案包括:接收数字音频文件;使用第一密钥生成第一水印,其中所述第一水印被频带限制到第一带宽;使用第二密钥生成第二水印,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠;将所述第一水印嵌入到所述数字音频文件的片段中;以及将所述第二水印嵌入到所述数字音频文件的所述片段中。

用于认证数字音频的解决方案包括:接收数字音频文件;使用第一密钥针对第一水印确定所述数字音频文件的片段的第一水印分数,其中所述第一水印被频带限制到第一带宽;使用第二密钥针对第二水印确定所述数字音频文件的所述片段的第二水印分数,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠;至少基于该第一水印分数和该第二水印分数来确定该数字音频文件带水印的概率;以及至少基于确定所述数字音频文件带水印的所述概率来生成指示所述数字音频文件是否带水印的报告。在一些示例中,用于认证数字音频的各解决方案还可以嵌入和解码消息。

附图说明

参考下文列出的附图,在下文详细描述所公开的示例:

图1例示了用于数字音频的鲁棒认证的布置;

图2例示了可以使用图1的布置产生的输入音频片段和带水印的音频片段的频谱图;

图3例示了图1的布置的水印嵌入模块的进一步细节;

图4例示了在图1的布置中可能出现的生成扩频水印的阶段;

图5例示了在图1的布置中可能出现的生成自相关水印的阶段;

图6是例示可由图1的布置执行的示例性操作的流程图;

图7例示了图1的布置的水印检测模块的进一步细节;

图8例示了在图1的布置中可能出现的检测扩频水印的阶段;

图9例示了在图1的布置中可能出现的检测自相关水印的阶段;

图10例示了可被有利地用于增强图1的布置中的水印检测的机器学习(ML)组件;

图11是例示可由图1的布置执行的示例性操作的另一流程图;

图12是例示可由图1的布置执行的示例性操作的另一流程图;

图13是例示可由图1的布置执行的示例性操作的另一流程图;

图14是适用于实现本文公开的各种示例中的一些示例的示例计算环境的框图。

在整个附图中相应的附图标记指示相应的部件。

具体实施方式

将参考附图详细描述各种示例。在任何可能的地方,相同的附图标记将被用于跨附图指代相同或相似的部件。贯穿本公开的关于具体示例和实现的参考仅出于说明目的而提供,除非相反指示,否则不意味着限制所有示例。

用于认证数字音频的解决方案包括:使用第一密钥生成第一频带限制水印,使用第二密钥生成第二频带限制水印,其中该第二水印的带宽不与该第一水印的带宽重叠;以及将该第一水印和该第二水印嵌入到该数字音频文件的片段中。各解决方案还包括使用该第一密钥针对该第一水印确定该数字音频文件的片段的第一水印分数;使用该第二密钥针对该第二水印确定该数字音频文件的该片段的第二水印分数;至少基于该第一水印分数和该第二水印分数来确定该数字音频文件带水印的概率;以及生成指示该数字音频文件是否带水印的报告。在一些示例中,用于认证数字音频的各解决方案还可以嵌入和解码消息。

本公开的各方面通过在数字音频文件的同一片段内嵌入多个(不同)水印从而将水印放置在该片段内其自己的有限带宽中以非常规方式操作。该技术允许水印在没有干扰的情况下共存,从而提高了鲁棒性,诸如抗篡改性。本公开的各方面通过检测数字音频文件的同一片段的不同频带内的多个水印以非常规方式操作。该技术提高了检测水印的可靠性,从而在发生篡改的情况下也提高了检测过程的鲁棒性。

所公开的用于水印嵌入和检测的解决方案采用水印嵌入模块和水印检测模块。水印密钥被用于同步参数并提供额外的安全性。在一些示例中,使用神经网络(NN)的机器学习(ML)组件被用来增强鲁棒性。通过限制水印的带宽,可以在没有干扰的情况下将多个水印嵌入到数字音频的同一片段中。在数字音频的同一片段内使用多个不同的水印方案提高了检测至少一个水印的可能性,尽管存在自然噪声和失真,甚至是故意攻击(例如,提高了鲁棒性)。公开了一个示例,其使用6千赫(KHz)至8KHz的带宽作为一个水印的带宽,并且使用3-4KHz作为第二水印的第二带宽。

解决方案可被用于有声书、音乐和其他类别的数字音频记录,其中不可感知性(感知透明度)对用户很重要,诸如高质量音频。各个版本已经过测试,并产生了小于0.02的平均意见分数(MOS)差距以及小于0.05的比较(CMOS)差距。其他优点包括针对实时应用的低计算成本和低等待时间,以及适应各种采样率和量化分辨率的灵活性。水印可被嵌入多种数字音频格式,诸如采样率从8KHz至48KHz、量化从8比特至48比特、以WAV、PCM、OGG、MP3、OPUS、SILK、Siren和其他格式存储,包括使用编解码器进行有损压缩的格式。

提供安全性以防止暴力破解。例如,描述了使用两个96比特密钥,从而提供了2^96比特的安全性。鲁棒性可保护性能,防止通过传输、重放和重录、噪声、甚至是蓄意攻击而造成的失真或损坏。各个版本已经成功地使用范围从-10分贝(dB)至30分贝的噪声水平进行了测试。可被本公开的各种示例击败的蓄意攻击包括同步攻击(其调整音频的时间序列属性,例如使时间序列更快或更慢、交换某些音频段的顺序或插入其他音频段);信号处理攻击(例如低通滤波或高通滤波);以及数字水印攻击(其添加新水印以试图掩盖(诸)原始水印)。鲁棒性已被证明在现实世界的场景中超过95%的正确检测(结合精度和召回率测量)。

图1例示了用于数字音频的鲁棒认证的布置100。数字音频文件102通过水印嵌入模块300以成为带水印的数字音频文件104。带水印的数字音频文件104被分发并存储在数字媒介106上。在需要标识水印时,带水印的数字音频文件104通过水印检测模块700,该模块输出指示检测到(或没有检测到)水印的水印报告108。水印嵌入模块300使用水印密钥402来生成第一水印,并使用水印密钥502来生成第二水印。水印检测模块700使用水印密钥402和水印密钥502来检测水印。

在一些示例中,水印消息110通过水印嵌入模块300插入到用于嵌入数字音频文件102的水印之一中,然后由水印检测模块700提取。结合图3进一步详细描述了水印嵌入模块300。结合图7进一步详细描述了水印检测模块700。分别结合图4和图5进一步详细描述了水印密钥402和502。

通常,对数字音频水印的性能有三个要求。第一是不可感知性,也称为感知透明度,这是确保人类耳朵听不到水印的要求。第二是鲁棒性,这被用来衡量水印在传输过程中对失真或损坏的稳定性。第三是安全性,这是指暴力破解数字水印的复杂性。通常,密钥长度越长,复杂度越高,水印就越安全。

存在多种水印方案,诸如扩频方法,其扩展伪随机序列频谱并然后将其嵌入到音频中;将水印嵌入到数据块的两个双通道中的拼接(patchwork)方法;量化索引调制(QIM);感知方法;以及自相关方法。感知方法通过计算心理声学模型在增强鲁棒性的同时提高水印的不可感知性。自相关方法将音频划分为几个长度相等的数据块。例如,两个块被用于嵌入在离散余弦变换(DCT)域中相互正交的不同水印向量。对于检测规程,通过计算(带水印的)音频信号的自相关来估计水印的存在。相关性越高,存在自相关水印的概率就越高。

图2例示了数字音频文件片段200的频谱200a和带水印的数字音频文件片段220的频谱220a。在操作中,数字音频文件片段200被输入到水印嵌入模块300,其输出带水印的数字音频文件片段220。数字音频文件片段200是数字音频文件102的1.4秒的部分,带水印的数字音频文件片段220是带水印的数字音频文件104的1.4秒的部分。第一水印(例如,扩频水印410)占据第一带宽201,其示为6-8KHz,并且第二水印(例如,自相关水印510)占据第二带宽202,其示为3-4KHz。第一水印的6-8KHz带宽不与第二水印的3-4KHz带宽重叠。这允许两个水印在同一音频片段中共存而不受干扰。对图2的仔细检查揭示了在带宽202中大约0.6秒处的轻微差异。

自相关(SC)方法在较低频带(3-4KHz)中被采用,并且对于混响场景是鲁棒的。扩频(SS)方法在较高频带(6-8KHz)中被采用,并且对于加性噪声场景是鲁棒的。这种组合提供了比单独使用其中一种相比更出色的鲁棒性。在低频率中,可以以不可感知性为代价实现更高的鲁棒性,而在高频率中,可以以鲁棒性为代价实现更高的不可感知性。自相关方法能够增强低频率下的不可感知性。扩频方法能够增强高频率下的鲁棒性。结合图4进一步详细描述了扩频水印410,而结合图5进一步详细描述了自相关水印510。

图3例示了水印嵌入模块300的进一步细节。水印嵌入模块300包括接收数字音频文件102的线性预测编码(LPC)分析组件302。LPC分析被用来将音频信号分解为频谱包络和激励信号,并被用来在基于LPC的编解码器场景中改善不可感知性并增强鲁棒性。水印嵌入模块300然后分别嵌入自相关水印和扩频水印两者,尽管可以使用不同的水印组合(包括在相同音频片段中在另一非重叠带宽中使用附加水印)。

来自LPC分析组件302的激励信号由DCT组件304进行变换。自相关嵌入340生成自相关水印510,如图5所示。逆DCT(IDCT)组件314将音频数据变换回到时域。分析滤波器组306也跟随LPC分析组件302并执行子带分解。扩频嵌入360生成扩频水印410,如图4所示,并且合成滤波器组316转换信号以与IDCT组件314的输出组合。这些正交变换,DCT和子带分解,保持了接近原始音频的信号质量的信号质量。

水印的强度由心理声学强度控制308控制,心理声学强度控制308确定数字音频文件102的要嵌入水印的任何片段中的音频功率的强度。基于建模人类听觉系统的心理声学模型来控制该强度。该强度是水印的乘法因子以确保水印能量保持在人类听觉阈值以下。根据心理声学模型从输入音频计算掩模曲线,并确定强度因子以控制水印的强度来确保水印的能量低于掩模曲线。

LPC合成组件312完成该过程以允许将自相关水印510和扩频水印410嵌入数字音频文件102中,从而产生带水印的数字音频文件104。

图4例示了生成扩频水印410的多个阶段,扩频水印410与自相关水印510一起嵌入到带水印的数字音频文件片段220中。如图所例示的,水印密钥402有三个部分,在一些示例中,每个部分是32比特。这些部分是提供PN发生器种子的伪噪声(PN)部分406、提供置换信息的置换部分404和提供符号信息的符号部分408。水印消息110根据从置换部分404生成的置换阵列412被置换为经置换的水印消息414。从PN部分406生成PN序列416(诸1和诸-1)并与经置换的水印消息414相乘。这与采用符号部分408生成的符号序列418相乘。此结果与来自数字音频文件片段200的块420(连同自相关水印510)组合,以产生带水印的数字音频文件片段220。

该过程可被表达为:

其中

图5例示了生成自相关水印510的多个阶段,自相关水印510与扩频水印410一起嵌入到带水印的数字音频文件片段220中。如图所例示的,水印密钥502具有三个部分,在一些示例中,每个部分是32比特。这些部分是提供位置信息作为位置阵列514的位置部分504、提供本征向量信息的本征向量部分506和提供符号信息的符号部分508。位置阵列514控制从本征向量部分506生成的本征向量V1和本征向量V2在本征向量阵列516中的位置。本征向量阵列516提供交替嵌入的一系列相互正交的向量,表示为V1和V2。这与符号部分508生成的符号序列518相乘。此结果与来自数字音频文件片段200的块420(连同扩频水印410)组合,以产生带水印的数字音频文件片段220。

该过程可被表达为:

其中

图6是例示检测用于认证数字音频的水印所涉及的示例性操作的流程图600。在一些示例中,针对流程图600描述的操作由图14的计算设备1400执行。流程图600从操作602开始,操作602包括接收数字音频文件102,且操作604包括使用水印密钥402(第一密钥)生成扩频水印410(第一水印),其中扩频水印410被频带限制到带宽201(第一带宽)。在一些示例中,扩频水印410包含水印消息110。在一些示例中,带宽201从6KHz延伸至8KHz。

操作606包括使用水印密钥502(第二密钥)生成自相关水印510(第二水印),其中自相关水印520被频带限制到带宽201(第二带宽)。在一些示例中,自相关水印510包含水印消息110(或另一水印消息)。在一些示例中,带宽201从3KHz延伸至4KHz。操作608包括将扩频水印410嵌入数字音频文件片段200中。操作610包括将自相关水印510嵌入到数字音频文件片段200中。在一些示例中,第一带宽具有高于5KHz的频率下限,而第二带宽具有低于5KHz的频率上限,使得第二带宽不与第一带宽重叠。

在一些示例中,第一水印和第二水印包括不同的水印方案,每个水印方案选自包括以下内容的列表:扩频水印、自相关水印和拼接水印。在一些示例中,第一水印包括扩频水印,并且被频带限制到6KHz至8KHz。在一些示例中,第二水印包括自相关水印,并且被频带限制到3KHz至4KHz。在一些示例中,水印密钥402包括至少96比特的第一集合。在一些示例中,水印密钥502包括至少96比特的第二集合。在一些示例中,水印密钥502具有与水印密钥402不同的值。在一些示例中,用于扩频水印的密钥包括三个32比特部分,这三个部分中的第一部分用作PN发生器种子,这三个部分中的第二部分提供置换信息,而这三个部分中的第三部分提供符号信息。在一些示例中,用于自相关水印的密钥包括三个32比特部分,这三个部分中的第一部分用作位置阵列,这三个部分中的第二部分提供本征向量信息,而这三个部分中的第三部分提供符号信息;

在一些示例中,第三水印(或更多)也可以被添加到带水印的数字音频文件片段220中。例如,拼接水印可被用作第三水印。因此,在使用第三水印的示例中,操作612包括使用第三密钥生成第三水印。在一些示例中,第三水印被频带限制到第三带宽。在一些示例中,第三带宽与第一带宽或第二带宽重叠。操作614包括将第三水印嵌入数字音频文件片段200中。操作616包括分发带水印的数字音频文件104。

图7例示了水印检测模块700的进一步细节。水印检测模块700包括接收带水印的数字音频文件104的LPC分析组件702。搜索方法被用来搜索音频中的水印嵌入位置。在搜索之后,在使水印的存在概率最大的位置处计算水印的分数。分数越高,水印存在的概率就越高。水印检测模块700分别检测自相关水印510和扩频水印410两者(和/或可能已经嵌入到带水印的数字音频文件104中的其他水印)。

来自LPC分析组件702的激励信号由DCT组件704进行变换。自相关水印搜索740生成自相关水印分数714,如图9所示。分析滤波器组706也跟随LPC分析组件302并执行子带分解。扩频水印搜索760生成扩频水印分数716,如图8所示。在一些示例中,为了进一步增强鲁棒性,ML组件1000生成ML水印分数1010,如图10所示。各种分数被组合成复合水印分数712,其被提供给水印判定组件718(例如,水印检测器)。水印判定组件718生成并输出水印报告108,该水印报告108指示是否在带水印的数字音频文件104中检测到水印和/或任何单独的分数(例如,复合水印分数712、自相关水印分数714、扩频水印分数716和/或ML水印分数1010)。

在一些示例中,如果水印判定组件718检测到带水印的数字音频文件104中的水印,则ML组件1000和消息解码器720输出经恢复的水印消息110。

图8解说了检测扩频水印410的阶段。用于检测的水印密钥402与用于生成的水印密钥相同。水印消息110根据从置换部分404生成的置换阵列812被置换为经置换的水印消息814。这与采用符号部分408生成的符号序列818相乘。从PN部分406生成PN序列816(诸1和诸-1)并与经置换的水印消息814和符号序列818的乘积相乘。使用互相关操作822将该结果与来自带水印的数字音频文件片段220的块820相组合来进行互相关,以生成扩频水印分数716。

该分数过程可被表达为:

使用

其中ρ

图9解说了检测自相关水印510的阶段。用于检测的水印密钥502与用于生成的水印密钥相同。位置部分504为位置阵列914提供位置信息,该位置阵列914控制从本征向量部分506生成的本征向量V1和本征向量V2在本征向量阵列916中的位置。本征向量阵列916与采用符号部分508生成的符号序列918相乘。使用自相关操作922将该结果与来自带水印的数字音频文件片段220的块820相组合来进行自相关,以生成自相关水印分数714。

该分数过程可被表达为:

其中c是标量常数。

根据式(5)和(6),如果不存在水印,则自相关将保持在低水平。然而,如果存在水印,则自相关将是添加到关于水印的自相关的恒定值。这使得能够确定是否存在水印。

图10解说了ML组件1000的进一步细节。来自带水印的数字音频文件片段220的块820被提供给特征提取网络1002。来自特征提取网络1002的特征被提供给池化层1004并然后提供给分类网络1006。softmax层1008生成ML水印分数1010。来自特征提取网络1002的特征被提供给解码器网络1012,并且softmax层1008(连同消息解码器720一起)输出(恢复)水印消息110。在一些示例中,特征提取网络1002、分类网络1006和解码器网络1012包括神经网络,并利用多任务训练方法和/或对抗训练方法,使用数千小时的带水印的音频数据进行训练。

图11是例示认证数字音频中涉及的示例性操作的流程图1100。在一些示例中,针对流程图1100描述的操作由图14的计算设备1400执行。流程图1100从操作1102开始,操作1102包括接收数字音频文件(带水印的数字音频文件104),且操作1104包括使用水印密钥402针对扩频水印410确定数字音频文件片段220的扩频水印分数716(第一水印分数),其中扩频水印410被频带限制到带宽201。操作1106包括使用水印密钥502针对自相关水印510确定数字音频文件片段220的自相关水印分数714(第二水印分数),其中自相关水印510被频带限制到带宽202,并且其中带宽202不与带宽01重叠。

在使用第三水印的示例中,操作1108包括使用第三水印密钥针对第三水印确定数字音频文件片段220的水印分数。操作1110包括使用ML组件1000确定数字音频文件片段220的ML水印分数1010(第三水印分数)。在一些示例中,ML组件1000包括特征提取网络1002和分类网络1006。在一些示例中,ML组件1000进一步包括解码器网络1020。

操作1112包括至少基于扩频水印分数716和自相关水印分数714来确定带水印的数字音频文件104带水印的概率。在一些示例中,确定带水印的数字音频文件104带水印的概率包括,至少基于扩频水印分数716、自相关水印分数714和第三水印的水印分数来确定带水印的数字音频文件104带水印的概率。在一些示例中,确定带水印的数字音频文件104带水印的概率包括,至少基于扩频水印分数716、自相关水印分数714和ML水印分数1010来确定带水印的数字音频文件104带水印的概率。

判定操作1114确定将接收到的数字音频文件报告为找到水印还是未找到水印。如果未找到,则在操作1116中,水印报告108指示未找到水印。否则,操作1118包括,至少基于确定带水印的数字音频文件104带水印的概率,生成指示数字音频文件102带水印的水印报告108。在一些示例中,可以不使用硬判定(判定操作1114),并且操作1118仅报告概率。操作1116和1118一起包括生成指示数字音频文件102是否带水印的水印报告108。如果检测到水印,则操作1120包括使用ML组件1000来确定经解码的水印消息110。

图12是例示检测用于认证数字音频的水印所涉及的示例性操作的流程图1200。在一些示例中,针对流程图1200描述的操作由图14的计算设备1400执行。流程图1200从操作1202开始,操作1202包括接收数字音频文件。操作1204包括使用第一密钥生成第一水印,其中所述第一水印被频带限制到第一带宽。操作1206包括使用第二密钥生成第二水印,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠。操作1208包括将所述第一水印嵌入到所述数字音频文件的片段中。操作1210包括将所述第二水印嵌入到所述数字音频文件的所述片段中。

图13是例示认证数字音频中涉及的示例性操作的流程图1300。在一些示例中,针对流程图1300描述的操作由图14的计算设备1400执行。流程图1300从操作1302开始,操作1302包括接收数字音频文件。操作1304包括使用第一密钥针对第一水印确定所述数字音频文件的片段的第一水印分数,其中所述第一水印被频带限制到第一带宽。操作1306包括使用第二密钥针对第二水印确定所述数字音频文件的所述片段的第二水印分数,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠。操作1308包括至少基于所述第一水印分数和所述第二水印分数来确定所述数字音频文件带水印的概率。操作1310包括至少基于确定所述数字音频文件带水印的所述概率来生成指示所述数字音频文件是否带水印的报告。

附加示例

一种认证数字音频的示例方法包括:接收数字音频文件;使用第一密钥生成第一水印,其中所述第一水印被频带限制到第一带宽;使用第二密钥生成第二水印,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠;将所述第一水印嵌入到所述数字音频文件的片段中;以及将所述第二水印嵌入到所述数字音频文件的所述片段中。

一种用于认证数字音频的示例系统包括:处理器;以及存储指令的计算机可读介质,所述指令在由所述处理器执行时可操作以:接收数字音频文件;使用第一密钥生成第一水印,其中所述第一水印被频带限制到第一带宽;使用第二密钥生成第二水印,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠;将所述第一水印嵌入到所述数字音频文件的片段中;以及将所述第二水印嵌入到所述数字音频文件的所述片段中。

一个或多个示例计算机存储设备,其上存储有计算机可执行指令,所述计算机可执行指令在由计算机执行时使所述计算机执行各项操作,包括:接收数字音频文件;使用第一密钥生成第一水印,其中所述第一水印被频带限制到第一带宽;使用第二密钥生成第二水印,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠;将所述第一水印嵌入到所述数字音频文件的片段中;以及将所述第二水印嵌入到所述数字音频文件的所述片段中。

一种认证数字音频的示例方法包括:接收数字音频文件;使用第一密钥针对第一水印确定所述数字音频文件的片段的第一水印分数,其中所述第一水印被频带限制到第一带宽;使用第二密钥针对第二水印确定所述数字音频文件的所述片段的第二水印分数,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠;至少基于该第一水印分数和该第二水印分数来确定该数字音频文件带水印的概率;以及至少基于确定所述数字音频文件带水印的所述概率来生成指示所述数字音频文件是否带水印的报告。

一种用于认证数字音频的示例系统包括:处理器;以及存储指令的计算机可读介质,所述指令在由所述处理器执行时可操作以:接收数字音频文件;使用第一密钥针对第一水印确定所述数字音频文件的片段的第一水印分数,其中所述第一水印被频带限制到第一带宽;使用第二密钥针对第二水印确定所述数字音频文件的所述片段的第二水印分数,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠;至少基于该第一水印分数和该第二水印分数来确定该数字音频文件带水印的概率;以及至少基于确定所述数字音频文件带水印的所述概率来生成指示所述数字音频文件是否带水印的报告。

一个或多个示例计算机存储设备,其上存储有计算机可执行指令,所述计算机可执行指令在由计算机执行时使所述计算机执行各项操作,包括:接收数字音频文件;使用第一密钥针对第一水印确定所述数字音频文件的片段的第一水印分数,其中所述第一水印被频带限制到第一带宽;使用第二密钥针对第二水印确定所述数字音频文件的所述片段的第二水印分数,其中所述第二水印被频带限制到第二带宽,并且其中所述第二带宽不与所述第一带宽重叠;至少基于该第一水印分数和该第二水印分数来确定该数字音频文件带水印的概率;以及至少基于确定所述数字音频文件带水印的所述概率来生成指示所述数字音频文件是否带水印的报告。

作为对本文描述的其他示例的替代或补充,示例包括以下各项的任意组合:

所述第一水印包含消息;

所述第二水印包含消息;

所述第一带宽具有高于5KHz的频率下限;

所述第一带宽从6KHz延伸至8KHz;

所述第二带宽具有低于5KHz的频率上限;

所述第二带宽从3KHz延伸至4KHz;

所述第一水印和第二水印包括不同的水印方案,每个水印方案选自包括以下内容的列表:扩频水印、自相关水印和拼接水印;

所述第一水印包括扩频水印,并且被频带限制到6KHz至8KHz;

所述第二水印包括自相关水印,并且被频带限制到3KHz至4KHz;

所述第一密钥包括至少96比特的第一集合;

所述第二密钥包括至少96比特的第二集合;

所述第二密钥具有与所述第一密钥不同的值;

用于扩频水印的密钥包括三个32比特部分,这三个部分中的第一部分用作PN发生器种子,这三个部分中的第二部分提供置换信息,而这三个部分中的第三部分提供符号信息;

用于自相关水印的密钥包括三个32比特部分,这三个部分中的第一部分用作位置阵列,这三个部分中的第二部分提供本征向量信息,而这三个部分中的第三部分提供符号信息;

使用第三密钥生成第三水印;

所述第三水印被频带限制到第三带宽;

所述第三带宽与所述第一带宽或所述第二带宽重叠;

将所述第三水印嵌入到所述数字音频文件的所述片段中;

使用所述第一密钥针对所述第一水印确定所述数字音频文件的所述片段的第一水印分数;

使用该第二密钥针对该第二水印确定该数字音频文件的该片段的第二水印分数;

至少基于所述第一水印分数和所述第二水印分数来确定所述数字音频文件带水印的概率;

使用第三密钥针对第三水印确定该数字音频文件的该片段的第四水印分数;

确定所述数字音频文件带水印的所述概率包括:至少基于所述第一水印分数、所述第二水印分数和所述第四水印分数来确定所述数字音频文件带水印的所述概率;

使用ML组件来确定所述数字音频文件的所述片段的第三水印分数;

确定所述数字音频文件带水印的所述概率包括:至少基于所述第一水印分数、所述第二水印分数和所述第三水印分数来确定所述数字音频文件带水印的所述概率;

所述ML组件包括特征提取网络和分类网络;

使用所述ML分量来确定经解码的水印消息;

所述ML组件进一步包括解码器网络;

至少基于确定所述数字音频文件带水印的所述概率来生成指示所述数字音频文件是否带水印的报告;

使用所述第一密钥生成所述第一水印;

使用所述第二密钥生成所述第二水印;

将所述第一水印嵌入到所述数字音频文件的所述片段中;以及

将所述第二水印嵌入到所述数字音频文件的所述片段中。

尽管已经按照各种示例以及它们相关联的操作描述了本公开的各方面,但是本领域技术人员将理解来自任何数量的不同示例的操作的组合也在本公开的各方面的范围内。

示例操作环境

图14是用于实现本文公开的各方面的示例计算设备1400的框图,并且通常被指定为计算设备1400。计算设备1400只是合适的计算环境的一个示例,并且不旨在对本文所公开的示例的使用范围或功能性提出任何限制。计算设备1400也不应被解释为具有与所示组件/模块中的任何一者或组合相关的任何依赖性或要求。本文所公开的示例可以在由计算机或诸如个人数据助理或其他手持式设备之类的其他机器执行的计算机代码或机器可使用指令(包括诸如程序组件之类的计算机可执行指令)的一般上下文中描述。一般而言,包括例程、程序、对象、组件、数据结构等的程序组件指的是执行特定任务或实现特定抽象数据类型的代码。所公开的示例可在各种系统配置中实施,包括个人计算机、膝上型计算机、智能电话、移动平板、手持设备、消费电子产品、专业计算设备等。当任务由通过通信网络链接的远程处理设备执行时,所公开的示例还可以在分布式计算环境中实现。

计算设备1400包括直接或间接耦合以下设备的总线1410:计算机存储存储器1412、一个或多个处理器1414、一个或多个呈现组件1416、I/O端口1418、I/O组件1420、电源1422和网络组件1424。虽然计算设备1400被描绘为看似单个的设备,但多个计算设备1400可以一起工作并共享所描绘的设备资源。例如,存储器1412可跨多个设备分布,并且(诸)处理器1414可以容纳在不同的设备中。

总线1410表示可以是一条或多条总线(诸如地址总线、数据总线、或其组合)。虽然为了清楚起见用线条示出了图14的各个框,描述不同的组件可以用不同的表示来完成。例如,在一些示例中,诸如显示设备之类的表示组件是I/O组件,并且处理器的一些示例具有其自己的存储器。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别,它们全部都被认为是在图14的范围之内的并且被本文称为“计算设备”。存储器1412可以采取以下计算机存储介质参考的形式,并且可操作地为计算设备1400提供对计算机可读指令、数据结构、程序模块和其他数据的存储。在一些示例中,存储器1412存储操作系统、通用应用平台或其他程序模块和程序数据中的一者或多者。因此,存储器1412能够存储和访问数据1412a和指令1412b,其可由处理器1414执行并被配置成执行本文公开的各种操作。

在一些示例中,存储器1412包括易失性和/或非易失性存储器、可移动或不可移动存储器、虚拟环境中的数据磁盘或其组合的形式的计算机存储介质。存储器1412可包括任何数量的、与计算设备1400相关联或计算设备1400可访问的存储器。存储器1412可以在计算设备1400的内部(如图14所示)、在计算设备1400的外部(未示出)、或两者(未示出)。存储器1412的示例包括但不限于随机存取存储器(RAM);只读存储器(ROM);电子可擦除可编程只读存储器(EEPROM);闪存或其他存储器技术;CD-ROM、数字多功能盘(DVD)或其他光学或全息介质;磁带盒、磁带、磁盘存储或其他磁存储设备;连线到模拟计算设备的存储器;或用于编码所需信息并由计算设备1400访问的任何其他介质。附加地或者替换地,存储器1412可跨多个计算设备1400分布,例如,在其中在多个设备1400上执行指令处理的虚拟化环境中。出于本公开的目的,“计算机存储介质”、“计算机存储存储器”、“存储器”和“存储器设备”是计算机存储存储器1412的同义术语,并且这些术语中没有一者包括载波或传播信令。

处理器1414可以包括从各种实体(诸如存储器1412或I/O组件1420)读取数据的任意数量的处理单元。具体地,处理器1414被编程为执行用于实现本公开的各方面的计算机可执行指令。这些指令可以由处理器、由在计算设备1400内的多个处理器、或由客户端计算设备1400外部的处理器执行。在一些示例中,处理器1414被编程为执行诸如以下讨论的流程图中所示和附图中所描绘的那些指令。而且,在一些示例中,处理器1414表示执行本文所描述的操作的模拟技术的一种实现。例如,这些操作可以由模拟客户端计算设备1400和/或数字客户端计算设备1400执行。呈现组件1416向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。本领域技术人员将明白并理解,计算机数据可以以多种方式呈现,诸如在图形用户界面(GUI)中视觉呈现、通过扬声器听觉呈现、在计算设备1400之间无线地呈现、通过有线连接呈现或以其他方式呈现。I/O端口1418允许计算设备1400在逻辑上耦合至包括I/O组件1420的其他设备,其中某些设备可以是内置的。示例I/O组件1420包括例如但不限于话筒、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备等。

计算设备1400可以使用到一个或多个远程计算机的逻辑连接经由网络组件1424在网络环境中工作。在一些示例中,网络组件1424包括网络接口卡和/或用于操作网络接口卡的计算机可执行指令(例如,驱动程序)。计算设备1400和其他设备之间的通信可使用任何协议或机制在任何有线或无线连接上发生。在一些示例中,网络组件1424可操作用于使用传输协议在公共、私有或混合(公共和私有)设备之间通过使用短程通信技术(例如,近场通信(NFC)、Bluetooth

尽管结合一示例计算设备1400进行了描述,但本公开的各示例能够用众多其它通用或专用计算系统环境、配置或设备来实现。适用于本公开的各方面的公知的计算系统、环境和/或配置的示例包括,但不限于:智能电话、移动平板、移动计算设备、个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、游戏控制台、基于微处理器的系统、机顶盒、可编程消费电子产品、移动电话、具有可穿戴或配件形状因子(例如,手表、眼镜、头戴式耳机或耳塞)的移动计算和/或通信设备、网络PC、小型计算机、大型计算机、包括上面的系统或设备、虚拟现实(VR)设备、增强现实(AR)设备、混合现实设备、全息设备等中的任何一种的分布式计算环境等等。此类系统或设备可以以任何方式来接受来自用户的输入,包括来自诸如键盘或指点设备之类的输入设备、通过姿势输入、接近输入(诸如通过悬停)和/或通过语音输入。

本公开的各示例可在被软件、固件、硬件或其组合中的一个或多个计算机或其他设备执行的计算机可执行指令(诸如程序模块)的一般上下文中被描述。计算机可执行指令可以被组织成一个或多个计算机可执行的组件或模块。一般而言,程序模块包括但不限于,执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件,以及数据结构。可以利用任何数量的这样的组件或模块以及它们的任何组织来实现本公开的各方面。例如,本公开的各方面不限于附图中所举例说明并且在本文所描述的特定计算机可执行指令或特定组件或模块。本公开的其他示例可以包括具有比本文所示出和描述的功能更多或更少功能的不同的计算机可执行指令或组件。在涉及通用计算机的示例中,在被配置成执行本文所描述的指令之时,本公开的各方面将通用计算机转化成专用计算设备。

作为示例而非限制,计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动存储器。计算机存储介质是有形的,且与通信介质互斥。计算机存储介质以硬件实现,并排除载波和传播信号。用于本公开的目的的计算机存储介质不是信号本身。示例性计算机存储介质包括硬盘、闪存驱动器、固态存储器、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、紧致盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)或其他光学存储器、磁带盒、磁带、磁盘存储或其他磁存储设备、或可用于存储信息以供计算设备访问的任何其他非传输介质。作为对比,通信介质通常在诸如载波或其他传输机构等已调制数据信号中体现计算机可读指令、数据结构、程序模块等,并包括任何信息传递介质。

本文所例示并描述的本公开的各示例中的操作的执行或完成顺序并非是必要的,而是在各种示例中可按不同的顺序方式来被执行。例如,构想了在某一个操作之前、同时、或之后执行或完成另一个操作也在本公开的各方面的范围之内。当介绍本公开的各方面的元素或其示例时,冠词“一”、“一个”、“该”、“所述”旨在表示有元素中的一个或多个。术语“包括”、“包含”以及“具有”旨在是包含性的,并表示除所列出的元素以外可以有附加的元素。术语“示例性”旨在表示“……的一示例”。短语“下述的一个或多个:A、B和C”是指“至少一个A和/或至少一个B和/或至少一个C”。

已经详细地描述了本公开的各方面,显然,在不偏离所附权利要求书所定义的本公开的各方面的范围的情况下,可以进行各种修改和变化。在不偏离本公开的各方面的范围的情况下,可以在上面的构造、产品以及方法中作出各种更改,意图是上面的描述中所包含的以及各附图中所示出的所有主题都应该解释为说明性的,而不是限制性的。

相关技术
  • 从时频分析角度出发的鲁棒数字音频水印算法
  • 一种基于恒定水印的鲁棒数字音频水印嵌入系统
技术分类

06120116502334