掌桥专利:专业的专利平台
掌桥专利
首页

一种通过声音指纹实现EPG校准的方法及校准装置

文献发布时间:2023-06-19 19:23:34



技术领域

本发明涉及EPG校准领域,尤其是涉及一种通过声音指纹实现EPG校准的方法及校准装置。

背景技术

电子节目单,又名EPG(Electronic Program Guide,简称EPG),是IPTV系统为用户提供服务的入口界面,为各种IPTV业务提供索引及导航,是用户使用IPTV业务必不可少的操作平台。由于电子节目单都是事先制作,如果中间出现一些栏目插播或播放延长,以及插播广告等,会导致后续整个电子节目单栏目信息不一致情况,影响用户点播,并且大部分的节目单的时间都只有一个粗略的时间点,如果需要二次编辑素材,需要重新确认精确到秒的节目单的时间点。

目前常规的电子节目单的校准方式,都是采用纯人工方式进行手动校准,需组织人力实时查看播出节目并实时标记更新,基于人工的方法手工校准费时费力,而且随着频道的增加人力成本也需要同步增加。

本发明提出一种思路,利用现有EPG以及对应的音频流,提取频谱特征,建立样本库,通过截取的实时的音频流与样本库的匹配来修正EPG。相对于图像,音频的指纹特征较容易提取,且处理时占用资源较少。

发明内容

本发明旨在解决EPG人工校准耗时耗力的问题。

为解决上述技术问题,本发明公开了一种通过声音指纹实现EPG校准的方法。

所述技术方案是:

(1)获取实时的音频流数据,若积累的数据流满足时间长度t,则提取该段音频流的指纹特征,通过倒排索引技术查找相同特征数大于预设阈值的目标样本集合,依次遍历该集合;

(2)若该段音频流中存在一个时间段,能够匹配上集合中的任意样本,且匹配长度符合预设时长,记录所述时间段的时间位置以及对应匹配成功的样本id,缓存该结果;反之则不缓存;

(3)获取下一段音频流,若上一段音频流无匹配结果,则下一段音频流和上一段音频流的重合时间为t1;若有匹配结果,为了融合最终结果防止遗漏,和上一段音频流的重合时间为t2;重复上述步骤(1)和(2);

(4)若当前有匹配结果,判断当前的缓存结果与上一段是否存在重合:若存在重合且匹配样本相同,则融合所述结果对应的时间段;若当前无匹配结果,则计算当前音频流与缓存结果的结束时间差,若大于预设时间差阈值,则用所述音频流的结束时间更新缓存结果的结束时间。

具体的,步骤2中的预设时长为5秒。

具体的,t1和t2均小于t。

更具体的,t的典型取值为30秒,t1和t2的典型取值分别为5秒和10 秒。

具体的,还包括步骤:

 (a)建立节目样本

(a1)若EPG信息中存在片头信息,根据起始时间和持续时长取出对应的音频数据,根据音频指纹技术得到指纹特征,作为该节目的样本存入样本库;

(a2)若该节目不存在片头信息,则取所述节目的前t3秒为片头,将所述片头的音频数据的指纹特征存入样本库;

 (b)建立广告样本

(b1)根据EPG信息得到所有的广告块音频数据,提取所有广告块的音频指纹特征,同时记录每个指纹特征对应的时间信息;

(b2)将某一广告块当作原始广告块,通过倒排索引得到和原始广告块相同特征数大于预设阈值的目标广告块集合,依次遍历该集合;

(b3)当遍历其中一个广告块时,根据新的指纹信息和音频指纹搜索匹配方法,可以得到这2个广告块的相同部分以及具体的时间位置,将原始广告块中的相同部分切割出来,加入到候选广告样本集合中;

(b4)遍历完成后,候选广告块样本集合中就有了若干个片段;

计算出候选广告块样本集合中各个片段的个数,若超过一个阈值,则判定该片段是一个真正的广告样本;

(b5)依次将所有的广告块当作原始广告块,分别得到各个广告块中的广告样本集合;通过音频指纹搜索匹配技术,对所有的广告样本集合进行去重得到样本库。

更具体的,建立节目样本时,相同的节目最多保存5个片头的样本。设置这一限制的目的是防止样本过多导致后续搜索样本时耗时过长。

更具体的,t3的典型值为15秒。

更具体的,步骤b3中,还包括步骤:若存在2个片段,起点和终点相差均不超过3秒,则认为他们是同一个片段。

更具体的,步骤b4中,还包括步骤:

当候选广告块样本集合中某片段的个数不满足阈值,但片段长度在14-16秒之间的,判定为一个真正的广告样本。

要注意的是,根据观察真实数据得知,片段长度在14-16秒之间的,即使出现次数较少,但该片段是广告的概率依旧较大,因此对符合该要求的片段降低检索要求,可以提高广告样本的召回率。

更具体的,还包括步骤:

(c)更新样本

(c1)获得最新的EPG信息和音频流数据,生成候选样本;

(c2)若当前候选样本是节目,判断该节目名是否在样本库中,若不存在则新增到样本库;

(c3)若当前候选样本是广告,则通过音频指纹搜索匹配技术,判断是否和样本库中的某个样本完全匹配,若不匹配则作为新样本更新到样本库。

更进一步的,步骤c2中,还包括步骤:

当所述的节目名存在但数量小于5时,新增到样本库。与前面建立样本相对应,同一个节目名最多存储5个,更新样本时也遵循这一规则。

相应的,提供一种EPG校准装置,包括校准单元、样本生成单元和样本更新单元,其特征在于:

所述的校准单元用于:

(1)获取实时的音频流数据,若积累的数据流满足时间长度t,则提取该段音频流的指纹特征,通过倒排索引技术查找相同特征数大于预设阈值的目标样本集合,依次遍历该集合;

(2)若该段音频流中存在一个时间段,能够匹配上集合中的任意样本,且匹配长度符合预设时长,记录所述时间段的时间位置以及对应匹配成功的样本id,缓存该结果;反之则不缓存;

(3)获取下一段音频流,若上一段音频流无匹配结果,则下一段音频流和上一段音频流的重合时间为t1;若有匹配结果,为了融合最终结果防止遗漏,和上一段音频流的重合时间为t2;重复上述步骤(1)和(2);

(4)若当前有匹配结果,判断当前的缓存结果与上一段是否存在重合:若存在重合且匹配样本相同,则融合所述结果对应的时间段;若当前无匹配结果,则计算当前音频流与缓存结果的结束时间差,若大于预设时间差阈值,则用所述音频流的结束时间更新缓存结果的结束时间;

所述的样本生成单元用于:

(a)建立节目样本

(a1)若EPG信息中存在片头信息,根据起始时间和持续时长取出对应的音频数据,根据音频指纹技术得到指纹特征,作为该节目的样本存入样本库;

(a2)若该节目不存在片头信息,则取所述节目的前t3秒为片头,将所述片头的音频数据的指纹特征存入样本库;

 (b)建立广告样本

(b1)根据EPG信息得到所有的广告块音频数据,提取所有广告块的音频指纹特征,同时记录每个指纹特征对应的时间信息;

(b2)将某一广告块当作原始广告块,通过倒排索引得到和原始广告块相同特征数大于预设阈值的目标广告块集合,依次遍历该集合;

(b3)当遍历其中一个广告块时,根据新的指纹信息和音频指纹搜索匹配方法,可以得到这2个广告块的相同部分以及具体的时间位置,将原始广告块中的相同部分切割出来,加入到候选广告样本集合中;

(b4)遍历完成后,候选广告块样本集合中就有了若干个片段;

计算出候选广告块样本集合中各个片段的个数,若超过一个阈值,则判定该片段是一个真正的广告样本;

(b5)依次将所有的广告块当作原始广告块,分别得到各个广告块中的广告样本集合;通过音频指纹搜索匹配技术,对所有的广告样本集合进行去重得到样本库;

所述的样本更新单元用于:

(c)更新样本

(c1)获得最新的EPG信息和音频流数据,生成候选样本;

(c2)若当前候选样本是节目,判断该节目名是否在样本库中,若不存在则新增到样本库;

(c3)若当前候选样本是广告,则通过音频指纹搜索匹配技术,判断是否和样本库中的某个样本完全匹配,若不匹配则作为新样本更新到样本库。

附图说明

图1是本发明的校准流程图;

图2是本发明的建立节目样本流程图;

图3是本发明建立广告样本的流程图;

图4是本发明更新样本的流程图;

图5是提取广告音频流特征的方法示意图;

图中,以S结合数字标识流程。

具体实施例

下面结合附图及具体实施例对本发明做进一步阐述。

(1)建立节目样本:

在本发明中,针对节目和广告的样本建立采用分类处理,相对来说,节目样本的建立比较简单。

如图2所示,S200中(a1)若EPG信息中存在片头信息,根据起始时间和持续时长取出对应的音频数据,根据音频指纹技术得到指纹特征,作为该节目的样本存入样本库。

S202中(a2)若该节目不存在片头信息,则取所述节目的前t3秒为片头,将所述片头的音频数据的指纹特征存入样本库。

可以看出,节目样本的建立主要是依赖于片头的EPG信息,若存在片头的EPG信息,则据此取出片头音频流,提取指纹特征,并将所述的指纹特征作为对应节目的样本。

当不存在片头EPG信息时,默认取节目的前t3秒作为片头,后续同样处理。

(2)建立广告样本

由于广告不存在片头,因此需要先提取音频指纹再挑选指纹作为对应广告的特征,具体流程如图3所示。

S300中(b1)根据EPG信息得到所有的广告块音频数据,提取所有广告块的音频指纹特征,同时记录每个指纹特征对应的时间信息;

S302中(b2)将某一广告块当作原始广告块,通过倒排索引得到和原始广告块相同特征数大于预设阈值的目标广告块集合,依次遍历该集合;

S304中(b3)当遍历其中一个广告块时,根据新的指纹信息和音频指纹搜索匹配方法,可以得到这2个广告块的相同部分以及具体的时间位置,将原始广告块中的相同部分切割出来,加入到候选广告样本集合中;

S306中(b4)遍历完成后,候选广告块样本集合中就有了若干个片段;

计算出候选广告块样本集合中各个片段的个数,若超过一个阈值,则判定该片段是一个真正的广告样本;

S308中(b5)依次将所有的广告块当作原始广告块,分别得到各个广告块中的广告样本集合;通过音频指纹搜索匹配技术,对所有的广告样本集合进行去重得到样本库。

上述流程中先将所有广告块的音频特征提取出来,再用哈希算法处理为具有唯一性的数字ID,这些ID就是声音指纹,再记录对应特征的时间信息。

下面假设以广告块1举例说明,可表达为:广告块1(指纹1,时间段;指纹3,时间段;指纹5,时间段;------),同样的,其它所有广告块的指纹特征均可以表征如下形式:

广告块1(指纹1,时间段;指纹3,时间段;指纹5;------)

广告块2(指纹1,时间段;指纹2,时间段;指纹4;------)

广告块3(指纹1,时间段;指纹2,时间段;指纹5;------)

广告块4(指纹1,时间段;指纹3,时间段;指纹5;------)

以广告块1为原始广告块,分别与其他广告块比较,得到广告块1所有指纹分别在所有广告块中的出现的次数统计,可得到如下结果:

指纹1(广告块1,1;广告块2,1;广告块3,2;广告块4,1;------)

指纹3(广告块1,1;广告块2,0;广告块3,1;广告块4,1;------)

指纹5(广告块1,1;广告块2,1;广告块3,1;广告块4,1;------)

假设预设的阈值是3,则广告块2通过1+0+1计算得到2,不满足条件;广告块3通过2+1+1计算得到4,满足条件,将广告块3加入到目标广告块集合中。

当用广告块1比对目标广告块集合中的广告块3时,由于二者均包含指纹1和指纹5,因此指纹1和指纹5对应的部分被切割出来,成为候选广告样本。

同样的,将广告块1比对其它广告块,如广告块4,由于二者均包含指纹1、指纹3、指纹5,因此指纹1、3、5对应的部分被切割出来,成为候选广告样本。

此时,广告块1对应的候选候选广告样本可表述为(指纹1对应的片段,2次;指纹3对应的片段,1次;指纹5对应的片段,2次),假设以超过次数1作为阈值,则对于广告块1来说,指纹1和5对应的片段是真正的样本。

以上只是以广告块1作为原始广告块的得到的样本,当依次这样操作便可以得到所有广告块对应的真正样本。

所有真正样本所构成的集合,去重之后,即得到所有广告比对需要的样本库。

(3)EPG校准流程

EPG校准基于上述样本库才能实现,如图1所示,包含以下步骤:

S100中(1)获取实时的音频流数据,若积累的数据流满足时间长度t,则提取该段音频流的指纹特征,通过倒排索引技术查找相同特征数大于预设阈值的目标样本集合,依次遍历该集合;

S102中(2)若该段音频流中存在一个时间段,能够匹配上集合中的任意样本,且匹配长度符合预设时长,记录所述时间段的时间位置以及对应匹配成功的样本id,缓存该结果;反之则不缓存;

S104中(3)获取下一段音频流,若上一段音频流无匹配结果,则下一段音频流和上一段音频流的重合时间为t1;若有匹配结果,为了融合最终结果防止遗漏,和上一段音频流的重合时间为t2;重复上述步骤(1)和(2);

S106中(4)若当前有匹配结果,判断当前的缓存结果与上一段是否存在重合:若存在重合且匹配样本相同,则融合所述结果对应的时间段;若当前无匹配结果,则计算当前音频流与缓存结果的结束时间差,若大于预设时间差阈值,则用所述音频流的结束时间更新缓存结果的结束时间。

步骤1中,针对实时的音频数据流,若积累的长度超过t,取典型值30秒,提取该段音频流的指纹特征,通过倒排索引技术查找相同特征数大于预设阈值的目标样本集合,依次遍历该集合。

此方法与建立广告样本基本一致,下面举例便于说明:

音频流1的特征可表达为:音频流1(指纹1,时间段;指纹3,时间段;指纹5,时间段;------),同样的,假设样本的指纹特征均表征如下形式:

样本1(指纹1,时间段;指纹3,时间段;指纹5;------)

样本2(指纹1,时间段;指纹2,时间段;指纹4;------)

样本3(指纹1,时间段;指纹2,时间段;指纹5;------)

样本4(指纹1,时间段;指纹3,时间段;指纹5;------)

将音频流1与其他广告块比较,得到音频流1所有指纹分别在所有样品中的出现的次数统计,可得到如下结果:

指纹1(样品1,1;样品2,1;样品3,2;样品4,1;------)

指纹3(样品1,1;样品2,0;样品3,1;样品4,1;------)

指纹5(样品1,1;样品2,1;样品3,1;样品4,1;------)

假设预设的阈值是3,则样品2通过1+0+1计算得到2,不满足条件;样品3通过2+1+1计算得到4,满足条件,将样品3加入遍历集合中。

当音频流1比对样品3时,若样品3中包含于音频流中,且匹配长度满足要求,则可视为匹配成功,缓存结果。在取下一段音频流的时候,重复向前截取部分时长,可避免截取造成的匹配遗漏。

当下一段未匹配成功时,说明所述的下一段与上一段均属于同一个样本,只要时间尺度上满足一定的条件,则更改缓存结果,以下一段的结束时间作为缓存结果对应的结束时间。

同样的,当下一段匹配成功且匹配到的与上一段是同一个样本,则融合二者的时间,完成样本时间段的更新。

(4)提取特征的具体方法

如图5所示,提取广告音频流特征需要经历以下几个步骤,首先截取音频流,然后通过傅里叶变换得到幅度谱,也即声音的图像谱,由于它是连续的,因此根据频率和时间划分出极大值点,这些划分出的特殊部分即作为用于区分的指纹,该指纹可被哈希算法简单处理为规定长度且具有唯一性的数字ID,同时存储对应的时间信息。

(5)校准装置

与方法对应的,所述的校准装置包括校准单元、样本生成单元、样品更新单元。

由于所述的装置与本发明的方法存在对应关系,因而本部分的内容只做简单介绍,不做重点展开描述。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

相关技术
  • 一种纠偏光电校准装置、校准系统以及校准方法
  • 一种补偿式通风率标准棒校准装置及其校准方法
  • 一种蠕动泵的校准数据采样装置及蠕动泵的精确定量校准方法
  • 一种捷联航姿安装板校准装置及其校准方法
  • 指纹模块校准装置及校准方法
  • 具有自校准功能的传声器及其校准方法、传声系统和声音检测系统
技术分类

06120115890728