掌桥专利:专业的专利平台
掌桥专利
首页

一种基于声纹提取和对比的视音频媒资检索方法及系统

文献发布时间:2024-04-18 20:01:23


一种基于声纹提取和对比的视音频媒资检索方法及系统

技术领域

本发明涉及音视频文件处理技术领域,尤其涉及一种基于声纹提取和对比的视音频媒资检索方法及系统。

背景技术

随着计算机应用技术的发展与互联网速度的提高,用户可以访问到的文本,音频和视频等多媒体信息不断增加.这样,计算机用户在处理信息时所面临的主要问题已经从早期的信息匮乏转变为从海量信息中快速合理检索出需要信息。

于是,从90年代初开始,基于内容的图像(视频)检索成为多媒体领域研究的热点之一。在基于内容的图像(视频)检索中,颜色,纹理,形状和运动等视觉特征被提取出来表征图像(视频)内容所蕴涵的语义,从而实现图像(视频)数据的查询与管理。

由于音频也蕴含了大量的语义信息,近年来,基于内容的音频检索也受到越来越多的关注,然而目前,对于视音频的检索效果并不佳。视音频媒资库,存在大量的低画质珍贵历史资料,通过人脸、OCR识别往往偏差得不到准确的识别结果,而通过声纹识别可在画质不支持的情况,准备识别声纹的人物信息。而对无画面的采访文件、历史录音文件、音画不同步文件、重要人物和敏感人物的语音文件,存在画面缺失的情况,对文件的人物信息进行检索,只能耗费大量人力手动编目。

发明内容

本发明的目的是提供一种基于声纹提取和对比的视音频媒资检索方法及系统,以解决如何提高视音频检索效率以及准确率的技术问题。

本发明是采用以下技术方案实现的:一种基于声纹提取和对比的视音频媒资检索方法,包括如下步骤:

通过媒资库采集各人物的声纹样本,生成人物声纹特征库;

上传文件至媒资库,自动生成声纹分析任务,并生成数据库ES数据索引;

采用关键词检索或声纹检索的方式对所需的声纹文件和片段进行检索。

进一步的,所述媒资库包括人物声纹样本库和声纹智能分析引擎,所述人物声纹样本库用以收集各人物的声纹样本,所述声纹智能分析引擎用以对声纹样本进行自动识别,并提取各声纹样本的特征码,形成人物声纹特征库。

进一步的,所述媒资库还包括上传模块,用户通过上传模块上传文件到媒资库,文件进入媒资库后,自动生成声纹分析任务。

进一步的,文件进入媒资库后,声纹智能分析引擎对文件进行智能声纹分析,截取文件声音片段,对每个片段进行声纹识别,提取声纹特征码,并将提取出的特征码与人物声纹特征库中的特征码进行比对。

进一步的,若比对结果低于匹配阈值,则认为比对失败,并将失败结果返回至用户;若比对结果大于等于匹配阈值,则认为比对成功,将成功结果返回至用户,并为比对成功文件的片段自动标注对应的人物声纹信息,生成数据库ES数据索引,便于关键词检索。

进一步的,所述关键词检索的方法为:用户向媒资库输入对应人物的关键词,通过数据库ES数据索引,返回所需的声纹文件和片段。

进一步的,所述声纹检索的方法为:用户向媒资库输入人物音频文件,媒资库对音频文件进行自动识别,提取声纹特征码,并与人物声纹特征库中的特征码进行比对,将比对成功的片段加入结果集,当比对结束后,返回比对结果。

一种基于声纹提取和对比的视音频媒资检索系统,包括媒资库,通过媒资库采集各人物的声纹样本,生成人物声纹特征库;上传文件至媒资库,自动生成声纹分析任务,并生成数据库ES数据索引;媒资库采用关键词检索或声纹检索的方式对所需的声纹文件和片段进行检索。

本发明的有益效果在于:本发明补充画面分析失常的情况,支持基于人物声纹的快速检索,使文件得以充分使用,并为用户检索文件提供支持,基于声纹识别、比对技术的发展和应用,通过算法引擎和大数据训练,利用CPU、GPU资源对文件声纹内容快速识别,支持对海量的视音频文件自动进行声纹识别,将识别的声纹特征码与声纹库人物声纹特征码对比,若超过声纹匹配的阈值,自动标注文件声纹片段的人物信息。通过人物名称检索,自动将人物相关的声纹片段检出,提供人物的声纹语音文件,可实时识别声纹特征,检出对应人物的所有声纹片段。本发明对低画质的珍贵历史资料、无画面语音采访、重要人物和敏感人物声音识别等场景,提供视音频媒资的智能分析、智能检索、智能审核支持。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为文件声纹分析流程图;

图2为关键词检索流程图;

图3为声纹检索流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

实施例1

参阅图1,一种基于声纹提取和对比的视音频媒资检索方法,包括如下步骤:

通过媒资库采集各人物的声纹样本,生成人物声纹特征库;

上传文件至媒资库,自动生成声纹分析任务,并生成数据库ES数据索引;

采用关键词检索或声纹检索的方式对所需的声纹文件和片段进行检索。

在本实施例当中,所述媒资库包括人物声纹样本库和声纹智能分析引擎,所述人物声纹样本库用以收集各人物的声纹样本,所述声纹智能分析引擎用以对声纹样本进行自动识别,并提取各声纹样本的特征码,形成人物声纹特征库。

声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱。声纹不仅具有特定性,而且有相对稳定性的特点,无论讲话者是故意模仿他人声音和语气,还是耳语轻声讲话,即使模仿得惟妙惟肖,其声纹却始终不变。

在本实施例当中,所述媒资库还包括上传模块,用户通过上传模块上传文件到媒资库,文件进入媒资库后,自动生成声纹分析任务。进一步的,当文件进入媒资库后,声纹智能分析引擎对文件进行智能声纹分析,截取文件声音片段,对每个片段进行声纹识别,提取声纹特征码,并将提取出的特征码与人物声纹特征库中的特征码进行比对,若比对结果低于匹配阈值,则认为比对失败,并将失败结果返回至用户;若比对结果大于等于匹配阈值,则认为比对成功,将成功结果返回至用户,并为比对成功文件的片段自动标注对应的人物声纹信息,生成数据库ES数据索引,便于关键词检索。

在本实施例当中,所述声纹智能分析引擎采用基于DNN(深度神经网络,DeepNeural Networks)架构的d-vector,主要包括三个阶段:训练阶段、注册阶段和验证阶段。

训练阶段:通过DNN为输入的语音数据找到一个合适的向量表示,希望能找到一个隐变量空间,可以训练出来对所有人的分类器,每个人都是这个隐变量空间的一个向量。具体做法是采用有监督的学习方式:输入训练集为语音数据和每条语音(Utterance)对应的说话人标签(Label),DNN的训练目标就是尽可能准确地给出输入语音的标签,即提高语音的分类准确率。

注册阶段:对应一个训练收敛的DNN去掉它的最后一层分类层(一般会称为Softmax层),选取倒数第二层全连接层(Fully Connected Layer,FC)的输出向量作为DNN对一条语音数据的向量表示,并把这个向量称为d-vector。此处得到的d-vector类似于传统方法中的i-vector,可以用作后面的分类、打分等操作。将某个说话人提供的多段语音输入到第一阶段训练好的DNN模型中得到一系列d-vectors,将这些d-vectors做平均计算就得到了对应于该说话人的个性化模型(Speaker Model)。

验证阶段:声纹验证阶段的具体任务是计算注册语音与其对应的测试语音之间的得分(Score),如果得分高于一个预设定的阈值则接受,小于则拒绝。

参见图2,所述关键词检索的方法为:用户对所需的声纹文件、片段检索,可输入声纹对应人物的关键词,通过关键词检索,匹配媒资库标注的人物声纹信息,通过数据库ES数据索引,返回所需的声纹文件和片段。

参见图3,所述声纹检索的方法为:用户对所需声纹文件,片段检索,可上传一段人物语音文件,支持对样本库没有的人物声纹进行检索,声纹智能分析引擎对音频文件进行自动识别,提取声纹特征码,并与人物声纹特征库中的特征码进行比对,将比对成功的片段加入结果集,当比对结束后,返回比对结果,返回至用户。

基于同一发明构思本发明还提供了一种基于声纹提取和对比的视音频媒资检索系统,以实现上述基于声纹提取和对比的视音频媒资检索方法,该系统包括媒资库,通过媒资库采集各人物的声纹样本,生成人物声纹特征库;上传文件至媒资库,自动生成声纹分析任务,并生成数据库ES数据索引;媒资库采用关键词检索或声纹检索的方式对所需的声纹文件和片段进行检索。

本发明至少具有以下技术效果:

本发明补充画面分析失常的情况,支持基于人物声纹的快速检索,使文件得以充分使用,并为用户检索文件提供支持,基于声纹识别、比对技术的发展和应用,通过算法引擎和大数据训练,利用CPU、GPU资源对文件声纹内容快速识别,支持对海量的视音频文件自动进行声纹识别,将识别的声纹特征码与声纹库人物声纹特征码对比,若超过声纹匹配的阈值,自动标注文件声纹片段的人物信息。通过人物名称检索,自动将人物相关的声纹片段检出,提供人物的声纹语音文件,可实时识别声纹特征,检出对应人物的所有声纹片段。本发明对低画质的珍贵历史资料、无画面语音采访、重要人物和敏感人物声音识别等场景,提供视音频媒资的智能分析、智能检索、智能审核支持。

需要说明的是,对于前述的实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例属于优选实施例,所涉及的动作并不一定是本申请所必须的。

上述实施例中,描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

相关技术
  • 一种电磁驱动光学衰减片切换装置及切换系统
  • 一种编码模式切换方法和装置、解码模式切换方法和装置
  • 一种副井双罐提升机的编码器切换装置及其切换方法
  • 一种基于R型随机切换电磁装置的顺序切换装置
  • 一种循环和顺序自动切换的高速随机目标视频记录装置
技术分类

06120116549548