掌桥专利:专业的专利平台
掌桥专利
首页

获取语音识别训练数据的方法、装置和计算机设备

文献发布时间:2024-04-18 19:57:31


获取语音识别训练数据的方法、装置和计算机设备

技术领域

本申请涉及语音识别技术领域,特别是涉及一种获取语音识别训练数据的 方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着语音识别技术的发展,语音识别技术被广泛地应用在智能家居、汽车 电子、消费电子等各个领域。随着语音识别技术的应用范围的扩大,语音识别 准确度的需求随之增加,其中,提升语音识别准确度的关键是提高语音识别模 型的识别性能,这就要求大量准确地训练数据能够提供用以进行语音识别模型 的训练。

传统的方式中,需要依靠语言专业领域人员对每一句话进行手动听音标注, 产生文音匹配用以语音识别模型的训练。这种训练样本获取的方式效率低。

发明内容

基于此,有必要针对上述技术问题,提供一种能够提高获取效率的获取语 音识别训练数据方法、装置、计算机设备、计算机可读存储介质和计算机程序 产品。

第一方面,本申请提供了一种获取语音识别训练数据的方法。所述方法包 括:

识别目标视频中各视频帧的字幕,得到所述目标视频的多条有效字幕的字 幕内容以及各条字幕内容的时间区间;

对所述目标视频进行语音边界检测,根据检测得到的语音边界对所述目标 视频进行切分,得到所述目标视频的多个音频片段及各所述音频片段的时间区 间;

根据所述字幕内容的时间区间和所述音频片段的时间区间,确定匹配的目 标字幕内容和目标音频片段;

对所述目标音频片段进行语音识别,得到语音识别结果;

若所述语音识别结果与所述目标字幕内容匹配,则根据所述目标字幕内容 和所述目标音频片段,得到语音训练样本。

第二方面,本申请还提供了一种获取语音识别训练数据的装置,所述装置 包括:

字幕处理模块,用于识别目标视频中各视频帧的字幕,得到所述目标视频 的多条有效字幕的字幕内容以及各条字幕内容的时间区间;

语音处理模块,用于对所述目标视频进行语音边界检测,根据检测得到的 语音边界对所述目标视频进行切分,得到所述目标视频的多个音频片段及各所 述音频片段的时间区间;

匹配模块,用于根据所述字幕内容的时间区间和所述音频片段的时间区间, 确定匹配的目标字幕内容和目标音频片段;

识别模块,用于对所述目标音频片段进行语音识别,得到语音识别结果;

处理模块,用于若所述语音识别结果与所述目标字幕内容匹配,则根据所 述目标字幕内容和所述目标音频片段,得到语音训练样本。

第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器 和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时 实现以下步骤:

识别目标视频中各视频帧的字幕,得到所述目标视频的多条有效字幕的字 幕内容以及各条字幕内容的时间区间;

对所述目标视频进行语音边界检测,根据检测得到的语音边界对所述目标 视频进行切分,得到所述目标视频的多个音频片段及各所述音频片段的时间区 间;

根据所述字幕内容的时间区间和所述音频片段的时间区间,确定匹配的目 标字幕内容和目标音频片段;

对所述目标音频片段进行语音识别,得到语音识别结果;

若所述语音识别结果与所述目标字幕内容匹配,则根据所述目标字幕内容 和所述目标音频片段,得到语音训练样本。

第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存 储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步 骤:

识别目标视频中各视频帧的字幕,得到所述目标视频的多条有效字幕的字 幕内容以及各条字幕内容的时间区间;

对所述目标视频进行语音边界检测,根据检测得到的语音边界对所述目标 视频进行切分,得到所述目标视频的多个音频片段及各所述音频片段的时间区 间;

根据所述字幕内容的时间区间和所述音频片段的时间区间,确定匹配的目 标字幕内容和目标音频片段;

对所述目标音频片段进行语音识别,得到语音识别结果;

若所述语音识别结果与所述目标字幕内容匹配,则根据所述目标字幕内容 和所述目标音频片段,得到语音训练样本。

第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品, 包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

识别目标视频中各视频帧的字幕,得到所述目标视频的多条有效字幕的字 幕内容以及各条字幕内容的时间区间;

对所述目标视频进行语音边界检测,根据检测得到的语音边界对所述目标 视频进行切分,得到所述目标视频的多个音频片段及各所述音频片段的时间区 间;

根据所述字幕内容的时间区间和所述音频片段的时间区间,确定匹配的目 标字幕内容和目标音频片段;

对所述目标音频片段进行语音识别,得到语音识别结果;

若所述语音识别结果与所述目标字幕内容匹配,则根据所述目标字幕内容 和所述目标音频片段,得到语音训练样本。

上述获取语音识别训练数据的方法、装置、计算机设备、存储介质和计算 机程序产品,利用视频的字幕,提取字幕内容,对视频的语音进行边界检测, 切分得到多个语音片段,根据字幕内容的时间区间和音频片段的时间区间,匹 配目标字幕内容和目标音频片段,从而能够确保目标字幕内容和目标音频片段 在时间轴上的一致性,进而对目标音频片段进行语音识别,从内容验证目标字 幕内容和目标音频片段的一致性,使得最终确定的语音训练样本无论在时间维 度,还是在内容维度都是匹配的,提高了语音训练样本提取的准确度,同时该 方法直接利用了视频中的字幕和音频,通过对字幕和音频进行处理,省去了对 音频的标注过程,能够快速获得大量语音训练数据,提高了语音训练数据获取 的效率。

附图说明

图1为一个实施例中获取语音识别训练数据的方法的应用环境图;

图2为一个实施例中获取语音识别训练数据的方法的流程示意图;

图3为一个另实施例中获取语音识别训练数据的方法的流程示意图;

图4为一个实施例中处理语音片段的原理示意图;

图5为一个实施例中训练样本处理的结果展示的示意图;

图6为一个实施例中提取字幕内容的时间区间的步骤的示意图;

图7为一个实施例中对有效字幕区域的有效字幕进行处理的示意图;

图8为一个实施例中字幕区域坐标的关系的示意图;

图9为一个实施例中获取语音识别训练数据的方法的流程示意图;

图10为另一个实施例中获取语音识别训练数据的方法的流程示意图;

图11为一个实施例中获取语音识别训练数据的装置的结构框图;

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅 用以解释本申请,并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制 的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳 结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一 个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的 方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实 现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有 软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、 云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。 人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技 术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的语音技术,语音技术(SpeechTechnology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以 及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发 展方向,其中语音成为未来最被看好的人机交互方式之一。

本申请实施例提供的获取语音识别训练数据方法,可以应用于如图1所示 的应用环境中。其中,标注平台101通过网络与爬取服务器102进行通信,标 注平台101还通过网络与训练平台103进行通信。爬取服务器102从指定网站 爬取目标视频。标注平台101识别目标视频中各视频帧的字幕,得到目标视频 的多条有效字幕的字幕内容以及各条字幕内容的时间区间,对目标视频进行语 音边界检测,根据检测得到的语音边界对目标视频进行切分,得到目标视频的 多个音频片段及各音频片段的时间区间,根据字幕内容的时间区间和音频片段 的时间区间,确定匹配的目标字幕内容和目标音频片段,对目标音频片段进行语音识别,得到语音识别结果,若语音识别结果与目标字幕内容匹配,则根据 目标字幕内容和目标音频片段,得到语音训练样本。训练平台103利用标注平 台的语音训练样本训练语音识别模型。

其中,标注平台101可以用独立的服务器或者是多个服务器组成的服务器 集群来实现。

在一个实施例中,如图2和图3所示,提供了一种获取语音识别训练数据 方法,以该方法应用于图1中的标注平台为例进行说明,包括以下步骤:

步骤202,识别目标视频中各视频帧的字幕,得到目标视频的多条有效字幕 的字幕内容以及各条字幕内容的时间区间。

其中,可以基于训练目标,通过爬取服务器爬取得到目标视频文件,或爬 取得到视频文件后进行预处理,得到目标视频文件。

其中,爬取的视频文件中包括了字幕文件。在互联网中存在大量视频文件, 如带有字幕的影视作品,其所携带的字幕绝大多数是经过人工校对的,具有一 定准确度。因此,以该类型的视频文件为基础,提取字幕内容和语音片段,无 需人工标注即可获得大量的语音训练样本。

其中,训练目标可以为目标语言,则预处理可以为验证爬取的视频文件是 否为目标语言。具体地,获取目标视频的方式包括:从指定网站爬取得到视频 文件,抽取视频文件的至少一帧,验证视频文件的字幕是否为目标语言文字, 抽取视频文件预设时长的音频,验证视频文件的语音是否采用目标语言。其中, 利用目标语言的光学字符识别模型(OCR),验证视频文件的字幕是否为目标 语言文字。利用目标语言的语音识别模型,验证视频文件的语音是否采用目标 语言。例如,目标语言为中文,则目标视频文件应当为中文发音、中文字幕的 视频文件。又例如,目标语言为A语言,则目标视频文件应当为A语言发音、 A语言字幕的视频文件。若验证视频的字幕未采用目标语言文字,或视频的语 音未采用目标语言,则过滤该视频,不进行后续处理。进而采用本申请的获取 语音识别训练数据的方法,可以得到目标语言模型训练所需的训练数据。

在得到目标视频后,提取目标视频中的字幕。本实施例中的目标视频中的 字幕为外挂字幕(即无内嵌字幕文件),针对目标视频的每一视频帧,可以采 用光学字符识别方法(OCR),识别各视频帧中的字幕。其中,光学字符识别 方法(OCR)可以将图片中的文字、数字信息转换为文本信息,即实现图片到 文本的转换。可以理解的是,针对目标视频中的每一视频帧,采用目标语言对 应的光学字符识别,识别各视频帧中的字幕。

其中,有效字幕是指能够体现视频语音内容的字幕。通常而言,目标视频 中的文字内容不仅仅包括了语音的文字内容,还可能包括了台标、广告等字幕, 光学字符识别方法还可能误提取视频场景中的文字作为字幕。因此,通过识别 有效字幕,能够避免台标、广告以及场景文字对文字处理的误干扰,准确地提 取与语音内容相关的字幕内容。

在提取到有效字幕后,根据每条字幕内容的出现时间和消失时间,可以确 定每条字幕内容的时间区间。

步骤204,对目标视频进行语音边界检测,根据检测得到的语音边界对目标 视频进行切分,得到目标视频的多个音频片段及各音频片段的时间区间。

其中,语音边界检测,又称语音活动检测或语音端点检测,目的是从声音 信号流里识别和消除长时间的静音期。其中,语音边界检测可以采用语音活性 检测(VoiceActivity Detection,VAD),利用静音切分识别对整个视频的音频完 成语音片段的切分。如图4所示,利用VAD检测静音停顿点,保留每一句话的 开始时间和和结束时间,得到多个音频片段,及各音频片段的时间区间。

步骤206,根据字幕内容的时间区间和音频片段的时间区间,确定匹配的目 标字幕内容和目标音频片段。

通常的语音识别的需求,是能够识别正常语音对话为主,如识别对智能家 电的唤醒词,识别对智能设备的语音控制指令等。所以从语音识别需求的角度 来说,以语音对话为语音识别训练数据为佳,而视频通常以对话为主,因此, 从包括了字幕的视频提取语音识别训练数据,具有较好的训练效果。

人们在制作字幕时,为了使字幕与视频内容相符,通常一条字幕为一句话, 根据说话内容的长度,一条字幕持续若干秒,覆盖在连续几帧的视频画面中。 因此,一条字幕内容出现的时长,通常与相应的音频片段的时长是相匹配的。 例如,某影视剧中,一个视频画面为幼儿园入学场景,家长将小朋友送到幼儿 园老师手中,小朋友跟老师说“老师,早上好”,老师回应小朋友“壮壮,早 上好”。对该段视频进行语音边界检测时,小朋友和老师的对话语音停顿点, 被切分为两个语音片段。从字幕内容来说,小朋友的说话内容和老师的说话内 容分别被制作为两条字幕。通过字幕内容的时间区间和音频片段的时间区间, 则可以分别匹配小朋友说话的音频片段及字幕,以及老师说话的音频片段及字 幕。

目标字幕内容和目标音频片段,是指时间区间匹配的字幕内容和音频片段。 其中,可以只提取时间区间匹配的字幕内容和音频片段,作为目标字幕内容和 目标音频片段。也可以利用音频片段的时间区间对字幕内容的时间区间进行校 正,得到目标字幕内容和目标音频片段。

本实施例中,通过确定匹配的目标字幕内容和目标音频片段,能够将每一 条字幕内容与音频片段匹配,得到的目标字幕内容和目标音频片段是字幕与音 频对应的。

步骤208,对目标音频片段进行语音识别,得到语音识别结果。

对于时间区间匹配的目标音频片段和目标字幕内容,为进一步验证内容的 匹配程度,通过对目标音频片段进行语音识别,可以得到语音识别结果,进而 将语音识别结果与字幕内容进行匹配。

其中,可以采用语音识别模型对目标音频片段进行语音识别,得到语音识 别结果。可以理解的是,针对不同语言,利用对应的语言识别模型对该目标音 频片段进行语音识别。

步骤210,若语音识别结果与目标字幕内容匹配,则根据目标字幕内容和目 标音频片段,得到语音训练样本。

具体地,将语音识别结果和目标字幕内容进行相似度比较,若相似度在阈 值范围内,则将目标字幕内容和目标音频片段,作为语音训练样本,目标字幕 内容为该目标音频片段的标注结果。例如,考虑到语音识别模型还处在待完善 阶段,相似度阈值可以设置为20%,若语音识别结果和目标字幕内容的相似度 小于20%,将则该目标字幕内容和目标音频片段删除。若语音识别结果和目标 字幕内容的相似度大于20%。若语音识别结果与目标字幕内容匹配,则可以认 为字幕内容和音频内容在内容上是匹配的,则将目标字幕内容和目标音频片段, 作为语音训练样本。如图5所示,对于每个语音训练样本,可以将字幕内容与 音频片段的处理结果处理为标注平台的标准表格形式。在该标准表格中记录了 音频片段的存储地址以及字幕内容的映射关系,以及视频帧数,字幕时间区间, 音频片段时间区间等信息。

采用该方法,可以设定目标语言的类型,利用目标语言对应的文字识别方 法和语音识别方法,可以得到目标语言所需的训练样本。

上述的获取语音识别训练数据的方法,利用视频的字幕,提取字幕内容, 对视频的语音进行边界检测,切分得到多个语音片段,根据字幕内容的时间区 间和音频片段的时间区间,匹配目标字幕内容和目标音频片段,从而能够确保 目标字幕内容和目标音频片段在时间轴上的一致性,进而对目标音频片段进行 语音识别,从内容验证目标字幕内容和目标音频片段的一致性,使得最终确定 的语音训练样本无论在时间维度,还是在内容维度都是匹配的,提高了语音训 练样本提取的准确度,同时该方法直接利用了视频中的字幕和音频,通过对字 幕和音频进行处理,省去了对音频的标注过程,能够快速获得大量语音训练数 据,提高了语音训练数据获取的效率。

其中,对于目标字幕内容和目标音频片段的匹配,一种方式是根据各条字 幕内容的时间区间和各音频片段的时间区间,确定时间区间重合度在第一范围 内的目标字幕内容和目标音频片段。

在一个实施例中,可以按时间对字幕内容和音频片段进行排序,按序对字 幕内容和音频片段的时间区间的匹配度进行确认。如,将第一条字幕内容的时 间区间和第一条音频片段的时间区间进行匹配,将第三条字幕内容的时间区间 和第三条音频片段的时间区间进行匹配,将第N条字幕内容的时间区间和第N 条音频片段的时间区间进行匹配。若二者的时间区间的重合度在第一范围内, 则可以认为字幕内容和音频片段匹配。例如,字幕内容的时间区间为1-5秒,音 频片段的时间区间为0.3-4.8秒,二者时间区间的重合度达到在第一范围内,表 示二者在时间轴维度匹配。其中,第一时间范围是根据经验设置的,如可以设 置为90%,若字幕内容的时间区间和音频片段的时间区间的重合度大于90%, 则认为二者是匹配的。

在另一个实施例中,还可以按时间区间直接查找获得时间区间的重合度在 第一范围内的目标字幕内容和目标音频片段。具体地,可以根据字幕内容的时 间区间,在音频片段集中查找与该时间区间存在交集的音频片段,再计算字幕 内容的时间区间和音频片段的时间区间的重合度,若二者的时间区间的重合度 在第一范围内,则可以认为字幕内容和音频片段的时间区间匹配。还可以根据 音频片段的时间区间,在字幕内容集中查找与该时间区间存在交集的音字幕内 容,再计算字幕内容的时间区间和音频片段的时间区间的重合度,若二者的时 间区间的重合度在第一范围内,则可以认为字幕内容和音频片段的时间区间匹 配。

例如,对于某个字幕内容,其时间区间为1-5秒,则在音频片段集中查找时 间区间与1-5秒存在交集的音频片段。例如,一个音频片段的时间区间为1.2-4.8 秒,与1-5秒存在交集,该音频片段为与字幕内容的时间区间存在交集的音频片 段。再进一步计算字幕内容的时间区间和音频片段的时间区间的重合度,若二 者的时间区间的重合度在第一范围,则可以认为字幕内容和音频片段匹配。

其中,若查询到的字幕内容或音频片段有多个,则取交集范围最广的一个 作为查找结果。例如在音频片段集中查找时间区间与1-5秒存在交集的音频片段 包括一个音频片段A,其时间区间是0-1.2秒,还包括一个音频片段B,其时间 区间为1.2-4.8,音频片段B与该字幕内容的交集范围最广,则将音频片段B作 为字幕内容的查找结果。

本实施根据各条字幕内容的时间区间和各音频片段的时间区间,确定时间 区间偏差在允许范围内的目标字幕内容和目标音频片段,能够快速确定在时间 轴上匹配的目标字幕内容和目标音频片段。

但该方式只考虑了时间区间偏差较小的目标字幕内容,一定程度上提前剔 除了部分素材,而容易导致提取到的训练数据少。实际应用过程中,字幕内容 和音频片段的时间区间匹配度低,是字幕识别准确度导致的。具体地,字幕识 别的准确度,容易受视频画面内容的干扰,以及文字识别模型的影响。当识别 到字幕出现错误时,容易导致字幕内容的时间区间存在误差。

针对这种情况,一种实施方式中,根据字幕内容的时间区间和音频片段的 时间区间,确定匹配的目标字幕内容和目标音频片段时间区间,还可以为:根 据各条字幕内容的时间区间和各音频片段的时间区间,确定时间区间重合度在 第二范围内的初选字幕内容和目标音频片段;对初选字幕内容的时间区间进行 校正;根据校正时间区间内的字幕,得到目标字幕内容。

具体地,不管是按序匹配的目标字幕内容和目标音频片段的方式,还是按 时间区间直接查找获得匹配的目标字幕内容和目标音频片段的方式,均根据各 条字幕内容的时间区间和各音频片段的时间区间,确定时间区间重合度在第二 范围内的初选字幕内容和目标音频片段,再对初选字幕内容的时间区间进行校 正,得到目标字幕内容。

其中,第二范围的边界值应当小于第一范围。可以在字幕内容和音频片段 的重合度不在第一范围时,进一步判断字幕内容和音频片段的重合度是否在第 二范围。其中,第二范围是根据经验所确定的字幕识别误差导致字幕内容时间 区间和音频片段时间区间存在偏差范围,如第一范围可以设置为90%-100%,第 二范围可以设置为70~90%。

以按序对字幕内容和音频片段的时间区间的匹配度进行确认的方式为例, 若字幕内容和音频片段的时间区间的重合度不在第一范围,则确认字幕内容和 音频片段的时间区间的重合度是否在第二范围。若字幕内容和音频片段的时间 区间的重合度不在第一范围,但在第二范围,则对初字幕内容的时间区间进行 校正,根据校正时间区间内的字幕,得到目标字幕内容。

在实际业务中,利用语音边界对目标视频进行切分,能够体现对话的特点, 具有较高的准确度。基于此,可以认为音频片段切分的准确度高于字幕内容范 围切分的准确度。一种实施方式,可以以目标音频片段的时间区间为参照,对 初选字幕内容的时间区间进行校正。

初选字幕内容的校正后时间,可以是在原时间区间的基础上进行了扩展, 即扩大了时间区间,如原字幕内容的时间区间为1-3秒,校正后的字幕内容的时 间区间为0.8-3.8秒。初选字幕内容的校正后时间,还可以是在原时间区间的基 础上进行了缩短,即缩短了时间区间,如原字幕内容的时间区间为0.8-3.8秒, 校正后的字幕内容的时间区间为1-3秒。相应地,识别在该时间区间各视频帧的 字幕,得到目标字幕内容。

本实施例中,对于切分出来的音频片段和字幕内容在时间区间不匹配的情 况下,可通过对字幕内容的时间区间进行校正,能够一定程度上降低字幕识别 误差导致的样本数量减少的情况。

其中,以目标音频片段的时间区间为参照,对初选字幕内容的时间区间进 行校正。该实施例中,以目标音频片段的时间区间为基准,校正初选字幕内容 的时间区间,得到目标字幕内容,校正后的目标字幕内容的时间区间与目标音 频片段的时间区间一致。例如,初选音频片段的时间区间为0.8秒-3.8秒,初选 字幕内容的时间区间为1秒至3秒,则校正后,初选字幕内容的时间区间修正 为0.8秒-3.8秒。

另一种方式中,以目标音频片段的时间区间为参照,对初选字幕内容的时 间区间进行校正,若目标音频片段的时间区间大于初选字幕内容的时间区间, 则在目标字幕内容的时间区间的基础上,扩展预设时长,得到校正的目标字幕 的时间区间。若目标音频片段的时间区间小于初选字幕内容的时间区间,则在 初选字幕内容的时间区间的基础上,缩短预设时长,得到目标的初选字幕的时 间区间。校正后的目标字幕内容的时间区间与目标音频片段的时间区间一致或 相近。例如,目标字幕内容的时间区间为1-5秒,初选音频片段的时间区间为 0.3-8秒,在初选字幕内容的时间区间基础上往前后分别延长1秒,则校正后的目标字幕内容的时间区间为0-6秒。

本实施例中,通过以目标音频片段的时间区间为参照,对初选字幕内容的 时间区间进行校正,能够使音频片段的时间区间和字幕内容的时间区间相当。

其中,通过技术手段提高字幕识别的准确度,能够进一步提高训练样本的 准确度。在一个实施例中,识别目标视频中各视频帧的字幕,得到目标视频的 多条有效字幕的字幕内容以及各条字幕内容的时间区间,如图6所示,包括:

步骤602,识别目标视频中各视频帧的字幕内容,确定具有字幕的字幕区域。

具体地,对于目标视频中的各视频帧,分别采用目标语言的光学字符识别 模型(OCR),获取各视频帧中的字幕,以及各字幕所在的字幕区域。其中, 字幕区域具体是指字幕在视频帧图像中的位置。如图7所示,对于该视频帧, 在视频帧的下方中间,识别到字幕区域。

步骤604,确定有效字幕区域,将各视频帧中有效字幕区域中的字幕确定所 为有效字幕。

其中,可以根据经验设置规则,剔除各字幕区域中的无效字幕区域,得到 有效字幕区域。无效字幕区域如台标所在的区域,广告所在的区域等。与正常 字幕相比,这些干扰字幕通常是不变的,如台标通常在视频画面的左上角,又 如,为了具有较好的广告效果,广告字幕展示的时间通常较长,变化较少。基 于此,可以通过对字幕区域中文字的变化,确定该字幕区域是否有效。

其中,还可以结合实际应用设置其它检验规则,此处不做限制。

在确定了有效字幕区域后,有效字幕区域中的字幕为有效字幕。如图7所 示,确定了视频帧下方中间的字幕区域为有效字幕区域,该有效字幕区域内中 的字幕为有效字幕。

步骤606,根据有效字幕的出现时间和消失时间,得到多条有效字幕的字幕 内容以各字幕内容的时间区间。

具体地,当识别到前后帧个视频帧的有效字幕区域内的有效字幕发生变化 时,如后一视频帧的有效字幕区域的有效字幕相对于前一帧发生变化时,确定 该后一帧所在时间为有效字幕的出现时间,识别获得该有效字幕的字幕内容。 进而继续比较各视频帧有效字幕区域的字幕,当该有效字幕消失时,确定该帧 所在时间有效字幕的消失时间,通过识别视频中有效字幕的出现时间和消失时 间,确定相应的时间区间为有效字幕的时间区间。

本实施例中,通过设置相应的识别规则确定有效字幕区域,能够剔除干扰 字幕对字幕识别的影响,准确提取有效字幕。

具体地,确定有效字幕区域,将各视频帧中有效字幕区域中的字幕确定所 为有效字幕,包括:若字幕区域中的字幕内容不符合有效字幕要求,则剔除该 字幕区域;在剩余的字幕区域中将横坐标或纵坐标位置不变的字幕区域作为有 效位置字幕区域;将有效字幕区域的字幕确定为有效字幕。

有效字幕要求具体可以根据经验,以及业务需求确定。通常的有效字幕要 求可以包括字幕重复程度、字幕内容的字符类型等。

若字幕区域中的字幕内容不符合有效字幕要求,则剔除该字幕区域。例如 通过识别,左上角的字幕区域中的字幕重复度高,则左上角的字幕区域被识别 为无效字幕区域,剔除该位置的字幕区域。

在剩余字幕区域中,将横坐标或纵坐标位置不变的字幕区域作为有效位置 字幕区域。实际业务中,视频中的字幕通常有两种形式,一种形式是字幕横放 在画面的下方,一种形式是字幕竖放在画面的左侧或右侧。而一个视频中,字 幕位置通常是固定的。基于此,有效字幕区域的横坐标或纵坐标位置应当是不 变的。因此,在剩余字幕区域中,将横坐标或纵坐标位置不变的字幕区域作为 有效位置字幕区域,能够从字幕所在位置上确定位置固定的有效字幕区域。可 以理解的是,一个目标视频中,应当只存在横坐标不变,或纵坐标不变中的一 种情况。纵坐标不变表示字幕以竖向展示,横坐标不变,表示字幕以横向展示。如图8所示,字幕区域的纵坐标不变。

本实施例中,利用了有效字幕内容的规则以及字幕区域展示的规则,能够 准确提取有效字幕。

其中,有效字幕要求可以包括字幕内容不重复,以及字幕内容包括目标语 言字符等中的至少一个。相应地,字幕区域中的字幕内容不符合有效字幕要求, 则剔除该字幕区域,可以为,若字幕区域的字幕内容重复,则剔除该字幕区域。 还可以为若字幕区域的字幕内容不包括目标语言文字的字符编码,则剔除该字 幕区域。

具体地,若一个字幕区域的字幕内容重复两次,或两条字幕内容的相似度 达到80%以上,则可以认为该字幕区域的字幕内容不符合有效字幕要求,则将 该字幕区域作为无效字幕区域,从而该字幕区域中重复出现的字幕被删除,这 种情况的重复的字幕通常为台标、剧名或广告等。

若字幕区域的字幕内容重复,则剔除该字幕区域,还可以为若字幕区域的 字幕内容不包括目标语言文字的字符编码,则剔除该字幕区域。

具体地,若一个字幕区域的字幕区域的字幕内容不包括目标文字字符编码, 则认为该字幕区域展示的不是目标语言的文字字幕,删除该字幕区域。以目标 语言为英文为例,若一个字幕区域的字幕内容完全不包括英文字符Unicode编码 时,则删除该字幕区域。

本实施例中,通过文字重复度以及目标语言文字两个维度从文字内容的维 度剔除干扰字幕,提高字幕提取的准确度。

在另一个实施例中,在识别目标视频中各视频帧的字幕内容,确定具有字 幕的字幕区域之后,该方法还包括:将发生字幕内容变化的视频帧确定为关键 帧。若目标视频的关键帧数量不少于预设数量,则执行确定有效字幕区域,将 各视频帧中有效字幕区域中的字幕确定所为有效字幕的步骤。

具体地,通过识别各视频帧的字幕内容后,将字幕内容发生变化的帧确定 为关键帧。从视频内容来看,台标等字幕不会变化,通常变化的是正常字幕, 而考虑到文字识别本身存在的误差(如误识别场景本身存在的文字为字幕), 因此,考虑到干扰字幕的存在,若一个视频的关键帧数量少于预设数据,也可 以推测视频本身不含有正常字幕,或字幕过少,则过滤掉该视频。若视频的关 键帧数量符合要求,则对该视频进行后续处理。

本实施例中,通过对视频的关键帧数量检测,能够过滤掉不具有字幕,或 字幕内容过少的视频。

一种获取语音识别训练数据的方法,如图9所示,包括:

步骤801,从指定网站爬取视频。

步骤802,对视频进行预处理,得到目标视频。

步骤803,识别目标视频中各视频帧的字幕内容,确定具有字幕的字幕区域。

具体地,如图10所示,利用OCR服务,识别目标视频中各视频帧中的字 幕内容,根据字幕在视频帧中的区域,具有字幕区域。利用目标视频中字幕内 容发生变化的帧为关键帧。若关键帧的数量少于预设数据,则过滤该目标视频。

步骤804,确定有效字幕区域,将各视频帧中有效字幕区域中的字幕确定所 为有效字幕。

具体地,若字幕区域中的字幕内容不符合有效字幕要求,则剔除该字幕区 域,在剩余的字幕区域中将横坐标或纵坐标位置不变的字幕区域作为有效位置 字幕区域,将有效字幕区域的字幕确定为有效字幕。

步骤805,根据有效字幕的出现时间和消失时间,得到多条有效字幕的字幕 内容以各字幕内容的时间区间。

步骤806,对目标视频进行语音边界检测,根据检测得到的语音边界对目标 视频进行切分,得到目标视频的多个音频片段及各音频片段的时间区间。

如图10所示,对目标视频采用VAD检测,根据VAD检测的停顿点进行音 频切割,得到多个音频片段以及各音频片段的时间区间。

步骤807,根据各条字幕内容的时间区间和各音频片段的时间区间,确定时 间区间重合度在第二范围内的初选字幕内容和目标音频片段。

步骤808,对初选字幕内容的时间区间进行校正。

如图10所示,可以为在初选字幕内容的超始时间的基础上加0.5秒,以对 初选字幕内容的时间区间进行校正。

步骤809,根据校正时间区间内的字幕,得到目标字幕内容,根据初选音频 片段,得到目标音频片段。

步骤810,对目标音频片段进行语音识别,得到语音识别结果。

具体地,调用ASR服务,对目标音频片段进行识别。

步骤811,若语音识别结果与目标字幕内容匹配,则根据目标字幕内容和目 标音频片段,得到语音训练样本。

如图10,对目标音频片段的语音识别结果与字幕内容进行相似度计算,若 相似度大于相似度阈值,则认为语音识别结果与目标字幕内容匹配。

步骤812,若语音识别结果与目标字幕内容不匹配,则剔除目标字幕内容和 目标音频片段。

如图10,若相似度小于相似度阈值,则删除目标字幕内容和目标音频片段。

本实施例的获取语音识别训练数据的方法,针对文音匹配的语音识别训练 样本标注过程中,投入需要大量人力标注训练数据的问题,通过提取出视频资 源内的字幕结果,再结合字幕区间和语音时间戳进行对应匹配,自动化大批量 生产训练样本,节省标注的人力并提高了标注数据的有效性。

应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按 照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执 行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些 步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的 至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然 是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执 行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者 阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的 获取语音识别训练数据的方法的获取语音识别训练数据的装置。该装置所提供 的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的 一个或多个获取语音识别训练数据的装置实施例中的具体限定可以参见上文中 对于获取语音识别训练数据的方法的限定,在此不再赘述。

在一个实施例中,如图11所示,提供了一种获取语音识别训练数据的装置, 包括:

字幕处理模块1102,用于识别目标视频中各视频帧的字幕,得到目标视频 的多条有效字幕的字幕内容以及各条字幕内容的时间区间。

语音处理模块1104,用于对目标视频进行语音边界检测,根据检测得到的 语音边界对目标视频进行切分,得到目标视频的多个音频片段及各音频片段的 时间区间。

匹配模块1106,用于根据字幕内容的时间区间和音频片段的时间区间,确 定匹配的目标字幕内容和目标音频片段。

识别模块1108,用于对目标音频片段进行语音识别,得到语音识别结果。

处理模块1110,用于若语音识别结果与目标字幕内容匹配,则根据目标字 幕内容和目标音频片段,得到语音训练样本。

上述获取语音识别训练数据的装置,利用视频的字幕,提取字幕内容,对 视频的语音进行边界检测,切分得到多个语音片段,根据字幕内容的时间区间 和音频片段的时间区间,匹配目标字幕内容和目标音频片段,从而能够确保目 标字幕内容和目标音频片段在时间轴上的一致性,进而对目标音频片段进行语 音识别,从内容验证目标字幕内容和目标音频片段的一致性,使得最终确定的 语音训练样本无论在时间维度,还是在内容维度都是匹配的,提高了语音训练 样本提取的准确度,同时该方法直接利用了视频中的字幕和音频,通过对字幕 和音频进行处理,省去了对音频的标注过程,能够快速获得大量语音训练数据, 提高了语音训练数据获取的效率。

在另一个实施例中,匹配模块,用于根据各条字幕内容的时间区间和各音 频片段的时间区间,确定时间区间重合度在第一范围内的目标字幕内容和目标 音频片段。

在另一个实施例中,匹配模块,包括:

匹配判断模块,用于根据各条字幕内容的时间区间和各音频片段的时间区 间,确定时间区间重合度在第二范围内的初选字幕内容和目标音频片段;

校正模块,用于对初选字幕内容的时间区间进行校正;根据校正时间区间 内的字幕,得到目标字幕内容。

在另一个实施例中,校正模块,用于以目标音频片段的时间区间为参照, 对初选字幕内容的时间区间进行校正。

在另一个实施例中,字幕处理模块,用于:

文字识别模块,用于识别目标视频中各视频帧的字幕内容,确定具有字幕 的字幕区域。

有效字幕区域处理模块,用于确定有效字幕区域,将各视频帧中有效字幕 区域中的字幕确定所为有效字幕。

字幕区间处理模块,用于根据有效字幕的出现时间和消失时间,得到多条 有效字幕的字幕内容以各字幕内容的时间区间.

在另一个实施例中,有效字幕区域处理模块,用于若字幕区域中的字幕内 容不符合有效字幕要求,则剔除该字幕区域;在剩余的字幕区域中将横坐标或 纵坐标位置不变的字幕区域作为有效位置字幕区域;将有效字幕区域的字幕确 定为有效字幕。

在另一个实施例中,有效字幕区域处理模块,用于若字幕区域的字幕内容 重复,则剔除该字幕区域,或若字幕区域的字幕内容不包括目标语言文字的字 符编码,则剔除该字幕区域。

在另一个实施例中,文字识别模块,还用于将发生字幕内容变化的视频帧 确定为关键帧,有效字幕区域处理模块在目标视频的关键帧数量不少于预设数 量,用于确定有效字幕区域,将各视频帧中有效字幕区域中的字幕确定所为有 效字幕。

上述获取语音识别训练数据的装置中的各个模块可全部或部分通过软件、 硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中 的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理 器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器, 其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出 接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出 接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中, 该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括 非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机 程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的 运行提供环境。该计算机设备的数据库用于存储视频数据。该计算机设备的输 入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种 获取语音识别训练数据的方法。

本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器 中存储有计算机程序,该处理器执行计算机程序时实现上述各实施例的获取语 音识别训练数据的方法。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现上述各实施例的获取语音识别训练数据的 方法。

在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算 机程序被处理器执行时实现上述各实施例的获取语音识别训练数据的方法。

需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、 用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示 的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数 据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一 种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、 软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、 磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器 (Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase ChangeMemory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器 (Random AccessMemory,RAM)或外部高速缓冲存储器等。作为说明而非局 限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory, DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库 和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数 据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计 算的数据处理逻辑器等,不限于此。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和 改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利 要求为准。

技术分类

06120116459326