获取语音识别训练数据的方法、装置和计算机设备

文献发布时间：2024-04-18 19:57:31

技术领域

本申请涉及语音识别技术领域，特别是涉及一种获取语音识别训练数据的方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着语音识别技术的发展，语音识别技术被广泛地应用在智能家居、汽车电子、消费电子等各个领域。随着语音识别技术的应用范围的扩大，语音识别准确度的需求随之增加，其中，提升语音识别准确度的关键是提高语音识别模型的识别性能，这就要求大量准确地训练数据能够提供用以进行语音识别模型的训练。

传统的方式中，需要依靠语言专业领域人员对每一句话进行手动听音标注，产生文音匹配用以语音识别模型的训练。这种训练样本获取的方式效率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高获取效率的获取语音识别训练数据方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种获取语音识别训练数据的方法。所述方法包括：

识别目标视频中各视频帧的字幕，得到所述目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间；

对所述目标视频进行语音边界检测，根据检测得到的语音边界对所述目标视频进行切分，得到所述目标视频的多个音频片段及各所述音频片段的时间区间；

根据所述字幕内容的时间区间和所述音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段；

对所述目标音频片段进行语音识别，得到语音识别结果；

若所述语音识别结果与所述目标字幕内容匹配，则根据所述目标字幕内容和所述目标音频片段，得到语音训练样本。

第二方面，本申请还提供了一种获取语音识别训练数据的装置，所述装置包括：

字幕处理模块，用于识别目标视频中各视频帧的字幕，得到所述目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间；

语音处理模块，用于对所述目标视频进行语音边界检测，根据检测得到的语音边界对所述目标视频进行切分，得到所述目标视频的多个音频片段及各所述音频片段的时间区间；

匹配模块，用于根据所述字幕内容的时间区间和所述音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段；

识别模块，用于对所述目标音频片段进行语音识别，得到语音识别结果；

处理模块，用于若所述语音识别结果与所述目标字幕内容匹配，则根据所述目标字幕内容和所述目标音频片段，得到语音训练样本。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

识别目标视频中各视频帧的字幕，得到所述目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间；

根据所述字幕内容的时间区间和所述音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段；

对所述目标音频片段进行语音识别，得到语音识别结果；

若所述语音识别结果与所述目标字幕内容匹配，则根据所述目标字幕内容和所述目标音频片段，得到语音训练样本。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

识别目标视频中各视频帧的字幕，得到所述目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间；

根据所述字幕内容的时间区间和所述音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段；

对所述目标音频片段进行语音识别，得到语音识别结果；

若所述语音识别结果与所述目标字幕内容匹配，则根据所述目标字幕内容和所述目标音频片段，得到语音训练样本。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

识别目标视频中各视频帧的字幕，得到所述目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间；

根据所述字幕内容的时间区间和所述音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段；

对所述目标音频片段进行语音识别，得到语音识别结果；

若所述语音识别结果与所述目标字幕内容匹配，则根据所述目标字幕内容和所述目标音频片段，得到语音训练样本。

上述获取语音识别训练数据的方法、装置、计算机设备、存储介质和计算机程序产品，利用视频的字幕，提取字幕内容，对视频的语音进行边界检测，切分得到多个语音片段，根据字幕内容的时间区间和音频片段的时间区间，匹配目标字幕内容和目标音频片段，从而能够确保目标字幕内容和目标音频片段在时间轴上的一致性，进而对目标音频片段进行语音识别，从内容验证目标字幕内容和目标音频片段的一致性，使得最终确定的语音训练样本无论在时间维度，还是在内容维度都是匹配的，提高了语音训练样本提取的准确度，同时该方法直接利用了视频中的字幕和音频，通过对字幕和音频进行处理，省去了对音频的标注过程，能够快速获得大量语音训练数据，提高了语音训练数据获取的效率。

附图说明

图1为一个实施例中获取语音识别训练数据的方法的应用环境图；

图2为一个实施例中获取语音识别训练数据的方法的流程示意图；

图3为一个另实施例中获取语音识别训练数据的方法的流程示意图；

图4为一个实施例中处理语音片段的原理示意图；

图5为一个实施例中训练样本处理的结果展示的示意图；

图6为一个实施例中提取字幕内容的时间区间的步骤的示意图；

图7为一个实施例中对有效字幕区域的有效字幕进行处理的示意图；

图8为一个实施例中字幕区域坐标的关系的示意图；

图9为一个实施例中获取语音识别训练数据的方法的流程示意图；

图10为另一个实施例中获取语音识别训练数据的方法的流程示意图；

图11为一个实施例中获取语音识别训练数据的装置的结构框图；

图12为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案涉及人工智能的语音技术，语音技术(SpeechTechnology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本申请实施例提供的获取语音识别训练数据方法，可以应用于如图1所示的应用环境中。其中，标注平台101通过网络与爬取服务器102进行通信，标注平台101还通过网络与训练平台103进行通信。爬取服务器102从指定网站爬取目标视频。标注平台101识别目标视频中各视频帧的字幕，得到目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间，对目标视频进行语音边界检测，根据检测得到的语音边界对目标视频进行切分，得到目标视频的多个音频片段及各音频片段的时间区间，根据字幕内容的时间区间和音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段，对目标音频片段进行语音识别，得到语音识别结果，若语音识别结果与目标字幕内容匹配，则根据目标字幕内容和目标音频片段，得到语音训练样本。训练平台103利用标注平台的语音训练样本训练语音识别模型。

其中，标注平台101可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2和图3所示，提供了一种获取语音识别训练数据方法，以该方法应用于图1中的标注平台为例进行说明，包括以下步骤：

步骤202，识别目标视频中各视频帧的字幕，得到目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间。

其中，可以基于训练目标，通过爬取服务器爬取得到目标视频文件，或爬取得到视频文件后进行预处理，得到目标视频文件。

其中，爬取的视频文件中包括了字幕文件。在互联网中存在大量视频文件，如带有字幕的影视作品，其所携带的字幕绝大多数是经过人工校对的，具有一定准确度。因此，以该类型的视频文件为基础，提取字幕内容和语音片段，无需人工标注即可获得大量的语音训练样本。

其中，训练目标可以为目标语言，则预处理可以为验证爬取的视频文件是否为目标语言。具体地，获取目标视频的方式包括：从指定网站爬取得到视频文件，抽取视频文件的至少一帧，验证视频文件的字幕是否为目标语言文字，抽取视频文件预设时长的音频，验证视频文件的语音是否采用目标语言。其中，利用目标语言的光学字符识别模型(OCR)，验证视频文件的字幕是否为目标语言文字。利用目标语言的语音识别模型，验证视频文件的语音是否采用目标语言。例如，目标语言为中文，则目标视频文件应当为中文发音、中文字幕的视频文件。又例如，目标语言为A语言，则目标视频文件应当为A语言发音、 A语言字幕的视频文件。若验证视频的字幕未采用目标语言文字，或视频的语音未采用目标语言，则过滤该视频，不进行后续处理。进而采用本申请的获取语音识别训练数据的方法，可以得到目标语言模型训练所需的训练数据。

在得到目标视频后，提取目标视频中的字幕。本实施例中的目标视频中的字幕为外挂字幕(即无内嵌字幕文件)，针对目标视频的每一视频帧，可以采用光学字符识别方法(OCR)，识别各视频帧中的字幕。其中，光学字符识别方法(OCR)可以将图片中的文字、数字信息转换为文本信息，即实现图片到文本的转换。可以理解的是，针对目标视频中的每一视频帧，采用目标语言对应的光学字符识别，识别各视频帧中的字幕。

其中，有效字幕是指能够体现视频语音内容的字幕。通常而言，目标视频中的文字内容不仅仅包括了语音的文字内容，还可能包括了台标、广告等字幕，光学字符识别方法还可能误提取视频场景中的文字作为字幕。因此，通过识别有效字幕，能够避免台标、广告以及场景文字对文字处理的误干扰，准确地提取与语音内容相关的字幕内容。

在提取到有效字幕后，根据每条字幕内容的出现时间和消失时间，可以确定每条字幕内容的时间区间。

步骤204，对目标视频进行语音边界检测，根据检测得到的语音边界对目标视频进行切分，得到目标视频的多个音频片段及各音频片段的时间区间。

其中，语音边界检测，又称语音活动检测或语音端点检测，目的是从声音信号流里识别和消除长时间的静音期。其中，语音边界检测可以采用语音活性检测(VoiceActivity Detection,VAD)，利用静音切分识别对整个视频的音频完成语音片段的切分。如图4所示，利用VAD检测静音停顿点，保留每一句话的开始时间和和结束时间，得到多个音频片段，及各音频片段的时间区间。

步骤206，根据字幕内容的时间区间和音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段。

通常的语音识别的需求，是能够识别正常语音对话为主，如识别对智能家电的唤醒词，识别对智能设备的语音控制指令等。所以从语音识别需求的角度来说，以语音对话为语音识别训练数据为佳，而视频通常以对话为主，因此，从包括了字幕的视频提取语音识别训练数据，具有较好的训练效果。

人们在制作字幕时，为了使字幕与视频内容相符，通常一条字幕为一句话，根据说话内容的长度，一条字幕持续若干秒，覆盖在连续几帧的视频画面中。因此，一条字幕内容出现的时长，通常与相应的音频片段的时长是相匹配的。例如，某影视剧中，一个视频画面为幼儿园入学场景，家长将小朋友送到幼儿园老师手中，小朋友跟老师说“老师，早上好”，老师回应小朋友“壮壮，早上好”。对该段视频进行语音边界检测时，小朋友和老师的对话语音停顿点，被切分为两个语音片段。从字幕内容来说，小朋友的说话内容和老师的说话内容分别被制作为两条字幕。通过字幕内容的时间区间和音频片段的时间区间，则可以分别匹配小朋友说话的音频片段及字幕，以及老师说话的音频片段及字幕。

目标字幕内容和目标音频片段，是指时间区间匹配的字幕内容和音频片段。其中，可以只提取时间区间匹配的字幕内容和音频片段，作为目标字幕内容和目标音频片段。也可以利用音频片段的时间区间对字幕内容的时间区间进行校正，得到目标字幕内容和目标音频片段。

本实施例中，通过确定匹配的目标字幕内容和目标音频片段，能够将每一条字幕内容与音频片段匹配，得到的目标字幕内容和目标音频片段是字幕与音频对应的。

步骤208，对目标音频片段进行语音识别，得到语音识别结果。

对于时间区间匹配的目标音频片段和目标字幕内容，为进一步验证内容的匹配程度，通过对目标音频片段进行语音识别，可以得到语音识别结果，进而将语音识别结果与字幕内容进行匹配。

其中，可以采用语音识别模型对目标音频片段进行语音识别，得到语音识别结果。可以理解的是，针对不同语言，利用对应的语言识别模型对该目标音频片段进行语音识别。

步骤210，若语音识别结果与目标字幕内容匹配，则根据目标字幕内容和目标音频片段，得到语音训练样本。

具体地，将语音识别结果和目标字幕内容进行相似度比较，若相似度在阈值范围内，则将目标字幕内容和目标音频片段，作为语音训练样本，目标字幕内容为该目标音频片段的标注结果。例如，考虑到语音识别模型还处在待完善阶段，相似度阈值可以设置为20％，若语音识别结果和目标字幕内容的相似度小于20％，将则该目标字幕内容和目标音频片段删除。若语音识别结果和目标字幕内容的相似度大于20％。若语音识别结果与目标字幕内容匹配，则可以认为字幕内容和音频内容在内容上是匹配的，则将目标字幕内容和目标音频片段，作为语音训练样本。如图5所示，对于每个语音训练样本，可以将字幕内容与音频片段的处理结果处理为标注平台的标准表格形式。在该标准表格中记录了音频片段的存储地址以及字幕内容的映射关系，以及视频帧数，字幕时间区间，音频片段时间区间等信息。

采用该方法，可以设定目标语言的类型，利用目标语言对应的文字识别方法和语音识别方法，可以得到目标语言所需的训练样本。

上述的获取语音识别训练数据的方法，利用视频的字幕，提取字幕内容，对视频的语音进行边界检测，切分得到多个语音片段，根据字幕内容的时间区间和音频片段的时间区间，匹配目标字幕内容和目标音频片段，从而能够确保目标字幕内容和目标音频片段在时间轴上的一致性，进而对目标音频片段进行语音识别，从内容验证目标字幕内容和目标音频片段的一致性，使得最终确定的语音训练样本无论在时间维度，还是在内容维度都是匹配的，提高了语音训练样本提取的准确度，同时该方法直接利用了视频中的字幕和音频，通过对字幕和音频进行处理，省去了对音频的标注过程，能够快速获得大量语音训练数据，提高了语音训练数据获取的效率。

其中，对于目标字幕内容和目标音频片段的匹配，一种方式是根据各条字幕内容的时间区间和各音频片段的时间区间，确定时间区间重合度在第一范围内的目标字幕内容和目标音频片段。

在一个实施例中，可以按时间对字幕内容和音频片段进行排序，按序对字幕内容和音频片段的时间区间的匹配度进行确认。如，将第一条字幕内容的时间区间和第一条音频片段的时间区间进行匹配，将第三条字幕内容的时间区间和第三条音频片段的时间区间进行匹配，将第N条字幕内容的时间区间和第N 条音频片段的时间区间进行匹配。若二者的时间区间的重合度在第一范围内，则可以认为字幕内容和音频片段匹配。例如，字幕内容的时间区间为1-5秒，音频片段的时间区间为0.3-4.8秒，二者时间区间的重合度达到在第一范围内，表示二者在时间轴维度匹配。其中，第一时间范围是根据经验设置的，如可以设置为90％，若字幕内容的时间区间和音频片段的时间区间的重合度大于90％，则认为二者是匹配的。

在另一个实施例中，还可以按时间区间直接查找获得时间区间的重合度在第一范围内的目标字幕内容和目标音频片段。具体地，可以根据字幕内容的时间区间，在音频片段集中查找与该时间区间存在交集的音频片段，再计算字幕内容的时间区间和音频片段的时间区间的重合度，若二者的时间区间的重合度在第一范围内，则可以认为字幕内容和音频片段的时间区间匹配。还可以根据音频片段的时间区间，在字幕内容集中查找与该时间区间存在交集的音字幕内容，再计算字幕内容的时间区间和音频片段的时间区间的重合度，若二者的时间区间的重合度在第一范围内，则可以认为字幕内容和音频片段的时间区间匹配。

例如，对于某个字幕内容，其时间区间为1-5秒，则在音频片段集中查找时间区间与1-5秒存在交集的音频片段。例如，一个音频片段的时间区间为1.2-4.8 秒，与1-5秒存在交集，该音频片段为与字幕内容的时间区间存在交集的音频片段。再进一步计算字幕内容的时间区间和音频片段的时间区间的重合度，若二者的时间区间的重合度在第一范围，则可以认为字幕内容和音频片段匹配。

其中，若查询到的字幕内容或音频片段有多个，则取交集范围最广的一个作为查找结果。例如在音频片段集中查找时间区间与1-5秒存在交集的音频片段包括一个音频片段A，其时间区间是0-1.2秒，还包括一个音频片段B，其时间区间为1.2-4.8，音频片段B与该字幕内容的交集范围最广，则将音频片段B作为字幕内容的查找结果。

本实施根据各条字幕内容的时间区间和各音频片段的时间区间，确定时间区间偏差在允许范围内的目标字幕内容和目标音频片段，能够快速确定在时间轴上匹配的目标字幕内容和目标音频片段。

但该方式只考虑了时间区间偏差较小的目标字幕内容，一定程度上提前剔除了部分素材，而容易导致提取到的训练数据少。实际应用过程中，字幕内容和音频片段的时间区间匹配度低，是字幕识别准确度导致的。具体地，字幕识别的准确度，容易受视频画面内容的干扰，以及文字识别模型的影响。当识别到字幕出现错误时，容易导致字幕内容的时间区间存在误差。

针对这种情况，一种实施方式中，根据字幕内容的时间区间和音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段时间区间，还可以为：根据各条字幕内容的时间区间和各音频片段的时间区间，确定时间区间重合度在第二范围内的初选字幕内容和目标音频片段；对初选字幕内容的时间区间进行校正；根据校正时间区间内的字幕，得到目标字幕内容。

具体地，不管是按序匹配的目标字幕内容和目标音频片段的方式，还是按时间区间直接查找获得匹配的目标字幕内容和目标音频片段的方式，均根据各条字幕内容的时间区间和各音频片段的时间区间，确定时间区间重合度在第二范围内的初选字幕内容和目标音频片段，再对初选字幕内容的时间区间进行校正，得到目标字幕内容。

其中，第二范围的边界值应当小于第一范围。可以在字幕内容和音频片段的重合度不在第一范围时，进一步判断字幕内容和音频片段的重合度是否在第二范围。其中，第二范围是根据经验所确定的字幕识别误差导致字幕内容时间区间和音频片段时间区间存在偏差范围，如第一范围可以设置为90％-100％，第二范围可以设置为70～90％。

以按序对字幕内容和音频片段的时间区间的匹配度进行确认的方式为例，若字幕内容和音频片段的时间区间的重合度不在第一范围，则确认字幕内容和音频片段的时间区间的重合度是否在第二范围。若字幕内容和音频片段的时间区间的重合度不在第一范围，但在第二范围，则对初字幕内容的时间区间进行校正，根据校正时间区间内的字幕，得到目标字幕内容。

在实际业务中，利用语音边界对目标视频进行切分，能够体现对话的特点，具有较高的准确度。基于此，可以认为音频片段切分的准确度高于字幕内容范围切分的准确度。一种实施方式，可以以目标音频片段的时间区间为参照，对初选字幕内容的时间区间进行校正。

初选字幕内容的校正后时间，可以是在原时间区间的基础上进行了扩展，即扩大了时间区间，如原字幕内容的时间区间为1-3秒，校正后的字幕内容的时间区间为0.8-3.8秒。初选字幕内容的校正后时间，还可以是在原时间区间的基础上进行了缩短，即缩短了时间区间，如原字幕内容的时间区间为0.8-3.8秒，校正后的字幕内容的时间区间为1-3秒。相应地，识别在该时间区间各视频帧的字幕，得到目标字幕内容。

本实施例中，对于切分出来的音频片段和字幕内容在时间区间不匹配的情况下，可通过对字幕内容的时间区间进行校正，能够一定程度上降低字幕识别误差导致的样本数量减少的情况。

其中，以目标音频片段的时间区间为参照，对初选字幕内容的时间区间进行校正。该实施例中，以目标音频片段的时间区间为基准，校正初选字幕内容的时间区间，得到目标字幕内容，校正后的目标字幕内容的时间区间与目标音频片段的时间区间一致。例如，初选音频片段的时间区间为0.8秒-3.8秒，初选字幕内容的时间区间为1秒至3秒，则校正后，初选字幕内容的时间区间修正为0.8秒-3.8秒。

另一种方式中，以目标音频片段的时间区间为参照，对初选字幕内容的时间区间进行校正，若目标音频片段的时间区间大于初选字幕内容的时间区间，则在目标字幕内容的时间区间的基础上，扩展预设时长，得到校正的目标字幕的时间区间。若目标音频片段的时间区间小于初选字幕内容的时间区间，则在初选字幕内容的时间区间的基础上，缩短预设时长，得到目标的初选字幕的时间区间。校正后的目标字幕内容的时间区间与目标音频片段的时间区间一致或相近。例如，目标字幕内容的时间区间为1-5秒，初选音频片段的时间区间为 0.3-8秒，在初选字幕内容的时间区间基础上往前后分别延长1秒，则校正后的目标字幕内容的时间区间为0-6秒。

本实施例中，通过以目标音频片段的时间区间为参照，对初选字幕内容的时间区间进行校正，能够使音频片段的时间区间和字幕内容的时间区间相当。

其中，通过技术手段提高字幕识别的准确度，能够进一步提高训练样本的准确度。在一个实施例中，识别目标视频中各视频帧的字幕，得到目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间，如图6所示，包括：

步骤602，识别目标视频中各视频帧的字幕内容，确定具有字幕的字幕区域。

具体地，对于目标视频中的各视频帧，分别采用目标语言的光学字符识别模型(OCR)，获取各视频帧中的字幕，以及各字幕所在的字幕区域。其中，字幕区域具体是指字幕在视频帧图像中的位置。如图7所示，对于该视频帧，在视频帧的下方中间，识别到字幕区域。

步骤604，确定有效字幕区域，将各视频帧中有效字幕区域中的字幕确定所为有效字幕。

其中，可以根据经验设置规则，剔除各字幕区域中的无效字幕区域，得到有效字幕区域。无效字幕区域如台标所在的区域，广告所在的区域等。与正常字幕相比，这些干扰字幕通常是不变的，如台标通常在视频画面的左上角，又如，为了具有较好的广告效果，广告字幕展示的时间通常较长，变化较少。基于此，可以通过对字幕区域中文字的变化，确定该字幕区域是否有效。

其中，还可以结合实际应用设置其它检验规则，此处不做限制。

在确定了有效字幕区域后，有效字幕区域中的字幕为有效字幕。如图7所示，确定了视频帧下方中间的字幕区域为有效字幕区域，该有效字幕区域内中的字幕为有效字幕。

步骤606，根据有效字幕的出现时间和消失时间，得到多条有效字幕的字幕内容以各字幕内容的时间区间。

具体地，当识别到前后帧个视频帧的有效字幕区域内的有效字幕发生变化时，如后一视频帧的有效字幕区域的有效字幕相对于前一帧发生变化时，确定该后一帧所在时间为有效字幕的出现时间，识别获得该有效字幕的字幕内容。进而继续比较各视频帧有效字幕区域的字幕，当该有效字幕消失时，确定该帧所在时间有效字幕的消失时间，通过识别视频中有效字幕的出现时间和消失时间，确定相应的时间区间为有效字幕的时间区间。

本实施例中，通过设置相应的识别规则确定有效字幕区域，能够剔除干扰字幕对字幕识别的影响，准确提取有效字幕。

具体地，确定有效字幕区域，将各视频帧中有效字幕区域中的字幕确定所为有效字幕，包括：若字幕区域中的字幕内容不符合有效字幕要求，则剔除该字幕区域；在剩余的字幕区域中将横坐标或纵坐标位置不变的字幕区域作为有效位置字幕区域；将有效字幕区域的字幕确定为有效字幕。

有效字幕要求具体可以根据经验，以及业务需求确定。通常的有效字幕要求可以包括字幕重复程度、字幕内容的字符类型等。

若字幕区域中的字幕内容不符合有效字幕要求，则剔除该字幕区域。例如通过识别，左上角的字幕区域中的字幕重复度高，则左上角的字幕区域被识别为无效字幕区域，剔除该位置的字幕区域。

在剩余字幕区域中，将横坐标或纵坐标位置不变的字幕区域作为有效位置字幕区域。实际业务中，视频中的字幕通常有两种形式，一种形式是字幕横放在画面的下方，一种形式是字幕竖放在画面的左侧或右侧。而一个视频中，字幕位置通常是固定的。基于此，有效字幕区域的横坐标或纵坐标位置应当是不变的。因此，在剩余字幕区域中，将横坐标或纵坐标位置不变的字幕区域作为有效位置字幕区域，能够从字幕所在位置上确定位置固定的有效字幕区域。可以理解的是，一个目标视频中，应当只存在横坐标不变，或纵坐标不变中的一种情况。纵坐标不变表示字幕以竖向展示，横坐标不变，表示字幕以横向展示。如图8所示，字幕区域的纵坐标不变。

本实施例中，利用了有效字幕内容的规则以及字幕区域展示的规则，能够准确提取有效字幕。

其中，有效字幕要求可以包括字幕内容不重复，以及字幕内容包括目标语言字符等中的至少一个。相应地，字幕区域中的字幕内容不符合有效字幕要求，则剔除该字幕区域，可以为，若字幕区域的字幕内容重复，则剔除该字幕区域。还可以为若字幕区域的字幕内容不包括目标语言文字的字符编码，则剔除该字幕区域。

具体地，若一个字幕区域的字幕内容重复两次，或两条字幕内容的相似度达到80％以上，则可以认为该字幕区域的字幕内容不符合有效字幕要求，则将该字幕区域作为无效字幕区域，从而该字幕区域中重复出现的字幕被删除，这种情况的重复的字幕通常为台标、剧名或广告等。

若字幕区域的字幕内容重复，则剔除该字幕区域，还可以为若字幕区域的字幕内容不包括目标语言文字的字符编码，则剔除该字幕区域。

具体地，若一个字幕区域的字幕区域的字幕内容不包括目标文字字符编码，则认为该字幕区域展示的不是目标语言的文字字幕，删除该字幕区域。以目标语言为英文为例，若一个字幕区域的字幕内容完全不包括英文字符Unicode编码时，则删除该字幕区域。

本实施例中，通过文字重复度以及目标语言文字两个维度从文字内容的维度剔除干扰字幕，提高字幕提取的准确度。

在另一个实施例中，在识别目标视频中各视频帧的字幕内容，确定具有字幕的字幕区域之后，该方法还包括：将发生字幕内容变化的视频帧确定为关键帧。若目标视频的关键帧数量不少于预设数量，则执行确定有效字幕区域，将各视频帧中有效字幕区域中的字幕确定所为有效字幕的步骤。

具体地，通过识别各视频帧的字幕内容后，将字幕内容发生变化的帧确定为关键帧。从视频内容来看，台标等字幕不会变化，通常变化的是正常字幕，而考虑到文字识别本身存在的误差(如误识别场景本身存在的文字为字幕)，因此，考虑到干扰字幕的存在，若一个视频的关键帧数量少于预设数据，也可以推测视频本身不含有正常字幕，或字幕过少，则过滤掉该视频。若视频的关键帧数量符合要求，则对该视频进行后续处理。

本实施例中，通过对视频的关键帧数量检测，能够过滤掉不具有字幕，或字幕内容过少的视频。

一种获取语音识别训练数据的方法，如图9所示，包括：

步骤801，从指定网站爬取视频。

步骤802，对视频进行预处理，得到目标视频。

步骤803，识别目标视频中各视频帧的字幕内容，确定具有字幕的字幕区域。

具体地，如图10所示，利用OCR服务，识别目标视频中各视频帧中的字幕内容，根据字幕在视频帧中的区域，具有字幕区域。利用目标视频中字幕内容发生变化的帧为关键帧。若关键帧的数量少于预设数据，则过滤该目标视频。

步骤804，确定有效字幕区域，将各视频帧中有效字幕区域中的字幕确定所为有效字幕。

具体地，若字幕区域中的字幕内容不符合有效字幕要求，则剔除该字幕区域，在剩余的字幕区域中将横坐标或纵坐标位置不变的字幕区域作为有效位置字幕区域，将有效字幕区域的字幕确定为有效字幕。

步骤805，根据有效字幕的出现时间和消失时间，得到多条有效字幕的字幕内容以各字幕内容的时间区间。

步骤806，对目标视频进行语音边界检测，根据检测得到的语音边界对目标视频进行切分，得到目标视频的多个音频片段及各音频片段的时间区间。

如图10所示，对目标视频采用VAD检测，根据VAD检测的停顿点进行音频切割，得到多个音频片段以及各音频片段的时间区间。

步骤807，根据各条字幕内容的时间区间和各音频片段的时间区间，确定时间区间重合度在第二范围内的初选字幕内容和目标音频片段。

步骤808，对初选字幕内容的时间区间进行校正。

如图10所示，可以为在初选字幕内容的超始时间的基础上加0.5秒，以对初选字幕内容的时间区间进行校正。

步骤809，根据校正时间区间内的字幕，得到目标字幕内容，根据初选音频片段，得到目标音频片段。

步骤810，对目标音频片段进行语音识别，得到语音识别结果。

具体地，调用ASR服务，对目标音频片段进行识别。

步骤811，若语音识别结果与目标字幕内容匹配，则根据目标字幕内容和目标音频片段，得到语音训练样本。

如图10，对目标音频片段的语音识别结果与字幕内容进行相似度计算，若相似度大于相似度阈值，则认为语音识别结果与目标字幕内容匹配。

步骤812，若语音识别结果与目标字幕内容不匹配，则剔除目标字幕内容和目标音频片段。

如图10，若相似度小于相似度阈值，则删除目标字幕内容和目标音频片段。

本实施例的获取语音识别训练数据的方法，针对文音匹配的语音识别训练样本标注过程中，投入需要大量人力标注训练数据的问题，通过提取出视频资源内的字幕结果，再结合字幕区间和语音时间戳进行对应匹配，自动化大批量生产训练样本，节省标注的人力并提高了标注数据的有效性。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的获取语音识别训练数据的方法的获取语音识别训练数据的装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个获取语音识别训练数据的装置实施例中的具体限定可以参见上文中对于获取语音识别训练数据的方法的限定，在此不再赘述。

在一个实施例中，如图11所示，提供了一种获取语音识别训练数据的装置，包括：

字幕处理模块1102，用于识别目标视频中各视频帧的字幕，得到目标视频的多条有效字幕的字幕内容以及各条字幕内容的时间区间。

语音处理模块1104，用于对目标视频进行语音边界检测，根据检测得到的语音边界对目标视频进行切分，得到目标视频的多个音频片段及各音频片段的时间区间。

匹配模块1106，用于根据字幕内容的时间区间和音频片段的时间区间，确定匹配的目标字幕内容和目标音频片段。

识别模块1108，用于对目标音频片段进行语音识别，得到语音识别结果。

处理模块1110，用于若语音识别结果与目标字幕内容匹配，则根据目标字幕内容和目标音频片段，得到语音训练样本。

上述获取语音识别训练数据的装置，利用视频的字幕，提取字幕内容，对视频的语音进行边界检测，切分得到多个语音片段，根据字幕内容的时间区间和音频片段的时间区间，匹配目标字幕内容和目标音频片段，从而能够确保目标字幕内容和目标音频片段在时间轴上的一致性，进而对目标音频片段进行语音识别，从内容验证目标字幕内容和目标音频片段的一致性，使得最终确定的语音训练样本无论在时间维度，还是在内容维度都是匹配的，提高了语音训练样本提取的准确度，同时该方法直接利用了视频中的字幕和音频，通过对字幕和音频进行处理，省去了对音频的标注过程，能够快速获得大量语音训练数据，提高了语音训练数据获取的效率。

在另一个实施例中，匹配模块，用于根据各条字幕内容的时间区间和各音频片段的时间区间，确定时间区间重合度在第一范围内的目标字幕内容和目标音频片段。

在另一个实施例中，匹配模块，包括：

匹配判断模块，用于根据各条字幕内容的时间区间和各音频片段的时间区间，确定时间区间重合度在第二范围内的初选字幕内容和目标音频片段；

校正模块，用于对初选字幕内容的时间区间进行校正；根据校正时间区间内的字幕，得到目标字幕内容。

在另一个实施例中，校正模块，用于以目标音频片段的时间区间为参照，对初选字幕内容的时间区间进行校正。

在另一个实施例中，字幕处理模块，用于：

文字识别模块，用于识别目标视频中各视频帧的字幕内容，确定具有字幕的字幕区域。

有效字幕区域处理模块，用于确定有效字幕区域，将各视频帧中有效字幕区域中的字幕确定所为有效字幕。

字幕区间处理模块，用于根据有效字幕的出现时间和消失时间，得到多条有效字幕的字幕内容以各字幕内容的时间区间.

在另一个实施例中，有效字幕区域处理模块，用于若字幕区域中的字幕内容不符合有效字幕要求，则剔除该字幕区域；在剩余的字幕区域中将横坐标或纵坐标位置不变的字幕区域作为有效位置字幕区域；将有效字幕区域的字幕确定为有效字幕。

在另一个实施例中，有效字幕区域处理模块，用于若字幕区域的字幕内容重复，则剔除该字幕区域，或若字幕区域的字幕内容不包括目标语言文字的字符编码，则剔除该字幕区域。

在另一个实施例中，文字识别模块，还用于将发生字幕内容变化的视频帧确定为关键帧，有效字幕区域处理模块在目标视频的关键帧数量不少于预设数量，用于确定有效字幕区域，将各视频帧中有效字幕区域中的字幕确定所为有效字幕。

上述获取语音识别训练数据的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种获取语音识别训练数据的方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各实施例的获取语音识别训练数据的方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各实施例的获取语音识别训练数据的方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各实施例的获取语音识别训练数据的方法。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器 (Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase ChangeMemory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器 (Random AccessMemory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory， DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：腾讯科技(深圳)有限公司;

上一篇：一种金融业务应用双活控制方法、装置、系统及介质
下一篇：一种混凝土管桩连接头