掌桥专利:专业的专利平台
掌桥专利
首页

标注数据确定方法、装置、介质及电子设备

文献发布时间:2023-06-19 10:44:55


标注数据确定方法、装置、介质及电子设备

技术领域

本公开涉及计算机技术领域,具体地,涉及一种标注数据确定方法、装置、介质及电子设备。

背景技术

数据是AI(Artificial Intelligence,人工智能)算法的基础,可以基于训练数据对模型进行训练,从而实现对应的功能。在语音识别方向,训练数据通常是语音数据和该语音数据对应转写的文本。为了保证语音识别模型的准确度,通常训练数据的数量规模会比较大,语音数据的数据量通常为几万小时到几十万小时的语音数据,这使得对训练数据的收集和标注的工作量剧增。然而在积累一定数据量后,新增的语音数据的边际效益递减,使得工作人员会对相同或相似的语音数据进行标注,对该部分语音数据进行标注不仅会增加工作人员的工作量,并且该部分标注数据对于语音识别模型优化的效率也比较低。

发明内容

提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

第一方面,本公开提供一种标注数据确定方法,所述方法包括:

从候选数据集中获取候选标注数据,其中,所述候选数据集为多个待标注的语音数据形成的集合;

将所述候选标注数据输入第一语音识别模型和第二语音识别模型,获得所述第一语音识别模型输出的第一识别结果和所述第二语音识别模型输出的第二识别结果,其中,所述第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型;

根据所述第一识别结果和所述第二识别结果确定所述候选标注数据对应的识别误差;

在所述识别误差大于识别阈值的情况下,将所述候选标注数据确定为待标注语音数据。

第二方面,提供一种标注数据确定装置,所述装置包括:

获取模块,用于从候选数据集中获取候选标注数据,其中,所述候选数据集为多个待标注的语音数据形成的集合;

输入模块,用于将所述候选标注数据输入第一语音识别模型和第二语音识别模型,获得所述第一语音识别模型输出的第一识别结果和所述第二语音识别模型输出的第二识别结果,其中,所述第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型;

第一确定模块,用于根据所述第一识别结果和所述第二识别结果确定所述候选标注数据对应的识别误差;

第二确定模块,用于在所述识别误差大于识别阈值的情况下,将所述候选标注数据确定为待标注语音数据。

第三方面,提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现第一方面所述方法的步骤。

第四方面,提供一种电子设备,包括:

存储装置,其上存储有计算机程序;

处理装置,用于执行所述存储装置中的所述计算机程序,以实现第一方面所述方法的步骤。

在上述技术方案中,从包括多个语音数据的候选数据集中获取候选标注数据,并将所述候选标注数据输入第一语音识别模型和第二语音识别模型,以获得所述第一语音识别模型输出的第一识别结果和所述第二语音识别模型输出的第二识别结果,并根据所述第一识别结果和所述第二识别结果确定候选标注数据对应的识别误差,在所述识别误差大于识别阈值的情况下,将所述候选标注数据确定为待标注语音数据。由此,通过上述技术方案,可以基于识别率不同的两个语音识别模型对候选标注数据进行识别所得的识别结果的差异,对候选数据集中的候选标注数据进行筛选,由于第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型,可以有效避免通过上述方式确定出的待标注语音数据与已标注语音数据的重复,提高确定出的待标注语音数据的有效性,从而可以降低工作人员进行标注的工作量,同时也可以提高基于该待标注语音数据进行语音识别模型训练、更新的效率和准确性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:

图1是根据本公开的一种实施方式提供的标注数据确定方法的流程图。

图2是根据本公开的一种实施方式提供的标注数据确定装置的框图。

图3示出了适于用来实现本公开实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

如背景技术中所述,由于语音识别模型的训练数据所需的数据量较大,因此工作人员在进行语音数据标注时,可能会对相同或相近的语音数据进行标注,这部分语音数据对于语音识别模型优化的影响较小。通常为降低训练数据的重复,可以采用随机的方式挑选出待标注语音数据进行标注,然而该方式中选择的待标注语音数据中仍会包含与历史标注的语音数据相似或重复的数据。基于此,本公开提供以下实施例。

图1所示,为根据本公开的一种实施方式提供的标注数据确定方法的流程图,如图1所示,所述方法可以包括:

在步骤11中,从候选数据集中获取候选标注数据,其中,所述候选数据集为多个待标注的语音数据形成的集合。示例地,可以将所有可能进行标注的语音数据放入候选数据集中,该候选标注数据则可以是该候选数集中任一个未遍历的语音数据。

在步骤12中,将候选标注数据输入第一语音识别模型和第二语音识别模型,获得第一语音识别模型输出的第一识别结果和第二语音识别模型输出的第二识别结果,其中,所述第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型,用于基于语音数据进行识别,从而获得对应的文本。

其中,所述第一语音识别模型和第二语音识别模型为基于当前已标注的语音数据进行训练得出的模型,其中一者为基于当前已标注的语音数据训练完成的模型。

在步骤13中,根据第一识别结果和第二识别结果确定候选标注数据对应的识别误差。

其中,由于第一语音识别模型和第二语音识别模型的识别率不同,则针对同一候选标注数据,第一语音识别模型输出的第一识别结果和第二语音识别模型输出的第二识别结果一般不同。在该实施例中,可以将第一识别结果和第二识别结果之间的差异作为该候选标注数据对应的识别误差。

在步骤14中,在识别误差大于识别阈值的情况下,将候选标注数据确定为待标注语音数据。

通常来说,识别率高的模型输出的识别结果的准确率大于识别率低的模型输出的识别结果的准确率。针对同一候选标注数据,若第一识别结果和第二识别结果之间的差异较小,即该候选标注数据通过识别率高的模型进行语音识别的结果,和通过识别率低的模型进行语音识别的结果相近。在语音识别模型的训练过程中,其可以学习到用于进行训练的已标注语音数据中的特征,则在该候选标注数据与已标注语音数据相近时,由于第一语音识别模型和第二语音识别模型均已经学习过相似的特征,则基于该第一语音识别模型和第二语音识别模型可以对该候选标注数据进行较准确的识别,因此,第一语音识别模型和第二语音识别模型的识别结果之间的差异较小,可以是该候选标注数据与已标注语音数据之间的差异较小,或者是表示该候选标注数据中本身包含的信息量较小,该候选标注数据对于语音识别模型的优化的影响较小,此时可以将该候选标注数据丢弃,无需对该候选标注数据进行标注。

若第一识别结果和第二识别结果之间的差异较大,即该候选标注数据通过识别率高的模型进行语音识别的结果,和通过识别率低的模型进行语音识别的结果不同之处较多,表示该候选标注数据中包含的信息量较大,则该候选标注数据对于语音识别模型的优化的影响较大,此时可以将该候选标注数据作为待标注语音数据,保证待标注语音数据的有效性。

在上述技术方案中,从包括多个语音数据的候选数据集中获取候选标注数据,并将所述候选标注数据输入第一语音识别模型和第二语音识别模型,以获得所述第一语音识别模型输出的第一识别结果和所述第二语音识别模型输出的第二识别结果,并根据所述第一识别结果和所述第二识别结果确定候选标注数据对应的识别误差,在所述识别误差大于识别阈值的情况下,将所述候选标注数据确定为待标注语音数据。由此,通过上述技术方案,可以基于识别率不同的两个语音识别模型对候选标注数据进行识别所得的识别结果的差异,对候选数据集中的候选标注数据进行筛选,由于第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型,可以有效避免通过上述方式确定出的待标注语音数据与已标注语音数据的重复,提高确定出的待标注语音数据的有效性,从而可以降低工作人员进行标注的工作量,同时也可以提高基于该待标注语音数据进行语音识别模型训练、更新的效率和准确性。

以下对第一语音识别模型和第二语音识别模型的确定方式进行详细说明。

在一种可能的实施例中,所述第一语音识别模型和所述第二语音识别模型所使用的训练数据相同,所述第一语音识别模型和所述第二语音识别模型进行训练迭代的次数不同。

其中,第一语音识别模型和第二语音识别模型的模型结构和模型参数初始相同。之后,可以基于当前已标注的所有训练数据分别对第一语音识别模型和第二语音识别模型进行训练。例如,将训练数据输入语音识别模型以获得输出结果,通过训练数据中的标注结果和该输出结果的差异对该语音识别模型的参数进行调整,从而提高语音识别模型的识别率。

在该实施例中,设置所述第一语音识别模型和所述第二语音识别模型进行训练迭代的次数不同,从而使得基于相同的训练数据可以得出不同识别率的语音识别模型。其中,第一语音识别模型和第二语音识别模型分别对应的迭代训练次数可以根据两者的识别率差异进行设置。示例地,第一语音识别模型为基于当前的已标注语音数据训练完成的模型,其识别率为99%,第一语音识别模型和第二语音识别模型的识别率差异要求为10%,则第二语音识别模型的识别率可以为89%,则可以根据该识别率要求设置其对应的迭代次数,以获得第二语音识别模型。作为另一示例,也可以在第二语音识别模型训练迭代的过程中的识别率达到89%时,停止第二语音识别模型的训练迭代。

在基于某一训练数据对语音识别模型进行训练时,该语音识别模型则可以对该训练数据中的数据特征进行学习。因此,在该实施例中,设置所述第一语音识别模型和所述第二语音识别模型所使用的训练数据相同,从而可以保证第一语音识别模型和第二语音识别模型中可以学习到的数据特征是相同的,避免候选标注数据对应的识别误差较大是由于两个语音识别模型所学习到的特征不同所造成的这一现象,从而可以保证确定出的待标注语音数据的有效性,以提高基于后续模型训练的效率。

在一种可能的实施例中,可以通过上述过程同样的方式确定识别率高的第一语音识别模型,所述第二语音识别模型可以通过以下方式确定:

获取所述第一语音识别模型中预设数量的模型参数;

将所述模型参数的参数值进行替换为随机值后所得的模型确定为所述第二语音识别模型。

在该实施例中,可以从训练完成的第一语音识别模型随机选择预设数量的模型参数,示例地,预设数量可以为第一语音识别模型的模型参数的总数的10%。在确定出模型参数后,将该模型参数的参数值替换为随机值,以降低该模型的识别率。由此,通过上述技术方案,可以通过对已训练完成的第一语音识别模型的模型参数进行随机值替换的方式确定出第二语音识别模型,从而无需分别对两个模型进行训练,降低确定第一语音识别模型和第二语音识别模型所对应的操作量,简化操作流程。

在一种可能的实施例中,所述方法还可以包括:

对所述待标注语音数据进行标注,获得训练样本。

之后,可以返回从候选数据集中获取候选标注数据的步骤,直至满足以下三种条件中的任一种:

第一种条件,所述候选数据集中的数据全部遍历,即针对该候选数据集中的每一候选标注数据均已进行判定,此时可以结束该循环。

第二种条件,所述训练样本的数量达到数量阈值,其中,该数量阈值可以根据实际使用场景进行设置,在训练样本的数量达到数量阈值时,表示当前确定出的训练样本已经满足用户的需求,此时无需再进行新的待标注语音数据的选择,则可以结束循环。

第三种条件,基于所述训练样本对目标语音识别模型进行更新所得的目标语音识别模型的识别率达到识别率阈值,其中,所述目标语音识别模型为所述第一语音识别模型和第二语音识别模型中识别率高的识别模型。其中,从候选数据集中确定待标注语音数据,进而获得训练样本,该训练样本是用于对目标语音识别模型进行训练。因此,在目标语音识别模型的识别率达到识别率阈值,即该目标语音识别模型满足训练要求训练完成时,此时无需新的训练样本进行训练,则无需再确定新的待标注语音数据,则可以结束循环。

在该实施例中,在对待标注语音数据进行标注后,可以从候选数据集中重新获得新的候选标注数据,以重复上述步骤确定该候选标注数据是否需要进行标注。并且可以在满足上述三种条件中的任一种时及时准确地终止循环,避免出现不必要的待标注语音数据的选择过程,从而可以提高待标注语音数据确定的效率和有效性。

作为示例,对所述待标注语音数据进行标注,获得训练样本的实现方式如下:可以将该待标注语音数据输出显示,以接收用户针对于所述待标注语音数据进行标注后的标注结果,从而将该待标注语音数据和标注结果作为训练样本。

作为另一示例,所述对所述待标注语音数据进行标注,获得训练样本的示例性实现方式如下,该步骤可以包括:

将所述第一语音识别模型和第二语音识别模型中识别率高的识别模型所输出的识别结果对应的文本确定为所述待标注语音数据对应的初始标注文本。

其中,第一语音识别模型和第二语音识别模型的输出结果本身就是基于该待标注语音数据识别出的文本数据,则在该步骤中可以通过识别模型对待标注语音数据进行初步标注。示例地,第一语音识别模型的识别率高于第二语音识别模型的识别率,则该步骤中,可以将该第一识别模输出的第一识别结果对应的文本确定为该初始标注文本。

响应于接收到针对所述初始标注文本的修改指令,对所述初始标注文本进行修改,获得目标标注文本。

将所述待标注语音数据和所述目标标注文本确定为所述训练样本。

在该实施例中,可以将该待标注语音数据和初始标注文本输出显示,由此工作人员可以根据该待标注语音数据确定该初始标注文本是否准确,在初始标注文本中存在错误标注时,工作人员通过显示界面对其进行修改从而触发修改指令。作为示例,该修改指令可以是用户在修改完部分字符后点击确认所触发的指令,则响应于该修改指令,可以将该修改指令指示的位置处的字符替换为该修改指令指示的字符,以获得目标标注文本。作为另一示例,该修改指令可以是用户在修改完全部字符后点击提交所触发的指令,则响应于接收到该修改指令,可以直接将该修改指令指示提交的全部字符作为该目标标注文本,从而可以获得对应的训练样本。

通过上述技术方案,可以基于识别率高的语音识别模型输出的识别结果对待标注语音数据进行初步标注,用户只需要基于待标注语音数据确认该初始标注文本是否准确,在初始标注文本有误的情况下,对该初始标注文本进行修改,从而可以在保证标注准确性的同时,有效降低用户进行待标注语音数据标注的工作量,提高标注效率,提升用户使用体验。

在一种可能的实施例中,所述方法还可以包括:

在所述训练样本的数量达到训练阈值的情况下,基于所述训练样本对所述第一语音识别模型和所述第二语音识别模型进行训练,以获得更新后的第一语音识别模型和更新后的第二语音识别模型;

所述将所述候选标注数据输入第一语音识别模型和第二语音识别模型的步骤可以包括:

将所述候选标注数据输入更新后的第一语音识别模型和更新后的第二语音识别模型。

其中,所述训练阈值可以根据实际使用场景进行设置,在该实施例中,在新标注出的训练样本的数量达到训练阈值时,可以基于该训练样本对第一语音识别模型和第二语音识别模型进行训练更新,从而可以提高第一语音识别模型和第二语音识别模型的识别率。

因此,在对第一语音识别模型和第二语音识别模型更新后,后续可以将当前确定出的候选标注数据输入该更新后的第一语音识别模型和更新后的第二语音识别模型,由于在模型训练的过程中,可以基于新确定出的训练样本对模型进行更新,则该模型可以学习到新确定出的训练样本中的特征,所以在候选标注数据与该新确定出的训练样本相近时,基于更新后的第一语音识别模型和更新后的第二语音识别模型输出的识别结果都会比较准确,即第一识别结果和第二识别结果之间的识别误差较小,即该候选标注数据不作为待标注语音数据,从而可以有效降低后续确定出的待标注语音数据和新确定出的训练样本之间的相似性,既可以提高识别结果的准确性,同时又可以进一步提高后续确定出的待标注语音数据的有效性。

在一种可能的实施例中,在步骤13中,根据第一识别结果和第二识别结果确定候选标注数据对应的识别误差的示例性实现方式,该步骤可以包括:

将所述第一识别结果对应的文本和所述第二识别结果对应的文本对应的最小编辑距离确定为所述识别误差。

其中,最小编辑距离(Min Edit Distance),又称Levenshtein距离,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符、插入一个字符、删除一个字符。一般来说,编辑距离越小,两个字符串的相似度越大。其中,最小编辑距离的具体计算方法为现有技术,在此不再赘述。

因此,在本公开实施例中,可以根据第一识别结果对应的文本和第二识别结果对应的文本分别形成的字符串,计算该最小编辑距离,从而可以确定出两个识别结果中的不同之处,基于该识别误差对第一识别结果和第二识别结果之间的相似度进行表示。

由此,通过上述技术方案,在基于待标注语音数据进行语音识别获得文本数据时,可以通过确定出第一识别结果和第二识别结果之间的最小编辑距离,确定第一语音识别模型识别出的文本数据和第二语音识别模型识别输出的文本数据的差异,以便于根据该差异确定对该候选标注数据所包含的信息量进行表征,为保证后续确定出的待标注语音数据的有效性提供准确的数据支持。

本公开还提供一种标注数据确定装置,如图2所示,所述装置10包括:

获取模块100,用于从候选数据集中获取候选标注数据,其中,所述候选数据集为多个待标注的语音数据形成的集合;

输入模块200,用于将所述候选标注数据输入第一语音识别模型和第二语音识别模型,获得所述第一语音识别模型输出的第一识别结果和所述第二语音识别模型输出的第二识别结果,其中,所述第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型;

第一确定模块300,用于根据所述第一识别结果和所述第二识别结果确定所述候选标注数据对应的识别误差;

第二确定模块400,用于在所述识别误差大于识别阈值的情况下,将所述候选标注数据确定为待标注语音数据。

可选地,所述第一语音识别模型和所述第二语音识别模型所使用的训练数据相同,所述第一语音识别模型和所述第二语音识别模型进行训练迭代的次数不同。

可选地,所述第二语音识别模型通过以下方式确定:

获取所述第一语音识别模型中预设数量的模型参数;

将所述模型参数的参数值替换为随机值后所得的模型确定为所述第二语音识别模型。

可选地,所述装置还包括:

标注模块,用于对所述待标注语音数据进行标注,获得训练样本,并触发所述获取模块从候选数据集中获取候选标注数据,直至满足以下三种条件中的任一种:

所述候选数据集中的数据全部遍历;

所述训练样本的数量达到数量阈值;

基于所述训练样本对目标语音识别模型进行更新所得的目标语音识别模型的识别率达到识别率阈值,其中,所述目标语音识别模型为所述第一语音识别模型和第二语音识别模型中识别率高的识别模型。

可选地,所述装置还包括:

训练模块,用于在所述训练样本的数量达到训练阈值的情况下,基于所述训练样本对所述第一语音识别模型和所述第二语音识别模型进行训练,以获得更新后的第一语音识别模型和更新后的第二语音识别模型;

所述输入模块用于将所述候选标注数据输入更新后的第一语音识别模型和更新后的第二语音识别模型。

可选地,所述标注模块包括:

第一确定子模块,用于将所述第一语音识别模型和第二语音识别模型中识别率高的识别模型所输出的识别结果对应的文本确定为所述待标注语音数据对应的初始标注文本;

修改子模块,用于响应于接收到针对所述初始标注文本的修改指令,对所述初始标注文本进行修改,获得目标标注文本;

第二确定子模块,用于将所述待标注语音数据和所述目标标注文本确定为所述训练样本。

可选地,所述第一确定模块用于:

将所述第一识别结果对应的文本和所述第二识别结果对应的文本对应的最小编辑距离确定为所述识别误差。

下面参考图3,其示出了适于用来实现本公开实施例的电子设备600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图3所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。

需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:从候选数据集中获取候选标注数据,其中,所述候选数据集为多个待标注的语音数据形成的集合;将所述候选标注数据输入第一语音识别模型和第二语音识别模型,获得所述第一语音识别模型输出的第一识别结果和所述第二语音识别模型输出的第二识别结果,其中,所述第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型;根据所述第一识别结果和所述第二识别结果确定所述候选标注数据对应的识别误差;在所述识别误差大于识别阈值的情况下,将所述候选标注数据确定为待标注语音数据。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“从候选数据集中获取候选标注数据的模块”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例,示例1提供了一种标注数据确定方法,其中,所述方法包括:

从候选数据集中获取候选标注数据,其中,所述候选数据集为多个待标注的语音数据形成的集合;

将所述候选标注数据输入第一语音识别模型和第二语音识别模型,获得所述第一语音识别模型输出的第一识别结果和所述第二语音识别模型输出的第二识别结果,其中,所述第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型;

根据所述第一识别结果和所述第二识别结果确定所述候选标注数据对应的识别误差;

在所述识别误差大于识别阈值的情况下,将所述候选标注数据确定为待标注语音数据。

根据本公开的一个或多个实施例,示例2提供了示例1的方法,其中,所述第一语音识别模型和所述第二语音识别模型所使用的训练数据相同,所述第一语音识别模型和所述第二语音识别模型进行训练迭代的次数不同。

根据本公开的一个或多个实施例,示例3提供了示例1的方法,其中,所述第二语音识别模型通过以下方式确定:

获取所述第一语音识别模型中预设数量的模型参数;

将所述模型参数的参数值替换为随机值后所得的模型确定为所述第二语音识别模型。

根据本公开的一个或多个实施例,示例4提供了示例1的方法,其中,所述方法还包括:

对所述待标注语音数据进行标注,获得训练样本;

返回所述从候选数据集中获取候选标注数据的步骤,直至满足以下三种条件中的任一种:

所述候选数据集中的数据全部遍历;

所述训练样本的数量达到数量阈值;

基于所述训练样本对目标语音识别模型进行更新所得的目标语音识别模型的识别率达到识别率阈值,其中,所述目标语音识别模型为所述第一语音识别模型和第二语音识别模型中识别率高的识别模型。

根据本公开的一个或多个实施例,示例5提供了示例4的方法,其中,所述方法还包括:

在所述训练样本的数量达到训练阈值的情况下,基于所述训练样本对所述第一语音识别模型和所述第二语音识别模型进行训练,以获得更新后的第一语音识别模型和更新后的第二语音识别模型;

所述将所述候选标注数据输入第一语音识别模型和第二语音识别模型,包括:

将所述候选标注数据输入更新后的第一语音识别模型和更新后的第二语音识别模型。

根据本公开的一个或多个实施例,示例6提供了示例4的方法,其中,所述对所述待标注语音数据进行标注,获得训练样本,包括:

将所述第一语音识别模型和第二语音识别模型中识别率高的识别模型所输出的识别结果对应的文本确定为所述待标注语音数据对应的初始标注文本;

响应于接收到针对所述初始标注文本的修改指令,对所述初始标注文本进行修改,获得目标标注文本;

将所述待标注语音数据和所述目标标注文本确定为所述训练样本。

根据本公开的一个或多个实施例,示例7提供了示例1的方法,其中,所述根据所述第一识别结果和所述第二识别结果确定所述候选标注数据对应的识别误差,包括:

将所述第一识别结果对应的文本和所述第二识别结果对应的文本对应的最小编辑距离确定为所述识别误差。

根据本公开的一个或多个实施例,示例8提供了一种标注数据确定装置,其中,所述装置包括:

获取模块,用于从候选数据集中获取候选标注数据,其中,所述候选数据集为多个待标注的语音数据形成的集合;

输入模块,用于将所述候选标注数据输入第一语音识别模型和第二语音识别模型,获得所述第一语音识别模型输出的第一识别结果和所述第二语音识别模型输出的第二识别结果,其中,所述第一语音识别模型和所述第二语音识别模型是基于已标注语音数据训练出的识别率不同的模型;

第一确定模块,用于根据所述第一识别结果和所述第二识别结果确定所述候选标注数据对应的识别误差;

第二确定模块,用于在所述识别误差大于识别阈值的情况下,将所述候选标注数据确定为待标注语音数据。

根据本公开的一个或多个实施例,示例9提供了一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理装置执行时实现示例1-示例7任一所述方法的步骤。

根据本公开的一个或多个实施例,示例10提供了一种电子设备,其中,包括:

存储装置,其上存储有计算机程序;

处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1-示例7任一所述方法的步骤。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

相关技术
  • 标注数据确定方法、装置、可读介质及电子设备
  • 数据标注方法、装置、电子设备及存储介质
技术分类

06120112668697