掌桥专利:专业的专利平台
掌桥专利
首页

一种多音字待标语料的筛选方法、装置、设备及存储介质

文献发布时间:2023-06-19 09:29:07


一种多音字待标语料的筛选方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域,尤其涉及一种多音字待标语料的筛选方法、装置、设备及介质。

背景技术

字音转换是语音合成系统(TTS)必不可少的模块,其正确率直接影响语音合成系统的可懂度。在汉语语音合成系统中,字音转换的任务就是将文字序列转换为对应的拼音序列。汉语中有的字对应多个拼音,字音转换的关键和难点就是如何解决这种一字多音的问题。大多数情况下,字音转换都是在词典中检索当前词,配以对应的拼音。但是很多多音字单字成词,或者多音字所在的词语不在拼音词典里面,需要训练模型去学习多音字的发音规律,从而做出正确的拼音预测。但是目前在句子级别标注拼音的语料很少,而且语料中多音字的上下文环境很多相同,导致不能对多音字的语言环境覆盖全面,而导致用上述的语料训练的模型预测拼音的正确率不高。

随着互联网产业的发展,文本数据大量产生,但是人力资源有限,因此人工标注的数据量是有限的。如果标注大量数据,覆盖多音字的语言现象比较全面,但是需要消耗大量的人力和时间。如果从大量的数据中筛选一部分数据,让这一部分数据涵盖了原数据的语言现象,那么只用这一部分较少量数据也能达到良好的效果,但是目前还没有从大量数据中筛选少量数据用以标注多音字字音的方法。

发明内容

本发明实施例所要解决的技术问题在于,提供一种多音字待标语料的筛选方法、装置、设备及介质,能够收集题材类型全面的原始文本语料,确保文本语料对题材类型、语言风格覆盖全面。

为了实现上述目的,本发明实施例提供了一种多音字待标语料的筛选方法,包括:

获取原始文本语料;其中,所述原始文本语料包括至少一个多音字;

生成汉字字串字典及字串文本字典,所述汉字字串字典用以记录汉字映射到包含所述汉字的全部字串组成的列表,所述字串文本字典用以记录字串映射到包含所述字串的全部文本组成的列表;

循环遍历字典,从所述汉字字串字典中取出多音字汉字,以使文本数量达到预设数值,并生成候选文本列表;

选择待标汉字,通过所述候选文本列表,获取待标文本列表;

从所述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量及多音字汉字,以得到输出文本列表。

进一步的,所述获取原始文本语料,具体包括:

收集原始文本语料,对所述原始文本语料进行分句处理,将分句处理后的分句作为文本添加到输入文本列表,对所述输入文本列表的文本进行去重操作,从而得到去重后的所述输入文本列表。

进一步的,所述生成汉字字串字典及字串文本字典后还包括:

设定字串窗口,对所述全部文本所组成的列表中的每一个文本进行如下操作:字串窗口从句首往句尾移动,考察字串窗口的字串,如果存在多音汉字,则把所述字串添加到所述汉字字串字典中所述汉字的字串列表下,并且把所述文本添加到所述字串文本字典中所述字串的文本列表。

进一步的,所述循环遍历字典,从所述汉字字串字典中取出多音字汉字,以使文本数量达到预设数值,并生成候选文本列表,具体包括:

从所述汉字字串字典中取出一个多音字汉字作为目标汉字,从所述汉字字串字典中查找所述目标汉字映射的全部字串,从中取一个字串,作为目标字串,从所述字串文本字典中查找所述目标字串映射的全部文本作为映射文本列表;

将所述映射文本列表和所述候选文本列表做交集得到交集文本列表,如果所述交集文本列表为空,则从所述映射文本列表中选择一个文本,作为目标文本,否则从所述交集文本列表中选择一个文本作为所述目标文本;

将所述目标文本添加到候选文本列表,考察所述汉字字串字典,从所述目标汉字映射的全部字串的列表中删除所述目标字串,考察所述字串文本字典,从所述目标字串映射的全部文本的列表中删除所述目标文本。

进一步的,所述选择待标汉字,通过所述候选文本列表,获取待标文本列表,具体包括:

对所述候选文本列表中的全部文本进行操作,依次考察文本的每一个汉字,如果是多音字,则遍历包含所述多音字的长度为所述字串窗口的所有字串,作为窗口字串列表,并且从所述汉字字串字典中查找包括所述多音字的字串列表,作为全局字串列表,将所述窗口字串列表和所述全局字串列表取交集,作为交集字串列表;

如果所述交集字串列表不为空,则把所述多音字设为待标多音字汉字,从所述全局字串列表中删除交集字串列表的字串;

得到备注了待标多音字的候选文本列表,作为待标文本列表。

进一步的,所述从所述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量及多音字汉字,以得到输出文本列表,具体包括:

从所述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量,如果文本数量和多音字数量都没达到预设值,则把所述文本添加到空的输出文本列表,最终得到确认后的输出文本列表。

进一步的,所述从所述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量及多音字汉字,以得到输出文本列表,还包括:

如果所述文本数量和所述多音字数量达到预设值,则停止考察所述待标文本列表中的该文本。

本发明实施例还提供了一种多音字待标语料的筛选装置,包括:

获取模块,用于获取原始文本语料;其中,所述原始文本语料包括至少一个多音字;

生成模块,用于生成汉字字串字典及字串文本字典,所述汉字字串字典用以记录汉字映射到包含所述汉字的全部字串组成的列表,所述字串文本字典用以记录字串映射到包含所述字串的全部文本组成的列表;

循环模块,用于循环遍历字典,从所述汉字字串字典中取出多音字汉字,以使文本数量达到预设数值,并生成候选文本列表;

选择模块,用于选择待标汉字,通过所述候选文本列表,获取待标文本列表;

输出文本列表模块,用于从所述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量及多音字汉字,以得到输出文本列表。

本发明实施例还提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的多音字待标语料的筛选方法。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任一项所述的多音字待标语料的筛选方法。

相对于现有技术,本发明实施例提供的一种多音字待标语料的筛选方法、装置、设备及存储介质的有益效果在于:本发明实施例是一种从大量文本语料中筛选少量文本的方法,从而构建用以人工标注的语料。所述方法是自动筛选的,筛选的文本语料能够很大程度保留原有语料中关于多音字的信息,信息丢失少。筛选出来的文本以及多音字数量更少,有效提高人工标注工作的效率和价值,标注更少的语料也能达到较好的效果,即人工标注工作量更少。筛选的文本语料对帮助训练多音字拼音消歧模型,提高预测多音字拼音的正确率。

附图说明

图1是本发明实施例提供的一种多音字待标语料的筛选方法的一个优选实施例的流程示意图;

图2是本发明实施例提供的一种多音字待标语料的筛选方法的一个优选实施例中部分步骤的操作示意图;

图3是本发明实施例提供的一种多音字待标语料的筛选装置的一个优选实施例的结构示意图;

图4是本发明提供的一种终端设备的一个优选实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,图1是本发明提供的一种多音字待标语料的筛选方法的一个优选实施例的流程示意图。所述多音字待标语料的筛选方法,包括:

S1,获取原始文本语料;其中,所述原始文本语料包括至少一个多音字;

S2,生成汉字字串字典及字串文本字典,所述汉字字串字典用以记录汉字映射到包含所述汉字的全部字串组成的列表,所述字串文本字典用以记录字串映射到包含所述字串的全部文本组成的列表;

S3,循环遍历字典,从所述汉字字串字典中取出多音字汉字,以使文本数量达到预设数值,并生成候选文本列表;

S4,选择待标汉字,通过所述候选文本列表,获取待标文本列表;

S5,从所述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量及多音字汉字,以得到输出文本列表。

需要说明的是,步骤S1中,构建输入文本列表,初始状态为空;

收集题材类型全面的原始文本语料,把上述文本语料进行分句处理,把每一句作为一个文本,并添加到输入文本列表。对输入文本列表的文本进行去重操作,确保每个文本都独一无二;

对全部原始文本语料处理后,得到输入文本列表;

通过步骤S1,能够确保文本语料对题材类型、语言风格覆盖全面,为覆盖全面的语言环境提供丰富的素材。

再请参阅图2,图2是本发明实施例提供的一种多音字待标语料的筛选方法中步骤S2及S3的操作示意图。

于步骤S2中,首先构建一个记录汉字映射到包含该汉字的全部字串组成的列表的映射字典,称为汉字字串字典,初始状态下每个汉字映射的字串列表为空。另外,构建一个记录字串映射到包含该字串的全部文本组成的列表的映射字典,称为字串文本字典,初始状态下每个字串映射的文本列表为空;

设定一个字串窗口,对上述全部文本列表的每一个文本进行如下操作,字串窗口从句首往句尾移动。考察字串窗口的字串,如果存在多音汉字,则把该字串添加到汉字字串字典中该汉字的字串列表下,并且把该文本添加到字串文本字典中该字串的文本列表下,否则不处理;

对全部文本处理后,一是得到一个记录了每一个多音字汉字映射到包含该汉字的全部字串的映射字典,即汉字字串字典。另外得到一个记录了每一个字串映射到包含该字串的全部文本的映射字典,即字串文本字典;

通过步骤S2,能够详细记录的每个多音字的上下文环境,故保留了全面的语言环境。

于步骤S3中,构建一个空的候选文本列表;

依次从上述汉字字串字典中取出一个多音字汉字,上述过程循环执行,即依次取完全部多音字后,从头开始依次取,直到构建的文本数量达到预设数值;

单次操作方法如下:从汉字字串字典中取出一个多音字汉字,称为目标汉字。从汉字字串字典中查找该目标汉字映射的全部字串,从中取一个字串,称为目标字串。从字串文本字典中查找该目标字串映射的全部文本,称为映射文本列表;

把上述映射文本列表和上述候选文本列表做交集得到交集文本列表,如果交集文本列表为空,则从从中取映射文本列表中选择一个文本,称为目标文本,否则从交集文本列表中选择一个文本作为目标文本;

把该目标文本添加到候选文本列表。考察汉字字串字典,从目标汉字映射的全部字串的列表中删除目标字串。考察字串文本字典,从目标字串映射的全部文本的列表中删除目标文本;

循环执行上述操作后,得到确认后的候选文本列表。

通过步骤S3,确保筛选的文本包含了全部多音字以及多音字的上下文环境,而且优先在交集文本列表中选择文本,使得文本冗余较少,达到较少文本也能对语言环境覆盖较全面的效果,有效提高多音字的标注效率。

于步骤S4中,对上述候选文本列表中的全部文本进行操作;

对每一个文本的操作方法如下:依次考察文本的每一个汉字,如果是多音字,则遍历包含该多音字的长度为上述字串窗口的所有字串,称为窗口字串列表,并且从汉字字串字典中查找包括该多音字的字串列表,称为全局字串列表。把上述窗口字串列表和上述全局字串列表取交集,称为交集字串列表;

如果交集字串列表不为空,则把该多音字设为待标多音字汉字,从上述全局字串列表中删除交集字串列表的字串。否则不处理。

把上述过程操作完毕后,得到备注了待标多音字的候选文本列表,称为待标文本列表。

通过步骤S4,该过程指定需要人工标注的多音字,有效减少待标注多音字的数量。在保留多音字上下文环境全面的前提下,因为出现过的字串会在全局字串列表中删除,即不会重复标注,使得待标注的多音字数量减少,提高人工标注的效率。

于步骤S5中,从所述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量及多音字汉字,以得到输出文本列表。

从上述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量,如果文本数量和多音字数量都没达到预设值,则把该文本添加到输出文本列表,否则,结束向下考察。把上述操作完成后,得到确认后的输出文本列表。

通过步骤S5,该操作用以适应实际的人工标注预算,即使预算标注量较少,也能在这个标注量上得到相应最好的语料,可以动态地根据实际需求调取语料。因为在循环遍历字典步骤就循环遍历全部多音字,即使从头筛选较少量的文本,也能覆盖全部的多音字以及较多的上下文环境。选择的文本数量越高,对多音字上下文的覆盖就越全面。并且可以动态根据需求在原来较少量语料基础上增加语料,增加的语料和原少量语料是互补的,即多音字上下文信息没有重复。

以下以具体实施方案举例:

于步骤S1中,收集输入文本

构建“输入文本列表”,初始状态为空。

收集题材类型全面的原始文本语料。

例如收集的原始文本是2句话:

```

重庆的天气怎么样?重庆今天晴天,明天将下雨。

快乐很重要!快乐很重要!快乐很重要!重要的话重复三遍。

```

把上述文本语料进行分句处理,把每一句作为一个文本,并添加到“输入文本列表”。

例如通过标点符号分句,可以得到:

```

重庆的天气怎么样?

重庆今天晴天,明天将下雨。

快乐很重要!

快乐很重要!

快乐很重要!

重要的话重复三遍。

```

扫描“输入文本列表”,删除重复的文本,让重复的文本只保留一个。

例如去除重复的“快乐很重要!”,可以得到(句子前面的数字表示该句子的序号):

```

1.重庆的天气怎么样?

2.重庆今天晴天,明天将下雨。

3.快乐很重要!

4.重要的话重复三遍。

```

对全部原始文本语料处理后,得到“输入文本列表”。

于步骤S2中,构建映射字典。

首先构建一个记录汉字映射到包含该汉字的全部字串组成的列表的映射字典,称为“汉字字串字典”,初始状态下每个汉字映射的字串列表为空。

例如,把构建的“汉字字串字典”称为zi_chuan_dict,此时该字典为空,即zi_chuan_dict={}。

另外,构建一个记录字串映射到包含该字串的全部文本组成的列表的映射字典,称为“字串文本字典”,初始状态下每个字串映射的文本列表为空。

例如,把构建的“字串文本字典”称为chuan_wen_dict,此时该字典为空,即chuan_wen_dict={}。

设定一个“字串窗口”,对上述全部文本列表的每一个文本进行如下操作。字串窗口从句首往句尾移动,考察字串窗口的字串。

例如,处理第1个句子“重庆的天气怎么样?“,字串窗口设置为2。字串窗口移动得到的字串分别是:重庆、庆的、的天、天气、气怎、怎么、么样、样?。

考察的字串如果存在多音汉字,则把该字串添加到“汉字字串字典”中该汉字的字串列表下,并且把该文本添加到“字串文本字典”中该字串的文本列表下,否则不处理。

例如,在这个句子中,多音字有:重、的、么。

处理后得到的“汉字字串字典”zi_chuan_dict={重:[重庆],的:[庆的,的天],么:[怎么,么样]}。

处理后得到的”字串文本字典“chuan_wen_dict={重庆:[1],庆的:[1],的天:[1],怎么:[1],么样:[1]}。

对全部文本处理后,一是得到一个记录了每一个多音字汉字映射到包含该汉字的全部字串的映射字典,即“汉字字串字典”。另外得到一个记录了每一个字串映射到包含该字串的全部文本的映射字典,即“字串文本字典”。

于步骤S3中,循环遍历字典。

构建一个空的“候选文本列表”。

例如,候选文本列表命名为hou_wen_list,则hou_wen_list=[]。

依次从上述“汉字字串字典”中取出一个多音字汉字,上述过程循环执行,即依次取完全部多音字后,从头开始依次取。

例如,“汉字字串字典”zi_chuan_dict={重:[重庆],的:[庆的,的天],么:[怎么,么样]}的情况下,依次取出:重、的、么、重、的、么...。

单次操作方法如下,从“汉字字串字典”中取出一个多音字汉字,称为目标汉字。

例如,取第一个字:重,则目标汉字是“重”。

从“汉字字串字典”中查找该目标汉字映射的全部字串,从中取一个字串,称为目标字串。

例如,从“汉字字串字典”zi_chuan_dict={重:[重庆],的:[庆的,的天],么:[怎么,么样]}中查找“重”字,全部字串是[重庆],选取一个字串:重庆,则目标字串是“重庆”。

从“字串文本字典”中查找该目标字串映射的全部文本,称为“映射文本列表”。

例如,“字串文本字典”chuan_wen_dict={重庆:[1],庆的:[1],的天:[1],怎么:[1],么样:[1]},目标字串是“重庆”,查找得到的映射文本列表是[1]。

把上述“映射文本列表”和上述“候选文本列表”做交集得到“交集文本列表”,如果“交集文本列表”为空,则从从中取“映射文本列表”中选择一个文本,称为“目标文本”,否则从“交集文本列表”中选择一个文本作为“目标文本”。

例如,初始阶段“候选文本列表”hou_wen_list=[],和“映射文本列表”[1]取交集为空[],则从“映射文本列表”[1]中选择一个文本,这里是选择文本1。

例如,执行到某个时间点的时候,“候选文本列表”是[1,3],“映射文本列表”是[3,6],取交集则为[3],不为空,则从交集[3]中取文本3。

把该“目标文本”添加到“候选文本列表”,从“目标汉字”映射的全部字串的列表中删除“目标字串”,从“目标字串”映射的全部文本的列表中删除“目标文本”。

例如,“目标文本”是文本1,添加到“候选文本列表”后结果是[1]。删除“目标字串”即“重庆”,删除后的“汉字字串字典”zi_chuan_dict={重:[],的:[庆的,的天],么:[怎么,么样]}。删除目标文本1,删除后的“字串文本字典”chuan_wen_dict={重庆:[],庆的:[1],的天:[1],怎么:[1],么样:[1]}。

循环执行上述操作后,得到“候选文本列表”。

例如,把全部的文本[1,2,3,4]都进行操作,最后得到候选文本列表[1,2,3,4]。“输入文本列表”不一样可能得到的候选文本列表也不一样,可能是[1,4]。

于步骤S4中,选择待标汉字。

对上述“候选文本列表”中的全部文本进行操作。

例如,对“候选文本列表”即[1,2,3,4]的全部文本都进行操作。

对每一个文本的操作方法如下。依次考察文本的每一个汉字,如果是多音字,则遍历包含该多音字的长度为上述字串窗口的所有字串,称为“窗口字串列表”。

例如,考察文本1:重庆的天气怎么样?

依次考察:重、庆、的、天、气、怎、么、样。

例如,考察多音字“么“,字串窗口长度是2,获取的“窗口字串列表”是:[怎么,么样]。

从“汉字字串字典”中查找包括该多音字的字串列表,称为“全局字串列表”。

例如,考察的多音字是“么”,查找“汉字字串字典”zi_chuan_dict={重:[重庆],的:[庆的,的天],么:[怎么,么样]},得到“全局字串列表”是:[怎么,么样]。

把上述“窗口字串列表”和上述“全局字串列表”取交集,称为“交集字串列表”。

例如,把“窗口字串列表”即[怎么,么样]和“全局字串列表”即[怎么,么样]取交集,交集为[怎么,么样]。因为这个例子是第一个句子,故3个集合相同。运行到后面,“交集字串列表”可能和“窗口字串列表”、“全局字串列表”不同。

如果“交集字串列表”不为空,则把该多音字设为待标多音字汉字,并且设置待审核标注的默认拼音。

例如,“交集字串列表”是[怎么,么样],不为空,则把文本1中的“么“字设为待标多音字,设置默认拼音后,文本是:重庆的天气怎么(me)样?

如果“交集字串列表”不为空,从上述“全局字串列表”中删除交集字串列表的字串。

例如,“全局字串列表”是:[怎么,么样],“交集字串列表”是:[怎么,么样],删除后,“全局字串列表”为空,即:[]。

如果“交集字串列表为空”,则直接跳过,不做处理。

把上述过程操作完毕后,得到备注了待标多音字的候选文本列表,称为“待标文本列表”。

例如,把文本1操作完成后,文本1变为的待标文本是:重(chong2)庆的(de)天气怎么(me)样?

于步骤S5中,定制输出文本。

预设需要输出的文本数量、多音字数量、多音字汉字,构建空的“输出文本列表”。

例如,预设输出的文本数量为2、多音字数量为3、多音字为:重、的、么。

从上述“待标文本列表”中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量,如果文本数量和多音字数量都没达到预设值,则把该文本添加到“输出文本列表”,否则,结束向下考察。

例如,考察文本1:重(chong2)庆的(de)天气怎么(me)样?这是第一个文本,故当前文本数量是1,多音字数量是3,当前多音字数量已经达到预设的多音字数量3,故结束向下考察,输出的文本列表只有文本1。

假如,预设预设文本数量是2,预设多音字数量是5,那么则把文本1加入输出文本列表,然后继续考察文本2。文本2是:重(chong2)庆今天晴天,明天将(jiang1)下雨。考察文本2时候,当前文本数量是2,多音字数量是4,因为预设多音字没有“将”字,故不记录“将”字。因为文本数量2已经达到预设文本数量,故把文本2天添加到“输出文本列表”,结束向下考察。

把上述操作完成后,得到输出文本列表。

例如,输出的文本列表是:[1,2],即:

```

重(chong2)庆的(de)天气怎么(me)样?

重(chong2)庆今天晴天,明天将下雨。

```

请参阅图3,图3是本发明实施例提供的一种多音字待标语料的筛选装置的一个优选实施例的结构示意图。

基于上述多音字待标语料的筛选方法,本发明还提供一种该多音字待标语料的筛选装置,包括:

获取模块301,用于获取原始文本语料;其中,所述原始文本语料包括至少一个多音字;

生成模块302,用于生成汉字字串字典及字串文本字典,所述汉字字串字典用以记录汉字映射到包含所述汉字的全部字串组成的列表,所述字串文本字典用以记录字串映射到包含所述字串的全部文本组成的列表;

循环模块303,用于循环遍历字典,从所述汉字字串字典中取出多音字汉字,以使文本数量达到预设数值,并生成候选文本列表;

选择模块304,用于选择待标汉字,通过所述候选文本列表,获取待标文本列表;

输出文本列表模块305,用于从所述待标文本列表中依次记录每个文本的信息,考察一个文本后,记录当前包含预设多音字的文本数量、多音字数量及多音字汉字,以得到输出文本列表。

在具体实施当中,本发明实施例提供的多音字待标语料的筛选装置的工作原理、控制流程及实现的技术效果,与上述实施例中的多音字待标语料的筛选方法对应相同,在此不再赘述。

请参阅图4,图4是本发明提供的一种终端设备的一个优选实施例的结构示意图。该终端设备包括处理器401、存储器402以及存储在该存储器402中且被配置为由该处理器401执行的计算机程序,该处理器401执行该计算机程序时实现上述任一实施例该的多音字待标语料的筛选方法。

优选地,该计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······),该一个或者多个模块/单元被存储在该存储器402中,并由该处理器401执行,以完成本发明。该一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述该计算机程序在该终端设备中的执行过程。

该处理器401可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者该处理器401也可以是任何常规的处理器,该处理器401是该终端设备的控制中心,利用各种接口和线路连接该终端设备的各个部分。

该存储器402主要包括程序存储区和数据存储区,其中,程序存储区可存储操作系统、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,该存储器402可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(SmartMedia Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或该存储器402也可以是其他易失性固态存储器件。

需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图4的结构示意图仅仅是上述终端设备的示例,并不构成对上述终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。

本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的计算机程序,其中,在该计算机程序运行时控制该计算机可读存储介质所在设备执行上述任一实施例该的多音字待标语料的筛选方法。

综上,本发明实施例提供了一种多音字待标语料的筛选方法、装置、设备及存储介质,本发明具有以下优点:收集题材类型全面的原始文本语料,确保文本语料对题材类型、语言风格覆盖全面。

构建映射字典过程记录每个多音字的上下文环境,故保留了全面的语言环境。目前还没有筛选方案达到对汉字的上下文覆盖全面的效果,故现有其他方案筛选出来的文本会丢失很多题材。

循环遍历字典过程确保筛选的文本包含了全部多音字以及多音字的上下文环境,而且优先在交集文本列表中选择文本,使得文本冗余较少,达到即使使用较少文本也能对语言环境覆盖较全面的效果,有效提高多音字的标注效率。目前的筛选文本的方案并不能达到较少文本覆盖较全面的语言环境,故筛选的文本对多音字标注效率提升很少。

选择待标汉字过程指定待人工标注的多音字,有效减少待标注多音字的数量。在保留多音字上下文环境全面的前提下,因为出现过的字串会在全局字串列表中删除,即不会重复标注,使得待标注的多音字数量减少,提高人工标注的效率。现有方案并没有减少信息重复的待标注项,使得人工标注会做一些冗余的标注工作,降低了标注效率。

输出文本列表过程用以适应实际的人工标注预算,即使预算标注量较少,也能在这个标注量上得到相应最好的语料。此外,可以动态地根据实际需求调取语料。因为在循环遍历字典步骤就循环遍历全部多音字,即使从头筛选较少量的文本,也能覆盖全部的多音字以及较多的上下文环境。选择的文本数量越高,对多音字上下文的覆盖就越全面。并且可以动态根据需求在原来较少量语料基础上增加语料,增加的语料和原少量语料是互补的,即多音字上下文信息没有重复。现有语料筛选方案并不能动态根据实际需求调取语料,目标数量有变化,则需要从头设置,重新筛选,而且每次筛选的结果不一样,每次筛选的语料不能互补。

本发明实施例是一种从大量文本语料中筛选少量文本的方法,从而构建用以人工标注的语料。该方法是自动筛选的,筛选的文本语料能够很大程度保留原有语料中关于多音字的信息,信息丢失少。筛选出来的文本以及多音字数量更少,有效提高人工标注工作的效率和价值,标注更少的语料也能达到较好的效果,即人工标注工作量更少。筛选的文本语料对帮助训练多音字拼音消歧模型,提高预测多音字拼音的正确率。

需说明的是,以上所描述的装置实施例仅仅是示意性的,其中该作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的系统实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上该是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

相关技术
  • 一种多音字待标语料的筛选方法、装置、设备及存储介质
  • 多音字语料的获取方法、装置、可读介质和电子设备
技术分类

06120112187431