掌桥专利:专业的专利平台
掌桥专利
首页

亚字识别模型的训练、识别方法、装置、设备及存储介质

文献发布时间:2023-06-19 18:30:43


亚字识别模型的训练、识别方法、装置、设备及存储介质

技术领域

本发明涉及语音合成技术领域,特别是涉及一种亚字识别模型的训练、识别方法、装置、设备及存储介质。

背景技术

语音合成技术(Text To Speech,TTS),是指利用计算机将任意文本转化为语音的技术。其中,多音字转换的正确与否,极大地影响了用户对合成语音的理解情况,如果多音字转换错误,则会影响用户体验。因此多音字消歧是语音合成系统中一个重要的任务。

多音字消歧技术具体指识别中文语音或文本中多音字的具体发音,是语音合成技术中必不可少的前端处理过程。而目前的多音字消歧技术中,pypinyin是基于词库和分词的中文多音字消歧方案,该方案没有解决分成单字的多音字和多音词的问题,所以错误率较高。DNN(Deep Neural Networks,深度神经网络)模型在解决多音字消歧问题时,由于语料较少等原因,虽然比pypinyin的方案准确率高但仍然有明显的提升空间,DNN模型结合Bert等预训练模型后,在解决多音字消歧问题时,获得了较高的准确率,但计算量大,识别速度慢。

因此,有必要开发一种亚字识别模型的训练方法,以解决现有技术对于多音字消歧速度慢且错误率低的问题。

发明内容

本申请提供一种亚字识别模型的训练、识别方法、装置、设备及存储介质,能够实现对多音字的快速识别以及提高识别的准确率。

为了解决上述问题,本申请采用了以下的技术方案:

第一方面,本申请实施例提供了一种亚字识别模型的训练方法,所述方法包括:

获取第一语料库和第二语料库;所述第一语料库包括携带有亚字标签的语句,所述第二语料库包括未携带有亚字标签的语句,所述亚字标签用于表征语句中亚字的位置和类别,每个汉字包括至少一个亚字,每个亚字用于表征对应汉字的一种含义;

获取所述第一语料库和所述第二语料库中各个语句对应的语句向量;不同语句的语句向量由该语句中的汉字的汉字向量组成;

从所述汉字向量中,提取出携带有亚字标签的汉字的目标汉字向量;

将所述目标汉字向量作为聚类中心,对每个汉字向量进行聚类,以为所述各个语句中的汉字确定各自对应的目标亚字,得到由目标亚字组成的亚字语料集;

将所述亚字语料集作为训练样本,对语言模型进行训练,得到亚字识别模型,所述亚字识别模型用于识别语句中的汉字的含义。

在本申请一实施例中,获取第一语料库,包括:

对汉语字典进行分析,得到包含待标注汉字的语句;

基于所述待标注汉字在对应语句中的位置和类别,为所述待标注汉字添加亚字标签,得到携带有亚字标签的语句;

基于所述携带有亚字标签的语句,得到所述第一语料库。

在本申请一实施例中,将所述目标汉字向量作为聚类中心,对每个汉字向量进行聚类,以为所述各个语句中的汉字确定各自对应的目标亚字,得到由目标亚字组成的亚字语料集,包括:

将所述目标汉字向量作为聚类中心,对每个汉字向量进行聚类,得到预设数量的聚类簇;不同的聚类簇用于表征不同含义的目标亚字;

将属于同一聚类簇的汉字向量对应的汉字确定为所述聚类簇对应的目标亚字;

将所述各个语句中的汉字映射为各自对应的目标亚字,,得到由目标亚字组成的亚字语料集。

在本申请一实施例中,将所述目标汉字向量作为聚类中心,对每个汉字向量进行聚类,得到预设数量的聚类簇,包括:

将所述目标汉字向量作为聚类中心,对每个汉字向量进行聚类,确定每个汉字向量距离所述聚类中心的欧式距离;不同的聚类中心对应不同的聚类簇;

在任一汉字向量距离所述聚类中心的欧式距离小于距离阈值的情况下,确定所述汉字向量属于所述聚类中心对应的聚类簇。

在本申请一实施例中,将所述亚字语料集作为训练样本,对语言模型进行训练,得到亚字识别模型,包括:

将所述亚字语料集作为训练样本,对n-gram语言模型进行训练,得到亚字识别模型,所述亚字识别模型学习了包含同一亚字的各个语句中该亚字之前的词语序列。

第二方面,基于相同发明构思,本申请实施例提供了一种亚字识别方法,所述方法包括:

将待识别语句输入亚字识别模型,得到所述待识别语句中的汉字各自对应的目标亚字;其中,所述亚字识别模型基于本申请实施例第一方面提出的亚字识别模型的训练方法训练得到;所述目标亚字的含义为对应汉字在所述待识别语句中概率最大的含义。

在本申请一实施例中,将待识别语句输入亚字识别模型,得到所述待识别语句中的汉字各自对应目标亚字之后,所述方法还包括::

根据所述目标亚字的含义,确定所述目标亚字对应的汉字在所述待识别语句中的发音。

第三方面,基于相同发明构思,本申请实施例提供了一种亚字识别模型的训练装置,所述装置包括:

获取模块,用于获取第一语料库和第二语料库;所述第一语料库包括携带有亚字标签的语句,所述第二语料库包括未携带有亚字标签的语句,所述亚字标签用于表征语句中亚字的位置和类别,每个汉字包括至少一个亚字,每个亚字用于表征对应汉字的一种含义;

向量模块,用于获取所述第一语料库和所述第二语料库中各个语句对应的语句向量;不同语句的语句向量由该语句中的汉字的汉字向量组成;

提取模块,用于从所述汉字向量中,提取出携带有亚字标签的汉字的目标汉字向量;

聚类模块,用于将所述目标汉字向量作为聚类中心,对每个汉字向量进行聚类,以为所述各个语句中的汉字确定各自对应的目标亚字,得到由目标亚字组成的亚字语料集;

训练模块,用于将所述亚字语料集作为训练样本,对语言模型进行训练,得到亚字识别模型,所述亚字识别模型用于识别语句中的汉字的含义。

在本申请一实施例中,所述获取模块包括:

分析子模块,用于对汉语字典进行分析,得到包含待标注汉字的语句;

添加子模块,用于基于所述待标注汉字在对应语句中的位置和类别,为所述待标注汉字添加亚字标签,得到携带有亚字标签的语句;

获取子模块,用于基于所述携带有亚字标签的语句,得到所述第一语料库。

在本申请一实施例中,所述聚类模块包括:

聚类子模块,用于将所述目标汉字向量作为聚类中心,对每个汉字向量进行聚类,得到预设数量的聚类簇;不同的聚类簇用于表征不同含义的目标亚字;

确定子模块,用于为属于同一聚类簇的汉字向量对应的汉字确定所述聚类簇对应的目标亚字;

映射子模块,用于将所述各个语句中的汉字映射为各自对应的目标亚字,得到由目标亚字组成的亚字语料集。

在本申请一实施例中,所述聚类子模块包括:

欧式距离确定单元,用于将所述目标汉字向量作为聚类中心,对每个汉字向量进行聚类,确定每个汉字向量距离所述聚类中心的欧式距离;不同的聚类中心对应不同的聚类簇;

聚类簇确定单元,用于在任一汉字向量距离所述聚类中心的欧式距离小于距离阈值的情况下,确定所述汉字向量属于所述聚类中心对应的聚类簇。

在本申请一实施例中,所述训练模块具体用于将所述亚字语料集作为训练样本,对n-gram语言模型进行训练,得到亚字识别模型,所述亚字识别模型学习了包含同一亚字的各个语句中该亚字之前的词语序列。

第四方面,基于相同发明构思,本申请实施例提供了一种亚字识别装置,所述装置包括:

亚字识别模块,用于将待识别语句输入亚字识别模型,得到所述待识别语句中的汉字各自对应的目标亚字;其中,所述亚字识别模型基于本申请实施例第一方面提出的亚字识别模型的训练方法训练得到;所述目标亚字的含义为对应汉字在所述待识别语句中概率最大的含义。

在本申请一实施例中,所述装置还包括:

发音确定模块,用于根据所述目标亚字的含义,确定所述目标亚字对应的汉字在所述待识别语句中的发音。

第五方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序以实现如本申请实施例第一方面提出的亚字识别模型的训练方法或本申请实施例第二方面提出的亚字识别方法。

第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现如本申请实施例第一方面提出的亚字识别模型的训练方法或本申请实施例第二方面提出的亚字识别方法。

与现有技术相比,本申请包括以下优点:

本申请实施例提供的一种亚字识别模型的训练方法,通过获取第一语料库和第二语料库中各个语句对应的语句向量,不同语句的语句向量由该语句中的汉字的汉字向量组成;然后从汉字向量中,提取出携带有亚字标签的汉字的目标汉字向量;进而将目标汉字向量作为聚类中心,对每个汉字向量进行聚类,以为各个语句中的汉字确定各自对应的目标亚字,得到由目标亚字组成的亚字语料集;最后将亚字语料集作为训练样本,对语言模型进行训练,得到亚字识别模型。本申请实施例利用训练得到的亚字识别模型,可以快速且精确的识别到待识别语句中的每个汉字对应的目标亚字,,进而确定每个汉字在待识别语句中唯一的含义和发音,有效满足多音字消歧需求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种亚字识别模型的训练方法的步骤流程图。

图2为本申请实施例提供的一种对于某一个汉字的亚字语料生成的示意图。

图3是本申请实施例提供的一种亚字识别方法的步骤流程图。

图4是本申请实施例提供的一种亚字识别模型的训练装置的功能模块示意图。

图5是本申请实施例提供的一种亚字识别装置的功能模块示意图。

图6是本申请实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本实施例中的附图,对本实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,在现代汉语中,一个汉字往往有多种含义,尤其是在不同的语境中,一个汉字将显示出其中的某一种具体的含义,例如:在句子“经济运行环境决定了其均衡持续时间较长”中,长为形容词读作cháng,表示时间久;在句子“越是保护越是长不大”中,长为动词读作zháng,表示生长、成长。

同样的,有不少的词语也有多种含义,例如,在句子“考虑如何尊重孩子,而不仅仅是去教授知识”中,教授为动词,读作j iāo shòu,意思是:教导、传授;在句子“凯恩斯亦因此一生未尝做过教授”中,教授为名词,读作jiào shòu,是大学教师职务的最高级别。

因此,基于同一个汉字或同一个词语在不同的句子中所代表的含义可能不同,也可能相同,本申请实施例引入亚字和亚词的概念。即,对于某一个汉字,对应的某一种具体的含义,称为这个汉字的一个亚字,而这个汉字的所有的亚字,可以称为是这个汉字的一个亚字集,同样地,对于某一个词语,对应的某一种具体的含义,称为是这个词语的一个亚词,而这个词语的所有的亚词,可以称为是这个词语的一个亚词集。

具体而言,针对某一个汉字(词语),该汉字(词语)对应的亚字集(亚词集)可以表示为:

W={w

其中,W表示某个汉字(词语)对应的亚字集(亚词集);n表示该汉字(词语)包含的亚字(亚词)的数量,n为大于等于1的正整数;w

基于上述亚字和亚词的定义,参照图1,示出了本申请一种亚字识别模型的训练方法的步骤流程图,该方法具体可以包括以下步骤:

S101:获取第一语料库和第二语料库;第一语料库包括携带有亚字标签的语句,第二语料库包括未携带有亚字标签的语句,亚字标签用于表征语句中亚字的位置和类别,每个汉字包括至少一个亚字,每个亚字用于表征对应汉字的一种含义。

本实施方式需要说明的是,每个汉字根据其具体的含义都可以转化为对应的亚字形式。示例性的,参照公式(1),针对某个汉字的亚字集,当n为2时,表示该汉字仅存在不同的语句中存在两种不同的含义,当n为1时,表示该汉字仅存在一种含义。示例性的,设“长”字对应有两种不同的含义,则“长”对应的亚字集可以表示为{长-1,长-2},其中长-1表示“长度”的含义,读作“cháng”;长-2则表示“成长”的含义,读作“zhǎng”。需要说明的是,“长”字实际上在不同的语句中具有更多的含义,,上述仅为示例,即,“长”包含的亚字数量可以有更多,但每个具体的含义对应的发音是唯一的,如“长”字在“铁路桥全长6772米”中表示“长度”,在“一技之长”中表示“长处”,两者对应的发音均为“cháng”。

在本实施方式中,第一语料库表示携带有亚字标签的语句的集合,该第一语料库可以通过对汉语字典进行分析得到。具体而言,可以对汉语字典进行分析,得到包含待标注汉字的语句,然后基于待标注汉字在对应语句中的位置和类别,为待标注汉字添加亚字标签,得到携带有亚字标签的语句;最后整合所有的携带有亚字标签的语句,进而得到第一语料库。在具体实现中,可以根据实际需求,对汉语字典中的部分或所有汉字进行One-hot编码,使部分或所有汉字都对应有具体的label亚字标签,最后整合所有携带label亚字标签的汉字所在的语句,得到第一语料库。

需要说明的是,在汉语字典中,对于字典中的所有的汉字,都会有相对应的注释,并且会针对这些汉字的注释给出相对应的应用语境,这些不同的语境中携带这些label亚字标签的汉字的语句,从而得到携带亚字标签的语句。例如,对于汉字“好”,在汉语字典中,有不同的含义的注释,如:“美好”、“爱好”、“喜好”、“好多”等,其中,“爱好”、“喜好”具有相同的含义,因此,可以编码相同的亚字标签,而“美好”与“好多”分别具有不同的含义,因此,分别编码不同的亚字标签。若某语句中的某个“好”字被标注上对应的亚字标签,则该语句即为携带“好”字的亚字标签的语句。

在本实施方式中,通过将汉语字典中的大量的携带亚字标签的汉字进行整合处理后,从而得到一个包含所有汉字对应的所有的亚字的亚字字典。该亚字字典可以表示为包含了所有汉字的亚字的数据库,本实施例中的亚字字典通过如下公式表示:

WM={(W

其中,WM为亚字字典;W

在本实施方式中,第一语料库可以用如下公式表示:

D

x

y

其中,D

在本实施方式中,第二语料库则是表示未经标注的未携带有亚字标签的语句的集合,该第二语料库中的文本语料可以通过爬虫技术从网络上获取和/或从任意的含有大量的文字或语句的文本数据库中获取。具体而言,由于获取的原始文本语料中的可能会含有图片、表情、无效标点符号等非文本语料,或者是含有一些语句较长的文本语料,因此,需要对原始文本语料进行清洗、分句等操作,使第二语料库中仅含有纯文本且都是由短句组成的文本语料。

在本实施方式中,第二语料库可以通过如下公式表示::

D

其中,D

S102:获取第一语料库和第二语料库中各个语句对应的语句向量;不同语句的语句向量由该语句中的汉字的汉字向量组成。

在本实施方式中,可以通过将第一语料库和第二语料库输入预训练模型中,以获取向量集E,该向量集E包括第一语料库和第二语料库中的各个语句对应的语句向量,具体可以通过以下公式表示:

E={e

其中,E表示第一语料库和第二语料库中的各个语句对应的语句向量的集合;e

需要说明的是,向量集E中的元素数量为第一语料库和第二语料库中的语句数量之和,也就是说,向量集E可以理解为第一语料库和第二语料库的并集的向量表示,其中,每个语句向量具体由对应语句中的汉字的汉字向量组成。

S103:从汉字向量中,提取出携带有亚字标签的汉字的目标汉字向量。

在本实施方式中,在得到向量集E之后,将会语句向量中的汉字向量与前序步骤中得到的亚字字典WM进行比较,进而基于亚字字典WM,在每个语句中找到已被标注的携带有亚字标签的汉字,并提取出该汉字的目标汉字向量。

S104:将目标汉字向量作为聚类中心,对每个汉字向量进行聚类,以为各个语句中的汉字确定各自对应的目标亚字,得到由目标亚字组成的亚字语料集。

需要说明的是,每个携带有亚字标签的汉字对应的目标汉字向量能够表征该汉字的一个具体的含义,因此,将目标汉字向量作为聚类中心,对所有的汉字进行聚类,可以将不同语句中具有相同或者相似含义的同一汉字聚集在同一个类别中,进而实现对各个语句中的所有汉字的分类,同一个类别中的汉字对应一个目标亚字。

在本实施方式中,通过将各个语句中的汉字映射为各自对应的目标亚字,可得到每个语句对应的亚字语料,进而整合各个亚字语料,可以得到亚字语料集H,具体可以通过以下公式表示:

H={h

其中,H表示亚字语料集;h

需要说明的是,参照公式(7)和公式(8),亚字语料h

S105:将亚字语料集作为训练样本,对语言模型进行训练,得到亚字识别模型,亚字识别模型用于识别语句中的汉字的含义。

在本实施方式中,通过将目标汉字向量作为聚类中心,并利用聚类算法得到的亚字语料集H中的亚字语料不仅数量足够多,并且准确率高,亚字语料中的各个亚字具有准确且唯一的含义。因此,将亚字语料集作为训练样本,得到的亚字识别模型可以快速且精确的识别到语句中的每个汉字各自对应的目标亚字,进而基于每个汉字各自对应的目标亚字,确定每个汉字在待识别语句中唯一的含义和发音,可以有效满足多音字消歧需求。

在一个可行的实施方式中,S104具体可以包括以下子步骤:

S104-1:将目标汉字向量作为聚类中心,对每个汉字向量进行聚类,得到预设数量的聚类簇;不同的聚类簇用于表征不同含义的目标亚字。

在本实施方式中,可以基于K-means聚类算法,对语句向量中的每个汉字向量进行聚类,其中,K即代表预设数量,也就是说,可以根据实际需要,即需要分类出的亚字的种类多少对K值进行设置。在确定K值之后,相较于传统K-means聚类算法随机选择K个数据作为聚类中心,本实施方式将提取的携带有亚字标签的汉字的目标汉字向量作为聚类中心,可以将汉字向量进行准确的分类,使得和目标汉字向量相同或者相似的汉字向量聚集在同一个聚类簇中,以提高聚类的准确性。

在具体实现中,可以将目标汉字向量作为聚类中心,对每个汉字向量进行聚类,并计算每个汉字向量距离聚类中心的欧式距离;在任一汉字向量距离聚类中心的欧式距离小于距离阈值的情况下,则确定汉字向量属于聚类中心对应的聚类簇。需要说明的是,不同的聚类中心对应不同的聚类簇,而基于不同的聚类中心得到的不同的聚类簇则用于表征某个汉字对应的不同含义的目标亚字。

S104-2:为属于同一聚类簇的汉字向量对应的汉字确定聚类簇对应的目标亚字。

在本实施方式中,由于属于同一聚类簇的汉字向量对应的汉字都具有相同或相似的含义,因此,可以得到属于同一聚类簇的汉字向量对应的汉字与该聚类簇对应的目标亚字之间的映射关系。

S104-3:将各个语句中的汉字映射为各自对应的目标亚字,得到由目标亚字组成的亚字语料集。

在本实施方式中,通过对所有汉字进行聚类,可以确定每个汉字在不同语句中对应的亚字表达,即确定在不同语句中每个汉字与目标亚字之间的映射关系,进而基于该映射关系,可以将各个语句中的汉字映射为各自对应的目标亚字,得到由目标亚字组成的亚字语料的集合,即亚字语料集H。

示例性的,参照图2,示出了本申请实施例提供的一种对于某一个汉字的亚字语料生成的示意图。可知,对于“长”字,实际应用中会有很多含有这个字的语句,例如:“时间长”,“长不大”,“长期”等,对于这些含有“长”的语句,这个“长”字在“时间长”,“长期”中具有相似的含义,而在“长不大”这个语句中具有另外不同的含义,对这些语句进行预训练,其中,预训练模型可以采用pre-mode l预训练模型,得到这些语句中对于“长”字对应的不同的汉字向量。

进一步地,在所有的“长”字对应的汉字向量中提取出携带亚字标签的“长”字的汉字向量作为“长”字的目标汉字向量,并该目标汉字向量作为是聚类中心的初始值,对所有的“长”字进行聚类,这里用到的是K-means聚类算法,将含义相同或相似的“长”字的亚字聚集在同一个聚类簇中,如:“时间长”,“长期”中的“长”字的亚字的含义相同,则将“时间长”,“长期”中的“长”字的亚字聚集在聚类簇A,聚类簇A对应的目标亚字记作“长-1”,“长不大”中的“长”字表示另外不同的含义,则将其聚集在另外一个聚类簇B中,聚类簇B对应的目标亚字记作“长-2”。

应用同样的方法,对“时间长”,“长不大”,“长期”等中的所有的汉字进行预训练,得到所有汉字对应的汉字向量,并对所有汉字进行聚类,将相同含义的汉字向量聚集在同一个聚类簇中。其中以“时间长”为例,将“时间长”输入到预训练模型中,得到这个语句中所有汉字的汉字向量,即,可以得到“时”字对应的汉字向量,可以得到“间”字对应的汉字向量以及可以得到“长”字对应的汉字向量,并对这些汉字向量进行聚类,以将“时”字、“间”字和“长”字确定为各自对应的目标亚字,即“时-1”、“间-1”和“长-1”,由此可以得到语句“时间长”的对应亚字语料为“时-1间-1长-1”,将所有的这些语句的汉字全部映射为对应的目标亚字后,便可以得到亚字语料集。

在一个可行的实施方式中,S105具体可以包括以下子步骤:

S105-1:将亚字语料集作为训练样本,对n-gram语言模型进行训练,得到亚字识别模型,亚字识别模型学习了包含同一亚字的各个语句中该亚字之前的词语序列。

在本实施方式中,可以利用n-gram语言模型对亚字语料集进行训练,以对包含同一亚字的各个语句中该亚字之前的词语序列进行学习,可以得到某一个亚字在一个亚字序列中出现在某一个词语序列之后的概率,具体可通过如下公式表示:

其中,w

以上可以得到对于亚字的识别模型,而对于由亚字组成的语句,可以通过如下公式得到对于某一个亚字语句的识别模型:

在本实施方式中,将亚字语料集作为训练样本,可以基于公式(9),对n-gram语言模型进行训练,得到用于识别亚字的识别模型;可以基于公式(10),对n-gram语言模型进行训练,得到用于识别亚字语句的识别模型。

第二方面,基于相同发明构思,参照图3,本申请实施例提供了一种亚字识别方法,所述方法包括:

S301:将待识别语句输入亚字识别模型,得到所述待识别语句中的汉字各自对应的目标亚字;其中,所述亚字识别模型基于本申请实施例第一方面提出的亚字识别模型的训练方法训练得到;所述目标亚字的含义为对应汉字在所述待识别语句中概率最大的含义。

在本实施方式中,对于一个待识别语句,该待识别语句由多个汉字组成,该待识别语句中的每个汉字的具体的含义不确定,也就是说,该待识别语句中每个汉字都对应一个或多个亚字,通过遍历组合,得到了该待识别语句中所有可能的亚字组合。

在本实施方式中,将待识别语句输入亚字识别模型,可以得到所有的亚字组合的概率,由于亚字组合中的亚字的含义唯一,因此,某个亚字组合的概率的即某个汉字在待识别语句中的其中一种含义的概率。

在本实施方式中,可以对所有的亚字组合进行估计算法,如应用极大似然估计算法,找到所有的亚字组合中发生概率最大的亚字组合,并将其作为待识别语句对应的目标亚字组合,进而基于该目标亚字组合,可以确定待识别语句中的汉字各自对应的目标亚字。

在一个可行的实施方式中,S201之后,亚字识别方法还可以包括以下步骤:

S302:根据目标亚字的含义,确定目标亚字对应的汉字在待识别语句中的发音。

在本实施方式中,目标亚字组合中的目标亚字即是待识别语句中对应的汉字的最正确的含义。由于每一个目标亚字都对应有唯一的发音,因此可以根据目标亚字组合中各个目标亚字的含义,确定目标亚字对应的汉字在待识别语句中的发音。

在一个例子中,设有一个待识别语句S,该待识别语句S由m个汉字组成。具体如下公式所示:

S=(W

其中,S为待识别语句,W

对上述待识别语句S中的所有的汉字进行遍历,得到该待识别语句S的所有可能的亚字组合。具体如下公式所示:

{(w

其中,w

将公式(12)中的各个亚字组合代入公式(10),可以计算得到每个亚字组合的概率,计算过程可以用如下公式表示:

对公式(13)进行求解,可得到该待识别语句S的所有亚字组合中发生概率最大的目标亚字组合,该发生概率最大的目标亚字组合即为最终的识别结果S

其中,

需要说明的是,对照公式(11)和公式(14),待识别语句S的识别结果即为S

在本实施方式中,由于目标亚字具有唯一的含义和发音,因此,基于识别结果S

示例性的,以“时间长”为例,这个语句中的“时”、“间”、“长”的所有的亚字可以有很多种组合,例如“时-1间-1长-1”、“时-1间-1长-2”、“时-2间-1长-2”等,通过公式(13)计算所有亚字组合的概率,得到概率最大的目标亚字组合为“时-1间-1长-1”,该亚字组合即为最终的识别结果,最后将这些识别出的目标亚字组合中的目标亚字输入到亚字字典中,从而得到相对应的“时-1间-1长-1”的发音。

第三方面,基于相同发明构思,参照图4,本申请实施例提供了一种亚字识别模型的训练装置400,该亚字识别模型的训练装置400包括:

获取模块401,用于获取第一语料库和第二语料库;第一语料库包括携带有亚字标签的语句,第二语料库包括未携带有亚字标签的语句,亚字标签用于表征语句中亚字的位置和类别,亚字是具有至少一种含义的汉字,且亚字在一个语句中的含义为:具有多种含义的汉字的一种含义;

向量模块402,用于将第一语料库和第二语料库输入预训练模型,得到各个语句对应的语句向量;不同语句的语句向量由该语句中的汉字的汉字向量组成;

提取模块403,用于从汉字向量中,提取出携带有亚字标签的汉字的目标汉字向量;

聚类模块404,用于将目标汉字向量作为聚类中心,对每个汉字向量进行聚类,以为各个语句中的汉字确定各自对应的目标亚字,得到由目标亚字组成的亚字语料集;

训练模块405,用于将亚字语料集作为训练样本,对语言模型进行训练,得到亚字识别模型,亚字识别模型用于识别语句中的汉字的含义。

在本申请一实施例中,获取模块401包括:

分析子模块,用于对汉语字典进行分析,得到包含亚字的语句;

添加子模块,用于基于亚字在对应语句中的位置和类别,为亚字添加亚字标签,得到携带有亚字标签的语句;

获取子模块,用于基于携带有亚字标签的语句,得到第一语料库。

在本申请一实施例中,聚类模块404包括:

聚类子模块,用于将目标汉字向量作为聚类中心,对每个汉字向量进行聚类,得到预设数量的聚类簇;不同的聚类簇用于表征不同含义的目标亚字;

确定子模块,用于为属于同一聚类簇的汉字向量对应的汉字确定为聚类簇对应的目标亚字;

映射子模块,用于将各个语句中的汉字映射为各自对应的目标亚字,得到由目标亚字组成的亚字语料集。

在本申请一实施例中,聚类子模块包括:

欧式距离确定单元,用于将目标汉字向量作为聚类中心,对每个汉字向量进行聚类,确定每个汉字向量距离聚类中心的欧式距离;;不同的聚类中心对应不同的聚类簇;

聚类簇确定单元,用于在任一汉字向量距离聚类中心的欧式距离小于距离阈值的情况下,确定汉字向量属于聚类中心对应的聚类簇。

在本申请一实施例中,训练模块405具体用于将亚字语料集作为训练样本,对n-gram语言模型进行训练,得到亚字识别模型,亚字识别模型学习了包含同一亚字的各个语句中该亚字之前的词语序列。

需要说明的是,本申请实施例的亚字识别模型的训练装置400的具体实施方式参照前述本申请实施例第一方面提出的亚字识别模型的训练方法的具体实施方式,在此不再赘述。

第四方面,基于相同发明构思,参照图5,本申请实施例提供了一种亚字识别装置500,该亚字识别装置500包括:

亚字识别模块501,用于将待识别语句输入亚字识别模型,得到待识别语句中的汉字各自对应的目标亚字;其中,亚字识别模型基于本申请实施例第一方面提出的亚字识别模型的训练方法训练得到;目标亚字的含义为对应汉字在待识别语句中概率最大的含义。

在本申请一实施例中,亚字识别装置500还包括:

发音确定模块502,用于根据目标亚字的含义,确定目标亚字对应的汉字在待识别语句中的发音。

需要说明的是,本申请实施例的亚字识别装置500的具体实施方式参照前述本申请实施例第二方面提出的亚字识别方法的具体实施方式,在此不再赘述。

第五方面,参照图6,本申请实施例提供了一种电子设备600,包括存储器601、处理器602及存储在存储器602上的计算机程序,处理器601执行计算机程序以实现本申请实施例第一方面提出的亚字识别模型的训练方法或本申请实施例第二方面提出的亚字识别方法。

需要说明的是,本申请实施例的电子设备600的具体实施方式参照前述本申请实施例第一方面提出的亚字识别模型的训练方法或本申请实施例第二方面提出的亚字识别方法的具体实施方式,在此不再赘述。

第六方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请实施例第一方面提出的亚字识别模型的训练方法或本申请实施例第二方面提出的亚字识别方法。

需要说明的是,本申请实施例的计算机可读存储介质的具体实施方式参照前述本申请实施例第一方面提出的亚字识别模型的训练方法或本申请实施例第二方面提出的亚字识别方法的具体实施方式,在此不再赘述。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的亚字识别模型的训练、识别方法、装置、设备及存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

相关技术
  • 识别码识别方法、装置、计算机设备和存储介质
  • 车辆套牌识别方法、装置、识别设备及存储介质
  • 物品识别方法、装置及设备、存储介质、电子装置
  • 音乐风格识别方法、装置、计算机设备及存储介质
  • 语音识别方法、装置、电子设备及计算机可读存储介质
  • 一种音频识别模型训练方法、音频识别方法、装置、电子设备及存储介质
  • 识别方法、识别模型的训练方法、装置、设备、存储介质
技术分类

06120115594083