掌桥专利:专业的专利平台
掌桥专利
首页

一种数据处理方法及装置

文献发布时间:2023-06-19 13:45:04


一种数据处理方法及装置

技术领域

本申请涉及机器学习领域,特别是涉及一种数据处理方法及装置。

背景技术

目前,预训练模型发展突飞猛进。预训练可以通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。并且,预训练模型可以将从大规模数据中学习到的知识迁移到具体的业务中。也就是说:若使用预训练模型对业务模型进行优化,则可以使得业务模型的效果更优。但是,在一些场景下,并不能使用预训练模型对业务模型进行优化,从而使得业务模型的效果无法得到提升。

因此,急需一种方案,能够解决上述问题。

发明内容

本申请所要解决的技术问题是:当无法使用预训练模型对业务模型进行优化时,业务模型的效果无法得到提升。本申请提供了一种数据处理方法及装置。

第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:

获取业务数据;

将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;

将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;

根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。

可选的,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

可选的,将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配,包括:

若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。

可选的,所述方法还包括:

获取语音数据;

对所述语音数据进行识别,得到所述语音数据对应的文本;

利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;

输出添加了所述标点符号的所述语音数据对应的文本。

可选的,所述业务数据为根据语音自动识别得到的文本。

第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:

第一获取单元,用于获取业务数据;

输入单元,用于将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;

匹配单元,用于将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;

确定单元,用于根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。

可选的,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

可选的,所述匹配单元,用于:

若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。

可选的,所述装置还包括:

第二获取单元,用于获取语音数据;

识别单元,用于对所述语音数据进行识别,得到所述语音数据对应的文本;

处理单元,用于利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;

输出单元,用于输出添加了所述标点符号的所述语音数据对应的文本。

可选的,所述业务数据为根据语音自动识别得到的文本。

第三方面,本申请实施例提供了一种数据处理装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取业务数据;

将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;

将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;

根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。

可选的,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

可选的,将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配,包括:

若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。

可选的,所述操作还包括:

获取语音数据;

对所述语音数据进行识别,得到所述语音数据对应的文本;

利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;

输出添加了所述标点符号的所述语音数据对应的文本。

可选的,所述业务数据为根据语音自动识别得到的文本。

第四方面,本申请实施例提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以上第一方面任意一项所述的方法。

与现有技术相比,本申请实施例具有以下优点:

本申请实施例提供了一种数据处理方法。具体地:可以获取业务数据,而后将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出。在本申请实施例中,预训练模型的建模单元和初始业务模型的建模单元不同,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,而由于一个建模单元对应一个全连接层输出,这就导致预训练模型的全连接层输出的序列长度、与初始业务模型的全连接层输出的序列长度不同。在这种情况下,为了使得可以对所述初始业务模型和预训练模型进行知识蒸馏,在本申请实施例中,可以将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符,所述字符与所述初始业务模型的各个建模单元分别匹配,而后,根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。即:在本申请实施例中,即使预训练模型的全连接层输出的序列长度大于所述初始业务模型的全连接层输出的序列长度,利用本方案,可以从所述预训练模型的全连接层输出的序列中,筛选出与初始业务模型的全连接层输出的序列长度相同的序列,从而进行知识蒸馏。由此可见,利用本方案,能够使用预训练模型对初始业务模型进行优化,得到目标业务模型,从而提升业务性能。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的流程示意图;

图2为本申请实施例提供的一种数据处理装置的结构示意图;

图3为本申请实施例提供的客户端的结构示意图;

图4为本申请实施例提供的服务器的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的发明人经过研究发现,可以通过知识蒸馏的方式,利用预训练模型对业务模型进行优化。但是,使用知识蒸馏有一个前提,就是预训练模型的全连接层输出的序列长度和业务模型的全连接层输出的序列长度一致。这是因为在进行知识蒸馏时,要根据预训练模型的全连接层输出和业务模型的全连接层输出计算相对熵散度丢失(Kullback–Leibler divergence loss,KLD loss)。举例说明:预训练模型的全连接层输出包括3个向量,分别是w1、w2和w3,业务模型的全连接层输出包括3个向量,分别是L1、L2和L3,则KLDloss=w1*L1+w2*L2+w3*L3。

在一些场景中,例如,在给文本自动添加标点符号的场景中,其对应的业务模型的建模单元为分词,而预训练模型的建模单元为单个字符。而一个建模单元对应一个全连接层输出,各个建模单元分别对应的全连接层输出的序列长度相同(例如前述w1、w2、w3、L1、L2和L3的维度相同)。这就导致该业务模型的全连接层输出的序列长度与预训练模型的全连接层输出的序列长度不一致,从而无法进行知识蒸馏。举例说明:

对于文本“我是中国人”而言,预训练模型的输入包括5个建模单元,分别为:“我”、“是”、“中”、“国”、“人”。而业务模型的输入包括3个建模单元,分别是“我”、“是”、“中国人”。假设各个建模单元对应的全连接层输出是一个5维的向量,则对于预训练模型而言,其全连接层输出为5个5维向量,而对于业务模型而言,其全连接层输出为3个5维向量。即:业务模型的全连接层输出的序列长度与预训练模型的全连接层输出的序列长度不一致。

需要说明的是:

此处提及的知识蒸馏指的是:将预训练模型的知识迁移到业务模型,从而对业务模型进行优化。

此处提及的预训练模型,包括但不限于Bert、GPT和ELECTRA。

此处提及的业务模型,例如可以是双向长短记忆网络(Bi-directional Long-Short Term Memory,BiLSTM)模型。

此处提及的建模单元,指的是模型输入的粒度,一般为单个字符或者分词,分词可以包括一个或者多个字符。

此处提及的全连接层输出为未经归一化的标签概率值向量。例如,在给文本添加标点符号的场景中,可选的标点符号有4种,则各个建模单元对应的全连接层输出为一个5维向量,该5维向量的具体数值用于指示该4种标点符号的概率以及无标点符号的概率。全连接层输出又可以被称为Logits输出。

可以理解的是,若预训练模型和业务模型无法进行知识蒸馏,则无法利用预训练模型对业务模型进行优化,从而使得业务模型的效果无法得到提升。为了解决上述问题,本申请实施例提供了一种数据处理方法及装置。

下面结合附图,详细说明本申请的各种非限制性实施方式。

参见图1,该图为本申请实施例提供的一种数据处理方法的流程示意图。在本实施例中,所述方法例如可以通过以下步骤S101-S104实现。

S101:获取业务数据。

本申请实施例中提及的业务数据,指的是与具体业务相关的数据。本申请实施例不具体限定所述业务数据。在一个示例中,所述业务数据可以是根据语音自动识别的文本。

S102:将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出,其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出。

在本申请实施例中,所述预训练模型和所述初始业务模型可以是预先训练得到的。在一个示例中,所述预训练模型可以是根据预训练数据和业务数据训练得到的。具体地:可以利用预训练数据训练得到初始预训练模型,而后,利用业务数据对所述初始预训练模型进行微调(Finetune),得到基于业务的预训练模型。换言之,S101中提及的预训练模型,可以是基于业务的预训练模型。此处提及的预训练数据,可以是与业务无关的训练数据。一般情况下,所述预训练模型的数据量比较大,直接使用则会影响业务处理效率。

在本申请实施例中,所述初始业务模型可以是利用业务数据训练得到的。可以理解的是,业务数据的数据量不能无限扩增。尤其是对于一些新兴业务,其业务数据更是十分有限。因此,初始业务模型的准确度往往不是特别高。而采用知识蒸馏的方式利用预训练模型对初始业务模型进行优化,则可以在不额外增加用于模型训练的业务数据的情况下,有效提升优化得到的目标业务模型的准确度。

在本申请实施例中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,分词可以包括一个或者多个字符。而对于预训练模型和初始业务模型而言,均是一个建模单元对应一个全连接层输出。并且,预训练模型和初始业务模型的建模单元对应的全连接层输出的序列长度相同。因此,所述预训练模型的全连接层输出的序列长度,大于或者等于所述初始业务模型的全连接层输出的序列长度。并且,由于所述初始业务模型的每个建模单元只包括一个字符的可能性较小,因此,在大多数情况下,所述预训练模型的全连接层输出的序列长度,大于所述初始业务模型的全连接层输出的序列长度。

S103:将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符,所述字符与所述初始业务模型的各个建模单元分别匹配。

S104:根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。

关于S102和S103,需要说明的是,本申请实施例不具体限定S102和S103的执行顺序,只要S102和S103在S101与S104之间执行即可。S102可以在S103之前执行,S102也可以和S103同时执行,S102还可以在S103之后执行。

关于S103和S104,需要说明的是,正是由于在大多数情况下,所述预训练模型的全连接层输出的序列长度,大于所述初始业务模型的全连接层输出的序列长度。因此,利用所述预训练模型的全连接层输出和所述初始业务模型的全连接层输出,无法进行知识蒸馏。鉴于此,在本申请实施例中,可以从所述预训练模型的建模单元中,确定出与所述初始业务模型的各个建模单元分别匹配的字符,而后,利用所述初始业务模型的全连接层输出、以及所述预训练模型的建模单元中与所述初始业务模型的各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏。换言之,在本方案中,可以从所述预训练模型的全连接层输出的序列中,筛选出与初始业务模型的全连接层输出的序列长度相同的序列,从而进行知识蒸馏,已得到目标业务模型。

举例说明:

业务数据为:“我是中国人”。初始业务模型包括3个建模单元,分别为:“我”、“是”、“中国人”,其对应的全连接层输出分别为:a1、a2和a3。预训练模型包括5个建模单元,分别为:“我”、“是”、“中”、“国”、“人”,其对应的全连接层输出分别为:b1、b2、b3、b4和b5。从预训练模型的建模单元“我”、“是”、“中”、“国”、“人”中,确定出与初始业务模型的各个建模单元分别对应的字符。例如,确定预训练模型中字符“我”对应初始业务模型的建模单元“我”;确定预训练模型中字符“是”对应初始业务模型的建模单元“是”;确定预训练模型中字符“人”对应初始业务模型的建模单元“中国人”。而后,利用a1、a2、a3和b1、b2、b5进行知识蒸馏,得到目标业务模型。在进行知识蒸馏时,可以利用公式a1*b1+a2*b2+a3*b5计算KLD loss。

再举例说明:

业务数据为:“我是中国人”。初始业务模型包括3个建模单元,分别为:“我”、“是”、“中国人”,其对应的全连接层输出分别为:a1、a2和a3。预训练模型包括5个建模单元,分别为:“我”、“是”、“中”、“国”、“人”,其对应的全连接层输出分别为:b1、b2、b3、b4和b5。从预训练模型的建模单元“我”、“是”、“中”、“国”、“人”中,确定出与初始业务模型的各个建模单元分别对应的字符。例如,确定预训练模型中字符“我”对应初始业务模型的建模单元“我”;确定预训练模型中字符“是”对应初始业务模型的建模单元“是”;确定预训练模型中字符“中”对应初始业务模型的建模单元“中国人”。而后,利用a1、a2、a3和b1、b2、b3进行知识蒸馏,得到目标业务模型。在进行知识蒸馏时,可以利用公式a1*b1+a2*b2+a3*b3计算KLD loss。

需要说明的是,本申请实施例中的初始业务模型和目标业务模型,可以用于处理相关的业务。在一个示例中,所述初始业务模型和所述目标业务模型可以用于为文本添加符号。考虑到根据语音自动识别到的文本不包括标点符号。因此,在一些实施例中,此处提及的文本,可以是通过语音自动识别的文本。

在本申请实施例中,对于所述初始业务模型和所述目标业务模型可以用于为文本添加符号的情况,考虑到对于一个分词而言,其分词内部不可能会被添加标点符号,标点符号可能被添加在该分词最后一个字符之后。举例说明,对于分词“中国人”而言,字符“中”和字符“国”之间,不可能被添加标点符号;字符“国”和字符“人”之间,也不可能被添加标点符号。而字符“人”之后有可能被添加标点符号。因此,S103在具体实现时,可以是:将初始业务模型的各个建模单元与预训练模型的各个建模单元进行匹配,若预训练模型的多个建模单元构成初始业务模型的某一建模单元,则将所述多个建模单元中的最后一个建模单元,确定为与前述“某一建模单元”匹配的字符。

为方便描述,将所述“某一建模单元”称为“第一分词”,将所述“预训练模型的多个建模单元”称为“第一字符集合”,则:若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符。举例说明:第一字符集合为{“中”、“国”、“人”},第一分词为“中国人”,则将所述第一字符集合的最后一个字符“人”,确定为与第一分词匹配的字符。

通过以上描述可知,即使预训练模型的全连接层输出的序列长度大于所述初始业务模型的全连接层输出的序列长度,也可以从所述预训练模型的全连接层输出的序列中,筛选出与初始业务模型的全连接层输出的序列长度相同的序列,从而进行知识蒸馏。由此可见,利用本方案,能够使用预训练模型对初始业务模型进行优化,得到目标业务模型,从而提升业务性能。

在本申请实施例的一种实现方式中,得到目标业务模型之后,可以利用该目标业务模型处理相关的业务。在一个示例中,若目标业务模型为文本添加标点符号。则所述方法还可以包括以下步骤A-D。

步骤A:获取语音数据。

所述语音数据可以是用户通过麦克风实时录入的数据,也可以是用户提前录入并存储的数据,此处不做限定。

步骤B:对所述语音数据进行识别,得到所述语音数据对应的文本。

在本申请实施例中,可以利用语音识别技术,识别所述语音数据的具体内容,从而得到所述语音数据对应的文本。关于所述语音识别技术,此处不做详细介绍。

步骤C:利用所述目标业务模型,为所述语音数据对应的文本添加标点符号。

步骤D:输出添加了所述标点符号的所述语音数据对应的文本。

由于根据语音识别得到的文本不包括标点符号,因此,得到语音数据对应的文本之后,可以利用所述目标业务模型,为所述语音数据对应的文本添加标点符号,并进一步输出添加了所述标点符号的所述语音数据对应的文本。

此处提及的输出添加了所述标点符号的所述语音数据对应的文本,例如可以是在文本输入区显示所述添加了所述标点符号的所述语音数据对应的文本。通过步骤A-D,可以自动根据语音数据得到包括标点符号的文本。

关于步骤A和步骤D,现结合具体场景举例说明:

在即时通信场景中,用户不便手动输入文本,则可以调用麦克风录入语音数据,而后,安装所述即时通信软件的设备则可以接收用户录入的语音数据,进一步对该语音数据进行识别,并利用所述目标业务模型,为所述语音数据对应的文本添加标点符号。而后,在即时通信页面的输入区,输入添加了所述标点符号的所述语音数据对应的文本。

需要说明的是,以上举例只是本申请的一种应用场景,本申请实施例所提供的方案所适用的场景不限于以上所述。

基于以上实施例提供的方法,本申请实施例还提供了一种装置,以下结合附图介绍该装置。

参见图2,该图为本申请实施例提供的一种数据处理装置的结构示意图。所述装置200例如可以具体包括:第一获取单元201、输入单元202、匹配单元203和确定单元204。

第一获取单元201,用于获取业务数据;

输入单元202,用于将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;

匹配单元203,用于将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;

确定单元204,用于根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。

可选的,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

可选的,所述匹配单元203,用于:

若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。

可选的,所述装置还包括:

第二获取单元,用于获取语音数据;

识别单元,用于对所述语音数据进行识别,得到所述语音数据对应的文本;

处理单元,用于利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;

输出单元,用于输出添加了所述标点符号的所述语音数据对应的文本。

可选的,所述业务数据为根据语音自动识别得到的文本。

由于所述装置200是与以上方法实施例提供的方法对应的装置,所述装置200的各个单元的具体实现,均与以上方法实施例为同一构思,因此,关于所述装置200的各个单元的具体实现,可以参考以上方法实施例的描述部分,此处不再赘述。

本申请实施例提供的方法,可以由客户端执行也可以由服务器执行,以下对执行上述方法的客户端和服务器分别进行说明。

图3示出了一种客户端300的框图。例如,客户端300可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图3,客户端300可以包括以下一个或多个组件:处理组件302,存储器304,电源组件306,多媒体组件308,音频组件310,输入/输出(I/O)的接口33,传感器组件314,以及通信组件316。

处理组件302通常控制客户端300的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件302可以包括一个或多个处理器320来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件302可以包括一个或多个模块,便于处理组件302和其他组件之间的交互。例如,处理部件302可以包括多媒体模块,以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在客户端300的操作。这些数据的示例包括用于在客户端300上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件306为客户端300的各种组件提供电力。电源组件306可以包括电源管理系统,一个或多个电源,及其他与为客户端300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述客户端300和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件308包括一个前置摄像头和/或后置摄像头。当客户端300处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如,音频组件310包括一个麦克风(MIC),当客户端300处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中,音频组件310还包括一个扬声器,用于输出音频信号。

I/O接口为处理组件302和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器,用于为客户端300提供各个方面的状态评估。例如,传感器组件314可以检测到设备300的打开/关闭状态,组件的相对定位,例如所述组件为客户端300的显示器和小键盘,传感器组件314还可以检测客户端300或客户端300一个组件的位置改变,用户与客户端300接触的存在或不存在,客户端300方位或加速/减速和客户端300的温度变化。传感器组件314可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件314还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件316被配置为便于客户端300和其他设备之间有线或无线方式的通信。客户端300可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件316还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,客户端300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行下述方法:

获取业务数据;

将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;

将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;

根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。

可选的,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

可选的,将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配,包括:

若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。

可选的,所述方法还包括:

获取语音数据;

对所述语音数据进行识别,得到所述语音数据对应的文本;

利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;

输出添加了所述标点符号的所述语音数据对应的文本。

可选的,所述业务数据为根据语音自动识别得到的文本。

图4是本申请实施例中服务器的结构示意图。该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。

更进一步地,中央处理器422可以执行下述方法:

获取业务数据;

将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;

将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;

根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。

可选的,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

可选的,将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配,包括:

若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。

可选的,所述方法还包括:

获取语音数据;

对所述语音数据进行识别,得到所述语音数据对应的文本;

利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;

输出添加了所述标点符号的所述语音数据对应的文本。

可选的,所述业务数据为根据语音自动识别得到的文本。

服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口456,一个或一个以上键盘456,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

本申请实施例还提供了一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行以下方法:

获取业务数据;

将业务数据输入预训练模型和初始业务模型,得到所述预训练模型的全连接层输出以及所述初始业务模型的全连接层输出;其中,所述预训练模型的建模单元为单个字符,所述初始业务模型的建模单元为分词,一个建模单元对应一个全连接层输出;

将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配;

根据所述初始业务模型的全连接层输出、以及所述各个建模单元分别匹配的字符的全连接层输出进行知识蒸馏,得到目标业务模型。

可选的,所述初始业务模型和所述目标业务模型用于为文本添加标点符号。

可选的,将所述预训练模型的建模单元与所述初始业务模型的建模单元进行匹配,得到所述预训练模型的建模单元中的字符、所述字符与所述初始业务模型的各个建模单元分别匹配,包括:

若第一字符集合构成第一分词,则将所述第一字符集合的最后一个字符,确定为与所述第一分词匹配的字符,其中:所述第一字符集合包括多个字符,所述多个字符均为所述预训练模型的建模单元,所述第一分词为所述初始业务模型的任意一个建模单元。

可选的,所述方法还包括:

获取语音数据;

对所述语音数据进行识别,得到所述语音数据对应的文本;

利用所述目标业务模型,为所述语音数据对应的文本添加标点符号;

输出添加了所述标点符号的所述语音数据对应的文本。

可选的,所述业务数据为根据语音自动识别得到的文本。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制

以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

技术分类

06120113791615