时序采样方法及装置、语音识别方法及装置

文献发布时间：2024-04-18 20:01:23

技术领域

本申请涉及人工智能技术领域，具体涉及一种时序采样方法及装置、语音识别方法及装置。

背景技术

相关语音识别模型通常利用基于模型参数共享的多语言声学建模。然而，面对不同的语音数据，多语言声学建模的模型结构是固定的，容易造成运算不足或冗余，而相关适配微调模型都是对语音数据的特征层面的学习，并不能捕捉到语音数据时序层面的长距离帧之间的相关性。

发明内容

为了解决上述技术问题，提出了本申请。本申请实施例提供了时序采样方法及装置、语音识别方法及装置。

第一方面，本申请一实施例提供了一种时序采样方法，包括：获取目标语音数据；基于目标语音数据，利用采样模型，确定目标语音数据的时序采样结果，其中，采样模型包括l层下采样网络和l层上采样网络，每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径，l为大于1的正整数。

结合第一方面，在第一方面的某些实现方式中，最优采样路径包括最优下采样路径和最优上采样路径，基于目标语音数据，利用采样模型，确定目标语音数据的时序采样结果，包括：确定最优下采样路径中的每层下采样网络的输出结果；基于最优下采样路径中的每层下采样网络的输出结果，确定与下采样网络对应的、最优上采样路径中的每层上采样网络的输出结果；将最优下采样路径中的每层下采样网络的输出结果和最优上采样路径中的每层上采样网络的输出结果确定为目标语音数据的时序采样结果。

结合第一方面，在第一方面的某些实现方式中，基于最优下采样路径中的每层下采样网络的输出结果，确定与下采样网络对应的、最优上采样路径中的每层上采样网络的输出结果，包括：针对最优上采样路径中的每层上采样网络，确定上采样网络的输入数据的初始处理结果；确定与上采样网络对应的下采样网络的输出结果；将上采样网络的输入数据的初始处理结果与下采样网络的输出结果作为上采样网络的输出结果。

结合第一方面，在第一方面的某些实现方式中，最优采样路径包括最优下采样路径和最优上采样路径，基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径，包括：针对l层下采样网络，基于每层下采样网络的skip模块和下采样模块，为目标语音数据匹配最优下采样路径；基于最优下采样路径，针对l层上采样网络，从每层上采样网络的skip模块和上采样模块中为目标语音数据匹配最优上采样路径。

结合第一方面，在第一方面的某些实现方式中，采样模型的训练方法包括：获取训练语料集；构建待训练采样模型，待训练采样模型与采样模型的网络结构相同；基于待训练采样模型中的每层下采样网络的skip模块的执行概率和下采样模块的执行概率，确定损失函数；基于损失函数和训练语料集，对待训练采样模型进行训练，得到采样模型。

结合第一方面，在第一方面的某些实现方式中，基于待训练采样模型中的每层下采样网络的skip模块的执行概率和下采样模块的执行概率，确定损失函数，包括：基于skip模块的执行概率和下采样模块的执行概率，确定待训练采样模型中的、l层下采样网络对应的下采样路径的采样概率；基于下采样路径的采样概率，构建关于下采样路径的权重和采样参数的损失函数；基于下采样路径的权重和采样参数的损失函数，确定待训练采样模型的损失函数。

结合第一方面，在第一方面的某些实现方式中，基于损失函数，对待训练采样模型进行训练，得到采样模型，包括：基于损失函数，确定损失函数关于权重的求导结果和采样参数的求导结果；利用关于权重的求导结果和采样参数的求导结果，对待训练采样模型进行训练，得到采样模型。

第二方面，本申请一实施例提供了一种语音识别方法，包括：获取待识别语音数据；利用如第一方面所述的时序采样方法，对待识别语音数据进行时序采样，得到待识别语音数据的采样结果；基于待识别语音数据的采样结果，确定待识别语音数据的识别结果。

第三方面，本申请一实施例提供了一种时序采样装置，包括：获取模块，用于获取目标语音数据；确定模块，用于基于目标语音数据，利用采样模型，确定目标语音数据的时序采样结果，其中，采样模型包括l层下采样网络和l层上采样网络，每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径，l为大于1的正整数。

第四方面，本申请一实施例提供了一种语音识别装置，包括：获取模块，用于获取待识别语音数据；采样模块，用于利用如第一方面所述的时序采样方法，对待识别语音数据进行时序采样，得到待识别语音数据的采样结果；确定模块，用于基于待识别语音数据的采样结果，确定待识别语音数据的识别结果。

第五方面，本申请一实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序用于执行第一方面和第二方面所述的方法。

第六方面，本申请一实施例提供了一种电子设备，该电子设备包括：处理器；用于存储处理器可执行指令的存储器；该处理器用于执行第一方面和第二方面所述的方法。

本申请提供的时序采样方法具有如下有益效果：

每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型可以根据输入的目标语音数据的特征，为该目标语音数据匹配每层下采样网络中的skip模块或下采样模块、并且为目标语音数据匹配对应的每层上采样网络的skip模块或上采样模块，区别于单一静态采样模型结构，本方案能够根据不同语种的语音数据，通过并联模块中的任一模块，调整对语音数据的时序采样幅度。此外，本申请包括至少一层下采样网络和至少一层上采样网络，针对每层下采样网络和上采样网络，都可根据目标语音数据的特征，自适应选择skip模块、下采样模块、上采样模块，有利于提高对多语种目标语音数据的特征学习能力，有利于捕捉目标语音数据的时序层面的长距离帧之间的相关性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1所示为本申请一示例性实施例提供的时序采样方法的应用场景示意图。

图2所示为本申请一示例性实施例提供的时序采样方法的流程示意图。

图3所示为本申请一示例性实施例提供的采样模型的结构示意图。

图4所示为本申请一示例性实施例提供的确定时序采样结果的流程示意图。

图5所示为本申请一示例性实施例提供的匹配最优采样路径的流程示意图。

图6所示为本申请一示例性实施例提供的采样模型的训练方法的流程示意图。

图7所示为本申请一示例性实施例提供的语音识别方法的流程示意图。

图8所示为本申请一示例性实施例提供的时序采样装置的结构示意图。

图9所示为本申请一示例性实施例提供的语音识别装置的流程示意图。

图10所示为本申请一实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

申请概述

随着多媒体产业和通信技术的高速发展，人与人沟通中的多语言语音数据日益增多，而语音识别是语音分析与处理的核心课题。为了将中文和英文等少数多资源语言的处理能力，快速地推广到更多的低资源语言，人工智能语音识别技术得到了广泛的应用。

相关人工智能语音识别技术大致可以分为以下几类：基于模型参数共享的多语言声学建模，基于语种分类信息的多语言声学建模，以及基于帧级别对齐的端到端关键词检索技术。在学习低资源多语种音频特征的研究中，通常会在预训练多语种混合语料得到的模型的基础上，再添加一些结构进一步微调。具体微调方案有：在共享隐含层与特定输出层之间添加语种适配器、自适应选取激活函数训练、在特征维度引入自注意力运算的训练等等，这些方案都是在微调阶段学习特定语种的声学特征。

上述人工智能语音识别技术存在以下缺点。第一、端到端的语音识别技术是在包括多种语言的语音语料集上，使用单一静态模型结构进行训练，从而生成单个模型来处理不同语种的语音识别。然而，每种语言在时序维度上有独特的信息分布，如果没有针对性的特征采样模块、仅依赖训练共享的网络参数，难以同时针对多种语言进行优化。并且，静态模型结构可能同时包括冗余信息和丢失相关信息，会造成训练用时过久和运算资源浪费。第二、现有适配微调模型都是对特征层面的学习，没有捕捉到时序层面的长距离帧之间的相关性。第三、不同语种间除了声学特征的区别，对应的预测文本也有独特性，单从建模粒度角度就有音素建模、字建模、子层建模和单词建模，所以仅对编码器做适配微调则难以达成充分的语种自适应。

有鉴于此，本申请提出一种时序采样方法，首先获取目标语音数据；基于目标语音数据，利用采样模型，确定目标语音数据的时序采样结果，其中，采样模型包括l层下采样网络和l层上采样网络，每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径。通过本申请中的方案，输入的目标语音数据在时序上通过设计的动态子采样模块完成语音数据的下采样操作和上采样操作。在下采样操作和上采样操作期间，能够根据语音数据的特征选择是否跳过当前下采样层，以自适应学习目标语音数据的时序采样的幅度。

示例性场景

本申请实施例提出的时序采样方法可由电子设备执行，该电子设备可以是终端，比如智能手机、平板电脑、台式计算机等等；或者该电子设备还可以是服务器，比如独立的物理服务器、由多个服务器组成的服务器集群，或者能够进行云计算的云服务器。

图1所示为本申请一示例性实施例提供的时序采样方法的应用场景示意图。如图1所示，本申请实施例提供的应用场景包括语音数据采集设备11、终端12、服务器13。

示例性地，语音数据采集设备11可以是录音笔或者麦克风，也可以是其他具有语音采集功能的设备，本申请对语音数据采集设备的具体结构不作限定。具体而言，终端12从语音数据采集设备11中获取目标语音数据，终端12可根据目标语音数据的复杂度和时长，选择终端自身对其进行时序采样，或者将目标语音数据上传至服务器13，利用服务器13对其进行时序采样。

在一种示例性场景中，终端12选择服务器13对目标语音数据进行下采样和上采样。具体地，服务器13中部署有本申请中的采样模型，将目标语音数据输入至采样模型中，采样模型根据目标语音数据的特征为其匹配最优采样路径，最终得到目标语音数据的时序采样结果，并将时序采样结果发送至终端12。

在另一种示例性场景中，终端12中部署有语音识别模型，终端12根据接收到的关于目标语音数据的时序采样结果，将目标语音数据识别成文字。

示例性方法

图2所示为本申请一示例性实施例提供的时序采样方法的流程示意图。如图2所示，本申请实施例提供的时序采样方法包括如下步骤。

步骤S210，获取目标语音数据。

具体地，目标语音数据是指需要采样的语音数据。目标语音数据可以是任意语种的语音数据，例如，目标语音数据是中文语音数据、英文语音数据、西班牙语语音数据、法语语音数据等等。

步骤S220，基于目标语音数据，利用采样模型，确定目标语音数据的时序采样结果。

具体地，采样模型包括l层下采样网络和l层上采样网络，每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径，l为大于1的正整数。图3所示为本申请一示例性实施例提供的采样模型的结构示意图。示例性地，l＝3，即采样模型包括3层下采样网络和3层上采样网络。skip模块同样对输入数据提取特征，但skip模块保留了输入数据之前的增强和观察窗。

示例性地，将目标语音数据输入采样模型，采样模型进而输出目标语音数据的时序采样结果。

在本申请实施例中，每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型可以根据输入的目标语音数据的特征，为该目标语音数据匹配每层下采样网络中的skip模块或下采样模块、并且为目标语音数据匹配对应的每层上采样网络的skip模块或上采样模块，区别于单一静态采样模型结构，本方案能够根据不同语种的语音数据，通过并联模块中的任一模块，调整对语音数据的时序采样幅度。此外，本申请包括至少一层下采样网络和至少一层上采样网络，针对每层下采样网络和每层上采样网络，可根据目标语音数据的特征，自适应选择skip模块、下采样模块、上采样模块，有利于提高对多语种目标语音数据的特征学习能力，有利于捕捉目标语音数据的时序层面的长距离帧之间的相关性。

图4所示为本申请一示例性实施例提供的确定时序采样结果的流程示意图。在图2所示实施例的基础上延伸出图4所示实施例，下面着重叙述图4所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图4所示，在本申请实施例中，最优采样路径包括最优下采样路径和最优上采样路径，基于目标语音数据，利用采样模型，确定目标语音数据的时序采样结果，包括如下步骤。

步骤S410，确定最优下采样路径中的每层下采样网络的输出结果。

沿用图3实施例所述，采样模型包括3层下采样网络和3层上采样网络。在下采样网络中，下采样模块表示为b

进一步地，在最优下采样路径a＝(b

步骤S420，基于最优下采样路径中的每层下采样网络的输出结果，确定与下采样网络对应的、最优上采样路径中的每层上采样网络的输出结果。

具体地，针对最优上采样路径中的每层上采样网络，确定上采样网络的输入数据的初始处理结果；确定与上采样网络对应的下采样网络的输出结果；将上采样网络的输入数据的初始处理结果与下采样网络的输出结果作为上采样网络的输出结果。

具体地，沿用步骤S410中的示例，最优下采样路径a＝(b

进一步地，在上采样网络中，b

步骤S430，将最优下采样路径中的每层下采样网络的输出结果和最优上采样路径中的每层上采样网络的输出结果确定为目标语音数据的时序采样结果。

在本申请实施例中，将同一层的下采样网络的输出结果和上采样网络的输入数据的初始处理结果作为该层上采样网络的输出结果，即将对应层的上采样结果和下采样结果进行融合，或者将对应层的skip模块的输出结果进行融合。针对目标语音数据的不同尺度的声学表征叠加融合之后，可以获取相应语音数据的不同时间尺度的信息，以便提高对该语音数据的识别结果。

图5所示为本申请一示例性实施例提供的匹配最优采样路径的流程示意图。在图2所示实施例的基础上延伸出图5所示实施例，下面着重叙述图5所示实施例与图2所示实施例的不同之处，相同之处不再赘述。

如图5所示，在本申请实施例中，最优采样路径包括最优下采样路径和最优上采样路径，基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径，包括如下步骤。

步骤S510，针对l层下采样网络，基于每层下采样网络的skip模块和下采样模块，为目标语音数据匹配最优下采样路径。

示例性地，根据图4所示实施例，基于输入到采样模型的目标语音数据特征，为目标语音数据匹配最优下采样路径，例如，最优下采样路径a＝(b

步骤S520，基于最优下采样路径，针对l层上采样网络，从每层上采样网络的skip模块和上采样模块中为目标语音数据匹配最优上采样路径。

在本申请实施例中，上采样路径的选择与下采样路径是对应的。即，若第一层下采样网络选择了下采样模块，则第一层上采样网络选择上采样模块；若第二层下采样网络选择了skip模块，则第二层上采样网络选择skip模块；若第三层下采样网络选择了下采样模块，则第三层上采样网络选择上采样模块。换言之，若最优下采样路径a＝(b

在本申请实施例中，通过确定最优下采样路径，以确定最优上采样路径，一方面，简化了采样模型的采样路径的选择复杂度，并且，基于下采样网络和上采样网络的对应关系，能够捕捉到目标语音数据在同层下采样网络和上采样网络中的特征关联关系，以便更好地对目标语音数据进行时序采样。

图6所示为本申请一示例性实施例提供的采样模型的训练方法的流程示意图。如图6所示，本申请实施例提供的采样模型的训练方法包括如下步骤。

步骤S610，获取训练语料集。

训练语料集可包括多种语种的语料。例如，德语、汉语、意大利语等等。并且，为了保证待训练采样模型的训练效果，每个语种的语料在时长、内容、语音语调方面可以更丰富一些。例如，对于汉语类的语料，可以获取一些普通话类的语音数据、还可以获取一些各地特色方言类的语音数据，以提高采样模型的鲁棒性。此外，若多语种的语料数据量较少，则可以对语料数据进行增广处理，以得到用于训练待训练采样模型的相同语种的语料。

步骤S620，构建待训练采样模型。

待训练采样模型与采样模型的网络结构相同。具体地，待训练采样模型的网络结构也同样包括l层下采样网络和l层上采样网络，每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径。示例性地，当l＝3时，待训练采样模型的网络结构可参见图3所示。

步骤S630，基于待训练采样模型中的每层下采样网络的skip模块的执行概率和下采样模块的执行概率，确定损失函数。

具体地，步骤S630包括：基于skip模块的执行概率和下采样模块的执行概率，确定待训练采样模型中的、l层下采样网络对应的下采样路径的采样概率；基于下采样路径的采样概率，构建关于下采样路径的权重和采样参数的损失函数；基于下采样路径的权重和采样参数的损失函数，确定待训练采样模型的损失函数。

示例性地，在每层下采样网络的并联模块中，选择并执行下采样模块的概率可以表示为：

其中，θ

进一步地，在搜索空间的层数为n的条件下，采样模型结构α的采样概率可以表示为：

向量θ是表示n层搜索空间下，所有下采样模块的θ

下采样路径与下采样模型结构α对应，则下采样路径的采样概率同样可表示为：

基于下采样路径的采样概率P

L(α)＝CE(α，w

其中，CE表示交叉熵损失函数(Cross-Entropy，CE)，w

在本申请实施例中，根据待训练采样模型的网络结构，首先建立下采样路径的采样概率，再基于下采样路径的采样概率，构建关于下采样路径的权重和采样参数的损失函数。通过本申请实施例中的方案，能够在每一次待训练采样模型的训练过程中，针对同一个下采样路径，调整对应的权重和采样参数，进而提高待训练采样模型的训练精度。

步骤S640，基于损失函数和训练语料集，对待训练采样模型进行训练，得到采样模型。

具体地，步骤S640包括：基于损失函数，确定损失函数关于权重的求导结果和采样参数的求导结果；利用关于权重的求导结果和采样参数的求导结果，对待训练采样模型进行训练，得到采样模型。

具体地，m

显然基于上述步骤S630中构建的损失函数，相对于模型权重w

其中g

在训练期间，动态随机调整采样模型结构。计算

在本申请实施例中，通过对损失函数的权重和采样参数进行求导，并进一步根据求导结果对待训练采样模型进行优化，保证了待训练采样模型的训练的准确度。

图7所示为本申请一示例性实施例提供的语音识别方法的流程示意图。如图7所示，本申请实施例提供的语音识别方法包括如下步骤。

步骤S710，获取待识别语音数据。

具体地，待识别语音数据可以是任意语种的语音数据，并且待识别语音数据的时长和内容不限。

步骤S720，对待识别语音数据进行时序采样，得到待识别语音数据的采样结果。

具体地，利用前述任意实施例所述的时序采样方法，对待识别语音数据进行时序采样，得到待识别语音数据的采样结果。

步骤S730，基于待识别语音数据的采样结果，确定待识别语音数据的识别结果。

示例性地，在上述实施例的采样模型中，添加解码器、语种适配器，并自适应选取激活函数等等，以便根据待识别语音数据的采样结果，确定待识别语音数据的文字识别结果。

通过本申请实施例中的方案，可以获取更准确的待识别语音数据的采样结果，该采样结果能够包含待识别语音数据时序层面的长距离帧之间的相关性，进一步提高了对待识别语音数据的识别结果。

示例性装置

上文结合图2至图7，详细描述了本申请的方法实施例，下面结合图8和图9，详细描述本申请的装置实施例。应理解，方法实施例的描述与装置实施例的描述相互对应，因此，未详细描述的部分可以参见前面方法实施例。

图8所示为本申请一示例性实施例提供的时序采样装置的结构示意图。如图8所示，本申请实施例提供的时序采样装置80包括：

获取模块810，用于获取目标语音数据；

确定模块820，用于基于目标语音数据，利用采样模型，确定目标语音数据的时序采样结果，其中，采样模型包括l层下采样网络和l层上采样网络，每层下采样网络包括并联的skip模块和下采样模块，每层上采样网络包括并联的skip模块和上采样模块，采样模型用于基于每层下采样网络的skip模块和下采样模块以及每层上采样网络的skip模块和上采样模块，为目标语音数据匹配采样模型中的最优采样路径，l为大于1的正整数。

在本申请一实施例中，确定模块820还用于，确定最优下采样路径中的每层下采样网络的输出结果；基于最优下采样路径中的每层下采样网络的输出结果，确定与下采样网络对应的、最优上采样路径中的每层上采样网络的输出结果；将最优下采样路径中的每层下采样网络的输出结果和最优上采样路径中的每层上采样网络的输出结果确定为目标语音数据的时序采样结果。

在本申请一实施例中，确定模块820还用于，针对最优上采样路径中的每层上采样网络，确定上采样网络的输入数据的初始处理结果；确定与上采样网络对应的下采样网络的输出结果；将上采样网络的输入数据的初始处理结果与下采样网络的输出结果作为上采样网络的输出结果。

在本申请一实施例中，确定模块820还用于，针对l层下采样网络，基于每层下采样网络的skip模块和下采样模块，为目标语音数据匹配最优下采样路径；基于最优下采样路径，针对l层上采样网络，从每层上采样网络的skip模块和上采样模块中为目标语音数据匹配最优上采样路径。

在本申请一实施例中，确定模块820还用于，获取训练语料集；构建待训练采样模型，待训练采样模型与采样模型的网络结构相同；基于待训练采样模型中的每层下采样网络的skip模块的执行概率和下采样模块的执行概率，确定损失函数；基于损失函数和训练语料集，对待训练采样模型进行训练，得到采样模型。

在本申请一实施例中，确定模块820还用于，基于skip模块的执行概率和下采样模块的执行概率，确定待训练采样模型中的、l层下采样网络对应的下采样路径的采样概率；基于下采样路径的采样概率，构建关于下采样路径的权重和采样参数的损失函数；基于下采样路径的权重和采样参数的损失函数，确定待训练采样模型的损失函数。

在本申请一实施例中，确定模块820还用于，基于损失函数，确定损失函数关于权重的求导结果和采样参数的求导结果；利用关于权重的求导结果和采样参数的求导结果，对待训练采样模型进行训练，得到采样模型。

图9所示为本申请一示例性实施例提供的语音识别装置的流程示意图。如图9所示，本申请实施例提供的语音识别装置90包括：

获取模块910，用于获取待识别语音数据；

采样模块920，用于利用如第一方面所述的时序采样方法，对待识别语音数据进行时序采样，得到待识别语音数据的采样结果；

确定模块930，用于基于待识别语音数据的采样结果，确定待识别语音数据的识别结果。

下面，参考图10来描述根据本申请实施例的电子设备。图10所示为本申请一示例性实施例提供的电子设备的结构示意图。

如图10所示，电子设备100包括一个或多个处理器1001和存储器1002。

处理器1001可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备100中的其他组件以执行期望的功能。

存储器1002可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1001可以运行所述程序指令，以实现上文所述的本申请的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如包括目标语音数据、采样模型、每层下采样网络的输出结果和每层上采样网络的输出结果等各种内容。

在一个示例中，电子设备100还可以包括：输入装置1003和输出装置1004，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置1003可以包括例如键盘、鼠标等等。

该输出装置1004可以向外部输出各种信息，包括目标语音数据、采样模型、每层下采样网络的输出结果和每层上采样网络的输出结果等。该输出装置1004可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图10中仅示出了该电子设备100中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备100还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述描述的根据本申请各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：科大讯飞股份有限公司;

上一篇：设备唤醒方法、存储介质及电子装置
下一篇：基于厚膜电路板的制备设备安全监控方法及系统