语音识别的置信度估计方法、存储介质及电子设备

文献发布时间：2023-06-19 18:35:48

技术领域

本申请涉及数据处理领域，具体而言，涉及一种语音识别的置信度估计方法、存储介质及电子设备。

背景技术

在完整的人机交互链路中，智能对话、机器翻译等语音识别下游任务不仅需要单一的识别结果，还需要对识别结果可信程度进行量化。但目前的主流的AED(基于注意力的编码器-解码器，attention based encoder-decoder)端到端语音识别模型中，存在过度置信与标签同步的问题，严重影响了输出层的似然概率作为置信度的质量。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音识别的置信度估计方法、存储介质及电子设备，以至少解决相关技术中基于语音识别的置信度估计的准确度不高的技术问题。

根据本申请实施例的一个方面，提供了一种语音识别的置信度估计方法，包括：获取语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和语音文本进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

根据本申请实施例的另一方面，还提供了一种语音识别的置信度估计方法，包括：响应作用于操作界面上的输入指令，驱动语音采集设备采集生物对象发出的语音数据，并获取文本数据；响应作用于操作界面上的置信度估计指令，在操作界面上显示置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率，置信度估计结果通过基于语音数据的语音特征对语音数据和文本数据进行匹配得到，语音特征的长度与文本长度相同，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征和文本长度通过对语音数据的声学特征进行长度预测和特征抽取预测得到，声学特征通过对语音数据进行特征提取得到。

根据本申请实施例的另一方面，还提供了一种语音识别的置信度估计方法，包括：驱动虚拟现实VR设备或增强现实AR设备采集生物对象发出的语音数据，并获取文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；驱动VR设备或AR设备的呈现画面上渲染展示置信度估计结果。

根据本申请实施例的另一方面，还提供了一种语音识别的置信度估计方法，包括：通过调用第一接口获取语音数据和文本数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；通过调用第二接口输出置信度估计结果，其中，第二接口包括第二参数，第二参数的参数值为置信度估计结果。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行本申请实施例中任意一项的方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括：处理器；存储器，与处理器相连，用于为处理器提供本申请实施例中任意一项的方法的指令。

在本申请实施例中，在获取到语音数据和文本数据之后，首先可以对语音数据进行特征提取，得到语音数据的声学特征，然后对声学特征进行长度预测和特征抽取，预测得到文本长度，以及与文本长度相同的语音特征，最后基于语音特征对语音数据和文本数据进行匹配，得到语音数据对应的文本包含的每个字符与文本数据的匹配概率，也即得到一个与文本长度等长的字符级别的置信度估计结果，从而实现置信度估计的目的。容易注意到的是，由于语音特征和置信度估计结果都是与语音数据对应的文本包含的字符的数量相同的，避免了语音数据和文本数据不等长的情况下，置信度估计结果可靠性较低的问题，从而达到了提高置信度估计结果的准确度的技术效果，进而解决了相关技术中基于语音识别的置信度估计的准确度不高的技术问题，并且使得下游任务可以更好的基于置信度估计结果进行针对性的操作，帮助下游任务作出正确的判断，为稳定的人机交互链路奠定了基础。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种语音识别的置信度估计方法的虚拟现实设备的硬件环境的示意图；

图2是根据本申请实施例的一种语音识别的置信度估计方法的计算环境的结构框图；

图3是根据本申请实施例1的一种语音识别的置信度估计方法的流程图；

图4a是根据本申请实施例的一种Paraformer模型的模型结构的示意图；

图4b是根据本申请实施例的一种置信度估计模型的模型结构的示意图；

图5是根据本申请实施例2的一种语音识别的置信度估计方法的流程图；

图6是根据本申请实施例的一种操作界面的示意图；

图7是根据本申请实施例3的一种语音识别的置信度估计方法的流程图；

图8是根据本申请实施例4的一种置信度估计方法的流程图；

图9是根据本申请实施例5的一种置信度估计装置的示意图；

图10是根据本申请实施例6的一种置信度估计装置的示意图；

图11是根据本申请实施例7的一种置信度估计装置的示意图；

图12是根据本申请实施例8的一种置信度估计装置的示意图；

图13是根据本申请实施例的一种AR/VR设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

CEM：Confidence Estimation Module，置信度估计模型，在语音识别任务中指能够预测某一语音-文本的匹配程度的模型。

ASR：Automatic Speech Recognition，自动语音识别。

CIF：ContinuousIntergrate-and-Fire，连续整合发射算法。

NAR ASR：None-Autoregressive Automatic Speech Recognition，非自回归语音识别，指不依赖于历史结果进行预测的一类语音识别模型。

Paraformer：Parallel Transformer，一种利用了CIF的NAR ASR模型。

ATTN：attention，注意力机制，核心思想是基于原有的数据找到数据之间的关联性。

FFN：Feed-Forward Networks，前馈神经网络，也即全连接神经网络，各神经元分层排列(其中每一层包含若干个神经元)，每个神经元只与前一层的神经元相连，接收前一层的输出，并输出给下一层，各层间没有反馈。

在与机器翻译、智能对话等下游任务级联组成的人机交互链路(如数字人产品)中，同时提供识别结果对应的置信度数值能够帮助下游任务作出正确的判断，例如机器翻译系统可以通过拒绝低置信度识别结果的方式避免无效计算，数字人在语音交互的过程中可以通过置信度数值来量化一段语音是否“听清”。

传统语音识别系统能够基于帧级别声学似然的lattice预测可靠的置信度，但在目前主流的AED端到端语音识别模型中，存在的过度置信与标签同步问题严重影响了输出层的似然概率作为置信度的质量。其中，过度置信问题是指端到端语音识别的解码器由于直接建模到token(或汉字)，其输出层的似然概率分布严重失衡，似然概率的最大值往往大于0.9，并且与token同步的后验概率也不能反映预测中的删除错误与插入错误。标签同步问题是指AED模型由于缺少显式的声学模型建模，只能获取与输出序列等长的似然序列，对于删除错误与插入错误无法通过似然概率来显示，例如，对于一段“今天天气很好”的语音，仅输入“今天”二字也会得到很高的置信度，这显然是不合理的，且现有的评价指标也无法刻画这种缺陷。

在上述算法背景与应用背景下，如何在端到端语音识别模型中实现可靠高效的置信度预测模块，以完善人机交互链路的功能成为了关键的算法问题。

本申请提出了一种基于非自回归端到端语音识别模型的置信度估计算法，通过在原始语音识别模型的基础上引入额外的置信度估计模块，实现高质量的识别结果置信度估计，并解决了现有的置信度估计算法在序列不等长模式下预测失效的问题。在实际应用场景中，置信度估计模型能够作为口语评测任务的解决方案，并且在与机器翻译、智能对话等下游任务级联组成的人机交互链路中，同时提供识别结果对应的置信度数值能够帮助下游任务作出正确的判断。

实施例1

根据本申请实施例，提供了一种语音识别的置信度估计方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种语音识别的置信度估计方法的虚拟现实设备的硬件环境的示意图。如图1所示，虚拟现实设备104与终端106相连接，终端106与服务器102通过网络进行连接，上述虚拟现实设备104并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端104并不限定于PC、手机、平板电脑等，服务器102可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

可选地，该实施例的虚拟现实设备104包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：获取语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率，从而解决了相关技术中基于语音识别的置信度估计的准确度不高的技术问题，达到了提高置信度估计的准确度的目的。

该实施例的终端可以用于驱动虚拟现实(Virtual Reality，简称为VR)设备或增强现实(Augmented Reality，简称为AR)设备采集生物对象发出的语音数据，并驱动VR设备或AR设备的呈现画面上展示文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；驱动VR设备或AR设备的呈现画面上渲染展示置信度估计结果。

可选地，该实施例的虚拟现实设备104带有的眼球追踪的HMD(Head MountDisplay，头戴式显示器)头显与眼球追踪模块与上述实施例中的作用相同，也即，HMD头显中的屏幕，用于显示实时的画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动轨迹。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向。

图1示出的硬件结构框图，不仅可以作为上述AR/VR设备(或移动设备)的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，图2以框图示出了使用上述图1所示的AR/VR设备(或移动设备)作为计算环境201中计算节点的一种实施例。图2是根据本申请实施例的一种语音识别的置信度估计方法的计算环境的结构框图，如图2所示，计算环境201包括运行在分布式网络上的多个(图中采用210-1，210-2，…,来示出)计算节点(如服务器)。每个计算节点都包含本地处理和内存资源，终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境301中的多个服务220-1，220-2，220-3和220-4进行提供，分别代表服务“A”，“D”，“E”和“H”。

终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务，在一些实施例中，可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务(计算环境201中提供的一个或多个服务)的供应和/或请求。

服务是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中，可以根据基于虚拟机(Virtual Machine，VM)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机，在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时，根据基于容器的虚拟化，可以启容器来虚拟化整个操作系统(Operating System，OS)，以便多个工作负载可以在单个操作系统实例上运行。

在基于容器虚拟化的一个实施例中，服务的若干容器可以被组装成一个Pod(例如，Kubernetes Pod)。举例来说，如图2所示，服务220-2可以配备一个或多个Pod240-1，240-2，…，240-N(统称为Pod)。每个Pod可以包括代理245和一个或多个容器242-1，242-2，…，242-M(统称为容器)。Pod中一个或多个容器处理与服务的一个或多个相应功能相关的请求，代理245通常控制与服务相关的网络功能，如路由、负载均衡等。其他服务也可以是类似于Pod的Pod。

在操作过程中，执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务，执行一个服务的一个或多个功能可能需要调用另一个服务的一个或多个功能。如图2所示，服务“A”220-1从入口网关230接收终端用户202的用户请求，服务“A”220-1可以调用服务“D”220-2，服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。

上述的计算环境可以是云计算环境，资源的分配由云服务提供上管理，允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能，而不是扩展单个硬件设备来处理潜在的负载。

在上述运行环境下，本申请提供了如图3所示的语音识别的置信度估计方法。需要说明的是，该实施例的语音识别的置信度估计方法可以由图1所示实施例的AR/VR设备执行。图3是根据本申请实施例1的一种语音识别的置信度估计方法的流程图。如图3所示，该方法可以包括如下步骤：

步骤S302，获取语音数据和文本数据。

上述步骤中的语音数据可以是人机交互链路中，采集用户发出的声音所得到的语音数据，通过对语音数据进行识别，可以继续进行智能对话、机器翻译等语音识别下游任务。例如，在智能助手的应用场景中，用户可以通过发出语音“帮我查询下从地点A如何乘坐交通工具到达地点B”的方式与客户端进行对话，从而智能助手可以快速反馈用户需要的信息。

由于语音识别技术的核心目的就是将语言数据转换为相应的文本，上述步骤中的文本数据可以是需要与语音数据进行匹配的待识别文本，该文本数据可以根据实际应用场景进行设定，例如，可以是根据实际语音识别需要所设定的一个完整的语句，但不仅限于此。

在一种可选的实施例中，整个语音识别过程可以由服务器执行，从而减少移动终端的计算量。为了实现语音识别的目的，用户可以直接使用移动终端采集自己发出的声音，得到语音数据，并将语音数据上传至服务器，由服务器基于该客户端对应的识别需求从数据库中获取文本数据。

在另一种可选的实施例中，为了避免网络状态影响用户对语音识别功能的使用，用户也可以是直接使用移动终端采集自己发出的声音，得到语音数据，并从本地存储设备中获取预先从服务器缓存的文本数据。

步骤S304，对语音数据进行特征提取，得到语音数据的声学特征。

上述步骤中的声学特征可以是通过将语音数据中的语音模型转换为参数形式所得到的多维特征向量，从而该多维特征向量能够被计算机、服务器等设备进行处理。

在一种可选的实施例中，可以采用现有的语音特征提取算法对语音数据进行特征提取，得到声学特征，例如，Mel频率倒谱系数算法对语音数据进行特征提取，但不仅限于此。

在另一种可选的实施例中，可以采用现有的语音特征提取模型对语音数据进行特征提取，得到声学特征。

步骤S306，对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同。

需要说明的是，语音数据对应的文本包含的字符的数量与文本数据包含的字符的数量可能相同或不同，对于两个数量不同的情况，主流的AED端到端语音识别模型存在置信度估计不鲁棒的缺点，例如，对于表示“今天天气很好”的语音数据，如果文本数据是“今天”，则AED端到端语音识别模型输出的置信度估计结果类似于[0.98 0.96]，句级别置信度为0.97，该置信度估计结果明显不符合真实情况。

在一种可选的实施例中，在预测语音数据的字数，也即对语音数据对应的本文包含的字符的数量进行预测，得到文本长度的同时，可以通过特征抽取对声学特征进行处理，得到一个与文本长度等长的高维声学特征，即上述的语音特征。

步骤S308，基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

上述步骤中的置信度估计结果是字符级别的置信度，因此，该置信度估计结果的长度与语音数据对应的文本包含的字符的数量，也即上述的文本长度相同。

在一种可选的实施例中，可以通过语音特征对语音数据和文本数据按照字符进行匹配，从而得到一个与上述的文本长度等长的置信度估计结果，而不是与传统的AED端到端语音识别模型相同，得到一个与文本数据等长的置信度估计结果，该置信度估计结果中每个元素表征语音数据对应的文本中的每个字符与文本数据的匹配概率，例如，仍以表示“今天天气很好”的语音数据，如果文本数据是“今天”为例进行说明，采用本申请上述方案得到的置信度估计结果为[0.98 0.96 0.10 0.11 0.15 0.07]，句级别置信度为0.395，该置信度估计结果与真实情况相符合。

需要说明的是，上述两个步骤可以通过机器学习得到的置信度估计模型执行，该模型并不是现有的AED端到端语音识别模型，而是对现有模型进行改进所得到的模型，该模型可以实现对声学特征进行特征抽取，得到一个与语音数据对应的文本包含的字符的数量等长的语音特征，并且可以通过对语音数据和文本数据进行匹配，得到与语音数据对应的文本包含的字符的数量等长的置信度估计结果。可选的，在本申请中，置信度估计模型可以基于Paraformer模型实现。

下面以机器翻译系统为例对本申请进行详细说明。数字人在语音交互过程中可以采集到待翻译的语音数据，并基于数据库中的文本数据对语音数据进行语音识别，整个识别过程中，首先可以利用语音提取模型对语音数据进行特征提取，得到声学特征，然后可以在对语音数据进行字数预测的同时，提供一个与文本长度等长的语音特征，最后基于该语音特征对语音数据和文本数据进行匹配，得到最终的字符级别的置信度估计结果，该置信度估计结果同样与文本长度等长。由于该置信度估计结果的正确率较高，数字人可以基于置信度估计结果来量化该语音数据是否“听清”，如果该置信度估计结果较低，则下游机器翻译系统可以拒绝翻译该语音数据避免无效计算，并且要求用户重新发出一段更为清晰的语音数据。

基于本申请上述实施例提供的方案，在获取到语音数据和文本数据之后，首先可以对语音数据进行特征提取，得到语音数据的声学特征，然后对声学特征进行长度预测和特征抽取，预测得到文本长度，以及与文本长度相同的语音特征，最后基于语音特征对语音数据和文本数据进行匹配，得到语音数据对应的文本包含的每个字符与文本数据的匹配概率，也即得到一个与文本长度等长的字符级别的置信度估计结果，从而实现置信度估计的目的。容易注意到的是，由于语音特征和置信度估计结果都是与语音数据对应的文本包含的字符的数量相同的，避免了语音数据和文本数据不等长的情况下，置信度估计结果可靠性较低的问题，从而达到了提高置信度估计结果的准确度的技术效果，进而解决了相关技术中基于语音识别的置信度估计的准确度不高的技术问题，并且使得下游任务可以更好的基于置信度估计结果进行针对性的操作，帮助下游任务作出正确的判断，为稳定的人机交互链路奠定了基础。

在本申请上述实施例中，对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，包括：利用置信度估计模型对声学特征进行长度预测和特征抽取，得到文本长度和语音特征。

上述步骤中的置信度估计模型可以是基于Paraformer模型实现真实长度的置信度估计的模型，其中，Paraformer模型是置信度估计模型的基础语音识别模型，具体模型结构如图4a所示；置信度估计模型的具体模型结构如图4b所示。在对Paraformer模型训练完成之后，可以通过添加ALIGNER模块和CIF-ALIGNEDESTIMATOR模块，并继续训练得到上述的置信度估计模型。

在一种可选的实施例中，可以利用置信度估计模型中的ENCODER模块和PREDICTOR模块，通过CIF对语音数据进行字数预测和特征抽取，在预测文本长度的同时提供一个与文本长度等长的高维特征，也即，得到语音特征。

在本申请上述实施例中，置信度估计模型包括：编码器模块和预测模块，其中，利用置信度估计模型对声学特征进行长度预测和特征抽取，得到文本长度和语音特征，包括：利用编码器模块对声学特征进行特征编码，得到编码特征；利用预测模块对编码特征进行长度预测和特征抽取，得到文本长度和语音特征。

在一种可选的实施例中，如图4b所示，置信度估计模型至少包括：编码器模块ENCODER和预测模块PREDICTOR，两个模块的具体网络结构可以采用现有的Paraformer模型的网络结构，本申请对此不作具体限定。编码器模块可以对输入的声学特征features进行特征编码，得到编码特征，其中，声学特征用x

在本申请上述实施例中，基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，包括：利用置信度估计模型基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果。

在一种可选的实施例中，可以利用置信度估计模型中的EMBED模块、PARALLELDECODER模块、ALIGNER模块和CIF-ALIGNEDESTIMATOR模块，通过引入一次额外的cross-attention来进行特征对其，从而产生一个与文本长度等长(而不是与文本数据等长)、并兼具文本数据的文本信息与语音数据的声学信息的隐状态，进一步得到一个输出token正确与否的似然概率，也即得到一个与文本长度等长的置信度估计结果。

在本申请上述实施例中，置信度估计模型还包括：词嵌入模块、解码器模块、交叉注意力模块和置信度估计模块，其中，利用置信度估计模型基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，包括：利用词嵌入模块对文本数据进行特征提取，得到文本数据的文本特征；利用解码器模块对语音特征和文本特征进行特征解码，得到语音特征对应的第一解码特征和文本数据对应的第二解码特征，其中，第一解码特征的长度为文本长度，第二解码特征的长度为文本数据的长度；利用交叉注意力模块对第一解码特征和第二解码特征进行特征对齐，得到第一解码特征对应的第一注意力特征和第二解码特征对应的第二注意力特征，其中，第一注意力特征和第二注意力特征的长度均为文本长度；利用置信度估计模块对第一注意力特征和第二注意力特征进行匹配，得到置信度估计结果。

在一种可选的实施例中，如图4b所示，置信度估计模型还包括：词嵌入模块EMBED、解码器模块PARALLELDECODER、交叉注意力模块ALIGNER和置信度估计模块CIF-ALIGNEDESTIMATOR，其中，EMBED和PARALLELDECODER两个模块的具体网络结构可以采用现有的Paraformer模型的网络结构，本申请对此不作具体限定；ALIGNER可以包括CROSSATTN层和SELFATTN层；CIF-ALIGNEDESTIMATOR可以是包括Attention Decoder与FFN的二分类器。词嵌入模块可以对输入的文本数据hypothesis进行特征提取，得到文本特征，其中，文本数据用y

在本申请上述实施例中，交叉注意力模块包括：自注意力层和交叉注意力层，其中，利用交叉注意力模块对第一解码特征和第二解码特征进行特征对齐，得到第一解码特征对应的第一注意力特征和第二解码特征对应的第二注意力特征，包括：利用自注意力层对第一解码特征进行注意力处理，得到第一注意力特征；利用交叉注意力层对第一注意力特征和第二解码特征进行特征对齐，得到第二注意力特征。

在一种可选的实施例中，如图4b所示，交叉注意力模块包括：自注意力层SELFATTN和交叉注意力层CROSSATTN，其中，CROSSATTN和SELFATTN两个层均可以采用现有的点积自注意力机制。自注意力层可以基于注意力机制对第一解码特征进行注意力处理，获取第一解码特征的自注意力表示，得到第一注意力特征；然后交叉注意力层可以对第一注意力特征和第二解码特征进行特征对齐，得到一个与第一解码特征等长的对齐特征，也即，得到第二注意力特征。

在本申请上述实施例中，在置信度估计模型训练的过程中，解码器模块的模型参数保持不变。

在一种可选的实施例中，可以选择一个训练好的Paraformer模型作为基础模型，初始化ALIGNER和CIF-ALIGNEDESTIMATOR两个模块，并取消PARALLELDECODER部分的梯度，也即，在置信度估计模型的训练过程中，将PARALLELDECODER的参数固定，不会被训练。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种语音识别的置信度估计方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图5是根据本申请实施例2的一种语音识别的置信度估计方法的流程图。如图5所示，该方法包括以下步骤：

步骤S502，响应作用于操作界面上的输入指令，驱动语音采集设备采集生物对象发出的语音数据，并获取文本数据。

上述步骤中的操作界面可以是语音识别系统提供给用户的操作界面，如图6所示，该界面可以显示在用户使用的移动终端上，用户通过在操作界面上进行操作，达到与操作界面进行人机交互的目的。

上述步骤中的输入指令可以是用户在操作界面上进行操作所生成的指令，例如，对于如图6所示的操作界面，用户可以点击该操作界面上的“语音录制”按钮生成输入指令，从而驱动语音采集设备采集生物对象发出的语音数据。

上述步骤中的语音采集设备可以是移动终端上能够采集语音数据的设备，例如，移动终端自带的麦克风，但不仅限于此。生物对象可以是能够发出声音的生物，例如，人、其他能够发出声音的动物。

在一种可选的实施例中，当用户需要进行语音识别时，用户可以在操作界面上进行操作，生成输入指令，从而语音识别系统可以驱动语音采集设备采集用户发出的声音，得到语音数据，同时，语音识别系统可以从数据库中获取用于进行语音识别的文本数据。

步骤S504，响应作用于操作界面上的置信度估计指令，在操作界面上显示置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率，置信度估计结果通过基于语音数据的语音特征对语音数据和文本数据进行匹配得到，语音特征的长度与文本长度相同，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征和文本长度通过对语音数据的声学特征进行长度预测和特征抽取预测得到，声学特征通过对语音数据进行特征提取得到。

上述步骤中的置信度估计指令可以是用户在操作界面上进行操作所生成的指令，例如，对于如图6所示的操作界面，用户可以点击该操作界面上的“置信度估计”按钮以生成置信度估计指令。

在一种可选的实施例中，当用户希望对语音数据进行语音识别时，用户可以点击操作界面上的“置信度估计”按钮，从而生成置信度估计指令，在服务器对语音数据进行语音识别，并得到置信度估计结果之后，该置信度估计结果可以显示在如图6所示的操作界面的置信度估计结果区域中。

在本申请上述实施例中，文本长度和语音特征通过利用置信度估计模型对声学特性进行长度预测和特征抽取得到。

在本申请上述实施例中，置信度估计模型包括：编码器模块和预测模块，文本特征和语音特征通过利用预测模块对编码特征进行长度预测和特征抽取得到，编码特征通过利用编码器模块对声学特征进行特征编码。

在本申请上述实施例中，置信度估计结果通过利用置信度估计模型基于语音特征对语音数据和文本数据进行匹配得到。

在本申请上述实施例中，置信度估计模型还包括：词嵌入模块、解码器模块、交叉注意力模块和置信度估计模块，置信度估计结果通过利用置信度估计模块对语音特征对应的第一注意力特征和文本数据对应的第二注意力特征进行匹配得到，第一注意力特征和第二注意力特征通过利用交叉注意力模块对语音特征对应的第一解码特征和文本数据对应的第二解码特征进行特征对齐得到，第一解码特征和第二解码特征通过利用解码器模块对语音特征和文本数据的文本特征进行特征解码得到，文本数据的文本特征通过利用词嵌入模块对文本数据进行特征提取，第一解码特征的长度为文本长度，第二解码特征的长度为文本数据的长度，第一注意力特征和第二注意力特征的长度均为文本长度。

在本申请上述实施例中，交叉注意力模块包括：自注意力层和交叉注意力层，第二注意力特征通过利用交叉注意力层对第一注意力特征和第二解码特征进行特征对齐得到，第一注意力特征通过利用自注意力层对第一解码特征进行注意力处理得到。

在本申请上述实施例中，在置信度估计模型的训练过程中，解码器模块的模型参数保持不变。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种可以应用于虚拟现实VR设备、增强现实AR设备等虚拟现实场景下的语音识别的置信度估计方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图7是根据本申请实施例3的一种语音识别的置信度估计方法的流程图。如图7所示，该方法可以包括如下步骤：

步骤S702，驱动虚拟现实VR设备或增强现实AR设备采集生物对象发出的语音数据，并获取文本数据。

上述步骤中的生物对象可以是能够发出声音的生物，例如，人、其他能够发出声音的动物。

在一种可选的实施例中，可以驱动VR设备或AR设备的语音采集装置，例如麦克风采集用户发出的声音，得到语音数据，同时，语音识别系统可以从数据库中获取用于进行语音识别的文本数据。

步骤S704，对语音数据进行特征提取，得到语音数据的声学特征。

步骤S706，对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同。

步骤S708，基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

步骤S710，驱动VR设备或AR设备的呈现画面上渲染展示置信度估计结果。

上述步骤中的呈现画面可以是VR设备或AR设备的显示装置上呈现的画面，例如HMD头显中的屏幕上实时显示的画面。

在本申请上述实施例中，在置信度估计模型训练的过程中，解码器模块的模型参数保持不变。

可选地，在本实施例中，上述置信度估计方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实VR设备或增强现实AR设备的呈现画面上展示置信度估计方法，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。

可选地，虚拟现实设备包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：驱动虚拟现实VR设备或增强现实AR设备采集生物对象发出的语音数据，并驱动VR设备或AR设备的呈现画面上展示文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；驱动VR设备或AR设备的呈现画面上渲染展示置信度估计结果。

需要说明的是，该实施例的上述应用在VR设备或AR设备中的置信度估计方法可以包括图7所示实施例的方法，以实现驱动VR设备或AR设备展示置信度估计方法的目的。

可选地，该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件，也可以用于上述处理器与存储器之间的数据传输。

可选地，在虚拟现实设备中，带有眼球追踪的头戴式显示器，该HMD头显中的屏幕，用于显示展示的视频画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动轨迹，跟踪系统，用于追踪用户在真实三维空间的位置信息与运动信息，计算处理单元，用于从跟踪系统中获取用户的实时位置与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向等。

在本申请实施例中，虚拟现实设备可以与终端相连接，终端与服务器通过网络进行连接，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端并不限定于PC、手机、平板电脑等，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例4

根据本申请实施例，还提供了一种置信度估计方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图8是根据本申请实施例4的一种置信度估计方法的流程图。如图8所示，该方法包括以下步骤：

步骤S802，通过调用第一接口获取语音数据和文本数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据和文本数据。

上述步骤中的第一接口可以是客户端与服务器之间进行数据交互的接口，通过该接口，客户端可以将采集到的语音数据和需要进行语音识别的文本数据发送至服务器。

步骤S804，对语音数据进行特征提取，得到语音数据的声学特征。

步骤S806，对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同。

步骤S808，基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

步骤S810，通过调用第二接口输出置信度估计结果，其中，第二接口包括第二参数，第二参数的参数值为置信度估计结果。

上述步骤中的第二接口可以是客户端与服务器之间进行数据交互的接口，通过该接口，服务器可以将对语音数据和文本数据进行语音识别和匹配后得到的置信度估计结果发送至客户端。

在本申请上述实施例中，在置信度估计模型训练的过程中，解码器模块的模型参数保持不变。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例5

根据本申请实施例，还提供了一种用于实施上述置信度估计方法的置信度估计方装置，如图9所示，该装置900包括：获取模块902、特征提取模块904、预测和抽取模块906和匹配模块908。

其中，获取模块902用于获取语音数据和文本数据；特征提取模块904用于对语音数据进行特征提取，得到语音数据的声学特征；预测和抽取模块906用于对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；匹配模块908用于基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

此处需要说明的是，上述获取模块902、特征提取模块904、预测和抽取模块906和匹配模块908对应于实施例1中的步骤S302至步骤S308，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

在本申请上述实施例，预测和抽取模块还用于利用置信度估计模型对声学特征进行长度预测和特征抽取，得到文本长度和语音特征。

在本申请上述实施例中，置信度估计模型包括：编码器模块和预测模块，预测和抽取模块包括：编码单元，用于利用编码器模块对声学特征进行特征编码，得到编码特征；预测和抽取单元，用于利用预测模块对编码特征进行长度预测和特征抽取，得到文本长度和语音特征。

在本申请上述实施例中，匹配模块还用于利用置信度估计模型基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果。

在本申请上述实施例中，置信度估计模型还包括：词嵌入模块、解码器模块、交叉注意力模块和置信度估计模块，匹配模块包括：特征提取单元，用于利用词嵌入模块对文本数据进行特征提取，得到文本数据的文本特征；解码单元，用于利用解码器模块对语音特征和文本特征进行特征解码，得到语音特征对应的第一解码特征和文本数据对应的第二解码特征，其中，第一解码特征的长度为文本长度，第二解码特征的长度为文本数据的长度；特征对齐单元，用于利用交叉注意力模块对第一解码特征和第二解码特征进行特征对齐，得到第一解码特征对应的第一注意力特征和第二解码特征对应的第二注意力特征，其中，第一注意力特征和第二注意力特征的长度均为文本长度；匹配单元，用于利用置信度估计模块对第一注意力特征和第二注意力特征进行匹配，得到置信度估计结果。

在本申请上述实施例中，交叉注意力模块包括：自注意力层和交叉注意力层，特征对齐单元包括：自注意力子单元，用于利用自注意力层对第一解码特征进行注意力处理，得到第一注意力特征；交叉注意力子单元，用于利用交叉注意力层对第一注意力特征和第二解码特征进行特征对齐，得到第二注意力特征。

在本申请上述实施例中，在置信度估计模型训练的过程中，解码器模块的模型参数保持不变。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例6

根据本申请实施例，还提供了一种用于实施上述置信度估计方法的置信度估计方装置，如图10所示，该装置1000包括：驱动模块1002和显示模块1004。

其中，驱动模块1002用于响应作用于操作界面上的输入指令，驱动语音采集设备采集生物对象发出的语音数据，并获取文本数据；显示模块1004用于响应作用于操作界面上的置信度估计指令，在操作界面上显示置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率，置信度估计结果通过基于语音数据的语音特征对语音数据和文本数据进行匹配得到，语音特征的长度与文本长度相同，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征和文本长度通过对语音数据的声学特征进行长度预测和特征抽取预测得到，声学特征通过对语音数据进行特征提取得到。

此处需要说明的是，上述驱动模块1002和显示模块1004对应于实施例2中的步骤S502至步骤S504，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例7

根据本申请实施例，还提供了一种用于实施上述置信度估计方法的置信度估计方装置，如图11所示，该装置1100包括：第一驱动模块1102、特征提取模块1104、预测和抽取模块1106、匹配模块1108和第二驱动模块1110。

其中，第一驱动模块1102用于驱动虚拟现实VR设备或增强现实AR设备采集生物对象发出的语音数据，并获取文本数据；特征提取模块1104用于对语音数据进行特征提取，得到语音数据的声学特征；预测和抽取模块1106用于对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；匹配模块1108用于基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；第二驱动模块1110用于驱动VR设备或AR设备的呈现画面上渲染展示置信度估计结果。

此处需要说明的是，上述第一驱动模块1102、特征提取模块1104、预测和抽取模块1106、匹配模块1108和第二驱动模块1110对应于实施例3中的步骤S702至步骤S710，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例8

根据本申请实施例，还提供了一种用于实施上述置信度估计方法的置信度估计方装置，如图12所示，该装置1200包括：第一调用模块1202、特征提取模块1204、预测和抽取模块1206、匹配模块1208和第二调用模块1210。

其中，第一调用模块1202用于通过调用第一接口获取语音数据和文本数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据和文本数据；特征提取模块1204用于对语音数据进行特征提取，得到语音数据的声学特征；预测和抽取模块1206用于对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；匹配模块1208用于基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；第二调用模块1210用于通过调用第二接口输出置信度估计结果，其中，第二接口包括第二参数，第二参数的参数值为置信度估计结果。

此处需要说明的是，上述第一调用模块1202、特征提取模块1204、预测和抽取模块1206、匹配模块1208和第二调用模块1210对应于实施例4中的步骤S802至步骤S810，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例9

本申请的实施例可以提供一种电子设备，该电子设备可以包括AR/VR设备、服务器、客户端，该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地，该电子设备包括：处理器；存储器，与处理器相连接，用于为处理器提供处理以下处理步骤的指令：获取语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和语音文本进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例10

本申请的实施例可以提供一种AR/VR设备，该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地，在本实施例中，上述AR/VR设备也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述AR/VR设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述AR/VR设备可以执行置信度估计方法中以下步骤的程序代码：获取语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和语音文本进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

可选地，图13是根据本申请实施例的一种AR/VR设备的结构框图。如图13所示，该AR/VR设备A可以包括：一个或多个(图中仅示出一个)处理器1302、以及存储器1304。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的置信度估计方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的置信度估计方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和语音文本进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

可选的，上述处理器还可以执行如下步骤的程序代码：利用置信度估计模型对声学特征进行长度预测和特征抽取，得到文本长度和语音特征。

可选的，置信度估计模型包括：编码器模块和预测模块，上述处理器还可以执行如下步骤的程序代码：利用编码器模块对声学特征进行特征编码，得到编码特征；利用预测模块对编码特征进行长度预测和特征抽取，得到文本长度和语音特征。

可选的，上述处理器还可以执行如下步骤的程序代码：利用置信度估计模型基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果。

可选的，置信度估计模型还包括：词嵌入模块、解码器模块、交叉注意力模块和置信度估计模块，上述处理器还可以执行如下步骤的程序代码：利用词嵌入模块对文本数据进行特征提取，得到文本数据的文本特征；利用解码器模块对语音特征和文本特征进行特征解码，得到语音特征对应的第一解码特征和文本数据对应的第二解码特征，其中，第一解码特征的长度为文本长度，第二解码特征的长度为文本数据的长度；利用交叉注意力模块对第一解码特征和第二解码特征进行特征对齐，得到第一解码特征对应的第一注意力特征和第二解码特征对应的第二注意力特征，其中，第一注意力特征和第二注意力特征的长度均为文本长度；利用置信度估计模块对第一注意力特征和第二注意力特征进行匹配，得到置信度估计结果。

可选的，交叉注意力模块包括：自注意力层和交叉注意力层，上述处理器还可以执行如下步骤的程序代码：利用自注意力层对第一解码特征进行注意力处理，得到第一注意力特征；利用交叉注意力层对第一注意力特征和第二解码特征进行特征对齐，得到第二注意力特征。

可选的，在置信度估计模型训练的过程中，解码器模块的模型参数保持不变。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应作用于操作界面上的输入指令，驱动语音采集设备采集生物对象发出的语音数据，并获取文本数据；响应作用于操作界面上的置信度估计指令，在操作界面上显示置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率，置信度估计结果通过基于语音数据的语音特征对语音数据和文本数据进行匹配得到，语音特征的长度与文本长度相同，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征和文本长度通过对语音数据的声学特征进行长度预测和特征抽取预测得到，声学特征通过对语音数据进行特征提取得到。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：驱动虚拟现实VR设备或增强现实AR设备采集生物对象发出的语音数据，并获取文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；驱动VR设备或AR设备的呈现画面上渲染展示置信度估计结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取语音数据和文本数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；通过调用第二接口输出置信度估计结果，其中，第二接口包括第二参数，第二参数的参数值为置信度估计结果。

采用本申请实施例，提供了一种置信度估计方法的方案。由于语音特征和置信度估计结果都是与语音数据对应的文本包含的字符的数量相同的，避免了语音数据和文本数据不等长的情况下，置信度估计结果可靠性较低的问题，从而达到了提高置信度估计结果的准确度的技术效果，进而解决了相关技术中基于语音识别的置信度估计的准确度不高的技术问题，并且使得下游任务可以更好的基于置信度估计结果进行针对性的操作，帮助下游任务作出正确的判断，为稳定的人机交互链路奠定了基础。

本领域普通技术人员可以理解，图13所示的结构仅为示意，AR/VR设备也可以替换为智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternetDevices，MID)、PAD等终端设备。图13其并不对上述AR/VR设备的结构造成限定。例如，AR/VR设备A还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例11

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的置信度估计方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于AR/VR设备网络中AR/VR设备终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和语音文本进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率。

可选的，上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：利用置信度估计模型对声学特征进行长度预测和特征抽取，得到文本长度和语音特征。

可选的，置信度估计模型包括：编码器模块和预测模块，上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：利用编码器模块对声学特征进行特征编码，得到编码特征；利用预测模块对编码特征进行长度预测和特征抽取，得到文本长度和语音特征。

可选的，上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：利用置信度估计模型基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果。

可选的，置信度估计模型还包括：词嵌入模块、解码器模块、交叉注意力模块和置信度估计模块，上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：利用词嵌入模块对文本数据进行特征提取，得到文本数据的文本特征；利用解码器模块对语音特征和文本特征进行特征解码，得到语音特征对应的第一解码特征和文本数据对应的第二解码特征，其中，第一解码特征的长度为文本长度，第二解码特征的长度为文本数据的长度；利用交叉注意力模块对第一解码特征和第二解码特征进行特征对齐，得到第一解码特征对应的第一注意力特征和第二解码特征对应的第二注意力特征，其中，第一注意力特征和第二注意力特征的长度均为文本长度；利用置信度估计模块对第一注意力特征和第二注意力特征进行匹配，得到置信度估计结果。

可选的，交叉注意力模块包括：自注意力层和交叉注意力层，上述计算机可读存储介质还被设置为存储用于执行以下步骤的程序代码：利用自注意力层对第一解码特征进行注意力处理，得到第一注意力特征；利用交叉注意力层对第一注意力特征和第二解码特征进行特征对齐，得到第二注意力特征。

可选的，在置信度估计模型训练的过程中，解码器模块的模型参数保持不变。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的输入指令，驱动语音采集设备采集生物对象发出的语音数据，并获取文本数据；响应作用于操作界面上的置信度估计指令，在操作界面上显示置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率，置信度估计结果通过基于语音数据的语音特征对语音数据和文本数据进行匹配得到，语音特征的长度与文本长度相同，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征和文本长度通过对语音数据的声学特征进行长度预测和特征抽取预测得到，声学特征通过对语音数据进行特征提取得到。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：驱动虚拟现实VR设备或增强现实AR设备采集生物对象发出的语音数据，并获取文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；驱动VR设备或AR设备的呈现画面上渲染展示置信度估计结果。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取语音数据和文本数据，其中，第一接口包括第一参数，第一参数的参数值为语音数据和文本数据；对语音数据进行特征提取，得到语音数据的声学特征；对声学特征进行长度预测和特征抽取，预测得到文本长度和语音特征，其中，文本长度用于表征与语音数据对应的文本包含的字符的数量，语音特征的长度与文本长度相同；基于语音特征对语音数据和文本数据进行匹配，得到置信度估计结果，其中，置信度估计结果用于表征语音数据对应的文本包含的每个字符与文本数据的匹配概率；通过调用第二接口输出置信度估计结果，其中，第二接口包括第二参数，第二参数的参数值为置信度估计结果。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：石宪;
专利申请人：阿里巴巴达摩院(杭州)科技有限公司;

上一篇：用于采煤系统的推移式千斤顶和采煤系统
下一篇：一种高边坡护坡铺设六棱砖定型化塑料模板及其使用方法