掌桥专利:专业的专利平台
掌桥专利
首页

语音的人工智能处理方法及系统

文献发布时间:2023-06-19 12:14:58


语音的人工智能处理方法及系统

技术领域

本申请涉及人工智能技术领域,尤其涉及一种语音的人工智能处理方法及系统。

背景技术

语音为人们发出的声音,随着人工智能(AI)领域的发展,通过人工智能对语音进行识别越来越多,AI处理语音具有优势,但是现有的语音识别技术对语音识别的准确度低,影响了用户的体验度。

发明内容

本申请实施例公开了一种语音的人工智能处理方法,能够提高语音识别的准确率,进而提高用户的体验度。

第一方面,提供一种语音的人工智能处理方法,所述方法应用于终端设备,其中,所述方法包括如下步骤:

终端设备采集目标对象的语音数据,将该语音数据按采集时间确定为多个时刻的输入数据;

终端设备将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率C

终端设备提取多个C

可选的,所述终端设备依据隐层输出结果S

采用下一时刻t+1的隐层输出结果替换上一时刻t-1的隐层输出结果直接计算Ot’;具体包括:

其中,W表示权值,X

可选的,所述终端设备依据隐层输出结果S

采用下一时刻t+1的隐层输出结果和上一时刻t-1的隐层输出结果的平均值计算Ot’;具体包括:

其中,W表示权值,X

可选的,将所述O

可选的,所述终端设备依据隐层输出结果S

依据S

其中,W表示权值,X

可选的,所述终端设备依据隐层输出结果S

依据S

其中,W表示权值,X

第二方面,提供一种语音的人工智能处理系统,所述系统包括:

采集单元,用于采集目标对象的语音数据;

处理单元,用于将该语音数据按采集时间确定为多个时刻的输入数据;将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率C

可选的,

所述处理单元,具体用于依据S

其中,W表示权值,X

可选的,

处理单元,具体用于采用下一时刻t+1的隐层输出结果替换上一时刻t-1的隐层输出结果直接计算Ot’;具体包括:

其中,W表示权值,X

可选的,

处理单元,具体用于采用下一时刻t+1的隐层输出结果和上一时刻t-1的隐层输出结果的平均值计算Ot’;具体包括:

其中,W表示权值,X

可选的,

处理单元,具体用于将所述O

可选的,

处理单元,具体用于依据S

其中,W表示权值,X

本申请实施例第三方面提供一种终端设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行第一方面所述的方法中的步骤的指令。

本申请实施例第四方面公开了一种计算机可读存储介质,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行第一方面所述的方法。

本申请实施例第五方面公开了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

本申请提供的技术方案,对于RNN模型来说,其隐层输出结果均为正向传递,即通过前一时刻的隐层输出结果传递到当前时刻t进而进行运算,类似如图2所示的示意图,但是此种方式的运算对于后一时刻,即未来的结果的影响未进行考虑,但是对于未来的结果在语音数据中对前面时刻的结果也会有影响,因此需要考虑未来的结果,另外,通过前一时刻的隐层输出结果传递到当前时刻t进而进行运算若称为正向传递,那么通过后一时刻的隐层输出结果传递到当前时刻t进而进行运算可以称为反向传递,对于反向传递,若类似正向传递所有的时刻均执行反向传递,首先计算量较大,其次对于置信率较高的时刻来说,若通过反向传递的隐层数据进行运算反而会影响其精度,基于此种情况,本申请的技术方案仅仅对最大置信率的最小值的语音数据执行反向的运算,这样提高语音识别的准确度。

附图说明

以下对本申请实施例用到的附图进行介绍。

图1是本申请实施例提供的一种终端设备的结构示意图;

图2是一种RNN示意图;

图3是本申请实施例提供的一种语音的人工智能处理方法的流程示意图;

图4是本申请实施例提供的一种RNN示意图;

图5是本申请实施例提供的一种语音的人工智能处理系统的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/“,表示前后关联对象是一种“或”的关系。

本申请实施例中出现的“多个”是指两个或两个以上。本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。本申请实施例中出现的“连接”是指直接连接或者间接连接等各种连接方式,以实现设备间的通信,本申请实施例对此不做任何限定。

本申请实施例的终端设备是一种具有无线通信功能的设备,可以称为终端(terminal)、用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)、接入终端设备、车载终端设备、工业控制终端设备、UE单元、UE站、移动站、远方站、远程终端设备、移动设备、UE终端设备、无线通信设备、UE代理或UE装置等。终端设备可以是固定的或者移动的。需要说明的是,终端设备可以支持至少一种无线通信技术,例如LTE、新空口(new radio,NR)等。例如,终端设备可以是手机(mobile phone)、平板电脑(pad)、台式机、笔记本电脑、一体机、车载终端、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medicalsurgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportationsafety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、蜂窝电话、无绳电话、会话启动协议(session initiation protocol,SIP)电话、无线本地环路(wireless local loop,WLL)站、个人数字助理(personal digitalassistant,PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、可穿戴设备、未来移动通信网络中的终端设备或者未来演进的公共移动陆地网络(public land mobile network,PLMN)中的终端设备等。

参阅图1,图1提供了一种终端设备的结构示意图,如图1所示,该终端具体可以包括:处理器、存储器、通信单元、音频采集单元和总线,其中,处理器、存储器、通信单元、音频采集单元通过总线连接。

参阅图2,图2提供一种RNN(Recurrent Neural Network,循环神经网络)的示意图,RNN是一类专门用于处理时序数据样本的神经网络,它的每一层不仅输出给下一层,同时还输出一个隐状态,给当前层在处理下一个样本时使用。就像卷积神经网络可以很容易地扩展到具有很大长度和宽度数据,而且一些卷积神经网络还可以处理不同尺寸的图像,循环神经网络可以扩展到更长的序列数据,而且大多数的循环神经网络可以处理序列长度不同的语音数据(for 循环,变量长度可变)。它可以看作是带自循环反馈的全连接神经网络。

对于语音识别,语音出现的位置很重要,因此,为了提高语音识别的准确度,将前一时刻的语音的识别结果传递给下一个时刻执行语音识别得到结果,对于中文的识别来说,其可以为一个字的发音,参阅图2,若当前时刻为t,那么上一个时刻t-1的一个字的发音可以被作为输入X

示例的,上述RNN语音识别方法的计算公式可以如下所示:

以t-1时刻为例:

依据O

对于t时刻,

其中,W表示权值,X

f表示激活函数,该激活函数包括但不限于:sigmoid函数、tanh函数等等。

当然在实际应用中,还可以使用其他的激活函数。 参阅图3,图3提供了一种语音的人工智能处理方法,所述方法应用于如图1所示的终端设备,上述终端设备的具体结构可以如图1所示的,上述终端设备可以为智能手机、智能音箱等等,其中,所述方法包括如下步骤:

步骤S301、终端设备采集目标对象的语音数据,将该语音数据按采集时间确定为多个时刻的输入数据;

上述目标对象具体可以为用户、人员等等。上述语音数据可以为一句话或多句话等等,上述语音数据至少包括三个以上的字。

步骤S302、终端设备将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率C

步骤S303、终端设备提取多个C

示例的,可以用第二字替换第一字。

上述依据输出结果确定多个时刻对应的多个最大置信率C

示例的,上述第二阈值(例如85%)大于第一阈值(例如50%)。

示例的,上述第二字可以与第一字相同,也可以与第一字不相同,具体的实现方式可以参见下述描述,这里不再赘述。

对于RNN模型来说,其隐层输出结果均为正向传递,即通过前一时刻的隐层输出结果传递到当前时刻t进而进行运算,类似如图2所示的示意图,但是此种方式的运算对于后一时刻,即未来的结果的影响未进行考虑,但是对于未来的结果在语音数据中对前面时刻的结果也会有影响,因此需要考虑未来的结果,另外,通过前一时刻的隐层输出结果传递到当前时刻t进而进行运算若称为正向传递,那么通过后一时刻的隐层输出结果传递到当前时刻t进而进行运算可以称为反向传递,对于反向传递,若类似正向传递所有的时刻均执行反向传递,首先计算量较大,其次对于置信率较高的时刻来说,若通过反向传递的隐层数据进行运算反而会影响其精度,基于此种情况,本申请的技术方案仅仅对最大置信率的最小值的语音数据执行反向的运算,这样提高语音识别的准确度。

其正反向运算的示意图如图4所示。

参阅图4,这里假设t时刻的最大置信率在所有时刻的最大置信率中最低,那么对于t时刻,其识别出错的概率相对于其他时刻来说较高,此时,需要将未来时刻(即下一时刻t+1)的隐层结果返回给当前时刻,进而对当前时刻t的输出结果进行调整,但是对于当前时刻t调整时,需要确定t+1的最大置信率需要大于一定的值,即第二阈值(例如85%或80%),如图4所示,未来时刻(t+1)的隐层输出结果不仅需要输出给下一时刻(即t+2时刻),也需要反传给当前时刻(t),这样对当前时刻t执行输出结果的调整。

示例的,如图4所示,终端设备依据隐层输出结果S

方式A,采用下一时刻t+1的隐层输出结果替换上一时刻t-1的隐层输出结果直接计算Ot’;具体的计算公式如下所示:

其中,W表示权值,X

方式B,采用下一时刻t+1的隐层输出结果和上一时刻t-1的隐层输出结果的平均值计算Ot’;具体的计算公式如下所示:

其中,W表示权值,X

示例的,上述依据输出结果Ot’得到当前时刻的第二字具体可以包括:

将方式A或方式B计算的Ot’的最大置信率C

示例的,上述终端设备依据隐层输出结果S

依据上述方式A和方式B分别计算得到输出结果O

示例的,上述O

示例的,上述终端设备依据隐层输出结果S

采用上述方式A以及方式B计算得到O

上述提取O

上述S

上述示例的技术方案采用循环二次的方式来进一步提高语音识别的精确度,即反向传输二次,第一次反向传输为,将t+1时刻的隐层输出结果S

参阅图5,图5提供一种语音的人工智能处理系统,所述系统包括:

采集单元501,用于采集目标对象的语音数据;

处理单元502,用于将该语音数据按采集时间确定为多个时刻的输入数据;将多个时刻的输入数据分别输入到RNN模型的输入层进行计算得到RNN模型的隐层输出结果S以及输出层输出结果O,依据输出结果确定多个时刻对应的多个最大置信率C

参阅图5所示的系统中的处理单元还用于执行如图3所示方法实施例中的示例方案或细化方案,在此不再赘述。

本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当其在网络设备上运行时,图3所示的方法流程得以实现。

本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在终端上运行时,图3所示的方法流程得以实现。

本申请实施例还提供一种终端,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行图3所示实施例的方法中的步骤的指令。

上述主要从方法侧执行过程的角度对本申请实施例的方案进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模板。本领域技术人员应该很容易意识到,结合本文中所提供的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模板并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory ,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

技术分类

06120113227202