掌桥专利:专业的专利平台
掌桥专利
首页

单麦克风语音数据处理方法、装置及计算机存储介质

文献发布时间:2023-06-19 11:52:33


单麦克风语音数据处理方法、装置及计算机存储介质

技术领域

本申请涉及在线教育语音技术领域,特别的涉及一种单麦克风语音数据处理方法、装置及计算机存储介质。

背景技术

通常在在线教育、远程会议、在线语音等环境进行语音聊天时,会对获取的语音做前处理,但由于前处理的算法复杂程度较高,为了保证语音的实时性以及降低前处理的复杂程度,需要将语音数据从双声道转换到单声道再进行处理,以简化算法的复杂程度。

对于单麦克风获取的语音数据而言,通常会选取双声道中任意一个声道的数据作为输出声道数据,但由于设备硬件缺陷,易使双声道的相位反相或音量大小不统一,进而影响输出声道数据的音量,给用户带来不适的体验。

发明内容

本申请实施例提供了一种单麦克风语音数据处理方法、装置及计算机存储介质,可对多声道的语音数据进行混合得到满足用户需求的语音数据和音量,保障用户的使用体验。

第一方面,本申请实施例提供了一种单麦克风语音数据处理方法,包括:

基于单麦克风获取至少两个声道的录制语音数据;

将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据;至少两个声道的数字音频数据为与至少两个声道的录制语音数据各自对应的音量值;

根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据。

在第一方面的一种可选方案中,每个声道的数字音频数据包括至少两个样例;

将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据,具体包括:

将至少两个声道的录制语音数据转换为按照样例交替顺序排列的至少两个声道的录制语音数据各自对应的音量值。

在第一方面的又一种可选方案中,至少两个声道的录制语音数据包括左声道的录制语音数据和右声道的录制语音数据;

根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据,具体包括:

根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值;

根据目标语音数据对应的音量值得到目标语音数据。

在第一方面的又一种可选方案中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

通过将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

在第一方面的又一种可选方案中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

通过将对应于同一样例的右声道的录制语音数据对应的音量值与左声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

在第一方面的又一种可选方案中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

检测左声道的录制语音数据中任意一个样例对应的音量值是否为0;

在左声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的右声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值;或

检测右声道的录制语音数据中任意一个样例对应的音量值是否为0;

在右声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的左声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值。

在第一方面的又一种可选方案中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

获取预设时段内左声道的录制语音数据与右声道的录制语音数据的音频质量;

根据左声道的录制语音数据与右声道的录制语音数据的音频质量,确定左声道的录制语音数据与右声道的录制语音数据各自对应的权重值;

基于权重值将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值进行加权求和得到目标语音数据中对应于同一样例的音量值。

在第一方面的又一种可选方案中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

将对应于同一样例的左声道的录制语音数据对应的音量值和/或右声道的录制语音数据对应的音量值中大于预设阈值的音量值作为目标语音数据对应于同一样例的音量值。

在第一方面的又一种可选方案中,根据目标语音数据对应的音量值得到目标语音数据,具体包括:

对目标语音数据对应的音量值进行前处理得到目标语音数据。

第二方面,本申请实施例提供了一种单麦克风语音数据处理装置,包括:

获取模块,用于基于单麦克风获取至少两个声道的录制语音数据;

第一处理模块,用于将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据;至少两个声道的数字音频数据为与至少两个声道的录制语音数据各自对应的音量值;

第二处理模块,用于根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据。

在第二方面的一种可选方案中,每个声道的数字音频数据包括至少两个样例;

第一处理模块具体用于将至少两个声道的录制语音数据转换为按照样例交替顺序排列的至少两个声道的录制语音数据各自对应的音量值。

在第二方面的又一种可选方案中,至少两个声道的录制语音数据包括左声道的录制语音数据和右声道的录制语音数据;

第二处理模块具体包括:

第一处理单元,用于根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值;

第二处理单元,用于根据目标语音数据对应的音量值得到目标语音数据。

在第二方面的又一种可选方案中,第一处理单元具体用于通过将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

在第二方面的又一种可选方案中,第一处理单元具体用于通过将对应于同一样例的右声道的录制语音数据对应的音量值与左声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

在第二方面的又一种可选方案中,第一处理单元具体用于检测左声道的录制语音数据中任意一个样例对应的音量值是否为0;

在左声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的右声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值;或

检测右声道的录制语音数据中任意一个样例对应的音量值是否为0;

在右声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的左声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值。

在第二方面的又一种可选方案中,第一处理单元具体用于获取预设时段内左声道的录制语音数据与右声道的录制语音数据的音频质量;

根据左声道的录制语音数据与右声道的录制语音数据的音频质量,确定左声道的录制语音数据与右声道的录制语音数据各自对应的权重值;

基于权重值将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值进行加权求和得到目标语音数据中对应于同一样例的音量值。

在第二方面的又一种可选方案中,第一处理单元具体用于将对应于同一样例的左声道的录制语音数据对应的音量值和/或右声道的录制语音数据对应的音量值中大于预设阈值的音量值作为目标语音数据对应于同一样例的音量值。

在第二方面的又一种可选方案中,第二处理单元具体用于对目标语音数据对应的音量值进行前处理得到目标语音数据。

第三方面,本申请实施例提供了一种单麦克风语音数据处理装置,包括处理器以及存储器;处理器与存储器相连;存储器,用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行本申请实施例第一方面或第一方面的任意一种实现方式提供的单麦克风语音数据处理方法。

第四方面,本申请实施例还提供了一种计算机存储介质,计算机存储介质存储有计算机程序,计算机程序包括程序指令,程序指令当被处理器执行时,可实现本申请实施例第一方面或第一方面的任意一种实现方式提供的单麦克风语音数据处理方法。

在本申请实施例中,可基于单麦克风获取至少两个声道的录制语音数据;将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据;根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据。对于单麦克风获取的多声道语音数据,可对该多声道的语音数据进行混合得到目标语音数据,避免用户接收的语音数据处于无声或者声音过小,以在保证语音后续处理的快速性的情况下还进一步保证用户的使用体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种单麦克风语音数据处理系统的架构示意图;

图2为本申请实施例提供的一种语音数据信息的采集示意图;

图3为本申请实施例提供的一种单麦克风语音数据处理方法的结构示意图;

图4为本申请实施例提供的一种双声道标准音频数据的排列示意图;

图5为本申请实施例提供的一种目标双声道标准音频数据的排列示意图;

图6为本申请实施例提供的一种单麦克风语音数据处理装置的结构示意图;

图7为本申请实施例提供的又一种单麦克风语音数据处理装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

请参阅图1,图1示出了本申请实施例提供的一种单麦克风语音数据处理系统的架构示意图。

如图1所示,该单麦克风语音数据处理系统可以包括第一终端10和第二终端20,其中:

第一终端10可连接有用于接收用户语音数据的单麦克风,用户在使用第一终端10应用于在线教学、远程教育、在线语音聊天等场景下时可通过单麦克风获取用户发出的语音数据,并将该语音数据进行处理通过网络发送至与第一终端10建立连接的第二终端20。具体的,第一终端10可基于单麦克风的双声道获取用户的录制语音数据,将双声道中的录制语音数据经采样、滤波、放大、量化、编码等方式转化为标准数字音频数据(Pulse CodeModulation,PCM),并结合双声道中各个声道的标准数字音频数据得到目标语音数据,以避免传输给第二终端20的语音数据因第一终端的硬件缺陷等问题所造成的无声或声音较小,保障用户正常的教学体验或聊天体验。其中,基于单麦克风获取的录制语音数据可先由第一终端接收并进行初步的采集、滤波、放大等信号处理,再进一步的可将初步信号处理后的录制语音数据所对应的模拟信号经pcm_data数组采样、量化处理得到用于表征数字信号的标准数字音频数据。该标准数字音频数据具体可由赋予数值的音量值表示,不同数值的音量值可对应于录制语音数据的音量(或与录制语音数据对应的电压幅值呈正相关)。可以理解地,初步信号处理后的录制语音数据所对应的模拟信号可不局限于通过设置在第一终端10内的pcm_data数组进一步采样、量化处理,还可通过将该模拟信号上传至与第一终端10对应的服务器,并由服务器对该模拟信号经pcm_data数组采样、量化处理得到用于表征数字信号的标准数字音频数据,并进一步的由服务器将标准数字音频数据返回至第一终端10,可有效减少第一终端10的运行压力以及存储空间。

需要说明的是,基于单麦克风获取的录制语音数据,第一终端10可周期性的采集经过初步处理后的录制语音数据所对应的模拟信号,并在每一个采集信号过程中采集预设数量的字节,每一个字节均对应有一个赋予数值的音量值。具体的,可参阅图2示出的本申请实施例提供的一种语音数据信息的采集示意图。如图2所示,可将用于显示语音数据的模拟信号截取一段并放置于由x轴和y轴构成的平面直角坐标系中,其中x轴可对应于预设数量的字节,y轴可对应于不同字节所对应的音量值。例如,字节A的坐标可用(A

本申请实施例中涉及的第一终端10可以是平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant,PDA)、路由设备、虚拟现实设备等。

第二终端20可包括一个或多个第二终端,其中多个第二终端可为第二终端20a、第二终端20b、第二终端20c等。第二终端20可与第一终端10建立连接,用于在第二终端应用于在线教学、远程教育、在线语音聊天等场景下时可接收第一终端10经网络发送的语音数据、视频数据、文字数据等,也可用经过网络向第一终端10发送语音数据、视频数据、文字数据等。可以理解地,以在线教育场景为例,第一终端10可为教师端所在终端,第二终端20可为学生端所在终端。

本申请实施例中涉及的第二终端20可以是手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、手持计算机、上网本、个人数字助理(Personal Digital Assistant,PDA)、路由设备、虚拟现实设备等。

网络可以是在第二终端20中任意一个第二终端和第一终端10之间提供通信链路的介质,也可以是包含网络设备和传输介质的互联网,不限于此。传输介质可以是有线链路(例如但不限于,同轴电缆、光纤和数字用户线路(digital subscriber line,DSL)等)或无线链路(例如但不限于,无线上网(wireless fidelity,WIFI)、蓝牙和移动设备网络等)。

请参阅图3,图3示出了本申请实施例提供的一种单麦克风语音数据处理方法的结构示意图。

如图3所示,该单麦克风语音数据处理方法具体包括:

步骤301、基于单麦克风获取至少两个声道的录制语音数据。

具体地,单麦克风可分布有至少两个用于获取语音数据的声道,其获取语音数据中的音量大小可取决于用户的发音部位到单麦克风之间的距离,可能的,距离越大获取的语音数据音量越小,进而语音数据的音频质量越低。可能的,距离越小获取的语音数据音量越大,进而语音数据的音频质量越高。其中,单麦克风中每一个声道获取的语音数据均相同,每一个声道获取的语音数据之间不存在相位差且获取的语音频率均保持相同,但由于控制单麦克风获取语音数据的终端设备硬件设置不同,不同终端设备的硬件缺陷易导致单麦克风某个声道无法获取语音数据或获取的语音数据音量较小,进而影响处理后的语音数据的展示效果。

进一步的,在基于单麦克风获取至少两个声道的录制语音数据之后,可对至少两个声道的录制语音数据进行初步处理,例如但不局限于包括采集、滤波、放大等信号处理方式。

步骤302、将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据。

具体地,至少两个声道的录制语音数据在初步处理得到模拟信号后,再将该模拟信号通过pcm_data数组采样、量化处理得到用于表征数字信号的标准数字音频数据。其中,至少两个声道的数字音频数据为至少两个声道的录制语音数据各自对应的音量值,可以理解地,每一个声道的录制语音数据经pcm_data数组采样、量化处理可得到对应的一个或多个音量值,且为了方便区分不同声道的录制语音数据所转换的音量值,可根据不同声道的位置或属性对各自声道所对应的音量值进行标识。具体的,以左声道为例,左声道获取的录制语音数据所对应的音量值可用L或L1、L2、L3等进行标识,其中L或L1、L2、L3等可分别对应一个具体的数值,且L1、L2、L3等对应的具体数值可均相同或均不相同或部分相同部分不同。

还可以理解的是,对于获取的至少两个声道的数字音频数据可设置为同一排或同一列,且在同一列或同一排中不同声道的数字音频数据的位置关系不做具体限定。可能的,对于不同声道的数字音频数据可采用先后顺序进行排列,例如A声道的所有音量值排列在一起,最后一个音量值后面排列为B声道的第一个音量值,并依次排列。可能的,对于不同声道的数字音频数据可采用交替顺序进行排列,例如A声道的前三个音量值排列在一起,在A声道的第三个音量值后面排列为B声道的前三个音量值,并依次排列。需要说明的是,对于交替顺序进行排列的数字音频数据,不同声道的间隔排列的音量值数量不做具体限定。

步骤303、根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据。

具体地,可根据至少两个声道的录制语音数据各自对应的音量值得到对应于目标语音数据的音量值,并通过信号处理转换为目标语音数据发送至目标用户端。

在本申请实施例中,可对该多声道的语音数据进行混合得到目标语音数据,避免用户接收的语音数据处于无声或者声音过小,以在保证语音后续处理的快速性的情况下还进一步保证用户的使用体验。

作为本申请的一个实施例,每个声道的数字音频数据包括至少两个样例;

将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据,具体包括:

将至少两个声道的录制语音数据转换为按照样例交替顺序排列的至少两个声道的录制语音数据各自对应的音量值。

具体地,每个声道的数据音频数据可包括多个音量值以及多个样例,每一个样例可对应一个或多个音量值,可按照样例交替顺序将不同声道的录制音频数据所对应转换的多个音量值进行排列。可能的,以一个样例对应一个音量值为例,A声道可包括有A1、A2、A3三个音量值,B声道可包括有B1、B2、B3三个音量值,按照样例交替顺序排列得到的A声道以及B声道的数字音频数据可表示为A1、B1、A2、B2、A3、B3,或可表示为B1、A1、B2、A2、B3、A3。

可能的,以一个样例对应多个音量值为例(举例为两个音量值),A声道可包括有A1、A2、A3、A4四个音量值,B声道可包括有B1、B2、B3、B4四个音量值,按照样例交替顺序排列得到的A声道以及B声道的数字音频数据可表示为A1、A2、B1、B2、A3、A4、B3、B4,或可表示为B1、B2、A1、A2、B3、B4、A3、A4。

需要说明的是,在本申请中单麦克风不同声道获取的录制语音数据所对应转换的数字音频数据可为预设数量的音量值以及相同预设数量的样例,即一个样例对应一个音量值。优选的,预设数量可为160,并按照0至159的序号对按照顺序的音量值进行标识,且对于本申请提到的pcm_data数组可采用16位,对应每一个音量值的选取范围在-32678到32727之间。

在本申请实施例中,可通过按照样例交替顺序对至少两个声道的数字音频数据进行排列,保证声道的数字音频数据的有序性,以确保输出正常的目标语音数据,保障用户的体验。

作为本申请的又一个实施例,至少两个声道的录制语音数据包括左声道的录制语音数据和右声道的录制语音数据;

根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据,具体包括:

根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值;

根据目标语音数据对应的音量值得到目标语音数据。

具体地,单麦克风可分布有两个用于获取用户的录制语音数据的单声道,分别为左声道和右声道,其中左声道和右声道获取用户的录制语音数据在内容、相位、以及频率上均保持相同。进一步的,左声道获取用户的录制语音数据在初步处理得到模拟信号后,可将该模拟信号通过pcm_data数组采样、量化处理得到用于表征数字信号的标准数字音频数据,其标准数字音频数据可为多个标识有左声道的音量值以及对应的样例。同样的,右声道获取用户的录制语音数据在初步处理得到模拟信号后,可将该模拟信号通过pcm_data数组采样、量化处理得到用于表征数字信号的标准数字音频数据,其标准数字音频数据可为数量与左声道相同的多个标识有右声道的音量值以及对应的样例。优选的,对于左声道或右声道中每一个样例可对应一个音量值,且对于同一个样例,左声道和右声道均可对应有一个音量值,例如对于第一个样例,左声道的音量值可用L1表示,右声道的音量值可用R1表示。

进一步的,可根据左声道获取用户的录制语音数据对应的音量值与右声道获取用户的录制语音数据对应的音量值按照样例交替顺序进行排列,并基于排列后的音量值确定目标语音数据对应的音量值,通过后续信号处理得到目标语音数据。

可参阅图4示出的本申请实施例提供的一种双声道标准音频数据的排列示意图。如图4所示,4a示出了左声道和右声道分别获取的录制语音数据所对应转换的音量值按照交替顺序进行排列,其中标识中的数字可表示第几个音量值,例如L1可表示为左声道的第一个音量值,R1可表示为右声道的第一个音量值,L2可表示为左声道第二个音量值,R2可表示为右声道的第二个音量值,并依次排序表示。其中,对于单麦克风双声道而言,左声道的第一个音量值在正常的情况下与右声道的第一个音量值相等,即L1=R1。可以理解地,以一个样例对应一个音量值为例,L1可对应为左声道的第一个样例,R1可对应为右声道的第一个样例,对于同一个样例而言,左声道和右声道均有一个对应的音量值。

进一步的,4b示出了左声道和右声道在正常情况下分别获取的录制语音数据所对应转换的音量值按照交替顺序进行排列下的具体数值,其中L1和R1分别作为左声道和右声道的第一个音量值均可为188,L2和R2分别作为左声道和右声道的第二个音量值均可为166,L3和R3分别作为左声道和右声道的第三个音量值均可为388,L4和R4分别作为左声道和右声道的第四个音量值均可为465。可以理解地,声道获取的录制语音数据对应转化的标准数字音频数据为多个字节,每一个字节可用一个音量值表示,字节对应的音量值可用于表征该字节相较于其他字节的音量,例如某一字节对应的音量值高可用于表征该字节对应的音量高。

进一步的,4c示出了左声道和右声道在反相位情况下分别获取的录制语音数据所对应转换的音量值按照交替顺序进行排列下的具体数值,其中L1和R1分别作为左声道和右声道的第一个音量值在反相情况下可分别表示为188和-188,L2和R2分别作为左声道和右声道的第二个音量值在反相情况下可分别表示为166和-166,L3和R3分别作为左声道和右声道的第三个音量值在反相情况下可分别表示为388和-388,L4和R4分别作为左声道和右声道的第四个音量值在反相情况下可分别表示为456和-456。

进一步的,4d示出了左声道和右声道在左声道无声情况下分别获取的录制语音数据所对应转换的音量值按照交替顺序进行排列下的具体数值,其中左声道获取的录制语音数据所对应转换的所有音量值均为0,右声道获取的录制语音数据所对应转换的音量值可分别为R1=188、R2=166、R3=388、R4=456。

进一步的,4e示出了左声道和右声道在右声道无声情况下分别获取的录制语音数据所对应转换的音量值按照交替顺序进行排列下的具体数值,其中右声道获取的录制语音数据所对应转换的所有音量值均为0,左声道获取的录制语音数据所对应转换的音量值可分别为L1=188、L2=166、L3=388、L4=456。

作为本申请的又一个实施例,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

通过将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

具体地,可在左声道和右声道获取的录制语音数据所对应转换的按照样例交替顺序排列的标准数字音频数据后,对于同一个样例的左声道与右声道分别对应的音量值可通过将左声道的音量值与右声道的音量值的一半进行累加以得到对于该样例的目标音量值,该目标音量值对应的数值可避免出现右声道无声或者声道声音较小的情况,进而保障用户的使用体验。

具体的,可参阅图5示出的一种目标双声道标准音频数据的排列示意图。

如图5所示,5a示出了左声道和右声道分别获取的录制语音数据所对应转换的音量值按照交替顺序进行排列,其中标识中的数字可表示第几个音量值,例如L1可表示为左声道的第一个音量值,R1可表示为右声道的第一个音量值,L2可表示为左声道第二个音量值,R2可表示为右声道的第二个音量值,并依次排序表示。5b示出了根据同一样例的左声道和右声道对应的目标音量值排列,其中将处于第一样例的左声道的第一个音量值与处于第一样例的右声道的第一个音量值的一半进行累加得到第一样例的目标音量值,即第一样例的目标音量值等于L1+R1/2。同样的,可得到第二样例的目标音量值等于L2+R2/2,第三样例的目标音量值等于L3+R3/2,第四样例的目标音量值等于L4+R4/2。

在本申请实施例中,可对于单麦克风双声道中右声道无声或者双声道声音较小的情况,通过将同一样例的左声道的音量值与右声道的音量值的一半进行累加以得到对于该样例的目标音量值,以保障目标语音的音量,进而满足用户的使用体验。

作为本申请的又一个实施例,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

通过将对应于同一样例的右声道的录制语音数据对应的音量值与左声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

具体地,可在左声道和右声道获取的录制语音数据所对应转换的按照样例交替顺序排列的标准数字音频数据后,对于同一个样例的左声道与右声道分别对应的音量值可通过将右声道的音量值与左声道的音量值的一半进行累加以得到对于该样例的目标音量值,该目标音量值对应的数值可避免出现左声道无声或者声道声音较小的情况,进而保障用户的使用体验。

具体的,可参阅5a示出的左声道和右声道分别获取的录制语音数据所对应转换的音量值按照交替顺序进行排列,其中标识中的数字可表示第几个音量值,例如L1可表示为左声道的第一个音量值,R1可表示为右声道的第一个音量值,L2可表示为左声道第二个音量值,R2可表示为右声道的第二个音量值,并依次排序表示。进一步的,可参阅5b,可将处于第一样例的右声道的第一个音量值与处于第一样例的左声道的第一个音量值的一半进行累加得到第一样例的目标音量值,即第一样例的目标音量值等于R1+L1/2。同样的,可得到第二样例的目标音量值等于R2+L2/2,第三样例的目标音量值等于R3+L3/2,第四样例的目标音量值等于R4+L4/2。

在本申请实施例中,可对于单麦克风双声道中左声道无声或者双声道声音较小的情况,通过将同一样例的右声道的音量值与左声道的音量值的一半进行累加以得到对于该样例的目标音量值,以保障目标语音的音量,进而满足用户的使用体验。

作为本申请的又一个实施例,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

检测左声道的录制语音数据中任意一个样例对应的音量值是否为0;

在左声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的右声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值;或

检测右声道的录制语音数据中任意一个样例对应的音量值是否为0;

在右声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的左声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值。

具体地,可在左声道和右声道获取的录制语音数据所对应转换的按照样例交替顺序排列的标准数字音频数据后,对于同一个样例的左声道与右声道分别对应的音量值可通过检测任意一个声道对应的音量值是否为0,若为0则将同一样例另一个的音量值作为该样例的目标音量值。具体的,以左声道的音量值包括L1、L2、L3、L4,右声道的音量值包括R1、R2、R3、R4为例,对于处于第一样例的L1和R1,若检测到L1和R1中存在一个音量值为0的情况,例如L1为0,则将R1作为第一样例的目标音量值。同样的,对于处于第二样例的L2和R2,若检测到L2和R2中存在一个音量值为0的情况,例如L2为0,则将R2作为第二样例的目标音量值。同样的,对于处于第三样例的L3和R3,若检测到L3和R3中存在一个音量值为0的情况,例如L3为0,则将R3作为第三样例的目标音量值。同样的,对于处于第四样例的L4和R4,若检测到L4和R4中存在一个音量值为0的情况,例如L4为0,则将R4作为第四样例的目标音量值。

可以理解地,若在左声道的录制语音数据中任意一个样例对应的音量值为0的情况下,且检测到对应的样例中右声道的音量值也为0,则表明单麦克风并未获取用户的语音数据,可停止对转换的标准数字音频数据进行处理,向用户发送获取语音失败的提示信息。同样的,若在右声道的录制语音数据中任意一个样例对应的音量值为0的情况下,且检测到对应的样例中左声道的音量值也为0,也表明单麦克风并未获取用户的语音数据,可停止对转换的标准数字音频数据进行处理,向用户发送获取语音失败的提示信息。

在本申请实施例中,可通过检测双声道中任意一个样例是否存在一个声道的音量值为0,以便于将对应声道的音量值作为该样例的目标音量值,可有效快速避免目标语音数据无声,进而保障用户正常的使用体验。

作为本申请的又一个实施例,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

获取预设时段内左声道的录制语音数据与右声道的录制语音数据的音频质量;

根据左声道的录制语音数据与右声道的录制语音数据的音频质量,确定左声道的录制语音数据与右声道的录制语音数据各自对应的权重值;

基于权重值将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值进行加权求和得到目标语音数据中对应于同一样例的音量值。

具体地,可在左声道和右声道获取的录制语音数据所对应转换的按照样例交替顺序排列的标准数字音频数据之前,获取预设时段内左声道的录制语音数据与右声道的录制语音数据的音频质量。可能的,可获取预设时段内左声道的录制语音数据与右声道的录制语音数据的比特率(也可理解为采样率),其中比特率大的表明录制语音数据的音频质量高,比特率小的则表明录制语音数据的音频质量低。可能的,还可获取预设时段内左声道的录制语音数据与右声道的录制语音数据的信噪比,信噪比高的表明噪声比例低,进而录制语音数据的音频质量高,信噪比低的则表明录制语音数据的音频质量低。可以理解地,预设时段可为人工或自动设置预设时间间隔阈值,例如但不局限于间隔阈值为10毫秒。

需要说明的是,本申请中用于判断音频质量的数据可不局限于上述获取的比特率或信噪比,还可为其他可快速测量的数据,以保障语音处理的有效性和实时性。

进一步的,根据左声道的录制语音数据与右声道的录制语音数据的音频质量,可确定左声道以及右声道各自对应的加权系数。具体的,以检测到左声道的录制语音数据所对应的音频质量高于右声道的录制语音数据所对应的音频质量为例,可设置左声道对应的标准数字音频数据中每个音量值对应的加权系数为0.7,右声道对应的标准数字音频数据中每个音量值对应的加权系数为0.3。其中,对于加权系数的设定,可不局限上述提到的0.7与0.3,还可由人工或自动设定。

在确定左声道以及右声道各自对应的加权系数之后,可对同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值进行加权求和得到对应于同一样例的目标音量值。具体的,以第一样例中左声道对应的第一个音量值L1与右声道对应的第一个音量值R1为例,第一样例的目标音量值可为L1*0.7+R1*0.3。同样的,对于任意一个样例中左声道对应的音量值与右声道对应的音量值均可采用同样的加权系数进行加权求和得到对应样例的目标音量值。

可以理解地,对于两个以上的声道,也可根据不同声道的音频质量各自确定对应的加权系数,并通过加权求和得到任意一个样例对应的目标音量值。

在本申请实施例中,可先根据不同声道的音频质量确定对应声道的加权系数,再通过对同一样例的不同声道对应的音量值进行加权求和得到该样例的目标音量值,可有效避免目标语音数据无声,进而保障用户正常的使用体验。

作为本申请的又一个实施例,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,具体包括:

将对应于同一样例的左声道的录制语音数据对应的音量值和/或右声道的录制语音数据对应的音量值中大于预设阈值的音量值作为目标语音数据对应于同一样例的音量值。

具体地,可在左声道和右声道获取的录制语音数据所对应转换的按照样例交替顺序排列的标准数字音频数据之后,对任意一个样例中左声道对应的音量值以及右声道对应的音量值与预设阈值进行比较,并将大于预设阈值的音量值作为该样例的目标音量值。具体的,以第一样例中左声道对应的第一个音量值L1与右声道对应的第一个音量值R1为例,可能的,在L1=188,R1=0,预设阈值选取为90的情况下,可将188作为第一样例的目标音量值。可能的,在L1=0,R1=188,预设阈值选取为90的情况下,可将188作为第一样例的目标音量值。可能的,在L1=188,R1=188,预设阈值选取为90的情况下,可将188作为第一样例的目标音量值。需要说明的是,若检测到左声道对应的音量值以及右声道对应的音量值均低于预设阈值的情况,可停止对转换的标准数字音频数据进行处理,向用户发送获取语音失败的提示信息。

作为本申请的又一个实施例,根据目标语音数据对应的音量值得到目标语音数据,具体包括:

对目标语音数据对应的音量值进行前处理得到目标语音数据。

具体地,在计算得到任意一个样例对应的目标音量值之后,可对按照顺序排列的所有目标音量值进行前处理以得到目标语音数据,进而实现简化前处理的处理过程,加快语音处理效率。

请参阅图6,图6示出了本申请实施例提供的一种单麦克风语音数据处理装置的结构示意图。

如图6所示,该单麦克风语音数据处理装置至少可以包括获取模块601、第一处理模块602以及第二处理模块603,其中:

获取模块601,用于基于单麦克风获取至少两个声道的录制语音数据;

第一处理模块602,用于将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据;至少两个声道的数字音频数据为与至少两个声道的录制语音数据各自对应的音量值;

第二处理模块603,用于根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据。

在一些可能的实施例中,每个声道的数字音频数据包括至少两个样例;

第一处理模块602具体用于将至少两个声道的录制语音数据转换为按照样例交替顺序排列的至少两个声道的录制语音数据各自对应的音量值。

在一些可能的实施例中,至少两个声道的录制语音数据包括左声道的录制语音数据和右声道的录制语音数据;

第二处理模块603具体包括:

第一处理单元,用于根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值;

第二处理单元,用于根据目标语音数据对应的音量值得到目标语音数据。

在一些可能的实施例中,第一处理单元具体用于通过将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

在一些可能的实施例中,第一处理单元具体用于通过将对应于同一样例的右声道的录制语音数据对应的音量值与左声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

在一些可能的实施例中,第一处理单元具体用于检测左声道的录制语音数据中任意一个样例对应的音量值是否为0;

在左声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的右声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值;或

检测右声道的录制语音数据中任意一个样例对应的音量值是否为0;

在右声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的左声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值。

在一些可能的实施例中,第一处理单元具体用于获取预设时段内左声道的录制语音数据与右声道的录制语音数据的音频质量;

根据左声道的录制语音数据与右声道的录制语音数据的音频质量,确定左声道的录制语音数据与右声道的录制语音数据各自对应的权重值;

基于权重值将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值进行加权求和得到目标语音数据中对应于同一样例的音量值。

在一些可能的实施例中,第一处理单元具体用于将对应于同一样例的左声道的录制语音数据对应的音量值和/或右声道的录制语音数据对应的音量值中大于预设阈值的音量值作为目标语音数据对应于同一样例的音量值。

在一些可能的实施例中,第二处理单元具体用于对目标语音数据对应的音量值进行前处理得到目标语音数据。

在本申请实施例中,可基于单麦克风获取至少两个声道的录制语音数据;将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据;根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据。对于单麦克风获取的多声道语音数据,可对该多声道的语音数据进行混合得到目标语音数据,避免用户接收的语音数据处于无声或者声音过小,以在保证语音后续处理的快速性的情况下还进一步保证用户的使用体验。

请参阅图7,图7示出了本申请实施例提供的又一种单麦克风语音数据处理装置的结构示意图。

如图7所示,该单麦克风语音数据处理装置700可以包括:至少一个处理器701、至少一个网络接口704、用户接口703、存储器705、单麦克风706以及至少一个通信总线702。

其中,通信总线702可用于实现上述各个组件的连接通信。

其中,用户接口703可以包括按键,可选用户接口还可以包括标准的有线接口、无线接口。

其中,网络接口704可选的可以蓝牙模块、NFC模块、Wi-Fi模块等。

其中,单麦克风706可用于获取至少两个声道的录制语音数据。

其中,处理器701可以包括一个或者多个处理核心。处理器701利用各种接口和线路连接整个电子设备700内的各个部分,通过运行或执行存储在存储器705内的指令、程序、代码集或指令集,以及调用存储在存储器705内的数据,执行路由设备700的各种功能和处理数据。可选的,处理器701可以采用DSP、FPGA、PLA中的至少一种硬件形式来实现。处理器701可集成CPU、GPU和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器701中,单独通过一块芯片进行实现。

其中,存储器705可以包括RAM,也可以包括ROM。可选的,该存储器705包括非瞬时性计算机可读介质。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示,作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及语音数据处理应用程序。

具体地,处理器701可以用于调用存储器705中存储的语音数据处理应用程序,并具体执行以下操作:

基于单麦克风获取至少两个声道的录制语音数据;

将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据;至少两个声道的数字音频数据为与至少两个声道的录制语音数据各自对应的音量值;

根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据。

在一些可能的实施例中,每个声道的数字音频数据包括至少两个样例;

将至少两个声道的录制语音数据转换为至少两个声道的数字音频数据,处理器701具体用于执行:

将至少两个声道的录制语音数据转换为按照样例交替顺序排列的至少两个声道的录制语音数据各自对应的音量值。

在一些可能的实施例中,至少两个声道的录制语音数据包括左声道的录制语音数据和右声道的录制语音数据;

根据至少两个声道的录制语音数据各自对应的音量值得到目标语音数据,处理器701具体用于执行:

根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值;

根据目标语音数据对应的音量值得到目标语音数据。

在一些可能的实施例中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,处理器701具体用于执行:

通过将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

在一些可能的实施例中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,处理器701具体用于执行:

通过将对应于同一样例的右声道的录制语音数据对应的音量值与左声道的录制语音数据对应的音量值的一半进行累加得到目标语音数据对应于同一样例的音量值。

在一些可能的实施例中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,处理器701具体用于执行:

检测左声道的录制语音数据中任意一个样例对应的音量值是否为0;

在左声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的右声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值;或

检测右声道的录制语音数据中任意一个样例对应的音量值是否为0;

在右声道的录制语音数据中任意一个样例对应的音量值为0的情况下,将对应于同一样例的左声道的录制语音数据对应的音量值作为目标语音数据对应于同一样例的音量值。

在一些可能的实施例中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,处理器701具体用于执行:

获取预设时段内左声道的录制语音数据与右声道的录制语音数据的音频质量;

根据左声道的录制语音数据与右声道的录制语音数据的音频质量,确定左声道的录制语音数据与右声道的录制语音数据各自对应的权重值;

基于权重值将对应于同一样例的左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值进行加权求和得到目标语音数据中对应于同一样例的音量值。

在一些可能的实施例中,根据左声道的录制语音数据对应的音量值与右声道的录制语音数据对应的音量值得到目标语音数据对应的音量值,处理器701具体用于执行:

将对应于同一样例的左声道的录制语音数据对应的音量值和/或右声道的录制语音数据对应的音量值中大于预设阈值的音量值作为目标语音数据对应于同一样例的音量值。

在一些可能的实施例中,根据目标语音数据对应的音量值得到目标语音数据,处理器701具体用于执行:

对目标语音数据对应的音量值进行前处理得到目标语音数据。

本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述图3所示实施例中的一个或多个步骤。上述移动终端的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中。

在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital SubscriberLine,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(Digital VersatileDisc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。

以上所述的实施例仅仅是本申请的优选实施例方式进行描述,并非对本申请的范围进行限定,在不脱离本申请的设计精神的前提下,本领域普通技术人员对本申请的技术方案作出的各种变形及改进,均应落入本申请的权利要求书确定的保护范围内。

相关技术
  • 单麦克风语音数据处理方法、装置及计算机存储介质
  • 语音数据处理方法、装置、计算机设备和存储介质
技术分类

06120113081592