音频信号处理方法、装置、电子设备和可读存储介质

文献发布时间：2023-06-19 09:32:16

技术领域

本申请涉及信号处理技术领域，特别是涉及一种音频信号处理方法、装置、电子设备和计算机可读存储介质。

背景技术

在用户在进行语音输入时，电子设备通常需要对音频信号进行增强处理。当用户触发语音输入，但是该用户还没有说话，此时附近有其他人在聊天，电子设备会识别得到他人聊天的聊天内容，而实际上用户不希望识别到他人聊天内容。传统的音频信号处理方法，存在误识别的问题。

发明内容

本申请实施例提供了一种音频信号处理方法、装置、电子设备、计算机可读存储介质，可以减少音频信号的误识别情况。

一种音频信号处理方法，应用于电子设备，包括：

获取输入的音频信号以及所述音频信号对应的用户交互信息；

根据所述用户交互信息确定所述音频信号所对应的目标用户使用场景；

根据所述目标用户使用场景确定所述音频信号的目标调节参数值，基于所述目标调节参数值对所述音频信号进行相应的信号调节处理，得到目标音频信号。

一种音频信号处理装置，包括：

信息获取模块，用于获取输入的音频信号以及所述音频信号对应的用户交互信息；

场景确定模块，用于根据所述用户交互信息确定所述音频信号所对应的目标用户使用场景；

信号调节模块，用于根据所述目标用户使用场景确定所述音频信号的目标调节参数值，基于所述目标调节参数值对所述音频信号进行相应的信号调节处理，得到目标音频信号。

一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取输入的音频信号以及所述音频信号对应的用户交互信息；

根据所述用户交互信息确定所述音频信号所对应的目标用户使用场景；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

获取输入的音频信号以及所述音频信号对应的用户交互信息；

根据所述用户交互信息确定所述音频信号所对应的目标用户使用场景；

上述音频信号处理方法、装置、电子设备和可读存储介质，，通过获取输入的音频信号以及音频信号对应的用户交互信息，根据用户交互信息确定音频信号所对应的目标用户使用场景，即区分用户在什么场景下进行的语音输入；并根据目标用户使用场景确定音频信号的调节参数值，能够对不同场景下的音频信号进行针对性地处理，提高音频信号处理的准确性，从而减少音频信号的误识别情况。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中音频信号处理方法的流程图；

图2为一个实施例中第一使用场景的场景示意图；

图3为一个实施例中第二使用场景的场景示意图；

图4为另一个实施例中音频信号处理方法的流程示意图；

图5为一个实施例的音频信号处理装置的结构框图；

图6为一个实施例中电子设备的内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种数据，但这些数据不受这些术语限制。这些术语仅用于将第一个数据与另一个数据区分。举例来说，在不脱离本申请的范围的情况下，可以将第一使用场景称为第二使用场景，且类似地，可将第二使用场景称为第一使用场景。第一使用场景和第二使用场景两者都是使用场景，但其不是同一使用场景。

图1为一个实施例中音频信号处理方法的流程图。本实施例中的音频信号处理方法，以运行于电子设备上为例进行描述。如图1所示，音频信号处理方法包括步骤102至步骤106。

步骤102，获取输入的音频信号以及音频信号对应的用户交互信息。

其中，音频信号是带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。输入的音频信号是指用户在使用电子设备进行录音时通过音频获取器件输入的。音频获取器件可以是麦克风等。音频信号对应的用户交互信息是指用户在进行音频信号输入时，电子设备中产生的信息。例如用户交互信息可以是运动数据、获取输入的音频信号的步骤所对应的触发方式中至少一种但不限于此。运动数据可以是陀螺仪数据、加速度数据中至少一种但不限于此。

具体地，电子设备响应于音频输入操作，通过音频获取器件获取输入的音频信号，并在获取输入的音频信号时获取相应的用户交互信息。

步骤104，根据用户交互信息确定音频信号所对应的目标用户使用场景。

其中，用户使用场景包括第一使用场景和第二使用场景。第一使用场景所表征的用户与电子设备之间的第一距离大于第二使用场景所表征的用户与电子设备之间的第二距离。例如，第一使用场景可以是远场使用场景，第二使用场景可以是近场使用场景。目标用户使用场景是第一使用场景或者第二使用场景。

具体地，电子设备可根据运动数据、获取输入的音频信号的步骤所对应的触发方式中至少一种确定音频信号所对应的目标用户使用场景。

步骤106，根据目标用户使用场景确定音频信号的目标调节参数值，基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。

其中，目标调节参数值可以是调节倍数、调节相位值、调节音调频率值中至少一种但不限于此。每个目标用户使用场景均有对应的目标调节参数值。目标用户使用场景对应的目标调节参数值不相同。例如第一使用场景对应的调节倍数为1.5倍，第二使用场景对应的调节倍数为0.8倍。目标音频信号则为将输入的音频信号经过信号调节处理后得到的音频信号。

具体地，电子设备根据目标用户使用场景确定音频信号的目标调节参数值。电子设备基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。例如，电子设备确定目标用户使用场景为第一使用场景，那么对应的目标调节参数值为1.5倍，那么电子设备将音频信号增大1.5倍。

本实施例中，电子设备对目标音频信号进行语音识别处理，得到语音识别结果。

本实施例中的音频信号处理方法，通过获取输入的音频信号以及音频信号对应的用户交互信息，根据用户交互信息确定音频信号所对应的目标用户使用场景，即区分用户在什么场景下进行的语音输入；并根据目标用户使用场景确定音频信号的调节参数值，能够对不同场景下的音频信号进行针对性地处理，提高音频信号处理的准确性，从而减少音频信号的误识别情况。

在一个实施例中，用户交互信息包括运动数据。根据用户交互信息确定音频信号的目标用户使用场景，包括：当运动数据在预设时长内的变化幅度在预设范围内时，确定音频信号的目标用户使用场景为第一使用场景；当运动数据在预设时长内的变化幅度未在预设范围内时，确定音频信号的目标用户使用场景为第二使用场景。

其中，电子设备中包括运动检测装置。运动检测装置可检测得到作用于电子设备的运动数据。运动检测装置可以是陀螺仪或者加速度计等。其中陀螺仪是一种角运动检测装置。当电子设备中包含陀螺仪时，运动数据具体可以是角速度数据。当电子设备中包含加速度计时，运动数据具体可以是加速度数据。运动数据可以是加速度数据、陀螺仪数据中至少一种但不限于此。预设时长是指在电子设备上预先设置的时长，例如可以是1秒、2秒、3秒、1分钟等不限于此。预设范围用于表示运动数据的抖动范围。在预设范围内表示运动数据的变化幅度较小，未在预设范围内表示运动数据的变化幅度较大。

具体地，当运动数据在预设时长内的变化幅度在预设范围内时，说明运动数据在音频输入的一段时间内的变化幅度较小，即电子设备可能处于静止状态，那么确定音频信号所对应的目标用户使用场景为第一使用场景。且第一使用场景可称为远场使用场景。当陀螺仪在预设时长内的变化幅度未在预设范围内时，说明运动数据在音频输入的一段时间内的变化幅度较大，即电子设备可能处于运动状态，那么确定音频信号所对应的目标用户使用场景为第二使用场景。且第二使用场景可称为远场使用场景。以电子设备为手机、预设时长为3秒、变化幅度为0～0.1为例进行说明，当运动数据在3秒内变化幅度是0～0.05，那么表示该手机很有可能被用户放置在桌子上，使用场景则为远场使用场景。相反地，当运动数据在3秒内的变化幅度为0～2时，那么表示该手机很有可能被该用户手持，使用场景则为近场使用场景。

本实施例中的音频信号处理方法，当运动数据在预设时长内的变化幅度在预设范围内时，确定为第一使用场景；当运动数据在预设时长内的变化幅度未在预设范围内时，确定为第二使用场景，那么依据运动数据将场景区分开，并基于不同场景确定目标调节参数值，能够提高音频信号处理的准确性，从而减少音频信号的误识别情况。

在一个实施例中，用户交互信息包括获取输入的音频信号的步骤所对应的触发方式。根据用户交互信息确定音频信号的目标用户使用场景，包括：当触发方式为通过语音唤醒方式触发时，确定音频信号的目标用户使用场景为第一使用场景；当触发方式为通过触控电子设备的方式触发时，确定音频信号的目标用户使用场景为第二使用场景。

其中，触发方式是指在获取输入的音频信号之前用户所执行的操作方式。例如触发方式可以是通过语音唤醒方式触发或者通过触控电子设备的方式触发。语音唤醒方式是指通过语音的方式唤醒音频信号输入功能。并且需要特定的语音唤醒信息才能够唤醒音频信号输入功能。例如，用户可发出“进行语音识别”、“我要录音啦”等语音唤醒信息，那么电子设备开始获取输入的音频信号。触控电子设备的方式包括触控电子设备的虚拟控件、触控电子设备的物理控件、触控电子设备的屏幕等不限于此。例如，触控电子设备的方式可为长按电源键、点击悬浮球、点击音频输入控件不限于此。

具体地，当触发方式为通过语音唤醒方式触发时，说明电子设备与用户之间的距离较远，那么确定音频信号的目标用户使用场景为第一使用场景。第一使用场景可称为远场使用场景。当触发方式为通过触控电子设备的方式触发时，说明电子设备与用户之间的距离较近，那么确定音频信号的目标用户使用场景为第二使用场景。第二使用场景可称为近场使用场景。以电子设备为手机为例进行说明，当用户对着手机说“请进行语音识别”，即为通过语音唤醒方式触发，说明用户与手机之间的距离大概率较远，此时确定为远场使用场景。当用户通过触控手机上的控件触发获取输入的音频信号时，说明大概率用户手持手机，此时确定为近场使用场景。

本申请实施例中的音频信号处理方法，当通过语音唤醒方式触发时，即说明用户与电子设备之间的距离大概率较远，则确定为第一使用场景，当通过触控电子设备的方式触发时，说明用户与电子设备之间的距离大概率较近，确定为第二使用场景，则能够基于触发方式区分不同的场景，也不需要直接获取用户与手机之间的距离，基于不同场景确定目标调节参数值，能够提高音频信号处理的准确性，从而减少音频信号的误识别情况。

在一个实施例中，用户交互信息包括运动数据和获取输入的音频信号的步骤所对应的触发方式。根据用户交互信息确定音频信号的目标用户使用场景，包括：当触发方式是通过语音唤醒方式触发、且运动数据在预设时长内的变化幅度在预设范围内时，确定音频信号的目标用户使用场景为第一使用场景；当满足触发方式是通过触控电子设备的方式触发、运动数据在预设时长内的变化幅度未在预设范围中至少一种条件时，确定音频信号的目标用户使用场景为第二使用场景。

具体地，当获取输入的语音信号所对应的触发方式为通过语音方式触发、且运动数据在预设时长内的变化幅度在预设范围内时，说明电子设备大概率放置在一个稳定的地方例如桌子上，且与用户之间的距离大概率较远，那么确定音频信号的目标用户使用场景为第一使用场景。当满足触发方式是通过触控电子设备的方式触发、或者运动数据在预设时长内的变化幅度未在预设范围内、或者通过触控电子设备的方式触发且运动数据在预设时长内的变化幅度未在预设范围时，说明电子设备大概率被用户手持，即电子设备与用户之间的距离大概率较近，那么确定音频信号的目标用户使用场景为第二使用场景。例如，用户通过对电子设备说出“请进行语音识别”，并且电子设备的运动数据在预设时长内的变化幅度在预设范围内，即电子设备处于静止状态时，则确定音频信号的目标用户使用场景为第一使用场景。而当用户通过触控电子设备的控件触发了获取输入的音频信号的步骤，那么说明用户与电子设备之间的距离不太远，确定为第二使用场景。

本实施例中，如图2所示，为一个实施例中第一使用场景的场景示意图。图2中包括电子设备210、桌子220、语音唤醒方式220和用户230。且电子设备210可置于桌子220上，那么此时运动数据在预设时长内的变化幅度在预设范围内，因此可确定目标用户使用场景为第一使用场景。用户230可通过语音唤醒方式220触发获取输入的音频信号的步骤，那么此时，用户230和电子设备210之间的距离大概率较远，因此可确定目标用户使用场景为第一使用场景。再者，当通过语音唤醒方式220触发获取输入的音频信号、且运动数据在预设时长内的变化幅度在预设范围内，也可确定音频信号的目标用户使用场景为第一使用场景。即当手机平稳放在台面且采用语音唤醒时，可认为手机和用户之间的距离较远，可以设较大的信号增强幅度(即目标调节参数值)。

本实施例中，如图3所示，为一个实施例中第二使用场景的场景示意图。图3中包括用户310和电子设备320。那么当用户310手持电子设备320时，一般会通过触控电子设备的方式触发获取输入的音频信号的步骤，并且运动数据在预设时长内的变化幅度一般较大，因此可判断输入的音频信号的目标用户使用场景为第二使用场景。那么用户拿着手机在说话，限制信号增强的幅度在较低水平。

本实施例中的音频信号处理方法，结合了运动数据和获取输入的音频信号的步骤所对应的触发方式这两种用户交互信息以确定电子设备的目标用户使用场景，则能够提高场景判断的准确性，提高音频信号处理的准确性，从而减少音频信号的误识别情况。

在一个实施例中，基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号，包括：获取音频信号的参考调节参数值；当参考调节参数值大于目标调节参数值时，基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。

其中，参考调节参数值可以是经过已有的语音调节算法得到的。目标调节参数值可以是一个信号放大的最大倍数。

具体地，当参考调节参数值大于目标调节参数值时，电子设备基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。例如，目标用户使用场景为第一使用场景，而第一使用场景对应的目标调节参数为M，输入的音频信号经过自适应信号增强算法计算得到参考调节参数值为X，当X＞M时，则按照M对音频信号进行相应的信号调节处理，得到目标音频信号。或者，目标用户使用场景为第二使用场景，而第二使用场景对应的目标调节信号为N，输入的音频信号经过自适应信号增强算法计算得到参考调节参数值为X，当X＞N时，则按照N对音频信号进行相应的信号调节处理，得到目标音频信号。

本实施例中的音频信号处理方法，当参考调节参数值大于目标调节参数值时，基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号，限制了信号调节参数值，取较小的值，则在用户还没有说话，此时附近有其他人在聊天的场景下，能够得到较小的调节参数值，提高音频信号处理的准确性，避免录入他人聊天内容，减少音频信号误识别的情况。

在一个实施例中，该音频信号处理方法还包括：当参考调节参数值小于或等于目标调节参数值时，基于参考调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。

具体地，当参考调节参数值小于或等于目标调节参数值时，基于参考调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。例如，目标用户使用场景为第一使用场景，而第一使用场景对应的目标调节参数为M，输入的音频信号经过自适应信号增强算法计算得到参考调节参数值为X，当X≤M时，则按照X对音频信号进行相应的信号调节处理，得到目标音频信号。或者，目标使用场景为第二使用场景，而第二使用场景对应的目标调节信号为N，输入的音频信号经过自适应信号增强算法计算得到参考调节参数值为X，当X≤N时，则按照X对音频信号进行相应的信号调节处理，得到目标音频信号。

本实施例中的音频信号处理方法，当参考调节参数值小于或等于目标调节参数值时，基于参考调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号，则基于参考调节参数值和目标调节参数值中较小的值对音频信号进行相应的信号调节处理，也能够达到正确识别输入的音频信号的效果，并且在用户还没有说话，此时附近有其他人在聊天的场景下，能够得到较小的调节参数值，提高音频信号处理的准确性，避免录入他人聊天内容，减少音频信号误识别的情况。

在一个实施例中，用户使用场景包括第一使用场景和第二使用场景，其中，第一使用场景所表征的用户与电子设备之间的距离大于第二使用场景所表征的用户与电子设备之间的距离；调节参数值包括调节倍数；

根据目标用户使用场景确定音频信号的目标调节参数值，基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号，包括：

当目标用户使用场景为第一使用场景时，确定音频信号的目标调节参数值包括第一使用场景所对应的第一调节倍数，基于第一调节倍数对音频信号进行相应的信号调节处理，得到目标音频信号；

当目标用户使用场景为第二使用场景时，确定音频信号的目标调节参数值包括第二使用场景所对应的第二调节倍数，基于第二调节倍数对音频信号进行相应的信号调节处理，得到目标音频信号；第一调节倍数大于第二调节倍数。

其中，用户可以是该电子设备的机主。或者，该用户是指正在使用该电子设备的用户。第一使用场景所表征的用户与电子设备之间的距离大于第二使用场景所表征的用户与电子设备之间的距离。调节参数值包括调节倍数。每个用户使用场景可预设一个调节倍数，也可以在每个用户使用场景下根据音频信号的强度区分不同等级的倍数。例如第一调节倍数可以是在第一使用场景下的设置的最大调节倍数，第二调节倍数可以是在第二使用场景下的设置的最大调节倍数，具体可根据实际测试效果而定。例如音频信号的强度为1和2，那么在第一使用场景下，强度1对应的倍数为10，强度2对应的倍数为5；而在第二使用场景下，强度1对应的倍数为8，强度2对应的倍数为4等。具体音频信号强大与倍数成正相关。相同的音频信号，在不同用户使用场景下，对应的调节倍数不相同。

具体地，当目标用户使用场景为第一使用场景时，电子设备确定音频信号的目标调节参数值为第一使用场景所对应的第一调节倍数，基于第一调节倍数对音频信号进行相应的信号调节处理，得到目标音频信号。当目标用户使用场景为第二使用场景时，电子设备确定音频信号的目标调节参数值为第二使用场景所对应的第二调节倍数，基于第二调节倍数对音频信号进行相应的信号调节处理，得到目标音频信号。例如，以第一使用场景为远场使用场景，第二使用场景为近场使用场景、第一调节倍数为10，第二调节倍数为8为例进行说明。当目标用户使用场景为远场使用场景时，确定音频信号的目标调节参数值为远场使用场景所对应的第一调节倍数10，那么按照10倍增大该输入的音频信号；当目标用户使用场景为近场使用场景时，确定音频信号的目标调节参数值为近场使用场景所对应的第二调节倍数8，那么按照8倍增大该输入的音频信号，得到目标音频信号。

本实施例中，该音频信号处理方法还包括：获取音频信号的参考倍数值；基于第一调节倍数对音频信号进行相应的信号调节处理，得到目标音频信号，包括：当目标用户使用场景为第一使用场景、且参考倍数值大于第一调节倍数时，基于第一调节倍数对输入的音频信号进行相应的信号调节处理，得到目标音频信号；基于第二调节倍数对音频信号进行相应的信号调节处理，得到目标音频信号，包括：当目标用户使用场景为第二使用场景、且参考倍数值大于第二调节倍数时，基于第二调节倍数对输入的音频信号进行相应的信号调节处理，得到目标音频信号。

本实施例中的音频信号处理方法，当目标用户使用场景为第一使用场景时，确定音频信号的目标调节参数值为第一使用场景所对应的第一调节倍数，并基于第一调节倍数进行信号调节；当目标用户使用场景为第二使用场景时，确定音频信号的目标调节参数值为第二使用场景所对应的第二调节倍数，并基于第二调节倍数进行信号调节，即同一音频信号在不同场景下实际上的调节倍数应当不相同，提高音频信号倍数调节的准确性，从而减少音频信号的误识别情况。

在一个实施例中，如图4所示，为另一个实施例中音频信号处理方法的流程示意图。电子设备进行录音，获取输入的音频信号。将音频信号通过自适应增强算法，得到参考调节参数值。在录音的同时获取用户交互信息，并基于用户交互信息确定目标用户使用场景，根据目标用户使用场景确定目标调节参数值。当参考调节参数值大于目标调节参数值时，基于目标调节参数值对音频信号进行信号调节处理，得到目标音频信号。将目标音频信号时输入至识别引擎中，得到语音识别结果。本实施例中的音频信号处理方法，通过获取输入的音频信号以及音频信号对应的用户，根据用户确定音频信号所对应的目标用户使用场景，即区分用户在什么场景下进行的语音输入；并根据目标用户使用场景确定音频信号的调节参数值，能够对不同场景下的音频信号进行针对性地处理，提高音频信号处理的准确性，从而减少音频信号的误识别情况。

应该理解的是，虽然图1或4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1或4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图5为一个实施例的音频信号处理装置的结构框图。如图5所示，一种音频信号处理装置，包括信息获取模块502、场景确定模块504和信号调节模块506，包括：

信息获取模块502，用于获取输入的音频信号以及音频信号对应的用户交互信息；

场景确定模块504，用于根据用户交互信息确定音频信号所对应的目标用户使用场景；

信号调节模块506，用于根据目标用户使用场景确定音频信号的目标调节参数值，基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。

本实施例中的音频信号处理装置，当运动数据在预设时长内的变化幅度在预设范围内时，确定为第一使用场景；当运动数据在预设时长内的变化幅度未在预设范围内时，确定为第二使用场景，那么依据运动数据将场景区分开，并基于不同场景确定目标调节参数值，能够提高音频信号处理的准确性，从而减少音频信号的误识别情况。

在一个实施例中，用户交互信息包括运动数据。场景确定模块504用于当运动数据在预设时长内的变化幅度在预设范围内时，确定音频信号的目标用户使用场景为第一使用场景；当运动数据在预设时长内的变化幅度未在预设范围内时，确定音频信号的目标用户使用场景为第二使用场景。

在一个实施例中，电子设备中包括加速度计；用户交互信息包括加速度数据。场景确定模块504用于当加速度数据在预设时长内的变化幅度在预设加速度范围内时，确定音频信号的目标用户使用场景为第一使用场景；当加速度数据在预设时长内的变化幅度未在预设范围内时，确定音频信号的目标用户使用场景为第二使用场景。

本申请实施例中的音频信号处理装置，当加速度数据在预设时长内的变化幅度在预设范围内时，确定为第一使用场景；当加速度数据在预设时长内的变化幅度未在预设范围内时，确定为第二使用场景，那么依据加速度数据将场景区分开，并基于不同场景确定目标调节参数值，能够提高音频信号处理的准确性，从而减少音频信号的误识别情况。

在一个实施例中，用户交互信息包括获取输入的音频信号的步骤所对应的触发方式。场景确定模块504用于当触发方式为通过语音唤醒方式触发时，确定音频信号的目标用户使用场景为第一使用场景；当触发方式为通过触控电子设备的方式触发时，确定音频信号的目标用户使用场景为第二使用场景。

本申请实施例中的音频信号处理装置，当通过语音唤醒方式触发时，即说明用户与电子设备之间的距离大概率较远，则确定为第一使用场景，当通过触控电子设备的方式触发时，说明用户与电子设备之间的距离大概率较近，确定为第二使用场景，则能够基于触发方式区分不同的场景，也不需要直接获取用户与手机之间的距离，基于不同场景确定目标调节参数值，能够提高音频信号处理的准确性，从而减少音频信号的误识别情况。

在一个实施例中，用户交互信息包括运动数据和获取输入的音频信号的步骤所对应的触发方式。场景确定模块504用于当触发方式是通过语音唤醒方式触发、且运动数据在预设时长内的变化幅度在预设范围内时，确定音频信号的目标用户使用场景为第一使用场景；当满足触发方式是通过触控电子设备的方式触发、运动数据在预设时长内的变化幅度未在预设范围中至少一种条件时，确定音频信号的目标用户使用场景为第二使用场景。

本实施例中的音频信号处理装置，结合了运动数据和获取输入的音频信号的步骤所对应的触发方式这两种用户交互信息以确定电子设备的目标用户使用场景，则能够提高场景判断的准确性，提高音频信号处理的准确性，从而减少音频信号的误识别情况。

在一个实施例中，信号调节模块506用于获取音频信号的参考调节参数值；当参考调节参数值大于目标调节参数值时，基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。

本实施例中的音频信号处理装置，当参考调节参数值大于目标调节参数值时，基于目标调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号，限制了信号调节参数值，取较小的值，则在用户还没有说话，此时附近有其他人在聊天的场景下，能够得到较小的调节参数值，提高音频信号处理的准确性，避免录入他人聊天内容，减少音频信号误识别的情况。

在一个实施例中，信号调节模块506还用于当参考调节参数值小于或等于目标调节参数值时，基于参考调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号。

本实施例中的音频信号处理装置，当参考调节参数值小于或等于目标调节参数值时，基于参考调节参数值对音频信号进行相应的信号调节处理，得到目标音频信号，则基于参考调节参数值和目标调节参数值中较小的值对音频信号进行相应的信号调节处理，也能够达到正确识别输入的音频信号的效果，并且在用户还没有说话，此时附近有其他人在聊天的场景下，能够得到较小的调节参数值，提高音频信号处理的准确性，避免录入他人聊天内容，减少音频信号误识别的情况。

在一个实施例中，用户使用场景包括第一使用场景和第二使用场景，其中，第一使用场景所表征的用户与电子设备之间的距离大于第二使用场景所表征的用户与电子设备之间的距离；调节参数值包括调节倍数。信号调节模块506用于当目标用户使用场景为第一使用场景时，确定音频信号的目标调节参数值包括第一使用场景所对应的第一调节倍数，基于第一调节倍数对音频信号进行相应的信号调节处理，得到目标音频信号；当目标用户使用场景为第二使用场景时，确定音频信号的目标调节参数值包括第二使用场景所对应的第二调节倍数，基于第二调节倍数对音频信号进行相应的信号调节处理，得到目标音频信号；第一调节倍数大于第二调节倍数。

本实施例中的音频信号处理装置，当目标用户使用场景为第一使用场景时，确定音频信号的目标调节参数值为第一使用场景所对应的第一调节倍数，并基于第一调节倍数进行信号调节；当目标用户使用场景为第二使用场景时，确定音频信号的目标调节参数值为第二使用场景所对应的第二调节倍数，并基于第二调节倍数进行信号调节，即同一音频信号在不同场景下实际上的调节倍数应当不相同，提高音频信号倍数调节的准确性，从而减少音频信号的误识别情况。

上述音频信号处理装置中各个模块的划分仅仅用于举例说明，在其他实施例中，可将音频信号处理装置按照需要划分为不同的模块，以完成上述音频信号处理装置的全部或部分功能。

关于音频信号处理装置的具体限定可以参见上文中对于音频信号处理方法的限定，在此不再赘述。上述音频信号处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图6为一个实施例中电子设备的内部结构示意图。如图6所示，该电子设备包括通过系统总线连接的处理器和存储器。其中，该处理器用于提供计算和控制能力，支撑整个电子设备的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种音频信号处理方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。该电子设备可以是手机、平板电脑、PDA(Personal DigitalAssistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑、穿戴式设备等任意终端设备。

本申请实施例中提供的音频信号处理装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在终端或服务器上运行。该计算机程序构成的程序模块可存储在电子设备的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

本申请实施例还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质，当所述计算机可执行指令被一个或多个处理器执行时，使得所述处理器执行音频信号处理方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行音频信号处理方法。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：周德海;
专利申请人：深圳市欢太科技有限公司;OPPO广东移动通信有限公司;

上一篇：一种新型抑制病原体的钛氧簇及其合成方法
下一篇：一种温度调控系统及其控制方法