掌桥专利:专业的专利平台
掌桥专利
首页

一种语音唤醒方法及电子设备

文献发布时间:2024-04-18 19:58:21


一种语音唤醒方法及电子设备

技术领域

本申请属于语音处理技术领域,尤其涉及一种语音唤醒方法及电子设备。

背景技术

语音交互是基于语音输入的新一代交互模式,基于用户向电子设备输入的语音信息,可以得到与输入的语音信息对应的反馈结果。在与电子设备进行语音交互之前,首先要唤醒电子设备上的语音交互系统,例如,语音助手模块。

目前,唤醒语音助手模块的方式主要有两种,一种为唤醒词唤醒方式,另一种为免唤醒词唤醒方式。唤醒词唤醒方式,需要通过特定的唤醒词唤醒语音助手模块。免唤醒词唤醒方式,不需要特定的唤醒词。例如,可以将电子设备靠近用户的嘴边,然后,利用气息检测等方式唤醒语音助手模块。

但是,由于受芯片内存的限制,为了能够在同一个电子设备中支持上述两种唤醒方法,电子设备需要采用高端的芯片。然而,对于很多采用中低端的芯片的电子设备,仅能够支持唤醒词唤醒方式和免唤醒词唤醒方式中的一种,进而阻碍语音唤醒技术的推广。

发明内容

本申请提供一种语音唤醒方法及电子设备,对于使用中低端芯片的电子设备,也能够实现使用两种唤醒算法。

第一方面,本申请提供一种电子设备,包括:第一芯片,所述第一芯片包括低功耗存储区,所述第一芯片用于在所述低功耗存储区运行第一语音唤醒算法;第二芯片,与所述第一芯片耦接,所述第二芯片用于运行第二语音唤醒算法;所述第一芯片,还用于响应于用户输入的第一语音信号,基于所述第一语音唤醒算法识别所述第一语音信号,并在所述第一语音信号满足第一唤醒条件的情况下,唤醒所述电子设备的语音助手模块;所述第二芯片,还用于响应于用户输入的第二语音信号,基于所述第二语音唤醒算法识别所述第二语音信号,并在所述第二语音信号满足第二唤醒条件的情况下,唤醒所述电子设备的语音助手模块。

这样,通过将两种语音唤醒算法分别配置在两个芯片上运行,从而降低对两个芯片的存储空间的要求,使得使用中低端芯片的电子设备,也能够支持同时运行两种唤醒算法。

在一种可能的实现方式中,所述第一语音唤醒算法为免唤醒词算法,所述第二语音唤醒算法为唤醒词算法;或者,所述第一语音唤醒算法为唤醒词算法,所述第二语音唤醒算法为免唤醒词算法。

在一种可能的实现方式中,所述第一芯片包括所述电子设备的片上系统中的第一数字信号处理器,所述第二芯片包括所述电子设备的编解码器中的第二数字信号处理器。

这样,通过将一种唤醒算法移至编解码器中的第二数字信号处理器运行,降低第一芯片中低功耗存储区域空间的要求,从而实现在使用中低端芯片的电子设备中,也能够支持两种唤醒算法。

在一种可能的实现方式中,所述第二音频数字信号处理器与所述第一芯片通过串行低功耗芯片间媒体总线SLIMBus耦接。

在一种可能的实现方式中,所述第二芯片包括所述电子设备的麦克风中的第三数字信号处理器。

这样,通过将一种唤醒算法移至麦克风中的第三数字信号处理器运行,降低第一芯片中低功耗存储区域空间的要求,从而实现在使用中低端芯片的电子设备中,也能够支持两种唤醒算法。

在一种可能的实现方式中,所述第三音频数字信号处理器与所述第一芯片通过集成电路间总线I

在一种可能的实现方式中,所述第二芯片包括第四数字信号处理器;所述第四音频数字信号处理器与所述电子设备的麦克风通过脉冲密度调制PDM耦接;所述第四音频数字信号处理器与所述第一芯片通过串行外围设备接口SPI以及集成电路间总线I

这样,通过在电子设备中增设包括第四音频数字信号处理器的第二芯片,并将唤醒词算法移至增设的第四音频数字信号处理器运行,降低第二芯片中低功耗存储区域空间的要求,从而实现在使用中低端芯片的电子设备中,也能够支持两种唤醒算法。

第二方面,本申请还提供一种语音唤醒方法,应用于电子设备,所述电子设备包括第一芯片以及与所述第一芯片耦接的第二芯片;所述方法包括:在所述第一芯片的低功耗存储区运行第一语音唤醒算法;在所述第二芯片运行第二语音唤醒算法;响应于用户输入的第一语音信号,基于所述第一语音唤醒算法识别所述第一语音信号,并在所述第一语音信号满足第一唤醒条件的情况下,唤醒所述电子设备的语音助手模块;或者,响应于用户输入的第二语音信号,基于所述第二语音唤醒算法识别所述第二语音信号,并在所述第二语音信号满足第二唤醒条件的情况下,唤醒所述电子设备的语音助手模块。

这样,通过将两种语音唤醒算法分别配置在两个芯片上运行,从而降低对两个芯片的存储空间的要求,使得使用中低端芯片的电子设备,也能够支持同时运行两种唤醒算法。

在一种可能的实现方式中,所述第一语音唤醒算法为免唤醒词算法,所述第二语音唤醒算法为唤醒词算法;或者,所述第一语音唤醒算法为唤醒词算法,所述第二语音唤醒算法为免唤醒词算法。

第三方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序或指令,当所述计算机程序或指令在计算机上运行时,使得计算机执行如第二方面中任一项所述的方法。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种电子设备的片上系统的示意图;

图2为本申请实施例提供的一种中低端芯片中ADSP的示意图;

图3为本申请实施例提供的一种电子设备100的硬件结构框图;

图4是本申请实施例提供的一种的电子设备100的软件结构框图;

图5为本申请实施例提供的一种电子设备100的结构示意图;

图6为本申请实施例提供的又一种电子设备100的结构示意图;

图7A为本申请实施例提供的又一种电子设备100的硬件结构示意图;

图7B为与图7A对应的语音唤醒方法的信号流程图;

图8A为本申请实施例提供的又一种电子设备100的硬件结构示意图;

图8B为与图8A对应的语音唤醒方法的信号流程图;

图9A为本申请实施例提供的又一种电子设备100的硬件结构示意图;

图9B为与图9A对应的语音唤醒方法的信号流程图;

图10为本申请实施例提供的一种语音唤醒方法的工作流程图。

具体实施方式

下面将结合附图,对本申请的实施例进行说明。

语音交互是基于语音输入的新一代交互模式,基于用户向电子设备输入的语音信息,可以得到与输入的语音信息对应的反馈结果。在与电子设备进行语音交互之前,首先要唤醒电子设备上的语音交互系统,例如,语音助手模块。

一种唤醒方式为唤醒词唤醒,唤醒词唤醒是指用户和电子设备进行语音交互之前,需要先语音输入特定的唤醒词,唤醒语音助手模块。但是,在一些公共场合,喊出特定的唤醒词,用户会感觉很尴尬。另外,喊出特定唤醒词后,还可能唤醒周围同品牌的其他电子设备,这样严重影响用户体验。

为了解决上述问题,另一种唤醒方式即免唤醒词唤醒应运而生。免唤醒词唤醒方式是指不需要语音输入特定的唤醒词唤醒语音助手模块。例如,可以通过气息的方式,唤醒语音助手。这样,用户可以拿起电子设备放在嘴边,电子设备检测到气息后,便可以唤醒语音助手模块与用户进行语音交互。这样,在一些公共场合,如搭乘公共交通工具出行、商场付款等应用场景,用户可以通过气息唤醒语音助手模块,而无需喊出特定的唤醒词,从而提供用户体验。

目前,用于实现语音唤醒方式的语音唤醒算法以及用于实现免唤醒词唤醒方式的免唤醒词算法,都在电子设备的处理器的低功耗存储区运行,这样,在待机状态下可以运行两种唤醒算法,从而实现在待机状态下,也可以唤醒语音助手模块。

图1为本申请实施例提供的一种电子设备的片上系统的示意图。

如图1所示,电子设备的片上系统(system on chip,SOC)包括应用处理器(application processor,AP)和音频数字信号处理器(audio digital singnalprocessor,ADSP)。ADSP包括低功耗存储区(low power internal storage,LPI)和非低功耗存储区。

LPI可以包括供音频算法使用的区域和供传感器使用的区域。其中,电子设备的麦克风采集语音信号后,可以将语音信号传输至音频算法区域。传感器采集传感数据后,可以将传感数据传输至传感器区域。例如,传感数据可以为陀螺仪传感器和加速度传感器采集的惯性测量单元(intertial measurement unit,IMU)数据。

一般的,唤醒词算法和免唤醒词算法总共需要1.5M左右的存储空间,传感器需要1M左右的存储空间。也就是说,对于一些高端的芯片,例如,LPI总存储空间大于或者等于2.5M的芯片。由于LPI的存储空间足够大,因此,可以在LPI的音频算法区域同时运行两种语音唤醒算法。但是,对于一些中低端芯片,例如,LPI总存储空间小于2.5M的芯片。由于LPI的存储空间不足,因此,目前对于使用中低端芯片的电子设备,无法实现同时运行两种语音唤醒算法。

图2为本申请实施例提供的一种ADSP的示意图。

示例性的,如图2所示,图2中ADSP的LPI被划分为四个区域,包括一个供音频算法使用的音频算法区域、两个供传感器使用的传感器区域和一个公用区域。其中,音频算法区域被配置的存储空间为448k。两个传感器区域被配置的总存储空间为1024k。公用区域被配置的存储空间为448k,其中,保证正常开机至少需要占用公用区域400k。

由于音频算法区域和公用区域,可以用于供唤醒词算法和免唤醒词算法运行,而音频算法区域和公用区域实际可供前述两种唤醒算法使用的存储空间为(576k-400k)+448k=624k,其中,唤醒词算法需要大概600k,因此,可供免唤醒词算法运行的存储空间仅剩24k。也就是说,图2示出的ADSP的LPI不足以支持上述两种唤醒方式,仅能够支持唤醒词唤醒方式和免唤醒词唤醒方式中的一种,这样,使用图2所示的ADSP的电子设备,最多能够运行一种语音唤醒算法,无法同时运行两种语音唤醒算法。

为了解决使用中低端芯片的电子设备无法支持两种唤醒算法的技术问题,本申请实施例提供一种电子设备,通过将两种唤醒算法中的一种从电子设备的SOC上剥离,移至电子设备中其他外置芯片上运行,以实现在使用中低端芯片的电子设备中,也能够支持两种唤醒算法。

本申请实施例提供的语音唤醒方法,可以应用于电子设备100。本申请实施例中,电子设备100可以是终端设备、车载设备、移动设备、用户终端、移动终端、无线通信设备、便携式终端、用户代理、用户装置、服务设备或用户设备(user equipment,UE)等。例如,终端设备可以是移动电话、无绳电话、智能手表、可穿戴设备、平板设备、具备无线通信功能的手持设备、计算设备、车载通信模块或连接到无线调制解调器的其它处理设备等。

下面以电子设备100是手机为例,对电子设备100的硬件结构进行介绍。

图3为本申请实施例提供的电子设备100的硬件结构框图。如图3所示,电子设备100可以包括:处理器110,外部存储器接口120,内部存储器121,通用串行总线(universalserial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(subscriber identification module,SIM)卡接口195等。

其中,上述传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L、骨传导传感器180M等传感器。例如,本申请实施例中,还可以利用陀螺仪传感器180B和加速度传感器180E,或者,接近光传感器180G,检测用户是否将电子设备向用户嘴边靠近。

可以理解的是,本实施例示意的结构并不构成对电子设备100的具体限定。在另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,存储器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。

控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。

处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。在一些实施例中,处理器110可以包括一个或多个接口。

可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,外部存储器,显示屏194,摄像头193,和无线通信模块160等供电。

电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块360,调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。

在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。

电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像,视频等。该显示屏194包括显示面板。例如,显示屏194可以是触摸屏。

电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。

外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备100的各种功能应用以及数据处理。例如,在本申请实施例中,处理器110可以通过执行存储在内部存储器121中的指令,内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,电话本等)等。

电子设备100可以通过音频模块370,扬声器370A,受话器370B,麦克风370C,耳机接口370D,以及应用处理器等实现音频功能。例如,可以通过麦克风370C采集用户的语音信息,通过扬声器370A播放针对用户的语音信息的反馈结果。

触摸传感器,也称“触控面板”。触摸传感器可以设置于显示屏194,由触摸传感器与显示屏194组成触摸屏,也称“触控屏”。触摸传感器用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器也可以设置于电子设备100的表面,与显示屏194所处的位置不同。

本申请实施例中,电子设备100可以通过触摸传感器检测到用户在触摸屏输入的触摸操作,并采集该触摸操作在触摸屏上的触控位置,以及触控时间等中的一项或多项。在一些实施例中,电子设备100可以通过触摸传感器180K和压力传感器180A结合起来,确定触摸操作在触摸屏的触控位置。

按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。例如,可以通过长按电源键唤醒语音交互功能。

马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。

陀螺仪传感器180B可以是三轴陀螺仪,用于追踪电子设备100在6个方向的状态变化。加速度传感器180E用于检测电子设备100的运动速度、方向以及位移。

以下实施例中的方法均可以在具有上述硬件结构的电子设备100中实现。

电子设备100的软件系统可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本发明实施例以分层架构的Android系统为例,示例性说明电子设备100的软件结构。

图4是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android系统分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和系统库,以及内核层。

应用程序层可以包括一系列应用程序包。

如图4所示,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息等应用程序。本申请实施例中,应用程序包还可以包括语音助手应用程序。其中,语音助手用于实现语音交互功能。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图4所示,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。

内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。

视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通,挂断等)。

资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。

系统库可以包括多个功能模块。例如:表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如:SGL)等。

表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。

三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。

下面对本申请实施例提供的电子设备100进行详细说明。

图5为本申请实施例提供的一种电子设备100的结构示意图。如图5所示,本申请实施例提供的一种电子设备100,包括相互耦接的第一芯片101和第二芯片102。

第一芯片101包括低功耗存储区,第一芯片101用于在低功耗存储区运行第一语音唤醒算法。第二芯片102用于运行第二语音唤醒算法。第一芯片101,还用于响应于用户输入的第一语音信号,基于第一语音唤醒算法识别第一语音信号,并在第一语音信号满足第一唤醒条件的情况下,唤醒电子设备100的语音助手模块。第二芯片102,还用于响应于用户输入的第二语音信号,基于第二语音唤醒算法识别第二语音信号,并在第二语音信号满足第二唤醒条件的情况下,唤醒电子设备100的语音助手模块。

这样,本申请实施例通过将两种语音唤醒算法分别配置在两个芯片上运行,从而降低对两个芯片的存储空间的要求,使得使用中低端芯片的电子设备,也能够支持同时运行两种唤醒算法。

需要说明的是,本申请实施例的电子设备100在待机状态或工作状态下,均可以同时运行第一唤醒算法和第二唤醒算法。

还需要说明的是,本申请实施例对第一唤醒算法和第二唤醒算法不进行限定。

在一些实施例中,第一唤醒算法可以是唤醒词算法,第二唤醒算法可以是免唤醒词算法。

在一些实施例中,第一唤醒算法可以是免唤醒词算法,第二唤醒算法可以是唤醒词算法。

这样,响应于用户输入的语音信号,可以基于第一语音唤醒算法或第二语音唤醒算法识别语音信号,并在语音信号为唤醒词的情况下,唤醒电子设备100的语音助手模块;或者,在语音信号为用户气息的情况下,唤醒电子设备100的语音助手模块。

下面对本申请实施例提供的第一芯片101进行说明。

图6为本申请实施例提供的又一种电子设备的结构示意图。如图6所示,第一芯片101可以是电子设备的SOC,电子设备的第一芯片101可以包括AP和第一ADSP,第一ADSP包括低功耗存储区和非低功耗存储区。其中,免唤醒词算法在低功耗存储区运行,唤醒词算法在第二芯片102运行。

其中,电子设备的麦克风可以用于采集语音信号(如,第一语音信号或第二语音信号),并将采集的语音信号传输给第一芯片101上的免唤醒词算法,以及传输给第二芯片102上的唤醒词算法。

电子设备的传感器可以用于采集传感数据,并将采集的传感数据传输至第一芯片101上传感器区域。例如,传感器可以是陀螺仪传感器和加速度传感器。这样,陀螺仪传感器和加速度传感器可以将采集的IMU数据,传输给免唤醒词算法和唤醒词算法。再例如,传感器也可以是接近光传感器、超声波传感器等传感器。这样,接近光传感器、超声波传感器将采集到的电子设备与用户之间的距离数据,传输给免唤醒词算法和唤醒词算法。这样,免唤醒词算法可以基于传感数据,判断语音信号是否为用户靠近电子设备发出的气息。

需要说明的是,由于第一ADSP的低功耗存储区的运行功耗比较小,因此,本申请实施例在电子设备处于待机状态或工作状态下,均可以保持运行免唤醒词算法。以保证在待机状态下,也能够唤醒语音助手模块,从而提供用户体验。

还需要说明的是,上述实施例仅以在第一芯片的低功耗存储区运行免唤醒词算法,在第二芯片上运行唤醒词算法进行示例性说明,并不表示对免唤醒词算法和唤醒词算法的配置方式的限定。例如,也可以在第一芯片的低功耗存储区运行唤醒词算法,在第二芯片上运行免唤醒词算法。

以下实施例中,以在第一芯片的低功耗存储区运行免唤醒词算法,在第二芯片上运行唤醒词算法进行示例性说明。

下面对本申请实施例提供的第二芯片102进行说明。

在一些实施例中,第二芯片102可以包括编解码器(coder-decoder,Codec)中的第二ADSP。

示例性的,如图7A所示,电子设备100包括第一芯片101和第二芯片102。第一芯片101为SOC,第二芯片102为Codec。免唤醒词算法被配置为在SOC的第一ADSP的低功耗存储区运行,唤醒词算法被配置为在Codec的第二ADSP上运行。

其中,第二ADSP与第一芯片101可以通过串行低功耗芯片间媒体总线(seriallow-power inter-chip media bus,SLIMBus)耦接。SLIMBus是MIPI联盟指定的一种音频接口,可以用于连接基带/应用处理器和音频芯片,SLIMBus总线协议保证既能传输控制信息,又能传输数据信息。

请继续参见图7A,Codec可以分别与麦克风、扬声器和耳机耦接。其中,麦克风可以与Codec中的第二ADSP通过脉冲密度调制(pulse density modulation,PDM)耦接。PDM是一种用数字信号表示模拟信号的调制方法,这样,可以通过PDM将麦克风采集的语音信号传输给第二ADSP。

其中,SOC可以将处理后的音频数据,通过Codec的扬声器和耳机播放。例如,SOC的语音助手模块对用户输入的语音信号的反馈信息,可以通过Codec的扬声器和耳机播放。

图7B为与图7A对应的语音唤醒方案的信号流程图。

请参见图7B示出的数据传输路径(图7B中虚线对应的流程),用户输入的语音信号后,电子设备的麦克风可以采集语音信号。麦克风采集的语音信号首先经过Codec的语音检测模块处理,语音检测模块可以将语音信号转换为数字语音信号。语音检测模块还可以对语音信号进行如滤波、特征提取等处理,以识别出语音信号中目标信息,如用户气息、唤醒词等。

经过语音检测模块处理后的语音信号,被分为三路。第一路语音信号输入第一ADSP上的免唤醒词算法模块,第二路语音信号输入第二ADSP上的唤醒词算法模块,第三路语音信号输入第一ADSP上的语音数据缓存区域。

请继续参见图7B示出的控制传输路径(图7B中实线对应的流程),响应于检测到语音信号,可以基于免唤醒词算法,识别语音信号是否为用户气息。在识别出语音信号为用户气息的情况下,可以唤醒语音助手模块。或者,响应于检测到语音信号,可以基于唤醒词算法,识别语音信号是否为唤醒词。在识别出语音信号为唤醒词的情况下,也可以唤醒语音助手模块。

唤醒语音助手模块后,用户可以输入语音命令,语音助手模块可以输出语音命令对应的反馈,从而实现人机交互功能。

其中,语音数据缓存区域可以用于存储来自Codec的语音数据,也可以用户存储来自语音助手模块反馈的语音数据。

这样,通过将唤醒词算法移至Codec中的第二ADSP运行,降低SOC中低功耗存储区域空间的要求,从而实现在使用中低端芯片的电子设备中,也能够支持两种唤醒算法。

在一些实施例中,由于SOC的低功耗存储区运行免唤醒词算法的功耗,以及在Codec的第二ADSP运行唤醒词算法的功耗都比较低,因此,在电子设备处于工作状态或待机状态下,均可以保持两种唤醒算法(免唤醒词算法和唤醒词算法)运行。

在一些实施例中,在Codec的第二ADSP运行唤醒词算法的功耗,相比于SOC的低功耗存储区运行免唤醒词算法的功耗更低的情况下,可以在待机状态下,仅使第二ADSP上的唤醒词算法工作,而低功耗存储区的免唤醒词算法不工作。响应于检测到语音信号,低功耗存储区的免唤醒词算法再工作,这样,可以进一步降低整机功耗。

需要说明的是,本申请实施例要求Codec的存储空间足够运行一种唤醒算法,如Codec的存储空间足够运行免唤醒词算法或者足够运行唤醒词算法。

还需要说明的是,上述实施例仅以第二ADSP与第一芯片101可以通过SLIMBus耦接进行示例性说明,并不表示对第二ADSP与第一芯片101耦接方式的限定。例如,第二ADSP与第一芯片101也可以集成电路间总线(inter IC sound,I

在一些实施例中,在电子设备的麦克风包括第三ADSP的情况下,第二芯片102可以包括电子设备的麦克风中的第三ADSP。

示例性的,如图8A所示,电子设备100包括第一芯片101和第二芯片102。第一芯片101为SOC,第二芯片102为麦克风中包括第三ADSP的芯片。免唤醒词算法被配置为在SOC的第一ADSP的低功耗存储区运行,唤醒词算法被配置为在麦克风中的第三ADSP上运行。

其中,第三ADSP与第一芯片101可以通过I

图8B为与图8A对应的语音唤醒方案的信号流程图。

如图8B所示,电子设备的麦克风包括第二芯片102和语音信号采集模块。第二芯片102包括第三ADSP,第三ADSP可以用于运行唤醒词算法和语音检测。这样,麦克风的语音信号采集模块采集到语音信号后,可以将语音信号传输给麦克风内的第三ADSP进行处理。

请参见图8B示出的数据传输路径(图8B中虚线对应的流程),用户输入语音信号后,电子设备的麦克风可以采集语音信号,并将采集的语音信号传输至麦克风内的语音检测模块处理。语音检测模块可以将语音信号转换为数字语音信号。语音检测模块还可以对语音信号进行如滤波、特征提取等处理,以识别出语音信号中目标信息,如用户气息、唤醒词等。

经过语音检测模块处理后的语音信号,被分为三路。第一路语音信号输入第一ADSP上的免唤醒词算法模块,第二路语音信号输入第三ADSP上的唤醒词算法模块,第三路语音信号输入第一ADSP上的语音数据缓存区域。

请继续参见图8B示出的控制传输路径(图8B中实线对应的流程),响应于检测到语音信号,可以基于免唤醒词算法,识别语音信号是否为用户气息。在识别出语音信号为用户气息的情况下,可以唤醒语音助手模块。或者,响应于检测到语音信号,可以基于唤醒词算法,识别语音信号是否为唤醒词。在识别出语音信号为唤醒词的情况下,也可以唤醒语音助手模块。

唤醒语音助手模块后,用户可以输入语音命令,语音助手模块可以输出语音命令对应的反馈,从而实现人机交互功能。

这样,通过将唤醒词算法移至麦克风中的第三ADSP运行,降低SOC中低功耗存储区域空间的要求,从而实现在使用中低端芯片的电子设备中,也能够支持两种唤醒算法。

在一些实施例中,由于SOC的低功耗存储区运行免唤醒词算法的功耗,以及在麦克风中的第三ADSP运行唤醒词算法的功耗都比较低,因此,在电子设备处于工作状态或待机状态下,均可以保持两种唤醒算法(免唤醒词算法和唤醒词算法)运行。

在一些实施例中,在麦克风中的第三ADSP运行唤醒词算法的功耗,相比于SOC的低功耗存储区运行免唤醒词算法的功耗更低的情况下,可以在待机状态下,仅使第三ADSP上的唤醒词算法工作,而低功耗存储区的免唤醒词算法不工作。响应于检测到语音信号,低功耗存储区的免唤醒词算法再工作,这样,可以进一步降低整机功耗。

还需要说明的是,上述实施例仅以第三ADSP与第一芯片101可以通过I

在一些实施例中,在电子设备的麦克风不包括第三ADSP的情况下,可以在电子设备中增设第四ADSP,然后,在增设的第四ADSP上运行语音唤醒算法。也就是说,这种实现方式为:在电子设备上增设包括第四ADSP的第二芯片。

示例性的,如图9A所示,电子设备包括第一芯片101、第二芯片102和Codec。第一芯片101为SOC,第二芯片102为包括第四ADSP的新增芯片。免唤醒词算法被配置为在SOC的第一ADSP的低功耗存储区运行,唤醒词算法被配置为在第二芯片102为包括第四ADSP上运行。

其中,第四ADSP与电子设备的麦克风可以通过脉冲密度调制PDM耦接。第四ADSP与第一芯片101可以通过串行外围设备接口(serial peripheral interface,SPI)以及集成电路间总线I

这样,麦克风采集到语音信号后,将语音信号传输给第四ADSP。第四ADSP对语音信号处理后,将处理后的音频信号传输给第一芯片101或Codec。经第一芯片101处理后的语音信号可以通过与Codec耦接的耳机或扬声器播放。

其中,如果第一芯片101传输的信号为非媒体播放信号,如来电铃音,则可以通过SLIMBus这一条通道传输给Codec,进而通过与Codec耦接的耳机或扬声器播放。如果第一芯片101传输的信号为媒体播放信号,则第一芯片101可以现将媒体播放信号传输给第四ADSP,然后,第四ADSP再将媒体播放信号传输给Codec,最后再通过与Codec耦接的耳机或扬声器播放。

图9B为与图9A对应的语音唤醒方案的信号流程图。

如图9B所示,电子设备的第四ADSP可以用于运行唤醒词算法和语音检测。这样,电子设备的麦克风采集到语音信号后,可以将语音信号传输给第二芯片上的第四ADSP进行处理。

请参见图9B示出的数据传输路径(图9B中虚线对应的流程),用户输入语音信号后,电子设备的麦克风可以采集语音信号。然后,麦克风将采集的语音信号传输至第四ADSP上的语音检测模块处理。语音检测模块可以将语音信号转换为数字语音信号。语音检测模块还可以对语音信号进行如滤波、特征提取等处理,以识别出语音信号中目标信息,如用户气息、唤醒词等。

经过语音检测模块处理后的语音信号,被分为三路。第一路语音信号输入第一ADSP上的免唤醒词算法模块,第二路语音信号输入第四ADSP上的唤醒词算法模块,第三路语音信号输入第一ADSP上的语音数据缓存区域。

请继续参见图9B示出的控制传输路径(图9B中实线对应的流程),响应于检测到语音信号,可以基于免唤醒词算法,识别语音信号是否为用户气息。在识别出语音信号为用户气息的情况下,可以唤醒语音助手模块。或者,响应于检测到语音信号,可以基于唤醒词算法,识别语音信号是否为唤醒词。在识别出语音信号为唤醒词的情况下,也可以唤醒语音助手模块。

唤醒语音助手模块后,用户可以输入语音命令,语音助手模块可以输出语音命令对应的反馈,从而实现人机交互功能。

这样,通过在电子设备中增设包括第四ADSP的第二芯片,并将唤醒词算法移至增设的第四ADSP运行,降低SOC中低功耗存储区域空间的要求,从而实现在使用中低端芯片的电子设备中,也能够支持两种唤醒算法。

在一些实施例中,由于SOC的低功耗存储区运行免唤醒词算法的功耗,以及在第二芯片的第四ADSP运行唤醒词算法的功耗都比较低,因此,在电子设备处于工作状态或待机状态下,均可以保持两种唤醒算法(免唤醒词算法和唤醒词算法)运行。

在一些实施例中,在第二芯片的第四ADSP运行唤醒词算法的功耗,相比于SOC的低功耗存储区运行免唤醒词算法的功耗更低的情况下,可以在待机状态下,仅使第二芯片的第四ADSP上的唤醒词算法工作,而低功耗存储区的免唤醒词算法不工作。响应于检测到语音信号,低功耗存储区的免唤醒词算法再工作,这样,可以进一步降低整机功耗。

需要说明的是,本申请实施例中,由于增设包括第四ADSP的工作电流很小,因此,第四ADSP的功耗很低。这样,本申请实施例,在待机状态下,可以仅使第四ADSP上的唤醒词算法工作,而低功耗存储区的免唤醒词算法不工作。响应于检测到语音信号,低功耗存储区的免唤醒词算法再工作,这样,可以进一步降低整机功耗。

还需要说明的是,上述实施例仅以图9A示出的连接方式进行示例性说明,并不表示对第一芯片、第二芯片、Codec之间的连接方式的限定。例如,Codec与第一芯片也可以通过I

本申请实施例还提供一种语音唤醒方法,该方法可以应用于上述实施例中的电子设备。图10为本申请实施例提供一种语音唤醒方法的工作流程图,如图10所示,该方法可以包括以下步骤:

步骤201,在第一芯片的低功耗存储区运行第一语音唤醒算法。

步骤202,在第二芯片运行第二语音唤醒算法。

步骤203,响应于用户输入的第一语音信号,基于第一语音唤醒算法识别第一语音信号,并在第一语音信号满足第一唤醒条件的情况下,唤醒电子设备的语音助手模块。

步骤204,响应于用户输入的第二语音信号,基于第二语音唤醒算法识别第二语音信号,并在第二语音信号满足第二唤醒条件的情况下,唤醒电子设备的语音助手模块。

示例性的,第一语音唤醒算法为唤醒词算法,第二语音唤醒算法为免唤醒词算法。这样,在第一语音信号为唤醒词的情况下,可以唤醒电子设备的语音助手模块。在第二语音信号为用户气息的情况下,可以唤醒电子设备的语音助手模块。

在一些实施例中,由于第一芯片的低功耗存储区运行第一语音唤醒算法的功耗,以及在第二芯片运行第二语音唤醒算法的功耗都比较低,因此,在电子设备处于工作状态或待机状态下,均可以保持两种唤醒算法(第一语音唤醒算法和第二语音唤醒算法)运行。

在一些实施例中,在第二芯片运行第二语音唤醒算法的功耗,相比于第一芯片的低功耗存储区运行第一语音唤醒算法的功耗更低的情况下,可以在待机状态下,仅使第二芯片上的第二语音唤醒算法工作,而低功耗存储区的第一语音唤醒算法不工作。响应于检测到语音信号,低功耗存储区的第一语音唤醒算法再工作,这样,可以进一步降低整机功耗。

本文中描述的各个方法实施例可以为独立的方案,也可以根据内在逻辑进行组合,这些方案都落入本申请的保护范围中。

可以理解的是,上述各个方法实施例中,由电子设备实现的方法和操作,也可以由可用于电子设备的部件(例如芯片或者电路)实现。

上述实施例对本申请提供的语音唤醒方法进行了介绍。可以理解的是,电子设备为了实现上述功能,其包含了执行每一个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

以上详细说明了本申请实施例提供的方法以及硬件结构。以下,结合详细说明本申请实施例提供的软件装置。应理解,装置实施例的描述与方法实施例的描述相互对应,因此,未详细描述的内容可以参见上文方法实施例,为了简洁,这里不再赘述。

在一个实施例中,电子设备可以通过软件装置实现相应的功能。该语音唤醒装置可以包括:

第一语音唤醒算法模块,在第一芯片的低功耗存储区运行,用于响应于用户输入的第一语音信号,基于所述第一语音唤醒算法识别所述第一语音信号,并在所述第一语音信号满足第一唤醒条件的情况下,唤醒所述电子设备的语音助手模块。

第二语音唤醒算法模块,在第二芯片运行,用于响应于用户输入的第二语音信号,基于所述第二语音唤醒算法识别所述第二语音信号,并在所述第二语音信号满足第二唤醒条件的情况下,唤醒所述电子设备的语音助手模块。

在一种可能的实现方式中,所述第一语音唤醒算法为免唤醒词算法,所述第二语音唤醒算法为唤醒词算法;或者,所述第一语音唤醒算法为唤醒词算法,所述第二语音唤醒算法为免唤醒词算法。

应注意,本申请实施例中的处理器可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

根据本申请实施例提供的方法,本申请实施例还提供一种计算机程序产品,该计算机程序产品包括:计算机程序或指令,当该计算机程序或指令在计算机上运行时,使得该计算机执行方法实施例中任意一个实施例的方法。

根据本申请实施例提供的方法,本申请实施例还提供一种计算机存储介质,该计算机存储介质存储有计算机程序或指令,当该计算机程序或指令在计算机上运行时,使得该计算机执行方法实施例中任意一个实施例的方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和模块,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦接或直接耦接或通信连接可以是通过一些接口,装置或单元的间接耦接或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例提供的芯片、计算机存储介质、计算机程序产品、电子设备均用于执行上文所提供的方法,因此,其所能达到的有益效果可相互参考,在此不再赘述。

应理解,在本申请的各个实施例中,各步骤的执行顺序应以其功能和内在逻辑确定,各步骤序号的大小并不意味着执行顺序的先后,不对实施例的实施过程构成限定。

本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置、芯片、计算机存储介质、计算机程序产品的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

以上所述的本申请实施方式并不构成对本申请保护范围的限定。

相关技术
  • 语音唤醒方法、电子设备及非暂态计算机可读存储介质
  • 一种语音交互设备唤醒方法、装置、设备及存储介质
  • 一种基于车机安卓系统的语音免唤醒方法
  • 一种语音唤醒方法、存储介质及终端
  • 一种提升语音唤醒成功率的方法
  • 语音唤醒、定制唤醒模型的方法、电子设备和存储介质
  • 一种语音唤醒方法、语音唤醒装置以及存储介质
技术分类

06120116481768