掌桥专利:专业的专利平台
掌桥专利
首页

语音交互设备、方法、装置、电子设备和存储介质

文献发布时间:2023-06-19 09:26:02


语音交互设备、方法、装置、电子设备和存储介质

技术领域

本申请涉及信号处理技术领域,具体涉及语音技术、人工交互、回声消除技术领域,尤其涉及一种语音交互设备、方法、装置、电子设备和存储介质。

背景技术

在语音交互尤其是远场语音交互中,关键词唤醒以及语音打断功能是实现语音交互的关键,而实现这些功能的前提就是回声消除技术。如何更好的提高回声消除的性能,以便更好的提升语音交互的体验,是当前语音交互相关技术的关键。

发明内容

本申请提供一种用于改善回声消除效果的语音交互设备、方法、装置、电子设备和存储介质。

根据本申请的第一方面,提供了一种语音交互设备,包括:D类(数字)音频功率放大器;数字麦克风阵列;及分别与所述D类音频功率放大器及所述数字麦克风阵列连接的处理器;其中,所述D类音频功率放大器,用于将待播放的第一语音信号经过脉冲密度调制器调制,以生成第一脉冲密度调制信号;所述处理器,用于根据获取的所述第一脉冲密度调制信号及所述数字麦克风阵列采集的音频信号,确定所述音频信号中包含的语音指令,并生成第二待播放的语音信号。

本申请实施例的语音交互设备,通过D类音频放大器将待播放的第一语音信号经过脉冲密度调制器调制,以生成第一脉冲密度调制信号;通过数字麦克风阵列采集音频信号;处理器获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,以根据第一脉冲密度调制信号及音频信号确定音频信号中包含的语音指令,并生成第二待播放的语音信号。由此,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

根据本申请的第二方面,提供了语音交互方法,包括:获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,其中,所述第一脉冲密度调制信号为待播放的第一语音信号经过脉冲密度调制器调制后生成的;基于所述第一脉冲密度调制信号,对所述音频信号进行回声消除,以获取所述音频信号中包含的语音指令;响应于所述语音指令,生成第二待播放的语音信号。

本申请实施例的语音交互方法,首先,将待播放的第一语音信号经过脉冲密度调制器调制后生成第一脉冲密度调制信号,并获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,然后,基于第一脉冲密度调制信号,对音频信号进行回声消除,以获取音频信号中包含的语音指令,最后,响应于语音指令生成第二待播放的语音信号。由此,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

根据本申请的第三方面,提供了一种语音交互装置,包括:获取模块,用于获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,其中,所述第一脉冲密度调制信号为待播放的第一语音信号经过脉冲密度调制器调制后生成的;处理模块,用于基于所述第一脉冲密度调制信号,对所述音频信号进行回声消除,以获取所述音频信号中包含的语音指令;生成模块,用于响应于所述语音指令,生成第二待播放的语音信号。

本申请实施例的语音交互装置,通过获取模块获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,通过处理模块基于第一脉冲密度调制信号,对音频信号进行回声消除,以获取音频信号中包含的语音指令,通过生成模块响应于语音指令生成第二待播放的语音信号。由此,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

根据本申请的第四方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的语音交互方法。

根据本申请的实施例,在处理器执行指令时,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

根据本申请的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的语音交互方法。

根据本申请的实施例,在计算机程序被执行时,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1为本申请实施例提供的一种语音交互设备的结构示意图;

图2为本申请实施例提供的一种D类音频功率放大器的结构示意图;

图3为本申请实施例提供的一种脉冲密度调制器的结构示意图;

图4为本申请实施例提供的一种第一脉冲密度调制信号的波形示意图;

图5为本申请实施例提供的另一种语音交互设备的结构示意图;

图6为本申请实施例提供的一种具体的语音交互设备的结构示意图;

图7为本申请实施例提供的一种语音交互方法的流程示意图;

图8为本申请实施例提供的另一种语音交互方法的流程示意图;

图9为本申请实施例提供的一种语音交互装置的结构示意图;

图10为用来实现本申请实施例的语音交互方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

需要说明的是,在语音交互中,回声消除的效果很大程度上依赖于回声参考信号的采集,以便于通过回声参考信号对音频信号进行回声消除,而现有的回声参考信号,通常为喇叭前端的模拟信号经过模数转换后的信号,该模拟信号很容易引入电流噪声等干扰信号,进而导致回声消除效果较差。

为此,本申请实施例提出了一种语音交互设备、方法、装置、电子设备和存储介质。本申请实施例,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需进行模数转换,而直接作为回声参考信号,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

下面参考附图描述本申请实施例的语音交互设备、方法、装置和存储介质。

图1为本申请实施例提供的一种语音交互设备的结构示意图。

如图1所示,该语音交互设备100包括:D类(数字)音频功率放大器10、数字麦克风阵列20和处理器30。可以理解,D类音频功率放大器10也称为数字功率放大器,具有效率高、体积小的特点。

其中,处理器30分别与D类音频功率放大器10及数字麦克风阵列20连接;D类音频功率放大器10用于将待播放的第一语音信号经过脉冲密度调制器调制,以生成第一脉冲密度调制(Pulse Density Modulation,简称PDM)信号;处理器30用于根据获取的第一脉冲密度调制信号及数字麦克风阵列20采集的音频信号,确定音频信号中包含的语音指令,并生成第二待播放的语音信号。

具体地,当语音交互设备100在与用户进行语音交互时,待播放的第一语音信号,首先需要经过D类音频功率放大器10处理,其中,第一语音交互信号可以是解码芯片输出的未经放大的模拟信号,进而D类音频功率放大器10的脉冲密度调制器11将该待播放的第一语音信号进行调制,以生成第一脉冲密度调制信号,然后D类音频功率放大器10将该第一脉冲密度调制信号发送给处理器30,同时,数字麦克风阵列20可进行远场拾音,以采集音频信号,其中,该音频信号为数字信号,并将采集到的音频信号发送至处理器30;处理器30获取第一脉冲密度调制信号及音频信号,即采集第一脉冲密度调制信号作为回声参考信号,此后,处理器30基于第一脉冲密度调制信号对音频信号进行的回声(例如喇叭播放的声音)消除,例如可将第一脉冲密度调制信号和音频信号作差,即可得到音频信号中的语音指令(例如人声),并基于该语音指令生成第二待播放的语音信号。

由于D类功率音频放大器10输出的第一脉冲密度调制信号为数字信号,而且其携带有待播放的语音信号信息,从而直接将该信号与数字麦克风采集的音频信号进行比较,即可有效得将数字麦克风阵列20采集的音频信号中的回声消除。

需要说明的是,该实施例中,处理器30进行回声消除后,根据语音指令生成的第二待播放的语音信号,需进行相关处理后才可被播放。例如,第二待播放的语音信号依次经过脉冲密度调制、滤波处理后才可被播放,此时,播放的信号即是干净的音频。同时,处理器30可以根据D类音频信号放大器生成的新的脉冲密度调制信号,对当前数字麦克风采集的音频信号进行回声消除,以确定新的语音指令。

应当理解的是,如图2所示,D类音频功率放大器10可包括脉冲密度调制器11和开关放大器12。

具体而言,输入待播放的第一语音信号至D类音频功率放大器10,进而D类音频功率放大器10的脉冲密度调制器11将该待播放的第一语音信号进行调制,以生成第一脉冲密度调制信号,该第一脉冲密度调制信号经开关放大器12放大后变为高电压、大电流的大功率第一脉冲密度调制信号,然后D类音频功率放大器10将该大功率的第一脉冲密度调制信号发送给处理器30,同时,数字麦克风阵列20进行远场拾音,以采集音频信号,并将采集到的音频信号发送至处理器30;处理器30获取到大功率的第一脉冲密度调制信号及音频信号后,基于大功率的第一脉冲密度调制信号对音频信号进行回声消除,以获取音频信号中包含的语音指令,并基于该语音指令生成第二待播放的语音信号,从而有效的将数字麦克风阵列20采集的音频信号中的回声消除。

其中,脉冲密度调制器11的结构如图3所示,脉冲密度调制器11包括:积分器(Integrator)、比较器(Comparator)、D锁存器(D Latch)、数模转换器(Digital to AnalogConverter,简称DAC)和时序发生器(Clock)。该实施例中的数模转换器为1位数模转换器(简称1-Bit-DAC)。

脉冲密度调制器11的工作过程为:输入模拟(Analogue)信号(待播放的第一语音信号)至积分器,进而积分器将模拟信号转换为锯齿波(三角波)信号,该锯齿波信号经比较器、D锁存器后转换为数字信号;同时,该数字信号经1-Bit-DAC后转换为模拟信号,并与模拟信号作差(即进行负反馈)后输入积分器,如此,使D锁存器输出脉冲信号,D锁存器输出的脉冲信号即为第一脉冲密度调制信号,第一脉冲密度调制信号的波形如图4所示。

参照图4,在第一脉冲密度调制信号中,逻辑“1”表示单个脉冲,逻辑“0”表示没有脉冲,逻辑“1”和“0”是不连续的,单个脉冲不表示模拟信号的幅值,一系列连续的脉冲才对应模拟信号的幅值,完全/连续由逻辑“1”组成的PDM信号对应于模拟信号的正向幅值,完全/连续由逻辑“0”组成的PDM信号则对应于模拟信号的负向幅值,由逻辑“1”和“0”交替组成的PDM信号则对应于0幅值电压。可以理解,PDM信号的脉冲宽度是固定的,通过改变脉冲的密度来改变输出的模拟电压的大小,脉冲越密集,则输出的模拟电压就越大;脉冲越稀疏,则输出的模拟电压就越小。

本申请实施例的语音交互设备,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,无需进行模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

需要说明的是,随着人们物质生产的提高,人们拥有了越来越多的音视频电子设备,如音响、智能音箱、个人电脑、手机等等,这些音视频电子设备的音频系统通常通过脉冲宽度调制(Pulse Width Modulation,简称PWM)信号模拟音频信号的幅度,即将声音信息埋藏在脉冲宽度调制信号的占空比中,来进行声音信息的传递。然而,该技术中信息的传递过程是模拟的、非量化的,使得模拟音频信号的真实度较低,并且由于器件性能的限制,PWM不可能采用太高的采样频率,因此在性能指标上尚达不到高保真(High-Fidelity,简称Hi-Fi)级的水平。

而如果采用宽度固定的脉冲信号来数字化地量化、模拟音频信号,则使音频信号的还原更为真实。本申请实施例中的脉冲宽度调制信号的宽度是固定的,因此,本申请实施例中效率极高的D类音频功率放大器10,可用作音频系统中的音效放大处理。为此,本申请实施例还提出了另一种语音交互设备,以通过该语音交互设备实现音效放大处理以及高保真的语音播放。

图5为本申请实施例提供的另一种语音交互设备的结构示意图。

如图5所示,该语音交互设备100还包括低通滤波器40及音频播放组件50。

其中,低通滤波器40的输入端与D类音频功率放大器10的输出端连接,低通滤波器40的输出端与音频播放组件50的驱动端连接;低通滤波器40用于对第一脉冲密度调制信号进行滤波处理,并驱动音频播放组件50播放处理后的音频信号。

具体地,在需要语音播放时,输入音频信号至D类音频功率放大器10,其中,该音频信号为模拟信号,D类音频功率放大器10的脉冲密度调制器11将该音频信号进行调制,以生成脉冲密度调制信号,用来模拟音频信号,该脉冲密度调制信号经开关放大器12放大后变为高电压、大电流的大功率脉冲密度调制信号,然后D类音频功率放大器10将该大功率的脉冲密度调制信号发送给低通滤波器40,进而低通滤波器40对脉冲密度调制信号进行滤波处理,以将大功率脉冲密度调制信号中的音频信号还原出来,并驱动音频播放组件50播放处理后的音频信号,以将处理后的音频信号播放。

该实施例中,通过具有脉冲密度调制器11的D类音频功率放大器10进行音效的放大处理,即通过脉冲密度调制信号模拟音频信号,相较于相关技术中通过脉冲宽度调制信号模拟音频信号而言,不仅可以提高模拟的真实性,而且由于PDM高电平和低电平的分布较为均匀,高频分量的比重较大,故只需用带宽较宽的低通滤波器,可以是RC低通滤波器,也可以是LC低通滤波器,也就是较小的电阻和电容就可以滤除足够多的交流分量,克服了PWM对外围电阻电容要求高的缺点,降低了调试难度。

由此,通过脉冲密度调制信号模拟音频信号,以实现音频的播放,能够大大减少PWM固定频率引起的电磁兼容或者电磁干扰的问题,且能够减少输出模拟信号中的交流成分,进而减少干扰噪声,实现音频的高保真播放。

在本申请的一个实施例中,如图6所示,D类音频功率放大器10及数字麦克风阵列20,通过相同的脉冲密度调制接口与处理器30连接。

具体地,数字麦克风阵列20可以是PDM麦克风(PDM MIC),处理器30获取的第一脉冲密度调制信号和PDM MIC采集的音频信号均为PDM信号,因此,D类音频功率放大器10及数字麦克风阵列20,通过相同的脉冲密度调制接口与处理器30连接,以使处理器30通过脉冲密度调整接口同步采集回声参考PDM信号和期望PDM信号,以基于回声参考PDM信号对期望PDM信号进行回声消除,因此,在处理器30内部仅用一个接口控制器,即可获取实时的两个音频流,无需进行额外的同步处理,且避免了两个音频流发生帧错位导致的回声消除效果较差的问题。

下面参照图6对该实施例的语音交互设备100的工作过程进行描述:

语音交互设备100上电后,内置的PDM MIC进行远场拾音,以采集期望PDM信号;智能硬件的解码芯片输出未经放大的固定电平的信号(Vin)至D类音频功率放大器10,进而D类音频功率放大器10输出PDM信号经过LC低通滤波器后输出给音频播放组件50,例如喇叭播放声音,同时D类音频功率放大器10输出的PDM信号输入到处理器30,例如主控SOC芯片的PDM接口,以使主控SOC芯片采集回声参考信号;主控SOC芯片通过脉冲宽度调整接口同步接收到期望PDM信号和回声参考信号后,基于回声参考信号对期望PDM信号进行音频回声消除处理。例如,当PDM MIC拾取的是人声+喇叭播放的声音时,主控SOC芯片将PDM MIC拾取的声音(人声+喇叭播放的声音)和回声参考信号(喇叭播放的声音)作差,即可实现回声消除,从而得到一个干净的人声。

其中,回声消除主要包含两个步骤:线性自适应滤波和非线性处理。首先,通过线性自适应滤波建立回声参考信号的语音模型,进行第一轮回声消除;然后,进行非线性处理,非线性处理又分为两个步骤:残留回声处理和非线性剪切处理,残留回声处理处理残留回声,以进行第二轮回声消除;非线性剪切处理对衰减量达到阈值的语音信号进行比较激进的剪切处理。回声消除后的第二待播放的语音信号可进行其它音频处理,如波束成形、降噪、声源定位、信号放大等;最后将处理后的音频信号传给语音识别引擎做唤醒或者识别,进行关键词打断或语音识别,例如今天天气怎么样、播放新闻或者控制智能家居等。

综上所述,本申请实施例的语音交互设备,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果;还能够通过脉冲密度调制信号模拟音频信号,以实现音频的播放,大大减少PWM固定频率引起的电磁兼容或者电磁干扰的问题,且减少输出模拟信号中的交流成分,进而减少干扰噪声,实现音频的高保真播放。

本申请实施例还提供了一种语音交互方法,图7为本申请实施例提供的一种语音交互方法的流程示意图。

如图7所示,该语音交互方法包括:

步骤01,获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,其中,第一脉冲密度调制信号为待播放的第一语音信号经过脉冲密度调制器调制后生成的。

该实施例中,当语音交互设备在于用户进行语音交互时,待播放的第一语音信号,首先需要经过D类音频功率放大器处理,其中,第一语音交互信号可以是解码芯片输出的未经放大的模拟信号,进而D类音频功率放大器的脉冲密度调制器将该待播放的第一语音信号进行调制,以生成第一脉冲密度调制信号,以供获取;同时,数字麦克风阵列可进行远场拾音,以采集音频信号,以供获取,其中,该音频信号为数字信号。

具体地,可获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,即采集第一脉冲密度调制信号作为回声参考信号,采集的音频信号即为期望信号,以供后续进行回声消除。

步骤02,基于第一脉冲密度调制信号,对音频信号进行回声消除,以获取音频信号中包含的语音指令。

具体地,基于第一脉冲密度调制信号对音频信号进行的回声(例如喇叭播放的声音)消除,具体而言,可将第一脉冲密度调制信号和音频信号(例如人声+喇叭播放的声音)作差,即可得到音频信号中的语音指令(例如人声)。

步骤03,响应于语音指令,生成第二待播放的语音信号。

其中,第二待播放的语音信号是模拟信号。

本申请实施例的语音交互方法,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

进行回声消除后,根据语音指令生成的第二待播放的语音信号,需进行相关处理后才可被播放。例如,第二待播放的语音信号依次经过脉冲密度调制、滤波处理后才可被播放,此时,播放的信号即是干净的音频。同时,可以根据D类音频信号放大器生成的新的脉冲密度调制信号,对当前数字麦克风采集的音频信号进行回声消除,以确定新的语音指令。

下面结合图8进行说明,图8为本申请实施例提供的另一种语音交互方法的流程示意图。

如图8所示,在生成第二待播放的语音信号之后,该语音交互方法包括:

步骤01,获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,其中,第一脉冲密度调制信号为待播放的第一语音信号经过脉冲密度调制器调制后生成的。

步骤02,基于第一脉冲密度调制信号,对音频信号进行回声消除,以获取音频信号中包含的语音指令。

步骤03,响应于语音指令,生成第二待播放的语音信号。

步骤04,利用脉冲密度调制器,对第二待播放的语音信号进行调制,以生成第二脉冲密度调制信号。

在生成第二待播放的语音信号后,利用脉冲密度调制器对第二待播放的语音信号进行调制,以生成第二脉冲密度调制信号,以通过第二脉冲密度调制信号来模拟第二待播放的语音信号。

步骤05,将第二脉冲密度调制信号进行滤波处理,以生成音频播放组件待播放的音频信号。

在生成第二脉冲密度调制信号后,可通过较为简单的低通滤波器对第二脉冲密度调制信号进行滤波处理,以生成音频播放组件例如喇叭待播放的音频信号,并驱动音频播放组件播放待播放的音频信号。

由此,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

需要说明的是,本申请实施例的语音交互方法的其他具体实施方式可参见前述语音交互设备的具体实施方式,故在此不再赘述。

为了实现上述实施例,本申请实施例还提出一种语音交互装置,图9为本申请实施例提供的一种语音交互装置的结构示意图。

如图10所示,该语音交互装置200包括:获取模块210、处理模块220及生成模块230。

其中,获取模块210用于获取第一脉冲密度调制信号及数字麦克风阵列采集的音频信号,其中,第一脉冲密度调制信号为待播放的第一语音信号经过脉冲密度调制器调制后生成的;处理模块220用于基于第一脉冲密度调制信号,对音频信号进行回声消除,以获取音频信号中包含的语音指令;生成模块230用于响应于语音指令,生成第二待播放的语音信号。

在本申请的一个实施例中,获取模块210具体用于:通过脉冲密度调整接口,获取第一脉冲密度调制信号及数字麦克风采集的音频信号。

在本申请的一个实施例中,生成模块230还用于:利用脉冲密度调制器,对第二待播放的语音信号进行调制,以生成第二脉冲密度调整信号;将第二脉冲密度调制信号进行。

需要说明的是,本申请实施例的语音交互装置的具体实施方式可参见前述语音交互设备即语音交互方法的具体实施方式,故在此不再赘述。

本申请实施例的语音交互装置,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。下面结合图10进行说明。

如图10所示,是根据本申请实施例的语音交互方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图10所示,该电子设备包括:一个或多个处理器101、存储器102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器101为例。

存储器102即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音交互方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音交互方法。

存储器102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音交互方法对应的程序指令/模块(例如,附图9所示的获取模块210、处理模块220及生成模块230)。处理器101通过运行存储在存储器102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音交互方法。

存储器102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音交互电子设备的使用所创建的数据等。此外,存储器102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器102可选包括相对于处理器101远程设置的存储器,这些远程存储器可以通过网络连接至语音交互方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

语音交互方法的电子设备还可以包括:输入装置103和输出装置104。处理器101、存储器102、输入装置103和输出装置104可以通过总线或者其他方式连接,图10中以通过总线连接为例。

输入装置103可接收输入的数字或字符信息,以及产生与语音交互方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置104可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。

根据本申请实施例的技术方案,通过采集脉冲密度调制信号对音频信号进行调制,并采集调制后的脉冲密度调制信号作为回声参考信号,对数字麦克风采集的音频信号进行回声消除,由于调制后的脉冲密度信号为脉宽固定的数字信号,可以无需模数转换,从而避免了模数转换带来的干扰噪声,改善了回声消除的效果。

在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

相关技术
  • 语音交互方法、语音交互设备、电子设备及存储介质
  • 语音调节方法、装置、语音交互设备及存储介质
技术分类

06120112161695