掌桥专利:专业的专利平台
掌桥专利
首页

家用电器及其语音识别方法

文献发布时间:2023-06-19 11:21:00


家用电器及其语音识别方法

技术领域

本公开涉及一种家用电器及其语音识别方法。更具体地,本公开涉及一种用于估计由家用电器产生的噪声并且通过降低所估计的噪声来提高语音识别率的家用电器及其语音识别方法。

背景技术

家用电器可以根据用户的控制命令执行各种功能。近来的家用电器不仅可以通过诸如小键盘、遥控器等的输入设备接收控制命令,而且还采用语音识别功能来通过用户语音接收控制命令。

当用户发出特定启动命令(例如,Bixby)时,应用了用于响应于特定启动命令而激活语音识别功能的方法的家用电器已经得以扩展。

诸如机器人清洁器或洗衣机之类的一些家用电器本身可能会产生大量噪声。利用现有技术的噪声去除方法难以处理这种大幅度噪声。

因此,越来越需要一种能够应用于产生大幅度噪声的家用电器的去除噪声的方法。

发明内容

提供了一种用于估计由其自身产生的噪声并且通过降低所估计的噪声来提高语音识别率的家用电器以及一种语音识别方法。

根据实施例,一种包括电动机的家用电器包括:第一麦克风,设置在外壳的表面上;第二麦克风,设置在外壳的内部;以及处理器,被配置为对从第一麦克风获取的第一语音数据执行信号处理,并且使用经信号处理的第一语音数据执行语音识别,并且该处理器还被配置为使用从第二麦克风获取的第二语音数据生成噪声数据,并且使用所生成的噪声数据对第一语音数据执行信号处理。

根据实施例的一种家用电器的语音识别方法可以包括:从设置在外壳的表面上的第一麦克风获取第一语音数据;从设置在外壳内部的第二麦克风获取第二语音数据;对从第一麦克风获取的第一语音数据执行信号处理;以及使用经信号处理的第一语音数据执行语音识别,并且执行信号处理可以包括:使用从第二麦克风获取的第二语音数据生成噪声数据,以及使用所生成的噪声数据对第一语音数据执行信号处理。

在进行下面的详细描述之前,阐明本专利文件全文中使用的某些单词和短语的定义可能是有利的:术语“包括”和“包含”及其派生词意指包括但不限于;术语“或”是包含性的,意指和/或;短语“与......相关联”和“与其相关联”及其派生词可以意指包括、被包括在内、与......互连、包含、被包含在内、连接到......或与......连接、耦合到......或与......耦合、可与......通信、与......协作、交错、并置、接近、绑定到……或与……绑定、具有、具有……的特性等;术语“控制器”意指控制至少一个操作的任何设备、系统或其部分,这样的设备可以用硬件、固件或软件或它们中至少两个的某种组合来实现。应注意,与任何特定控制器相关联的功能可以是集中式的或分布式的,不论本地还是远程。

此外,下面描述的各种功能可以由一个或多个计算机程序来实现或支持,每个计算机程序由计算机可读程序代码形成并且体现在计算机可读介质中。术语“应用”和“程序”指代适于以合适的计算机可读程序代码实现的一个或多个计算机程序、软件组件、指令集、过程、功能、目标、类、实例、相关数据或其一部分。短语“计算机可读程序代码”包括任何类型的计算机代码,包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质,例如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其他类型的存储器。“非暂时性”计算机可读介质不包括传输暂时性电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括可以永久存储数据的介质和可以存储数据并且随后覆盖的介质(例如,可重写光盘或可擦除存储器设备)。

在本专利文件全文中提供了某些单词和短语的定义,本领域普通技术人员应理解,在许多情况(如果不是大多数情况)下,这些定义适用于如此定义的单词和短语的在先以及将来的使用。

附图说明

通过以下结合附图的描述,本公开的某些实施例的上述和其他方面、特征和优点将更加显而易见,附图中:

图1示出了被提供为描述根据实施例的家用电器的简单配置的框图;

图2示出了说明根据实施例的家用电器的具体配置的框图;

图3和图4示出了描述根据实施例的噪声去除方法的视图;

图5至图7示出了描述根据实施例的用于去除噪声的方法的视图;

图8至图10示出了描述根据第三实施例的噪声去除方法的视图;以及

图11示出了描述根据实施例的用于家用电器的语音识别的方法的流程图。

具体实施方式

以下讨论的图1至图11以及用于描述本专利文件中的本公开的原理的各种实施例仅是说明性的,并且不应以任何方式解释为限制本公开的范围。本领域技术人员将理解,本公开的原理可以在任何适当布置的系统或设备中实现。

在下文中,将参考附图进一步描述本公开。

在本说明书和权利要求书中使用的术语是考虑到本公开的各种实施例的功能而确定的一般术语。然而,这些术语可以根据相关领域技术人员的意图、法律或技术解释、新技术的出现等而变化。而且,可以存在由申请人任意确定的一些术语。除非有对术语的具体定义,否则该术语可以基于整体内容和相关领域技术人员的技术常识来解释。

在附图中示出并且在具体实施方式中详细描述本公开的一个或多个具体实施例。然而,应理解,本公开不限于该一个或多个具体实施例,而是在不脱离本公开的范围和精神的情况下包括所有修改、等同物和替换。而且,由于公知的功能或构造将以不必要的细节使本公开不清楚,因此不对其进行详细描述。

诸如第一和第二之类的术语可以用于描述各种组件,但是不应受这些术语的限制。这些术语仅用于区分一个组件和另一个组件。

除非另有说明,否则单数表达包括复数表达。应理解,诸如“包括”或“由……组成”之类的术语在本文中用于指定特征、数量、步骤、操作、元件、组件或其组合的存在,而不排除一个或多个其他特征、数量、步骤、操作、元件、组件或其组合的存在或添加它们的可能性。

在下文中,将参考附图详细描述实施例,使得本领域技术人员可以容易地实现这些实施例。然而,本公开可以以许多不同的形式来体现,并且不限于本文描述的实施例。为了在附图中清楚地示出本公开,已经省略了与描述不相关的部分。

在下文中,将参考附图详细描述本公开的实施例。

图1示出了被提供为描述根据实施例的家用电器的简单配置的框图。

参照图1,家用电器100可以包括第一麦克风110、第二麦克风120和处理器130。

家用电器是家用电气设备,并且可以包括机器人清洁器、吸尘器、电灶、煤气灶、微波炉、抽油烟机、洗衣机、烘干机、冰箱、洗碗机、空调等。家用电器100在执行本职功能的同时可能会产生振动和噪声。

家用电器100是可以执行语音识别功能并且根据语音识别结果执行功能的设备。这里,语音识别意指将输入语音的声音信号转换为单词或句子的技术。

家用电器100可以感测用户说出的语音并且对检测到的语音执行语音识别。具体地,当检测到作为用于激活语音识别功能的触发语音命令的唤醒词(WUW)时,家用电器100可以激活语音识别功能,并且使用输入语音的语音数据执行语音识别。家用电器100可以包括用于语音识别功能的麦克风。

麦克风110和120是将声音转换为声音信号并且可以将用户说出的语音和周围声音等输出为语音信号的设备。根据实施例的家用电器100可以包括多个麦克风110和120。例如,家用电器100可以包括第一麦克风110和第二麦克风120。

在本公开中,已经示出和描述了家用电器100包括两个麦克风,但是在实施方式中,家用电器100可以包括三个或更多个麦克风。

第一麦克风110可以设置在外壳的表面上。具体地,第一麦克风110可以设置在外壳的表面上,以便收集用户说出的语音,并且生成与家用电器100的周围声音相对应的第一语音数据。

第二麦克风120可以设置在外壳内。具体地,第二麦克风120可以设置在外壳的内部(具体地,在诸如电动机之类的产生噪声的噪声源附近),可以通过收集从家用电器100自身产生的噪声声音来生成与由家用电器100产生的声音相对应的第二语音数据。

处理器130控制家用电器100。具体地,处理器130可以根据用户的控制命令来控制家用电器100的每个配置。例如,当家用电器100是洗衣机时,当接收到脱水命令时,处理器130可以控制电动机的操作以便向容纳衣物的滚筒提供旋转力。

处理器130可以使用通过第一麦克风110获取的第一语音数据来执行语音识别。第一语音数据可以包括噪声以及用户的语音,并且所包括的噪声可能会降低语音识别率。

处理器130可以对第一语音数据执行预处理。这里,预处理指代在语音识别之前执行的一系列信号处理,并且可以去除语音数据中包括的噪声。

此时,处理器130可以使用第二语音数据来对第一语音数据执行预处理操作。具体地,处理器130可以使用第二语音数据生成噪声数据(该噪声数据是与家用电器100中的噪声源的纯噪声相对应的声音数据),并且通过使用所生成的噪声数据去除第一语音数据中包括的噪声来执行预处理。

上述使用第二语音数据生成噪声数据的操作基于第二语音数据的特征。具体地,第二语音数据具有以下特征:由于第二麦克风120被设置的位置,第二语音数据所包括的噪声源的噪声幅度大于第一语音数据中包括的噪声源的噪声幅度。

用户说出的语音和其他噪声也可以包括在第二语音数据中,但是第二语音数据是通过位于噪声源附近的第二麦克风120获取的数据,包括在第二语音数据中的用户说出的语音和其他噪声相比于噪声源的噪声可以具有相对小的幅度。

通过这些特征,与使用第一语音数据的情况相比,当使用第二语音数据时,可以更准确地提取与噪声源的噪声相对应的分量。

处理器130可以使用噪声路径估计滤波器来生成噪声数据。这里,噪声路径估计滤波器意指用于过滤第二语音数据中包括的噪声源噪声之外的分量的滤波器。此时,噪声路径估计滤波器可以被称为过滤算法。

例如,当第二语音数据被输入到噪声路径估计滤波器时,可以过滤第二语音数据中包括的用户话语分量,并且可以输出噪声数据。将参考图3至图7描述使用噪声路径估计滤波器生成噪声数据的具体操作。

处理器130可以使用通过噪声路径估计滤波器生成的噪声数据来去除与第一语音数据的噪声源的噪声相对应的分量,并且可以对第一语音数据执行预处理。

在相关领域中,已经使用了波束成形技术来进行预处理,其中通过多个麦克风获取包括语音和噪声的多个语音信号,并且通过使用语音和噪声的入射方向和频谱分别不同的特征来将语音与噪声区分开,从而去除噪声。

然而,如果在实际环境中噪声的幅度大于语音的幅度,则难以确定预期的方向差异或频谱差异,因此难以通过相关领域技术区分语音和噪声。例如,在自身产生大幅度噪声的家用电器的情况下,由于噪声的幅度大于用户说出的语音的幅度,因此难以通过相关领域技术去除足够的噪声以进行语音识别。

然而,在本公开中,使用设置在噪声源附近的路径上或设置在从噪声源到设置在外壳表面上的麦克风的路径上的麦克风来获取第二语音数据,并且使用所获取的第二语音数据来执行预处理,因此,即使当家用电器内部存在噪声源,并且即使噪声大时,也具有通过清楚地掌握关于噪声源的噪声的信息而从语音数据中准确地去除噪声的效果。

已经示出和描述了构成电子装置的简单配置,但是在实施方式中,可以另外提供各种配置。这将参考图2进行描述。

图2是示出根据实施例的家用电器的具体配置的框图。

参照图2,根据实施例的家用电器100可以包括第一麦克风110、第二麦克风120、处理器130、电动机140、加速度计150、输入器160、通信器170、存储器180和显示器190。

第一麦克风110和第二麦克风120执行与图1的配置相同的功能,并且将省略重复的描述。已经参考图1描述了处理器130,将不以重复的方式描述图1的描述,并且下面将对添加到图2的配置进行描述。

电动机140设置在家用电器100内部并且驱动与家用电器100的功能的执行有关的配置。例如,当家用电器100是洗衣机时,电动机140可以高速旋转容纳衣物的滚筒以使衣物脱水。此时,在电动机140驱动滚筒的过程中,可能引起振动和噪声。

作为另一示例,当家用电器100是冰箱时,电动机140可以驱动用于产生制冷剂的制冷剂压缩机。在由电动机140驱动制冷剂压缩机的过程中,可能产生振动和噪声。

这样,当家用电器自身产生高噪声时,电动机140可以对应于噪声源。因此,第二麦克风120设置在电动机140的附近或从电动机140到第一麦克风110的路径上,以检测由电动机140产生的声音并且生成与其相对应的第二语音数据。

处理器130可以生成噪声数据,该噪声数据是通过使用噪声路径估计滤波器从第二语音数据中提取与电动机140的噪声相对应的分量而获得的数据。可以通过使用所产生的噪声从第一语音数据中去除与电动机140的噪声相对应的分量对第一语音数据执行预处理。

这样,处理器130可以使用参考数据(具体地,第二语音数据)来生成与噪声源的噪声相对应的噪声数据。同时,处理器130还可以使用第二语音数据之外的不同参考数据来生成与噪声源的噪声相对应的噪声数据。

这里,对于参考数据而言,包括噪声源信息的数据就足够了。噪声源的信息包括从噪声源产生的振动的幅度和相位、从噪声源产生的噪声的幅度和相位、主频信息等。

例如,处理器130可以通过经由加速度计150获取参考数据来生成噪声数据,或通过经由输入器160输入的控制命令获取参考数据来生成噪声数据。下面将描述具体操作。

加速度计150是用于测量物体的加速度的设备。加速度计150可以设置在电动机140附近,用于测量电动机140的加速度并且生成关于所测量的加速度的信息。

处理器130可以从所获得的加速度信息中提取电动机140的工作频率,并且使用所提取的工作频率生成参考数据。

例如,如果从由加速度计150获得的加速度信息中提取50Hz作为电动机140的工作频率,则处理器130可以使用50Hz来生成由具有特定幅度和相位的三角函数表示的参考数据。

输入器160可以包括用于使用户能够设置或选择家用电器100支持的各种功能的多个功能键。这允许用户输入针对家用电器100的各种控制命令。例如,如果家用电器100是洗衣机,则用户可以通过输入器160输入洗衣机的脱水命令。

通过输入器160输入的控制命令可以与电动机140的驱动有关。在这种情况下,可以确认与通过输入器160输入的控制命令相对应的电动机140的工作频率。

例如,如果家用电器100是洗衣机并且输入了脱水命令,则电动机140可以旋转洗衣机的滚筒以便执行脱水功能。在这种情况下,可以确定与脱水命令相对应的电动机140的工作频率是50Hz。

处理器130可以使用与控制命令相对应的电动机140的工作频率来生成参考数据。

上述内容不仅可以应用于输入到输入器160的控制命令,而且还可以以相同的方式应用于根据情况的确定由处理器130自身生成的控制命令。

如上所述,可以使用通过第二麦克风120获取的第二语音数据、加速度计150的加速度信息或通过使用从控制命令识别的工作频率生成的参考数据中的至少一个来生成噪声数据。可以使用该噪声数据来对第一语音数据执行预处理。

处理器130可以根据是否驱动电动机140来改变第一语音数据的预处理方法。

具体地,如果驱动电动机140,则由于家用电器100产生的噪声大,处理器130可以根据上述方法使用参考数据对第一语音数据执行预处理。

如果未驱动电动机140,则不存在由家用电器100自身产生的噪声,因此,处理器130可以直接使用第一语音数据执行语音识别而不使用参考数据,或者在根据常规方法对第一语音数据执行预处理之后执行语音识别。

同时,在图2中,假定噪声源是电动机140,但是即使噪声源对应于电动机140之外的压缩机、风扇等,也可以以相同的方式根据是否驱动噪声源来改变第一语音数据的预处理方法。

通信器170耦合到外部设备并且可以从外部设备接收各种数据。具体地,通信器170可以通过局域网(LAN)和互联网连接到外部设备,也可以通过通用串行总线(USB)端口或无线通信(例如,WiFi802.11a/b/g/n、NFC、蓝牙)端口进行连接。这里,外部设备可以是PC、笔记本计算机、智能电话、服务器等。

通信器170可以从外部设备接收用于生成噪声数据的噪声路径估计滤波器。处理器130可以使用接收到的噪声路径估计滤波器来生成噪声数据。

下面将参考图8描述关于从外部设备接收噪声路径估计滤波器的具体描述。

存储器180存储用于家用电器100的操作的各种数据,例如用于处理器130的处理或控制的程序。具体地,存储器180可以存储在家用电器100上驱动的多个应用程序以及用于操作家用电器100的数据和指令。

例如,存储器180可以存储与通过输入器160输入的控制命令相对应的电动机140的工作频率信息。处理器130可以识别与输入控制命令相对应的工作频率并且使用所识别的工作频率生成参考数据。

存储器180由处理器130访问,并且可以由处理器130执行数据读取/写入/修改/删除/更新等。存储器180不仅可以被实现为家用电器100中的存储介质,而且还可以被实现为外部存储介质、包括USB存储器的可移动盘、通过网络的web服务器等。

存储器180可以存储用于生成噪声数据的噪声路径估计滤波器。

显示器190可以显示由家用电器100提供的各种信息。具体地,显示器190可以显示用户界面窗口,该用户界面窗口用于显示家用电器100的工作状态或用于选择由用户选择的功能和选项。

例如,当家用电器100是洗衣机时,显示器190可以显示如下界面窗口,该界面窗口用于显示洗衣机正在执行脱水操作或用于选择用户操作脱水功能的时长。

在示出和描述图2时,已经示出和描述了噪声源是电动机,但是在实施方式中,与噪声源相对应的可以是电动机之外的配置,并且噪声数据可以意指关于从其他配置产生的噪声的信息。

在示出和描述图2时,已经示出和描述了提供一个电动机,但是在实施方式中,可以提供多个电动机,并且可以使用针对多个电动机中的每个电动机的参考数据来估计噪声。

此外,在示出和描述图2时,家用电器被示出和描述为同时具有第二麦克风和加速度计。然而,在实施方式中,可以仅提供加速度计,并且可以通过使用由加速度计获得的参考数据来估计噪声。备选地,可以不提供第二麦克风和加速度计,并且可以使用通过输入器获取的参考数据来估计噪声。

此外,在示出和描述图2时,已经示出和描述了处理器使用电动机的工作频率来执行生成参考数据的操作,但是在实施方式中,可以提供通过接收工作频率信息生成正弦波信号的正弦波信号发生器(未示出)。在这种情况下,由正弦波信号发生器生成的信号可以用作参考数据。

在相关领域中,通过使用波束成形技术来对语音数据执行预处理,其中通过多个麦克风获取包括语音和噪声的多个信号,并且通过使用语音和噪声的入射方向和频谱分别不同的特征来将语音与噪声区分开,从而去除噪声。

然而,在噪声的幅度大于语音的幅度的情况下,难以确定方向差异或频谱差异,因此存在难以应用相关领域技术方法的问题。

根据实施例,家用电器可以通过使用麦克风或加速度计获得包括噪声源的信息在内的参考数据,通过使用所获得的参考数据估计噪声,并且以降低语音数据中包括的噪声的方式执行预处理,因此,即使当家用电器自身产生大的噪声时,根据实施例的家用电器也可以准确地掌握噪声,并且从语音数据中去除噪声,因此,家用电器可以具有高语音识别率。

图3和图4示出了描述根据实施例的噪声去除方法的视图。

参照图3,使用参考数据(r)、语音数据(d)和噪声估计算法生成噪声数据(y),并且使用所生成的噪声数据(y)去除语音数据(d)的噪声。

这里,参考数据(r)可以对应于通过第二麦克风120获取的第二语音数据、加速度计150的加速度信息或通过使用从控制命令识别的工作频率生成的参考数据中的至少一个。

语音数据(d)可以对应于由图1的第一麦克风110获取的第一数据。

处理器130可以使用噪声估计算法和参考数据(r)来生成噪声数据(y)。具体地,处理器130可以使用包括在噪声估计算法中的噪声路径估计滤波器信息从参考数据(r)中提取噪声数据(y),该噪声数据是与噪声源的噪声相对应的声音数据。

噪声路径估计滤波器可以被实现为时域上的有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器。备选地,噪声路径估计滤波器可以被实现为针对频域上每个频带的预定传递函数的形式。

噪声路径估计滤波器可以具有例如上述示例的线性结构,但是不限于此,其还可以具有非线性结构。

噪声路径估计滤波器可以被固定为一个,并且如果预先存储了多个噪声路径滤波器信息,则可以根据情况选择并且使用多个噪声路径估计滤波器之一来生成噪声数据(y)。

处理器130可以通过使用所生成的噪声数据(y)去除与包括在语音数据(d)中的噪声源的噪声相对应的分量来对语音数据(d)执行预处理。处理器130可以执行预处理以使用去除了噪声的语音数据(e)来执行语音识别。

处理器130可以使用语音数据(d)来更新噪声数据(y)的生成方法,以便即使噪声源的噪声改变或周围环境改变也能生成准确的噪声数据(y)。

具体地,处理器130可以在执行预处理之后使用语音数据(d)更新噪声路径滤波器,这将在下面参考图4进行描述。

参照图4,处理器130可以确定使用频域上的噪声路径滤波器(H)的噪声估计算法,并且使用包括噪声的语音数据(d)执行更新。

处理器130可以使用快速傅立叶变换(FFT)将参考数据(r)变换到频域。处理器130可以将变换后的参考数据(R)应用于噪声路径估计滤波器(H),以获得变换到频域的噪声数据(Y,Y=R·H)。处理器130可以使用快速傅立叶逆变换(IFFT)将噪声数据(Y)变换到时域。处理器130可以使用变换后的噪声数据(y)去除语音数据(d)的噪声。

在处理器130执行预处理之后,可以使用混有噪声的语音数据(d)来更新噪声路径估计滤波器(H)。具体地,处理器130可以使用其中语音数据(d)通过FFT变换到频域的变换后的语音数据(D)与变换后的参考数据(R)之间的相关性来更新噪声路径估计滤波器(H)。

例如,可以假定第k-1个噪声路径估计滤波器是H

这里,G

λ值可以使用由系统确定的常数,或者可以为了算法的稳定性而作为变量来使用。例如,当以变量方式使用时,第k个λ值可以是λ(k)=α·(e

当获取第k+1个参考数据r

更新噪声路径估计滤波器H的方法不限于上述示例。例如,在上述示例中,每当获取参考数据和包括噪声的语音数据时执行更新,但是也可以在获得参考数据和包括预定数量的噪声的语音数据时执行更新。在这种情况下,可以通过一起使用包括预定数量的噪声的语音数据和参考数据来执行更新。

此外,如图3和图4所示和所述,已经示出和描述了在处理器130对包括噪声的语音数据(d)执行预处理之后,更新噪声路径估计滤波器,但是在实施方式中,可以首先更新噪声路径估计滤波器,然后可以对包括噪声的语音数据(d)执行预处理。

图5至图7示出了描述根据实施例的用于去除噪声的方法的视图。

参照图5,可以使用参考数据r、去除了噪声的语音数据e和噪声估计算法生成噪声数据y,并且可以使用所生成的噪声数据y去除语音数据d的噪声。

这里,参考数据r可以对应于通过第二麦克风120获得的第二语音数据、加速度计150的加速度信息或通过使用从控制命令识别的工作频率生成的参考数据中的至少一个。

语音数据d可以对应于由图1的第一麦克风110获得的第一语音数据。

处理器130可以使用包括在噪声估计算法中的噪声路径估计滤波器信息从参考数据r中提取噪声数据y,该噪声数据是与噪声源的噪声相对应的声音数据。

处理器130可以通过使用所生成的噪声数据y去除与包括在语音数据d中的噪声源的噪声相对应的元素来对语音数据d执行预处理。

处理器130可以使用去除了噪声的语音数据e执行语音识别的预处理。处理器130的一系列操作与图3的处理器的操作相同。此外,噪声估计滤波器的配置与图3的配置相同,因此将省略对其的描述。

图5所示的实施例与图3所示的实施例之间的区别在于用于更新噪声路径估计滤波器的方法。具体地,在图5的实施例中,处理器130可以使用去除了噪声的语音数据而不是包括噪声的语音数据来更新生成噪声数据的方法。下面将参考图6和图7对其进行详细描述。

参照图6,可以确定如下噪声估计算法,该噪声估计算法用于通过使用作为时域上的FIR滤波器的噪声路径滤波器来执行更新,并且使用去除了噪声的语音数据来执行更新。

处理器130可以将参考数据r应用于时域上的噪声路径估计滤波器h,以获得噪声数据(y,y=h*r)。处理器130可以使用噪声数据y去除语音数据d的噪声,并且使用去除了噪声的语音数据e执行语音识别。

处理器130可以使用去除了噪声的语音数据e来更新噪声路径估计滤波器h。具体地,在执行预处理之后,处理器130可以使用去除了噪声的语音数据e与参考数据r之间的相关性来更新噪声路径估计滤波器h。

例如,可以假定第k-1个噪声路径估计滤波器是h

这里,μ可以使用由系统确定的常数,或者为了算法的稳定性而作为变量来使用。例如,对于作为变量的使用,第k个μ可以是μ(k)=α/P(k)。此外,可以实现P(k)=(1-γ)·P(k-1)+γ·r(k)

当获得下一参考数据r’和语音数据d’时,处理器130可以使用更新的新噪声路径估计滤波器h’从下一参考数据中生成噪声数据y’,使用噪声数据y’去除语音数据d’的噪声,并且使用去除了噪声的语音数据e’执行语音识别。

更新时域中的噪声路径估计滤波器h的方法不限于上述示例。例如,在上述示例中,每当更新参考数据和去除了噪声的语音数据时执行更新,但是也可以实现为当获取参考数据和去除了预定数量的噪声的语音数据时执行更新。在这种情况下,可以通过一起使用参考数据和具有预定数量的噪声的语音数据来执行更新。

代替时域上的FIR滤波器,噪声路径估计滤波器h可以是被实现为按照频域上的频带的预定传递函数的滤波器,并且可以使用去除了噪声的语音信号e来更新噪声路径估计滤波器h。

参照图7,可以确定使用频域上的噪声路径滤波器和使用去除了噪声的语音数据来执行更新的噪声估计算法。

处理器130可以使用FFT将参考数据r变换到频域。处理器130可以将变换后的参考数据r应用于频域上的噪声路径估计滤波器H,以获得变换到频域的噪声数据Y,Y=R·H。此外,处理器130可以使用IFFT将噪声数据Y变换到时域。然后,处理器130可以使用变换后的噪声数据y来去除语音数据d中的噪声。

处理器130可以使用去除了噪声的语音数据e来更新噪声路径估计滤波器H。具体地,处理器130可以使用去除了噪声的语音数据e通过FFT变换到频域的语音数据E与变换后的参考数据R之间的相关性,来更新噪声路径估计滤波器H。

例如,可以假定第k-1个噪声路径估计滤波器是H

这里,μ可以使用由系统定义的常数,或者可以是为了算法的稳定性的变量。例如,在作为变量使用的情况下,第k个μ可以是μk)α·(e

当获取下一参考数据r

更新频域中的噪声路径估计滤波器H的方法不限于上述示例。例如,在上述示例中,每当更新参考数据和去除了噪声的语音数据时执行更新,但是也可以实现为当获取参考数据和去除了预定数量的噪声的语音数据时执行更新。在这种情况下,可以一起使用参考数据和包括预定数量的噪声的语音数据两者来执行更新。

在示出和描述图3至图7时,已经示出和描述了在对包括噪声的语音数据d执行预处理之后更新噪声路径估计滤波器,但是在实施方式中,可以实现为在首先更新噪声路径估计滤波器之后,对包括噪声的语音数据d执行预处理。

图8至图10示出了描述根据实施例的噪声去除方法的视图。

关于噪声路径估计滤波器的信息可以预先存储在家用电器100中,并且如上所述用于生成噪声数据。然而,噪声路径估计滤波器可以不在家用电器100的制造阶段中预先存储,而是可以以如下方式来实现:在将家用电器100安装在家中之后通过人工智能(AI)模型生成。家用电器100可以使用所生成的噪声路径估计滤波器执行噪声去除。

在下文中,为了方便描述,假定并且描述家用电器从包括A1模型的外部设备200获得噪声路径估计滤波器。

参照图8,首先,在操作S810中,家用电器100可以在没有用户话语时获得语音数据和参考数据。具体地,为了生成噪声路径估计滤波器,使用未检测到用户话语而仅检测到噪声源的噪声的语音数据和参考数据。因此,当家用电器100执行语音识别并且识别出被确定为没有用户话语的语音数据时,家用电器100可以识别与相应的语音数据同时获取的参考数据。

在操作S820中,家用电器100可以通过通信器170将所获取的语音数据和参考数据发送到外部设备200。具体地,家用电器100可将所获取的语音数据和参考数据变换为时域或频域上的信号并且将其发送到外部设备200。

家用电器100的噪声源的噪声可以根据家用电器100的工作模式或周围环境的变化而变得不同。因此,有必要生成适用于每种情况的噪声估计滤波器。为此,当发送信息到外部设备200时,家用电器100可以一起发送关于工作模式的信息或关于周围环境的信息。

例如,当家用电器100是洗衣机时,洗衣机中包括的电动机的转速可以根据工作模式而不同。因此,噪声源(电动机)的噪声的幅度或特征可以根据工作模式而不同。

通过一起发送关于每个家用电器100的工作模式的信息、针对每个工作模式获得的语音数据和参考数据,可以生成外部设备200针对每个工作模式可以应用的噪声路径估计滤波器。

在操作S830中,外部设备200可以使用接收到的语音数据和参考数据来计算噪声路径估计滤波器。具体地,外部设备200可以使用接收语音数据和参考数据并且输出与其相对应的噪声路径估计滤波器的AI模型来获得噪声路径估计滤波器。这里,AI模型可以是线性回归模型。

在操作S840中,外部设备200可以将计算出的关于噪声路径估计滤波器的信息发送到家用电器100。在操作S850中,家用电器100可以将接收到的信息存储在噪声路径估计滤波器上。

家用电器100可以使用所获取的参考数据和噪声路径估计滤波器信息来生成噪声数据,并且可以使用所生成的噪声数据来去除包括用户话语的语音数据的噪声。可以使用去除了噪声的语音数据来执行语音识别功能。

在示出和描述图8时,已经示出和描述了将语音数据和参考数据发送到外部设备并且从外部设备接收由AI模型生成的噪声路径估计滤波器,但是在实施方式中,可以实现为家用电器的处理器通过使用预先存储的AI模型来生成噪声路径估计滤波器。

备选地,可以实现:家用电器中不同于处理器的单独设备可以使用预先存储的AI模型生成噪声路径估计滤波器,并且处理器使用所生成的噪声路径估计滤波器。用于生成噪声路径估计滤波器的方法不限于此。

在下文中,将描述使用通过AI模型生成的噪声路径滤波器来去除噪声的具体操作。

参照图9,可以确定用于使用时域上的噪声路径滤波器h去除噪声的方法。

处理器130可以使用从外部设备200接收的噪声路径滤波器信息h来执行噪声去除。

具体地,处理器130可以将参考数据r应用于接收到的噪声路径估计滤波器h以获得噪声数据(y,y=h*r)。处理器130可以使用噪声数据y去除语音数据d的噪声,并且使用去除了噪声的语音数据e执行语音识别。

参照图10,可以确定用于使用频域上的噪声路径滤波器去除噪声的方法。

处理器130可以使用FFT将参考数据r变换到频域。处理器130可以将变换后的参考数据R应用于噪声路径估计滤波器H以获得变换到频域的噪声数据(Y,Y=R·H)。

处理器130可以使用噪声数据Y去除通过FFT变换的语音数据D的噪声。此外,处理器130可以使用IFFT将消除了噪声的语音数据E变换到时域。处理器130可以使用去除了噪声的语音数据e执行语音识别。

在示出和描述图9和图10时,已经示出和描述了不对噪声路径估计滤波器执行更新,但是在实施方式中,可以实现为根据前述更新方法来对噪声路径估计滤波器执行更新。

图11示出了描述根据实施例的用于家用电器的语音识别的方法的流程图。

参照图11,可以确定用于识别产生大噪声的家用电器的语音的方法。这里,家用电器可以对应于但不限于机器人清洁器、吸尘器、电灶、煤气灶、无线电炉、抽油烟机、洗衣机、烘干机、冰箱、洗碗机、空调等。

首先,在操作S1110中获得第一语音数据。具体地,可以从可设置在家用电器的外壳的表面上的第一麦克风获得第一语音数据。

在操作S1120中获得第二语音数据。具体地,可以从可设置在家用电器的外壳内部的第二麦克风获得第二语音数据。

更具体地,第二麦克风可以设置在家用电器内部的噪声源附近或设置在从噪声源到第一麦克风的路径上,用于检测从噪声源产生的噪声并且生成与其相对应的第二语音数据。

家用电器内部的噪声源可以是电动机、压缩机、风扇等,并且不限于此。

在操作S1130中,使用第二语音数据生成噪声数据。这里,噪声数据意指与噪声源的噪声相对应的声音数据。例如,当家用电器的噪声源是电动机时,噪声数据可以是与电动机的噪声相对应的声音数据。

可以通过从第二语音数据中仅提取与噪声源的噪声相对应的分量或过滤与噪声源的噪声相对应的分量之外的分量来获得噪声数据。

可以通过使用时域上的有限脉冲响应(FIR)滤波器或无限脉冲响应(IIR)滤波器中的至少一个滤除与第二语音数据中包括的噪声源相对应的分量之外的其他分量来生成噪声数据。

备选地,噪声数据可以使用由频域上的频带预定的传递函数来从第二语音数据中提取与噪声源的噪声相对应的分量。

关于滤波器或传递函数的信息在制造阶段被预先存储在家用电器中并且可以用于生成噪声数据,但是不限于此。

例如,当可以与外部设备通信时,可以通过与外部设备通信来接收关于滤波器或传递函数的信息,并且可以使用接收到的关于滤波器或传递函数的信息来生成噪声数据。

此时,接收到的关于滤波器或传递函数的信息可以是使用包括在外部设备中的AI模型获取的信息。

如果家用电器的噪声源是电动机并且该电器具有加速度计,则可以从加速度计获得电动机的加速度信息。可以从所获得的加速度信息中提取工作频率,并且可以通过使用所提取的工作频率来生成参考信号。参考信号可以对应于通过第二麦克风获得的第二语音数据。可以使用参考信号根据上述方法生成噪声数据。

此外,当家用电器的噪声源是电动机并且输入到输入设备的控制命令与电动机的驱动有关时,可以通过使用控制命令提取与控制命令相对应的电动机的工作频率,并且可以通过使用所提取的工作频率来生成参考信号。参考信号可以对应于通过第二麦克风获得的第二语音数据。可以使用参考信号根据上述方法生成噪声数据。

在操作S1140中,使用噪声数据对第一语音数据执行信号处理。具体地,可以执行用于使用噪声数据去除与第一语音数据中包括的噪声源的噪声相对应的分量的信号处理。

在操作S1150中,使用经信号处理的第一语音数据执行语音识别。

当噪声源是电动机时,用于第一语音数据的信号处理方法可以根据电动机是否被驱动而改变。

具体地,在当前电动机被驱动时,由家用电器自身产生的噪声大,可以根据上述方法使用参考数据对第一语音数据执行预处理。

如果当前电动机未被驱动,则由于不存在由家用电器产生的噪声,可以通过使用第一语音数据立即执行语音识别而不使用参考数据,或者根据常规方法对第一语音数据执行预处理,然后执行语音识别。

即使当噪声源的噪声改变或周围环境改变时,也可以使用包括噪声的第一语音数据或经信号处理的第一语音数据中的至少一个来更新用于生成噪声数据的方法,以便生成准确的噪声数据。

具体地,可以使用第一语音数据或经信号处理的第一语音数据中的至少一个与第二语音数据之间的相关性来更新用于生成噪声数据的方法。

因此,本公开的家用电器的语音识别方法可以通过使用麦克风或加速度计获取包括噪声源的信息在内的参考数据,通过使用所获得的参考数据估计噪声,并且以降低语音数据中包括的噪声的方式执行预处理,从而即使当家用电器产生大噪声时也具有高语音识别率的效果。如图11所示的语音识别方法可以在具有图1或图2的配置的家用电器上执行,并且还可以在具有其他配置的家用电器上执行。

如上所述的语音识别方法可以被实现为用于执行上述语音识别方法的至少一个执行程序,或者该执行程序可以存储在非暂时性可读介质中。

非暂时性计算机可读介质指代半永久性地存储数据而不是在非常短的时间内存储数据(例如,寄存器、高速缓存、存储器等)并且可由装置读取的介质。详细地,上述各种应用或程序可以存储在非暂时性计算机可读介质(例如,光盘(CD)、数字多功能光盘(DVD)、硬盘、蓝光光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)等)中,并且可以被提供。

虽然已经参考某些附图示出和描述了各种实施例,但是本公开不限于特定的实施例或附图,并且本领域的普通技术人员将理解,可以在不脱离例如由所附权利要求书及其等效物所限定的精神和范围的情况下在其中做出形式和细节上的各种改变。

虽然已经用各种实施例描述了本公开,但是可以向本领域技术人员建议各种改变和修改。本公开旨在涵盖落入所附权利要求的范围内的这些改变和修改。

相关技术
  • 家用电器及其语音识别方法
  • 家用电器及其语音识别方法、服务器
技术分类

06120112893662