掌桥专利:专业的专利平台
掌桥专利
首页

语音识别系统、服务器、显示装置及其控制方法

文献发布时间:2023-06-19 12:19:35


语音识别系统、服务器、显示装置及其控制方法

本申请是申请日为2015年11月17日、中国申请号为“201510790693.3”、发明名称为“语音识别系统、服务器、显示装置及其控制方法”的申请的分案申请。

相关申请的交叉引用

本申请要求于2014年11月17日在韩国知识产权局提交的韩国专利申请No.10-2014-0160130的优先权,其公开通过整体引用并入本文。

技术领域

与实施例对应的装置和方法涉及语音识别系统、服务器、显示装置及其控制方法,更具体地,涉及一种语音识别系统、服务器、显示装置及其控制方法,根据通过识别口述语音而产生的响应信号来处理对应操作。

背景技术

已在越来越多地使用识别用户口述的语音并执行与之对应的功能的电子装置。一般而言,能够识别语音的显示装置收集用户口述的语音,并向通过网络连接的服务器发送与所收集的口述语音对应的口述语音信号。接收口述语音信号的服务器分析口述语音信号,以确定用户的意图,并生成因此产生的响应信号和向显示装置发送所生成的响应信号。因此,显示装置可基于从服务器接收到的响应信号执行与用户的口述语音对应的功能或提供信息。

然而,相关领域中能够识别语音的显示装置在分析用户的口述语音和基于分析结果确定用户意图方面存在限制。例如,在简单功能(例如,“上调频道(channel-up)”)的情况下,服务器分析口述语音信号以正确确定用户的意图,并生成因此产生的响应信号以向显示装置发送所生成的信号。因此,显示装置可基于响应信号来显示用户请求的频道。

然而,在没有清楚识别到口述语音时,或在要求用户交互时,相关领域中提供简单功能便不够了。如果用户口述“告诉我录制方法。”,便存在问题,因为不能针对每个步骤向用户指示要检查的内容或用户用于进行录制的操作,且只不过仅显示录制方法。

此外,在识别到诸如“屏幕不正常”的口述语音时,不检查显示装置的硬件性能,且可能不存在对该口述语音的响应。亦即,在从口述语音没有生成可执行的响应信号时,便存在问题,因为执行了不正确的操作或不存在响应。

此外,虽然通过使用服务器提高了复杂口述语音的响应的精确性,仍然还存在着问题,因为响应信号是在没有反映相应显示装置的特性的情况下生成的。

发明内容

示例性实施例克服了上述缺陷以及上面没有描述的其他缺陷。此外,并不要求实施例克服上述缺陷,且示例性实施例可以不克服上述问题中的任何问题。

实施例提供基于预存储的手册生成对用户的口述语音的响应信号并处理与响应信号对应的操作的语音识别系统、服务器、显示装置及其控制方法。

根据一个方案,语音识别系统包括:存储多个手册的服务器;以及显示装置,在识别出用户的口述语音时,显示装置向服务器发送特征信息和与口述语音对应的口述语音信号,所述特征信息是显示装置的特征信息,服务器基于所述多个手册中与特征信息对应的手册向显示装置发送对口述语音信号的响应信号,以及显示装置处理与接收到的响应信号对应的操作。

在响应信号包括引导消息或诊断结果时,显示装置可显示引导消息或诊断结果。

在响应信号是用于处理对显示装置进行诊断所需的操作的控制信号时,显示装置可根据控制信号处理操作,并向服务器发送所述操作的状态,以及服务器基于操作状态诊断显示装置,并向显示装置发送诊断结果。

根据另一方案,服务器包括:能够与多个设备通信的至少一个处理器;以及存储多个手册的存储单元,至少一个处理器:接收与多个设备中的一个设备识别出的口述语音对应的口述语音信号以及所述设备的特征信息,基于存储单元的多个手册中与特征信息对应的手册,生成对口述语音信号的响应信号,以及向所述设备发送响应信号。

在口述语音信号是针对所述设备的功能的信号时,至少一个处理器可向所述设备发送包括用于根据手册对执行所述设备的功能的方法进行引导的引导信号在内的响应信号。

在口述语音信号是针对所述设备的操作状态的信号时,至少一个处理器可诊断所述设备并向所述设备发送诊断结果。

在诊断出所述设备的操作状态是自主解决的错误状态时,至少一个处理器可向所述设备发送用于对诊断结果的解决方法进行引导的引导消息。

在诊断出所述设备的操作状态是不能自主解决的错误状态时,至少一个处理器可向服务中心发送诊断结果和所述设备的特征信息。

设备的特征信息可包括以下至少一项:面板信息、设备的类型信息、用户区域信息和使用时间信息。

根据另一方案,显示装置包括:识别用户的口述语音的语音识别单元;执行与存储多个手册的服务器的通信的通信单元;以及处理器,在口述语音被确定为用于控制显示装置的操作的控制信号时,处理器处理与控制信号对应的操作,在口述语音被确定为针对显示装置的功能和操作状态中至少之一的信号时,处理器通过通信单元向服务器发送显示装置的特征信息和与口述语音对应的口述语音信号。

在从服务器接收到根据与显示装置的特征信息对应的手册和口述语音信号的内容生成的响应信号时,处理器处理与响应信号对应的操作。

显示装置还可包括显示单元,以及在响应信号包括引导消息或诊断结果时,处理器可显示引导消息或诊断结果。

在响应信号是用于处理对显示装置进行诊断所需的操作的控制信号时,处理器可根据控制信号处理操作,并通过通信单元向服务器发送所述操作的状态。

显示装置的特征信息可包括以下至少一项:面板信息、显示装置的类型信息、用户区域信息和使用时间信息。

根据又一方案,显示装置的控制方法包括:识别用户的口述语音;确定口述语音的类型;以及在口述语音被确定为用于控制显示装置的操作的控制信号时,处理与控制信号对应的操作,以及在口述语音被确定为针对显示装置的功能和操作状态中至少之一的信号时,向服务器发送显示装置的特征信息和与口述语音对应的口述语音信号。

控制方法还可包括:从服务器接收根据与显示装置的特征信息对应的手册和口述语音信号的内容生成的响应信号,以及处理与响应信号对应的操作。

在处理与响应信号对应的操作中,在响应信号包括引导消息或诊断结果时,可显示引导消息或诊断结果。

在处理与响应信号对应的操作中,在响应信号是用于处理对显示装置进行诊断所需的操作的控制信号时,可处理取决于控制信号的操作,且可向服务器发送所述操作的状态。

显示装置的特征信息可包括以下至少一项:面板信息、显示装置的类型信息、用户区域信息和使用时间信息。

根据又一方案,提供了存储计算机程序的计算机可读介质,计算机程序执行以下操作:识别用户的口述语音;确定口述语音的类型;以及在口述语音被确定为用于控制显示装置的操作的控制信号时,处理与控制信号对应的操作,以及在口述语音被确定为针对显示装置的功能和操作状态中至少之一的信号时,向服务器发送显示装置的特征信息和与口述语音对应的口述语音信号。

根据又一方案,提供了一种方法,包括:从多个设备中的设备识别用户的语音输入,基于识别出的语音输入诊断设备的操作状态,并在操作状态指示设备正经历错误时,向用户提供所述设备的操作手册的一部分,其中,所述部分涉及所述错误。

所述部分可涉及手册中解决所述错误的解决方案部分。

所述部分可包括用于校正错误的用户指南。

实施例的附加和/或其他方案和优点将部分在下面的描述中阐述,且部分根据该描述是显而易见的,或可从实施例的实践中认识到。

附图说明

通过参考附图描述某些示例性实施例,实施例的上述方案和/或其他方案将变得更加明显,在附图中:

图1是示出根据示例性实施例的语音识别系统的图;

图2是示出根据示例性实施例的服务器的配置的框图;

图3是用于描述通过使用用户的口述语音的内容以及手册来生成响应信号的一个示例的图;

图4是用于描述根据示例性实施例,通过使用另一用户的口述语音的内容以及手册来生成响应信号的示例的图;

图5是用于描述根据示例性实施例的服务器和显示装置的操作的图;

图6是用于描述根据示例性实施例的显示装置的诊断结果的图;

图7是用于描述根据另一示例性实施例的显示装置的诊断结果的图;

图8是用于描述根据示例性实施例用来控制显示装置的控制信号的图;

图9是用于详细描述根据示例性实施例的存储单元和处理器的操作的图;

图10是示出根据示例性实施例的显示装置的配置的框图;

图11是示出根据示例性实施例的语音识别单元的配置的框图;

图12是用于描述根据示例性实施例的服务器控制方法的流程图;

图13是用于描述根据示例性实施例的显示装置控制方法的流程图;

图14是用于描述根据示例性实施例的显示装置的功能执行的流程图;

图15是用于描述根据示例性实施例的显示装置的操作状态诊断的流程图;

图16是用于整体描述根据示例性实施例的语音识别系统的图;以及

图17和图18是用于描述修改示例的图。

具体实施方式

可对本公开的示例性实施例进行各种修改。相应地,在图中示出并在具体实施方式中详细描述了具体的示例性实施例。然而,要理解的是,本公开不限于具体的示例性实施例,而是包括不背离本公开的范围和精神的所有修改、等同替代和替换。此外,没有详细描述众所周知的功能和结构,因为它们将会用不必要的细节使本公开变得含糊不清。

现在将参考附图更详细地描述某些示例性实施例。

在下面的描述中,将相同的附图标记用于相同的要素,即使在不同的图中。描述中定义的事物(例如,详细的结构和要素)被提供来协助全面理解实施例。因此,显而易见的是,可在没有这些具体定义的事物的情况下实现示例性实施例。此外,没有详细描述众所周知的功能和结构,因为它们将会用不必要的细节使实施例变得含糊不清。

下面将参照附图详细描述实施例。

图1是示出根据示例性实施例的语音识别系统10的图。图1中示出的语音识别系统10包括服务器100和显示装置200。

服务器100可以与显示装置200通信。具体地,服务器100可接收与用户的口述语音对应的口述语音信号和显示装置200的特征信息,并发送基于其生成的响应信号。显示装置200的特征信息可被划分为独有信息、设置信息和其他信息。独有信息可包括面板信息、显示装置200的类型信息等,且设置信息可包括由用户设置的音量信息、频道信息等。此外,其他信息可包括使用区域信息和使用时间信息。例如,独有信息可以是A制造商的智能电话,设置信息可以是频道6,且其他信息可以是9点到10点的使用时间。同时,口述语音信号可以是通过转换用户的口述语音获取的语音信号。例如,口述语音信号可以是通过从用户的口述语音移除噪声而获取的语音信号,或者是从模拟信号转换的数字语音信号。

此外,服务器100可存储多个显示装置200的手册。例如,服务器100可根据显示装置200的类型、制造商和功能来存储不同的手册。本文中的手册可以指代指导手册或用户指南。在细节上,手册可以是用于向使用具体装置的用户提供帮助的技术通信文档等。例如,手册可包括各种信息,包括各个装置的配置、功能、使用方法、解错方法、A/S中心连接信息、警告等。

在服务器100接收与用户的口述语音对应的口述语音信号以及特征信息时,服务器100可基于与特征信息对应的手册生成对口述语音信号的响应信号,并向显示装置200发送所生成的响应信号。本文中的响应信号可根据口述语音信号的内容通过各种方式实现。作为一个示例,在口述语音信号与对显示装置200的使用方法、操作或功能进行查询的内容相关联时,服务器100在手册中找到对查询的答复,该答复要包括在响应信号中。备选地,在口述语音信号与关于显示装置200的错误操作的内容相关联时,服务器100找到用于解决该不正确操作的解决方法,该解决方法要包括在响应信号中。此外,服务器100可生成并提供具有根据手册的各种内容和用户的口述语音信号的内容的响应信号。因此,用户甚至通过语音控制方法便可执行各种精确的控制。在下面将要描述的部分中,将详细描述根据口述语音信号的示例生成各种响应信号的示例性实施例。

同时,可通过广播接收装置(例如,智能电视或机顶盒)实现显示装置200,但这仅是示例性实施例,且可通过各种电子装置实现显示装置200,包括智能电话、桌面型PC、平板PC、笔记本PC、导航等。

此外,显示装置200可识别用户的口述语音。然而,这仅是示例,且显示装置200可通过外部装置识别用户的口述语音。例如,遥控器可识别用户的口述语音并向显示装置发送识别出的口述语音。除了遥控器之外,能够识别口述语音并与显示装置通信的任何电子装置都可识别口述语音并向显示装置发送识别出的口述语音。

显示装置200可确定用户的口述语音的类型。例如,可将用户的口述语音确定为用于控制显示装置200的操作的控制信号。备选地,可将用户的口述语音确定为针对显示装置200的功能和操作状态的信号。下面将详细描述确定口述语音的类型。

在将用户的口述语音确定为用于控制显示装置200的操作的控制信号时,显示装置200可执行与控制信号对应的操作。例如,在输入诸如“上调音量”的口述语音时,显示装置200可执行调高显示装置200的音量的操作。

同时,在将用户的口述语音确定为针对显示装置200的功能和操作状态的信号时,在显示装置200向服务器100发送与所输入的用户口述语音对应的口述语音信号和显示装置200的特征信息并从服务器100接收与用户的口述语音信号对应的响应信号的情况下,显示装置200可执行与响应信号对应的操作。在响应信号中包括引导消息时,显示装置200可显示该引导消息。

同时,描述了语音识别系统10包括上述显示装置200,语音识别系统10不限于此。例如,可替代显示装置200而使用任何包括语音识别功能的设备。然而,不具有显示功能的设备可支持语音支持功能等,而不是显示功能。之后,为了易于描述,将描述包括显示装置200的语音识别系统10。如上所述,语音识别系统10基于显示装置200的特征消息生成与用户的口述语音对应的响应信号,以允许用户更精确地控制显示装置200。

之后将参考图2至图8更详细地描述服务器100。

图2是示出根据示例性实施例的服务器100的配置的框图。图2中示出的服务器100包括存储单元110、通信单元120和处理器130。

存储单元110可存储多个显示装置200的手册。显示装置200的手册可根据显示装置200的类型、制造商和功能而彼此不同。

除了手册之外,存储单元110可存储各种程序和数据。作为一个示例,存储单元110可存储分析口述语音信号所需的程序和数据。此外,存储单元110可存储诸如用户的语音历史信息和EPG信息之类的信息。

通信单元120可以与显示装置200通信。在通信单元120从显示装置200接收与用户的口述语音对应的口述语音信号和显示装置200的特征信息时,通信单元120可向显示装置200发送与之对应的响应信号。为此,通信单元120可包括各种通信卡和模块,包括有线局域网(LAN)卡、无线LAN卡、蓝牙模块、近场通信(NFC)模块、无线通信模块等。在该情况下,无线通信模块指代根据包括IEEE、ZigBee、第三代(3G)、第三代伙伴计划(3GPP)、长期演进(LTE)等的通信标准执行通信的模块。

处理器130控制服务器100的整体操作。

处理器130作为一般用于对装置进行控制的组件可以与中央处理单元、微处理器、控制器等混用,且作为可控制装置的整体操作的组件可通过单芯片系统(芯片上的系统或片上系统(SoC))与诸如通信单元120等的其他功能单元一起来实现。

在处理器130从显示装置200接收显示装置200的特征信息时,处理器获取与特征信息对应的手册。本文中,显示装置200的特征信息可以是以下至少一项:面板信息、显示装置200的类型信息、用户区域信息和使用时间信息。处理器130可指定显示装置200,并基于显示装置200的独有信息(例如,特征信息中的面板信息和显示装置200的类型信息)决定对应的手册。

处理器130可控制通信单元120,使得可基于手册生成对口述语音信号的响应信号并向显示装置200发送所生成的响应信号。如上所述,本文中的响应信号可根据口述语音信号的内容通过各种方式实现。

图3是用于描述通过使用用户的口述语音的内容以及手册来生成响应信号的一个示例的图。

在口述语音是针对显示装置200的功能的信号时,处理器130可根据与显示装置200对应的手册生成用于对执行功能的方法进行引导的引导消息,并向显示装置200发送包括所生成的引导消息的响应信号。如图3中所示,在用户口述“请记录”时,将与输入的口述语音对应的口述语音信号与显示装置200的特征信息一起向服务器100发送。

处理器130通过通信单元120接收口述语音信号和特征消息。处理器130在存储单元110中存储的手册中检测与接收到的特征消息对应的手册。处理器130基于检测到的手册检查显示装置200是否具有外部装置记录功能。例如,在显示装置200是具有外部装置记录功能的型号时,处理器130可向显示装置200发送包括引导消息“请连接外部装置。”的响应信号。在该情况下,响应信号可包括用于显示引导消息的控制信号和用于在外部装置310连接到显示装置200时向服务器100通知连接状态的控制信号。因此,在用户在之后将外部装置310连接到显示装置200时,显示装置200可向服务器100发送外部装置连接完成信号。

在该情况下,外部装置可以是外部装置存储棒或连接到外部装置的各种存储介质,且可通过外部装置之外的各种有线接口(例如,HDMI)和各种无线接口(例如,WiFi、蓝牙等)来实现。

在处理器130从显示装置200接收外部装置连接完成信号时,处理器130关于外部装置连接完成之后的操作来检查手册。在图3中,假设首次使用外部装置,且假设在首次使用外部装置时,手册包括向用户请求格式的内容。因此,处理器130可基于手册向显示装置200发送包括引导消息“您是否想要格式化?”的响应信号。

在图3中,假设显示装置200是具有外部装置记录功能的显示装置200,然而显示装置200可以是不具有外部装置记录功能的显示装置或具有内部装置记录功能的显示装置,除了根据该型号的外部装置记录功能之外,内部装置记录功能还使用了嵌入式的存储设备。

在型号具有外部装置记录功能和内部装置记录功能二者的情况下,处理器130可在用户接收到口述语音“请记录”时向显示装置200发送包括引导消息“请选择外部装置或内部装置来作为要在其中记录程序或数据的存储器。”的响应信号。

在该情况下,在外部装置不正常连接且因此没有记录程序或数据时,可通过显示器或语音输出用于正常连接该外部装置的引导消息等。

相反,在型号不具有外部装置记录功能且仅具有内部装置记录功能的情况下,处理器可向显示装置200发送响应信号,该响应信号包括不执行对用于引导存储介质的连接的引导消息进行显示的操作并显示用于通知记录开始的引导消息的控制信号,或包括用于立即执行记录的控制信号。

图4是用于描述根据示例性实施例,通过使用另一用户的口述语音的内容以及手册来生成响应信号的示例的图。

在图3中,用户的口述语音是针对显示装置的功能的指令,而在图4中,用户的口述语音是与使用显示装置200的功能的方法有关的查询。如图4中所示,在用户口述“我如何记录?”时,将与输入的口述语音对应的口述语音信号与显示装置200的特征信息一起向服务器100发送。

通过接收口述语音信号和特征信息,处理器130检测手册中与接收到的特征信息对应的手册。处理器130基于检测到的手册来检查显示装置200如何执行记录。在图4中,假设在用户口述“我如何执行记录?”时,显示装置200提供用于选择要记录的节目以及要记录的节目的顺序的菜单,且该信息可存储在手册中。

处理器130可基于手册向显示装置200发送包括引导消息“请选择要记录的节目。”的响应信号。在该情况下,响应信号可包括用于显示引导消息的控制信号。此外,在用户关于要记录的节目进行口述时,响应信号可包括用于向服务器100通知针对于要记录的节目的口述语音信号的控制信号。

因此,在用户口述之后要记录的节目“ABCD”时,显示装置200可向服务器100发送口述语音信号“ABCD”。

在处理器130从显示装置200接收针对要记录的节目的口述语音信号时,处理器130关于决定要记录的节目之后的操作来检查手册。处理器130可基于手册向显示装置200发送包括引导消息“请选择ABCD中的记录顺序。”的响应信号。

在图4中,假设将节目ABCD识别为可记录的节目,但在不存在节目ABCD或广播时间已过时,处理器130可向显示装置200发送引导消息“您不能执行记录。”。

此外,在节目ABCD没有顺序且是短节目时,处理器130可生成用于允许显示装置200立即执行记录的响应信号。

此外,用户可查询显示装置200的操作状态或不正确的操作。在口述语音信号是针对显示装置200的操作状态的信号时,处理器130诊断显示装置200的操作状态,并可向显示装置200发送包括诊断结果的响应信号。操作状态表示显示装置200是否正常工作或显示装置200是否不正确地工作。

图5是用于描述根据示例性实施例的服务器100和显示装置200的操作的图。在图5中,假设用户口述“声音不正常”。

在用户口述“声音不正常”时,处理器130可向显示装置200发送包括诸如“您是否希望执行声音测试?”的引导消息的响应信号。

此外,处理器130可包括包含了控制命令的响应信号,以使得可允许显示装置200基于手册执行声音测试。如图5中示出的,在服务器100从显示装置200接收声音测试结果时,处理器130可根据该结果生成新的响应信号并向显示装置200发送所生成的响应信号,且可将诸如“音频线缆未正确连接。”的引导消息包括在新的响应信号中。

图6是用于描述根据示例性实施例的显示装置200的诊断结果的图。

在处理器诊断出显示装置200的操作状态是可自主解决的错误状态时,处理器130可向显示装置200发送新的响应信号,该新的响应信号包括用于引导诊断结果的解决方法的引导消息。处理器130还可基于手册来确定显示装置200的操作状态是否可自主解决。例如,如图6中所示,在作为根据口述语音信号执行声音测试的结果,音频线缆未正确连接时,处理器130可向显示装置200发送包括诸如“请如下连接音频线缆。”的引导消息的新响应信号。

图7是用于描述根据另一示例性实施例的显示装置200的诊断结果的图。

在处理器130诊断出显示装置200的操作状态是不可自主解决的错误状态时,处理器可向服务中心发送诊断结果以及显示装置200的特征信息。处理器130还可基于手册来确定显示装置200的操作状态是否可自主解决。例如,如图7中所示,虽然根据口述语音信号执行声音测试,声音测试自身可能未被执行或声音可能未被正常输出。在该情况下,处理器130可向显示装置200发送包括诸如“声卡未响应。我们将请求修复。”的引导消息的新响应信号。此外,处理器130可基于与显示装置200的特征消息对应的手册来请求对应显示装置200的制造商或服务中心进行修复。

图8是用于描述根据示例性实施例用来控制显示装置200的控制信号的图。

同时,在口述语音信号是用于控制显示装置200的操作的控制信号时,处理器130可向显示装置200发送包括与该控制信号对应的控制信号的响应信号。例如,如图8中所示,在输入用户的诸如“上调音量”的口述语音时,服务器100可从显示装置200接收与该口述语音对应的口述语音信号。

处理器130可确定接收到的口述语音信号是用于控制显示装置200的操作的信号。因此,处理器130可基于与特征信息对应的手册来向对应显示装置200发送包括用于控制该显示装置200的控制信号的响应信号。此外,处理器130可使得用于显示结果的信号与控制信号一起包括在响应信号中。同时,控制信号可根据显示装置200而不同。作为一个示例,智能电话中的上调音量信号与智能电视中的上调音量信号可以彼此不同,且因此,处理器130可生成与对应显示装置200对应的控制信号。

例如,在A制造商的智能电话的分辨率是WVGA,从用户输入用于重新生成具体图像的口述语音的情况下,处理器130可生成包括以下命令的响应信号并向显示装置200发送所生成的响应信号:重新生成具有不同分辨率的图像中具有WVGA的图像。

同时,在图8中,描述了即使口述语音信号是控制信号时,服务器100也发送对其的响应信号。然而,这是描述服务器100的示例性实施例之一,且显示装置200可直接执行与控制信号对应的操作。下面将对此进行描述。

图9是用于详细描述根据示例性实施例的存储单元110和处理器130的操作的图。

存储单元110包括对话代理模块111、动作代理模块112和手册模块113。具体地,手册模块113包括手册收集模块113-1、手册解析模块113-2、手册分析模块113-3和手册数据库113-4。

手册收集模块113-1是收集显示装置200的手册相关信息的模块。手册解析模块113-2是在所搜集的手册相关信息中将一系列的文本字符串分解为有意义的文本字符串并形成通过其构建的文本结构的模块。手册分析模块113-3是将所形成的文本结构改变为具有格式的手册的模块,可将该具有格式的手册存储在手册数据库113-4中。手册数据集113-4存储所生成的手册。

对话代理模块111是从与用户的口述语音对应的口述语音信号检测文本以分析用户输入的模块。动作代理模块112是根据与所提取的口述对象、对象区域、对象功能和主要特征有关的信息生成响应信号的模块。

CPU 131访问存储单元110,以通过使用存储单元110中的各种模块执行各种操作。此外,CPU 131将存储单元110中存储的各种模块拷贝到RAM 132中,并执行拷贝到RAM 132的模块以执行各种操作。

处理器130可关于在使用对话代理模块111时从与用户的口述语音对应的口述语音信号检测到的文本来提取口述对象、对象区域、对象功能和主要特征。例如,在用户口述“我如何执行记录?”时,处理器130从与用户的口述语音对应的口述语音信号提取文本,并分析提取出的文本以提取口述对象是查询显示装置200的功能,对象区域是使用显示装置200的功能的方法,以及对象功能对应于记录功能。

在使用动作代理模块112时,处理器130可基于与显示装置200的特征信息对应的手册生成响应信号。例如,在用户口述“我如何执行记录?”时,由于对象功能是记录功能,处理器130可提取手册中与记录功能有关的信息。此外,由于对象区域是使用显示装置200的功能的方法,处理器130可在与记录功能有关的信息中提取使用记录功能的方法。此外,由于口述对象是查询显示装置200的功能,处理器130可生成用于显示使用记录功能的方法的详细描述的响应信号。

处理器130不单独使用对话代理模块111和动作代理模块112,而是可在相应处理中基于从显示装置200接收到的特征信息和与其对应的手册来有机地使用对话代理模块111和动作代理模块112。

服务器100如上所述地生成与各个显示装置200的对应的响应信号,且因此,用户可以更加高效地控制显示装置200。

图10是示出根据示例性实施例的显示装置200的配置的框图。图10中示出的显示装置200包括语音识别单元210、通信单元220和处理器230。

同时,图10通过将以下情况用作示例综合性地示出了各种组件:显示装置200是具有包括语音识别功能、通信功能、显示功能等各种功能的装置。因此,在一些示例性实施例中,图10中示出了组件中的一些可被省略或修改,且还可添加其他组件。

语音识别单元210识别并处理包括用户语音的音频信号,以生成用户语音信号。在该情况下,语音识别单元210可位于显示装置200的主体中,但这仅是示例性实施例,且语音识别单元210可位于该主体外部(例如,遥控器或单独的麦克风)。在语音识别单元210位于主体外部时,语音识别单元210可通过有线/无线接口(例如,WiFi、蓝牙等)向显示装置200的主体发送所生成的用户语音信号。

将参考图11描述语音识别单元210识别包括用户语音的音频信号以生成用户语音信号的方法。

图11是示出根据示例性实施例的语音识别单元210的配置的框图。图11中示出的语音识别单元210包括麦克风211、模数转换器(ADC)212、能量确定单元213、噪声移除单元214和口述语音信号生成单元215。

麦克风211接收包括用户语音的模拟类型的音频信号。

此外,ADC 212将从麦克风输入的多通道模拟信号转换为数字信号。

此外,能量确定单元213计算所转换的数字信号的能量,以确定数字信号的能量是否大于等于预定值。在数字信号的能量大于等于预定值时,能量确定单元213向噪声消除单元214发送所输入的数字信号,以及在数字信号的能量小于预定值时,能量确定单元213不向外部输出所输入的数字信号,并等待另一输入。因此,不通过口述语音信号而是通过声音来不激活整个音频处理过程,以使得可防止不必要的功率消耗。

在将输入的数字信号输入到噪声移除单元214时,噪声移除单元214从包括噪声分量和用户口述语音分量的数字信号中移除噪声分量,并向口述语音信号生成单元215输出没有噪声分量的数字信号。在该情况下,作为可能在家庭环境中生成的零散噪声的噪声分量可包括空调声音、真空吸尘器声音、乐声等。

口述语音信号生成单元215通过使用定位/扬声器跟踪模块来跟踪在基于语音识别单元210的360°范围内存在的用户口述位置,以获取用户口述语音信号的方向信息。此外,通过目标口述声音提取,口述语音信号生成单元215通过使用没有噪声的数字信号和用户口述语音的方向信息来提取在基于语音识别单元210的360°范围内存在的目标声源,以生成口述语音信号。

同时,如上所述,通过移除不必要的环境噪声生成语音信号仅是示例性实施例,且实施例的技术本质也可以应用于通过确定用户语音中是否存在关键词来生成口述语音信号的示例性实施例。

返回图10,通信单元220执行与服务器100的通信。具体地,通信单元220可发送从语音识别单元210生成的用户口述语音信号以及显示装置200的特征信息,并从服务器100接收响应信号。在该情况下,通信单元120可由以太网、无线LAN、Wi-Fi等来实现,但不限于此。

处理器230控制显示装置200的整体操作。

处理器230可确定口述语音的类型。用户的口述语音可被确定为用于控制显示装置200的操作的控制信号或针对用户的显示装置200的功能和操作状态的信号。

在将用户的口述语音确定为用于控制显示装置200的操作的控制信号时,处理器230可执行与控制信号对应的操作。例如,在输入诸如“上调频道”的口述语音时,处理器可执行改变显示装置200的频道的操作。

同时,处理器230甚至可关于类似的口述语音来执行相同的功能。例如,虽然输入了不同的口述语音(例如“上调音量”和“提高声音”),处理器230可类似地执行提高音量的操作。然而,处理器不限于此,且可被配置为关于一个口述语音仅执行一个操作。例如,在输入诸如“上调音量”的口述语音时,处理器执行调高音量的操作,然而除此之外,在输入诸如“提高声音”、“调高音量”、“我听不到声音”等口述语音时,处理器230也可以不执行操作。

此外,虽然多个用户的口述语音彼此重叠,处理器也可执行对应操作。例如,即使在同时输入用户1的诸如“调高音量”的口述语音和用户2的诸如“我很饿了”的口述语音时,处理器230也可通过区分用户1和用户2的语音之间的不同来识别“上调音量”,并执行与之对应的操作。

同时,在用户的口述语音被确定为针对显示装置200的功能和操作状态的信号时,处理器230可向服务器100发送与所输入的用户口述语音对应的口述语音信号以及显示装置200的特征信息。然而,处理器230不限于此,且处理器230可接收针对显示装置200的功能和操作状态的信号,以执行与之对应的操作。例如,在处理器230接收到针对显示装置200的操作状态的口述语音时,处理器230可检查该操作状态并执行和显示所导致的诊断。然而,之后描述在用户的口述语音被确定为针对显示装置200的功能和操作状态的信号时,从服务器100提供对应的操作。此外,在处理器230从服务器100接收响应信号时,处理器230可执行与响应信号对应的操作。在细节上,在响应信号包括引导消息或诊断结果时,处理器230可显示引导消息或诊断结果。例如,引导消息可以是针对使用显示装置200的功能的每一步的消息,且诊断结果可以是通过诊断显示装置200对显示装置200是否正常进行指示的信息。

此外,在响应信号是用于执行对显示装置200进行诊断所需的操作的控制信号时,处理器230可根据控制信号执行操作,并通过通信单元120向服务器100发送操作状态。例如,在处理器230从服务器100接收用于诊断所显示图像的控制信号时,处理器230可根据接收到的控制信号检查所显示图像的质量、容量和显示状态,并向服务器100发送已检查的质量、容量和显示状态。

如上所述,显示装置200发送特征信息以通过用户的口述语音更高效地控制显示装置200的功能。

图12是用于描述根据示例性实施例的服务器100的控制方法的流程图。

服务器100可接收与显示装置200中输入的口述语音对应的口述语音信号以及显示装置200的特征信息(S1210)。在该情况下,口述语音信号可以是从模拟信号转换而来的数字信号。

此外,服务器100基于与特征信息对应的手册生成对口述语音信号的响应信号(S1220)。此外,服务器100向显示装置200发送所生成的响应信号(S1230)。

此外,在向显示装置200发送响应信号(S1230)中,在口述语音信号是针对显示装置200的功能的信号时,生成用于对根据与显示装置200对应的手册来执行功能的方法进行引导的引导消息,以向显示装置200发送包括引导消息的响应信号。

此外,在向显示装置200发送响应信号(S1230)中,在口述语音信号是针对显示装置200的操作状态的信号时,诊断显示装置200的操作状态,以向显示装置200发送包括诊断结果的响应信号。

此外,在向显示装置200发送响应信号(S1230)中,在确定显示装置200的操作状态是可自主解决的错误状态时,可向显示装置200发送还包括用于引导诊断结果的解决方法的引导消息的响应信号。

此外,在向显示装置200发送响应信号(S1230)中,在确定显示装置200的操作状态是不可自主解决的错误状态时,可向服务中心发送诊断结果和显示装置200的特征信息。

同时,特征信息可以包括以下至少一项:面板信息、显示装置200的类型信息、用户区域信息和使用时间信息。

图13是用于描述根据示例性实施例的显示装置200的控制方法的流程图。

显示装置200可识别用户的口述语音信号(S1310)。此外,确定口述语音是否是用于控制显示装置200的操作的控制信号(S1320)。在口述语音被确定为用于控制显示装置200的操作的控制信号时,执行与控制信号对应的操作(S1330)。

在确定口述语音不是用于控制显示装置200的操作的控制信号时,确定口述语音是否是针对显示装置200的功能和操作状态中至少之一的信号(S1340)。在本文中描述了确定口述语音的类型,其虽然被划分为两步,但不限于此。例如,显示装置200可同时确定口述语音是否是控制信号以及口述语音是否是针对功能和操作状态中至少之一的信号。

在口述语音被确定为针对显示装置200的功能和操作状态中至少之一的信号时,向服务器100发送显示装置200的特征信息以及与口述语音对应的口述语音信号(S1350)。显示装置200的特征信息可包括以下至少一项:面板信息、显示装置200的类型信息、用户区域信息和使用时间信息。在确定口述语音不是针对显示装置200的功能和操作中状态至少之一的信号时,可以不执行操作。

此外,控制方法还可包括:从服务器100接收根据与特征信息对应的手册以及口述语音信号的内容生成的响应信号,并处理与响应信号对应的操作。

此外,在处理与响应信号对应的操作中,在响应信号包括引导消息或诊断结果时,可显示引导消息或诊断结果。

此外,在处理与响应信号对应的操作中,在响应信号是用于处理对显示装置200进行诊断所需的操作的控制信号时,可处理根据控制信号的操作,且可向服务器发送操作状态。

此外,显示装置200的特征信息可包括以下至少一项:面板信息、显示装置200的类型信息、用户区域信息和使用时间信息。

图14是用于描述根据示例性实施例的显示装置200的功能执行的流程图。

首先,存在用户的记录请求(S1410)。可通过口述语音或通过操作按钮来输入用户的记录请求。此外,在口述语音是“现在请记录”时,显示装置200可立即开始记录,且在口述语音是“我如何记录?”时,显示装置200可向服务器100发送特征信息和与口述语音对应的口述语音信号。

在存在通过用户的口述语音的记录查询时,服务器100检查与显示装置200的特征信息对应的手册。假设对应手册中需要外部装置来进行记录。

服务器100生成用于检查外部装置是否连接到显示装置200的响应信号,并向显示装置200发送所生成的响应信号。此外,响应信号可包括在外部装置已连接时用于检查外部装置的状态的控制信号以及在未连接外部装置时用于显示连接外部装置的指令的控制信号。

接收响应信号的显示装置200检查外部装置(S1420)。在未连接外部装置时,给出连接外部装置的指令(S1425)。此外,在预定时间过去之后,可再次检查外部装置。

同时,作为检查外部装置的结果,在外部装置已连接时,检查外部装置的状态(S1430)。在首次使用外部装置时,向用户请求格式(S1435)。此外,在预定时间过去之后,可再次检查外部装置的状态。同时,作为检查外部装置的状态的结果,在首次使用外部装置时,执行记录(S1440)。

图15是用于描述根据示例性实施例的显示装置200的操作状态诊断的流程图。

首先,输入用户声音不正常的口述语音(S1510)。因此,显示装置200向服务器100发送特征信息和与口述语音对应的口述语音信号,且服务器检查与显示装置200的特征信息对应的手册。基于对应手册生成用于执行声音测试的响应信号。

从服务器100接收响应信号的显示装置200执行声音测试(S1520)。在通过执行声音测试,声音不正常时,确定用户处理是否可用(S1525)。可由显示装置200自身确定用户处理是否可用,但向服务器100发送声音测试的结果以由服务器100确定。

在确定用户处理不可用时,向服务中心发送特征信息(S1530)。这也可由显示装置200或服务器100执行。同时,在确定用户处理可用时,可向用户引导处理方法。

在确定操作状态正常,或即使通过执行声音测试操作状态不正常但用户处理可用时,首先检查线缆(S1540)。然而,实施例不限于此,且可优选检查声源。在线缆不正常时,做出线缆连接请求(S1545)。此外,在预定时间过去之后,可再次检查线缆。同时,在线缆正常时,显示指示线缆正常的消息(S1550)。

图14和图15中描述了根据各种示例性实施例的控制方法,然而不限于此。具体地,可根据显示装置200的制造商、类型等来使手册多样化,且关于图15中的用户口述语音“声音不正常”,可优选执行检查线缆或检查内容的语音数据,而不是声音测试。

图16是用于整体描述根据示例性实施例的语音识别系统10的图。

首先,输入用户的口述语音(S1610)。在显示装置200确定可能不对用户的口述语音直接进行处理时,可向服务器100发送与用户的口述语音对应的口述语音信号以及特征信息。服务器100从识别出的口述语音信号提取口述对象、对象区域、对象功能和主要特征(S1620)。此外,服务器100根据所提取的信息确定口述语音信号是否被用于控制显示装置200(S1630)。在确定口述语音信号未被用于控制显示装置200时,服务器100可以不生成响应信号,或生成允许显示装置200不执行操作的响应信号。在用户口述“今天的正餐是什么?”时,由于口述语音未被用于控制显示装置200,显示装置200可以不执行操作。

在确定口述语音信号被用于控制显示装置200时,服务器100确定口述语音信号是否是用于请求引导的口述语音信号(S1640)。在口述语音信号被确定为用于请求引导的口述语音信号时,服务器100基于手册生成响应信号,并向显示装置200发送所生成的响应信号。显示装置200根据接收到的响应信号进行操作(S1645)。在输入诸如“如何使用遥控器的触摸板功能?”的用户口述语音时,基于对应显示装置200的手册生成包括用于对使用遥控器的触摸板功能的方法进行引导的引导消息的响应信号,且显示装置200可显示该引导消息。

同时,在确定口述语音信号不是用于请求引导的口述语音信号时,服务器100确定口述语音信号是否是用于请求诊断的口述语音信号(S1650)。在确定是用于请求诊断的口述语音信号时,服务器100确定与属性对应的硬件是否存在问题(S1660)。在输入诸如“图像不正常。”的用户口述语音时,可确定在与图像属性对应的视频处理单元中是否存在问题,以及在输入诸如“语音不正常。”的用户口述语音时,可确定在与语音属性对应的音频处理单元中是否存在问题。

在确定硬件中存在问题时,向用户通知显示装置200的故障,且通过联系服务中心来请求服务支持(S1670)。在确定硬件中不存在问题时,显示装置200根据基于手册生成的响应信号进行操作(S1680)。在输入诸如“图像不正常。”的用户口述语音且确定视频处理单元中不存在问题时,可显示允许用户验证内容的消息或请求连接线缆的消息。

同时,在确定口述语音信号不是用于请求诊断的口述语音信号时,服务器100执行与口述语音信号对应的功能(S1635)。在用户口述“上调音量”时,显示装置200可以既不通过用于请求引导的口述语音信号也不通过用于请求诊断的口述语音信号,而是通过用于控制显示装置200的口述语音信号来执行调高音量的操作。在该情况下,显示装置200可基于在口述语音信号被发送到服务器100之后由服务器100生成的响应信号来执行调高音量的操作,然而显示装置200也可以在自身中执行调高音量的操作。在后一情况下,显示装置200甚至在其中具有语音识别功能,且可在不经过服务器100的情况下立即执行基本的语音识别操作。

上面将服务器100和显示装置200作为单独的装置分别进行了描述,然而可通过与之不同的方式来配置服务器100和显示装置200。

图17和图18是用于描述修改示例的图。

根据图17,语音识别系统10包括服务器100、显示装置200、语音识别服务器1710和数据库1720。将会省略对与前述配置重复的配置的描述。

显示装置200从用户接收口述语音,并将接收到的口述语音转换为口述语音信号,以向语音识别服务器1710发送已转换的口述语音信号。语音识别服务器1710可从接收到的口述语音信号中提取文本。语音识别服务器1710可再向显示装置200发送所提取的文本。

此外,显示装置200可向服务器100发送接收到的文本。服务器100分析接收到的文本以生成响应信号。服务器100可从数据库1720接收手册,并在生成响应信号期间使用接收到的手册。数据库1720可根据显示装置200的类型、制造商和功能来存储不同的手册。

在图17中,描述了语音识别服务器1710和数据库1720被配置为与服务器100分离的装置。

图18是用于描述在显示装置200中构建语音识别系统的图。根据图18,显示装置200包括语音输入单元210、存储单元240、显示单元250和处理器230。将会省略对与前述配置重复的配置的描述。

存储单元240可存储显示装置200的手册。在该情况下,仅针对对应于显示装置200的类型和功能的手册可被存储,且不需要存储针对所有其他显示装置200的手册。因此,显示装置200的存储单元240中存储的手册在信息量上可以小于在服务器100的存储单元110中存储的手册。此外,存储单元240可存储用于语音识别的数据。

在由语音输入单元210输入用户的口述语音时,处理器230通过使用存储单元240中存储的用于语音识别的数据从用户的口述语音中提取文本。此外,处理器230分析所提取的文本,以基于显示装置200的存储单元240中存储的手册来操作显示装置200。

根据图18的配置,显示装置200识别和分析其中的用户口述语音,以执行所导致的操作,且因此,显示装置200可具有与图1的语音识别系统相比更简单的配置。作为存储单元240中存储的信息,仅需要与对应显示装置200对应的信息且不需要执行与服务器100的通信,且因此,也可以不提供通信单元220。然而,提供通信单元220以处理与复杂口述语音对应的用于从服务器100接收响应信号的操作。

如上所述,根据各个示例性实施例,用户可通过口述语音控制显示装置200,在细节上,基于显示装置200的特征信息生成各种那个响应信号,以提高控制显示装置200的便利性和效率。

同时,将根据各个示例性实施例的方法编程为存储在各个存储介质中。因此,在实现存储介质的各种类型的电子装置中,可实现根据各个示例性实施例的方法。

在细节上,根据示例性实施例,可提供存储程序的非易失性计算机可读介质,该程序顺序执行:识别用户的口述语音,确定口述语音的类型,以及在将口述语音确定为用于控制显示装置的操作的控制信号时,处理与控制信号对应的操作,以及在将口述语音确定为针对计算机控制下的显示装置的功能和操作状态至少之一的信号时,向服务器发送显示装置的特征信息和与口述语音对应的口述语音信号。

非易失性计算机可读介质指的不是短时存储数据的介质(例如寄存器、高速缓存器、内存等),而是半持久性地存储数据并可被装置读取的介质。在细节上,可提供各种应用或程序,其同时存储在非易失性计算机可读介质(例如,CD、DVD、硬碟、蓝光碟、USB、存储卡、ROM等)中。

根据各种示例性实施例,显示装置和服务器基于与显示装置的特征数据对应的手册来根据与口述语音对应的口述语音信号生成响应信号,以执行与响应信号对应的操作,由此提高控制显示装置时的用户满意度。

前述示例性实施例和优点仅是示例性的,且不被解释为对实施例进行限制。本公开可被容易地应用于其他类型的装置。此外,示例性实施例的描述旨在是示意性的,而不是限制权利要求的范围,且很多的备选、修改和变型对于本领域技术人员而言将会是显而易见的。

相关技术
  • 语音识别系统、服务器、显示装置及其控制方法
  • 语音识别系统、服务器、显示装置及其控制方法
技术分类

06120113256273