掌桥专利:专业的专利平台
掌桥专利
首页

代理系统、终端装置以及代理程序

文献发布时间:2023-06-19 11:57:35


代理系统、终端装置以及代理程序

技术领域

本公开涉及代理系统、终端装置以及代理程序。

背景技术

专利文献1中公开了一种用于通过单一的语音对话代理来利用多个服务的语音对话方法。在该语音对话方法中,在某服务的利用中欲利用别的服务的情况下,为了避免各服务发生冲突而进行例如使一方的服务中断并执行另一方的服务等的服务的中断处理。

现有技术文献

专利文献

专利文献1:日本特开2018-189984号公报

发明内容

发明所要解决的课题

要求如下的技术,即,即使在通过多个语音对话代理来利用多个服务的情况下,也不会使各服务发生冲突而能够跨越多个语音对话代理来同时利用多个服务。

本公开鉴于上述内容而完成,其目的是提供一种能够跨越多个语音对话代理来同时利用多个服务的代理系统、终端装置以及代理程序。

用于解决课题的技术手段

本公开的代理系统具备:第一服务器,具备第一处理器,该第一处理器具有硬件且根据使用者的要求而将第一内容向终端装置输出;第二服务器,具备第二处理器,该第二处理器具有硬件且根据所述使用者的要求而将第二内容向终端装置输出;以及第三服务器,具备第三处理器,该第三处理器具有硬件且在从所述第一服务器取得的所述第一内容的执行过程中由所述使用者要求了所述第二内容的执行的情况下,从所述第二服务器取得所述第二内容,并基于预先设定的冲突处理方针来决定是否执行所述第一内容以及所述第二内容。

本公开的终端装置具备处理器,该处理器具有硬件,所述处理器在从第一服务器取得的第一内容的执行过程中由使用者要求了第二内容的执行的情况下,从第二服务器取得所述第二内容,并基于预先设定的冲突处理方针来决定是否执行所述第一内容以及所述第二内容。

本公开的存储有代理程序的记录介质中,该代理程序使具有硬件的处理器执行以下动作:在从第一服务器取得的第一内容的执行过程中由使用者要求了第二内容的执行的情况下,从第二服务器取得所述第二内容,并基于预先设定的冲突处理方针来决定是否执行所述第一内容以及所述第二内容。

发明效果

根据本公开,即使在通过多个语音对话代理来利用多个服务的情况下,也能够不使各服务发生冲突而跨越多个语音对话代理来同时利用多个服务。

附图说明

图1是概略性地表示实施方式的代理系统以及终端装置的图。

图2是概略性地表示实施方式的代理系统以及终端装置的构成的框图。

图3是表示实施方式的代理系统、终端装置以及代理程序执行的语音对话方法的处理步骤的一例的流程图。

具体实施方式

参照附图对本公开的实施方式的代理系统、终端装置以及代理程序进行说明。需要说明的是,下述实施方式中的构成要素包括本领域技术人员能够且容易置换的要素或者实质上相同的要素。

(代理系统/终端装置)

参照图1以及图2对本实施方式的代理系统以及终端装置的构成进行说明。本实施方式的代理系统、终端装置以及代理程序用于向使用者提供多个语音对话代理(以下称为“代理”)的服务。

在此,“使用者”是通过终端装置来利用多个代理的服务的人。本实施方式中的终端装置假定搭载于车辆的车载装置。因此,使用者为包括例如车辆的驾驶员在内的乘员。需要说明的是,终端装置并不限定为搭载于车辆的车载装置,也可以为例如使用者持有的信息终端装置。作为该信息终端装置,可列举例如手机、平板终端、可穿戴计算机、个人计算机等。

如图1所示,代理系统1具有:具备车载装置11的车辆10、第一VPA(VirtualPersonal Assistant:虚拟个人助理)服务器20、第二VPA服务器30、第一服务服务器40和第二服务服务器50。本实施方式的终端装置具体而言由车载装置11来实现。车辆10、第一VPA服务器20、第二VPA服务器30、第一服务服务器40以及第二服务服务器50构成为能够通过网络NW来相互通信。该网络NW由例如互联网网络、手机网络等构成。

本实施方式中的代理系统1利用了两个VPA服务器,不过VPA服务器的数目也可以为三个以上。并且,在本实施方式中,第一VPA服务器20是用于实现代理A的功能的服务器装置,第二VPA服务器30是用于实现代理B的功能的服务器装置。代理A根据使用者的要求而向使用者提供第一服务服务器40的服务C和第二服务服务器50的服务D。同样,代理B根据使用者的要求而向使用者提供第一服务服务器40的服务C和第二服务服务器50的服务D。需要说明的是,在本实施方式中,在统称代理A、B的情况下表述为“代理”,在统称第一VPA服务器20以及第二VPA服务器30的情况下表述为“VPA服务器”或“代理服务器”。

服务C以及服务D可以为相同种类的服务(例如音乐流播服务),或者也可以为不同种类的服务(例如服务C为音乐流播服务,服务D为天气信息服务)。需要说明的是,在本实施方式中,在统称服务C、D的情况下表述为“服务”。

并且,本实施方式中的代理系统1利用了两个服务服务器,不过服务服务器的数目也可以为三个以上。并且,在本实施方式中,第一服务服务器40是用于提供使用了内容E的服务C的服务器装置,第二服务服务器50是用于提供使用了内容F的服务D的服务器装置。该内容E以及内容F可以为相同种类的内容(例如音乐),或者也可以为不同种类的内容(例如内容E为音乐,内容F为天气信息)。需要说明的是,在本实施方式中,在统称内容E、F的情况下表述为“内容”,在统称第一服务服务器40以及第二服务服务器50的情况下表述为“服务服务器”。

(车辆)

如图2所示,车辆10具备车载装置11、通信部12和存储部13。车载装置11是例如搭载于车辆10的汽车导航装置。车载装置11具备控制部111、显示部(显示器)112、按钮113、麦克风114和扬声器115。

具体而言,控制部111具备由CPU(Central Processing Unit:中央处理器)、DSP(Digital Signal Processor:数字信号处理器)、FPGA(Field-Programmable Gate Array:现场可编程门阵列)等构成的处理器和由RAM(Random Access Memory:随机存取存储器)、ROM(Read Only Memory:只读存储器)等构成的存储器(主存储部)。

控制部111将储存于存储部13的程序下载至主存储部的作业区域并执行,通过程序的执行来控制各构成部等,由此实现与规定的目的一致的功能。控制部111通过储存于存储部13的程序的执行而作为显示控制部111a、语音识别部111b以及冲突处理部111c起作用。

显示控制部111a对显示部112的显示内容进行控制。显示控制部111a基于使用者的操作而使与操作对应的画面显示于显示部112。并且,显示控制部111a根据使用者的要求而使从第一服务服务器40以及第二服务服务器50输入的内容数据显示于显示部112。作为“内容数据”,可列举例如音乐和天气信息等。

语音识别部111b是进行自动语音识别(Automatic Speech Recognition:ASR)处理以及自然语言理解(Natural language understanding:NLU)的语音识别引擎。

语音识别部111b基于从麦克风114输入的使用者的讲话语音来检测使用者的讲话并识别讲话内容。接着,语音识别部111b判定使用者的讲话语音中包含的指示是向多个代理A、B中的哪个代理的指示。接着,语音识别部111b向实现判定出的代理的功能的代理服务器(第一VPA服务器20或第二VPA服务器30)传递使用者的讲话语音。接着,语音识别部111b从服务服务器(第一服务服务器40或第二服务服务器50)取得内容数据。

具体而言,语音识别部111b将使用者的讲话语音转换成文本数据,在该文本数据中包含指定代理的短语的情况下,判定为是向该代理的指示。在此,“指定代理的短语”表示用于调用代理的唤醒短语(Wake up Phrase;称为WuP)。需要说明的是,唤醒短语也称为“唤醒词(Wake Word)”。

冲突处理部111c在执行已从某服务服务器(例如第一服务服务器40)取得的先发内容(例如音乐)的过程中由使用者要求了别的后发内容(例如天气信息)的执行的情况下,从管理后发内容的服务服务器(例如第一服务服务器40)取得后发内容。并且,冲突处理部111c基于预先设定的冲突处理方针来决定是否执行两个内容。

冲突处理方针例如已预先通过矩阵等来确定各代理中可能发生冲突的内容之间的优先度。并且,冲突处理方针通过针对内容的每个种类(例如二进制文件、流播数据等)来设置执行的优先度而决定。

具体而言,冲突处理部111c基于冲突处理方针,在先执行了先发内容以及后发内容中的某一方之后,执行先发内容以及后发内容中的另一方。由此,不会出现例如在先发内容的执行过程中后发内容发生重叠而被执行(例如在某音乐的播放中同时播放天气信息的声音)的情况,因此能够在不使多个服务相互冲突的情况下利用多个服务。

显示部112由例如LCD(液晶显示器)、OELD(有机EL显示器)等构成,基于显示控制部111a的控制来显示信息。按钮113是供使用者在讲话时按下的按钮。按钮113由例如设置在车辆10的方向盘等上的推压式的物理性的按钮或者显示于显示部112的虚拟按钮构成。

在此,本实施方式中的代理存在多个调用方法(启动方法)。例如在向代理B(第二VPA服务器30)指示天气信息的提供的情况下,使用者如以下的(1)、(2)那样讲话。

(1)说出“代理B、请告知今天的天气”。

(2)按下按钮113并说出“请告知今天的天气”。

(1)是使用了唤醒短语的方法,使用者说出包括对代理B进行指定的短语和针对代理B的指示在内的短语。

(2)是取代唤醒短语而使用了按钮113的方法。需要说明的是,“按下按钮113并讲话”包括按压按钮113并在松开之后讲话的情况(Push-to-Talk/Tap-to-Talk:即按即通)和在按住按钮113不松的状态下讲话并在讲话完毕之后松开按钮113的情况(Hold-to-Talk:按住讲话)这两个模式。如此,通过按下按钮113并讲话,能够省略唤醒短语。

并且,在利用代理时,还可以经由指定的代理来调用其他的代理。例如在经由代理A(第一VPA服务器20)向代理B(第二VPA服务器30)指示天气信息的提供的情况下,使用者如以下的(3)那样讲话。

(3)说出“代理A、代理B,请告知今天的天气”。

麦克风114是受理来自使用者的语音输入的输入部。麦克风114例如在使用者向代理(VPA服务器)进行指示时使用。扬声器115是向使用者输出声音的输出部。扬声器115例如在代理基于使用者的指示而对使用者进行应答时使用。

通信部12由例如DCM(Data Communication Module:数据通信模块)等构成,通过经由网络NW的无线通信,在与第一VPA服务器20、第二VPA服务器30、第一服务服务器40以及第二服务服务器50之间进行通信。

存储部13由EPROM(Erasable Programmable ROM:可擦除可编程只读存储器)、硬盘驱动器(Hard Disk Drive:HDD)以及可移动介质等记录介质构成。作为可移动介质,可列举例如USB(Universal Serial Bus:通用串行总线)存储器、CD(Compact Disc:光盘)、DVD(Digital Versatile Disc:数字通用光盘)、BD(Blu-ray(注册商标)Disc:蓝光光盘)的光盘记录介质。并且,在存储部13能够储存操作系统(Operating System:OS)、各种程序、各种表格、各种数据库等。在存储部13根据需要而储存例如使用者的对话内容的数据、使用者的讲话语音的识别结果的数据等。

(第一VPA服务器)

第一VPA服务器20具备控制部21、通信部22和存储部23。通信部22以及存储部23的物理性的构成与通信部12以及存储部13相同。

具体而言,控制部21具备由CPU(Central Processing Unit)、DSP(DigitalSignal Processor)、FPGA(Field-Programmable Gate Array)等构成的处理器和由RAM(Random Access Memory)、ROM(Read Only Memory)等构成的存储器(主存储部)。控制部21通过储存于存储部23的语音对话代理的程序的执行来实现语音对话代理的功能。并且,控制部21通过储存于存储部23的程序的执行来作为语音识别部211起作用。

语音识别部211具有与语音识别部111b相同的功能,通过将从车载装置11传递来的使用者的讲话语音转换成文本数据来识别该使用者的讲话语音。并且,语音识别部211根据使用者的讲话语音中包含的要求而使内容数据从第一服务服务器40或第二服务服务器50向车载装置11输出。

语音识别部211将与使用者的对话内容作为该使用者的爱好信息积存于存储部23,在进行以从车载装置11传递的使用者的讲话语音的识别结果为基础的处理时,可以进行考虑了使用者的爱好信息的处理。例如在使用者向代理A频繁地指示指定的类型(例如古典乐)的音乐的播放的情况下,语音识别部211将“使用者喜爱的音乐的类型:古典乐”这样的信息作为爱好信息积存于存储部23。并且,语音识别部211在由使用者向代理A进行了“音乐的播放”的指示的情况下,使古典乐的音乐流播数据从第一服务服务器40或第二服务服务器50向车载装置11输出。由此,能够接受按照使用者的爱好的服务,因此便利性提高。

在存储部23储存有第一VPA服务器20实现的语音对话代理的程序。并且,在存储部23根据需要而储存例如使用者的对话内容的数据、使用者的讲话语音的识别结果的数据等。需要说明的是,从隐私保护的角度出发这些信息也可以在利用后从存储部23删除。

(第二VPA服务器)

第二VPA服务器30具备控制部31、通信部32和存储部33。控制部31、通信部32以及存储部33的物理性的构成与控制部21、通信部12以及存储部13相同。控制部31通过储存于存储部33的语音对话代理的程序的执行来实现语音对话代理的功能。并且,控制部31通过储存于存储部33的程序的执行来作为语音识别部311起作用。

语音识别部311具有与语音识别部111b相同的功能,通过将从车载装置11传递来的使用者的讲话语音转换成文本数据来识别该使用者的讲话语音。并且,语音识别部311根据使用者的讲话语音中包含的要求而使内容数据从第一服务服务器40或第二服务服务器50向车载装置11输出。并且,语音识别部311与语音识别部211一样将与使用者的对话内容作为该使用者的爱好信息积存于存储部33,在进行以从车载装置11传递来的使用者的讲话语音的识别结果为基础的处理时,可以进行考虑了使用者的爱好信息的处理。由此,能够接受按照使用者的爱好的服务,因此便利性提高。

在存储部33储存有第二VPA服务器30实现的语音对话代理的程序。并且,在存储部33根据需要而储存例如使用者的对话内容的数据、使用者的讲话语音的识别结果的数据等。需要说明的是,从隐私保护的角度出发这些信息也可以在利用后从存储部33删除。

(第一服务服务器)

第一服务服务器40是管理内容的服务器装置,基于第一VPA服务器20或第二VPA服务器30的控制而向车载装置11输出内容数据。第一服务服务器40具备控制部41、通信部42和存储部43。控制部41、通信部42以及存储部43的物理性的构成与控制部21、通信部12以及存储部13相同。

(第二服务服务器)

第二服务服务器50是管理内容的服务器装置,基于第一VPA服务器20或第二VPA服务器30的控制而向车载装置11输出内容数据。第二服务服务器50具备控制部51、通信部52和存储部53。控制部51、通信部52以及存储部53的物理性的构成与控制部21、通信部12以及存储部13相同。

(语音对话方法)

参照图3对本实施方式的代理系统1以及终端装置执行的语音对话方法的处理步骤进行说明。以下,说明在“与音乐的内容相比优先执行天气信息的内容”这样的冲突处理方针的基础上利用多个服务的情况下的语音对话方法。并且,在图3中,为了说明的方便,关于使用者进行讲话的步骤,也图示于语音对话方法的流程图内。

首先,在使用者说出“代理B,用服务C播放某某歌曲”时(步骤S1),该讲话语音的数据通过麦克风114被输入车载装置11。接着,车载装置11的语音识别部111b检测使用者的讲话(步骤S2),并将使用者的讲话语音向第二VPA服务器30传递(步骤S3)。

接着,第二VPA服务器30的语音识别部311进行语音识别处理以及意图理解处理(步骤S4)。接着,第二VPA服务器30的控制部31基于识别结果来生成内容控制信号,将该内容控制信号向第一服务服务器40输出(步骤S5)。接受到该内容控制信号之后,第一服务服务器40的控制部41将使用者要求的内容数据(音乐流播数据)向车载装置11输出(步骤S6)。接着,车载装置11的控制部111执行从第一服务服务器40取得的内容(音乐)(步骤S7)。在该情况下,控制部111通过扬声器115来播放音乐。

接着,在音乐的播放中使用者说出“代理A,东京的天气如何?”时(步骤S8),该讲话语音的数据通过麦克风114被输入车载装置11。接着,语音识别部111b检测使用者的讲话(步骤S9),并将使用者的讲话语音向第一VPA服务器20传递(步骤S10)。

接着,第一VPA服务器20的语音识别部211进行语音识别处理以及意图理解处理(步骤S11)。接着,第一VPA服务器20的控制部21基于识别结果来生成内容控制信号,并将该内容控制信号向第二服务服务器50输出(步骤S12)。接受到该内容控制信号之后,第二服务服务器50的控制部51将使用者要求的内容数据(天气信息)向车载装置11输出(步骤S13)。

接着,冲突处理部111c停止内容(音乐)的执行(步骤S14),将状态信息向第二VPA服务器30输出(步骤S15)。需要说明的是,“状态信息”是与利用车载装置11执行过程中的内容的状态有关的信息。例如作为音乐流播数据的情况下的状态信息,包括歌曲名、专辑名、歌手名等能够确定歌曲的信息和歌曲的中断位置等信息。

接着,控制部31基于状态信息来生成内容控制信号,将该内容控制信号向第一服务服务器40输出(步骤S16)。接受到该内容控制信号之后,控制部41中断内容数据(音乐流播数据)的输出(步骤S17)。接着,控制部111执行从第二服务服务器50取得的内容(天气)(步骤S18)。在该情况下,控制部111通过例如显示部112以及扬声器115来提示东京的天气信息。

在内容(天气)的执行完毕时,冲突处理部111c将状态信息向第二VPA服务器30输出(步骤S19)。接着,控制部31基于状态信息来生成内容控制信号,将该内容控制信号向第一服务服务器40输出(步骤S20)。接受到该内容控制信号之后,控制部41重新开始内容数据(音乐流播数据)的输出(步骤S21)。接着,控制部111重新开始从第一服务服务器40取得的内容(音乐)的执行(步骤S22)。

在此,在以往的代理系统中,在单一的代理内同时利用多个服务的情况(例如在代理A的音乐流播的利用过程中利用代理A的天气信息服务的情况)下,为降低音乐的音量并播放天气信息的声音等考虑了内容之间的中断的设计。然而,在以往的代理系统中,没有假定例如跨越多个代理来利用多个服务的情况(例如在代理A的音乐流播的利用中利用代理B的天气信息服务的情况)。因此,在以往的代理系统中,会产生使多个内容的声音重叠并输出或者各代理的服务器以及客户端之间的状态不一致等问题。

另一方面,根据本实施方式的代理系统1、终端装置以及代理程序,在某内容的执行过程中使用者要求了别的内容的执行的情况下,进行先发后发的内容不发生冲突的处理。因此,在通过多个代理来利用多个服务的情况下,也能够不使各服务发生冲突而跨越多个代理来同时利用多个服务。

由本领域技术人员能够容易地导出进一步的效果和变形例。因此,本发明的更广泛的方案并不限定于以上那样表达且记述的指定的详细内容以及代表性的实施方式。因此,能够不从由添附的权利要求书以及其等同物定义的总结性的发明的概念的精神或范围脱离而进行各种各样的变更。

例如在实施方式的代理系统1、终端装置以及代理程序中,使第一VPA服务器20和第一服务服务器40分别为分开的结构进行了说明,但是第一VPA服务器20和第一服务服务器40也可以构成为一个。同样,在实施方式的代理系统1、终端装置以及代理程序中,使第二VPA服务器30和第二服务服务器50分别为分开的结构进行了说明,但是第二VPA服务器30和第二服务服务器50也可以构成为一个。

标号说明

1 代理系统

10 车辆

11 车载装置

111 控制部

111a 显示控制部

111b 语音识别部

111c 冲突处理部

112 显示部

113 按钮

114 麦克风

115 扬声器

12 通信部

13 存储部

20 第一VPA服务器

21 控制部

211 语音识别部

22 通信部

23 存储部

30 第二VPA服务器

31 控制部

311 语音识别部

32 通信部

33 存储部

NW 网络

相关技术
  • 代理系统、终端装置以及代理程序
  • 代理程序系统及媒体及运行代理程序系统的管理方法
技术分类

06120113112015