信息撷取装置及其语音控制方法

文献发布时间：2023-06-19 11:45:49

本申请是分案申请，原申请号为201810766545.1，申请日为2018年7月13日，发明名称为“信息撷取装置及其语音控制方法”。

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种信息撷取装置及其语音控制方法。

背景技术

警护人员在执行警务工作时，为了搜集证据往往需要进行录音录影，以保全相关的证据。因此，警护人员在出勤时可通过配戴信息撷取装置来撷取周遭环境影像、声音等媒体资料以协助执行警务工作，且信息撷取装置所记录的媒体资料还可记录事件发生的时的现场情况，用以提供日后举证、厘清责任的用。

目前，在使用上，使用者须通过操作信息撷取装置上的启动开关，开启携带式信息撷取装置进行撷取环境资料。然而，在紧急情况下，使用者往往没时间手动启动撷取，抑或启动时已错失撷取关键情况的影像和/或声音的时间点。此外，若使用者欲了解信息撷取装置的装置信息，例如剩余电量和/或容量等信息，使用者同样须通过操作信息撷取装置上的功能开关，开启携带式信息撷取装置显示即时信息撷取。

发明内容

本发明实施例提供了一种信息撷取装置及其语音控制方法，以及时进行信息撷取。

第一方面，本发明实施例提供了一种信息撷取装置的语音控制方法，其包含：接收声音信号、进行声音信号的语音辨识以得到实际语音内容、根据实际语音内容确认至少一指令语音内容、于实际语音内容对应于任一指令语音内容时，取得对应指令语音内容的操作指令以及响应操作指令执行对应操作指令的动作。

可选的，响应操作指令执行对应操作指令的动作的步骤包括：响应操作指令读取对应操作指令的装置信息；播放装置信息的回应语音。

可选的，操作指令为一启动录制指令，以及响应操作指令执行对应操作指令的作的步骤包括：响应启动录制指令控制一影音录制单元进行影音录制以撷取一环境资料。

可选的，操作指令为一结束录制指令，以及响应操作指令执行对应操作指令的动作的步骤包括：响应结束录制指令控制影音录制单元结束影音录制以生成环境资料。

可选的，方法还包括：根据一声纹资料确认声音信号；当声音信号与声纹资料相符时，才进行声音信号的语音辨识的步骤；当声音信号与声纹资料不相符时，不进行声音信号的语音辨识的步骤且舍弃声音信号。

第二方面，本发明实施例提供了一种信息撷取装置，包含麦克风、语音辨识单元、控制单元以及影音录制单元。麦克风接收一语音以生成对应的声音信号。语音辨识单元耦接麦克风，进行声音信号的语音辨识以得到一实际语音内容。影音录制单元进行影音录制以撷取一环境资料；控制单元耦接语音辨识单元以及影音录制单元，当实际语音内容对应于指令语音内容时，取得对应指令语音内容的操作指令，响应操作指令执行对应操作指令的动作。

可选的，信息撷取装置还包括一扬声器，其中在响应操作指令执行对应操作指令的动作中，控制单元响应操作指令读取对应操作指令的装置信息，并且经由扬声器播放装置信息的回应语音。

可选的，操作指令为一启动录制指令，以及在响应操作指令执行对应操作指令的动作中，控制单元响应启动录制指令控制影音录制单元进行影音录制以撷取环境资料。

可选的，操作指令为一结束录制指令，以及在响应操作指令执行对应操作指令的动作中，控制单元响应结束录制指令控制影音录制单元结束影音录制以生成环境资料。

可选的，控制单元还根据一声纹资料确认声音信号；其中，当声音信号与声纹资料相符时，控制单元才进行声音信号的语音辨识；以及当声音信号与声纹资料不相符时，控制单元不进行声音信号的语音辨识且舍弃声音信号。

综上所述，本发明实施例的信息撷取装置及其语音控制方法，能通过语音辨识声音信号以得到实际语音内容，进而取得对应的操作指令，因应操作指令来执行对应操作指令的动作。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明一实施例的信息撷取装置的电路方框图；

图2为本发明一实施例的信息撷取装置的语音控制方法的流程图；

图3为本发明另一实施例的信息撷取装置的电路方框图；

图4为本发明又一实施例的信息撷取装置的语音控制方法的流程图；

图5为本发明又一实施例的信息撷取装置的语音控制方法的流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、软件实现、硬件实现等等。

图1为本发明一实施例的信息撷取装置的电路方框图。图2为本发明一实施例的信息撷取装置的语音控制方法的流程图。请参阅图1及图2，信息撷取装置100包括麦克风110、语音辨识单元120及控制单元130。麦克风110与语音辨识单元120耦接，语音辨识单元120与控制单元130耦接。

如图2所示，本实施方式中的信息撷取装置的语音控制方法包括：

步骤S01，接收声音信号。

具体的说，本实施方式中的麦克风110接收来自使用者发出的语音，麦克风110具有信号处理电路。但在图1中未对信号处理电路进行绘出，麦克风中所包含的信号处理电路能够将语音生成对应的一声音信号，从而实现通过麦克风接收一声音信号。并且麦克风通过信号处理电路所获取的声音信号的形式具体可以为物理声波，而通过信号处理电路转换后的声音信号的形式具体可以为数位信号。

步骤S03，进行声音信号的语音辨识以得到实际语音内容。

具体的说，本实施方式中信息撷取装置100还包括储存模块150，如图3所示为另一实施例的信息撷取装置的电路方框图，并且储存模块150耦接控制单元130。在储存模块150中储存有一个语音模型资料库，其中，语音模型资料库包括字、词与句子等构成的多组字串的语音信号。

其中，语音辨识单元120获取麦克风110所生成的声音信号，并且对声音信号进行语音辨识，以得到实际语音内容。本实施方式中，语音辨识单元120分析声音信号以撷取声音信号的至少一特征，并且将声音信号的特征与语音模型资料库的资料进行识别或比对以选取或判断声音信号的文字内容，从而取得符合声音信号的特征的实际语音内容。由于语音模型资料库包括字、词与句子等构成的多组字串的语音信号，因此语音辨识单元120通过分析比对声音信号与语音模型资料库的语音信号的特征以获得实际语音内容。此过程中涉及到了语音识别的相关技术，由于关于语音识别的具体工作原理并不是本申请的重点，因此本实施方式中不再进行赘述。

步骤S05，根据实际语音内容确认至少一指令语音内容。

具体的说，控制单元130根据实际语音内容确认至少一指令语音内容。在本实施方式中，在储存模块150中还包含一查询表，在图3中未对控制单元130中的查询表进行绘制，而在查询表中包含实际语音内容与指令语音内容之间的对应关系。在执行过程中控制单元130根据所获取的实际语音内容通过在查询表中进行遍历，以确认与实际语音内容所匹配的至少一指令语音内容。

步骤S07，当实际语音内容对应于任一指令语音内容时，取得对应指令语音内容的操作指令。

其中，当实际语音内容对应于任一指令语音内容，也即实际语音内容可以完全对应于指令语音内容或是对应于指令语音内容及其他非指令语音内容(例如是环境音内容)时，控制单元130根据实际语音内容所对应的指令语音内容而取得对应指令语音内容的一操作指令。在本实施方式中，对应于任一指令语音内容的实际语音内容可以完全相同指令语音内容；或者，对应于任一指令语音内容的实际语音内容可以有一定比例以上的内容相同于指令语音内容；或者，对应于任一指令语音内容的实际语音内容可包括相同于指令语音内容的内容及不同于指令语音内容的其他内容(例如是环境音内容)。

步骤S09，响应操作指令执行对应操作对应操作指令的动作。

需要说明的是，在查询表中不仅包含实际语音内容与指令语音内容之间的对应关系，同时还包括指令语音内容与操作指令的对应关系，因此控制单元130可从查询表中取得对应找到的指令语音内容的操作指令，进而执行对应的动作。

图4为本发明又一实施例的信息撷取装置的语音控制方法的流程图。如图4所示，本实施例相对于图2所对应的实施例来说，在执行步骤S03之前，增加了步骤S02，控制单元130还可以根据一声纹资料确认声音信号。其中，步骤S03至步骤S09与前述大致相同。

步骤S01，接收声音信号。

步骤S02，确认声音信号是否符合声纹资料。在确定符合声纹资料时执行步骤S03，在确定不符合声纹资料时执行步骤S021。

其中，使用者可以通过麦克风110预先录制各操作指令，以设定关联于使用者的对应各操作指令的预设声谱图。其中，在信息撷取装置100的储存模块150中储存有声纹资料，而声纹资料指对应各操作指令的预设声谱图。另外，声纹资料也可以是由一位或多位使用者所预先录制的对应各操作指令的预设声谱图。语音辨识单元120分析声音信号以生成一输入声谱图，并且将输入声谱图的特征与声纹资料的预设声谱图的特征进行识别或比对以进行使用者的身份识别验证，从而识别是否是使用者本人发出的语音。

步骤S03，进行声音信号的语音辨识以得到实际语音内容。

其中，当声音信号与声纹资料相符，也即输入声谱图的特征与声纹资料的预设声谱图的特征相符时，控制单元130才进行声音信号的语音辨识。并且，信息撷取装置100可接续执行步骤S05至步骤S09。

步骤S021，不进行声音信号的语音辨识的步骤且舍弃声音信号。

其中，当声音信号与声纹资料不相符，也即输入声谱图的特征与声纹资料的预设声谱图的特征不相符时，控制单元130不进行声音信号的语音辨识且舍弃声音信号。

步骤S05，根据实际语音内容确认至少一指令语音内容。

步骤S07，当实际语音内容对应于任一指令语音内容时，取得对应指令语音内容的操作指令。

其中，信息撷取装置100还可以包括影音录制单元140。影音录制单元140耦接控制单元130且可进行影音录制。当操作指令为启动录制指令时，控制单元130根据实际语音内容所对应的指令语音内容而取得启动录制指令。

步骤S09，响应操作指令执行对应操作指令的动作。

可选的，操作指令为一启动录制指令，以及响应操作指令执行对应操作指令的动作的步骤包括：响应启动录制指令控制一影音录制单元进行影音录制以撷取一环境资料。

其中，控制单元130响应启动录制指令(也即响应操作指令)控制影音录制单元140进行影音录制以撷取环境资料，即对周遭环境的影像及/或声音等进行录制。其中，环境资料指包括环境影像及/或声音的媒体档案，例如是周遭的人、动物或是物体(例如是行经的车辆及/或其喇叭声、路人及/或其呼喊声等)。在一些实施例中，操作指令可以为「启动录制指令」、「结束录制指令」、「回复尚可录影的时数指令」、「储存档案并拨放提示音指令」、「回复剩余容量指令」、及「回复解析度指令」的其中任一种，但在此并不对其限制。

在一具体实现中，请一并参阅图1及图2，当使用者对麦克风110说「Camera startrecording」时，麦克风110会接收到一声音信号(步骤S01)并将接收到的声音信号提供给语音辨识单元120。语音辨识单元120对声音信号进行语音辨识以得到实际语音内容为「Camera start recording」(步骤S03)。控制单元130根据语音辨识结果所得到的「Camerastart recording」的实际语音内容依序确认查询表中记录的指令语音内容(步骤S05)，以找出与实际语音内容对应的指令语音内容。当找到对应的此指令语音内容时，控制单元130也可从查询表得到对应此指令语音内容的「启动录制指令」的操作指令(步骤S07)。于此，控制单元130响应启动录制指令(也即响应操作指令)控制影音录制单元140进行影音录制以撷取环境资料(步骤S09)。其中，控制单元130可以响应启动录制指令(也即响应操作指令)还控制一发光模块(在图1和图2中未绘出)发出光线，以使使用者得知影音录制单元140正在进行影音录制。

在另一具体实现中，当操作指令为结束录制指令时，控制单元130根据实际语音内容所对应的指令语音内容而取得结束录制指令(步骤S07)，而控制单元130响应结束录制指令(也即响应操作指令)控制影音录制单元140结束影音录制以生成环境资料(步骤S09)。换言的，控制单元130响应结束录制指令而将环境资料储存成一对应的媒体档案。在一实施方式中，请一并参阅图1及图2，当语音辨识单元120接收声音信号(步骤S01)并进行语音辨识所得到实际语音内容为「Camera recording end」(步骤S03)。控制单元130根据「Camerarecording end」的实际语音内容确认出指令语音内容(步骤S05)后，控制单元130根据「Camera recording end」的实际语音内容所对应的指令语音内容而取得对应指令语音内容的结束录制指令(操作指令)(步骤S07)。于此，控制单元130响应结束录制指令(也即响应操作指令)控制影音录制单元140结束影音录制以生成环境资料(步骤S09)，并将环境资料生成对应的媒体档案且储存于储存模块。其中，控制单元130可以响应结束录制指令(也即响应操作指令)还控制一发光模块(在图1和图2中未绘出)关闭，以使使用者得知影音录制单元140影音录制已结束且已生成环境资料。

图5为本发明又一实施例的信息撷取装置的语音控制方法的流程图。如图5所绘示，本实施例相对于图2所对应的实施例来说，对步骤S09进行了具体说明，本实施方式中的步骤S09具体包括步骤S091和步骤S092，步骤S091包括：控制单元130响应操作指令读取对应操作指令的装置信息，步骤S092包括：并且控制单元130控制扬声器160播放装置信息的回应语音。其中，步骤S01至步骤S07与前述大致相同。

可选的，响应操作指令执行对应操作指令的动作的步骤包括：响应操作指令读取对应操作指令的装置信息；播放装置信息的回应语音。

在一具体实现中，当语音辨识单元120接收声音信号(步骤S01)并进行语音辨识所得到实际语音内容为「Battery Life」(步骤S03)。控制单元130根据「Battery Life」的实际语音内容确认出指令语音内容(步骤S05)后，控制单元130根据「Battery Life」的实际语音内容所对应的指令语音内容而取得对应指令语音内容的「回复尚可录影的时数」指令(操作指令)(步骤S07)。控制单元130响应「回复尚可录影的时数」指令(操作指令)(也即响应操作指令)读取尚可录影的时数的装置信息(步骤S091)。于一实施态样中，控制单元130可以统计目前以录影的时数以及依据剩余电量及/或容量诊断目前尚能够继续录影的时数。换言之，信息撷取装置100还可包括计时模块(图未绘示)，并且此计时模块耦接控制单元130。接着，控制单元130控制一扬声器160播放尚可录影的时数的回应语音(步骤S092)。于一实施态样中，扬声器160可以是内建于一显示器(图未绘示)，且此显示器耦接控制单元130。于此，控制单元130在响应「回复尚可录影的时数」指令(操作指令)读取从装置信息中的尚可录影的时数(步骤S091)，控制单元130可以控制显示器的显示面板显示视频画面信息以及扬声器160拨放音档信息(步骤S092)。

在另一具体实现中，当使用者对麦克风110说「事件1」时，麦克风110会接收到一声音信号(步骤S01)并将接收到的声音信号提供给语音辨识单元120。语音辨识单元120对声音信号进行语音辨识以得到实际语音内容为「事件1」(步骤S03)。控制单元130根据语音辨识结果所得到的「事件1」的实际语音内容依序确认查询表中记录的指令语音内容(步骤S05)，以找出与实际语音内容对应的指令语音内容。于找到对应的此指令语音内容时，控制单元130也可从查询表得到对应此指令语音内容的「储存档案并拨放提示音」的操作指令(步骤S07)。控制单元130响应「储存档案并拨放提示音」指令(也即响应操作指令)储存此影音档案并播放回应语音。

在又一具体实现中，当使用者对麦克风110说「回复剩余容量」时，麦克风110会接收到一声音信号(步骤S01)并将接收到的声音信号提供给语音辨识单元120。语音辨识单元120对声音信号进行语音辨识以得到实际语音内容为「回复剩余容量」(步骤S03)。控制单元130根据语音辨识结果所得到的「回复剩余容量」的实际语音内容依序确认查询表中记录的指令语音内容(步骤S05)，以找出与实际语音内容对应的指令语音内容。于找到对应的此指令语音内容时，控制单元130也可从查询表得到对应此指令语音内容的「回复剩余容量」的操作指令(步骤S07)。控制单元130响应「读取剩余容量并拨放提示音」指令(也即响应操作指令)读取剩余容量的装置信息并播放剩余容量的装置信息的回应语音。

在又一具体实现中，当使用者对麦克风110说「回复解析度」时，麦克风110会接收到一声音信号(步骤S01)并将接收到的声音信号提供给语音辨识单元120。语音辨识单元120对声音信号进行语音辨识以得到实际语音内容为「回复解析度」(步骤S03)。控制单元130根据语音辨识结果所得到的「回复解析度」的实际语音内容依序确认查询表中记录的指令语音内容(步骤S05)，以找出与实际语音内容对应的指令语音内容。于找到对应的此指令语音内容时，控制单元130也可从查询表得到对应此指令语音内容的「回复解析度」的操作指令(步骤S07)。控制单元130响应「回复解析度并拨放提示音」指令(也即响应操作指令)读取解析度的装置信息并播放解析度的装置信息的回应语音。

在一些实施例中，影音录制单元140可由摄像镜头及影像处理单元实现。在一实施例中，影像处理单元可为一影像信号处理晶片(Image Signal Processor，ISP)。另一实施例中，影像处理单元与控制模块130以同一晶片实现，但在此并不对其限制。

在一些实施例中，控制单元130可由一个或多个处理元件实现。各处理元件可以是微处理器、微控制器、数位信号处理器、中央处理器、可编程逻辑控制器、状态器或任何基于操作指令操作信号的类比和/或数位装置，但在此并不对其限制。

在一些实施例中，储存模块150可由一个或多个储存元件所实现。于此，储存元件可以是例如记忆体或暂存器等，但在此并不对其限制。

在一些实施例中，信息撷取装置100可为一随身摄像装置，例如：安装在帽体或衣服上的密录器、穿戴式摄影机、可携式随身搜证录影机、微型摄影机等。在一些实施例中，信息撷取装置100可为一固定式摄像装置，例如：安装在车辆上的行车记录器。

虽然本发明的技术内容已经以较佳实施例揭露如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神所作些许的更动与润饰，皆应涵盖于本发明的范畴内，因此本发明的保护范围当视权利要求范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：陈明泰;
专利申请人：神讯电脑(昆山)有限公司;神基科技股份有限公司;