借助于手势检测进行局部强调的视频处理方法及系统

文献发布时间：2024-04-18 20:01:23

技术领域

本发明是关于实时串流的视频处理方法，尤指一种用来借助于手势检测进行局部强调(partial highlighting)的视频处理方法以及相关的系统芯片。

背景技术

实时串流(live streaming)目前被广泛应用在社会的许多层面，例如可以被应用在远程视频会议中。然而，当远程视频会议中有其中一方在影像(例如显示于屏幕上的画面)中包含多个参加者时，另一方的参加者有时候可能难以分辨上述影像中的发言者。具体来说，假设目前有第一方与第二方正在进行远程视频会议，其中第一方有多个参加者在实体会议室，并通过麦克风与相机来获取实体会议室的影音讯息后通过网络传递至远程第二方的参加者，则由于第一方的多个参加者的姿势与位置问题，可能会让第二方的参加者无法正确辨识发言者，造成第二方的参加者的困扰并影响到会议的效率。

发明内容

本发明的目的之一在于提出一种应用于远程视频的人物追踪技术，其可以在影像(例如显示于屏幕上的画面)中强调目前正在发言的人物，以解决先前技术中所述的问题。

在本发明的一实施例中，揭露了一种系统芯片，用来借助于手势检测进行局部强调，其中该系统芯片包含一人物辨识电路、一手势检测电路、一声音检测电路以及一处理电路。该人物辨识电路用以自一影像捕获设备取得一影像数据，并对该影像数据进行人物辨识以产生一辨识结果；该手势检测电路用以自该影像捕获设备取得该影像数据，并对该影像数据中的手势影像数据进行手势检测以产生一手势检测结果；该声音检测电路用以自多个麦克风取得多个声音信号，且判断出一主要声音的一声音特征值；以及该处理电路耦接于该人物辨识电路、该手势检测电路与该声音检测电路，且用以根据该辨识结果、该手势检测结果以及该主要声音的该声音特征值以判断出该影像数据中的一特定区域，并对该影像数据进行处理以强调该特定区域。

在本发明的另一实施例中，揭露了一种视频处理方法，用来借助于手势检测进行局部强调，而该视频处理方法包含以下步骤：自一影像捕获设备取得一影像数据，并对该影像数据进行人物辨识以产生一辨识结果；自该影像捕获设备取得该影像数据，并对该影像数据中的手势影像数据进行手势检测以产生一手势检测结果；自多个麦克风取得多个声音信号，且判断出一主要声音的一声音特征值；根据该辨识结果、该手势检测结果以及该主要声音的该声音特征值以判断出该影像数据中的一特定区域；以及对该影像数据进行处理以强调该特定区域。

本发明的多个好处的其中之一是，通过检测目前正在发言的人物并在影像数据中强调该人物，本发明的视频处理方法及系统芯片可让远程会议室的参加者清楚地知道目前的发言者，由此可有效地增进会议效率。另外，本发明的视频处理方法及系统芯片可通过手势检测来确保相关操作的正确性。

为使能更进一步了解本发明的特征和技术内容，请参阅以下有关本发明的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用于对本发明加以限制。

附图说明

图1为根据本发明一实施例的远程视频会议的示意图。

图2为根据本发明一实施例的电子装置的示意图。

图3为根据本发明一实施例的视频处理方法的流程图。

图4为人物辨识电路在影像(例如显示于屏幕上的画面)中辨识出多个人物的示意图。

图5为根据本发明一实施例在影像中强调正在发言的人物的示意图。

图6为根据本发明一实施例的预定手势的示意图。

图7为根据本发明另一实施例的预定手势的示意图。

符号说明

110：电子装置

120：电子装置

200：系统芯片

202：影像捕获设备

204_1～204_N：麦克风

210：人物辨识电路

215：手势检测电路

220：语音活性检测电路

230：声音方向检测电路

240：处理电路

300～314：步骤

410～450：区域

610,710：局部影像

具体实施方式

图1为在一实施例中远程视频会议的示意图。如图1所示，在第一会议室中具有电子装置110，以供实时地拍摄第一会议室的影像，并实时地录下第一会议室内的声音后，将该些信息通过网络传送至第二会议室，以供第二会议室中的电子装置120播放出第一会议室的影像与声音；同时地，第二会议室的电子装置120也实时地拍摄第二会议室的影像与录下第二会议室内的声音，并将该些信息通过网络传送至第一会议室，以供第一会议室中的电子装置110播放出第二会议室的影像与声音。在本实施例中，电子装置110与电子装置120可以是任何具有影像与声音收发功能以及网络通讯功能的电子装置，例如电视、笔记本电脑、平板计算机、手机…等等。

如先前技术中所述，当远程视频会议中有其中一方在影像(例如显示于屏幕上的画面)中包含多个参加者时，另一方的参加者有时候可能难以分辨上述影像中的发言者。举例来说，若是第二会议室的参加者并不熟悉第一会议室中参加者的声音、或是第一会议室正在发言的参加者并未正面对着摄影机、或是其他的影像传输因素，则第二会议室中的参加者有时候可能难以通过电子装置120所播放的声音与影像，因而造成困扰。因此，本实施例在电子装置110中的系统芯片设计了一种可以在影像中强调正在发言的参加者的方法，以使得第二会议室中的参加者可以清楚地知道第一会议室是哪一位参加者正在发言，以解决上述问题。

图2为根据本发明一实施例的电子装置110的示意图。如图2所示，电子装置110包含了一系统芯片200、一影像捕获设备202以及多个麦克风204_1～204_N(图中部份省略)，其中N为大于1的任意适合的正整数。此外，系统芯片200包含了一人物辨识电路210、一手势检测电路215、一语音活性检测(voice activity detection)电路220、一声音检测电路(在本实施例中是以一声音方向检测电路230为例)以及一处理电路240。在本实施例中，影像捕获设备202可以是一照相机或是摄影机，以实时地持续获取第一会议室中的影像以产生影像数据至系统芯片200，其中系统芯片200所接收的影像数据可以是原始影像数据或是已经经过某些图像处理操作后的数据。麦克风204_1～204_N可以是数字麦克风，其设置在电子装置110的不同位置，以分别产生多个声音信号至系统芯片200。

需注意的是，在图2的实施例中影像捕获设备202以及麦克风204_1～204_N是设置在电子装置110内，然而，在其他的实施例中，影像捕获设备202以及麦克风204_1～204_N可以外接于电子装置110。

在系统芯片200内，人物辨识电路210是用来对从影像捕获设备202接收到的影像数据进行人物辨识，以判断出所接收到的影像数据内是否有人物的存在，并决定出每一个人物的特征值及每一个人物在影像(例如显示于屏幕上的画面)中的位置/区域。具体来说，人物辨识电路210可以使用深度学习或类神经网络的方式来对该影像数据中的至少一个帧(frame)进行处理，例如使用多个不同的卷积核(convolution kernel)诸如卷积滤波器(convolution filter)来对该帧(例如影像帧)进行多次卷积运算以辨识出该帧中是否有人物；此外，针对所检测到的人物，通过先前所采用的深度学习或类神经网络的方式来决定出每一个人物的一特征值(或是，每一个人物所在区域的特征值)，其中该特征值可以表示为一个多维度的向量，例如维度为‘512’的向量。需注意的是，上述关于人物辨识的相关电路设计已为本领域具有通常知识者所熟知，再加上本实施例的重点之一在于人物辨识电路210所辨识出的人物及其特征值的应用，因此人物辨识电路210的其他细节在此不赘述。

手势检测电路215是用来对从影像捕获设备202接收到的影像数据中的手势影像数据进行手势检测以产生至少一手势检测结果，以供确保相关操作的正确性，尤其，手势检测电路215可包含多个子电路以供分别进行两阶段的操作，如下所示：

(1)一第一子电路，用于对该影像数据进行人手(human hand)辨识以产生一人手辨识结果，并依据该人手辨识结果从该影像数据取得该手势影像数据；以及

(2)一第二子电路，用于对该手势影像数据进行该手势检测以产生该至少一手势检测结果；

但本发明不限于此。具体来说，针对上列两阶段的操作当中的第一阶段的操作，手势检测电路215内的该第一子电路可使用深度学习或类神经网络的方式来对该影像数据中的上述每一个帧进行处理，例如使用多个不同的卷积核来对该帧(例如影像帧)进行多次卷积运算以辨识出该帧中是否有人手。响应于该人手辨识结果(例如当辨识出该帧中的人手)，手势检测电路215可从该影像数据取得该手势影像数据。另外，针对上列两阶段的操作当中的第二阶段的操作，手势检测电路215内的该第二子电路可使用深度学习或类神经网络的方式来对该手势影像数据进行处理，例如使用多个不同的卷积核来对该手势影像数据进行多次卷积运算以辨识出该手势影像数据中是否有一预定手势。需注意的是，上述关于人手辨识以及手势检测的相关电路设计可以类似于上述关于人物辨识的相关电路设计，且因此也已为本领域具有通常知识者所熟知，再加上本实施例的重点之一在于根据手势检测电路215的手势检测结果来进行后续的操作，因此手势检测电路215的其他细节在此不赘述。

语音活性检测电路220是用来接收来自麦克风204_1～204_N的声音信号，并判断这些声音信号中是否有语音成分。具体来说，语音活性检测电路220主要可以执行以下操作：对接收到的声音信号进行降噪处理、将声音信号转换为频域后对一个区块进行处理以取得特征值、将所取得的特征值与一参考值进行比较以判断该声音信号是否为语音信号。需注意的是，由于语音活性检测的相关电路设计已为本领域具有通常知识者所熟知，再加上本实施例的重点之一在于根据语音活性检测电路220的判断结果来进行后续的操作，因此语音活性检测电路220的其他细节在此不赘述。此外，在另一实施例中，语音活性检测电路220可以仅接收来自麦克风204_1～204_N中部分麦克风的声音信号，而不需要接收所有麦克风204_1～204_N的声音信号。

关于声音方向检测电路230的操作，可将麦克风204_1～204_N设置在电子装置110上的数个已知位置，使声音方向检测电路230可以根据来自麦克风204_1～204_N的声音信号的时间差(即，所接收的声音信号的相位差)，以判断出第一会议室中主要声音的方位角(azimuth)，即主要发言人物相对于电子装置110的方向与角度。在本实施例中，声音方向检测电路230一次只会决定出一个方向，即若是第一会议室中有多个人物同时在说话(或是发出其他相似/相异声音)，则会根据所接收到的多个声音信号的一些特性(例如，信号强度)来判断出主要声音是来自于哪一个方向。需注意的是，由于声音方向检测的相关电路设计已为本领域具有通常知识者所熟知，再加上本实施例的重点之一在于根据声音方向检测电路230的判断结果来进行后续的操作，因此声音方向检测电路230的其他细节在此不赘述。

图3为根据本发明一实施例的视频处理方法的流程图，其中该视频处理方法是可应用于系统芯片200。在步骤300中，流程开始，电子装置110上电且完成与第二会议室的电子装置120的联机。在步骤302，语音活性检测电路220接收来自麦克风204_1～204_N的声音信号，并判断这些声音信号中是否有语音成分，若是，流程进入步骤304；若否，流程停留在步骤302以持续检测所接收到的声音信号是否包含语音成分。在步骤304，处理电路240在判断语音活性检测电路220检测到声音信号有语音成分后，启用(enable)人物辨识电路210，以使得人物辨识电路210开始对所接收到的影像数据进行人物辨识，以判断出所接收到的影像数据内是否有人物的存在，并决定出每一个人物的特征值及每一个人物在影像(例如显示于屏幕上的画面，诸如影像帧)中的位置/区域。以图4为例来进行说明，人物辨识电路210检测到影像中有5位人物，因此可以决定出每一个人物在影像(例如影像帧)中的区域410～450，并决定出区域410～450内的影像内容的特征值以分别作为每一个人物的特征值。在步骤305，处理电路240启用手势检测电路215以使手势检测电路215开始进行手势检测，以通过手势检测确保相关操作的正确性。在步骤306，处理电路240启用声音方向检测电路230，且声音方向检测电路230开始根据来自麦克风204_1～204_N的声音信号的时间差，以判断出主要声音相对于电子装置110的方向与角度。需注意的是，步骤304、步骤305与步骤306可以同时执行，即本实施例的执行不以图3所示的顺序为限。

在步骤308，处理电路240根据人物辨识电路210所决定出在影像(例如影像帧诸如其影像数据)中的每一个人物所在的区域(例如，图4的区域410～450)，再加上声音方向检测电路230所检测到主要发言人物相对于电子装置110的方向与角度，便可以借助于手势检测电路215所产生的一手势检测结果来正确地判断出影像(例如影像帧)中的哪一个人物正在说话，尤其，决定出影像(例如影像帧诸如其影像数据)中正在发言的人物是带有一预定手势的某人(例如这个人物正在举手且使其手带有该预定手势)，而非不带有该预定手势的任何其他人物(例如某些其他人物正在非正式地交谈)。在步骤310，在决定出影像(例如影像帧)中正在发言的人物之后，处理电路240将来自影像捕获设备202的影像数据进行处理，以在影像数据中强调主要发言人物。除了判断出在影像(例如影像帧诸如其影像数据)中的主要发言人物所在的区域并对影像数据进行处理以强调这个区域，处理电路240在步骤311中还启用针对这个区域一手势锁定(gesture lock)，以供指出继续强调这个区域。具体来说，参考图5，假设处理电路240判断区域440内的人物为主要发言人物，则处理电路240可以对影像数据进行处理，以将区域440内的人物进行放大、或是加上标签/箭头、或是其他任何图像处理方法，以强化区域440内人物的视觉效果。在对影像数据进行处理以强化区域440内人物的视觉效果之后，处理电路240便将处理后的影像数据传送至后端电路进行其他的图像处理，再通过网络传送至位于第二会议室中的电子装置120，以使得第二会议室的参加者可以清楚地知道目前第一会议室中正在发言的人物。

需注意的是，上述对强化区域440内人物的视觉效果的实施方式并非一定要对整个区域440都进行视觉强化，而可以仅对区域440的一部分进行视觉强化，这样也可达到相同的效果。以图5为例来进行说明，区域440包含了人物的头部与身体，而处理电路240可以仅将头部部分进行放大即可。

在步骤312，处理电路240持续追踪之前所强调的人物，并持续将来自影像捕获设备202的影像数据进行处理，以在影像数据中强调该人物。

具体来说，人物辨识电路210可以持续决定出影像(例如影像帧)中每一个人物所在的区域及其特征值，而处理电路240可以根据之前所强调的人物的特征值来持续在目前及后续的影像(例如影像帧)中强调该人物。以图5的区域440为例，处理电路240可以追踪后续所接收的影像(例如影像帧)中特征值与区域440的特征值类似的区域/人物(例如，特征值差异在一范围内)，以持续在后续的影像(例如影像帧)中强调该人物，即使所强调的该人物在后续影像(例如影像帧)中有一小段时间并未说话，且声音方向检测电路230也未检测到该人物向有声音。

需注意的是，由于正在发言的人物可能会移动(例如在第一会议室中从某一位置移到另一位置)，且可能不会一直持续说话，因此步骤312可以避免影像不断开启与关闭强化发言人物的视觉效果，而影响到第二会议室的参加者的感受，但本发明不限于此。举例来说，经过一段时间后，系统芯片200可重新进行相关判断操作，尤其，判断所检测到的所有人物中每一个人物的特征值(或是，每一个人物所在区域的特征值)及相对位置。

在步骤314，处理电路240根据人物辨识电路210所决定出影像(例如影像帧)中每一个人物所在的区域，再加上声音方向检测电路230所检测到主要发言人物相对于电子装置110的方向与角度，以及语音活性检测电路220所检测到是否有人在发言(即，所接收到的声音信号有语音成分)，以借助于手势检测电路215所进行的手势检测来正确地判断发言的人物是否改变。若否(例如其他人物当中没有任何人物正在讲话及举手且使其手带有该预定手势)，流程回到步骤312以持续追踪目前发言的人物；若是(例如另一个人物正在讲话及举手且使其手带有该预定手势)，流程回到步骤308以判断出新的发言人物。具体来说，由于声音方向检测电路230仅能检测声音的方向性，而无法得知所判断的方向的声音是否是人的声音，因此，通过搭配语音活性检测电路220的操作，在语音活性检测电路220检测到目前声音信号中有语音成分的情形下，若是声音方向检测电路230所检测到主要发言人物相对于电子装置110的方向与角度改变至另一个人物的位置时，处理电路240才可以判断发言的人物已经改变。需注意的是，为了避免处理电路240不断地在影像数据中改变所强调的人物，步骤314的执行可于检测一段较长的时间才做判断。

针对上述手势锁定的某些实施细节可进一步描述如下。依据某些实施例，该手势检测结果可指出该预定手势被检测到。除了判断出影像(例如影像帧诸如其影像数据)中的一特定区域诸如图5中正在发言的人物所在的区域440、并对该影像数据进行处理以强调该特定区域，处理电路240可启用针对该特定区域(例如区域440)的该手势锁定，以供指出继续强调该特定区域。响应于另一手势检测结果，处理电路240可停用(disable)针对该特定区域的该手势锁定。举例来说，图5所示区域440中的这个人物可再次举手且使其手带有该预定手势，且该另一手势检测结果可指出该预定手势被检测到，其中，响应于该另一手势检测结果，处理电路240可停用针对该特定区域(例如区域440)的该手势锁定。另外，处理电路240可根据人物辨识电路210所决定出分别对应于多个区域的多个特征值(例如区域410～450内影像内容的特征值，诸如区域410～450中的人物的各自的特征值)、一后续手势检测结果、声音方向检测电路230所检测到该主要声音(例如最新检测到的声音诸如同一个人物或另一个人物的声音，其中该最近检测到的声音可视为该主要声音的最新版本)的声音特征值、以及语音活性检测电路220所检测到任何声音信号是否包含有语音成分，来判断发言的人物是否改变，以供判断是否自该多个区域选择另一区域以作为该特定区域。在语音活性检测电路220检测到目前声音信号中有语音成分的情形下，若是声音方向检测电路230所检测到主要发言人物相对于电子装置110的方向与角度改变至另一个人物的位置，且这个人物正在举手且使其手带有该预定手势时，处理电路240可判断发言的人物已经改变为这个人物。

依据某些实施例，假设图5所示区域440中的这个人物并未再次举手且使其手带有该预定手势，因此处理电路240并未停用针对该特定区域之该手势锁定。在此情况下，处理电路240可根据人物辨识电路210所决定出分别对应于该多个区域的该多个特征值(例如区域410～450内影像内容的特征值，诸如区域410～450中的人物的各自的特征值)、该后续手势检测结果、声音方向检测电路230所检测到该主要声音(例如该最新检测到的声音)的声音特征值、以及语音活性检测电路220所检测到任何声音信号是否包含有语音成分，来判断发言的人物是否改变，以供判断是否自该多个区域选择另一区域以作为该特定区域。尤其，不论针对该特定区域的该手势锁定是否曾经被停用，响应于该后续手势检测结果，处理电路240可自该多个区域选择该另一区域以作为该特定区域。在语音活性检测电路220检测到目前声音信号中有语音成分的情形下，若是声音方向检测电路230所检测到主要发言人物相对于电子装置110的方向与角度改变至另一个人物的位置，且这个人物正在举手且使其手带有该预定手势时，处理电路240可判断发言的人物已经改变为这个人物。

图6为根据本发明一实施例的预定手势的示意图，其中该预定手势可为左手的预定手势。手势检测电路215可利用其内的第一子电路对影像(例如影像帧诸如其影像数据)进行上述人手辨识以产生该人手辨识结果，并依据该人手辨识结果从该影像取得一局部影像610以作为一手势影像(例如其手势影像数据)。另外，手势检测电路215可利用其内的第二子电路对该手势影像(例如其手势影像数据)进行该手势检测以产生对应的手势检测结果。为了简明起见，于本实施例中类似的内容在此不重复赘述。

图7为根据本发明另一实施例的预定手势的示意图，其中该预定手势可为右手的预定手势。手势检测电路215可利用其内的第一子电路对影像(例如影像帧诸如其影像数据)进行上述人手辨识以产生该人手辨识结果，并依据该人手辨识结果从该影像取得一局部影像710以作为一手势影像(例如其手势影像数据)。另外，手势检测电路215可利用其内的第二子电路对该手势影像(例如其手势影像数据)进行该手势检测以产生对应的手势检测结果。为了简明起见，于本实施例中类似的内容在此不重复赘述。

依据某些实施例，手势检测电路215并不限于进行单一预定手势的手势检测，尤其，该预定手势可被取代为一预定手势集合(set)，其中该预定手势集合可包含多个预定手势诸如图6及图7分别所示的预定手势。举例来说，区域410～450中的人物当中的任何人物可举手且使其手带有该预定手势集合中的任一预定手势，且处理电路240可判断发言的人物已经改变为这个人物。为了简明起见，于这些实施例中类似的内容在此不重复赘述。

依据某些实施例，该预定手势集合中的该多个预定手势的形状、样式、方向、及/或手指计数(finger count)可予以变化。

在另一实施例中，为了进一步确认发言的人物是否改变，处理电路240可以另外包含一声纹辨识机制以用来辅助声音方向检测电路230的检测结果。具体来说，由于每一个人的声音有独特的语音特性，因此处理电路240中的声纹辨识机制可以通过持续获取部分声音片段来判断是否这些声音片段的声音特征值是属于同一个人，以供进行发言人物的判断。举例来说，若是根据人物辨识电路210、语音活性检测电路220与声音方向检测电路230判断出发言的人物已经改变，但声纹辨识机制判断声音片段的声音特征值是属于同一个人物，则处理电路240可以暂缓判断发言的人物是否已经改变，并再检测一段时间后再做判断。

在之前的实施例中，是以声音方向检测电路230来作为该声音检测电路来进行说明，然而，本发明并不以此为限。在其他实施例中，该声音检测电路可具备声纹辨识机制诸如一声纹辨识子电路，尤其，该声音检测电路可包含声音方向检测电路230及该声纹辨识子电路，且利用前述实施例的声音方向检测电路230借助于该声纹辨识机制诸如该声纹辨识子电路来判断发言人物，并据以决定所强调的对象。举例来说，本发明的该声音检测电路可以自多个麦克风接收及取得多个声音信号以判断出一主要声音的声音特征值，而该声音特征值可以是主要声音的一方位角或声纹(例如该声纹辨识子电路所检测的声音片段的声纹)。

简要归纳本发明，在本发明的视频处理方法中，通过检测目前正在发言的人物并在影像数据中强调该人物，可以让远程会议室的参加者清楚知道目前是谁正在发言，因此可以有效地增进会议效率。另外，本发明的视频处理方法及系统芯片可通过手势检测来确保相关操作的正确性，尤其，通过上述手势锁定来继续强调该特定区域，且避免不带有该预定手势的任何其他人物(例如某些其他人物正在非正式地交谈)的干扰所导致的任何错误的强调区域切换。

虽然上文已公开了本发明优选且可行的实施例，然而这些实施例并非用于限定本发明，本技术领域普通技术人员可依据本发明的明示或隐含的内容对本发明的技术特征施以变化，凡此种种变化均属于本发明所寻求的专利保护范围内，换言之，本发明的专利保护范围须视本申请的权利要求书所界定的范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：瑞昱半导体股份有限公司;

上一篇：一种基于ACF协议的通讯方法及相关产品
下一篇：一种像元级多通道法珀滤光片中光谱通道的制备方法