导航：首页> 一般的物理或化学的方法或装置>目标追踪方法、装置、电子设备以及存储介质

目标追踪方法、装置、电子设备以及存储介质

文献发布时间：2023-06-19 19:35:22

技术领域

本公开涉及电子设备技术领域，具体涉及一种目标追踪方法、装置、电子设备以及存储介质。

背景技术

摄像头目标追踪是指，摄像头在进行拍摄时，对取景器中的目标对象进行持续追踪，使得焦点始终保持在目标对象上。摄像头目标追踪功能目前在视频会议、人像自拍等拍摄场景具有广泛的应用。但是，影像系统在进行目标追踪时，有可能会发生追踪失败，导致焦点丢失。

发明内容

为解决追踪过程中出现的目标追踪失败的技术问题，本公开实施方式提供了一种目标追踪方法、装置、电子设备以及存储介质。

第一方面，本公开实施方式提供了一种目标追踪方法，包括：

响应于摄像过程中被追踪的目标对象追踪失败，采集得到至少一帧待测图像，所述待测图像包括至少一个对象；

对所述待测图像进行图像检测，得到每个所述对象的对象特征；

将所述对象特征满足预设条件的对象确定为所述目标对象，并追踪所述目标对象。

在一些实施方式中，所述对象特征包括所述对象的第一动作特征；所述将所述对象特征满足预设条件的对象确定为所述目标对象，包括：

确定每个所述对象的所述第一动作特征与预设动作特征的第一相似度；

将所述第一相似度满足第一阈值条件的第一对象特征对应的对象确定为所述目标对象。

在一些实施方式中，所述将所述对象特征满足预设条件的对象确定为所述目标对象，包括：

获取在所述目标对象追踪失败之前采集的至少一帧参考图像；

对所述参考图像进行图像检测，得到所述目标对象的目标特征；

确定每个所述对象的对象特征与所述目标特征的第二相似度；

将所述第二相似度满足第二阈值条件的对象特征对应的对象确定为所述目标对象。

在一些实施方式中，所述获取在所述目标对象追踪失败之前采集的至少一帧参考图像，包括：

响应于对所述目标对象开始追踪，采集追踪过程中多个时刻的图像作为所述参考图像。

在一些实施方式中，本公开实施方式所述的方法，还包括：

获取在所述目标对象追踪失败之前采集的所述目标对象的第一语音信息，并根据所述第一语音信息确定所述目标对象的第一位置信息；

获取在所述目标对象追踪失败之后采集的每个所述对象的第二语音信息，并根据所述第二语音信息确定每个所述对象的第二位置信息；

确定与所述第一位置信息满足第三阈值条件的第二位置信息对应的对象为所述目标对象。

在一些实施方式中，本公开实施方式所述的方法，还包括：

获取通过麦克风采集到的用户语音信息，响应于根据所述用户语音信息识别得到追踪启动信息，采集至少一帧目标图像；所述目标图像包括至少一个对象；

对所述目标图像进行图像检测，确定所述目标图像中每个对象的第二动作特征；

将满足预设动作条件的第二动作特征对应的对象确定为目标对象，并追踪所述目标对象。

在一些实施方式中，本公开实施方式所述的方法，还包括：

获取通过麦克风采集到的用户语音信息，响应于根据所述用户语音信息识别得到追踪启动信息以及追踪目标信息，采集至少一帧目标图像；所述目标图像包括至少一个对象；

根据所述追踪目标信息，从所述目标图像的至少一个对象中确定目标对象，并追踪所述目标对象。

第二方面，本公开实施方式提供了一种目标追踪装置，包括：

图像采集模块，被配置为响应于摄像过程中被追踪的目标对象追踪失败，采集得到至少一帧待测图像，所述待测图像包括至少一个对象；

图像检测模块，被配置为对所述待测图像进行图像检测，得到每个所述对象的对象特征；

目标追踪模块，被配置为将所述对象特征满足预设条件的对象确定为所述目标对象，并追踪所述目标对象。

在一些实施方式中，所述对象特征包括所述对象的第一动作特征，所述目标追踪模块具体被配置为：

确定每个所述对象的所述第一动作特征与预设动作特征的第一相似度；

将所述第一相似度满足第一阈值条件的第一动作特征对应的对象确定为所述目标对象。

在一些实施方式中，所述目标追踪模块具体被配置为：

获取在所述目标对象追踪失败之前采集的至少一帧参考图像；

对所述参考图像进行图像检测，得到所述目标对象的目标特征；

确定每个所述对象的对象特征与所述目标特征的第二相似度；

将所述第二相似度满足第二阈值条件的对象特征对应的对象确定为所述目标对象。

在一些实施方式中，所述目标追踪模块具体被配置为：

响应于对所述目标对象开始追踪，采集追踪过程中多个时刻的图像作为所述参考图像。

在一些实施方式中，本公开实施方式的目标追踪装置，还包括：

第一获取模块，被配置为获取在所述目标对象追踪失败之前采集的所述目标对象的第一语音信息，并根据所述第一语音信息确定所述目标对象的第一位置信息；

第二获取模块，被配置为获取在所述目标对象追踪失败之后采集的每个所述对象的第二语音信息，并根据所述第二语音信息确定每个所述对象的第二位置信息；

第一确定模块，被配置为确定与所述第一位置信息满足第三阈值条件的第二位置信息对应的对象为所述目标对象。

在一些实施方式中，本公开实施方式的目标追踪装置，还包括：

第三获取模块，被配置为获取通过麦克风采集到的用户语音信息，响应于根据所述用户语音信息识别得到追踪启动信息，采集至少一帧目标图像；所述目标图像包括至少一个对象；

第二确定模块，被配置为对所述目标图像进行图像检测，确定所述目标图像中每个对象的第二动作特征；

第三确定模块，被配置为将满足预设动作条件的第二动作特征对应的对象确定为目标对象，并追踪所述目标对象。

在一些实施方式中，本公开实施方式的目标追踪装置，还包括：

第四获取模块，被配置为获取通过麦克风采集到的用户语音信息，响应于根据所述用户语音信息识别得到追踪启动信息以及追踪目标信息，采集至少一帧目标图像；所述目标图像包括至少一个对象；

第四确定模块，被配置为根据所述追踪目标信息，从所述目标图像的至少一个对象中确定目标对象，并追踪所述目标对象。

第三方面，本公开实施方式提供了一种电子设备，包括：

图像采集设备；

处理器；以及

存储器，存储有可被所述处理器读取的计算机指令，在所述计算机指令被读取时，所述处理器执行根据第一方面任一实施方式所述的方法。

第四方面，本公开实施方式提供了一种存储介质，存储有计算机指令，所述计算机指令用于使计算机执行根据第一方面任一实施方式所述的方法。

本公开实施方式的目标追踪方法，包括响应于摄像过程中被追踪的目标对象追踪失败，采集得到至少一帧待测图像，待测图像包括至少一个对象，对待测图像进行图像检测，得到每个对象的对象特征，将对象特征满足预设条件的对象确定为目标对象，并追踪目标对象。本公开实施方式中，在对目标对象进行摄像追踪过程中，当目标对象追踪失败的情况下，可通过对象特征自动恢复对目标对象的追踪，无需用户手动选择追踪对象，提高用户体验。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一些实施方式中目标追踪方法的流程图。

图2是根据本公开一些实施方式中目标追踪方法的流程图。

图3是根据本公开一些实施方式中目标追踪方法的流程图。

图4是根据本公开一些实施方式中目标追踪方法的流程图。

图5是根据本公开一些实施方式中目标追踪方法的流程图。

图6是根据本公开一些实施方式中目标追踪方法的流程图。

图7是根据本公开一些实施方式中目标追踪装置的结构框图。

图8是根据本公开一些实施方式中目标追踪装置的结构框图。

图9是根据本公开一些实施方式中目标追踪装置的结构框图。

图10是根据本公开一些实施方式中目标追踪装置的结构框图。

图11是根据本公开一些实施方式中电子设备的结构框图。

具体实施方式

下面将结合附图对本公开的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本公开一部分实施方式，而不是全部的实施方式。基于本公开中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本公开保护的范围。此外，下面所描述的本公开不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

随着电子设备的发展，其影像系统所能实现的功能也越来越多，目标追踪功能也在越来越多的拍摄场景中应用。在一个示例场景中，用户利用手机自拍一段舞蹈短视频，拍摄过程中期望相机焦点始终聚焦在舞蹈演员身上，也即对舞蹈演员进行焦点追踪。在另一个示例场景中，用户录制会议或者讲课的视频时，录制过程中期望相机焦点始终聚焦在主讲人身上，也即对主讲人进行焦点追踪。这些场景中都可以采用目标追踪功能。

相关技术中，在利用目标追踪功能对目标对象进行追踪摄像时，首先需要手动开启相机的追踪功能，然后在取景器中手动点选某个对象作为追踪的目标对象，然后才能开启追踪拍摄。然而，由于目标对象快速移动、被遮挡等因素的影响，目标对象容易追踪失败，导致追踪目标丢失，影响拍摄效果。用户如果想要恢复追踪，需要再次手动在取景器中点击某个对象作为目标对象，才能恢复对该目标对象的追踪。一来操作步骤繁琐，对于较为复杂的拍摄场景，需要频繁手动恢复追踪来捕捉目标。二来对于单人固定手机位置进行自拍的场景，用户往往难以既出现在取景器中，又控制手机来恢复追踪。因此，相关技术中的目标追踪效果不佳，导致实用性和用户实际体验较差，难以做到广泛的落地应用。

正是基于上述相关技术中存在的缺陷，本公开实施方式提供了一种目标追踪方法、装置、电子设备以及存储介质，旨在当电子设备摄像过程中出现追踪失败的情况时，自动恢复对目标对象的追踪，提高拍摄效果和用户体验。

第一方面，本公开实施方式提供了一种目标追踪方法，该方法可以应用于任何具有图像采集功能的电子设备中，例如智能手机、平板电脑、可穿戴设备、手持式终端等等，本公开对此不作限制。

如图1所示，在一些实施方式中，本公开示例的目标追踪方法包括：

S110、响应于摄像过程中被追踪的目标对象追踪失败，采集得到至少一帧待测图像。

S120、对待测图像进行图像检测，得到每个对象的对象特征。

S130、将对象特征满足预设条件的对象确定为目标对象，并追踪目标对象。

具体而言，电子设备在对目标对象进行目标追踪时，在摄像过程中，电子设备的相机会随着目标对象的位置移动持续调整焦点位置，使相机焦点始终聚焦在目标对象上。当目标对象被短暂遮挡或者快速移动的过程中，相机可能会对目标对象追踪失败，丢失追踪目标，使得焦点无法聚焦在期望拍摄的目标对象上。

在一个示例性的场景中，固定位置的电子设备A对用户B进行目标追踪，拍摄用户B的一段舞蹈视频。用户B在跳舞过程中，动作和位置会不断发生变化，当用户B快速移动或者被遮挡时，电子设备A无法捕捉到前后帧之间用户B的相关特征，从而导致对用户B的追踪失败，无法聚焦拍摄用户B。

本公开实施方式中，当检测到对目标对象的追踪失败时，可采集得到一帧或者多帧的待测图像。可以理解，相机在摄像过程中是以固定帧率采集图像，当检测到当前时刻对目标对象追踪失败时，可将当前时刻之后采集的图像中的一帧或者多帧作为待测图像。

在待测图像为单帧图像的情况下，待测图像可以是检测到追踪失败的当前时刻相机采集的图像，也可以是当前时刻之后的某一帧图像。在待测图像为多帧图像的情况下，多帧待测图像可以是检测到追踪失败的当前时刻相机采集的多帧连续图像，也可以是当前时刻之后采集的多帧非连续的图像。本公开对此不作限制。

另外，待测图像为在检测到对目标对象追踪失败时获取的图像，因此一般待测图像上至少会包括一个目标对象。以前述拍摄用户B舞蹈视频的场景为例，当用户B在舞蹈过程中电子设备A出现追踪失败的情况下，电子设备A采集的待测图像中仍会包括用户B。

而在例如多人摄像场景中，一般待测图像上会包括多个对象。例如，以多人会议场景为例，在会议场景下，一般会有一个主讲人和多个与会人员，主讲人即为目标对象。当对主讲人追踪失败时，电子设备采集的待测图像上包括主讲人和多个与会人员，也即多个对象。

因此，本公开实施方式中，待测图像中包括至少一个对象。当然，可以理解，在用户单人拍摄场景下，当目标对象移动出相机的取景范围导致追踪失败时，相机采集的待测图像上将不存在任何对象，当检测到待测图像上不存在对象时，相机停止追踪功能即可，本公开对此不作赘述。

在获取待测图像之后，即可利用图像检测技术对待测图像进行检测，得到待测图像上每个对象的对象特征。

对象特征表示通过对待测图像进行特征提取得到的每个对象的特征，其可以包括例如动作特征、面部特征、人体特征中的一种或者多种的组合。当待测图像包括一个对象时，通过对待测图像进行特征提取得到该对象的对象特征。当待测图像包括多个对象时，通过对待测图像进行特征提取，分别得到每个对象的对象特征。

在确定每个对象的对象特征之后，根据对象特征从待测图像中的至少一个对象中确定需要进行追踪的目标对象，然后对目标对象进行追踪。

在一个示例性的场景中，以多人会议场景为例，主讲人为目标对象，对象特征以动作特征为例。当相机对主讲人追踪失败时，采集得到的待测图像中包括主讲人和多个与会人员，共多个对象。通过对待测图像进行特征提取，得到每个对象的动作特征，通过动作识别，确定主讲人的动作特征满足预先设置的预设条件，从而将待测图像中的主讲人确定为目标对象，恢复对主讲人的焦点追踪。

具体而言，预设条件可以是例如：识别动作特征为挥手。当主讲人例如通过会议屏幕观察到追踪失败时，可朝向相机作出挥手的动作，根据相机采集到的待测图像提取得到的动作特征，识别得到主讲人的动作特征符合预设条件“挥手”，从而确定主讲人为目标对象，对主讲人进行追踪。本公开下述实施方式中进行具体说明，在此暂不详述。

在一些实施方式中，本公开所述的对象特征不局限于动作特征，还可以是其他任何适于实施的特征，例如面部特征、人体特征等。

例如一个示例场景中，拍摄用户B舞蹈视频的情况下，当相机对用户B追踪失败时，为保证舞蹈视频的连贯性，用户B无法作出例如挥手等特定动作，从而可以根据用户B的面部特征和/或人体特征识别得到待测图像中的目标对象。本公开下述实施方式中进行具体说明，在此暂不详述。

在由待测图像中确认目标对象之后，即可对目标对象进行焦点追踪，恢复对目标对象的追踪拍摄。

通过上述可知，本公开实施方式中，在对目标对象进行摄像追踪过程中，当目标对象追踪失败的情况下，可通过对象特征自动恢复对目标对象的追踪，无需用户手动选择追踪对象，提高用户体验。并且，本公开实施方式自动恢复对目标对象的追踪，从而更利于单人拍摄场景，提高追踪功能的适用性。

如图2所示，在一些实施方式中，本公开示例的目标追踪方法包括：

S210、确定每个对象的第一动作特征与预设动作特征的第一相似度。

S220、将第一相似度满足第一阈值条件的第一动作特征对应的对象确定为目标对象。

具体来说，以多人会议场景为例，假设场景中包括1位主讲人和n位与会人员，也即相机的取景范围中共包括n+1个对象。相机对会议场景进行拍摄时，期望相机的焦点聚集在主讲人上，也即主讲人作为目标对象。

在一些实施方式中，当相机对主讲人追踪失败时，通过前述图1实施方式，可以采集得到至少一帧待测图像，待测图像中共包括n+1个对象。通过对待测图像进行图像检测，可以提取得到n+1个对象中的每个对象的对象特征。在本公开实施方式中，对象特征可以包括对象的第一动作特征，第一动作特征表示对象的肢体动作。

在一个示例中，第一动作特征可以表示对象的手臂动作。本公开实施方式中，可根据具体的场景预先设置预设动作，例如举手、挥手等，通过预先采集预设动作对应的图像特征，即可得到预设动作特征。

将提取得到的每个第一动作特征与预设动作特征进行相似度对比，可以得到每个第一动作特征与预设动作特征的第一相似度。第一相似度表示对象的动作与预设动作的相似程度，第一相似度越高，表示对象作出预设动作的可能性越高，反之则相反。

在上述示例中，通过对待测图像的n+1个目标进行特征提取得到n+1个第一动作特征，然后将每个第一动作特征与预设动作特征进行相似度对比，可得到n+1个第一相似度。

在确定待测图像中的每个对象对应的第一相似度之后，即可将第一相似度满足第一阈值条件的第一动作特征对应的对象确定为目标对象。

在一个示例中，第一阈值条件可以是多个第一相似度中排序最高的相似度。以前述示例来说，可对得到的n+1个第一相似度由高到底进行排序，将排序最高的第一相似度对应的对象确定为目标对象。例如，预设动作为挥手，在待测图像中只有主讲人作出的挥手的动作，从而主讲人的第一相似度高于其他与会人员的第一相似度，从而可将主讲人确定为目标对象，进而可对主讲人进行追踪，恢复目标追踪。

值得说明的是，上述示例仅作为本公开示例性的说明，并不限制本公开方案。在其他实施方式中，动作特征还可以是其他任何适于实施的形式，并不局限于挥手、举手，例如还可以是双手比心、剪刀手等具有趣味性的动作，本公开对此不再赘述。

通过上述可知，本公开实施方式中，基于对象的动作特征自动恢复对目标对象的追踪拍摄，无需用户手动选择追踪对象，提高用户体验。

可以理解，图2实施方式中基于用户动作特征恢复对目标对象的追踪，需要用户主动配合做出特定的预设动作，其对于舞蹈拍摄场景较难适用。例如，用户B期望拍摄一段自己的舞蹈视频，当拍摄过程中出现追踪失败时，由于用户B正处于舞蹈过程中，难以及时发现焦点追踪失败，并且为了保证舞蹈的连贯性，往往也无法做出例如挥手等特定预设动作。因此，下述图3实施方式中针对此场景实现目标追踪的自动恢复。

如图3所示，在一些实施方式中，本公开示例的目标追踪方法包括：

S310、获取在目标对象追踪失败之前采集的至少一帧参考图像。

S320、对参考图像进行图像检测，得到目标对象的目标特征。

S330、确定每个对象的对象特征与目标特征的第二相似度。

S340、将第二相似度满足第二阈值条件的对象特征对应的对象确定为目标对象。

具体而言，相机在启用目标追踪功能摄像时，可以在追踪摄像过程中预先采集一帧或者多帧图像作为参考图像。由于目标追踪过程中，目标对象的位置信息可以被相机持续获取，从而相机可以确定参考图像中目标对象的位置。

在一些实施方式中，可以在启用追踪功能对目标对象进行追踪拍摄的初始阶段获取参考图像。例如，当用户启用目标追踪功能并且选中目标对象之后，相机可以采集一帧或者多帧的图像作为参考图像。可以理解，多帧参考图像可以为连续帧图像，也可以是非连续的间隔帧图像，本公开对此不作限制。

在得到参考图像之后，基于图像检测技术，对参考图像中的目标对象进行特征提取，得到目标对象的目标特征。目标特征可以包括目标对象的面部特征、人体特征或者其他可识别特征中的一种或多种。电子设备在得到目标特征之后，可以将目标对象的目标特征进行存储。

当某个时刻检测到对目标对象追踪失败，可基于前述图1实施方式根据采集的待测图像得到每个对象的对象特征。然后将每个对象特征分别与目标特征进行相似度对比，得到每个对象特征与目标特征的第二相似度。第二相似度表示待测图像中的对象与目标对象的相似程度，第二相似度越高，表示对应的对象与目标对象为同一对象的可能性越高，反之则相反。

在一些实施方式中，对象特征可以包括人体特征，目标特征即为目标对象的人体特征。一个示例场景中，电子设备拍摄用户B和用户C的双人舞蹈视频，其中用户B为目标追踪的目标对象，从而可以通过参考图像预先得到用户B的目标特征并存储。当目标追踪失败时，根据待测图像分别得到用户B的对象特征和用户C的对象特征，然后通过相似度对比分别得到用户B的第二相似度和用户C的第二相似度。

在得到待测图像中每个对象对应的第二相似度之后，即可将第二相似度满足第二阈值条件的对象特征对应的对象确定为目标对象。

在一个示例中，第二阈值条件可以是多个第二相似度中排序最高的相似度。以前述示例来说，在得到用户B和用户C的第二相似度之后，可以对第二相似度由高到低进行排序，将排序最高的第二相似度对应的对象确定为目标对象。例如，用户B对应的第二相似度高于用户C对应的第二相似度，从而可将用户B确定为目标对象，进而可对用户B进行追踪，恢复目标追踪。

值得说明的是，上述示例仅作为本公开示例性说明，并不限制本公开方案。在其他实施方式中，对象特征并不局限于上述的人体特征，还可以是其他任何适于实施的形式，例如面部特征等，本公开对此不再赘述。

通过上述可知，本公开实施方式中，基于对象的对象特征与参考图像的目标特征确定目标对象，自动恢复对目标对象的追踪拍摄，无需用户手动选择追踪对象，也无需用户作出特定动作，整个恢复过程可以做到用户无感知，提高用户体验。

在一些实施方式中，在图3实施方式的基础上，本公开示例的目标追踪方法还包括：

响应于对目标对象开始追踪，采集追踪过程中多个时刻的图像作为参考图像。

具体而言，在一些实施方式中，参考图像包括多帧图像，并且多帧参考图像为开始对目标对象追踪时的采集图像。一个示例中，当电子设备启动对目标对象的目标追踪功能时，以固定的时间间隔采集多帧图像作为参考图像，例如启动目标追踪功能的前2秒时间内采集5帧图像作为参考图像。

本公开实施方式中，考虑到现实拍摄场景中，对目标对象追踪刚开启时，往往目标对象的动作幅度不大，从而采集开启追踪功能时的图像作为参考图像可以提高目标对象的目标特征准确性。并且，采用不同时刻的多帧图像作为参考图像，扩充参考图像的样本数量，采集到多个角度的目标对象特征，避免单帧图像遮挡导致的目标特征不准确的问题。

在一些实施方式中，电子设备以智能手机为例，智能手机为了保证良好的通信能力，往往具有多组的麦克风阵列，通过麦克风阵列采集用户的语音信息即可实现对用户方位的定位。从而，本公开实施方式中，对于具有麦克风阵列的电子设备，可采用麦克风阵列定位辅助目标对象的确定，下面结合图4实施方式进行说明。

如图4所示，在一些实施方式中，本公开示例的目标追踪方法包括：

S410、获取目标对象追踪失败之前采集的目标对象的第一语音信息，并根据第一语音信息确定目标对象的第一位置信息。

S420、获取在目标对象追踪失败之后采集的每个对象的第二语音信息，并根据第二语音信息确定每个对象的第二位置信息。

S430、确定与第一位置信息满足第三阈值条件的第二位置信息对应的对象为目标对象。

以使用电子设备拍摄用户A、用户B、用户C的讲课视频为例，在一个示例中，用户A位于相机取景范围的左侧，用户B位于相机取景范围的中间，用户C位于相机取景范围的右侧。其中，用户A作为追踪目标对象，且用户A作为主讲人向用户B和用户C讲课。

当电子设备开启追踪功能对用户A进行追踪拍摄时，电子设备的麦克风阵列可以拾取到用户A的第一语音信息，从而根据定位算法基于第一语音信息确定用户A的第一位置信息为“左侧”。

当相机对用户A追踪失败时，电子设备可基于前述实施方式采集得到待测图像。同时，电子设备的麦克风阵列可以拾取到当前一段时间内各个对象的第二语音信息，并根据第二语音信息确定各个对象的第二位置信息。举例来说，麦克风阵列分别采集到两个不同方位的第二语音信息，并根据两个第二语音信息分别确定对应的对象的第二位置信息为“左侧”和“右侧”。

在确定各个第二位置信息之后，即可将各个第二位置信息分别与第一位置信息进行相似度对比，将满足第三阈值条件的第二位置信息对应的对象确定为目标对象。

在一个示例中，第三阈值条件可以是与第一位置信息最接近的第二位置信息。以前述示例来说，两个第二位置信息表示的方位分别为“左侧”和“右侧”，第一位置信息表示的方位为“左侧”。从而，即可确定待测图像中位于左侧的对象为目标对象，也即用户A为目标对象，进而可对用户A进行追踪，恢复目标追踪。

值得说明的是，由于麦克风定位仅适用于对象位置不变的情况，因此本公开实施方式中，可以将麦克风定位作为辅助功能，用户可以根据具体的应用场景选择开启或者关闭，以此来提高本公开实施方式目标追踪方法的灵活性和准确性。

值得说明的是，通过前述相关技术的说明可知，相关技术中，用于在使用目标追踪时，首先需要手动开启目标追踪功能，然后手动选择被追踪的目标对象。举例来说，用户使用手机影像的目标追踪功能进行拍摄时，首先需要点击图标开启相机应用，然后点击打开目标追踪功能，之后再次点击取景器中的对象选择目标对象。在此过程中，用户需要多次点击操作，操作繁琐，降低用户体验。更为重要的是，对于单人固定手机位置进行自拍的场景，用户往往难以既出现在取景器中，又控制手机来选择目标对象，需要第二人辅助才可以完成追踪开启操作。

基于上述相关技术中存在的缺陷，在一些实施方式中，如图5所示，本公开示例的目标追踪方法包括：

S510、获取通过麦克风采集到的用户语音信息，响应于根据用户语音信息识别得到追踪启动信息，采集至少一帧目标图像。

S520、对目标图像进行图像检测，确定目标图像中每个对象的第二动作特征。

S530、将满足预设动作条件的第二动作特征对应的对象确定为目标对象，并追踪目标对象。

以双人出镜的视频拍摄为例，用户A和用户B将电子设备固定在前方，期望电子设备可以拍摄包括两人的一段视频，并且拍摄过程中持续追踪用户A进行摄像。

电子设备可以通过麦克风采集用户语音信息，并对用户语音信息进行识别，当识别到追踪启动信息时，利用相机采集至少一帧目标图像。追踪启动信息表示启动目标追踪功能的信息。

在一个示例中，用户A或者用户B可以说出例如“启动追踪摄像”或者“启动追踪功能”等类似的语音，从而电子设备通过麦克风采集到用户语音信息，并对用户语音信息进行识别，由用户语音信息中识别得到“启动目标追踪功能”，也即识别得到追踪启动信息，从而可以开启目标追踪功能。

在一些实施方式中，相关技术中部分电子设备均具有智能语音助手，从而用户可以利用智能语音助手实现目标追踪功能的开启。例如，以智能语音助手“小爱同学”为例，用户A或者用户B可以说出例如“小爱同学，帮我开启追踪拍摄功能”，从而唤醒智能语音助手，实现目标追踪功能的开启。对于智能语音助手的相关技术，本领域技术人员参照相关领域的知识即可理解，本公开对此不再赘述。

可以理解，在启动目标追踪功能之后，还需要确定被追踪的目标对象。在本公开实施方式中，可以基于目标图像中对象的动作特征来确定目标对象。

具体来说，电子设备在根据用户语音信息启动目标追踪功能的同时，利用相机采集至少一帧目标图像，目标图像中可以包括至少一个对象。然后对目标图像进行图像检测，确定目标图像中每个对象的第二动作特征，将满足预设动作条件的第二动作特征对应的对象确定为目标对象。

仍以前述示例进行说明，在通过用户语音信息开启目标追踪功能之后，需要从取景器的用户A和用户B中确定目标对象。预设动作条件可以是预先设置的动作条件，例如挥手。采集的目标图像中包括用户A和用户B，通过图像识别技术分别确定目标图像中用户A和用户B的第二动作特征。假设用户A的第二动作特征表示挥手，用户B的第二动作特征表示双手自然下垂，从而即可确定用户A的第二动作特征满足预设动作条件，将用户A确定为目标对象，开始对用户A进行追踪拍摄。

通过上述可知，本公开实施方式中，基于语音信息和动作特征结合的方式，实现目标追踪的开启与目标对象的确定，无需用户手动开启和选择追踪对象，提高用户体验。

如图6所示，在一些实施方式中，本公开示例的目标追踪方法包括：

S610、获取通过麦克风采集到的用户语音信息，响应于根据用户语音信息识别得到追踪启动信息以及追踪目标信息，采集至少一帧目标图像。

S620、根据追踪目标信息，从目标图像的至少一个对象中确定目标对象，并追踪目标对象。

以双人出镜的视频拍摄为例，用户A和用户B将电子设备固定在前方，期望电子设备可以拍摄包括两人的一段视频，并且拍摄过程中持续追踪用户A进行摄像。其中，用户A位于电子设备相机取景范围的左侧，用户B位于电子设备相机取景范围的右侧。

电子设备可以通过麦克风采集用户语音信息，并对用户语音信息进行识别，当识别到追踪启动信息时以及追踪目标信息时，利用相机采集至少一帧目标图像。追踪启动信息表示启动目标追踪功能的信息，追踪目标信息表示目标对象的信息。

区别与前述图5实施方式，在本实施方式中，采集的用户语音信息不仅包括追踪启动信息，还包括追踪目标信息。在一个示例中，用户A或者用户B可以说出例如“启动追踪摄像，并追踪屏幕左侧的人”或者“追踪站在左边的人”等类似的语音，从而电子设备通过麦克风采集到用户语音信息，并对用户语音信息进行识别，由用户语音信息中识别得到“启动目标追踪功能”和“目标对象位于左侧”。

其中，“启动目标追踪功能”即为追踪启动信息，电子设备可以启动目标追踪功能。“目标对象位于左侧”即为追踪目标信息，电子设备即可将采集的目标图像中位于左侧的用户A确定为目标对象，开始对用户A进行追踪拍摄。

通过上述可知，本公开实施方式中，基于语音信息实现目标追踪的开启与目标对象的确定，无需用户手动开启和选择追踪对象，也无需用户作出特定的动作，提高用户体验。

第二方面，本公开实施方式提供了一种目标追踪装置，该装置可以应用于任何具有图像采集功能的电子设备中，例如智能手机、平板电脑、可穿戴设备、手持式终端等等，本公开对此不作限制。

如图7所示，在一些实施方式中，本公开示例的目标追踪装置包括：

图像采集模块71，被配置为响应于摄像过程中被追踪的目标对象追踪失败，采集得到至少一帧待测图像，语音信息待测图像包括至少一个对象；

图像检测模块72，被配置为对语音信息待测图像进行图像检测，得到每个语音信息对象的对象特征；

目标追踪模块73，被配置为将语音信息对象特征满足预设条件的对象确定为语音信息目标对象，并追踪语音信息目标对象。

在一些实施方式中，语音信息对象特征包括语音信息对象的第一动作特征，语音信息目标追踪模块73具体被配置为：

确定每个语音信息对象的语音信息第一动作特征与预设动作特征的第一相似度；

将语音信息第一相似度满足第一阈值条件的第一动作特征对应的对象确定为语音信息目标对象。

在一些实施方式中，语音信息目标追踪模块73具体被配置为：

获取在语音信息目标对象追踪失败之前采集的至少一帧参考图像；

对语音信息参考图像进行图像检测，得到语音信息目标对象的目标特征；

确定每个语音信息对象的对象特征与语音信息目标特征的第二相似度；

将语音信息第二相似度满足第二阈值条件的对象特征对应的对象确定为语音信息目标对象。

在一些实施方式中，语音信息目标追踪模块73具体被配置为：

响应于对语音信息目标对象开始追踪，采集追踪过程中多个时刻的图像作为语音信息参考图像。

如图8所示，在一些实施方式中，本公开实施方式的目标追踪装置，还包括：

第一获取模块81，被配置为获取在语音信息目标对象追踪失败之前采集的语音信息目标对象的第一语音信息，并根据语音信息第一语音信息确定语音信息目标对象的第一位置信息；

第二获取模块82，被配置为获取在语音信息目标对象追踪失败之后采集的每个语音信息对象的第二语音信息，并根据语音信息第二语音信息确定每个语音信息对象的第二位置信息；

第一确定模块83，被配置为确定与语音信息第一位置信息满足第三阈值条件的第二位置信息对应的对象为语音信息目标对象。

如图9所示，在一些实施方式中，本公开实施方式的目标追踪装置，还包括：

第三获取模块91，被配置为获取通过麦克风采集到的用户语音信息，响应于根据语音信息用户语音信息识别得到追踪启动信息，采集至少一帧目标图像；语音信息目标图像包括至少一个对象；

第二确定模块92，被配置为对语音信息目标图像进行图像检测，确定语音信息目标图像中每个对象的第二动作特征；

第三确定模块93，被配置为将满足预设动作条件的第二动作特征对应的对象确定为目标对象，并追踪语音信息目标对象。

如图10所示，在一些实施方式中，本公开实施方式的目标追踪装置，还包括：

第四获取模块11，被配置为获取通过麦克风采集到的用户语音信息，响应于根据语音信息用户语音信息识别得到追踪启动信息以及追踪目标信息，采集至少一帧目标图像；语音信息目标图像包括至少一个对象；

第四确定模块12，被配置为根据语音信息追踪目标信息，从语音信息目标图像的至少一个对象中确定目标对象，并追踪语音信息目标对象。

第三方面，本公开实施方式提供了一种电子设备，包括：

图像采集设备；

处理器；以及

存储器，存储有可被语音信息处理器读取的计算机指令，在语音信息计算机指令被读取时，语音信息处理器执行根据第一方面任一实施方式语音信息的方法。

第四方面，本公开实施方式提供了一种存储介质，存储有计算机指令，语音信息计算机指令用于使计算机执行根据第一方面任一实施方式的方法。

图11中示出了本公开一些实施方式中的电子设备的结构框图，下面结合图11对本公开一些实施方式的电子设备及存储介质相关原理进行说明。

参照图11，电子设备1800可以包括以下一个或多个组件：处理组件1802，存储器1804，电源组件1806，多媒体组件1808，音频组件1810，输入/输出(I/O)接口1812，传感器组件1816，以及通信组件1818。

处理组件1802通常控制电子设备1800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1802可以包括一个或多个处理器1820来执行指令。此外，处理组件1802可以包括一个或多个模块，便于处理组件1802和其他组件之间的交互。例如，处理组件1802可以包括多媒体模块，以方便多媒体组件1808和处理组件1802之间的交互。又如，处理组件1802可以从存储器读取可执行指令，以实现电子设备相关功能。

存储器1804被配置为存储各种类型的数据以支持在电子设备1800的操作。这些数据的示例包括用于在电子设备1800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1806为电子设备1800的各种组件提供电力。电源组件1806可以包括电源管理系统，一个或多个电源，及其他与为电子设备1800生成、管理和分配电力相关联的组件。

多媒体组件1808包括在所述电子设备1800和用户之间的提供一个输出接口的显示屏。在一些实施例中，多媒体组件1808包括一个前置摄像头和/或后置摄像头。当电子设备1800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1810被配置为输出和/或输入音频信号。例如，音频组件1810包括一个麦克风(MIC)，当电子设备1800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1804或经由通信组件1818发送。在一些实施例中，音频组件1810还包括一个扬声器，用于输出音频信号。

I/O接口1812为处理组件1802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1816包括一个或多个传感器，用于为电子设备1800提供各个方面的状态评估。例如，传感器组件1816可以检测到电子设备1800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1800的显示器和小键盘，传感器组件1816还可以检测电子设备1800或电子设备1800一个组件的位置改变，用户与电子设备1800接触的存在或不存在，电子设备1800方位或加速/减速和电子设备1800的温度变化。传感器组件1816可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1816还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1816还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1818被配置为便于电子设备1800和其他设备之间有线或无线方式的通信。电子设备1800可以接入基于通信标准的无线网络，如Wi-Fi，2G，3G，4G，5G或6G，或它们的组合。在一个示例性实施例中，通信组件1818经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1818还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现。

显然，上述实施方式仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本公开创造的保护范围之中。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：徐海;
专利申请人：北京小米移动软件有限公司;

上一篇：基于间歇式除杂的二乙基甲苯二胺生产装置及生产方法
下一篇：话权控制方法、装置、PDT系统及存储介质