导航：首页> 对金属材料的镀覆；用金属材料对材料的镀覆；表面化学处理；金属材料的扩散处理；真空蒸发法、溅射法、离子注入法或化学气相沉积法的一般镀覆；金属材料腐蚀或积垢的一般抑制〔2〕>一种对视频中人物头像的实时追踪方法及处理终端

一种对视频中人物头像的实时追踪方法及处理终端

文献发布时间：2024-04-18 19:59:31

技术领域

本发明涉及计算机视频处理技术领域，具体是一种对视频中人物头像的实时追踪方法及处理终端。

背景技术

在一些场景中，特别对于一些公共场景所拍摄的实时或存储视频，有时需要对视频中的人物头像进行追踪，也即是对人员的头部位置进行追踪。所谓人物头像进行追踪，也即是在视频流中，按照时间序下的视频流，对目标人物头像从某一个视频帧开始(例如排在第一个的视频帧或中间的某个视频帧)，确定目标人物头像在每一个视频帧中的位置，直至到最后一个视频帧或者目标人物头像消失(也即是在视频流中消失)。现有对人物头像的追踪方法，大多存在以下一个或多个问题：

(1)需要外加特征识别网络来对人物头像特征进行识别，耗时较长，实时效果差，对于某些场景不适用。例如，应用在家用或商用的门禁监控，需要实时追踪人物头像，如模式人进入家里行窃。采用外加特征识别网络，大多是基于Deepsort算法或基于Deepsort算法改进的算计，或者使用匈牙利匹配算法。这些算法都需要耗费额外的时间，进而导致耗时较长。

(2)需要缓存多帧视频(通常在5帧视频以上)，这种实现方法对CPU的资源占用率较高。例如，现有的Deepsort算法和Bytesort算法，均需缓存多几帧视频，以用于匹配下一帧的被跟踪人的位置。

(3)采用云台摄像头跟踪，云台摄像头能够较好实现对目标人物(包括头像)的追踪，但云台摄像头单就硬件成本就交给，并且还需要特定的摄像头移动算法来加持，进一步推高成本。

此外，还有一些是使用深度学习神经网络来实现对目标人物头像的追踪，但深度学习神经网络往往对人体特征不够稳定，容易造成对目标人物头像追踪的丢失。特别是需要对目标人物的全身检测追踪时，若视频流中只有一个人物头像而不含人体的其他部位情况下，往往检测不到人员，造成无法对目标人物的追踪。

发明内容

针对现有技术的不足，本发明的目的是提供一种对视频中人物头像的实时追踪方法及处理终端，其能够解决背景技术描述的问题。

实现本发明的目的的技术方案为：一种对视频中人物头像的实时追踪方法，包括以下步骤：

步骤1：对目标视频进行人物头像检测，若检测存在人物头像，则在目标视频中为每一个检测到的人物头像预设一个对应的用于检测目标人物头像的滑动窗口，否则，结束处理，或者等待一段时间后，重新进行人物头像检测，

其中，目标视频的画面宽高定义为W和H，滑动窗口的宽高定义为W1和H1，滑动窗口的中心点位置的坐标定义为(X

步骤2：在多个滑动窗口中选择其中一个或多个滑动窗口，或者基于位置选择相应位置的一个或多个滑动窗口，选中的滑动窗口定义为目标滑动窗口，目标滑动窗口内的人物头像为目标人物头像，从第一个视频帧开始，若滑动窗口在视频帧画面的位置超过视频帧画面的边界，则调整滑动窗口，并得到滑动窗口的中心位置的新坐标(X′

步骤3：在当前视频帧中，截取滑动窗口在当前视频帧中所覆盖的画面，得到目标截取画面，遍历每一个视频帧，从而得到各个视频帧所对应的目标截取画面，

采用YOLOV5目标检测算法对各个目标截取画面中的人物头像进行检测，得到目标截取画面对应的目标人物头像，将各个目标截取画面对应的目标人物头像组成目标人物头像列表L中元素，从而得到目标截取画面中的所有目标人物头像组成的目标人物头像列表L；

步骤4：遍历目标人物头像列表L，选取与滑动窗口距离最近的目标人物头像位置，并定义为最近目标人物头像位置(X

步骤5：滑动窗口相对于当前视频帧在下一个视频帧中的位置(X

式中，(ΔSx,ΔSy)表示滑动窗口相对于在当前视频帧所在位置到下一个视频帧中所在位置的位移量；

步骤6：遍历步骤2至步骤5，从第一个视频帧开始，依次通过滑动窗口不断检测到下一个视频帧中的目标人物头像，并得到目标人物头像在对应视频帧中的位置，完成目标人物头像追踪。

进一步地，所述第一个视频帧是指第一个需要处理的视频帧。

进一步地，在步骤2中，若滑动窗口的一部分位于视频帧的左边界或上边界，则按公式①得到滑动窗口的中心位置的新坐标(X′

若滑动窗口的一部分位于视频帧的右边界或下边界，则按公式②得到滑动窗口的中心位置的新坐标(X′

进一步地，在步骤1中，目标视频为实时拍摄的视频，或者为缓存的视频，或者为完全存储的视频文档。

一种处理终端，其包括：

存储器，用于存储程序指令；

处理器，用于运行所述程序指令，以执行所述对视频中人物头像的实时追踪方法的步骤。

本发明相比于现有技术法有以下好处：

(1)相比于传统的使用全景画面(即在整个视频帧画面中)检测得到的人头(人物头像)的中心位置并进行更新，本发明只与滑动窗口所覆盖的画面(即截取画面)有关，无论滑动窗口外的画面如何变化，对本跟踪算法无任何影响，本发明可以提升跟踪的准确率。在全景画面中进行检测识别时，包含了大量干扰的特征，检测算法容易受干扰的特征影响而“跟错人”。而本发明使用滑动窗口检测，只需要关注一帧以上的视频帧，并且被跟踪人头中心为中心点的局部画面(W＿w，H＿w)的特征信息。

(2)相比于使用特征匹配的滑动窗口方法，利用YOLOV5实时检测的特征，即检测前后两帧中，被跟踪人移动的位移变化小，来判断下一帧哪个时被跟踪者，相比于人头特征之间特征难以区分特征信息而言，本发明具有一定的优势。

总的来说，本发明对人物头像的追踪准确率高，耗时更短，实时性强，并且无需依赖于云台摄像头以及不需要缓存多帧视频才可开始实施人物头像追踪，成本更低，效率更高。

附图说明

图1为本发明的流程示意图；

图2为滑动窗口在某个视频帧画面的不同位置的示意图；

图3为在相邻两个视频帧中滑动窗口的位置变化的示意图；

图4为处理终端的结构示意图。

具体实施方式

下面结合附图及具体实施方案，对本发明做进一步描述：

如图1-图3所示，一种对视频中人物头像的实时追踪方法，包括以下步骤：

步骤1：对目标视频进行人物头像检测，若检测存在人物头像，则在目标视频中为每一个检测到的人物头像预设一个对应的用于检测目标人物头像的滑动窗口，否则，结束处理，或者等待一段时间后，重新进行人物头像检测。

其中，目标视频的画面宽高定义为W和H，滑动窗口的宽高定义为W1和H1，滑动窗口的中心点位置的坐标定义为(X

其中，滑动窗口的中心位置的坐标定义为(X

目标视频可以是实时拍摄的视频，也可以是缓存的视频，还可以是完全存储的视频文档。缓冲的视频是指只有一部分的视频帧被接收并缓存在内存中，完全存储的视频文档是指整个视频(包括所有的视频帧)都已经接收到并存储在硬盘等永久存储介质中，而非临时存储介质(如内存)。

需要注意的是，滑动窗口的中心位置并非是一成不变的，而是动态调整的。以便以因目标人物头像在不同视频帧的位置改变而改变滑动窗口的大小，使得滑动窗口能够覆盖到目标人物头像，保证滑动窗口可以检测到目标人物头像。

步骤2：在多个滑动窗口中选择其中一个或多个滑动窗口，或者基于位置选择相应位置的一个或多个滑动窗口，选中的滑动窗口定义为目标滑动窗口，目标滑动窗口内的人物头像为目标人物头像。

在本步骤中，在一个视频帧的画面中若存在多个人物头像(2个以上)，则每一个人物头像对应一个滑动窗口，一个滑动窗口仅覆盖(即框住)一个人物头像。可以人为地选中某一个或多个滑动窗口，也可以通过预设指定位置，基于程序自动地选择指定位置内的一个或多个滑动窗口。

从第一个视频帧开始，若滑动窗口在视频帧画面的位置超过视频帧画面的边界，则调整滑动窗口，所谓调整是指滑动窗口从原先超过视频帧画面的当前位置突变到完全位于视频帧画面内的新位置，以避免视频帧从当前位置连续地移动到新位置，并且确保滑动窗口所覆盖的目标人物头像所在的整个画面具有更大的视野，提高目标人物头像消失(例如移出视频帧画面)后再次出现时能够再次准确识别到的概率，从而使得滑动窗口超出视频帧画面的边界部分全部落入视频帧画面内。

需要说明的是，第一个视频帧是指第一个需要处理的视频帧，也即是需要开始启动人物头像检测所在的视频帧，并不必然是目标视频中的第一个视频帧，例如，目标人物头像是从第三个视频帧开始才出现，则这里的第一个视频帧就是目标视频中的第三个视频帧。

其中，若滑动窗口的一部分位于视频帧的左边界或上边界，则按公式①得到滑动窗口的中心位置的新坐标(X′

若滑动窗口的一部分位于视频帧的右边界或下边界，则按公式②得到滑动窗口的中心位置的新坐标(X′

参考图2，图2为滑动窗口在某个视频帧画面的不同位置的示意图。图中的虚线矩形框为原先的滑动窗口所在位置，实线框为移动后的新的位置，图中的箭头表示移动方向。

步骤3：在当前视频帧中，截取滑动窗口在当前视频帧中所覆盖的画面，得到目标截取画面，遍历每一个视频帧，从而得到各个视频帧所对应的目标截取画面。

采用YOLOV5目标检测算法对各个目标截取画面中的人物头像进行检测，得到目标截取画面对应的目标人物头像，将各个目标截取画面对应的目标人物头像组成目标人物头像列表L中元素，从而得到目标截取画面中的所有目标人物头像组成的目标人物头像列表L。在目标人物头像列表中，第i个目标人物头像在对应的目标截取画面(也是第i个目标截取画面)中的位置定义为目标人物头像位置(X

步骤4：遍历目标人物头像列表L，选取与滑动窗口距离最近的目标人物头像位置，并定义为最近目标人物头像位置(X

其中，与滑动窗口距离最近是指与滑动窗口的中心点距离最近。

步骤5：滑动窗口相对于当前视频帧在下一个视频帧中的位置(X

式中，(ΔSx,ΔSy)表示滑动窗口相对于在当前视频帧所在位置到下一个视频帧中所在位置的位移量，也即是最近目标人物头像位置(X

参考图3，图3为在相邻两个视频帧中滑动窗口的位置变化的示意图，图中的中间部分为目标截取画面。

本发明相比于现有技术法有以下好处：

(2)相比于使用特征匹配的滑动窗口方法，利用YOLOV5实时检测的特征，即检测前后两帧中，被跟踪人移动的位移变化小，来判断下一帧哪个是被跟踪者，相比于人头特征之间特征难以区分特征信息而言，本发明具有一定的优势。

如图4所示，本发明还提供一种处理终端100，其包括：

存储器101，用于存储程序指令；

处理器102，用于运行所述程序指令，以执行所述对视频中人物头像的实时追踪方法的步骤。

本说明书所公开的实施例只是对本发明单方面特征的一个例证，本发明的保护范围不限于此实施例，其他任何功能等效的实施例均落入本发明的保护范围内。对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及变形，而所有的这些改变以及变形都应该属于本发明权利要求的保护范围之内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：
专利申请人：广东保伦电子股份有限公司;

上一篇：一种智能化水稻精量侧深施肥机及方法
下一篇：成膜装置以及成膜装置的清洁方法