导航：首页> 流体压力执行机构；一般液压技术和气动技术>视频图像的监控方法和装置

视频图像的监控方法和装置

文献发布时间：2023-06-19 09:24:30

技术领域

本发明涉及视频处理技术领域，尤其是涉及视频图像的监控方法和装置。

背景技术

目前，当工作人员在值班室内工作时，通常采用视频监控方式或视频分析方法实现对工作人员的监控。视频监控方式需要人工在24小时内实时查看，占用大量人力资源；视频分析方法，需要人工智能服务器进行视频分析，成本高。

发明内容

有鉴于此，本发明的目的在于提供视频图像的监控方法和装置，采用AI处理器对视频图像进行监控，确定工作人员姿态是否异常，识别精度高，成本低。

第一方面，本发明实施例提供了视频图像的监控方法，所述方法包括：

采集工作环境下的视频图像；

创建人体姿态检测模型；

将所述视频图像输入到所述人体姿态检测模型中，得到多个预测关键点；

将所述多个预测关键点输入到支持向量机SVM中，得到分类结果；

根据所述分类结果确定目标对象的姿态；

根据所述目标对象的姿态确定所述目标对象为正常或异常。

进一步的，所述创建人体姿态检测模型包括：

对所述视频图像进行标注，得到标注关键点；

将所述视频图像输入到深度学习神经网络算法中，得到关键点热力图；

将所述标注关键点以下采样的方式进行计算，得到训练图像的关键点；

在所述训练图像中，将所述标注关键点以下采样的方式，通过高斯滤波算法将所述训练图像的关键点分布到所述关键点热力图上；

通过损失函数对所述训练图像的关键点和所述预测关键点进行修正，得到第一修正差值；

设定初始化的偏置值，将所述初始化的偏置值通过L1损失函数进行训练，得到偏置值；

当所述偏置值达到第一预设条件时，通过所述偏置值对所述预测关键点进行修正，得到修正后的预测关键点；

当所述第一修正差值满足第二预设条件时，所述训练图像的关键点和所述预测关键点的修正完成，并且根据所述修正后的预测关键点得到所述人体姿态检测模型。

进一步的，所述方法还包括：

根据所述视频图像确定所述目标对象的形体；

根据所述目标对象的形体，得到多个中心点；

根据所述多个中心点的姿态，对每个预测关键点进行参数化，得到所述每个预测关键点相对于所述中心点的偏移；

将所述每个预测关键点相对于所述中心点的偏移，通过所述L1损失函数计算得到所述每个预测关键点的偏移。

进一步的，所述方法还包括：

从所述多个中心点中选取满足第三预设条件的多个样本点，其中，每个样本点对应所述多个预测关键点；

根据所述每个样本点和所述每个样本点对应的所述多个预测关键点构建多个组合；

计算每个组合对应的置信度；

如果所述置信度等于1，则将所述组合确定为所述视频图像中的所述目标对象；

如果所述置信度等于0，则将所述组合确定为所述视频图像中的背景。

进一步的，所述从所述多个中心点中选取满足第三预设条件的多个样本点包括，重复执行以下处理，直至每个中心点均被遍历：

从所述多个中心点中选取任意中心点作为当前中心点；

如果所述当前中心点的值大于或等于与所述当前中心点相邻的其他中心点的值，则将所述当前中心点作为所述样本点。

第二方面，本发明实施例提供了视频图像的监控装置，所述装置包括：摄像头、CPU、AI处理器、报警灯和扬声器，所述摄像头、所述AI处理器、所述报警灯和所述扬声器分别与所述CPU相连接；

所述摄像头，用于采集工作环境下的视频图像；

所述AI处理器，用于创建人体姿态检测模型；将所述视频图像输入到所述人体姿态检测模型中，得到多个预测关键点；将所述多个预测关键点输入到支持向量机SVM中，得到分类结果；根据所述分类结果确定目标对象的姿态；根据所述目标对象的姿态确定所述目标对象为正常或异常；在所述目标对象为异常的情况下，向所述CPU发送异常提醒信息；

所述CPU，用于根据所述异常提醒信息控制所述报警灯闪烁和/或扬声器进行语音提示。

进一步的，还包括通信模块；

所述通信模块，与所述CPU相连接，用于将所述异常提醒信息发送给远程控制系统。

进一步的，还包括图像采集模块；

所述图像采集模块，分别与所述摄像头和所述CPU相连接，用于将所述视频图像进行解码，得到解码的视频图像，并将所述解码的视频图像发送给所述CPU。

第三方面，本发明实施例提供了电子设备，包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的方法。

第四方面，本发明实施例提供了具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行如上所述的方法。

本发明实施例提供了视频图像的监控方法和装置，包括：采集工作环境下的视频图像；创建人体姿态检测模型；将视频图像输入到人体姿态检测模型中，得到多个预测关键点；将多个预测关键点输入到支持向量机SVM中，得到分类结果；根据分类结果确定目标对象的姿态；根据目标对象的姿态确定目标对象为正常或异常，采用AI处理器对视频图像进行监控，确定工作人员姿态是否异常，识别精度高，成本低。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的视频图像的监控方法流程图；

图2为本发明实施例一提供的预测关键点示意图；

图3为本发明实施例二提供的视频图像的监控装置示意图；

图4为本发明实施例三提供的另一视频图像的监控装置示意图。

图标：

1-摄像头；2-CPU；3-AI处理器；4-报警灯；5-扬声器；6-通信模块；7-图像采集模块；8-I/O模块；9-声音模块；61-以太网模块；62-WiFi模块；63-4G模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，下面对本发明实施例进行详细介绍。

实施例一：

图1为本发明实施例一提供的视频图像的监控方法流程图。

步骤S101，采集工作环境下的视频图像；

步骤S102，创建人体姿态检测模型；

步骤S103，将视频图像输入到人体姿态检测模型中，得到多个预测关键点；

步骤S104，将多个预测关键点输入到SVM(support vector machines，支持向量机)中，得到分类结果；

步骤S105，根据分类结果确定目标对象的姿态；

步骤S106，根据目标对象的姿态确定目标对象为正常或异常。

本实施例中，采集工作环境下的视频图像，构建人体姿态检测模型，将视频图像作为输入，输入到人体姿态检测模型中，输出得到多个预测关键点，具体参照图2；将多个预测关键点作为输入，输入到SVM中进行分类，得到分类结果，根据分类结果进行人体姿态估计，确定目标对象为正常或异常；如果目标对象为异常，则生成异常提醒信息，其中，目标对象包括但不限于工作人员。其中，预测关键点与人体对应关系如表1所示：

进一步的，步骤S102包括以下步骤：

步骤S201，对视频图像进行标注，得到标注关键点；

步骤S202，将视频图像输入到深度学习神经网络算法中，得到关键点热力图；

具体地，将视频图像设定为I，其中，I∈R

当

步骤S203，将标注关键点以下采样的方式进行计算，得到训练图像的关键点；

具体地，当训练关键点预测网络时，对视频图像进行标注，得到标注关键点GT(Ground Truth)，标注关键点的位置为P∈R

步骤S204，在训练图像中，将标注关键点以下采样的方式，通过高斯滤波算法将训练图像的关键点分布到关键点热力图上；

具体地，在训练图像中，将标注关键点GT以下采样的方式，通过高斯滤波算法，将训练图像的关键点分布到热力图上。其中，高斯滤波算法由公式(1)可知：

其中，σ

步骤S205，通过损失函数对训练图像的关键点和预测关键点进行修正，得到第一修正差值；

具体地，通过损失函数对训练图像的关键点和预测关键点进行修正，得到第一修正差值。第二预设条件为：设定训练次数，如果第一修正差值在训练次数内趋于稳定，则对训练图像的关键点和预测关键点修正完成。

其中，损失函数参照公式(2)：

其中，α和β均为损失函数的超参数，N是视频图像I的预测关键点数量。

步骤S206，设定初始化的偏置值，将初始化的偏置值通过L1损失函数进行训练，得到偏置值；

步骤S207，当偏置值达到第一预设条件时，通过偏置值对预测关键点进行修正，得到修正后的预测关键点；

具体地，由于对视频图像采用了下采样的方法，这样会存在一定的误差，故设置偏置值，通过偏置值对预测关键点进行补偿。

设定初始化的偏置值，将初始化的偏置值通过L1损失函数进行训练，得到偏置值。第一预设条件为：设定修正次数，当偏置值在修正次数内趋于稳定，则说明偏置值达到精准要求，此时，利用偏置值对预测关键点进行修正，得到修正后的预测关键点。具体参照公式(3)：

其中，

步骤S208，当第一修正差值满足第二预设条件时，训练图像的关键点和预测关键点的修正完成，并且根据修正后的预测关键点得到人体姿态检测模型。

进一步的，该方法还包括以下步骤：

步骤S401，根据视频图像确定目标对象的形体；

步骤S402，根据目标对象的形体，得到多个中心点；

步骤S403，根据多个中心点的姿态，对每个预测关键点进行参数化，得到每个预测关键点相对于中心点的偏移；

步骤S404，将每个预测关键点相对于中心点的偏移，通过L1损失函数计算得到每个预测关键点的偏移。

具体地，根据中心点进行预测关键点检测，令中心点的姿态是k×2维的(k为每个人体预测关键点的数量)，然后将每个预测关键点(关节点对应的点)进行参数化，得到每个预测关键点相对于中心点的偏移，再通过L1损失函数直接回归出每个预测关键点的偏移(像素单位)

为了完善预测关键点，采用自下而上(bottom-up)多人姿态估计算法，进一步估计k个人体关键点热力图

令

然后将每个回归位置l

进一步的，该方法还包括以下步骤：

步骤S501，从多个中心点中选取满足第三预设条件的多个样本点，其中，每个样本点对应多个预测关键点；

步骤S502，根据每个样本点和每个样本点对应的多个预测关键点构建多个组合；

步骤S503，计算每个组合对应的置信度；

步骤S504，如果置信度等于1，则将组合确定为视频图像中的目标对象；

步骤S505，如果置信度等于0，则将组合确定为视频图像中的背景。

进一步的，步骤S501包括以下步骤，重复执行以下处理，直至每个中心点均被遍历：

步骤S601，从多个中心点中选取任意中心点作为当前中心点；

步骤S602，如果当前中心点的值大于或等于与当前中心点相邻的其他中心点的值，则将当前中心点作为样本点。

这里，当前中心点的值为当前中心点的像素值，如果当前中心点的像素值大于或等于与当前中心点相邻的其他中心点的像素值，则将当前中心点作为样本点。与当前中心点相邻的其他中心点为当前中心点的周围的八个相邻点，可采用3×3的MaxPool方式选取多个样本点，其中，多个样本点的数量可以为100。

具体地，从多个中心点中选取满足第三预设条件的多个样本点，其中，每个样本点对应多个预测关键点；根据每个样本点和每个样本点对应的多个预测关键点构建多个组合；计算每个组合对应的置信度

本发明实施例提供了视频图像的监控方法，包括：采集工作环境下的视频图像；创建人体姿态检测模型；将视频图像输入到人体姿态检测模型中，得到多个预测关键点；将多个预测关键点输入到支持向量机SVM中，得到分类结果；根据分类结果确定目标对象的姿态；根据目标对象的姿态确定目标对象为正常或异常，采用AI处理器对视频图像进行监控，确定工作人员姿态是否异常，识别精度高，成本低。

实施例二：

图3为本发明实施例二提供的视频图像的监控装置示意图。

参照图3，该装置包括：摄像头1、CPU2、AI处理器3、报警灯4和扬声器5，摄像头1、AI处理器3、报警灯4和扬声器5分别与CPU2相连接；

摄像头1，用于采集工作环境下的视频图像；

AI处理器3，用于创建人体姿态检测模型；将视频图像输入到人体姿态检测模型中，得到多个预测关键点；将多个预测关键点输入到支持向量机SVM中，得到分类结果；根据分类结果确定目标对象的姿态；根据目标对象的姿态确定目标对象为正常或异常；在目标对象为异常的情况下，向CPU2发送异常提醒信息；

CPU2，用于根据异常提醒信息控制报警灯4闪烁和/或扬声器5进行语音提示。

进一步的，还包括通信模块6；

通信模块6，与CPU2相连接，用于将异常提醒信息发送给远程控制系统。

实施例三：

图4为本发明实施例三提供的另一视频图像的监控装置示意图。

参照图4，该装置包括摄像头1、CPU(Central Processing Unit，中央处理器)2、AI(Artificial Intelligence，人工智能)处理器3、报警灯4、通信模块6和扬声器5，摄像头1、AI处理器3、报警灯4和扬声器5分别与CPU2相连接；还包括图像采集模块7、I/O模块8和声音模块9；通信模块6包括以太网模块61、WiFi(Wireless Fidelity，无线保真)模块62和4G(the 4th Generation，第4代)模块63，其中，以太网模块61与以太网接口相连接，WiFi模块62与WiFi天线相连接，4G模块63与4G天线相连接；

图像采集模块7分别与摄像头1和CPU2相连接，I/O模块8分别与CPU2和报警灯4相连接，声音模块9分别与CPU2和扬声器5相连接。

图像采集模块7，用于将视频图像进行解码，得到解码的视频图像，将解码的视频图像发送给CPU2；

I/O模块8，用于触发报警灯4闪烁；

声音模块9，用于驱动扬声器5进行语音提示。

另外，将异常提醒信息发送给远程控制系统时，可通过以太网模块61、WiFi模块62和4G模块63发送。其中，远程控制系统包括但不限于报警系统和安全系统。

当采用以太网模块61进行发送时，可通过以太网接口将异常提醒信息发送给远程控制系统；

当采用WiFi模块62进行发送时，可通过WiFi天线将异常提醒信息发送给远程控制系统。

当采用4G模块63进行发送时，可通过4G天线将异常提醒信息发送给远程控制系统。

一种视频图像的监控系统，包括如上所述的视频图像的监控装置。

本发明实施例提供了视频图像的监控装置和系统，包括：摄像头、CPU、AI处理器、报警灯和扬声器，摄像头、AI处理器、报警灯和扬声器分别与CPU相连接；摄像头用于采集工作环境下的视频图像；AI处理器用于创建人体姿态检测模型；将视频图像输入到人体姿态检测模型中，得到多个预测关键点；将多个预测关键点输入到SVM中，得到分类结果；根据分类结果确定目标对象的姿态；根据目标对象的姿态确定目标对象为正常或异常；在目标对象为异常的情况下，向CPU发送异常提醒信息；CPU用于根据异常提醒信息控制报警灯闪烁和/或扬声器进行语音提示，采用AI处理器对视频图像进行监控，确定工作人员姿态是否异常，识别精度高，成本低。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例提供的视频图像的监控方法的步骤。

本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质，计算机可读介质上存储有计算机程序，计算机程序被处理器运行时执行上述实施例的视频图像的监控方法的步骤。

本发明实施例所提供的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：程相德;陈博;李占文;陈虎林;李世春;杨永成;祁万军;李金堂;曹峥;钟昊;
专利申请人：中国铁路兰州局集团有限公司;北京佳讯飞鸿电气股份有限公司;佳讯飞鸿(北京)智能科技研究院有限公司;