掌桥专利:专业的专利平台
掌桥专利
首页

乘客行为检测方法、装置、电子设备和计算机可读介质

文献发布时间:2024-04-18 19:57:31


乘客行为检测方法、装置、电子设备和计算机可读介质

技术领域

本公开的实施例涉及计算机技术领域,具体涉及乘客行为检测方法、装置、电子设备和计算机可读介质。

背景技术

乘客行为检测,是用于对乘客不文明行为进行实时检测,以便及时制止和报警,保证乘客的生命安全。对于乘客的行为进行检测,通常采用的方式为:使用普通摄像机对乘客行为进行采集,得到监控视频,然后将监控视频发送至服务器进行存储,以及对乘客监控视频进行全身关键点追踪检测,并与异常行为数据库中的异常行为进行相似度计算,确定乘客异常行为。

然而,发明人发现,当采用上述方式来检测乘客行为时,经常会存在如下技术问题:

第一,由于使用普通摄像机进行采集,并将采集的监控视频直接发送至服务器端,导致传输时间较长,占用较多的通信资源,仅仅对监控视频进行异常行为检测,难以检测出遮挡区域的异常行为,造成检测准确率较低,导致存在大量冗余数据,导致存储资源的浪费。

第二,由于对监控视频进行全身关键点追踪检测,并与异常行为数据库中的异常行为进行相似度计算,导致得到的关键点数据中存在大量冗余数据,导致存储和内存资源的浪费。

第三,由于普通摄像机无法检测滞留乘客,只能将视频发送至服务器进行滞留乘客的检测,导致传输时间较长和占用较多的通信资源,不能及时发现滞留乘客,导致乘客的安全性较低。

该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。

本公开的一些实施例提出了乘客行为检测方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面,本公开的一些实施例提供了一种乘客行为检测方法,包括:响应于检测到乘客进入目标车辆,控制上述目标车辆中的摄像机对上述目标车辆进行视频和音频采集,得到监控视频和监控音频;基于上述监控视频和上述监控音频,执行以下添加步骤:对上述监控视频进行异常行为检测处理,得到乘客异常行为信息;对上述监控音频进行异常音频检测处理,得到乘客异常音频信息;确定上述乘客异常行为信息和上述乘客异常音频信息对应的乘客信息集,以及对上述乘客信息集对应的乘客集发送警告信息;确定被发送警告信息的乘客信息集中每个乘客信息对应的警告次数,得到警告次数集;响应于确定上述警告次数集中存在警告次数达到预设警告次数阈值的警告次数,确定达到预设警告次数阈值的告警次数对应的至少一位乘客信息,作为拦截乘客信息集;将上述拦截乘客信息集添加至预设乘客拦截名单,以及将上述乘客异常音频信息、上述乘客异常行为信息和上述预设乘客拦截名单发送至存储服务器。

第二方面,本公开的一些实施例提供了一种乘客行为检测装置,包括:控制单元,被配置成响应于检测到乘客进入目标车辆,控制上述目标车辆中的摄像机对上述目标车辆进行视频和音频采集,得到监控视频和监控音频;执行单元,被配置成基于上述监控视频和上述监控音频,执行以下添加步骤:对上述监控视频进行异常行为检测处理,得到乘客异常行为信息;对上述监控音频进行异常音频检测处理,得到乘客异常音频信息;确定上述乘客异常行为信息和上述乘客异常音频信息对应的乘客信息集,以及对上述乘客信息集对应的乘客集发送警告信息;确定被发送警告信息的乘客信息集中每个乘客信息对应的警告次数,得到警告次数集;响应于确定上述警告次数集中存在警告次数达到预设警告次数阈值的警告次数,确定达到预设警告次数阈值的告警次数对应的至少一位乘客信息,作为拦截乘客信息集;将上述拦截乘客信息集添加至预设乘客拦截名单,以及将上述乘客异常音频信息、上述乘客异常行为信息和上述预设乘客拦截名单发送至存储服务器。

第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本公开的上述各个实施例中具有如下有益效果:本公开的一些实施例的乘客行为检测方法结合视频和音频对乘客进行异常检测,可以提高异常检测的准确性,减少存储资源的浪费。具体来说,造成相关的存储资源的浪费的原因在于:由于使用普通摄像机进行采集,并将采集的监控视频直接发送至服务器端,导致传输时间较长,占用较多的通信资源,仅仅对监控视频进行异常行为检测,难以检测出遮挡区域的异常行为,造成检测准确率较低,导致存在大量冗余数据,导致存储资源的浪费。基于此,本公开的一些实施例的乘客行为检测方法可以第一步,响应于检测到乘客进入目标车辆,控制上述目标车辆中的摄像机对上述目标车辆进行视频和音频采集,得到监控视频和监控音频。在这里,得到的监控视频和监控音频便于后续进行异常行为检测和异常音频检测。第二步,基于上述监控视频和上述监控音频,执行以下添加步骤:首先,对上述监控视频进行异常行为检测处理,得到乘客异常行为信息。在这里,异常行为检测处理可以实时检测乘客的异常行为,避免现有技术中将监控视频发送至服务器进行异常行为检测,可以减少通信资源的浪费以及提高乘客的安全。其次,对上述监控音频进行异常音频检测处理,得到乘客异常音频信息。在这里,异常音频检测处理可以实时检测乘客异常音频,避免现有技术中将监控音频发送至服务器进行异常音频检测,可以减少通信资源的浪费,以及提高乘客的安全。再次,确定上述乘客异常行为信息和上述乘客异常音频信息对应的乘客信息集,以及对上述乘客信息集对应的乘客集发送警告信息。在这里,结合监控音频和监控视频进行异常检测可以检测到仅仅使用监控视频进行异常检测中的检测盲区,可以提高异常检测的准确性和全面性,进而可以提高乘客信息确定的准确性和警告信息发送的准确性。随后,确定被发送警告信息的乘客信息集中每个乘客信息对应的警告次数,得到警告次数集。在这里,得到的告警次数集便于后续确定待拦截乘客信息。然后,响应于确定上述警告次数集中存在警告次数达到预设警告次数阈值的警告次数,确定达到预设警告次数阈值的告警次数对应的至少一位乘客信息,作为拦截乘客信息集。在这里,得到的拦截乘客信息集可以减少目标车辆中的拦截乘客,提高乘客的安全。最后,将上述拦截乘客信息集添加至预设乘客拦截名单,以及将上述乘客异常音频信息、上述乘客异常行为信息和上述预设乘客拦截名单发送至存储服务器。在这里,得到的准确率较高的乘客异常音频信息、乘客异常行为信息和预设乘客拦截名单,可以减少存储资源的浪费。由此可得,该乘客行为检测方法结合视频和音频对乘客进行异常检测,可以提高异常检测的准确性,减少存储资源的浪费。

附图说明

结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。

图1是根据本公开的乘客行为检测方法的一些实施例的流程图;

图2是根据本公开的乘客行为检测装置的一些实施例的结构示意图;

图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。

需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1示出了根据本公开的乘客行为检测方法的一些实施例的流程100。该乘客行为检测方法,包括以下步骤:

步骤101,响应于检测到乘客进入目标车辆,控制目标车辆中的摄像机对目标车辆进行视频和音频采集,得到监控视频和监控音频。

在一些实施例中,上述乘客行为检测方法的执行主体(例如,电子设备)可以响应于检测到乘客进入目标车辆,控制目标车辆中的摄像机对目标车辆进行视频和音频采集,得到监控视频和监控音频。其中,上述目标车辆可以是待采集监控视频和监控音频的车辆。例如,上述目标车辆可以是无人驾驶车辆。上述摄像机可以是对乘客的行为和音频进行采集的智能摄像机。例如,上述摄像机可以是双目摄像机。上述摄像机位于上述目标车辆顶部的加固板处,可以防止上述目标车辆长时间运行时出现摄像机和目标车辆出现松动情况,以及防止摄像机在进行采集时出现抖动情况导致采集的视频质量较低。上述监控视频可以是对进入上述目标车辆中的乘客的行为进行采集得到视频。上述监控音频可以是对进入上述目标车辆中的乘客进行语音采集得到的音频。上述监控视频和上述监控音频的时长可以是上述目标车辆从起点到达终点的时长。

在一些实施例的一些可选的实现方式中,上述摄像机包括:摄像机芯片、采集组件、电源电路组件、行为异常检测组件、音频异常检测组件、生命体征识别组件、设备联动组件、设备接口和存储组件,其中:

上述采集组件与上述摄像机芯片通信连接,用于采集监控视频、监控音频和红外视频。其中,上述采集组件包括:第一目标摄像头、第二目标摄像头和麦克风。上述第一目标摄像头可以是普通的光学摄像头。上述第二目标摄像头可以是热红外摄像头。上述摄像机芯片可以是以下至少一项:CPU(Central Processing Unit,中央处理器)和GPU(GraphicsProcessing Unit,图形处理器)。

上述电源电路组件与上述摄像机芯片通信连接,用于为上述摄像机提供电源。

上述行为异常检测组件与上述摄像机芯片通信连接,用于对上述监控视频进行异常行为检测处理。

上述音频异常检测组件与上述摄像机芯片通信连接,用于对监控音频进行异常音频检测处理。

上述生命体征识别组件与上述摄像机芯片通信连接,用于对热红外视频进行生命体征检测处理。

上述设备联动组件与上述摄像机芯片通信连接,用于与上述目标车辆进行联动控制。

上述设备接口与上述电源电路组件通信连接,用于与线缆进行连接。其中,上述设备接口采用的是航空插头。上述航空插头可以是圆柱形的针电连接器。上述存储组件与上述摄像机芯片通信连接,用于存储监控视频和监控音频。其中,上述存储组件可以是内存。例如,上述存储组件可以是MT53B256M32D1-NP。

步骤102,基于监控视频和监控音频,执行以下添加步骤:

步骤1021,对监控视频进行异常行为检测处理,得到乘客异常行为信息。

在一些实施例中,上述执行主体可以对上述监控视频进行异常行为检测处理,得到乘客异常行为信息。其中,上述乘客异常行为信息可以是在上述目标车辆中的小概率行为信息。例如,上述乘客异常行为信息可以包括但不限于以下至少一项:抽烟、摔倒、打架、偷窃和踩踏。

作为示例,上述执行主体可以利用光流法,对上述监控视频进行异常行为检测处理,得到乘客异常行为信息。

在一些实施例的一些可选的实现方式中,上述对上述监控视频进行异常行为检测处理,得到乘客异常行为信息,可以包括以下步骤:

第一步,对上述监控视频进行关键帧提取,得到目标关键帧序列。其中,上述目标关键帧序列中的目标关键帧可以是包括乘客信息的关键帧。上述关键帧提取可以是对包括乘客信息的关键帧进行提取。

第二步,对上述目标关键帧序列中的每个目标关键帧进行预处理,得到预处理后目标关键帧序列。其中,上述预处理可以包括以下至少一项:灰度处理和滤波处理。

第三步,将上述预处理后目标关键帧序列输入至异常行为识别模型,得到乘客异常行为信息。其中,上述异常行为识别模型可以是对输入的预处理后目标关键帧序列进行异常识别、输出异常行为信息的模型。上述异常行为识别模型可以是改进后的YOLO(YouOnly Live Once)v5模型。上述异常行为识别模型可以是在初始YOLOv5模型的主干网络模型中添加屏蔽卷积注意力模型、在YOLOv5模型中的检测网络中添加Swin transformer(Shifted window Transformer,基于移动窗口的多头自注意力)模块和坐标注意力机制模块。上述屏蔽卷积注意力模型可以是利用上下文信息学习预测隐藏信息的模块,可以提高异常行为识别模型的特征学习能力,优化异常行为识别模型的检测性能。上述Swintransformer模块采用了分组运算的思想,通过采用CNN(Convolutional NeuralNetworks,卷积神经网络)模型中分层构造方法实现各个特征矢量的融合,可以提取人体多尺度特征。上述坐标注意力机制模块可以在特征图中引入坐标注意力机制,可以更好地利用特征图中的异常行为对象的位置信息的模块。

在一些实施例的一些可选的实现方式中,上述对上述监控视频进行异常行为检测处理,得到乘客异常行为信息,可以包括以下步骤:

第一步,确定上述监控视频对应的监控图像序列。其中,上述监控图像序列可以是对上述监控视频每秒提取一张监控图像得到的图像序列。

第二步,对上述监控图像序列中的每个监控图像,执行以下第一确定步骤:

第一子步骤,确定上述监控图像包括的至少一位乘客的乘客信息,得到乘客信息集。其中,上述乘客信息可以是乘客的人脸信息。实践中,上述执行主体可以对上述监控图像包括的至少一位乘客进行人脸检测,以生成乘客信息,得到乘客信息集。

第二子步骤,对于上述乘客信息集中的每个乘客信息,执行以下第二确定步骤:

子步骤1,确定上述乘客信息的人体关键点集。其中,上述人体关键点集中的人体关键点可以是表征人体进行相应动作的关键点。例如,上述关键点可以包括以下至少一项:右肩关键点、右肘关键点、右腕关键点、人体重心关键点、左肩关键点、左肘关键点、左腕关键点。上述确定可以是利用人体关键点提取模型进行的确定。上述人体关键点提取模型可以是包括三维卷积神经网络模型、多阶段二维提取模型和三维关键点生成模型。上述三维卷积神经网络模型的输入是当前帧监控图像、前一帧监控图像和后一帧监控图像、输出是图像特征图。上述图像特征图包含三帧图像的时序特征。上述三维卷积神经网络的卷积核可以是3*3*3。上述多阶段二维提取模型的第一阶段模型包括三层3*3的卷积层和两个1*1的卷积层,其他阶段包括五层7*7的卷积层和两层1*1的卷积层。上述多阶段二维提取模型的第一阶段的输入为图像特征图,输出为二维关键点检测置信度图的模型。其他阶段的输入为前一阶段输出的二维关键点检测置信度图和图像特征图,输出为二维关键点检测置信度图。上述二维关键点检测置信度图可以是关键点在监控图像上各个点的概率值图。上述三维关键点生成模型可以包括:三层卷积层和一层全连接层,卷积层的激活函数可以是ReLU(Linear rectification function,线性整流函数),全连接层的激活函数可以是Sigmoid(Sigmoid function)函数。上述三维关键点生成模型的输入为二维关键点检测置信度图、输出为三维关键点坐标的模型。

子步骤2,根据上述人体关键点集,生成人体行为矢量集。其中,上述人体行为矢量集中的人体行为矢量表征乘客信息对应的乘客的行为动作对应的矢量。上述人体行为矢量集可以是抽烟行为对应的矢量集。例如,上述矢量集可以包括:人体重心关键点对应的三维坐标与右肩关键点对应的三维坐标相减得到的矢量、人体重心关键点对应的三维坐标与右肘关键点对应的三维坐标相减得到的矢量、体重心关键点对应的三维坐标与右腕关键点对应的三维坐标相减得到的矢量。

作为示例,上述执行主体可以首先,确定上述人体关键点集中的每个人体关键点的三维坐标信息,得到三维坐标信息集。然后,对上述三维坐标信息集进行筛选,得到目标三维坐标信息集。其中,筛选可以是依据需要检测的人体姿态需要的关键点进行筛选。最后,确定上述目标三维坐标信息集中对应的两个目标三维坐标信息对应的差值,得到差值集,作为人体行为矢量集。其中,上述对应的两个目标三维坐标信息可以是人体姿态对应的两个关键点的三维坐标信息。

子步骤3,根据上述乘客信息,确定上述乘客信息对应的监控图像子序列,作为目标人体监控图像序列。其中,上述监控图像子序列可以是针对一位乘客信息的监控图像序列。

作为示例,上述执行主体可以通过对上述乘客信息进行追踪处理,得到针对上述乘客信息对应的监控图像子序列,作为目标人体监控图像序列。

子步骤4,确定上述目标人体监控图像序列中每个目标人体监控图像对应的人体行为矢量集,得到目标人体行为矢量集序列。

子步骤5,对于上述目标人体行为矢量集序列中的目标人体行为矢量集,确定上述目标人体行为矢量集中的每个目标人体行为矢量与后序目标人体行为矢量集中对应的目标人体行为矢量的角度差值,以生成角度差值集,得到角度差值集序列。其中,上述后序目标人体行为矢量集是位于上述目标人体行为矢量集后面的目标人体行为矢量集。

子步骤6,确定上述角度差值集序列中每个角度差值集的平均角度差值,得到平均角度差值序列。

子步骤7,响应于确定上述平均角度差值序列中存在大于等于预设角度阈值的平均角度差值,将大于等于预设角度阈值对应的至少一个平均角度差值,确定为至少一个目标平均角度差值。其中,上述预设角度阈值可以是表征上述乘客动作幅度的程度。例如,上述预设角度阈值可以是0.7。

子步骤8,将上述至少一个目标平均角度差值,确定为目标乘客异常行为信息。

第三步,将所得到的多个目标乘客异常行为信息,确定为乘客异常行为信息。

上述第一步至第三步及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题二“由于对监控视频进行全身关键点追踪检测,并与异常行为数据库中的异常行为进行相似度计算,导致得到的关键点数据中存在大量冗余数据,导致存储和内存资源的浪费”。导致储和内存资源的浪费的因素往往如下:由于对监控视频进行全身关键点追踪检测,并与异常行为数据库中的异常行为进行相似度计算,导致得到的关键点数据中存在大量冗余数据,导致存储和内存资源的浪费。如果解决了上述因素,就能达到减少存储和计算资源的浪费的效果。为了达到这一效果,本公开首先,确定上述监控视频对应的监控图像序列。然后,对上述监控图像序列中的每个监控图像,执行以下第一确定步骤:确定上述监控图像包括的至少一位乘客的乘客信息,得到乘客信息集。在这里,得到的乘客信息集便于后续确定乘客的关键点信息。对于上述乘客信息集中的每个乘客信息,执行以下第二确定步骤:确定上述乘客信息的人体关键点集。在这里,通过人体关键点提取模型提取了关键点的空间特征和时间特征,可以减少二维关键点置信度图的误差和由于遮挡导致的关键点的缺失,提高了生成三维坐标点的准确度。根据上述人体关键点集,生成人体行为矢量集。在这里,生成的人体行为矢量集可以表征人体的行为姿态,便于后续确定人体行为变化幅度。根据上述乘客信息,确定上述乘客信息对应的监控图像子序列,作为目标人体监控图像序列。在这里,得到的目标人体监控图像序列便于对人体关键点进行追踪,确定人体行为变化幅度。确定上述目标人体监控图像序列中每个目标人体监控图像对应的人体行为矢量集,得到目标人体行为矢量集序列。对于上述目标人体行为矢量集序列中目标人体行为矢量集,确定上述目标人体行为矢量集中的每个目标人体行为矢量与后序目标人体行为矢量集中对应的目标人体行为矢量的角度差值,以生成角度差值集,得到角度差值集序列。在这里,通过人体行为矢量在序列中的角度变化可以确定人体姿态变化幅度,便于后续确定是否为异常行为信息,由于关键点提取的减少,可以减少内存资源的浪费。确定上述角度差值集序列中每个角度差值集的平均角度差值,得到平均角度差值序列。响应于确定上述平均角度差值序列中存在大于等于预设角度阈值的平均角度差值,将大于等于预设角度阈值对应的至少一个平均角度差值,确定为至少一个目标平均角度差值。将上述至少一个目标平均角度差值,确定为目标乘客异常行为信息。最后,将所得到的多个目标乘客异常行为信息,确定为乘客异常行为信息。因此,上述异常行为检测方法通过利用人体关键点提取模型对关键点的提取和关键点矢量对应角度差值的确定可以减少关键点的提取,避免与异常行为数据库进行相似度计算,可以减少存储和内存资源的浪费。

步骤1022,对监控音频进行异常音频检测处理,得到乘客异常音频信息。

在一些实施例中,上述执行主体可以对上述监控音频进行异常音频检测处理,得到乘客异常音频信息。其中,上述乘客异常音频信息可以是与上述目标车辆场景不相符的音频信息。例如,上述乘客异常音频信息可以包括但不限于以下至少一项:辱骂声、尖叫声、警报声和超过50分贝的手机外放声。

作为示例,上述执行主体可以首先,对上述监控音频进行关键字提取,得到关键字集。其次,将上述关键字集与预设关键词集进行匹配,得到匹配结果组集。然后,将上述匹配结果组集中表征匹配成功的匹配结果对应的关键词,确定为目标关键词。最后,将上述包括目标关键词集的语音信息确定为乘客异常音频信息。

在一些实施例的一些可选的实现方式中,上述对上述监控音频进行异常音频检测处理,得到乘客异常音频信息,可以包括以下步骤:

第一步,对上述监控音频进行格式转换,得到监控频谱图。其中,上述监控频谱图可以是表征监控音频的音频信号变化的频谱图。

作为示例,上述执行主体可以首先,利用CQT(Constant QTransform,恒Q变换)算法,对上述监控音频进行格式转换,得到灰纹理图像。然后,利用双立法插值算法,对上述灰纹理图像进行纹理尺寸调整处理,得到监控频谱图。

第二步,对上述监控频谱图进行分块处理,得到监控频谱块集。其中,上述分块处理可以是按照频谱方向进行的分块处理。例如,上述监控频谱块集中的监控频谱块可以是上述监控频谱图的十六分之一。上述监控频谱图的分辨率可以是512*512。监控频谱块的分辨率可以是32*512。

第三步,对上述监控频谱块集中的每个监控频谱块进行特征提取处理,以生成监控特征向量,得到监控特征向量集。其中,上述监控特征向量可以是局部相位量化特征。实践中,上述执行主体可以利用LBP(Local Phase Quantization,局部相位量化模式)算法,对上述监控频谱块集中的每个监控频谱块进行特征提取处理,以生成监控特征向量,得到监控特征向量集。

第四步,构建异常音频特征向量集。其中,上述异常音频特征向量集中的异常音频特征向量可以是对异常音频信息集进行特征提取,得到的特征向量集。其中,异常音频信息集可以包括以下至少一项:辱骂声、尖叫声、警报声和超过50分贝的手机外放声。

第五步,确定上述监控特征向量集与上述异常音频特征向量集中的每个异常音频特征向量的相似度,得到多个相似度数值集。其中,上述多个相似度数值集中的相似度数值可以表征监控特征向量与异常音频特征向量之间的相似度。

第六步,根据上述多个相似度数值集,确定乘客异常音频信息。

作为示例,上述执行主体可以对于上述多个相似度数值集中的每个相似度数值集,确定上述相似度数值集中相似度数值最大的相似度数值,作为目标相似度数值,得到多个目标相似度数值。然后,将上述多个目标相似度数值对应的多个异常音频特征向量对应的异常音频信息,确定为乘客异常音频信息。

步骤1023,确定乘客异常行为信息和乘客异常音频信息对应的乘客信息集,以及对乘客信息集对应的乘客集发送警告信息。

在一些实施例中,上述执行主体可以确定上述乘客异常行为信息和上述乘客异常音频信息对应的乘客信息集,以及对上述乘客信息集对应的乘客集发送警告信息。其中,上述乘客信息集中的乘客信息可以是表征乘客身份的信息。例如,上述乘客信息可以包括但不限于以下至少一项:乘客身份证号和乘客人脸信息。上述警告信息可以是提醒乘客的信息。例如,上述警告信息可以是警告乘客禁止吸烟的信息。上述发送警告信息可以是通过摄像头的对讲功能对乘客进行语音警告,也可以是将警告信息发送至乘客信息的电子终端。

作为示例,上述执行主体可以通过检测乘客信息的脸部特征,确定上述乘客异常行为信息对应的乘客信息。上述执行主体可以利用基于隐马尔可夫模型的语音识别方法,确定上述乘客异常音频信息对应的乘客信息。

步骤1024,确定被发送警告信息的乘客信息集中每个乘客信息对应的警告次数,得到警告次数集。

在一些实施例中,上述执行主体可以确定被发送警告信息的乘客信息集中每个乘客信息对应的警告次数,得到警告次数集。

步骤1025,响应于确定警告次数集中存在警告次数达到预设警告次数阈值的警告次数,确定达到预设警告次数阈值的告警次数对应的至少一位乘客信息,作为拦截乘客信息集。

在一些实施例中,上述执行主体可以响应于确定上述警告次数集中存在警告次数达到预设警告次数阈值的警告次数,确定达到预设警告次数阈值的告警次数对应的至少一位乘客信息,作为拦截乘客信息集。其中,上述预设警告次数阈值可以是确定是否将乘客信息确定为待拦截乘客信息的临界值。

步骤1026,将拦截乘客信息集添加至预设乘客拦截名单,以及将乘客异常音频信息、乘客异常行为信息和预设乘客拦截名单发送至存储服务器。

在一些实施例中,上述执行主体可以将上述拦截乘客信息集添加至预设乘客拦截名单,以及将上述乘客异常音频信息、上述乘客异常行为信息和上述预设乘客拦截名单发送至存储服务器。其中,上述预设乘客拦截名单可以是预先设计的、存储超过预设告警次数阈值的乘客并进行乘车拦截的乘客信息的表单。上述存储服务器可以是用于存储乘客异常音频信息、乘客异常行为信息和预设乘客拦截名单的服务器。

可选地,上述执行主体在1026之后,还可以执行以下步骤:

第一步,响应于确定上述警告次数集中存在警告次数未达到预设警告次数阈值的告警次数,重新采集监控视频和监控音频,得到待检测视频和待检测音频。

第二步,将上述待检测视频和上述待检测音频,确定为监控视频和监控音频,以及再次执行上述添加步骤。

可选地,上述执行主体在1026之后,还可以执行以下步骤:

第一步,响应于检测到上述目标车辆到达目的地,对上述目标车辆进行生命体检测,得到生命体检测结果。其中,上述目的地可以是上述目标车辆的终点。上述生命体检测结果可以表征上述目标车辆中是否存在滞留乘客。上述滞留乘客可以是已经到达乘客确定的目的地,但是未下车的乘客。

作为示例,上述执行主体可以响应于检测到上述目标车辆到达目的地,利用上述摄像集的热红外摄像头,对上述目标车辆进行生命体检测,得到生命体检测结果。

第二步,响应于确定上述生命体检测结果表征存在滞留乘客,对至少一位滞留乘客中的每个滞留乘客进行生命体征识别,以生成生命体征信息,得到生命体征信息集。其中,上述生命体征信息可以表征生命体的健康程度的信息。上述生命体征信息可以包括但不限于以下至少一项:呼吸、体温、脉搏和血压。

作为示例,上述执行主体可以首先,利用毫米波雷达,获取上述至少一位滞留乘客的生命体征信号,得到生命体征信息集。然后,利用VMD(Variational ModeDecomposition,变分模态分解)算法,对生命体征信号集中的每个生命体征信息进行生命体征信息提取处理,以生成生命体征信息,得到生命体征信息集。

第三步,根据上述生命体征信息集,控制对应设备执行对应操作。其中,上述对应设备可以是与上述执行主体具有联动控制关系的设备。例如,上述对应设备可以是以下至少一项:车门、窗户和座椅。上述对应操作可以是上述对应设备执行的操作。例如,上述对应操作可以是一项至少一项:打开车门、打开窗户、发送报警和拨打求救电话。

作为示例,上述执行主体可以首先,确定上述生命体征信息集中每个生命体征信息对应的生命体征等级信息。其中,上述生命体征等级信息可以是表征上述生命体的健康程度。上述生命体征等级信息可以包括:绿色生命体征等级信息、黄色生命体征等级信息、橙色生命体征等级信息和红色生命体征等级信息。然后,利用预设生命体征等级关联规则信息,控制对应设备执行对应操作。上述预设生命体征等级关联规则信息可以是预先设定的、不同生命体征等级信息对应不同急救措施的规则信息。例如,上述预设生命体征等级关联规则信息可以是红色生命体征等级信息,更改上述目标车辆的目的地为最近医院位置信息,以及将生命体征信息发送至医院终端的关联规则信息。

在一些实施例的一些可选的实现方式中,上述对至少一位滞留乘客中的每个滞留乘客进行生命体征识别,以生成生命体征信息,得到生命体征信息集,可以包括以下步骤:

第一步,获取上述至少一位滞留乘客中的每个滞留乘客对应的热红外视频,得到热红外视频集。其中,上述热红外视频可以是由摄像机携带的热红外摄像头采集得到的视频。

第二步,对于上述热红外视频集中的每个热红外视频,执行以下第一滤波处理步骤:

第一子步骤,对上述热红外视频对应的热红外图像序列进行人脸检测,得到滞留人脸图像序列。其中,上述热红外图像序列可以是对上述热红外视频进行关键帧提取得到的图像序列。

作为示例,上述执行主体可以首先,确定上述热红外视频对应的热红外图像序列。然后,对于上述热红外图像序列中的每个热红外图像,执行以下人脸检测处理步骤:第一步,对上述热红外图像进行预处理,得到预处理后热红外图像。其中,预处理可以包括以下至少一项:灰度化处理、二值化处理和腐蚀膨胀处理。第二步,对上述预处理后热红外图像进行轮廓提取处理,得到滞留人脸图像。

第二子步骤,对于上述滞留人脸图像序列中的每个滞留人脸图像,执行以下第二滤波处理步骤:

子步骤1,确定上述滞留人脸图像的感兴趣区域,得到第一感兴趣区域图像和第二感兴趣区域图像。其中,上述第一感兴趣区域图像可以是额头毛细血管区域的图像。上述第一感兴趣区域图像可以是鼻子区域的图像。由于血管和鼻翼温度较高,在热红外图像比较突出,所以将额头毛细血管区域确定为第一感兴趣区域,将鼻子确定为第二感兴趣区域。

子步骤2,对上述第一感兴趣区域图像和上述第二感兴趣区域图像进行图像分割处理,得到第一感兴趣区域背景图像、第一感兴趣区域前景图像、第二感兴趣区域背景图像和第二感兴趣区域前景图像。其中,上述第一感兴趣区域背景图像可以是第一感兴趣区域图像对应的背景图像。上述第一感兴趣区域前景图像可以是上述第一感兴趣区域对应的前景图像。上述第二感兴趣区域背景图像可以是第二感兴趣区域对应的背景图像。上述第二感兴趣区域前景图像可以是第二感兴趣区域对应的背景图像。

作为示例,上述执行主体可以对上述第一感兴趣区域图像和上述第二感兴趣区域图像进行滤波处理,得到滤波后第一感兴趣图像和滤波后第二感兴趣图像。然后,对上述第一感兴趣图像和第二感兴趣图像进行高帽分割处理,得到第一感兴趣区域背景图像、第一感兴趣区域前景图像、第二感兴趣区域背景图像和第二感兴趣区域前景图像。

子步骤3,确定上述第一感兴趣区域前景图像中每个像素值与第一感兴趣区域背景图像对应像素的像素差值,得到随时间变化的第一像素差值集。

子步骤4,确定上述第二感兴趣区域前景图像中的每个像素值与第二感兴趣区域背景图像对应像素的像素差值,得到随时间变化的第二像素差值集。

子步骤5,将上述第一像素差值集的平均值,确定为第一平均像素差值,以及将第二像素差值集的平均值,确定为第二平均像素差值。

第三子步骤,将所得到的第一像素差值序列和所得到的第二像素差值序列分别确定为初始心率信息图和初始呼吸信息图。其中,上述初始心率信息图可以是以时间为横坐标,以第一像素差值序列为纵坐标的序列图。上述初始呼吸信息图可以是以时间为横坐标,以第二像素差值序列为纵坐标的序列图。

第四子步骤,对上述初始心率信息图和上述初始呼吸信息图进行滤波处理,得到心率信息图和呼吸信息图,作为生命体征信息。其中,上述滤波处理可以是利用HP(HodrickPrescott filter)滤波器进行的滤波处理。

上述第一步至第四子步骤及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题三“由于普通摄像机无法检测滞留乘客,只能将视频发送至服务器进行滞留乘客的检测,导致传输时间较长和占用较多的通信资源,不能及时发现滞留乘客,导致乘客的安全性较低”。导致不能及时发现滞留乘客,导致乘客的安全性较低的因素往往如下:由于普通摄像机无法检测滞留乘客,只能将视频发送至服务器进行滞留乘客的检测,导致传输时间较长和占用较多的通信资源,不能及时发现滞留乘客,导致乘客的安全性较低。如果解决了上述因素,就能达到及时发现滞留乘客,提高乘客的安全的效果。为了达到这一效果,本公开首先,获取上述至少一位滞留乘客中的每个滞留乘客对应的热红外视频,得到热红外视频集。在这里,由于热红外对温度的敏感度较高,通过热红外视频可以实时检测滞留人员的温度变化,确定滞留人员的状态。然后,对于上述热红外视频集中的每个热红外视频,执行以下第一滤波处理步骤:第一步,对上述热红外视频对应的热红外图像序列进行人脸检测,得到滞留人脸图像序列。第二步,对于上述滞留人脸图像序列中的每个滞留人脸图像,执行以下第二滤波处理步骤:确定上述滞留人脸图像的感兴趣区域,得到第一感兴趣区域图像和第二感兴趣区域图像。在这里,确定感兴趣区域可以减少检测图像区域和噪声,减少运算量,以及提高检测准确度。对上述第一感兴趣区域图像和上述第二感兴趣区域图像进行图像分割处理,得到第一感兴趣区域背景图像、第一感兴趣区域前景图像、第二感兴趣区域背景图像和第二感兴趣区域前景图像。在这里,确定前景图像和背景图像便于后续确定像素差,得到生命体征信息。确定上述第一感兴趣区域前景图像中每个像素值与第一感兴趣区域背景图像对应像素的像素差值,得到随时间变化的第一像素差值集。确定上述第二感兴趣区域前景图像中的每个像素值与第二感兴趣区域背景图像对应像素的像素差值,得到随时间变化的第二像素差值集。将上述第一像素差值集的平均值,确定为第一平均像素差值,以及将第二像素差值集的平均值,确定为第二平均像素差值。第三步,将所得到的第一像素差值序列和所得到的第二像素差值序列分别确定为初始心率信息图和初始呼吸信息图。第四步,对上述初始心率信息图和上述初始呼吸信息图进行滤波处理,得到心率信息图和呼吸信息图,作为生命体征信息。在这里,滤波处理可以减少噪声对图像的影响,得到更加准确的图像,提高检测准确性。由此,通过摄像机的生命体征检测组件进行滞留乘客的生命体征检测,可以及时发现滞留乘客,从而可以提高滞留乘客的安全。

本公开的上述各个实施例中具有如下有益效果:本公开的一些实施例的乘客行为检测方法结合视频和音频对乘客进行异常检测,可以提高异常检测的准确性,减少存储资源的浪费。具体来说,造成相关的存储资源的浪费的原因在于:由于使用普通摄像机进行采集,并将采集的监控视频直接发送至服务器端,导致传输时间较长,占用较多的通信资源,仅仅对监控视频进行异常行为检测,难以检测出遮挡区域的异常行为,造成检测准确率较低,导致存在大量冗余数据,导致存储资源的浪费。基于此,本公开的一些实施例的乘客行为检测方法可以第一步,响应于检测到乘客进入目标车辆,控制上述目标车辆中的摄像机对上述目标车辆进行视频和音频采集,得到监控视频和监控音频。在这里,得到的监控视频和监控音频便于后续进行异常行为检测和异常音频检测。第二步,基于上述监控视频和上述监控音频,执行以下添加步骤:首先,对上述监控视频进行异常行为检测处理,得到乘客异常行为信息。在这里,异常行为检测处理可以实时检测乘客的异常行为,避免现有技术中将监控视频发送至服务器进行异常行为检测,可以减少通信资源的浪费以及提高乘客的安全。其次,对上述监控音频进行异常音频检测处理,得到乘客异常音频信息。在这里,异常音频检测处理可以实时检测乘客异常音频,避免现有技术中将监控音频发送至服务器进行异常音频检测,可以减少通信资源的浪费,以及提高乘客的安全。再次,确定上述乘客异常行为信息和上述乘客异常音频信息对应的乘客信息集,以及对上述乘客信息集对应的乘客集发送警告信息。在这里,结合监控音频和监控视频进行异常检测可以检测到仅仅使用监控视频进行异常检测中的检测盲区,可以提高异常检测的准确性和全面性,进而可以提高乘客信息确定的准确性和警告信息发送的准确性。随后,确定被发送警告信息的乘客信息集中每个乘客信息对应的警告次数,得到警告次数集。在这里,得到的告警次数集便于后续确定待拦截乘客信息。然后,响应于确定上述警告次数集中存在警告次数达到预设警告次数阈值的警告次数,确定达到预设警告次数阈值的告警次数对应的至少一位乘客信息,作为拦截乘客信息集。在这里,得到的拦截乘客信息集可以减少目标车辆中的拦截乘客,提高乘客的安全。最后,将上述拦截乘客信息集添加至预设乘客拦截名单,以及将上述乘客异常音频信息、上述乘客异常行为信息和上述预设乘客拦截名单发送至存储服务器。在这里,得到的准确率较高的乘客异常音频信息、乘客异常行为信息和预设乘客拦截名单,可以减少存储资源的浪费。由此可得,该乘客行为检测方法结合视频和音频对乘客进行异常检测,可以提高异常检测的准确性,减少存储资源的浪费。

进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种乘客行为检测装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该乘客行为检测装置具体可以应用于各种电子设备中。

如图2所示,一种乘客行为检测装置200包括:控制单元201、和执行单元202。其中,控制单元201被配置成:响应于检测到乘客进入目标车辆,控制上述目标车辆中的摄像机对上述目标车辆进行视频和音频采集,得到监控视频和监控音频。执行单元202被配置成:基于上述监控视频和上述监控音频,执行以下添加步骤:对上述监控视频进行异常行为检测处理,得到乘客异常行为信息;对上述监控音频进行异常音频检测处理,得到乘客异常音频信息;确定上述乘客异常行为信息和上述乘客异常音频信息对应的乘客信息集,以及对上述乘客信息集对应的乘客集发送警告信息;确定被发送警告信息的乘客信息集中每个乘客信息对应的警告次数,得到警告次数集;响应于确定上述警告次数集中存在警告次数达到预设警告次数阈值的警告次数,确定达到预设警告次数阈值的告警次数对应的至少一位乘客信息,作为拦截乘客信息集;将上述拦截乘客信息集添加至预设乘客拦截名单,以及将上述乘客异常音频信息、上述乘客异常行为信息和上述预设乘客拦截名单发送至存储服务器。

可以理解的是,乘客行为检测装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于乘客行为检测装置200及其中包含的单元,在此不再赘述。

下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备(例如,电子设备)300的结构示意图。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。

如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。

特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是,本公开的一些实施例上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。

在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于检测到乘客进入目标车辆,控制上述目标车辆中的摄像机对上述目标车辆进行视频和音频采集,得到监控视频和监控音频;基于上述监控视频和上述监控音频,执行以下添加步骤:对上述监控视频进行异常行为检测处理,得到乘客异常行为信息;对上述监控音频进行异常音频检测处理,得到乘客异常音频信息;确定上述乘客异常行为信息和上述乘客异常音频信息对应的乘客信息集,以及对上述乘客信息集对应的乘客集发送警告信息;确定被发送警告信息的乘客信息集中每个乘客信息对应的警告次数,得到警告次数集;响应于确定上述警告次数集中存在警告次数达到预设警告次数阈值的警告次数,确定达到预设警告次数阈值的告警次数对应的至少一位乘客信息,作为拦截乘客信息集;将上述拦截乘客信息集添加至预设乘客拦截名单,以及将上述乘客异常音频信息、上述乘客异常行为信息和上述预设乘客拦截名单发送至存储服务器。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括控制单元和执行单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,控制单元还可以被描述为“响应于检测到乘客进入目标车辆,控制上述目标车辆中的摄像机对上述目标车辆进行视频和音频采集,得到监控视频和监控音频的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 一种液位检测装置和包含其的设备以及液位检测方法、电子设备及计算机可读存储介质
  • 行为数据处理方法、装置、电子设备及计算机可读介质
  • 文本检测方法、装置、电子设备及计算机可读存储介质
  • 一种浴室加热装置和用于控制浴室加热装置的方法、设备、电子设备及计算机可读存储介质
  • 直播间挂机行为检测方法、装置、电子设备和计算机可读存储介质
  • 行为类别检测方法、装置、电子设备和计算机可读介质
技术分类

06120116458934