掌桥专利:专业的专利平台
掌桥专利
首页

人体行为识别方法、系统、设备及介质

文献发布时间:2023-06-19 13:29:16


人体行为识别方法、系统、设备及介质

技术领域

本发明属于数据检索领域,更具体地,涉及一种人体行为识别方法、系统、设备及介质。

背景技术

人体行为识别是人机交互领域的一项热点研究课题,旨在识别和理解人体各种行为表征或动作,通过机器学习算法从各种不同类型的数据源中挖掘和融合与人体行为相关的信息,返回识别后的行为类别,即“读懂人的行为”。人类日常行为活动复杂且多样化,微小的动作变化可能会产生完全不同的行为,且随着所处环境的变化而变化。因此,在行为识别相关应用研究中,研究者面临着许多挑战。

如何丰富原有传统识别方法的特征信息,如何有效解决严重损坏数据和噪声信号的问题,如何准确处理和鉴别复杂人体行为,日常行为识别应用中提出的这些技术难题使得相关研究人员开发出新型的模型和算法,充分利用跨学科交叉的技术与理论来获得与人体行为识别息息相关的运动信息,从而可以得到更有作用的线索来提高人体行为识别系统的准确率。

近年来,随着人体行为识别领域出现了众多的数据源,单独使用任何一种模态的数据在实际应用中都存在各种各样的局限性,都不足以提供足够的动作信息,难以实现鲁棒的行为表达,因此,人们很自然地会想到把多种模态数据的优势结合起来进行人体行为识别,如何实现高效的多模态异构信息融合成为当前的热点研究问题。

发明内容

针对现有技术的缺陷和改进需求,本发明提供了一种识别方法、系统、设备及介质,其目的在于解决现有的传统多模态融合方法忽略了模态之间的交互,导致人体行为特征信息量不足,不能对多模态复杂关系建模的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种基于多模态异构信息融合的人体行为识别方法,包括:S1,捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取所述RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征;S2,对所述加速度特征形成的循环矩阵和所述角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量;S3,对所述惯性传感器融合特征向量与所述视频特征进行基于塔克分解的双模态融合,得到融合行为特征;S4,将所述融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。

更进一步地,所述S1中特征提取之前还包括:删除预设起始时间段内捕获的RGB视频序列、加速度信号和角速度信号,并对删除后的数据进行最小-最大归一化处理;对最小-最大归一化处理后动作长度小于目标尺寸的数据进行零填充。

更进一步地,所述S1中特征提取包括:利用深度三维卷积神经网络对所述RGB视频序列进行特征提取,得到所述视频特征;利用包含卷积神经网络和长短期记忆网络的ConvLSTM模型对所述加速度信号和角速度信号进行特征提取,得到所述加速度特征和角速度特征。

更进一步地,所述S2包括:将所述加速度特征逐次逐数据平移以生成多个加速度向量,将所述多个加速度向量组合形成加速度循环特征矩阵;将所述角速度特征形成的角速度特征向量与所述加速度循环特征矩阵相乘后进行归一化处理,得到交互特征向量;将所述加速度特征形成的加速度特征向量、所述角速度特征向量和所述交互特征向量进行级联融合,得到所述惯性传感器融合特征向量。

更进一步地,所述加速度循环特征矩阵为:

所述交互特征向量为:

所述惯性传感器融合特征向量为:

其中,A为所述加速度循环特征矩阵,A

更进一步地,所述S3包括:对特征权重张量τ进行塔克分解,所述塔克分解为:

τ=((τ

对所述惯性传感器融合特征向量、所述视频特征形成的视频特征向量各自加一维1后降维,得到相应的低维稠密向量;

对所述低维稠密向量进行双模态融合,并向塔克分解得到的核心张量τ

y=z

其中,×

更进一步地,所述S4包括:将所述融合行为特征输入分类器中,依次通过dropout层和全连接层后,利用softmax函数在输出分类层中计算每个动作的得分,将得分最高的动作作为所述人体动作并输出。

按照本发明的另一个方面,提供了一种基于多模态异构信息融合的人体行为识别系统,包括:捕获及提取模块,用于捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取所述RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征;第一融合模块,用于对所述加速度特征形成的循环矩阵和所述角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量;第二融合模块,用于对所述惯性传感器融合特征向量与所述视频特征进行基于塔克分解的双模态融合,得到融合行为特征;识别模块,用于将所述融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。

按照本发明的另一个方面,提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如上所述的基于多模态异构信息融合的人体行为识别方法。

按照本发明的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上所述的基于多模态异构信息融合的人体行为识别方法。

总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:

(1)利用每个异构模态特征的特殊性,对提取的加速度特征、角速度特征和视频数据特征进行多模态分层特征融合,按照层次化的形式对惯性传感器和视频数据在特征层进行融合,分别进行传感器信号融合和异质信息内容融合,以获得更加全面的行为特征表示,让不同模态信息得到合理组织,对三模态特征实现更细致的融合,提高人体行为识别的精度;

(2)相较于传统基于级联和相加的特征融合方法而言,本发明实施例中基于多模态分层的特征融合方法,利用分层机制和塔克分解,保留了原始行为特征的语义信息,能更有效地计算多模态行为数据间的相关性,消除了不同模态之间的异质性的影响,具有更高的人体行为识别准确率;

(3)从多角度、多视角对人体行为识别进行了详细分析,解决了单一模态信息缺失的问题,利用惯性传感器和RGB视频取长补短的方式灵活地进行融合,与单独使用一种模态相比,本发明实施例中的基于多模态异构信息融合的人体行为识别方法能够保证人体行为识别系统的可行性、高效性和可靠性。

附图说明

图1为本发明实施例提供的基于多模态异构信息融合的人体行为识别方法的流程图;

图2为本发明实施例提供的基于多模态异构信息融合的人体行为识别系统的框图;

图3为本发明实施例提出的电子设备的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中,本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

图1为本发明实施例提供的基于多模态异构信息融合的人体行为识别方法的流程图。参阅图1,该基于多模态异构信息融合的人体行为识别方法包括操作S1-操作S4。

操作S1,捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征。

本实施例适用于惯性传感器和视频模态的人体行为识别,主要以加速度计、陀螺仪和RGB视频数据为例,提供加速度计数据a∈A、陀螺仪数据g∈G、RGB视频数据v∈V,目的是给出此时人体行为正在执行的最接近动作。训练过程中,目的在于学习一种模型,以使预测行为

具体地,操作S1中,例如使用摄像机、加速度计和陀螺仪在同一个时间段内分别捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,形成包含三种异构类型数据的多模态异构信息。

捕获数据之后,特征提取之前,需要对捕获到的数据进行预处理操作。具体地,删除预设起始时间段内捕获的RGB视频序列、加速度信号和角速度信号,减少蓝牙通信延时带来的影响;对删除后的数据进行最小-最大归一化处理;对最小-最大归一化处理后动作长度小于目标尺寸的数据进行零填充。

根据本发明的实施例,操作S1中特征提取包括:利用深度三维卷积神经网络对RGB视频序列进行特征提取,得到视频特征;利用包含卷积神经网络和长短期记忆网络的ConvLSTM模型对加速度信号和角速度信号进行特征提取,得到加速度特征和角速度特征。

具体地,对于RGB视频序列,采用深度三维卷积神经网络来提取视频的特征向量。三维卷积神经网络在二维卷积的过程中加上了时间维度的信息进行卷积,通过三维卷积操作将时序行为数据相互重叠在一起,以完成视频的特征提取。通过控制各层次的维度,最终将RGB视频序列表示成特定维度的特征向量。三维卷积神经网络提取的时空特征中蕴含与视频中的人物、环境和行为有关的信息,从而使这些时空特征可以用于不同的工作,而不需要针对每个工作的具体模型进行调整。

对于加速度信号和角速度信号这类惯性传感器数据,采用基于深度学习的ConvLSTM特征提取方法。ConvLSTM方法融合了卷积神经网络(Convolutional NeuralNetworks,CNN)和长短期记忆网络(Long Short-Term Memory,LSTM)两种方法,同时具备CNN处理行为特征和LSTM处理时间依赖性的优势。首先,利用一维卷积操作捕获卷积核窗口内的时间信号结构,通过卷积神经网络强大的特征提取能力获得惯性传感器信号本身的关键行为特征;然后,通过双层LSTM获取不同信号帧之间上下文关联的时域信息,利用门控机制选择性地保留输入的CNN提取特征中获得的行为信息,以更好地对惯性传感器信号特征进行时序激励,获得与行为识别相关的时空特征,实现空间-时间行为特征学习。

本实施例中,可以利用特征提取模块分别提取加速度计、陀螺仪和RGB视频的高层语义特征向量。对于加速度计子网络、陀螺仪子网络和RGB视频子网络而言,三者都采用了端到端的训练模式。

操作S2,对加速度特征形成的循环矩阵和角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量。

根据本发明的实施例,操作S2包括子操作S21和子操作S23。

在子操作S21中,将加速度特征逐次逐数据平移以生成多个加速度向量,将多个加速度向量组合形成加速度循环特征矩阵。

具体地,构建特征右循环矩阵,将加速度特征向量a每次平移一个元素生成多个向量,将这些向量组合成加速度循环特征矩阵A。同样地,也可以对角速度特征向量g构造角速度循环特征矩阵G。循环矩阵内包含的行为信息是由a和g决定。引入A是为了让特征向量a和g中各元素能够进行所有可能的交互。

形成的加速度循环特征矩阵为:

在子操作S22中,将角速度特征形成的角速度特征向量与加速度循环特征矩阵相乘后进行归一化处理,得到交互特征向量。

N阶循环矩阵A中的每一行是加速度特征向量a向右依序循环一个元素的结果,这样才能保证矩阵乘法后可以得到所有惯性传感器的特征交互,以充分融合两个特征向量。

将特征向量重塑为循环矩阵之后,角速度特征向量g和矩阵A相乘,可以挖掘加速度和角速度特征的关系。为了保证特征交互f和惯性传感器自身特征对行为识别有相同的作用,避免不同数值范围的影响,需要将融合后特征交互f进行归一化处理,交互特征向量f的计算公式为:

在子操作S23中,将加速度特征形成的加速度特征向量、角速度特征向量和交互特征向量进行级联融合,得到惯性传感器融合特征向量。

a和g的每个特征交叉项都在f中。进一步地,向交互特征向量f中引入加速度计和陀螺仪各自本身的一维行为特征,将a、g、f三个特征向量进行级联融合,获得最终的惯性传感器融合特征向量s:

其中,A为加速度循环特征矩阵,A

基于此,最终的惯性传感器融合特征向量s的维数从二维张量融合方法的(N+1)

操作S3,对惯性传感器融合特征向量与视频特征进行基于塔克分解的双模态融合,得到融合行为特征。

根据本发明的实施例,操作S3包括子操作S31-子操作S33。

在子操作S31中,对特征权重张量τ进行塔克分解。权重张量τ塔克分解的表达式为:

τ=((τ

其中,塔克分解是主成分分析的多线性形式,也称为高阶奇异值分解,每个张量都可以不唯一地表示为核心张量(主成分因子)和所有阶上的因子矩阵的乘积。使用塔克分解有两个优点:与需要评估秩的大小以逼近初始张量的CP分解相比,使用塔克分解能获得更精确的张量分解结果;此外,还可以通过调整核心张量维度来实现对每个模态特征向量进行融合特征选择的目的。

在子操作S32中,对惯性传感器融合特征向量s、视频特征形成的视频特征向量v各自加一维1后降维,得到相应的低维稠密向量s′和v′。

y=z

z=(τ

在子操作S33中,对低维稠密向量进行双模态融合,并向塔克分解得到的核心张量τ

y=z

其中,×

在权重张量τ中引入秩约束可以将融合向量z分解为R个向量z

操作S4,将融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。

根据本发明的实施例,操作S4包括:将融合行为特征y输入分类器中,依次通过dropout层和全连接层后,利用softmax函数在输出分类层中计算每个动作的得分,将得分最高的动作作为人体动作并输出。

dropout层可以随机删除网络中的一部分节点,即向神经网络中引入部分噪声,但保留这些节点的权重,可以有效防止模型过拟合。全连接层将融合特征向量映射到具体的动作上,最后使用softmax函数从输出分类层中计算每个类别或动作的概率得分,然后对其进行排序,取排序靠前的数据为最终识别结果。

图2为本发明实施例提供的基于多模态异构信息融合的人体行为识别系统的框图。参阅图2,该基于多模态异构信息融合的人体行为识别系统200包括捕获及提取模块210、第一融合模块220、第二融合模块230以及识别模块240。

捕获及提取模块210例如执行操作S1,用于捕获目标区域内人体的RGB视频序列、加速度信号和角速度信号,提取RGB视频序列、加速度信号和角速度信号中与人体行为识别相关的视频特征、加速度特征和角速度特征。

第一融合模块220例如执行操作S2,用于对加速度特征形成的循环矩阵和角速度特征形成的循环矩阵进行多传感器信号融合处理,得到惯性传感器融合特征向量。

第二融合模块230例如执行操作S3,用于对惯性传感器融合特征向量与视频特征进行基于塔克分解的双模态融合,得到融合行为特征。

识别模块240例如执行操作S4,用于将融合行为特征输入分类器进行人体行为识别,以预测并输出人体动作。

基于多模态异构信息融合的人体行为识别系统200用于执行上述图1所示实施例中的基于多模态异构信息融合的人体行为识别方法。本实施例未尽之细节,请参阅前述图1所示实施例中的基于多模态异构信息融合的人体行为识别方法,此处不再赘述。

本公开的实施例还示出了一种电子设备,如图3所示,电子设备300包括处理器310、可读存储介质320。该电子设备300可以执行上面图1中描述的基于多模态异构信息融合的人体行为识别方法。

具体地,处理器310例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器310还可以包括用于缓存用途的板载存储器。处理器310可以是用于执行参考图1描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

可读存储介质320,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(HDD);光存储装置,如光盘(CD-ROM);存储器,如随机存取存储器(RAM)或闪存;和/或有线/无线通信链路。

可读存储介质320可以包括计算机程序321,该计算机程序321可以包括代码/计算机可执行指令,其在由处理器310执行时使得处理器310执行例如上面结合图1所描述的方法流程及其任何变形。

计算机程序321可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序321中的代码可以包括一个或多个程序模块,例如包括321A、模块321B、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器310执行时,使得处理器310可以执行例如上面结合图1所描述的方法流程及其任何变形。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

相关技术
  • 人体行为识别方法、系统、设备及介质
  • 人体行为识别方法、电子设备和计算机可读介质
技术分类

06120113692643