掌桥专利:专业的专利平台
掌桥专利
首页

防暴预警方法、装置、电子设备和介质

文献发布时间:2024-04-18 19:59:31


防暴预警方法、装置、电子设备和介质

技术领域

本发明涉及大数据技术领域和人工智能技术领域,更具体地涉及一种防暴预警方法、装置、电子设备和介质。

背景技术

银行业一直以来都是金融安全和客户资金安全的重要领域。银行营业厅作为金融交易和客户服务的关键场所,在确保安全和减少风险方面扮演着至关重要的角色。然而,尽管银行采取了多种安全措施和防范措施,但仍然难以完全消除潜在的风险,特别是由于人为因素引发的安全威胁。

当前的报警系统主要依赖于事后触发,一旦暴力行为已经发生,系统才能发出报警并采取措施。然而,这种被动的反应方式无法在犯罪初期发现潜在风险并及时采取预防措施。这不仅使银行资产和客户的人身安全受到威胁,还可能导致严重的财务损失。

此外,现有的人力监控系统存在一系列问题,包括人力不足、人员疏忽、经验不足以及监控盲点等。这些问题导致了对潜在风险的精确识别和及时干预的难度,从而降低了银行业的整体安全水平。

发明内容

鉴于上述问题,根据本发明的第一方面,提供了一种防暴预警方法,所述方法包括:基于预设的采集区域,获取多模态环境信息和经过授权的多模态客户情绪信息,其中,所述多模态客户情绪信息至少包括肢体动作信息、面部表情信息和声音信息;将所述多模态环境信息和所述多模态客户情绪信息输入跨模态立体情绪模型,输出第一预测情绪评分,其中,所述跨模态立体情绪模型是根据不同情境下的环境数据和情感图像数据进行学习和训练得到的;将所述多模态客户情绪信息输入多模态情感识别模型进行肢体动作识别、面部表情识别和声音识别,输出第二预测情绪评分;将所述第一预测情绪评分和所述第二预测情绪评分进行整合,获得预测情绪评分;响应于所述预测情绪评分超过预设的暴力情绪阈值,生成防暴预警信息;以及基于所述防暴预警信息,进行防暴预警。

根据一些示例性实施例,所述将所述多模态环境信息和所述多模态客户情绪信息输入跨模态立体情绪模型,输出第一预测情绪评分,具体包括:对所述多模态环境信息和所述多模态客户情绪信息进行数据预处理,获得第一输入数据;将所述第一输入数据进行多任务学习,获得情感识别结果,其中,所述多任务学习包括多模态环境信息情感识别和多模态客户情绪信息情感识别;基于所述第一输入数据进行关联性建模,获得所述多模态环境信息和所述多模态客户情绪信息的关联性结果;以及基于所述情感识别结果和所述关联性结果,输出第一预测情绪评分。

根据一些示例性实施例,所述基于所述第一输入数据进行关联性建模,获得所述多模态环境信息和所述多模态客户情绪信息的关联性结果,具体包括:通过构建基于情绪环的神经网络模型进行关联性建模;基于所述第一输入数据进行特征选择,获取情绪特征;以及将所述情绪特征输入所述基于情绪环的神经网络模型进行所述多模态环境信息和所述多模态客户情绪信息的关联性分析,获得所述关联性结果。

根据一些示例性实施例,所述将所述第一预测情绪评分和所述第二预测情绪评分进行整合,获得预测情绪评分,具体包括:为所述第一预测情绪评分和所述第二预测情绪评分分配预设的权重,其中,基于网格搜索算法获取具有最优预测结果的权重;以及基于所述权重,对所述第一预测情绪评分和所述第二预测情绪评分进行加权平均计算,获取预测情绪评分。

根据一些示例性实施例,所述多模态情感识别模型包括肢体动作识别模型、面部表情识别模型和声音识别模型;所述将所述多模态客户情绪信息输入多模态情感识别模型进行肢体动作识别、面部表情识别和声音识别,输出第二预测情绪评分,具体包括:将所述肢体动作信息输入所述肢体动作识别模型,获得肢体动作识别评分;将所述面部表情信息输入所述面部表情识别模型,获得面部表情识别评分;将所述声音信息输入所述声音识别模型,获得声音识别评分;以及将所述肢体动作识别评分、所述面部表情识别评分和所述声音识别评分按照预设的权重进行加权平均,获得所述第二预测情绪评分。

根据一些示例性实施例,基于隐马尔科夫模型训练所述肢体动作识别模型;所述将所述肢体动作信息输入所述肢体动作识别模型,获得肢体动作识别评分,具体包括:基于所述肢体动作信息,采集肢体动作特征,其中,通过光流法、轨迹法和EyesWeb平台采集所述肢体动作特征;将所述肢体动作特征输入所述肢体动作识别模型,利用前后-后向算法或Viterbi算法进行推理,获得肢体动作序列;以及基于所述肢体动作序列,计算所述肢体动作识别评分。

根据一些示例性实施例,基于深度卷积神经网络训练所述面部表情识别模型;所述将所述面部表情信息输入所述面部表情识别模型,获得面部表情识别评分,具体包括:基于所述面部表情信息,利用VGG19网络和Resnet18网络提取面部表情特征;利用全连接层,将所述面部表情特征映射到表情类别;以及基于所述表情类别进行表情分析,获得所述面部表情识别评分。

根据一些示例性实施例,所述利用VGG19网络和Resnet18网络提取面部表情特征,具体包括:基于所述面部表情信息,利用VGG19网络提取第一面部特征;利用Resnet18网络提取第二面部特征;以及将所述第一面部特征和所述第二面部特征连接或加权融合,获得所述面部表情特征。

根据一些示例性实施例,基于双向长短时记忆网络训练所述声音识别模型;所述将所述声音信息输入所述声音识别模型,获得声音识别评分,具体包括:基于所述声音信息,利用梅尔倒谱系数获取声音特征;将所述声音特征输入所述声音识别模型,获取时序序列,其中,所述时序序列包括每个时间步的声音特征表示;以及基于所述时序序列,计算所述声音识别评分。

根据本发明的第二方面,提出了一种防暴预警装置,所述装置包括:信息获取模块,用于:基于预设的采集区域,获取多模态环境信息和经过授权的多模态客户情绪信息,其中,所述多模态客户情绪信息至少包括肢体动作信息、面部表情信息和声音信息;第一预测情绪评分获取模块,用于:将所述多模态环境信息和所述多模态客户情绪信息输入跨模态立体情绪模型,输出第一预测情绪评分,其中,所述跨模态立体情绪模型是根据不同情境下的环境数据和情感图像数据进行学习和训练得到的;第二预测情绪评分获取模块,用于:将所述多模态客户情绪信息输入多模态情感识别模型进行肢体动作识别、面部表情识别和声音识别,输出第二预测情绪评分;预测情绪评分获取模块,用于:将所述第一预测情绪评分和所述第二预测情绪评分进行整合,获得预测情绪评分;防暴预警信息生成模块,用于:响应于所述预测情绪评分超过预设的暴力情绪阈值,生成防暴预警信息;防暴预警模块,用于:基于所述防暴预警信息,进行防暴预警。

根据一些示例性实施例,所述第一输入数据获取单元可以用于对所述多模态环境信息和所述多模态客户情绪信息进行数据预处理,获得第一输入数据。

根据一些示例性实施例,所述多任务学习单元可以用于将所述第一输入数据进行多任务学习,获得情感识别结果,其中,所述多任务学习包括多模态环境信息情感识别和多模态客户情绪信息情感识别。

根据一些示例性实施例,所述关联性建模模块可以用于基于所述第一输入数据进行关联性建模,获得所述多模态环境信息和所述多模态客户情绪信息的关联性结果。

根据一些示例性实施例,所述第一预测情绪评分输出单元可以用于基于所述情感识别结果和所述关联性结果,输出第一预测情绪评分。

根据一些示例性实施例,所述关联性建模模块可以包括建模单元、特征选择单元和分析单元。

根据一些示例性实施例,所述建模单元可以用于通过构建基于情绪环的神经网络模型进行关联性建模。

根据一些示例性实施例,所述特征选择单元可以用于基于所述第一输入数据进行特征选择,获取情绪特征。

根据一些示例性实施例,所述分析单元可以用于将所述情绪特征输入所述基于情绪环的神经网络模型进行所述多模态环境信息和所述多模态客户情绪信息的关联性分析,获得所述关联性结果。

根据一些示例性实施例,所述第二预测情绪评分获取模块可以包括肢体动作识别评分获取模块、面部表情识别评分获取模块、声音识别评分获取模块和第二预测情绪评分获取单元。

根据一些示例性实施例,所述肢体动作识别评分获取模块可以用于将所述肢体动作信息输入所述肢体动作识别模型,获得肢体动作识别评分。

根据一些示例性实施例,所述面部表情识别评分获取模块可以用于将所述面部表情信息输入所述面部表情识别模型,获得面部表情识别评分。

根据一些示例性实施例,所述声音识别评分获取模块可以用于将所述声音信息输入所述声音识别模型,获得声音识别评分。

根据一些示例性实施例,所述第二预测情绪评分获取单元可以用于将所述肢体动作识别评分、所述面部表情识别评分和所述声音识别评分按照预设的权重进行加权平均,获得所述第二预测情绪评分。

根据一些示例性实施例,所述肢体动作识别评分获取模块可以包括肢体动作特征采集单元、推理单元和肢体动作识别评分计算单元。

根据一些示例性实施例,所述肢体动作特征采集单元可以用于基于所述肢体动作信息,采集肢体动作特征,其中,通过光流法、轨迹法和EyesWeb平台采集所述肢体动作特征。

根据一些示例性实施例,所述推理单元可以用于将所述肢体动作特征输入所述肢体动作识别模型,利用前后-后向算法或Viterbi算法进行推理,获得肢体动作序列。

根据一些示例性实施例,所述肢体动作识别评分计算单元可以用于基于所述肢体动作序列,计算所述肢体动作识别评分。

根据一些示例性实施例,所述面部表情识别评分获取模块可以包括面部表情特征提取模块、映射单元和面部表情识别评分输出单元。

根据一些示例性实施例,所述面部表情特征提取模块可以用于基于所述面部表情信息,利用VGG19网络和Resnet18网络提取面部表情特征。

根据一些示例性实施例,所述映射单元可以用于利用全连接层,将所述面部表情特征映射到表情类别。

根据一些示例性实施例,所述面部表情识别评分输出单元可以用于基于所述表情类别进行表情分析,获得所述面部表情识别评分。

根据一些示例性实施例,所述面部表情特征提取模块可以包括第一面部特征提取单元、第二面部特征提取单元和面部表情特征获得单元。

根据一些示例性实施例,所述第一面部特征提取单元可以用于基于所述面部表情信息,利用VGG19网络提取第一面部特征。

根据一些示例性实施例,所述特征捆绑单元可以用于利用互斥捆绑算法,对所述客户初步特征中的高维稀疏特征进行捆绑处理,获取客户捆绑特征。

根据一些示例性实施例,所述面部表情特征获得单元可以用于将所述第一面部特征和所述第二面部特征连接或加权融合,获得所述面部表情特征。

根据一些示例性实施例,所述声音识别评分获取模块可以包括声音特征获取单元、时序序列获取单元和声音识别评分计算单元。

根据一些示例性实施例,所述声音特征获取单元可以用于基于所述声音信息,利用梅尔倒谱系数获取声音特征。

根据一些示例性实施例,所述时序序列获取单元可以用于将所述声音特征输入所述声音识别模型,获取时序序列,其中,所述时序序列包括每个时间步的声音特征表示。

根据一些示例性实施例,所述声音识别评分计算单元可以用于基于所述时序序列,计算所述声音识别评分。

根据一些示例性实施例,所述预测情绪评分获取模块可以包括权重分配单元和预测情绪评分获取单元。

根据一些示例性实施例,所述权重分配单元可以用于为所述第一预测情绪评分和所述第二预测情绪评分分配预设的权重,其中,基于网格搜索算法获取具有最优预测结果的权重。

根据一些示例性实施例,所述预测情绪评分获取单元可以用于基于所述权重,对所述第一预测情绪评分和所述第二预测情绪评分进行加权平均计算,获取预测情绪评分。

根据本发明的第三方面,提供一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的方法。

根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。

根据本发明的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的方法。

上述一个或多个实施例具有如下优点或有益效果:通过跨模态立体情绪模型和多模态情感识别模型,使得计算机能够自动理解和分析数据并提供更准确的情绪预测结果,从而提升计算机处理效率;同时,能够实时预测网点的可能出现暴力情绪的人员,并针对性对异常人员进行精准监控,为安保人员提供防暴力侵害提供数据支持,提高了网点安全性并减少客户损失,并减轻人工干预的负担,从而提升了用户体验。

附图说明

通过以下参照附图对本发明实施例的描述,本发明的上述内容以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了根据本发明实施例的防暴预警方法、装置、设备、介质的应用场景图。

图2示意性示出了根据本发明实施例的防暴预警方法的流程图。

图3示意性示出了根据本发明实施例的利用跨模态立体情绪模型获取第一预测情绪评分的方法的流程图。

图4示意性示出了根据本发明实施例的对第一输入数据进行关联性建模的方法的流程图。

图5示意性示出了根据本发明实施例的利用多模态情感识别模型获取第二预测情绪评分的方法的流程图。

图6示意性示出了根据本发明实施例的利用肢体动作识别模型获得肢体动作识别评分的方法的流程图。

图7示意性示出了根据本发明实施例的利用面部表情识别模型获得面部表情识别评分的方法的流程图。

图8示意性示出了根据本发明实施例的提取面部表情特征的方法的流程图。

图9示意性示出了根据本发明实施例的利用声音识别模型获得声音识别评分的方法的流程图。

图10示意性示出了根据本发明实施例的将第一预测情绪评分和第二预测情绪评分进行整合的方法的流程图。

图11示意性示出了根据本发明实施例的防暴预警装置的结构框图。

图12示意性示出了根据本发明实施例的适于防暴预警方法的电子设备的方框图。

具体实施方式

以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本发明的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。

首先,对本文中记载的技术术语作如下解释和说明。

书生模型是一种具有开放世界理解、跨模态生成、多模态交互的三大核心能力的多模态多任务通用大模型,通过多阶段的渐进式训练,具有较高的知识水平和较强的推理能力,能够处理多模态的图像和文本任务。

Robert Plutchik情绪环(以下简称为情绪环)是一种图形表示,由八种基本情感组成,其对于理解和描述人类情感经常被用于心理学、社交科学和情感计算领域。这个理论提供了一种方式来探讨情感的多样性、层次结构和复杂性。情感环的概念有助于理解情感是如何相互关联和交互的,并有助于描述情感的多种可能性。

隐马尔科夫模型(Hidden Markov Model,HMM)是一种统计模型,用于描述观察序列和隐藏状态序列之间的概率关系。它是一种序列建模技术,广泛应用于语音识别、自然语言处理、生物信息学、金融分析等领域。

深度卷积神经网络(Deep Convolutional Neural Network,CNN)是一种用于图像处理和识别的深度学习模型。它是深度学习领域的重要突破之一,广泛应用于计算机视觉、图像识别、目标检测、图像生成等任务。卷积神经网络的核心是卷积层。卷积层通过卷积操作在输入图像上滑动卷积核(filter),从而提取不同特征的信息。这些卷积核在训练过程中通过反向传播来学习,以捕捉图像中的局部特征。

VGG19(Visual Geometry Group 19)网络是一种深度卷积神经网络,它是VGG网络系列的一部分,是一种非常经典的卷积神经网络架构,特别适用于图像分类任务。VGG19是由19层卷积和全连接层组成的深度卷积神经网络。它的结构相对简单,每一层都使用了小尺寸的卷积核和池化层。这种深度结构有助于提取图像中的高级特征。

ResNet-18(Residual Network-18)是深度卷积神经网络中的一个架构,属于ResNet系列。ResNet系列是一种非常重要的神经网络架构,因为它引入了残差块(ResidualBlock)的概念,有助于训练非常深的神经网络。ResNet-18是相对较浅的ResNet版本,共有18层,包括卷积层、批量归一化层、激活函数和全连接层。虽然相对较浅,但它在图像分类任务上的性能仍然非常出色。

双向长短时记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)是一种循环神经网络(RNN)的变种,用于处理序列数据,如自然语言文本、语音信号、时间序列等。BiLSTM结合了标准LSTM和双向处理的能力,能够更好地捕捉序列中的上下文信息。

梅尔倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)是一种用于声音和语音信号处理的特征提取方法。它们通常用于语音识别、音频处理和音乐信息检索等应用中。MFCCs的主要目标是模拟人耳对声音频谱特性的感知方式,以提取与人类听觉系统更相关的声音特征。

光流法是一种计算运动物体的技术,它利用相邻帧图像中像素的位移来估计对象的运动。在肢体动作分析中,光流法可以用于捕捉肢体部分的运动信息。

轨迹法涉及追踪特定像素或特征点在一系列帧图像中的轨迹,从而获得物体的运动信息。在肢体动作分析中,可以选择关键点或特定肢体部位进行轨迹跟踪。

EyesWeb平台是一个用于实时多媒体和互动系统开发的视觉编程环境。它可以用于处理视频和音频数据,并进行复杂的数据分析和特征提取。

银行营业厅是银行和客户财务交接的重要场所,对安全级别要求比较高,每个营业厅都安装有大量的安全防范设备,以充分保障银行营业厅安全、用户资金安全以及人身安全等。

然而,银行营业网点作为对客服务的场所,很难避免由人主导的临时的或计划性的暴力犯罪发生,而现存报警系统通常是基于暴力已经产生,由工作人员触发报警,安保部门或者公安部门接收警报后阻止暴力犯罪继续,但是,一般这种情况已经造成了不同程度的损失和伤亡,而只有在犯罪初期尽早发现才能最大程度地降低损害。并且,当前人力监控存在人力不足、人员注意力存在松懈、人员经验不足、监控不到位、认知差异等问题,从而无法做到精准识别风险。

基于此,本发明的实施例提供一种防暴预警方法,所述方法包括:基于预设的采集区域,获取多模态环境信息和经过授权的多模态客户情绪信息,其中,所述多模态客户情绪信息至少包括肢体动作信息、面部表情信息和声音信息;将所述多模态环境信息和所述多模态客户情绪信息输入跨模态立体情绪模型,输出第一预测情绪评分,其中,所述跨模态立体情绪模型是根据不同情境下的环境数据和情感图像数据进行学习和训练得到的;将所述多模态客户情绪信息输入多模态情感识别模型进行肢体动作识别、面部表情识别和声音识别,输出第二预测情绪评分;将所述第一预测情绪评分和所述第二预测情绪评分进行整合,获得预测情绪评分;响应于所述预测情绪评分超过预设的暴力情绪阈值,生成防暴预警信息;以及基于所述防暴预警信息,进行防暴预警。根据本发明提供的防暴预警方法,通过跨模态立体情绪模型和多模态情感识别模型,使得计算机能够自动理解和分析数据并提供更准确的情绪预测结果,从而提升计算机处理效率;能够实时预测网点的可能出现暴力情绪的人员,并针对性对异常人员进行精准监控,为安保人员提供防暴力侵害提供数据支持,提高了网点安全性并减少客户损失,并减轻人工干预的负担,从而提升了用户体验。

需要说明的是,本发明确定的防暴预警方法、装置、设备和介质可用于大数据技术领域和人工智能技术领域,也可用于金融领域,还可以用于除大数据技术领域和人工智能技术领域以及金融领域之外的多种领域。本发明的实施例提供的防暴预警方法、装置、设备和介质的应用领域不做限定。

在本发明的技术方案中,所涉及的用户信息(包括但不限于用户个人信息、用户图像信息、用户设备信息,例如位置信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均遵守相关国家和地区的相关法律法规和标准,采取了必要保密措施,不违背公序良俗,并提供有相应的操作入口,供用户选择授权或者拒绝。

图1示意性示出了根据本发明实施例的防暴预警方法、装置、设备、介质的应用场景图。

如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是,本发明实施例所提供的防暴预警方法一般可以由服务器105执行。相应地,本发明实施例所提供的防暴预警装置一般可以设置于服务器105中。本发明实施例所提供的防暴预警方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施例所提供的防暴预警装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

图2示意性示出了根据本发明实施例的防暴预警方法的流程图。

如图2所示,该实施例的防暴预警方法200可以包括操作S210~操作S260。

在操作S210,基于预设的采集区域,获取多模态环境信息和经过授权的多模态客户情绪信息,其中,所述多模态客户情绪信息至少包括肢体动作信息、面部表情信息和声音信息。

在本发明的实施例中,银行营业厅内的特定区域可以被预设为信息采集区域。具体地,可以通过摄像头、麦克风和其他传感器设备来采集信息,这些设备被部署在营业厅内的关键位置,以捕获环境信息和客户情绪信息。

在本发明的实施例中,为了进行防暴监控的同时保护数据的安全性,银行应该向客户清楚说明数据采集的目的、范围和使用方式,同时告知客户关于数据隐私的保护措施,以确保客户对于数据采集过程的透明度和知情同意。

在本发明的实施例中,经过授权的多模态客户情绪信息可以包括肢体动作信息、面部表情信息和声音信息,这些信息可以通过摄像头和麦克风捕获。其中,肢体动作信息可以包括客户的动作和姿势,如举手、指向某个区域等;面部表情信息涵盖了客户的面部表情,如微笑、愠怒、焦虑等;声音信息可以包括客户的言语和情感色彩,以及他们的声音特征,如音调和音量。

在本发明的实施例中,摄像头和传感器捕获到的多模态环境信息包括了银行营业厅的实际状态和动态情况。这些信息可以包括温度、湿度、人员密度、氧气浓度、二氧化碳浓度以及不同味道的气体浓度。此外,还包括了光照条件、声音强度和频率等信息。

在本发明的实施例中,采集到的多模态信息会被记录和存储,以便进一步分析和处理,这通常需要大规模的数据存储系统和数据库,以容纳各种多模态信息。

在操作S220,将所述多模态环境信息和所述多模态客户情绪信息输入跨模态立体情绪模型,输出第一预测情绪评分,其中,所述跨模态立体情绪模型是根据不同情境下的环境数据和情感图像数据进行学习和训练得到的。

在本发明的实施例中,跨模态立体情绪模型可以融合多个模型,以全面分析多模态环境信息和多模态客户情绪信息反应的情感以及环境与情绪的关联关系。具体地,可以包括以下操作。

图3示意性示出了根据本发明实施例的利用跨模态立体情绪模型获取第一预测情绪评分的方法的流程图。

如图3所示,该实施例的利用跨模态立体情绪模型获取第一预测情绪评分的方法可以包括操作S310~操作S340。

在操作S310,对所述多模态环境信息和所述多模态客户情绪信息进行数据预处理,获得第一输入数据。

在本发明的实施例中,为确保数据质量和适用性,可以对多模态环境信息和多模态客户情绪信息进行预处理。具体地,可以包括:

数据采集和同步:从各种传感器和设备中采集多模态环境信息和多模态客户情绪信息应确保数据采集设备的时间戳同步,以便后续的数据处理能够精确匹配各模态信息的时间戳;

数据清洗:对采集到的原始数据进行清洗,以去除可能的噪声、异常值和不一致性,这可以包括去除摄像头图像中的伪像素、去除声音数据中的杂音,以及修复由于传感器故障引起的数据问题;

数据对齐:由于不同传感器采集的数据可能具有不同的时间戳,需要将它们进行时间对齐,以确保每个时间步的多模态信息是相互匹配的,这可以通过插值、时间戳校准等方法来实现。

在操作S320,将所述第一输入数据进行多任务学习,获得情感识别结果,其中,所述多任务学习包括多模态环境信息情感识别和多模态客户情绪信息情感识别。

在本发明的实施例中,可以对第一输入数据进行多任务学习,多任务学习的操作能够同时处理多个任务。例如,可以同时处理两个任务,一个任务是多模态环境信息情感识别,另一个任务是多模态客户情绪信息情感识别。其中,可以为每个任务定义适当的情感标签,以便能够预测多模态信息中的情感。例如,对于多模态环境信息,情感标签可以是环境影响的情感状态,而对于多模态客户情绪信息,情感标签可以是客户的情感状态。上述过程多任务学习的输出将是多模态信息的情感识别结果,分别针对多模态环境信息和多模态客户情绪信息。

需要说明的是,上述操作可以通过训练书生模型实现。具体地,书生模型可以定义多个任务,包括多模态环境信息情感识别和多模态客户情绪信息情感识别,其中,书生模型的架构具备多任务学习的能力,可以同时处理这些任务;使用带有标签的训练数据对模型进行训练,这些标签包括情感识别的结果和关联性信息,训练期间,采用适当的损失函数,例如情感识别损失和关联性损失来优化模型的参数。

在操作S330,基于所述第一输入数据进行关联性建模,获得所述多模态环境信息和所述多模态客户情绪信息的关联性结果。

图4示意性示出了根据本发明实施例的对第一输入数据进行关联性建模的方法的流程图。

如图4所示,该实施例的对第一输入数据进行关联性建模的方法可以包括操作S410~操作S430。

在操作S410,通过构建基于情绪环的神经网络模型进行关联性建模。

在本发明的实施例中,可以创建一个情感状态编码器,将情感环中的不同情感状态映射到向量表示。其中,情感状态编码器可以是一个嵌入层,将情感状态索引映射到密集的向量表示,这些向量可以被用作神经网络模型的一部分,以表示不同情感状态。

在本发明的实施例中,可以将神经网络模型的不同层可以对应情感环中的不同情感状态,这可以在循环神经网络(RNN)或卷积神经网络(CNN)中实现,其中每个层代表情感环中的一个状态。其中,考虑不同情感状态之间的关系和转换。在模型中引入权重或连接,以表示情感状态之间的相似性或转换关系,这有助于模型捕捉情感状态之间的动态变化。

在本发明的实施例中,还可以使用递归神经网络(如长短时记忆网络(LSTM)或双向LSTM)来建模情感状态的动态变化,这允许模型在不同时间步或情感状态之间保留记忆,以捕捉情感状态的演变。

根据本发明的实施例,通过将情感环的概念融入神经网络模型设计中,可以更好地考虑多模态信息中的情感状态和情感关系,有助于模型更准确地理解情感信息,从而提供更加准确的预测结果。

在操作S420,基于所述第一输入数据进行特征选择,获取情绪特征。

在操作S430,将所述情绪特征输入所述基于情绪环的神经网络模型进行所述多模态环境信息和所述多模态客户情绪信息的关联性分析,获得所述关联性结果。

在本发明的实施例中,模型将利用情绪特征来分析多模态环境信息和多模态客户情绪信息之间的关联性。具体地,可以通过模型学习到的情感环结构来推断这些关系,并生成关联性结果。

返回参照图3,在操作S340,基于所述情感识别结果和所述关联性结果,输出第一预测情绪评分。

在本发明的实施例中,可以通过预先设置的评分对照表,通过情感识别结果和关联性结果获得第一预测情绪评分。

返回参照图2,在操作S230,将所述多模态客户情绪信息输入多模态情感识别模型进行肢体动作识别、面部表情识别和声音识别,输出第二预测情绪评分。

图5示意性示出了根据本发明实施例的利用多模态情感识别模型获取第二预测情绪评分的方法的流程图。

如图5所示,该实施例的利用多模态情感识别模型获取第二预测情绪评分的方法可以包括操作S510~操作S540。

在操作S510,将所述肢体动作信息输入所述肢体动作识别模型,获得肢体动作识别评分。

在本发明的实施例中,基于隐马尔科夫模型训练所述肢体动作识别模型。

图6示意性示出了根据本发明实施例的利用肢体动作识别模型获得肢体动作识别评分的方法的流程图。

如图6所示,该实施例的利用肢体动作识别模型获得肢体动作识别评分的方法可以包括操作S610~操作S630。

在操作S610,基于所述肢体动作信息,采集肢体动作特征,其中,通过光流法、轨迹法和EyesWeb平台采集所述肢体动作特征。

在本发明的实施例中,光流法是一种计算运动物体的技术,它利用相邻帧图像中像素的位移来估计对象的运动,通过计算相邻帧之间像素的位移,可以提取出肢体动作的速度和方向信息,这些信息可以用来表示肢体动作的运动特性;轨迹法涉及追踪特定像素或特征点在一系列帧图像中的轨迹,从而获得物体的运动信息,通过跟踪选定的肢体部位或关键点,可以提取出轨迹的形状、长度、速度和方向等特征。这些特征可用于表示肢体动作的运动轨迹;EyesWeb平台可用于设计和执行自定义的肢体动作分析算法,用户可以创建特定的模块和流程来捕捉肢体动作的特征,如姿势、动作速度和运动范围。

具体地,特征提取可以包括以下操作:选择关注的肢体部位或特征点,例如手臂、腿部或关节位置;采集一系列帧图像或视频数据,以捕捉肢体动作的运动;对相邻帧图像进行比较,计算像素的位移(光流法)、跟踪特征点(轨迹法)或执行自定义分析(EyesWeb平台);提取与肢体动作相关的特征,如速度、方向、轨迹形状等;创建特征向量,将不同帧的特征组合起来,以表示整个肢体动作序列。这些特征向量将成为后续肢体动作识别模型的输入,帮助模型理解和分类不同的肢体动作。

在操作S620,将所述肢体动作特征输入所述肢体动作识别模型,利用前后-后向算法或Viterbi算法进行推理,获得肢体动作序列。

在本发明的实施例中,前后向算法或Viterbi算法是隐马尔科夫模型(HM)中常用的方法,以进行肢体动作的推理,这些算法有助于确定最可能的肢体动作序列,该序列表示识别出的肢体动作。

在操作S630,基于所述肢体动作序列,计算所述肢体动作识别评分。

返回参照图5,在操作S520,将所述面部表情信息输入所述面部表情识别模型,获得面部表情识别评分。

在本发明的实施例中,基于深度卷积神经网络训练所述面部表情识别模型。

图7示意性示出了根据本发明实施例的利用面部表情识别模型获得面部表情识别评分的方法的流程图。

如图7所示,该实施例的利用面部表情识别模型获得面部表情识别评分的方法可以包括操作S710~操作S730。

在操作S710,基于所述面部表情信息,利用VGG19网络和Resnet18网络提取面部表情特征。

图8示意性示出了根据本发明实施例的提取面部表情特征的方法的流程图。

如图8所示,该实施例的提取面部表情特征的方法可以包括操作S810~操作S830。

在操作S810,基于所述面部表情信息,利用VGG19网络提取第一面部特征。

在本发明的实施例中,可以将采集的面部表情信息作为输入数据传递给VGG19网络。其中,面部表情信息可以是图像或视频帧,其中包含人脸的表情特征。VGG19网络通过一系列卷积层和池化层对面部表情信息进行特征提取,这些卷积层能够捕捉不同层次的图像特征,包括边缘、纹理和高级语义特征。

在操作S820,利用Resnet18网络提取第二面部特征。

在本发明的实施例中,Resnet18是另一个深度卷积神经网络,用于图像识别和特征提取。相较于VGG19,Resnet网络采用了残差连接,有助于解决梯度消失问题,提高了特征提取的效果。Resnet18网络通过残差块的堆叠对面部表情信息进行特征提取。这些残差块允许网络学习更深层次的特征表示,捕捉更复杂的表情信息。

在操作S830,将所述第一面部特征和所述第二面部特征连接或加权融合,获得所述面部表情特征。

在本发明的实施例中,面部表情特征将包括来自VGG19和Resnet18网络的信息,并且可以更全面地表示面部表情。这些特征可以用于情感识别或情感分析任务,从而能够更准确地理解用户的情感状态。

返回参照图7,在操作S720,利用全连接层,将所述面部表情特征映射到表情类别。

在本发明的实施例中,全连接层的权重和偏差可以用来将面部表情特征映射到不同的表情类别,每个神经元对应一个表情类别,它的输出表示了输入特征与该表情类别的匹配程度。通常,表情类别包括一系列可能的表情,如开心、生气、伤心、惊讶、厌恶、中立等。

在操作S730,基于所述表情类别进行表情分析,获得所述面部表情识别评分。该面部表情识别评分可以表明对应表情类别的概率。

返回参照图5,在操作S530,将所述声音信息输入所述声音识别模型,获得声音识别评分。

在本发明的实施例中,基于双向长短时记忆网络训练所述声音识别模型。

图9示意性示出了根据本发明实施例的利用声音识别模型获得声音识别评分的方法的流程图。

如图9所示,该实施例的利用声音识别模型获得声音识别评分的方法可以包括操作S910~操作S930。

在操作S910,基于所述声音信息,利用梅尔倒谱系数获取声音特征。

在本发明的实施例中,可以基于梅尔倒谱系数(MFCC)获取声音特征。具体地,包括:预加重、分帧、傅立叶变换、梅尔滤波器组合、对数化、离散余弦变换、时间步序列等。其中,预加重是为了减小声音信号中的高频噪声,以提高后续处理的效果,可以将信号通过一个高通滤波器,减小低频成分的振幅,增加高频成分的振幅;分帧可以将信号分成20到30毫秒的帧。每个帧之间有一定的重叠,以确保连续性;对每个帧应用离散傅立叶变换(DFT),以将信号表示为频域分量;构建一组梅尔滤波器,这些滤波器的频率刻度按照梅尔刻度分布,然后,将每个帧的频谱通过这组滤波器,得到每个滤波器通道的能量;将滤波器通道的能量取对数,以模拟人耳对声音的非线性感知;对对数化后的能量系数应用离散余弦变换(DCT),然后保留前几个系数作为MFCC特征;对每个帧提取的MFCC系数按时间顺序排列,形成一个时序序列。

根据本发明的实施例,MFCC特征捕捉了声音信号的频谱特性,能够有效地表示声音的特征,帮助模型更好地理解声音信息。

在操作S920,将所述声音特征输入所述声音识别模型,获取时序序列,其中,所述时序序列包括每个时间步的声音特征表示。

在本发明的实施例中,声音特征被输入到声音识别模型,然后通过双向长短时记忆网络(BiLSTM)生成时序序列,其中包括每个时间步的声音特征表示。BiLSTM用于处理时序数据,以便更好地理解声音信号的动态变化。通过前向和后向两个方向的循环,它可以捕捉到不仅是当前时间步前面的信息,还有后面的信息,从而提高了模型的性能。

在操作S930,基于所述时序序列,计算所述声音识别评分。

根据本发明的实施例,在时序序列的每个时间步,模型产生一个输出,可以是一个概率分布,表示声音信号属于每个可能情感状态的概率。进一步地,可以使用交叉熵等损失函数来衡量模型的输出与实际标签之间的误差。声音识别评分可以是根据所有时间步的输出综合计算,例如,采用平均值或投票法来确定最终的声音识别评分。

返回参照图5,在操作S540,将所述肢体动作识别评分、所述面部表情识别评分和所述声音识别评分按照预设的权重进行加权平均,获得所述第二预测情绪评分。

在本发明的实施例中,肢体动作识别评分、面部表情识别评分和声音识别评分可以分别提供不同信息源对客户情感状态的贡献,预设的权重可以根据专家经验确定每个信息源的重要性,从而获得更全面的情感识别结果。

返回参照图2,在操作S240,将所述第一预测情绪评分和所述第二预测情绪评分进行整合,获得预测情绪评分。

图10示意性示出了根据本发明实施例的将第一预测情绪评分和第二预测情绪评分进行整合的方法的流程图。

如图10所示,该实施例的将第一预测情绪评分和第二预测情绪评分进行整合的方法可以包括操作S1010~操作S1020。

在操作S1010,为所述第一预测情绪评分和所述第二预测情绪评分分配预设的权重,其中,基于网格搜索算法获取具有最优预测结果的权重。

在本发明的实施例中,网格搜索是一种超参数优化的方法,它通过尝试不同的超参数组合来找到最优的设置,在这里,超参数就是权重的取值。具体地,网格搜索算法将定义一系列可能的权重组合,然后对每种组合进行评估,可以采用交叉验证来度量模型性能。其中,可以考虑不同权重的组合,例如0.1、0.2、0.3等,以找到最佳的权重设置。在每个权重组合下,使用评估标准来度量模型的性能。评估标准可以是诸如均方误差(MSE)、准确率、召回率、F1分数等,具体取决于情感预测任务的性质。通常,选择具有最低误差或最高性能度量值的权重组合。

在操作S1020,基于所述权重,对所述第一预测情绪评分和所述第二预测情绪评分进行加权平均计算,获取预测情绪评分。

在本发明的实施例中,可以根据具体任务和需求来调整权重。如果一个预测模型在特定情境下更可靠,可以分配更高的权重,以强调其贡献。

返回参照图2,在操作S250,响应于所述预测情绪评分超过预设的暴力情绪阈值,生成防暴预警信息。

在本发明的实施例中,预设的暴力情绪阈值是一个在系统中定义的标准,用来判断是否出现了潜在的暴力情绪。该阈值可以根据具体情境和需求进行调整。

在本发明的实施例中,防暴预警信息可以包括:时间戳,表示发生情绪异常的时间;位置信息,指明情绪异常发生的地点,如银行营业厅的具体位置;预测情绪评分和具体情绪描述,描述预测的情绪类型或特点以及评分;任何其他相关信息:例如,采集到的多模态信息、声音片段、摄像头图像等。

在操作S260,基于所述防暴预警信息,进行防暴预警。

在本发明的实施例中,系统可以将生成的防暴预警信息传送给相应的机构或人员,如安保部门、警察部门或相关工作人员。这些机构或人员将收到的预警信息用于采取必要的措施,以应对可能发生的潜在危险或威胁。

根据本发明实施例提供的防暴预警方法,通过跨模态立体情绪模型和多模态情感识别模型,使得计算机能够自动理解和分析数据并提供更准确的情绪预测结果,从而提升计算机处理效率;同时,能够实时预测网点的可能出现暴力情绪的人员,并针对性对异常人员进行精准监控,为安保人员提供防暴力侵害提供数据支持,提高了网点安全性并减少客户损失,并减轻人工干预的负担,从而提升了用户体验。

具体地,具有以下有益效果:

1.综合多模态信息:通过采集多模态环境信息和多模态客户情绪信息,系统可以综合不同感知方式的数据,包括多种环境因素、肢体动作、面部表情和声音等,这有助于更全面地理解客户情绪,避免产生错误或遗漏;

2.整合和预测:整合第一和第二预测情绪评分可以综合利用不同模型的优势,提高情感预测的准确性。这使系统能够更好地理解客户的情感状态;

3.早期的暴力情绪检测:通过设置暴力情绪阈值,系统可以在情绪异常出现的早期发出警报。这有助于提前采取措施,减少潜在的损失和风险;

4.提高安全性:该方法有助于提高银行营业厅的安全性,确保用户的资金和人身安全。它可以帮助安保部门或警察部门更及时地应对潜在的危险情况。

基于上述防暴预警方法,本发明还提供了一种防暴预警装置。以下将结合图11对该装置进行详细描述。

图11示意性示出了根据本发明实施例的防暴预警装置的结构框图。

如图11所示,根据该实施例的防暴预警装置1100包括信息获取模块1110、第一预测情绪评分获取模块1120、第二预测情绪评分获取模块1130、预测情绪评分获取模块1140、防暴预警信息生成模块1150和防暴预警模块1160。

所述信息获取模块1110可以用于基于预设的采集区域,获取多模态环境信息和经过授权的多模态客户情绪信息,其中,所述多模态客户情绪信息至少包括肢体动作信息、面部表情信息和声音信息。在一实施例中,所述信息获取模块1110可以用于执行前文描述的操作S210,在此不再赘述。

所述第一预测情绪评分获取模块1120可以用于将所述多模态环境信息和所述多模态客户情绪信息输入跨模态立体情绪模型,输出第一预测情绪评分,其中,所述跨模态立体情绪模型是根据不同情境下的环境数据和情感图像数据进行学习和训练得到的。在一实施例中,所述第一预测情绪评分获取模块1120可以用于执行前文描述的操作S220,在此不再赘述。

所述第二预测情绪评分获取模块1130可以用于将所述多模态客户情绪信息输入多模态情感识别模型进行肢体动作识别、面部表情识别和声音识别,输出第二预测情绪评分。在一实施例中,所述第二预测情绪评分获取模块1130可以用于执行前文描述的操作S230,在此不再赘述。

所述预测情绪评分获取模块1140可以用于将所述第一预测情绪评分和所述第二预测情绪评分进行整合,获得预测情绪评分。在一实施例中,所述预测情绪评分获取模块1140可以用于执行前文描述的操作S240,在此不再赘述。

所述防暴预警信息生成模块1150可以用于响应于所述预测情绪评分超过预设的暴力情绪阈值,生成防暴预警信息。在一实施例中,所述防暴预警信息生成模块1150可以用于执行前文描述的操作S250,在此不再赘述。

所述防暴预警模块1160可以用于基于所述防暴预警信息,进行防暴预警。在一实施例中,所述防暴预警模块1160可以用于执行前文描述的操作S260,在此不再赘述。

根据本发明的实施例,所述第一预测情绪评分获取模块1120可以包括第一输入数据获取单元、多任务学习单元、关联性建模模块和第一预测情绪评分输出单元。

所述第一输入数据获取单元可以用于对所述多模态环境信息和所述多模态客户情绪信息进行数据预处理,获得第一输入数据。在一实施例中,所述第一输入数据获取单元可以用于执行前文描述的操作S310,在此不再赘述。

所述多任务学习单元可以用于将所述第一输入数据进行多任务学习,获得情感识别结果,其中,所述多任务学习包括多模态环境信息情感识别和多模态客户情绪信息情感识别。在一实施例中,所述多任务学习单元可以用于执行前文描述的操作S320,在此不再赘述。

所述关联性建模模块可以用于基于所述第一输入数据进行关联性建模,获得所述多模态环境信息和所述多模态客户情绪信息的关联性结果。在一实施例中,所述关联性建模模块可以用于执行前文描述的操作S330,在此不再赘述。

所述第一预测情绪评分输出单元可以用于基于所述情感识别结果和所述关联性结果,输出第一预测情绪评分。在一实施例中,所述第一预测情绪评分输出单元可以用于执行前文描述的操作S340,在此不再赘述。

根据本发明的实施例,所述关联性建模模块可以包括建模单元、特征选择单元和分析单元。

所述建模单元可以用于通过构建基于情绪环的神经网络模型进行关联性建模。在一实施例中,所述建模单元可以用于执行前文描述的操作S410,在此不再赘述。

所述特征选择单元可以用于基于所述第一输入数据进行特征选择,获取情绪特征。在一实施例中,所述特征选择单元可以用于执行前文描述的操作S420,在此不再赘述。

所述分析单元可以用于将所述情绪特征输入所述基于情绪环的神经网络模型进行所述多模态环境信息和所述多模态客户情绪信息的关联性分析,获得所述关联性结果。在一实施例中,所述分析单元可以用于执行前文描述的操作S430,在此不再赘述。

根据本发明的实施例,所述第二预测情绪评分获取模块1130可以包括肢体动作识别评分获取模块、面部表情识别评分获取模块、声音识别评分获取模块和第二预测情绪评分获取单元。

所述肢体动作识别评分获取模块可以用于将所述肢体动作信息输入所述肢体动作识别模型,获得肢体动作识别评分。在一实施例中,所述肢体动作识别评分获取模块可以用于执行前文描述的操作S510,在此不再赘述。

所述面部表情识别评分获取模块可以用于将所述面部表情信息输入所述面部表情识别模型,获得面部表情识别评分。在一实施例中,所述面部表情识别评分获取模块可以用于执行前文描述的操作S520,在此不再赘述。

所述声音识别评分获取模块可以用于将所述声音信息输入所述声音识别模型,获得声音识别评分。在一实施例中,所述声音识别评分获取模块可以用于执行前文描述的操作S530,在此不再赘述。

所述第二预测情绪评分获取单元可以用于将所述肢体动作识别评分、所述面部表情识别评分和所述声音识别评分按照预设的权重进行加权平均,获得所述第二预测情绪评分。在一实施例中,所述第二预测情绪评分获取单元可以用于执行前文描述的操作S540,在此不再赘述。

根据本发明的实施例,所述肢体动作识别评分获取模块可以包括肢体动作特征采集单元、推理单元和肢体动作识别评分计算单元。

所述肢体动作特征采集单元可以用于基于所述肢体动作信息,采集肢体动作特征,其中,通过光流法、轨迹法和EyesWeb平台采集所述肢体动作特征。在一实施例中,所述肢体动作特征采集单元可以用于执行前文描述的操作S610,在此不再赘述。

所述推理单元可以用于将所述肢体动作特征输入所述肢体动作识别模型,利用前后-后向算法或Viterbi算法进行推理,获得肢体动作序列。在一实施例中,所述推理单元可以用于执行前文描述的操作S620,在此不再赘述。

所述肢体动作识别评分计算单元可以用于基于所述肢体动作序列,计算所述肢体动作识别评分。在一实施例中,所述肢体动作识别评分计算单元可以用于执行前文描述的操作S630,在此不再赘述。

根据本发明实施例,所述面部表情识别评分获取模块可以包括面部表情特征提取模块、映射单元和面部表情识别评分输出单元。

所述面部表情特征提取模块可以用于基于所述面部表情信息,利用VGG19网络和Resnet18网络提取面部表情特征。在一实施例中,所述面部表情特征提取模块可以用于执行前文描述的操作S710,在此不再赘述。

所述映射单元可以用于利用全连接层,将所述面部表情特征映射到表情类别。在一实施例中,所述映射单元可以用于执行前文描述的操作S720,在此不再赘述。

所述面部表情识别评分输出单元可以用于基于所述表情类别进行表情分析,获得所述面部表情识别评分。在一实施例中,所述面部表情识别评分输出单元可以用于执行前文描述的操作S730,在此不再赘述。

根据本发明的实施例,所述面部表情特征提取模块可以包括第一面部特征提取单元、第二面部特征提取单元和面部表情特征获得单元。

所述第一面部特征提取单元可以用于基于所述面部表情信息,利用VGG19网络提取第一面部特征。在一实施例中,所述第一面部特征提取单元可以用于执行前文描述的操作S810,在此不再赘述。

所述特征捆绑单元可以用于利用互斥捆绑算法,对所述客户初步特征中的高维稀疏特征进行捆绑处理,获取客户捆绑特征。在一实施例中,所述特征捆绑单元可以用于执行前文描述的操作S820,在此不再赘述。

所述面部表情特征获得单元可以用于将所述第一面部特征和所述第二面部特征连接或加权融合,获得所述面部表情特征。在一实施例中,所述面部表情特征获得单元可以用于执行前文描述的操作S830,在此不再赘述。

根据本发明的实施例,所述声音识别评分获取模块可以包括声音特征获取单元、时序序列获取单元和声音识别评分计算单元。

所述声音特征获取单元可以用于基于所述声音信息,利用梅尔倒谱系数获取声音特征。在一实施例中,所述声音特征获取单元可以用于执行前文描述的操作S910,在此不再赘述。

所述时序序列获取单元可以用于将所述声音特征输入所述声音识别模型,获取时序序列,其中,所述时序序列包括每个时间步的声音特征表示。在一实施例中,所述时序序列获取单元可以用于执行前文描述的操作S920,在此不再赘述。

所述声音识别评分计算单元可以用于基于所述时序序列,计算所述声音识别评分。在一实施例中,所述声音识别评分计算单元可以用于执行前文描述的操作S930,在此不再赘述。

根据本发明的实施例,所述预测情绪评分获取模块1140可以包括权重分配单元和预测情绪评分获取单元。

所述权重分配单元可以用于为所述第一预测情绪评分和所述第二预测情绪评分分配预设的权重,其中,基于网格搜索算法获取具有最优预测结果的权重。在一实施例中,所述权重分配单元可以用于执行前文描述的操作S1010,在此不再赘述。

所述预测情绪评分获取单元可以用于基于所述权重,对所述第一预测情绪评分和所述第二预测情绪评分进行加权平均计算,获取预测情绪评分。在一实施例中,所述预测情绪评分获取单元可以用于执行前文描述的操作S1020,在此不再赘述。

根据本发明的实施例,信息获取模块1110、第一预测情绪评分获取模块1120、第二预测情绪评分获取模块1130、预测情绪评分获取模块1140、防暴预警信息生成模块1150和防暴预警模块1160中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,信息获取模块1110、第一预测情绪评分获取模块1120、第二预测情绪评分获取模块1130、预测情绪评分获取模块1140、防暴预警信息生成模块1150和防暴预警模块1160中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,信息获取模块1110、第一预测情绪评分获取模块1120、第二预测情绪评分获取模块1130、预测情绪评分获取模块1140、防暴预警信息生成模块1150和防暴预警模块1160中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

图12示意性示出了根据本发明实施例的适于防暴预警方法的电子设备的方框图。

如图12所示,根据本发明实施例的电子设备1200包括处理器1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1203中,存储有电子设备1200操作所需的各种程序和数据。处理器1201、ROM 1202以及RAM 1203通过总线1204彼此相连。处理器1201通过执行ROM 1202和/或RAM1203中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1202和RAM 1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。

根据本发明的实施例,电子设备1200还可以包括输入/输出(I/O)接口1205,输入/输出(I/O)接口1205也连接至总线1204。电子设备1200还可以包括连接至I/O接口1205的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。

根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 1202和/或RAM 1203和/或ROM 1202和RAM 1203以外的一个或多个存储器。

本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本发明实施例所提供的方法。

在该计算机程序被处理器1201执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分1209被下载和安装,和/或从可拆卸介质1211被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。

在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本发明的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。

相关技术
  • 电磁场测量探头、电磁场测量系统及控制方法
  • 电磁场测量探头及电磁场测量系统
技术分类

06120116523557