掌桥专利:专业的专利平台
掌桥专利
首页

一种基于不确定度的视点估计方法

文献发布时间:2024-04-18 19:58:21


一种基于不确定度的视点估计方法

技术领域

本发明涉及计算机视觉领域,尤其涉及一种基于不确定度的视点估计方法。

背景技术

人类视线蕴含着丰富的信息,视点是人体视线与所关注物体的相交点。视点估计是计算机视觉领域一个重要的研究课题,包含对人类注意力及场景信息的理解。视点估计在科学研究及商业应用都有着重要的应用价值,可应用于分析孤独症患儿的视觉注意力、在多人社交场景分析多人的视线行为活动、嵌入在机器人设备中分析用户的人机交互意图。

视点估计方法是一种对一张包含受试者和其所在场景的图像中估计受试者的注视点位置的方法。现有的视点估计方法主要流程为整张图像和受试者头部图像为输入数据,以受试者在图像中的二维坐标注视点为输出数据,以神经网络为映射模型,并利用梯度反向传播算法优化所建立的神经网络模型。现有的视线估计方法主要分为两类,一类是基于单帧图像的视点估计方法,即仅提取以单帧图像为单位提取特征,以预测受试者在当前帧图像中的视点输出,参考文献Recasens,A.,Khosla,A.,Vondrick,C.,&Torralba,A.(2015).Where are they looking?.Advances in neural information processingsystems,28.;另一类是基于多帧图像的视点估计方法,即以连续多帧图像为单位提取特征,以预测受试者在多帧图像中的视点输出,参考文献Chong,E.,Wang,Y.,Ruiz,N.,&Rehg,J.M.(2020).Detecting attended visual targets in video.In Proceedings of theIEEE/CVF conference on computer vision and pattern recognition(pp.5396-5406)。

近年来,视点估计方法越来越成熟,但是只能输出预测值,不能输出预测值的不确定度,缺乏可解释性。

因此,本领域的技术人员致力于开发一种基于不确定度的视点估计方法

发明内容

有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是现有技术中的视点估计方法只能输出预测值,不能输出预测值的不确定度。

为实现上述目的,本发明提供了一种基于不确定度的视点估计方法,其特征在于,所述方法包括以下步骤:

S101:获取数据集,并对所述数据集进行预处理;

S103:构建卷积神经网络,所述卷积神经网络包括场景显著性特征提取网络、视线特征提取网络、特征融合网络、时序信息提取网络及视点解码网络;

S105:构建总神经网络,所述总神经网络实现视点位置预测坐标及其不确定度的输出;

S107:设计损失函数,使所述总神经网络模型的所述损失函数最小化;

S109:按照监督学习策略网络,根据所述损失函数计算视点坐标预测值与视点坐标标签真值的损失值,利用梯度反向传播算法完成对所述总神经网络模型的训练;

S111:采用训练完成的所述总神经网络,对测试图像数据进行视点估计,并输出不确定度。

进一步地,在所述步骤S101中,所述数据集包括训练数据,所述训练数据包括包含受试者的场景图像和标注信息,根据所述标注信息,对单帧整张场景图像中受试者人脸进行裁剪,并根据所述受试者人脸在所述整张场景图像中的位置,生成人脸位置二值掩码图像。

进一步地,所述步骤S101中对所述数据集进行预处理包括如下子步骤:

S1011:根据所述受试者人脸外接矩形框标注信息,对所述场景图像中的人脸图像进行裁剪;

S1012:根据所述受试者人脸在所述场景图像中的位置,生成人脸位置二值掩码图像;

S1013:将所述场景图像、所述人脸图像及所述人脸位置二值掩码图像的尺寸调整,并对图像像素值进行归一化处理。

进一步地,在步骤S1013中,所述场景图像、所述人脸图像及所述人脸位置二值掩码图像的尺寸调整至224×224,对图像像素值归一化至范围[-1,1]。

进一步地,所述步骤S103包括如下子步骤:

S1031:构建所述场景显著性特征提取网络,所述场景显著性特征提取网络由一个第一ResNet-50卷积神经网络和两个瓶颈层构成;

S1032:构建所述视线特征提取网络,所述视线特征提取网络由一个第二ResNet-50卷积神经网络和两个瓶颈层构成;

S1033:构建所述特征融合网络,所述特征融合网络由两个卷积层、两个批归一化层和Relu激活函数构成;

S1034:构建不确定度提取网络,所述不确定度提取网络由两个池化层、一个线性层、一个Sigmoid激活函数构成,所述不确定度提取网络的输出为不确定度;

S1035:构建所述视点解码网络,所述视点解码网络由两个池化层、一个线性层、一个Sigmoid激活函数构成,所述视点解码网络的输出为视点位置预测坐标。

进一步地,所述场景显著性特征提取网络的输入数据为预处理后的所述场景图像与所述人脸位置二值掩码图像沿通道方向叠加后的数据,所述输入数据先经过所述第一ResNet-50卷积神经网络的处理,然后再依次由两个瓶颈层处理,所述场景显著性特征提取网络的输出为场景显著性特征f

进一步地,所述视线特征提取网络的输入数据为预处理后的所述人脸图像数据,所述输入数据先经过所述第二ResNet-50卷积神经网络的处理,然后再依次由两个瓶颈层处理,所述视线特征提取网络的输出为视线特征f

进一步地,所述特征融合网络的输入为所述场景显著性特征f

进一步地,所述总神经网络包括所述场景显著性特征提取网络、所述视线特征提取网络、所述特征融合网络、所述不确定度提取网络和所述视点解码网络,所述总神经网络将所述特征融合向量f

进一步地,所述损失函数为:

其中,i为样本序号,n为样本个数,y

在本发明的较佳实施方式中,本发明和现有技术相比,具有如下有益效果:

1、本发明提出了不确定度提取网络,输出模型对样本的不确定度,以表示模型对该样本的视点坐标预测值的确定程度;

2、本发明通过提出的不确定度提取网络,以融合特征为输入,输出不确定度。所设计损失函数添加了

3、对于给定的一张包含人及周围信息的场景图片,本发明可以输出该人的注视点坐标,并且可以输出不确定度。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的视点估计方法流程示意图;

图2是本发明的一个较佳实施例的场景显著性特征提取网络示意图;

图3是本发明的一个较佳实施例的视线特征提取网络示意图;

图4是本发明的一个较佳实施例的场景显著性特征提取网络中瓶颈层示意图

图5是本发明的一个较佳实施例的特征融合网络示意图;

图6是本发明的一个较佳实施例的不确定度提取示意图;

图7是本发明的一个较佳实施例的视点解码网络示意图;

图8是本发明的一个较佳实施例的总神经网络示意图。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。

在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。

在现有的视点估计方法中,对于给定的一个样本,只能输出注视点坐标预测值,不能输出模型对当前样本的确定程度。现有视点估计方法对一个低质量样本有极大噪声和一个高质量样本如没有噪声预测结果的确定程度是一样的,这会导致基于现有视点估计方法的应用可信度低。

本发明针对该领域,并考虑以上不足之处,提出了一种基于不确定度的视点估计方法,提出一种不确定度提取网络,输出模型对样本的不确定度,以表示模型对该样本的视点坐标预测值的确定程度,在保证精度的前提下可输出预测值的置信度。

如图1所示,本发明实施例提供的一种基于不确定度的视点估计方法,包括以下步骤:

S101:获取数据集,并对数据集进行预处理。

获取的数据集包括训练数据,该训练数据包括包含受试者的场景图像和标注信息,根据标注信息,对单帧整张场景图像中受试者人脸进行裁剪,并根据受试者人脸在整张场景图像中的位置,生成人脸位置二值掩码图像。

包括如下子步骤:

S1011:根据受试者人脸外接矩形框标注信息,对场景图像中的人脸图像进行裁剪;

S1012:根据受试者人脸在场景图像中的位置,生成人脸位置二值掩码图像;

S1013:将场景图像、人脸图像及人脸位置二值掩码图像的尺寸调整,并对图像像素值进行归一化处理。

将上述场景图像、人脸图像以及人脸位置二值掩码图像的尺寸调整至224×224,对图像像素值归一化至范围[-1,1],以便后续的处理。

S103:构建卷积神经网络,所述卷积神经网络包括场景显著性特征提取网络、视线特征提取网络、特征融合网络、时序信息提取网络及视点解码网络。

在构建卷积神经网络时,包括如下子步骤:

S1031:构建场景显著性特征提取网络。该场景显著性特征提取网络由一个ResNet-50卷积神经网络和两个瓶颈层构成。

场景显著性特征提取网络的输入数据,为预处理后的场景图像与人脸位置二值掩码图像,沿通道方向叠加后的数据,上述输入数据先经过ResNet-50卷积神经网络的处理,然后再依次由两个瓶颈层处理,场景显著性特征提取网络的输出为场景显著性特征f

S1032:构建视线特征提取网络。视线特征提取网络由一个ResNet-50卷积神经网络和两个瓶颈层构成。

视线特征提取网络的输入数据为预处理后的人脸图像数据,输入数据先经过ResNet-50卷积神经网络的处理,然后再依次由两个瓶颈层处理,视线特征提取网络的输出为视线特征f

S1033:构建特征融合网络。特征融合网络由两个卷积层、两个批归一化层和Relu激活函数构成。

特征融合网络的输入为场景显著性特征f

S1034:构建不确定度提取网络。不确定度提取网络由两个池化层、一个线性层、一个Sigmoid激活函数构成,不确定度提取网络的输出为不确定度。

S1035:构建视点解码网络。视点解码网络由两个池化层、一个线性层、一个Sigmoid激活函数构成,视点解码网络的输出为视点位置预测坐标。

S105:构建总神经网络。总神经网络实现视点位置预测坐标及其不确定度的输出。

总神经网络包括场景显著性特征提取网络、视线特征提取网络、特征融合网络、不确定度提取网络和视点解码网络,总神经网络将特征融合向量f

S107:设计损失函数,使总神经网络模型的损失函数最小化。

本发明设计的损失函数为:

其中,i为样本序号,n为样本个数,y

S109:按照监督学习策略网络,根据损失函数计算视点坐标预测值与视点坐标标签真值的损失值,利用梯度反向传播算法完成对总神经网络模型的训练。

S111:采用训练完成的总神经网络,对测试图像数据进行视点估计,并输出不确定度。

针对现有的视点估计方法只能输出预测值,不能输出预测值的不确定度,缺乏可解释性,本发明提出的不确定度提取网络,以融合特征为输入,对于给定的一张包含人及周围信息的场景图片,本方法可以输出该人的注视点坐标,并且可以输出不确定度;同时,本发明在所设计的损失函数添加了

下面结合本发明的优选实施例,对本发明进行详细说明。

针对现有技术中对于给定的一个样本,只能输出注视点坐标预测值,不能输出模型对当前样本的确定程度的问题,本发明提出了一种基于不确定度的视点估计方法,以解决现有技术中视点估计方法无法输出不确定度的问题。本方法首先选择神经网络作为基本框架,训练数据由包含受试者的场景图像和标注所组成。根据标注信息,对单帧整张场景图像中受试者人脸进行裁剪,并根据受试者人脸在整张场景图像中的位置生成人脸位置二值掩码图像。然后将裁剪后的人脸图像输入至视线编码模块获得视线特征,将人脸位置掩码图像及场景图像沿通道方向进行叠加,输入至场景显著性编码模块获得场景显著性特征。然后将视线特征及场景显著性特征叠加后,输入至特征融合模块获得融合特征。将融合特征输入不确定度编码模块和视点坐标解码模块,以分别获得视点位置预测坐标及其不确定度,如图8所示。

本发明提供的一种基于不确定度的视点估计方法,该方法包括:

步骤一:对数据集进行预处理。

获取数据集,数据集由图像和对应的标注信息组成,首先根据受试者人脸外接矩形框标注信息对场景图像中的人脸图像进行裁剪,并根据人脸在场景图像中的位置生成人脸位置二值掩码图像;将场景图像、人脸图像及人脸位置二值掩码图像的尺寸调整至224×224,并对图像像素值归一化至范围[-1,1]。

步骤二:构建卷积神经网络,卷积神经网络包括场景显著性特征提取网络、视线特征提取网络、特征融合网络、时序信息提取网络及视点解码网络;

1)构建场景显著性特征提取网络。场景显著性特征提取网络由一个ResNet-50、两个瓶颈层所构成,场景显著性特征提取网络如图2所示,瓶颈层如图4所示。其输入为预处理后的场景图像与二值掩码图像沿通道方向叠加后的数据,输出为场景显著性特征。

2)构建视线特征提取网络。视线特征提取网络由一个ResNet-50、两个瓶颈层所构成,视线特征提取网络如图3所示,瓶颈层如图4所示。其输入为预处理后的人脸图像数据,输出为视线特征。

3)构建特征融合网络。特征融合网络由两个卷积层、两个批归一化层和Relu激活函数所构成,特征融合网络如图5所示。其输入为场景显著性特征与视线特征沿通道方向的叠加后的特征向量,输出为融合特征。

4)构建不确定度提取网络。不确定度提取网络由两个池化层、一个线性层、一个Sigmoid激活函数所构成,输出为不确定度,不确定度提取网络如图6所示。

5)构建视点解码网络。视点解码网络由两个池化层、一个线性层、一个Sigmoid激活函数所构成,输出为视点位置预测坐标,不确定度提取网络如图7所示。

步骤三:构建总神经网络。利用步骤二中的显著性特征提取网络和视线特征提取网络,分别从预处理数据中提取场景特征向量f

步骤四:设计损失函数。i为样本序号,n为一批数据样本个数,

整个模型的目标就是最小化上述公式中的损失函数。

步骤五:按照监督学习策略网络,根据公式(2)中的损失函数计算视点坐标预测值与视点坐标标签真值的损失值,利用梯度反向传播算法完成对模型的训练。

步骤六:采用训练完成的总神经网络对测试图像数据进行视点估计,并输出不确定度。

本发明通过提出的不确定度提取网络,以融合特征为输入,输出不确定度,所设计的损失函数中添加了

以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

相关技术
  • 基于概率密度函数估计的圆度不确定度评定方法
  • 一种基于不确定估计的样本相似度计算方法及装置
技术分类

06120116482700