掌桥专利:专业的专利平台
掌桥专利
首页

一种基于图像的眼动追踪方法和系统

文献发布时间:2023-06-19 12:00:51


一种基于图像的眼动追踪方法和系统

技术领域

本发明涉及图像识别的技术领域,尤其是一种基于图像的眼动追踪方法和系统。

背景技术

眼动追踪是通过测量眼睛运动情况来估计眼睛凝视点的技术,从而实时追踪眼睛的变化,预测用户的状态和需求,并进行响应,达到用眼睛控制设备的目的。眼球追踪技术的用途十分广泛,可以通过追踪眼球的变化,控制手机、电脑实现自动亮屏,翻页等多种控制功能;在汽车自动驾驶领域,可以通过追踪眼球的位置,模拟驾驶员的视野,提醒驾驶员视线盲区可能存在的危险;在心理学中可以通过追踪眼球的运动特点,作为心理判断的辅助依据;在医疗中可以通过病人眼动追踪的数据来辅助疾病的判断等等。

目前眼动追踪有几种实现方式,包括根据虹膜角度变化进行跟踪,以及主动投射红外线等光束到虹膜来提取特征,但虹膜识别对识别图像采集设备的精度要求较高,而红外射线投射又往往需要辅助以红外光设备等,上述方式都无法达到便捷,高效,成本低的目的。

研究者针对眼动追踪做了很多的尝试,业界普遍使用的方法有以下两类:

1、入侵式眼动跟踪技术,此类方法存在以下问题:为了获取眼睛观察方向的变化情况,入侵式眼动跟踪技术通常需要额外的硬件进行辅助,比如瞳孔-角膜反射向量法所采用的红外辅助光源、眼电图法所使用的电流信号和接触镜法所使用的小镜子。这些额外的硬件都会给用户的眼睛带来不舒适感,甚至造成伤害,另外使用额外的硬件设备还需要额外的成本投入。

2、基于视频图像眼动追踪,在图像获取人眼区域中确定人眼虹膜中心的位置以及人眼区域中确定参考点的位置,参考点是指与人眼区域保持相对静止的点。根据至少两帧图像中各自的人眼虹膜中心的位置和参考点的位置对人眼虹膜中心进行眼动跟踪。该方法采用基于人眼虹膜轮廓匹配方式进行拟合来确定人眼虹膜中心,此类方法轮廓形状易受环境光照影响,从而导致人眼虹膜中心定位不准确,不利于眼动跟踪。

发明内容

为了解决现有技术中需要额外的硬件辅助所带来的不适感、易受环境光照影响导致人眼虹膜中心定位不准等技术问题,本发明提出了一种基于图像的眼动追踪方法和系统,用以解决上述技术问题。

根据本发明的一个方面,一种基于图像的眼动追踪方法,包括:

S1:对待检测图像进行人脸检测,获得人脸检测框;

S2:利用人脸关键点定位网络定位出眼睛感兴趣区域并进行瞳孔关键点定位;以及

S3:基于瞳孔中心和眼睛区域中心计算获取水平偏移比率以确定人眼朝向。

在一些具体的实施例中,步骤S1具体为利用无锚点的人脸检测方法对待检测图像进行人脸检测,获得人脸框。

在一些具体的实施例中,无锚点的人脸检测方法包括:将待检测图像输入至人脸检测网络中输出人脸热度图、人脸尺度图和人脸中心偏移量图,人脸热度图中大于预设阈值的点为人脸,并在人脸中心偏移量图上对应位置取出人脸坐标偏移量,与人脸热度图中的坐标相加获得人脸的中心位置,在人脸尺度图上计算人脸的宽高,得到人脸检测框,并利用非极大值抑制剔除重复的人脸检测框。凭借该方法可以解决光线不理想的环境下人脸易漏检的问题。

在一些具体的实施例中,步骤S2之前还包括对人脸检测框进行外扩,对人脸检测框的横坐标方向按人脸检测框的宽度的四分之一进行外扩,对人脸检测框的纵坐标方向按人脸检测框的高度的四分之一进行外扩。

在一些具体的实施例中,人脸关键点定位网络包括MobileNetV2的主干网络、卷积层、多尺度层和全连接层,其中,多尺度卷积层由前一个卷积层的输出经过两次下采样,并将相应的输出联结在一起,全连接层输出为896个神经元。凭借该设置可以融合不同尺度特征图上的特征,增强人脸关键点定位模型的鲁棒性。

在一些具体的实施例中,步骤S2包括:

S21.将人脸训练图像进行预处理,预处理包括数据扩增和数据归一化处理,数据扩增包括随机补边、随机颜色抖动;

S22.将人脸训练图像输入人脸关键点网络,计算网络的输出与人工标注的损失

S23.训练优化器Adam,其中,超参数β

S24.学习率设置为5e

S25.重复迭代80次时降低学习率至5e

S26.利用人脸关键点定位模型输出468个人脸关键点坐标。

在一些具体的实施例中,瞳孔关键点定位具体包括:根据468个人脸关键点坐标,对眼睛区域进行外扩获得眼睛感兴趣区域,并输入瞳孔关键点定位模型输出通孔关键点坐标。

在一些具体的实施例中,步骤S3的水平方向偏移比率的计算公式

根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。

根据本发明的第三方面,一种基于图像的眼动追踪系统,该系统包括:

人脸检测框获取单元:配置用于对待检测图像进行人脸检测,获得人脸检测框;

参数获取单元:配置用于利用人脸关键点定位网络定位出眼睛感兴趣区域并进行瞳孔关键点定位;

人眼朝向计算单元:配置用于基于瞳孔中心和眼睛区域中心计算获取水平偏移比率确定人眼朝向。

本发明提出的一种基于图像的眼动追踪方法和系统,采用基于无锚点的人脸检测方法Centerface,该方法避免了繁琐的基于锚点的后处理时间,快速高效且高召回率和低误检率,更好地解决了光线不理想的环境下人脸漏检的问题;采用针对移动端的轻量级深度神经网络(人脸关键点定位网络)进行人脸关键点定位,满足移动端的实时高效准确的要求;采用针对移动端的轻量级深度神经网络(瞳孔关键点定位网络)进行瞳孔关键点定位,该模块在复杂背景下满足移动端的实时高效准确的要求;采用基于瞳孔中心坐标与眼睛区域中心的偏移比率计算人眼凝视朝向,从而实现眼动追踪,灵敏高效准确。

附图说明

包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请的一个实施例的基于图像的眼动追踪方法流程图;

图2是本申请的一个具体的实施例的基于图像的眼动追踪方法流程图;

图3是本申请的一个具体的实施例的人脸关键点定位网络结构图;

图4是本申请的一个具体的实施例的瞳孔关键点定位网络结构图;

图5是本申请的一个实施例的基于图像的眼动追踪系统的框架图;

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本申请的一个实施例的基于图像的眼动追踪方法,图1示出了根据本申请的实施例的基于图像的眼动追踪方法流程图。如图1所示,该方法包括:

S101:对待检测图像进行人脸检测,获得人脸检测框。

在具体的实施例中,利用无锚点的人脸检测方法对待检测图像进行人脸检测,获得人脸框。无锚点的人脸检测方法包括:将待检测图像输入至人脸检测网络中输出人脸热度图、人脸尺度图和人脸中心偏移量图,人脸热度图中大于预设阈值的点为人脸,并在人脸中心偏移量图上对应位置取出人脸坐标偏移量,与人脸热度图中的坐标相加获得人脸的中心位置,在人脸尺度图上计算人脸的宽高,得到人脸检测框,并利用非极大值抑制剔除重复的人脸检测框。

在具体的实施例中,还包括对人脸检测框进行外扩,对人脸检测框的横坐标方向按人脸检测框的宽度的四分之一进行外扩,对人脸检测框的纵坐标方向按人脸检测框的高度的四分之一进行外扩。外扩的操作能够防止人脸特征的遗漏,进一步提高识别的准确性。

S102:利用人脸关键点定位网络定位出眼睛感兴趣区域并进行瞳孔关键点定位。

在具体的实施例中,人脸关键点定位网络包括MobileNetV2的主干网络、卷积层、多尺度层和全连接层,其中,多尺度卷积层由前一个卷积层的输出经过两次下采样,并将相应的输出联结在一起,全连接层输出为896个神经元。关键点定位的方式具体如下:

S21.将人脸训练图像进行预处理,预处理包括数据扩增和数据归一化处理,数据扩增包括随机补边、随机颜色抖动;

S22.将人脸训练图像输入人脸关键点网络,计算网络的输出与人工标注的损失

S23.训练优化器Adam,其中,超参数β

S24.学习率设置为5e

S25.重复迭代80次时降低学习率至5e

S26.利用人脸关键点定位模型输出468个人脸关键点坐标。

进一步地,根据468个人脸关键点坐标,对眼睛区域进行外扩获得眼睛感兴趣区域,并输入瞳孔关键点定位模型输出通孔关键点坐标。

S103:基于瞳孔中心和眼睛区域中心计算获取水平偏移比率以确定人眼朝向。具体的,水平方向偏移比率的计算公式

继续参考图2,图2示出了根据本申请的具体的实施例的基于图像的眼动追踪方法流程图,如图2所示,该方法包括:

步骤201:输入图像;

步骤202:人脸检测。待检测的2D图像采用一种基于无锚点的人脸检测(CenterFace)方法进行人脸检测,并记录检测框。

在具体的实施例中,人脸检测采用一种基于无锚点的快速且高召回率和低误检率的人脸检测(Centerface)方法,用来解决光线不理想的环境下人脸易漏检问题,人脸检测步骤如下:

将待检测的银行操作间2D监控图像裁出划定的检测区域图像输入到人脸检测网络中进行人脸检测,输出人脸热度图、人脸尺度图和人脸中心偏移量图;

将所述人脸热度图中大于预设阈值0.35的点认为是人脸,然后在人脸中心偏移量图上对应位置取出人脸坐标偏移量,与人脸热度图的坐标相加,得到最终人脸的中心位置,最后在人脸尺度图上经过指数换算计算出人脸的宽高,得到人脸检测框,再经过非极大值抑制(NMS)剔除重复的人脸框。

在具体的实施例中,对人脸检测框向四周进行外扩,[x

步骤203:人脸关键点定位。根据人脸框从原图中裁出人脸区域送入人脸关键点定位网络进行人脸关键点定位。

在具体的实施例中,根据上述外扩后的人脸检测框在图像上裁出人脸区域并送入人脸关键点网络预测出人脸关键点(468个点)。人脸关键点定位方法包括训练步骤和预测步骤。其中,训练步骤包括:人脸关键点网络设计,基于迁移学习技术,主干网络采用MobileNetV2,MobileNetV2去掉后面三层(即卷积层、平均池化层和全连接层),并接入自定义的卷积层、多尺度卷积层(Muticale Layer)和全连接层(FC Layer输出为896个神经元)。该人脸关键点定位网络结构如图3所示,其中自定义多尺度卷积层由前一个卷积层的输出经过两次下采样,并把相应的输出联结在一起,起到融合不同尺度特征图上特征,增强人脸关键点定位模型的鲁棒性。

在具体的实施例中,将人脸训练图像进行预处理,所述预处理包括数据扩增和数据归一化处理,数据扩增包括随机补边、随机颜色抖动等操作;将人脸训练图像输入人脸关键点网络,网络896维的输出与人为标注的真实值(即486个人脸关键点的x和y坐标)计算损失L

步骤204:瞳孔关键点定位。根据人脸关键点坐标裁出眼睛感兴趣区域进行瞳孔关键点定位。

在具体的实施例中,瞳孔关键点定位方法同样包括训练步骤和预测步骤。其中,瞳孔关键点定位训练步骤包括网络结构设计和网络模型训练,瞳孔关键点定位网络结构与人脸关键点定位网络结构相似,差别在输出层神经元个数不同,瞳孔关键点定位网络的输出层神经元个数为10。该瞳孔关键点定位网络结构如图4所示。

在具体的实施例中,瞳孔关键点定位网络的模型训练具体包括:将眼睛区域训练图像进行预处理,所述预处理包括数据扩增和数据归一化处理,数据扩增包括随机补边、随机颜色抖动等操作;其中眼睛区域图像根据以下生成:根据上述得到的468个人脸关键点,对于左眼,取出左眼左角点(x1,y1)和右角点(x2,y2),经过计算得到w=x2-x1,对x1,x2,y1,y2进行以下规则(简称规则1)即可对眼睛区域进行外扩并获得左眼感兴趣区域,规则1如下:

x1=x1-w*(2.3-1)/2

x2=x2+w*(2.3-1)/2

y1=y1-2.3*w/2

y2=y2+2.3*w/2

对于右眼,同样取出右眼左角点(x3,y3)和右角点(x4,y4)并进行类似左眼的操作获得右眼感兴趣区域图像,然后对右眼感兴趣区域图像进行水平镜像翻转操作后作为训练图像。将眼睛区域训练图像输入瞳孔关键点网络,网络10维的输出与人为标注的真实值(即5个人脸关键点的x和y坐标)计算损失L

步骤205:眼动追踪。根据瞳孔中心和眼睛区域中心计算水平偏移比率并确定人眼凝视朝向,从而实现眼动跟踪。

在具体的实施例中,根据上述得到468个人脸关键点,对于左眼,取出左眼左角点(x

当HorizontalRatio<=0.35,表示眼睛向右看;

当HorizontalRatio>=0.65,表示眼睛向左看;

当HorizontalRatio>0.35和HorizontalRatio<0.65,则表示向中间看。

由于移动端APP采集视频图像存在环境光照条件不理想,背景复杂等情况,如何在这些不利条件下有效地定位到人脸和瞳孔中心并准确地进行眼动跟踪;上述方法可以基于移动端APP采集2D图像,可以实现在背景复杂,环境光照不理想等不利条件下的精准实时眼动跟踪。采用基于无锚点的人脸检测方法Centerface,该方法避免了繁琐的基于锚点的后处理时间,快速高效且高召回率和低误检率,更好地解决了光线不理想的环境下人脸漏检的问题;采用针对移动端的轻量级深度神经网络(人脸关键点定位网络)进行人脸关键点定位,满足移动端的实时高效准确的要求;采用针对移动端的轻量级深度神经网络(瞳孔关键点定位网络)进行瞳孔关键点定位,该模块在复杂背景下满足移动端的实时高效准确的要求;采用基于瞳孔中心坐标与眼睛区域中心的偏移比率计算人眼凝视朝向,从而实现眼动追踪,灵敏高效准确。

继续参考图5,图5示出了根据本申请的一个实施例的基于图像的眼动追踪系统的框架图。该系统具体包括人脸侧框获取单元501、参数获取单元502和人眼朝向计算单元503。人脸检测框获取单元501配置用于对待检测图像进行人脸检测,获得人脸检测框;参数获取单元502配置用于利用人脸关键点定位网络定位出眼睛感兴趣区域并进行瞳孔关键点定位;人眼朝向计算单元503配置用于基于瞳孔中心和眼睛区域中心计算获取水平偏移比率确定人眼朝向。该系统基于如图1或2中示出的基于图像的眼动追踪方法,可以在环境光照条件不理想、背景复杂等情况下有效地定位到人脸和瞳孔中心并准确地进行眼动跟踪。

下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:对待检测图像进行人脸检测,获得人脸检测框;利用人脸关键点定位网络定位出眼睛感兴趣区域并进行瞳孔关键点定位;基于瞳孔中心和眼睛区域中心计算获取水平偏移比率确定人眼朝向。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

相关技术
  • 一种基于图像的眼动追踪方法和系统
  • 一种基于眼动追踪的雷达动态目标标定方法及系统
技术分类

06120113135357