掌桥专利:专业的专利平台
掌桥专利
首页

一种基于深度学习的眨眼数据统计方法和装置

文献发布时间:2023-06-19 16:09:34



技术领域

本发明涉及医学图像处理技术领域,具体涉及一种基于深度学习的眨眼数据统计方法、装置、计算设备及存储介质。

背景技术

眨眼是一种快速闭眼动作,又称瞬目反射,眨眼的时候可以将泪膜均匀地分布到眼表,湿润眼睛。同时,人们通过眨眼的动作,还能促进睑板腺分泌的脂质(俗称“油”)排出。作为眼部泪膜的重要组成部分,脂质的作用是“锁水保湿”,保护眼泪不被蒸发,以提高泪膜的稳定性,从而预防干眼。如果人们不完全眨眼,即每次眨眼,不能完全覆盖整个角膜,致使眨眼质量下降时,脂质排出的力度不够,也会减少脂质的分泌。由于缺乏脂质的保护,泪膜稳定性减弱,泪液蒸发加剧,从而易产生干眼。所以观测统计不完全眨眼比例对干眼诊断具有很大的参考意义。

申请号为CN113616196A的中国发明专利文件公开了一种眨眼数据的统计方法、装置、介质及电子设备,在该方法中,获取眨眼的视频流,对每帧图像进行种子点区域提取分析,然后二值化图像获取区域的高度,进而得到不完成眨眼程度。但是这种方法的种子点选取比较困难,并容易受光照和睫毛等影响,从而导致检出率降低。通过计算目标区域对应的睑裂高度,并根据睑裂高度确定目标区域的开合状态,最后根据视频数据中各帧图像目标区域的开合状态,统计得到预设时间段内的眨眼数据。该方法能够降低数据统计的难度,但是只能对开合状态进行统计,不能统计人眼视频拍摄期间的不完全眨眼的比例,并且采用传统的图像处理方法对上下眼睑位置进行检测,检测效率和精确度较低,无法保证后续统计数据的准确性。

因此,需要提供一种眨眼数据统计方法,能够提高眼睑位置检测的准确度和效率,并实时统计人眼视频拍摄期间的不完全眨眼比例,提高数据统计的准确性和效率,以解决以上现有技术中存在的问题。

发明内容

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度学习的眨眼数据统计方法、装置、计算设备以及存储介质。

根据本发明的一个方面,提供一种基于深度学习的眨眼数据统计方法,在该方法中,首先,获取多帧人眼视频流图像;然后,将每帧人眼图像输入训练好的眼睑检测网络中进行检测,得到人眼图像概率数据和上下眼睑中心位置数据;接着,基于人眼图像概率数据和上下眼睑中心位置数据,计算上下眼睑高度值,得到上下眼睑高度序列;最后,基于上下眼睑高度序列,统计人眼视频拍摄期间的不完全眨眼比例。

该方法基于深度学习网络对人眼图像进行检测,能够同时得到图像是人眼图像的概率和上下眼睑位置数据,能够提高眼睑位置检测的准确度和效率,并且基于眼睑高度值序列可以实时统计人眼视频拍摄期间的不完全眨眼比例,为不完全眨眼诊断提供数据支撑。

可选地,在根据本发明的方法中,可以通过摄像头实时采集人眼视频流;然后对人眼视频流进行分帧处理,得到多帧连续的人眼图像。

可选地,在根据本发明的方法中,可以对获取的人眼图像进行预处理,得到包含上眼睑和下眼睑之间的目标区域图像,以便将目标区域图像输入训练好的眼睑检测网络中进行检测,预处理包括图像旋转、裁切、灰度变换、二值化和归一化处理。

可选地,在根据本发明的方法中,眼睑检测网络包括主干网络、特征融合模块和概率预测模块和位置预测模块,其中,主干网络包括输入层以及多个交替级联的卷积层、归一化层、激活层,特征融合模块包括级联的第一全连接层、第一归一化层、第一激活层,概率预测模块与位置预测模块并联到特征融合模块的输出端,概率预测模块包括第二全连接层、softmax层和第一输出层,适于预测输入图像是人眼图像的概率。位置预测模块包括第三全连接层和第二输出层,适于预测上眼睑的中心位置坐标和下眼睑的中心位置坐标。

可选地,在根据本发明的方法中,如果眼睑检测网络输出的人眼概率值大于预定阈值,根据人眼图像中上眼睑中心坐标的纵坐标与下眼睑中心坐标的纵坐标之间的差值,确定眼睑高度值,得到上下眼睑高度序列。

可选地,在根据本发明的方法中,可以将上下眼睑高度序列中的高度值除以高度序列中的最大高度值,得到眨眼程度序列;然后,基于眨眼程度序列,确定眨眼周期。当一个眨眼周期内最小眨眼程度小于第一阈值时,判断为完全眨眼;当一个眨眼周期内最小眨眼程度大于第一阈值且小于第二阈值时,判断为不完全眨眼;当一个眨眼周期内最小眨眼程度大于第二阈值时,判断为非眨眼;最后,统计人眼视频拍摄期间不完全眨眼次数和总眨眼次数,得到不完全眨眼比例,其中,人眼视频拍摄期间包括多个眨眼周期,总眨眼次数等于完全眨眼次数和不完全眨眼次数之和。

可选地,在根据本发明的方法中,将眨眼程度序列中眨眼程度从大变小再变大的过程,确定为一个眨眼周期。

根据本发明的另一个方面,提供一种基于深度学习的眨眼数据统计装置,该装置包括获取模块、检测模块、计算模块和统计模块,其中获取模块可以获取多帧人眼视频流图像;检测模块可以将获取模块获取的每帧人眼图像输入训练好的眼睑检测网络中进行检测,得到人眼图像概率数据和上下眼睑中心位置数据;计算模块可以基于检测模块输出的人眼图像概率数据和上下眼睑中心位置数据,计算上下眼睑高度值,得到上下眼睑高度序列;统计模块可以基于计算模块得到的上下眼睑高度序列,统计人眼视频拍摄期间的不完全眨眼比例。

提供一种根据本发明的又一个方面,提供一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行上述方法的指令。

根据本发明的又一个方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行上述的方法。

根据本发明的方案,通过深度学习神经网络对人眼图像概率和上下眼睑位置进行检测,能够提高眼睑位置检测的准确度和效率,并能够基于眼睑高度值序列进行不完全眨眼统计,为不完全眨眼诊断提供数据支撑。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的计算设备100的结构图;

图2示出了根据本发明一个实施例的基于深度学习的眨眼数据统计方法200的流程示意图;

图3示出了根据本发明一个实施例的眼睑检测网络300的结构示意图;

图4示出了根据本发明一个实施例的眼睑高度值计算示意图;

图5示出了根据本发明的一个实施例的基于深度学习的眨眼数据统计装置500的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

常见的眨眼检测方法一般采用图像处理技术进行图像增强、边缘提取,确定上下眼睑的位置和高度差,这种方法容易受其他眼睛组织干扰、受拍摄角度、光源等因素影响,从而导致检测精度低。现有的眨眼数据统计方法,根据睑裂高度确定开合状态,降低眨眼数据统计的难度,这种方法只能确定眼睛的开合状态,并不能实时统计出不完全眨眼的比例。因此,本方案基于深度学习的方法对人眼视频流数据实时检测眼睑位置,并基于眼睑位置实时统计人眼视频拍摄期间的不完全眨眼比例,对于干眼诊断具有很大的参考意义。

图1示出了根据本发明一个实施例的计算设备100的结构图。如图1所示,在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置,处理器104可以是任何类型的处理器,包括但不限于:微处理器(µP)、微控制器(µC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。计算设备中的物理内存通常指的是易失性存储器RAM,磁盘中的数据需要加载至物理内存中才能够被处理器104读取。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。操作系统120例如可以是Linux、Windows等,其包括用于处理基本系统服务以及执行依赖于硬件的任务的程序指令。应用122包括用于实现各种用户期望的功能的程序指令,应用122例如可以是浏览器、即时通讯软件、软件开发工具(例如集成开发环境IDE、编译器等)等,但不限于此。当应用122被安装到计算设备100中时,可以向操作系统120添加驱动模块。

在计算设备100启动运行时,处理器104会从存储器106中读取操作系统120的程序指令并执行。应用122运行在操作系统120之上,利用操作系统120以及底层硬件提供的接口来实现各种用户期望的功能。当用户启动应用122时,应用122会加载至存储器106中,处理器104从存储器106中读取并执行应用122的程序指令。

计算设备100还包括储存设备132,储存设备132包括可移除储存器136和不可移除储存器138,可移除储存器136和不可移除储存器138均与储存接口总线134连接。

计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在根据本发明的计算设备100中,应用122包括用于执行本发明的基于深度学习的眨眼数据统计方法200的指令。

图2示出了根据本发明一个实施例的基于深度学习的眨眼数据统计方法200的流程示意图。如图2所示,该方法200始于步骤S210,获取多帧人眼视频流图像。在本发明的一个实施例中,可以通过摄像头实时采集包含多个眨眼周期的人眼视频流,该视频流中包含多帧图像,可以通过对获取的视频流进行分帧处理得到多帧在时间上连续的人眼图像。为了提高深度学习神经网络对输入图像的检测效率和准确度,可以对获取的人眼图像进行图像旋转、裁切、灰度处理、二值化处理、归一化等预处理,得到包含上眼睑和下眼睑之间的目标区域图像,作为后续眼睑检测网络的输入图像。实时获取的人眼图像中可能包含目标区域,也可能由于图像采集过程中眼部位置变动导致不包含目标区域,需要进一步检测。

随后执行步骤S220,将每帧人眼图像输入训练好的眼睑检测网络进行检测,得到人眼图像概率数据和上下眼睑中心位置数据。

在本发明的实施例中,可以预先构建眼睑检测网络的网络结构,并权值等参数进行随机初始化,然后使用标注后的人眼图像作为训练图像输入眼睑检测网络中进行训练,基于反向传播算法使定义的损失函数最小化,使网络的参数不断优化,得到训练好的眼睑检测网络。

图3示出了根据本发明一个实施例的眼睑检测网络300的结构示意图。该眼睑检测网络300包括主干网络310、特征融合模块320和概率预测模块330和位置预测模块340。如图3所示,主干网络310可以包括输入层和多个交替级联的卷积层、batchnorm归一化层、Relu激活层,其中,输入层可以对输入的图像进行预处理,例如对图片进行标准化处理、数据增强、随机裁减等处理,卷积层用于提取输入图像的特征,提取边缘、线条和角等层级,卷积层数越多,提取到的图像特征会越来越抽象。BN(batchnorm)归一化层的作用是使得神经网络的损失函数空间更加平滑,梯度下降不容易陷入局部极值,减小对权重初始化的依赖;也使得参数更新时梯度的取值范围更小,梯度更新更具可预测性,不容易出现梯度爆炸和梯度消失,这使得网络可以随机初始化,并使用更大的学习率。Relu激活层的作用是增加神经网络各层之间的非线性关系。主干网络中可以适当增加级联的卷积层、归一化层、激活层的数量,以提高图像特征提取的准确度。

特征融合模块320可以包括级联的第一全连接层、第一归一化层、第一激活层,特征融合的目的是把从图像中提取的特征,合并成一个比输入特征更具有判别能力的特征,是提高网络性能的重要手段。其中,全连接层可以把主干网络提取到的特征综合起来,合并成一个比输入特征更具判别能力的特征。

概率预测模块330与位置预测模块340并联在特征融合模块320的输出端,概率预测模块330可以包括第二全连接层、softmax层和第一输出层,用于预测输入图像是人眼图像的概率,softmax层能够将全连接层输出的数据转换为概率表达式后的输出值,经第二输出层得到图像是人眼图像的概率。位置预测模块340可以包括第三全连接层和第二输出层,用于预测上眼睑和下眼睑的中心位置坐标。

随后执行步骤S230,基于人眼图像概率数据和上下眼睑中心位置数据,计算上下眼睑高度值,得到上下眼睑高度序列。

根据本发明的实施例,如果眼睑检测网络输出的人眼概率值大于预定阈值,例如图像是人眼图像的概率大于0.5,则根据人眼图像中上眼睑中心坐标的纵坐标与下眼睑中心坐标的纵坐标之间的差值,得到眼睑高度值。如果眼睑检测网络输出的人眼概率值大于预定阈值,例如图像是人眼图像的概率小于0.5,则将该图像剔除不进行眼睑高度值计算.

图4示出了根据本发明一个实施例的眼睑高度值计算示意图,如图4所示,眼睑高度值H等于上眼睑中心坐标的纵坐标y0与下眼睑中心坐标的纵坐标y1之间的差值,对每一帧过滤后的人眼图像计算眼睑高度值,最终得到人眼图像对应的眼睑高度值序列。

最后执行步骤S240,基于上下眼睑高度序列,统计人眼视频拍摄期间的不完全眨眼比例。

根据本发明的实施例,可以首先,将上下眼睑高度序列中的高度值除以高度序列中的最大高度值,得到眨眼程度序列;然后,基于眨眼程度序列,确定眨眼周期,即可以将眨眼程度从大变小再变大的过程,确定为一个眨眼周期。当一个眨眼周期内最小眨眼程度小于第一阈值时,判断为完全眨眼;当一个眨眼周期内最小眨眼程度大于第一阈值且小于第二阈值时,判断为不完全眨眼;当一个眨眼周期内最小眨眼程度大于第二阈值时,判断为非眨眼。例如,当一个眨眼周期内的最小眨眼程度小于25%判断为完全眨眼,当最小眨眼程度在25%至70%之间判断为是不完全眨眼,当最小眨眼程度大于70%的判断为非眨眼。最后,统计人眼视频拍摄期间不完全眨眼次数和总眨眼次数,得到不完全眨眼比例,其中,人眼视频拍摄期间包括多个眨眼周期,总眨眼次数等于完全眨眼次数和不完全眨眼次数之和。

图5示出了根据本发明的一个实施例的基于深度学习的眨眼数据统计装置500的结构示意图。如图5所示,该装置500包括获取模块510、检测模块520、计算模块530和统计模块540。其中,获取模块510可以获取多帧人眼视频流图像。检测模块520可以将获取模块510获取的每帧人眼图像输入训练好的眼睑检测网络中进行检测,得到人眼图像概率数据和上下眼睑中心位置数据。计算模块530可以基于检测模块520输出的人眼图像概率数据和上下眼睑中心位置数据,计算上下眼睑高度值,得到上下眼睑高度序列。统计模块540可以基于计算模块530得到的上下眼睑高度序列,统计人眼视频拍摄期间的不完全眨眼比例。

通过上述方案,通过深度学习神经网络对人眼图像概率和上下眼睑位置进行检测,能够提高眼睑位置检测的准确度和效率,并能够基于眼睑高度值序列进行不完全眨眼统计,为不完全眨眼诊断提供数据支撑。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。

相关技术
  • 一种基于深度学习的眨眼数据统计方法和装置
  • 基于深度学习的眨眼波形图生成方法、装置及设备
技术分类

06120114725902