掌桥专利:专业的专利平台
掌桥专利
首页

基于眼部识别的交互方法、装置、电子设备以及存储介质

文献发布时间:2023-06-19 19:18:24


基于眼部识别的交互方法、装置、电子设备以及存储介质

技术领域

本发明涉及设备控制领域,尤其涉及一种基于眼部识别的交互方法、装置、电子设备以及存储介质。

背景技术

随着越来越多的显示类电子产品,特别是大屏幕电视、VR眼镜、头戴式显示设备的出现,其人机交互界面的有效实现是一个重要的研究方向。目前常用的用户与显示类电子设备之间的交互方式依旧为利用额外的硬件设备(包括但不限于遥控器、操作按钮或用户持有的智能手机等)进行,或者利用显示类产品内置的语音助手,通过用户发出语音指令进行交互控制,上述常规的交互控制方式对于用户来说操作起来较为繁琐,需要额外的设备或较长的交互时间进行。

发明内容

根据本公开的一方面,提供了一种基于眼部识别的交互方法,包括:采集用户视觉焦点的移动轨迹;基于所述移动轨迹的起点位置和终点位置确定待执行的预定操作;在接收到所述用户的确认操作的情况下,执行所述预定操作。

在一些实施例中,用户的可视区域包括多个视觉区域,所述基于所述移动轨迹的起点位置和终点位置确定待执行的预定操作,包括:在所述起点位置和所述终点位置位于同一个视觉区域中的情况下,所述预定操作为延所述起点位置指向所述终点位置的方向移动显示内容;在所述起点位置和所述终点位置位于不同视觉区域中的情况下,所述预定操作为将所述终点位置所在的第二视觉区域内的显示内容移动至所述起点位置所在的第一视觉区域中。

在一些实施例中,所述确认操作至少包括:所述视觉焦点在任意一个位置的聚焦时长超过第一阈值;和/或,所述用户连续进行眨眼动作的次数超过第二阈值。

在一些实施例中,在采集用户视觉焦点的移动轨迹之前,还包括:在所述用户的可视区域内依次突出显示各个校准点;检测用户对各个所述校准点的聚焦时长是否均超过第三阈值;在所述用户对各个所述校准点的聚焦时长均超过所述第三阈值的情况下,确定所述校准点的校准成功,否则,确定所述校准点的校准失败。

根据本公开的另一方面,提供了一种基于眼部识别的交互装置,包括:采集模块,用于采集用户视觉焦点的移动轨迹;确定模块,用于基于所述移动轨迹的起点位置和终点位置确定待执行的预定操作;交互模块,用于在接收到所述用户的确认操作的情况下,执行所述预定操作。

在一些实施例中,用户的可视区域包括多个视觉区域,所述确定模块具体用于:在所述起点位置和所述终点位置位于同一个视觉区域中的情况下,所述预定操作为延所述起点位置指向所述终点位置的方向移动显示内容;在所述起点位置和所述终点位置位于不同视觉区域中的情况下,所述预定操作为将所述终点位置所在的第二视觉区域内的显示内容移动至所述起点位置所在的第一视觉区域中。

在一些实施例中,所述确认操作至少包括:所述视觉焦点在任意一个位置的聚焦时长超过第一阈值;和/或,所述用户连续进行眨眼动作的次数超过第二阈值。

在一些实施例中,还包括:校准模块,用于在所述用户的可视区域内依次突出显示各个校准点;检测用户对各个所述校准点的聚焦时长是否均超过第三阈值;在所述用户对各个所述校准点的聚焦时长均超过所述第三阈值的情况下,确定所述校准点的校准成功,否则,确定所述校准点的校准失败。

根据本公开的另一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行上述的方法。

根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的方法。

本申请实施例中提供的一个或多个技术方案,充分利用目前摄像设备对人眼动作的状态捕捉能力,通过识别用户视觉焦点的移动轨迹来确定用户希望进行的操作,并在检测到确认动作之后进行相应操作的执行,使用户对设备显示画面的控制脱离额外设备,并且可以快速高效地进行。

附图说明

在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:

图1示出了根据本公开示例性实施例的基于眼部识别的交互方法的流程图;

图2示出了根据本公开示例性实施例的视觉区域划分示意图;

图3示出了根据本公开示例性实施例的移动轨迹示意图;

图4示出了根据本公开示例性实施例的全屏扩展示意图;

图5示出了根据本公开示例性实施例的全屏截面退出示意图;

图6示出了根据本公开示例性实施例的校准点设置示意图;

图7示出了根据本公开示例性实施例的校准流程示意图;

图8示出了根据本公开示例性实施例的基于眼部识别的交互装置的结构示意图;

图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。

应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。

本公开示例性实施例提供了一种基于眼部识别的交互方法,主要用于对带有摄像头的显示设备进行交互控制,这里所说的交互控制包括但不限于以下操作:显示画面的切换、缩放、音量调节、画面参数设置、通知查看、确认及返回操作等,用户在观看显示设备所呈现的显示内容时,显示设备通过其连接的摄像设备进行用户的眼动追踪实现方便快速的交互控制,其流程图如图1所示,主要包括步骤S10至S30:

S10,采集用户视觉焦点的移动轨迹。

视觉焦点指的是通过用户眼球运动方向的数据采集,计算出用户视线在显示设备所呈现的交互界面上的聚焦点,移动轨迹即为用户视觉焦点的焦点位置所变化的路径,即当用户坐在电视前方时可以通过安装在电视边框的摄像头进行用户视觉焦点运动轨迹的采集,使显示设备根据用户视觉焦点的移动轨迹进行用户希望实现的交互控制的判定。

S20,基于移动轨迹的起点位置和终点位置确定待执行的预定操作。

对于用户每个移动轨迹均具有一个起点位置和终点位置,通常情况下用户在起点位置和终点位置的聚焦时间较长,例如均超过100ms,并且用户的视觉焦点会在起点位置和终点位置之间形成明显的移动轨迹,基于起点位置和终点位置之间的不同位置关系可以对应有不同的预定操作,显示设备在采集到移动轨迹后即可根据起点位置和终点位置确定出用户此次的视觉焦点移动所希望执行的预定操作。

需要注意的是,在用户的可视区域内可以包括多个视觉区域,该可视区域可以是电视、投影等设备的全部显示区域,或者是VR或AR设备位于用户眼前一定范围内的显示区域,视觉区域的具体划分可以根据显示设备实际能实现的功能以及用户的个性化需求设置。图2示出了一种视觉区域的划分示意图,其主要包括位于可视区域中心的中心区A、用以展示当前主要可视内容的主视区B、围绕主视区四周可以与主视区内容进行平级切换的辅视区C、位于辅视区外周用以展示辅助性功能展示的边际区D以及位于可视区域四角用以进行常用功能触发的触发角E,上述区域还可以进一步划分为多个子区域(例如B1至B4、C1至C4、D1至D4以及E1至E4等),并通过不同子区域显示不同内容或者对应实现不同功能。上述图2所示的视觉区域划分以及不同区域内具体的显示内容设置和功能设置可以根据用户需求进行个性化调整,本实施例不进行限制。

在显示设备获取移动轨迹并确定其对应的起点位置和终点位置之后,可以结合起点位置和终点位置所在的具体视觉区域,进行不同预定操作的执行。例如,在起点位置和终点位置位于同一个视觉区域中时,表示用户可能希望针对该视觉区域中的可视内容进行显示效果上的调整,但并不涉及可视内容的切换,此时可将延起点位置指向终点位置的方向移动显示内容作为待执行的预定操作,例如对显示内容进行水平方向从左向右、垂直方向从上至下或者进行斜上/斜下方的移动操作,或根据移动轨迹的长短对显示内容进行相应程度的放大缩小等,或者也可以是在当前视觉区域内展示电子书等内容时进行前后的翻页操作,甚至是播放视频内容时的快进或快退操作等。

在起点位置和终点位置位于不同视觉区域中时,待执行的预定操作主要指不同视觉区域之间可视内容的切换,即将终点位置所在的第二视觉区域内的显示内容移动至起点位置所在的第一视觉区域中进行显示。结合图3,假设起点位置位于B1区,终点位置位于C2区,此时视觉焦点为从下向上移动,此时移动轨迹如图3中箭头方向所示,则对应的待执行的预定操作为将C2区当前显示的内容切换至B1区进行显示,而B1区原有的显示内容则移动至C2区进行呈现,即实现区域之间显示内容的平级切换。

应当了解的是,一般区域之间的显示内容替换主要指主视区和辅视区之间的显示内容切换,即进行坐标系内水平方向和垂直方向的替换,边际区内一般呈现的内容为不需要用户过多关注的通知信息,主要基于同一个边际区内的轨迹移动实现通知信息具体内容的切换展示,触发角则一般为用户主动触发的设置或返回操作,可通过一定时间的注视操作触发,不同位置的触发角可以对应不同的功能。另外,上述区域主要进行平面化的显示内容呈现和处理,而中心区则主要用于进行坐标系内纵深方向上的显示内容切换,其可以以堆栈方式进行显示内容的压入和弹出,例如在主视区包括B1至B4共四个子区域时,用户可以通过度某个子区域进行长时间的注视操作,在确认后将该子区域的显示内容放大并占据整个主视区,并将主视区原有的显示内容缩小压入栈中,在用户持续主视中心区时,则可将堆栈中最上层的显示内容在主视区进行呈现,将主视区原来的显示内容压入栈中即可。当然,上述关于中心区的实际操作仅为示例,具体可根据视觉区域的划分和功能需求进行设置。

在实际实现时,若主视区并未进行子区域的划分,则可在视觉焦点持续停留在主视区时,将其对应的显示内容扩展至全屏进行呈现,如图4所示;在全屏界面下,用户可以通过将视觉焦点持续停留在右下角的E区,则可出现退出全屏的提示,并在获得确认后退出全屏模式,如图5所示。

S30,在接收到用户的确认操作的情况下,执行预定操作。

对于用户来说,进行视觉焦点的移动可能是在无意识的情况下进行的,因此在不经过确认的情况下直接进行预定操作的执行很可能会影响用户的观看体验。本实施例对用户的确认操作进行进一步的接收采集,在明确接收到用户发出的确认操作的情况下,再执行预定操作,以完成交互控制。

具体地,本实施例中的确认操作可以为用户的视觉焦点在任意一个位置的聚焦时长超过第一阈值,实际执行中,该任意一个位置优选为终点位置或位于终点位置周边一定范围内的任意位置,第一阈值可以设置在500至1000毫秒之间;确认操作还可以为用户所进行的连续的眨眼动作,在其连续眨眼次数超过第二阈值时认定为确认操作,第二阈值可以设置为2或3,一般不需要进行过大的第二阈值的设置或将其设置为1,防止用户眨眼次数过多或单纯的眨眼形成误操作。需要关注的是,上述确认操作可以同时使用,针对不同预定操作也可使用不同的确认操作,或者根据用户喜好个性化设置其他确认操作,本实施例在此不进行限制。

在显示设备首次启动或用户首次开启眼动追踪功能时,显示设备可以通过校准点进行识别校准,以提升操作的准确性。具体地,校准点的选取和视觉区域的划分相关,尽可能保证在校准精度的情况下减少校准点的数量,防止因校准点过多导致校准过程较长,影响用户使用体验,也尽量避免校准点数量过少影响后续的操作精度。图6为图2所示视觉区域的校准点设置示意图,图7为校准的流程示意图,上述多个校准点在校准过程中可以按照一定顺序依次进行突出显示(例如高亮显示或闪烁显示等),然后检测用户对各个校准点的聚焦时长是否超过第三阈值,例如可以将第三阈值设置为500ms,在确定用户对所有校准点的聚焦时长均超过第三阈值的情况下,确定本次校准点校准成功,否则,即便存在一个校准点的聚焦时间没有到达第三阈值,也会被认定为校准失败。在校准点校准失败时,可以提示用户重新进行校准操作,并告知用户校准重要性以指示用户进行有效的校准流程。

本实施例充分利用目前摄像设备对人眼动作的状态捕捉能力,通过识别用户视觉焦点的移动轨迹来确定用户希望进行的操作,并在检测到确认动作之后进行相应操作的执行,使用户对设备显示画面的控制脱离额外设备,并且可以快速高效地进行。

本公开实施例还提供了一种基于眼部识别的交互装置,该装置可以安装于任意一种具有摄像设备的显示设备中,其结构示意图如图8所示,主要包括采集模块10、确定模块20以及交互模块30,其中,采集模块10用于集用户视觉焦点的移动轨迹;确定模块20用于基于移动轨迹的起点位置和终点位置确定待执行的预定操作;交互模块30用于在接收到用户的确认操作的情况下,执行预定操作。

具体地,用户的可视区域包括多个视觉区域,确定模块20可具体用于在起点位置和终点位置位于同一个视觉区域中的情况下,预定操作为延起点位置指向终点位置的方向移动显示内容;在起点位置和终点位置位于不同视觉区域中的情况下,预定操作为将终点位置所在的第二视觉区域内的显示内容移动至起点位置所在的第一视觉区域中。

在实际实现时,确认操作至少包括视觉焦点在任意一个位置的聚焦时长超过第一阈值;和/或,用户连续进行眨眼动作的次数超过第二阈值。

在一些实施例中,交互装置还可以包括校准模块(图中未示出),其主要用于在用户的可视区域内依次突出显示各个校准点;检测用户对各个校准点的聚焦时长是否均超过第三阈值;在用户对各个校准点的聚焦时长均超过第三阈值的情况下,确定校准点的校准成功,否则,确定校准点的校准失败。

本实施例充分利用目前摄像设备对人眼动作的状态捕捉能力,通过识别用户视觉焦点的移动轨迹来确定用户希望进行的操作,并在检测到确认动作之后进行相应操作的执行,使用户对设备显示画面的控制脱离额外设备,并且可以快速高效地进行。

本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图9,现将描述可以作为本公开的服务器或客户端的电子设备300的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示,电子设备300包括计算单元301,其可以根据存储在只读存储器(ROM)302中的计算机程序或者从存储单元308加载到随机访问存储器(RAM)303中的计算机程序,来执行各种适当的动作和处理。在RAM 303中,还可存储设备300操作所需的各种程序和数据。计算单元301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

电子设备300中的多个部件连接至I/O接口305,包括:输入单元306、输出单元307、存储单元308以及通信单元309。输入单元306可以是能向电子设备300输入信息的任何类型的设备,输入单元306可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元307可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元308可以包括但不限于磁盘、光盘。通信单元309允许电子设备300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元301执行上文所描述的各个方法和处理。例如,在一些实施例中,前述方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元308。在一些实施例中,计算机程序的部分或者全部可以经由ROM 302和/或通信单元309而被载入和/或安装到电子设备300上。在一些实施例中,计算单元301可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行前述方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

技术分类

06120115864097