掌桥专利:专业的专利平台
掌桥专利
首页

电子视觉辅助设备中自主增强的免手动控制

文献发布时间:2023-06-19 11:26:00


电子视觉辅助设备中自主增强的免手动控制

本专利申请要求于2018年9月24日提交的标题为“Novel Enhanced AutonomousHands-free Control in Electronic Visual Aids”的美国临时专利申请No.62/735,643的优先权,其全部内容通过引用合并于此。

本发明涉及于2017年11月17日提交的PCT专利PCT/US2017/062421、于2017年11月17日提交的美国专利申请No.15/817,117、于2018年3月12日提交的美国专利申请No.15/918,884、于2018年7月9日提交的美国专利申请No.16/030,788、于2018年10月31日提交的美国专利申请No.16,177,333、于2019年3月6日提交的美国专利申请No.16/294,601以及于2019年5月29日提交的PCT专利PCT/US2019/034443,上述专利的全部内容通过引用合并于此。

本说明书中提及的所有出版物和专利申请的全部内容都以相同的程度通过引用并入本文,其程度如同每个单独的出版物或专利申请被特别地和单独地被指出通过引用并入本文。

技术领域

视觉辅助设备已经使用了数百年,过去通常是基于光学的解决方案,例如眼镜。可编程头戴式电子视觉辅助设备的概念化和早期实验始于20世纪80年代末美国国家航空航天局所资助的研究。所描述的基本功能包括重新映射像素,以便操控所呈现给佩戴者眼睛的图像。与此同时,个人计算机和移动技术正在成为主流,并广泛应用于各种其他工作中,包括低视力应用。

目前电子视觉辅助设备的硬件实现包括许多形式,如电子阅读器,具有低视力辅助功能的计算机插件,移动设备如蜂窝智能手机、专用电子放大镜、虚拟现实(VR)耳机和增强现实(AR)眼镜。这些平台旨在设计并用于多种应用,如游戏、远程显示以及各种企业应用。

发明内容

本发明所描述的示例通常涉及用于各种电子视觉辅助设备的改进的硬件以及集成的软件和算法,通常包括个人计算机和移动技术,电子阅读器,以及可佩戴的电子增强现实(AR)和虚拟现实(VR)眼镜,其对患有各种视觉障碍(例如,与年龄相关的黄斑变性AMD以及其他视野缺陷)的低视力用户具有额外的特定的好处。本发明所描述的电子视觉辅助设备解决了以前通过蛮力方法所解决的问题,这种蛮力方法最终降低了现有视觉辅助设备的可用性和多功能性。本发明描述的更新的方法在不牺牲标准设计的主要优势的情况下,进一步增强了低视力用户的体验。这包括了考虑使用习惯和环境模式的自主控制功能。在某些应用中,正常视力的用户也将从这些变化中受益。

本发明所描述的实施例涉及可佩戴的、手持的或安装的个人电子视觉辅助设备的控制的自动设置和调节,其可通过提升用户感知和解释其周围环境的能力来帮助患有各种视力障碍(例如,与年龄相关的黄斑变性AMD以及其他视野缺陷)的用户。它还可以帮助视力正常的用户定位和观察难以看到的物体。这种设备结合了一个或多个相机(即,图像传感器和光学辅助器件)以捕获连续的环境图像流,一些形式的低延迟处理以适合用户需求的方式组合、调节、扩大或增强图像,以及一个或多个显示器以显示修改后的图像以便于实时观看。

有效的视觉辅助设备必须执行复杂的图像处理操作,不仅要考虑用户的视觉能力或疾病状态(如果有的话),还要考虑用户的个人偏好、当前环境和所需关注的焦点。尽管疾病状态以及偏好的细节可作为存储的设备设置被有效地获取,但是对初始用户相关的技术配置参数进行手动优化是一个费力的过程,其通常超出了未经训练人员的能力;对于视力受损或有技术恐惧症的人来说,没有帮助是完全行不通的。类似地,及时为响应短暂情况而操纵的具体控制同样具有挑战性,尤其是对于手部灵活性降低的老年用户来说。即使是身体健康的用户也更倾向于避免因摸索控件进行调节而分心,以致于无法专注于观看任务。

解决这些问题的一种方法是将一定程度的自主权整合进视觉辅助设备,允许视觉辅助设备推断用户的即时需求或意图,并代表他或她采取先行行动。在理想情况下,决策应基于通过对分析图像内容、辅助传感器数据以及类似情况下用户的历史行为进行分析而对情况所作的评估。

本发明提供了具有可靠的自主权和免手动操作的视觉辅助系统和方法。本发明所述的系统和方法被构造为识别输入图像中包含较小基本结构的有组织的或分等级的模式的区域(例如,包含单个字母或直方图的字,线或段,字形形状的行或象形图的列),并调节观看设备(或促进这种调节),使得有意义的内容更容易被辨别或识别。本发明描述的系统和方法不仅对所提供的放大程度实施控制,而且还操控视野的大小和性质。它还能通过主动将注意力吸引至自主选择的特征来影响注意力的焦点。这些过程由关于佩戴者目标和意图的其他非视频信息所指导,所述信息是根据头部和/或眼睛运动的测量结果推断出的。而后,对视图的调节可以限制在更改会帮助而非分散注意力或迷失方向的时间点上。

本发明给出的系统和方法适用于在具有有限的电池容量和严格受限的计算资源的独立便携式设备上进行的连续实时操作。虽然最经济的实现方式是严格地用户独立的,但所述设计通过结合机器学习技术,能轻松扩展到更强大的平台,以实现针对特定用户的更复杂的识别或更高质量的决策。

本发明还提出了自动增强或调节图像显示对比度的补充系统和方法。当这种技术被单独实施时,该技术对于经济的实时实现具有低复杂性的相同优点,并且当被联接至对放大和/或视野特征进行控制的自主系统时,其进一步受益于共享组件。

本发明提供了一种电子视觉辅助设备,所述设备包括:框架,所述框架被构造为手持的、固定的或被穿戴在用户的头上;至少一个显示器,所述显示器被设置在框架上或框架内并被构造为显示视频图像;处理器,所述处理器被设置在框架上或框架内并被配置为处理视频以产生在至少一个显示器上显示的增强视频流。在一些实施例中,所述电子视觉辅助设备可包括设置在框架上或框架中并被配置成生成未处理的实时视频图像的相机。在所述示例中,所述至少一个显示器可被构造成显示实时视频图像,并且所述处理器可被配置成由实时视频图像产生增强的视频流。

在一个示例中,所述设备还包括输入设备,所述输入设备被构造为从用户处接收关于所要应用于未处理的实时视频图像的增强的类型和/或数量的输入。在一些示例中,所述输入设备包括物理机制。在其他示例中,所述输入设备包括设置在外壳上或外壳中并被构造为从用户处接收语音指令的麦克风。

在一些示例中,所述设备包括一个或多个惯性测量单元,以捕捉设备和用户的运动。这些传感器被进一步用于感测和收集运动,以建立、发展和完善使用模式,从而改善自主控制。

本发明还提供了一种为低视力用户提供增强的视觉的方法,所述方法包括:用相机生成和/或接收未处理的实时视频图像,处理未处理的实时视频图像以产生增强的视频流,以及在显示器上显示增强的视频流以进入用户的第一只眼睛。

在其他示例中,所述方法还包括处理未处理的实时视频图像,使得与未处理的实时视频图像相比,所述视频流被增强。在一个示例中,当与未处理的实时视频图像相比时,增强的视频流被至少部分地放大。在另一个示例中,增强的视频流在视频流的中心部分处被放大。在一个示例中,中心部分之外的视频流的一部分被放大至小于中心部分,但大于未处理的实时视频图像的程度。

本发明提供了一种为视觉辅助设备的视频输出提供自主增强的方法,所述方法包括利用所述视觉辅助设备获得场景的实时图像,评估视觉辅助设备的运动分量,基于所述运动分量确定视觉辅助设备的运动状态,如果所述运动状态表明视觉辅助设备的用户处于活跃的运动状态,则在视觉辅助设备的显示器上呈现第一视频图像,而无需对实时图像应用额外的增强或调节;如果所述运动状态表明视觉辅助设备的用户处于注意力集中状态,则识别出对应于视觉辅助设备用户的关注焦点的实时图像的子集,从实时图像的子集定位兴趣结构,至少对兴趣结构应用视觉增强,并且在视觉辅助设备的显示器上呈现包括视觉增强的兴趣结构的第二视频图像。

在一些实施例中,所述运动分量包括视觉辅助设备的角速度。在另一个示例中,所述运动分量包括视觉辅助设备的偏航轴上的角速度和俯仰轴上的角速度。另外,所述运动分量可以包括视觉辅助设备的平移运动。

在一个实施例中,活跃的运动状态表明视觉辅助设备的用户正在进行活跃的运动,因此没有有意集中精力或试图专注于其视野内的某物。

在另一个实施例中,注意力集中状态表明视觉辅助设备的用户有意地集中注意力在其视野内的某物上。

在一些实施例中,高角速度表示用户关注焦点的突然变化。在其他实施例中,视觉辅助设备的低角速度用于确定运动状态中包括注意力集中状态。在一些实施例中,视觉辅助设备的中等角速度用于确定运动状态中包括注意力集中状态。此外,与阅读、扫描或搜索行为相关联的角速度被用于确定运动状态中包括注意力集中状态。

在一些示例中,所述第一视频图像包括具有最少处理和/或放大率的标称的(nominal)、未增强的视图。

在一个实施例中,所述兴趣结构包括类似文本的结构。另外,兴趣结构可以包括面部特征。在进一步的实施例中,感兴趣的结构选自由字母、数字、象形图、字形和图标组成的组。

在一些示例中,视觉增强包括调节至少兴趣结构的放大率。在其他示例中,视觉增强包括调节至少兴趣结构的对比度分量。

在一个实施例中,确定所述视觉辅助设备的运动状态包括评估与实时图像的最近几帧相关联的运动分量以对视觉辅助设备用户的短期运动进行分类,以及评估实时图像的多于最近几帧的运动分量以识别视觉辅助设备用户的特定动作状态。

在一些实施例中,所述方法还包括应用机器学习算法来识别特定动作状态。

本发明还提供了一种为低视力用户提供增强视觉的方法,所述方法包括以下步骤:利用视觉辅助设备接收实时视频图像,利用视觉辅助设备识别对应于低视力用户的关注焦点的每个实时视频图像的子集,利用视觉辅助设备提取每个实时视频图像的子集内的兴趣结构,利用视觉辅助设备识别以行或列排列的至少一组兴趣结构,利用视觉辅助设备确定至少一组兴趣结构的尺寸,利用视觉辅助设备调节至少一组兴趣结构的放大率以匹配优选的结构尺寸,利用视觉辅助设备形成包括实时图像和具有调节的放大率的至少一组兴趣结构的增强的视频流,并且在视觉辅助设备的显示器上显示增强的视频流。

在一些实施例中,所述子集包括每个实时视频图像内的固定像素区域。在另一个实施例中,像素的固定区域位于每个实时视频图像的中心部分。

在一个实施例中,所述兴趣结构包括类似文本的结构。另外,所述兴趣结构可以包括面部特征。在其他的实施例中,兴趣结构选自由字母、数字、象形图、字形和图标组成的组。

在一个实施例中,所述视觉辅助设备基于视觉辅助设备用户的行为趋势自动识别每个实时视频图像的子集。在一些示例中,用户的行为趋势包括输入控制序列的用户历史以及这些输入控制序列的时序。在一些实施例中,视觉辅助设备基于先前处理的视频图像的内容自动识别每个实时视频图像的子集。

在一个实施例中,所述方法进一步包括用视觉辅助设备跟踪低视力用户的眼神,并且其中视觉辅助设备基于低视力用户的眼神自动识别每个实时视频图像的子集。

在一些示例中,所述方法还包括预处理实时视频图像的子集,以降低噪声或适应其他不需要的干扰模式。在一个示例中,预处理包括增强实时视频图像子集的对比度分量。在另一个示例中,预处理包括增加实时视频图像子集的清晰度分量。在又一示例中,预处理包括增加实时视频图像子集的细节分量。

在一些实施例中,所述提取步骤还包括从实时视频图像的子集提取最大稳定极值区域。

在一个实施例中,所述方法还包括用视觉辅助设备检查所提取的兴趣结构,并丢弃包括在预选边界之外的参数的兴趣结构。在一些实施例中,预选边界可包括长度阈值参数、宽度阈值参数、像素计数阈值参数或纵横比阈值参数。

在一些实施例中,所述方法还包括丢弃与低视力用户的关注焦点的边界相交的兴趣结构。在另一个实施例中,所述方法包括丢弃与低视力用户的关注焦点的顶部或底部边界相交的兴趣结构。

在一个实施例中,识别以行或列组织的至少一组兴趣结构进一步包括为兴趣结构建模垂直中心的概率密度函数,其中概率密度函数包括一个或多个pdf峰值,从概率密度函数的pdf值中识别出最大峰值,并且仅保留统计上可能与最大峰值相关联的兴趣结构。统计上可能与最大峰值相关联的兴趣结构可以包括大小一致的兴趣结构。

在一个实施例中,所述方法可进一步包括利用视觉辅助设备确定至少一组兴趣结构被排列成行或列的统计置信度。

在一些示例中,调节至少一组兴趣结构的放大率进一步包括当统计置信度高于置信度阈值时,调节至少一组兴趣结构的放大率以匹配优选的结构尺寸。

在另一个实施例中,接收步骤进一步包括用视觉辅助设备的相机获取实时视频图像,以及用视觉辅助设备从相机接收实时视频图像。

在一些示例中,所述方法还包括当视觉辅助设备获得实时视频图像时感测视觉辅助设备的运动分量,基于感测到的运动分量确定视觉辅助设备的运动状态,并且其中仅当运动状态包括注意力集中状态时,才执行调节放大的步骤、形成增强的视频流的步骤和显示增强的视频流的步骤。

在一个示例中,所述方法还包括用视觉辅助设备的陀螺仪感测相机的运动分量,或者用视觉辅助设备的加速度计感测相机的运动分量。

在另一个实施例中,所述方法还包括在第二显示器上显示增强的视频流。在所述示例中,第一显示器位于用户第一只眼睛的前面,第二显示器位于用户第二只眼睛的前面。

本发明还提供了一种为视觉辅助设备的视频输出提供自主增强的方法,所述方法包括用视觉辅助设备获得场景的实时图像,更新视觉辅助设备的保持的运动模型,如果保持的运动模型表明视觉辅助设备的用户处于注意力集中状态,则识别对应于视觉辅助设备的用户的关注焦点的实时图像的子集,仅分析实时图像的子集,确定是否将自主视觉增强应用于实时图像的子集。

在一个实施例中,如果将自主视觉增强应用于实时图像的子集,则所述方法还包括形成至少应用于实时图像的子集的具有自主视觉增强的增强视频流,并向用户显示所述增强视频流。

在一些示例中,所述自主视觉增强包括至少对实时图像的子集进行放大率调节。在其他实施例中,自主视觉增强包括调节实时图像子集的对比度分量。

在一个实施例中,更新所述运动模型还包括评估与实时图像的最近几帧相关的运动分量,以对视觉辅助设备用户的短期运动进行分类,评估实时图像的多于最近几帧的运动分量,以识别视觉辅助设备用户的特定动作状态。

在一些实施例中,所述运动分量包括视觉辅助设备的角速度,包括视觉辅助设备的偏航轴上的角速度和俯仰轴上的角速度,包括视觉辅助设备的平移运动,或者包括用视觉辅助设备的眼睛跟踪元件测量的眼睛移动量。

在一个实施例中,所述运动模型使用高角速度来表明用户关注焦点的突然变化。在另一个实施例中,运动模型使用视觉辅助设备的低角速度来表明用户处于注意力集中状态。在又一实施例中,运动模型使用视觉辅助设备的中等角速度来表明用户处于注意力集中状态。

在一些实施例中,所述运动模型使用与阅读、扫描或搜索行为相关联的角速度来表明用户处于注意力集中状态。

在一个示例中,更新所述运动模型还包括基于预测的运动来识别所述视觉辅助设备用户的特定动作状态。在另一个实施例中,更新所述运动模型还包括基于相似情况下的历史运动来识别视觉辅助设备用户的特定动作状态。

在一些示例中,所述方法还包括,如果所述运动状态表明所述视觉辅助设备用户正处于活跃的运动状态,则无需对所述实时图像应用额外的分析或处理。

在一个实施例中,注意力集中状态表明所述视觉辅助设备用户有意地将注意力集中在视野内的某物上。

在另一个实施例中,所述方法还包括识别对于将手动视觉增强应用于实时图像进行请求的用户输入,确定手动视觉增强是否覆盖自主视觉增强,以及将适当的手动视觉增强或自主视觉增强应用于实时视频图像。

本发明提供了一种视觉辅助设备,所述设备包括被配置为生成实时视频图像的相机、被配置为测量视觉辅助设备的至少一个运动分量的传感器、显示器以及被配置为基于至少一个运动分量确定所述视觉辅助设备的运动状态的处理器,其中如果所述运动状态表明视觉辅助设备的用户处于活跃的运动状态,则所述处理器进一步被配置为在显示器上呈现第一视频图像,而不对实时图像应用额外的增强或调节,并且其中如果所述运动状态表明所述视觉辅助设备用户处于注意力集中状态,则所述处理器进一步被配置为识别对应于视觉辅助设备的用户的关注焦点的实时图像的子集,所述处理器被配置为从实时图像的子集中定位出兴趣结构,所述处理器被配置成至少对兴趣结构应用视觉增强,并且所述处理器被配置成在显示器上呈现包括视觉增强的兴趣结构的第二视频图像。

在一些实施例中,所述传感器包括至少一个加速度计或至少一个陀螺仪。

在一个实施例中,所述运动分量包括所述视觉辅助设备的角速度、所述视觉辅助设备的偏航轴上的角速度和俯仰轴上的角速度,或者所述视觉辅助设备的平移运动。

在一些实施例中,所述活跃的运动状态表明视觉辅助设备的用户正在进行活跃的运动,因此没有进行有意的集中或试图聚焦在用户视野内的某物上。

在另一个实施例中,所述注意力集中状态表明视觉辅助设备的用户有意地将注意力集中在视野内的某物上。

在一些实施例中,所述处理器使用所述视觉辅助设备的低角速度来确定运动状态中包括注意力集中状态。在一些实施例中,所述处理器使用所述视觉辅助设备的中等角速度来确定运动状态中包括注意力集中状态。在其他实施例中,所述处理器使用与阅读、扫描或搜索行为相关联的角速度来确定运动状态中包括注意力集中状态。

在一个实施例中,所述第一视频图像包括具有最少处理和/或放大的标称的、未增强的视图。

在一些实施例中,所述兴趣结构包括类似文本的结构或面部特征。在另外的实施例中,所述目标选自由字母、数字、象形图、字形和图标组成的组。

在一些实施例中,所述视觉增强包括至少对于兴趣结构的调节的放大率,或者至少对于兴趣结构的调节的对比度分量。

一种存储有指令的非暂时性计算设备可读介质,所述指令可由处理器执行以使得计算设备利用视觉辅助设备:获取场景的实时图像,评估所述视觉辅助设备的运动分量,基于所述运动分量确定所述视觉辅助设备的运动状态,其中如果所述运动状态表明视觉辅助设备的用户正处于活跃的运动状态,所述指令可由处理器执行以使计算设备在视觉辅助设备的显示器上呈现第一视频图像,而无需对实时图像应用额外的增强或调节,并且其中如果运动状态表明视觉辅助设备的用户正处于注意力集中状态,所述指令可由所述处理器执行,以使得所述计算设备识别对应于所述视觉辅助设备用户的关注焦点的实时图像的子集,从所述实时图像的子集定位出兴趣结构,至少对所述兴趣结构应用视觉增强,并且在所述视觉辅助设备的显示器上呈现包括所述视觉增强的兴趣结构的第二视频图像。

本发明的新颖性特征在所附的权利要求书中具体阐述。通过参考以下的详细描述,可以更好地理解本发明的特征和优点,所述详细描述是说明性的,在其中利用了本发明的原理,并结合了附图:

图1A是根据本发明的电子视觉辅助设备的一个示例。

图1B是根据本发明的电子视觉辅助设备的一个示例。

图1C是根据本发明的电子视觉辅助设备的一个示例。

图1D是根据本发明的电子视觉辅助设备的一个示例。

图1E是根据本发明的电子视觉辅助设备的一个示例,所述设备包括一些具体的组件。

图1F是根据本发明的电子视觉辅助设备的一个示例,所述示例示出了特征和具体组件的各种元素的相互关系。

图2是示出了用于电子视觉辅助设备中低视力用户的自主控制系统的主要组件、过程、数据流和交互的高级框图。

图3是示出了在可穿戴式电子视觉辅助设备中执行放大及视野的自主控制的协调块的一种可能实现的高级流程图,其特别地适用于低功率应用。

图4A是仅包含文本的场景的未经处理的相机图像的示例,所述图像为直接从源相机获取并在显示器上显示给用户。

图4B是图4A的相应的放大版本。

图4C是具有不同FOA(关注焦点)的图4A的进一步放大版本。

图5A示出了在亮背景上的暗文本图像中检测到的样本形状。

图5B示出了图5A中所检测到的形状是如何有助于选择具有相对较少的像素却包含足够的信息的简单一维线性区域的,来计算对比度控制信号,以增强对检测到的对象的观察。

图5C示出了图5A中所检测到的形状是如何有助于选择所要分析的简单的二维像素区域的,相对于图5B中较小的线性区域,图5C给出了改进的结果,同时并没有大大增加复杂性。

图5D展示了图5A中所检测到的形状如何帮助选择所要分析的全面的但最小的二维像素区域来计算对比度控制信号。

图6为示出了在可佩戴电子视觉辅助设备中执行对比度自主控制的协调块的一种可能实现方式的高级流程图,所述实现方式特别地适用于低功率的应用。

在此参考附图对各种优选的实施例进行描述,其中仅提供了用于参考的说明性视图,其中:

在附图的几个视图中,相对应的附图标记表示相对应的组件。本领域技术人员将能够理解,附图中的元件是为了简单和清楚而示出的,并且不一定是按比例绘制的。例如,图中一些元件的尺寸可能相对于其他元件被放大,以帮助提高对本发明各种实施例的理解。此外,在商业可行的实施例中有用或必要的常见但众所周知的元件通常没有被示出,以便于减少对本发明的这些不同实施例的观察的阻碍。

具体实施方式

本公开涉及用于向具有低视力(特别是在用户视野中心(FOV)中具有低视力)的人、用户或患者提供增强视力的系统、方法、计算设备可读介质、以及设备。

对于患有视网膜疾病的人来说,适应视力丧失成为一种生活方式。这在许多方面影响了他们的生活,包括丧失阅读能力、失去收入、失去行动能力以及整体生活质量下降。举例来说,这些疾病状态可具有与年龄相关的黄斑变性、色素性视网膜炎、糖尿病性视网膜病、斯塔加特氏病以及视网膜部分损伤导致损害视力的其他疾病的形式。对于常见的视网膜疾病,如黄斑变性(与年龄相关的黄斑变性),并不会丧失所有视力,在这种情况下,由于只有中心视力受到黄斑退化的影响,所以周边视力保持不变。假设周边视觉保持未受损伤,则有可能通过增强和优化周边视觉来利用偏心观看,同时在感知上保持视野范围,否则视野范围会随着放大率的增加而降低。在此所描述的本公开提供了增强视觉的新颖的系统和方法,并且还提供了简单但强大的硬件增强,这些硬件增强与高级软件结合工作,以结合增强图像提供更自然的视野。

本发明所述的电子视觉辅助设备可以由非侵入性的、基于可佩戴电子器件的增强现实眼镜系统(见图1A-1E)构成,所述系统采用多种集成显示技术中的任何一种,包括LCD、OLED或直接视网膜投影。材料可用来替代具有嵌入其中的电子元件的“眼镜”,因而“眼镜”可以被理解为包括例如包含材料、人工晶状体、隐形眼镜和类似功能单元的透镜片和相机。这些显示器被放置在眼睛前方,以便于当用眼睛观察时,易于显示或投影修改的或增强的图像。通常将其实现为每只眼睛的显示器,但是也可仅适用于一个显示器以及双眼都可以观察到的连续的大显示器。

现在参考图1A-1D,可佩戴的电子视觉辅助设备99被内置于眼镜框模型中,所述眼镜框模型包括用于本领域技术人员已知的处理器101,充电和数据端口103,双显示器111,控制按钮106,加速度计陀螺仪磁力计112,蓝牙/无线网络的108,自动对焦相机113,闪光灯125和扬声器/麦克风组合120的可互换的特征部和放置区域。例如,电池107包括图中所示的锂离子电池或者任何用作电池的已知的或开发的其他版本。电源管理电路被包含在电池中或与电池连接或监控电池,以管理功耗,控制电池充电并向可能需要不同功率要求的各种设备提供电源电压。

如图1A-1E所示,任何基本硬件都可以由采用各种集成显示技术(包括LCD、OLED或直接视网膜投影)的非侵入式、基于可佩戴电子器件的增强现实眼镜系统(见图1A-1E)构成。材料也能够代替具有嵌入其中的电子元件的“眼镜”,从而“眼镜”可被理解为包括例如包含材料、人工晶状体、隐形眼镜和类似功能单元的透镜片和相机。

安装在眼镜上或眼镜内的一个或多个相机(静态、视频或两者)113被配置为连续监控眼镜所指向的图像,并连续捕获在可佩戴电子视觉辅助设备中交互地存储、操纵和使用的图像。此外,这些相机中的一个或多个可以是IR(红外)相机,用于在各种光线条件下进行观察和监控。电子视觉辅助设备还可以包含集成的处理器或控制器和记忆存储器(嵌入在眼镜中,或者通过电缆连接),所述集成的处理器或控制器和记忆存储器具有实现实时算法的嵌入式软件,所述实时算法被配置为在图像被相机捕获时修改图像。这些经过修改或修正的图像而后通过显示器连续地呈现给用户的眼睛。

在此所描述的过程在被配置为向用户呈现图像或实时视频流的电子视觉辅助设备中被实现。这些过程可以在包括用于可编程处理器的机器指令的计算机程序(也称为程序、软件、软件应用或代码)中实现,并且可以以高级程序语言和/或面向对象的编程语言实现,和/或以汇编/机器语言实现,例如存储在存储器上并由处理器执行的机器可读代码或机器可执行代码。所述单元从用户、相机、检测器或任何其他设备接收输入信号或数据。也可以使用其他类型的设备来提供与用户之间的交互;例如,提供给用户的反馈可以是任何形式的感官反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且可以以任何形式接收来自用户的输入,包括声音输入、语音输入或触觉输入。输出以任何方式呈现给用户,包括屏幕显示或耳机展示。处理器和存储器可以是图1A-1D所示的电子视觉辅助设备的集成组件,或者可以是链接到电子视觉辅助设备的独立组件。也可以使用其他设备例如带显示器的移动平台(手机、平板电脑等)、电子放大镜和电子方式启用的隐形眼镜。

图1E示出了可用于实现本发明所描述的方法并用作本发明所描述的装置的示例或代表性计算设备及相关元件的框图。图1E示出了可以与本发明所描述的技术一起使用的通用计算设备200A和通用移动计算设备250A的示例。计算设备200A旨在代表各种形式的数字计算机,例如笔记本电脑、台式电脑、工作站、个人数字助理、服务器、刀锋服务器(bladeservers)、大型机和其他合适的计算机。计算设备250A旨在代表各种形式的移动设备,例如个人数字助理、蜂窝电话、智能手机和其他类似的可以起作用的并且是专门为电子视觉辅助而制造的计算设备。此处所示出的组件、它们的连接和关系以及它们的功能仅仅是示例性的,并不意味着限制本文件中所描述的和/或要求保护的发明的实现。

本发明所描述的系统和技术可以在计算系统(例如,计算设备200A和/或250A)中实现,所述计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有图形用户界面或网络浏览器的客户端计算机,用户可以通过所述图形用户界面或网络浏览器与本发明所描述的系统和技术的实现进行交互),或者这种后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如,通信网络)互连。通信网络的例子包括局域网(“LAN”)、广域网(“WAN”)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器的关系是通过运行在各自计算机上的计算机程序产生的,并且彼此之间具有客户端-服务器关系。

为了提供与用户的交互,此处所描述的系统和技术可以在计算机上实现,所述计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及键盘和指示设备(例如,鼠标或轨迹球),用户可以通过所述指示设备向计算机提供输入。也可以使用其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈(例如,视觉反馈、听觉反馈或触觉反馈);并且可以以任何形式接收来自用户的输入,包括声音输入、语音输入或触觉输入。

在示例实施例中,计算设备200A和250A被配置为从经由通信网络连接至计算设备200A和250A的各种其他计算设备处接收和/或检索电子文档,并将这些电子文档存储在存储器204A、存储设备206A和存储器264A中的至少一个内。计算设备200A和250A还被配置为使用本发明所描述的技术在存储器204A、存储设备206A和存储器264A中的至少一个内管理和组织这些电子文档,所有这些都可与电子视觉辅助设备99结合、嵌入或以其他方式与电子视觉辅助设备99通信。

存储器204A存储计算设备200A内的信息。在一个实施方式中,存储器204A是一个或多个易失性存储单元。在另一实施方式中,存储器204A是非易失性存储单元。在另一实施方式中,存储器204A是非易失性存储单元。存储器204A也可以是其他形式的计算机可读介质,例如磁盘或光盘。

存储设备206A能够为计算设备200A提供大容量存储。在一个实施方式中,存储设备206A可以是计算机200A或包含计算机200A。在一个实施方式中,存储设备206A可以是计算机读取介质或包含计算机读取介质,例如软盘设备、硬盘设备、光盘设备或磁带设备、闪存或其他类似的固态存储设备、或一系列设备包括存储区域网络或其他配置中的设备。计算机程序产品可以有形地包含在信息载体中。计算机程序产品还可以包含指令,当被执行时,这些指令执行一种或多种方法,例如上述的方法。信息载体是计算机或机器可读介质,例如存储器204A、存储设备206A或处理器202A上的存储器。

高速控制器208A管理计算设备200A的带宽密集型操作,而低速控制器212A管理较低带宽密集型操作。这种功能分配只是示例性的。在一个实施方式中,高速控制器208A耦合到存储器204A、显示器216A(例如,通过图形处理器或加速器),并且耦合到可以接受各种扩展卡(未示出)的高速扩展端口210A。在所述实施方式中,低速控制器212A耦合到存储设备206A和低速总线214A。可包括各种通信端口(例如,USB、蓝牙、以太网、无线以太网)的低速总线214A可例如通过网络适配器耦合到一个或多个输入/输出设备,如键盘、指示设备、扫描仪或诸如交换机或路由器的网络设备。

如图所示,计算设备200A可以以多种不同形式来实现。例如,它可以被实现为标准服务器220A,或者一组这样的服务器中的多个调谐器。它也可以被实现为机架式服务器系统224A的一部分。另外,它可在个人计算机221A中实现,或者作为笔记本电脑222A实现。或者,来自计算设备200A的组件可以与移动设备(未示出)中的其他组件组合,例如设备250A。每个这样的设备可以包含一个或多个计算设备200A、250A,并且整个系统可以由相互通信的多个计算设备200A、250A构成。

如图所示,计算设备250A可以以多种不同的形式实现。例如,它可以被实现为电子视觉辅助设备99或任何智能/蜂窝电话280A的一部分。它也可以被实现为智能电话282A、个人数字助理、计算机平板电脑或其他类似移动设备的一部分。此外,它可以被实现为手持形式290A或可佩戴电子视觉辅助设备99中的专用电子视觉辅助。

电子视觉辅助设备99包括处理器252A、存储器264A、例如显示器254A的输入/输出设备、通信接口266A和收发器268A以及其他组件。设备99还可配备有存储设备,例如微驱动器或其他设备,以提供额外的存储。电子视觉辅助设备99、252A、264A、254A、266A和268A的每个组件使用各种总线互连,并且组件中的多个组件可以安装在公共主板上或者以其他适当的方式安装。

处理器252A可执行电子视觉辅助设备99内的指令,包括存储在存储器264A中的指令。处理器可以被实现为包括芯片的芯片组,所述芯片包括独立的多个模拟和数字处理器。处理器可以提供例如对于设备99的其他组件的协调,例如用户界面的控制、设备99运行的应用程序以及设备99所进行的无线通信。

处理器252A可以通过控制接口258A和耦合到显示器254A的显示接口256A与用户通信。显示器254A可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管显示器),或其他合适的显示技术。显示接口256A可以包括用于驱动显示器254A向用户呈现图形、视频和其他信息的合适的电路。控制接口258A可以接收来自用户的命令,并将它们转换以提交给处理器252A。此外,可以提供与处理器252A通信的外部接口262A,以便于实现设备99与其他设备的近区通信。外部接口262A可例如在一些实施方式中提供有线通信,或者在其他实施方式中提供无线通信,并且也可使用多个接口。

存储器264A存储电子视觉辅助设备99内的信息。存储器264A可以被实现为一个或多个计算机可读介质或媒介、一个或多个易失性存储器单元或非易失性存储器单元。还可提供扩展存储器274A,并通过扩展接口272A连接到设备99,扩展接口272A可包括例如SIMM(单线存储器模块)卡接口。这种扩展存储器274A可为设备99提供额外的存储空间,或者也可为电子视觉辅助设备99存储应用程序或其他信息。具体地,扩展存储器274A可包括执行或补充上述过程的指令,并且还可包括安全信息。因此,例如,扩展存储器274A可被设置为设备99的安全模块,并且可使用允许安全使用设备99的指令进行编程。此外,可通过SIMM卡提供安全应用以及附加信息,例如以不可备份的方式在SIMM卡上放置识别信息。如下所述,存储器可包括例如闪存和/或NVRAM存储器。在一个实施方式中,计算机程序产品以有形的方式呈现在信息载体中。所述计算机程序产品包含指令,在指令被执行时,实施一种或多种方法,例如上述方法。信息载体是计算机-机器-可读介质,例如存储器264A、扩展存储器274A或处理器252A上的存储器,其可以例如通过收发器268A或外部接口262A接收。

电子视觉辅助设备99可以通过通信接口266A进行无线通信,必要时通信接口266A可包括数字信号处理电路。通信接口266A可提供各种模式下或协议下的通信,例如GSM语音呼叫、SMS、EMS或彩信、CDMA、时分多址、PDC、WCDMA、CDMA2000、GPRS、EDGE、3G、4G、5G、AMPS、FRS、GMRS、民用波段无线电、VHF、AM、FM和无线USB等。这样的通信可例如通过射频收发器268A实现。此外,可以实现短距离通信,例如使用蓝牙、无线网络或其他收发器,如无线局域网、WMAN、宽带固定接入或WiMAX。此外,GPS(全球定位系统)接收器模块270A可向设备99提供额外的导航和位置相关无线数据,并且能够接收和处理来自卫星或其他转发器的信号,以生成关于位置、行进方向和速度的位置数据,其可以由运行在电子视觉辅助设备99上的应用程序适当地使用。

电子视觉辅助设备99还可以使用音频编解码器260A以听觉方式进行通信,音频编解码器260A可从用户处接收口头信息并将其转换成可用的数字信息。音频编解码器260A同样可为用户生成可听见声音,例如通过扬声器,例如在设备99的听筒中。这种声音可包括来自语音电话呼叫的声音,可包括录制的声音(例如,语音消息、音乐文件等),并且还可包括由在设备99上运行的应用程序所产生的声音。电子视觉辅助设备的一部分是扬声器和麦克风120。扬声器和麦克风可由处理器252A控制,并且被配置为基于处理器控制在麦克风的情况下来接收、生成音频信号并将音频信号转换为电信号。

IMU(惯性测量单元)280A连接到总线,或者与其他组件集成,产生并提供关于电子视觉辅助设备99的方位的数据。IMU可包含罗盘,例如磁力计、加速度计和/或陀螺仪,以提供方向数据、碰撞和冲击数据或关于电子视觉辅助设备所经历的冲击或力的其他信息或数据。

提供闪光器和/或闪光灯125,并且闪光器和/或闪光灯125可被处理器控制。闪光器或闪光灯可用作频闪灯或传统闪光灯,并可包括LED。

现在还参考图1F示出另一示意图,其示出了电子视觉辅助设备99和/或移动设备200B(在此可互换使用)的示例性实施例。这仅仅是一种可能的设备配置,因此可以想到,本领域普通技术人员可提供不同配置的移动设备。图1F中所示的多个元件可被认为是可选的,且不是每个实施例都需要的。此外,设备的可被构造为任何形状或设计,可以是可穿戴的,或者分成不同的元件和组件。电子视觉辅助设备99和/或设备200B可包括任何类型的固定或移动通信设备,其可通过如下所述的方式配置以发挥作用。移动设备可包括PDA、蜂窝电话、智能电话、平板电脑、无线电子键盘或任何其他计算设备。

在所述示例性实施例中,电子视觉辅助设备99和/或移动设备200B配置有外壳204B,所述外壳保护并包含下述组件。在外壳204B内是处理器208B以及第一总线212B1和第二总线212B2(统称为212B)。处理器208B通过总线212B与移动设备200B的其他组件通信。处理器208B可包括能够如本文所述执行的任何类型的处理器或控制器。处理器208B可包括通用处理器、ASIC、ARM、DSP、控制器或任何其他类型的处理设备。

电子视觉辅助设备99和/或移动设备200B的处理器208B和其他元件从电池220B或其他电源处接收电力。电气接口224B提供一个或多个电气端口以与移动设备200B电连接,例如与第二电气设备、计算机、医疗设备或电源/充电设备电连接。接口224B可包括任何类型的电接口或连接器形式。

一个或多个存储器210B是电子视觉辅助设备99和/或移动设备200B的一部分,用于存储在处理器208B上执行的机器可读代码,并用于存储数据,例如图像数据、音频数据、用户数据、医疗数据、位置数据、冲击数据或任何其他类型的数据。存储器可存储消息的应用程序(app)。存储器可包括RAM、ROM、闪存、光存储器或微驱动存储器。此处描述的机器可读代码是非暂时性的。

作为所述实施例的一部分,处理器208B连接至用户接口216B。用户界面216B可包括被配置为任何能够接受用户输入以控制移动设备的系统或设备。用户界面216B可包括以下一个或多个:键盘、轨迹球、按钮、滚轮、指针键、触摸板和触摸屏。还提供了触摸屏控制器230B,其通过总线212B连接并连接至显示器228B。

显示器包括被配置为向用户显示视觉信息的任何类型的显示屏。所述屏幕可以包括LED、LCD、薄膜晶体管屏幕、OEL、CSTN(彩色超扭曲向列)。TFT(薄膜晶体管)、TFD(薄膜二极管)、OLED(有机发光二极管)、AMOLED显示器(有源矩阵有机发光二极管)、视网膜显示器、电子隐形眼镜、电容式触摸屏、电阻式触摸屏或这些技术的任意组合。显示器228B从处理器208B处接收信号,并且如本领域所理解的,这些信号被显示器转换成文本和图像。显示器228B还可包括与处理器208B连接的显示处理器(未示出)或控制器。触摸屏控制器230B可包括被配置为从覆盖在显示器228B上的触摸屏处接收信号的模块。

在一些实施例中,所述设备可以包括扬声器234B和麦克风238B。扬声器234B和麦克风238B可由处理器208B控制,并且在麦克风的情况下被配置为基于处理器控制来接收音频信号并将音频信号转换成电信号。这也为额外的用户界面模式提供了好处。同样地,处理器208B可激活扬声器234B来产生音频信号。这些设备如本领域中所理解的那样操作,因此在此不再详细描述。

第一无线收发器240B和第二无线收发器244B也连接到一个或多个总线212B,它们中的每一个都连接到对应的天线248B、252B。第一收发器和第二收发器240B、244B被构造为从远程发射器接收输入信号,并对信号执行模拟前端处理以生成模拟基带信号。输入信号可例如通过模数转换器转换成数字格式,而被进一步处理,以用于处理器208B的后续处理。同样地,第一收发器240B和第二收发器244B被配置为从处理器208B或移动设备208B的其他组件处接收输出信号,并将这些信号从基带向上变频到射频,以通过相应的天线248B、252B传输。尽管示出了第一无线收发器240B和第二无线收发器244B,但是可以设想,移动设备200B可仅具有一个这样的系统或者两个或更多个收发器。例如,一些设备支持三频带或四频带,或者具有蓝牙和NFC通信能力。

可以设想,电子视觉辅助设备99和/或移动设备,以及因此的第一无线收发器240B和第二无线收发器244B可被配置为根据任何当前存在的或未来开发的无线标准来操作,包括但不限于蓝牙、诸如IEEE802.11a、b、g、n的无线网络、无线局域网、WMAN、宽带固定接入、WiMAX、任何蜂窝技术,包括码分多址、GSM、EDGE、3G、4G、5G、时分多址、放大器、FRS、GMRS、公民波段无线电、VHF、AM、FM以及无线USB。

连接至第二总线212B的一个或多个系统也是电子视觉辅助设备99和/或移动设备的一部分,第二总线212B也与处理器208B连接。这些系统可以包括具有相关天线262B的全球定位系统(GPS)模块260B。GPS模块260B能够接收和处理来自卫星或其他转发器的信号,以生成关于GPS模块260B的位置、行进方向和速度的位置数据。GPS在本领域中通常被理解,因此在此不详细描述。

在一些示例中,陀螺仪或加速度计264B可被连接到总线212B,以生成并提供关于移动设备204B的方位的位置、移动、速率、速度和/或方位数据。诸如磁力计的罗盘268B可被配置为向移动设备204B提供方向信息。可包括加速度计的震动检测器264B可被连接到总线212B,以提供关于移动设备受到的震动或力的信息或数据。在一种配置中,震动检测器264B被配置成当移动设备受到大于预设阈值的震动或力时生成数据并向处理器208B提供数据。例如,这可能表示发生了跌倒或事故。压力传感器272B也可用于确定高度,以协助运动检测。

可以提供一个或多个相机(静止、视频或两者)276B来捕获图像数据,用于存储在存储器210B中和/或用于可能通过无线或有线链路传输或用于稍后观看。对于低光照情况下的图像捕获,还可包括附加的红外相机278B,以及用于位置和场景感测的亮度传感器282B和附加的距离传感器。处理器208B可处理图像数据以执行此处所描述的步骤。提供有闪光器和/或闪光灯280B,并且闪光器和/或闪光灯280B可被处理器控制。闪光器和/或闪光灯280B可用作频闪或传统闪光灯,并且可包括LED。电源管理模块284B与电池220B连接或监控电池220B,以管理功耗、控制电池充电,并向可能需要不同功率需求的各种设备提供电源电压。

因此,本发明所描述的系统和技术的各种实施方式可在数字电子电路、集成电路、专门设计的专用集成电路、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式可包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式,所述可编程系统包括至少一个可编程处理器,所述可编程处理器可以是专用的或通用的,其被耦合以从存储系统、至少一个输入设备及至少一个输出设备处接收数据和指令,以及向存储系统、至少一个输入设备及至少一个输出设备发送数据和指令。

如本发明所用,术语“机器可读介质”“计算机可读介质”是指用于向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如,磁盘、光盘、存储器、可编程逻辑器件(PLD)),包括接收机器指令作为机器可读信号的机器可读介质。术语“机器可读信号”是指用于向可编程处理器提供机器指令和/或数据的任何信号。

除非特别说明,否则从以上讨论中显而易见的是,在整个描述中,使用诸如“处理”或“运算”或“计算”或“确定”或“识别”或“显示”或“提供”等术语的讨论指的是计算机系统或类似的电子计算设备的处理和过程,其操控和转换在计算机系统存储器或寄存器或其他这样的信息存储、传输或显示设备中被表示为物理(电子)量的数据。

基于前述说明,本发明的上述实施例可使用计算机编程或工程技术来实现,包括计算机软件、固件、硬件或其任何组合或子集。根据本发明中所讨论的实施例,具有计算机可读和/或计算机可执行指令的任何这样产生的程序可被被内置于或被设置在一个或多个计算机可读介质中,从而制造计算机程序产品,即制造品。计算机可读介质可以是例如固态(硬盘)驱动器、磁盘、光盘、磁带、诸如只读存储器或闪存的半导体存储器等,或任何传输/接收介质,例如互联网或其他通信网络或链路。包含计算机代码的制造品可通过直接从一个介质执行指令、通过将代码从一个介质复制到另一个介质、或者通过网络传输代码来制造和/或使用。

图2是示出当自主控制系统550与用户和电子视觉辅助设备510的其余部分交互时,自主控制系统550的主要组件的高级框图。为保持清晰,图中仅显示了主要数据和控制路径;例如,应所述理解的是,协调块560与自主控制系统550的边界内所示出的所有其他实体之间存在隐式双向连接。类似地,此处显示的组件代表一个逻辑分区,它不一定约束实际实现的拓扑;根据通常的实践,这些块中的任何一个可用多种方式进一步地细分、重新排列和重组,同时仍提供相同的集合功能。

图2的框图可以指一个或多个“块”、“引擎”、“框”等。如此处所使用的,任何“引擎”、“块”或“框”可在其中包括一个或多个处理器或其一部分。一个或多个处理器的一部分可包括少于包括任何给定的一个或多个处理器的所有硬件的一些硬件部分,例如寄存器的子集、专用于多线程处理器的一个或多个线程的处理器的部分、处理器全部或部分地专用于执行引擎部分功能的时间片等。这样,第一引擎和第二引擎可以具有一个或多个专用处理器,或者第一引擎和第二引擎可彼此或与其他引擎共享一个或多个处理器。根据特定的实施方式或其他考虑,引擎可以是集中式的,或者是功能分布式的。引擎可包括由处理器执行的包含在计算机可读介质中的硬件、固件或软件。处理器使用所实现的数据结构和方法将数据转换成新数据,例如参考此处附图所描述的。

此处所描述的引擎,或者通过其可以实施此处所描述的系统和设备的引擎,可以是基于云的引擎。如此处所使用的,基于云的引擎是可以使用基于云的计算系统运行应用程序和/或功能的引擎。应用程序和/或功能的全部或部分可分布在多个计算设备上,并且不需要局限于仅一个计算设备。在一些实施例中,基于云的引擎可执行终端用户通过网络浏览器或容器应用程序访问的功能和/或模块,而无需将功能和/或模块本地安装在终端用户的计算设备上。

所述框图广泛适用于可佩戴、手持(如智能手机、平板电脑或个人电脑)或固定安装的视觉辅助设备。所述图的最左边部分被用虚线矩形包围,所述部分示出了一个设想设备510的例子,所述设想设备510缺少由本发明实现的自主控制。在随后的所有文本中,这将被称为参考例510,因为它仅拥有将由将要公开的系统和方法扩展的标准功能。在此,参考例以非常简化的形式表示,其几乎所有的功能被抽象至单片图像处理块515中。无论实现细节和特征集如何,任何参考的电子视觉辅助都可以被认为是不透明的处理器,其连续地接收来自一个或多个相机517的作为输入的原始图像流540,在通过附加传感器512(例如,用于图像稳定的陀螺仪)的可能调解下,根据手动用户输入514(例如,按钮、手势或语音)的表明,对输入图像应用各种计算和操控,并且最终在一个或多个显示设备516上呈现完全处理的图像。

图2中由第二虚线矩形封装的最右侧部分包括“自主控制系统”(ACS)550,ACS 550提供了本发明所述的电子视觉辅助设备的图像处理功能。图像处理链的所有输入(相机图像540、传感器数据530和用户控制520)必须是可访问的,以及当前状态527——直接控制图像处理行为的设置和参数的集合。各种分析模块对这些输入进行操作,以构建场景内容和佩戴者头部运动的抽象模型,然后使用这些模型来构建预测用户意图、活动和关注焦点的进一步模型。依赖于从这些模型收集的趋势,协调器560被配置为针对必须对设备状态进行哪些改变(如果有的话)作出决定,以便于满足所推断出的佩戴者的需求。输出可以作为更新当前状态527的计算控制被传输回概念设备的核心。虽然这些计算出的控制在某种程度上类似于用户输入,但它们的功能要强大得多,因为自主控制系统可以自由地操控底层参数来调整最终图像,而几乎没有任何限制。

为了指导的连续性,首先将论述集中在本发明所述系统的可穿戴方面,从最简单的配置开始,逐渐扩大范围。一旦这个基线被牢固地建立起来,它将作为一个参考点,以便于解释和理解替代方案。

可穿戴式电子视觉辅助设备

可佩戴式视觉辅助设备通常安装在眼镜状或其他头戴式框架上,其内置有直接向眼睛显示视觉信息的显示器,安装在靠近鼻子、眼睛或太阳穴的框架上的前视相机。它们可以是单个独立的单元,或者头戴式组件可连接至外部电池或计算资源。没有必要将相机与框架放置在一起,也没有必要保持相对于头部的固定方向,但是遵守这些约定大大简化了可穿戴式设备的实现和可用性。

由于尺寸和重量的增加是可穿戴式设备的不良特征,因此在全便携式设备中,电池寿命和硬件能力之间总是存在冲突;需要低功耗、低复杂性的解决方案来在这一权衡中提供合理的平衡。此处描述的ACS550可使用简单的可穿戴式参考平台510来实现这个目标,所述平台510仅提供基本服务:在固定支架上的单个相机517,其被定向为使得其视野(FOV)大致与正常视力佩戴者的视野一致;陀螺仪传感器512,其至少在佩戴者头部的偏航轴和俯仰轴上产生角速度测量的连续实时流;至少一个显示设备516;以及截取和处理这些数据以便操控视觉辅助设备的状态的能力。还被示出的额外的相机和传感器能够增强能力和可实现的性能。

图像分析

图像分析模块580负责拍摄对应于单个时刻的相机图像,并在其中定位用户想要检查的结构。在最简单和最常见的配置中,存在单个相机,因此只有一个图像可用。一般来说,只有所述输入图像的相对较小的子集需要处理;这个子集表示用户的关注焦点(FOA),他或她的目光主动地集中在所述焦点上。FOA通常是图像中心的固定区域,因为当固定相机随着他或她的头部旋转时,FOA经常与用户的自然视线重合。然而,对于涉及中心视野缺陷的情况,FOA也可以落在用户特定的偏离中心的部分,其中相机为偏心安装或者不与佩戴者的自然前方视线相匹配。在一些应用中,FOA也可以是基于用户行为趋势或先前和当前图像的内容,或者基于直接捕捉眼神方向的眼睛跟踪而选择的区域(由协调器560或场景分析582选择)。在兴趣区域被有效地自主选择的情况下,也可以搜索整个输入图像以定位和分级所有可能的这种区域,或者可以省略所选择的区域。对于FOV足够宽(比正常人的FOV大,如广角或鱼眼镜头)的相机或远离用户自然视线的相机,FOA甚至可以包含用户在物理上无法感知的区域。然而,因为图像分析通常是计算密集型活动,所以最好在可能的情况下限制被检查的子图像的大小。

一旦在输入图像中识别出FOA,ACS 550就检查其内容,以发现其中被认为是感兴趣的特征。无论采用何种具体的分析方法,都可在存在不良或不均匀的照明,电子噪声和其他混杂因素的情况下通过使用图像分析580预处理源数据以提高检测可靠性,促进此搜索。来自单个图像的FOA区域可被过滤,以减少噪声或去除其他不期望的干扰模式,增加图像清晰度或细节,或增加对比度。在大多数情况下,一种低功耗、低复杂性的方法是应用标准图像处理技术来提高全局图像对比度。通过基于特定FOA图像内容的自适应对比度增强,可以获得更多增益;给定足够的处理能力,可应用图像处理领域中可用的复杂自适应算法来增加局部对比度。依赖于数据的预处理也可被限制为随着图像随时间的变化而跟踪和保持与图像统计的一致性。需要注意的是,所有预处理都是为了检测算法的好处而执行的,并且与用于对直接向用户显示的图像数据所进行的任何操作是分开的。

当有多个相机可用时,可利用众所周知的代数变换(以补偿成像几何形状的差异)和信号处理技术(以结合非相干采样或同比例采样的像素)来对提供FOA多个覆盖范围的图像进行组合以提高图像质量。类似的充分记录的数据融合技术将来自图像传感器的数据与不同的模态(例如,结合标准可见光相机和近红外或热成像仪)合并,或者更奇特的模态可轻松地协助FOA的选择。或者,当一些图像或模态(但不是全部)的作用显然没有益处时,可以基于相对的质量或环境条件来拒绝或省略它们。

在图像处理和计算机视觉领域中,有多种技术可用于检测图像中的兴趣对象。在一个例子中,通过图像分析寻找的兴趣特征是文本(字母、数字和组织成单词、行、列或段落的象形图)和具有类似文本结构的形状,例如,大小相似的字形的离散行,如计算机屏幕上的图标。隔离这些结构的方法包括笔画宽度变换(SWT,其定位可能与文本相关联的具有一致宽度的线条)、光学字符识别(OCR,由于只需要识别和测量,而不需要解释,因此可能被简化)以及其他形式的计算机视觉,包括基于机器学习的计算机视觉。虽然所有这些在本应用中都是可行的,但是它们也是计算密集型的,并且/或者倾向于被局限于它们所擅长的狭窄领域(特别是文本、面部或对象类型的固定菜单)。可以以增加系统复杂性为代价来采用和组合所有并行操作的多种特征检测器类型,例如基于文本识别的面部检测算法。

相反地,ACS 550的图像分析利用了底层技术的强大功能,可从输入图像或图像部分处提取最大稳定的极值区域(MSER)。MSER是一种标准工具,其可在任何全面的图像处理或计算机视觉工具箱中找到,它具有较低的计算复杂度,并且具有随着图像尺寸的增加的出色的缩放特性。给定一个经过仔细选择的控制元参数值集和高效的软件实现,当被展示图像的发光度分量时,MSER可靠地隔离上述类似文本的结构,所述结构可从输入图像本身中被计算/提取,特别是在与上述对比度增强预处理结合使用时。由于MSER是原始特征检测器,因此它实际上不能识别字母或文本并将它们与图标或形状区分开-提取过程完全基于连通性,颜色和局部对比度。这种简单性是一个优势,它可以快速运行,同时对于任何字体或语言的符号(包括草书手写体)以及不一定代表书面交流的其他常规结构,它可以同样出色地运行。

场景分析

图像分析580的输出是在FOA图像中找到的原始特征的列表,其中每一个特征实际上是由驱动MSER特征检测的元参数所确定的视觉上相似但在某种程度上与其周围环境可分离的连接的像素的列表。场景分析582的任务是将所述无组织的列表转换为一致的数据结构,所述数据结构允许洞悉图像的结构和内容,从而可以将虚假特征与文本和其他有意义的结构区分开。跨越数十年研究工作的大量公共文献致力于从相似的数据结构中发现这种模式的方法-这些统计模式识别,模式分类,神经网络和机器学习技术已被证明非常有效,但是其准备工作(例如,数据收集)价格高昂,处理过程复杂或两者兼而有之。在本公开中,一个更简单和更直观的层次分析过程也同样起有效。

所述过程的第一步是通过场景分析582块去除虚假特征,离群值和模糊检测。如果所检测到的单个形状不在长度,宽度,像素数或纵横比的仔细调整的界限之内,则会对其进行检查并丢弃。其中一些消除可由MSER自动执行,但场景分析允许更复杂的标准。例如,一种有用的启发式算法是丢弃所有与FOA的顶部或底部边缘相交的形状(因为它们的真实垂直范围尚未确定),而不是仅仅因为所述形状接触到右侧或左侧就丢弃所述形状,只要它们足够宽的同时能够避免与两侧相交。另外,垂直中心(垂直上限和垂直下限的中间位置)离FOA的垂直中心太远的特征也将被丢弃。对于接受和丢弃的阈值和界限进行准确的选择是使得自主系统偏向于响应或多/或少“类似文本”的关键,例如,可以进行有针对性的调整,以使得设备可靠地忽略不明确包含打印文本的任何内容。

在初始剔除之后,剩余的要素被分成包含显示为在同一行中的项目的组。这不是通过显式地为每个特征指定一行来完成的(定义不明确的过程),而是隐式地,在多个步骤中,从构建形状的垂直中心的概率密度函数(pdf)模型开始,通过传统的核心密度估计过程来完成的。当多个检测到的对象被组织成连贯的行时

再次地,可以使用复杂的启发式算法或机器学习模型来确定所检测到的形状集是否真正具有类似行的、类似列的或类似段的结构。不过在实践中,低复杂度的技术就足够了。场景分析582选择所检测到的最高峰值,并且仅保留与所述峰值相关的那些特征。它进一步删减了pdf估计值太小的特征,通常小于峰值的90%。最终次的剔除会消除任何完全封闭的形状(即形状中的形状,以消除MSER发现的内部拓扑“洞”),而后是剔除垂直高度与平均高度显著不同的任何剩余要素(以消除异常值)。在选择最佳丢弃阈值方面有相当多的技巧需要练习,因为当剩余样本足够少时,标准偏差很容易超过平均值;然而,在改进聚焦模型(见下文)中采取的行动有助于改善次优设置的负面影响。

作为这些过滤操作的结果,剩余形状的统计数据不同于pdf中最初检测到的峰值的统计数据。然而,候选特征池现在在高度和位置方面是自洽的。需要注意的是,在上述过程中,由于垂直中心通过旋转扩展而产生的pdf残影(smearing),与相机传感器平面的水平方向的偏离较大的场景会被自动修剪。

场景模型

场景分析582的最终输出主要是两个数字:池中剩余对象的估计高度(当然,它确定所需的缩放量,如果有的话)以及这些对象的确代表一行文本或类似文本的结构并且不是统计偶然和随机噪声的结果的统计置信度的某种度量。这对值包括场景模型583,基于单个图像的统计快照。(促成这两个数字的最后一组特征也可被认为是模型的一部分,但仅用于显示目的,而不是进一步的分析或决策。)

最终,来自单个场景分析582尝试的结果不够稳定,不能在广泛的情况中获得可重复的性能

运动分析

运动分析模块570从测量电子视觉辅助设备510的运动的各种传感器处获取输入,并构建运动模型572。至少,传感器数据流必须包括用户头部的偏航轴上的角速度和俯仰轴上的角速度,以便可以快速检测到方向的突然和/或总体变化。加速度计测量也是显著平移运动的一个有价值的指标,但它是可选的。

如果设置有能反映眼球运动的眼动跟踪传感器,其显然对于确定用户的真实FOA有很大的价值。为此目的,所述数据可被转发至协调器560和图像分析模块580,但是也可用于如下所述的建立运动模型572。

运动模型

至少,运动模型572只是可穿戴情况下相机和穿戴者头部的稳定性表明器。当然,这可以通过注意头部方向的变化来确定,但是目前作为商品的传感器硬件只有在通过附加硬件(除陀螺仪测量之外)和相对昂贵的处理(例如,扩展的

当出现足够高的角速度时,它总是伴随着表明FOA突然变化的剧烈的头部运动。这些高角速度运动,或者视觉辅助设备的用户的FOA的突然变化,可被运动模型用来确定或者表明视觉辅助设备的用户正在进行活跃的运动,并且因此没有进行有意的集中注意力或者试图将他们的注意力集中在视野内的某物上。通常地,当用户进行活跃的运动时,自主系统不希望执行高代价的计算或对处理过程或图像增强(尤其是视野)进行视觉上分散注意力的改变。相反地,在可察觉的间隔内保持的非常小的角速度值可被运动模型合理地解释为用户有意的集中注意力,或者用户试图将注意力集中在视野内的某物上。中等角速度值可与读取、扫描或搜索行为相关联。虽然与这些行为相关联的角速度低于与活跃运动状态相关联的角速度,但是它们可高于与视觉辅助设备的用户非常静止的集中注意力状态相关联的角速度。无论如何,这些中等角速度值,例如那些与阅读、扫描或搜索行为相关联的角速度值,仍然可被运动模型解释为表示用户处于集中注意力状态,在所述集中注意力状态中,用户有意地将注意力集中在视野内的某物上。与活跃的运动状态相反,当用户处于集中注意力状态时,自主系统通常希望应用处理和/或图像增强,例如自动缩放或将对比度增强应用于如结构、面部或视野内的其他兴趣对象的文本。如下所示(图2及所附的文本),这个三状态运动模型572能够实现实质上的自主控制,尽管它很简单。

当加速度计数据可用时,可通过可靠地区分静止的或运动的用户来对运动模型进一步细化。这是一个很有价值的区分,因为不希望对运动中的人的视觉特征进行自发的显著改变,尤其是在快速移动或通过楼梯和其他障碍物时。加速度计还能够区分匀速运动和加速(不规律的)运动

当眼睛跟踪信息530可用时,其不是运动模型的直接部分,而是被包括在运动模型内,因为它服务于与运动模型相同的目的:促进活动模型,活动模型是表明用户当前正在做什么的高级描述。正如大的角速度或加速度测量值可表明用户还没有稳定他或她的FOA,眼球运动也可告知设备何时可以节省电量并避免执行图像分析。

活动模型

尽管运动模型572是短期运动的快照(通常在不超过几个视频帧或大约50-250毫秒的时间间隔内),但是活动模型562表示尝试在较长时间内跟踪用户运动,以收集意图并预测未来的运动。

在最简单的情况下,退化活动模型562包括瞬时运动模型572;这仍然足以产生复杂的行为(在图3及其附带的描述中举例说明)和令人满意的用户体验。然而,更多计算资源的花费让明显更多的复杂性能够被实现。例如,应用机器学习,如用来区分与视觉辅助设备的用户正在有意地专注或集中注意力状态的情况相关联的多个状态的隐马尔可夫模型(HMM)。例如,诸如扫描或从一侧到另一侧(头部和/或眼睛)移动的阅读动作允许活动模型562识别出用户正在从左向右稳定地阅读、回溯、向下和向左搜索下一行、移动到下一页、或者转换到非阅读行为。HMM通过不断更新每个可能状态的统计模型来实现高可靠性,所述模型考虑了观察的历史和暂时检测到的状态转换的可能性。以这种方式跟踪进入和离开任务与子任务的转变允许当用户阅读文本时ACS 550作出不同于检查其他非文本结构时的反应;例如,由于字体大小测量中的噪声而导致的缩放级别的微小变化可被完全抑制,因为组织成段落的文本通常不会改变大小,除非发生了巨大的变化。

另外的常见活动或行为可使用HMM识别和跟踪。此外,通用的HMM可离线地或连续地进行实时更新和调整,采用新的测量方法来捕捉或忽略特殊的用户特征;一个例子是适应不稳定(帕金森综合征或其他非自主运动)或识别有限的运动范围。手动使用反馈,例如在自主更改后立即请求的即时增量更改,也可以驱动HMM的适应。

聚焦模型

上述的场景模型583是基于单图像帧的双参数统计模型。聚焦模型563是FOA内容的更可靠的表示,即使当场景模型583瞬间改变时,聚焦模型563也是保持递增的。在其最简单的形式中,聚焦模型563仍然只包括两个参数:大小估计值和统计置信水平。然而,这些值是在连续的图像帧上更新的,其结合了由场景模型值的时间序列所展示的趋势。

当场景模型583急剧变化时(按照其大小估计值),聚焦模型563被重置,并且而后具有低统计显著性。如果场景模型大小估计值保持不变,即使置信度相对较低,聚焦模型也会不断积累置信度。所述过滤器可容纳大小估计值的细微变化,其对于最近场景模型的权重比旧估计值的权重更大,同时其在接受模型之前先更新模型。

协调器

协调器560将ACS 550中的所有其他模块联系在一起,协调它们的活动并管理它们的资源。协调器560被配置成结合由各分析和模型模块所提供的信息来决定何时在其用户活动和焦点的模型中存在足够的统计置信度,以使得其启动设备状态的改变。在这种情况下,协调器会在安排或执行变更之前,仔细评估任何行动的可取性和安全性。协调器还保持对用户启动的设备控制的跟踪,这是由于某些有意的用户输入可能会覆盖并潜在地延迟自主决策。特别地,提供手动控制来恢复默认视图(定义如下)或触发图像分析和自动视图调整。跟踪这些输入也很重要,这是因为在自主指导的更改之后立即请求的增量手动更改提供了纠正性反馈,表明用户对自主决策有一定程度的不满;这些输入可用于训练和更新自主响应特性。当多个分析类型同时运行时,协调器在多个均请求更改的进程(和用户)之间提供仲裁,以确保整个设备的状态保持一致。用户输入和自主过程之间的仲裁考虑和拒绝(或接受)相关的变更组,而不是孤立地进行单独的调整。

图3是特别地适用于低功率应用的协调器560的一个优选实施方式的高级流程图。所述流程图构成了对实现所述算法的设备进行操作的人的行为预测模型,其允许设备预测佩戴者的需求并相应地做出响应。为了实现这一点,它只需要对头部引起的相机旋转进行低精度陀螺仪传感器测量,而不依赖于绝对位置/角度估计、长期陀螺仪稳定性或高级数据融合算法。需要注意的是,流程图和附带的解释(如下)始终使用定性或非特定标签,如“大”、“小”、“高”、“低”和“阈值”来表示数值;这些参数的精确值必须根据应用中特定的性能权衡目标来选择,但是它们的详细说明对于算法的理解是非必要的。

在此提出的算法是轻量的,其足以在每个帧上运行。因此,每当新的视频帧变得可用时,根据流程图的处理可以从“开始”框600开始。而后由“延迟时间状态”框601确定是继续处理还是立即终止计算(在“完成”框620)。其决定基于流程图结构中固有的状态机所维护的延迟定时器的状态。这个定时器是特意设置的,以便于为事件确定步调并降低功耗,因为所有计算都会暂停,而延迟定时器会向下计数直至到期。当延迟定时器已经到期或者不活动时,计算在“当前状态”框602中继续。

“当前状态”框602基于当前操作状态在两条路径之间进行选择。两种可能的状态是“运动”或“静止”。一般来说,在启动时或当在电子视觉辅助设备510中检测到显著运动时获取“运动”,并且保持有效直至电子视觉辅助设备510保持足够静止,同时以高置信度做出自动视图更新的确定。仅当做出这种高置信度自动视图更改的决定时,才进入“静止”状态,并且即使存在平滑运动(例如与读取相关联的常规扫描),静止状态也持续存在,直到遇到电子视觉辅助设备510的足够大或急剧的移动。”当前状态”框602在“运动”状态时分支到“最近运动”框603,或者在“静止”状态时分支到“增加运动计数”框610。

框603-609都与“运动”状态相关联。“最近运动”框603考虑最近发生过的角速度趋势,其使用运动模型回看不超过几帧,并基于检测到的运动模式分支为三种方式之一。

对于大的角速度,能够推断出头部方向的突然改变以及随之而来的注意力的重新定向

另一方面,来自运动模型的非常小的角速度能够表明用户正试图保持稳定的焦点或集中的注意力,可能是试图阅读文本或辨别小的特征。“视频分析”框606被配置为通过分析输入视频帧、应用预处理并使用来自图2的图像和场景分析操作来确认所述假设。所述过程对所检测到的用户明显聚焦的对象或区域的大小,形状和分布进行了全面表征,从而生成了一个场景模型,所述模型估算了舒适观看所需的最佳放大率。场景模型中的趋势可以由聚焦模型捕捉,所述聚焦模型闲置地等待,直到其产生高统计置信度,即用户专注于随着时间的推移保持不变外观的对象。如果检测置信水平还不够,则“检测置信值”框607终止计算。如果置信度确实超过了必要的阈值,则“缩放应用”框608通过调整放大率来应用推断的缩放水平,并触发任何其他相关的视图更改;“缩放应用”框608还将当前旋转状态(不需要知道相对于任何绝对坐标系)缓存为当前参考方位。“重置所有数据”框609通过重置所有统计数据并将状态更改为“静止”从而为即将到来的放大率变化做准备;“重置所有数据”框609还将延迟计时器设置为一个大的值,通常为2-4秒,在此期间可以省去计算,这是因为通常不希望出现放大率的另一次突然变化。

“重置检测数据”框605处理剩余的可能性

框610-619与“静止”状态相关联。需要注意的是,除了由框609触发的从“运动”到“静止”的转变之外,延迟定时器在“静止”期间从不活动,以避免错过瞬时运动的检测。取而代之的是,保持运动计数来记录连续的“静止”帧,并限制昂贵计算的频率。“增加运动计数”框610增加所述运动计数。而后,“运动计数阈值”框611将最新的运动计数与阈值(通常对应于0.25秒到0.75秒的时间)进行比较。

如果运动计数不足够大,将不会进行视频分析。相反地,在“最近运动”框612中检查来自活动模型的最近发生过(通常不超过几帧)的最近旋转运动趋势。如果这些运动足够小,处理过程在“完成”框620结束。否则,检测出大的或快速的头部运动,并且推断出注意力的重新定向;“重置缩放”框613而后将视图重置为其标称值(与框604中的完全相同),将延迟定时器设置为相对长的延迟(通常为1-2秒,再次如框604中的),并将操作状态更改至“运动”框614。

另一方面,如果运动计数超过其阈值,则进入“转变参考方向”框615。所述框将当前设备方向(即自上次设置参考方向以来从所有陀螺仪测量中累积的旋转状态)与参考方向进行比较。如果方位差异足够大(通常偏航10-12度或俯仰5-8度),则进入“状态=运动”框616,将操作状态改变为“运动”,因为佩戴者的关注焦点已经从最后的参考方位明显偏移(尽管平滑且缓慢)。否则,“视频分析”框617重置运动计数并执行对最新视频帧的图像和场景分析,更新所有内部模型以试图确定用户的关注焦点和适当的随之的视图设置。如果尚无任何改变是合理的,算法在“完成”框620终止。否则,“更新缩放”框619更新视图设置并将参考方向重置为当前方向。

对于类似的“运动”状态框606-608不存在的重要考虑因素在由“改变缩放”框618作出的“执行/不执行”决定中根深蒂固,以便于在框617-619中获得更一致的且在美学上令人愉悦的行为。被观察的特征尺寸的估计值始终包含适度的随机噪声或系统误差,这些噪声或系统误差而后传播到最佳放大级别的计算估计值中。当预测量与当前设置足够接近(但不相同)时,过于急切地改变缩放设置或许会经常导致视觉上令人不愉快的“呼吸”现象,这是由于算法响应的是统计误差而不是实际的特征尺寸变化;这种情况在测量小的物体(例如,高度小于15-20像素,其中单个像素代表显著的百分比误差)时经常发生。必须采用启发式算法将实际趋势与虚假测量分开,而同时不会导致明显的延迟损失。这是通过要求更高的统计置信度来接受小的变化,以及通过对增量和减量实施不同的置信度阈值来实现的(例如,接受小的增加比接受小的减少更容易)。

可穿戴语用学(Wearable Pragmatics)

迄今为止所讨论的重点是ACS如何推断用户的FOA和充分的意图,以决定何时开始改变是合适的。除了提到需要计算所需的放大率之外,很少有人谈到这些改变的具体性质。这是因为,在可穿戴式视觉辅助设备中,放大率是主要感兴趣的参数。由于相机与头部步调一致,在没有眼睛跟踪的情况下,自然会将FOA限制在图像的小中心或其他固定位置;即使使用眼动跟踪,推断和分析得到的FOA也可能很小。

所需的放大率能够容易地通过将依赖用户的设置保持为偏好尺寸来确定

图4A是仅包含文本的场景的未处理的相机图像示例,所述图像是直接从其源相机拍摄并在显示器上显示给用户。所述图举例说明了在应用任何手动或自动调节电子视觉辅助设备之前所显示的场景视图。此处显示的文本具有不同字体大小的部分。具体而言,文本行801具有一定的字体高度,而文本行802具有不同的且稍大的高度。出于讨论的目的,假设图4A中的所有文本,在801和802行,对于用户来说都太小而不能阅读,因此需要被放大。

为了说明的目的,还假设自主控制系统先前已经被配置有目标偏好尺寸,所述尺寸比显示器上标记为802的文本大50%,并且比标记为801的文本大114%。然后,当用于放大的自主控制系统被启动并且显示所捕获的如图4A所示的相机图像时,自主系统将自动增加放大率,使得显示图像如图4B所示。在此,文本804的输出行是文本802的输入行的放大版本,而行803是来自源图像的行801的相应放大版本。行804现在具有与目标偏好尺寸相匹配的高度(即,对于50%的尺寸增加,总应用的放大率是1.5倍)。需要注意的是,如果用户将相机在直接远离正在被观看的文本的方向上移动一小段距离,自主系统将通过进一步增加放大率来响应,以保持图4B的外观,因为它用来将行804保持在目标偏好尺寸。

返回参考图4A,当用户向上摇动相机使得行801成为关注焦点时,自主系统将以额外的放大率做出响应,产生类似于图4C的显示。在此,文本805的输出行是行801的放大版本,而行806是来自源图像的行802的放大版本;现在,所应用的总放大率是2.14倍,即尺寸增加了114%。在图4C中,行805在显示器上具有与图4B中的行804相同的高度,因为在关注焦点中所检测到的结构(例如,本例中的文本)被调整至满足目标偏好尺寸。因为未修改图像中的行802大于线801,所以行806中的放大图像实际上超过了目标尺寸。

如果用户重复摇动相机以在关注焦点中交替观看行801和行802,则自主控制系统可被配置为通过调整放大率来做出响应,使得其显示结果分别类似于图4B和4C。

本文件的介绍性摘要中指出,ACS不仅能够控制放大的程度,还能控制FOV的大小和性质。于2019年5月29日申请的PCT专利申请No.PCT/US2019/034443描述了如何将视图分成具有均匀的放大率的中心区域(圆形、椭圆形或矩形),具有在其边缘逐渐缩小至固定水平(最常见的是1倍或无放大)的缩放量的过渡区域,以及保持最终固定放大率的外围区域;这种分区配置提供了更多的细节,以便于在中心更容易查看,而不损害整体FOV,以保持对背景及情境的感知。

此处的情况相当灵活:这种分区的参数(即,以逐渐减小的放大率限定过渡区的内部和外部形状的尺寸)可与放大率的值相关联,使得它们在连续体上变化,而不是保持静态或具有一些离散的设置。这种额外的自由度提供自然的和直观的视图:在高缩放量下,需要更多的区域来显示放大的对象,并且外围的内容的重要性降低。如果能够进一步区分FOA内的对象,则可通过应用不同的连续变化特性来针对特定任务定制视图,例如,分别用于读取文本和面部或其他图像内容。

或者,可调整放大区域的大小,以完全包含检测到的主要特征-至少达到特定的大小限制。当然,退回到纯放大(没有分区)模式仍然是一个可行的终极低功耗的选择。

以上还提到的“标称视图”的存在。此特定于用户的配置可能有也可能没有与之关联的任何处理;根据偏好,它可以产生相机图像的未修改副本,或者应用可选的放大分区特性。例如,以标称视图或标称设置呈现给用户的视频图像可在没有对实时图像进行实质性增强或调节的情况下呈现。出于本讨论的目的,“实质性增强”可被解释为对实时图像的显著增强,例如调节后的放大率、调节后的对比度、兴趣结构的放大率、兴趣对象的对比度增强、识别出的面部放大率等。非实质性增强可被视为次要或常见的图像处理改进,例如颜色校正、亮度校正、降噪等。

本公开的可穿戴方面的一个重要的实用方面涉及计时。延迟必须仔细调整,以使得设备快速响应特征大小或运动的变化,但不应太快而导致虚假的变化产生使人分心或困惑的视觉效果。最重要的是,具有可见方面的设置不应立即改变,因为快速实现的视觉效果可能会使用户迷失方向。相反地,对放大率、分区半径或其他几何参数的改变可在几秒钟内逐渐完成;这种缓慢失真过程中固有的同伦感允许用户记录正在发生的事情,充分理解和预测视觉变化的最终结果,并有可能取消它。活动动画时标(Active animationtimescales)也被选择以便与针对图3的流程图和状态图描述的反应期很好地匹配。

最后,还具有显示的图像,所述图像当然受到由电子视觉辅助设备的非自主子集提供的正常处理和由ACS选择的视角(放大率和FOV)的影响。显示可视表明符是有利的(当被请求时或在用户控制下),所述表明符突出显示检测到的特征或概括它们的一些简单结构(例如边界框)。这不仅仅是形成了最新的场景模型的最终主要特征

辅助阅读

对于可佩戴式电子视觉辅助设备,以上已经假设相机充当眼睛的替代物,无论是否存在一些视觉缺陷。因此,ACS不会主动选择或操控FOA,因为佩戴者具有自然的(在没有眼睛跟踪的情况下)将替代眼睛指向预期目标的倾向。

稍加修改仍与这种使用模式相兼容,但在阅读时提供了额外的帮助。如上所述,如果使用隐马尔可夫模型来识别阅读活动并进一步区分相关联的从左到右和从右到左的扫描阶段,则旋转运动传感器可被用于为这些头部扫描运动提供平滑和放大的组合。

解耦相机

以前所有可穿戴式电子视觉辅助设备的治疗方法都采用了焦点跟随头部的模式。然而,还有另一个可行的使用模型,直观上仍然易于使用。在所述替代模式中,图像源是相对于用户的眼睛并不刚性固定的手持相机;取而代之的是,用户可通过将相机对准以捕捉仅仅通过移动头部不能舒适地看到的方向或地点的图像来操控FOA。远程图像源可以是专用相机或专门用于视觉辅助的设备、碰巧连接到附近的可访问计算机的网络相机、或者执行通过无线网络连接提供远程流媒体视频的应用的通用移动电话或平板电脑(或者,远程设备可将全部或部分控制权委托回可佩戴式电子视觉辅助设备)。

这种方式有点类似于遥控飞机的“第一人称观看”应用程序,但有一个重要的区别:相机总是牢牢地固定在用户身上,用户与生俱来的动觉和本体感觉相对于世界保持方位。此外,用户始终可以切换回标准的头部驱动模式,同时保持对所产生的视线移动不会太剧烈或令人迷失方向的信心(因为它既是用户请求的,也因此是期望的)。有关远程相机的更多方面,参见下面关于手持式设备的部分。

同时,用户可最大限度地使用电子视觉辅助设备提供的全部处理和分析能力,包括图像增强和检测特征的自动放大。可替代地,这些功能也可直接在远程相机的处理器和GPU上完成。此外,用户现在获得了额外的照明、图像传感器和镜头选项的好处。一个非常常见的使用案例涉及到精细细节的近距离检查,这通常是使用放置在目标的几英寸内的放大镜来执行的:头戴式相机在这种情况下不能很好地工作

需要注意的是,当使用远程相机源时,出于推断特定活动(例如,通过HMM)的目的,必须忽略头部运动的运动传感器测量,但仍然可表明用户是否接受自主更改。

手持式电子视觉辅助设备

手持式电子视觉辅助设备是一种便携式设备,其包含与可佩戴式设备基本相同的硬件和软件

典型的外形是移动电话、计算平板电脑或具有手持的或使用支架临时支撑的平板显示表面的平板类设备。出于本讨论的目的,安装在铰接臂上的这种装置被包括在“手持”类别中,因为它旨在用手瞄准定位,尽管其安装点是固定的。相机(通常只有一个,尽管如上所述可容纳更多)面向与显示表面相反的方向。由于相对于用户的头部或眼睛没有固定的关系,不再有将所述设备视为与头部运动相关联的替代眼睛的自然倾向;事实上,完全希望它的FOA能够独立定向,就像在解耦相机模式中一样。相反地,显示器和相机的相对位置提示:所述设备应被视为手持放大镜,方法是将显示器的后部指向对象,并直视显示器。虽然这是一个恰当的比喻,但这种配置实际上比自动放大镜更加灵活。

对于可穿戴式设备,设置有用于限制所显示的FOV以匹配人眼正常范围的压力,以避免在长时间连续使用过程中导致用户迷失方向。对于手持式设备,这不再是一个考虑因素

由于这种更宽的视野和物理上比可穿戴式设备大得多的显示器,以及对低重量的需求减少,实施将图像分析应用于更大区域(可能是整个显示器)所需的额外计算变得经济。完整的模型(场景模型、活动模型和聚焦模型)只需要为单个选定的FOA保持,根据定义所述模型控制用户的注意力,但是图像分析的结果(或其简化版本)可突出或吸引对屏幕上其他地方的多个潜在兴趣区域(文本或其他)的注意。在此处,具有逐渐减小的放大率的分割区域的门户样效应(portal-like effect)与更大的显示器协同结合:用户现在能够舒适地查看放大的区域,同时仍然被提供比可穿戴式设备可能提供的更多的背景。FOA的范围现在也可被测量,并且放大区域的大小扩大至包括更多(或全部)区域,同时仍然保留背景。ACS仍然在FOA内自主行动,但FOA不再局限于中心。更改FOA变成了一个手动用户启动的任务,但所有其他ACS任务都在没有干预的情况下继续进行

如果不具有将用户注视方向与相机联系起来的直接连接,运动模型对于捕捉详细的用户意图(例如,在阅读时跟踪子状态)就变得不那么重要了,但它仍然用于检测总体运动,并避免在不适当的时间执行计算或进行更改。

因为所述设备旨在由手操控,所以使用按钮和触摸屏序列来操作它是自然的且不引人注目的;这种控制用于选择新的FOA,调整分区的大小(例如,放大区域的宽度或锥形轮廓),或进行其他调整。直观的基于触摸的界面已经广泛用于执行与控制相机或检查平板电脑或移动电话上拍摄的照片相关的相似或类似的操作。

尽管通常可以将相机朝向以前位于显示器外围的新FOA,但相机和显示器之间的固定关系通常要求用户倾斜设备,以便舒适地观看。这不可避免地会导致透视失真,而这种失真对于用眼睛或相机直视的对象来说是不明显的。可选功能使图像分析任务能够检测与离轴观看相关的几何趋势,并应用补偿调节。在基于手机的文档扫描仪中也发现类似的功能,但这种技术适用于大尺寸的外部形状(如一张纸),这种形状产生的是可靠的统计数据,而不是更精细的特征,如单词和文本行。此外,文档扫描仪将外部形状及其校正后的内容视为最终产品,而视觉辅助设备将局部校正后的内容合并成更大的格式塔,所述格式塔不必进行转换。

几何重投影也可用于模拟不同的相机倾斜度,以使得使用平板电脑同时进行对准和观看能更加舒适;这里与相机图像相关联的固定非中心FOA被显示在显示器的中心,并被变换以补偿模拟的和实际的相机角度之间的几何差异。

最后,构建在手机或平板电脑平台上的视觉辅助设备的另一个特征是,能够记录从相机图像拍摄的快照,以便以后在同一设备上“回放”和检查。这不同于简单地查看捕获的数码照片,甚至不同于虚拟现实眼镜或其他可穿戴式视觉辅助设备上的“冻结和检查”模式,因为包括ACS功能在内的所有分析控制都可以应用于图像

安装的电子视觉辅助设备

在此,“安装的”并不一定意味着完全不动,仅仅是显示器通常不准备在正常使用过程中移动。典型的外形类似于带有触摸屏的计算机显示器,其中显示表面可调整为面向用户,以便舒适地观看,但不期望它会被携带或指向对象或场景。在这种外形中,计算能力、显示器尺寸和分辨率都不是昂贵的资源。同样,电池容量和功耗也是不重要的因素。

静态操作带来了一些重大变化和新机遇。首先,运动传感器不再必要或有用。相反地,只有基于触摸屏的控制界面驱动着对FOA的选择。相机不需要安装在显示器的后面

在这些变化中,上述相同的ACS算法和操作(除了运动检测和建模)仍然适用于吸引对包含文本或其他兴趣内容的潜在FOA的注意,并为所选的主要FOA提供对于放大率及其他视图特征的自动设置。

增强检测

基于MSER的特征检测以非常低的资源成本提供了出色的性能。当合适的资源可用时,通过将原始MSER输出用作更复杂的场景分析技术的输入,或者将附加的分析方案直接应用于源图像,可直接利用上述框架。并行分析的结果可由协调器进行组合,并与更复杂的运动提示融合,而后再做出决定。以这种方式,视觉辅助工具可对本质上不同的情况(例如,文本与人脸)以不同的方式自动地做出反应。更重要的是,基于机器学习的识别的引入带来了基于交互式用户反馈来适应用户偏好和特质的可能性。

对比度的自主控制

本文件的前几部分描述了自主控制的一般框架,但主要集中在用于放大率和视野的自主操控的具体应用上。在此介绍的是一个用于增强内置于同一框架上的对比度的相应的自主系统。它可独立操作,也可与前述的自主放大系统协同操作。

有许多方法可以对图像进行实时对比度增强。在成熟的技术中,有简单的对比度缩放(线性调整每个图像像素的亮度使其成比例地远离中性灰度)、线性和非线性对比度拉伸(包括任意伽马曲线的调整),其将单调函数应用于亮度、反锐化掩模和类似形式的边缘增强。所有这些方法都具有基于GPU的复杂度相对较低的高效实现,其一次对单个目标像素进行操作,或者将其计算限制为使用目标像素周围的小像素邻域。每个像素都具有由改变对比度增强的量或其他特征的参数所控制的一个或多个自由度。允许对比度增强方法的参数随时间变化,或者在单个图像内空间变化,不会极大地影响实施的复杂性。然而,分析图像以确定应用于每个目标像素或者甚至全局应用于整个图像的对比度增强的最佳值在计算上是昂贵的,因为它通常需要通过本质上是串行的,因此不适合现代并行GPU架构的过程来收集图像统计数据(例如直方图)。

然而,当上述用于实现自主控制放大率的系统可用时,为交互式用户自动选择合适对比度增强水平的附加任务被简化,因为引导出进行/不进行缩放的决定及对所需放大率的确定的中间分析产品可用于进一步的分析。这些中间计算提供了关于FOA的内容以及穿戴者正在检查的对象结构的相当多的信息。如上所述,这不仅包括单个象形图或单词的位置或边界框,还包括进一步的处理,所述处理将暂定的单词或相邻形状分组到不同的行中,丢弃噪声或不一致的数据,并随着时间的推移和所观看场景的内容的变化来评估其决策的可靠性。

当在FOA内检测到文本或类似文本的结构时,无论放大率是否也将被调整,可以合理地假设用户有意检查这些结构,并希望将对比度改进优先地应用于这些结构。在确定对比度增强或调整的类型和/或幅度时要考虑的因素包括要增强的图像的类型(具有轮廓清晰的亮度过渡的精细图案,例如文本或线条图,其非常适合边缘增强,而渐进变化的自然图案则可通过真实的局部对比度调节获得更好的增强)、要增强的特征的大小(可能由自主放大系统测量)、所应用的放大率(自主地或手动地),主要的前景和背景亮度之间的现有对比度,在亮背景下是否存在暗前景,反之亦然,以及背景是简单的(例如,单一的纯色)还是复杂的(例如,当文本覆盖图案或自然图像时)。存在的运动(例如,头部运动)的量和类型也可以是预期的因素。

通过仅在FOA内合格的且可靠地识别的结构范围内量化这些因素,大大降低了计算复杂性。复杂性的可实现的降低在图5A、5B、5C和5D的系列中示出。

图5A示出了为了自主控制放大率的目的,在亮背景下对一些暗文本的图像分析出的可能结果。矩形(900-906)表示本质上被确定为文本或类似文本的区域。在这个示例中,矩形突显出了单个单词,但实际上紧密排列的单词经常被合并,单个字母有时会被单独检测到或省略

图5B示出了当了解形状检测的结果时,如何在仅检查图像中最少数量的像素的同时获得优化被检测对象的对比度设置所需的所有信息。虚线911和912各自穿过包含在其各自行中的每个矩形。仅分析落入这样的线的像素就能够提供关于背景和文本之间的图像亮度分布的足够的统计信息,以支持对比度拉伸或其他对比度调节,这将增强对检测到的文本的观看。检测到的单个行(例如,最中心的行,或水平范围最大的行),或所有检测到的行的任何子集的组合统计,可用于此目的。前景和背景可通过检查诸如913、914或915等的线上的像素来区分(以确定亮-暗和暗-亮),这些像素位于检测到的形状附近,但不包含任何检测到的形状。

如图5B所示,当检测到的形状确实包括纯色背景下的文本时,仅使用沿着少量线的像素将是可靠的。如图5C和5D所示,检查更多的像素,将给出改进的结果,而计算成本仅适度增加。例如,可通过分析诸如923、924和/或925之类的小矩形区域的光谱内容和/或微波分解来检测复杂背景的存在和性质(例如当文本覆盖来自室外环境的图像时会出现的情况),这些小矩形区域由于接近检测到的内容而被合理地假设为仅包含“背景”。对矩形区域的类似分析,例如921(其仅包括所述行中所有形状共有的垂直区域)、922(其包括由所述行中任何形状占据的所有垂直区域的合集)或931(其包括所有检测到的形状的界限的合集),已经被证明能够可靠地区分文本和非文本内容(例如多色图标或按钮)。沿着一维前景线(例如911或912)的像素的光谱或微波分析也可用于区分文本和非文本,但是不可能在大范围的场景条件下产生一致的结果。

对于有限区域的分析允许快速计算对比度设置或调节,这些设置或调节对于所述有限区域是最佳的或接近最佳的,并且如果不是整个图像,则可能适合于附近区域。这些设置可被全局地应用(至整个显示的图像),可被限制到包含分析区域和一些或全部FOA的一些区域,或者可呈现为锥形轮廓,使得最佳计算设置被应用到一些或全部FOA中,同时在外围区域中逐渐趋向于指定的默认值或中性设置。由于对比度设置仅基于位置进行计算,而不依赖于受影响像素的内容或统计数据,因此不存在与所述空间动态轮廓相关的显著的额外计算负担。

利用随附的自主放大系统的分析产品的自主对比度控制系统适合于前述用于自主放大的图2中的相同框架。当两者都存在时,它们几乎所有的功能都将被共享。例外的是协调器模块560,其将如下所述地被增强或替换(取决于系统中是否存在自主对比度)。

另一方面,如果自主放大根本不存在(或被禁用),那么仍然有可能实现具有与图2相同的框图的高效、低复杂度的自主控制系统。没有自主放大提供的高级分析时,必须提供图像分析(580)、场景分析(582)和场景模型(583)的新实施方式。一个简单的实施方式仅检查指定的FOA中的像素。如上所述,所述FOA可以是确定的、针对用户定制的、依赖于背景的(例如,基于运动、放大率和/或最近的活动来调节),或者甚至是实时重新定位的(例如,利用眼睛跟踪)。考虑现有的放大率在降低复杂性方面特别有用,这是因为在显示的FOA中以因子M放大显示的可见图像实际上包含少于M

因此,不管是否存在自主放大,如上所述的以及图2中的框架可应用于自主对比度调整,并且剩下的讨论透明地包含两种情况。图6中所示的流程图的一个示例描绘了对用于自主对比度控制的低复杂度协调器(560)的进行的高级操作,无论自主放大是否可用,以及当自主放大可用但被禁用时,所述协调器都工作。如果两个自主系统都存在,所述流程图代表与图3中流程图代表的过程并行操作的协调器过程

如图3所示,图6的流程从每个新视频帧开始处的框700开始。框701根据当前放大级别是否大于1,在两个处理路径之间做出决定。当有放大率时,进行到框730的左分支;否则,当前无放大率(即,单位放大率占优势),并且进行到框710的右分支。

对于所述右分支,对应于无放大率,框710检查自主放大率系统是否已经请求改变当前视频帧的放大率。如果系统中没有自主放大能力,或者自主放大能力存在但被禁用,或者没有做出这样的请求,则操作继续进行到框720。否则,框712检查由自主放大系统产生的中间产品的结果,并使用预先确定的结构(检测出的形状和行或列)来确定要分析的图像的FOA中的相关像素组以进行对比度调节。然后,框714执行对这些像素的分析(例如,使用统计、光谱和/或微波技术),并且框716计算被确定为最佳观看的新对比度设置。这些设置而后被传递到框770,框770应用如下所述的最新对比度设置。

需要注意的是,框712在替代处理路径上不同于类似的框722、732和742,这是因为用于确定相关像素的特定过程可根据导致选择任何给定路径的背景和环境而不同。相似地,类似的框714、724、734和744是独立的,因为所实施的分析类型取决于预先检查过的分析产品(例如,来自自主放大)是否可用、任何的放大是否有效以及其他背景线索。最后,类似的框716、726、736和746也是不同的,因为对比度增强类型的可用选择和计算它们的参数的方法也可以是依赖于背景的。

当当前没有放大率并且没有来自自主放大系统的对于增加放大率的请求时,框720继续处理。在这种情况下,根据最近测量的运动(由设备上的运动传感器、图像分析或其他辅助信息确定)做出决定。在出现大的或突然的运动的情况下,假设用户没有专注地聚焦在显示的图像上,因此在框766中通过选择指定的中性或默认对比度设置来有效地重置自主对比度系统。如果运动非常小,则假设用户正在专注于观看显示器;则框722确定FOA中的相关像素(不具有自主放大分析产品的益处),框724分析那些像素(例如,使用统计、频谱和/或微波技术),并且框726使用所述分析的结果及当前对比度设置的知识来计算适当的更新的对比度设置。对于大的和中等的运动,计算设置被传递到框770,框770如下所述应用最新的对比度设置。框720存在第三种情况:没有明确意味着集中注意力或有意运动的中等的近期运动被假定为与阅读或扫描行为相关联,并且不会导致对比度设置的任何改变;然后,处理过程在块780中结束,直到下一个视频帧到达。需要注意的是,将最近运动分类为“大”、“小”或“中等”(中间)可以是任意复杂的,因为它们可以考虑运动模型框(图2中的572)的输出。

对于离开框701的左分支,对应于存在放大率,框730检查自主放大是否被启用。当自主放大被禁用或不存在时,处理将继续到框740。如果自主放大被启用,则框731检查自主放大系统是否已经在当前帧上更新了其分析产品。如果没有,处理在框780中结束,直到下一个视频帧到达。当新信息可用时,框732使用相关联的形状和数据结构来确定要分析的来自源图像的相关像素子集,优选地采用图5A-5D中例示的有效技术的组合。然后,框734分析这组像素(例如,使用统计、光谱和/或微波技术),并且框736计算被确定为最佳观看的新对比度设置。这些应用如下所述的最新对比度设置的设置而后被传递到框770。

当框730发现自主放大不存在或被禁用时,框740基于最近测量的运动(由设备上的运动传感器、图像分析或其他辅助信息确定)做出决定。当出现大的或突然的运动时,假设用户没有有意地聚焦在显示的图像上,因此在框756中通过选择指定的中性或默认对比度设置来有效地重置自主对比度系统。如果运动非常小,则假设用户正在专注于观看显示器;则框742确定FOA中的相关像素(没有自主放大分析产品的益处),框744分析那些像素(例如使用统计、光谱和/或微波技术),并且框746使用所述分析的结果以及当前对比度设置的知识来计算适当的更新的对比度设置。对于大的和中等的运动,计算设置被传递到框770,框770应用如下所述的最近的对比度设置。框730存在第三种情况:没有明确意味着集中注意力或有意运动的中等的近期运动被假定为与阅读或扫描行为相关联,并且不会导致对比度设置的任何改变;然后,处理过程在框780中结束,直到下一个视频帧到达。需要注意的是,考虑到运动模型框(图2中的572)的输出,将最近运动分类为“大”、“小”或“中等”(中间)可以是任意复杂的;它不一定反映框720使用的运动标准。

框770用作图6中所有六条路径的公共集合点。它跟踪最新的自主对比度设置请求,并对设备状态进行更改,从而启动这些更改。根据更改的幅度和类型,所述框中可能会安排一个动画,逐渐使得新设置生效;动画将自行完成(独立于图6中的流程图),或者在框770的下一次参与时被覆盖/重新安排。例如,由有意的、大幅度的运动引起的或伴随着放大率的显著变化(这是视觉上的破坏性事件)的变化可以突然发生,而不会使用户迷失方向。另一方面,阅读和扫描过程中对比度的过渡应所述更加平缓;在任何情况下,必须避免设置的可见的“闪烁”,并且框770负责过滤所请求的与所启动的设置的进展,以提供更舒适的用户体验。当所述框确定自主控制请求不一致或不可靠时(例如,在扩展时间范围内剧烈或快速变化),它可忽略所述请求或将设备偏向中性设置。一旦框770完成其活动,处理过程在框780中结束,直到下一个视频帧到达。

虽然在此已经示出并描述了本公开的优选实施例,但是对于本领域技术人员来说,这些实施例仅作为示例提供。在不脱离本发明的情况下,本领域技术人员将会想到多种变化、改变和替换。应当理解的是,在实施本发明时,可采用这里描述的本发明实施例的各种替代方案。这里描述的实施例的多种不同组合是可能的,并且这些组合被认为是本公开的一部分。此外,结合本公开任何一个实施例讨论的所有特征可容易地适用于本公开的其他实施例。旨在由以下权利要求书限定本发明的范围,并且由此涵盖这些权利要求书范围内的方法和结构及其等同物。

当一个特征或元件在此被称为“在”另一个特征或元件“上”时,它可以直接位于另一个特征或元件上,或者也可以存在中间特征和/或元件。相反地,当一个特征或元素被称为“直接在”另一个特征或元素“上”时,不存在中间特征或元素。还应当理解的是,当特征或元件被称为“连接”、“附接”或“耦合”至另一个特征或元件时,它可以直接连接、附接或耦合至另一个特征或元件,或者可以存在中间特征或元件。相反地,当一个特征或元件被称为“直接连接”、“直接附接”或“直接耦合”至另一个特征或元件时,不存在中间特征或元件。尽管针对一个实施例进行了描述或示出,但是如此描述或示出的特征和元件可应用于其他实施例。本领域技术人员还会理解,提及“邻近”另一特征而设置的结构或特征可具有重叠或位于邻近特征之下的部分。

这里使用的术语仅仅是为了描述特定的实施例,而不是为了限制本发明。例如,如这里所使用的,除非上下文另外明确指出,单数形式“一个”、“一个”和“所述”也意图包括复数形式。将进一步理解的是,当在本说明书中使用术语“包括”和/或“包含”时,其指定了所述的特征、步骤、操作、元件和/或组件的存在,但是不排除一个或多个其他特征、步骤、操作、元件、组件和/或其组的存在或添加。如这里所使用的,术语“和/或”包括一个或多个相关联的所列项目的任何和所有组合,并且可缩写为“/”。

为了便于描述,在本发明中可使用空间上相对的术语,例如“下方”、“下面”、“低于”、“上方”、“上面”等,以描述一个元件或特征与图中所示的另一个元件或特征之间的关系。应当理解的是,除了附图中所示的方位之外,空间上相对的术语旨在包括使用或操作中的装置的不同方位。例如,如果图中的设备被倒置,则被描述为“在其他元件或特征的下方”或“在其他元件或特征的下面”的元件将被定向为“在其他元件或特征的上方”。因此,示例性术语“下方”可包括上方和下方的方位。所述设备可以以其他方式来定向(旋转90度或在其他方向),并据此解释本文中使用的空间相对描述语。类似地,除非特别指出,术语“向上”、“向下”、“垂直”、“水平”等在此仅用于解释的目的。

尽管术语“第一”和“第二”在本文中可用于描述各种特征/元件(包括步骤),但是这些特征/元件不应受这些术语的限制,除非上下文另有说明。这些术语可用于区分一个特征/元件和另一个特征/元件。因此,下面讨论的第一特征/元件可被称为第二特征/元件,并且类似地,下面讨论的第二特征/元件可被称为第一特征/元件,而不脱离本发明的指导。

在本说明书及随后的权利要求中,除非上下文另有要求,否则术语“包括”和诸如“包含”和“含有”之类的变型意味着各种组件可共同用于方法和制品中(例如,包括装置和方法的组合物和装置)。例如,术语“包括”将被理解为表示包括任何陈述的元件或步骤,但不排除任何其他元件或步骤。

一般而言,本发明所述的任何装置和方法应被理解为包容性.的,但是组件和/或步骤的全部或子集可替代地是排他性的,并且可被表达为“由”或替代地“基本由”各种组件、步骤、子组件或子步骤“组成”。

如在说明书和权利要求书中所使用的,包括在实施例中所使用的,除非另有明确说明,所有的数字都可理解为以术语“大约”或“近似”开头,即使该术语没有明确出现。当描述量值和/或位置时,可使用短语“大约”或“近似”来表明所描述的值和/或位置在合理的预期值和/或位置范围内。例如,数值可具有规定值(或值范围)的+/-0.1%、规定值(或值范围)的+/-1%、规定值(或值范围)的+/-2%、规定值(或值范围)的+/-5%、规定值(或值范围)的+/-10%等。除非上下文另有说明,本发明给出的任何数值也应被理解为包括大约或近似于该值。例如,如果值“10”被公开,那么“大约10”也被公开。本发明所述的任何数值范围旨在包括其中包含的所有子范围。还应当理解的是,如本领域技术人员适当理解的那样,当公开值时,也公开了“小于或等于”该值、“大于或等于该值”以及值之间的可能范围。例如,如果值“X”被公开,“小于或等于X”以及“大于或等于X”(例如,其中X是数值)也被公开。还应当理解的是,在整个申请中,数据以多种不同的格式提供,并且该数据表示端点和起点,以及数据点的任何组合的范围。例如,如果公开了特定数据点“10”和特定数据点“15”,应当理解的是,大于、大于或等于、小于、小于或等于以及等于10和15以及10和15之间被认为是公开的。还应当理解的是,两个特定单元之间的每个单元也被公开。例如,如果公开了10和15,那么也公开了11、12、13和14。

尽管上面描述了各种说明性实施例,但是在不脱离权利要求所描述的本发明的范围的情况下,可对各种实施例进行多种改变。例如,在替代实施例中,执行各种描述的方法步骤的顺序通常可以改变,并且在其他替代实施例中,一个或多个方法步骤可被一起跳过。各种设备和系统实施例的可选特征可被包括在一些实施例中,而不被包括在其他实施例中。

因此,前面的描述主要是为了示例性的目的而提供的,并且不应该被解释为限制权利要求中所阐述的本发明的范围。

本发明所包括的示例和图示以说明而非限制的方式示出了可以实施本主题的具体实施例。如上所述,可以利用其他实施例以及从其他实施例中衍生,从而可在不脱离本公开范围的情况下进行结构和逻辑的替换及改变。本发明主题的这种实施例在此可单独地或共同地用术语“发明”来指代,这仅仅是为了方便,如果事实上公开了一个以上的发明或发明概念,则不意图将本申请的范围自愿限制为任何单个的发明或发明概念。因此,尽管本发明中已经示出和描述了特定实施例,但是任何被设计为实现相同目的的设置都可替代所示的特定实施例。本公开旨在覆盖各种实施例的任何和所有修改或变化。通过阅读以上描述,上述实施例的组合以及本文未具体描述的其他实施例对于本领域技术人员来说将是显而易见的。此外,附图中描述的逻辑流程不需要所示的特定顺序或顺序来实现期望的结果。

此外,可提供其他的步骤或者可从所描述的流程中去除步骤,并且可向所描述的系统添加其他组件或者从所描述的系统中移除其他组件。因此,其他实施例在所附权利要求的范围内。

相关技术
  • 电子视觉辅助设备中自主增强的免手动控制
  • 视觉辅助网络服务器,视觉辅助网络系统,视觉辅助方法,视觉辅助系统,视觉缺陷告知系统,视觉缺陷告知程序,视觉缺陷告知方法,色彩辨别辅助系统,色彩辨别辅助程序,以及色彩辨别辅助方法
技术分类

06120112919804