基于场境线索选择增强现实对象以供显示

文献发布时间：2023-06-19 11:21:00

背景技术

随着处理器和其他计算模块已变得更有能力，增强现实应用和虚拟现实应用已变得日益复杂。虚拟现实应用经由诸如头戴式显示器的显示设备来向用户呈现虚拟环境，并且在一些情况下允许用户与虚拟环境交互。相比之下，增强现实应用将虚拟对象(在本文中称为“增强现实对象”)与用户的真实环境的图像合并。增强现实应用因此带来以提供令人满意的用户体验的方式将增强现实对象与真实环境的图像合并的挑战。

附图说明

通过参考附图，可以更好地理解本公开，并且其许多特征和优点变得对本领域的技术人员而言显而易见。在不同的附图中使用相同的附图标记指示类似或相同的项目。

图1是依照一些实施例的基于场境线索在真实环境的图像中选择增强现实对象的电子设备的框图。

图2是根据各种实施例的联网环境的示例。

图3图示依照一些实施例的示例性排名场境。

图4是图示根据各种实施例的被实现来基于与由和电子设备相关联的相机捕获的图像相关联的场境线索来选择增强现实对象的功能性的一个示例的流程图。

具体实施方式

图1-4图示依照一些实施例的用于基于场境线索选择增强现实对象以供在真实环境的图像中显示的技术。电子设备包括捕获真实环境的图像的相机以及传感器，诸如捕获电子设备的姿态(方位和定向)的惯性测量单元(IMU)。基于场境线索，诸如识别的用户表情、从所捕获的图像中识别的对象或图形、接收到的天气或其他环境信息、一天中的时间、声音信息等，电子设备选择并且修改来自存储器的增强现实(AR)对象。电子设备将所选择的AR对象与所捕获的图像合成以生成组合的图像以供显示。另外，随着场境线索改变，电子设备能够改变所选择的AR对象以反映改变场境，从而改进用户体验。

图1图示依照一些实施例的基于电子设备100的姿态并且基于图像分割将增强现实对象放置在真实环境的图像中的电子设备100的框图。在一些实施例中，电子设备100可以包括例如提供计算能力的服务器计算机或其他系统。替换地，可以采用被例如布置在一个或多个服务器组或计算机组或布置中的多个电子设备100。例如，多个电子设备100一起可以包括云计算资源、网格计算资源和/或任何其他分布式计算机组件。此类电子设备100可以位于单个装置中或者可以分布在许多不同的地理位置当中。为了方便，在本文中以单数指代电子设备100。即使以单数指代电子设备100，也应理解，可以在如上所述的各种布置中采用多个电子设备100。

电子设备100可以是能够生成或者显示AR内容的任何设备，包括台式或膝上型计算机、智能电话、平板、游戏机等。出于描述图1的示例实施例的目的，假定了电子设备100是智能电话。

为了支持AR内容的显示，电子设备100包括相机102、处理器104、存储器105和显示器110。在至少一个实施例中，相机102是包括共同地捕获电子设备100的环境的图像(例如，图像108)的一个或多个图像传感器的数码相机。在一些实施例中，相机102被配置成自动地捕获环境的图像，而无需用户对每个单独的图像进行作动或干预。例如，随着用户在环境四处移动，相机102以指定间隔周期性地捕获环境的图像。如本文进一步描述的，图像能够由电子设备100用于一个或多个应用，诸如确定电子设备100的位置、识别电子设备100的环境中的对象等。

处理器104是通常被配置成执行指令集(例如，应用)以如本文进一步描述的那样为电子设备100执行指定任务的通用或专用处理器。在各种实施例中，处理器104是被配置成如本文进一步描述的那样针对电子设备100执行操作的处理器件，诸如中央处理单元(CPU)、图形处理单元(GPU)、神经网络处理器或其组合。应领会，尽管为了清楚将处理器104图示为单个处理器，但是在一些实施例中，处理器104能够表示多个处理单元，其中每个处理单元包括一个或多个处理器核心或计算单元。

显示器110是通常被配置成向电子设备100的用户显示图像的显示设备(例如，显示屏幕)。显示器110可以包括例如一个或多个设备，诸如阴极射线管(CRT)、液晶显示器(LCD)屏幕、基于气体等离子体的平板显示器、LCD投影仪或其他类型的显示设备。在一些实施例中，电子设备100包括用于将电子设备100连接到网络(例如，因特网)的网络接口(未示出)，电子设备100可以从所述网络接收天气信息、时间信息等。此外，在一些实施例中电子设备100包括用于从电子设备100的环境捕获信息的附加传感器(未示出)，诸如用于捕获电子设备100的环境中的声音的一个或多个麦克风。

姿态传感器106包括被配置成共同地生成姿态信息的一个或多个传感器，该姿态信息被称为反映电子设备100的方位、定向或其组合的姿态(例如，姿态107)。在至少一个实施例中，姿态传感器106包括惯性测量单元(IMU)。姿态传感器106能够包括其他或附加姿态传感器，诸如全球定位卫星(GPS)传感器。在至少一个实施例中，姿态传感器106还能够包括同时定位和绘图(SLAM)模块，该SLAM模块基于在由相机102捕获的图像中识别的对象来生成电子设备100的环境的地图。SLAM模块根据常规机器视觉技术来识别对象并且将对象与存储在电子设备100处或在经由网络(例如，经由因特网)与电子设备100进行通信的远程服务器处的对象暂存器(未示出)进行比较。对象在对象暂存器中的位置是已知的，使得SLAM模块能够基于对象比较来生成环境地图。因此，由姿态传感器106生成的姿态能够基于传感器的组合，诸如IMU数据和SLAM绘图信息的组合。

存储器105是被配置成存储数据以供由处理器104访问的计算机存储器，诸如随机存取存储器(RAM)、闪速存储器或其组合。如能够领会的，存储器105可以表示多个存储器105。例如，存储在存储器105中的数据与下述各种应用和/或功能实体的操作相关联。

在图1的示例中，存储器105存储AR对象(例如AR对象115和116)，有时称为“粘贴物(sticker)”，以供经由显示器110显示。AR对象的示例能够包括图形图像(例如，来自电影、电视秀、音乐家等的人物的图像)、表情符号、卡通人物、天气图像、生成的文本等。在一些实施例中，AR对象可由处理器104修改。例如，AR对象中的一个或多个能够包括可以由处理器104改变的可修改文本字符串、其中颜色能够由处理器104改变的一个或多个颜色特征，方位能够与其中定位能够由处理器104改变的AR对象中的一个或多个相关联，照明可以与其中能够改变照明的AR对象中的一个或多个相关联等。

在操作中，处理器104将由相机108捕获的图像与一个或多个AR对象组合以生成组合的图像(例如，组合的图像118)并且将该组合的图像显示在显示器110处。在一些实施例中，处理器104通过将所捕获的图像分割成前景像素和背景像素来生成组合的图像。为了分割图像，处理器104能够应用任何图像分割方法或其组合，包括像素阈值处理、数据聚类、运动和交互式分割、基于压缩的分割、基于直方图的分割、边缘检测、双重聚类、区域增长、偏微分方程分割(例如，参数、水平集或快速行进)、变分分割、分水岭变换、基于模型的分割、多尺度分割、半自动分割、可训练的分割、多谱分割等。例如，在至少一个实施例中处理器104采用分割或其他对象识别技术来识别捕获的图像(例如，图像108)的前景中的一个或多个图形，诸如自我照片(“自拍照”)中的用户的图形。处理器104将表示所识别的图形的像素识别为前景像素并且将所捕获的图像的所有其他像素识别为背景像素。处理器104通过将所选择和修改的AR对象与所捕获的图像108合成来生成组合的图像118。

在一些实施例中，处理器104基于一个或多个场境线索或其组合来选择和修改AR对象以供显示，其中，能够基于由相机102捕获的图像、通过由姿态传感器106生成的姿态信息、通过经由网络接收到的信息(例如，经由互联网接收到的天气信息)、从电子设备100的传感器接收到的传感器信息(例如，经由一个或多个麦克风接收到的声音信息)等或者通过其任何组合来生成场境线索。为了经由示例图示，如果处理器104接收到指示电子设备100的位置中的下雨天气的天气信息，则处理器104能够选择表示云或雨的AR对象。如果处理器104接收到指示电子设备100的环境中的响噪声的信息，则处理器104能够选择指示砰！声音的对象。

在一些实施例中，处理器104能够基于检测到的在由相机102捕获的影像中识别的一个或多个人的情绪来选择AR对象。为了识别情绪，处理器104能够执行识别用户脸上的点并且基于所识别的点之间的指定关系来识别情绪的一种或多种面部和情绪辨识算法。例如，点之间的关系能够指示人在微笑、皱眉头或者表达其他情绪。能够基于识别的情绪来选择或者修改的AR对象的示例包括：

参考图2，示出了根据各种实施例的联网环境200。联网环境200包括具有一个或多个客户端设备(未示出)的电子设备100和网络209。网络209包括例如因特网、内部网、外部网、广域网(WAN)、局域网(LAN)、有线网(LAN)、有线网络、无线网络或其他合适的网络等，或两个或更多个此类网络的任何组合。

根据各种实施例，可以在电子设备100中执行各种应用和/或其他功能性。另外，各种数据被存储在电子设备100可访问的存储器105中。在一些实施例中，电子设备100被配置成捕获图像108并且采用处理器104来从图像108获得一个或多个场境线索。例如，从图像108获得的场境线索可以包括人、面部表情、声音、位置、时间、日期、活动、天气信息、项目或其组合。为此，图像108可以包括人、一群人、自拍图像、图像中描绘的人的心情。例如，图像108可以描绘正在微笑的人。在此示例中，电子设备100可以被配置成实现处理器104以获得指示与人相关联的快乐心情的场境线索。在一些实施例中，AR对象被配置成响应于与相机视图中描绘的用户相关联的面部表情的改变而动态地反应。例如，响应于检测到相机视图中描绘的人，AR对象可以被配置成确认该人，使得AR对象被配置成点头、挥手、微笑和/或执行其他手势。附加地，AR对象可以被配置成对与人脸相关联的面部表情或运动的改变做出响应，该改变诸如眨眼、抬眉、上下眼动、左右眼动、飞蛾皱眉、嘴笑和/或与用户脸相关联的其他运动。例如，响应于检测到用户的微笑，AR对象可以被配置成微笑。在其他实施例中，场境线索可以与诸如例如食物、艺术品、水、植物、衣物制品、动物和/或任何其他策展对象的对象或项目相关联。在其他实施例中，场境线索可以与诸如度假、购物、跑步、游泳、远足、参加体育赛事、参加音乐会和/或其他活动的活动相关联。在仍然其他的实施例中，场境线索可以与诸如例如国家、州、家庭、办公室、学校、餐馆、特定地标和/或其他位置的位置相关联。在另一实施例中，场境线索可以与诸如例如一天中的时间、一周中的一天、一年中的一月、假期和/或时间相关联。在一些实施例中，场境线索可以与诸如例如乐器、人们、歌曲、音乐和/或其他声音的声音相关联。在其他实施例中，场境线索可以与诸如例如雪、雨、季风、雷电、闪电、龙卷风、飓风、日落、日出和/或其他天气信息的天气信息相关联。在仍然其他的实施例中，场境线索可以基于由与电子设备100相关联的相机捕获的一个或多个图像、由与电子设备相关联的一个或多个传感器生成的信息、经由与电子设备100相关联的网络209接收到的信息或其组合。

在一些实施例中，响应于接收到与图像108相关联的场境线索，处理器104从存储器105中识别至少一个增强现实(AR)对象115、116，使得AR对象115、116是基于由电子设备100接收到的场境线索而识别的。在一些实施例中，AR对象115、116是基于由用户进行的选择而识别的。

如以上所说明的，在识别AR对象115、116时，处理器104还被配置成将图像108与所识别的AR对象115、116组合并且将组合的图像118显示在显示器110处。在一些实施例中，处理器104可以采用图像分割技术来生成组合的图像118。

附加地，在一些实施例中，处理器104可以由电子设备100利用来基于一个或多个场境线索中的改变来改变和/或修改所识别的AR对象115、116。在其他实施例中，一旦AR对象115、116由处理器104识别，处理器104还被配置成基于与所识别的AR对象115、116相关联的置信度量来对所识别的AR对象115、116进行排名并且基于排名呈现AR对象115、116的集合。在其他实施例中，电子设备100可以被配置成接收从诸如例如与电子设备相关联的姿态传感器106的传感器获得的一个或多个场境线索。

图3图示依照一些实施例的示例性排名场境300。例如，在一些实施例中，基于与场境线索303(a)-303(n)相关联的置信度量来对场境线索303(a)-303(n)进行排名。在一些实施例中，置信度量指示场境线索与所识别的AR对象之间的相关性的程度。为此，由处理器104(图1)识别的场境线索303(a)-303(n)基于其对应的置信度量被排名为通用到特定谱。在一些实施例中，可以将具有较低的置信度量的场境线索303(a)识别为通用场境线索。可以将具有较高的置信度量的场境线索303(n)识别为特定场境线索。例如，在一些实施例中，场境线索303(a)-303(n)可以包括人、对象、活动、位置、日期、时间、声音、天气和/或场境线索。对于场境线索303(a)-303(n)中的每一个，处理器104可以被配置成计算置信度量。在一些实施例中，可以通过将与每个场境线索相关联的相关信号加在一起并且按场境指派分数来计算置信度量。作为示例，置信度量可以基于与特定场境相关联的场境线索的数量。类似地，在这些实施例中，处理器104被配置成基于与AR对象115、116相关联的置信度量来对所识别的AR对象115、116(图1)进行排名。同样地，在这些实施例中，可以将所识别的通用AR对象排名得低于所识别的特定AR对象。在这些实施例中，处理器104可以被配置成基于排名呈现所识别的AR对象115、116以供在显示器110上渲染。

接下来参考图4，示出了依照一些实施例的提供用于基于场境线索选择增强现实对象以供在真实环境的图像中显示的方法的一个示例的流程图。应理解，图4的流程图仅仅提供被采用来如本文所述基于场境线索选择增强现实对象以供显示的许多不同类型的布置的示例。作为替代方案，图4的流程图被视为描绘根据各种实施例的在电子设备中实现的方法的步骤的示例。应理解，该流程能够取决于特定情况而不同。另外，应理解，除了本文讨论的流程以外还采用其他流程。

在框403中开始，电子设备100(图1)经由对被配置成从图像108中识别场境线索303(a)-303(n)的处理器104(图1)的利用来获得与图像108相关联的场境线索303(a)-303(n)(图3)。例如，在一些实施例中，电子设备100包括捕获真实环境的图像的相机。在框406中，电子设备100采用处理器104来基于场境线索检测场境，该场境线索诸如识别的用户表情、从所捕获的图像中识别的对象或图形、接收到的天气或其他环境信息、一天中的时间、声音信息等。接下来，在框409中，响应于接收到与图像108相关联的场境线索，电子设备100被配置成实现处理器104以从存储器105中识别和/或选择至少一个增强现实(AR)对象115、116，使得AR对象115、116是基于由电子设备100接收到的场境线索而识别的。在框412中，处理器104被配置成基于与AR对象115、116相关联的置信度量来对所识别的AR对象115、116(图1)进行排名。同样地，在这些实施例中，可以将所识别的通用AR对象排名得低于所识别的特定AR对象。在这些实施例中，处理器104可以被配置成基于排名呈现所识别的AR对象115、116以供在显示器110上渲染。在框415中，电子设备100利用处理器104来将所识别和/或所选择的AR对象115、116与所捕获的图像合成，以生成组合的图像以供显示。在框415中，电子设备100实现处理器104以渲染组合的图像118以供在与电子设备100相关联的显示器100处显示。

在一些实施例中，上述技术的某些方面可以由执行软件的处理系统的一个或多个处理器来实现。软件包括在非暂时性计算机可读存储介质上存储或以其他方式有形地体现的一个或多个可执行指令集。软件能够包括指令和某些数据，当由一个或多个处理器执行时，这些指令和某些数据操纵一个或多个处理器以执行上述技术的一个或多个方面。非暂时性计算机可读存储介质能够包括例如磁盘或光盘存储设备、诸如闪速存储器的固态存储设备、高速缓存、随机存取存储器(RAM)或一个或多个其他非易失性存储器设备等。存储在非暂时性计算机可读存储介质上的可执行指令可以采用源代码、汇编语言代码、目标代码、或由一个或多个处理器解释或者以其他方式可执行的其他指令格式。

计算机可读存储介质可以包括可由计算机系统在使用期间访问以向计算机系统提供指令和/或数据的任何存储介质或存储介质的组合。此类存储介质能够包括但不限于光学介质(例如，紧致盘(CD)、数字通用盘(DVD)、蓝光盘)、磁介质(例如，软盘、磁带或磁硬盘驱动器)、易失性存储器(例如，随机存取存储器(RAM)或高速缓存)、非易失性存储器(例如，只读存储器(ROM)或闪速存储器)或基于微机电系统(MEMS)的存储介质。计算机可读存储介质可以被嵌入在计算系统(例如，系统RAM或ROM)中，固定地附连到计算系统(例如，磁硬盘驱动器)，可移除地附连到计算系统(例如，光盘或基于通用串行总线(USB)的闪速存储器)，或者经由有线或无线网络耦合到计算机系统(例如，网络可访问存储(NAS))。

注意，并非以上在一般描述中描述的所有活动或元素都是必需的，特定活动或设备的一部分可能不是必需的，并且可以执行一个或多个另外的活动，或者包括除了所描述的元素之外的元素。更进一步地，列举活动的次序不一定是执行活动的次序。另外，已参考具体实施例描述了构思。然而，本领域的普通技术人员领会的是，在不脱离如以下权利要求中所阐述的本公开的范围的情况下，能够做出各种修改和改变。因此，说明书和各图将在说明性而不是限制性意义上考虑，并且所有此类修改旨在被包括在本公开的范围内。

已在上面关于具体实施例描述了益处、其他优点和问题的解决方案。然而，益处、优点、问题的解决方案以及可以使任何益处、优点或解决方案发生或者变得更加显著的任何特征不应被解释为任何或所有权利要求的关键、必需或必要的特征。此外，以上公开的特定实施例仅是说明性的，因为可以以对受益于本文教导的本领域的技术人员而言显而易见的不同但等效的方式修改和实践所公开的主题。除如以下权利要求中所描述的以外，不旨在限于本文所示的构造或设计的细节。因此显然，可以更改或者修改以上公开的特定实施例，并且所有此类改变都被认为在所公开的主题的范围内。因此，本文寻求的保护是如以下权利要求中所阐述的。

在下文中描述一些示例。

示例1：一种方法，包括：

在电子设备处获得一个或多个场境线索；

基于所述一个或多个场境线索从与所述电子设备相关联的存储器识别至少一个增强现实(AR)对象；

将图像与所识别的至少一个AR对象组合；以及

将所组合的图像显示在与所述电子设备相关联的显示器处。

示例2：根据示例1所述的方法，其中，所述场境线索包括人、面部表情、声音、位置、时间、日期、活动、天气信息、项目或其组合。

示例3：根据示例1或2所述的方法，还包括使用图像分割来生成所组合的图像。

示例4：根据前述示例中的至少一个所述的方法，还包括基于所述一个或多个场境线索中的改变来改变所识别的至少一个AR对象。

示例5：根据前述示例中的至少一个所述的方法，还包括：

基于与所识别的至少一个AR对象相关联的置信度量来对所识别的至少一个AR对象进行排名；以及

基于所述排名呈现AR对象的集合。

示例6：根据前述示例中的至少一个所述的方法，还包括从所述图像中识别所述一个或多个场境线索。

示例7：根据前述示例中的至少一个所述的方法，还包括从与所述电子设备相关联的传感器接收所述一个或多个场境线索。

示例8：根据前述示例中的至少一个所述的方法，所识别的至少一个AR对象基于用户选择。

示例9：一种系统，包括：

存储器，所述存储器被配置成存储至少一个增强现实(AR)对象；

处理器，所述处理器被配置成将来自所述存储器的图像与所述至少一个AR对象中的识别的一个组合，其中，所述至少一个AR对象中的所识别的一个是基于与所述图像相关联的一个或多个场境线索而识别的；以及

显示器，所述显示器被配置成显示所组合的图像。

示例10：根据示例9所述的系统，其中，所述处理器被配置成响应于所述一个或多个场境线索中的改变而改变所述至少一个识别的对象。

示例11：根据示例9或10所述的系统，所述处理器还被配置成：

基于与所识别的至少一个AR对象相关联的置信度量来对所识别的至少一个AR对象进行排名；并且

基于所述排名呈现所识别的AR对象的集合。

示例12：根据示例9至11中的至少一个所述的系统，其中，所述场境线索包括人、面部表情、声音、位置、时间、日期、活动、天气信息、项目或其组合。

示例13：根据示例9至示例12中的至少一个所述的系统，所述处理器还被配置成从传感器获得所述一个或多个场境线索。

示例14：根据示例9至示例13中的至少一个所述的系统，所述处理器还被配置成采用图像分割来将所述图像与所识别的至少一个AR对象组合。

示例15：根据示例9至示例14中的至少一个所述的系统，所识别的至少一个AR对象基于用户选择。

示例16：一种包含可执行指令集的非暂时性计算机可读介质，所述可执行指令集用于操纵计算机系统以执行用于制作处理器的至少一部分的过程的一部分，所述处理器包括：

组合组件，所述组合组件被配置成将来自与电子设备相关联的存储器的图像与所识别的至少一个增强现实(AR)对象组合，所识别的至少一个AR对象是基于由所述电子设备接收的一个或多个场境线索而识别的；以及

显示器，所述显示器被配置成显示所组合的图像。

示例17：根据示例16所述的非暂时性计算机可读介质，所述一个或多个场境线索基于由与所述电子设备相关联的相机捕获的一个或多个图像、由与所述电子设备相关联的一个或多个传感器生成的信息、经由与所述电子设备相关联的网络接收到的信息或其组合。

示例18：根据示例16或17所述的非暂时性计算机可读介质，所述处理器还被配置成采用图像分割来生成所组合的图像。

示例19：根据示例16至示例18中的至少一个所述的非暂时性计算机可读介质，所述处理器还被配置成修改所识别的至少一个AR对象。

示例20：根据示例16至示例19中的至少一个所述的非暂时性计算机可读介质，基于所述一个或多个场境线索的改变来修改所识别的至少一个AR对象。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：迪亚内·王;保罗·科埃略;马修·吉尔根巴赫;阿什利·匹尼克;德鲁·希尔曼;马克·多奇特曼;苏德哈萨特瓦·博斯;萨曼莎·拉贾;史蒂芬·杜;布赖恩·柯林斯;塔勒克·汉尼·阿德尔-加瓦德;道格拉斯·缪尔;杰克逊·朗戈;杰伊·斯蒂尔;
专利申请人：谷歌有限责任公司;