掌桥专利:专业的专利平台
掌桥专利
首页

在2D或3D化身上动画化生理特性

文献发布时间:2023-06-19 18:35:48


在2D或3D化身上动画化生理特性

背景技术

随着化身变得更加真实,它们的使用变得更加广泛并且观察者往往会发现它们更值得信赖。然而,当化身如此逼真以至于小差异变得明显时,观察者往往会发现这样的化身令人厌恶和令人不安。为了使化身更可信和更真实,化身可以被渲染为包括对于创建更逼真的外观重要的生理信号。虽然计算机图形学界已经贡献了一些有价值的方法用于应用和放大化身的细微生理变化,但这样的方法往往只适用于放大源材料中已经存在的信号,而不能轻易地适应于动画化身或最初是静态的图像。

正是基于这些和其他一般考虑,本文所公开的方面已经被做出。此外,尽管相对具体的问题可以被讨论,但应当理解,这些示例不应局限于解决在背景技术或本公开的其他地方所标识的具体问题。

发明内容

根据本公开的示例,用于直接在化身和照片上动画化细微生理过程的方法被提供。更具体地,可以对模拟生理特性(诸如血流)的化身的外观进行基于生理的空间、颜色空间和时间修改。生理信号振幅(诸如血流信号振幅)非常小,对于观众很难“看到”。然而,具有基于生理学的血流动画的化身被认为比没有的化身更拟人化和更栩栩如生,并且操纵化身的心率改变了在观察者之间化身如何被接收。

根据本公开的至少一个示例,提供了一种用于将生理特性应用于视频的一部分的方法。该方法可以包括:接收视频序列的帧,接收生理信号,基于所接收的生理信号生成注意力掩码,其中该注意力掩码包括用于视频序列的帧的不同部分的、指示生理信号的强度的注意力权重,基于生理信号和注意力掩码生成像素调整值,以及将像素调整值应用于视频序列的帧中的被标识像素。

根据本公开的至少一个示例,提供了一种包括指令的计算机可读介质。当指令由处理器执行时,指令使处理器接收视频序列的帧,接收生理信号,基于所接收的生理信号生成注意力掩码,其中该注意力掩码包括用于视频序列的帧的不同部分的、指示生理信号的强度的注意力权重,基于视频序列的帧、生理信号、注意力掩码和与第一颜色相关联的颜色通道系数来生成针对第一颜色的阿尔法掩码,以及将所生成的针对第一颜色的阿尔法掩码与第二颜色的阿尔法掩码组合以生成输出帧。

根据本公开的至少一个示例,提供了一种用于将生理特性应用于视频的一部分的系统。该系统可以包括处理器和存储指令的存储器,指令在由处理器执行时使处理器:接收视频序列的帧,接收生理信号,基于所接收的生理信号生成注意力掩码,其中该注意力掩码包括用于视频序列的帧的不同部分的、指示生理信号的强度的注意力权重,基于生理信号和注意力掩码生成像素调整值,以及将像素调整值应用于视频序列的帧中的被标识像素。

上述一个或多个方面中的任何一个方面结合一个或者多个方面的任何其他方面。一个或多个方面中的任何一个方面如本文下文描述。

本发明内容被提供是为了以简化的形式介绍概念的选择,其将在下面的具体实施方式中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护主题的范围。示例的附加方面、特征和/或优点将在下面的描述中部分地阐述,并且部分地将从描述中显而易见,或者可以通过本公开的实践获知。

附图说明

非限制性和非穷举性示例参考以下附图被描述。

图1描绘了根据本公开的示例的涉及将生理特性应用于视频序列的细节;

图2描绘了根据本公开的示例的涉及训练第一机器学习模型的细节;

图3描绘了根据本公开的示例的涉及训练第二机器学习模型的细节;

图4描绘了根据本公开的示例的涉及将生理特性应用于视频序列的细节;

图5描绘了根据本公开的示例的涉及训练机器学习模型的方法;

图6描绘了根据本公开的示例的涉及将生理特性应用于视频序列的方法;

图7描绘了根据本公开的示例的包含生理特性的示例输出帧;

图8描绘了图示可以实践本公开的方面的计算设备的物理组件(例如,硬件)的框图;

图9A图示了可以实践本公开的方面的计算设备的第一示例;

图9B图示了可以实践本公开的方面的计算设备的第二示例;以及

图10图示了根据本公开的示例的用于处理数据的系统的架构的至少一个方面。

具体实施方式

在下面的详细描述中,参考了组成其一部分的附图,其中通过图示的方式示出了具体的实施例或示例。这些方面可以被组合,其他方面可以被利用,并且结构改变可以在不脱离本公开的情况下被做出。实施例可以作为方法、系统或设备来被实践。因此,实施例可以采取硬件实现、完全软件实现或结合软件和硬件方面的实现的形式。因此,以下详细描述不应被视为限制性的,并且本公开的范围由所附权利要求及其等同物限定。

有许多可以创建可信的化身的属性,诸如计算机生成的或合成生成的化身。将化身区分为健康人和僵尸(两者都可以移动)的区别在于化身充满活力的外观。类似地,人坐着不动的视频和照片的区别在于身体的细微动作,诸如眨眼、呼吸甚至脸红。随着化身变得越来越真实,人们发现他们越来越值得信赖,直到他们变得如此真实,以至于小的差异变得明显;在这一点处,人们可能会开始发现它们令人厌恶,这是一种被称为恐怖谷的现象。即使是在化身的外观中的微小差异也有助于创建更自然、逼真的外观。将生理信号视为与血流、呼吸和眨眼中的变化一样细微的生理信号也很重要,并且可以考虑基于外部因素(例如,环境的温度和化身的情绪状态)的信号。虽然观察者可能无法很轻易地“看到”或标识这些变化,但这样细微的变化会影响观察者对化身的感知和接受,诸如接受化身是真实的。尽管这些变化是细微的,但对真实人类数据的细微变化建模比使用简单的试探法产生更可信的效果。

例如,早期对化身的研究侧重于对化身移动和交流所需的最明显的行为进行建模,诸如:嘴型同步、头部姿势和面部表情。实验表明,当这些行为具有不自然的强度或动态时,或者当人工特征与人类特征之间不匹配时,人们能够很轻易发现。这样不自然的强度或动态以及不匹配的特征因素导致角色(如化身)看起来不太可信。最近的工作已经开始关注外表的更细微的方面。例如,研究人员已经开始对具有不同情绪表情的面部的血液灌注模式进行建模,并且开发了基于血液浓度级别的具有真实外观变化的人体皮肤的3D图形模型。然而,这些方法不对动态生理变化建模(诸如由于血流的灌注),和/或不适于以自然数据驱动的方式动画化现有的化身,甚至照片。

很少关注在化身上对人类生理的细微方面建模的一个原因是测量精确的空间和动态模式具有挑战性。例如,外围血流信号在皮肤的所有区域上都不是空间均匀的。在过去开发的大多数生理测量技术都关注点测量,如可穿戴设备中的光电体积描记传感器。热像成像(TI)、激光多普勒血流测量(LDF)和激光多普勒成像(LDI)都被用于捕获皮肤血流;然而,这些并非无处不在的设备。生物医学工程领域中的最新发展导致了一套被称为成像光体积描记术(iPPG)的技术。这些计算机视觉方法能够经由日常摄像机进行血流的非接触式测量。

成像PPG算法涉及从视频中随时间变化的像素强度的分析和从这些观察中恢复生理信号的无监督模型或监督模型,例如但不限于血容量脉搏(BVP)。在早期的方法中,在应用信号处理技术来恢复生理信号(诸如BVP信号)之前,像素的积极空间聚集被使用来提高信噪比。因此,这样的技术只能捕获皮肤的强度如何“全局”变化,而不是局部变化。最近,对血流或血液灌注进行建模的空间图已经被提出,血液灌注是任何组织区域随时间变化的速率。血液灌注与BVP信号的振幅成比例。这些方法中的一些方法使用来自心电图或脉搏血氧器的参考信号来映射每个视频中的BVP的强度。另一些人利用基于学习的方法,其他人利用基于学习的方法,当在具有真实血液脉搏测量的受试者的视频上被训练时,学习代表脉搏信号的“强度”的注意力权重。

根据本公开的示例,基于学习的方法允许直接从可能没有生理信号(诸如,血流信号、呼吸信号、血容量脉搏或其他生理信号)的视频帧制作化身的动画。作为可被添加到合成生成的化身的生理信号的示例,外围血容量脉搏具有在心率处的主频率分量和由压力波从心脏传播到身体周围和背部的方式产生的特征时间曲线。波形的形态包含关于健康和身份的重要信息。外围血容量脉搏也随生理需求随时间变化,并且不遵循简单的周期性正弦模式。此外,基于外部因素的信号可以被考虑,诸如环境的温度和情绪状态。例如,温度可能影响脉搏、血流或呼吸频率;这样的影响可以被反映在化身中。类似地,情绪状态可以被提供,使得与不同情绪状态相关联的生理变化(例如,脉搏、血流、呼吸频率)可以由化身更真实地反映。

脉搏或血流对身体的影响与由呼吸引起的影响不同。呼吸主要是经由身体的运动或变形被观察的,而血流引起的变化表现为颜色或反射率的变化,以及仅有很小的运动。

虽然计算机图形学界的进步已经导致了令人印象深刻的基于生理学的模型,该模型在皮肤中有多个半透明层,但这些模型捕获了光与皮肤的外层(即表皮和真皮层)相互作用时发生的次表面散射。从体内黑色素和血红蛋白浓度测量建立的皮肤的动态外观模型已经被提出。这些皮肤模型类似于用于成像光体积描记术、分析皮肤静态图像以及将图像分解为黑色素和血红蛋白层而开发的皮肤模型。虽然与出汗有关的皮肤外观变化已经被研究,其中模型被创建来捕获物理变化对皮肤反射光的影响,但这些研究只考虑了出汗前和出汗后单个图像的皮肤外观,而没有捕获面部细微的动态变化。因此,精确的空间轮廓和颜色变化的添加,然后忠实地对这些时间动态建模,将创建更逼真的化身。

除了对一维脉冲信号建模之外,本文给出的示例还对一维脉冲信号如何改变面部的外观进行建模。用于基于相机的灌注测量的许多方法通常噪声太多,以至于无法提供捕获脉冲信号如何跨面部变化的空间图。来自相机的当前灌注测量通常使用参考光体积描记(PPG)信号来过滤噪声并放大特定频带中的信号。它们要么使用从在较大区域上对许多像素进行空间平均而获得的参考信号,要么使用来自接触传感器的金标准脉搏血氧器信号。深度学习中的注意力机制已被证明在创建反映像素对给定标签贡献的权重的空间图方面非常有效。例如,这样的注意力机制可以在图像分类期间被使用来标识包含对特定类别标签有贡献的像素的图像的区域。它们还可以用于分割具有特定动态模式的区域,例如在活动标识中。代替使用参考iPPG信号来估计灌注,本公开的示例使用包含注意力机制的深度学习方法来直接学习面部区域中的哪些像素可能包含强iPPG信号,从而为我们提供通过面部的血液灌注的先验。

在示例中,用于将生理信号叠加到化身的框架可以包括但不限于直接从图像或视频帧对生理信号的空间映射、基于生理信号的一个或多个特性的颜色空间变化、以及生理信号的时间动态的复制和操纵。在一个示例中,在生理信号可以是血容量灌注的情况下,该框架可以包括直接从图像或视频帧空间映射血液灌注强度、基于血红蛋白吸收曲线的颜色空间变化以及BVP的时间动态的复制和操纵,包括收缩和舒张波形特性。

在一些方面,捕获生理信号(例如血流信号)的权重的经验结果被用于通知随着生理特性变化(例如血容量的变化)的颜色空间变化。虽然通常认为,由于血液呈红色,因此改变红色强度是一种很好的方法,但血液脉搏信号跨整个视觉光谱存在,并且绿色通道受血流影响最大。

根据本公开的示例,端到端的深度卷积注意力网络(CAN)可以用于使用时间信息和颜色信息来创建用于血流的空间分布模型。该模型可以使用具有真值生理信号作为标签的受试者视频以监督方式被训练。该模型的网络准确地学习来恢复脉搏信号以及推广到新面部。该模型可以生成经学习的注意力图,该注意力图捕获跨面部血流信号中的变化。然后,被训练的网络可以针对新面部(包括合成2D化身和合成3D化身的面部)恢复血液灌注热图。该模型不只是学习分割皮肤,而且对具有高灌注信号的像素(例如前额和脸颊)赋予更大的权重。

如图1描绘,根据本公开的示例,涉及将诸如生理时间信号的生理特性叠加到化身上的细节被提供。更具体地,包括视频的一个或多个输入图像108、112和116的视频序列104可以被提供给机器学习模型120。输入图像108、112和116可以对应于图像的时间序列。视频序列104可以对应于包括化身的视频,该化身被渲染用于一个或多个特定目的,诸如向用户提供信息。在一些示例中,视频序列104可以对应于诸如响应于用户选择而实时渲染的视频。在一些示例中,视频可以包括描绘真实个体的图像的序列,其中用户希望改变所描绘的个体的现有生理特性。

视频序列104可以被提供给机器学习模型120;机器学习模型120可以包括但不限于模型文件124和权重文件128。在训练机器学习模型之后被创建的并且用于对新数据进行预测的人工制品被称为模型。例如,在训练机器学习模型(诸如卷积注意力网络(CAN)或其他深度神经网络(DNN))之后,机器学习模型120被输出为包含CAN层的模型文件124和权重文件128,该权重文件128包括要被应用于存储在模型文件124中的机器学习结构的各种权重。在一些示例中,机器学习模型120可以具有文件格式,如图1中所描绘的并且如上所述。在一些示例中,机器学习模型120可以被实施为软件的另一部分和/或被实施为被导入到图形或视频处理应用中的滤波器,以将生理特性应用于视频序列104中描绘的化身或人。

当每个帧被提供给机器学习模型120时,机器学习模型120可以输出注意力掩码132。注意力掩码132可以对应于具有与输入图像108相同或相似尺寸的掩码。注意力掩码可以提供用于标识和/或寻址输入图像108的特定像素的机制,在将生理特性应用于输入图像时这些特定像素将被修改。注意力掩码132可以基于由机器学习模型120基于输入图像108提取或以其他方式标识的特征,其中这样的特征被标识为输入图像108的要被生理特性修改的区域或部分。在示例中,生理特性可以是血容量脉搏、脸红、眨眼和/或呼吸中的一项或多项。注意力掩码132可以将较高的像素权重136分配给具有较强信号的皮肤区域,诸如面部的要用生理特性增强的皮肤区域。注意力掩码中的每个像素权重136或针对每个像素的加权可以对应于输入图像108的像素。

与输入图像108相关联的颜色空间可以在144处利用像素权重136和生理时间信号130被增强或修改。在示例中,生理时间信号130可以对应于血容量脉搏,并且可以等于具有振幅和频率的波形。在一些示例中,生理时间信号130可以对应于任何生理特性,其可以被表达为信号,例如呼吸波形、眨眼波形、以及使用户脸红的波形或触发输入。备选地或附加地,生理时间信号130还可以包括一个或多个信号,其基于外部因素(例如环境的温度和情绪状态)影响生理特性。例如,温度可以影响脉搏、血流或呼吸频率;这样的影响可以基于外部因素或参数被反映在化身中。类似地,情绪状态可以被提供为外部因素或参数,使得与不同情绪状态相关联的生理变化(例如,脉搏、血流、呼吸频率)可以被化身更真实地反映。在一些示例中,通道颜色系数134可以与生理时间信号特性相关联或以其他方式基于生理时间信号特性。也就是说,如果生理时间信号130与呼吸波形或其他特性相关联,则通道颜色系数134将指示该特性。在示例中,针对每个颜色通道,所产生的颜色通道帧或阿尔法掩码可以基于从注意力掩码获得的相对应的注意力权重、生理时间信号130和通道颜色系数134而被生成。因此,针对视频序列104的每一帧,三个颜色通道帧148(例如,红、绿和蓝)可以被生成,并且可以被合成在一起以生成输出帧152,其中输出帧152是由生理时间信号130增强的输入图像108的增强版本。

图2提供了根据本公开的示例的关于机器学习结构216的附加细节,该机器学习结构被用于基于训练数据204构建机器学习模型244,训练数据204包括视频片段,诸如除了生理信号212和220之外的视频片段208和214。机器学习结构216可以用多个视频片段208/214来训练,其中每个视频片段208/2014包括多个图像/帧。此外,机器学习结构216可以用特定于视频片段中描绘的每个个体的生理信息来训练。例如,视频片段208可以包括描绘个体的多个帧;在机器学习结构216处接收的生理信号212与视频片段208中描绘的个体相关联。作为一个示例,生理信号212可以是血容量脉搏;这样的信号可以利用生理测量技术(例如,如先前描述的光电体积描记传感器、热像成像(TI)、激光多普勒血流测量(LDF)、激光多普勒成像(LDI)和/或脉搏血氧器)从一个或多个接触式或非接触式的设备或传感器获取。类似地,其他生理信号可以包括脸红、眨眼和/或呼吸频率,并且可以用相同或类似的传感器或设备被获取。类似地,影响生理特性(例如温度和情绪状态)的其他因素可以被获取。作为另一示例,不同于视频片段208的视频片段214可以包括描绘个体的多个帧;在机器学习结构216处接收的生理信号220与视频片段214中描绘的个体相关联。生理信号220可以是血容量脉搏;这样的信号可以利用生理测量技术(例如,如先前描述的光电体积描记传感器、热像成像(TI)、激光多普勒血流测量(LDF)、激光多普勒成像(LDI)和/或脉搏血氧器)从一个或多个接触式或非接触式的设备或传感器获取。类似地,其他生理信号可以包括脸红、眨眼和/或呼吸频率,并且可以用相同或类似的传感器或设备获取。类似地,影响生理特性的其他因素(例如温度和情绪状态)可以被获取。机器学习结构216可以利用视频片段208和视频片段214以及相应的生理信号212和220以及在一些情况下影响生理特性的其他因素来训练。应当理解,视频片段208、生理信号212、视频片段214和生理信号220只是被用于训练机器学习结构216的训练数据204的一部分。

视频片段214的第一帧224可以在机器学习结构216处被接收用于训练。第一帧224可以被进行预处理,诸如但不限于归一化,包括减去图像平均值和归一化图像内的对比度。生理信号212/220可以被进行预处理和/或滤波。在一些示例中,机器学习结构216是卷积注意力网络,其可以被训练以例如从视频片段208和214恢复生理信号。在一些示例中,生理信号可以是从视频片段208和214中的一个或多个恢复的脉搏信号。因此,一旦机器学习结构216已经被训练,前三层228、232和236可以被用于恢复生理特定掩码240,针对给定帧(例如,224)的生理信号可以从该生理特定掩码240被恢复。例如,生理信号可以是血容量脉搏,并且恢复的血容量脉搏可以从生理特定掩码240(在这种情况下灌注掩码)恢复。一旦机器学习结构216已经被训练,机器学习模型可以以文件格式输出,文件格式包括与模型权重252一起存储在模型文件248中的模型结构。

图3提供了根据本公开的示例的涉及训练机器学习结构304以基于包括训练图像308和训练生理信号312的样本数据来构建机器学习模型344的附加细节。机器学习结构304可以作为处理器可执行指令被存储在文件中,使得当与机器学习结构302相关联的算法集合被处理器执行时,包括各种层和优化函数和权重的机器学习模型344被构建。也就是说,包括机器学习结构304的体系结构的各种层可以利用训练图像308进行迭代训练,以恢复存在于训练图像308中的生理信号336。然后可以在340处通过将所恢复的生理信号336与已知的训练生理信号312进行比较以确定误差量来验证所恢复的生理信号336。包括机器学习结构304和与机器学习结构304相关联的一个或多个参数的各个层可以被训练以标识和获得生理信号336。在许多迭代或轮次之后,具有与迭代相关联的最小误差量的机器学习结构304的配置(例如,与每一层相关联的各个层和权重)可以被用作机器学习模型344,其中机器学习模型的结构可以被存储在模型文件348中,并且与一个或多个层和/或配置相关联的权重可以被存储在模型权重文件352中。

根据本公开的示例,机器学习结构304可以包括两条路径;与运动模型320相关联的第一路径和与外观模型相关联的第二路径。运动模型320的架构可以包括例如具有128个隐藏单元的九个层。此外,平均池化和双曲正切可以被利用作为激活函数。运动模型320的最后一层可以包括线性激活单元和均方误差(MSE)损失。外观模型324的架构可以与运动模型320相同,但没有最后三层(例如,层7、层8和层9)。除了一维生理信号之外,机器学习结构304还可以输出注意力掩码,诸如对于视频片段的每个视频帧的注意力掩码328/332。注意力掩码指示输入图像的哪个部分或哪个区域被用于计算恢复的生理信号,诸如血容量脉搏。

运动模型320允许机器学习结构304区分由噪声引起的强度变化,例如来自由生理特性引起的细微特征强度变化的运动。运动表征从两个连续视频帧314(例如,C(t)和C(t+1))的输入差异被计算。环境照明在面部上可能不均匀,并且照明分布随着面部与光源的距离而变化,并且可能影响监督学习方法。因此,为了减少这些照明噪声源,帧差异首先在318处基于皮肤反射模型使用AC/DC归一化而被归一化。通过减去像素平均值并除以标准偏差,可以将归一化应用于整个视频序列一次。此外,每一层(层1至层5)可以是不同大小或相同大小的卷积层,并且可以被用于标识通过机器学习结构304的训练所利用的各种特征图。在示例中,经归一化的差异318可以对应于三个颜色通道(例如红色、绿色和/或蓝色通道)的归一化的差异。备选地或附加地,RGB以外的颜色空间可以被使用。例如,包括亮度和色度通道(例如,YUV、Y’UV、YCrCb、Y’CrCb的颜色空间可以被使用。类似地,色调、饱和度和值(HSV)颜色空间可以被使用。运动模型320的各个层可以包括各种大小和颜色通道的特征图和/或各种卷积。

外观模型324允许机器学习结构304学习图像中的哪些区域对于计算强生理信号(例如iPPG信号)可能是可靠的。外观模型324可以从每个输入视频帧的纹理和颜色信息生成表征。外观模型324引导运动表征从输入图像中包括的各个区域恢复iPPG信号,并且进一步将它们与其他噪声源区分。外观模型324可以将单个图像(C(t)或视频的帧作为输入。也就是说,视频或图像316的单个帧可以被用作各个层(层1至层6)的输入。

所恢复的生理信号336可以与训练生理信号312进行比较,并且在340处被验证。一旦令人满意的误差量被达到,机器学习结构304可以作为机器学习模型344被输出,其中机器学习模型344的结构可以被存储在模型文件348中,并且机器学习模型的各种权重被存储在与图3相关联的位置中,尽管描述了特定的深度学习实现,应当理解,机器学习结构可以被修改、调整或以其他方式改变,以实现与检测生理信号(例如血容量脉搏)相关联的最大精度。

图4描绘了与执行机器学习模型412以及将生理特性应用或以其他方式叠加到输入视频片段的一个或多个帧相关联的附加细节。也就是说,诸如计算设备402之类的设备可以执行或使机器学习模型412被执行,以基于来自输入视频404的输入图像408来恢复一个或多个注意力掩码424。也就是说,机器学习模型412,也称为空间分布模型,可以利用模型文件416中的机器学习模型结构和模型权重420来获得注意力掩码424,该注意力掩码包括用于输入帧或输入图像408中的每个像素的至少一个权重或缩放系数。如前所述,注意力掩码424可以对应于具有与输入图像408的相同或相似尺寸的掩码。注意力掩码424可以提供用于标识和/或寻址输入图像408的特定像素的机制,在将生理特性应用于输入图像时这些特定像素要被修改。注意力掩码424可以基于由机器学习模型412基于输入图像408提取的特征或以其他方式标识的特征,其中这样的特征被标识为输入图像408的要被生理特性修改的区域或部分。在示例中,生理特性可以是血容量脉搏、脸红、眨眼和/或呼吸中的一项或多项。注意力掩码424可以将较高的权重分配给具有较强信号的皮肤区域,诸如那些要用生理特性增强的面部的皮肤区域。注意力掩码中针对每个像素的每个权重或加权可以对应于输入图像408的像素。此外,注意力掩码可以随视频的每一帧而变化。

计算设备402还可以利用颜色空间模型432来确定和/或将颜色通道系数438应用于输入图像408的每个像素;在一些实例中,颜色通道系数438被预编程或以其他方式包括在颜色空间模型432中;在一些实例中,颜色通道系数438可以作为外部输入被提供,诸如颜色通道系数434。更具体地,颜色通道系数434和/或438可以基于用户和/或机器学习模型偏好被调整或修改。颜色通道系数可以特定于生理信号436。例如,当生理信号涉及脸红时,颜色通道系数434和/或438可以不同于特定于血容量脉搏的颜色通道系数434和/或438。除了颜色空间模型432和空间分布模型(也称为机器学习模型412)之外,计算设备402还可以执行时间动态模型440,其接收生理信号作为输入。生理信号可以是与用户期望的与生理特性相关联的频率、持续时间和/或幅度相对应的波形。例如,生理信号436可以对应于心率,并且可以被提供为心率波形,包括收缩期、舒张期和降中峡部分。在一些示例中,心率波形可以包括表示心房去极化的P波;表示心室的去极化的QRS复合波;以及表示心室复极的T波。备选地或附加地,生理信号可以对应于呼吸波形、脸红波形和/或眨眼波形。尽管特定的波形已经被标识,但是应当理解,可以以某种方式和/或持续时间触发的任何生理特征可以作为生理信号436被提供并叠加在输入图像408和/或输入视频404的帧和/或图像上。此外,由于生理信号436可能随时间变化,所以对于视频的连续帧,生理信号的值可能不同。生理信号436可以取决于或以其他方式基于视频的帧。

在一些实例中,外部因素430可以修改空间分布模型412(空间分布模型)、颜色空间模型432和时间动态模型440中的一个或多个模型。例如,当外部因素是温度特性(例如寒冷环境)时,一个或多个外部因素可以使机器学习模型412(空间分布模型)、颜色空间模型432和时间动态模型440中的一个或多个模型输出不同的权重或系数,以更真实地反映寒冷环境。例如,在寒冷的环境中,脉搏可能会变慢,更少的血液会流动,和/或肤色可能会改变。类似地,在化身处于温暖环境和/或正在进行身体活动的情况下,更多血液流动可能会影响注意力掩码(例如注意力掩码424)。此外,心率和/或呼吸频率可能会增加,从而进一步影响注意力掩码424、颜色通道系数438和/或生理信号444。在一些示例中,化身的位置(例如,上下颠倒)可以影响血流和池化,并且可以用外部因素430来解释。此外,外部因素可以反映化身的情绪状态(例如,快乐、悲伤、激动、害怕);这可以使机器学习模型412(空间分布模型)、颜色空间模型432和时间动态模型440中的一个或多个模型输出不同的权重或系数,以更真实地反映化身的状态。

如图4还描绘的,生理掩码覆盖428可以针对每个颜色通道被生成。生理掩码覆盖428可以表示每个像素位置(例如,输入图像108中的x、y位置)要调整的一个或多个系数和/或加权因子。例如,针对位于坐标x、y和时间t处的像素的红色通道可以如下计算:

R′

其中R

在一些示例中,向量(例如运动向量)可以解释为像素动态(例如像素移动和像素平移)。例如,由一个或多个像素表示的区、部分或区域可以从第一帧中的第一位置移动到第二帧中的第二位置。因此,矢量可以提供用于标识和/或寻址输入图像的特定像素的机制,在将生理特性应用于输入图像时,这些特定像素移动或平移。例如,流经静脉、动脉和/或皮肤下的血液可能导致静脉、动脉、和/或肌肤在一个或多个方向上扭曲。向量可以解释帧之间的这样的移动或平移。

向量可以利用注意力掩码或其他掩码被标识,注意力掩码或者其他掩码提供了用于标识和/或寻址输入图像408的特定像素的机制,在将生理特征应用到输入图像时这些特定像素要被修改。掩码可以基于由机器学习模型412基于输入图像408提取或以其他方式标识的特征,其中这样的特征被标识为输入图像408的要由生理特性修改的区域或部分。在示例中,生理特性可以是血容量脉搏、脸红、眨眼和/或呼吸中的一个或多个。掩码可以指示与具有较强信号的皮肤区域中的像素相对应的方向和幅度,诸如要用生理特性增强的面部的那些皮肤区域。掩码中的每个矢量可以对应于输入图像408的像素,并且可以被认为是像素调整值。此外,注意力掩码可以随着视频的每一帧而变化。

图5描绘了根据本公开的示例的用于训练机器学习结构的方法500的细节。方法500的步骤的一般顺序如图5所示。通常,方法500在504处开始,并且在520处结束。方法500可以包括更多或更少的步骤,或者可以将步骤的顺序安排为与图5中所示的步骤不同。方法500可以作为由计算机系统执行并编码或存储在计算机可读介质上的一组计算机可执行指令来执行。此外,方法500可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)或其他硬件设备相关联的门或电路来执行。在下文中,方法500将参考结合图1至图4描述的系统、组件、模块、软件、数据结构、用户界面等被解释。

该方法在504处开始,其中流程可以前进到508。在508处,训练数据可以被接收。训练数据可以对应于训练数据204,并且可以包括用于训练机器学习结构的视频片段,以基于生理输入信号和来自视频片段的多个输入帧或图像准确地检测或预测注意力掩码。

一旦训练数据在508处被接收,该方法可以前进到512,其中机器学习结构可以基于训练数据被训练。例如,如参照图3所讨论,机器学习结构可以包括两条路径。第一条路径可以与运动模型相关联,并且第二条路径与外观模型相关联。运动模型的架构可以包括各种层和隐藏单元,并且可以包括可以用作激活函数的平均池化和双曲正切。外观模型的架构可以与运动模型相同或相似。除了诸如血容量脉搏之类的一维生理信号之外,机器学习结构还可以为视频片段中的每个视频帧输出注意力掩码,诸如注意力掩码328/332。注意力掩码指示输入图像的哪个部分或哪些区域被用于计算所恢复的生理信号,例如血容量脉搏。

运动模型允许机器学习结构区分由噪声引起的强度变化,例如,从由生理特性引起的从细微特征强度变化的运动。运动表征从两个连续视频帧(例如C(t)和C(t+1))的输入差被计算。外观模型允许机器学习结构学习图像中的哪些区域对于计算强生理信号(诸如iPPG信号)可能是可靠的。外观模型可以从每个输入视频帧的纹理和颜色信息生成表征。外观模型引导运动表征从输入图像中包括的各个区域恢复iPPG信号,并进一步将它们与其他噪声源区分。外观模型可以将单个图像或视频的帧作为输入。

所恢复的生理信号可以与训练生理信号进行比较,并且可以用测试数据来验证。一旦令人满意的误差量被实现,机器学习结构可以在516处被输出为机器学习模型,其中机器学习模型的结构可以被存储在模型文件中,并且机器学习模型中的各种权重被存储在与权重文件相关联的位置中。一旦模型已经被生成,方法500可以在520处结束。

图6描绘了根据本公开的示例的用于将生理信号叠加或以其他方式应用于视频片段的方法600的细节。方法600的步骤的一般顺序如图6所示。通常,方法600在604处开始,并且在632处结束。方法600可以包括更多或更少的步骤,或者可以将步骤的顺序安排为不同于图6中所示的步骤。方法600可以作为由计算机系统执行并编码或存储在计算机可读介质上的一组计算机可执行指令来执行。此外,方法600可以由与处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、片上系统(SOC)或其他硬件设备相关联的门或电路来执行。在下文中,方法600将参考结合图1至图5描述的系统、组件、模块、软件、数据结构、用户界面等被解释。

该方法在604处开始,其中流程可以前进到608处。在608处,包括多个图像的视频片段可以被接收。这样被接收的图像可以对应于视频片段中的图像,这些图像将基于生理信号(诸如生理信号436)的应用而被修改。方法600可以前进到612处,其中视频帧或图像可以被提供给经训练的模型。输入帧或图像可以例如根据运动模型320被处理。也就是说,机器学习模型(也被称为空间分布模型)可以利用机器学习模型来获得注意力掩码,该注意力掩码包括针对输入帧或输入图像中的每个像素的至少一个权重或缩放系数。如前所讨论,注意力掩码可以对应于具有与输入图像相同或相似尺寸的掩码。注意力掩码可以提供用于标识和/或寻址输入图像的特定像素的机制,在将生理特性应用于输入图像时这些特定像素要被修改。注意力掩码可以基于由机器学习模型基于输入图像提取或以其他方式标识的特征,其中这样的输入特性被标识为输入图像的要由生理特性修改的区域或部分。在示例中,生理特性可以是血容量脉搏、脸红、眨眼和/或呼吸中的一项或多项。注意力掩码可以将较高的权重分配给具有较强信号的皮肤区域,诸如要用生理特性增强的面部的那些皮肤区域。注意力掩码可以标识图像或视频帧内的用户的面部区域,在该面部区域中应用生理信号。注意力掩码中针对每个像素的每个权重或加权可以对应于输入图像的像素,并且可以在616处被提取。

然后,该方法可以前进到620处,其中颜色系数和生理信号可以被获取。例如,颜色空间模型可以确定要应用于输入图像的每个像素的颜色通道系数。在一些实例中,颜色通道系数被预编程或以其他方式包括在颜色空间模型中;在一些实例中,颜色通道系数可以作为外部输入(诸如颜色通道系数)被提供。在一些实例中,基于用户和/或机器学习模型偏好,颜色通道系数可以被调整或被修改。除了颜色空间模型和空间分布模型(也被称为机器学习模型)之外,计算设备还可以执行接收生理信号作为输入的时间动态模型。生理信号可以是与用户所期望的与生理特性相关联的频率、持续时间和/或幅度相对应的波形。例如,生理信号可以对应于心率,并且可以被提供为心率波形,心率波形包括收缩期、舒张期和降中峡部分。备选地或附加地,生理信号可以对应于呼吸波形、脸红波形和/或眨眼波形。尽管特定的波形已经被标识,但是应当理解,可以以某种方式和/或持续时间触发的任何生理特性可以作为生理信号被提供并被叠加在输入图像和/或输入视频的帧和/或图像上。

在624处,方法600可以基于注意力权重,针对每个颜色通道,将颜色系数和生理信号应用于当前帧。例如,针对每个颜色通道,生理掩码覆盖可以被生成,其中生理掩码覆盖表示每个像素位置(例如,输入图像中的x、y位置)要被调整的一个或多个系数和/或加权因子。在一些示例中,针对每个颜色通道,可以利用适当的注意力权重、颜色系数和基于生理输入信号的时间增强来生成颜色掩码或阿尔法掩码。然后颜色通道可以被组合,并且在628处,增强帧或增强图像可以被提供作为输出。方法600可以在632处结束。

图7描绘了根据本公开的示例的涉及将血容量脉搏生理信号应用到一系列输入帧704的示例应用。更具体地,输入帧704可以包括多个图像;多个图像可以例如与血容量脉搏信号一起被输入到计算设备402。计算设备402可以提供用血容量脉搏信号增强的一系列输出帧708。扫描线712在时间上被表示在曲线图716上。随着时间的推移,扫描线可能会取决于被分析的输出帧而改变,如720所描绘。此外,曲线图716描绘了像素颜色随时间的变化。像素颜色的变化也可以在像素轨迹724中示出。例如,像素轨迹724通常标识红色通道736、绿色通道728和蓝色通道732。像素轨迹的峰值对应于增强的图像和/或图像像素。例如,在输入帧或输入图像描绘化身的情况下,化身的生理信息可能不存在,如放大的扫描线718所描绘。然而,当在输入帧704中将血容量脉搏应用到化身时,曲线图716描绘了峰值强度或颜色,指示血容量脉搏已经被应用。因此,输出帧708中的化身可以显得更友好和可信。

图8至图10和相关联的描述提供了可以在其中实践本公开的各方面的多种操作环境的讨论。然而,关于图8至图10图示和讨论的设备和系统是出于示例和图示的目的,并且不限制可用于实践本文描述的本公开的各方面的大量计算设备配置。

图8图示了可以实践本公开的方面的计算设备800的物理组件(例如,硬件)的框图。以下描述的计算设备组件可以适用于上述计算设备。在基本配置中,计算设备800可以包括至少一个处理单元802和系统存储器804。取决于计算设备的配置和类型,系统存储器804可以包括但不限于易失性存储器(例如,随机访问存储器)、非易失性存储(例如,只读存储器)、闪存或这些存储器的任何组合。

系统存储器804可以包括操作系统805和适用于运行软件应用807(例如但不限于机器学习模型823和时间动态模型825)的一个或多个程序模块806。机器学习模型823可以但不限于与关于本公开的至少图1至图7所描述的机器学习模型120、244、344和412相同或类似。颜色空间模型824可以但不限于与关于本公开的至少图1至图7所描述的颜色空间模型432相同或类似。时间动态模型825可以但不限于与关于本公开的至少图1至图7所描述的时间动态模型440相同或类似。例如,操作系统805可以适用于控制计算设备800的操作。

此外,本公开的实施例可以结合图形库、其他操作系统或任何其他应用来被实践,并且不限于任何特定的应用或系统。此基本配置在图8中由虚线808内的那些组件图示。计算设备800可以具有附加特征或功能。例如,计算设备800还可以包括附加数据存储设备(可移动和/或不可移动),例如磁盘、光盘或磁带。这样的附加存储在图8中由可移动存储设备809和不可移动存储设备810图示。

如上所述,若干程序模块和数据文件可以被存储在系统存储器804中。当在至少一个处理单元802上执行时,程序模块806可以执行包括但不限于本文描述的一个或多个方面的进程。根据本公开的方面可以使用的其他程序模块可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用等、和/或本文描述的系统支持的一个或多个组件。

此外,本公开的实施例可以在包括分立电子元件的电路中、包含逻辑门的封装或集成电子芯片中、利用微处理器的电路中或者在包含电子元件或微处理器的单个芯片上实践。例如,本公开的实施例可以经由片上系统(SOC)来实践,其中图8所图示的组件中的每个组件或多个组件可以集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能,所有这些都作为单个集成电路集成(或“烧录”)到芯片基板上。当经由SOC操作时,本文所描述的关于客户端切换协议的能力的功能可以经由与单个集成电路(芯片)上的计算设备800的其他组件集成的专用逻辑来操作。本公开的实施例还可以使用能够执行逻辑运算(例如,与、或和非)的其他技术来实践,其他技术包括但不限于机械、光学、流体和量子技术。此外,公开的实施例可以在通用目的计算机内或在任何其他电路或系统中被实践。

计算设备800还可以具有一个或多个输入设备812,例如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。(多个)输出设备814A(例如显示器、扬声器、打印机等)还可以被包括。对应于虚拟显示器的输出814B还可以被包括。上述设备是示例,并且其他设备可以被使用。计算设备800可以包括允许与其他计算设备850通信的一个或多个通信连接816。合适的通信连接816的示例包括但不限于射频(RF)发射器、接收器和/或收发机电路装置;通用串行总线(USB)、并行和/或串行端口。

本文中使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于信息的存储的任何方法或技术实现的易失性介质和非易失性介质、可移动介质和不可移动介质,例如计算机可读指令、数据结构或程序模块。系统存储器804、可移动存储设备809和不可移动存储设备810都是计算机存储介质示例(例如,存储器存储)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储技术、CD-ROM、数字多功能盘(DVD)或其他光存储器、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或可以用于存储信息并可以由计算设备800访问的任何其他制品。任何这样的计算机存储介质可以是计算设备800的一部分。计算机存储介质不包括载波或其他传播或调制的数据信号。

通信介质可以由计算机可读指令、数据结构、程序模块或调制数据信号(诸如载波或其他传输机制)中的其他数据来实现,并且包括任何信息传递介质。术语“调制数据信号”可以描述具有一个或多个特性的信号,该特性以对信号中的信息进行编码的方式被设置或被改变。作为示例而非限制,通信介质可以包括有线介质,例如有线网络或直接有线连接,以及无线介质,例如声学、射频(RF)、红外和其他无线介质。

图9A和图9B图示了计算设备或移动计算设备900,例如,移动电话、智能电话、可穿戴计算机(诸如智能手表)、平板计算机、膝上型计算机等,本公开的各个方面可以通过其被实践。参考图9A,用于实现该方面的移动计算设备900的一个方面被图示。在基本配置中,移动计算设备900是具有输入元件和输出元件两者的手持计算机。移动计算设备900通常包括显示器905和一个或多个输入按钮909/910,其允许用户将信息输入到移动计算设备900中。移动计算设备900的显示器905还可以用作输入设备(例如,触摸屏显示器)。如果被包括,可选的侧输入元件915允许进一步的用户输入。侧输入元件915可以是旋转开关、按钮或任何其他类型的手动输入元件。在备选方面,移动计算设备900可以包括更多或更少的输入元件。例如,在一些方面,显示器905可以不是触摸屏。在又一备选方面,移动计算设备900是便携式电话系统,例如蜂窝电话。移动计算设备900还可以包括可选小键盘935。可选小键盘935可以是在触摸屏显示器上生成的物理小键盘或“软”小键盘。在各个方面,输出元件包括用于显示图形用户界面(GUI)的显示器905、视觉指示器931(例如,发光二极管)和/或音频换能器925(例如,扬声器)。在一些方面,移动计算设备900包括用于向用户提供触觉反馈的振动换能器。在又一方面,移动计算设备900包括输入和/或输出端口930,诸如音频输入(例如,麦克风插孔)、音频输出(例如,耳机插孔)和视频输出(例如HDMI端口),用于向外部源发送信号或从外部源接收信号。

图9B是图示计算设备、服务器或移动计算设备的一个方面的架构的框图。也就是说,移动计算设备900可以结合系统(902)(例如,架构)来实现一些方面。系统902可以实现为能够运行一个或多个应用(例如,浏览器、电子邮件、日历、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的“智能手机”。在一些方面,系统902被集成为计算设备,诸如集成个人数字助理(PDA)和无线电话。

一个或多个应用程序966可以被加载到存储器962中并在操作系统964上运行或与操作系统964相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息传递程序和/或由本文描述的系统支持的一个或多个组件。系统902还包括存储器962内的非易失性存储区968。非易失性存储区968可以用于存储在系统902断电时不应丢失的持久信息。应用程序966可以使用非易失性存储区968中的信息并将其存储在非易失性存储区968中,诸如电子邮件或由电子邮件应用使用的其他消息。同步应用(未示出)也驻留在系统902上,并且被编程为与驻留在主机上的相对应的同步应用交互。应当理解,其他应用可以被加载到存储器962中并在本文描述的移动计算设备900上运行(例如,机器学习模型823和时间动态模型825等)。

系统902具有电源970,其可以被实现为一个或多个电池。电源970还可以包括外部电源,例如AC适配器或对电池补充或再充电的电动对接支架。

系统902还可以包括执行发送和接收射频通信的功能的无线电接口层972。无线电接口层972经由通信运营方或服务提供方促进系统902与“外部世界”之间的无线连接。去往和来自无线电接口层972的传输是在操作系统964的控制下进行的。换言之,由无线电接口层972接收到的通信可以经由操作系统964传播到应用966,反之亦然。

视觉指示器920可以用于提供视觉通知,和/或音频接口974可以用于经由音频换能器925产生听觉通知。在所示配置中,视觉指示器920是发光二极管(LED)并且音频换能器925是扬声器。这些设备可以直接耦合到电源970,从而当被激活时,即使处理器960/961和其他组件可能为了节省电池功率而关闭,它们也可以在通知机制规定的持续时间内保持开启。LED可以被编程为无限期地保持开启,直到用户采取行动来指示设备的通电状态。音频接口974用于向用户提供可听信号并从用户接收可听信号。例如,除了耦合到音频换能器925之外,音频接口974还可以耦合到麦克风以接收可听输入,诸如促进电话交谈。根据本公开的方面,麦克风还可以用作音频传感器,以促进通知的控制,如下所述。系统902可以进一步包括视频接口976,其使得车载摄像机能够操作以记录静止图像、视频流等。

实现系统902的移动计算设备900可以具有附加特征或功能。例如,移动计算设备900还可以包括附加的数据存储设备(可移动和/或不可移动),诸如磁盘、光盘或磁带。这样的附加存储在图9B中由非易失性存储区968图示。

由移动计算设备900生成或捕获并经由系统902存储的数据/信息可以被本地地存储在移动计算设备900上,如上所述,或者数据可以被存储在任何数量的存储介质上,该存储介质可以由设备经由无线电接口层972或经由移动计算设备900与与移动计算设备900相关联的单独计算设备(例如,诸如互联网之类的分布式计算网络中的服务器计算机)之间的有线连接被访问。应当理解,这样的数据/信息可以经由移动计算设备900经由无线电接口层972或经由分布式计算网络被访问。类似地,这样的数据/信息可以根据公知的数据/信息传输和存储装置(包括电子邮件和协作数据/信息共享系统)在计算设备之间容易地传输用于存储和使用。

图10图示了用于处理在计算系统处从远程源(诸如,如上所述的个人计算机1004、平板计算设备1006或移动计算设备1008)接收的数据的系统的架构的一个方面。在服务器设备1002处显示的内容可以被存储在不同的通信通道或其他存储类型中。

在一些方面,机器学习模型1023、颜色空间模型1024和时间动态模型1025中的一个或多个可以被服务器设备1002采用。服务器设备1002可以通过网络1012向客户端计算设备(例如,个人计算机1004、平板计算设备1006和/或移动计算设备1008(例如,智能手机))提供数据以及从客户端计算设备提供数据。作为示例,上述计算机系统可以被实施在个人计算机1004、平板计算设备1006和/或移动计算设备1008(例如,智能手机)中。计算设备的这些实施例中的任何一个可以从存储1016获得内容,除了接收可用于在图形生成系统处进行预处理或在接收计算系统处后处理的图形数据之外。内容存储可以包括训练数据1018和生理信号1020。

图10图示了可以执行本文公开的一个或多个方面的示例性移动计算设备1008。此外,本文描述的方面和功能可以在分布式系统(例如,基于云的计算系统)上操作,其中应用功能、存储器、数据存储和取回以及各种处理功能可以在诸如互联网或内联网的分布式计算网络上从彼此远程被操作。各种类型的用户界面和信息可以经由车载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元被显示。例如,各种类型的用户界面和信息可以被显示在墙面上并与其交互,在墙面上各种类型的界面和信息被投影。与可实践发明的实施例的多个计算系统的交互包括击键输入、触摸屏输入、语音或其他音频输入、手势输入,其中相关联的计算设备被配备检测(例如,相机)功能,该检测功能用于捕获和解释用于控制计算设备的功能的用户手势等。

短语“至少一个”、“一个或多个”、“或”、“和/或”是开放式表达,其在操作中既有连接又有分离。例如,表达式“A、B和C中的至少一个”、“A、B或C中的一个”,“A、B和C中的一个或多个”、“A、B和/或C”和“A、B或C”中的每一个都表示A单独、B单独、C单独、A和B一起、A和C一起、B和B一起或A、B、C一起。

术语“一”或“一个”实体指该实体中的一个或多个。因此,术语“一”(或“一个”)、“一个或多个”和“至少一个”在本文中可以互换使用。还应注意,术语“包括”、“包括”和“具有”可以互换使用。

本文中使用的术语“自动”及其变体指任何进程或操作,其通常是持续的或半持续的,当进程或操作被执行时没有重要的人为输入的情况下完成。然而,进程或操作可以是自动的,即使进程或操作的执行使用了重要的或非重要的人为输入,如果在进程或操作的执行之前输入被接收。如果人为输入影响进程或操作如何被执行,则人为输入被认为是重要的。同意进程或操作的执行的人为输入不被视为“重要的”。

本文讨论的任何步骤、功能和操作中的任一项都可以持续地和自动地被执行。

此公开的示例性系统和方法已经结合计算设备被描述。然而,为了避免不必要地模糊本公开,前面的描述省略了几个已知的结构和装置。此省略不应解释为限制。具体细节被阐述以提供对本公开的理解。然而,应当理解,本公开可以以超出本文的具体细节的多种方式被实践。

此外,尽管本文所示的示例性方面示出了并置的系统的各种组件,但系统的某些组件可以位于远程、分布式网络(例如LAN和/或互联网)的远程部分或专用系统内。因此,应当理解,系统的组件可以被组合到一个或多个设备中,例如服务器、通信设备,或者被并置在分布式网络的特定节点上,诸如模拟和/或数字电信网络、分组交换网络或电路交换网络。从前面的描述可以理解,并且出于计算效率的原因,系统的组件可以安排在分布式组件网络内的任何位置,而不影响系统的操作。

此外,应当理解,连接元件的各种链路可以是有线链路或无线链路,或其任何组合,或能够向连接元件供应数据和/或从连接元件传送数据的任何其他已知或后来开发的(多个)元件。这些有线或无线链路也可以是安全链路,并且能够传送加密信息。例如,用作链路的传输介质可以是针对电信号的任何合适载体,包括同轴电缆、铜线和光纤,并且可以采取声波或光波的形式,诸如在无线电波和红外数据通信期间产生的声波或光波。

流程图虽然针对特定的事件序列已经被讨论和被说明,但是应当理解,对该序列的改变、添加和省略可以发生,而不会实质性地影响所公开的配置和方面的操作。

公开的若干变型和修改可以被使用。可以提供本公开的一些特征而不提供其他特征。

在又一种配置中,本公开的系统和方法可以结合专用计算机、编程的微处理器或微控制器和外围集成电路(多个)元件、ASIC或其他集成电路、数字信号处理器、硬连线电子或逻辑电路(诸如分立元件电路)、可编程逻辑设备或门阵列(诸如PLD、PLA、FPGA、PAL)、专用计算机、任何类似装置等。通常,能够实现本文所示方法的任何(多个)设备或装置可用于实现本公开的各个方面。可用于本公开的示例性硬件包括计算机、手持设备、电话(例如,蜂窝、互联网、数字、模拟、混合等)和本领域已知的其他硬件。这些设备中的一些包括处理器(例如,单个或多个微处理器)、存储器、非易失性存储器、输入设备和输出设备。此外,包括但不限于分布式处理或组件/对象分布式处理、并行处理或虚拟机处理的备选软件实现还可以被构造来实现本文描述的方法。

在又一配置中,所公开的方法可以容易地结合使用对象或面向对象软件开发环境的软件被实现,该软件开发环境提供可在各种计算机或工作站平台上使用的便携式源代码。备选地,所公开的系统可以使用标准逻辑电路或VLSI设计部分地或完全地在硬件中实现。使用软件还是硬件来实现根据本公开的系统取决于系统的速度和/或效率要求、特定功能以及被利用的特定软件或硬件系统或微处理器或微型计算机系统。

在又一配置中,所公开的方法可以部分地以软件被实现,该软件可以被存储在存储介质上,在控制器和存储器、专用计算机、微处理器等的协作下在编程的通用计算机上被执行。在这些实例中,本公开的系统和方法可以被实现为嵌入在个人计算机上的程序(例如小程序、

如果被描述的话,本公开不限于标准和协议。本文中未提及的其他类似标准和协议是存在的,并且包括在本公开中。此外,本文提及的标准和协议以及本文未提及的其他类似标准和协议定期被具有基本相同功能的更快或更有效的等同物取代。这样的具有相同功能的替代标准和协议被认为是本公开中包括的等同物。

根据本公开的至少一个示例,一种用于将生理特性应用于视频的一部分的方法被提供。该方法可以包括:接收视频序列的帧,接收生理信号,基于所接收的生理信号生成注意力掩码,其中该注意力掩码包括用于视频序列的帧的不同部分的、指示生理信号的强度的注意力权重,基于生理信号和注意力掩码生成像素调整值,以及将像素调整值应用于视频序列的帧中的被标识像素。

根据上述方法的至少一个方面,该方法可以包括:基于生理信号和注意力掩码生成第二像素调整值,第二像素调整值不同于像素调整值,以及将第二像素调整值应用于视频序列的帧中的第二被标识像素,其中第二被标识像素不同于被标识像素。根据上述方法的至少一个方面,该方法可以包括:其中注意力掩码标识在视频序列中被描绘的化身的被生理信号影响的区域。根据上述方法的至少一个方面,该方法可以包括:其中注意力掩码是从机器学习模型被生成的,该机器学习模型被专门训练以基于视频序列的帧和生理信号生成注意力掩码。根据上述方法的至少一个方面,该方法可以包括:其中生理信号是血容量脉搏率、眨眼率或呼吸频率中的至少一项。根据上述方法的至少一个方面,该方法可以包括:基于生理信号、注意力掩码和颜色系数生成另一像素调整值,其中颜色系数特定于生理特性。根据上述方法的至少一个方面,该方法可以包括其中应用颜色系数包括:针对颜色系数的每个颜色生成阿尔法掩码,并且组合多个阿尔法掩码以获得输出帧。根据上述方法的至少一个方面,该方法可以包括:其中像素调整值是与针对一个或多个像素的方向和幅度相对应的向量。

根据本公开的至少一个示例,一种包括指令的计算机可读介质被提供。指令在由处理器执行时使处理器:接收视频序列的帧,接收生理信号,基于所接收的生理信号生成注意力掩码,其中该注意力掩码包括用于视频序列的帧的不同部分的、指示生理信号的强度的注意力权重,基于视频序列的帧、生理信号、注意力掩码和与第一颜色相关联的颜色通道系数生成针对第一颜色的阿尔法掩码,以及将所生成的针对第一颜色的阿尔法掩码与第二颜色的阿尔法掩码组合以生成输出帧。

根据上述计算机可读介质的至少一个方面,注意力掩码标识在视频序列中被描绘的化身的被生理信号影响的区域。根据上述计算机可读介质的至少一个方面,生理信号是血容量脉搏率、眨眼率或呼吸频率中的至少一项。根据上述计算机可读介质的至少一个方面,注意力掩码是从机器学习模型被生成的,该机器学习模型被专门训练以基于视频序列的帧和生理信号生成注意力掩码。根据上述计算机可读介质的至少一个方面,指令可以使处理器接收影响颜色系数、注意力掩码或生理信号中的至少一项的外部因素。

根据本公开的至少一个示例,一种用于将生理特性应用于视频的一部分的系统被提供。该系统可以包括处理器和存储指令的存储器,指令在由处理器执行时使处理器:接收视频序列的帧,接收生理信号,基于所接收的生理信号生成注意力掩码,其中该注意力掩码包括用于视频序列的帧的不同部分的、指示生理信号的强度的注意力权重,基于生理信号和注意力掩码生成像素调整值,以及将像素调整值应用于视频序列的帧中的被标识像素。

根据上述系统的至少一个方面,指令使处理器基于生理信号和注意力掩码生成第二像素调整值,第二像素调整值不同于像素调整值,将第二像素调整值应用于视频序列的帧中的第二被标识像素,其中第二被标识像素不同于被标识像素。根据上述系统的至少一个方面,注意力掩码标识在所述视频序列中被描绘的化身的被所述生理信号影响的区域。根据上述系统的至少一个方面,注意力掩码是从机器学习模型被生成的,该机器学习模型被专门训练以基于视频序列的帧和生理信号生成注意力掩码。根据上述系统的至少一个方面,指令使处理器基于生理信号、注意力掩码和颜色系数生成另一像素调整值,其中颜色系数特定于生理特性。根据上述系统的至少一个方面,应用颜色系数包括:针对颜色系数的每个颜色生成阿尔法掩码,并且组合多个阿尔法掩码以获得输出帧。根据上述系统的至少一个方面,指令使处理器接收影响颜色系数、注意力掩码或生理信号中的至少一项的外部因素,并且基于该外部因素生成另一像素调整值。

在各种配置和方面中,本公开包括基本上如本文所描绘和描述的组件、方法、进程、系统和/或装置,包括其各种组合、子组合和子集。本领域技术人员在理解本公开之后将理解如何制造和使用本文公开的系统和方法。在各种配置和方面中,本公开包括在缺少本文没有描绘和/或描述的项的情况下或在其各种配置或方面中提供设备和进程,包括在缺少以前的设备或进程中可能已经使用的这样的项的情况下,例如以提高性能、实现易用性和/或降低实现成本。

相关技术
  • 一种2D/3D杂化结构的Co2P-CeOx一体化电极的制备方法和应用
  • 一种2D和3D视觉整合化的自主化点胶方法
技术分类

06120115620724