图像数据解析方法、场景估计方法、3D融合方法

文献发布时间：2023-06-19 16:11:11

技术领域

本发明涉及视频技术领域，更为具体的，涉及一种图像数据解析方法、场景估计方法、3D融合方法。

背景技术

随着视频技术的发展，AR(增强现实)、VR(虚拟现实)、裸眼3D、MR(混合现实)以及XR(extended reality)的应用日趋完善，引爆了各类3D视觉产品及应用的快速成熟，但是这类3D视觉产品的设计初衷均是基于虚实融合方案的技术架构。同时图像融合在学术阶段还停留在场景的颜色、亮度等二维数据融合阶段。

视频技术发展至今，为满足用户日益增长的体验需求，融合技术常采用的方法是把虚拟物件植入实际拍摄图像序列中来完成三维融合效果，而传统的图像融合很难达到三维层面的技术呈现。

发明内容

本发明的目的在于克服现有技术的不足，提供一种图像数据解析方法、场景估计方法、3D融合方法，实现实时、多端相机协同、多应用的视频图像异地融合，规避了现有技术方案中在屏幕端的复杂限制，脱离了三维渲染引擎，能够将多个异地端的实景数据代替虚拟场景，开创性地完成了实景融合实景的解决方案，能够实现自由改变视点的同时保持融合数据的一致性表达，允许主成像端相机位置发生变动，融合数据的内容及场景跟随观察点变化实时地改变，避免了空洞的现象等。

本发明的目的是通过以下方案实现的：

一种图像数据解析方法，针对多端实景数据异地融合所需的图像数据进行解析，具体包括步骤：

S10，图像raw数据解析；

S11，焦栈数据解析；

S12，相机参数解析。

进一步地，在步骤S10中，所述图像raw数据解析，包括子步骤：

S101，计算从二维图像中提取的每一帧中的主体数据及其在当前帧下的尺度；

S102，对图像数据进行量化操作，同一端相机的视频数据进行帧间的相似性判断以及对异端视频数据进行差异性判断；量化操作的方法包括基于图像色彩信息、灰度信息、梯度信息以及频域里振幅数据的方法，并生成不同中间数据；

S103，度量处理，包括同端数据的相似性度量、异端数据的差异性度量；同端数据的相似性度量包括非等距地间隔标记视频帧，以此来判断视频中的动态主体的位置和尺度信息，使主体在后续处理过程中能够保持大小、位置的稳定性；异端数据的差异性度量包括逐帧地估计多端视频中动态主体之间的关系因子，确认关系因子之后用于保证融合后的每帧数据完成局部一致性；

S104，建模，将同端数据的相似性度量参数和异端数据的差异性度量参数进行共同建模估计，得到一个全局的度量因子，利用全局的度量因子确保解析出来的视频数据的全局一致。

进一步地，在步骤S11中，所述焦栈数据解析，包括子步骤：

S111，焦栈估计，将多端视频的焦栈数据归一化到共同的尺度下，然后在频域中处理每帧图像数据，估计每帧数据处于的焦段位置；

S112，焦栈融合，在频域中完成步骤S111中焦栈估计处理过的图像数据的焦栈状态转换后，再完成这部分图像数据地融合。

进一步地，在步骤S12中，所述相机参数解析，包括子步骤：

S121，基于图像的相机参数估计，对图像raw数据解析和焦栈数据解析中的数据建立多帧图像数据之间的3D关系，通过重投影过程估计相机的CCD、FOV及物理焦距，从而恢复相机成像的视椎数据；

S122，相机物理焦距与图像焦栈数据的映射求解，利用焦栈估计中获得的每一端设备的离散焦栈范围，结合基于图像的相机参数估计结果，估算出实际相机焦距范围和焦栈数据之间的映射关系，拟合数据之间的函数变化关系。

一种场景估计方法，包括三维场景数据重构步骤，利用该步骤将如上所述的图像数据解析方法解析后的数据进行三维场景数据的重构，具体包括子步骤：

S201，屏幕参数化估计，将点阵图像显示在屏幕上，对拍摄的屏幕图像进行点阵的坐标提取，估计出屏幕数据在欧式空间中的参数化函数；

S202，场景尺度估计，将相机参数解析单元处理后的不同的端的相机成像视椎数据缝合，使得多端相机共同组成一个等效的视觉成像系统，获得场景最终的输出尺度；

S203，针对静态场景，结合图像raw数据解析单元得到的尺度数据，同时基于相机视椎构造来模拟多个平面来近似三维静态场景空间；针对动态场景，对动态场景的运动轨迹和其几何骨架进行估计，结合图像raw数据解析单元得到的尺度数据，让动态场景的三维数据还原到真实尺度。

一种3D融合方法，包括融合步骤，利用该步骤融合如上所述的场景估计方法处理后得到的数据和如上所述的图像数据解析方法解析后得到的数据，具体包括子步骤：

S301，几何融合，利用图像信息提取匹配数据，建立3D几何关系，将多端的三维场景数据转换成等效视觉成像系统上的二维图像数据；

S302，图像融合，将图像数据按几何融合中3D几何关系定义为不同图像块，分别建立每块图像数据的像素数据直方图，计算不同图像块之间的相似程度，然后生成对应的掩码图像以辅助图像块之间的边缘融合；

S303，融合一致性处理，根据几何融合、图像融合计算出多端视频数据转换到拍摄端下的图像数据，然后根据场景估计的参数将其投影到显示媒介上。

进一步地，在步骤S303中，所述融合一致性处理包括几何一致性处理和图像数据一致性处理；先利用所述几何一致性处理将多端相机的外参数据和主成像端的相机外参数据进行联动，计算相对位姿关系；再利用所述图像数据一致性处理采用色彩映射算法纠正显示媒介上的图像数据。

本发明的有益效果包括：

本发明提出了一种实时、多端相机协同、多应用的异地融合技术。首先该发明规避了现有技术方案中在屏幕端的复杂限制，同时可以应用于任意数量的屏幕，任意形状构造的屏幕，及任意种类的普通屏幕（LED，液晶电视，幕布投影屏幕等）；第二，该发明脱离了三维渲染引擎，能够将多个异地端的实景数据代替虚拟场景，开创性地完成了实景融合实景的完美解决方案；第三，该发明能够自由改变视点的同时保持融合数据的一致性表达，允许主成像端相机位置发生变动，融合数据的内容及场景跟随观察点变化实时地改变，避免了空洞的现象。

本发明实施例提出了一种针对多端实景数据3D效果融合的二维图像数据解析过程，包括方法，解决了任意端视频的图像raw数据解析、焦栈数据解析和相机参数解析。同时，本发明实施例对二维图像数据解析的对象进行了多样化处理，以满足不同的视频产品应用。

本发明实施例提供了一种场景估计方法，能够促进数据融合模块数据融合程度更高，同时尽可能完备地恢复三维场景以此减少显示媒介（显示屏）带来的限制。

本发明实施例提供了一种3D视觉融合方法，与一般图像融合过程不同的是，本发明实施例的数据融合流程在首尾分别增加几何融合和融合一致性处理两个过程，按照几何融合、图像融合及融合一致性处理，能够保证异地融合输出数据的合理性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的系统框架图；

图2为本发明实施例中等效视锥系统与多端成像系统的示意图；（a）为多端成像系统，（b）为等效视锥系统；

图3为本发明实施例中图像raw数据解析的步骤流程图；

图4为本发明实施例中焦栈数据解析的步骤流程图；

图5为本发明实施例中估算实际相机焦距范围和焦栈数据之间的映射关系的步骤流程图；

图6为本发明实施例中三维场景数据重构的步骤流程图；

图7为本发明实施例中数据融合的步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

关于解决的技术问题：本发明实施例在解决背景中描述的现有基于虚实融合方案架构存在的问题的过程中，发现如下技术问题：图像融合在学术阶段还停留在场景的颜色、亮度等二维数据融合阶段。视频技术发展至今，为满足用户日益增长的体验需求，现有融合技术常采用的方法是把虚拟物件植入实际拍摄图像序列中来完成三维融合效果，而传统的图像融合很难达到三维层面的技术呈现。

本发明的技术构思之一在于提供一种视频图像的3D异地融合系统，本发明异地融合系统主要包含以下三个功能模块：图像数据解析、多端场景估计和数据融合，整个系统框架如图1所示。

一、图像数据解析

与一般场景三维重建不同的是，本发明实施例的核心是把视频数据中的主体（例如人物）当作融合核心，这种方式很大程度减小了后续数据融合阶段的计算量。无论是传统的图像融合技术，还是基于虚实融合的AR、VR、XR等技术产品，其应用在功能上的限制非常明显，只有在获得了完整的三维信息，才能获得较为逼真的3D融合效果。为了摆脱这种现象在产品和技术双重角度上引起的困境，本发明实施例提出了一种针对多端实景数据异地融的技术，旨在解决任意端视频的图像raw数据解析、焦栈数据解析和相机参数解析。同时，本发明实施例对二维图像数据解析的对象进行了多样化处理，以满足不同的视频产品应用。

1）图像raw数据解析：与传统视频信号处理类似，这类产品的输入数据为二维图像序列，因此在这一步骤中，按照传统方法对图像进行数据解析的同时，我们还设计了对应的方法在频域中解析相关中间数据，为后面图像焦栈估计做准备。在具体实施过程中，包括如下步骤：

步骤a：首先，我们采用基于深度学习的方法进行人体识别，采集了针对室内、室外、强关照，阴天等不同条件下的人体识别数据集，通过大量的训练和优化，得到了准确度较高的模型，能够高效地从二维图像中提取人体数据，计算出每一帧中的人物数据及其在当前帧下的尺度。

步骤b：在步骤a完成之后，我们需要对图像数据进行量化操作，其目的是对同一端相机的视频数据进行帧间的相似性判断、以及对异端视频数据进行差异性判断。其量化操作的方法是基于图像色彩信息、灰度信息、梯度信息以及频域里振幅数据，生成的不同中间数据对后续不同流程分别作用。

步骤c：图像数据经过步骤b量化过程之后进入度量阶段。这其中包含两部分：同端数据的相似性度量、异端数据的差异性度量。同端数据的相似性度量的主要过程是非等距地间隔标记视频帧，以此来判断视频中的动态主体的位置和尺度等信息，使主体（人物）在后续处理过程中能够保持大小、位置的稳定性；异端数据的差异性度量的主要目的是逐帧地估计多端视频中动态主体之间的关系因子，确认关系因子之后才能保证融合后的每帧数据完成局部一致性。

步骤d：经过上述三个步骤的数据解析，无论是同端数据，还是异端数据之间，数据只是完成了局部的一致性解析。若要得到所有端视频数据的全局性解析结果，则需要将步骤c中的同端数据的相似性度量参数和异端数据的差异性度量参数进行共同建模估计，得到一个全局的度量因子，这样才能确保解析出来的视频数据的全局一致。

2）焦栈数据解析：针对演播室产品而言，融合数据3D信息感知的逼真程度受摄像机参数影响较大。在多端摄像机拍摄的情况下，由于不同端视频的相机设备可能不一样，由于焦距等内参信息的参与，使得每一端成像的景深有差异，图像中模糊区域和聚焦区域完全不一样，因此在图像数据解析阶段需要估计每一端视频帧的焦栈信息，从而提高解析数据在2D层面的丰富性。

步骤a：焦栈估计：我们需要在图像层面对每一端视频数据逐帧地估计焦栈信息，作为成像过程的逆向工程，我们发明了一种基于频域数据的图像焦栈估计方法。首先将多端视频的焦栈数据归一化到共同的尺度下，然后在频域中处理每帧图像数据，估计每帧数据处于的焦段位置。

步骤b：焦栈融合：由于异地融合是基于时序的处理流程，多端视频帧在融合阶段，焦栈数据通常不一样，因此需要将异端图像数据转换到主成像端的焦栈状态下。类似图像重聚焦操作，结合上述步骤2）中步骤a中的频域数据，本步骤将在频域中完成图像数据的焦栈状态转换，完成这部分数据融合。

3）相机参数解析：上述步骤1）、2）只是在2D图像层面对输入源数据进行解析和转换，为后续融合步骤提供数据支持。为了使融合效果达到更加完美的状态，需要对数据进行3D解析。主要有以下步骤：

步骤a：基于图像的相机参数估计：在相机参数未知的情况下，我们提供更加灵活的方案估计其相机参数。结合上述步骤1）中步骤a和上述步骤2）的数据，本步骤建立了多帧图像数据之间的3D关系，通过不太复杂的重投影过程估计其相机的CCD、FOV及物理焦距，从而恢复相机成像的视椎数据。

步骤b：相机物理焦距与图像焦栈数据的映射求解：上述步骤2）中步骤a从图像层面获得了每一端设备的离散焦栈范围，结合上述步骤3）中步骤a估算出实际相机焦距范围和焦栈数据之间的映射关系，拟合数据之间的函数变化关系，方便后续融合阶段在任意焦距状态下的数据融合。

二、多端场景估计

上一图像数据解析模块解析了图像数据及相机参数，传入本多端场景估计模块进行三维场景数据的重构，其主要目的是促进下一数据融合模块数据融合程度更高，同时尽可能完备地恢复三维场景以此减少显示媒介（显示屏）带来的限制。其具体步骤如下：

1）屏幕参数化估计：异地融合最终呈现效果虽然不依赖显示媒介的种类及构造，但是若需要在特定的显示屏上完成呈现工作，则必须对显示媒介进行参数化估计，将输入数据以正确的几何关系投影到屏幕。常见的屏幕包括单个平面屏，L屏，三折屏及曲面屏等，针对种类繁多的显示设备，本发明设计了一种统一的屏幕参数化估计方法。将点阵图像显示在屏幕上，对拍摄的屏幕图像进行点阵的坐标提取，我们便能够估计出屏幕数据在欧式空间中的参数化函数。

2）场景尺度估计：经过了步骤1）的屏幕参数化估计，解决了成像硬件设备端的尺度问题，其输出结果直接影响最终投影数据的精确程度，保证了投影在屏幕上的数据和真实场景中的画面几何上一致。但是由于异地融合不止考虑了两端数据融合，输入端的数据可能不止一路信号，同时结合图像数据解析模块中得到的二维层面的尺度因子，我们需要在此基础上估计三维场景层面的尺度因子来完成场景尺度估计。由于不同端数据投影到显示设备的不同位置，所以场景必然存在着角度旋转及平移。本步骤结合图像数据解析模块中相机参数解析的输出，将不同的端的相机视椎数据“拼接”在一起，解决了因焦距不同和图像层面尺度因子共同作用引起的视觉飘逸，最终使得多端相机共同组成一个等效的视觉成像系统，如图2所示。其中，（a）为多端成像系统，（b）为等效视锥系统。这一步骤完成，便获得了场景最终的输出尺度，即所有场景数据的变换标准。

3）静态场景重建：视频数据通常存在着相对静止的背景部分和移动的主体部分（一般是人物），为了提高整个工程的效率，针对两种场景，我们设计了不同的方法从2D图像中恢复3D数据。针对静态场景，本步骤结合图像数据解析模块得到的尺度数据，同时基于相机视椎构造，模拟了多个平面来近似三维静态场景空间。与传统SLAM或者SFM技术中的三维重建方式不同的是，我们的发明方法不需要通过三角化算法来引入一些重建误差，也避免了重投影误差引起的效率问题，这种基于视椎的多平面的三维场景重构非常适合本发明实施例中特定应用场景的开发。

4）动态场景重建：考虑到整个异地融合系统实时性的要求，视频数据中的主体（人）的三维数据恢复和静态场景三维场景恢复处理方法不一样。这一步骤中不需要对动态场景进行完备的三维重建，只需要对其运动轨迹和其几何骨架进行估计，结合图像数据解析模块得到的尺度数据，让动态场景的三维数据还原到真实尺度。

三、数据融合

经过前面两个模块“图像数据解析”和“多端场景估计”之后就得到了融合需要的所有输入数据。与一般图像融合过程不同的是，我们发明的数据融合流程需要在首尾分别增加几何融合和融合一致性处理两个过程。只有严格按照几何融合、图像融合及融合一致性处理的流程顺序才能保证异地融合输出数据的合理性和准确性。

1）几何融合：经过多端场景估计模块的场景尺度估计得到一个等效的视觉成像系统，所以每端成像系统在标准视觉成像系统基础上变换成了带有偏移量和倾斜角度的非标准视锥系统。对此，为了让多端场景数据在等效视觉成像系统上的三维关系被正确感知，我们首先将利用图像信息提取了对应匹配数据，建立融合的3D几何关系，将多端的三维场景数据转换成等效视觉成像系统上的二维图像数据。

2）3D视觉融合：经过数据融合的上述步骤1）得到了多端视频数据融合在成像端的图像数据，但此时的图像数据由于3D几何缝合的关系，在缝合边缘必然出现图像的硬分割现象。此步骤主要在图像处理层面，解决图像数据缝合边缘的融合问题。将图像数据按数据融合的上述步骤1）中3D几何关系定义为不同图像块，分别建立每块图像数据的像素数据直方图，计算不同块之间的相似程度，然后生成对应的掩码图像以辅助图像块之间的边缘融合。

3）融合一致性处理：得到了修正的图像数据之后，我们根据步骤1）、2）计算出多端视频数据转换到拍摄端下的图像数据，然后根据多端场景估计模块的相关参数将其投影到显示媒介上。此步骤的工作主要处理显示媒介上的投影数据和真实场景数据的一致性问题，这其中包括几何一致性和图像数据一致性。由于多端场景估计已经初始化了这一步骤的几何问题，后续只需要将多端相机的外参数据和主成像端的相机外参进行联动，计算相对位姿关系，就能够数据上始终保持异地融合系统的几何一致性；图像一致性主要体现在屏幕色彩和真实场景色彩空间的一致性映射，通过色彩映射算法纠正显示媒介上的图像数据，从而完成图像一致性处理。

实施例1

一种图像数据解析方法，针对多端实景数据异地融合所需的图像数据进行解析，具体包括步骤：

S10，图像raw数据解析；

S11，焦栈数据解析；

S12，相机参数解析。

实施例2

在实施例1的基础上，如图3所示，在步骤S10中，所述图像raw数据解析，包括子步骤：

S101，计算从二维图像中提取的每一帧中的主体数据及其在当前帧下的尺度；

实施例3

在实施例1或2的基础上，如图4所示，在步骤S11中，所述焦栈数据解析，包括子步骤：

S111，焦栈估计，将多端视频的焦栈数据归一化到共同的尺度下，然后在频域中处理每帧图像数据，估计每帧数据处于的焦段位置；

S112，焦栈融合，在频域中完成步骤S111中焦栈估计处理过的图像数据的焦栈状态转换后，再完成这部分图像数据地融合。

实施例4

在实施例3的基础上，如图5所示，在步骤S12中，所述相机参数解析，包括子步骤：

实施例5

一种场景估计方法，如图6所示，包括三维场景数据重构步骤，利用该步骤将实施例1或实施例2所述的图像数据解析方法解析后的数据进行三维场景数据的重构，具体包括子步骤：

S201，屏幕参数化估计，将点阵图像显示在屏幕上，对拍摄的屏幕图像进行点阵的坐标提取，估计出屏幕数据在欧式空间中的参数化函数；

实施例6

一种3D融合方法，如图7所示，包括融合步骤，利用该步骤融合实施例5所述的场景估计方法处理后得到的数据和实施例1和实施例2所述的图像数据解析方法解析后得到的数据，具体包括子步骤：

S301，几何融合，利用图像信息提取匹配数据，建立3D几何关系，将多端的三维场景数据转换成等效视觉成像系统上的二维图像数据；

S303，融合一致性处理，根据几何融合、图像融合计算出多端视频数据转换到拍摄端下的图像数据，然后根据场景估计的参数将其投影到显示媒介上。

实施例7

在实施例6的基础上，在步骤S303中，所述融合一致性处理包括几何一致性处理和图像数据一致性处理；先利用几何一致性处理将多端相机的外参数据和主成像端的相机外参数据进行联动，计算相对位姿关系；再利用图像数据一致性处理采用色彩映射算法纠正显示媒介上的图像数据。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：何金龙;袁霞;温序铭;
专利申请人：成都索贝数码科技股份有限公司;

上一篇：一种基于无监督解耦表征的人脸图像去模糊方法
下一篇：模拟车载工况燃料电池低温冷起动过程的测试装置及方法