导航：首页> 机床；其他类目中不包括的金属加工>一种基于潜在扩散模型的双目图像生成方法及系统

一种基于潜在扩散模型的双目图像生成方法及系统

文献发布时间：2024-04-18 20:01:23

技术领域

本发明涉及双目图像生成领域，具体涉及一种基于潜在扩散模型的双目图像生成方法及系统。

背景技术

目前，在双目视觉领域，数据不足和跨域泛化性差的问题是主要挑战之一。已有的双目图像数据集如KITTI和Middlebury虽然是衡量双目视觉算法性能的标准，但数量有限且制作成本高昂，限制了算法的性能提升和实际应用。此外，传统的监督训练方式采用“预训练+微调”，在不同场景中表现不一致，跨域泛化性差。为了克服数据不足的问题，一些研究者提出利用图像生成算法来扩展数据量。然而，现有的生成算法存在图像多样性不足、训练时间长、易受模式崩溃影响等问题，限制了它们生成逼真双目图像的能力。因此，亟需一种基于潜在扩散模型的双目图像生成方法及系统，通过潜在扩散模型生成逼真的双目图像，以解决双目视觉领域中存在的数据不足和跨域泛化性差的问题。

发明内容

针对现有技术的不足以及实际应用的需求，本发明提供了一种基于潜在扩散模型的双目图像生成方法及系统，旨在通过潜在扩散模型生成逼真的双目图像，以解决双目视觉领域中存在的数据不足和跨域泛化性差的问题。

第一方面，本发明提供了一种基于潜在扩散模型的双目图像生成方法，所述基于潜在扩散模型的双目图像生成方法包括如下步骤：获取原始双目图像数据集，并标注所述原始双目图像数据集中任一对原始双目图像的双目视差；利用标注后的原始双目图像数据集，搭建并训练基于所述双目视差监督的扩散模型；设置目标双目图像风格，并根据所述目标双目图像风格利用训练好的扩散模型生成目标双目图像数据集。本发明通过引入潜在扩散模型，结合扩散过程和反向重建过程，在生成过程中考虑了噪声、视差和图像风格等因素，提高了生成图像在不同场景和风格下的逼真度，从而增强了双目视觉算法的跨域泛化性。相对于传统方法，本发明能够更好地模拟实际场景中的噪声和多样性，生成符合目标图像风格更逼真的双目图像，有利于提高双目视觉算法的性能，以解决双目视觉领域中存在的数据不足和跨域泛化性差的两个关键问题。

可选地，所述原始双目图像数据集中包括一对或者多对原始双目图像，其中，任一对原始双目图像均包括原始左视图像和原始右视图像。本可选项所提供的原始双目图像数据集，能够使扩散模型在训练过程中能够充分利用左右视图之间的双目视差信息，进而有助于生成更准确、逼真的双目图像，对于双目视觉算法的性能提升具有积极意义。

可选地，所述标注所述原始双目图像数据集中任一对原始双目图像的双目视差，包括如下步骤：获取原始双目图像中原始左视图像对应的左视像素灰度分布矩阵；获取原始双目图像中原始右视图像对应的右视像素灰度分布矩阵；分别在左视像素灰度分布矩阵和右视像素灰度分布矩阵中提取特征像素；以所述左视像素灰度分布矩阵中的特征像素为参考，匹配所述右视像素灰度分布矩阵中对应的特征像素；根据匹配结果获取所述特征像素的位置差异，并根据所述位置差异标注所述原始双目图像的双目视差。本可选项基于像素级的匹配和位置差异，为扩散模型提供了准确的双目视差信息，有助于生成更具深度和真实感的双目图像，提高了扩散模型的性能。

可选地，所述以所述左视像素灰度分布矩阵中的特征像素为参考，匹配所述右视像素灰度分布矩阵中对应的特征像素，包括如下步骤：获取所述左视像素灰度分布矩阵中的特征像素的特征信息，所述特征信息包括特征像素的灰度值，以及所述特征像素的周围像素的灰度值；根据所述左视像素灰度分布矩阵中的特征像素，在所述右视像素灰度分布矩阵中匹配具有相同或相似特征信息的特征像素。本可选所提供的特征匹配方法提高了匹配的准确性，为标注双目视差提供了更可靠的依据，增强了扩散模型的精度。

可选地，以所述左视像素灰度分布矩阵中的特征像素为参考，匹配位置处的双目视差满足如下表征公式：

可选地，所述扩散模型包括基于Transformer注意力机制的UNet网络和域编码器；其中，所述基于Transformer注意力机制的UNet网络用于通过扩散过程学习原始双目图像的双目视差标签与两视图相同语义结构的对应关系，并用于根据所述对应关系重构具有目标双目图像风格和双目视差的目标双目图像；所述域编码器用于解析目标双目图像风格，并用于根据解析结果在所述基于ansformer注意力机制的UNet网络的重构过程中引入所述目标双目图像风格。本可选项所提供的扩散模型，首先利用UNet网络通过Transformer注意力机制学习原始双目图像的双目视差标签与语义结构的对应关系，实现了对目标双目图像风格和视差的高效重构；再利用域编码器解析目标双目图像风格，并在UNet网络的重构过程中引入目标风格，从而增强了生成图像的风格一致性和逼真度。这种结合Transformer机制和域编码器的提高了扩散模型的性能，在处理不同风格和语义结构下的图像生成任务上具有显著优势。

可选地，所述扩散模型的目标损失函数为：所述扩散模型的目标损失函数为：

可选地，所述扩散模型在t步加噪后获得的左视噪声图

可选地，所述扩散模型在重构过程中，以第T次加噪后的左视噪声图

第二方面，本发明还提供了一种基于潜在扩散模型的双目图像生成系统，所述基于潜在扩散模型的双目图像生成系统包括输入设备、处理器、存储器和输出设备，所述输入设备、所述处理器、所述存储器和所述输出设备相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如第一方面所提供的基于潜在扩散模型的双目图像生成方法。通过本发明所提供的通过基于潜在扩散模型的双目图像生成系统，用户能够利用基于所述双目视差监督的扩散模型生成逼真的双目图像，从而解决了传统方法中数据不足和跨域泛化性差的问题，提高了双目视觉算法的性能和实际应用价值。

附图说明

图1为本发明实施例所提供的基于潜在扩散模型的双目图像生成方法流程图；

图2为本发明实施例所提供的扩散模型结构示意图；

图3为本发明实施例所提供的基于潜在扩散模型的双目图像生成系统的结构示意图。

具体实施方式

下面将详细描述本发明的具体实施例，应当注意，这里描述的实施例只用于举例说明，并不用于限制本发明。在以下描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的电路，软件或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。

在一个实施例中，请参见图1，图1为本发明实施例所提供的基于潜在扩散模型的双目图像生成方法流程图。如图1所示，本发明所提供的基于潜在扩散模型的双目图像生成方法，包括如下步骤：

S01、获取原始双目图像数据集，并标注所述原始双目图像数据集中任一对原始双目图像的双目视差。

在双目视觉领域中任一对双目图像对应于从两个不同视点获取的图像，即为人的左眼和右眼分别对应视角画面。进一步地，本发明所述的原始双目图像数据集中包括一对或者多对原始双目图像，其中，任一对原始双目图像均包括原始左视图像和原始右视图像。

在本实施例中，本发明所述的原始双目图像数据集是通过双目视觉摄像设备中获取的、未经过任何处理或修改的一对图像。具体地，所述原始左视图像是从左摄像头拍摄的图像，原始左视图像捕捉到的是场景中物体的左侧信息。所述原始右视图像是从右摄像头拍摄的图像，原始右视图像捕捉到的是场景中物体的右侧信息。

进一步地，所述双目视差是指任一对原始双目图像之间的偏移或差异。在本实施例中，步骤S01中所述的标注所述原始双目图像数据集中任一对原始双目图像的双目视差，包括如下步骤：

S011、获取原始双目图像中原始左视图像对应的左视像素灰度分布矩阵。

对于每个像素，其灰度值表示图像中相应位置的亮度。在本实施例中，通过扫描原始左视图像，对应创建一个左视像素灰度分布矩阵，其中每个元素包含相应像素的灰度值。进一步地，所述左视像素灰度分布矩阵为

S012、获取原始双目图像中原始右视图像对应的右视像素灰度分布矩阵。

与步骤S011同理，在本实施例中，通过扫描原始右视图像，对应创建一个右视像素灰度分布矩阵，其中每个元素包含相应像素的灰度值。进一步地，所述右视像素灰度分布矩阵为

S013、分别在左视像素灰度分布矩阵和右视像素灰度分布矩阵中提取特征像素。

容易理解的是，本发明所述的特征像素指的是在原始左视图像和原始右视图像中共同具有一些显著性质或特征的像素。这些特征可以是图像中的关键点、角点、边缘点等。

进一步地，所述特征像素的选择通常基于图像的局部特征，这些特征在图像中相对于其邻域是突出的。具体地，这些特征可以通过Harris角点检测、SIFT（尺度不变特征变换）等一种或者多种方法来检测并提取。

S014、以所述左视像素灰度分布矩阵中的特征像素为参考，匹配所述右视像素灰度分布矩阵中对应的特征像素。

在本实施例中，步骤S014所述的以所述左视像素灰度分布矩阵中的特征像素为参考，匹配所述右视像素灰度分布矩阵中对应的特征像素，包括如下步骤：

S0141、获取所述左视像素灰度分布矩阵中的特征像素的特征信息，所述特征信息包括特征像素的灰度值，以及所述特征像素的周围像素的灰度值。

具体地，针对左视像素灰度分布矩阵中的特征像素

S0142、根据所述左视像素灰度分布矩阵中的特征像素，在所述右视像素灰度分布矩阵中匹配具有相同或相似特征信息的特征像素。

进一步地，具有相同特征信息的特征像素具体指的是右视像素灰度分布矩阵中的特征像素的灰度值与左视像素灰度分布矩阵中的特征像素的灰度值相同，右视像素灰度分布矩阵中特征像素的周围像素灰度值与左视像素灰度分布矩阵中特征像素的周围像素灰度值相同。

例如，针对左视像素灰度分布矩阵中特征像素的灰度值

若右视像素灰度分布矩阵中存在一像素点，其灰度值

进一步地，具有相似特征信息的特征像素具体指的是右视像素灰度分布矩阵中的特征像素灰度值与周围像素灰度值之间的变化趋势，与左视像素灰度分布矩阵中的特征像素灰度值与周围像素灰度值变化趋势相同。

例如，基于上述举例所述的左视像素灰度分布矩阵中特征像素，若右视像素灰度分布矩阵中存在一像素点，其灰度值

S015、根据匹配结果获取所述特征像素的位置差异，并根据所述位置差异标注所述原始双目图像的双目视差。

具体地，所述位置差异可以表示在右视像素灰度分布矩阵中的特征像素在水平和垂直方向上相对于左视像素灰度分布矩阵中的特征像素点的位移。

当匹配成功的特征像素点在左视像素灰度分布矩阵中的位置为

进一步地，以所述左视像素灰度分布矩阵中的特征像素为参考，匹配位置处的双目视差满足如下表征公式：

S02、利用标注后的原始双目图像数据集，搭建并训练基于所述双目视差监督的扩散模型。

请参见图2，图2为本发明实施例所提供的扩散模型结构示意图。如图2所示，步骤S02所搭建的扩散模型的网络结构包括基于Transformer注意力机制的UNet网络和域编码器，所述基于Transformer注意力机制的UNet网络用于通过扩散过程学习原始双目图像的双目视差标签与两视图相同语义结构的对应关系，并用于根据所述对应关系重构具有目标双目图像风格和双目视差的目标双目图像，所述域编码器用于解析目标双目图像风格，并用于根据解析结果在所述基于ansformer注意力机制的UNet网络的重构过程中引入所述目标双目图像风格。

进一步地，所述扩散模型的目标损失函数为：

在训练过程中，所述Transformer注意力机制用于捕获正向扩散过程中在任一双目视差对应的原始双目图像样本中两视图对应的相同语义结构；进一步地，基于Transformer注意力机制在扩散过程中所捕捉的两视图对应的相同语义结构，所述Transformer注意力机制在重构过程中还用于保证重构的目标双目图像中两视图对应的相同语义结构。

进一步地，在扩散过程中，分别在原始双目图像中的原始左视图像

具体地，在第t（

基于上述的原始双目图像通过T次加噪分别获的左视噪声图

具体地，如图2所示，在重构过程中，以第T次加噪后的左视噪声图

S03、设置目标双目图像风格，并根据所述目标双目图像风格利用训练好的扩散模型生成目标双目图像数据集。

容易理解的是，所述目标双目图像风格是指在图像生成过程中，用户希望生成的双目图像具有特定的艺术风格、外观或者视觉特征。所述目标双目图像风格可以包括颜色分布、纹理特征、明暗度等，具体取决于用户的需求和应用场景。

进一步地，步骤S03所设置的目标双目图像风格会影响到生成的目标双目图像，使目标双目图像中两视图在共同语义结构上与对应双目视差的原始双目图像相似，同时表现出用户期望的艺术风格。

在一个实施例中，为了更好实施上述基于潜在扩散模型的双目图像生成方法，在本实施例中还提供了一种基于潜在扩散模型的双目图像生成系统，请参见图3，图3为本发明实施例所提供的基于潜在扩散模型的双目图像生成系统的结构示意图。

如图3所示，所述基于潜在扩散模型的双目图像生成系统包括输入设备、处理器、存储器和输出设备，所述输入设备、所述处理器、所述存储器和所述输出设备相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述基于潜在扩散模型的双目图像生成方法。通过本发明所提供的通过基于潜在扩散模型的双目图像生成系统，用户能够利用基于所述双目视差监督的扩散模型生成逼真的双目图像，从而解决了传统方法中数据不足和跨域泛化性差的问题，提高了双目视觉算法的性能和实际应用价值。

在本实施例中，所述输入设备是是基于潜在扩散模型的双目图像生成系统中的关键组成部分，用于接收并传输原始双目图像数据集，为系统提供必要的输入信息。输入设备的设计旨在让用户方便地上传图像数据，以便进行标注和模型训练。

进一步地，所述输入设备是一种硬件或软件组件，允许用户将原始双目图像数据集引入基于潜在扩散模型的双目图像生成系统。它提供了用户与系统交互的渠道，使用户能够上传双目图像，触发后续的数据标注、模型搭建和训练等流程。具体地，所述输入设备可以是摄像设备、文件上传界面、传感器接口或者远程数据传输。

在本实施例中，所述处理器是基于潜在扩散模型的双目图像生成系统的核心组成部分之一，负责执行计算机程序、驱动系统运行，并协调各个组件之间的交互。所述处理器用于执行潜在扩散模型的计算机程序，包括基于Transformer注意力机制的UNet网络和域编码器。在训练中，该处理器通过标注后的数据集搭建和训练扩散模型，使其能够生成具有目标风格的双目图像。具体地，所述处理器可以是多核处理器、多线程处理器或者嵌入式处理器中的一种，也可以是其他性能的处理器。

在本实施例，所述存储器用于存储储存计算机程序和相关数据。这包括标注后的原始双目图像数据集、训练好的扩散模型等。进一步地，所述存储器是一用于存储和检索数据的设备或组件，能够在计算机系统运行时保存和提供对数据的随机访问。它包括用于存储临时数据（RAM）和永久数据（硬盘驱动器、固态硬盘等）的不同类型。

所述输出设备是计算机系统中的组件，用于向用户呈现计算机产生的数据、信息或图像。这些设备接收计算机处理后的数据，并将其转换成可感知的形式，以便用户能够理解和交互。在本实施例中，所述输出设备用于显示或输出生成的目标双目图像，具体地，所述输出设备可以是显示器、打印机、投影仪中任一种信息交互设备，也可以是其他的用于向用户呈现目标双目图像的设备。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

完整全部详细技术资料下载