影像处理系统及影像处理方法

文献发布时间：2023-06-19 11:26:00

技术领域

本发明有关于处理系统，特别是有关于一种影像处理系统及影像处理方法。

背景技术

一般而言，透过已知的模型，例如为卷积神经网络(Convolutional NeuralNetworks，CNN)模型，可将二维影像进行区块性的分割(Segmentation)，以分离二维影像中的多个物体，并将各个物体以不同颜色进行上色，以输出色块图，由色块图可得知二维影像中各物体的分布位置及区块。得知物体的分布位置及区块后，可进行透过已知的三维重建方法，例如纹理恢复形状法(Shape From Texture，SFT)、阴影恢复形状法(Shape FromShading)、立体视觉法(Multi-View Stereo)、结构光法(Structured Light)…等等，以建构三维物体。此些三维物体可以对如文物保护、游戏开发、建筑设计、临床医学等研究起到辅助的作用。

然而，系统先行学习分辨的物体种类有限，因此在分离二维影像中的物体时，系统不一定能准确分辨出特定物体为何，或特定物体的形状难以被分辨，例如系统难以精准判断特定物体为门或窗，亦难以分辨艺术造型座椅。

因此，要如何使系统精准且有效率的判断特定物体，已成为本领域待解决的问题之一。

发明内容

本发明实施例提供一种影像处理系统，包括一处理器。处理器用以接收一二维影像，并分离(Segmentation)二维影像中的一物体区块，藉由色块遮罩物理区块以产生一遮罩影像。处理器将二维影像及遮罩影像输入一第一影像处理模型。第一影像处理模型输出一特征向量(feature vector)。处理器将二维影像输入一第二影像处理模型，以取得一特征地图(feature map)。其中，特征地图包含多个特征通道图，特征向量包含多个特征值，每个此些特征通道图依序各自对应到每个此些特征值，处理器依据此些特征通道图及此些特征值以产生一加权特征地图。

本发明实施例系提供一种影像处理方法，包括：接收一二维影像，并分离(Segmentation)二维影像中的一物体区块，以色块遮罩物体区块以产生一遮罩影像；将二维影像及遮罩影像输入一第一影像处理模型，第一影像处理模型输出一特征向量(featurevector)；将二维影像输入一第二影像处理模型，以取得一特征地图(feature map)；其中，特征地图包含多个特征通道图，特征向量包含多个特征值，每个此些特征通道图依序各自对应到每个此些特征值，依据此些特征通道图及此些特征值以产生一加权特征地图。

综上所述，本发明实施例系提供一种影像处理系统及影像处理方法，因此，应用加权特征地图可增强物体区块的特征，使得第二影像处理模型输出的色块图的标示更为准确，二维影像中的各个物体区块的位置跟类别(如椅子、衣柜)都能精准的被判断出来。此外，当处理器再次收到曾经处理过的场域的二维影像时，处理器可直接由储存装置取出先前第一影像处理模型计算出的特征向量，不用每次收到相似的二维影像都重新计算一次特征向量，也不需要应用特征地图的前一层计算结果以算出加权特征地图。因此本发明的影像处理系统及影像处理方法达到了更有效率且更精准的影像标示效果。

附图说明

图1为根据本发明的一实施例绘示的一种影像处理系统的方块图。

图2为根据本发明的一实施例绘示的一种影像处理方法的流程图。

图3为根据本发明的一实施例绘示的一种影像处理方法的示意图。

图4A为根据本发明的一实施例绘示的一输入影像的示意图。

图4B为根据本发明的一实施例绘示的一种输出色块图的示意图。

图4C为根据本发明的一实施例绘示的一种输出调整遮罩色块图的示意图。

具体实施方式

以下说明系为完成发明的较佳实现方式，其目的在于描述本发明的基本精神，但并不用以限定本发明。实际的发明内容必须参考之后的权利要求范围。

必须了解的是，使用于本说明书中的”包含”、”包括”等词，系用以表示存在特定的技术特征、数值、方法步骤、作业处理、元件以及/或组件，但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、元件、组件，或以上的任意组合。

于权利要求中使用如”第一”、"第二"、"第三"等词系用来修饰权利要求中的元件，并非用来表示之间具有优先权顺序，先行关系，或者是一个元件先于另一个元件，或者是执行方法步骤时的时间先后顺序，仅用来区别具有相同名字的元件。

请参照第1～5图，图1为根据本发明的一实施例绘示的一种影像处理系统100的方块图。图2为根据本发明的一实施例绘示的一种影像处理方法200的流程图。图3为根据本发明的一实施例绘示的一种影像处理方法的示意图。图4A为根据本发明的一实施例绘示的一输入影像IMGA的示意图。图4B为根据本发明的一实施例绘示的一种色块图IMGB的示意图。图4C为根据本发明的一实施例绘示的一种调整遮罩色块图IMGC的示意图。

于一实施例中，影像处理系统100可以应用于一虚拟现实系统中的辨识物体部分。于一实施例中，影像处理系统100包含一处理器10。于一实施例中，影像处理系统100更包含一影像撷取装置20及一储存装置30，其中处理器10与储存装置30电性耦接，处理器10与影像撷取装置20以有线或无线方式建立通讯链路LK。

于一实施例中，处理器10用以执行各种运算，可由集成电路如微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signalprocessor)、专用集成电路(application specific integrated circuit，ASIC)或一逻辑电路来实施。

于一实施例中，储存装置30可被实作为只读存储器、快闪存储器、软盘、硬盘、光盘、随身碟、磁带、可由网络存取的资料库或熟悉此技艺者可轻易思及具有相同功能的储存媒体。

于一实施例中，影像撷取装置20可以是一增强现实眼镜。

通常而言，藉由输入一张影像至卷积神经网络(Convolutional NeuralNetworks，CNN)模型后，可以得到该图片属于何种类别的结果，这过程称作分类(Classification)，但在真实世界的应用情境通常要从一张图片中辨识所有出现的物体，并且标示位置(Object Localization)，此可透过CNN模型、R-CNN(Regions with CNN)模型或其他可应用于分割影像的演算法将影像进行基于图像的影像分割(Graph Base ImageSegmentation)。

于一实施例中，处理器10应用一场景分割模型(scene segmentation model)以分离二维影像中的物体区块，并将物体区块上色。其中，场景分割模型(scene segmentationmodel)可以由CNN模型、R-CNN(Regions with CNN)模型或其他可应用于分割影像的演算法实现的。然而，本领域具通常知识者应能理解，本发明不限于采用CNN模型，只要是可以达到场景分割的其它神经网络模型亦可应用。

举例而言，在处理器10应用CNN模型分析一张室内影像时，CNN模型辨识15种物体(如床、墙、衣橱、窗户、拖把…等家具)出现在此室内影像中各区块的机率，例如辨识结果表示特定区块是床的机率为10％、是墙的机率为20％、是衣柜的机率为90％...等等15种物体的机率，在此些机率中，特定区块是衣柜的机率最高，因此将特定区块视为衣柜。于一实施例中，处理器10依据此些机率将产生一色块图，色块图中的每个色块代表一种物体，例如将特定区块(判定为衣柜的区块)上色为红色。

于一实施例中，当分割出影像中各个物体后，处理器10将物体区块进行一三维重建(three-dimension reconstruction)以产生一三维物体。例如将被标示成红色的衣橱区块进行三维重建，以产生衣橱的三维重建影像，供应用软件后续的使用。三维重建方法可以应用已知的演算法例如纹理恢复形状法(Shape From Texture，SFT)、阴影恢复形状法(Shape From Shading)、立体视觉法(Multi-View Stereo)、结构光法(StructuredLight)…等等实现，此处不赘述。

为了进一步提升辨识出影像中物体的正确性，可以藉由使用者对影像中的物体进行标示或是调整CNN模型辨识出来的结果。例如，使用者配戴增强现实眼镜时，增强现实眼镜辨识一瞳孔注视角度所对应到的观看视野中的至少一视角热点。增强现实眼镜将多个视角热点标示在增强现实眼镜撷取的二维影像上，产生一热点图，或是增强现实眼镜将多个视角热点传到处理器10，由处理器10产生热点图。于一实施例中，处理器10将热点图及二维影像输入CNN模型，以辨识二维影像的物体区块，并将物体区块上色，以产生色块图。藉此，由于输入CNN模型的不仅是二维影像，更包含热点图，可以使CNN模型辨识出的物体区块的位置及形状更精准。

于一例子中，增强现实眼镜或其他提示装置(例如为耳机)可以提示使用者观看特定物体(例如增强现实眼镜上显示「请观看衣橱」及/或耳机发出「请观看衣橱」的提示)，则使用者会往衣橱的方向看，增强现实眼镜藉此取得对应到衣橱的视角热点，并依据至少一个视角热点产生热点图(增强现实眼镜亦可以将至少一个视角热点传送到处理器10，由处理器10产生热点图)。

因此，当热点图及二维影像输入CNN模型时，可以使CNN模型辨识出的物体区块(即对应于衣橱的影像区块)的位置及形状更精准。

于一实施例中，增强现实眼镜的显示器的显示画面中包含一选单、红色区块(即对应于衣橱的影像区块的色块)及一指标讯号。使用者可以选择性地注视选单(例如选单中的选项包含衣橱、墙及门)中的特定标示(例如衣橱)，增强现实眼镜辨识到使用者的视角后，可将指标讯号移到选单上的衣橱选项，此外，使用者亦可以选择性地透过一控制器选择选单上的衣橱选项，藉由此调整或确认红色区块的标示为衣橱。因此，除了透过CNN模型标示物体区块之外，透过使用者藉由上述方式的辅助标示，可以达到精准的标示物体区块的效果。

请参阅图2～3，于图3中，二维影像IMGO可以是由影像撷取装置20所撷取的原始影像，遮罩影像IMGM是将二维影像IMGO输入CNN模型(或其他可分割影像的模型)后，所分离出的特定物体影像，将此特定物体影像应用CNN模形或使用者辅助进行标示，并将此特定物体影像进行上色，例如为红色，以输出遮罩影像IMGM。

于一实施例中，二维影像IMGO与遮罩影像IMGM两者整体被称为地面实况(GroundTruth)，在机器学习中，地面实况指的是为这个测试收集适当的目标资料(用以证明正确性的资料)的过程。

于一实施例中，遮罩影像IMGM可以是已完成标示的影像，标示的方法可以透过CNN模型标示，或透过使用者藉由上述方式辅助标示的，然而其标示方法不限于此。

影像处理方法200应用撷取出来的影像特征，使影像处理模型能更精准的辨识影像中各物体，以下叙述影像处理方法200的各步骤。如图3所示，影像处理方法200可以分成平行或先后运作的两个子步骤，其中一者为目标串流TS(Target Stream)，另一者为参考串流RS(Reference Stream)。

在步骤210中，处理器10接收一二维影像IMGO，并分离(Segmentation)二维影像IMGO中的一物体区块OBJ1，以色块遮罩物体区块OBJ1以产生一遮罩影像IMGM。

于一实施例中，处理器10应用场景分割模型以分离二维影像IMGO中的物体区块OBJ1，并将物体区块OBJ1上色，产生一遮罩影像IMGM。换言之，遮罩影像IMGM中包含对应于物体区块OBJ1的色块OBJ1’。

于步骤220中，处理器10将二维影像IMGO及遮罩影像IMGM输入影像处理模型ENR，影像处理模型ENR输出一特征向量S(feature vector set)。

于一实施例中，处理器10在进行参考串流RS的步骤时，接收二维影像IMGO及遮罩影像IMGM，并将二维影像IMGO及遮罩影像IMGM输入影像处理模型ENR。

于一实施例中，影像处理模型ENR是以CNN模型实现的。处理器10执行影像处理模型ENR中的一系列演算法：将二维影像IMGO及遮罩影像IMGM输入CNN模型后，CNN模型中会依序进行卷积(convolution)层、ReLU层、卷积层、ReLU层、池化(pooling)层、ReLU层、卷积层、ReLU层、池化层及全连接(fully connected)FCL。然而，CNN模型中各层运算可以依实作调整，不限于此。

于一实施例中，全连接层FCL的输入层可以来自于卷积层、ReLU层或池化层的输出，此输出为N维向量，N的大小对应类别的个数(例如15类)。全连接层FCL在CNN模型中可视为分类器的作用，如果将卷积层、池化层和ReLU层视为将原始资料映射到隐藏层的特征空间，则全连接层FCL可视为将学到的分散式特征表示値映射到样本标记空间。在实际使用中，全连接层FCL可由卷积演算法实现，对前一层是全连接的全连接层FCL可以转化为卷积核为1x1的卷积，而对于前一层是卷积层的全连接层FCL可以转化为卷积核为hxw的全域卷积NFV，其中h和w分别为前一层卷积结果的高和宽，全域卷积NFV可藉由全域平均池化(global average pooling)演算法转换成1x1xn(n为长度)的全局资讯Zc，全局资讯Zc包含撷取出的多个特征资讯C1～Cn，全局资讯Zc经过sigmoid函数、ReLU层等运算进行化减，产生维度相同的特征向量S，特征向量S作为后续用以刻划特征地图FM的一组权重，每个权重分别对应一特征値。

于一实施例中，特征向量S中包含多个特征值W1～Wn。特征值W1～Wn代表对应于二维影像IMGO的多个特征的权重，特征值W1～Wn例如代表包含边的特征(直线或斜线)的权重、垂直椅背形状的权重、沙发毛绒的权重…等等，特征值W1～Wn中可以包含低阶特征(较具体)到高阶特征(较抽象)的权重。

于一实施例中，储存装置30储存特征值W1～Wn。

由上述可知，特征向量S可以在离线(offline)或在线(online)时被计算出来，并储存于储存装置30中，以利处理器10再次处理相同场域(例如同样场景)或相似(例如包含高于80％的像素与二维影像IMGO相同)的另一张二维影像时，处理器10可直接由储存装置30取得对应于二维影像IMGO的特征向量S进行运算。

于一实施例中，输入到影像处理模型ENT的二维影像IMGO中的物体区块OBJ1与输入到影像处理模型ENR的二维影像IMGO中的物体区块OBJ1可以是不同视角的相同物体。例如，输入到影像处理模型ENT的二维影像IMGO中的物体区块OBJ1是椅子的左视角影像，输入到影像处理模型ENR的二维影像IMGO中的物体区块OBJ1是椅子的正面视角影像。

于一实施例中，参考串流RS的二维影像IMGO与参考串流RS的遮罩影像IMGM的视角相同。

于步骤230中，处理器10将二维影像IMGO输入影像处理模型ENT，以取得一个特征地图FM。其中，一个特征地图FM包含多个特征通道图X1～Xn，特征向量S为包含多个特征值W1～Wn的向量，每个特征通道图X1～Xn依序各自对应特征向量的特征值W1～Wn，处理器10依据特征通道图X1～Xn及特征值W1～Wn以产生一加权特征地图。

于一实施例中，处理器10在进行目标串流TS的步骤时，接收二维影像IMGO，并将二维影像IMGO输入影像处理模型ENT。

于一实施例中，影像处理模型ENT是以另一CNN模型实现的。

于一实施例中，影像处理模型ENT可以称为编码器(encoder)，用以透过一系列的演算法缩小二维影像IMGO(原始影像)，并萃取出特征及强化萃取出来的特征。

于一实施例中，处理器10执行到影像处理模型ENT中的一卷积运算后，得到第一结果，会将此第一结果再加上激活函数(activation function)，激活函数例如为sigmoid函数、tanh函数、ReLU函数，得到一第二结果，接着将第二结果进行非线性转换，之后得到的图片称为特征地图FM。

于一实施例中，影像处理模型DE可以称为解码器(decoder)，用以依据强化萃取出来的特征还原图像，还原图像可以是二维影像IMGO的色块图。

于一实施例中，处理器10将每个特征通道图X1～Xn依序对应各自与特征值W1～Wn相乘，以输出一加权特征地图。例如，特征通道图X1(与三角型特征相关的特征通道图)为1，特征通道图X2(与直线特征相关的特征通道图)为2，特征通道图Xn(与垂直椅背形状相关的特征通道图)为3；特征值W1为0.8，特征值W2为0.2，特征值Wn为0.1；将特征通道图X1与特征值W1相乘后会得到加权特征0.8、将特征通道图X2与特征值W2相乘后会得到加权特征0.4、将特征通道图X3与特征值W3相乘后会得到加权特征0.3，当计算出所有n个加权特征后，将所有加权特征的集合视为加权特征地图。

由此可知，透过特征值W1～Wn可以调整各个特征通道图X1～Xn的重要性。换言之，加权特征地图中的加权特征较高者，代表其对应的特征较为明显或重要，加权特征较低者，代表其对应的特征较不明显或不重要。

于一实施例中，影像处理模型ENR中的一系列运算可与影像处理模形ENT所作的一系列运算对应，此时影像处理模型ENR与影像处理模型ENT计算的层数相同。处理器10可以在影像处理模型ENR的处理过程中，撷取出一或多层(例如第一层运算及第五层运算)的处理结果作为中间特征权重。影像处理模型ENR的多个中间特征地图各自与影像处理模形ENT对应的运算层(例如第一层运算及第五层运算)的处理结果相乘，相乘后所得到的结果可视为其他加权特征地图，藉此可增加多笔加权特征地图。藉由多个加权特征地图可以重新分配每一层影像特征的权重。

由上述可知，特征向量S可以在影像特征明显时，应用特征值W1～Wn将明显的特征调高，例如，当椅子包含三角形的特征时，特征向量S中与三角型特征相关的特征值(例如为特征值W2)的値会较大(例如为0.8)，其他不明显的特征则较低(例如与直线特征相关的特征值为0.2，与垂直椅背形状相关的特征值为0.1)，特征值W2与三角形的特征値相乘后，会使得三角型特征被特征值W2加权后，而突显出来。

于一实施例中，当处理器10再次将二维影像IMGO像输入影像处理模型ENT，以取得特征地图FM时，处理10直接存取储存装置30中对应于二维影像IMGP的特征值W1～Wn，并将每个特征值W1～Wn依序各自与每个特征通道图X1～Xn相乘，以输出加权特征地图。

请参阅图4A，当处理器10接收到二维影像IMGA(例如为RGB原始影像)时，处理器10透过CNN模型以分离出二维影像IMGA中的物体区块OBJ1及OBJ2，并初步透过CNN模型将物体区块OBJ1分类为椅子(此时CNN模型分类正确)，物体区块OBJ2分类为窗户(此时CNN模型分类错误，物体区块OBJ2实际上是衣柜)。

接着，处理器10应用不同颜色的色块遮罩物体区块OBJ1及OBJ2，以产生遮罩影像IMGB(如图4B所示)，图4A中的物体区块OBJ1上色后对应为图4B中的色块OBJ1’(例如红色，代表椅子区块)，图4A中的物体区块OBJ2上色后对应为图4B中的色块OBJ2’(例如紫色，代表窗户区块)。由此可知，影像处理系统100会为分割出的物体区块产生遮罩。然而，此处所述的上色，仅是方便人眼确认影像处理系统100计算出的遮罩位置是否正确，例如，人眼可观看色块OBJ1’的位置，以确认椅子区块是否正确地被遮罩。因此，上色为选择性的步骤，每个物体区块的所采用的颜色也不限于此，上述仅为提供一例作为说明。

接着，处理器10将二维影像IMGA输入影像处理模型ENT后，透过影像处理模型ENT计算出特征地图FM。由于在相似的拍摄场域，处理器10由储存装置30取出对应物体区块OBJ1的特征向量S，并将特征向量S中的每个特征值W1～Wn依序各自与每个特征通道图X1～Xn相乘得到加权特征地图，因此，当影像处理模型DE依据加权特征地图输出调整遮罩色块图IMGC时，如图4C所示，色块OBJ1’仍为红色，代表椅子区块。

另一方面，假设物体区块OBJ2也已经在离线时算出对应物体区块OBJ2的特征向量S，处理器10由储存装置30取出对应物体区块OBJ2的特征向量S，并将特征向量S中的每个特征值依序各自与每个特征通道图相乘得到加权特征地图，加权特征地图可突显物体区块OBJ2的特征，因此，当影像处理模型DE依据加权特征地图输出调整遮罩色块图IMGC时，影像处理模型DE依据加权特征地图改为判断物体区块OBJ2为衣柜(而不是初始时判断的窗户)，如图4C所示，影像处理模型DE输出对应于物体区块OBJ2的色块OBJ2”改为橘色，代表衣柜区块。

因此，应用加权特征地图可增强物体区块OBJ1、OBJ2的特征，使得调整遮罩色块图IMGC的标示更为准确，二维影像中IMGA的各个物体区块OBJ1、OBJ2的位置跟类别(如椅子、衣柜)都能精准的被判断出来。

于一例子中，由于特征向量S可以离线计算出来，通常同一房间或场域的椅子是相同的，当处理器10接收到相似的二维影像IMGO时，透过影像处理模型ENT计算出特征地图FM后，处理器10可以由储存装置30取出对应二维影像IMGO的特征向量S，不用每次收到二维影像IMGO都重新计算一次特征向量S，也不需要应用特征地图FM的前一层计算结果以算出加权特征地图。

综上所述，本发明实施例提供一种影像处理系统及影像处理方法，因此，应用加权特征地图可增强物体区块的特征，使得第二影像处理模型输出的色块图的标示更为准确，二维影像中的各个物体区块的位置跟类别(如椅子、衣柜)都能精准的被判断出来。此外，当处理器再次收到曾经处理过的场域的二维影像时，处理器可直接由储存装置取出先前第一影像处理模型计算出的特征向量，不用每次收到相似的二维影像都重新计算一次特征向量，也不需要应用特征地图的前一层计算结果以算出加权特征地图。因此本发明的影像处理系统及影像处理方法达到了更有效率且更精准的影像标示效果。

本发明虽以较佳实施例揭露如上，然其并非用以限定本发明的范围，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视后附的申请专利范围所界定者为准。

【符号说明】

100：影像处理系统

10：处理器

20：影像撷取装置

30：储存装置

LK：通讯连结

200：影像处理方法

210～230：步骤

TS：目标串流

IMGO、IMGA：二维影像

OBJ1、OBJ2：物体区块

ENT：影像处理模型

X1～Xn：特征通道图

DE、ENR：影像处理模型

RS：参考串流

IMGM：遮罩影像

OBJ1’、OBJ2’、OBJ2”：色块

FCL：全连接层

NFV：全域卷积

C1～Cn：特征资讯

Zc：全局资讯

W1～Wn：特征值

S：特征向量

IMGB：遮罩影像

IMGC：调整遮罩色块图

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
专利发明人：王仁骏;王钧立;杨东庭;
专利申请人：宏达国际电子股份有限公司;