掌桥专利:专业的专利平台
掌桥专利
首页

基于深度学习的标记识别方法和训练方法及其系统和电子设备

文献发布时间:2023-06-19 11:45:49


基于深度学习的标记识别方法和训练方法及其系统和电子设备

技术领域

本发明涉及标记识别技术领域,尤其是涉及基于深度学习的标记识别方法和训练方法及其系统和电子设备。

背景技术

标记(Marker)作为一种特定样式的平面图案,通常采用图像处理等算法从视觉场景中被识别出来,以确定该标记的4个顶点和中心点的坐标。由于标记通常是预设的,其尺寸参数也是已知的,因此根据标记坐标系与相机坐标系之间的对应关系,就能够求解该相机的内外参数,并且该标记也能够被作为相对于相机的世界坐标系的标记,因而标记识别常常被应用于相机标定、机器人导航以及增强现实(AR)等领域。

现有的标记识别方法通常是基于传统的图像处理技术,利用标记的边缘信息、几何信息以及色度信息进行识别。具体地,现有的标识识别方法先通过灰度化和阈值分割处理技术将标记图像转化成二值图像,再利用腐蚀、边框提取以及霍夫(Hough)变换等技术获得标记的包围框,最后经过种子填充和几何限制等手段取得该标记上的特征点集合。

然而,由于现有的标记识别方法利用的是标记的边缘信息、几何信息以及色度信息,因此该现有的标记识别方法的识别精度将受到标记图像质量的直接影响,对光照均匀性和抖动等因素极为敏感。例如,当因应用场景中的光照不均匀而导致获取的标记图像上的部分区域过暗、部分区域又过亮,或者因AR设备的抖动而导致获取的标记图像产生模糊时,将较大程度地提高有效信息的噪声,甚至导致有效信息的丢失,最终无法准确地识别该标记。特别地,对于AR设备而言,AR设备所处的应用场景中的光照条件较差,并且AR设备在用户佩戴时会随着用户的肢体动作而发生抖动,造成该现有的标记识别方法难以被应用到AR领域中去;也就是说,通过该现有的标记识别方法获得的标记识别结果无法在AR设备的SLAM定位中使用。

发明内容

本发明的一优势在于提供一基于深度学习的标记识别方法和训练方法及其系统和电子设备,其能够提高对不均匀光照和相机抖动的鲁棒性,以便在光照条件差或抖动的应用场景中获得精确的标记识别结果。

本发明的另一优势在于提供一基于深度学习的标记识别方法和训练方法及其系统和电子设备,其中,在本发明的一实施例中,所述基于深度学习的标记识别方法采用端对端的深度学习技术,仅通过输入标记图像就能够直接输出标记的边框和关键点坐标,有助于降低标记识别的难度,提高识别精度。

本发明的另一优势在于提供一基于深度学习的标记识别方法和训练方法及其系统和电子设备,其中,在本发明的一实施例中,所述基于深度学习的标记识别方法能够避免像现有的标记识别方法那样,仅利用标记的边缘信息、几何信息以及色度信息,以解决对光照不均匀和图像模糊较为敏感的问题。

本发明的另一优势在于提供一基于深度学习的标记识别方法和训练方法及其系统和电子设备,其中,在本发明的一实施例中,所述基于深度学习的标记识别方法能够通过采用较多的模糊或光照不均匀的标记图像样本来参与模型训练,以便适应各种抖动或光照条件较差的应用场景,并能够实现更加稳定的标记识别。

本发明的另一优势在于提供一基于深度学习的标记识别方法和训练方法及其系统和电子设备,其中,在本发明的一实施例中,所述基于深度学习的标记识别方法不需要大量的标注样本,能够通过图像融合的方式对标记图案进行图像增强处理以生成大量的标记样本,有助于降低模型训练的成本。

本发明的另一优势在于提供一基于深度学习的标记识别方法和训练方法及其系统和电子设备,其中,在本发明的一实施例中,所述基于深度学习的标记识别方法具有识别速度快、识别精度高以及漏检率低等特点,能够将标记识别的时间开销控制在合理范围内,以满足实际应用场景的要求。

本发明的另一优势在于提供一基于深度学习的标记识别方法和训练方法及其系统和电子设备,其中为了达到上述优势,在本发明中不需要采用复杂的结构和庞大的计算量,对软硬件要求低。因此,本发明成功和有效地提供一解决方案,不只提供一基于深度学习的标记识别方法和训练方法及其系统和电子设备,同时还增加了所述基于深度学习的标记识别方法和训练方法及其系统和电子设备的实用性和可靠性。

为了实现上述至少一优势或其他优势和目的,本发明提供了基于深度学习的标记识别方法,包括步骤:

获取一原始标记图像,其中该原始标记图像是经由图像采集设备拍摄标记而获得的图像;和

将该原始标记图像输入至预先训练好的且基于多任务级联卷积网络构建的标记识别模型中进行标记识别,以输出该标记的边框和关键点在该原始标记图像上的位置,从而实现该标记的识别。

在本发明的一实施例中,所述获取一原始标记图像,其中该原始标记图像是经由图像采集设备拍摄标记而获得的图像的步骤,包括步骤:

预处理该原始标记图像,以生成图像金字塔,其中该图像金字塔包括不同尺寸的预处理图像;

将该图像金字塔中的该预处理图像逐个输入至该标记识别模型的推荐网络,以生成该标记的该边框在该原始标记图像上的多个候选区域;

将该候选区域和该原始标记图像输入至该标记识别模型的优化网络,以生成该标记的该边框在该原始标记图像上的优化区域;以及

将该优选区域和该原始标记图像输入至该标记识别模型的输出网络,以输出该标记的边框坐标和关键点坐标。

在本发明的一实施例中,所述将该候选区域和该原始标记图像输入至该标记识别模型的优化网络,以生成该标记的该边框在该原始标记图像上的优化区域的步骤,包括步骤:

根据该候选区域,对该原始标记图像进行裁剪并调整至第一预定尺寸,以得到相应的候选图像;和

通过该优化网络,对该候选图像进行优化处理,以在过滤并调整该候选区域后,获得该优化区域。

在本发明的一实施例中,所述将该优选区域和该原始标记图像输入至该标记识别模型的输出网络,以输出该标记的边框坐标和关键点坐标的步骤,包括步骤:

根据该优化区域,对该原始标记图像进行裁剪并调整至第二预定尺寸,以得到相应的优化图像;和

通过该优化网络,对该优化图像进行边框回归和关键点定位处理,以确定该标记的该边框和该关键点分别在该原始标记图像上的真实位置。

在本发明的一实施例中,所述第一预定尺寸为24*24;并且所述第二预定尺寸为48*48。

在本发明的一实施例中,该图像采集设备是选自相机、机器视觉设备以及AR设备中的一种。

根据本发明的另一方面,本发明还提供了标记识别模型的训练方法,包括步骤:

获取多个标记图像的标注样本;和

基于该标记图像的标注样本,训练一标记识别模型中的推荐网络、优化网络以及输出网络。

在本发明的一实施例中,所述基于该标记图像的标注样本,训练一标记识别模型中的推荐网络、优化网络以及输出网络的步骤,包括步骤:

对原始标记图像进行图像增强处理,以得到多个该标记图像;和

将该标记图像融合至目标检测样本的检测框内,以生成大量的该标注样本。

根据本发明的另一方面,本发明还提供了基于深度学习的标记识别系统,用于识别原始标记图像中的标记,其中所述基于深度学习的标记识别系统包括相互可通信地连接的:

一获取模块,用于获取该原始标记图像,其中该原始标记图像是经由图像采集设备拍摄标记而获得的图像;和

一标记识别模块,用于将该原始标记图像输入至预先训练好的且基于多任务级联卷积网络构建的标记识别模型中进行标记识别,以输出该标记的边框和关键点在该原始标记图像上的位置,从而实现该标记的识别。

在本发明的一实施例中,所述标记识别模块包括相互可通信地连接的一预处理模块、一区域推荐模块、一区域优化模块以及一区域输出模块,其中所述预处理模块用于预处理该原始标记图像,以生成图像金字塔,其中该图像金字塔包括不同尺寸的预处理图像;其中所述区域推荐模块用于将该图像金字塔中的该预处理图像逐个输入至该标记识别模型的推荐网络,以生成该标记的该边框在该原始标记图像上的多个候选区域;其中所述区域优化模块用于将该候选区域和该原始标记图像输入至该标记识别模型的优化网络,以生成该标记的该边框在该原始标记图像上的优化区域;其中所述区域输出模块用于将该优选区域和该原始标记图像输入至该标记识别模型的输出网络,以输出该标记的边框坐标和关键点坐标。

根据本发明的另一方面,本发明还提供了电子设备,包括:

至少一处理器,用于执行指令;和

与所述至少一处理器可通信地连接的存储器,其中,所述存储器具有至少一指令,其中,所述指令被所述至少一处理器执行,以使得所述至少一处理器执行基于深度学习的标记识别方法中的部分或全部步骤,其中所述基于深度学习的标记识别方法包括步骤:

获取一原始标记图像,其中该原始标记图像是经由图像采集设备拍摄标记而获得的图像;和

将该原始标记图像输入至预先训练好的且基于多任务级联卷积网络构建的标记识别模型中进行标记识别,以输出该标记的边框和关键点在该原始标记图像上的位置,从而实现该标记的识别。

根据本发明的另一方面,本发明还提供了电子设备,包括:

一AR设备;和

一基于深度学习的标记识别系统,其中所述基于深度学习的标记识别系统被配置于所述AR设备,用于识别经由所述AR设备采集的原始标记图像中的标记,其中所述基于深度学习的标记识别系统包括依次可通信地连接的:

一获取模块,用于获取该原始标记图像,其中该原始标记图像是经由图像采集设备拍摄标记而获得的图像;和

一标记识别模块,用于将该原始标记图像输入至预先训练好的且基于多任务级联卷积网络构建的标记识别模型中进行标记识别,以输出该标记的边框和关键点在该原始标记图像上的位置,从而实现该标记的识别。

通过对随后的描述和附图的理解,本发明进一步的目的和优势将得以充分体现。

本发明的这些和其它目的、特点和优势,通过下述的详细说明,附图和权利要求得以充分体现。

附图说明

图1是根据本发明的一实施例的基于深度学习的标记识别方法的流程示意图。

图2示出了根据本发明的上述实施例的所述基于深度学习的标记识别方法的标记识别步骤的流程示意图。

图3示出了根据本发明的上述实施例的所述基于深度学习的标记识别方法中区域优化步骤的流程示意图。

图4示出了根据本发明的上述实施例的所述基于深度学习的标记识别方法中区域输出步骤的流程示意图。

图5示出了根据本发明的上述实施例的所述基于深度学习的标记识别方法的一个应用示例。

图6示出了根据本发明的上述实施例的所述基于深度学习的标记识别方法所采用的标记识别模型中推荐网络的框架示意图。

图7示出了根据本发明的上述实施例的所述标记识别模型中优化网络的框架示意图。

图8示出了根据本发明的上述实施例的所述标记识别模型中输出网络的框架示意图。

图9示出了根据本发明的一实施例的标记识别模型的训练方法的流程示意图。

图10示出了根据本发明的一实施例的基于深度学习的标记识别系统的框图示意图。

图11示出了根据本发明的一实施例的一电子设备的框图示意图。

图12示出了根据本发明的一实施例的另一电子设备的立体示意图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变形方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

在本发明中,权利要求和说明书中术语“一”应理解为“一个或多个”,即在一个实施例,一个元件的数量可以为一个,而在另外的实施例中,该元件的数量可以为多个。除非在本发明的揭露中明确示意该元件的数量只有一个,否则术语“一”并不能理解为唯一或单一,术语“一”不能理解为对数量的限制。

在本发明的描述中,需要理解的是,属于“第一”、“第二”等仅用于描述目的,而不能理解为指示或者暗示相对重要性。本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接或者一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以是通过媒介间接连结。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在相机标定、机器人导航以及增强现实等等应用场景中,标记的识别结果经常被用于求解相机的内外参数或SLAM定位中去,并且标记识别结果的精度也会直接影响相机的内外参数或SLAM定位的准确性。现有的标记识别方法通常是利用标记的边缘信息、几何信息以及色度信息来进行标记识别,使得该现有的标记识别方法的识别精度将受到标记图像质量的直接影响,对光照均匀性和抖动等因素极为敏感。而上述应用场景中的光照条件较差且容易出现移动或抖动,使得所采集到的标记图像通常会出现光照不均匀或模糊的质量问题,进而导致将较大程度地提高有效信息的噪声,甚至导致有效信息的丢失,使得现有的标记识别方法无法准确地识别该标记。

近年来,虽然随着深度学习技术的快速发展,其应用也越来越广泛,但现有的基于深度学习的目标检测方法仅能够检测标记的边框(即包围框),无法确定标记的关键点(即中心点和四个角点)。因此,在获得所述标记的边框之后,现有的基于深度学习的目标检测方法依旧需要引入现有的标记识别方法利用标记的边缘信息、几何信息以及色度信息来确定所述标记的关键点。这样,在标记模糊或者光照条件较差的情况下,现有的基于深度学习的目标检测方法仍难以准确地识别出标记的关键点。

因此,为了解决上述问题,本发明提出一种基于深度学习的标记识别方法和训练方法及其系统和电子设备,其能够提高对不均匀光照和相机抖动的鲁棒性,以便在光照条件差或抖动的应用场景中获得精确的标记识别结果,尤其是AR设备的SLAM定位的应用场景。

示意性方法

参考说明书附图之图1至图4所示,根据本发明的一实施例的一种基于深度学习的标记识别方法被阐明。具体地,如图1所示,所述基于深度学习的标记识别方法包括步骤:

S100:获取一原始标记图像,其中所述原始标记图像是经由图像采集设备拍摄标记而获得的图像;和

S200:将所述原始标记图像输至预先训练好的且基于多任务级联卷积网络构建的标记识别模型中进行标记识别,以输出所述标记的边框和关键点在所述原始标记图像上的位置,从而实现所述标记的识别。

值得注意的是,所述图像采集设备可以但不限于被实施为相机、机器视觉设备或AR设备(如AR眼镜)等等具备采集所述标记(Mark)的图像功能的移动设备。由于所述标记识别模型是基于所述多任务级联卷积网络构建而成的,能够直接识别并输出所述原始标记图像中标记的边框和关键点(即所述标记的中心点和四个角点)的位置,因此本发明的所述基于深度学习的标记识别方法无需利用标记的边缘信息、几何信息以及色度信息来确定所述标记的关键点,以提高标记识别方法对不均匀光照或抖动等场景的鲁棒性,特别适合于AR眼镜的SLAM定位场景。此外,在训练所述标记识别模型的过程中,本发明能够采用较多的模糊或光照不均匀的图像样本进行模型训练,以便进一步提高所述基于深度学习的标记识别方法对模糊或光照条件差的鲁棒性,进而实现更加稳定的标记检测。

特别地,由于在实际应用中无需较多的标记(Mark),因此本发明的所述基于深度学习的标记识别方法中的所述标记识别模型虽然是基于所述多任务级联卷积网络构建而成的,但标记识别的时间开销仍能够控制在合理范围内,以最大限度地利用所述多任务级联卷积网络的检测速度快、检测精度高以及漏检率低的特点。

更具体地,在本发明的所述步骤S100中,所述标记可以是一种特定样式的平面图案,例如二维码等等。

根据本发明的上述实施例,如图2所示,本发明的所述基于深度学习的标记识别方法的所述步骤S200,可以包括步骤:

S210:预处理所述原始标记图像,以生成图像金字塔,其中所述图像金字塔包括不同尺寸的预处理图像;

S220:将所述图像金字塔中的所述预处理图像逐个输入至所述标记识别模型的推荐网络,以生成所述标记的所述边框在所述原始标记图像上的多个候选区域;

S230:将所述候选区域和所述原始标记图像输入至所述标记识别模型的优化网络,以生成所述标记的所述边框在所述原始标记图像上的优化区域;以及

S240:将所述优化区域和所述原始标记图像输入至所述标记识别模型的输出网络,以输出所述标记的边框坐标和关键点坐标。

值得注意的是,如图5所示,在本发明的所述步骤S210中,优选地在保持横纵比的情况下,将所述原始标记图像缩放至若干种不同的尺寸,以获得不同尺寸的预处理图像,进而将所述预处理图像由大到小或有小到大依次堆叠,以形成具有若干层结构的图像金字塔,以便将所述原始标记图像中的标记缩放到所述标记识别模型能够检测到的适宜尺寸,有助于适用于不同大小的标记识别。例如,将所述原始标记图像保持横纵比地缩小至六种不同的尺寸,以获得六种尺寸的预处理图像,进而获得具有六层结构的图像金字塔。

如图5所示,在本发明的所述步骤S220中,对于所述图像金字塔中所有的所述预处理图像,所述标记识别模型的所述推荐网络(英文ProposalNetwork,简称P-Net)都会先得到属于标记的概率和标记的边框回归的结果,再映射回所述原始标记图像,以得到所述标记的所述边框在所述原始标记图像上的大量候选区域。

示例性地,如图6所示,输入尺寸为12*12的预处理图像,先经过大小为3*3且核个数为10的卷积(Convolution,Conv)和大小为3*3的最大池化(MaxPooling,MP),得到5*5*10的特征图;再经过大小为3*3且核个数为16的卷积,得到3*3*16的特征图;之后经过大小为3*3且核个数为32的卷积,得到3*3*64的特征图;最后经过大小为1*1且核个数分别为2、4和10的卷积,分别得到对应于所述候选区域的:标记分类(MarkerClassification),边框回归(Boundingboxregression)以及标记的关键点定位(Markerpoints localization)。

更详细地,在这个示例中,所述标记分类为1*1*2维,用于表示所述候选区域为所述标记的概率;所述边框回归为1*1*4维,用于表示所述候选区域的上、下、左、右的像素坐标值;所述标记的关键点定位为1*1*10维,用于表示所述候选区域对应的标记的五个关键点(即所述标记的中心点和四个角点)的像素坐标,其中每所述关键点包含2维的横纵坐标。

值得一提的是,在本发明的上述实施例中,如图3所示,所述基于深度学习的标记识别方法的所述步骤S230,可以包括步骤:

S231:根据所述候选区域,对所述原始标记图像进行裁剪并调整至第一预定尺寸,以得到相应的候选图像;和

S232:通过所述优化网络,对所述候选图像进行优化处理,以在过滤并调整所述候选区域后,获得所述优化区域。

优选地,所述第一预定尺寸被实施为24*24,也就是说,如图5所示,将尺寸为24*24的所述候选图像输入所述优化网络(英文RefinementNetwork,简称R-Net),以通过边框得分阈值来滤除得分低的所述候选区域,并通过非极大值抑制(英文NonMaximumSuppression,简称NMS)方法剔除一部分冗余的候选区域,进而调整剩余的所述候选区域的位置,以获得所述优选区域。

示例性地,如图7所示,输入尺寸为24*24的所述候选图像,先经过大小为3*3且核个数为28的卷积和大小为3*3的最大池化,得到11*11*28的特征图;再经过大小为3*3且核个数为48的卷积和大小为3*3的最大池化,得到4*4*48的特征图;之后经过大小为2*2且核个数为64的卷积,得到1*1*32的特征图;最后,再经过全连接层得到128维输出,以分别得到对应于所述优化区域的标记分类,边框回归以及标记的关键点定位。

更详细地,在这个示例中,所述标记分类为2维,用于表示所述优选区域为所述标记的概率;所述边框回归为4维,用于表示所述优选区域的上、下、左、右的像素坐标值;所述标记的关键点定位为10维,用于表示所述优选区域对应的标记的五个关键点(即所述标记的中心点和四个角点)的像素坐标,其中每所述关键点包含2维的横纵坐标。

相应地,在本发明的上述实施例中,如图4所示,所述基于深度学习的标记识别方法的所述步骤S240,可以包括步骤:

S241:根据所述优化区域,对所述原始标记图像进行裁剪并调整至第二预定尺寸,以得到相应的优化图像;和

S242:通过所述输出网络,对所述优化图像进行边框回归和关键点定位处理,以确定所述标记的所述边框和所述关键点分别在所述原始标记图像上的真实位置。

优选地,所述第一预定尺寸被实施为24*24,也就是说,如图5所示,将尺寸为24*24的所述候选图像输入所述输出网络(英文OutputNetwork,简称O-Net),以通过边框得分阈值来滤除得分低的所述优选区域,并在调整剩余的所述优选区域的位置之后,再通过非极大值抑制(英文NonMaximumSuppression,简称NMS)方法剔除一部分冗余的优选区域,进而确定所述标记的所述边框在所述原始标记图像上的真实位置,并通过关键点回归来确定所述标记的所述关键点在所述原始标记图像上的真实位置。

示例性地,如图8所示,输入尺寸为48*48的所述优选图像,先经过大小为3*3且核个数为32的卷积和大小为3*3的最大池化,得到23*23*32的特征图;再经过大小为3*3且核个数为32的卷积和大小为3*3的最大池化,得到10*10*64的特征图;之后经过大小为3*3且核个数为64的卷积和大小为2*2的最大池化,得到4*4*64的特征图;然后,经过大小为2*2且核个数为128的卷积,得到3*3*128的特征图;最后,再经过全连接层得到256维输出,以分别得到对应于所述标记的输出区域的标记分类,边框回归以及标记的关键点定位。

更详细地,在这个示例中,所述标记分类为2维,用于表示所述输出区域为所述标记的概率;所述边框回归为4维,用于表示所述输出区域的上、下、左、右的像素坐标值;所述标记的关键点定位为10维,用于表示所述输出区域对应的标记的五个关键点(即所述标记的中心点和四个角点)的像素坐标,其中每所述关键点包含2维的横纵坐标。

根据本发明的另一方面,本发明的进一步提供了一种标记识别模型的训练方法。具体地,在本发明的一实施例中,如图9所示,所述标记识别模型的训练方法,包括步骤:

S310:获取多个标记图像的标注样本;和

S320:基于所述标记图像的所述标注样本,训练标记识别模型中的推荐网络、优化网络以及输出网络。

值得注意的是,在通过所述步骤S310获得所述标注样本的过程中,本发明的所述标记识别模型的训练方法能够通过图像融合的方式,对标记图像使用翻转、光照不均匀性以及模糊等图像增强手段进行处理,进而融合至开源的目标检测样本的检测框内,以生成大量的标记样本。这样,本发明的所述标记识别模型的训练方法就不需要事先采集大量的标记图像,而通过图像增强就能够获得大量的标记样本,以用于模型的训练,有助于在提高所述标记识别模型对光照条件差和抖动等因素的鲁棒性的同时,也能够降低所述标记识别模型的训练成本。

示例性地,如图9所示,本发明的所述标记识别模型的训练方法的所述步骤S310,可以包括步骤:

S311:对原始标记图像进行图像增强处理,以得到多个标记图像;和

S312:将所述标记图像融合至目标检测样本的检测框内,以生成大量的所述标注样本。

示意性系统

参考说明书附图之图10所示,根据本发明的一实施例的一基于深度学习的标记识别系统被阐明,其中所述基于深度学习的标记识别系统用于识别原始标记图像中的标记,以获得该标记的边框和关键点在该原始标记图像上的位置。具体地,如图10所示,所述基于深度学习的标记识别系统1可以包括相互可通信地连接的一获取模块10和一标记识别模块20,其中所述获取模块10用于获取该原始标记图像,其中该原始标记图像是经由图像采集设备拍摄标记而获得的图像;其中所述标记识别模块20用于将该原始标记图像输入至预先训练好的且基于多任务级联卷积网络构建的标记识别模型中进行标记识别,以输出该标记的边框和关键点在该原始标记图像上的位置,从而实现该标记的识别。

更具体地,如图10所示,所述标记识别模块20包括相互可通信地连接的一预处理模块21、一区域推荐模块22、一区域优化模块23以及一区域输出模块24,其中所述预处理模块21用于预处理该原始标记图像,以生成图像金字塔,其中该图像金字塔包括不同尺寸的预处理图像;其中所述区域推荐模块22用于将该图像金字塔中的该预处理图像逐个输入至该标记识别模型的推荐网络,以生成该标记的该边框在该原始标记图像上的多个候选区域;其中所述区域优化模块23用于将该候选区域和该原始标记图像输入至该标记识别模型的优化网络,以生成该标记的该边框在该原始标记图像上的优化区域;其中所述区域输出模块24用于将该优选区域和该原始标记图像输入至该标记识别模型的输出网络,以输出该标记的边框坐标和关键点坐标。

在本发明的一示例中,所述区域优化模块23还用于根据该候选区域,对该原始标记图像进行裁剪并调整至第一预定尺寸,以得到相应的候选图像;和通过该优化网络,对该候选图像进行优化处理,以在过滤并调整该候选区域后,获得该优化区域。

在本发明的一示例中,所述区域输出模块24还用于根据该优化区域,对该原始标记图像进行裁剪并调整至第二预定尺寸,以得到相应的优化图像;和通过该优化网络,对该优化图像进行边框回归和关键点定位处理,以确定该标记的该边框和该关键点分别在该原始标记图像上的真实位置。

示意性电子设备

下面,参考图11来描述根据本发明的一实施例的电子设备。如图11所示,电子设备90包括一个或多个处理器91和存储器92。

所述处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备90中的其他组件以执行期望的功能。换言之,所述处理器91包括被配置成执行指令的一个或多个物理设备。例如,所述处理器91可被配置成执行作为以下各项的一部分的指令:一个或多个应用、服务、程序、例程、库、对象、组件、数据结构、或其他逻辑构造。这种指令可被实现以执行任务、实现数据类型、转换一个或多个部件的状态、实现技术效果、或以其他方式得到期望结果。

所述处理器91可包括被配置成执行软件指令的一个或多个处理器。作为补充或替换,所述处理器91可包括被配置成执行硬件或固件指令的一个或多个硬件或固件逻辑机。所述处理器91的处理器可以是单核或多核,且在其上执行的指令可被配置为串行、并行和/或分布式处理。所述处理器91的各个组件可任选地分布在两个或更多单独设备上,这些设备可以位于远程和/或被配置成进行协同处理。所述处理器91的各方面可由以云计算配置进行配置的可远程访问的联网计算设备来虚拟化和执行。

所述存储器92可以包括一个或多个计算程序产品,所述计算程序产品可以包括各种形式的计算可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算可读存储介质上可以存储一个或多个计算程序指令,所述处理器11可以运行所述程序指令,以实现上文所述的本发明的上述示意性方法中的部分或全部步骤,以及/或者其他期望的功能。

换言之,所述存储器92包括被配置成保存可由所述处理器91执行以实现此处所述的方法和过程的机器可读指令的一个或多个物理设备。在实现这些方法和过程时,可以变换所述存储器92的状态(例如,保存不同的数据)。所述存储器92可以包括可移动和/或内置设备。所述存储器92可包括光学存储器(例如,CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如,RAM、EPROM、EEPROM等)和/或磁存储器(例如,硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)等等。所述存储器92可包括易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址和/或内容可寻址设备。

可以理解,所述存储器92包括一个或多个物理设备。然而,本文描述的指令的各方面可另选地通过不由物理设备在有限时长内持有的通信介质(例如,电磁信号、光信号等)来传播。所述处理器91和所述存储器92的各方面可被一起集成到一个或多个硬件逻辑组件中。这些硬件逻辑组件可包括例如现场可编程门阵列(FPGA)、程序和应用专用的集成电路(PASIC/ASIC)、程序和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)以及复杂可编程逻辑器件(CPLD)。

在一个示例中,如图11所示,所述电子设备90还可以包括输入装置93和输出装置94,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。例如,该输入装置93可以是例如用于采集图像数据或视频数据的摄像模组等等。又如,所述输入装置93可以包括诸如键盘、鼠标、触摸屏或游戏控制器之类的一个或多个用户输入设备或者与其对接。在一些实施例中,所述输入装置93可以包括所选择的自然用户输入(NUI)部件或与其对接。这种元件部分可以是集成的或外围的,并且输入动作的转导和/或处理可以在板上或板外被处理。示例NUI部件可包括用于语言和/或语音识别的话筒;用于机器视觉和/或姿势识别的红外、色彩、立体显示和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速计和/或陀螺仪;以及用于评估脑部活动和/或身体运动的电场感测部件;和/或任何其他合适的传感器。

该输出装置94可以向外部输出各种信息,包括分类结果等。该输出装置94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,所述电子设备90还可以进一步包括所述通信装置,其中所述通信装置可被配置成将所述电子设备90与一个或多个其他计算机设备通信地耦合。所述通信装置可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可被配置成用于经由无线电话网络或者有线或无线局域网或广域网来进行通信。在一些实施例中,所述通信装置可允许所述电子设备90经由诸如因特网这样的网络将消息发送至其他设备以及/或者从其它设备接收消息。

将会理解,此处描述的配置和/或方法本质是示例性的,这些具体实施例或示例不应被视为限制性的,因为许多变体是可能的。此处描述的具体例程或方法可以表示任何数量的处理策略中的一个或多个。如此,所示和/或所述的各种动作可以以所示和/或所述顺序、以其他顺序、并行地执行,或者被省略。同样,上述过程的次序可以改变。

当然,为了简化,图11中仅示出了该电子设备90中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。

根据本发明的另一方面,本发明进一步提供了诸如配置有摄像模组的AR设备等等之类的电子设备,其中所述电子设备配置有上述基于深度学习的标记识别系统,用于识别经由所述电子设备采集的原始标记图像中的标记。示例性地,如图12所示,所述电子设备包括一AR设备600和所述基于深度学习的标记识别系统1,其中所述基于深度学习的标记识别系统1被配置于所述AR设备600,用于识别经由所述AR设备600采集的原始标记图像中的标记,以获得该标记的边框和关键点在该原始标记图像上的位置。可以理解的是,所述AR设备600可以但不限于被实施为具有摄像功能的AR眼镜。

示意性计算程序产品

除了上述方法和设备以外,本发明的实施例还可以是计算程序产品,其包括计算程序指令,所述计算程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本发明的实施例还可以是计算可读存储介质,其上存储有计算程序指令,所述计算程序指令在被处理器运行时使得所述处理器执行本说明书上述方法中的步骤。

所述计算可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本发明的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

本领域的技术人员应理解,上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整并有效地实现。本发明的功能及结构原理已在实施例中展示和说明,在没有背离所述原理下,本发明的实施方式可以有任何变形或修改。

技术分类

06120113046676