掌桥专利:专业的专利平台
掌桥专利
首页

对象处理方法及装置、电子设备、存储介质

文献发布时间:2023-06-19 16:09:34



技术领域

本公开涉及计算机技术领域,具体而言,涉及一种对象处理方法、对象处理装置、电子设备以及计算机可读存储介质。

背景技术

多尺度网络结构可以广泛地应用于各种类型的任务中,且多尺度网络结构中可以使用多分辨率分支以及重复的融合模块获取更大的视野和多尺度特征。

相关技术中,每个分支通过融合模块进行特征交换。或者是,在网络的末端通过不同的特征融合模块来进行特征交换。其中,每个分支通过融合模块进行特征交换时,由于分支较多且需要较多的碎片化的操作,从而导致较高的延时,降低了特征的准确性,且影响网络结构的精度和处理速度。除此之外,相关技术中进行特征融合的位置是固定不变的,因此具有一定的局限性。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种对象处理方法及装置、电子设备、存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的特征提取准确性低且网络结构性能差的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的第一方面,提供一种对象处理方法,包括:获取待处理对象,并根据网络结构的目标特征图对所述待处理对象在所述网络结构中多个分辨率的特征图进行融合,获取融合特征图;将所述融合特征图传输至所述多个分辨率对应的分支获取输出特征图,并基于所述输出特征图确定目标网络结构,以通过所述目标网络结构对待处理对象进行处理操作。

根据本公开的第二方面,提供一种对象处理装置,包括:特征融合模块,用于获取待处理对象,并根据网络结构的目标特征图对所述待处理对象在所述网络结构中多个分辨率的特征图进行融合,获取融合特征图;特征确定模块,用于将所述融合特征图传输至所述多个分辨率对应的分支获取输出特征图,并基于所述输出特征图确定目标网络结构,以通过所述目标网络结构对待处理对象进行处理操作。

根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的对象处理方法及其可能的实现方式。

根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的对象处理方法及其可能的实现方式。

本公开实施例中提供的对象处理方法、对象处理装置、电子设备以及计算机可读存储介质中,一方面,根据网络结构对应的多个分辨率的特征图中的目标特征图,对多个分辨率的特征图进行融合获取融合特征图,避免了相关技术中使用融合模块对每个分支进行融合时的碎片化操作,而是进行整体融合操作,降低了特征融合导致的网络延时,能够使得其他分止的特征均融合至每一个分支,提高了提取到的特征的准确性,也提高了网络结构的精度和处理速度。另一方面,只要存在多个分辨率的特征图,即可根据网络结构的目标特征图来对多个分辨率的特征图进行融合,避免了相关技术中只能在固定位置进行融合的局限性,增加了应用范围且提高了便捷性,能够提高融合有效性,且增加了通用性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的对象处理方法的系统架构的示意图。

图2示意性示出本公开实施例中一种对象处理方法的示意图。

图3示意性示出本公开实施例中网络结构的结构示意图。

图4示意性示出本公开实施例中获取输出特征图的流程示意图。

图5示意性示出本公开实施例中进行融合的流程示意图。

图6示意性示出本公开实施例中进行采样的流程示意图。

图7示意性示出本公开实施例中确定每个分支的分支特征图的示意图。

图8示意性示出本公开实施例中混合融合的示意图。

图9示意性示出本公开实施例中一种对象处理装置的框图。

图10示意性示出本公开实施例中电子设备的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术中,HRNet网络结构使用多分辨率分支和重复的融合模块,能获取到更大的视野和多尺度特征。HRNet具有四个不同分辨率对应的分支,每个分支保留了不同尺度的信息并通过融合模块Transition进行特征交换。Fast-SCNN、BiSeNet等轻量化网络虽然没有融合模块Transition,但在网络的末端设计了不同的特征融合模块。

典型的HR-Net,其中融合模块Transition虽然占用计算量FLOPs(floating pointoperations,浮点运算数即计算量)并不高,但是需要较多碎片化的操作,这些操作往往会有更高的I/O延时。并且,由于网络结构存在多个分辨率对应的分支,融合模块占用的延时会随着分支增加呈指数级别增长。除此之外,HR-Net网络中的融合模块是通过人为设计的,并且只能设置于固定位置;而Fast-SCNN、BiSeNet等网络只会在网络结构的末端进行特征交换。这些模块的位置以及种类应该通过NAS搜索来生成最优化的网络结构。

为了解决相关技术中的技术问题,本公开实施例中提供了一种对象处理方法,可以应用于对网络结构进行网络搜索获取目标网络结构,进而通过目标网络结构对待处理对象进行处理操作的应用场景。处理操作可以为各种类型的任务,例如稠密图像预测任务中。稠密图像预测任务可以包括但不限于语义分割任务、人体姿态识别任务、目标检测任务等等。

图1示出了可以应用本公开实施例的对象处理方法及装置的系统架构的示意图。

如图1所示,系统架构100可以包括客户端101、服务器102。其中,客户端101可以为智能设备,例如可以为智能手机、电脑、平板电脑、智能音箱等智能设备。客户端101上获取待处理对象并将待处理对象发送至服务器102,以使服务器102根据目标网络结构来对待处理对象进行处理操作。待处理对象例如可以包括待处理图像、待处理语音、待处理文本等等,具体可以根据处理操作所对应的类型而确定。服务器102可以为提供本公开实施例中对象处理相关服务的后台系统,可以包括便携式计算机、台式计算机、智能手机等具有计算功能的一台电子设备或多台电子设备形成的集群,用于对网络结构中的多个分辨率的特征图进行融合获取目标网络结构,并基于目标网络结构对客户端发送的待处理对象进行处理操作。除此之外,客户端也可以无需将待处理对象发送至服务器,而只是通过客户端自身对网络结构中的多个分辨率的特征图进行融合获取目标网络结构,并基于目标网络结构对客户端发送的待处理对象进行处理操作。例如,对待处理对象进行语义分割任务、人体姿态识别任务、目标检测任务等,执行哪种处理操作具体根据实际需求和实际应用场景而确定。

该对象处理方法可以应用于对处理操作对应的网络结构进行网络结构搜索的应用场景。参考图1中所示,客户端将待处理对象101发送至服务器102,服务器102根据网络结构的目标特征图,对所述网络结构中的多个分辨率分支的特征图进行融合,获取融合特征图;将所述融合特征图传输至多个分辨率分支确定输出特征图,并基于输出特征图进行网络结构搜索获取目标网络结构,并基于所述目标网络结构对客户端101发送的待处理对象进行处理操作。

其中,服务器102可以与客户端101相同,即客户端101与服务器102均为能够执行计算功能的智能设备,例如可以为智能手机。

需要说明的是,本公开实施例所提供的对象处理方法可以由服务器102来执行。相应地,对象处理方法可通过程序等方式设置于服务器102中。本公开实施例所提供的对象处理方法也可以由客户端101来执行。相应地,对象处理方法可通过程序等方式设置于客户端101中。本公开实施例中,以对象处理方法由客户端代表的端侧来执行为例进行说明。

接下来,参考图2对本公开实施例中的对象处理方法进行详细说明。

在步骤S210中,获取待处理对象,并根据网络结构的目标特征图对所述待处理对象在所述网络结构中的多个分辨率分支的特征图进行融合,获取融合特征图。

本公开实施例中,待处理对象可以根据实际需求而确定,例如可以为待处理图像等等,且待处理图像可以为任何分辨率的图像。网络结构可以为处理操作所使用的模型,且网络结构可以为多尺度网络结构。多尺度网络结构指的是使用多个尺度的图像(图像金字塔)作为输入,然后对其结果进行融合的网络结构。多尺度网络结构可以包括并行多分支网络和跳层连接网络,本公开实施例中以多尺度网络结构为并行多分支网络为例进行说明。并行多分支网络通常包含感受野不同的卷积核,例如可以包含1×1的卷积,3×3的卷积,5×5的卷积和3×3的最大池化。该结构将这四个分支对输入分别提取特征后进行融合,然后作为下一层的特征输入。

图3中示意性示出了网络结构的示意图,参考图3中所示,其中主要包括基本结构301和过渡结构302,且过渡结构用于表示融合模块。图3中的网络结构有四个阶段,每个阶段由提取不同尺度特征的分支组成,每个分支通过上采样或下采样对提取出的特征尺寸进行尺度的统一,然后将统一以后的不同尺度特征相互融合。即,网络结构具有四个不同分辨率对应的分支,每个分支保留了不同尺度的信息并通过融合模块进行特征交换。多个分辨率对应的分支之间的排列顺序可以根据网络结构而确定,且对于同一个网路结构,其包含的多个分辨率分支是固定不变的。示例性地,可从网络结构的起点作为起点,依次确定多个不同分辨率对应的分支。

本公开实施例中,在目标阶段,网络结构可以包括多个分辨率分支,用于对待处理对象进行特征提取得到多个分辨率分支的特征,即多个分辨率的特征图。多个分辨率分支获取的特征图的分辨率不同,但是多个分辨率分支所对应的模型以及其他参数相同,且每个分辨率分支的输入和输出的参数相同。目标阶段可以为网络结构的任意阶段,此处不作具体限定。可以对多个不同分辨率分支对应的待处理对象的输入并行进行卷积操作,提取每个分辨率的特征图。

图4中的图A示意性示出了相关技术中的参考融合方式。图4中的图B示意性示出了根据目标特征图进行融合的示意图。参考图4中的图B所示,多个分支的分辨率例如可以包括但不限于h/4、h/8等等,且不同分辨率分支对应的维度也不同,例如h/4分辨率分支的维度为32,h/8分辨率分支的维度为64等等。进一步可以对多个分辨率分支的特征(多个分辨率的特征图)进行融合,获取融合特征图,具体可以表示为公式(1):

Y

其中,H

图5中示意性示出了进行融合的流程图,参考图5中所示,主要包括以下步骤:

在步骤S510中,将所述多个分辨率的特征图中除所述目标特征图之外的参考特征图,按照所述目标特征图的属性信息进行缩放,获取多个缩放特征图。

本步骤中,可以多个分辨率的特征图中的目标特征图作为基准,对除目标特征图之外其他的参考特征图进行融合。其中,多个不同分辨率对应的分支根据网络结构的顺序而排列。对于多个分辨率特征图而言,其可以与多个分辨率对应的分支的排列顺序相同。基于此,可以将多个分辨率的特征图中,排列在最后一位的特征图作为目标特征图,以及将剩余的其他特征图作为参考特征图。举例而言,若多个分辨率的特征图表示为X

目标特征图的属性信息指的是目标特征图的尺度,尺度可以用于描述目标特征图的尺寸,具体可以使用W

基于此,可以按照目标特征图的属性信息,对参考特征图进行缩放。示例性地,可对参考特征图进行池化操作以进行缩放,使得每个参考特征图的属性信息与目标特征图的属性信息相同。池化操作可以为平均池化操作,即对多个不同分辨率的参考特征图进行自定义平均池化操作,以对参考特征图的尺度进行扩大或缩小,直至扩大或缩小后的参考特征图的尺度与目标特征图的尺度相同为止。除此之外,在进行池化操作时,可对参考特征图的维度进行调整,例如可以通过降维处理调整其维度。并且,可以将按照目标特征图的属性信息对参考特征图进行缩放得到的特征图作为缩放特征图。

需要说明的是,由于参考特征图的分辨率不同,因此参考分辨率的尺度也不同,则根据目标特征图的尺度对每个参考特征图进行缩放的缩放程度也不同,缩放程度具体根据参考特征图的尺度与目标特征图的尺度之间的差值而确定。

在步骤S520中,对每个缩放特征图进行连接操作获取连接结果,并对所述连接结果进行卷积操作,以将所述多个分辨率的特征图转换为所述融合特征图。

本步骤中,可以对每个分辨率对应的缩放特征图进行连接操作,获取连接结果。示例性地,连接操作可以为对缩放特征图按照多个分辨率对应的分支的排列顺序进行拼接。若存在s个分辨率对应的分支,连接结果可以为s-1个分辨率的缩放特征图拼接得到,即拼接结果中缩放特征图的数量为多个分辨率的特征图的数量减一。

在获取到连接结果后,可将连接结果进行卷积操作,从而实现基于目标特征图将多个分辨率的特征图进行融合得到融合特征图。示例性地,卷积操作可以包括第一卷积操作以及第二卷积操作。其中,第一卷积操作可以为PWConv(Pointwise Convolution,逐点卷积)。逐点卷积的卷积核的尺寸为1×1×M,M为上一层的通道数。所以逐点卷积会将上一步的特征图在深度方向上进行加权组合生成新的特征图,且有几个卷积核就输出几个特征图。第二卷积操作可以为DWConv(depth-wise separable convolution,深度可分离卷积)。深度可分离卷积的卷积核可以为3×3卷积核,也可以为其他卷积核,具体根据实际需求而确定。深度可分离卷积的一个卷积核负责一个通道,且一个通道只被一个卷积核卷积,这个过程产生的特征图的通道数和输入的通道数完全一样。举例而言,对三通道的RGB图像,正常卷积核是对3个通道同时做卷积。也就是说,3个通道,在一次卷积后,输出一个数。对于深度可分离卷积而言,用三个卷积对三个通道分别做卷积,这样在一次卷积后,输出3个数。

基于此,可将所述连接结果进行第一卷积操作,获取第一卷积结果;对所述第一卷积结果进行第二卷积操作获取第二卷积结果,并将所述第二卷积结果确定为所述融合特征图。示例性地,可通过第一卷积操作对连接结果进行普通卷积处理,获取对应的卷积结果。进一步地,可使用深度可分离卷积对第一卷积结果的每个通道分别进行卷积处理,从而输出每个通道的卷积结果作为第二卷积结果。基于第二卷积操作,可以实现基于目标特征图将多个分辨率的特征图进行融合,获取三个通道的第二卷积结果作为融合特征图。

本公开实施例中,根据网络结构的目标特征图,将网络结构的多个分辨率的特征图进行融合,避免了相关技术中的碎片化操作,通过对网络结构中多个分辨率的特征图中参考特征图进行融合操作,降低了特征融合导致的网络延时,提高了网络结构的精度和处理速度。并且,由于每个分辨率对应的分支中均融合了其他分支的特征,因此能够提高融合的准确性和全面性,进而提高获取的特征图的精准性。

接下来,继续参考图2中所示,在步骤S220中,将所述融合特征图传输至所述多个分辨率对应的分支获取输出特征图,并基于所述输出特征图确定目标网络结构,以通过所述目标网络结构对待处理对象进行处理操作。

本公开实施例中,在获取融合特征图之后,可将融合特征图传输至多个不同分辨率对应的分支。若存在s个分辨率对应的分支,则将融合特征图分别分流传输至s个分辨率对应的分支。

对于每个分辨率对应的分支而言,可基于每个分支的特征图以及融合特征图确定每个分辨率对应分支的分支特征图,进而得到输出特征图。图6中示意性示出了获取输出特征图的流程图,参考图6中所示,主要包括以下步骤:

在步骤S610中,将所述融合特征图进行卷积操作,并对卷积结果进行上采样获取采样结果;

在步骤S620中,根据每个分支的特征图以及所述采样结果确定每个分支的分支特征图,并将每个分支的分支特征图进行融合,获取输出特征图;每个分支的分支特征图与所述分支对应的特征图的属性参数相同。

本公开实施例中,卷积操作可以为逐点卷积PWConv。在对多通道对应的融合特征图进行逐点卷积后,可以确定卷积结果,且卷积结果的数量与卷积核的数量相同。进一步地,由于在获取融合特征图的过程中,对参考特征图进行池化操作降低了参考特征图的维度,为了提高准确性,可对卷积结果进行上采样处理,以获取采样结果。上采样处理用于对每个分支的分支特征图的通道和分辨率进行调整,以使得每个分支的分支特征图的分辨率、通道与每个分支的特征图Xsi(未融合之前输入的特征图)的分辨率和通道保持一致,从而保证每个分辨率对应的分支的输入特征和输出特征一致。

通过上采样操作确定采样结果后,可将每个分辨率对应的分支的特征图与采样结果进行融合,确定每个分辨率对应的分支的分支特征图。参考图7中所示,可将每个分辨率对应的分支的特征图701与每个分辨率对应的分支的采样结果702进行加法操作703,获取每个分辨率对应的分支的分支特征图704。示例性地,每个分辨率对应的分支的特征图与采样结果进行融合可以为两个矩阵进行加法操作。

继续参考图4中的图B所示,第一分支的分辨率为h/4,维度为32;第二分支的分辨率为h/8,维度为64。对于第一分支而言,其特征图的分辨率为h/4,维度为32;对于第二分支而言,其特征图的分辨率为h/8,维度为64。可以根据目标特征图对第一分支的特征图以及第二分支的特征图进行池化操作,并将第一分支和第二分支的缩放特征图进行连接,确定连接结果。进一步地,可对连接结果进行逐点卷积以及深度可分离卷积,获取融合特征图。接下来,可以将融合特征图分流至第一分支和第二分支。在分流至每一个分支时,可以对融合特征图进行逐点卷积,并对卷积结果进行上采样获取采样结果。对采样结果与每个分支的特征图进行融合,可以得到每个分支的分支特征图。例如,第一分支对应的分支特征图的分辨率为h/4,维度为32;第二分支对应的分支特征图的分辨率为h/8,维度为64。即,每个分支的分支特征图与其对应的分支输入的特征图的分辨率相同。

进一步地,可以对每个分辨率对应的分支的分支特征图进行融合,获取待处理对象在目标阶段的输出特征图。

需要说明的是,本公开实施例中可在网络结构的每个网络层之后对所述多个分辨率的特征图进行融合;或者按照预设间隔对所述多个分辨率的特征图进行融合。预设间隔指的是间隔固定间距的网络层对多个分辨率的特征图进行融合,预设间隔例如可以为2个网络层等等。即,可以每隔2个网络层进行一次特征融合或者是每隔3个网络层进行一次特征融合,此处不作具体限定。其中,在每个网络层之后对多个分辨率的特征图进行融合,获取的输出特征图的准确率大于按照预设间隔进行融合的准确率。

除此之外,在存在多个分辨率对应的分支时,对多个分辨率的特征图,通过目标特征图对所述多个分辨率中的第一范围的特征图进行融合,并通过参考方式对所述多个分辨率的特征图中第二范围的特征图进行融合。第一范围可以为分支数量大于预设值的范围,第二范围可以为分支数量小于预设值的范围。预设值例如可以为2或者是其他数值等等,此处不做具体限定。由于每个分支对应一个分辨率,因此,第一范围的分辨率的数量大于第二范围的分辨率的数量。参考方式可以为任意一种融合方式,只要与按照目标特征图进行融合不同即可。因此,在存在多个分辨率对应的分支时,也可按照参考方式对分支数量较少的范围进行融合,按照目标特征图对分支数量较多的范围进行融合,从而提高准确性。或者完全按照目标特征图进行融合,选择哪种融合方式可根据实际需求而进行选择。第一范围可以为网络结构的前几层;第二范围可以为网络结构的后几层。

本公开实施例中,由于对多个不同分辨率对应的分支的特征图进行了连接操作,从而使得每个分辨率对应的分支均可以融合其他分支的特征图,也使得该目标阶段的输出特征图的输出通道中的每个元素都接收到了来自其他所有输入通道所有位置的贡献。网络结构从高分辨率开始,逐渐融合低分辨率信息,在每个融合阶段都有跨分辨率的信息交换。通过对不同分辨率对应分支的特征图进行融合,能够对高分辨率的图像等进行更准确地特征表达,提高得到的特征图的准确性和全面性。除此之外,由于可以对每个分辨率对应分分支进行同样的融合操作,避免了相关技术中由于分支较多而导致的需要较多的碎片化操作的过程,降低了延时,提高了网络结构的精度和处理速度。并且,由于网络结构的每个网络层之后可以对多个分辨率的特征图进行融合,避免了相关技术中只能在固定位置对特征进行融合的局限性,增加了应用范围和全面性。

在得到输出特征图之后,可基于所述输出特征图进行网络结构搜索获取目标网络结构,并通过所述目标网络结构对待处理对象进行处理操作。本公开实施例中,在获取到目标阶段的输出特征图后,可将输出特征图输入至网络结构的下一阶段进行处理,从而根据搜索策略实现网络结构搜索,以在网络结构表示的搜索空间中得到目标网络结构,从而确定超网结构。进一步地,可基于目标网络结构表示的超网结构对待处理对象进行处理操作。其中,处理操作可以为目标任务,且目标任务可以为各种类型的任务,例如分类任务、检测任务以及分割任务、人体姿态识别任务等等,具体可根据实际应用场景和实际需求而确定。

本公开实施例中,可提供分支融合模块用于执行上述步骤S210和步骤S220,获取输出特征图。该分支融合模块根据网络结构的目标特征图,对网络结构中不同分辨率对应的分支的特征图进行融合获取融合特征图。进而将融合特征图传输至多个不同分辨率对应的分支,以完成网络搜索获取目标网络结构。其中,网络结构的每层都可以连接分支融合模块,且分支融合模块的数量与目标网络结构的性能参数正相关目标网络结构的性能参数可以包括但不限于目标网络结构的精度和速度。即分支融合模块的数量越多,目标网络结构的性能参数越高。

需要说明的是,分支融合模块可以单独使用,也可以与参考融合模块对应的参考方式进行混合使用。在混合使用时,可以将分支融合模块设置于网络结构中分支数量较多的位置,而将参考融合模块放置于网络结构中分支数量较少的位置。参考图8中所示,网络结构中可以包括参考融合模块801和分支融合模块802,参考融合模块用于对所述多个分辨率中的第二范围的特征图进行融合,分支融合模块用于对所述多个分辨率的特征图中第一范围的特征图进行融合。

需要补充的是,在网络结构表示的搜索空间中还会存在zero模块,这个模块和分支融合模块并列,搜索的时候一旦选中zero模块就可以认为无需执行分支融合模块,即单分辨率情况下可以选择zero模块。

在一些实施例中,可以基于人体姿态识别场景来对分支融合模块进行测试验证。为了避免不同卷积操作而导致的计算误差,可以将网络结构中的所有卷积操作统一设置为DWConv卷积操作,也可以将网络结构称为DW-HRNet。在对分支融合模块进行测试验证时,可通过不同参数的分支融合模块以及与参考融合模块的对比两个维度来进行验证。

首先,可对分支融合模块的数量进行测试验证。为了比较设置分支融合模块EFM的数量和位置对于网络结构的精度和速度的影响,基于人体姿态识别数据集进行消融实验,设计了三个不同变量的对比实验。参考表1中所示,三个变量用于表示网络结构的性能参数,可以包括但不限于复杂度、人体姿态估计指标以及网络速度。其中,人体姿态估计指标可以为预测的关键点与标注的关键点经过head size normalize后的距离。without用于表示完全不包含分支融合模块,分支融合模块指的是EFM(Efficient Fusion Module,高效融合模块),也完全不包含任何参考融合模块;less用于表示固定间距、共存在3个EFM模块;full用于表示每层都连接EFM模块,共存在8个EFM模块。

表1

参考表1中所示,相对于不包含任何融合模块而言,包含3个分支融合模块的网络结构的人体姿态估计指标提升了0.93,包含8个分支融合模块的网络结构的人体姿态估计指标提升了1.34。相对于不包含任何融合模块而言,包含3个分支融合模块的网络结构的复杂度降低了17.2%,包含8个分支融合模块的网络结构的网络复杂度降低了48.2%。除此之外,3个分支融合模块的网络结构的速度分别提升了23.9%、57.5%,包含8个分支融合模块的网络结构的速度分别提升了54%、111.3%。因此,可以认为人体姿态估计指标、网络结构的网络复杂度以及网络结构的速度均与分支融合模块的数量正相关。

进一步地,可以通过三个不同变量对高效融合模块以及参考融合模块的性能进行对比。为了避免不同场景以及不同计算方法导致的计算误差,同样在人体姿态识别数据集上进行消融实验。参考表2中所示,对包含3个融合模块的网络结构以及包含3个分支融合模块的网络结构进行对比,并对包含8个融合模块的网络结构以及包含8个分支融合模块的网络结构进行对比。在表2中,original代表参考融合模块,pooling Transition模块代表本公开实施例提出的分支融合模块,DW-HRNet(full,original)表示包含8个HRNet的transition模块的网络结构,DW-HRNet(full,pooling)表示包含8个本公开实施例提出的分支融合模块EFM的网络结构。

表2

由表2可以看出,相对于相同配置的参考融合模块,本公开实施例提供的分支融合模块计算复杂度更低(-16.2%,-5.8%),人体姿态估计指标效果更高(+0.48,+0.2),且速度更快(34%,25.4%)。

综上所述,分支融合模块能够提高网络结构的性能参数,且分支融合模块的数量与网络结构的性能参数正相关。即,分支融合模块的数量越多,网络结构的性能参数越高。

需要说明的是,分支融合模块中卷积通道数是可以选择的可搜索参数,可以直接参与网络搜索过程。

本公开实施例中,特征融合模块多用于多尺度网络结构中,而多尺度的网络架构可应用于人体姿态识别、语义分割、目标检测等稠密图像预测任务中。语义分割中常用的BiseNet,也具有特征交换模块,可将本公开实施例提供的特征融合方式应用在BiseNet的特征融合过程。并且,本公开实施例提供的技术方案,可以在服务器侧实现特征融合,并根据输出特征图进行多尺度网络结构的网络搜索,也能够在客户端所代表的端侧实现对多尺度网络结构的网络搜索,提高了普适性和便利性。除此之外,还降低了需要的硬件成本。本公开实施例的特征融合方式,能够加速多尺度特征融合,且能够通过网络搜索实现最优配置,提高网络搜索的效率。

本公开实施例中提供了一种对象处理装置,参考图9中所示,该对象处理装置900可以包括:

特征融合模块901,用于获取待处理对象,并根据网络结构的目标特征图对所述待处理对象在所述网络结构中多个分辨率的特征图进行融合,获取融合特征图;

特征确定模块902,用于将所述融合特征图传输至所述多个分辨率对应的分支获取输出特征图,并基于所述输出特征图确定目标网络结构,以通过所述目标网络结构对待处理对象进行处理操作。

在本公开的一种示例性实施例中,特征融合模块包括:特征缩放模块,用于将所述多个分辨率的特征图中除所述目标特征图之外的参考特征图,按照所述目标特征图的属性信息进行缩放,获取多个缩放特征图;特征转换模块,用于对每个缩放特征图进行连接操作获取连接结果,并对所述连接结果进行卷积操作,以将所述多个分辨率的特征图转换为所述融合特征图。

在本公开的一种示例性实施例中,特征缩放模块包括:池化模块,用于按照所述目标特征图的属性信息,对所述参考特征图进行池化操作,以使每个缩放特征图的属性信息与所述目标特征图的属性信息相同。

在本公开的一种示例性实施例中,特征转换模块包括:第一卷积模块,用于将所述连接结果进行第一卷积操作,获取第一卷积结果;第二卷积模块,用于对所述第一卷积结果进行第二卷积操作获取第二卷积结果,并将所述第二卷积结果确定为所述融合特征图。

在本公开的一种示例性实施例中,特征确定模块包括:采样模块,用于将所述融合特征图进行卷积操作,并对卷积结果进行上采样获取采样结果;分流模块,用于根据每个分支的特征图以及所述采样结果确定每个分支的分支特征图,并根据所述分支特征图获取所述输出特征图;每个分支的分支特征图与所述分支对应的特征图的属性参数相同;

在本公开的一种示例性实施例中,分流模块被配置为:将每个分支的特征图与每个分支的所述采样结果进行融合,获取每个分支的所述分支特征图。

在本公开的一种示例性实施例中,所述装置还包括:混合融合模块,用于对于存在多个分辨率的特征图,通过目标特征图对所述多个分辨率中的第一范围的特征图进行融合,并通过参考方式对所述多个分辨率的特征图中第二范围的特征图进行融合;其中,所述第一范围的特征图的分辨率的数量大于所述第二范围的特征图的分辨率的数量。

需要说明的是,上述对象处理装置中各模块的具体细节已经在对应的对象处理方法中进行了详细描述,因此此处不再赘述。

本公开的示例性实施方式还提供一种电子设备。该电子设备可以是上述终端101或服务器102。一般的,该电子设备可以包括处理器与存储器,存储器用于存储处理器的可执行指令,处理器配置为经由执行可执行指令来执行上述图像去噪处理方法。

下面以图10中的移动终端1000为例,对该电子设备的构造进行示例性说明。本领域技术人员应当理解,除了特别用于移动目的的部件之外,图10中的构造也能够应用于固定类型的设备。

如图10所示,移动终端1000具体可以包括:处理器1001、存储器1002、总线1003、移动通信模块1004、天线1、无线通信模块1005、天线2、显示屏1006、摄像模块1007、音频模块1008、电源模块1009与传感器模块1010。

处理器1001可以包括一个或多个处理单元,例如:处理器1001可以包括AP(Application Processor,应用处理器)、调制解调处理器、GPU(Graphics ProcessingUnit,图形处理器)、ISP(Image Signal Processor,图像信号处理器)、控制器、编码器、解码器、DSP(Digital Signal Processor,数字信号处理器)、基带处理器和/或NPU(Neural-Network Processing Unit,神经网络处理器)等。本示例性实施方式中的图像去噪处理方法可以由AP、GPU或DSP来执行,当方法涉及到神经网络相关的处理时,可以由NPU来执行,例如NPU可以加载神经网络参数并执行神经网络相关的算法指令。

编码器可以对图像或视频进行编码(即压缩),以减小数据大小,便于存储或发送。解码器可以对图像或视频的编码数据进行解码(即解压缩),以还原出图像或视频数据。移动终端1000可以支持一种或多种编码器和解码器,例如:JPEG(Joint PhotographicExperts Group,联合图像专家组)、PNG(Portable Network Graphics,便携式网络图形)、BMP(Bitmap,位图)等图像格式,MPEG(Moving Picture Experts Group,动态图像专家组)1、MPEG10、H.1063、H.1064、HEVC(High Efficiency Video Coding,高效率视频编码)等视频格式。

处理器1001可以通过总线1003与存储器1002或其他部件形成连接。

存储器1002可以用于存储计算机可执行程序代码,可执行程序代码包括指令。处理器1001通过运行存储在存储器1002的指令,执行移动终端1000的各种功能应用以及数据处理。存储器1002还可以存储应用数据,例如存储图像,视频等文件。

移动终端1000的通信功能可以通过移动通信模块1004、天线1、无线通信模块1005、天线2、调制解调处理器以及基带处理器等实现。天线1和天线2用于发射和接收电磁波信号。移动通信模块1004可以提供应用在移动终端1000上3G、4G、5G等移动通信解决方案。无线通信模块1005可以提供应用在移动终端1000上的无线局域网、蓝牙、近场通信等无线通信解决方案。

显示屏1006用于实现显示功能,如显示用户界面、图像、视频等。摄像模块1007用于实现拍摄功能,如拍摄图像、视频等。音频模块1008用于实现音频功能,如播放音频,采集语音等。电源模块1009用于实现电源管理功能,如为电池充电、为设备供电、监测电池状态等。传感器模块1010可以包括一种或多种传感器,用于实现相应的感应检测功能。例如,传感器模块1010可以包括惯性传感器,其用于检测移动终端1000的运动位姿,输出惯性传感数据。

需要说明的是,本公开实施例中还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

相关技术
  • 虚拟对象毛发处理方法及装置、存储介质、电子设备
  • 虚拟对象的处理方法、装置、电子设备及存储介质
技术分类

06120114725206