掌桥专利:专业的专利平台
掌桥专利
首页

图像处理模型的确定方法、装置、设备及存储介质

文献发布时间:2023-06-19 11:39:06


图像处理模型的确定方法、装置、设备及存储介质

技术领域

本公开涉及图像处理领域,尤其涉及图像处理模型的确定方法、装置、设备及存储介质。

背景技术

在图像处理领域,能够通过图像处理模型对两个图像进行处理,以确定出两个图像的哈希码,进而根据哈希码确定出两个图像之间的相似度,来确定两个图像是否相关,以此来作为图像检索的依据。

目前,图像处理模型的训练过程通常需要为图像添加标注数据,来指导图像处理模型的训练过程。或者通过对样本图像进行特征提取,直接用图像对中两个样本图像的图像特征之间的相似度来作为训练目标,以指导图像处理模型的训练过程。相似度值越大,则认为两个样本图像之间越相似,后续计算两个样本图像之间的哈希码之间的距离则就越小。

但上述标注数据一般依赖大量的人工标注,人工成本较高,且非常耗时,因而,图像处理效率很低。直接使用图像特征之间的相似度来作为训练目标,由于图像特征得到的相似度是嘈杂的,并不能代表真实的相似关系,因而训练得到的图像处理模型的准确性较差。

发明内容

本公开提供一种图像处理模型的确定方法、装置、设备及存储介质,提高了图像处理的准确性。本公开的技术方案如下:

根据本公开实施例的第一方面,提供一种图像处理模型的确定方法,包括:

获取多个样本图像和所述多个样本图像的旋转图像,每个样本图像的旋转图像为对所述样本图像旋转目标角度得到的图像;

基于图像处理模型,对所述多个样本图像和所述多个样本图像的旋转图像进行处理,得到所述多个样本图像的相似度信息、所述多个样本图像的哈希码和所述多个样本图像的旋转图像的哈希码,所述相似度信息包括所述多个样本图像中两个样本图像之间的相似度;

基于所述相似度信息中两个样本图像之间的相似度以及所述两个样本图像的哈希码之间的差距,获取第一损失值;

基于所述多个样本图像中每个样本图像的哈希码和所述样本图像的旋转图像的哈希码之间的差距,获取第二损失值;

基于所述第一损失值和所述第二损失值,对所述图像处理模型的模型参数进行更新,直至符合目标条件时停止,得到目标图像处理模型。

在一些实施例中,所述基于图像处理模型,对所述多个样本图像和所述多个样本图像的旋转图像进行处理,得到所述多个样本图像的相似度信息、所述多个样本图像的哈希码和所述多个样本图像的旋转图像的哈希码,包括:

基于图像处理模型,对所述多个样本图像和所述多个样本图像的旋转图像进行特征提取,得到所述多个样本图像的图像特征和所述多个样本图像的旋转图像的图像特征;

基于所述图像处理模型以及所述多个样本图像的图像特征,获取所述多个样本图像的相似度信息以及所述多个样本图像的哈希码;

基于所述图像图像处理模型和所述多个样本图像的旋转图像的图像特征,获取所述旋转图像的哈希码。

在一些实施例中,所述基于所述图像处理模型以及所述多个样本图像的图像特征,获取所述多个样本图像的相似度信息,包括:

基于所述图像处理模型,确定所述多个样本图像中每两个样本图像的图像特征之间的相似度,得到所述多个样本图像的候选相似度信息;

对所述候选相似度信息中每个相似度进行锐化处理,得到所述多个样本图像的相似度信息。

在一些实施例中,所述对所述候选相似度信息中每个相似度进行锐化处理,得到所述多个样本图像的相似度信息,包括:

对于所述候选相似度信息中小于或等于所述相似度阈值的第一相似度,获取所述第一相似度的目标次幂作为相似度信息中对应的相似度;

对于所述候选相似度信息中大于所述相似度阈值的第二相似度,获取所述第二相似度的目标次幂与所述目标次幂与目标数值之间的比值,将所述比值作为相似度信息中对应的相似度,其中,所述目标数值为所述候选相似度信息中第一相似度的目标次幂之和。

在一些实施例中,所述基于所述相似度信息中两个样本图像之间的相似度以及所述两个样本图像的哈希码之间的差距,获取第一损失值,包括:

对于所述多个样本图像中每两个样本图像,获取所述两个样本图像的哈希码之间的距离;

获取所述相似度信息中所述两个样本图像之间的相似度与所述距离的差值;

基于所述多个样本图像对应的多个差值,获取第一损失值。

在一些实施例中,所述基于所述第一损失值和所述第二损失值,对所述图像处理模型的模型参数进行更新,包括:

对所述第一损失值和所述第二损失值进行加权求和,得到目标损失值;

基于所述目标损失值,对所述图像处理模型的模型参数进行更新。

在一些实施例中,所述每个样本图像的旋转图像的数量为多个,每个样本图像的多个旋转图像为对所述样本图像旋转多个不同角度得到的图像,每个旋转图像携带有所述旋转图像对应的目标旋转角度;

所述方法还包括:

基于所述图像处理模型,基于所述每个样本图像的图像特征和所述每个样本图像的旋转图像的图像特征,确定所述每个样本图像的旋转图像对应的预测旋转角度;

基于所述每个样本图像的旋转图像对应的预测旋转角度和目标旋转角度,获取第三损失值;

所述基于所述第一损失值和所述第二损失值,对所述图像处理模型的模型参数进行更新,包括:

基于所述第一损失值、第二损失值和所述第三损失值,对所述图像处理模型的模型参数进行更新。

在一些实施例中,所述基于所述第一损失值、第二损失值和所述第三损失值,对所述图像处理模型的模型参数进行更新,包括:

对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到目标损失值;

基于所述目标损失值,对所述图像处理模型的模型参数进行更新。

在一些实施例中,所述方法还包括:

对于所述多个样本图像中每个样本图像,基于所述多个样本图像的哈希码,确定所述样本图像对应的多个预测样本图像和所述多个预测样本图像的预测排序信息;

基于所述多个样本图像的相似度信息,确定所述样本图像对应的多个目标样本图像以及所述多个目标样本图像对应的目标排序信息;

基于所述样本图像对应的多个预测样本图像、多个目标样本图像、所述预测排序信息和所述目标排序信息,获取第四损失值;

所述基于所述第一损失值和所述第二损失值,对所述图像处理模型的模型参数进行更新,包括:

基于所述第一损失值、所述第二损失值和所述第四损失值,对所述图像处理模型的模型参数进行更新。

在一些实施例中,所述基于所述多个样本图像的哈希码,确定所述样本图像对应的多个预测样本图像和所述多个预测样本图像的预测排序信息,包括:

基于所述多个样本图像的哈希码,获取所述样本图像与其他样本图像之间的预测相似度;

基于所述预测相似度,对所述除所述样本图像之外的其他样本图像进行排序,得到第一排序信息;

根据所述第一排序信息,从所述其他样本图像中,确定所述样本图像对应的多个预测样本图像和所述多个预测样本图像的预测排序信息。

在一些实施例中,所述基于所述多个样本图像的相似度信息,确定所述样本图像对应的多个目标样本图像以及所述多个目标样本图像对应的目标排序信息,包括:

基于所述多个样本图像的相似度信息中所述样本图像与其他样本图像之间的相似度,对所述其他样本图像进行排序,得到第二排序信息;

根据所述第二排序信息,从所述其他样本图像中,确定所述样本图像对应的多个目标样本图像以及所述多个目标样本图像对应的目标排序信息。

在一些实施例中,所述相似度信息为相似度矩阵;

所述基于所述多个样本图像的相似度信息中所述样本图像与其他样本图像之间的相似度,对所述其他样本图像进行排序,得到第二排序信息,包括:

基于所述相似度矩阵中每一行的相似度,对所述其他样本图像进行排序,得到第二排序信息;

所述根据所述第二排序信息,从所述其他样本图像中,确定所述样本图像对应的多个目标样本图像以及所述多个目标样本图像对应的目标排序信息,包括:

根据所述第二排序信息中相似度最大的目标数量的相似度,从所述其他样本图像中,获取所述目标数量的相似度对应的多个样本图像作为所述多个目标样本图像,将所述第二排序信息中所述多个目标样本图像的排序信息作为所述目标排序信息。

根据本公开实施例的第二方面,提供一种图像处理模型的确定装置,包括:

获取单元,被配置为执行获取多个样本图像和所述多个样本图像的旋转图像,每个样本图像的旋转图像为对所述样本图像旋转目标角度得到的图像;

处理单元,被配置为执行基于图像处理模型,对所述多个样本图像和所述多个样本图像的旋转图像进行处理,得到所述多个样本图像的相似度信息、所述多个样本图像的哈希码和所述多个样本图像的旋转图像的哈希码,所述相似度信息包括所述多个样本图像中两个样本图像之间的相似度;

损失值获取单元,被配置为执行基于所述相似度信息中两个样本图像之间的相似度以及所述两个样本图像的哈希码之间的差距,获取第一损失值;

所述损失值获取单元,还被配置为执行基于所述多个样本图像中每个样本图像的哈希码和所述样本图像的旋转图像的哈希码之间的差距,获取第二损失值;

更新单元,被配置为执行基于所述第一损失值和所述第二损失值,对所述图像处理模型的模型参数进行更新,直至符合目标条件时停止,得到目标图像处理模型。

在一些实施例中,所述处理单元,被配置为执行:

基于图像处理模型,对所述多个样本图像和所述多个样本图像的旋转图像进行特征提取,得到所述多个样本图像的图像特征和所述多个样本图像的旋转图像的图像特征;

基于所述图像处理模型以及所述多个样本图像的图像特征,获取所述多个样本图像的相似度信息以及所述多个样本图像的哈希码;

基于所述图像图像处理模型和所述多个样本图像的旋转图像的图像特征,获取所述旋转图像的哈希码。

在一些实施例中,所述处理单元,被配置为执行:

基于所述图像处理模型,确定所述多个样本图像中每两个样本图像的图像特征之间的相似度,得到所述多个样本图像的候选相似度信息;

对所述候选相似度信息中每个相似度进行锐化处理,得到所述多个样本图像的相似度信息。

在一些实施例中,所述处理单元,被配置为执行:

对于所述候选相似度信息中小于或等于所述相似度阈值的第一相似度,获取所述第一相似度的目标次幂作为相似度信息中对应的相似度;

对于所述候选相似度信息中大于所述相似度阈值的第二相似度,获取所述第二相似度的目标次幂与所述目标次幂与目标数值之间的比值,将所述比值作为相似度信息中对应的相似度,其中,所述目标数值为所述候选相似度信息中第一相似度的目标次幂之和。

在一些实施例中,所述损失值获取单元被配置为执行:

对于所述多个样本图像中每两个样本图像,获取所述两个样本图像的哈希码之间的距离;

获取所述相似度信息中所述两个样本图像之间的相似度与所述距离的差值;

基于所述多个样本图像对应的多个差值,获取第一损失值。

在一些实施例中,所述更新单元被配置为执行:

对所述第一损失值和所述第二损失值进行加权求和,得到目标损失值;

基于所述目标损失值,对所述图像处理模型的模型参数进行更新。

在一些实施例中,所述每个样本图像的旋转图像的数量为多个,每个样本图像的多个旋转图像为对所述样本图像旋转多个不同角度得到的图像,每个旋转图像携带有所述旋转图像对应的目标旋转角度;

所述装置还包括:

第一确定单元,被配置为执行基于所述图像处理模型,基于所述每个样本图像的图像特征和所述每个样本图像的旋转图像的图像特征,确定所述每个样本图像的旋转图像对应的预测旋转角度;

所述损失值获取单元还被配置为执行基于所述每个样本图像的旋转图像对应的预测旋转角度和目标旋转角度,获取第三损失值;

所述更新单元被配置为执行基于所述第一损失值、第二损失值和所述第三损失值,对所述图像处理模型的模型参数进行更新。

在一些实施例中,所述更新单元被配置为执行:

对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到目标损失值;

基于所述目标损失值,对所述图像处理模型的模型参数进行更新。

在一些实施例中,所述装置还包括:

第二确定单元,被配置为执行对于所述多个样本图像中每个样本图像,基于所述多个样本图像的哈希码,确定所述样本图像对应的多个预测样本图像和所述多个预测样本图像的预测排序信息;

所述第二确定单元还被配置为执行基于所述多个样本图像的相似度信息,确定所述样本图像对应的多个目标样本图像以及所述多个目标样本图像对应的目标排序信息;

所述损失值获取单元还被配置为执行基于所述样本图像对应的多个预测样本图像、多个目标样本图像、所述预测排序信息和所述目标排序信息,获取第四损失值;

所述更新单元被配置为执行基于所述第一损失值、所述第二损失值和所述第四损失值,对所述图像处理模型的模型参数进行更新。

在一些实施例中,所述第二确定单元被配置为执行:

基于所述多个样本图像的哈希码,获取所述样本图像与其他样本图像之间的预测相似度;

基于所述预测相似度,对所述除所述样本图像之外的其他样本图像进行排序,得到第一排序信息;

根据所述第一排序信息,从所述其他样本图像中,确定所述样本图像对应的多个预测样本图像和所述多个预测样本图像的预测排序信息。

在一些实施例中,所述第二确定单元被配置为执行:

基于所述多个样本图像的相似度信息中所述样本图像与其他样本图像之间的相似度,对所述其他样本图像进行排序,得到第二排序信息;

根据所述第二排序信息,从所述其他样本图像中,确定所述样本图像对应的多个目标样本图像以及所述多个目标样本图像对应的目标排序信息。

在一些实施例中,所述相似度信息为相似度矩阵;

所述第二确定单元被配置为执行:

基于所述相似度矩阵中每一行的相似度,对所述其他样本图像进行排序,得到第二排序信息;

根据所述第二排序信息中相似度最大的目标数量的相似度,从所述其他样本图像中,获取所述目标数量的相似度对应的多个样本图像作为所述多个目标样本图像,将所述第二排序信息中所述多个目标样本图像的排序信息作为所述目标排序信息。

根据本公开实施例的第三方面,提供一种电子设备,电子设备包括:

一个或多个处理器;

用于存储所述处理器可执行指令的一个或多个存储器;

其中,所述一个或多个处理器被配置为执行所述指令,以实现第一方面任一项所述的图像处理模型的确定方法。

根据本公开实施例的第四方面,提供一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行第一方面任一项所述的图像处理模型的确定方法。

根据本公开实施例的第五方面,提供一种计算机程序产品,包括一条或多条计算机程序,所述一条或多条计算机程序存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条计算机程序,所述一个或多个处理器执行所述一条或多条计算机程序,使得电子设备能够执行上述任一种可能实施方式的图像处理模型的确定方法。

本公开的实施例提供的技术方案至少带来以下有益效果:

本公开实施例中,对于每个样本图像,通过增加旋转图像,考虑到旋转图像的哈希码与样本图像的哈希码一致的特性,引入了另一种损失值,结合这种损失值与训练样本图像之间相似度的损失值,对图像处理模型的模型参数进行更新,能够使得图像处理模型在获取样本图像的哈希码时,获取到更准确的哈希码,基于哈希码进行后续处理,也能够得到更准确的处理结果,因而能够提高该图像处理模型的准确性,且有了这层保障,旋转图像为对样本图像进行几何变换得到的,这样该图像处理模型对几何变换前后的图像均能够进行准确处理,具有更好的鲁棒性,且该图像处理模型能够基于样本图像进行训练,无需标注数据,减少了人工成本,提高数据处理效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种图像处理模型的确定方法的实施环境的示意图。

图2是根据一示例性实施例示出的一种图像处理模型的确定方法的流程图。

图3是根据一示例性实施例示出的一种图像处理模型的确定方法的流程图。

图4是根据一示例性实施例示出的一种相似度的概率分布示意图。

图5是根据一示例性实施例示出的一种图像处理模型的结构示意图。

图6是根据一示例性实施例示出的一种图像处理的实验结果示意图。

图7是根据一示例性实施例示出的一种图像处理的实验结果示意图。

图8是根据一示例性实施例示出的一种图像处理模型的确定装置框图。

图9是根据一示例性实施例示出的一种电子设备的框图。

图10是根据一示例性实施例示出的一种终端的框图。

图11是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是本申请实施例提供的一种图像处理模型的确定方法的实施环境的示意图。该实施环境包括终端101,或者该实施环境包括终端101和图像处理平台102。终端101通过无线网络或有线网络与图像处理平台102相连。

终端101能够是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器,膝上型便携计算机,智能机器人,自助支付设备中的至少一种。终端101安装和运行有支持图像处理的应用程序,例如,该应用程序能够是系统应用、即时通讯应用、新闻推送应用、购物应用、在线视频应用、社交应用。

示例性地,该终端101能够具有图像采集功能和图像处理功能,能够对采集到的图像进行处理,并根据处理结果执行相应的功能。该终端101能够独立完成该工作,也能够通过图像处理平台102为其提供数据服务。本申请实施例对此不作限定。

图像处理平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。图像处理平台102用于为支图像处理的应用程序提供后台服务。可选地,图像处理平台102承担主要处理工作,终端101承担次要处理工作;或者,图像处理平台102承担次要处理工作,终端101承担主要处理工作;或者,图像处理平台102或终端101分别能够单独承担处理工作。或者,图像处理平台102和终端101两者之间采用分布式计算架构进行协同计算。

可选地,该图像处理平台102包括至少一台服务器1021以及数据库1022,该数据库1022用于存储数据,在本申请实施例中,该数据库1022中能够存储有样本图像,为至少一台服务器1021提供数据服务。

服务器能够是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端能够是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。

本领域技术人员能够知晓,上述终端101、服务器1021的数量能够更多或更少。比如上述终端101、服务器1021能够仅为一个,或者上述终端101、服务器1021为几十个或几百个,或者更多数量,本申请实施例对终端或服务器的数量和设备类型不加以限定。

图2是根据一示例性实施例示出的一种图像处理模型的确定方法的流程图,如图2所示,方法包括以下步骤。

在步骤S21中,获取多个样本图像和该多个样本图像的旋转图像,每个样本图像的旋转图像为对该样本图像旋转目标角度得到的图像。

在步骤S22中,基于图像处理模型,对该多个样本图像和该多个样本图像的旋转图像进行处理,得到该多个样本图像的相似度信息、该多个样本图像的哈希码和该多个样本图像的旋转图像的哈希码,该相似度信息包括该多个样本图像中两个样本图像之间的相似度。

在步骤S23中,基于该相似度信息中两个样本图像之间的相似度以及该两个样本图像的哈希码之间的差距,获取第一损失值。

在步骤S24中,基于该多个样本图像中每个样本图像的哈希码和该样本图像的旋转图像的哈希码之间的差距,获取第二损失值。

在步骤S25中,基于该第一损失值和该第二损失值,对该图像处理模型的模型参数进行更新,直至符合目标条件时停止,得到目标图像处理模型。

本公开实施例中,对于每个样本图像,通过增加旋转图像,考虑到旋转图像的哈希码与样本图像的哈希码一致的特性,引入了另一种损失值,结合这种损失值与训练样本图像之间相似度的损失值,对图像处理模型的模型参数进行更新,能够使得图像处理模型在获取样本图像的哈希码时,获取到更准确的哈希码,基于哈希码进行后续处理,也能够得到更准确的处理结果,因而能够提高该图像处理模型的准确性,且有了这层保障,旋转图像为对样本图像进行几何变换得到的,这样该图像处理模型对几何变换前后的图像均能够进行准确处理,具有更好的鲁棒性,且该图像处理模型能够基于样本图像进行训练,无需标注数据,减少了人工成本,提高数据处理效率。

在一些实施例中,该基于图像处理模型,对该多个样本图像和该多个样本图像的旋转图像进行处理,得到该多个样本图像的相似度信息、该多个样本图像的哈希码和该多个样本图像的旋转图像的哈希码,包括:

基于图像处理模型,对该多个样本图像和该多个样本图像的旋转图像进行特征提取,得到该多个样本图像的图像特征和该多个样本图像的旋转图像的图像特征;

基于该图像处理模型以及该多个样本图像的图像特征,获取该多个样本图像的相似度信息以及该多个样本图像的哈希码;

基于该图像图像处理模型和该多个样本图像的旋转图像的图像特征,获取该旋转图像的哈希码。

在一些实施例中,该基于该图像处理模型以及该多个样本图像的图像特征,获取该多个样本图像的相似度信息,包括:

基于该图像处理模型,确定该多个样本图像中每两个样本图像的图像特征之间的相似度,得到该多个样本图像的候选相似度信息;

对该候选相似度信息中每个相似度进行锐化处理,得到该多个样本图像的相似度信息。

在一些实施例中,该对该候选相似度信息中每个相似度进行锐化处理,得到该多个样本图像的相似度信息,包括:

对于该候选相似度信息中小于或等于该相似度阈值的第一相似度,获取该第一相似度的目标次幂作为相似度信息中对应的相似度;

对于该候选相似度信息中大于该相似度阈值的第二相似度,获取该第二相似度的目标次幂与该目标次幂与目标数值之间的比值,将该比值作为相似度信息中对应的相似度,其中,该目标数值为该候选相似度信息中第一相似度的目标次幂之和。

在一些实施例中,该基于该相似度信息中两个样本图像之间的相似度以及该两个样本图像的哈希码之间的差距,获取第一损失值,包括:

对于该多个样本图像中每两个样本图像,获取该两个样本图像的哈希码之间的距离;

获取该相似度信息中该两个样本图像之间的相似度与该距离的差值;

基于该多个样本图像对应的多个差值,获取第一损失值。

在一些实施例中,该基于该第一损失值和该第二损失值,对该图像处理模型的模型参数进行更新,包括:

对该第一损失值和该第二损失值进行加权求和,得到目标损失值;

基于该目标损失值,对该图像处理模型的模型参数进行更新。

在一些实施例中,该每个样本图像的旋转图像的数量为多个,每个样本图像的多个旋转图像为对该样本图像旋转多个不同角度得到的图像,每个旋转图像携带有该旋转图像对应的目标旋转角度;

该方法还包括:

基于该图像处理模型,基于该每个样本图像的图像特征和该每个样本图像的旋转图像的图像特征,确定该每个样本图像的旋转图像对应的预测旋转角度;

基于该每个样本图像的旋转图像对应的预测旋转角度和目标旋转角度,获取第三损失值;

该基于该第一损失值和该第二损失值,对该图像处理模型的模型参数进行更新,包括:

基于该第一损失值、第二损失值和该第三损失值,对该图像处理模型的模型参数进行更新。

在一些实施例中,该基于该第一损失值、第二损失值和该第三损失值,对该图像处理模型的模型参数进行更新,包括:

对该第一损失值、该第二损失值和该第三损失值进行加权求和,得到目标损失值;

基于该目标损失值,对该图像处理模型的模型参数进行更新。

在一些实施例中,该方法还包括:

对于该多个样本图像中每个样本图像,基于该多个样本图像的哈希码,确定该样本图像对应的多个预测样本图像和该多个预测样本图像的预测排序信息;

基于该多个样本图像的相似度信息,确定该样本图像对应的多个目标样本图像以及该多个目标样本图像对应的目标排序信息;

基于该样本图像对应的多个预测样本图像、多个目标样本图像、该预测排序信息和该目标排序信息,获取第四损失值;

该基于该第一损失值和该第二损失值,对该图像处理模型的模型参数进行更新,包括:

基于该第一损失值、该第二损失值和该第四损失值,对该图像处理模型的模型参数进行更新。

在一些实施例中,该基于该多个样本图像的哈希码,确定该样本图像对应的多个预测样本图像和该多个预测样本图像的预测排序信息,包括:

基于该多个样本图像的哈希码,获取该样本图像与其他样本图像之间的预测相似度;

基于该预测相似度,对该除该样本图像之外的其他样本图像进行排序,得到第一排序信息;

根据该第一排序信息,从该其他样本图像中,确定该样本图像对应的多个预测样本图像和该多个预测样本图像的预测排序信息。

在一些实施例中,该基于该多个样本图像的相似度信息,确定该样本图像对应的多个目标样本图像以及该多个目标样本图像对应的目标排序信息,包括:

基于该多个样本图像的相似度信息中该样本图像与其他样本图像之间的相似度,对该其他样本图像进行排序,得到第二排序信息;

根据该第二排序信息,从该其他样本图像中,确定该样本图像对应的多个目标样本图像以及该多个目标样本图像对应的目标排序信息。

在一些实施例中,该相似度信息为相似度矩阵;

该基于该多个样本图像的相似度信息中该样本图像与其他样本图像之间的相似度,对该其他样本图像进行排序,得到第二排序信息,包括:

基于该相似度矩阵中每一行的相似度,对该其他样本图像进行排序,得到第二排序信息;

该根据该第二排序信息,从该其他样本图像中,确定该样本图像对应的多个目标样本图像以及该多个目标样本图像对应的目标排序信息,包括:

根据该第二排序信息中相似度最大的目标数量的相似度,从该其他样本图像中,获取该目标数量的相似度对应的多个样本图像作为该多个目标样本图像,将该第二排序信息中该多个目标样本图像的排序信息作为该目标排序信息。

图3是根据一示例性实施例示出的一种图像处理模型的确定方法的流程图,如图3所示,该方法用于电子设备中,包括以下步骤。

在步骤S31中,电子设备获取多个样本图像和该多个样本图像的旋转图像,每个样本图像的旋转图像为对该样本图像旋转目标角度得到的图像。

电子设备获取该多个样本图像,通过该多个样本图像对图像处理模型进行训练,使得该图像处理模型能够对图像进行处理,得到更准确的处理结果。

在本公开实施例中,该电子设备还可以获取每个样本图像的旋转图像,该旋转图像是对样本图像进行几何变换得到的,这样对旋转图像进行处理得到的数据具有该样本图像的几何特点,基于样本图像和旋转图像联合进行模型训练,能够提高模型的鲁棒性。

该多个样本图像可以存储于不同位置,相应地,该电子设备可以通过不同的方式获取该多个样本图像。

在一些实施例中,该多个样本图像可以存储于图像数据库中,相应地,电子设备可以从图像数据库中提取该多个样本图像。例如,该图像数据库可以为语料库。

在另一些实施例中,该多个样本图像也可以存储于该电子设备中,相应地,电子设备可以从本地存储中提取该多个样本图像。

本申请对该多个样本图像的存储位置以及获取方式不作具体限定。

对于旋转图像,每个样本图像的旋转图像为对该样本图像旋转目标角度得到的图像。该目标角度可以由相关技术人员根据需求进行设置,例如,90度,又例如,180度等。每个样本图像的旋转图像的数量可以为一个,也可以为多个。

在一些实施例中,该每个样本图像的旋转图像的数量为多个,每个样本图像的多个旋转图像为对该样本图像旋转多个不同角度得到的图像。通过设置多个旋转图像能够更好的为样本图像的旋转图像增加不确定性,以进一步提高图像处理模型的鲁棒性和准确性。

该旋转图像的获取过程可以为电子设备获取到多个样本图像后,对多个样本图像进行旋转得到,也可以由电子设备直接从图像数据库或者电子设备的本地存储中获取得到,本公开实施例对此不作限定。

在步骤S32中,电子设备基于图像处理模型,对该多个样本图像和该多个样本图像的旋转图像进行特征提取,得到该多个样本图像的图像特征和该多个样本图像的旋转图像的图像特征。

电子设备获取到样本图像后,能够将多个样本图像以及旋转图像输入图像处理模型中,由该图像处理模型对多个样本图像和旋转图像进行后续处理,例如,该图像处理模型能够执行步骤S32至步骤S34所示的特征提取、相似度信息和哈希码获取过程。

需要说明的是,在该步骤S32中,该图像处理模型还是一个初始模型,该初始模型的模型参数为初始模型参数,后续能够根据对样本图像的处理结果再更新,得到更优的图像处理模型。

在一些实施例中,该图像处理模型中用于进行特征提取的部分可以采用卷积神经网络,电子设备通过图像处理模型中的卷积神经网络对多个样本图像和旋转图像进行特征提取,得到图像特征。例如,该卷积神经网络可以为Alexnet网络或者VGG(Visual GeometryGroup,计算机视觉组)网络,本申请实施例对此不作限定。其中,Alexnet网络为一种神经网络。例如,对于一个样本图像或旋转图像的图像特征,可以表示为

在步骤S33中,电子设备基于该图像处理模型以及该多个样本图像的图像特征,获取该多个样本图像的相似度信息以及该多个样本图像的哈希码。

电子设备获取到样本图像的图像特征之后,能够根据图像特征来分析样本图像之间的相似度,也能够对图像特征进行进一步处理,将高维的数据转化为二进制特征,以降低后续数据处理的计算量。

对于相似度信息,该相似度信息包括该多个样本图像中两个样本图像之间的相似度,也即是该相似度信息中包括多个相似度,每个相似度对应两个样本图像。该相似度信息中的相似度能够表征两个样本图像之间的相似性,后续将该相似度信息中的相似度作为模型训练过程中的目标参考,也即是将其看做伪监督信息或伪标注数据。其中,监督是指机器学习领域中通过模型训练过程使得模型输出结果能达到预定的目标。训练后能够使得图像处理模型对图像进行处理得到的哈希码之间的相似度与该相似度信息相符,以此来提高图像处理模型处理图像的准确性。

在一些实施例中,该相似度信息可以在直接基于图像特征得到的相似度基础上进行进一步锐化处理。具体地,电子设备基于该图像处理模型,确定该多个样本图像中每两个样本图像的图像特征之间的相似度,得到该多个样本图像的候选相似度信息,对该候选相似度信息中每个相似度进行锐化处理,得到该多个样本图像的相似度信息。

该候选相似度信息能够体现图像特征之间的原始相似度,通过锐化处理,将每个相似度锐化得到更合理的相似度分布。

例如,如图4所示,分别在NUS-WIDE、FLICK25K数据集上进行试验,对数据集中的图像进行特征提取,并确定出候选相似度信息后,获取该候选相似度信息的相似度累积分布和概率分布,该相似度累积分布如图4中(a)所示,概率分布如图4中(b)所示。图中横坐标为相似度值(similarity values),纵坐标为概率(probability)。由图4中(b)可以得出,直接基于图像特征得到的相似度值大概率集中在0~0.4之间,因而以该候选相似度信息进行模型训练,则可能会认为样本图像之间大多都不相似,因而低熵和嘈杂的相似度分布可能会将使模型对所有样本图像引入高偏差,而通过锐化处理,将相似度进行退锐化处理,能够得到高置信度的相似度信息。通过这种更加均衡的分布作为学习目标,可以提高图像处理模型对相似样本图像对的敏感性,并避免过拟合。

在一个具体的可能实施例中,电子设备可以基于该图像处理模型,对每个样本图像的图像特征进行正则化;然后确定两个样本图像正则化后的图像特征之间的相似度,得到该候选相似度信息。通过正则化,使得后续计算所使用的图像特征更符合图像特征分布,能够更好的表征样本图像,进而,得到的候选相似度信息也即更为准确。

该正则化过程可以包括多种实现方式,比如,电子设备可以对图像特征进行L2正则化。例如,其中相似性矩阵中每个元素

在一些实施例中,可以设置有相似度阈值,通过相似度阈值,将候选相似度信息中的相似度分为两类:第一相似度和第二相似度。对于不同类的相似度,可以采用不同的方式进行锐化处理,得到相似度信息中对应的相似度。该锐化处理过程具体可以包括以下两种情况。

情况一:对于该候选相似度信息中小于或等于该相似度阈值的第一相似度,获取该第一相似度的目标次幂作为相似度信息中对应的相似度。

情况二:对于该候选相似度信息中大于该相似度阈值的第二相似度,获取该第二相似度的目标次幂与该目标次幂与目标数值之间的比值,将该比值作为相似度信息中对应的相似度,其中,该目标数值为该候选相似度信息中第一相似度的目标次幂之和。

例如,上述锐化处理过程可以称之为基于图的锐化过程(GSP),该锐化过程能够通过下述公式实现:

其中,ρ,ε是超参数,L是相似度值低于ε的集合。ε为相似度阈值,其取值可以由相关技术人员根据需求进行设置,本公开实施例对此不作限定。ρ为大于1的数值。这样通过公式一,能够得到一种高置信度的相似度信息

通过相似度阈值对候选相似度信息中的相似度进行区分,从而采用不同的方式进行处理,能够使得得到的相似度信息中的相似度在预期的数据范围内,例如,可以将相似度控制在[0,1]之内。这样在不更改相似度的数据范围的基础上进行了锐化处理,使得相似度更能够表征样本图像之间的相似度,也即更加准确,能够更好的训练图像处理模型,提高图像处理模型的准确性。

对于多个样本图像的哈希码,电子设备可以对多个样本图像的图像特征进行哈希编码,得到多个样本图像的哈希码。该哈希编码过程为一种二值化过程,将图像特征中大于或等于目标阈值的元素值编码为1,小于目标阈值的元素值编码为0。又或者,将将图像特征中大于或等于目标阈值的元素值编码为0,小于目标阈值的元素值编码为1,进而通过0和1来表示图像特征,也即得到了哈希码。

对于该哈希编码过程,可以通过下述公式二实现:

b=sign(h(f))∈{-1,+1}

其中,b是二进制码,也即是哈希码,sign( )是符号函数,h()是哈希函数,f是图像特征,k是二进制码长度,也即是哈希码长度。需要说明的是,为了避免反向传播中离散优化问题,在训练过程中,该哈希编码过程不通过符号函数实现,而是通过双曲正切函数tanh()实现,也即是,哈希编码过程通过下述公式三实现:

其中,α是一个超参数,该超参数随着模型训练迭代次数

在一个具体示例中,该图像处理模型的训练过程中可以通过公式三实现,这样能够便于获取损失值,而在图像处理模型的使用过程中可以通过公式三或者公式二实现,本公开实施例对此不作限定。

在步骤S34中,电子设备基于该图像图像处理模型和该多个样本图像的旋转图像的图像特征,获取该旋转图像的哈希码。

电子设备除了样本图像之外,还会对旋转图像的图像特征进行处理,得到旋转图像的哈希码。考虑到一个样本图像的哈希码和该样本图像的旋转图像的哈希码一致的特性,电子设备也需要获取旋转图像的哈希码。

该哈希码获取过程与上述步骤S33中获取样本图像的哈希码的过程同理,电子设备对旋转图像的图像特征进行哈希编码,得到旋转图像的哈希码,在此不多做赘述。

步骤S32至步骤S34为基于图像处理模型,对该多个样本图像和该多个样本图像的旋转图像进行处理,得到该多个样本图像的相似度信息、该多个样本图像的哈希码和该多个样本图像的旋转图像的哈希码的过程,通过对样本图像和旋转图像进行处理,通过增加旋转图像,且旋转图像为对样本图像进行几何变换得到的,这样该图像处理模型对几何变换前后的图像均能够进行准确处理,具有更好的鲁棒性,且该图像处理模型能够基于样本图像进行训练,无需标注数据,减少了人工成本,提高数据处理效率。

在步骤S35中,电子设备基于该相似度信息中两个样本图像之间的相似度以及该两个样本图像的哈希码之间的差距,获取第一损失值。

对于多个样本图像中每两个样本图像,可以将其作为一个样本图像对进行分析,电子设备获取到样本图像对的相似度以及各自的哈希码,后续会通过哈希码来对样本图像对中的两个样本图像进行相似度分析,也即能够得到相似度的“预测值”,而上述相似度信息中的相似度则可以作为“真值”,通过“预测值”和“真值”,电子设备能够获取二者之间的差距来作为第一损失值,以对电子设备获取的哈希值是否准确进行衡量。

在一些实施例中,该哈希码之间的差距可以体现为哈希码之间的距离,比如,汉明距离。具体地,该步骤S35中,电子设备可以对于该多个样本图像中每两个样本图像,获取该两个样本图像的哈希码之间的距离,然后电子设备获取该相似度信息中该两个样本图像之间的相似度与该距离的差值,基于该多个样本图像对应的多个差值,获取第一损失值。可以理解地,该差值越小,该第一损失值越小,也就说明该图像处理模型获取到的哈希码越准确。这样通过计算哈希码之间的距离来明确表征哈希码之间的距离,然后以相似度与距离的差值即可获知该图像处理模型的性能,继而能够作为模型参数更新的依据,以在训练过程中提升模型性能,以训练得到更好的图像处理模型。

例如,在一个具体示例中,上述第一损失值可以为针对一个批次(batch)的样本图像处理得到的结果,电子设备针对一个批次的样本图像,获取一个第一损失值,进行一次模型参数的更新。具体地,该第一损失值可以通过下述公式四和公式五获取得到:

其中,

在步骤S36中,电子设备基于该多个样本图像中每个样本图像的哈希码和该样本图像的旋转图像的哈希码之间的差距,获取第二损失值。

考虑到旋转图像的哈希码与样本图像的哈希码一致的特性,电子设备还可以通过第二损失值对样本图像以及该样本图像的旋转图像进行处理后的哈希码进行进一步确认,二者越一致,则说明该图像处理模型的性能越好,哈希码越准确。

其中,该第二损失值可以哈希码之间的余弦距离,也可以为汉明距离,本公开实施例对此不作限定。

当然,如果旋转图像包括多个,且是通过旋转多个不同角度得到的,那么针对每个旋转角度,均可以获取得到一个差距,进而将其计入第二损失值中。

例如,X是训练样本图像,将旋转图像表示为

其中,

在步骤S37中,电子设备基于该第一损失值和该第二损失值,对该图像处理模型的模型参数进行更新,直至符合目标条件时停止,得到目标图像处理模型。

电子设备获取到两种损失值后,可以综合两个损失值,对模型的模型参数进行优化,以得到更好的图像处理模型。上述仅介绍了一次迭代过程,每次迭代过程所执行的步骤同理,在此不一一赘述。

在一些实施例中,在包括多个损失值时,电子设备综合多个损失值的过程可以通过加权求和的方式实现,具体地,电子设备可以对该第一损失值和该第二损失值进行加权求和,得到目标损失值,然后基于该目标损失值,对该图像处理模型的模型参数进行更新。其中,该第一损失值和第二损失值的权重可以由相关技术人员根据需求进行设置,或者也作为该图像处理模型的一种模型参数进行更新得到,本公开实施例对此不作限定。对于每个样本图像,通过增加旋转图像,考虑到旋转图像的哈希码与样本图像的哈希码一致的特性,引入了另一种损失值,结合这种损失值与训练样本图像之间相似度的损失值,对图像处理模型的模型参数进行更新,能够使得图像处理模型在获取样本图像的哈希码时,获取到更准确的哈希码,基于哈希码进行后续处理,也能够得到更准确的处理结果,因而能够提高该图像处理模型的准确性,且有了这层保障,旋转图像为对样本图像进行几何变换得到的,这样该图像处理模型对几何变换前后的图像均能够进行准确处理,具有更好的鲁棒性,且该图像处理模型能够基于样本图像进行训练,无需标注数据,减少了人工成本,提高数据处理效率。

在一些实施例中,该每个样本图像的旋转图像的数量可以为多个,每个样本图像的多个旋转图像为对该样本图像旋转多个不同角度得到的图像,每个旋转图像携带有该旋转图像对应的目标旋转角度。这样针对旋转角度,还可以提供另一种辅助损失函数,进而进一步确定该图像处理模型的准确性。具体地,电子设备还可以基于该图像处理模型,基于该每个样本图像的图像特征和该每个样本图像的旋转图像的图像特征,确定该每个样本图像的旋转图像对应的预测旋转角度,然后基于该每个样本图像的旋转图像对应的预测旋转角度和目标旋转角度,获取第三损失值。

相应地,上述步骤S37中,还可以加入该第三损失值进行模型参数的更新,具体地,电子设备可以基于该第一损失值、第二损失值和该第三损失值,对该图像处理模型的模型参数进行更新。

这样该图像处理模型中可以新增一种预测网络,在对样本图像旋转得到旋转图像后,还可以通过预测网络来预测旋转图像的旋转角度,这样能够更精细地对图像进行处理,确保该图像处理模型对图像的处理精度,提高准确性。

对于第三损失值提供一个具体示例,在该具体示例中,该第三损失值可以通过公式七得到:

其中,

同理地,电子设备可以对该第一损失值、该第二损失值和该第三损失值进行加权求和,得到目标损失值,基于该目标损失值,对该图像处理模型的模型参数进行更新。这样通过加权求和的方式,综合考虑多种损失值,通过多个方面对图像处理模型处理数据获得哈希码的过程进行了优化,能够提高图像处理模型的鲁棒性和准确性。

在一些实施例中,除了上述第三损失值,电子设备也可以考虑另一种辅助损失函数:排序损失,也即是第四损失值。上述图像处理模型生成哈希码后,其用意在于基于哈希码确定图像之间的相似度,以基于相似度对相似图像进行排序,以达到图像检索的目的。

具体地,该第四损失值的获取过程可以为:电子设备可以对于该多个样本图像中每个样本图像,基于该多个样本图像的哈希码,确定该样本图像对应的多个预测样本图像和该多个预测样本图像的预测排序信息,然后基于该多个样本图像的相似度信息,确定该样本图像对应的多个目标样本图像以及该多个目标样本图像对应的目标排序信息,电子设备基于该样本图像对应的多个预测样本图像、多个目标样本图像、该预测排序信息和该目标排序信息,获取第四损失值。结合根据排序得到的第四损失值,能够使得图像处理模型的排序结果更准确,提高图像处理模型的排序性能,这样针对图像检索场景,能够进行更有效、更准确的处理。

相应地,该步骤S37中,电子设备基于该第一损失值、该第二损失值和该第四损失值,对该图像处理模型的模型参数进行更新。

例如,在一个具体示例中,该第四损失值可以通过下述公式八实现:

其中,b

其中,对于预测排序信息,电子设备可以基于该多个样本图像的哈希码,获取该样本图像与其他样本图像之间的预测相似度,然后基于该预测相似度,对该除该样本图像之外的其他样本图像进行排序,得到第一排序信息,根据该第一排序信息,从该其他样本图像中,确定该样本图像对应的多个预测样本图像和该多个预测样本图像的预测排序信息。这样不基于全部样本图像的排序信息,而是从中选择部分预测样本图像,将其预测排序信息作为后续比较依据,能够得到更细粒度的距离排序,以进一步提高模型的性能。

该模型参数包括该多个样本图像各自的权重,进而该预测相似度可以基于加权哈希码确定,这样根据权重,能够确定出更准确的预测相似度,并减轻计算负担。具体地,电子设备可以基于该多个样本图像各自的权重,对该多个样本图像的哈希码进行加权处理,得到加权哈希码,然后基于该多个样本图像的加权哈希码,获取该样本图像与其他样本图像之间的预测相似度。

例如,在一个具体示例中,该加权过程可以通过下述公式九实现:

其中,

对于目标排序信息,电子设备可以基于该多个样本图像的相似度信息中该样本图像与其他样本图像之间的相似度,对该其他样本图像进行排序,得到第二排序信息,然后根据该第二排序信息,从该其他样本图像中,确定该样本图像对应的多个目标样本图像以及该多个目标样本图像对应的目标排序信息。这样不基于全部样本图像的排序信息,而是从中选择部分目标样本图像,将其目标排序信息作为后续比较依据,能够得到更细粒度的距离排序,以进一步提高模型的性能。且通过从样本图像的相关信息中提取到目标排序信息,不依赖标注数据,能够减少人工成本,提高效率。

在一个具体地可能实施例中,该相似度信息可以为相似度矩阵,这样一个样本图像与其他样本图像之间的相似度也即是相似度矩阵中一行的相似度。因而上述目标排序信息的获取过程可以为:电子设备基于该相似度矩阵中每一行的相似度,对该其他样本图像进行排序,得到第二排序信息;然后电子设备根据该第二排序信息中相似度最大的目标数量的相似度,从该其他样本图像中,获取该目标数量的相似度对应的多个样本图像作为该多个目标样本图像,将该第二排序信息中该多个目标样本图像的排序信息作为该目标排序信息。这样通过矩阵的形式,能够明晰化各个相似度,以避免出现计算失误的情况,为图像处理的准确性提供了保障。

如果结合这些实施例以及前述增加第三损失值的实施例,还可以通过四种损失值,对模型参数进行更新,也即是,电子设备基于该第一损失值、该第二损失值、该第三损失值和该第四损失值,对该图像处理模型的模型参数进行更新。

例如,如图5所示,上述图像处理模型可以包括特征提取层、旋转层(Rotationlayer)、哈希层(Hash layer)和权重层(Weight layer),其中,该特征提取层可以为卷积神经网络(Convolutional Neural Networks,CNN)。对于输入的样本图像和旋转图像,可以通过特征提取层提取到图像特征后,将其输入哈希层进行哈希码的获取,对于样本图像,能够确定出第一损失值,也即是成对的相似损失(Paired similarity loss)。对于样本图像和旋转图像的哈希码,能够确定出第二损失值,也即是一致性损失(Consistency loss)。对于旋转图像可以通过旋转层对其进行处理,确定出第三损失值,也即是旋转损失(Rotationloss)。对于样本图像的哈希码还可以通过权重层进行加权,得到加权哈希码,进而排序得到排序损失(Ranking loss),也即是第四损失值。综合四种损失值的目标损失值可以通过公式十获得:

其中,μ

下面提供一个具体示例,该具体示例示出了本公开提供的方法应用于不同的数据集上的实验结果。具体地,分别在NUS-WIDE,FLICKR25K和CIFAR-10三个大规模数据集上进行了实验。下面针对每个数据集以及实验设置进行介绍。

数据集一:NUS-WIDE

NUS-WIDE是大规模的图像数据集,包含81个语义概念和269648幅网络图像。在实验时,选择了其中最大的21个语义概念,以及21个语义概念对应的186577幅图像进行实验。然后在其中随机选择了2100个样本图像作为测试集,其他作为检索集,并从检索集中抽取10500个样本图像作为训练集。

数据集二:FLICKR25K

FLICKR25K是从Flickr中收集的25000个图像。类似于NUS-WIDE,在实验时,随机选择了2000个样本图像作为测试集,其他作为检索集,并从检索集中抽取5000个样本图像作为训练集。

数据集三:CIFAR-10

CIFAR-10是一个用于识别物体的十类别数据集。十个类别分别为:飞机、汽车、鸟类、猫、鹿、狗、蛙类、马、船和卡车。每个图片的尺寸为32×32,每个类别有6000个图像,数据集中一共有50000张训练图像和10000张测试图像。实验采用5000张样本图像用于训练,1000张样本图像用于测试。

在实验过程中,首先计算前10000个样本图像的粗粒度排名结果的汉明距离,然后在这些结果中使用加权距离进行细粒度排名,以节省查询时间。对于CIFAR-10,使用返回的前1000个邻居计算平均精度,对于NUS-WIDE和FLICKR25K,使用返回的前5000个邻居计算平均精度。实验结果如图6和图7所示,其中,图7中(a)示出了在三个数据集上,极短二进制码检索的平均精度结果。图7中(b)、(c)、(d)分别示出了在NUS-WIDE上使用不同超参数的平均精度结果。以哈希码维度为32位为例,可以看出,以SWH所示的本公开的方案,在NUS-WIDE,FLICKR25K,CIFAR-10三个大规模数据集上平均精度提升了3.5%。

需要说明的是,本公开提供的图像处理模型的确定方法能够用于任意图像检索场景。例如,可以以软件的方式安装于用户的工作电脑,提供实时哈希检索,也可以将其安装于后台服务器,提供大批量后台检索。该图像检索场景可以为商品图像检索、医学图像检索等等,当然,也可以为对包含有其他搜索目标的图像的检索场景,例如,在商品图像检索场景中,可以用于日常生活中对未知商品的快速检索。这样无需寻找专家,用户可以为商品拍照,通过本公开提供的方法,就可以立即检索到商品的精准信息。又例如,在一种图像检索场景中,比如城市管理场景中,能够通过上述方式对采集到包含有任一目标的图像进行精确分析,快速搜索到搜索目标。借助城市大规模信息采集系统,让计算机根据采集数据快速搜索到搜索目标在何时何地出现。该搜索目标可以为满足搜索条件的人员,也可以为其他生物或物品,比如,进行过某种行为的人员、走失人员、走失宠物、符合条件的车辆等,从而为保障城市管理和安全提供精准的数据参考。又例如,在医学图像检索场景中,能够用于医学诊断辅助,医院每天都会产生大量的医学图像数据。高效的组织、管理和检索大规模的医学图像数据,能够辅助医师对不同疾病进行精确的诊断,有着重要的临床价值和商业前景。通过上述方式能够对医学图像进行分析,以确定出医学图像中的人体组织分布等,为疾病诊断提供辅助。

本公开实施例中,对于每个样本图像,通过增加旋转图像,考虑到旋转图像的哈希码与样本图像的哈希码一致的特性,引入了另一种损失值,结合这种损失值与训练样本图像之间相似度的损失值,对图像处理模型的模型参数进行更新,能够使得图像处理模型在获取样本图像的哈希码时,获取到更准确的哈希码,基于哈希码进行后续处理,也能够得到更准确的处理结果,因而能够提高该图像处理模型的准确性,且有了这层保障,旋转图像为对样本图像进行几何变换得到的,这样该图像处理模型对几何变换前后的图像均能够进行准确处理,具有更好的鲁棒性,且该图像处理模型能够基于样本图像进行训练,无需标注数据,减少了人工成本,提高数据处理效率。

图8是根据一示例性实施例示出的一种图像处理模型的确定装置框图。参照图8,该装置包括:

获取单元801,被配置为执行获取多个样本图像和该多个样本图像的旋转图像,每个样本图像的旋转图像为对该样本图像旋转目标角度得到的图像;

处理单元802,被配置为执行基于图像处理模型,对该多个样本图像和该多个样本图像的旋转图像进行处理,得到该多个样本图像的相似度信息、该多个样本图像的哈希码和该多个样本图像的旋转图像的哈希码,该相似度信息包括该多个样本图像中两个样本图像之间的相似度;

损失值获取单元803,被配置为执行基于该相似度信息中两个样本图像之间的相似度以及该两个样本图像的哈希码之间的差距,获取第一损失值;

该损失值获取单元803,还被配置为执行基于该多个样本图像中每个样本图像的哈希码和该样本图像的旋转图像的哈希码之间的差距,获取第二损失值;

更新单元804,被配置为执行基于该第一损失值和该第二损失值,对该图像处理模型的模型参数进行更新,直至符合目标条件时停止,得到目标图像处理模型。

在一些实施例中,该处理单元802,被配置为执行:

基于图像处理模型,对该多个样本图像和该多个样本图像的旋转图像进行特征提取,得到该多个样本图像的图像特征和该多个样本图像的旋转图像的图像特征;

基于该图像处理模型以及该多个样本图像的图像特征,获取该多个样本图像的相似度信息以及该多个样本图像的哈希码;

基于该图像图像处理模型和该多个样本图像的旋转图像的图像特征,获取该旋转图像的哈希码。

在一些实施例中,该处理单元802,被配置为执行:

基于该图像处理模型,确定该多个样本图像中每两个样本图像的图像特征之间的相似度,得到该多个样本图像的候选相似度信息;

对该候选相似度信息中每个相似度进行锐化处理,得到该多个样本图像的相似度信息。

在一些实施例中,该处理单元802,被配置为执行:

对于该候选相似度信息中小于或等于该相似度阈值的第一相似度,获取该第一相似度的目标次幂作为相似度信息中对应的相似度;

对于该候选相似度信息中大于该相似度阈值的第二相似度,获取该第二相似度的目标次幂与该目标次幂与目标数值之间的比值,将该比值作为相似度信息中对应的相似度,其中,该目标数值为该候选相似度信息中第一相似度的目标次幂之和。

在一些实施例中,该损失值获取单元803被配置为执行:

对于该多个样本图像中每两个样本图像,获取该两个样本图像的哈希码之间的距离;

获取该相似度信息中该两个样本图像之间的相似度与该距离的差值;

基于该多个样本图像对应的多个差值,获取第一损失值。

在一些实施例中,该更新单元804被配置为执行:

对该第一损失值和该第二损失值进行加权求和,得到目标损失值;

基于该目标损失值,对该图像处理模型的模型参数进行更新。

在一些实施例中,该每个样本图像的旋转图像的数量为多个,每个样本图像的多个旋转图像为对该样本图像旋转多个不同角度得到的图像,每个旋转图像携带有该旋转图像对应的目标旋转角度;

该装置还包括:

第一确定单元,被配置为执行基于该图像处理模型,基于该每个样本图像的图像特征和该每个样本图像的旋转图像的图像特征,确定该每个样本图像的旋转图像对应的预测旋转角度;

该损失值获取单元803还被配置为执行基于该每个样本图像的旋转图像对应的预测旋转角度和目标旋转角度,获取第三损失值;

该更新单元804被配置为执行基于该第一损失值、第二损失值和该第三损失值,对该图像处理模型的模型参数进行更新。

在一些实施例中,该更新单元804被配置为执行:

对该第一损失值、该第二损失值和该第三损失值进行加权求和,得到目标损失值;

基于该目标损失值,对该图像处理模型的模型参数进行更新。

在一些实施例中,该装置还包括:

第二确定单元,被配置为执行对于该多个样本图像中每个样本图像,基于该多个样本图像的哈希码,确定该样本图像对应的多个预测样本图像和该多个预测样本图像的预测排序信息;

该第二确定单元还被配置为执行基于该多个样本图像的相似度信息,确定该样本图像对应的多个目标样本图像以及该多个目标样本图像对应的目标排序信息;

该损失值获取单元803还被配置为执行基于该样本图像对应的多个预测样本图像、多个目标样本图像、该预测排序信息和该目标排序信息,获取第四损失值;

该更新单元804被配置为执行基于该第一损失值、该第二损失值和该第四损失值,对该图像处理模型的模型参数进行更新。

在一些实施例中,该第二确定单元被配置为执行:

基于该多个样本图像的哈希码,获取该样本图像与其他样本图像之间的预测相似度;

基于该预测相似度,对该除该样本图像之外的其他样本图像进行排序,得到第一排序信息;

根据该第一排序信息,从该其他样本图像中,确定该样本图像对应的多个预测样本图像和该多个预测样本图像的预测排序信息。

在一些实施例中,该第二确定单元被配置为执行:

基于该多个样本图像的相似度信息中该样本图像与其他样本图像之间的相似度,对该其他样本图像进行排序,得到第二排序信息;

根据该第二排序信息,从该其他样本图像中,确定该样本图像对应的多个目标样本图像以及该多个目标样本图像对应的目标排序信息。

在一些实施例中,该相似度信息为相似度矩阵;

该第二确定单元被配置为执行:

基于该相似度矩阵中每一行的相似度,对该其他样本图像进行排序,得到第二排序信息;

根据该第二排序信息中相似度最大的目标数量的相似度,从该其他样本图像中,获取该目标数量的相似度对应的多个样本图像作为该多个目标样本图像,将该第二排序信息中该多个目标样本图像的排序信息作为该目标排序信息。

本公开实施例中,对于每个样本图像,通过增加旋转图像,考虑到旋转图像的哈希码与样本图像的哈希码一致的特性,引入了另一种损失值,结合这种损失值与训练样本图像之间相似度的损失值,对图像处理模型的模型参数进行更新,能够使得图像处理模型在获取样本图像的哈希码时,获取到更准确的哈希码,基于哈希码进行后续处理,也能够得到更准确的处理结果,因而能够提高该图像处理模型的准确性,且有了这层保障,旋转图像为对样本图像进行几何变换得到的,这样该图像处理模型对几何变换前后的图像均能够进行准确处理,具有更好的鲁棒性,且该图像处理模型能够基于样本图像进行训练,无需标注数据,减少了人工成本,提高数据处理效率。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图9是本申请实施例提供的一种电子设备的结构示意图,该电子设备900可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(Central ProcessingUnits,CPU)901和一个或一个以上的存储器902,其中,该存储器902中存储有至少一条计算机程序,该至少一条计算机程序由该处理器901加载并执行以实现上述各个方法实施例提供的图像处理模型的确定方法。该电子设备还能够包括其他用于实现设备功能的部件,例如,该电子设备还能够具有有线或无线网络接口以及输入输出接口等部件,以便进行输入输出。本申请实施例在此不做赘述。

上述方法实施例中的电子设备能够实现为终端。例如,图10是本申请实施例提供的一种终端的结构框图。该终端1000可以是便携式移动终端,比如:智能手机、平板电脑、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1000还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常,终端1000包括有:处理器1001和存储器1002。

处理器1001可以包括一个或多个处理核心,比如4核心处理器、10核心处理器等。处理器1001可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1001也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1001可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1001还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

存储器1002可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1002还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1002中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器1001所执行以实现本申请中方法实施例提供的图像处理模型的确定方法。

在一些实施例中,终端1000还可选包括有:外围设备接口1003和至少一个外围设备。处理器1001、存储器1002和外围设备接口1003之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1003相连。具体地,外围设备包括:射频电路1004、显示屏1005、摄像头组件1006、音频电路1007、定位组件1008和电源1009中的至少一种。

外围设备接口1003可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1001和存储器1002。在一些实施例中,处理器1001、存储器1002和外围设备接口1003被集成在同一芯片或电路板上;在一些其他实施例中,处理器1001、存储器1002和外围设备接口1003中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。

射频电路1004用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1004通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1004将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路1004包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1004可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路1004还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。

显示屏1005用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1005是触摸显示屏时,显示屏1005还具有采集在显示屏1005的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1001进行处理。此时,显示屏1005还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏1005可以为一个,设置在终端1000的前面板;在另一些实施例中,显示屏1005可以为至少两个,分别设置在终端1000的不同表面或呈折叠设计;在另一些实施例中,显示屏1005可以是柔性显示屏,设置在终端1000的弯曲表面上或折叠面上。甚至,显示屏1005还可以设置成非矩形的不规则图形,也即异形屏。显示屏1005可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。

摄像头组件1006用于采集图像或视频。可选地,摄像头组件1006包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件1006还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。

音频电路1007可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1001进行处理,或者输入至射频电路1004以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端1000的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1001或射频电路1004的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路1007还可以包括耳机插孔。

定位组件1008用于定位终端1000的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件1008可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源1009用于为终端1000中的各个组件进行供电。电源1009可以是交流电、直流电、一次性电池或可充电电池。当电源1009包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中,终端1000还包括有一个或多个传感器1010。该一个或多个传感器1010包括但不限于:加速度传感器1011、陀螺仪传感器1012、压力传感器1013、指纹传感器1014、光学传感器1015以及接近传感器1016。

加速度传感器1011可以检测以终端1000建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器1011可以用于检测重力加速度在三个坐标轴上的分量。处理器1001可以根据加速度传感器1011采集的重力加速度信号,控制显示屏1005以横向视图或纵向视图进行用户界面的显示。加速度传感器1011还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1012可以检测终端1000的机体方向及转动角度,陀螺仪传感器1012可以与加速度传感器1011协同采集用户对终端1000的3D动作。处理器1001根据陀螺仪传感器1012采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1013可以设置在终端1000的侧边框和/或显示屏1005的下层。当压力传感器1013设置在终端1000的侧边框时,可以检测用户对终端1000的握持信号,由处理器1001根据压力传感器1013采集的握持信号进行左右手识别或快捷操作。当压力传感器1013设置在显示屏1005的下层时,由处理器1001根据用户对显示屏1005的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1014用于采集用户的指纹,由处理器1001根据指纹传感器1014采集到的指纹识别用户的身份,或者,由指纹传感器1014根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器1001授权该用户执行相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1014可以被设置在终端1000的正面、背面或侧面。当终端1000上设置有物理按键或厂商Logo时,指纹传感器1014可以与物理按键或厂商Logo集成在一起。

光学传感器1015用于采集环境光强度。在一个实施例中,处理器1001可以根据光学传感器1015采集的环境光强度,控制显示屏1005的显示亮度。具体地,当环境光强度较高时,调高显示屏1005的显示亮度;当环境光强度较低时,调低显示屏1005的显示亮度。在另一个实施例中,处理器1001还可以根据光学传感器1015采集的环境光强度,动态调整摄像头组件1006的拍摄参数。

接近传感器1016,也称距离传感器,通常设置在终端1000的前面板。接近传感器1016用于采集用户与终端1000的正面之间的距离。在一个实施例中,当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变小时,由处理器1001控制显示屏1005从亮屏状态切换为息屏状态;当接近传感器1016检测到用户与终端1000的正面之间的距离逐渐变大时,由处理器1001控制显示屏1005从息屏状态切换为亮屏状态。

本领域技术人员可以理解,图10中示出的结构并不构成对终端1000的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。

上述方法实施例中的电子设备能够实现为服务器。例如,图11是本申请实施例提供的一种服务器的结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,能够包括一个或一个以上处理器(Central Processing Units,CPU)1101和一个或一个以上的存储器1102,其中,该存储器1102中存储有至少一条计算机程序,该至少一条计算机程序由该处理器1101加载并执行以实现上述各个方法实施例提供的图像处理模型的确定方法。当然,该服务器还能够具有有线或无线网络接口以及输入输出接口等部件,以便进行输入输出,该服务器还能够包括其他用于实现设备功能的部件,在此不做赘述。

在示例性实施例中,还提供了一种计算机可读存储介质,例如包括至少一条计算机程序的存储器,上述至少一条计算机程序由可由处理器执行以完成上述实施例中的图像处理模型的确定方法。例如,计算机可读存储介质能够是只读存储器(Read-Only Memory,简称:ROM)、随机存取存储器(Random Access Memory,简称:RAM)、只读光盘(Compact DiscRead-Only Memory,简称:CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或该计算机程序包括一条或多条计算机程序,该一条或多条计算机程序存储在计算机可读存储介质中。电子设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条计算机程序,该一个或多个处理器执行该一条或多条计算机程序,使得电子设备能够执行上述图像处理模型的确定方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

相关技术
  • 图像处理模型的确定方法、装置、设备及存储介质
  • 图像处理模型生成、图像处理方法、装置、终端设备及存储介质
技术分类

06120113007216