掌桥专利:专业的专利平台
掌桥专利
首页

一种信息标注方法、装置、设备及计算机可读存储介质

文献发布时间:2023-06-19 11:08:20


一种信息标注方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及大数据领域中的图像处理技术,尤其涉及一种信息标注方法、装置、设备及计算机可读存储介质。

背景技术

主体检测是指从待检测图像中确定主体区域(显著性区域,即主体所在区域)的处理过程;通过主体检测,能够为图像处理提供数据支持,进一步基于图像进行应用;比如,基于图像的广告投放、基于监控图像的目标定位、以及以图搜图等应用,均是通过主体检测实现的。

一般来说,为了实现主体检测,通常先标注主体框,再基于标注的主体框训练出主体检测模型,进而基于主体检测模型确定待检测图像中的主体区域;然而上述的主体框的标注通过人工标注的,标注效率较低。

发明内容

本申请实施例提供一种信息标注方法、装置、设备及计算机可读存储介质,能够提升标注效率。

本申请实施例的技术方案是这样实现的:

本申请实施例提供一种信息标注方法,包括:

基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i-1次度量模型,得到第i次度量模型,其中,i为正整数;

基于所述第i次度量模型,对比所述第i次正样本和所述第i次锚样本;

基于对比结果,对所述第i次正样本进行主体裁剪,获得第i+1次正样本,并对所述第i次锚样本进行主体裁剪,获得第i+1次锚样本;

继续基于所述第i+1次正样本、所述第i+1次锚样本和第i+1次负样本训练所述第i次度量模型,并基于训练后的第i次度量模型分别对所述第i+1次正样本和所述第i+1次锚样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n次锚样本,其中,n为大于i的整数;

将所述第n次正样本和所述第n次锚样本,确定为所述图像数据集的主体标注区域。

本申请实施例提供一种信息标注装置,包括:

模型训练模块,用于基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i-1次度量模型,得到第i次度量模型,其中,i为正整数;

相似度量模块,用于基于所述第i次度量模型,对比所述第i次正样本和所述第i次锚样本;

主体裁剪模块,用于基于对比结果,对所述第i次正样本进行主体裁剪,获得第i+1次正样本,并对所述第i次锚样本进行主体裁剪,获得第i+1次锚样本;

迭代处理模块,用于继续基于所述第i+1次正样本、所述第i+1次锚样本和第i+1次负样本训练所述第i次度量模型,并基于训练后的第i次度量模型分别对所述第i+1次正样本和所述第i+1次锚样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n次锚样本,其中,n为大于i的整数;

信息标注模块,用于将所述第n次正样本和所述第n次锚样本,确定为所述图像数据集的主体标注区域。

在本申请实施例中,所述对比结果包括所述第i次正样本的正特征响应图、以及所述第i次锚样本的锚特征响应图;其中,所述正特征响应图为所述第i次正样本中与所述第i次锚样本的最相似区域的相似度图,所述锚特征响应图为所述第i次锚样本中与所述第i次正样本的最相似区域的相似度图;所述主体裁剪模块,还用于基于所述正特征响应图对所述第i次正样本进行主体裁剪,获得所述第i+1次正样本;基于所述锚特征响应图对所述第i次锚样本进行主体裁剪,获得所述第i+1次锚样本。

在本申请实施例中,所述信息标注装置还包括噪音清理模块,用于基于相似度阈值和所述正特征响应图,确定所述第i次正样本中的第一相似区域,并基于所述相似度阈值和所述锚特征响应图,确定所述第i次锚样本中的第二相似区域;当所述第一相似区域和所述第二相似区域中的至少一种的区域值小于区域阈值时,获取所述第i次正样本与当前主体类别下的当前图像集合中的其他图像对应的第三相似区域,并获取所述第i次锚样本与所述其他图像对应的第四相似区域;当所述第三相似区域大于所述第四相似区域时,确定所述第i次锚样本为噪音图像,从所述当前图像集合中删除所述第i次锚样本。

在本申请实施例中,所述模型训练模块,还用于基于所述第i-1次度量模型,获取所述图像数据集的所述第i次正样本的正样本特征、第i次锚样本的锚样本特征和第i次负样本的负样本特征;基于所述正样本特征和所述锚样本特征之间的差异,以及所述锚样本特征和所述负样本特征之间的差异,训练所述第i-1次度量模型,获得所述第i次度量模型。

在本申请实施例中,所述信息标注装置还包括样本构建模块,用于获取所述图像数据集对应的第i次图像数据集,其中,所述第i次图像数据集是由各个主体类别下的图像集合构成的,且所述第i次图像数据集是通过对所述图像数据集进行i-1次迭代主体裁剪获得的;将所述第i次图像数据集中当前主体类别下的当前图像集合中的两张图像作为所述第i次正样本和所述第i次锚样本,其中,所述当前主体类别为所述各个主体类别下的任一主体类别;将所述第i次图像数据集中不同于所述当前主体类别下的其他图像集合中的一张图像,确定为所述第i次负样本。

在本申请实施例中,所述信息标注装置还包括条件确定模块,用于获取所述第n次正样本与第n-1次正样本之间的第n次正区域差异,并获取所述第n次锚样本与第n-1次锚样本之间的第n次锚区域差异;获取前j次的正区域差异和前j次的锚区域差异,其中,j为正整数;当所述前j次的正区域差异和所述第n次正区域差异之间的差异小于差异阈值,和/或所述前j次的锚区域差异和所述第n次锚区域差异之间的差异小于所述差异阈值时,确定满足所述截止条件。

在本申请实施例中,所述条件确定模块,还用于当所述第一相似区域在所述第n次正样本的第一占比,和所述第二相似区域在所述第n次锚样本的第二占比中的至少一种大于占比阈值时,确定满足所述截止条件。

在本申请实施例中,所述信息标注装置还包括主体检测模块,用于基于所述图像数据集和所述主体标注区域,训练出主体检测模型;当接收到主体检测请求时,响应于所述主体检测请求,获取待检测图像;基于所述主体检测模型对所述待检测图像进行主体检测,获得主体区域。

在本申请实施例中,所述主体检测模块,还用于基于原始主体检测模型,确定图像数据集中图像的预测主体区域;基于所述预测主体区域与所述主体标注区域之间的差异,迭代训练所述原始主体检测模型,直到满足训练截止条件时,获得所述主体检测模型。

在本申请实施例中,所述主体区域为检索对象区域、投放对象区域、检测目标区域和场景区域中的至少一种。

在本申请实施例中,所述信息标注装置还包括应用模块,用于当所述主体区域为所述检索对象区域时,提取所述主体标注区域的特征,从而获得与所述图像数据集对应的特征检索库;提取所述检索对象区域的待检索特征;从所述特征检索库中,确定与所述待检索特征匹配的匹配特征;将所述图像数据集中与所述匹配特征对应的图像,确定为所述待检测图像的检索结果,并基于所述检索结果进行推荐处理。

在本申请实施例中,所述应用模块,还用于当所述主体区域为所述投放对象区域时,提取所述投放对象区域的投放对象特征;基于所述投放对象特征确定投放属性,并基于所述投放属性,确定待投放信息,并基于所述待投放信息进行投放处理,其中,所述投放属性包括投放类目和投放标签中的至少一种;或者,基于所述投放对象特征确定投放转化率,以及当所述投放转化率大于投放转化率阈值时,对所述待检测图像进行投放处理,当所述投放转化率小于或等于所述投放转化率阈值时,结束对所述待检测图像的投放处理。

本申请实施例提供一种信息标注设备,包括:

存储器,用于存储可执行指令;

处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的信息标注方法。

本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的信息标注方法。

本申请实施例具有以下有益效果:通过第i次正样本、第i次锚样本和第i次负样本组成的正样本对和负样本对训练出第i次度量模型,并采用第i次标注模型对第i次正样本和第i次锚样本中的主体所在区域进行裁剪;如此持续进行训练和裁剪,直至裁剪出主体标注区域(第n次正样本和第n次锚样本);如此,主体标注区域的获取是自动的,从而,能够提升标注效率。

附图说明

图1是一种示例性的主体检测流程示意图;

图2是本申请实施例提供的信息标注系统的一个可选的架构示意图;

图3是本申请实施例提供的信息标注系统的另一个可选的架构示意图;

图4是本申请实施例提供的图2中的一种服务器的组成结构示意图;

图5是本申请实施例提供的信息标注方法的一个可选的流程示意图;

图6是本申请实施例提供的一种示例性的信息标注的流程示意图;

图7是本申请实施例提供的一种示例性的获得对比结果的示意图;

图8是本申请实施例提供的一种示例性的迭代进行主体裁剪的流程示意图;

图9是本申请实施例提供的信息标注方法的另一个可选的流程示意图;

图10是本申请实施例提供的一种示例性的信息标注流程示意图;

图11是本申请实施例提供的一种示例性的训练度量模型的流程示意图;

图12是本申请实施例提供的另一种示例性的对图像中的商品区域进行标注的过程;

图13是本申请实施例提供的一种示例性的主体检测的流程示意图;

图14是本申请实施例提供的另一种示例性的主体检测的流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。

在以下的描述中,所涉及的术语“第一\第二\第三\第四”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三\第四”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence,AI),是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

2)机器学习(Machine Learning,ML),是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能;重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

3)自然语言处理(Nature Language processing,NLP),是计算机科学领域与人工智能领域中的一个重要方向,旨在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法;自然语言处理是一门融语言学、计算机科学和数学于一体的科学,因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系;自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例提供的信息标注方法可以应用在自然语言处理领域。

4)神经网络(Neural Networks,NN),是一种模仿生物神经网络结构和功能的数学模型,本文中人工神经网络的示例性结构包括深度神经网络(Deep Neural Networks,DNN)、卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(RecurrentNeural Network,RNN)等。比如,本申请实施例中的用于提取特征的模型、主体检测模型等。

5)深度度量学习(Deep Metric Learning,DML),是度量学习的一种方法,目标是学习一个从原始特征到低维稠密的向量空间(称之为嵌入空间,embedding space)的映射,使得同类对象在嵌入空间上使用常用的距离函数(比如,欧氏距离、“cosine”距离等)计算的距离比较近,而不同类的对象之间的距离则比较远。

6)弱监督学习(Weakly Supervised Learning,WSL),是机器学习领域中的一个分支,与传统的监督学习相比,弱监督学习使用有限的、含有噪声的或者标注不准确的数据来进行模型参数的训练。

7)显著性区域,是指从图像中定位出的最吸引人类视觉注意力的区域。

8)人脸识别,是基于脸部特征进行身份识别的一种生物识别技术,在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术。

9)行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。

10)区块链(Block Chain):是由区块(Block)形成的加密的、链式的交易的存储结构。

11)区块链网络(Block Chain Network):通过共识的方式将新区块纳入区块链的一系列的节点的集合。

需要说明的是,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

另外,人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术的研究和进步,人工智能技术在多个领域展开了研究和应用;例如,常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等;随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。本申请实施例中所涉及的人工智能在主体检测领域的应用将在后续进行说明。

还需要说明的是,大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

一般来说,可以基于全监督方式实现主体检测,即先标注主体框,再基于标注的主体框训练出主体检测模型,进而基于主体检测模型确定待检测图像中的主体区域;然而上述的主体框的标注是通过人工标注的,标注效率较低。比如用于训练主体检测模型的数据集“VOC”、“MSCOCO”、“ImageNet”、“Objects365”等都是人工标注的;参见表1,表1为针对数据集的人工标注情况:

由表1易知,最多需要标注上百万图像以及上千万检测框,比如需要花费数周甚至数月时间实现人工标注主体框,尤其对于一些新增主体类目,需要再次标注;从而,人工标注的可执行性较差和标注效率较低。并且,为了保证人工标注的质量,标注的整个流程非常繁多复杂,包括数据收集与清洗、标注人员培训,还有保证数据标注准确性的抽查和校验等环节,标注过程的时间消耗较大,标注效率较低。

另外,还可以基于通用预训练检测模型的弱监督方法实现主体检测;即通过通用预训练检测模型获取待检测图像的初始显著性区域并进行调整,再基于调整后的初始显著区域迭代训练通用预训练检测模型,获得目标检测模型,最后利用目标检测模型确定待检测图像的显著性区域。示例性地,参见图1,图1是一种示例性的主体检测流程示意图;如图1所示,待检测图像1-1输入通用预训练检测模型1-2之后,获得显著性区域1-3,基于阈值过滤和/或条件随机场等方式调整显著性区域1-3,基于调整后的显著性区域1-4判断显著性区域是否稳定,如果是则将调整后的显著性区域1-4作为最终检测结果1-5;如果否则基于调整后的显著性区域1-4和显著性区域1-3之间的差异继续迭代训练通用预训练检测模型1-2,以微调通用预训练检测模型1-2,直至显著性区域稳定,获得最终检测结果1-5。

然而,上述实现主体检测的过程中,虽然无需进行信息标注,一方面,因为输入通用预训练检测模型的为一张图片,输出的表征显著性区域的显著图对噪音区域也可能产生较强响应,导致无法区分显著性区域与噪音区域,因此,训练通用预训练检测模型时容易受噪音影响,从而,主体检测的准确度较低。另一方面,需要通用预训练模型(预训练检测模型):通常需要用通用预训练模型得到一个初始结果,后续优化迭代都在此初始结果上进行。所以初始结果不能太差,这就要求通用预训练模型得有一定数据支撑,且此数据需要和目标数据的分布保持一致,否则很难迭代优化。因此如果目标数据不通用,那么很难找到已有的通用预训练模型,比如主体类别为商品中的酒瓶、玩具、奶粉等时,无对应的通用预训练模型。故,通常仍基于标注的方式进行主体检测,然而主体框是通过人工标注的,标注效率较低。

基于此,本申请实施例提供一种信息标注方法、装置、设备和计算机可读存储介质,能够提升主体检测时的标注效率。下面说明本申请实施例提供的信息标注设备的示例性应用,本申请实施例提供的信息标注设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明信息标注设备实施为服务器时的示例性应用。

参见图2,图2是本申请实施例提供的信息标注系统的一个可选的架构示意图;如图2所示,为支撑一个信息标注应用,在信息标注系统100中,终端400(示例性示出了终端400-1和终端400-2)通过网络301连接服务器200(信息标注设备),网络301可以是广域网或者局域网,又或者是二者的组合。另外,该信息标注系统100中,还包括数据库302,用于在服务器200进行信息标注时,为服务器200提供数据支持。

服务器200,用于基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i-1次度量模型,得到第i次度量模型,其中,i为正整数;基于第i次度量模型,对比第i次正样本和第i次锚样本;基于对比结果,对第i次正样本进行主体裁剪,获得第i+1次正样本,并对第i次锚样本进行主体裁剪,获得第i+1次锚样本;继续基于第i+1次正样本、第i+1次锚样本和第i+1次负样本训练第i次度量模型,并基于训练后的第i次度量模型分别对第i+1次正样本和第i+1次锚样本进行主体裁剪,直到满足截止条件时,停止主体裁剪,获得第n次正样本和第n次锚样本,其中,n为大于i的整数;将第n次正样本和第n次锚样本,确定为图像数据集的主体标注区域。还用于基于主体标注区域训练出主体检测模型,采用主体检测模型对终端400通过网络301发送的待检测图像进行主体检测,并通过网络301向终端400发送检测出的主体区域。

终端400,用于通过网络301向服务器200发送待检测图像;还用于通过网络301接收服务器200通过网络301发送的主体区域,并显示待检测图像的主体区域。

本申请实施例可以借助于云技术(Cloud Technology)实现,云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。

云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、以及应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源。

作为示例,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。

本申请实施例还可以通过区块链技术来实现,参见图3,图3是本申请实施例提供的信息标注系统的另一个可选的架构示意图。图3示出的信息标注系统100中,通过服务器200进行信息标注,还可以通过服务器200对多个终端(图3中示例性示出了终端400-1和终端400-2)进行主体检测。

在一些实施例中,服务器200、终端400-1和终端400-2可以加入区块链网络500而成为其中的一个节点。区块链网络500的类型是灵活多样的,例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例,任何业务主体的电子设备,都可以在不需要授权的情况下接入区块链网络500,以作为区块链网络500的共识节点,例如终端400-1映射为区块链网络500中的共识节点500-1,服务器200映射为区块链网络500中的共识节点500-2,终端400-2映射为区块链网络500中的共识节点500-3。

以区块链网络500为联盟链为例,服务器200、终端400-1和终端400-2在获得授权后可以接入区块链网络500而成为节点。服务器200获取到图像数据集,并获取图像数据集的主体标注区域,以及基于主体标注区域训练出主体检测模型之后,可以通过执行智能合约的方式对终端400-1和终端400-2发送的待检测图像进行主体检测,以获得待检测图像的主体区域,并分别将主体区域发送至区块链网络500中进行共识。当共识通过、且主体区域表征待检测图像的主体所在区域时,确定该主体区域即待检测图像的主体检测结果。可见,通过区块链网络中的多个节点对检测结果进行共识确认后再进行主体检测结果的确定,能够通过共识机制避免了受到服务器错误检测的影响,进一步提高主体检测的可靠性和准确性。

参见图4,图4是本申请实施例提供的图2中的一种服务器的组成结构示意图,图4所示的服务器200包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器 210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。

操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;

网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他计算设备,示例性的网络接口220包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;

呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);

输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中,本申请实施例提供的信息标注装置可以采用软件方式实现,图4示出了存储在存储器250中的信息标注装置255,其可以是程序和插件等形式的软件,包括以下软件模块:模型训练模块2551、相似度量模块2552、主体裁剪模块2553、迭代处理模块2554、信息标注模块2555、噪音清理模块2556、样本构建模块2557、条件确定模块2558、主体检测模块2559和应用模块25510,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中,本申请实施例提供的信息标注装置可以采用硬件方式实现,作为示例,本申请实施例提供的信息标注装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的信息标注方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。

下面,将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的信息标注方法。

参见图5,图5是本申请实施例提供的信息标注方法的一个可选的流程示意图,将结合图5示出的步骤进行说明。

S501、基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i-1次度量模型,得到第i次度量模型。

在本申请实施例中,当信息标注设备获取用于训练网络模型的数据集,且所训练的网络模型用于进行主体检测时,也就获得了图像数据集;且该图像数据集为未标注的图像集合,每张图像之间存在弱监督信息:所属的主体类别或主体标签,比如,图像A和图像B是否为同一投放对象或同一商品(主体类别或主体标签,比如,名称或类别)。为了实现对图像数据集的主体框的标注,信息标注设备迭代训练一种度量模型,并在迭代训练该度量模型的过程中,逐渐确定出图像数据集中每张图像的主体框。针对度量模型的第i次训练,对应的数据集为对图像数据集已进行了i-1次处理后的数据集;信息标注设备从对图像数据集进行了i-1次处理后的数据集中,抽取同一主体类别或主体标签的两张图像,组成正样本对,该正样本对为第i次正样本和第i次锚样本,以及抽取主体类别或主体标签不同的两张图像,组成负样本对,该负样本对为第i次锚样本图像和第i次负样本图像。这里,i为正整数。

需要说明的是,该度量模型用于确定图像数据集中各样本图像之间的主体相似度;从而,第i-1次度量模型为已训练了i-1次后的度量模型,第i次度量模型为已训练了i次后的度量模型,并且,第i次度量模型是信息标注设备基于第i次正样本、第i次锚样本和第i次负样本组成的正样本对和负样本对,训练第i-1次度量模型获得的。这里,图像数据集是一种结构化图像类型的数据集,该结构化体现在各图像之间的主体类别或主体标签是否相同。

还需要说明的是,对图像数据集进行了i-1次处理后的数据集,可以是原始的图像数据集(即i为1时),还可以是通过第i-1次度量模型,对图像数据集处理后的数据集或者是对图像数据集处理了至少一次后的数据集,再次进行处理获得的(即i大于1时)。

S502、基于第i次度量模型,对比第i次正样本和第i次锚样本。

在本申请实施例中,信息标注设备获得了第i次度量模型之后,由于第i次正样本和第i次锚样本中的主体类别或主体标签相同,从而,通过第i次度量模型对比第i次正样本和第i次锚样本,所获得第i次正样本和第i次锚样本之间的相似度分布中,相似度大的区域对应于主体框内的区域,相似度小的区域对应于主体框外的区域;且该相似度分布即第i次正样本和第i次锚样本的对比结果。也就是说,对比结果为第i次正样本和第i次锚样本的基于主体的响应特征图。

可以理解的是,当采用度量模型对比第i次正样本和第i次锚样本,由于第i次正样本和第i次锚样本中的主体类别或主体标签相同,因此,所获得的对比结果中能够针对主体所在区域产生较强的响应,而非主体所在区域则会被抑制,产生较低的响应,进而能够有效清理噪音数据,准确地确定主体所在区域,提升主体框的标注准确度。

S503、基于对比结果,对第i次正样本进行主体裁剪,获得第i+1次正样本,并对第i次锚样本进行主体裁剪,获得第i+1次锚样本。

在本申请实施例中,信息标注设备获得了对比结果之后,基于该对比结果中所表征的主体所在区域的相似度,分别对第i次正样本和第i次锚样本中的非主体框内的区域进行裁剪,也就是实现了对第i次正样本和第i次锚样本的主体裁剪;从而,也就获得了与第i次正样本对应的第i+1次正样本,以及与第i次锚样本对应的第i+1次锚样本。

需要说明的是,S501中描述的对图像数据集的处理即主体裁剪,该主体裁剪指裁剪出主体所在区域的处理。这里,信息标注设备在基于对比结果分别对第i次正样本和第i次锚样本进行主体裁剪时,可以是基于裁剪阈值进行,以实现对第i次正样本和第i次锚样本的微调,保留尽可能多的相似度区域,删除掉尽可能少的背景或者噪音区域,以防误删,从而提升标注的准确度。

可以理解的是,第i+1次正样本相对于第i次正样本,更接近于正样本的主体所在区域;第i+1次锚样本相对于第i次锚样本,更接近于锚样本的主体所在区域。

S504、继续基于第i+1次正样本、第i+1次锚样本和第i+1次负样本训练第i次度量模型,并基于训练后的第i次度量模型分别对第i+1次正样本和第i+1次锚样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n次锚样本。

在本申请实施例中,信息标注设备获得了第i+1次正样本和第i+1次锚样本时,已利用度量模型对图像数据集进行了i次的主体裁剪,信息标注设备从已对图像数据集进行了i次的主体裁剪所获得的数据集中,抽取与第i+1次锚样本的主体类别或主体标签不同的图像,也就获得了第i+1次负样本;这里,第i+1次负样本可以是采用第i次度量模型对第i次负样本进行裁剪后的图像,还可以是采用第i次度量模型对不同于第i次负样本的其他负样本进行裁剪后的图像,本申请实施例对此不作具体限定。另外,信息标注设备对图像数据集进行第i次的主体裁剪时,也就实现了对第i次负样本的主体裁剪。以及,信息标注设备在确定满足截止条件时,停止进行主体裁剪。

需要说明的是,信息标注设备基于第i+1次正样本、第i+1次锚样本和第i+1次负样本训练第i次度量模型,获得训练后的第i次度量模型的过程,与S501中的训练过程类似;以及信息标注设备采用训练后的第i次度量模型,分别对第i+1次正样本和第i+1次锚样本进行主体裁剪的过程,与S501中的主体裁剪过程类似;本申请实施例在此不再赘述。

这里,信息标注设备持续对训练后的第i次度量模型进行后续的训练,且每完成一次训练则利用训练出的度量模型对训练样本的正样本对进行主体裁剪,直到某次主体裁剪出的正样本对中主体框趋于稳定(主体框的变化量小于变化量阈值)或满足一定条件(主体框中的主体所在区域占比大于占比阈值)时,确定满足截止条件;此时,所获得的图像数据集的主体裁剪的结果即为第n次正样本和第n次锚样本。另外,n为大于i的整数。易知,第n次正样本和第n次锚样本均是进行了n-1次主体裁剪获得的图像,且,第i次正样本包括第n次正样本,第i次锚样本包括第n次锚样本。另外,截止条件还可以是主体裁剪次数。

S505、将第n次正样本和第n次锚样本,确定为图像数据集的主体标注区域。

需要说明的是,信息标注设备获得了第n次正样本和第n次锚样本之后,该第n次正样本和第n次锚样本即为图像数据集的主体框的区域;从而,第n次正样本和第n次锚样本,即为图像数据集的主体标注区域,此时,也就实现了对图像数据集的主体所在区域的标注。易知,主体标注区域是图像数据集针对主体的标注信息。

参见图6,图6是本申请实施例提供的一种示例性的信息标注的流程示意图;如图6所示,针对图像数据集6-11,构建对应的正样本对和负样本对,以训练度量模型6-20,得到度量模型6-21;利用度量模型6-21对图像数据集6-11中的正样本对进行主体裁剪,获得图像数据集6-12;针对图像数据集6-12,构建对应的正样本对和负样本对,以训练度量模型6-21,得到度量模型6-22;利用度量模型6-22对图像数据集6-12中的正样本对进行主体裁剪,获得图像数据集6-13;……;获得图像数据集6-1n。这里,图像数据集6-11中的正样本对即第1次正样本和第1次锚样本,以及图像数据集6-12中的正样本对即第2次正样本和第2次锚样本;另外,图像数据集6-1n中的正样本对即第n次正样本和第n次锚样本。其中,图中虚线箭头对应的处理是指主体裁剪,实线箭头对应的处理是指度量模型的训练。

可以理解的是,通过第i次正样本、第i次锚样本和第i次负样本组成的正样本对和负样本对训练出第i次度量模型,并采用第i次度量模型对第i次正样本和第i次锚样本中的主体所在区域进行裁剪;如此持续进行训练和裁剪,直至裁剪出主体标注区域(第n次正样本和第n次锚样本);如此,主体标注区域的获取是自动的,从而,能够提升人体检测中的标注效率。

在本申请实施例中,对比结果包括第i次正样本的正特征响应图、以及第i次锚样本的锚特征响应图;其中,正特征响应图为第i次正样本中与第i次锚样本的最相似区域的相似度分布图,锚特征响应图为第i次锚样本中与第i次正样本的最相似区域的相似度分布图;此时,S503可通过S5031和S5032实现;也就是说,信息标注设备基于对比结果,对第i次正样本进行主体裁剪,获得第i+1次正样本,并对第i次锚样本进行主体裁剪,获得第i+1次锚样本,包括S5031和S5032,下面分别对各步骤进行说明。

S5031、基于正特征响应图对第i次正样本进行主体裁剪,获得第i+1次正样本。

在本申请实施例中,度量模型对正样本对中的两张图像中最相似的区域产生的响应最强,越不相似的区域产生的响应越低,即特征响应图(正特征响应图和锚特征响应图)的响应值,与第i次正样本和第i次负样本的相似度成正相关。信息标注设备将正特征响应图叠加在第i次正样本上,将正特征响应图中响应最强(相似度最大)的区域(表征的主体所在区域),确定为第i次正样本的中心,对该中心的外围进行裁剪,裁剪后的第i次正样本,即第i+1次正样本。

需要说明的是,信息标注设备还可以采用随机场或阈值过滤,并结合特征响应图,确定主体裁剪的区域,本申请实施例对此不作具体限定。

S5032、基于锚特征响应图对第i次锚样本进行主体裁剪,获得第i+1次锚样本。

需要说明的是,S5032对应的实现过程的描述,与S5031对应的实现过程的描述类似,本申请实施例在此不再赘述。

参见图7,图7是本申请实施例提供的一种示例性的获得对比结果的示意图;如图7所示,正样本对7-1包括第i次正样本7-11和第i次锚样本7-12;采用第i次度量模型对比第i次正样本7-11和第i次锚样本7-12时,获得与第i次正样本7-11对应的正特征响应图7-21,以及与第i次锚样本7-12对应的锚特征响应图7-22;其中,正特征响应图7-21和锚特征响应图7-22即对比结果7-2。这里,图7-31为将正特征响应图7-21叠加在第i次正样本7-11的效果,图7-32为将锚特征响应图7-22叠加在第i次锚样本7-12的效果。

下面,以基于正特征响应图7-21对第i次正样本7-11迭代地进行主体裁剪为例,进行主体裁剪的说明;参见图8,图8是本申请实施例提供的一种示例性的迭代进行主体裁剪的流程示意图;如图8所示,针对第i次正样本7-11,当基于正特征响应图7-21进行主体裁剪,获得第i+1次正样本8-1;接着基于度量模型获得的第i+1次正样本8-1对应的特征响应图,对第i+1次正样本8-1进行主体裁剪,获得第i+2次正样本8-2;继续基于度量模型获得的第i+2次正样本8-2对应的特征响应图,对第i+2次正样本8-2进行主体裁剪,获得第i+3次正样本8-3(第n次正样本)。

在本申请实施例中,S502之后还可以包括S506至S508;也就是说,信息标注设备基于第i次度量模型,对比第i次正样本和第i次锚样本之后,该信息标注方法还包括S506至S508,下面分别对各步骤进行说明。

S506、基于相似度阈值和正特征响应图,确定第i次正样本中的第一相似区域,并基于相似度阈值和锚特征响应图,确定第i次锚样本中的第二相似区域。

在本申请实施例中,信息标注设备能够获取到相似度阈值,该相似度阈值用于确定正样本对中两张图像之间的相似区域。从而,这里,信息标注设备通过将正特征响应图中的各相似度与相似度阈值比较,也就能够获得第i次正样本中的与第i次锚样本的相似区域,这里称为第一相似区域;同理,信息标注设备通过将锚特征响应图中的各相似度与相似度阈值比较,也就能够获得第i次锚样本中的与第i次正样本的相似区域,这里称为第二相似区域。

S507、当第一相似区域和第二相似区域中的至少一种的区域值小于区域阈值时,获取第i次正样本与当前主体类别下的当前图像集合中的其他图像对应的第三相似区域,并获取第i次锚样本与其他图像对应的第四相似区域。

在本申请实施例中,信息标注设备能够获取到区域阈值,该区域阈值用于确定第i次正样本和第i次锚样本是否相似的相似结果;这里,信息标注设备获得了第一相似区域和第二相似区域之后,将第一相似区域和第二相似区域分别对应的区域值与区域阈值比较。如果第一相似区域和第二相似区域中的至少一种的区域值不小于区域阈值,表明第i次正样本和第i次锚样本相似。

而如果第一相似区域和第二相似区域中的至少一种的区域值小于区域阈值,表明第i次正样本和第i次锚样本不相似;此时,也就表明第i次正样本和第i次锚样本中存在一个样本为噪音图像(比如,包括部分主体的图像,或者用于呈现主体的关联内容的图像);从而,信息标注设备进一步确定第i次正样本和第i次锚样本中的噪音图像。

需要说明的是,第i次正样本和第i次锚样本是当前主体类别下的当前图像集合中的两张图像;这里,信息标注设备基于第i次正样本与当前图像集合中的其他图像的各个相似区域,确定出第三相似区域(比如,计算第i次正样本与当前图像集合中的其他图像的各个相似区域的平均值);同理,确定出第i次锚样本与其他图像对应的第四相似区域。

S508、当第三相似区域大于第四相似区域时,确定第i次锚样本为噪音图像,从当前图像集合中删除第i次锚样本。

需要说明的是,信息标注设备获得了第三相似区域和第四相似区域之后,对比第三相似区域和第四相似区域,如果第三相似区域大于第四相似区域,表明第i次锚样本为噪音图像,从而从当前图像集合中删除第i次锚样本;如果第三相似区域小于第四相似区域,表明第i次正样本为噪音图像,从而从当前图像集合中删除第i次正样本。后续,基于删除了噪音图像的当前图像集合中构建正样本对进行主体裁剪。

可以理解的是,通过在主体裁剪过程中对噪音图像进行清理,能够提升获得的用于训练主体检测模型的训练样本的质量,进而,能够提升标注效果和主体检测精度。易知,可以基于S506至S508确定的方法,检测不同主体类别下的图像的相似结果,当不同主体类别下的图像相似时,表明这两个主体类别为一个主体类别,此时,可以对该两个主体类别下的图像集合进行合并。

在本申请实施例中,S501可通过S5011和S5012实现;也就是说,信息标注设备基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i-1次度量模型,得到第i次度量模型,包括S5011和S5012,下面对各步骤分别进行说明。

S5011、基于第i-1次度量模型,获取图像数据集的第i次正样本的正样本特征、第i次锚样本的锚样本特征和第i次负样本的负样本特征。

在本申请实施例中,信息标注设备采用第i-1次度量模型提取第i次正样本的特征,也就获得了正样本特征;提取第i次锚样本的特征,也就获得了锚样本特征;提取第i次负样本的特征,也就获得了负样本特征。

S5012、基于正样本特征和锚样本特征之间的差异,以及锚样本特征和负样本特征之间的差异,训练第i-1次度量模型,获得第i次度量模型。

需要说明的是,信息标注设备基于正样本的特征、锚样本特征和负样本特征获取损失函数值,并基于该损失函数值训练第i-1次度量模型,也就获得了第i次度量模型。这里,当采用三元组损失函数(Triplet Loss)获取正样本的特征、锚样本特征和负样本特征对应的损失函数值时,正样本特征和锚样本特征之间的差异,以及锚样本特征和负样本特征之间的差异共同组成损失函数值。

在本申请实施例中,S501之前还可包括S509至S511;也就是说,信息标注设备基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i-1次度量模型,得到第i次度量模型之前,该信息标注方法还包括S509至S511,下面对各步骤分别进行说明。

S509、获取图像数据集对应的第i次图像数据集。

需要说明的是,第i次图像数据集是由各个主体类别下的图像集合构成的,且第i次图像数据集是通过对图像数据集进行i-1次迭代主体裁剪获得的。易知,图像数据集与是由各个主体类别下的多张图像构成的。

S510、将第i次图像数据集中当前主体类别下的当前图像集合中的两张图像作为第i次正样本和第i次锚样本。

需要说明的是,当前主体类别为各个主体类别下的任一主体类别;这里主体类别,也可以称为主体标签,用于表征主体的类目。

S511、将第i次图像数据集中不同于当前主体类别下的其他图像集合中的一张图像,确定为第i次负样本。

在本申请实施例中,S504中信息标注设备确定满足截止条件时,获得第n次正样本和第n次锚样本之前,该信息标注方法还包括S5041至S5043,下面对各步骤分别进行说明。

S5041、获取第n次正样本与第n-1次正样本之间的第n次正区域差异,并获取第n次锚样本与第n-1次锚样本之间的第n次锚区域差异。

需要说明的是,第n次正区域差异是指对第n-1次正样本的微调程度;第n次锚区域差异是指对第n-1次锚样本的微调程度。

S5042、获取前j次的正区域差异和前j次的锚区域差异,其中,j为正整数。

需要说明的是,前j次的正区域差异包括对第n-j-1次正样本的微调程度至对第n-2次正样本的微调程度;前j次的锚区域差异包括对第n-j-1次锚样本的微调程度至对第n-2次锚样本的微调程度。

S5043、当前j次的正区域差异和第n次正区域差异之间的差异小于差异阈值,和/或前j次的锚区域差异和第n次锚区域差异之间的差异小于差异阈值时,确定满足截止条件。

需要说明的是,信息标注设备通过对比前j次的正区域差异和第n次正区域差异,确定第n次正区域差异与前j次的正区域差异之间的差异小于差异阈值时,确定第n次正样本对应的相似区域稳定;信息标注设备通过对比前j次的锚区域差异和第n次锚区域差异,确定第n次锚区域差异与前j次的锚区域差异之间的差异小于差异阈值时,确定第n次锚样本对应的相似区域稳定;这里,当第n次正样本和第n次锚样本中的至少一种对应的相似区域稳定时,确定满足截止条件。

在本申请实施例中,S504中信息标注设备确定满足截止条件时,获得第n次正样本和第n次锚样本之前,该信息标注方法还包括S5044,下面对该步骤进行说明。

S5044、当第一相似区域在第n次正样本的第一占比大于占比阈值,和/或第二相似区域在第n次锚样本的第二占比大于占比阈值时,确定满足截止条件。

需要说明的是,信息标注设备将第一相似区域的区域值作为分子、第n次正样本的区域中作为分母,计算比值,也就获得了第一占比,该第一占比表征了第n次正样本中的主体所在区域的精准度;从而,当第一占比大于占比阈值时,表明第n次正样本作为主体所在区域的精准度较高。

同理,信息标注设备将第二相似区域的区域值作为分子、第n次锚样本的区域中作为分母,计算比值,也就获得了第二占比,该第二占比表征了第n次锚样本中的主体所在区域的精准度。从而,当第二占比大于占比阈值时,表明第n次锚样本作为主体所在区域的精准度较高。故,这里,信息标注设备在确定第一占比和第二占比中的至少一种大于占比阈值时,确定满足截止条件。

参见图9,图9是本申请实施例提供的信息标注方法的另一个可选的流程示意图;如图9所示,在本申请实施例中,信息标注设备将第n次正样本和第n次锚样本,确定为图像数据集的主体标注区域之后,该信息标注方法还包括S512至S514,下面对各步骤分别进行说明。

S512、基于图像数据集和主体标注区域,训练出主体检测模型。

在本申请实施例中,信息标注设备基于原始主体检测模型,确定图像数据集中图像的预测主体区域;并基于预测主体区域与主体标注区域之间的差异,迭代训练原始主体检测模型,直到满足训练截止条件时,获得主体检测模型。也就是说,信息标注设备利用原始主体检测模型预测图像数据集中的图像的主体预测区域,并基于主体预测区域和主体标注区域之间的差异迭代训练原始主体检测模型,并在满足训练截止条件时,将当前迭代训练后的原始主体检测模型,确定为主体检测模型。

需要说明的是,主体检测模型用于确定图像中的主体所在区域,即用于对图像进行主体检测。

S513、当接收到主体检测请求时,响应于主体检测请求,获取待检测图像。

在本申请实施例中,当确定对图像进行主体检测时,信息标注设备也就获得了主体检测请求;此时,信息标注设备从主体检测请求中获取待检测图像,或者根据主体检测请求中的图像获取地址,获取待检测图像。易知,待检测图像为待进行主体检测的图像。

S514、基于主体检测模型对待检测图像进行主体检测,获得主体区域。

需要说明的是,由于信息标注设备已经获得了用于对图像进行主体检测的主体检测模型;因此,信息标注设备获得了待检测图像之后,将待检测图像输入至主体检测模型中,也就获得了待检测图像的主体所在区域,这里称为主体区域。

在本申请实施例中,信息标注、主体检测模型的训练和主体检测可以采用不同的设备执行,也可以采用同一设备进行执行,本申请实施例对此不作具体限定。

可以理解的是,通过第i次正样本、第i次锚样本和第i次负样本组成的正样本对和负样本对训练出第i次度量模型,并采用第i次度量模型对第i次正样本和第i次锚样本中的主体所在区域进行裁剪;如此持续进行训练和裁剪,直至裁剪出主体检测框(第n次正样本和第n次锚样本);如此,主体检测框的获取是自动的,从而在基于裁剪出的主体检测框训练出主体检测模型,并采用主体检测模型进行主体检测时,能够提升主体检测的效率。

在本申请实施例中,采用主体检测模型进行主体检测的应用场景可以为图像检索,比如,商品检索,以图搜图等,此时,主体区域为检索对象区域;还可以为多媒体信息投放,比如,广告投放等,此时,主体区域为投放对象区域;又可以为目标识别,比如,人脸识别,行人重识别、通用物体识别等,此时,主体区域为检测目标区域;以及可以为场景分割,此时,主体区域为场景区域。

在本申请实施例中,当主体区域为检索对象区域时,S505之后还可包括S515;也就是说,信息标注设备将第n次正样本和第n次锚样本,确定为图像数据集的主体标注区域之后,该信息标注方法还包括S515,下面对该步骤进行说明。

S515、提取主体标注区域的特征,从而获得与图像数据集对应的特征检索库。

相应地,在本申请实施例中,S514之后还可包括S516至S518;也就是说,信息标注设备基于主体检测模型对待检测图像进行主体检测,获得主体区域之后,该信息标注方法还包括S516至S518,下面对各步骤分别进行说明。

S516、提取检索对象区域的待检索特征。

需要说明的是,待检索特征与特征检索库中特征的特征类型一致;以及,主体表征区域的特征提取方式,与待检索特征的提取方式相同,比如,采用相同的特征提取模型进行提取。

S517、从特征检索库中,确定与待检索特征匹配的匹配特征。

在本申请实施例中,信息标注设备将待检索特征与特征检索库中的特征一一对比,也就获得了匹配特征。这里,当信息标注设备未从特征检索库中确定出与待检索特征匹配的匹配特征,则生成无匹配信息的提示信息。

S518、将图像数据集中与匹配特征对应的图像,确定为待检测图像的检索结果,并基于检索结果进行推荐处理。

需要说明的是,检索结果即与待检测图像相似的图像。这里,信息标注设备可以将检索结果作为推荐信息,以实现推荐;也可以直接显示检索结果,以实现检索。

在本申请实施例中,当主体区域为投放对象区域时,S514之后还可包括S519至S521;也就是说,信息标注设备基于主体检测模型对待检测图像进行主体检测,获得主体区域之后,该信息标注方法还包括S519至S521,下面对各步骤分别进行说明。

S519、提取投放对象区域的投放对象特征。

S520、基于投放对象特征确定投放属性,并基于投放属性,确定待投放信息,并基于待投放信息进行投放处理。

需要说明的是,投放属性包括投放类目和投放标签中的至少一种。

S521、基于投放对象特征确定投放转化率,以及当投放转化率大于投放转化率阈值时,对待检测图像进行投放处理,当投放转化率小于或等于投放转化率阈值时,结束对待检测图像的投放处理。

需要说明的是,S520至S521为两个独立的处理步骤,在执行顺序上不分先后。

下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。

参见图10,图10是本申请实施例提供的一种示例性的信息标注流程示意图;如图10所示,该示例性的信息标注流程描述了对图片中的商品区域进行标注的过程,包括:

S1001、开始。

S1002、获取商品训练数据D1(图像数据集)。

需要说明的是,获取每种商品不同角度或使用场景的多张图片,多种商品中每种商品对应的多张图片也组成了商品训练数据D1。

S1003、基于商品训练数据D1构建正样本对(第i次正样本和第i次锚样本)和负样本对(第i次锚样本和第i次负样本)。

需要说明的是,从商品训练数据D1中,选择同一商品(当前主体类别)下的两张图片构建成正样本对,而选择不同商品下的两张图片构建成负样本对。

S1004、基于商品训练数据D1所构建的正样本对和负样本对训练深度度量模型M0(第i-1次度量模型),获得深度度量模型M1(第i次度量模型)。

参见图11,图11是本申请实施例提供的一种示例性的训练度量模型的流程示意图;如图11所示,首先,对数据集11-1进行抽样处理11-2,获得批量的商品训练数据11-3(图像数据集,比如为商品训练数据D1,一个“batch”);其次,商品训练数据11-3通过挖掘处理11-4,获得正样本11-51(第i次正样本)、锚样本11-52(第i次锚样本)和负样本11-53(第i次负样本);然后,采用度量模型11-6(第i-1次度量模型,比如为深度度量模型M0)分别提取正样本11-51、锚样本11-52和负样本11-53的嵌入特征(“Embedding”特征),依次获得特征11-71(正样本特征)、特征11-72(锚样本特征)和特征11-73(负样本特征);最后,利用三元组损失函数计算特征11-71、特征11-72和特征11-73对应的度量模型损失值11-8(正样本特征和锚样本特征之间的差异,以及锚样本特征和负样本特征之间的差异),并基于度量模型损失值11-8更新度量模型11-6(更新后的度量模型11-6即第i次度量模型,比如深度度量模型M1)。

S1005、向深度度量模型M1输入基于训练数据D1所构建的正样本对,获得正样本对中每张图片对应的响应特征图(参见图7中的正特征响应图7-21和锚特征响应图7-22),并基于响应特征图对正样本对中的每张图片进行裁剪(参见图8中对第i次正样本7-11进行主体裁剪,获得第i+1次正样本8-1的过程),从而获得商品训练数据D2(第2次图像数据集)。

需要说明的是,获得了响应特征图之后,还可以用于清理噪音图片,比如,商品细节图片或者包装图片等;这里,属于同一商品的两张图片所预测出的相似度区域非常小时(第一相似区域和第二相似区域中的至少一种的区域值小于区域阈值),则其中一张图片可能为噪音图片(商品细节图片或者包装图片等)。此时,将这两张图分别与同一商品(当前主体类别)中的其它所有图片(其他图像)进行相似区域预测并比较,如果其中一张图片和其它所有图片的相似区域(第三相似区域,可以为这一张图片和其它所有图片的相似区域的平均结果)明显大于,另一张图片的和其它所有图片的相似区域(第四相似区域),则可判定另一张图片为噪音图片,将其丢弃。

S1006、继续基于商品训练数据D2构建的正样本对(第i+1次正样本和第i+1次锚样本)和负样本对(第i+1次锚样本和第i+1次负样本)训练深度度量模型M1,获得深度度量模型M2,并采用深度度量模型M2对商品训练数据D2所构建的正样本对进行裁剪,直到裁剪出的图片趋于稳定(满足截止条件),获得商品区域图片(第n次正样本和第n次锚样本)。

S1007、基于商品区域图片完成对商品训练数据D1的商品标注。

S1008、结束。

基于图10,参见图12,图12是本申请实施例提供的另一种示例性的对图像中的商品区域进行标注的过程;如图12所示,正负样本对12-1(包括正样本对12-11和负样本对12-12)用于训练深度度量模型12-2,利用深度度量模型12-2获取正样本对12-11的特征响应图12-3,基于特征响应图12-3调整(主体裁剪)正样本对12-11的相似区域12-4(主体裁剪的过程),基于调整后的相似区域12-4判断相似区域是否稳定,如果是,则获得标注结果12-5(主体标注区域,比如商品区域图片);如果否则基于调整后的正样本对12-11微调(训练)深度度量模型12-2。这里,微调深度度量模型12-2的过程即图11中更新度量模型11-6的过程。

参见图13,图13是本申请实施例提供的一种示例性的主体检测的流程示意图;如图13所示,从商品库13-1中,抽取出以商品进行划分的商品图片,得到弱监督结构化信息13-2(图像数据集);将弱监督结构化信息13-2中同一个商品下的图片确定为正样本对,不同商品间的图片确定为负样本对,采用图10中的信息标注过程对正样本对和负样本对进行主体裁剪处理,获得弱监督结构化信息13-2中的所有商品图片的商品检测框13-3;一方面,从商品检测框13-3中抽取细粒度的嵌入特征,构建检索库13-4(特征检索库);另一方面,基于商品检测框13-3训练出商品检测模型13-5(主体检测模型);当获取到图片检索请求13-7时,响应于图片检索请求13-7获得待检索图片13-8(待检测图片),并采用商品检测模型13-5对待检索图片13-8进行主体检测,得到商品检测框13-9,从商品检测框13-9抽取细粒度的嵌入特征,以在检索库13-4中检索出匹配的图片13-10(检索结果)。该图片检测过程,能够提升检索效果。

参见图14,图14是本申请实施例提供的另一种示例性的主体检测的流程示意图;如图14所示,获取所有的广告图片14-1,并以投放对象来划分广告图片,得到弱监督结构化信息14-2(图像数据集);将弱监督结构化信息14-2中同一个投放对象下的图片确定为正样本对,不同投放对象间的图片确定为负样本对,采用图10中的信息标注过程对正样本对和负样本对进行主体裁剪处理,获得弱监督结构化信息14-2中的所有广告图片的投放对象检测框14-3;基于投放对象检测框14-3训练出投放对象检测模型14-4(主体检测模型);当获取到投放请求14-5时,响应于投放请求14-5获得待投放图片14-6(待检测图片),并采用投放对象检测模型14-4对待投放图片14-6进行主体检测,得到投放对象检测框14-7,从投放对象检测框14-7抽取粗粒度的嵌入特征,以确定投放对象的类目、标签以及其它属性信息,以进行投放处理14-8。还可以将抽取的特征,加入到广告推荐模型中,预估点击率等转化率。该信息投放过程,能够提升投放效果。

可以理解的是,采用本申请实施例提供的信息标注方法实现人体检测时,一方面,无需人工标注检测框,信息标注的资源消耗较少。通过弱监督数据(比如,是否为同一商品)构建的正样本对和负样本对,能够自动地实现主体检测中的信息标注。另一方面,无需任何预训练模型,因此,应用场景的范围较广泛,比如,能够在一些不常见的数据集上做商品或者物体检测;以及基于结构化弱监督数据,可以直接训练深度度量模型,然后根据结果逐步清理数据、调整模型,不断优化迭代,避免了初始化训练模型的处理。再一方面,基于图像对的处理能够鲁棒地捕捉到两张图像中的相似区域,同时有效地抑制了非主体区域,实现了噪音的有效清理,能够提升主体检测模型的准确度。

下面继续说明本申请实施例提供的信息标注装置255的实施为软件模块的示例性结构,在一些实施例中,如图4所示,存储在存储器250的信息标注装置255中的软件模块可以包括:

模型训练模块2551,用于基于图像数据集的第i次正样本、第i次锚样本和第i次负样本,训练第i-1次度量模型,得到第i次度量模型,其中,i为正整数;

相似度量模块2552,用于基于所述第i次度量模型,对比所述第i次正样本和所述第i次锚样本;

主体裁剪模块2553,用于基于对比结果,对所述第i次正样本进行主体裁剪,获得第i+1次正样本,并对所述第i次锚样本进行主体裁剪,获得第i+1次锚样本;

迭代处理模块2554,用于继续基于所述第i+1次正样本、所述第i+1次锚样本和第i+1次负样本训练所述第i次度量模型,并基于训练后的第i次度量模型分别对所述第i+1次正样本和所述第i+1次锚样本进行主体裁剪,直到满足截止条件时,获得第n次正样本和第n次锚样本,其中,n为大于i的整数;

信息标注模块2555,用于将所述第n次正样本和所述第n次锚样本,确定为所述图像数据集的主体标注区域。

在本申请实施例中,所述对比结果包括所述第i次正样本的正特征响应图、以及所述第i次锚样本的锚特征响应图;其中,所述正特征响应图为所述第i次正样本中与所述第i次锚样本的最相似区域的相似度图,所述锚特征响应图为所述第i次锚样本中与所述第i次正样本的最相似区域的相似度图;所述主体裁剪模块2553,还用于基于所述正特征响应图对所述第i次正样本进行主体裁剪,获得所述第i+1次正样本;基于所述锚特征响应图对所述第i次锚样本进行主体裁剪,获得所述第i+1次锚样本。

在本申请实施例中,所述信息标注装置255还包括噪音清理模块2556,用于基于相似度阈值和所述正特征响应图,确定所述第i次正样本中的第一相似区域,并基于所述相似度阈值和所述锚特征响应图,确定所述第i次锚样本中的第二相似区域;当所述第一相似区域和所述第二相似区域中的至少一种的区域值小于区域阈值时,获取所述第i次正样本与当前主体类别下的当前图像集合中的其他图像对应的第三相似区域,并获取所述第i次锚样本与所述其他图像对应的第四相似区域;当所述第三相似区域大于所述第四相似区域时,确定所述第i次锚样本为噪音图像,从所述当前图像集合中删除所述第i次锚样本。

在本申请实施例中,所述模型训练模块2551,还用于基于所述第i-1次度量模型,获取所述图像数据集的所述第i次正样本的正样本特征、第i次锚样本的锚样本特征和第i次负样本的负样本特征;基于所述正样本特征和所述锚样本特征之间的差异,以及所述锚样本特征和所述负样本特征之间的差异,训练所述第i-1次度量模型,获得所述第i次度量模型。

在本申请实施例中,所述信息标注装置255还包括样本构建模块2557,用于获取所述图像数据集对应的第i次图像数据集,其中,所述第i次图像数据集是由各个主体类别下的图像集合构成的,且所述第i次图像数据集是通过对所述图像数据集进行i-1次迭代主体裁剪获得的;将所述第i次图像数据集中当前主体类别下的当前图像集合中的两张图像作为所述第i次正样本和所述第i次锚样本,其中,所述当前主体类别为所述各个主体类别下的任一主体类别;将所述第i次图像数据集中不同于所述当前主体类别下的其他图像集合中的一张图像,确定为所述第i次负样本。

在本申请实施例中,所述信息标注装置255还包括条件确定模块2558,用于获取所述第n次正样本与第n-1次正样本之间的第n次正区域差异,并获取所述第n次锚样本与第n-1次锚样本之间的第n次锚区域差异;获取前j次的正区域差异和前j次的锚区域差异,其中,j为正整数;当所述前j次的正区域差异和所述第n次正区域差异之间的差异小于差异阈值,和/或所述前j次的锚区域差异和所述第n次锚区域差异之间的差异小于所述差异阈值时,确定满足所述截止条件。

在本申请实施例中,所述条件确定模块2558,还用于当所述第一相似区域在所述第n次正样本的第一占比,和所述第二相似区域在所述第n次锚样本的第二占比中的至少一种大于占比阈值时,确定满足所述截止条件。

在本申请实施例中,所述信息标注装置255还包括主体检测模块2559,用于基于所述图像数据集和所述主体标注区域,训练出主体检测模型;当接收到主体检测请求时,响应于所述主体检测请求,获取待检测图像;基于所述主体检测模型对所述待检测图像进行主体检测,获得主体区域。

在本申请实施例中,所述主体检测模块2559,还用于基于原始主体检测模型,确定图像数据集中图像的预测主体区域;基于所述预测主体区域与所述主体标注区域之间的差异,迭代训练所述原始主体检测模型,直到满足训练截止条件时,获得所述主体检测模型。

在本申请实施例中,所述主体区域为检索对象区域、投放对象区域、检测目标区域和场景区域中的至少一种。

在本申请实施例中,所述信息标注装置255还包括应用模块25510,用于当所述主体区域为所述检索对象区域时,提取所述主体标注区域的特征,从而获得与所述图像数据集对应的特征检索库;提取所述检索对象区域的待检索特征;从所述特征检索库中,确定与所述待检索特征匹配的匹配特征;将所述图像数据集中与所述匹配特征对应的图像,确定为所述待检测图像的检索结果,并基于所述检索结果进行推荐处理。

在本申请实施例中,所述应用模块25510,还用于当所述主体区域为所述投放对象区域时,提取所述投放对象区域的投放对象特征;基于所述投放对象特征确定投放属性,并基于所述投放属性,确定待投放信息,并基于所述待投放信息进行投放处理,其中,所述投放属性包括投放类目和投放标签中的至少一种;或者,基于所述投放对象特征确定投放转化率,以及当所述投放转化率大于投放转化率阈值时,对所述待检测图像进行投放处理,当所述投放转化率小于或等于投放转化率阈值时,结束对所述待检测图像的投放处理。

本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的信息标注方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的信息标注方法,例如,如图5示出的方法。

在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。

作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述,本申请实施例中,通过第i次正样本、第i次锚样本和第i次负样本组成的正样本对和负样本对训练出第i次度量模型,并采用第i次度量模型对第i次正样本和第i次锚样本中的主体所在区域进行裁剪;如此持续进行训练和裁剪,直至裁剪出主体标注区域(第n次正样本和第n次锚样本);如此,主体标注区域的获取是自动的,从而,能够提升标注效率。另外,基于主体标注区域训练用于进行主体检测的主体检测模型,能够提升主体检测的准确度;以及通过正样本对进行主体裁剪,能够有效确定正样本对中两张图像的相似区域,有效抑制非主体所在区域以及背景部分,从而,所获得的标注信息的准确度较高,进而基于该标注信息训练出的主体检测模型的准确度较高,能够提升主体检测的准确度。

以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

相关技术
  • 一种信息标注方法、装置、设备及计算机可读存储介质
  • 信息点标注方法、装置、设备及计算机可读存储介质
技术分类

06120112810164