掌桥专利:专业的专利平台
掌桥专利
首页

图像分类方法及装置、通信设备及存储介质

文献发布时间:2023-06-19 10:27:30


图像分类方法及装置、通信设备及存储介质

技术领域

本公开涉及计算机视觉技术领域,尤其涉及一种图像分类方法及装置、通信设备及存储介质。

背景技术

随着用户产生内容(User Generated Content,UGC)内容爆发式增长,信息流产品占领越来越多的用户时间,而图片是信息表现最直接的载体。识别和屏蔽低俗内容,做好风险内容控制,净化图片载体是一个非常必要的工作。但随着图片审核技术的成熟,越来越多的内容创作者在色情擦边球内容创作上愈演愈烈。软色情和色情,正常和软色情的边界越来越模糊,这也给图片色情审核带来了很大的困难和挑战。

发明内容

本申请实施例公开了一种图像分类方法及装置、通信设备及存储介质。

本申请实施例提供一种图像分类方法,包括:

利用分类模型的特征提取部分提取待分类的目标图像的语义特征;

利用所述分类模型的分类部分对所述语义特征进行处理,得到基于M分类的第一分类结果,其中,所述M为等于或大于3的正整数;

基于所述第一分类结果,输出至少指示所述目标图像为低俗图像的程度分类信息,其中,所述低俗图像包括:色情图像、恐怖图像和/或暴力图像。

基于上述方案,所述方法还包括:

将所述第一分类结果映射为基于N分类的第二分类结果,其中,所述N为小于所述M的正整数;

所述基于N分类的第二分类结果为:基于父类的分类结果;

所述基于M分类的第一分类结果为:基于子类的分类结果,其中,至少存在一个所述父类包括:多个所述子类。

基于上述方案,所述基于所述第一分类结果,输出至少指示所述目标图像为低俗图像的程度分类信息,包括:

输出所述目标图像的第一分类结果;

和/或,

输出所述目标图像的第二分类结果。

基于上述方案,所述利用分类模型的特征提取部分提取待分类的目标图像的语义特征,包括以下至少之一:

针对所述色情图像,利用所述分类模型的特征提取部分,提取出所述目标图像中人物元素的衣着特征、行为特征、所述人物元素的特定部位的暴露程度特征及所述人物元素整体暴露程度特征中的一项或多项;

针对所述暴力图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有暴力元素、暴力元素的数量、暴力元素所占图像面积的比例和暴力元素的暴力程度中的一项或多项;

针对所述恐怖图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有恐怖元素、恐怖元素的数量、恐怖元素所占图像面积的比例、和恐怖元素的低俗程度中的一项或多项。

基于上述方案,在识别所述图像之前,所述方法还包括:

获取第一样本图像及标注标签,其中,所述标注标签为所述M分类的子类标签;

利用所述第一样本图像及标注标签,训练所述分类模型;

在分类模型的训练损失收敛时,停止训练;

在所述分类模型的输出层添加将所述第一分类结果映射为所述第二分类结果的映射层。

基于上述方案,所述方法还包括:

对所述第一样本图像进行形态变换,得到第二样本图像,其中,所述第二样本图像与所述第一样本图像具有相同的标注标签;

所述利用所述第一样本图像及标注标签,训练所述分类模型,包括:

利用所述第一样本图像及所述第一样本图像的标注标签,和第二图像样本及所述第二样本图像的标注标签,训练所述分类模型。

基于上述方案,所述对所述第一样本图像进行形态变换,得到第二样本图像,包括以下至少之一:

对所述第一样本图像进行线性变换,得到所述第二样本图像,其中,所述线性变换包括:图像旋转和/或图像缩放;

对所述第一样本图像进行图像内容变化,得到所述第二样本图像,其中,所述图像内容变化包括:局部的马赛克处理、局部区域的图像内容替换和/或局部模糊化处理;

对所述第一样本图像进行图像参数变换,得到所述第二样本图像,其中,所述图像参数包括:对比度和/或亮度。

基于上述方案,所述分类模型为SEResNeXt模型。

本申请实施例第二方面提供一种图像分类装置,包括:

提取模块,用于利用分类模型的特征提取部分提取待分类的目标图像的语义特征;

分类模块,用于利用所述分类模型的分类部分对所述语义特征进行处理,得到基于 M分类的第一分类结果,其中,所述M为等于或大于3的正整数;

输出模块,用于基于所述第一分类结果,输出至少指示所述目标图像为低俗图像的程度分类信息,其中,所述低俗图像包括:色情图像、恐怖图像和/或暴力图像。

基于上述方案,所述装置还包括:

映射模块,用于将所述第一分类结果映射为基于N分类的第二分类结果,其中,所述N为小于所述M的正整数;

所述基于N分类的第二分类结果为:基于父类的分类结果;

所述基于M分类的第一分类结果为:基于子类的分类结果,其中,至少存在一个所述父类包括:多个所述子类。

基于上述方案,所述输出模块,用于输出所述目标图像的第一分类结果;和/或,输出所述目标图像的第二分类结果。

基于上述方案,所述提取模块,用于执行以下至少之一:

针对所述色情图像,利用所述分类模型的特征提取部分,提取出所述目标图像中人物元素的衣着特征、行为特征、所述人物元素的特定部位的暴露程度特征及所述人物元素整体暴露程度特征中的一项或多项;

针对所述暴力图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有暴力元素、暴力元素的数量、暴力元素所占图像面积的比例和暴力元素的暴力程度中的一项或多项;

针对所述恐怖图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有恐怖元素、恐怖元素的数量、恐怖元素所占图像面积的比例、和恐怖元素的低俗程度中的一项或多项。

基于上述方案,所述装置还包括:

获取模块,用于在识别所述图像之前,获取第一样本图像及标注标签,其中,所述标注标签为所述M分类的子类标签;

训练模块,用于利用所述第一样本图像及标注标签,训练所述分类模型;在分类模型的训练损失收敛时,停止训练;

添加模块,用于在所述分类模型的输出层添加将所述第一分类结果映射为所述第二分类结果的映射层。

基于上述方案,所述装置还包括:

变换模块,用于对所述第一样本图像进行形态变换,得到第二样本图像,其中,所述第二样本图像与所述第一样本图像具有相同的标注标签;

所述训练模块,用于利用所述第一样本图像及所述第一样本图像的标注标签,和第二图像样本及所述第二样本图像的标注标签,训练所述分类模型。

基于上述方案,所述变换模块,用于执行以下至少之一:

对所述第一样本图像进行线性变换,得到所述第二样本图像,其中,所述线性变换包括:图像旋转和/或图像缩放;

对所述第一样本图像进行图像内容变化,得到所述第二样本图像,其中,所述图像内容变化包括:局部的马赛克处理、局部区域的图像内容替换和/或局部模糊化处理;

对所述第一样本图像进行图像参数变换,得到所述第二样本图像,其中,所述图像参数包括:对比度和/或亮度。

基于上述方案,所述分类模型为SEResNeXt模型。

本申请实施例第三方面提供一种电子设备,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为通过执行所述可执行指令,能够实现前述第一方面任意技术方案提供的方法。

本申请实施例第四方面提供一种非临时性计算机可读存储介质,所述非临时性计算机可读存储介质存储有可执行指令;所述可执行指令被处理器执行后,能够实现前述第一方面任意技术方案提供的方法。

本申请实施例提供的技术方案:在利用分类模型进行目标图像是否为低俗图像的分类时,不仅仅会确定该目标图像是否为低俗图像,而是会对目标图像是否为低俗图像的程度进行M分类;M为等于或大于3的分类,如此,实现了目标图像是否为低俗图像的判别的同时,实现了图像的程度细分类,具有分类精确度高的特点,可以满足细分类场景下的详细分类要求。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种图像分类方法的流程示意图。

图2是根据一示例性实施例示出的一种图像分类方法的流程示意图。

图3是根据一示例性实施例示出的一种图像分类方法的流程示意图。

图4是根据一示例性实施例示出的一种正常图像的示意图。

图5是根据一示例性实施例示出的一种图像分类装置的框图。

图6是根据一示例性实施例示出的一种ResNet模型和SEResNeXt模型的差异示意图。

图7是根据一示例性实施例示出的一种SE模块的示意图。

图8是根据一示例性实施例示出的一种移动终端的示意框图。

图9是根据一示例性实施例示出的一种服务去的示意框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

如图1所示,本实施例提供一种图像分类方法,包括:

S110:利用分类模型的特征提取部分提取待分类的目标图像的语义特征;

S120:利用所述分类模型的分类部分对所述语义特征进行处理,得到基于M分类的第一分类结果,其中,所述M为等于或大于3的正整数;

S130:基于所述第一分类结果,输出至少指示所述目标图像为低俗图像的程度分类信息;,其中,所述低俗图像包括:色情图像、恐怖图像和/或暴力图像。

在一些实施例中,本公开实施例中的图像分类方法可应用于用户设备中,其中,该用户设备包括移动终端和固定终端。这里,移动终端包括手机、笔记本电脑、平板电脑、可穿戴式电子设备、智能音箱等,固定终端包括个人计算机、电视等。

这些用户终端能够进行图像分类,在完成图像分类之后,根据分类信息确定是否显示某一个目标图像或者自动屏蔽某些低俗图像。

例如,用户终端具有成人模式和儿童模式;在儿童模式下用户终端为了维护儿童的身心健康,需要通过该图像分类方法,过滤掉低俗图像,例如,屏蔽低俗图像的显示、拦截低俗图像的下载等。在一些实施例中,用户终端可以先下载预览图像,预览图像比原图像的图像数据小很多,然后通过该分类方法进行图像分类,若确定出预览图像为低俗图像,则原图像一定是低俗图像,则拒绝下载原图像,则儿童在观看用户终端下载的图像是,一方面减少了因为低俗图像下载和显示不利于儿童身心健康的问题;另一方面,减少了不必要的流量浪费。

在一些实施例中,该方法还可以应用于服务器中,例如,有的用户会通过用户终端上传图像,上传的图像即为所述目标图像。服务器接收到该目标图像之后,可通过本申请实施例提供的图像分类方法,进行图像分类;然后根据图像分类,确定是否在网络上公开这些图像,或者对这些图像进行分级处理。

所述色情图像可涉及裸露程度很高的图像;

所述恐怖图像可能涉及营造恐怖氛围的图像。

所述暴力图像可能涉及血腥图像等,具体如打架斗殴场景的图像和/或暴力凶杀案现场的图像。

在本申请实施例中,为了实现这种低俗图像的精确和细粒度的分类,会使用基于M分类的第一分类结果;如此,就不会仅简单的判定目标图像是否为低俗图像,更会是判定为低俗图像的程度。例如,根据目标图像与低俗图像的相似程度,或者,可归属于为低俗图像的概率值,给出程度判定结果。

例如,以色情图像为例,基于色情图像的M分类,根据是否为色情图像的程度,确定出目标图像是否是色情图像,如果是色情图像并区分色情图像的色情等级,例如,软色情图像,色情图像和正常图像。软色情图像的色情程度低于色情图像的色情程度。

再例如,以暴力图像为例,基于暴力图像的M分类,确定出目标图像是否是暴力图像,如果是暴力图像并区分暴力图像的暴力等级,例如,软暴力图像,暴力图像和正常图像。具体地所述M的取值可为3或3以上的任何值。例如,所述M的取值可为5、6、7、 8或9等。暴力图像的暴力程度高于软暴力图像。

进一步地,以恐怖图像为例,基于恐怖图像的M分类,确定出目标图像是否是恐怖图像,如果是恐怖图像并区分恐怖图像的恐怖等级,例如,软恐怖图像,恐怖图像和正常图像。具体地所述M的取值可为3或3以上的任何值。例如,所述M的取值可为5、6、 7、8或9等。软恐怖图像的恐怖程度低于恐怖图像的恐怖程度。

如此,通过M分类的第一分类结果,实现了目标图像是否为低俗图像的判别的同时,实现了图像的程度细分类,具有分类精确度高的特点,可以满足细分类场景下的详细分类要求。

在一些实施例中,所述方法还包括:

将所述第一分类结果映射为基于N分类的第二分类结果,其中,所述N为小于所述M的正整数;

所述基于N分类的第二分类结果为:基于父类的分类结果;

所述基于M分类的第一分类结果为:基于子类的分类结果,其中,至少存在一个所述父类包括:多个所述子类。

在本申请实施例中,该分类模型得到基于M分类的第一分类结果,可进一步将第一分类结果映射为基于N分类的第二分类结果。此处的N小于M。例如,M等于7,而N 等于3。此时,相当于第一分类结果的分类是详细分类的子类分类结果,而每个子类都有其对应的父类,则第二分类结果是子类所对应的父类。

通过第二分类结果的引入,则在进行图像分类时,可以根据当前的分类需求,将每一个基于子类的分类映射到对应的父类,从而可以满足不同分类粒度的目标图像的分类。

例如,以色情图像的分类为例,可以分为7个子类,按照色情程度从重到轻进行排序,可以将前4个子类判定为色情图像的父类,将排序第5的子类像划分为软色情图像的父类,将排序最后的两个子类确定为正常图像,或者非色情图像的父类。

通过第一分类结果和第二分类结果的映射,如此,满足了不同分类粒度场景下的目标图像的分类。

进一步地,如图2所示,在S130中进行图像分类时,输出的分类信息可包括:

S131:单独输出第一分类结果;

S132:单独输出第二分类结果;

S133:同时输出第一分类结果和第二分类结果。

如此,具体的是单独发输出第一分类结果或第二分类结果,还是同时输出第一分类结果和第二分类结果,可以根据业务场景进行区分,以满足不同分类场景的分类需求。

在一些实施例中,所述利用分类模型的特征提取部分提取待分类的目标图像的语义特征,包括:

针对所述色情图像,利用所述分类模型的特征提取部分,提取出所述目标图像中人物元素的衣着特征、行为特征、所述人物元素的特定部位的暴露程度特征及所述人物元素整体暴露程度特征中的一项或多项;

针对所述暴力图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有暴力元素、暴力元素的数量、暴力元素所占图像面积的比例和暴力元素的暴力程度中的一项或多项;

针对所述恐怖图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有恐怖元素、恐怖元素的数量、恐怖元素所占图像面积的比例、和恐怖元素的低俗程度中的一项或多项。

在本申请实施例中分类模型包括:编码器和解码器;编码器位于解码器之前,编码器可以用于图像特征的提取,解码器用于对图像特征进行分类处理。

针对不同的特定图像,进行目标图像的语义特征提取,提取出表针色情程度、暴力程度和/或恐怖程度的各种特征,方便后续解码器的分类。

例如,以色情图像进行分类,可以按照如下表格(表1)进行色情图像的M分类和N分类。

表1

当然以上仅是对色情图像的程度分类的一种举例,具体实现时不局限于上述举例。针对N分类和M分类都可以进一步细分。

若利用本申请实施例中提供的分类模型,图4应该会被归类为正常图像,图4所示的 图像的第一类分类结果可为运动服装、健身服装或保暖内衣照。归类为软色情图像的分类 结果为第二分类结果。第一分类结果可为女性轻度暴露。

在本申请实施例中使用分类模型进行图像分类之前,需要进行分类模型的训练,此处的分类模型的训练包括:在线训练和/或离线训练。所述方法还包括:所述分类模型的模型训练。

以下提供一种分类模型的训练方法,该训练方法可用于训练上述分类模型,也不限于上述分类模型。具体地,如图3所示,所述分类模型的模型训练包括:

S210:获取第一样本图像及标注标签,其中,所述标注标签为所述M分类的子类标签;

S220:利用所述第一样本图像及标注标签,训练所述分类模型;

S230:在分类模型的训练损失收敛时,停止训练;

S240:在所述分类模型的输出层添加将所述第一分类结果映射为所述第二分类结果的映射层。

在进行模型训时,首先需要获得样本图像,此处至少获得第一样本图像,此时的第一样本图像可以是从网络上下载的、实际拍摄的照片等。

这些第一样本图像被专家或者其他已经训练好的高精度分类模型进行标注,即获取了第一样本图像的标注标签。至少利用第一样本图像和标注标签进行模型的训练。

在分类模型的训练损失收敛时,停止分类模型的训练,否则继续训练直达训练损失收敛。

在一些实施例中,所述方法还包括:

对所述第一样本图像进行变换处理,得到第二样本图像,其中,所述第二样本图像与所述第一样本图像具有相同的标注标签;

所述利用所述第一样本图像及标注标签,训练所述分类模型,包括:

利用所述第一样本图像及所述第一样本图像的标注标签,和第二图像样本及所述第二样本图像的标注标签,训练所述分类模型。

将已经具有标注标签的第一图像样本仅进行不改变图像实质内容,即不影响图像所在类别的图像变换,从而得到第二图像样本;如此,可以实现图像样本数量的增加,结合第一样本图像和第二样本图像进行训练,可以提升训练后的分类模型的泛化能力。

例如,所述对所述第一样本图像进行形态变换,得到第二样本图像,包括以下至少之一:

对所述第一样本图像进行线性变换,得到所述第二样本图像,其中,所述线性变换包括:图像旋转和/或图像缩放;

对所述第一样本图像进行图像内容变化,得到所述第二样本图像,其中,所述图像内容变化包括:局部的马赛克处理、局部区域的图像内容替换和/或局部模糊化处理;

对所述第一样本图像进行图像参数变换,得到所述第二样本图像,其中,所述图像参数包括:对比度和/或亮度。

所述线性变换在不同图像内容进行变换的情况下,进行第一样本图像整体或局部进行各种线性变换。此处的现象变换包括:图像整体旋转、图像整体缩放、图像中局部旋转和 /或图像中局部缩放。

例如,图像旋转90度、180度或270度等。图像缩放包括但不限于:拉长或拉宽图像,或者长宽等比缩放等。

图像的局部旋转和/或局部缩放,可包括:将图像中的某一个局部,例如,图像的中央区域,裁剪出来进行缩放和旋转。

在一些实施例中,第一样本图像变化为第二样本图像的方式还包括:裁剪第一样本图像得到第二样本图像。

在另一些实施例中,对第一样本图像中的部分或全部内容在不影响图像分类或程度情况下,进行局部图像内容的变换。例如,通过加马赛克处理,利用马赛克以外的内容进行图像替换。局部模糊处理可包括:高斯模糊处理或者其他算法的模糊处理等。

从第一样本图像变换得到的第二样本图像可包括:

对清晰的第一样本图像进行模糊处理之后的第二样本图像;

对作为第一样本图像的视频截图进行旋转及模糊处理的第二样本图像;

加马赛克得到的第二样本图像;

旋转和加二维码(即加马赛克)得到的第二样本图像。

在一些实施例中,所述分类模型为SEResNeXt模型。

如图5所示,本实施例提供一种图像分类装置,包括:

提取模块110,用于利用分类模型的特征提取部分提取待分类的目标图像的语义特征;

分类模块120,用于利用所述分类模型的分类部分对所述语义特征进行处理,得到基于M分类的第一分类结果,其中,所述M为等于或大于3的正整数;

输出模块130,用于基于所述第一分类结果,输出至少指示所述目标图像为低俗图像的程度分类信息,其中,所述低俗图像包括:色情图像、恐怖图像和/或暴力图像。

在一些实施例中,所述提取模块110、所述分类模块120及所述输出模块130可均为程序模块;所述程序模块被处理器执行后,能够实现语义特征的提取、第一分类结果的获取及程度分类信息的输出。

在另一些实施例中,所述提取模块110、所述分类模块120及所述输出模块130可均为软硬结合模块;所述软硬结合模块包括但不限于可编程阵列;所述可编程阵列包括但不限于复杂可编程阵列或现场可编程阵列。

在还有一些实施例中,所述提取模块110、所述分类模块120及所述输出模块130可均为纯硬件模块;所述纯硬件模块包括但不限于:专用集成电路。

在一些实施例中,所述装置还包括:

映射模块,用于将所述第一分类结果映射为基于N分类的第二分类结果,其中,所述N为小于所述M的正整数;

所述基于N分类的第二分类结果为:基于父类的分类结果;

所述基于M分类的第一分类结果为:基于子类的分类结果,其中,至少存在一个所述父类包括:多个所述子类。

在一些实施例中,所述输出模块130,用于输出所述目标图像的第一分类结果;和/或,输出所述目标图像的第二分类结果。

在一些实施例中,所述提取模块110,用于执行以下至少之一:

针对所述色情图像,利用所述分类模型的特征提取部分,提取出所述目标图像中人物元素的衣着特征、行为特征、所述人物元素的特定部位的暴露程度特征及所述人物元素整体暴露程度特征中的一项或多项;

针对所述暴力图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有暴力元素、暴力元素的数量、暴力元素所占图像面积的比例和暴力元素的暴力程度中的一项或多项;

针对所述恐怖图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有恐怖元素、恐怖元素的数量、恐怖元素所占图像面积的比例、和恐怖元素的低俗程度中的一项或多项。

在一些实施例中,所述装置还包括:

获取模块,用于在识别所述图像之前,获取第一样本图像及标注标签,其中,所述标注标签为所述M分类的子类标签;

训练模块,用于利用所述第一样本图像及标注标签,训练所述分类模型;在分类模型的训练损失收敛时,停止训练;

添加模块,用于在所述分类模型的输出层添加将所述第一分类结果映射为所述第二分类结果的映射层。

在一些实施例中,所述装置还包括:

变换模块,用于对所述第一样本图像进行形态变换,得到第二样本图像,其中,所述第二样本图像与所述第一样本图像具有相同的标注标签;

所述训练模块,用于利用所述第一样本图像及所述第一样本图像的标注标签,和第二图像样本及所述第二样本图像的标注标签,训练所述分类模型。

在一些实施例中,所述变换模块,用于执行以下至少之一:

对所述第一样本图像进行线性变换,得到所述第二样本图像,其中,所述线性变换包括:图像旋转和/或图像缩放;

对所述第一样本图像进行图像内容变化,得到所述第二样本图像,其中,所述图像内容变化包括:局部的马赛克处理、局部区域的图像内容替换和/或局部模糊化处理;

对所述第一样本图像进行图像参数变换,得到所述第二样本图像,其中,所述图像参数包括:对比度和/或亮度。

在一些实施例中,所述分类模型为SEResNeXt模型。

以下结合上述任一实施例提供一个具体示例:

示例1:

本方案提出一种多粒度的色情图片的分类标准,使得图片语义更加清晰,色情和软色情,以及正常图片的分类标准更加清晰。此外,本申请提出数据增强的预处理方法和利用性能更强的SEResNeXt的网络结果作为分类模型。通过实验表明,本方案的色情图片方法,效果更好,解释性更强。

本申请对UGC的网络图片分为3个大类,7个细分类别,这7个大类包括了各种明显的色情展示和色情行为方式,也包括性感的软色情的定义,其中,对女性身体的暴露程度做了明确的区分,对男性身体的暴露和女性身体暴露区分开来。一共14个分类标准:

通过表(a)的分类标准,标注样本图像10万条,每个标注样本分为细分类别的7个类别之一。

步骤二 数据预处理和数据增强,可包括:

数据标注完成之后,为了使模型学习到每个类别数据的语义特征,采用数据增强可使 得同一语义的图片表现出更多的形态。本申请通过旋转,局部放大,随机小区域马赛克, 调整亮度、对比度等操作对图像进行增强。

步骤三 构建色情图片等低俗图像的分类模型,可包括:ResNet模型虽然解决了梯度 消失或梯度爆炸等问题造成的深层网络难以训练的问题,但是网络结构较为单一,性能有 限。本申请采用SEResNeXt模型作为分类模型,SEResNeXt模型是ResNet的发展和进 化,具有更好的分类性能和鲁棒性。参考图6所示,SEResNeXt模型在卷积操作中,通 过平行堆叠相同拓扑结构的块(blocks)代替原来ResNet模型的三层卷积的块(block), 并且加入SE模块——聚合(Squeeze)得到通道(channel)级的全局特征,然后对全局 特征进行激励(Excitation)操作,学习各个通道(channel)间的关系,得到不同通道(channel) 的权重。这样网络结构加深加强,使得网络的特征抽取能力更强,模型的鲁棒性也得到了 提高。图7即为收敛通道级的全局特征得到最终输出的SE模块的网络结构。在图6中左 侧的为ResNet模型的三层卷积的模块;右侧为SEResNeXt模型三个平行堆叠的卷积模块。

步骤四:分类模型的模型训练,具体如,分类模型采用以下参数进行训练:

步骤五:分类模型对图像的预测,可包括:通过步骤四得到的分类模型,对新图像进行预测,得到七个分类的结果之一,并给出概率值大小。

本方案通过层次化的细粒度分类标准,抓住图像的主要语义特征,使得不同类别的数据语义表征性更加显著。同时细分类标准使得算法标准和业务标准有了更好的结合,使得模型分类结果可根据业务尺度灵活变化,可解释性也更强。

通过数据增强和SEResNeXt网络结构,使得算法性能更强,分类效果准确率更高,以下表格是两种深度学习算法的试验结果:

图8是根据一示例性实施例示出的一种移动终的框图。例如,移动终端800可以是移 动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健 身设备,个人数字助理等。该移动终端可用于执行前述任意技术方案提供的图像分类方法。

参照图8,移动终端800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组 件814,以及通信组件816。

处理组件802通常控制移动终端800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在移动终端800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电力组件806为移动终端800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为移动终端800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述移动终端800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当移动终端800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804 或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为移动终端800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为移动终端800的显示器和小键盘,传感器组件814还可以检测移动终端800 或移动终端800一个组件的位置改变,用户与移动终端800接触的存在或不存在,移动终端800方位或加速/减速和移动终端800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于移动终端800和其他设备之间有线或无线方式的通信。移动终端800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会 (IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,移动终端800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由移动终端800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种图像分类方法,所述方法包括:利用分类模型的特征提取部分提取待分类的目标图像的语义特征;利用所述分类模型的分类部分对所述语义特征进行处理,得到基于M分类的第一分类结果,其中,所述M为等于或大于3的正整数;基于所述第一分类结果,输出至少指示所述目标图像为低俗图像的程度分类信息,其中,所述低俗图像包括:色情图像、恐怖图像和/或暴力图像。

在一些实施例中,所述方法还包括:

将所述第一分类结果映射为基于N分类的第二分类结果,其中,所述N为小于所述M的正整数;

所述基于N分类的第二分类结果为:基于父类的分类结果;

所述基于M分类的第一分类结果为:基于子类的分类结果,其中,至少存在一个所述父类包括:多个所述子类。

在一些实施例中,所述基于所述第一分类结果,输出至少指示所述目标图像为低俗图像的程度分类信息,包括:

输出所述目标图像的第一分类结果;

和/或,

输出所述目标图像的第二分类结果。

在一些实施例中,所述利用分类模型的特征提取部分提取待分类的目标图像的语义特征,包括以下至少之一:

针对所述色情图像,利用所述分类模型的特征提取部分,提取出所述目标图像中人物元素的衣着特征、行为特征、所述人物元素的特定部位的暴露程度特征及所述人物元素整体暴露程度特征中的一项或多项;

针对所述暴力图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有暴力元素、暴力元素的数量、暴力元素所占图像面积的比例和暴力元素的暴力程度中的一项或多项;

针对所述恐怖图像,利用所述分类模型的特征提取部分,提取出所述目标图像是否包含有恐怖元素、恐怖元素的数量、恐怖元素所占图像面积的比例、和恐怖元素的低俗程度中的一项或多项。

在一些实施例中,在识别所述图像之前,所述方法还包括:

获取第一样本图像及标注标签,其中,所述标注标签为所述M分类的子类标签;

利用所述第一样本图像及标注标签,训练所述分类模型;

在分类模型的训练损失收敛时,停止训练;

在所述分类模型的输出层添加将所述第一分类结果映射为所述第二分类结果的映射层。

在一些实施例中,所述方法还包括:

对所述第一样本图像进行形态变换,得到第二样本图像,其中,所述第二样本图像与所述第一样本图像具有相同的标注标签;

所述利用所述第一样本图像及标注标签,训练所述分类模型,包括:

利用所述第一样本图像及所述第一样本图像的标注标签,和第二图像样本及所述第二样本图像的标注标签,训练所述分类模型。

在一些实施例中,所述对所述第一样本图像进行形态变换,得到第二样本图像,包括以下至少之一:

对所述第一样本图像进行线性变换,得到所述第二样本图像,其中,所述线性变换包括:图像旋转和/或图像缩放;

对所述第一样本图像进行图像内容变化,得到所述第二样本图像,其中,所述图像内容变化包括:局部的马赛克处理、局部区域的图像内容替换和/或局部模糊化处理;

对所述第一样本图像进行图像参数变换,得到所述第二样本图像,其中,所述图像参数包括:对比度和/或亮度。

所述分类模型为SEResNeXt模型。

图9是根据一示例性实施例示出的一种服务器的框图。例如,服务器1900可以被提供为一服务器。参照图19,服务器1900包括处理组件1922,其进一步包括一个或多个处 理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指 令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对 应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法……

服务器1900还可以包括一个电源组件1926被配置为执行服务器1900的电源管理,一个有线或无线网络接口1950被配置为将服务器1900连接到网络,和一个输入输出(I/O)接口1958。服务器1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

相关技术
  • 图像分类方法及装置、通信设备及存储介质
  • 图像分类预处理、图像分类方法、装置、设备及存储介质
技术分类

06120112553067