掌桥专利:专业的专利平台
掌桥专利
首页

基于美学质量的数字相册筛选方法、装置和电子设备

文献发布时间:2023-06-19 11:26:00


基于美学质量的数字相册筛选方法、装置和电子设备

技术领域

本发明属于图像处理技术领域,具体涉及一种基于美学质量的数字相册筛选方法、装置和电子设备。

背景技术

随着智能设备的普及,智能手机能够随时随地拍照,照片拍摄的成本大大降低,用户的数字相册中不像曾经的胶卷存储量小,会囤积大量的照片。用户需要对照片进行不同的分类,目前生活中主要是用户人工通过视觉对相册进行筛选,需要耗费大量时间与精力。

由于用户大多是随意拍照的,拍摄过程由于抖动程度,相机种类、相机模式等原因,导致数字相册中的图片质量良莠不齐。当图片质量差别程度不大的情况下,即使用户人工视觉辨识许久也是无法进行辨别区分的。

近来市面上还出现了通过一些算法进行智能筛选的方法,但是筛选算法大多是基于某项或者某些参数的,比如说限制图像尺寸大小、长宽比、饱和度、直方图信息等,根据以上参数作为图像集过滤的阈值来保留符合预期的图像、淘汰阈值外的图像;或者是基于图像内容的筛选算法,训练图像识别网络,根据网络的输出作为图像的标签,然后进行筛选,例如“保留包含人像的图片”,“删除包含车辆的图片”等等。上述图片筛选算法智能根据特定参数或者图像元素进行筛选过滤,但是无法对图像从审美角度做出评价,对图像的优美与否无法做出判断。尤其是在筛选风景照、人像照时,以上方法极有可能丢弃了构图优美的照片,而保留了虽然符合条件但是并不好看的照片。

因此,需要提供一种针对上述现有技术中不足的改进技术方案。

发明内容

本发明的目的是提供一种基于美学质量的数字相册筛选方法、装置和电子设备,用以克服上述现有技术中的问题。

为了实现上述目的,本发明提供如下技术方案:

一种基于美学质量的数字相册筛选方法,所述方法包括:

获取AVA数据集,并基于所述AVA数据集训练得到神经网络模型;所述神经网络模型按照美学质量确定评分分类通道;所述评分分类通道包括构图、色彩和光照;

获取数字相册中的原始照片,对所述原始照片进行预处理,得到待评价照片;

将所述待评价照片输入至所述神经网络模型,输出所述评分分类通道的评分结果;所述评分结果包括构图评分、色彩评分和光照评分;

根据所述评分结果筛选出所述数字相册中符合美学质量的照片。

进一步的,所述AVA数据集训练得到神经网络模型的过程包括:

搭建神经网络结构;

根据所述AVA数据集选取AVA训练集;

对所述AVA训练集进行处理得到训练数据,并将所述训练数据输入至搭建的神经网络结构中进行训练得到所述神经网络模型。

进一步的,所述神经网络结构采用5层卷积和3层全连接的排布方式,最后一层全连接层仅包括全连接层,不包括激活函数。

进一步的,在训练的过程中,通过损失函数判别神经网络的收敛结果。

进一步的,所述根据所述评分结果筛选出所述数字相册中符合美学质量的照片包括:

对所述评分结果进行处理得到最终评分;

根据所述最终评分筛选出所述数字相册中符合美学质量的照片。

为了实现上述目的,本发明提供如下技术方案

一种基于美学质量的数字相册筛选装置,所述数字相册筛选装置包括:

构建评分模块,用于获取AVA数据集,并基于所述AVA数据集训练得到神经网络模型;所述神经网络模型按照美学质量确定评分分类通道;所述评分分类通道包括构图、色彩和光照;

图像获取模块,用于获取数字相册中的原始照片,对所述原始照片进行预处理,得到待评价照片;

相册评分模块,用于将所述待评价照片输入至所述神经网络模型,输出所述评分分类通道的评分结果;所述评分结果包括构图评分、色彩评分和光照评分;

照片筛选模块,用于根据所述评分结果筛选出所述数字相册中符合美学质量的照片。

进一步的,所述构建评分模块包括:

搭建单元,用于搭建神经网络结构;

选取单元,用于根据AVA数据集选取AVA训练集;

训练单元,用于对AVA训练集进行处理得到训练数据,并将所述训练数据输入至搭建的神经网络结构中进行训练得到所述神经网络模型。

进一步的,所述照片筛选模块包括:

处理单元,用于对所述评分结果进行处理得到最终评分;

筛选单元,用于根据所述最终评分筛选出所述数字相册中符合美学质量的照片。

为了实现上述目的,本发明提供如下技术方案:

一种电子设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器在执行所述计算机程序时实现上述基于美学质量的数字相册筛选方法的步骤。

有益效果:

基于美学质量的数字相册筛选方法、装置和电子设备,本申请的数字相册筛选方法能够根据自动构建用于美学质量评分的神经网络模型,在构建好能够按照美学质量评分的神经网络模型后,对数字相册中的原始照片进行预处理,并将预处理得到的待评价照片输入至构建好的神经网络模型中,神经网络模型对每张待评价照片进行评分,并输出评分结果,最后根据评分结果筛选出数字相册中符合美学质量的照片。本申请能够对数字相册中的照片作出近似于人们主观思维的优劣判断,保留美学质量角度上优质的图片,舍弃丑陋的图片;同时可以快速处理大量图像,解决费时费力的问题,从而在整体上提高数字相册中照片筛选的效率。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。其中:

图1为本发明基于美学质量的数字相册筛选方法的流程图;

图2为本发明神经网络结构示意图;

图3为本发明AVA数据集训练得到神经网络模型的过程示意图;

图4为本发明基于美学质量的数字相册筛选装置的结构示意图;

图5为本发明构建评分模块的结构示意图;

图6为本发明照片筛选模块的结构示意图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。各个示例通过本发明的解释的方式提供而非限制本发明。实际上,本领域的技术人员将清楚,在不脱离本发明的范围或精神的情况下,可在本发明中进行修改和变型。例如,示为或描述为一个实施例的一部分的特征可用于另一个实施例,以产生又一个实施例。因此,所期望的是,本发明包含归入所附权利要求及其等同物的范围内的此类修改和变型。

步骤S1,获取AVA数据集,并基于所述AVA数据集训练得到神经网络模型;所述神经网络模型按照美学质量确定评分分类通道;所述评分分类通道包括构图、色彩和光照;

AVA(aesthetic Visual analysis,美学视觉分析)数据集是最大的美学质量数据集,共包含25万多张图,每张图包含语义标签、风格标签和不同角度的美学评分;其中,语义标签共66类,风格标签共14类,打分为1-10共10个分值。

如图3所示为本申请AVA数据集训练得到神经网络模型的过程包括:

步骤S101,搭建神经网络结构;

在本申请实施例中,神经网络结构采用Keras运算库进行搭建,具体神经网络结构采用5层卷积+3层全连接的排布方式,如图2所示,具体包括八层,前面五层是卷积层,后面3层是全连接层,最后一个全连接层输出分类标签的分布。本申请神经网络结构的排布方式能够在保证神经网络性能的情况下尽可能减小网络复杂度,更容易在手机等计算力相对于PC而言较弱的移动端部署。

以下逐层给出神经网络结构:

输入至神经网络中的原始图像大小为224*224*3,然后送入神经网络中各层网络结构中进行训练。作为其他实施方式,原始图像大小也可以为227*227*3,根据需要设定。

第一层的结构依次包括卷积层、激活层、归一层和池化层。其中卷积层大小为11*11*96,即宽和高的尺寸为11*11,采用96个卷积核,设定步长为4;经过卷积层的卷积后进行激活处理,在本申请实施例中,激活层的激活函数具体采用ReLU,因此输出的尺寸为224/4=56,去掉边缘为55,因此其输出的每个像素层图像feature map为55*55*96。归一层即LRN层在激活层之后,像素层图像进行归一化后尺寸不变;最后对归一处理后的像素层图像送入最大池化层,核大小为3*3,设定步长为2,因此像素层图像feature map的大小边为27*27*96。

第二层输入的基础(tensor)是第一层输出的27*27*96像素层图像,第二层结构与第一层结构相同,具体卷积层的大小为:5*5*256,设定步长为1,卷积计算前后的像素层图像尺寸不变,卷积层后同样紧跟ReLU激活层和LRN层;之后紧跟最大池化层,核大小为3*3,设定步长为2,因此像素层图像feature map为13*13*256。

第三层至第五层输入的基础(tensor)为13*13*256,具体第三层的卷积为3*3*384,设定步长为1,紧跟ReLU激活层;第四层卷积为3*3*384,设定步长为1,紧跟ReLU激活层;第五层卷积为3*3*256,设定步长为1,紧跟ReLU激活层;第五层后紧跟最大池化层,核大小3*3,设定步长为2,因此像素层图像feature map为6*6*256。

第六层输入数据为第五层的输出,尺寸为6*6*256。第六层为全连接层,本层共有4096个卷积核,能够输出4096个神经元,也即4096个运算结果,4096个运算结果通过ReLU激活函数生成4096个数据值。

第六层输出的4096个数据值与第七层的4096个神经元进行全连接,然后经ReLU激活处理后生成4096个数据值。第七层输出的4096个数据值与第八层的神经元进行全连接,经过训练后直接输出预测结果,在本申请实施例中,第八层仅有全连接层,不需要激活函数,输出为3个评分分类通道的评分结果。三个评分分类通道包括构图、色彩和光照。

在本申请中,激活函数具体使用ReLU,由于ReLU是线性的,且导数始终为1,计算量大大减少,能够达到轻量化部署、快速收敛的效果。

步骤S102,根据AVA数据集选取AVA训练集;

根据通过获取的AVA数据集,从中选取AVA数据集中的高评分(7-9)、中评分(5-7)以及低评分(3-5)的图像各50000幅作为训练集。通过从AVA数据集中选取不同评分的数万幅图像进行训练,能够避免训练过程中出现评分单一而产生过拟合的现象。

在本申请实施例中,步骤S101与步骤S102之间并不存在先后时序关系,可以先执行步骤S101,再执行步骤S102;也可以先执行步骤S102,再执行步骤S101;或者同时执行步骤S101和步骤S102。可以理解的是,以上描述仅为示例性的,本申请实施例对此并不进行限定。

步骤S103,对AVA训练集进行处理得到训练数据,并将训练数据输入搭建的神经网络结构中进行训练得到神经网络模型。

在本申请中,所述处理为缩放操作,缩放操作是对每个训练数据即每张图像进行缩放操作,具体是对每个训练数据进行卷积核大小为5*5的高斯模糊,再将模糊后的图像等比例缩放至224*224*3。

本申请的神经网络结构训练参数包括每次训练批处理(batch)大小、训练轮次(epoch)和学习率(learning rate)。在本实施例中,神经网络结构训练参数的设置为:每次训练batch大小为2000张图,训练轮次epoch为120轮,学习率为0.01。

神经网络结构训练过程采用5倍交叉验证,具体将训练集均分5份,其中4份作为训练数据,另外1份作为验证数据,之后轮换训练和验证数据。

在将AVA数据集的训练集作为样本输入至神经网络结构训练的过程中,通过神经网络的损失函数(Loss函数)进行收敛判别,损失函数具体采用均方误差MSE,其计算公式为:

MSE=(∑(y

其中,y

在本申请实施例中,采用均方误差MES的方式判断神经网络结构训练结果的收敛最直观,能够准确、快速的判断。

另外,神经网络在训练的过程中对自身的神经元权重进行优化更新,但是优化后的神经网络结构不发生改变。在本申请实施例中,由于AVA数据集中的图片本身带有基于构图、色彩、光照的评分,在神经网络的训练过程中会成为神经元权重更新的依据。神经网络的神经元权重的更新策略采用Adam优化器,以达到更快网络收敛的效果。需要说明的是,神经元参数具体值在训练过程中及训练后对外均不可见。

Adam优化器的算法伪代码如下:

随着训练轮次的增加,神经网络的神经元权重的更新,Loss函数逐渐变小,当在120个轮次后,Loss函数趋于稳定,神经网络收敛,训练过程结束,得到神经网络模型。

在本申请中,基于神经网络结构和AVA数据集,训练得到的神经网络模型按照美学质量确定并能够输出三个评分分类通道的评分结果。训练得到的评分结果更加贴合专业摄影师的主观感受。其中,三个评分分类通道包括构图、色彩和光照,分别对应输入图像的构图、色彩、光照三个要素。

步骤S2,获取数字相册中的原始照片,对所述原始照片进行预处理,得到待评价照片;

基于训练得到的神经网络模型,需要输入至神经网络模型的图片为固定尺寸的图片,但是数字相册中的原始照片(即待筛选照片)不一定符合神经网络模型的输入尺寸要求,因此,需要对原始照片进行预处理,以符合神经网络模型的输入尺寸。

因此,预处理的重点在于使数字相册中的原始照片的尺寸满足神经网络的输入要求,即尺寸为224*224*3(长*宽*RGB(色彩要素))。那么预处理为对原始照片进行等比缩放,具体是对数字相册中的原始照片进行卷积核大小为5*5的高斯模糊,再将模糊后的图像等比缩放至224*224*3;原始照片进行等比缩放后尺寸拉伸只会影响原始照片的长宽,不会影响图片的构图因素,不会破坏诸如“黄金分割”等要素,同样的,RGB色彩要素也不会改变。作为其他实施方式,也可以忽略降噪、腐蚀、模糊等不重要的操作。

步骤S3,将所述待评价照片输入至所述神经网络模型,输出所述评分分类通道的评分结果;所述评分结果包括构图评分、色彩评分和光照评分;

将预处理得到的待评价照片输入至训练得到的神经网络模型中,由于训练得到的神经网络模型的输出包括构图、色彩和光照三个评分分类通道,因此,将待评价照片输入至所述神经网络模型后,能够输出每个待评价照片的三个评分分类通道的评分结果。三个评分分类通道的评分结果分别对应数字相册中每个原始照片的构图评分F

步骤S4,根据所述评分结果筛选出所述数字相册中符合美学质量的照片。

本步骤旨在筛选出符合美学质量的照片。具体,所述根据所述评分结果筛选出所述数字相册中符合美学质量的照片包括以下步骤:

步骤S401,对所述评分结果进行处理得到最终评分;

在对所述评分结果进行处理得到最终评分时,可以侧重于构图、色彩或者光照的某一要素进行评分,也可以通过三个要素的评分进行综合评分得到最终评分。

当以三个要素中任一要素的评分结果进行处理时:

若仅侧重于构图要素进行评分,则最终评分F=F

若仅侧重于色彩要素进行评分,则最终评分F=F

若仅侧重于光照要素进行评分,则最终评分F=F

例如:假使向训练好的神经网络模型中输入的照片A,输出的评分结果:构图评分为7.5分、色彩评分为9分和光照评分为6分。若仅侧重于构图要素进行评分,则最终评分F=7.5分;若仅侧重于色彩要素进行评分,则最终评分F=9分;若仅侧重于光照要素进行评分,则最终评分F=6分。

当以三个要素的评分结果进行处理时,最终评分的结果为:

F=(F

其中,i+j+k=3,i、j、k分别对应构图色彩光照的加权配比数。

若用户希望侧重于色彩,可以令j=2.5,i=k=0.25;那么照片A的最终评分为F=8.62分。

若用户对三个要素要求均衡,可以令i=j=k=1;那么照片A的最终评分为F=7.5分。

步骤S402,根据所述最终评分筛选出所述数字相册中符合美学质量的照片。

在根据最终结果筛选出数字相册中的照片时,是根据设定阈值进行筛选。根据按照美学质量要求和用户对待筛选出照片的要求,确定筛选判断的设定阈值S。

当最终评分F≥设定阈值S时,筛选出对应的照片;

当最终评分F<设定阈值S时,舍弃对应的照片。

基于本申请的神经网络模型,能够在数字相册中的照片输入至神经网络模型后,能给出接近专业摄影师主观的美学质量评价结果,评价结果包含范围在0-9分的构图评分分数、色彩评分分数和光照评分分数;然后依据对该评分结果的处理判断,不仅能够帮助用户筛选出符合美学质量的照片,还可以有效减少用户在数字相册筛选整理上耗费的时间、精力。

装置实施例:

为实现本申请的技术目的,本申请还提出一种基于美学质量的数字相册筛选装置,如图4所示,所述数字相册筛选装置包括:

构建评分模块,用于获取AVA数据集,并基于所述AVA数据集训练得到神经网络模型;所述神经网络模型按照美学质量确定评分分类通道;所述评分分类通道包括构图、色彩和光照;

图像获取模块,用于获取数字相册中的原始照片,对所述原始照片进行预处理,得到待评价照片;

相册评分模块,用于将所述待评价照片输入至所述神经网络模型,输出所述评分分类通道的评分结果;所述评分结果包括构图评分、色彩评分和光照评分;

照片筛选模块,用于根据所述评分结果筛选出所述数字相册中符合美学质量的照片。

本申请的数字相册筛选装置能够根据自动构建用于美学质量评分的神经网络模型,在构建好能够按照美学质量评分的神经网络模型后,就通过图像获取模块对数字相册中的原始照片进行预处理,并将预处理得到的待评价照片输入至构建好的神经网络模型中,通过相册评分模型,对每张待评价照片进行评分,并输出评分结果,最后由照片筛选模块根据评分结果筛选出数字相册中符合美学质量的照片。

优选地,如图5所示,所述构建评分模块包括:

搭建单元,用于搭建神经网络结构;

选取单元,用于根据AVA数据集选取AVA训练集;

训练单元,用于对AVA训练集进行处理得到训练数据,并将所述训练数据输入至搭建的神经网络结构中进行训练得到所述神经网络模型。

优选地,如图6所示,所述照片筛选模块包括:

处理单元,用于对所述评分结果进行处理得到最终评分;

筛选单元,用于根据所述最终评分筛选出所述数字相册中符合美学质量的照片。

对于不同模块和单元的具体执行方法步骤已在上述基于美学质量的数字相册筛选方法实施例详细介绍,此处不再一一进行赘述。

电子设备实施例:

为实现本申请的技术目的,本申请还提出一种电子设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器在执行所述计算机程序时实现上述基于美学质量的数字相册筛选方法,所述方法包括:

获取AVA数据集,并基于所述AVA数据集训练得到神经网络模型;所述神经网络模型按照美学质量确定评分分类通道;所述评分分类通道包括构图、色彩和光照;

获取数字相册中的原始照片,对所述原始照片进行预处理,得到待评价照片;

将所述待评价照片输入至所述神经网络模型,输出所述评分分类通道的评分结果;所述评分结果包括构图评分、色彩评分和光照评分;

根据所述评分结果筛选出所述数字相册中符合美学质量的照片。

该方法的具体过程及相关细节已在方法实施例中介绍,此处不再一一详细赘述。

处理器可以是通用处理器,包括中央处理器(central processing unit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如:IPhone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如Ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如:iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可以将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器存储介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的基于美学质量的数字相册筛选方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和涉及约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述得设备及系统实施例仅仅是示意性的,其中作为分离不见说明的单元可以使或者也可以不是物理上分开的,作为单元提示的不见可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

相关技术
  • 基于美学质量的数字相册筛选方法、装置和电子设备
  • 图像美学质量评价方法、装置、存储介质及电子设备
技术分类

06120112921882