NIMA:Neural Image Assessment

该博客探讨了一种使用卷积神经网络预测图像美学评分分布的方法,区别于传统的回归或分类。通过预测直方图形式的评分分布,模型能更好地捕捉人类评价的多样性。文章介绍了大型数据集AVA,用于图像美学分析,并使用平方EMD损失函数优化模型。实验表明,这种方法提高了预测与人类评价的相关性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文章是图片质量评价的范畴,在电商图片创意上是很常见的问题,比如对生成的banner进行质量评价,基于美学的或者其他方面的,或者基于图片评价的思路来关联物料创意推荐。

Abstract:

Our approach differs from others in that we predict the distribution of human opinion scores using a convolutional neural network.

Introduction:

While technical quality assessment deals with measuring low-level degradations such as noise, blur,compression artifacts, etc., aesthetic assessment quantifies semantic level characteristics associated with emotions and beauty in images.(技术质量评估涉及测量低水平的退化,如噪声、模糊、压缩伪影等,而美学评估则量化了与图像中的情感和美相关的语义水平特征)。Yet, the subjective nature of image quality remains the fundamental issue. (主观上的评价依然不可避免)

Related work

大部分方法的思路也是基于cnn去提取特征直接回归之类的。

 Our Contributions

Since we aim for predictions with higher correlation with human ratings, instead of classifying images to low/high score or regressing to the mean score, the distribution of ratings are predicted as a histogram.(由于我们的目标是预测与人类评分具有更高的相关性,因此不是将图像分类为低/高分或回归到平均分,而是将评分的分布预测为直方图).使用了 suared EMD loss。

A large-scale database for aesthetic visual analysis(AVA)

AVA数据集包含约25.5万张图像,由业余摄影师根据美学质量进行评级。1每张照片由200人平均评分。每张图片都与一个单一的挑战主题相关联,在AVA中有近900个不同的比赛。图像评级范围从1到10,10是与图像相关的最高美学分数。

 AVA等级的直方图如图1所示。可以看出,平均评分集中在总体平均分(5.5)上。此外,AVA数据集中大约一半照片的评级标准偏差大于1.4。假设分数差异较大的图像易于解释,而分数差异较小的图像似乎代表传统风格或主题。图2举例说明了与不同审美质量和非传统性水平相关的评级。似乎一张照片的审美质量可以用平均分数来表示,而它的非常规性与分数偏差密切相关。考虑到AVA分数的分布,通常情况下,根据AVA数据训练模型会导致预测结果与总体平均值(5.5)存在较小偏差。值得一提的是,图1中的联合直方图显示了非常低/高评级的较高偏差(与总体平均值5.5和平均标准偏差1.43相比)。换句话说,在具有极端审美品质的AVA图像中,意见分歧更为一致。平均值介于2和8之间的评级分布可以用高斯函数近似,高度倾斜的评级可以用伽马分布建模。这个数据是挺不错的。

Proposed methods

论文提的方法非常简单,它包括三个主干网络,VGG16、Inception-v2,MobilenetV2.We replaced the last layer of the baseline CNN with a fully-connected layer with 10 neurons followed by soft-max activations (shown in Fig. 8),10个输出直接接nn.softmax,实际就是最输出进行分桶了,一共10个probability,论文中的p就是标签,网络预测的是这个直方图p,这个直方图p可以用均值和方差去刻画(实际上均值就是他的得分)。

 代码很简单。

 loss function

损失函数用的是EMD loss,However, in the case of ordered-classes (e.g. aesthetic and quality estimation), cross-entropy loss lacks the inter-class relationships between score buckets. One  might argue that ordered-classes can be represented by a real number,and consequently, can be learned through a regression framework. Yet, it has been shown that for ordered classes,the classification frameworks can outperform regression models [21], [31].

 代码是先求和,在做差的。

 后面就是一些评测之类的。整体上说文章就是不同于直接回归,转向去预测一个概率图,最后的结果可以由这个分布去刻画。这个概率直方图正好可以用softmax去取值,主要还是edm loss可能可以更好的去回归这些值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值