NIMA: Neural Image Assessment

Jan 10 2019 8 minutes de lectura (Alrededor de 1191 palabras)

图片质量评估在现实中有着非常广泛的应用。例如，对于用户上传的图片，选择比较美观并且清晰的图片作为相册封面或者缩略图，或是进入推荐系统推荐给其他用户。图片质量一般可分为像素级的技术质量(technical quality)和美学质量(aesthetic quality)。前者跟照片的模糊程度、噪点及压缩块效应等各种因素有关（例如，在摄影中，这通常取决于器材和拍照的参数设置），后者则与人类主观上的情绪和美学感受有关，取决于人们自身的审美角度、经验和审美能力。从方法上，图片质量评估又可分为无参考的方法和有参考的方法，这里的参考指的是是否存在一张标准的参考图片。在现实场景中，通常并没有图片可以作为参考，因此无参考的方法使用更加广泛。

在深度学习流行起来之后，学术界快速将深度卷积网络使用到了图片质量评估上。通常的做法是，使用在大规模分类数据集（一般都是ImageNet）上的预训练模型(如AlexNet, VGG等), 再做fine tuning来预测图片的平均质量得分。

考虑到质量得分的主观性，相同的图片不同的人打出的质量分可能差别很大(对应的是方差很大)，例如，毕加索的画便有许多的人无法欣赏，这个现象是无法反应在平均值上的。因此，在论文《NIMA: Neural Image Assessment》中， Google Research的研究人员将预测的目标修改为了图片的质量得分的分布。具体来说，将得分从低到高划分为N(N=10)个桶，归一化后得到用户得分落在每个桶的概率。每个桶都可以看成是一个类别，因此，图片的质量预测成了一个多分类问题。网络结构如下:

由于这些类别之间存在序关系，对于分类器而言，将5错分为6和将5错分为10，这两种情况下的错误程度差别是很大的。而通常的交叉熵损失函数无法反应这种情况。在文中，作者使用的是 Earth Mover’s Distance, 定义如下:

其中, CDF为累积概率分布，定义为:

$$
CDF_p{k} = \sum_{i = 1}^{k}{p_{s_i}}
$$

在 Keras中, 其实现如下:

from keras import backend as K
def earth_movers_distance(y_true, y_pred):
    cdf_true = K.cumsum(y_true, axis=-1)
    cdf_pred = K.cumsum(y_pred, axis=-1)
    emd = K.sqrt(K.mean(K.square(cdf_true - cdf_pred), axis=-1))
    return K.mean(emd)