Illustration2Vec: A Semantic Vector Representation of Illustrations

如今, 动漫早已成为年轻人文化生活的一部分。 对于做内容的互联网服务而言, 二次元也是抓住年轻人兴趣的一个很好的切入点。然而, 在信息如此泛滥的年代, 在海量的二次元资源中, 如何快速找到自己心宜的二次元漫画是一个很大的难题。来自日本东京大学的Masaki Saito作为一个动漫爱好者, 从学术的角度, 利用当前流行的深度学习方法提出了一些解决方案。论文《llustration2Vec: A Semantic Vector Representation of Illustrations》 揭示了与此相关的诸多细节。

在这篇文章中, Saito 探讨了如何对动漫图片进行语义embedding的问题, 从而使得基于海明距离的最近邻查找成为可能。基于此, 作者还推出了一个称之为语义变形(Semantic Mophing)的工具: 给定两张动漫图片作为Query, 系统返回从这两张图片内容和风格之间渐进变化的动漫图片。如下图所示:

谈起图片向量化, 一种很自然的想法是直接拿一个在ImageNet中训练好的模型, 取倒数第二层或者第三层的节点输出即可。这在Keras中非常容易实现, 只需要几行代码便可完成。Keras文档中给了一个例子:

1
2
3
4
5
6
7
8
9
10
base_model = VGG19(weights='imagenet')
model = Model(inputs=base_model.input, outputs=base_model.get_layer('block4_pool').output)

img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

block4_pool_features = model.predict(x)

当然还有更好的做法: 基于当前的数据集训练一个分类网络(在大部分情况, 基于ImageNet预训练模型做fine-tuning即可), 再取末层的全连接层或者feature map做为图片的embedding。

在这篇文章中, 作者基于一些动漫网站服务收集了1287596张图片。这些图片都有着丰富的标签信息,具体来说包括四个维度:

  • 代表一般内容属性的通用标签, 如weapon, smile
  • 版权标签, 如vocoloid
  • 人物标签,如hatsune miku
  • X分级标签,如safe, questionable, explicit

作者从前三个类别中各挑选了最热门的512个标签,加上X分级的3个, 一共得到1539个标签, 并由此训练一个多标签分类模型。模型的特征提取部分复用了VGG16(论文发表于2015年, 正是VGG风靡的时代),考虑到标签预测需要更多地关注图片的局部细节, 作者抛弃了VGG中的全连接层, 以NIN网络替换之。在最后, 拼接一个sigmoid以对每一个标签做概率预测。 损失函数采用交叉熵。网络结构及于VGG16的对比如下图示:

在评测环节中, 作者对比了该网络结构及预训练网络及VGG网络在各个分类下的MAP值, 如下图示。

其中,预训练网络使用VGG的最后一个FC层来做特征提取, 然后使用逻辑回归来对每个标签做二分类。可以看到, VGG + NIN的方法在各个类别下都有非常明显的提升。

作者也给出了部分具体图片的标签预测效果:

为了得到图片的二进制向量表示, 作者在以上多标签分类网络的基础上, 在最后一层输出之前, 再插入一个sigmoid层。 这可以看成是对特征图的输出值做了0到1范围内的压缩。这样一来, 要得到01向量, 只需要将sigmoid层的值做阈值为0.5的二值化即可。

基于海明距离的最近邻检索的效果如下:

还剩最后一个疑问, 图片的语义变形是怎么实现的呢? 很容易想到, 在向量空间中, 在两张query图片坐标之间的所有图片, 都可以看作是过渡图片。为了加快计算, 可以预先构造一个相似图:每张图片都可以看成图中的一个节点, 对于每个节点, 通过最近邻算法,找出其最相似的k张图片, 从而建立k条边。这样一来,对于任意的两张图片, 其中间的过渡图片即为其对应节点间最短路径上的节点。

项目地址: https://github.com/rezoo/illustration2vec

NIMA: Neural Image Assessment 强化学习中的策略梯度算法

Комментарии

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×