Illustration2Vec: A Semantic Vector Representation of Illustrations

Jan 10 2019 8 minutes de lectura (Alrededor de 1246 palabras)

如今，动漫早已成为年轻人文化生活的一部分。对于做内容的互联网服务而言，二次元也是抓住年轻人兴趣的一个很好的切入点。然而，在信息如此泛滥的年代，在海量的二次元资源中，如何快速找到自己心宜的二次元漫画是一个很大的难题。来自日本东京大学的Masaki Saito作为一个动漫爱好者，从学术的角度，利用当前流行的深度学习方法提出了一些解决方案。论文《llustration2Vec: A Semantic Vector Representation of Illustrations》揭示了与此相关的诸多细节。

在这篇文章中， Saito 探讨了如何对动漫图片进行语义embedding的问题，从而使得基于海明距离的最近邻查找成为可能。基于此，作者还推出了一个称之为语义变形(Semantic Mophing)的工具: 给定两张动漫图片作为Query, 系统返回从这两张图片内容和风格之间渐进变化的动漫图片。如下图所示:

谈起图片向量化，一种很自然的想法是直接拿一个在ImageNet中训练好的模型，取倒数第二层或者第三层的节点输出即可。这在Keras中非常容易实现，只需要几行代码便可完成。Keras文档中给了一个例子:

base_model = VGG19(weights='imagenet')
model = Model(inputs=base_model.input, outputs=base_model.get_layer('block4_pool').output)

img_path = 'elephant.jpg'
img = image.load_img(img_path, target_size=(224, 224))
x = image.img_to_array(img)
x = np.expand_dims(x, axis=0)
x = preprocess_input(x)

block4_pool_features = model.predict(x)

当然还有更好的做法: 基于当前的数据集训练一个分类网络（在大部分情况，基于ImageNet预训练模型做fine-tuning即可），再取末层的全连接层或者feature map做为图片的embedding。

在这篇文章中，作者基于一些动漫网站服务收集了1287596张图片。这些图片都有着丰富的标签信息，具体来说包括四个维度：

代表一般内容属性的通用标签，如weapon, smile。
版权标签, 如vocoloid。
人物标签，如hatsune miku。
X分级标签，如safe, questionable, explicit。

作者从前三个类别中各挑选了最热门的512个标签，加上X分级的3个，一共得到1539个标签，并由此训练一个多标签分类模型。模型的特征提取部分复用了VGG16(论文发表于2015年，正是VGG风靡的时代)，考虑到标签预测需要更多地关注图片的局部细节，作者抛弃了VGG中的全连接层，以NIN网络替换之。在最后，拼接一个sigmoid以对每一个标签做概率预测。损失函数采用交叉熵。网络结构及于VGG16的对比如下图示:

在评测环节中，作者对比了该网络结构及预训练网络及VGG网络在各个分类下的MAP值，如下图示。

其中，预训练网络使用VGG的最后一个FC层来做特征提取，然后使用逻辑回归来对每个标签做二分类。可以看到， VGG + NIN的方法在各个类别下都有非常明显的提升。

作者也给出了部分具体图片的标签预测效果:

为了得到图片的二进制向量表示，作者在以上多标签分类网络的基础上，在最后一层输出之前，再插入一个sigmoid层。这可以看成是对特征图的输出值做了0到1范围内的压缩。这样一来，要得到01向量，只需要将sigmoid层的值做阈值为0.5的二值化即可。

基于海明距离的最近邻检索的效果如下:

还剩最后一个疑问，图片的语义变形是怎么实现的呢？很容易想到，在向量空间中，在两张query图片坐标之间的所有图片，都可以看作是过渡图片。为了加快计算，可以预先构造一个相似图：每张图片都可以看成图中的一个节点，对于每个节点，通过最近邻算法，找出其最相似的k张图片，从而建立k条边。这样一来，对于任意的两张图片，其中间的过渡图片即为其对应节点间最短路径上的节点。

项目地址: https://github.com/rezoo/illustration2vec

Illustration2Vec: A Semantic Vector Representation of Illustrations

Комментарии

Your browser is out-of-date!