咋用Word2vec特征表示在图像识别与检索

用word embedding做检索这方面工作已经有了。参考Unifying Visual-Semantic Embeddings withMultimodal Neural Language Models http://www.cs.toronto.edu/~zemel/documents/vis-sem-nipsDL.pdf 看它5.1节的Figure 4。还是把图贴出来吧(据说贴图能涨关注度): 【咋用Word2vec特征表示在图像识别与检索】 咋用Word2vec特征表示在图像识别与检索

可以看到,在Ruslan Salakhutdinov的这篇paper里,图片和文字可以做A-B+D=C这样的组合检索。不过它并没有用word2vec这种模型。如果采用word2vec这种word embedding模型,也可以做类似的事情,比如:r(图像A) - r(图像B) + r(图像D) = r(图像C),这里的 r(图像) 是指利用word2vec对图像得到一个表示(representation/embedding)。具体来说,word2vec其实就是针对“word与word”之间的co-occurrence矩阵做降维或者叫embedding,甚至也可以用在word与doc中,只要能够构造一个co-occurrence矩阵。题目中说“word2vec特征表示在图像识别与检索”,首先要对图像做处理使得它能够构成co-occurrence矩阵。可以采用这个简单的方法:给定一堆images,对image使用CV中常用的Bag of words表示(你要是不懂这个,可以追问),如此一来,则image就可以用一组Bag of word替代,于是 “image与word" 之间就天然存在一个co-occurrence矩阵,此时就可以用word2vec对image做表示。一般来说,数据集选择得好的话,在图像中也可以得到A-B=C-D这种性质哦。得到表示之后,你想做检索就可以直接基于这个表示。


    推荐阅读