Composing Text and Image for Image Retrieval

#172

summarized by : Ryota Suzuki

Composing Text and Image for Image Retrieval - an Empirical Odyssey

Nam Vo, Lu Jiang, Chen Sun, Kevin Murphy, Li-Jia Li, Li Fei-Fei, James Hays

どんな論文か？

画像検索で，入力を「画像」＋「それを修正するような文言」（例：エッフェル塔画像＋「No people」）とするタスクを提案．実現のために画像と文字情報を結合するText Image Residual Gatingを提案．ゲートと残差の項を学習可能な重みで結合する．Deep Metric Learningも添えて．

新規性

提案タスクがとにかく新しいし，画像検索としてはだれでもやりたくなるクエリ．

結果

Fashion200kで精度15.2 (+0.4)，CLEVRによる3D->3Dで検索パフォーマンス73.7 (+7.9)，2D->3Dで46.6 (+2.9)．（2位手法との比較）

その他（なぜ通ったか？等）

Google AI lab. この論文でも採用されているCLEVRデータセットは強い…！

このページで利用されている画像は論文から引用しています．