#29
summarized by : Seitaro Shinagawa
Image Search With Text Feedback by Visiolinguistic Attention Learning

どんな論文か?

検索して得られた画像に対し、入力テキストに応じて検索結果を変更するための手法であるVisiolinguistic Attention Learning (VAL) frameworkを提案した。
placeholder

新規性

検索に用いる画像特徴を入力テキストに合った画像特徴に変換する上で、変更したい領域の特徴のみを入力テキストに応じて編集し、変更したくない領域の特徴は保持するcomposite transformerを提案した点。また、画像特徴の変換をCNNの内部で段階的に行うことで、R-CNNのような学習済みモデルに比べて、よりタスクに合ったモデルを学習できるようにした点。

結果

Recall at rank k (R@k)の評価指標に基づき、Fashion200k, Shoes, FashionIQデータセット全てで既存手法を上回った。Word embeddingの初期化としてGloVeを用いるとさらに良好な結果となる傾向があることを示した。

その他(なぜ通ったか?等)

3つのタスク全てで既存手法にくらべ著しい精度向上があった点、またAblation studyをきちんと行っている点が評価されたと思われる。