#167
summarized by : Keisuke Kamahori
Learning Joint Visual Semantic Matching Embeddings for Language-guided Retrieval

どんな論文か?

Language-guided image retrieval (画像検索結果に自然言語によるフィードバックを与え refine するタスク)において、マルチモーダルの情報を単一の空間に埋め込むことで、多様なタスクに対する柔軟性を持つモデルを提案した。
placeholder

新規性

画像/テキストの埋め込みと、画像+修正テキストの合成を同じ空間上で行うことで、言語情報の有無や文章の文体に対して柔軟性があり、テキスト・画像マッチングなど他のタスクにも応用可能なモデルを設計した。また、そのための損失関数を新たに定義した。

結果

ファッションに関する language-guided retrieval とテキスト・画像マッチングのベンチマークにおいて SOTA を達成した。

その他(なぜ通ったか?等)