Learning Joint Visual Semantic Matching Embeddings for Language-guided Retrieval

#167

summarized by : Keisuke Kamahori

Yanbei Chen, Loris Bazzani

Language-guided image retrieval (画像検索結果に自然言語によるフィードバックを与え refine するタスク)において、マルチモーダルの情報を単一の空間に埋め込むことで、多様なタスクに対する柔軟性を持つモデルを提案した。

画像/テキストの埋め込みと、画像+修正テキストの合成を同じ空間上で行うことで、言語情報の有無や文章の文体に対して柔軟性があり、テキスト・画像マッチングなど他のタスクにも応用可能なモデルを設計した。また、そのための損失関数を新たに定義した。

ファッションに関する language-guided retrieval とテキスト・画像マッチングのベンチマークにおいて SOTA を達成した。

このページで利用されている画像は論文から引用しています．