- …
- …
#167
summarized by : Keisuke Kamahori
どんな論文か?
Language-guided image retrieval (画像検索結果に自然言語によるフィードバックを与え refine するタスク)において、マルチモーダルの情報を単一の空間に埋め込むことで、多様なタスクに対する柔軟性を持つモデルを提案した。
新規性
画像/テキストの埋め込みと、画像+修正テキストの合成を同じ空間上で行うことで、言語情報の有無や文章の文体に対して柔軟性があり、テキスト・画像マッチングなど他のタスクにも応用可能なモデルを設計した。また、そのための損失関数を新たに定義した。
結果
ファッションに関する language-guided retrieval とテキスト・画像マッチングのベンチマークにおいて SOTA を達成した。
その他(なぜ通ったか?等)
- …
- …