Adversarial Representation Learning for Text-to-Image Matching

summarized by : Shintaro Yamamoto

Nikolaos Sarafianos, Xiang Xu, Ioannis A. Kakadiaris

どんな論文か？

Text-Imageマッチングの枠組みにおいて，敵対的学習を導入することによりモダリティに寄らない特徴表現の獲得を試みるという研究．また，言語特徴として事前学習モデルを用いることの効果の検証も行った．

新規性

入力された特徴量がテキストと画像どちらから得られたものかを判定するDiscriminatorを導入することで，テキストと画像のペアに対してモダリティに寄らない共通の特徴表現を実現した．また，従来研究の多くがLSTMを言語情報抽出に用いていたのに対して，学習済み言語モデルであるBERTが有効であることを示した．

結果

Text to image, image to textの検索タスクにおいてSOTAを更新．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．