#1
summarized by : Shintaro Yamamoto
Adversarial Representation Learning for Text-to-Image Matching

どんな論文か?

Text-Imageマッチングの枠組みにおいて,敵対的学習を導入することによりモダリティに寄らない特徴表現の獲得を試みるという研究.また,言語特徴として事前学習モデルを用いることの効果の検証も行った.
placeholder

新規性

入力された特徴量がテキストと画像どちらから得られたものかを判定するDiscriminatorを導入することで,テキストと画像のペアに対してモダリティに寄らない共通の特徴表現を実現した.また,従来研究の多くがLSTMを言語情報抽出に用いていたのに対して,学習済み言語モデルであるBERTが有効であることを示した.

結果

Text to image, image to textの検索タスクにおいてSOTAを更新.

その他(なぜ通ったか?等)