#19
summarized by : Seitaro Shinagawa
Cross-Modal Contrastive Learning for Text-to-Image Generation

どんな論文か?

説明文テキストからの画像生成を行う課題において、生成画像生成の綺麗さに対応する評価尺度である忠実度(Fidelity)を上げる方法として、Contrastive learningによる新しい方法XMC-GANを提案。
placeholder

新規性

次の3種類の関係についてのContrastive lossを導入した:(1) 画像と説明文、(2) 同じ説明文を持つ生成画像と本物画像、 (3) 画像の物体矩形と単語。(3)はAttnGANのDAMSM lossとかなり近いが、他にも(1)や(2)を同時に使う点が新しい。

結果

生成画像の評価尺度であるFIDが大きく減少し、LN-COCOデータセットでの比較ではFIDが14.12となった(実画像は8.01で、AttnGANは51.80)。Contrastive lossの計算での画像特徴量の抽出にはVGGとDiscriminatorを組合わせると良く、Ablation studyではConstrastive lossとVGGを組合わせるかどうかで性能が大きく異なると報告

その他(なぜ通ったか?等)

著者による解説記事:https://ai.googleblog.com/2021/05/cross-modal-contrastive-learning-for.html / 提案手法はテキストのEncoderに事前学習済みBERTを使っているので、これも性能に寄与していそう。Contrastive learningの有効性CLIPでも示されているので、重要であることが示唆される