StEP: Style-Based Encoder Pre-Training for Multi-Modal Image Synthesis

#580

summarized by : Shoma Iwai

Moustafa Meshry, Yixuan Ren, Larry S. Davis, Abhinav Shrivastava

どんな論文か？

線画→画像のような画像のドメイン変換で，一対多の変換が可能な手法を提案．既存手法はVAEとGANのロスを組み合わせており，学習が複雑になっていることを指摘．そこで，エンコーダとデコーダを個別に学習する方法を提案した．エンコーダを単体で学習させるために距離学習を使用している．デコーダはエンコーダを固定して学習させる．最後に両者をファインチューニングする．シンプルな学習が可能なだけでなく，性能も高い．

新規性

- エンコーダを単体で学習させる方法を提案．このエンコーダが学習した埋め込み表現が一対多の変換に有効であることを示した - 提案手法のエンコーダはターゲットのドメインに依存せず適用可能 - 一対多のドメイン変換におけるロス関数の重要性について議論を行った - テスト時の潜在空間からのサンプリングについて，VAEのように事前分布を強制しない方法を提案 - 6つのベンチマークでSOTAを達成

結果

- 線画→画像，夜→昼，地図→画像などの6種類のベンチマークについて，PSNR，LPIPSの評価で既存手法を上回った - User Studyでも提案手法の方が高い評価となり，主観的にも高性能であることを確認した

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．