Mode Seeking Generative Adversarial Networks for Diverse Image Synthesis

#43

summarized by : Kazuma_Asano

Qi Mao, Hsin-Ying Lee, Hung-Yu Tseng, Siwei Ma, Ming-Hsuan Yang

どんな論文か？

タイトル通り，cGANのモード崩壊（同じ画像ばかり生成される問題）を解決し，多様性を持たせることを目的としたMSGANを提案． 1.モード崩壊に対処するために，シンプルかつ従来のネットワークにも拡張可能なモード探索正則化手法を提案 2.提案手法の正則化が有効なことを条件付き生成タスクを解かせることで証明 3.提案手法が従来のモデルに対してもクオリティの劣化なく多様性を持たせることができることを実演

新規性

　モード崩壊が発生したとき，潜在ベクトルz1とz2に関して、2つの潜在ベクトル間の距離が減少すると，それらのマッピングされた画像1と画像2との間の距離は不均衡な割合で短くなる．そこで，潜在ベクトルz1とz2の距離 dz ，生成画像I1とI2の距離dIとしたとき dzとdIの比率を保つように学習することでモード崩壊を起こさないというモチベーション．

結果

　FIDで生成画像のクオリティを評価，LPIPSで生成画像がどのくらい多様性を持っているかを評価，NDBとJSBで実画像と生成画像の距離を測定．条件付き画像生成，Image2Image, Text2Imageの3つのタスクにおいて従来手法と比較し，有効性を評価．

その他（なぜ通ったか？等）

　従来まではモード崩壊に対処するため，ModeGANやVEEGANは生成する画像と入力ノイズとの間に制約を与えるエンコーダが導入されている．これらはそれぞれのタスク特有のネットワークと目的関数を必要があるが，提案手法は非常にシンプルながら様々なタスクやネットワークに利用でき，汎用性が高い．

このページで利用されている画像は論文から引用しています．