Learning to Have an Ear for Face Super-Resolution

#575

summarized by : Teppei Kurita

Givi Meishvili, Simon Jenni, Paolo Favaro

極端な低解像度の顔の画像と、音声を入力として、高精細な顔の画像を生成するFirst Effort。普通に学習させると、2つの入力信号のモダリティのギャップが大きく、音声情報が上手く使われない。そこで両者の信号が共通の潜在表現にマッピングされるように個別のエンコーダで学習させる。

StyleGANの生成器を事前に訓練し固定をして、デコーダとして使用することを提案している。（StyleGANの生成器は中間表現の意味のある変動を良好に分離しながら、高解像度画像を生成できる）

既存データセットを使い実験的に音声が性別や年齢などの属性を回復させることに有用であることを示している。またモデルとして、画像と音声を因子とした表現を構築することで、異なる低解像度顔画像と音声を組み合わせて尤もらしい高解像度顔画像を生成できる。

問題設定がそもそも新しいという事に加え、手法も独自性が多い。音声から顔画像を生成するSpeech2Faceのグループの研究であり、その知見や実装をかなり利用している。ただこちらは完全に教師なしで学習している。

このページで利用されている画像は論文から引用しています．