#518
summarized by : 鈴木共生
3D Shape Variational Autoencoder Latent Disentanglement via Mini-Batch Feature Swapping for Bodies and Faces

どんな論文か?

VAEで3D顔の再構成を行うことで,圧縮された潜在表現を獲得することが可能である.しかし,従来のVAEベースの手法では潜在表現が顔パーツに対応していないため,一部潜在表現を変化させた場合,顔全体が変動していまい制御できなかった.提案法では,潜在表現の各要素を各顔パーツの変動に対応させることで,パーツ制御可能なモデルを構築した.
placeholder

新規性

提案法の新規性は画像のとおり.画像左のようにバッチの作成方法を工夫した.対角成分を別の顔として,行成分には特定のパーツ(画像では鼻)以外を変更したもの.列成分は特定のパーツのみ変更したものにする.学習では行成分では鼻の潜在表現のみが変動するように,列成分では鼻の潜在表現が変動しないようにするロスを導入した.これにより,潜在表現と顔パーツが対応するので,制御可能になる.

結果

顔メッシュデータ(UHM,STAR)において再構成誤差を評価.従来のVAEと比較して性能劣化がなく,パーツ制御可能であることも視覚的に示した.

その他(なぜ通ったか?等)

これまでのVAE手法では,顔のパーツ制御を正しく行えないという問題を明らかにしたこと.また,バッチ作成を工夫するというアプローチで解決可能であることを示したため.