#303
summarized by : 近藤 佑樹 (Yuki Kondo)
BlobGAN: Spatially Disentangled Scene Representations

どんな論文か?

解析と合成のためのシーンモデリングにおいて,楕円形Blobの中間レベル表現を教師無しで実現する手法を提案.オブジェクトの位置や大きさの情報がもつれがほどかれた状態での表現を可能とした.この表現により,高品質かつ直感的なインターフェースを提供する.
placeholder

新規性

従来の多くの高品質・高機能な画像編集手法は教師データを必要としていた.これに対し,提案手法では中間表現としてピクセルレベルでも画像レベルでもない中間レベルの楕円形Blobでの表現制約を付与することで,教師無しでの特定のクラスに依存しない表現を獲得した.そして楕円形Blobは2D上で表現されるため,オブジェクトのスタイルおよび構造と位置,大きさのDisentanglementを促進する.

結果

寝室やキッチンなどのシーンにおいて,各オブジェクトのBlob表現を獲得し,定性的に高品質な画像生成・編集を実現.また定量的にもStyleGANv2と同程度またはより優れた知覚的品質の評価結果が得られ,Blobとオブジェクトクラスの相関評価からもDisentanglementに成功したことが確認された.

その他(なぜ通ったか?等)

シンプルな手法で,NeRFやCLIPを用いたV&Lへの拡張も期待できる. プロジェクトページ:https://dave.ml/Blobgan/ コード:https://github.com/dave-epstein/Blobgan