Fashion Editing With Adversarial Parsing Learning

#40

summarized by : Seitaro Shinagawa

Haoye Dong, Xiaodan Liang, Yixuan Zhang, Xujie Zhang, Xiaohui Shen, Zhenyu Xie, Bowen Wu, Jian Yin

どんな論文か？

人の手描きによるファッション画像編集をより高精度で行う手法の提案。従来のin-paintingベースによる生成処理にsemantic mapの予測を挟み、2段階で生成を行う。また、upsamplingの段階でも編集部分に注意して生成を行わせるためにAttention Normalization Layerを提案することでより高精度な画像編集を実現した。

新規性

ユーザの手描きのスケッチ（ストローク、色）はスパースな情報のため情報が潰れがちという問題に対して、直接end-to-endで画像生成するのではなく、semantic segmentation mapを経由して生成する方法を提案した点と目標画像を生成する段階でも、元のスケッチ情報をより考慮するため、Attention Normalization Layerを提案した点が新しい。

結果

DeepFashion, MPV, 独自に新しく作成したFashionEの3つのデータセットで比較した。客観評価ではPSNR、SSIM、FID全ての指標で提案手法が既存手法を上回った。主観評価では既存手法ごとに生成画像の1対比較を行い、「どちらがより本物に近い画像か」という点で3つの全てのデータセットにおいて全ての既存手法を上回った。

その他（なぜ通ったか？等）

既存手法からの改善が著しい点が評価された点とAblation studyをきちんと行っている点が評価されたと思われる。Parsingのsegmentationは人手で作成されたものと記載されていたが、具体的な入手経路の記載がないように見受けられる(見つけた方はご連絡いただけると幸いです)

このページで利用されている画像は論文から引用しています．