ManiGAN: Text-Guided Image Manipulation

#409

summarized by : 綱島秀樹

Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, Philip H.S. Torr

どんな論文か？

テキストを用いた画像編集において、画像とテキストで変更すべき箇所を選択するAffine Combination Module (ACM) と誤ったテキストによる変更箇所の修正と欠落した情報を補完するDetail Correction Module (DCM) を提案、導入したManiGANを提案した。

新規性

・テキストによる画像編集の自然さが定量的にも定性的にもSOTA ・COCOでかなり自然な画像編集を可能とした点

結果

・Inception Score, text-image similarity, L1 pixel difference, manipulative precisionにおいてSOTA。ただしモジュールによって得意不得意がある模様・定性的にも最もテキスト情報を表しており、欠落情報も最も少ない

その他（なぜ通ったか？等）

定性的にかなり綺麗な上、COCOでうまく画像編集が行えることを示した点が非常に大きいのではないかと考えられる。

このページで利用されている画像は論文から引用しています．