Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting

#98

summarized by : Kazuma_Asano

Yanhong Zeng, Jianlong Fu, Hongyang Chao, Baining Guo

どんな論文か？

　現在の画像補完手法は欠けているところにpatchでコピーするか，周囲のコンテキストから生成器で補完するが，視覚的・意味的情報が非常に要求されるということを無視している傾向がある．そこで本論文ではピラミッド構造のエンコーダ，マルチスケールデコーダ，アテンショントランスファーネットワークを取り入れたPEN-Netを提案し，上記の問題を解決し，よりハイクオリティな画像補完を提案した．

新規性

　PEN-Netは画像補完タスクにおいて，画像の見た目と特徴量レベルの両方で補完ができる初の手法である．コントリビューションは以下の通りである， 1.高次元空間から欠損部分周辺の近傍から類似度を学習できるATNを提案 2.ピラミッド構造のATNによりきめ細かいディテールの補完ができる

結果

　4つのデータセット（Facade, DTD, CELEBA-HQ, Places2）で4つの従来手法（PatchMatch, GL, CA, PConv）と提案手法を比較．評価軸のMS-SSIM, IS, FIDで従来の手法よりSOTA（L1 LossではPconvより悪い）．さらにInpainitngが苦手なメッシュ状の画像にも対応可能．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．