Towards an End-to-End Framework for Flow-Guided Video Inpainting

#513

summarized by : 角田良太朗

Zhen Li; Cheng-Ze Lu; Jianhua Qin; Chun-Le Guo; Ming-Ming Cheng

どんな論文か？

従来のvideo inpaintingはflow+propagation+inpaintを独立にpixel spaceで実行する。これが精度および速度のボトルネックになっていると指摘し、feature spaceでend-to-endにinpaintを実行する。

新規性

flowは軽量なspynetをpretrainして使用。RGB画像から求めたflowをencoded featureに適用し、bidirectionalにワープ結果をまとめて、最後にfocal transformerでfeatureをinpaintした後にdecodeする。

結果

YouTube-VOSおよびDAVISを用いて既存手法と比較し、種々の評価指標およびユーザースタディで優位性を実証。

その他（なぜ通ったか？等）

bidirectionalなマージ部分でglobalおよびlocalな特徴量をマージしているが、実装を見るとここのマージはCNNのブロックを通すのみで説明性が低いのが気になる。結果的には高精度なので気にしなければそれでいいのかもしれないが。 https://github.com/MCG-NKU/E2FGVI

このページで利用されている画像は論文から引用しています．