#513
summarized by : 角田良太朗
Towards an End-to-End Framework for Flow-Guided Video Inpainting

どんな論文か?

従来のvideo inpaintingはflow+propagation+inpaintを独立にpixel spaceで実行する。これが精度および速度のボトルネックになっていると指摘し、feature spaceでend-to-endにinpaintを実行する。
placeholder

新規性

flowは軽量なspynetをpretrainして使用。RGB画像から求めたflowをencoded featureに適用し、bidirectionalにワープ結果をまとめて、最後にfocal transformerでfeatureをinpaintした後にdecodeする。

結果

YouTube-VOSおよびDAVISを用いて既存手法と比較し、種々の評価指標およびユーザースタディで優位性を実証。

その他(なぜ通ったか?等)

bidirectionalなマージ部分でglobalおよびlocalな特徴量をマージしているが、実装を見るとここのマージはCNNのブロックを通すのみで説明性が低いのが気になる。結果的には高精度なので気にしなければそれでいいのかもしれないが。 https://github.com/MCG-NKU/E2FGVI