#61
summarized by : Yukitaka Tsuchiya
Learning Joint Spatial-Temporal Transformations for Video Inpainting

どんな論文か?

self-attention による全ての入力フレームの欠損部分を同時に埋めるビデオインペインティングの手法を提案した.
placeholder

新規性

Spatial-Temporal Transformer Network(STTN)を提案.マルチスケールパッチベースのattentionモジュールにより空間的・時間的次元に沿って全フレームからコヒーレントなコンテンツを探索し欠損部分を埋める.

結果

Youtube-VOS, DAVISデータセットを用いた.マスクが一定領域の場合と変化する場合の二種類で実験を行った. PSNR, SSIM, flow warping error, VFIDでの数値評価と主観評価を行った.

その他(なぜ通ったか?等)

GitHub:[https://github.com/researchmm/STTN], Demo:[https://www.youtube.com/watch?v=tgiWGdr1SnE&feature=youtu.be] デモ動画や発表スライドが挙げられているのはありがたい.githubではまだコードは公開されていない.