Video Frame Interpolation With Transformer

#329

summarized by : Kensho Hara

Liying Lu; Ruizheng Wu; Huaijia Lin; Jiangbo Lu; Jiaya Jia

どんな論文か？

動画のフレーム補間にTransformerを導入した研究．従来手法はCNNを用いており局所的な畳み込み計算に依存しているため大きなモーションの扱いに課題があった．そこで広範囲の画素の相関を扱えるTransformerを導入してこの問題に対応．計算効率を向上させるためにU-Net likeな構造やWindow-baseな自己注意を採用．加えて異なるスケール間でも自己注意を計算する新たな機構を提案．

新規性

新たにTransformerを動画のフレーム補間に導入したことに加えて，異なるスケール間で自己注意を計算することでWindowの受容野の拡張を可能にした点．

結果

Vimeo90K, UCF101, Middleburry, SNU-FILMでPSNR/SSIMが向上．（Middleburryのみaverage interpolation errorが低下）

その他（なぜ通ったか？等）

"Video Frame Interpolation Transformer"というほぼ同タイトルの論文が同じCVPR2022に採択されている．内容的にも重複している点が多そう．

このページで利用されている画像は論文から引用しています．