Video Frame Interpolation Transformer

#328

summarized by : Kensho Hara

Zhihao Shi; Xiangyu Xu; Xiaohong Liu; Jun Chen; Ming-Hsuan Yang

どんな論文か？

Transformerを動画フレーム補間に応用した論文．従来のフレーム補間手法はCNNを利用しており入力に依存しない畳み込みカーネルの重みや受容野の範囲といった点に課題があった．そこでTransformerを導入することでこれらの問題を解決しフレーム補間の性能を向上させる手法であるVFITを提案．計算効率を上げるために局所的な自己注意や時空間を分割する自己注意の計算も導入．

新規性

フレーム補間へのTransformerの導入および局所的な自己注意や時空間を分割した自己注意の計算により効率的な処理を実現した点．

結果

Vimeo-90K, UCF-101, DAVISでの実験で従来手法よりも高いPSNR, SSIMを達成．計算速度も1フレームあたりVFIT-Sで0.08秒，VFIT-Bで0.14秒とCNNベースの手法に匹敵．

その他（なぜ通ったか？等）

新規性がSwin TransformerやTimeSformer/ViViTなど従来の画像・動画認識で既存の話に見えるのがやや気になるもののフレーム補間への応用という点が評価されている？GitHubリンク: https://github.com/zhshi0816/ Video-Frame-Interpolation-Transformer

このページで利用されている画像は論文から引用しています．