#575
summarized by : 角田良太朗
Learning Trajectory-Aware Transformer for Video Super-Resolution

どんな論文か?

ビデオ超解像にTransformerを使うと計算量が重い問題に対し、各フレームから各画素の移動先の画素のみ取り出してattentionを計算することにより大幅に計算量を削減する。
placeholder

新規性

フレーム間のflowは学習済みSpyNetを使用。またflowの計算結果を複数フレームに渡って全て保持する必要があるため、これをワープ先座標を成分に持つ行列の族として保持することで効率よくテンソルの形で扱えるようにしている。

結果

上記の効率化によりrecurrentな手法でも勾配消失の問題が顕現することなく長距離依存性を捉えられることを、既存手法との比較により実証している。特に定性的にテクスチャ保持度が高い。

その他(なぜ通ったか?等)

https://github.com/researchmm/TTVSR