#77
summarized by : Kensho Hara
SSAN: Separable Self-Attention Network for Video Representation Learning

どんな論文か?

動画を対象としたCNNに自己注意機構を導入するにあたって従来手法 (Non-local Neural Networks) では時間方向と空間方向で同時に相関を計算しているが,時間と空間の相関ではコンテキストが違うのでそれぞれ分けて相関を計算しましょう,という論文.
placeholder

新規性

空間と時間に分けた自己注意機構であるSeparable self-attention module (SSA) の提案.

結果

従来のNon-localよりSSAの方が高い性能がでることを確認.Something-SomethingとKineticsでのAction RecognitionでSOTA超え.MSR-VTTとYoucook2でのVideo RetrievalでもSOTA超え.ただ,載せているSOTAが恣意的に見えるが...? (例えばKinetics-400だとSlowFastはSSAよりももっと高い精度)

その他(なぜ通ったか?等)

最近流行りの様々なVideo Transformerでも同様に,空間と時間を分けたSelf-attentionが提案されていて,本論文はそれよりも前にCNNベースへの導入という形でSeparable Self-attentionが提案している.ただarXivに上がったのが5月末ということもあり,目立ちそうなVideo Transformer論文から引用されておらず影が薄くなりそうなのが...