#115
summarized by : Tomoya Nitta
SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

どんな論文か?

Video Captioningタスクの新しい手法であるSwinBERTを提案した。提案手法は既存手法のSOTAを上回った結果となった。video captioningの既存手法ではuniform samplingを用いてフレームのサンプリングを用いるのが主流であったが、提案手法ではdence samplingを用いて精度向上が得られた。
placeholder

新規性

提案手法では動画エンコーダとキャプションデコーダをend to endで学習を行った。従来手法の場合ではキャプションデコーダのみのパラメータ更新を行なってた。また、キャプションデコーダに置いてSpaese Attention Maskを導入することで正則化を行なった。

結果

主要なデータセットであるMSVD、YouCook2、MSRVTT、TVC、VATEXに置いてCIDErのスコアがSOTAと比較して64.8、55.4、3.0、5.9、14.9ポイント上昇した。

その他(なぜ通ったか?等)

一部のデータセットで大幅なスコアの上昇があったからと考えられる。