SwinBERT: End-to-End Transformers With Sparse Attention for Video Captioning

#115

summarized by : Tomoya Nitta

Kevin Lin; Linjie Li; Chung-Ching Lin; Faisal Ahmed; Zhe Gan; Zicheng Liu; Yumao Lu; Lijuan Wang

どんな論文か？

Video Captioningタスクの新しい手法であるSwinBERTを提案した。提案手法は既存手法のSOTAを上回った結果となった。video captioningの既存手法ではuniform samplingを用いてフレームのサンプリングを用いるのが主流であったが、提案手法ではdence samplingを用いて精度向上が得られた。

新規性

提案手法では動画エンコーダとキャプションデコーダをend to endで学習を行った。従来手法の場合ではキャプションデコーダのみのパラメータ更新を行なってた。また、キャプションデコーダに置いてSpaese Attention Maskを導入することで正則化を行なった。

結果

主要なデータセットであるMSVD、YouCook2、MSRVTT、TVC、VATEXに置いてCIDErのスコアがSOTAと比較して64.8、55.4、3.0、5.9、14.9ポイント上昇した。

その他（なぜ通ったか？等）

一部のデータセットで大幅なスコアの上昇があったからと考えられる。

このページで利用されている画像は論文から引用しています．