- …
- …
#115
summarized by : Tomoya Nitta
どんな論文か?
Video Captioningタスクの新しい手法であるSwinBERTを提案した。提案手法は既存手法のSOTAを上回った結果となった。video captioningの既存手法ではuniform samplingを用いてフレームのサンプリングを用いるのが主流であったが、提案手法ではdence samplingを用いて精度向上が得られた。
新規性
提案手法では動画エンコーダとキャプションデコーダをend to endで学習を行った。従来手法の場合ではキャプションデコーダのみのパラメータ更新を行なってた。また、キャプションデコーダに置いてSpaese Attention Maskを導入することで正則化を行なった。
結果
主要なデータセットであるMSVD、YouCook2、MSRVTT、TVC、VATEXに置いてCIDErのスコアがSOTAと比較して64.8、55.4、3.0、5.9、14.9ポイント上昇した。
その他(なぜ通ったか?等)
一部のデータセットで大幅なスコアの上昇があったからと考えられる。
- …
- …