- …
- …
#666
summarized by : Katsuyuki Nakamura
どんな論文か?
オブジェクトインタラクションを考慮したVideo captioning。2ブランチのネットワークで構成:(1)オブジェクトインタラクションの時間遷移をグラフコンボリューションによりエンコード、(2)シーン全体のグローバルコンテキストをエンコード。(1)で得た知識を蒸留してVideo captioningモデル全体を学習することがポイント。
新規性
オブジェクトインタラクションの時空間グラフ表現をVideo captioningに導入した点、これを用いたKnowledge distillationのメカニズムを確立した点。
結果
MSR-VTTにてBLEU@4 40.5, METEOR28.3。MSVDにてBLEU@4 52.2, METEOR36.9。
その他(なぜ通ったか?等)
類似論文として、オブジェクト情報を活用した「Object Relational Graph With Teacher-Recommended Learning for Video Captioning, CVPR2020」があるが、基本的に今回紹介した論文のほうが性能が低い(MSR-VTTで顕著な差がでている)。
- …
- …