Spatio-Temporal Graph for Video Captioning With Knowledge Distillation

#666

summarized by : Katsuyuki Nakamura

Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli, Juan Carlos Niebles

どんな論文か？

オブジェクトインタラクションを考慮したVideo captioning。2ブランチのネットワークで構成：(1)オブジェクトインタラクションの時間遷移をグラフコンボリューションによりエンコード、(2)シーン全体のグローバルコンテキストをエンコード。(1)で得た知識を蒸留してVideo captioningモデル全体を学習することがポイント。

新規性

オブジェクトインタラクションの時空間グラフ表現をVideo captioningに導入した点、これを用いたKnowledge distillationのメカニズムを確立した点。

結果

MSR-VTTにてBLEU@4 40.5, METEOR28.3。MSVDにてBLEU@4 52.2, METEOR36.9。

その他（なぜ通ったか？等）

類似論文として、オブジェクト情報を活用した「Object Relational Graph With Teacher-Recommended Learning for Video Captioning, CVPR2020」があるが、基本的に今回紹介した論文のほうが性能が低い（MSR-VTTで顕著な差がでている）。

このページで利用されている画像は論文から引用しています．