#666
summarized by : Katsuyuki Nakamura
Spatio-Temporal Graph for Video Captioning With Knowledge Distillation

どんな論文か?

オブジェクトインタラクションを考慮したVideo captioning。2ブランチのネットワークで構成:(1)オブジェクトインタラクションの時間遷移をグラフコンボリューションによりエンコード、(2)シーン全体のグローバルコンテキストをエンコード。(1)で得た知識を蒸留してVideo captioningモデル全体を学習することがポイント。
placeholder

新規性

オブジェクトインタラクションの時空間グラフ表現をVideo captioningに導入した点、これを用いたKnowledge distillationのメカニズムを確立した点。

結果

MSR-VTTにてBLEU@4 40.5, METEOR28.3。MSVDにてBLEU@4 52.2, METEOR36.9。

その他(なぜ通ったか?等)

類似論文として、オブジェクト情報を活用した「Object Relational Graph With Teacher-Recommended Learning for Video Captioning, CVPR2020」があるが、基本的に今回紹介した論文のほうが性能が低い(MSR-VTTで顕著な差がでている)。