#713
summarized by : Yue Qiu
Object Relational Graph With Teacher-Recommended Learning for Video Captioning

どんな論文か?

従来のVideo Captioning手法では①物体間のInteraction関係をうまくRepresentできない;②CaptioningデータセットのVocabularyはLong-tail分布のため,生成CaptioningのVocabularyがRichではない;の問題がある.提案手法がGraph CNを用いてObject間の関係を学習し、外部言語モデルによりRicherな言語情報を学習.
placeholder

新規性

①Video CaptioningデータセットのVocabularyのLong-tailに着目し、External Language Modelを用いることでより豊かな言語情報を学習可能にした.②ビデオフレーム内の物体、各ビデオフレーム間の物体関係をGraph CNにより学習可能にした.

結果

①3つのBenchmarkデータセットMSVD,MSR-VTT,VATEXでSOTAな精度を達成;②Visualization実験の結果により,提案手法が既存手法よりRicherなCaptioningを生成できことを示した.

その他(なぜ通ったか?等)

Video captioningデータセットで言語側Vocabulary的にLong-tailが従来の存在し、その問題への対応があまり検討されてこなかった.この文章でLong-tail問題をある程度対応できる.