Object Relational Graph With Teacher-Recommended Learning for Video Captioning

#713

summarized by : Yue Qiu

Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu, Zheng-Jun Zha

どんな論文か？

従来のVideo Captioning手法では①物体間のInteraction関係をうまくRepresentできない；②CaptioningデータセットのVocabularyはLong-tail分布のため，生成CaptioningのVocabularyがRichではない；の問題がある．提案手法がGraph CNを用いてObject間の関係を学習し、外部言語モデルによりRicherな言語情報を学習．

新規性

①Video CaptioningデータセットのVocabularyのLong-tailに着目し、External Language Modelを用いることでより豊かな言語情報を学習可能にした．②ビデオフレーム内の物体、各ビデオフレーム間の物体関係をGraph CNにより学習可能にした．

結果

①3つのBenchmarkデータセットMSVD,MSR-VTT,VATEXでSOTAな精度を達成；②Visualization実験の結果により，提案手法が既存手法よりRicherなCaptioningを生成できことを示した．

その他（なぜ通ったか？等）

Video captioningデータセットで言語側Vocabulary的にLong-tailが従来の存在し、その問題への対応があまり検討されてこなかった．この文章でLong-tail問題をある程度対応できる．

このページで利用されている画像は論文から引用しています．