- …
- …
#713
summarized by : Yue Qiu
どんな論文か?
従来のVideo Captioning手法では①物体間のInteraction関係をうまくRepresentできない;②CaptioningデータセットのVocabularyはLong-tail分布のため,生成CaptioningのVocabularyがRichではない;の問題がある.提案手法がGraph CNを用いてObject間の関係を学習し、外部言語モデルによりRicherな言語情報を学習.
新規性
①Video CaptioningデータセットのVocabularyのLong-tailに着目し、External Language Modelを用いることでより豊かな言語情報を学習可能にした.②ビデオフレーム内の物体、各ビデオフレーム間の物体関係をGraph CNにより学習可能にした.
結果
①3つのBenchmarkデータセットMSVD,MSR-VTT,VATEXでSOTAな精度を達成;②Visualization実験の結果により,提案手法が既存手法よりRicherなCaptioningを生成できことを示した.
その他(なぜ通ったか?等)
Video captioningデータセットで言語側Vocabulary的にLong-tailが従来の存在し、その問題への対応があまり検討されてこなかった.この文章でLong-tail問題をある程度対応できる.
- …
- …