Hierarchical Modular Network for Video Captioning

#364

summarized by : QIUYUE

Hanhua Ye; Guorong Li; Yuankai Qi; Shuhui Wang; Qingming Huang; Ming-Hsuan Yang

どんな論文か？

既存のVideo Captioningの手法は主に単語ごとに生成センテンスの評価を行う。そのため、センテンスの意味情報をうまく学習できない傾向がある。上記の問題点から物体レベル、動作レベル、センテンスレベルの3つから特徴のアラインメントを行う手法を提案。提案手法が有効的にセンテンス内の階層的な意味情報を学習可能。

新規性

Video Captioningタスクのキャプションセンテンスを単語ごとのみではなく、センテンスをEntity Level（Captionの中の物体）、Predicate Level(Captionの中の動作)、Sentence Level（センテンスのグローバル的な情報）の3つの階層で特徴表現を得る新たなTransformerベースな手法を提案。

結果

既存の2つのBenchmarkデータセットMSVDとMSR-VTTにおいてSOTAな精度を達成。

その他（なぜ通ったか？等）

論文でやっていることはStraightforwardでシンプルでわかりやすかった。

このページで利用されている画像は論文から引用しています．