#364
summarized by : QIUYUE
Hierarchical Modular Network for Video Captioning

どんな論文か?

既存のVideo Captioningの手法は主に単語ごとに生成センテンスの評価を行う。そのため、センテンスの意味情報をうまく学習できない傾向がある。上記の問題点から物体レベル、動作レベル、センテンスレベルの3つから特徴のアラインメントを行う手法を提案。提案手法が有効的にセンテンス内の階層的な意味情報を学習可能。
placeholder

新規性

Video Captioningタスクのキャプションセンテンスを単語ごとのみではなく、センテンスをEntity Level(Captionの中の物体)、Predicate Level(Captionの中の動作)、Sentence Level(センテンスのグローバル的な情報)の3つの階層で特徴表現を得る新たなTransformerベースな手法を提案。

結果

既存の2つのBenchmarkデータセットMSVDとMSR-VTTにおいてSOTAな精度を達成。

その他(なぜ通ったか?等)

論文でやっていることはStraightforwardでシンプルでわかりやすかった。