- …
- …
#364
summarized by : QIUYUE
どんな論文か?
既存のVideo Captioningの手法は主に単語ごとに生成センテンスの評価を行う。そのため、センテンスの意味情報をうまく学習できない傾向がある。上記の問題点から物体レベル、動作レベル、センテンスレベルの3つから特徴のアラインメントを行う手法を提案。提案手法が有効的にセンテンス内の階層的な意味情報を学習可能。
新規性
Video Captioningタスクのキャプションセンテンスを単語ごとのみではなく、センテンスをEntity Level(Captionの中の物体)、Predicate Level(Captionの中の動作)、Sentence Level(センテンスのグローバル的な情報)の3つの階層で特徴表現を得る新たなTransformerベースな手法を提案。
結果
既存の2つのBenchmarkデータセットMSVDとMSR-VTTにおいてSOTAな精度を達成。
その他(なぜ通ったか?等)
論文でやっていることはStraightforwardでシンプルでわかりやすかった。
- …
- …