Grounded Video Description

#735

summarized by : Ryota Suzuki

Luowei Zhou, Yannis Kalantidis, Xinlei Chen, Jason J. Corso, Marcus Rohrbach

今の動画説明文生成はそれっぽいのを出すだけなので，部屋に自転車があったらgymだとしてしまったりする．ちゃんとした(Grounded；根拠のある)説明文生成のために，BoundingBoxと名詞をリンクした動画説明文データセットを作ってGroundingする機構をロスモジュール定義して実装した．

問題設定とデータセット．BBox付きでの学習の枠組みの提案．

作ったデータセットに対しMasked Transformerで比較すると，Blue@1で+0.7%，METEORで+0.4%．人間（人数不明？）の評価では，提案手法のほうがいい33.6%，同格38.9%，Masked Transformerのがいい27.5%

問題設定とデータセット，というテンプレート感．実装重視感があっていいけど，そういう解決になるのか

このページで利用されている画像は論文から引用しています．