#735
summarized by : Ryota Suzuki
Grounded Video Description

どんな論文か?

今の動画説明文生成はそれっぽいのを出すだけなので,部屋に自転車があったらgymだとしてしまったりする.ちゃんとした(Grounded;根拠のある)説明文生成のために,BoundingBoxと名詞をリンクした動画説明文データセットを作ってGroundingする機構をロスモジュール定義して実装した.
placeholder

新規性

問題設定とデータセット.BBox付きでの学習の枠組みの提案.

結果

作ったデータセットに対しMasked Transformerで比較すると,Blue@1で+0.7%,METEORで+0.4%.人間(人数不明?)の評価では,提案手法のほうがいい33.6%,同格38.9%,Masked Transformerのがいい27.5%

その他(なぜ通ったか?等)

問題設定とデータセット,というテンプレート感.実装重視感があっていいけど,そういう解決になるのか