- …
- …
#735
summarized by : Ryota Suzuki
どんな論文か?
今の動画説明文生成はそれっぽいのを出すだけなので,部屋に自転車があったらgymだとしてしまったりする.ちゃんとした(Grounded;根拠のある)説明文生成のために,BoundingBoxと名詞をリンクした動画説明文データセットを作ってGroundingする機構をロスモジュール定義して実装した.
新規性
問題設定とデータセット.BBox付きでの学習の枠組みの提案.
結果
作ったデータセットに対しMasked Transformerで比較すると,Blue@1で+0.7%,METEORで+0.4%.人間(人数不明?)の評価では,提案手法のほうがいい33.6%,同格38.9%,Masked Transformerのがいい27.5%
その他(なぜ通ったか?等)
問題設定とデータセット,というテンプレート感.実装重視感があっていいけど,そういう解決になるのか
- …
- …