- …
- …
#124
summarized by : Keisuke Kamahori
どんな論文か?
動画中から自然言語の文章に適合する部分を特定するタスク(Temporal Activity Localization via Language)において、より fine-grained に動画の内容を解析する手法を設計した。
新規性
オブジェクトレベルでの動画のフレームの内容、言語情報、時間情報をまとめる階層的なネットワークおよび、複数モーダル間での fine-grained な情報のやりとりを促す畳み込み層を設計した。また、動画と言語の表現を align するためのロス関数を定義した。
結果
Charades-STA と ActivityNet Captions において SOTA を達成した。
その他(なぜ通ったか?等)
https://github.com/forwchen/HVTG
- …
- …