#124
summarized by : Keisuke Kamahori
Hierarchical Visual-Textual Graph for Temporal Activity Localization via Language

どんな論文か?

動画中から自然言語の文章に適合する部分を特定するタスク(Temporal Activity Localization via Language)において、より fine-grained に動画の内容を解析する手法を設計した。
placeholder

新規性

オブジェクトレベルでの動画のフレームの内容、言語情報、時間情報をまとめる階層的なネットワークおよび、複数モーダル間での fine-grained な情報のやりとりを促す畳み込み層を設計した。また、動画と言語の表現を align するためのロス関数を定義した。

結果

Charades-STA と ActivityNet Captions において SOTA を達成した。

その他(なぜ通ったか?等)

https://github.com/forwchen/HVTG