Hierarchical Visual-Textual Graph for Temporal Activity Localization via Language

#124

summarized by : Keisuke Kamahori

Shaoxiang Chen, Yu-Gang Jiang

動画中から自然言語の文章に適合する部分を特定するタスク(Temporal Activity Localization via Language)において、より fine-grained に動画の内容を解析する手法を設計した。

オブジェクトレベルでの動画のフレームの内容、言語情報、時間情報をまとめる階層的なネットワークおよび、複数モーダル間での fine-grained な情報のやりとりを促す畳み込み層を設計した。また、動画と言語の表現を align するためのロス関数を定義した。

Charades-STA と ActivityNet Captions において SOTA を達成した。

https://github.com/forwchen/HVTG

このページで利用されている画像は論文から引用しています．