Structured Multi-Level Interaction Network for Video Moment Localization via Language Query

#466

summarized by : hisaka koji

Hao Wang, Zheng-Jun Zha, Liang Li, Dong Liu, Jiebo Luo

自然言語のクエリによって記述された特定の瞬間を推定

この問題を解決するために、構造化マルチレベルインタラクションネットワーク（SMIN）を提案します。動画の瞬間を、内容と境界の要素に分けて、相互作用させながら学習を行う。

広範な評価 3つのベンチマークを用いた広範な評価により、提案手法の有効性が提案手法の有効性が実証されました。

このページで利用されている画像は論文から引用しています．