#466
summarized by : hisaka koji
Structured Multi-Level Interaction Network for Video Moment Localization via Language Query

どんな論文か?

自然言語のクエリによって記述された特定の瞬間を推定
placeholder

新規性

この問題を解決するために、構造化マルチレベルインタラクションネットワーク(SMIN)を提案します。 動画の瞬間を、内容と境界の要素に分けて、相互作用させながら学習を行う。

結果

広範な評価 3つのベンチマークを用いた広範な評価により、提案手法の有効性が 提案手法の有効性が実証されました。

その他(なぜ通ったか?等)