Hierarchical Conditional Relation Networks for Video Question Answering

#314

summarized by : Yue Qiu

Thao Minh Le, Vuong Le, Svetha Venkatesh, Truyen Tran

どんな論文か？

General-purposeのreusableなConditional Relation Network (CRN)を提案．CRNはRelational transformer構造であり，CRNをStackし，階層的構造により低いレベルから高いレベルのmulti-modalのRelationshipを表せる．VideoQAタスクで提案のCRNの有効性を示した．

新規性

従来広く用いられるAttentionメカニズムではVideoから相関の物体領域を探し出す。それに対して提案のHierarchical-CRNがrelationsのモデリング及び階層化に工夫．

結果

3つのVideoQAデータセット：TGIF-QA，MSVD-QA，MSRVTT-QAで提案のHierarchical-CRNが高い精度を示した．

その他（なぜ通ったか？等）

提案のConditional Relation NetworksがGeneralであり，Stackすることにより高層関係を表せる；また，VideoQAだけではなく，ほかのHierarchical relationshipsに関するタスクにも適応できる．

このページで利用されている画像は論文から引用しています．