#314
summarized by : Yue Qiu
Hierarchical Conditional Relation Networks for Video Question Answering

どんな論文か?

General-purposeのreusableなConditional Relation Network (CRN)を提案.CRNはRelational transformer構造であり,CRNをStackし,階層的構造により低いレベルから高いレベルのmulti-modalのRelationshipを表せる.VideoQAタスクで提案のCRNの有効性を示した.
placeholder

新規性

従来広く用いられるAttentionメカニズムではVideoから相関の物体領域を探し出す。それに対して提案のHierarchical-CRNがrelationsのモデリング及び階層化に工夫.

結果

3つのVideoQAデータセット:TGIF-QA,MSVD-QA,MSRVTT-QAで提案のHierarchical-CRNが高い精度を示した.

その他(なぜ通ったか?等)

提案のConditional Relation NetworksがGeneralであり,Stackすることにより高層関係を表せる;また,VideoQAだけではなく,ほかのHierarchical relationshipsに関するタスクにも適応できる.