Learning to Compose Dynamic Tree Structures for Visual Contexts

#860

summarized by : QIUYUE

Kaihua Tang, Hanwang Zhang, Baoyuan Wu, Wenhan Luo, Wei Liu

どんな論文か？

Visual Reasoningタスクに用いられるVisual Context TreeモデルVCTreeを提案．提案手法はまず画像から領域ベース特徴の抽出を行う．抽出し領域のleft-child right-sibling構のバイナリtreeを構築（強化学習）．次にBidirectional TreeLSTMにより木に対し，Encodingを行う．出力の特徴量はVQAやシーングラフ生成に有用

新規性

視覚の関係を相対的に明確かつ解釈性が高い木構造及びTreeLSTMネットワークで表すところが新しい．VQAなどのタスクに対し解釈性が高いモデルがかなり重要視されてきている．

結果

提案のフレームワークにより抽出した画像特徴量を使用し，Vsual GenomeデータセットにおいてSOTAなScene Graph生成精度を達成し，VQA2.0データセットにおいても良い結果を得られた．

その他（なぜ通ったか？等）

木構造で視覚関係を表すのがなかなかSceneがある．また，提案の木構築のプロセスは従来の特徴抽出と比べて解釈性が高い．

このページで利用されている画像は論文から引用しています．