Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection

#171

summarized by : Ryota Suzuki

Hang Xu, Chenhan Jiang, Xiaodan Liang, Liang Lin, Zhenguo Li

どんな論文か？

いくつものカテゴリのインスタンスが映り込んでいる複雑なシーン画像に対して検出しようとすると遮蔽や曖昧性が壁となる．そこで，都度取るインスタンスの関係性を陽にして検出に入れ込むReasoning-RCNNを提案．Faster-RCNNのようなRPN構造から得られるクラス重みと画像ごとのアテンションによって適応的に知識グラフを生成，検出にSoftに入れ込む．

新規性

Visual Reasoningを取り入れた枠組みの中では，適応的に知識グラフを作って入れ込むのはないらしい．それが強い遮蔽などの難しい状況に対応しうるそうだ．

結果

mAPにおいて次のように向上：+15% on VG (1000 categories), +16% on VG (3000 categories), +37% on ADE, +15% on MS-COCO, and +2% on Pascal VOC

その他（なぜ通ったか？等）

human commonsense knowledgeと言っているが，人手が特に入っていないのが気になる．人間の認知構造をまねてみた，という文脈らしい．

このページで利用されている画像は論文から引用しています．