#171
summarized by : Ryota Suzuki
Reasoning-RCNN: Unifying Adaptive Global Reasoning Into Large-Scale Object Detection

どんな論文か?

いくつものカテゴリのインスタンスが映り込んでいる複雑なシーン画像に対して検出しようとすると遮蔽や曖昧性が壁となる.そこで,都度取るインスタンスの関係性を陽にして検出に入れ込むReasoning-RCNNを提案.Faster-RCNNのようなRPN構造から得られるクラス重みと画像ごとのアテンションによって適応的に知識グラフを生成,検出にSoftに入れ込む.
placeholder

新規性

Visual Reasoningを取り入れた枠組みの中では,適応的に知識グラフを作って入れ込むのはないらしい.それが強い遮蔽などの難しい状況に対応しうるそうだ.

結果

mAPにおいて次のように向上:+15% on VG (1000 categories), +16% on VG (3000 categories), +37% on ADE, +15% on MS-COCO, and +2% on Pascal VOC

その他(なぜ通ったか?等)

human commonsense knowledgeと言っているが,人手が特に入っていないのが気になる.人間の認知構造をまねてみた,という文脈らしい.