Visual Commonsense R-CNN

#180

summarized by : Yue Qiu

Tan Wang, Jianqiang Huang, Hanwang Zhang, Qianru Sun

どんな論文か？

unsupervisedな特徴表現学習手法Visual Commonsense Region -based CNN (VC R-CNN)を提案し，reasoning能力が重要な上位タスク(VQA,VCR,Image Captioningなど)に活用できる．VC R-CNNが任意のR-CNN手法をベースに構築でき，causal interventionの使用がReasoning能力のコアとなる．

新規性

①方向性として、R-CNN検出手法の精度向上ではなく，上位reasoningタスクのための検出器として新規性がある．②従来のconvention likelihoodではなく，ほかの画像やLocal領域からobjectsを"borrow"できるcausal interventionをベースにしている．

結果

提案のVC R-CNNで得られる特徴を①Image Captioning; ②VQA; ③Visual Commonsense Reasoningに実験し、それぞれSOTAな精度を達成．

その他（なぜ通ったか？等）

①VC R-CNNが従来の検出手法をベースに構築でき，あらゆるVision / Vision and Languageタスクに適応しやすい；②Attentionの可視化の結果により、提案のVC R-CNNの解釈性が高い．

このページで利用されている画像は論文から引用しています．