#180
summarized by : Yue Qiu
Visual Commonsense R-CNN

どんな論文か?

unsupervisedな特徴表現学習手法Visual Commonsense Region -based CNN (VC R-CNN)を提案し,reasoning能力が重要な上位タスク(VQA,VCR,Image Captioningなど)に活用できる.VC R-CNNが任意のR-CNN手法をベースに構築でき,causal interventionの使用がReasoning能力のコアとなる.
placeholder

新規性

①方向性として、R-CNN検出手法の精度向上ではなく,上位reasoningタスクのための検出器として新規性がある.②従来のconvention likelihoodではなく,ほかの画像やLocal領域からobjectsを"borrow"できるcausal interventionをベースにしている.

結果

提案のVC R-CNNで得られる特徴を①Image Captioning; ②VQA; ③Visual Commonsense Reasoningに実験し、それぞれSOTAな精度を達成.

その他(なぜ通ったか?等)

①VC R-CNNが従来の検出手法をベースに構築でき,あらゆるVision / Vision and Languageタスクに適応しやすい;②Attentionの可視化の結果により、提案のVC R-CNNの解釈性が高い.