- …
- …
#180
summarized by : Yue Qiu
どんな論文か?
unsupervisedな特徴表現学習手法Visual Commonsense Region -based CNN (VC R-CNN)を提案し,reasoning能力が重要な上位タスク(VQA,VCR,Image Captioningなど)に活用できる.VC R-CNNが任意のR-CNN手法をベースに構築でき,causal interventionの使用がReasoning能力のコアとなる.
新規性
①方向性として、R-CNN検出手法の精度向上ではなく,上位reasoningタスクのための検出器として新規性がある.②従来のconvention likelihoodではなく,ほかの画像やLocal領域からobjectsを"borrow"できるcausal interventionをベースにしている.
結果
提案のVC R-CNNで得られる特徴を①Image Captioning; ②VQA; ③Visual Commonsense Reasoningに実験し、それぞれSOTAな精度を達成.
その他(なぜ通ったか?等)
①VC R-CNNが従来の検出手法をベースに構築でき,あらゆるVision / Vision and Languageタスクに適応しやすい;②Attentionの可視化の結果により、提案のVC R-CNNの解釈性が高い.
- …
- …