#433
summarized by : QIUYUE
On Guiding Visual Attention With Language Specification

どんな論文か?

近年、CLIPなどの大規模Vision-Language事前学習モデルはFine-grained認識タスクにおいての精度がまだまだ改善する余地がある。ここで、言語テキストからCNNのAttentionマップの推定をSuperviseすることを提案。具体的に、大規模事前学習モデルからテキスト中の重要な名詞のアテンションを得てそれを元にCNN学習のAttentionの学習を行う。
placeholder

新規性

大規模Visionとlanguage事前学習モデルの新たな使い方を提案した。具体的に、そういった事前学習モデルから、テキストが表している物体のAttentionマップを推定し、そのマップを元に通常のCNN構造のAttention Map推定のロスを計算し、通常のCNNのAttentionの精度を高めた。

結果

提案手法を用いてBiasedやNoisyなデータに関して、従来の手法の精度を大幅に向上した(3-15パーセント)。また、Fairness評価指標において、41-45パーセントの性能向上を実現した。

その他(なぜ通ったか?等)

概念がシンプルで、結果の改善が良い。特に、Fairnessに関しての定量的な評価やAttention mapの可視化評価のあたりがよかった。知識不足で、この論文と類似した概念は今までAttention Map関連論文で既に検討されているようにも思った。