#169
summarized by : Yamada Yoshihiro
Understanding and Visualizing Deep Visual Saliency Models

どんな論文か?

「シーンのどの部分に人の注意が惹きつけられるか」は心理学やコンピュータビジョンにおける長年の課題である。注意を惹きつける顕著な領域を予測するため近年開発が進む深層顕著性モデルは、従来の顕著性モデルより優れる一方、実際の人の視覚とはギャップがあり改善が頭打ちになっている。深層顕著性モデルは何を学び何が欠けているのかを分析するために、深層顕著性モデルの中間表現の可視化/分析を行った。
placeholder

新規性

・3つのデータセットのアノテーション ・深層モデルと古典的な顕著性モデルの比較のための新たなデータセットの提案 ・学習済の深層モデルにおける顕著性情報およびファインチューニングの効果の調査 ・顕著性予測とシーン認識のタスクの違いによる中間表現への影響の分析

結果

・学習済みの深層モデルは多くの視覚的顕著性のカテゴリに対する一定の反応を示し、さらにファインチューニング後は全体的な顕著性の改善が見られた。 ・画像自体の顕著性に関わらず、特定のカテゴリの顕著性を出力する傾向が見られた。 ・深層顕著性モデルは合成パターン画像の顕著性予測に脆弱であった。 ・中間表現はデータではなくタスクの違いによって大幅に変わることを確認した。

その他(なぜ通ったか?等)

全体的に手堅い印象を受けた。問題提起が明快で、着眼点が優れており、詳細な実験を通して主張を裏付けていた。可視化や文章スキルも上手く、深層顕著性モデル研究において今後大きな貢献を果たすと考えている。 ただし、結果は既存の物体認識の研究から示唆される内容を多分に含んでおり、「カテゴリの多様性に最新の注意を払う必要があるかもしれない」と結論付けていた点について、納得感は高い一方で新規性は若干弱く感じた。