#691
summarized by : Seitaro Shinagawa
Putting Visual Object Recognition in Context

どんな論文か?

人間が瞬間的に画像を見た時の物体認識における背景コンテクストの重要性を明らかにしつつ、この人間の視覚特性の機能を模したContext-aware Two-stream Attention network (CATNet)を提案し、認識結果が人間の認識結果と高い相関関係を持つことを示した。
placeholder

新規性

人間にとって背景情報が物体認識に大きな影響を表すことを実験で示し、またこの人間の視覚的特性を模した提案モデルCATNetが、人間の認識結果と相関の高い結果を得られたことを報告した点

結果

COCOデータセットで色々な大きさの物体について、クラウドソーシングを通してフラッシュ画像認識を行った。認識対象の物体は赤枠で囲まれた状態で、背景情報はぼかしやテクスチャのみなど、色々な処理を試して実験し、背景情報が物体と一致する時は認識結果が向上し、していない場合は低下する結果が得られた。この結果はCATNetでも同様だった。

その他(なぜ通ったか?等)