#206
summarized by : Teppei Kurita
Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model

どんな論文か?

映像中の音声が人間の注意力に影響を与えることを明らかにした研究。
placeholder

新規性

大規模な音声付アイトラッキング映像データベース(34名被験者が300の動画を視聴)を取得して傾向を分析、基本的に人の顔に注意が行くことを確認。映像中のSaliencyを予測するためのマルチモーダルNNを提案。

結果

提案したSaliency予測ネットワークが11の従来手法の性能を上回ることを確認。人間の知覚性能と近い性能。

その他(なぜ通ったか?等)

困難な問題設定に対して、大規模なデータセットを取得するところから始めて解析する正攻法のやりかた(多少予算で殴っている)。 データセット公開予定URL:https://github.com/MinglangQiao/MVVA-Database