Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model

#206

summarized by : Teppei Kurita

Yufan Liu, Minglang Qiao, Mai Xu, Bing Li, Weiming Hu, Ali Borji

映像中の音声が人間の注意力に影響を与えることを明らかにした研究。

大規模な音声付アイトラッキング映像データベース(34名被験者が300の動画を視聴)を取得して傾向を分析、基本的に人の顔に注意が行くことを確認。映像中のSaliencyを予測するためのマルチモーダルNNを提案。

提案したSaliency予測ネットワークが11の従来手法の性能を上回ることを確認。人間の知覚性能と近い性能。

困難な問題設定に対して、大規模なデータセットを取得するところから始めて解析する正攻法のやりかた（多少予算で殴っている）。データセット公開予定URL:https://github.com/MinglangQiao/MVVA-Database

このページで利用されている画像は論文から引用しています．