#174
summarized by : Masuyama Yoshiki
STAViS: Spatio-Temporal AudioVisual Saliency Network

どんな論文か?

動画に対する顕著性マップ(saliency map)推定に、動画の時空間情報に加えて音情報を利用する枠組みを提案。音と動画から得られる特徴量のDNN内での統合方法、複数のsaliency mapの統合方法について複数提案し比較を行っている。Saliency mapの教師データとしてはアイトラッキングのデータを利用している。
placeholder

新規性

従来手法の多くは動画情報のみを利用する手法。音と動画両方を利用する先行研究も少数存在するが、音と動画を別々のサブネットワークで処理し後段で統合している。一方本研究では、音と動画を多段で統合する新たなDNNの構成を提案している。

結果

6つのデータセットで動画情報のみを利用するSOTA手法と比較し、多くのデータセットで提案手法の有効性を確認。複数のデータセットで安定して性能がいいことから、"in-the-wild"で有効と主張。

その他(なぜ通ったか?等)

SOTA手法含む多数の従来手法と複数のデータセットで比較しており、実験が網羅的。ただし、イントロで提案手法と類似していると紹介した音と動画両方を利用する先行研究とは比較していない。