Active Speakers in Context

#185

summarized by : Yue Qiu

Juan León Alcázar, Fabian Caba, Long Mai, Federico Perazzi, Joon-Young Lee, Pablo Arbeláez, Bernard Ghanem

どんな論文か？

VideoからActive speakerを検出する手法を提案．既存手法がSingle speakerのshort-term audiovisual informationから推論する方が多く，提案手法がmutli-speakderの関係及びlong-term informationからSpeakerを検出し，SOTAな精度を達成．

新規性

①short-term single-speakerの情報ではなく，co-occuring speakersとlong-time horizons情報から検出を行う．②multi-speakers, on-screenが小さい顔画像のchallengingな場合でも高い精度を示した．

結果

AVA-ActiveSpeakerデータセットにおいてSOTAな精度を達成した(87.1% mAP)．Ablation実験で高い精度を得られたのがlong-term multi-speaker analysisが大いに貢献したことを検証できた．

その他（なぜ通ったか？等）

提案（Multi-speakerのscenario でlong-time spanでMulti-speakerの関係からActive speakerを推定）がシンプルで理解しやすい．

このページで利用されている画像は論文から引用しています．