#185
summarized by : Yue Qiu
Active Speakers in Context

どんな論文か?

VideoからActive speakerを検出する手法を提案.既存手法がSingle speakerのshort-term audiovisual informationから推論する方が多く,提案手法がmutli-speakderの関係及びlong-term informationからSpeakerを検出し,SOTAな精度を達成.
placeholder

新規性

①short-term single-speakerの情報ではなく,co-occuring speakersとlong-time horizons情報から検出を行う.②multi-speakers, on-screenが小さい顔画像のchallengingな場合でも高い精度を示した.

結果

AVA-ActiveSpeakerデータセットにおいてSOTAな精度を達成した(87.1% mAP).Ablation実験で高い精度を得られたのがlong-term multi-speaker analysisが大いに貢献したことを検証できた.

その他(なぜ通ったか?等)

提案(Multi-speakerのscenario でlong-time spanでMulti-speakerの関係からActive speakerを推定)がシンプルで理解しやすい.