- …
- …
#185
summarized by : Yue Qiu
どんな論文か?
VideoからActive speakerを検出する手法を提案.既存手法がSingle speakerのshort-term audiovisual informationから推論する方が多く,提案手法がmutli-speakderの関係及びlong-term informationからSpeakerを検出し,SOTAな精度を達成.
新規性
①short-term single-speakerの情報ではなく,co-occuring speakersとlong-time horizons情報から検出を行う.②multi-speakers, on-screenが小さい顔画像のchallengingな場合でも高い精度を示した.
結果
AVA-ActiveSpeakerデータセットにおいてSOTAな精度を達成した(87.1% mAP).Ablation実験で高い精度を得られたのがlong-term multi-speaker analysisが大いに貢献したことを検証できた.
その他(なぜ通ったか?等)
提案(Multi-speakerのscenario でlong-time spanでMulti-speakerの関係からActive speakerを推定)がシンプルで理解しやすい.
- …
- …