- …
- …
#497
summarized by : QIU YUE
どんな論文か?
AVID (Audio-Visual Instance Discrimination)タスクの新たな手法を提案し,複数のデータセットでSOTAな精度を達成。音声信号から動作の開始・結末などの特徴が抽出しやすい傾向がある。この研究で、Contrastive learningをAudio-VideoのCross-modalタスクに導入し、Self-supervisedな手法を提案し、高い性能を実現。
新規性
手法的新規性がメイン。①Contrastive learningをAudio-Videoの認識タスクに導入。②既存のContrastive learning手法では、InstanceごとにPositiveかNegativeを決める一方、提案手法では、ビデオ間の相似性評価により、同時に複数のPositiveインスタンスをグルーピングしている。
結果
①AVIDタスクにおいて,Kinetics,UCF-101,HMDB-51などのデータセットでSOTAを達成。②Cross-modal discriminationがWithinmodal discriminationより良いVideoとAudioの特徴表現を学習できることを示した。
その他(なぜ通ったか?等)
- …
- …