#497
summarized by : QIU YUE
Audio-Visual Instance Discrimination with Cross-Modal Agreement

どんな論文か?

AVID (Audio-Visual Instance Discrimination)タスクの新たな手法を提案し,複数のデータセットでSOTAな精度を達成。音声信号から動作の開始・結末などの特徴が抽出しやすい傾向がある。この研究で、Contrastive learningをAudio-VideoのCross-modalタスクに導入し、Self-supervisedな手法を提案し、高い性能を実現。
placeholder

新規性

手法的新規性がメイン。①Contrastive learningをAudio-Videoの認識タスクに導入。②既存のContrastive learning手法では、InstanceごとにPositiveかNegativeを決める一方、提案手法では、ビデオ間の相似性評価により、同時に複数のPositiveインスタンスをグルーピングしている。

結果

①AVIDタスクにおいて,Kinetics,UCF-101,HMDB-51などのデータセットでSOTAを達成。②Cross-modal discriminationがWithinmodal discriminationより良いVideoとAudioの特徴表現を学習できることを示した。

その他(なぜ通ったか?等)