Audio-Visual Instance Discrimination with Cross-Modal Agreement

#497

summarized by : QIU YUE

Pedro Morgado, Nuno Vasconcelos, Ishan Misra

どんな論文か？

AVID (Audio-Visual Instance Discrimination)タスクの新たな手法を提案し，複数のデータセットでSOTAな精度を達成。音声信号から動作の開始・結末などの特徴が抽出しやすい傾向がある。この研究で、Contrastive learningをAudio-VideoのCross-modalタスクに導入し、Self-supervisedな手法を提案し、高い性能を実現。

新規性

手法的新規性がメイン。①Contrastive learningをAudio-Videoの認識タスクに導入。②既存のContrastive learning手法では、InstanceごとにPositiveかNegativeを決める一方、提案手法では、ビデオ間の相似性評価により、同時に複数のPositiveインスタンスをグルーピングしている。

結果

①AVIDタスクにおいて，Kinetics,UCF-101，HMDB-51などのデータセットでSOTAを達成。②Cross-modal discriminationがWithinmodal discriminationより良いVideoとAudioの特徴表現を学習できることを示した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．