#779
summarized by : 金城 忍
Exploring Heterogeneous Clues for Weakly-Supervised Audio-Visual Video Parsing

どんな論文か?

音声、映像から特徴量を取得し、それぞに対してセルフ、クロスアテンションを取り、モダリティ間の関連性を捉える一方で、異なる音声、映像の同画像を、それぞれのモダリティに対して入れ替えて、イベントを予測し、更に同一の動画像からの映像、音声のセットを正例、異なるものを負例として対象学習することで同画像解析をする提案

新規性

音声、映像のセルフ、クロスアテンション及び、異なる動画像の音声、映像を利用し同画像解析をするという点で新規

結果

ImageNetで事前学習したResNet-152、Kinetics-400で事前学習したDeep R(2+1)D及びAudioSetで事前学習したVGGishを使用し、The Look, Listen and Parseの評価で、提案手法は既存手法より良い結果を達成した

その他(なぜ通ったか?等)