#122
summarized by : Keita Goto
Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

どんな論文か?

動画認識モデルの学習において、学習済みの画像・音声分類モデルから得られる特徴ベクトルを用いて、対照学習を行う蒸留手法を提案。このとき、画像や音声の特徴ベクトルと動画の特徴ベクトルを合成した新たな特徴ベクトルを加えることで、それぞれのモダリティから異なる特徴が得られるよう設計している。
placeholder

新規性

教師モデルから得られる特徴ベクトルと生徒モデルから得られる特徴ベクトルを結合したベクトルに対して線形変換を施し、生徒モデルから得られる特徴ベクトルに足し合わせる操作を行うことで、モダリティ間の差分を学習するよう設計している。

結果

UCF51とActivityNetに対する動画認識タスクでは、他の蒸留を用いた手法よりも高い精度を実現した。また動画検索タスクでは、教師モデルとして画像分類モデルと音声分類モデルの両方を用いた実験においては他の蒸留手法をすべて上回った。

その他(なぜ通ったか?等)