Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

#122

summarized by : Keita Goto

Yanbei Chen, Yongqin Xian, A. Sophia Koepke, Ying Shan, Zeynep Akata

動画認識モデルの学習において、学習済みの画像・音声分類モデルから得られる特徴ベクトルを用いて、対照学習を行う蒸留手法を提案。このとき、画像や音声の特徴ベクトルと動画の特徴ベクトルを合成した新たな特徴ベクトルを加えることで、それぞれのモダリティから異なる特徴が得られるよう設計している。

教師モデルから得られる特徴ベクトルと生徒モデルから得られる特徴ベクトルを結合したベクトルに対して線形変換を施し、生徒モデルから得られる特徴ベクトルに足し合わせる操作を行うことで、モダリティ間の差分を学習するよう設計している。

UCF51とActivityNetに対する動画認識タスクでは、他の蒸留を用いた手法よりも高い精度を実現した。また動画検索タスクでは、教師モデルとして画像分類モデルと音声分類モデルの両方を用いた実験においては他の蒸留手法をすべて上回った。

このページで利用されている画像は論文から引用しています．