AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition

#63

summarized by : 日坂　幸次

Rameswar Panda, Chun-Fu (Richard) Chen, Quanfu Fan, Ximeng Sun, Kate Saenko, Aude Oliva, Rogerio Feris

どんな論文か？

モデルの性能を向上させるために様々なモダリティを利用することに着目したマルチモーダル学習は、動画認識に広く用いられている。従来のマルチモーダル学習は、優れた認識結果を提供する一方で、その計算量の多さから、多くの実世界のアプリケーションへの影響が制限されていた。

新規性

本論文では，AdaMMLと呼ばれる適応型マルチモーダル学習フレームワークを提案する．これは，効率的なビデオ認識のために，入力を条件として各セグメントに最適なモーダリティをオンザフライで選択するものである．具体的には、ビデオセグメントが与えられると、マルチモーダル・ポリシー・ネットワークを用いて、認識モデルの処理にどのモーダルを使用すべきかを決定する。

結果

困難な4つの多様なデータセットを用いた大規模な実験により，我々の提案する適応的アプローチは，入力に関わらずすべてのモダリティを単純に使用する従来のベースラインと比較して，計算量を35%～55%削減することができ，また，最新の手法よりも一貫して精度を向上させることができた

その他（なぜ通ったか？等）

https://rpand002.github.io/adamml.html。

このページで利用されている画像は論文から引用しています．