Temporal and Cross-Modal Attention for Audio-Visual Zero-Shot Learning

#249

summarized by : 二川摩周

Otniel-Bogdan Mercea; Thomas Hummel; A. Sophia Koepke; Zeynep Akata

どんな論文か？

オーディオビジュアル未知タスク分類において，クロスアテンションを用いてゼロショット学習を行うフレームワーク（TCaF）を提案した。

新規性

オーディオビジュアルの未知クラス分類タスクにおいて，時間クロスアテンションを使えば，ゼロショット学習で解決できる（Mercea et al. CVPR. 2022, https://arxiv.org/pdf/2203.03598.pdf）。このモデルに新たに時間要素を埋め込み，2ストリームモデルを1ストリームモデルに変更したことでさらに性能が向上できることを実証した。

結果

3つのオーディオビジュアル(G)ZSLデータセット（UCF-GZSLcls, VGGSound-GZSLcls, ActivityNet-GZSLcls）において，最先端の性能を達成した。

その他（なぜ通ったか？等）

githubにソースコードあり https://github.com/ExplainableML/TCAF-GZSL　

このページで利用されている画像は論文から引用しています．