#249
summarized by : 二川摩周
Temporal and Cross-Modal Attention for Audio-Visual Zero-Shot Learning

どんな論文か?

オーディオビジュアル未知タスク分類において,クロスアテンションを用いてゼロショット学習を行うフレームワーク(TCaF)を提案した。
placeholder

新規性

オーディオビジュアルの未知クラス分類タスクにおいて,時間クロスアテンションを使えば,ゼロショット学習で解決できる(Mercea et al. CVPR. 2022, https://arxiv.org/pdf/2203.03598.pdf)。 このモデルに新たに時間要素を埋め込み,2ストリームモデルを1ストリームモデルに変更したことでさらに性能が向上できることを実証した。

結果

3つのオーディオビジュアル(G)ZSLデータセット(UCF-GZSLcls, VGGSound-GZSLcls, ActivityNet-GZSLcls)において,最先端の性能を達成した。

その他(なぜ通ったか?等)

githubにソースコードあり https://github.com/ExplainableML/TCAF-GZSL