#66
summarized by : Yoshiki Masuyama
Pano-AVQA: Grounded Audio-Visual Question Answering on 360deg Videos

どんな論文か?

360度動画と対応した音を利用したQAタスクを提案し,そのためのデータセット (Pano-AVQA) を構築.またこのタスクのためにTransformerベースのモデル (LAViT) を提案し,Pano-AVQAで既存手法と比較し,有効性を確認.

新規性

動画と音だけでなく自然言語も活用した既存研究はあったが,音が聞こえるかなど簡単な比較的単純なものだった.本研究は,360度動画内での複数の物体の位置関係に関連したQAの設定を考えている点が新しい.例えば,「雑音の音源はピンクの服の人のどっち側か?」など.

結果

データセットの構築が大きな貢献であり,実験ではPano-AVQAでLAViTと既存手法を比較し,有効性を確認.

その他(なぜ通ったか?等)