Pano-AVQA: Grounded Audio-Visual Question Answering on 360deg Videos

#66

summarized by : Yoshiki Masuyama

Heeseung Yun, Youngjae Yu, Wonsuk Yang, Kangil Lee, Gunhee Kim

360度動画と対応した音を利用したQAタスクを提案し，そのためのデータセット (Pano-AVQA) を構築．またこのタスクのためにTransformerベースのモデル (LAViT) を提案し，Pano-AVQAで既存手法と比較し，有効性を確認．

動画と音だけでなく自然言語も活用した既存研究はあったが，音が聞こえるかなど簡単な比較的単純なものだった．本研究は，360度動画内での複数の物体の位置関係に関連したQAの設定を考えている点が新しい．例えば，「雑音の音源はピンクの服の人のどっち側か？」など．

データセットの構築が大きな貢献であり，実験ではPano-AVQAでLAViTと既存手法を比較し，有効性を確認．

このページで利用されている画像は論文から引用しています．