- …
- …
#66
summarized by : Yoshiki Masuyama
どんな論文か?
360度動画と対応した音を利用したQAタスクを提案し,そのためのデータセット (Pano-AVQA) を構築.またこのタスクのためにTransformerベースのモデル (LAViT) を提案し,Pano-AVQAで既存手法と比較し,有効性を確認.
新規性
動画と音だけでなく自然言語も活用した既存研究はあったが,音が聞こえるかなど簡単な比較的単純なものだった.本研究は,360度動画内での複数の物体の位置関係に関連したQAの設定を考えている点が新しい.例えば,「雑音の音源はピンクの服の人のどっち側か?」など.
結果
データセットの構築が大きな貢献であり,実験ではPano-AVQAでLAViTと既存手法を比較し,有効性を確認.
その他(なぜ通ったか?等)
- …
- …