SoundSpaces: Audio-Visual Navigation in 3D Environments

#31

summarized by : Yue Qiu

Changan Chen, Unnat Jain, Carl Schissler, Sebastia Vicenc Amengual Gari, Ziad Al-Halah, Vamsi Krishna Ithapu, Philip Robinson, and Kristen Grauman

どんな論文か？

Embodied AI環境の初めてのAudio-visual navigationタスク，手法及びデータセットを提案．具体的に2種類設定を提案：①AudioGoal：環境中に目標物体が音声を出して，Agentが音声と視覚情報から物体まで移動；②AudioPointGoal：Agentが更に目標物体にTargetするGPSを持ち，追加してGPSの情報も使える．

新規性

①初めてのEmbodied AI環境のAudio-visual Navigationタスクの提案；②Matterport3DとAI Habitatシーンに新たに音声合成により大規模Audio-visual Navigationデータセットを作成；③SOTAな強化学習のAudio-Visual Navigationモデルを提案．

結果

①実験により提案の手法がうまく視覚、音声、GPS情報を結合して、提案データセットでPromisingな結果を残した．②実験結果から、Visual Navigationタスクでは音声とGPS信号がかなり精度を向上できることを示し、将来的の実利用に有意義な知見を提供した．

その他（なぜ通ったか？等）

①SoundとGPSがEmbodied AI環境の実利用でかなり使えそう；②Facebook AIとFacebook Reality Labの研究．

このページで利用されている画像は論文から引用しています．