#31
summarized by : Yue Qiu
SoundSpaces: Audio-Visual Navigation in 3D Environments

どんな論文か?

Embodied AI環境の初めてのAudio-visual navigationタスク,手法及びデータセットを提案.具体的に2種類設定を提案:①AudioGoal:環境中に目標物体が音声を出して,Agentが音声と視覚情報から物体まで移動;②AudioPointGoal:Agentが更に目標物体にTargetするGPSを持ち,追加してGPSの情報も使える.
placeholder

新規性

①初めてのEmbodied AI環境のAudio-visual Navigationタスクの提案;②Matterport3DとAI Habitatシーンに新たに音声合成により大規模Audio-visual Navigationデータセットを作成;③SOTAな強化学習のAudio-Visual Navigationモデルを提案.

結果

①実験により提案の手法がうまく視覚、音声、GPS情報を結合して、提案データセットでPromisingな結果を残した.②実験結果から、Visual Navigationタスクでは音声とGPS信号がかなり精度を向上できることを示し、将来的の実利用に有意義な知見を提供した.

その他(なぜ通ったか?等)

①SoundとGPSがEmbodied AI環境の実利用でかなり使えそう;②Facebook AIとFacebook Reality Labの研究.