- …
- …
#186
summarized by : Masanori YANO
新規性
時系列の音と画像それぞれに異なるエンコーダを通して特徴抽出を行い、アテンションを含む畳み込みを行ってから、双方を組み合わせて間取り図をデコードするAV-Mapモデルを提案した。
結果
Matterport3Dデータセットとシミュレーション環境のSoundSpacesにより生成した動画データで評価を行い、RGB画像だけで推定するよりも音と組み合わせて推定した方が精度が高く、従来手法を上回る結果。
その他(なぜ通ったか?等)
着眼点の良さと、音と画像を組み合わせた推定の意義を示したことで通ったと考えられる。プロジェクトページ( http://www.cs.cmu.edu/~spurushw/publication/avmap/ )が公開されている。
- …
- …