Audio-Visual Floorplan Reconstruction

#186

summarized by : Masanori YANO

Senthil Purushwalkam, Sebastia Vicenc Amengual Gari, Vamsi Krishna Ithapu, Carl Schissler, Philip Robinson, Abhinav Gupta, Kristen Grauman

動画に含まれる音と画像から、部屋ごとに色分けされた屋内の間取り図(Floorplan)を推定する手法。

時系列の音と画像それぞれに異なるエンコーダを通して特徴抽出を行い、アテンションを含む畳み込みを行ってから、双方を組み合わせて間取り図をデコードするAV-Mapモデルを提案した。

Matterport3Dデータセットとシミュレーション環境のSoundSpacesにより生成した動画データで評価を行い、RGB画像だけで推定するよりも音と組み合わせて推定した方が精度が高く、従来手法を上回る結果。

着眼点の良さと、音と画像を組み合わせた推定の意義を示したことで通ったと考えられる。プロジェクトページ( http://www.cs.cmu.edu/~spurushw/publication/avmap/ )が公開されている。

このページで利用されている画像は論文から引用しています．