#186
summarized by : Masanori YANO
Audio-Visual Floorplan Reconstruction

どんな論文か?

動画に含まれる音と画像から、部屋ごとに色分けされた屋内の間取り図(Floorplan)を推定する手法。
placeholder

新規性

時系列の音と画像それぞれに異なるエンコーダを通して特徴抽出を行い、アテンションを含む畳み込みを行ってから、双方を組み合わせて間取り図をデコードするAV-Mapモデルを提案した。

結果

Matterport3Dデータセットとシミュレーション環境のSoundSpacesにより生成した動画データで評価を行い、RGB画像だけで推定するよりも音と組み合わせて推定した方が精度が高く、従来手法を上回る結果。

その他(なぜ通ったか?等)

着眼点の良さと、音と画像を組み合わせた推定の意義を示したことで通ったと考えられる。プロジェクトページ( http://www.cs.cmu.edu/~spurushw/publication/avmap/ )が公開されている。