Learning from Unlabeled 3D Environments for Vision-and-Language Navigation

#149

summarized by : 朝岡忠

Shizhe Chen; Pierre-Louis Guhur; Makarand Tapaswi; Cordelia Schmid; Ivan Laptev

どんな論文か？

視覚-言語ナビゲーション(VLN)では，現実的な3次元環境において，自然言語による指示（例，「リビングルームに行って，ランプに近いソファの白いクッションを持って来て」）でエージェントをナビゲートすることが要求．既存のVLN研究のボトルネックは，学習データの不足．そのため，未知の環境に対する汎化が上手くいかない．本研究では，ラベルのない3Dシミュレーターから大規模なデータセットを自動的に作成．

新規性

HM3Dデータセットを用いてVLNデータセットをスケールアップ．ラベルのないHM3DデータセットからVLNデータセットを生成するために，大規模な事前学習済み視覚モデル(Mask2Former)と言語モデル(GPT-2)を使用．まず，画像分割モデルを用いて2次元物体を検出し，3次元物体のラベルを付与。次に，3次元物体ラベルをプロンプトとして、この物体に対するナビゲーション指示を言語モデルにより生成．

結果

提案手法によって得られたHM3D-AutoVLNデータセットは，ナビゲーション環境と自然言語指示の点で既存のVLNデータセットより一桁大きい．また，HM3D-AutoVLNにより，VLNモデルの汎化能力が大幅に向上することを実験的に実証(REVERIEとSOONデータセットの検証データにおいてそれぞれSPL指標で7.1%，8.1%改善)．

その他（なぜ通ったか？等）

https://cshizhe.github.io/projects/hm3d_autovln.html

このページで利用されている画像は論文から引用しています．