#149
summarized by : 朝岡忠
Learning from Unlabeled 3D Environments for Vision-and-Language Navigation

どんな論文か?

視覚-言語ナビゲーション(VLN)では,現実的な3次元環境において,自然言語による指示(例,「リビングルームに行って,ランプに近いソファの白いクッションを持って来て」)でエージェントをナビゲートすることが要求.既存のVLN研究のボトルネックは,学習データの不足.そのため,未知の環境に対する汎化が上手くいかない.本研究では,ラベルのない3Dシミュレーターから大規模なデータセットを自動的に作成.
placeholder

新規性

HM3Dデータセットを用いてVLNデータセットをスケールアップ.ラベルのないHM3DデータセットからVLNデータセットを生成するために,大規模な事前学習済み視覚モデル(Mask2Former)と言語モデル(GPT-2)を使用.まず,画像分割モデルを用いて2次元物体を検出し,3次元物体のラベルを付与。次に,3次元物体ラベルをプロンプトとして、この物体に対するナビゲーション指示を言語モデルにより生成.

結果

提案手法によって得られたHM3D-AutoVLNデータセットは,ナビゲーション環境と自然言語指示の点で既存のVLNデータセットより一桁大きい.また,HM3D-AutoVLNにより,VLNモデルの汎化能力が大幅に向上することを実験的に実証(REVERIEとSOONデータセットの検証データにおいてそれぞれSPL指標で7.1%,8.1%改善).

その他(なぜ通ったか?等)

https://cshizhe.github.io/projects/hm3d_autovln.html