Structured Scene Memory for Vision-Language Navigation

#171

summarized by : hisaka koji

Hanqing Wang, Wenguan Wang, Wei Liang, Caiming Xiong, Jianbing Shen

どんな論文か？

エージェントが言語的な指示に従って3D環境をナビゲートするタスクの改善

新規性

現在のVLNエージェントは、過去の経験や観察をリカレントネットワークに潜在的な状態として保存しているだけで、環境のレイアウトを把握したり、長期的な計画を立てたりすることができないため、Structured Scene Memory (SSM)と呼ばれるアーキテクチャを提案。 SSMは、環境の中の視覚的、幾何学的な手掛かりを構造化し記憶する。

結果

SSMに基づくVLNエージェントは、きめ細かな指示接地、長期的な推論、グローバルな意思決定において優位性を発揮し、R2RとR4Rのデータセットにおいて、最先端(state-of-the-arts)を行くことを実証しました。

その他（なぜ通ったか？等）

構造化して記憶させるのが目新しい。

このページで利用されている画像は論文から引用しています．