#171
summarized by : hisaka koji
Structured Scene Memory for Vision-Language Navigation

どんな論文か?

エージェントが言語的な指示に従って3D環境をナビゲートするタスクの改善
placeholder

新規性

現在のVLNエージェントは、過去の経験や観察をリカレントネットワークに潜在的な状態として保存しているだけで、環境のレイアウトを把握したり、長期的な計画を立てたりすることができないため、Structured Scene Memory (SSM)と呼ばれるアーキテクチャを提案。 SSMは、環境の中の視覚的、幾何学的な手掛かりを構造化し記憶する。

結果

SSMに基づくVLNエージェントは、きめ細かな指示接地、長期的な推論、グローバルな意思決定において優位性を発揮し、R2RとR4Rのデータセットにおいて、最先端(state-of-the-arts)を行くことを実証しました。

その他(なぜ通ったか?等)

構造化して記憶させるのが目新しい。