#344
summarized by : Yanjun SUN
Reinforced Structured State-Evolution for Vision-Language Navigation

どんな論文か?

環境レイアウトの手がかりを保持するためのSEvolモデルを提案した。具体的には、ベクトルの代わりに、グラフベースの特徴でエージェントの状態を表す。SEvolにおいて、RLMモジュールは長期なナビゲーションするためにレイアウトグラフからサブレイアウトグラフを検出し、行動決定を行う。SEMモジュールはナビゲーションする時のグラフベースの状態を維持し、オブジェクトレベルの空間と時間の関係を学習する。
placeholder

新規性

グラフベースのベクトルを用いて、視覚や方向などからなるのエージェント状態を構造的に表現する。グラフのような構造的なもので、構造化されたレイアウトメモリを保持できる。

結果

既存のモデルとSEvolを組み合わせることで、R2RデータセットとR4Rデータセットにおける結果は大幅に向上した。

その他(なぜ通ったか?等)

https://github.com/chenjinyubuaa/SEvol