Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

#774

summarized by : Yoshitaka Ushiku

Xin Wang, Qiuyuan Huang, Asli Celikyilmaz, Jianfeng Gao, Dinghan Shen, Yuan-Fang Wang, William Yang Wang, Lei Zhang

どんな論文か？

Visual-Language Navigation (VLN): 実体をもつエージェントが言語によるインストラクションを受けて、屋内のあるスタート位置からゴール位置まで移動する行動系列を推定する問題。 𝑡回目の行動は、最初に与えられたインストラクションとその時点までのエージェントの位置から見ている光景を頼りに決定することになる。評価は未知の屋内環境での移動成功率や移動経路長など。

新規性

VLN のために・Reinforced Cross-Modal Matching (RCM) を提案。局所的/大域的な移動パスのなかで視覚情報とインストラクションの整合性を報酬としてモデル化。・Self-Supervised Imitation Learning (SIL) を提案。未知環境でも既知環境に近い精度で移動に成功するために、エージェント自身が未知環境で疑似教師データを作成＋学習。

結果

屋内環境を模したMatterport 3Dデータセット上でVLNタスク用に収集されたRoom-to-Room (R2R) データセット上で、これまでのSOTA (Speaker-Follower [Fried+, NeurIPS 2018])を上回る精度を達成。特に未知環境下での自己教示模倣学習で、既知環境新規インストラクション vs. 未知環境新規インストラクションの精度ギャップが大きく縮小。

その他（なぜ通ったか？等）

VLNタスクというまだまだ難しいタスクに対して、局所的/大域的なクロスモーダルマッチングを強化学習で行う、また未知環境のために自己教示模倣学習を入れるという2点のアイディアは、他のタスクにも転用可能に思われる。こうした大きな学術的貢献がStrong Accept x 3に繋がったのだと考えている。 cf. https://bit.ly/301b1ED

このページで利用されている画像は論文から引用しています．