Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-Training

#25

summarized by : Seitaro Shinagawa

Weituo Hao, Chunyuan Li, Xiujun Li, Lawrence Carin, Jianfeng Gao

どんな論文か？

自然言語の指示文に基づいてエージェントを所望の場所に移動させるタスクであるvisual-and-language navigation (VLN)タスクにおいて、masked language model (MLM)による自己教師あり学習に基づく事前学習を行うモデル(PREVALENT)を提案し、後段タスクの性能が向上することを示した。

新規性

VLNタスクでは、個々の指示文はエージェントに通って欲しい実際の軌跡の部分的な情報しか持っていないという問題がある。一方で、画像内の物体と指示文の間には一般的に共通した関係性（いわゆる「常識」）を認めることができるので、上記の問題は転移学習によって補完できるだろうという点に着目し、VLNタスクに合わせたmasked language modelによる事前学習手法を提案した。

結果

Success weighted by Path Length (SPL)という評価指標に基づき、Room-to-Room (R2R)、Cooperative Vision-and-Dialogue Navigation (CVDN)、HANNAの3つのタスクにおいて、いずれも提案手法が最高性能となった。

その他（なぜ通ったか？等）

アイデアはシンプルだが、1.ストーリーが分かりやすくて読みやすい点、2.シンプルなアーキテクチャで高い性能を実現した点、3.事前学習の影響について詳細な議論がある点で印象が良かったと思われる。

このページで利用されている画像は論文から引用しています．