Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

summarized by : Shintaro Yamamoto

Arjun Majumdar, Ayush Shrivastava, Stefan Lee, Peter Anderson, Devi Parikh, Dhruv Batra

Vision-and-Language NavigationなどのEmbodiedタスクでは，学習に使用できる言語データが不足している．そこで，web上から収集された画像とテキストのペアデータを活用することでモデルの精度向上を図る．

モデルの学習を3段階に分けて行う方法を提案した．最初の段階では，BERTと同様に言語のみのデータを用いてモデルの事前学習を行う．その後，Conceptual Captionsに含まれる画像とテキストのペアを用いて2度目の事前学習を行う．最後に，目的タスクのデータセットを用いた学習を行う．

従来手法と比べタスク成功率が向上．Ablation studyを通じて学習の3段階はいずれも精度向上に寄与していることを確認．

同様の考え方は他のVision and Language研究へも応用可能なのではないかと感じた

このページで利用されている画像は論文から引用しています．