#5
summarized by : Shintaro Yamamoto
Improving Vision-and-Language Navigation with Image-Text Pairs from the Web

どんな論文か?

Vision-and-Language NavigationなどのEmbodiedタスクでは,学習に使用できる言語データが不足している.そこで,web上から収集された画像とテキストのペアデータを活用することでモデルの精度向上を図る.
placeholder

新規性

モデルの学習を3段階に分けて行う方法を提案した.最初の段階では,BERTと同様に言語のみのデータを用いてモデルの事前学習を行う.その後,Conceptual Captionsに含まれる画像とテキストのペアを用いて2度目の事前学習を行う.最後に,目的タスクのデータセットを用いた学習を行う.

結果

従来手法と比べタスク成功率が向上.Ablation studyを通じて学習の3段階はいずれも精度向上に寄与していることを確認.

その他(なぜ通ったか?等)

同様の考え方は他のVision and Language研究へも応用可能なのではないかと感じた