- …
- …
#5
summarized by : Shintaro Yamamoto
どんな論文か?
Vision-and-Language NavigationなどのEmbodiedタスクでは,学習に使用できる言語データが不足している.そこで,web上から収集された画像とテキストのペアデータを活用することでモデルの精度向上を図る.
新規性
モデルの学習を3段階に分けて行う方法を提案した.最初の段階では,BERTと同様に言語のみのデータを用いてモデルの事前学習を行う.その後,Conceptual Captionsに含まれる画像とテキストのペアを用いて2度目の事前学習を行う.最後に,目的タスクのデータセットを用いた学習を行う.
結果
従来手法と比べタスク成功率が向上.Ablation studyを通じて学習の3段階はいずれも精度向上に寄与していることを確認.
その他(なぜ通ったか?等)
同様の考え方は他のVision and Language研究へも応用可能なのではないかと感じた
- …
- …