- …
- …
#6
summarized by : Yue Qiu
どんな論文か?
新しいVision-Language Navigation (VLN)手法を提案.提案手法がNavigationのInstructionから視覚情報により判断するべきなAction(例:物体)とInstructionだけから判断するAction(例:右に曲がる)を別々のモデルで処理を行う.SOTAなVLNの精度を達成.
新規性
①従来のVLN手法はInstructionから視覚かInstructionの内容でActionを指導すべきかに関しての考慮が少なかった.提案手法は以上を考えてそれぞれ分けて処理をEmbeddingを行う.②Agentの経路の正しさを判断する新しいLossの提案(最近傍のGround Truth視点をベース),GT経路に沿った行動のための学習に有利.
結果
R2R、R4RデータセットセットでSOTAな精度を達成(SPL+50%;CLS+40%).Unknown環境にも優位性を示した.
その他(なぜ通ったか?等)
Ideaがかなりシンプルで理解しやすい.
- …
- …