#6
summarized by : Yue Qiu
Object-and-Action Aware Model for Visual Language Navigation

どんな論文か?

新しいVision-Language Navigation (VLN)手法を提案.提案手法がNavigationのInstructionから視覚情報により判断するべきなAction(例:物体)とInstructionだけから判断するAction(例:右に曲がる)を別々のモデルで処理を行う.SOTAなVLNの精度を達成.
placeholder

新規性

①従来のVLN手法はInstructionから視覚かInstructionの内容でActionを指導すべきかに関しての考慮が少なかった.提案手法は以上を考えてそれぞれ分けて処理をEmbeddingを行う.②Agentの経路の正しさを判断する新しいLossの提案(最近傍のGround Truth視点をベース),GT経路に沿った行動のための学習に有利.

結果

R2R、R4RデータセットセットでSOTAな精度を達成(SPL+50%;CLS+40%).Unknown環境にも優位性を示した.

その他(なぜ通ったか?等)

Ideaがかなりシンプルで理解しやすい.