Object-and-Action Aware Model for Visual Language Navigation

summarized by : Yue Qiu

Yuankai Qi, Zizheng Pan, Shengping Zhang, Anton van den Hengel, Qi Wu

どんな論文か？

新しいVision-Language Navigation (VLN)手法を提案．提案手法がNavigationのInstructionから視覚情報により判断するべきなAction(例：物体)とInstructionだけから判断するAction(例：右に曲がる)を別々のモデルで処理を行う．SOTAなVLNの精度を達成．

新規性

①従来のVLN手法はInstructionから視覚かInstructionの内容でActionを指導すべきかに関しての考慮が少なかった．提案手法は以上を考えてそれぞれ分けて処理をEmbeddingを行う．②Agentの経路の正しさを判断する新しいLossの提案（最近傍のGround Truth視点をベース），GT経路に沿った行動のための学習に有利．

結果

R2R、R4RデータセットセットでSOTAな精度を達成(SPL+50%;CLS+40%)．Unknown環境にも優位性を示した．

その他（なぜ通ったか？等）

Ideaがかなりシンプルで理解しやすい．

このページで利用されている画像は論文から引用しています．