Active Visual Information Gathering for Vision-Language Navigation

summarized by : Yue Qiu

Hanqing Wang, Wenguan Wang, Tianmin Shu, Wei Liang, Jianbing Shen

どんな論文か？

VLNタスクの視覚及びInstruction情報の不確定性から，従来のVLNタスクの手法は経路探索時にRandomやInefficientなActionを予測される場合がある．Humanが似た場合において，Activeで周りの視覚情報からNaviのHintを得られる．提案手法はHumanの行動をまねし強化学習を使ったActive visual information gathering手法を提案．

新規性

新しいVLN手法の提案．提案手法は経路探索の有効性を向上できる．提案手法は具体的に3部分から構成：①whenとwhereで視覚をexploreする必要があるかを決定；②exploration時にどのような情報が必須なのかを判断；③exploration後にどうやってnavigation decisionを調整する．

結果

提案手法は効率良くexplorationできることを示した．またR2Rデータセットにおいて、3種類のVLN設定：①Single run；②pre-exploration; ③beam searchで良い精度を達成．

その他（なぜ通ったか？等）

論文の構成が理解しやすくて、図がきれい．

このページで利用されている画像は論文から引用しています．