#777
summarized by : QIUYUE
Tactical Rewind: Self-Correction via Backtracking in Vision-And-Language Navigation

どんな論文か?

VLN(AgentがSceneのランダムな位置からスタートし,自然言語の指令に従って指定な位置までナビゲーションを行う)タスクの手法.従来VLN手法は①Localな情報からNavigationを行うgreedyな策②Beam Searchを用いて広く探索を行う策があって,この文章でGlobalとLocal情報を同時に利用し,greedyながら過去の経路によりBacktrackもできる.
placeholder

新規性

従来の①Local情報を利用したGreedyはLoopが発生してしまう問題点があり②Global情報を利用したBeam Searchベース手法はメモリーと処理時間的にコストが高い問題点がある.提案のFAST手法は局所的にgreedyだが,Backtrackするべきであるかどうかも同時に推定し,Global情報を利用したBacktrackができる.

結果

Room-to-RoomデータセットにおいてSOTAな精度を達成.かつ,従来の手法に良くあるある時点でLoopを発生してしまう問題点もうまく対応ができる.BeamSearchベースな手法よりは時間/メモリーのコストを削減できた.

その他(なぜ通ったか?等)

Greedy+過去の経路情報を利用したBacktrack判断で経路探索を行う.考え方がシンプルで良い結果が得られた.また,提案のフレームワークはほかのVLNタスクへの適応も簡単にできる.