Think Global, Act Local: Dual-Scale Graph Transformer for Vision-and-Language Navigation

#440

summarized by : Motonari Kambara

Shizhe Chen; Pierre-Louis Guhur; Makarand Tapaswi; Cordelia Schmid; Ivan Laptev

どんな論文か？

Vision and Language Navigation (VLN)タスクでは，エージェントは指示文に従って環境を探索し目的地へたどり着くだけでなく，object groundingも求められる点で難しい．そこで，本論文ではエージェントが移動するノード及び各ノードでの視覚情報という2種類の特徴量を利用しつつVLNタスクを行う手法，DUETを提案した．

新規性

エージェントが移動するノード(Coase-scale)及び各ノードでの視覚情報(Fine-scale)の2種類の特徴量について，それぞれで注意を計算し，行動の決定を行った．また，環境中のノードからグラフを構築し，transformerへの入力とした．

結果

REVERIEを含む，3種類のVLNにおける標準ベンチマークで実験を行った．結果として，Success rate(SR)を含む各標準評価尺度において，既存手法を上回る性能を達成した．特に，REVERIEではSRにおいて，既存手法を20ポイント上回る結果であった．

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．