ADAPT: Vision-Language Navigation With Modality-Aligned Action Prompts

#266

summarized by : Yanjun SUN

Bingqian Lin; Yi Zhu; Zicong Chen; Xiwen Liang; Jianzhuang Liu; Xiaodan Liang

どんな論文か？

事前に画像とインストラクションに基づいた、行動レベルのモダリティアライメントを学習させる行動のプロンプトモジュールを構成した。ナビゲートする前に、インストラクション関連の行動プロンプトを行動のプロンプトモジュールから取り出される。このような行動プロンプトを提供することで、エージェントは行動レベルのモダリティアライメントを明示的に学習し、様々なシーンでロバストな行動をとることができた。

新規性

1. 行動レベルのアライメントを学習することである。 2. VLNタスクにおけるプロンプトベースのエージェントを開発する最初の試みである。

結果

R2RとRxRデータセットにおいて、SoTAに達成した。

その他（なぜ通ったか？等）

このページで利用されている画像は論文から引用しています．