#266
summarized by : Yanjun SUN
ADAPT: Vision-Language Navigation With Modality-Aligned Action Prompts

どんな論文か?

事前に画像とインストラクションに基づいた、行動レベルのモダリティアライメントを学習させる行動のプロンプトモジュールを構成した。 ナビゲートする前に、インストラクション関連の行動プロンプトを行動のプロンプトモジュールから取り出される。このような行動プロンプトを提供することで、エージェントは行動レベルのモダリティアライメントを明示的に学習し、様々なシーンでロバストな行動をとることができた。
placeholder

新規性

1. 行動レベルのアライメントを学習することである。 2. VLNタスクにおけるプロンプトベースのエージェントを開発する最初の試みである。

結果

R2RとRxRデータセットにおいて、SoTAに達成した。

その他(なぜ通ったか?等)