ASSISTER: Assistive Navigation via Conditional Instruction Generation

#107

summarized by : Anonymous

Zanming Huang; Zhongkai Shangguan; Jimuyang Zhang; Gilad Bar; Matthew Boyd; Eshed Ohn-Bar

どんな論文か？

Vision-and-Language Navigationにおいて、新しい屋外VLNタスク（リアルタイムでダイナミックな環境に障害者にガイドする）とデータセットを構築しました。そのデータセットは実世界とシミュレーターのデータがあります。また、ASSISTERという、環境の視覚情報、ナビゲーションのゴールとコマンドに基づいてナビゲーションのインストラクションを生成できるモデルを提案しました。

新規性

①従来のVLNデータセットでは視覚の情報を中心となり作成されましたが、本文では障害者に適用するために、空間情報を使用しインストラクションを作成しました。②ダイナミックな環境におけるO＆M（Orientation and mobility）専門家と障害者の間に相互作用のベンチマークを収集しました。また、CARLAシミュレーターを用いてベンチマークを活用でき、専門家に模倣して学習できるようにしました。

結果

ASSISTERがシミュレーターで生成したインストラクションはベースライン（OSCAR）よりBLEU−４が5％、CIDErが6％、SPICEが2％向上しました。また、学習時と異なる環境、天気での条件で生成したインストラクションの質も向上しました。しかし、実世界での結果では顕著な向上がありません。

その他（なぜ通ったか？等）

https://github.com/h2xlab/ASSISTER

このページで利用されている画像は論文から引用しています．