EnvEdit: Environment Editing for Vision-and-Language Navigation

#267

summarized by : Yanjun SUN

Jialu Li; Hao Tan; Mohit Bansal

どんな論文か？

ナビゲーションする環境が有限であり、未観察した環境に汎化することが困難であるため、本研究は環境のスタイル、オブジェクトの外観やクラスを変わるというデータ拡張する手法を提案した。また、これらの新しく作った環境はインストラクションに書いた情報を維持している。拡張したデータと元データを用いてエージェントを訓練した後に、スピーカーを使って未注釈の経路に対する新しい命令を生成し、エージェントの微調整を行う。

新規性

画風変換と画像合成の手法を用いて、新しい環境を作った

結果

R2RでSR(success rate)が3.2%、SPL(success rate weighted by path length)が3.9%向上した。 RxRでnDTW(normalized Dynamic Time Warping)が4.7%、sDTW(success rate weighted by normalized Dynamic Time Warping)が6.6%向上した。

その他（なぜ通ったか？等）

第三ステージに訓練したエージェントで新しいインストラクションを生成し、エージェントを微調整することが面白い。https://github.com/jialuli-luka/EnvEdit

このページで利用されている画像は論文から引用しています．