#181
summarized by : Shingo Nakazawa
Multimodal Transformer with Variable-Length Memory for Vision-and-Language Navigation

どんな論文か?

言語命令を受け取ったエージェント (ロボット) が視覚情報と組み合わせ目標位置まで移動するタスクをVision-and-Language Navigation (VLN) と呼ぶ。 本論文では時間コンテキストを明示的にモデル化したMultimodal Transformer with Variable-length Memory (MTVM) フレームワークを提案し、VLMに取り組んだ。
placeholder

新規性

時間コンテキストを符号化するため、直前の時間ステップにおけるCross-modality Encoderの活性を直接再利用することで、エージェントがナビケージションの軌道 = これまでのクロスモーダルな履歴を追跡できるようにした。加えて、ナビゲーション性能をさらに高めるために命令と時間的文脈の間の強い関係を学習するMemory-aware consistency lossを提案。

結果

MTVMをRoom-to-Room (R2R) と Cooperative Vision-and-Dialog Navigation (CVDN) データセットで評価した。これまでのSoTA と比較してR2Rでは成功率が2%向上し、CVDNではゴールに到達するまでに移動距離を1.5m短縮することができた。

その他(なぜ通ったか?等)

過去の仕事から大幅な精度改善が見られるものの、まだまだ改善の余地がある (成功率は6割強、ゴールまでの移動距離の短縮も最短の半分ほど)、これからますますの発展が期待される面白い領域。コードはこちらで公開 → https://github.com/clin1223/MTVM