#462
summarized by : 綱島秀樹
Scene-Intuitive Agent for Remote Embodied Visual Grounding

どんな論文か?

VLN (Vision-Language Navigation) と異なり、細かいinstructionがないnavigationタスクのREVERIEにおいて、物体 (what) と場所 (where) に着目するpre-trainedモデルを訓練し、そのモデルを用いて過去に通ってきた軌跡の情報を活用することで、先行研究と比較して大きくタスク成功率を上げた
placeholder

新規性

・スパースなinstructionのタスクにおいて、whatとwhereに着目することが大きく寄与することを示した点 ・通ってきた軌跡の活用が有効であることを示した点

結果

what, whereを取り入れたモデルが先行研究を大きく引き離してSOTA 過去の軌跡を利用するのも効いているが、what, whereの寄与が非常に大きい

その他(なぜ通ったか?等)

VLNと比較してより実世界の指示文に近いタスクのREVERIEにおいて、どこに行き、何に着目するかということを考えることで、スパースな指示文でもうまく視覚と言語の接地が行えることを示せたためだと考えられる。 Embodied AI界隈では大きな前進だと考えられる。