summarized by : hisaka koji
Yicong Hong, Qi Wu, Yuankai Qi, Cristian Rodriguez-Opazo, Stephen Gould
視覚言語ナビゲーション(VLN)における時間を考慮したリカレントBERTモデル
Vision-and-Language BERT に再帰性を導入し、時間に依存する入力を認識する。
VLNについては、我々の提案する VLN BERT は、BERT 自身をナビゲーターネットワークとして適用し、R2Rおよび REVERIEにおいて SoTA 性能を達成している
https://github.com/YicongHong/Recurrent-VLN-BERT