#15
summarized by : Yue Qiu
Soft Expert Reward Learning for Vision-and-Language Navigation

どんな論文か?

従来のVLNタスクでは①Behaviour cloningを用いた手法はSeen環境に過学習傾向;②強化学習手法はReward engineering issueがある.この二つの問題点から,Soft Expert Reward Learning(SERL)モデルを提案し,Softなルールで教師信号から学習、また,Self percevingモジュールを用いて終点に速くたどり着くように学習される.
placeholder

新規性

①知識蒸留を用いたsoft expert distillationをVLNタスクに導入し,有効的に従来のBehavior cloningで過学習する問題を対応し,Unseen環境への汎化性能を向上した;②提案のSelf percevingモジュールが有効的にCurrent schedule情報を用いて速くNavigationの終点までたどり着くように学習できる.

結果

①R2RデータセットのSeenとUnseen環境のTrain、Val、Testセットにおいても複数の評価指標にSOTAを達成.②提案のSERLの2つの構造soft expert distillationとself perceivingが互いに有利であることを示した;③SERLが有効的にerror accumulation問題を対応できる.

その他(なぜ通ったか?等)

①汎化性能を向上できるもう一つの手法、VLNでは汎化性能が重視される傾向がある;②文章の構造が理解しやすい.