#215
summarized by : QIUYUE
Counterfactual Cycle-Consistent Learning for Instruction Following and Generation in Vision-Language Navigation

どんな論文か?

VLN研究では、Instructionをフォローする研究が多いが、Instructionを生成する研究が少なかった。ここで、VLNで同時にInstructionを生成、フォローする2つのエージェントを学習。サイクルコンシステンシーを利用して、VLNデータセットのみで上記の手法を構成できた。また、Counterfactualを生成するもう一つのエージェントも導入し、学習データの効率性を向上した。
placeholder

新規性

Vision Language Navigation(VLN)タスクではInstructionにフォローする検討がたくさんあるが、AgentがInstructionの生成も行う検討が少なかった。この論文で、Instructionの生成・フォローを同時に検討している。さらに、Counterfactualをベースにデータ拡張を行い、学習データの効率性を向上。

結果

既存ベンチマークRoom2Roomデータセットで既存手法より高い性能を実現できた。また、定性的結果により、提案手法が有効的にナビゲーションのInstructionを生成できる結果を示した。

その他(なぜ通ったか?等)

Vision and Language系の研究でCounterfactualがよく出るようになってきたい。また、この論文を読んで逆にどうしてInstruction generation今まであまりなかったことを思った。3つのAgentsから構成されるところで、手法の学習が辛そう。