#356
summarized by : Yue Qiu
ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

どんな論文か?

household tasksの自然言語のInstructionとEgocentric Visionの入力から,Sequences of actionsを予測するためのデータセットALFRED (Action Learning From Realistic Environments and Directives)を提案.25kの自然言語指令と8kのdemonstrationから構成.
placeholder

新規性

従来のEmbodied系のBenchmarkデータセットと比べ,より階層的な指令から構成する(上位の指令がSub行動から構成).また,実環境ロボットの行動Simulationに近い設定である(egocentric visionとInstructionからActionを予測).

結果

従来あらゆるVision-Language Navigation tasksで成功したsequence-to-sequenceを用いてALFREDでSub-taskは比較的に成功したが,全体の上位Taskの成功率が低い状況になる.提案のALFREDデータセットは将来的のV&L系の研究にChallengingなBenchmarkを提供した.

その他(なぜ通ったか?等)

提案のデータセットALFREDがRoboticsの設定に近く,RoboticsのActionSimulation環境として有用である.また,ALFREDを特にあらゆるV&Lの能力が必要となる.(例:exploit hierarchy, modularity, structured reasoning and planningなど)