ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

#356

summarized by : Yue Qiu

Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, Dieter Fox

どんな論文か？

household tasksの自然言語のInstructionとEgocentric Visionの入力から，Sequences of actionsを予測するためのデータセットALFRED (Action Learning From Realistic Environments and Directives)を提案．25kの自然言語指令と8ｋのdemonstrationから構成．

新規性

従来のEmbodied系のBenchmarkデータセットと比べ，より階層的な指令から構成する(上位の指令がSub行動から構成)．また，実環境ロボットの行動Simulationに近い設定である(egocentric visionとInstructionからActionを予測)．

結果

従来あらゆるVision-Language Navigation tasksで成功したsequence-to-sequenceを用いてALFREDでSub-taskは比較的に成功したが，全体の上位Taskの成功率が低い状況になる．提案のALFREDデータセットは将来的のV&L系の研究にChallengingなBenchmarkを提供した．

その他（なぜ通ったか？等）

提案のデータセットALFREDがRoboticsの設定に近く，RoboticsのActionSimulation環境として有用である．また，ALFREDを特にあらゆるV&Lの能力が必要となる．（例：exploit hierarchy, modularity, structured reasoning and planningなど）

このページで利用されている画像は論文から引用しています．