- …
- …
#356
summarized by : Yue Qiu
どんな論文か?
household tasksの自然言語のInstructionとEgocentric Visionの入力から,Sequences of actionsを予測するためのデータセットALFRED (Action Learning From Realistic Environments and Directives)を提案.25kの自然言語指令と8kのdemonstrationから構成.
新規性
従来のEmbodied系のBenchmarkデータセットと比べ,より階層的な指令から構成する(上位の指令がSub行動から構成).また,実環境ロボットの行動Simulationに近い設定である(egocentric visionとInstructionからActionを予測).
結果
従来あらゆるVision-Language Navigation tasksで成功したsequence-to-sequenceを用いてALFREDでSub-taskは比較的に成功したが,全体の上位Taskの成功率が低い状況になる.提案のALFREDデータセットは将来的のV&L系の研究にChallengingなBenchmarkを提供した.
その他(なぜ通ったか?等)
提案のデータセットALFREDがRoboticsの設定に近く,RoboticsのActionSimulation環境として有用である.また,ALFREDを特にあらゆるV&Lの能力が必要となる.(例:exploit hierarchy, modularity, structured reasoning and planningなど)
- …
- …