- …
- …
#20
summarized by : Yue Qiu
どんな論文か?
新しいEmbodied AI+Vision-Languageのためのタスク(InstructionをFollowし,指定された物体を候補領域から探し出すタスク),そのタスクのためのデータセット及び手法の提案.
新規性
Embodied 系のVision-Languageの最初となるinstruction followingとreferring expressionを結合したタスク、データセットの提案.
提案のデータセットで従来手法をBenchmarkし,既存手法がこのタスクに対してHuman精度との間に大きなギャップが存在.
結果
①提案のInteractive Navigator-Pointer ModelがNavigation及びRefering expressionにおいて既存手法と比べ最も高い精度を達成;②特にUnseenシーンに対してのロバスト性を示した.
その他(なぜ通ったか?等)
instruction followingとreferring expressionの結合は①実世界のロボットアプリで重要となる;②比較的にFundamentalで、シンプルなタスクの提案;
- …
- …