#20
summarized by : Yue Qiu
REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

どんな論文か?

新しいEmbodied AI+Vision-Languageのためのタスク(InstructionをFollowし,指定された物体を候補領域から探し出すタスク),そのタスクのためのデータセット及び手法の提案.
placeholder

新規性

Embodied 系のVision-Languageの最初となるinstruction followingとreferring expressionを結合したタスク、データセットの提案. 提案のデータセットで従来手法をBenchmarkし,既存手法がこのタスクに対してHuman精度との間に大きなギャップが存在.

結果

①提案のInteractive Navigator-Pointer ModelがNavigation及びRefering expressionにおいて既存手法と比べ最も高い精度を達成;②特にUnseenシーンに対してのロバスト性を示した.

その他(なぜ通ったか?等)

instruction followingとreferring expressionの結合は①実世界のロボットアプリで重要となる;②比較的にFundamentalで、シンプルなタスクの提案;