REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments

#20

summarized by : Yue Qiu

Yuankai Qi, Qi Wu, Peter Anderson, Xin Wang, William Yang Wang, Chunhua Shen, Anton van den Hengel

どんな論文か？

新しいEmbodied AI＋Vision-Languageのためのタスク(InstructionをFollowし，指定された物体を候補領域から探し出すタスク)，そのタスクのためのデータセット及び手法の提案．

新規性

Embodied 系のVision-Languageの最初となるinstruction followingとreferring expressionを結合したタスク、データセットの提案．提案のデータセットで従来手法をBenchmarkし，既存手法がこのタスクに対してHuman精度との間に大きなギャップが存在．

結果

①提案のInteractive Navigator-Pointer ModelがNavigation及びRefering expressionにおいて既存手法と比べ最も高い精度を達成；②特にUnseenシーンに対してのロバスト性を示した．

その他（なぜ通ったか？等）

instruction followingとreferring expressionの結合は①実世界のロボットアプリで重要となる；②比較的にFundamentalで、シンプルなタスクの提案；

このページで利用されている画像は論文から引用しています．