#370
summarized by : Anonymous
Spatial and Visual Perspective-Taking via View Rotation and Relation Reasoning for Embodied Reference Understanding

どんな論文か?

Embodied Reference Understandingタスクでは、受信者が、送信者の言語とジェスチャーの両方によって参照される対象物を見つけることを要求されます。この論文はREasoning from your Perspective (REP)モデルを提案し、受信者と送信者、送信者とオブジェクトの関係性を、新しい視点回転と関係推論によってモデル化します。
placeholder

新規性

REPは3D ビュー回転モジュールを介して、受信者と送信者の関係を把握できます。これは、空間的・視覚的な視点移動とマルチモーダルな協力関係の課題に取り組むため、受信者と送信者の関係(受信者-送信者関係)および送信者とオブジェクトの関係(送信者-オブジェクト関係)を初めて明示的にモデル化しました。

結果

YouRefItデータセットでの実験結果は、既存手法より大きな進歩が得られます。

その他(なぜ通ったか?等)

https://github.com/ChengShiest/REP-ERU